StringRegExp Buchstaben Zahlen

AutoMit

Hallo Freunde der automatisierten Schritte,

wahrscheinlich ist das, was ich suche, zu einfach

nach x Seiten inkl.
Reguläre Ausdrücke Sammlung

Ich möchte aus einem Text alles löschen, was nicht in folgende Kategorien gehört (sprich, was nicht im "Duden" steht:

Erhalten bleiben sollen:

[:alnum:] Buchstaben und Ziffern.
[:blank:] Leerzeichen oder Tabulator. (Tabulator muss nicht)
Satzzeichen wie Punkt, Komma, Fragezeichen, Ausrufezeichen, Unterstrich ...
Zeilenumbrüche
(noch was vergessen?)

Soweit ich mich eingelesen habe, wird wahrscheinlich StringRegExp die richtige Funktion sein.

Der Text wurde aus einer Datei in eine Variable eingelesen mit FileRead.

Bitte gebt mir ein Beispiel, wie nur noch alle obigen Kategorien in einer neuen Variablen (wahrscheinlich mittels StringRegExp) enthalten sind.

Viele Grüße und vielen Dank
AutoMit

**eukalyptus**

AutoIt

$sText = StringRegExpReplace($sText, "[^\w\s.,?!]", "")

**BugFix**

Zitat von AutoMit

noch was vergessen?

In Texten können auch vorkommen: : < > | # * + - / \ ´` ' " ^ ° usw., müßig alle Zeichen aufzuführen zu wollen.
Du solltest eher definieren, was genau NICHT enthalten sein darf. Sollte einfacher zu definieren sein. Lesbarer Text darf schließlich jedes beliebige druckbare Zeichen enthalten, somit würde sich das reduzieren auf Steuerzeichen - und die sind in der Regel in Textdaten eh nicht enthalten.

AutoMit

Vielen Dank eukalyptus.

Ja Bugfix, das ist ein guter Hinweis und erinnerte mich an etwas, was ich vor langer Zeit mal programmierte (damals habe ich das mit den grauen Zellen noch umsetzen können - heute scheitere ich daran in Autoit)

ASCII lesbar zwischen 32 und 122 ... Zeichen 13 muss ausgelassen werden, ist der Zeilenumbruch

Gehe den Text der Variablen zeichenweise durch.
Wandle jedes Zeichen in den ASCII Wert um.

Lösche alle Zeichen, die folgenden ASCII Werten entsprechen:

ASCII 1 bis 12
ASCII 14 bis 31
ASCII 123 bis 255