StringRegExp Buchstaben Zahlen

  • Hallo Freunde der automatisierten Schritte,

    wahrscheinlich ist das, was ich suche, zu einfach :)

    nach x Seiten inkl.
    Reguläre Ausdrücke Sammlung

    Ich möchte aus einem Text alles löschen, was nicht in folgende Kategorien gehört (sprich, was nicht im "Duden" steht:

    Erhalten bleiben sollen:

    [:alnum:] Buchstaben und Ziffern.
    [:blank:] Leerzeichen oder Tabulator. (Tabulator muss nicht)
    Satzzeichen wie Punkt, Komma, Fragezeichen, Ausrufezeichen, Unterstrich ...
    Zeilenumbrüche
    (noch was vergessen?)

    Soweit ich mich eingelesen habe, wird wahrscheinlich StringRegExp die richtige Funktion sein.

    Der Text wurde aus einer Datei in eine Variable eingelesen mit FileRead.

    Bitte gebt mir ein Beispiel, wie nur noch alle obigen Kategorien in einer neuen Variablen (wahrscheinlich mittels StringRegExp) enthalten sind.

    Viele Grüße und vielen Dank :)
    AutoMit

    • Offizieller Beitrag

    noch was vergessen?

    In Texten können auch vorkommen: : < > | # * + - / \ ´` ' " ^ ° usw., müßig alle Zeichen aufzuführen zu wollen.
    Du solltest eher definieren, was genau NICHT enthalten sein darf. Sollte einfacher zu definieren sein. Lesbarer Text darf schließlich jedes beliebige druckbare Zeichen enthalten, somit würde sich das reduzieren auf Steuerzeichen - und die sind in der Regel in Textdaten eh nicht enthalten.

  • Vielen Dank eukalyptus.

    Ja Bugfix, das ist ein guter Hinweis und erinnerte mich an etwas, was ich vor langer Zeit mal programmierte (damals habe ich das mit den grauen Zellen noch umsetzen können - heute scheitere ich daran in Autoit)

    ASCII lesbar zwischen 32 und 122 ... Zeichen 13 muss ausgelassen werden, ist der Zeilenumbruch

    Gehe den Text der Variablen zeichenweise durch.
    Wandle jedes Zeichen in den ASCII Wert um.

    Lösche alle Zeichen, die folgenden ASCII Werten entsprechen:

    ASCII 1 bis 12
    ASCII 14 bis 31
    ASCII 123 bis 255