• Moin MOin.

    Ich habe ein echt langes Dokument bzw. es ist in drei Dateien in dass das Dokument aufgeteilt wurden. 187 Seiten / 294 Seiten / 251 Seiten.
    Da drinne sind vom AAG (Gutachter) haufenweise Emailadresse und Telefonnumern. Diese sind zum Teil mehrfach drinne. Ich kann jetzt brav alle Seiten nach und nach durchgehen und alles raustippen und dann vergleichen, aber ich glaube das geht auch mit zwei mal RegEx, nur da komme ich nicht mit klar.

    Dateinamen: dk_201512_EH_6413__001.txt / dk_201512_EH_6413__002.doc / dk_201512_EH_6413__007.txt (003 - 006 sind nur Bilddateien). Eines ist eine DOC, da der AAG das wohl so übernommen hat. Ich kann nicht nachfragen, da er seit Montag im Urlaub ist. Wie bekomme ich nun die Emailadressen in eine Datei (keien doppelten) und die Telefonnummern in eine andere Datei. Das doofe ist, es wurde wohl die Emailadressen und Telefonnummern zum größten Teil reinkopiert, was zu Folge hat, das ich kein Standart habe zum filtern.
    Emailadresse könnte man na klar das @ nehmen und da wohl irgendwie ein RegEx nutzen, aber bei der Telefonsache ist das ein Problem. Ich gebe mal paar Auszüge: +498765... / 00458765.... / (+45) 0876-5.... / (+45) 0876/5....
    (+45) 0876 / 5.... / 0876/5.... Die Vorwahl wechselt zwischen acht Vorwahlbereichen.

    Kann mir da einer weiter helfen? Ich meine das es schon mal Im Forum angesprochen wurde, nur ich habe keinen Beitrag gefunden mit der SuFu. Und der liebe AAG schreibt wohl alle seine Gutachten so und legt dann ein Zettel auf die Akten mit dem Vermerk: "Bitte Daten Tel u. Mail gesondert hinten auflisten". Muss ihn mal drauf ansprechen, ob er es nicht anders machen kann, aber er steht nun mal über mir und kennt unsere Vorgehensweise noch nicht, das eine Hand der anderen Hand das Leben nicht wschweeeeerrrrr, sondern leichter macht, auch wenn es für einen selber vielleicht etwas mehr Arbeit ist. Dann soll er es diktieren und abtippen lassen und nciht alles selber schreiben während er das Gutachten erstellt.

    Würde mich freuen, wenn es da einen gibt, der das sog. ja doppelte Problem lösen kann. Ich gehe da aber auch erst Mittwoch oder Donnerstag ran. Arbeite offiziell erst einmal nur 3/4 Tag.

    Lieben Gruß,
    Alina

    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

    Geheime Information: ;)
    OuBVU5ebLhHu5QvlnAyQB4A7SzBrvWulwL7RLl2BdH5tI6sIYspeMKeXMSXl

  • Ich hab grad kein RegEx (und auch keine Zeit eins zu schreiben), aber ich hab mal für ne Datenbank nen Trigger geschrieben, der Telefonnummern in nen Einheitliches Format bringen sollte.
    (Getestet mit >5000000 Nummern, haben soweit ich weiß alle Funktioniert).
    Vielleicht hilft es dir weiter:

    Spoiler anzeigen
  • Schwierig, ohne den Rest des Dokuments zu kennen ... kannst du mir mal ein paar Auszüge zukommen lassen, gerne auch verfremdet? Je nach Aufbau lässt sich das ganze leichter oder schwieriger mit nem RegEx lösen... :)

    Es gibt Tage, da trete ich nicht ins Fettnäpfchen. Ich falle in die Friteuse.

  • Hallo Alina!

    Regexe für diverse Anwendungen findet man haufenweise im Internet! So viele, dass es schneller geht, diese durchzuprobieren als sich zu informieren für welche Engine sie geschrieben sind....

    Google mit "regex emailadresse" oder "regex telefonnummer" findet reichlich Treffer. Ich teste schnell hier : https://regex101.com

    Kopiere die Dateien per ctrl-c zusammen in eine Datei. Scite hat genug Platz, einfach als *TXT speichern und gut. Text-Datei einlesen und den Regex drüber laufen lassen sollte für dich ja kein Problem sein.

    Test:

    Code
    (((((((00|\+)49[ \-\/]?)|0)[1-9][0-9]{1,4})[ \-\/]?)|((((00|\+)49\()|\(0)[1-9][0-9]{1,4}\)[ \-\/]?))[0-9]{1,7}([ \-\/]?[0-9]{1,5})?)

    von hier http://regexlib.com/UserPatterns.aspx?authorid=ced08a7c-ab7c-415e-b575-81a3acc32e92&AspxAutoDetectCookieSupport=1
    funktioniert schon recht gut für Telefonnummern. Parameter für die Rückgabe der Gruppen im Array setzen! Oder die Gruppen im regex direkt rausschmeissen...

  • Doppelpost:

    Regex für Telefonnummern in AutoIt:

  • Moin Ihr lieben.

    Sorry das ich mich erst jetzt melde. Habe heute früh drei Wecker überhört. Blieb nur noch über einen haloben Tag zu arbeiten und einen halben frei zu nehmen. Egal, Überstunden abgearbeitet. ;)

    Danke für die Hilfe. Das mit den Telefonnummern klappt super.

    Für das ganze herausfiltern der Emailadressen (Emailauszüge mit Emailadressen befinden sich in allen drei Doku) bin ich am überlegen, ob man da nicht ganz einfach sagt, das ein Email Grabber doch sinnvoll wäre. Das Rad sollte doch schon erfunden sein. Ich glaube da schaue ich mich mal um. Vielleicht gibt es das sogar für die Dosoberfläche, wie ich sie gerne nenne (cmd).

    Lieben Gruß,
    Alina

    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

    Geheime Information: ;)
    OuBVU5ebLhHu5QvlnAyQB4A7SzBrvWulwL7RLl2BdH5tI6sIYspeMKeXMSXl

  • http://regexp-evaluator.de/tutorial/beisp…en-extrahieren/

    erklärt sehr schön, wie man am Beispiel Emailadressen einen Regex-pattern zusammenstellt/entwickelt!


    Wie man deutlich sieht ist es nicht perfekt.....

    ciao
    Andy


    "Schlechtes Benehmen halten die Leute doch nur deswegen für eine Art Vorrecht, weil keiner ihnen aufs Maul haut." Klaus Kinski
    "Hint: Write comments after each line. So you can (better) see what your program does and what it not does. And we can see what you're thinking what your program does and we can point to the missunderstandings." A-Jay

    Wie man Fragen richtig stellt... Tutorial: Wie man Script-Fehler findet und beseitigt...X-Y-Problem

    2 Mal editiert, zuletzt von Andy (27. Januar 2016 um 21:31)

  • Ich sage DANKE !!!

    Das TUT, lieber Andy, habe ich mir mal ausgedruckt. ;)

    Lieben Gruß,
    Alina

    ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

    Geheime Information: ;)
    OuBVU5ebLhHu5QvlnAyQB4A7SzBrvWulwL7RLl2BdH5tI6sIYspeMKeXMSXl