StringRegExp und grosse Website Pages

  • Benötige dringend Hilfe. Ein Freund hat mir diese Funktion geschrieben. Haben keinen Kontakt mehr. Diese Funktion liest aus einem Textfile 1 URL pro Zeile ein und "saugt" die Proxies raus. Es benutzt dabei StringRegExp. Das funktioniert alles super bis Du auf Pages wie diese hier triffst: https://draft.blogger.com/feeds/65222318…5/posts/Default
    Da bleibt es dann stehen... Entweder wegen dem Duplikate Check oder dem Filtern per Regex oder beidem. Die Funktion checkt auch auf Websites die Offline sind oder Links wo das Script schon "war" aber das funzt ja. Kann mir ein Profi die Funktion umschreiben so das auch so grosse Pages funktionieren. Mir bringt diese Funktion nicht wenn es in der Mitte stehen bleibt. ?( NACHTRAG: NACH 2 STUNDEN WARTEN GEHT ES DANN WEITER. Ist aber viel zu langsam!

    $zentral = Textfile mit der Liste von URLs


    Kann keiner helfen? :wacko:

    "Thinking in binary"

    2 Mal editiert, zuletzt von R4z0r (10. Januar 2015 um 21:34)

  • Hi,
    ohne das Textfile kann hier niemand etwas machen, das ist sonst nur rumgestochere im Nebel!
    Wie sollen wir dein Script testen bzw. das Regex optimieren?

  • Hi Andy - danke für Deine erneute Hilfe!

    Regex : IP:Port z.b. 123.456.7.8:12345 oder 1.2.3.4.:80 keine Zahl in der IP kann über 255 sein (Ausnahme Port)

    "Thinking in binary"

  • so?

    [autoit]


    #include <Array.au3>
    $file = "127.0.0.1" & @CRLF & "123.123.123.123:12345" & @CRLF
    $found = StringRegExp($file, "(?m)((?:\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})(?::(?:\d{1,5})|\s))", 3)
    _ArrayDisplay($found)

    [/autoit]