JSON-UDF

Lehmden

Hi.

Ich habe jetzt erst mal einen Workaround eingebaut. Ich musste neben Japanisch und Hebräisch auch Chinesisch und Russisch raus nehmen, damit die Geschichte immer sauber durch läuft. Die beiden letzten Sprachen sind beim Aerosmith- Beispiel nicht vorhanden gewesen, aber z.B. bei Led Zeppelin,. womit ich später auch getestet habe. Erst nachdem ich alle 4 Sprachen entfernt habe, hat es ohne Crash funktioniert...

**AspirinJunkie**

Ich bin dran wird aber wohl noch ne Weile dauern, da das Debugging in dem Fall echt eklig ist.

Hab ein paar Vermutungen und auch schon einen ersten Bug gefunden.
Dürfte die nächsten Tage aber hinreichend Zeit dafür fnden (Quarantäne - Yeah!).

Lehmden

Zitat von AspirinJunkie

(Quarantäne - Yeah!).

Oh je... Hoffentlich nicht wirklich infiziert... Falls doch, auf jeden Fall gute Besserung und einen harmlosen Verlauf.

Zitat von AspirinJunkie

Ich bin dran

Danke.

Zitat von AspirinJunkie

wird aber wohl noch ne Weile dauern

Ist nicht so schlimm. Wenn es denn mal fertig ist, kann ich den Workaround binnen Sekunden wieder entfernen... Bis dahin läuft es erst mal ohne diese 4 Sprachen, was mich selbst natürlich nicht wirklich stört, aber andere User des Programms aus den entsprechenden Ländern vermutlich dann doch...

**AspirinJunkie**

Na das war ja mal ekelhaft zu debuggen...

Problem war den Fehler überhaupt erst einmal zu detektieren.

Ursache war ein Stack-Overflow bei der PCRE-Engine aufgrund einem zu exzessiven Backtracking bei langen Strings.

Die Behebung war dann ein Klacks: Einfach ein + hinzufügen (um einen Quantifier possesiv zu machen).

Jetzt sollte es aber auch mit deiner Aerosmith_Lesbar.json klappen.

Selbst die Aerosmith.json parst er nun, obwohl die mir jeder JSON-Validator mir die um die Ohren haut.

Als Nebeneffekt sollte auch die Performance wieder ein Stück gestiegen sein.

**Musashi**

Lehmden

Super, Danke. Muss ich heute Nachmittag gleich mal ausprobieren...

Lehmden

Hi.

Nur ne kleine Rückmeldung. Nun funktioniert alles, wie es soll. bisher habe ich keine weiteren Abstürze erlebt. Danke!

**Bitnugger**

Ich habe mir meine Google-Timline exportiert und als Zip-Archiv auf meinem PC gespeichert. Die daraus entpackte Datei Standortverlauf.json ist bei mir derzeit etwa 70 MB groß und wenn ich die an _JSON_Parse übergebe, passiert auf meinem I7 960 auch nach mehreren Stunden scheinbar absolut nichts... außer, dass die CPU-Last durch das Parsen von 20% auf ca. 50% (± 10%) steigt... ich habe dann nach über 6 Std. abgebrochen.

Start...: 17:17:22

Kill....: 23:44:38

Google-Timline (Zeitachse) muss im Google-Account erst aktiviert werden, damit es nutzbar ist!

Google-Timline exportieren: https://takeout.google.com/settings/takeo…ocation_history

Edit: Die JSON-Dateien haben als Zeilenumbruchzeichnen alle nur ein LF... aber das scheint kein Problem zu sein.

**AspirinJunkie**

Das Skript hängt tatsächlich nicht sondern ist wirklich so langsam.

Der Grund ist folgender: In der UDF wird der String schrittweise mit StringRegEx auseinander genommen.

Das heißt also zig einzelne Aufrufe an StringRegExp() wo jedesmal der riesen String an die Funktion übergeben wird.

Hierbei wird jedoch nicht einfach nur der Pointer auf den String übergeben sondern anscheinend(!) eine lokale Kopie des Strings erzeugt und übergeben.

Mal ein einfaches Skript zur Demonstration:

AutoIt

; Pattern vorkompilieren (für fairen Zeitvergleich)
StringRegExp("", "^.")

; Zeitbedarf für ein simples RegEx auf einen kleinens String ermitteln:
$iT = TimerInit()
StringRegExp("Test", "^.")
ConsoleWrite(StringFormat("Zeitbedarf für StringRegEx: % 8.3f ms\n", TimerDiff($iT)))

; erzeuge großen String (sollte ca. 400mB ergeben da UTF-16 intern verwendet wird)
Global $sString = ""
For $i = 1 To 20 * 1024 * 1024
    $sString &= "xxxxxxxxxx"
Next

; Zeitbedarf für ein simples RegEx auf diesen String ermitteln:
$iT = TimerInit()
StringRegExp($sString, "^.")
ConsoleWrite(StringFormat("Zeitbedarf für StringRegEx: % 6.1f   ms\n", TimerDiff($iT)))

Alles anzeigen

Hier sieht man, dass die Ausführungsgeschwindigkeit direkt von der Größe des Strings abhängt obwohl das Pattern selbst nur das erste Zeichen auswertet.

Wenn nun also jedes RegEx - egal wie simpel es ist - eine halbe Sekunde braucht, dann ist klar dass dies bei 100.000en Aufrufen die für eine solche Datei nötig wären, unheimlich hohe Bearbeitungszeiten herauskommen.

So - wie nun also damit umgehen? Das Grundproblem liegt außerhalb meines Einflussbereiches.

Ich werde das eventuell mal aufbereiten und im englischen Forum vortragen - in der Hoffnung, dass intern auf by Reference umgestellt wird.

Bei StringLeft() oder StringMid() hat man dieses Phänomen übrigens nicht.

Oder eine ganz andere Lösung die ich noch nicht sehe.

Für so große JSON-Strings sollte man daher auf AutoIt-externe Lösungen zurückgreifen.

Für diesen Fall gibt es z.B. die >>JSMN-basiert UDF<<. Diese verwendet JSMN als Parser. Das Parsing wird also nicht von AutoIt erledigt.

Des Weiteren wird auch nicht der ganze String in native Datentypen gecastet sondern es wird lediglich eine Liste erzeugt wo an welcher Stelle welche Datentypen stehen.

So ist die Struktur erstmal ganz fix geparsed und die Objekte selbst werden erst gecasted wenn wirklich auf sie zugegriffen wird.

Kurz und knapp: Das ist deutlich fixer als eine AutoIt-basierte Lösung wie bei mir und sollte insbesondere bei derart großen Files die passende Alternative darstellen.

Außer natürlich es findet sich noch ne Lösung für die Übergabe der großen Strings an StringRegExp()

**Bitnugger**

So kann man sehr gut sehen, wie der Zeitbedarf mit zunehmender Stringlänge ansteigt:

AutoIt

;-- TIME_STAMP   2020-11-29 17:45:28   v 0.1

; Pattern vorkompilieren (für fairen Zeitvergleich)
StringRegExp("", "^.")

; erzeuge großen String (sollte ca. 400mB ergeben, da StringRegExp intern UTF-16 verwendet)
Global $sString = "", $iDiff, $iC = 0, $sI
For $i = 1 To 20 * 1024^2
    $sString &= "xxxxxxxxxx"
    Switch $i
        Case 1, 1024, 1*1024^2, 2*1024^2, 3*1024^2, 4*1024^2, 5*1024^2, 10*1024^2, 15*1024^2, 20*1024^2
            ; Zeitbedarf für ein simples RegEx auf diesen String ermitteln:
            $iT = TimerInit()
            StringRegExp($sString, "^.")
            $iDiff = TimerDiff($iT)
            $iC += 1
            $sI = DllCall('shlwapi.dll', 'ptr', 'StrFormatByteSizeW', 'int64', $i * 10, 'wstr', '', 'uint', 1024)[2]
            ConsoleWrite(StringFormat('%2i/10 Zeitbedarf StringRegExp($sString, "^.") bei %12i Zeichen (%10s): %8.3f ms\n', $iC, $i * 10, $sI, $iDiff))
    EndSwitch
Next

Alles anzeigen

Code: Ausgabe

 1/10 Zeitbedarf StringRegExp($sString, "^.") bei           10 Zeichen (  10 Bytes):    0.005 ms
 2/10 Zeitbedarf StringRegExp($sString, "^.") bei        10240 Zeichen (   10,0 KB):    0.048 ms
 3/10 Zeitbedarf StringRegExp($sString, "^.") bei     10485760 Zeichen (   10,0 MB):   13.381 ms
 4/10 Zeitbedarf StringRegExp($sString, "^.") bei     20971520 Zeichen (   20,0 MB):   20.047 ms
 5/10 Zeitbedarf StringRegExp($sString, "^.") bei     31457280 Zeichen (   30,0 MB):   34.832 ms
 6/10 Zeitbedarf StringRegExp($sString, "^.") bei     41943040 Zeichen (   40,0 MB):   39.172 ms
 7/10 Zeitbedarf StringRegExp($sString, "^.") bei     52428800 Zeichen (   50,0 MB):   46.496 ms
 8/10 Zeitbedarf StringRegExp($sString, "^.") bei    104857600 Zeichen (    100 MB):  101.790 ms
 9/10 Zeitbedarf StringRegExp($sString, "^.") bei    157286400 Zeichen (    150 MB):  169.365 ms
10/10 Zeitbedarf StringRegExp($sString, "^.") bei    209715200 Zeichen (    200 MB):  237.681 ms

Zitat von AspirinJunkie

Oder eine ganz andere Lösung die ich noch nicht sehe.

Evtl. lässt sich da ja was mit Nim via DllCall zaubern... eg. SpezRegEx.nim ==> SpezRegEx.dll - eine Funktion, um den String zu übergeben, und eine, um das Pattern auzuwerten.

Eine weitere Alternative wäre, die in GnuWin enthaltene regex2.dll zu nutzen...

**BugFix**

Zitat von Bitnugger

Evtl. lässt sich da ja was mit Nim via DllCall zaubern... eg. SpezRegEx.nim ==> SpezRegEx.dll - eine Funktion, um den String zu übergeben, und eine, um das Pattern auzuwerten.

Wäre es dann nicht besser, gleich eine der Nim-JSON Bibliotheken zu nutzen und die gesamte Verarbeitung in einer Dll ausführen zu lassen?

**Bitnugger**

Zitat von BugFix

Wäre es dann nicht besser, gleich eine der Nim-JSON Bibliotheken zu nutzen und die gesamte Verarbeitung in einer Dll ausführen zu lassen?

Ja, das wäre womöglich die beste/schnellste Lösung... ich bin dafür allerdings nicht fit genug und hätte mom. eh nicht die nötige Zeit.

**AspirinJunkie**

>>Ticket<< wurde erstellt.

Hab auch einen Thread im Forum erstellt aber der ist wieder einmal intellektuell nicht sonderlich ergiebig.

**AspirinJunkie**

Das ging flott. Aktueller Status lautet "Fix sent to Jon."

Nächstes mal nehme ich direkt den Bug-Tracker anstatt erst sinnlose Diskussionen im Forum dort führen zu müssen.

**Musashi**

Zitat von AspirinJunkie

Das ging flott.

... und zudem auch freundlich :

Zitat von jpm

Fix sent to Jon. Many thanks

Da habe ich in der Vergangenheit schon andere Reaktionen auf (zum Teil berechtigte) Tickets erlebt .

mko

Opt("mustdeclarevars", 1)

Bringt bei verschachtelten Json Objecten in _Json_Parse() einen Fehler . "Must Declare Variable"...

Abhilfe schafft in Zeile 251 ein Local vor $o_Value

Vorher:

Do

$o_Value = _JSON_Parse($s_String, $bUseMaps, $i_OsC)

If @error Then Return SetError(3, $i_OsC, "")

Nacher:

Do

Local $o_Value = _JSON_Parse($s_String, $bUseMaps, $i_OsC)

If @error Then Return SetError(3, $i_OsC, "")

**Musashi**

Zitat von mko

Abhilfe schafft in Zeile 251 ein Local vor $o_Value

Vorher:
Do
$o_Value = _JSON_Parse($s_String, $bUseMaps, $i_OsC)
If @error Then Return SetError(3, $i_OsC, "")

Nacher:
Do
Local $o_Value = _JSON_Parse($s_String, $bUseMaps, $i_OsC)
If @error Then Return SetError(3, $i_OsC, "")

Alles anzeigen

Das würde die Meldung von Opt("MustDeclareVars", 1) in einem Skript, welches die JSON-UDF einbindet, verhindern. Es ist aber kein guter Programmierstil, Global/Local innerhalb von Schleifen zu deklarieren. Wenn, dann sollte man es besser so machen :

AutoIt

[...]
Local $o_Value
Do
   $o_Value = _JSON_Parse($s_String, $bUseMaps, $i_OsC)
   [...]
Until ...

**Bitnugger**

Zitat von Musashi

Es ist aber kein guter Programmierstil, Global/Local innerhalb von Schleifen zu deklarieren.

Und was ist mit Dim[, Const, Static]?

**Musashi**

Zitat von Bitnugger

Und was ist mit Dim[, Const, Static]?

Dim :

Dim gilt es in der Tat zu vermeiden (so steht es auch in der Hilfe zu Dim ) :

"Man sollte Local oder Global anstelle von Dim verwenden, um explizit den Gültigkeitsbereich für die Variable / Konstante / Array festzulegen."

In der aktuellen Version der JSON-UDF konnte ich keine Deklarationen mittels Dim finden, nur einige Redim's von Arrays .

Const, Static :

Zumindest nach den Best_coding_practices keine offiziellen Straftaten .

Ich erhebe allerdings keinerlei Anspruch darauf, die letzte Instanz in Fragen guter Programmierung zu sein . Man denke nur an den Expertenstreit beim Thema bedingter (ternärer) Operator

**Bitnugger**

Zitat von Musashi

Dim gilt es in der Tat zu vermeiden (so steht es auch in der Hilfe zu Dim ) :

Ja... ist in meinen Augen aber völliger Quatsch.

Zitat von Musashi

"Man sollte Local oder Global anstelle von Dim verwenden, um explizit den Gültigkeitsbereich für die Variable / Konstante / Array festzulegen."

Ja... wenn ich den Gültigkeitsbereich explizit festlegen will... doch wenn ich es nicht will, kommt Dim ins Spiel... denn gibt es die Variable bereits im globalen Scope, wird dieser verwendet, anderfalls wird eine lokale Variable erzeugt - und somit hat Dim sehr wohl eine Lebensberechtigung!

AutoIt

Global $iTest1 = 1
ConsoleWrite('> Global: $iTest1 = ' & $iTest1 & ' IsDeclared = ' & IsDeclared('iTest1') & @CRLF) ; 1 = Global, -1 = Local, 0 = Unknown
_Test()

Func _Test()
    Dim $iTest1 = 2
    Dim $iTest2 = 3
    ConsoleWrite('! Func  : $iTest1 = ' & $iTest1 & ' IsDeclared = ' & IsDeclared('iTest1') & @CRLF)
    ConsoleWrite('- Func  : $iTest2 = ' & $iTest2 & ' IsDeclared = ' & IsDeclared('iTest2') & @CRLF)
EndFunc

; > Global: $iTest1 = 1 IsDeclared = 1
; ! Func  : $iTest1 = 2 IsDeclared = 1
; - Func  : $iTest2 = 3 IsDeclared = -1

Alles anzeigen