Text Konvertierung

Velted

Moin,

um noch einmal auf das ß zurückzukommen:

Der Standard-Zeichensatz für englische und deutsche Windows-Versionen ist CP1252. Dieser Zeichensatz enthält das ß auf Position DF. Wenn die Konvertierung nicht gelingt, scheint mir das Prolem eher hier zu liegen:

Zitat von Moombas

Ã©,Ã¼,Ã¶,Ã,Ã¤,Ã¨

é,ü,ö,ß,ä,è
Hammersbacher StraÃe

Die UTF-8 Codierung für das Zeichen ß ist kein einzelnes Ã, sondern die Folge ÃŸ. Das Zeichen Ã leitet immer eine zwei byte lange Folge ein, die zusammen ein Zeichen ergeben.

In Deinem Fall ist also entweder schon beim Erstellen des Seiteninhalts bei der UTF-8 Kodierung etwas vermasselt worden oder das fehlende Ÿ wird in Deinem Skript entfernt.

**Moombas**

Klingt plausibel, da dies bei allen anderen Sonderzeichen ja der Fall ist.

Aber warum (ausgerechnet) hier das fehlt weiß ich leider nicht. Wie gesagt das ist das was bei mir direkt in die Datei geschrieben wurde. Aber dann muss ich wohl mit der aktuellen "Lösung" leben.

Velted

Es könnte sein, dass irgendwer zwischenfurch versucht, die originale UTF-8 Kodierung als ISO_8859-1 zu interpretieren. Da ist es das zweite Zeichen für das ß (das Ÿ mit den Code 9F nicht als Zeichen vorhanden. Du schreibst:

Zitat

Ich arbeite bei mir in Autoit immer mit einer anderen Codierung, da ich das für ein weiterführendes Tool brauche (99% meiner Scripte versorgen dieses, daher per Standard auf anderer Codierung eingestellt).

Kann es damit zusammenhängen?

**Moombas**

Ich vermute es.

Scite ist bei mir für die CodePage auf Unicode (code.page=65001 bzw. output.code.page=65001) in den global properties eingestellt.

Ich musste das umstellen, da ich die finalen Daten mit einem Programm, das mit Lazarus (Pascal) geschrieben wurde, zu verarbeiten.

Velted

65001 ist die numerische Bezeichnung für UTF-8.

**Moombas**

Ok, dann bin ich verwirrt warum er das dann in der Datei etc. falsch ausgibt...

Peter S. Taler · *Ab 19-10-22 ergänzt um:*

Erfahrungsgemäß funktioniert das nicht immer so wie man sich das vorstellt.

Ich kenne schnöde DOS Zeichensätze die sich mal so mal so darstellen. Daher habe ich mir angewöhnt alles was ich mache in Autoit ist UDF 8. Wenn der Output nicht so ist wie ich mir das vorstelle - wird entsprechend gefiltert. Basta. Ich habe es aufgegeben das ergründen zu wollen - siehe dazu Andys Beitrag.

LG

Peter

Velted

Kannst Du vielleicht doch ein Beispiel für den ursprünglich von InetRead() gelieferten Text mit Umlauten und ß im Hex-Format einstellen?

**Moombas**

Also eben nochmal geschaut, ich ersetze mit Stringreplace �? durch ein ß.

In der Datei steht dies als Ã im Original (UTF8) und wird dann zum oben genannten nach dem StringtoBinary() bzw. BinarytoString().

**BugFix**

Zitat von Moombas

In der Datei steht dies als Ã im Original (UTF8)

Hab den Thread mal kurz überflogen. Was aus meiner Sicht wichtig ist: WIE schaust du dir die Datei an? In einem Editor - kann sein dass dort falsch dargestellt wird. In SciTE-Output? - dito.

Was tatsächlich enthalten ist, sagt dir ausschließlich ein Hex-Editor.

Denn wenn du schreibst, dass in der Datei nur Ã steht, dann betrachtest du die Datei nicht in UTF8, sondern in ANSI. Die Bytefolge für ß (in UTF8 Kodierung) siehst du im Hex-Editor als: C3 9F.

**Moombas**

Ok, ich merke gerade was hier falsch läuft.

In der Datei steht nicht nur das Ã, aber das Forum hier schneidet den Teil dahinter ab. Die Datei wird in UTF8 angezeigt, laut Notepad++.

Ich habe mal den kurzen Auszug als Datei angehängt der Original Daten (1 Zeile von über 200.000).

**BugFix**

Interessant vermurkst.

Statt

C3 9F wurde

C3 83 C2 9F eingefügt.

Das ist dann auch nicht mehr interpretierbar. Bleibt nur die Frage nach dem Warum.

Wenn ich richtig gesehen habe, hast du die Daten erstmals im Array und schreibst diese dann mit _FileWriteFromArray weg.

Hier würde ich ansetzen und nicht die Funktion nutzen, sondern mal selbst durch das Array iterieren. Jeden Eintrag mit StringToBinary wandeln und dann angucken was drin ist. Ggf. eine eigene Schreibfunktion erstellen.

Velted

Moin,

das habe ich bisher übersehen. Wenn Du im StringReplace() �? ersetzt, werden zwei Zeichen durch ein Zeichen ersetzt. Wenn danach nichts fehlt, wird das ß ursprünglich auch durch zwei Zeichen dargestellt. Kannst Du mal zeigen, wie der Text vor der Konvertierung aussieht?

Edit: Zu spät!

Velted

C3 83 C2 9F entsteht, wenn man C3 9F in UTF-8 übersetzt. Bleibt nur noch die Frage, wo bzw. wann das passiert.

Peter S. Taler · *Ab 19-10-22 ergänzt um:*

Das kann an jeder Strassenecke passieren!

Was Du brauchst ist nicht die Erkenntniss was in welchem Editor wie aussieht - sondern wie sieht Dein Ergebnis im ZIELPROGRAMM aus!!!!

LG

Peter

**Moombas**

Wie gesagt, Peter S. Taler es gibt ja einen Workaround.

Velted BugFix : Ich verwende ja nie die Daten aus der Datei um sie weiter zu verarbeiten, sondern immer das was ich 1:1 im Array drin stehen habe, das in der bereits geposteten Abfrage entsteht und wird an über die Funktion ja zurückgegeben und erst dann in der Datei zusätzlich abgelegt. Das speichern in die Datei ist nur zur Sicherheit/Testen/Prüfen.

Danach wird das Array nur nach den erforderlichen Werten durchsucht und ein neues mit diesen Daten erstellt und später als Finaler Datensatz gespeichert.

Da hier 1:1 die Daten aus der Abfrage genommen werden, werden sie natürlich auch "falsch" übernommen.

Beim Test aus diesen übergebenen Daten, ist es dort bereits (nach Umwandlung in Hex) C3 83 C2 9F.

**Moombas**

Also ich glaube ich bleibe bei der aktuellen "Lösung".

Ist halt so, schade nur das dort fix eine gewisse codierung genommen wird, die man nciht beeinflussen kann.

**AspirinJunkie**

Ich denke ich konnte das Rätsel nun lösen:
Stutzig bin ich geworden, dass aus C3 9F nicht zu C3 83 C5 B8 in der Datei wird.
Das würde man nämlich erhalten, wenn man UTF-8 kodierte Daten als ANSI interpretiert und diesen interpretierten Ergebnisstring dann wieder per UTF-8 kodiert abspeichert.

Stattdessen erhielt Moombas ja aber C3 83 C2 9F.

Daher war klar, dass eine andere Codepage als ANSI verwendet wurde, wo das Zeichen an der Stelle 9F ein anderes ist, welches dann wiederrum bei UTF-8 an einer anderen Stelle liegt.

Und tatsächlich - die gesuchte Codepage ist iso88591-1.

Hier erstmal das Skript um aus einem "ß" einen Binary mit C3 83 C2 9F zu erzeugen:

AutoIt

#include <WinAPIConv.au3>

; Ausgangsstring liegt in UTF-8 Kodierung vor:
$sString = "ß"
$bAusgang = StringToBinary($sString, 4)    ; = C3 F9

; Interpretation des Binary C3 F9 als wäre es ein iso-8859-1 kodierter String:
$tTmp = _Binary2WChar($bAusgang)
$sIso88591 = _WinAPI_MultiByteToWideChar($tTmp, 28591, 0, True)
; Ergebnis: Ein String mit den Zeichen Ã (195 = C3) und etwas undefiniertem (steht an Stelle 159 wo im ANSI das Ÿ steht)

; Dieser String bestehend aus den 2 Zeichen wovon eines nicht darstellbar ist wieder in UTF-8 konvertieren:
$bTmp = StringToBinary($sIso88591, 4)
MsgBox(0,"Binary-Darstellung des kodierten Strings", $bTmp)


Func _Binary2WChar($bBin)
    Local $tTmp = DllStructCreate("Byte[" & BinaryLen($bBin) & "]")
    DllStructSetData($tTmp, 1, $bBin)
    Return $tTmp
EndFunc

Alles anzeigen

Nun wissen wir also was zu tun ist um die Datei von Moombas wieder korrekt einzulesen:

AutoIt

#include <WinAPIConv.au3>

; Ausgangsdaten als UTF-8 interpretiert laden:
$hFile = FileOpen("Original_Data.txt", 256)
$sTmp = FileRead($hFile)
FileClose($hFile)

; es würde hier auch kürzer gehen, da FileRead bei dieser Datei UTF-8 annimmt:
;  $sTmp = FileRead("Original_Data.txt")

; Konvertierung in iso-8859-1 Kodierung:
$bTmp = _WinAPI_WideCharToMultiByte($sTmp, 28591, True, True)

; Interpretation des Binary als UTF-8:
$sTmp = BinaryToString($bTmp, 4)

; Ausgabe des Strings:
MsgBox(0,"",$sTmp)

Alles anzeigen

**Moombas**

Nachtrag: Ich konnte die Codeopage auslesen die winhttp nutzt (65001 per Default), kann sie aber auch im Http Objekt ändern per $oHTTP.Option(2) = ???

AspirinJunkie : Welche Codepage hattest du oben gepostet, die da genutzt wird? Eventuell funktioniert es ja diese hier zu verwenden?

Geht deine aktuelle Lösung ohne eine externe Datei? Die Datei ist für mich ja zur weiteren Verarbeitung eigentlich nicht gedacht.

**AspirinJunkie**

28591 (ist iso-8859-1)

Zitat von Moombas

Geht deine aktuelle Lösung ohne eine externe Datei? Die Datei ist für mich ja zur weiteren Verarbeitung eigentlich nicht gedacht.

Ja klar.
Hier im Beispiel wird der String aus der Datei gelesen.
Wo der herkommt ist im Grunde wurscht. Es geht um die Variable $sTmp.
Wenn die auch so irgendwo anders herkommt bei dir sollte es auch damit klappen.

Moombas 9. Januar 2023 um 14:59