FFFE aus Datei auslesen (beide Byte am Anfang)

**Andy**

Zitat von supernova

FFFE fehlt.

Weil....es....nicht....da....ist!

Wie viele Bytes beinhaltet die Datei?
Und nicht mit irgendwelchen Programmen/HexEditoren auslesen (die man übrigens bedienen können sollte) sondern einfach aus dem Explorer die Dateieigenschaften.
Die beiden Dateien bestehen aus:

https://autoit.de/index.php/Atta…atei-UTF-8-txt/
0x6D757374657264617465695F5554462D382E7478740D0AC3A4C3B6C3BC270D0A 32 bytes
der erste Teil ist ANSI
0x6D757374657264617465695F5554462D382E747874 -> musterdatei_UTF-8.txt
dann folgen 0D0A -> CRLF
dann die ANSI-Zeichen C3A4C3B6C3BC27 -> Ã¤Ã¶Ã¼' , interpretierbar als UTF8 ->äöü'
gefolgt von einem weiteren 0D0A -> CRLF

https://autoit.de/index.php/Atta…datei-ANSI-txt/
0x6D757374657264617465695F414E53492E7478740D0AE4F6FC270D0A 28 bytes
0x6D757374657264617465695F414E53492E747874 -> musterdatei_ANSI.txt
dann folgen 0D0A -> CRLF
dann die ANSI-Zeichen E4F6FC27 -> äöü'
gefolgt von einem weiteren 0D0A -> CRLF

@AspirinJunkie,
*whispermode ON* schau mal geschwind nach, was binarytostring($text) aus $text="0x656667" macht *whispermode OFF*

**AspirinJunkie**

Zitat von Andy

@AspirinJunkie,
*whispermode ON* schau mal geschwind nach, was binarytostring($text) aus $text="0x656667" macht *whispermode OFF*

"efg" - ist doch auch korrekt oder hab ich was übersehen?

supernova

tja, habe wieder dazu lernen können. danke.

**Andy**

Zitat von AspirinJunkie

"efg" - ist doch auch korrekt oder hab ich was übersehen?

Ja, lass dir das Ergebnis von binary("0x656667") ausgeben *hust*

Die "Überraschung" war doch, dass FileRead() aus einer mit Text gefüllten Datei "automatisch" UTF8 dekodiert, auch wenn ich das garnicht haben möchte!
Meine Intention mit dem Filewrite(binarytostring("0x67520A...")) war, beim Schreiben in die Datei die eventuell auch automatisch erfolgende "Umformung" von Text in UTF8 zu vermeiden.
Ich arbeite sehr viel mit Textdateien und auch mit Binärfiles, sowohl schreibend als auch lesend, aber dieses Verhalten von Fileread ist mir noch nicht untergekommen...

Richtig übel wird das, wenn in bspw. Config/Ini-Files "zufällig" valide UTF8-Kodierungen enthalten sind, welche dann als gänzlich andere Daten gelesen werden.
Wenn ich in einer Textdatei Ã¤Ã¶Ã¼' enthalten habe, dann hat das auch von FileRead() so ausgelesen zu werden und nicht als äöü'

**AspirinJunkie**

Eigentlich sollte die Problematik nur bei ANSI-kodierten Dateien auftauchen.
Wenn man in einer Datei die Zeichenfolge Ã¤Ã¶Ã¼' hat, dann hat man keine ASCII-Datei mehr sondern mindestens ANSI.
Heißt die Zeichenkette muss also in der entsprechenden Kodierung vorliegen.
Wenn die Datei UTF-X kodiert ist, ist alles fein - beim Auslesen wird die Kodierung von AutoIt korrekt erkannt und auch so eingelesen wie es in der Datei gemeint ist.
Bei ANSI hingegen kann die automatische Kodierungserkennung die Datei nicht als ANSI-Datei erkennen sondern nimmt stattdessen UTF-8 an und liest die Datei auch entsprechend aus.

Wie soll AutoIt auch ANSI korrekt erkennen wenn eine ANSI-Datei mit Ã¤Ã¶Ã¼' als Inhalt binär vollkommen equivalent ist zu einer UTF-8 (ohne BOM)-Datei mit dem Inhalt äöü'.
Woran könnte man exakt festmachen, dass eine Datei mit dem Binärinhalt C3A4C3B6C3BC27 nun eine ANSI-Datei mit dem Inhalt Ã¤Ã¶Ã¼' ist oder eine UTF-8-Datei mit dem Inhalt äöü'?
Es geht leider einfach nicht.
Da kann man den Devs noch so lange auf den Hut hauen...
Wenn es sich um eine ANSI-Datei handelt gibt es nur den Ausweg sie explizit als ANSI-Datei zu öffnen.

Mal zum Spielen:

AutoIt

$Codings = ObjCreate("Scripting.Dictionary")
$Codings(256) = "UTF-8"
$Codings(512) = "ANSI"


; Ein AutoIt-String (= UTF-16 [UCS-2])
$s_Text = "Ã¤Ã¶Ã¼'"


#Region ANSI
$s_FilePath = "Ansi.txt"
$d_Enc = 512
; Datei in ANSI-Kodierung beschreiben
$hFile = FileOpen($s_FilePath, 2 + $d_Enc)
FileWrite($hFile, $s_Text)
FileClose($hFile)
ConsoleWrite(StringFormat("----------------%s ------------------\ndetektierte Kodierung:\t\t\t%s\nTextinhalt (detektierte Kodierung):\t%s\nTextinhalt (explizite Kodierung):\t%s\nBinärinhalt:\t\t\t\t%s\n\n", $s_FilePath, $Codings(FileGetEncoding($s_FilePath)), FileRead($s_FilePath), FileReadWithEncoding($s_FilePath, $d_Enc), FileReadWithEncoding($s_FilePath, 16)))
#EndRegion ANSI




#Region UTF-8
$s_FilePath = "UTF-8.txt"
$d_Enc = 256
; Datei in UTF-8-Kodierung beschreiben
$hFile = FileOpen($s_FilePath, 2 + $d_Enc)
FileWrite($hFile, $s_Text)
FileClose($hFile)
ConsoleWrite(StringFormat("----------------%s ------------------\ndetektierte Kodierung:\t\t\t%s\nTextinhalt (detektierte Kodierung):\t%s\nTextinhalt (explizite Kodierung):\t%s\nBinärinhalt:\t\t\t\t%s\n\n", $s_FilePath, $Codings(FileGetEncoding($s_FilePath)), FileRead($s_FilePath), FileReadWithEncoding($s_FilePath, $d_Enc), FileReadWithEncoding($s_FilePath, 16)))
#EndRegion UTF-8




#Region Binärvergleich
ConsoleWrite("---------------- Binärvergleich ------------------" & @CRLF)
$s_Text_ANSI = "Ã¤Ã¶Ã¼'"
$s_Text_UTF8 = "äöü'"
$bin_ANSI = StringToBinary($s_Text_ANSI, 1)
$bin_UTF8 = StringToBinary($s_Text_UTF8, 4)
ConsoleWrite("ANSI-String: " & $s_Text_ANSI & @CRLF)
ConsoleWrite("UTF8-String: " & $s_Text_UTF8 & @CRLF)
ConsoleWrite("ANSI-String binär: " & $bin_ANSI & @CRLF)
ConsoleWrite("UTF8-String binär: " & $bin_UTF8 & @CRLF & @CRLF)
#EndRegion Binärvergleich




Func FileReadWithEncoding($s_FilePath, $dEnc = Default)
	Local $hFile = FileOpen($s_FilePath, $dEnc)
	Local $bin_Return = FileRead($hFile)
	FileClose($hFile)
	If $dEnc = 16 Then Return Hex($bin_Return)
	Return $bin_Return
EndFunc   ;==>FileReadWithEncoding

Alles anzeigen

@supernova
Thema also gelöst? - schön
Darf man fragen was das eigentliche Ziel hinter der Frage war?
Wolltest du die Dateikodierung einer Datei herausfinden?