Zeichensatz-Probleme beim Schreiben in MariaDB

robbytobi

Hallo zusammen!

Ich habe eine Datenbank erstellt, in die ich Textblöcke in unterschiedlichen Sprachen hineinschreiben möchte. Diese "Kopierarbeiten" (Insert) funktionieren wunderbar, so lange keine chinesischen oder russischen Texte geschrieben werden sollen. Diese werden dann als Fragezeichen übertragen.

Nach nun etlichen Stunden des Recherchierens und Probierens gehen mir langsam die Ansätze aus. Außer, dass das Problem etwas mit den Eingestellten/ übertragenen Zeichensätzen zu tun hat (mutmaßlich) hab ich keine Ahnung was ich noch ausprobieren könnte (oder wo das Problem liegt).

Anbei ein Code-Schnipsel, dass die Problematik umschreibt. (Bei Nachhaken gehe ich gerne tiefer)

Code

Local $sUTFcontent[4][1]
$sUTFcontent[0][0] ="Content"
$sUTFcontent[1][0] ="облачные решения для любой отрасли"
$sUTFcontent[2][0] ="業界に特化したモダン"
$sUTFcontent[3][0] ="Loret ipsum äöüß"

_ArrayDisplay($sUTFcontent)

Local $hFileOpen = FileOpen("UTF8.txt", $FO_OVERWRITE)
FileWrite($hFileOpen, $sUTFcontent[1][0])
FileClose($hFileOpen)

_Add2DArrayIntoDB($sUTFcontent, "testcont", $aDBserver)   ;Funktion, die das Schreiben (Insert) eines Arrays in eine Tabelle übernimmt

Alles anzeigen

Ich habe zum Test ein kleines Array angelegt, in dem irgendwelche unterschiedlichen Contents drin sind.

Dann lasse ich mir diese mit _ArrayDisplay anzeigen. -> das Ergebnis ist korrekt

Ich schreibe einen der problematischen Texte in eine Textdatei. -> das Ergebnis ist korrekt

Bis dahin scheint mir klar, dass mit dem Inhalt des Arrays soweit passen dürfte.

Nun kommt es:

in der Datenbank steht dann folgendes:

Content

----------------------------------

???????? ??????? ??? ????? ???????

??????????

Loret ipsum äöüß

An der kleinen Schreib-Funktion von mir sollte es nicht liegen: Diese schreibt ansonsten alle meine Arrays zu meiner Zufriedenheit in meine Datenbanken

Also gibt es irgendwo ein Problem mit den verwendeten oder angenommenen Zeichensätzen.

UTF8 als Basis scheint mir geeignet um alle meine Anforderungen abzudecken. Deshalb hab ich schon an den Einstellungen der Datenbank herumgeschraubt. Ein Blick in die Einstellungen der Datenbank:

SHOW VARIABLES LIKE 'character_set\_%'

character_set_client	utf8
character_set_connection	utf8
character_set_database	utf8
character_set_filesystem	binary
character_set_results	utf8
character_set_server	utf8
character_set_system	utf8

Wenn ich die Daten mit anderen Programmen (z.B. DBeaver oder aus PhpMyAdmin) in die Datenbank schreibe, dann klappt das alles.

Ergo:

Die Datenbank kann es.

Das Array/Autoit kann es auch (eigentlich)

->irgendwo ist ein Problem beim Übertragen als "UTF8"

Für alle Hinweise dankbar,

Gruß Robbytobi

robbytobi

Vielleicht doch noch ein bisschen tiefer:

Hier die Funktion zum Schreiben des Arrays. Diese Funktion baut aus den in der ersten Zeile enthaltenen Spaltennamen ein "Basisstatement" auf und schreibt dann Zeilenweise die Daten an die richtigen Stellen

Code

Func _Add2DArrayIntoDB($aArray, $sTable, $aServer)
    ;Einfügen eines 2D - Arrays in eine Tabelle.
    ;Gibt als Ergebnis ein 1D-Array mit dem Status (1 = ok/ 0 =failed) zurück
    If Ubound($aArray,0) <> 2 Then Exit                ;==> Abbruch: kein 2-D Array!!
    
    Local $aResult[UBound($aArray)]                    ;Leeres 1D-Return-Array
    $oConn = _SQLConnect($aServer[0],$aServer[1],1,$aServer[2],$aServer[3],$aServer[4],$aServer[5]) ;Server Connect
    
    ;Vorbereitung: Spaltennamen auswerten und Basisstatement (Header-Daten) vorbereiten
    Local $sColumnFieldsString = ""
    For $i = 0 To Ubound($aArray, $UBOUND_COLUMNS)-1
        $sColumnFieldsString &= $aArray[0][$i] & ", "
    Next
    $sColumnFieldsString = StringLeft($sColumnFieldsString,StringLen($sColumnFieldsString)-2)
     $sSQLBaseStatement = "INSERT INTO "& $sTable & " (" & $sColumnFieldsString&")" & " VALUES "
    ;Zeilendaten: Daten pro Zeile in einen String wandeln und zusammen mit dem Basisstatement einen gültigen SQL-Befehl bauen und an die DB senden
    For $i = 1 To Ubound($aArray,$UBOUND_ROWS)-1
        $sData = ""
        $sErrorInfo =""
        For $j = 0 To Ubound($aArray,$UBOUND_COLUMNS)-1
            $sData &= "'"&$aArray[$i][$j] & "', "
        Next
        $sData = StringLeft($sData,StringLen($sData)-2)
        $sData = "("&$sData&")"
        ConsoleWrite($sSQLBaseStatement&$sData&@CRLF)
        $iExpectedErrMode =1
        $oQueryResult = _SQLQuery($oConn, $sSQLBaseStatement&$sData)
        $iExpectedErrMode =0
        If $sErrorInfo <> "" Then
            $aResult[$i] = "0"
        else
            $aResult[$i] = "1"
        EndIf
    Next

    $sErrorInfo =""
    _SQLDisconnect($oConn)                                                                            ;Server Disconnect
    ;_ArrayDisplay($aResult)
    Return($aResult)
EndFunc

Alles anzeigen

Ich übergebe hierbei die Verbindungsdaten des Servers als Array an eine entsprechend leicht modifizierte Funktion "_SQLConnect"

Code

Func _SQLConnect($sServer, $sDatabase, $fAuthMode = 0, $sUsername = "", $sPassword = "", $sDriver = "{SQL Server}" ,$sPort = 3306)
;ConsoleWrite("Serververbindung... ")
Local $sTemp = StringMid($sDriver, 2, StringLen($sDriver) - 2)
Local $sKey = "HKEY_LOCAL_MACHINE\SOFTWARE\ODBC\ODBCINST.INI\ODBC Drivers", $sVal = RegRead($sKey, $sTemp)
If @error or $sVal = "" Then Return SetError(2, 0, 0)
;ConsoleWrite($sTemp&": ")
;ConsoleWrite("sval:"& $sVal&@CRLF)


$oConn = ObjCreate("ADODB.Connection")
;If  IsObj($oConn) Then ConsoleWrite("ADODB.Connection läuft..."&@CRLF)
If NOT IsObj($oConn) Then Return SetError(3, 0, 0)


If $fAuthMode Then $oConn.Open ("DRIVER=" & $sDriver & ";SERVER=" & $sServer & ";DATABASE=" & $sDatabase & ";UID=" & $sUsername & ";PWD=" & $sPassword & "; PORT=" & $sPort & ";")
If NOT $fAuthMode Then $oConn.Open("DRIVER=" & $sDriver & ";SERVER=" & $sServer & ";DATABASE=" & $sDatabase)
If @error Then Return SetError(1, 0, 0)


Return $oConn
EndFunc   ;==>_SQLConnect

Alles anzeigen

Das alles nur mal erwähnt, damit a) ihr wisst wie ich mich mit dem Server verbinde und (ansonsten erfolgreich) kommuniziere. Vielleicht hilft das ja jemand.

**Bitnugger**

Zitat von robbytobi

UTF8 als Basis scheint mir geeignet um alle meine Anforderungen abzudecken.

Ja, denke ich auch, nur in SciTE hast du es wohl nicht eingestellt, denn das arbeitet per Default ja mit der ANSI-Codepage.

SciTE kannst du auf UTF-8 umstellen, indem du diese Zeilen in der SciTEUser.properties hinzufügst bzw. änderst:

Code: SciTEUser.properties

# Internationalisation
# Unicode
code.page=65001
#~ output.code.page=850
output.code.page=65001
#~ output.code.page=0

So sieht das bei mir aus...

Alternativ sollte es funktionieren, wenn du den String vor dem Absenden an die DB nach UTF-8 konvertierst. Dafür hat die Windows-API ein paar Funktionen:

_WinAPI_WideCharToMultiByte und _WinAPI_MultiByteToWideChar bzw. _WinAPI_MultiByteToWideCharEx

Du brauchst dann wohl _WinAPI_WideCharToMultiByte... $iCodePage musst du dann auf 65001 setzen.

Gun-Food

Habe soeben einen Fehler entdeckt... bei aufgeklappten Code-Tags wandert das "Code" beim Scrollen der Seite mit, was aber eigentlich nicht sein sollte.

Hier ein Bild, um es verständlich zu machen:

Code.png

robbytobi

Nachdem ich zuerst die SciTEUser.properties angepasst hatte ist noch gar nichts passiert. Die Zeichen wurden durch die berühmten Fragezeichen ersetzt.

Eine erste Veränderung hat nun der Einsatz von _WinAPI_WideCharToMultiByte ergeben: Folgendes Array wird wie unten stehend an der Console ausgegeben und kommt dann auch so in der Datenbank an....

Code

Local $sUTFcontent[4][1]
$sUTFcontent[0][0] ="Content"
$sUTFcontent[1][0] ="облачные решения для любой отрасли"
$sUTFcontent[2][0] ="業界に特化したモダン"
$sUTFcontent[3][0] ="Loret ipsum äöüß"

;Consolen-Outout:
;INSERT INTO testcont (Content) VALUES ('Ð¾Ð±Ð»Ð°Ñ‡Ð½Ñ‹Ðµ Ñ€ÐµÑˆÐµÐ½Ð¸Ñ Ð´Ð»Ñ Ð»ÑŽÐ±Ð¾Ð¹ Ð¾Ñ‚Ñ€Ð°ÑÐ»Ð¸')
;INSERT INTO testcont (Content) VALUES ('æ¥ç•Œã«ç‰¹åŒ–ã—ãŸãƒ¢ãƒ€ãƒ³')
;INSERT INTO testcont (Content) VALUES ('Loret ipsum Ã¤Ã¶Ã¼ÃŸ')

Ergo: Ich hab zwar noch nicht die richtige Quell/Ziel -Codepage, aber ich mutmaße, dass das, was ich an die Datenbank schicke mir richtig übertragen und auch von der Console entsprechend angezeigt wird. Also dafür schon mal einen kleinen Dank an dich! (nach zwei Wochen an diesem Thema ist das ein echter, erster Fortschritt!! )

Die Frage ist nun nur noch, wo das Problem liegen könnte? Wenn ich das Array in eine Datei schreibe und es mit Notepad öffne, dann zeigt er mir UTF8 an. Auch ohne, dass ich erst was konvertiere.

Was mich irritiert: in der Beschreibung von _WinAPI_WideCharToMultiByte steht "...Converts a UTF-16 (wide character) string to a multibyte string...". Ist das Problem vielleicht, dass ich das falsche "Quellformat" habe?

**Bitnugger**

Wenn du SciTE auf UTF-8 umgestellt hast und der Text in deinem Post #4 in der Scite Editor-Pane korrekt angezeigt wird, darfst du die Zeichen nicht mehr konvertieren. Die sollten dann - so wie sie sind - korrekt in der DB ankommen, da die Quell- und Ziel-Codepage ja gleich sind.

In der Scite Output-Pane (Consolen-Output wäre in einer CMD) werden die Zeichen ja via ConsoleWrite ausgegeben... und ConsoleWrite konvertiert die Zeichen vor der Ausgabe immer nach ANSI. Deswegen musst du sie hier dann doch konvertieren... s. Bild.

Wenn diverse Zeichen nicht korrekt, sondern als Fragezeichen angezeigt werden, bedeutet dies, dass diese mit der verwendeten Schriftart nicht darstellbar sind.

So sollte das auch bei dir aussehen...

UTF8.png

robbytobi

Ich habe nun folgenden Status:

pasted-from-clipboard.png

Soweit stimmt das. Ich konvertiere den Text vor der Konsolenausgabe und er erscheint richtig in der Konsole. Allerdings kommen in der DB nun wieder nur Fragezeichen an:

Zwei Fragen: Wo kann man die Statusleiste unten denn so einstellen? Ich hab dort nur einen Eintrag. Den kann ich per Klick toggeln. Aber das Encoding ist nicht dabei? (Ich denke zwar, dass das stimmt, aber kann es leider nicht final bestätigen)

**Bitnugger**

Zitat von robbytobi

Allerdings kommen in der DB nun wieder nur Fragezeichen an:

Wie genau hast du das denn überprüft? - Das Bild unter deinem Text (Content)... wie bist du an den Text aus der DB gekommen und womit hast du ihn wo ausgegeben? Und nein, da kommen keine Fragezeichen an!!!

Evtl. muss der Text vor dem Senden doch mit einer *MultiByte*-Funktion konvertiert werden... also entweder nach MultiByte oder nach WideChar. Das musst du aber selbst austesten, weil habe kein MariaDB.

Die Werte für die Statusleiste kannst du in der SciTEUser.properties setzen. Ich habe dir mal meine als Anhang dazugelegt... da findest du sie fast am Ende.

robbytobi

Erstmal Dank für die User-Properties. Das entsprechende Fragment ist erfolgreich eingebaut und stimmt mit dem Screenshot überein.

Die Daten in der Datenbank hab ich sowohl mit PhpMyAdmin als auch mit DBeaver angeschaut. Wenn ich die Daten dort damit (mit beiden) versuchsweise mit den korrekten Zeichen überschreibe, dann erscheinen diese auch dort korrekt. Ich werd mal versuchen die Daten vor dem Absenden "doch" zu konvertieren...

robbytobi

#Topic Solved#

Code

;$sSQLstring enthält ein gültiges SQL-Statement, das wie folgt konvertiert werden muß:
        $sSQLstringUTF8 = _WinAPI_WideCharToMultiByte($sSQLstring,65001)                ;Konvertierung
        ConsoleWrite($sSQLstringUTF8&@CRLF)                                              ;Ausgabe an Konsole
        $oQueryResult = _SQLQuery($oConn, $sSQLstringUTF8)                                ;Ausgabe an DB

Das Problem war, dass MariaDB eine "ganz spezielle" Beziehung zu UTF8 hat! Auch wenn das nichts mehr mit AutoIt zu tun hat, will ich noch folgende Lösungsansätze hier posten, damit der nächste, der hier verzweifelt, auch fündig wird:

Grob gesagt ist UTF8 die falsche Wahl. Um zum Ziel zu kommen ist "UTF8MB4" notwendig gewesen. Hierzu musste ich in der Konfigurationsdatei des Servers my.cnf folgende Anpassungen vornehmen:

Code

[client]
default-character-set = utf8mb4

[mysql]
default-character-set = utf8mb4

[mysqld]
character-set-client-handshake = FALSE
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

Natürlich müssen dann noch die Datenbank, Tabelle(n) und Spalte(n) entsprechend angepasst werden. Dann sieht das Ergebnis so aus:

pasted-from-clipboard.png

Sowohl das Array, als auch die Konsole zeigen die identischen Daten und diese kommen auch korrekt in der Datenbank an.

Soweit ich das beurteilen kann: Case closed!

Vielen Dank für deine Hilfe Bitnugger !

robbytobi

Anbei noch mal zusammenfassend die Einstellungen, die der Server zurückmelden sollte damit alles funktioniert

**Bitnugger**

Zitat von robbytobi

Grob gesagt ist UTF8 die falsche Wahl. Um zum Ziel zu kommen ist "UTF8MB4" notwendig gewesen.

Hier findet du auch eine Erklärung dazu, warum dem so ist:

What is the difference between utf8mb4 and utf8 charsets in MySQL?

What is the difference between utf8mb4 and utf8 charsets in MySQL? I already know about ASCII, UTF-8, UTF-16 and UTF-32 encodings; but I'm curious to know…

stackoverflow.com

Zitat von CodeCaster

UTF-8 is a variable-length encoding. In the case of UTF-8, this means that storing one code point requires one to four bytes. However, MySQL's encoding called "utf8" (alias of "utf8mb3") only stores a maximum of three bytes per code point.

So the character set "utf8"/"utf8mb3" cannot store all Unicode code points: it only supports the range 0x000 to 0xFFFF, which is called the "Basic Multilingual Plane". See also Comparison of Unicode encodings.

robbytobi

Hei zusammen,

nachdem ich das Thema vermeintlich schon gelöst hatte (nochmals Dank an dieser Stelle für das erste Tauziehen:-) und auch Daten in meine Datenbank schreiben konnte, habe ich nun versucht sie auch wieder zu LESEN. (daher kein neuer Fred, hängt ja zusammen)

Und jetzt wird's stange: Die Daten kommen 'richtig' in der Datenbank an und werden auch wieder "'richtig" in der Konsole ausgegeben. Aber im Array sind sie 'falsch'.

pasted-from-clipboard.png

Nun probier ich seit drei Tagen rum und hab z.B. die Daten auch schon mit Excel versucht aus der Datenbank zu lesen. Dort steht aber der selbe Quatsch wie im Array. (?!)

Was mich natürlich stutzig macht:

Hab im ODBC-Treiber nachgeschaut. Dort steht korrekt utf8mb4 (also 'echtes' UTF8) drin.

Wie ihr euch sicher vorstellen könnt, hab ich einiges durchgelesen und ausprobiert. (Auch den einen Satz hier im Forum, dass sich das Thema irgendwann auswachsen könnte, hab ich gelesen. *schmunzel -schön wärs*). Bin also für jede Hilfe und Fährte dankbar.

LG Robin

PS: warum ich 'richtig' und 'falsch' schreibe? ->Weil ich mir ÜBERHAUPT NICHT mehr sicher bin was wann wo in welchem Format genau steht. Ich zweifel grad an allem....

PPS: Die Daten auf der Datenbank schaue ich mit dBeaver und dem phpMyAdmin an. sieht korrekt aus...

**BugFix**

Guck die Daten im Array NICHT mit ArrayDisplay an, sondern schreibe sie in einer Schleife in die Konsole - dann passt es.

robbytobi

Leider nicht:

Das reale Array aus der Datenbank beinhaltet RegEx-Ausdrücke; Diese werden der Reihe nach über einen Text gejagt. Leider sind diese Ausdrücke anscheinend genauso verkrüppelt. Ich werd das nochmal explizit prüfen. Aber so bin ich überhaupt drauf gekommen dass da was mit dem Import nicht stimmt...

Aber zur Spurensuche: Kann _ArrayDisplay kein UTF8? Also bevor ich das Zeug sende stimmt ja alles. Hier das Array, welches zum DB-Insert gesendet wird:

(Nicht böse sein wenn ich frag. Ich wills ja nur irgendwann mal verstehen)

Velted

Moin,

AutoIt spricht nativ kein UTF-8. Irgendwo beim lesenden Zugriff auf die DB muss es deshalb eine Konvertierung geben. Wie sieht die aus?

robbytobi

Hi Velted,

das ist es ja: Ich weiß nicht ob es einer Konvertierung bedarf... Zumal die Konsole ja korrekt ausgibt.

Das Array wird über diese kleine UDF aus dem Ergebnis der DB-Abfrage erzeugt:

Code

Func _GetArrayBySQL($sQuery, $aServer)
    ;Führt eine Abfrage mit einem beliebigen Statement durch und gibt ein entsprechendes Array zurück
    ;Ist das Ergebnis der Abfrage leer, wird -1 zurückgegeben
    
    Local $aResult = -1
    $oConn = _SQLConnect($aServer[0],$aServer[1],1,$aServer[2],$aServer[3],$aServer[4],$aServer[5])    ;Connect mit den Default-Serverdaten
    
    $oQueryResult = _SQLQuery($oConn, $sQuery)
    If  Not $oQueryResult.EOF Then
        $aResult = $oQueryResult.GetRows
    EndIf

    _SQLDisconnect($oConn)
    Return($aResult)
EndFunc

Alles anzeigen

Ich habe zwar schon probiert das Array nochmals umzupflügen, hatte jedoch dabei keinen Erfolg (es wurd nur schlimmer)

MojoeB

ich kenn mich nicht aus mit UTF-8... aber wie sind den deine Tabellenspalten formatiert in der DB.

Ich glaube Velted hat das hier gemeint :

Zitat von robbytobi

;$sSQLstring enthält ein gültiges SQL-Statement, das wie folgt konvertiert werden muß: $sSQLstringUTF8 = _WinAPI_WideCharToMultiByte($sSQLstring,65001) ;Konvertierung ConsoleWrite($sSQLstringUTF8&@CRLF) ;Ausgabe an Konsole $oQueryResult = _SQLQuery($oConn, $sSQLstringUTF8) ;Ausgabe an DB

habe auch schon mit rumgespielt bin aber auch zu keinem Ergebnis gekommen.

robbytobi

Nein. Das Statement auf keinen Fall: Das, was ich an den Server sende ist ja komplett richtig. Inhalt und Zeichensatz passen da.

Das, was dann vom Server kommt ist das Problem. Es passt in der Konsole, die offensichtlich korrekt (65001) eingestellt ist schon. Aber nicht im Array.

Und nun ist das Problem, dass mich an dieser Stelle die Konsole herzlich wenig interessiert. Ich muß mit den Werten aus dem Array weiterarbeiten...

Und ja: Ich hab das Array mit _WinAPI_WideCharToMultiByte($sSQLstring,65001) auch schon durchackern lassen. kam nix dabei raus.

Velted

Hallo,

im Beitrag #10 steht character_set_client auf utf8mb4. AutoIt Strings beinhalten Unicode (UTF16). Deshalb muss vor dem Schreiben in die Datenbank nach UTF8 konvertiert werden. Ich denke, dass das auch auf dem Rückweg gemacht werden muss.

Die Ausgabe von _ArrayDisplay() sieht aus, als ob UTF8 als ANSI gelesen wird. Du könntest für die Konvertierung folgendes probieren:

AutoIt

$sErgebnis = BinaryToString(StringToBinary($sSringAusDemArray, 1), 4)

Velted

Fällt mir jetzt erst auf: Sollte das nicht nach Hilfe & Unterstützung verschoben werden?