Konvertierung von HTML-Entitäten

  • Hallo,
    ich arbeite derzeit an einem Programm, welches HTML-Quellcode parst. Nun möchte ich in diesem die Sonderzeichen welche ja codiert sind decodieren. In manchen anderen Sprachen wie PHP gibt es Funktionen dafür, wie HTML_decode_entities(). Da ich leider keine derartige Funktion gefunden habe, frage ich euch:
    1. Gibt es eine solche Funktion?
    2. Wäre es nicht nützlich diese in Autoit zu implementieren?

    Und eine weitere Frage:
    Gibt es eine Möglichkeit Autoit Quellcode als DLL zu exportieren?

    Hier meine etwas behelfsmäßige selbst geschriebene Funktion zur Konvertierung der Sonderzeichen, erstmal nur für die 3 Umlaute, aber ja beliebig erweiterbar:

    [autoit]

    Func _HTML_Decode_Entities($sHTML)
    $sHTML = StringRegExpReplace($sHTML,"(Ä|Ä)","Ä")
    $sHTML = StringRegExpReplace($sHTML,"(ä|ä)","ä")

    [/autoit][autoit][/autoit][autoit]

    $sHTML = StringRegExpReplace($sHTML,"(Ö|Ö)","Ö")
    $sHTML = StringRegExpReplace($sHTML,"(ö|ö)","ö")

    [/autoit][autoit][/autoit][autoit]

    $sHTML = StringRegExpReplace($sHTML,"(Ü|Ü)","Ü")
    $sHTML = StringRegExpReplace($sHTML,"(ü|ü)","ü")
    Return $sHTML
    EndFunc

    [/autoit]

    Danke für eure Antwort im voraus

    Edit: Dir Forensoftware wandelt die dezimalen Zeichencodes für die Umlaute (Jeweils hinter dem Namen für die jeweilige Entität) selbstständig in das entsprechende Zeichen um.

    Einmal editiert, zuletzt von Dr.Doktor (1. Februar 2010 um 23:27)

  • @xp_fan:
    Ist sowas denn in Planung? Fände es schon ziemlich praktisch. Nur um mal das Interesse zu bekunden :-).


    Stilgar:
    Danke, das hat mir gefehlt. Leider tauchen manche Funktionen nicht in der Autoit-Hilfe auf. Soll die HTML-UDF denn einmal in die Hilfe übernommen werden?