OCR Programmieren

  • Hi,
    hab die Schriftart erstellt. (Anhang)

    Das ganze funktioniert jetzt so:
    - Man benötigt TIF-Dateien (4 Beispiele sind im Ordner)
    - Dann alles per Command-Line

    z.B.: tesseract <deinedatei.tif> test -l mylang

    "tesseract" ruft die tesseract.exe auf
    <deinedatei.tif> muss im selben Ordner liegen
    "test" die Textdatei, die von Tesseract erstellt wird und wo der gelesene Text reingeschrieben wird
    "-l mylang" ist die erstellte Sprache.

    Als allererstes würde ich an deiner Stelle mal ein bisschen rumspielen mit Tesseract und die 4 Dateien ausprobieren. Manche Zeichen werden noch nicht richtig erkannt, da hab ich beim Einlesen einen Fehler gemacht, aber jetzt weis ich ziemlich genau wies funktioniert, das könnte ich schnell nochmal machen. Danach würde ich anfangen das mit AutoIt umzusetzen. Du musst dich in GDI+ einlesen, bzw. Teile aus der UDF übernehmen. Du musst die Stelle, wo der Text steht als TIF speichern, danach mit Tesseract einlesen und danach die unnötigen Dateien wieder löschen.

    Falls was unklar ist kannste ja nochmal fragen ...

    anno2008

  • Hallöchen!

    Okay, danke sehr!
    Ich versuche das mal von Zeit zu Zeit, habe nämlich derzeit insgesamt nicht viel Zeit :(

    Mh... im Moment kriege ich es noch nicht hin :S Ich probiere's mal in den kommenden Tagen immer mal wieder weiter.
    achja, die "normale" Tahoma Schrift tut ja beim normalen Tesseract eigentlich wunderbar. Wie bekomme ich die dann noch zusätzlich eingebaut? Ich brauche die nämlich zusätlich noch für andere Abschnitte zum Auslesen aus dem Programm.
    Entschuldige, ich bin noch nicht ganz so sehr mit den neuen Dateien vertraut, daher die dumme Frage.

    Liebe Grüße
    Elodie

    Einmal editiert, zuletzt von Elodie (1. Juli 2009 um 22:22)

  • du könntest dir auch einen capchabreaker im internet besorgen und ihn als ressource benutzen um aus dem img den string zu bekommen.
    wobei die eher selten sind und meist gezielt auf capchas von bestimmten seiten oder forensoftware zum spamen abgerichtet sind, musste halt mal schauen ob du nen allgemein einsetzbaren findest und sei vorsichtig dass du keinen lädst der gezielt dazu da is um schutzsoftware von homepages zu umgehen, das wäre dann ein illegales tool.

  • @WoEf: das ist mir ehrlich gesagt zu riskant ;)

    So, nach langem Probieren melde ich mich wieder. Ich hab's aber immer noch nicht geschafft, das einzubinden...
    Könntest du mir eventuell ein fertiges Beispiel zeigen, bitte?

    Mit freundlichen Grüßen
    Elodie