TexterkennungNach dem Einscannen ist ein Dokument für den Rechner nichts mehr als ein Bild. Erst eine Texterkennungssoftware
macht aus diesem einen editierbaren Text. Doch wie funktionieren diese Programme?
Wer früher Zeitungsberichte archivieren oder seine persönlichen Dokumente im PC verwalten wollte, konnte diese nur
einscannen und anschließend speicherplatzfressend auf der Festplatte ablegen. Die als Bilder gespeicherten Texte
ließen sich zwar in Helligkeit und Kontrast anpassen, inhaltlich aber nicht mehr verändern.
Erst durch eine Texterkennung Software, auch OCR-Programme (Optical Character Recognition) genannt, werden diese Bilder in
editierbare Texte umgewandelt. Sie bringen dem Rechner das Lesen bei.
Das Lesevermögen heutiger OCR-Programme gründet sich auf ein Sammelsurium an Verfahren. Die Programme erkennen
zunächst die Buchstaben anhand der Pixel, in die ein Bild beim Scanvorgang aufgelöst wurde. In den Anfangsjahren der
OCR wurde nur eine Schrift mit einer bestimmten Größe erkannt.
Problem: Schlecht lesbare oder schief gescannte Vorlagen minderten dementsprechend die Erkennungsrate, weil einzelne
Zeichen dann nicht mehr so aussahen, wie sie dem Programm beigebracht wurden. Später kamen andere Schriftarten
und -größen hinzu.
Ähnlich wie heute bei Spracherkennungsprogrammen wurde dann ein System entwickelt, bei dem der Anwender ein
"Training" durchführte, durch das die Software neue Buchstaben und Schriften lernte und so die Erkennungsgenauigkeit
je nach Bedienungshäufigkeit verbesserte.
Die Verfahren im Überblick
Ein extrahierbares, also erkennbares Zeichen wird in einzelne Elemente wie Kurven und Linien aufgeteilt. Anschließend
vergleicht das Programm die Elemente mit Hilfe von Erkennungsregeln, ob sie einem der bereits vorgegebenen Buchstaben
entsprechen. Sind, wie beispielsweise bei handschriftlichen Notizen, die Zeichen nicht sauber voneinander getrennt,
werden sie auch nicht erkannt, da sie dann keinem Muster entsprechen.
Bessere Genauigkeit und höhere Geschwindigkeit erlaubte die Trigramm-Analyse. Diese nimmt drei erkannte Buchstaben
und sucht das passende Wort aus einem Wörterbuch heraus.
Die Technologie "Predictive Optical Word Recognition" schließlich erkennt ganze Wörter, ohne einzelne Zeichen
erkennen zu müssen.
Hinzu kommen Experten für verschiedene Entscheidungsprozesse, die Wahrscheinlichkeiten für richtige Erkennung
angeben. Aus den Ergebnissen dieser Experten und der Gewichtung, die ihnen zugeordnet wurde, entsteht dann die Seite
mit Texten, Tabellen und Grafiken.
Erst die Einführung von neuronalen Netzen erlaubte es, Systeme zu entwickeln, die aus vielen tausend Vorlagen lernten
und so auch Schriftfonts und -größen beherrschten, die dem System vorher nicht bekannt waren. Die ständige
Weiterentwicklung der Hardware brachte zudem die benötigten Rechenleistungen.
In der nächsten Entwicklungsstufe kamen Wörterbücher hinzu, durch die nur teilweise erkannte Buchstabenkombinationen
vervollständigt wurden. Auch hier galt wie bei der Spracherkennung: Richtig erkannte Wörter wurden auch richtig
geschrieben. Eine Rechtschreibprüfung sollte damit entbehrlich sein. Durch Verschmelzung der einzelnen
Softwareprodukte, die in den Anfangsjahren der OCR-Entwicklung jeweils andere Ansätze zur Erkennung verfolgten,
erreichten die Programme schließlich eine recht hohe Erkennungsqualität. Die Krönung fand diese Entwicklung dann in
der Beibehaltung des Orginallayouts nach der Umwandlung in ein gängiges Textformat.
Der derzeitige Stand der Technologie ist eine Kombination aus allen Verfahren zusammen. Trotz der mittlerweile
hochgezüchteten Technik: Eine hundert Prozent genaue Pc Texterkennung Software gibt es noch immer nicht.
In naher Zukunft sind auch ausgereifte Lösungen denkbar, bei denen Artikel gescannt, die Texte erkannt und
schließlich vorgelesen werden. Die einzelnen Module dafür existieren bereits. In der Deutschen Bibliothek in
Frankfurt/Main wird dies für Sehbehinderte bereits angeboten.
|