Tests und professionelle Programme zur Texterkennung

Nach dem Einscannen ist ein Dokument für den Rechner nichts mehr als ein Bild. Erst eine Texterkennungssoftware macht aus diesem einen editierbaren Text. Doch wie funktionieren diese Programme?

Wer früher Zeitungsberichte archivieren oder seine persönlichen Dokumente im PC verwalten wollte, konnte diese nur einscannen und anschließend speicherplatzfressend auf der Festplatte ablegen. Die als Bilder gespeicherten Texte ließen sich zwar in Helligkeit und Kontrast anpassen, inhaltlich aber nicht mehr verändern. Erst durch eine Texterkennung Software, auch OCR-Programme (Optical Character Recognition) genannt, werden diese Bilder in editierbare Texte umgewandelt. Sie bringen dem Rechner das Lesen bei. Das Lesevermögen heutiger OCR-Programme gründet sich auf ein Sammelsurium an Verfahren. Die Programme erkennen zunächst die Buchstaben anhand der Pixel, in die ein Bild beim Scanvorgang aufgelöst wurde. In den Anfangsjahren der OCR wurde nur eine Schrift mit einer bestimmten Größe erkannt. Problem: Schlecht lesbare oder schief gescannte Vorlagen minderten dementsprechend die Erkennungsrate, weil einzelne Zeichen dann nicht mehr so aussahen, wie sie dem Programm beigebracht wurden. Später kamen andere Schriftarten und -größen hinzu. Ähnlich wie heute bei Spracherkennungsprogrammen wurde dann ein System entwickelt, bei dem der Anwender ein "Training" durchführte, durch das die Software neue Buchstaben und Schriften lernte und so die Erkennungsgenauigkeit je nach Bedienungshäufigkeit verbesserte.

Die Verfahren im Überblick

Ein extrahierbares, also erkennbares Zeichen wird in einzelne Elemente wie Kurven und Linien aufgeteilt. Anschließend vergleicht das Programm die Elemente mit Hilfe von Erkennungsregeln, ob sie einem der bereits vorgegebenen Buchstaben entsprechen. Sind, wie beispielsweise bei handschriftlichen Notizen, die Zeichen nicht sauber voneinander getrennt, werden sie auch nicht erkannt, da sie dann keinem Muster entsprechen. Bessere Genauigkeit und höhere Geschwindigkeit erlaubte die Trigramm-Analyse. Diese nimmt drei erkannte Buchstaben und sucht das passende Wort aus einem Wörterbuch heraus.

Die Technologie "Predictive Optical Word Recognition" schließlich erkennt ganze Wörter, ohne einzelne Zeichen erkennen zu müssen. Hinzu kommen Experten für verschiedene Entscheidungsprozesse, die Wahrscheinlichkeiten für richtige Erkennung angeben. Aus den Ergebnissen dieser Experten und der Gewichtung, die ihnen zugeordnet wurde, entsteht dann die Seite mit Texten, Tabellen und Grafiken. Erst die Einführung von neuronalen Netzen erlaubte es, Systeme zu entwickeln, die aus vielen tausend Vorlagen lernten und so auch Schriftfonts und -größen beherrschten, die dem System vorher nicht bekannt waren. Die ständige Weiterentwicklung der Hardware brachte zudem die benötigten Rechenleistungen.

In der nächsten Entwicklungsstufe kamen Wörterbücher hinzu, durch die nur teilweise erkannte Buchstabenkombinationen vervollständigt wurden. Auch hier galt wie bei der Spracherkennung: Richtig erkannte Wörter wurden auch richtig geschrieben. Eine Rechtschreibprüfung sollte damit entbehrlich sein. Durch Verschmelzung der einzelnen Softwareprodukte, die in den Anfangsjahren der OCR-Entwicklung jeweils andere Ansätze zur Erkennung verfolgten, erreichten die Programme schließlich eine recht hohe Erkennungsqualität. Die Krönung fand diese Entwicklung dann in der Beibehaltung des Orginallayouts nach der Umwandlung in ein gängiges Textformat.

Der derzeitige Stand der Technologie ist eine Kombination aus allen Verfahren zusammen. Trotz der mittlerweile hochgezüchteten Technik: Eine hundert Prozent genaue Pc Texterkennung Software gibt es noch immer nicht. In naher Zukunft sind auch ausgereifte Lösungen denkbar, bei denen Artikel gescannt, die Texte erkannt und schließlich vorgelesen werden. Die einzelnen Module dafür existieren bereits. In der Deutschen Bibliothek in Frankfurt/Main wird dies für Sehbehinderte bereits angeboten.