Veröffentlicht am: 27.02.2011
Von: admin
In Kategorie: Software
Schlagwörter: Webservice
Zu erst: OCR steht für Optical Character Recognition und steht für Texterkennung und dient zur Erfassung von Texten aus Bildern.
Sucht man im Netz nach "online ocr" erhält man doch einige Ergebnisse. Stellvertretend habe ich folgende Angebote herausgepickt und getestet:
- free-online-ocr.com (ehemals http://www.free-online-ocr.com/)
- onlineocr.net
- free-ocr.com
- newocr.com
- ocrterminal.com (ehemals https://www.ocrterminal.com/)
- ocronline.com
Ich bevorzuge für meinen Test hier eindeutig Angebote ohne Zwang zur Registrierung, da dies dem schnellen Einsatz für wenig Seiten doch irgendwie entgegen steht. Getestet wurde ebenfalls nur die Ausgabe in reinen Text (ohne Formatierungen etc.).
free-online-ocr.com
free-online-ocr.com bietet ein einfache Webinterface zum Upload der Eingabedatei (entweder Bilder oder PDF). Weiterhin kann das Ausgabeformat gewählt werden (Word, RTF, PDF und reiner Text). Die Seite informiert den Nutzer über einen Fortschrittsbalken über den Verlauf des OCR-Prozesses. Nach Beendigung wird das Ergebnis dem Nutzer zum Download angeboten. Eine Möglichkeit zur Preview existiert nicht.
onlineocr.net
onlineocr.net ermöglicht den Upload der Eingabedatei ebenfalls über ein Webinterface, fragt dabei neben dem Zielformat aber auch die Sprache der Eingabe ab. onlineocr.net unterstützt 32 Sprachen, darunter Englisch, Deutsch und viele weitere europäische Sprachen. Zum Starten der Erkennung muss ein einfaches Zahlen-Captcha eingegeben werden. Nach dem OCR-Prozess wird das Ergebnis in einem Preview angezeigt und kann von dort per Copy&Paste weiter verwendet werden. Der Download ist ebenfalls möglich. Der Dienst ist im Gast-Modus auf 15 Seiten pro Stunde beschränkt.
free-ocr.com
free-ocr.com bietet auch eine Auswahl der Sprache im Dokument, unterstützt jedoch nur die Ausgabe in ein Textfeld auf der Webseite. Zur Absicherung gegen automatisierte Benutzung wird ein Captcha von Recaptcha verwendet, da der Dienst laut Aussage der Webseite zum Brechen von Captchas verwendet wurde.
newocr.com
newocr.com unterstützt 29 Sprachen und bietet als einziger Dienst an, die Eingabedatei im 90° Winkel zu drehen. Es gibt keine Absicherung gegen automatisierte Nutzung durch Captchas.
ocrterminal.com und ocronline.com
Beide Dienste erfordern zunächst eine kostenlose Registrierung. Aus diesem Grund habe ich die Angebote nicht weiter getestet.
Test
Eine objektive Bewertung der Erkennungsrate wollte ich nicht vornehmen, eine subjektive Bewertung soll hier genügen.
Die Testseite entstammt aus einer Dissertation und besteht aus einem Zitat von Victor Hugo (rechtsbündig, kleinerer Font), einer Überschrift (zentriert, Fettdruck, größerer Font), dem Text in Blocksatz und den Fußnoten.
free-online-ocr.com bietet eine gute Erkennungsrate, hat aber teilweise Probleme mit Umlauten. Die Erkennung erstreckt sich auch auf das Zitat und die Fußnoten, was nicht jeder getestete Dienst erreicht.
onlineocr.net bietet eine ordentliche Erkennungsrate, scheitert aber beim Zitat und den Fußnoten.
free-ocr.com scheitert ebenfalls am Zitat und den Fußnoten und hat deutliche Probleme mit Umlauten.
newocr.com erkennt hingegen sowohl Zitat als auch Fußnoten korrekt und bietet subjektiv gesehen die bester Erkennungsrate.
Fazit
Durch die hohe Erkennungsrate und den Erfolg bei Fußnoten und Zitat scheint mir newocr.com der beste kostenlose Anbieter in diesem kleinen Test zu sein.