Scannen en OCR (scan omzetten naar bewerkbare tekst) door Koen Wybo
Documentatie/referentie materiaal:
Engines
Tessaract (beste)
spijkerschrift (cunneiform) als 2de beste
Frontends
OCR YAGF
OCRFeeder
Gscan2pdf
linux-intelligent-ocr-solution (soms werkt het ... soms niet)
Opmerkingen:
* Steven heeft dit eens toepast om een 30tal blz tellend boek om te zetten in tekst:
inscannen als "pdf" door multifunctional op een "usb stick"...deze omzetten naar "tif" zwart/wit foto bestanden...en dan tessaract elke tif laten verwerken met Nederlandse woordenboek:
convert -colorspace RGB -depth 8 -density 150 -verbose 13923493-30-jaar-beroepsrennerswedstrijd-te-izegem.pdf[1]
tesseract p1.tif p1 -l nld
* Via google docs kan je een bestand tot 2mbyte uploaden en vink dan "scan pdf of beeldbestand naar google documenten" aan. Als je je bestand naar "zwart/wit" omzet kun je het vaak verkleinen in "kilobytes" .
Mysql/phpmyadmin/php database door Steven Leeman
www.hotscripts.com
Drupal 7 content managment system door Ingrid
Foto's: