Este blog se describe cómo escanear páginas de un libro impreso y convertir la imagen en texto usando la tecnología (OCR) reconocimiento óptico de caracteres.
Las herramientas que utilizo son:
- SimpleScan
- tesseract
Preparación
Para instalar manualmente en Debian: />
$ sudo apt-get install
tesseract es un programa OCR de línea de comandos.
Para instalar: />
$ sudo apt-get install tesseract-ocr
Si el Inglés es el idioma que se utiliza, que es todo lo que necesita para instalar. Si necesita otro idioma, debe instalar los paquetes de idioma tesseract adicionales. Ejemplos de ello son tesseract-ocr-rus para el ruso, tesseract-ocr-deu para el alemán, y Tesseract OCR-fra de francés.
Procedimiento OCR
- Escanear las páginas utilizando SimpleScan.
- Guarde la imagen.
- Ejecute el comando tesseract:
$ tesseract OnWritingWell.jpg cabo
Tesseract OCR Open Source Engine v3.02 con Leptonica
El primer parámetro es el nombre de archivo de imagen de entrada. El segundo parámetro es el nombre base deseada del archivo de texto de salida. El valor predeterminado txt de extensión se agrega al nombre base, por ejemplo, out.txt .
Si el idioma no es el Inglés, es necesario especificar el idioma en la línea de comandos mediante un código de idioma de 3 caracteres (consulte el hombre tesseract página). El siguiente comando especifica el uso de 3 idiomas: ruso, alemán y francés.
$ tesseract OnWritingWell.jpg myout-l rus + + deu fra