OCR de escaneo

PorGustavo

Ene 27, 2014 #Administración, #Debian, #Infraestructura, #instalación, #open source, #servidores, #SysAdmin

Este blog se describe cómo escanear páginas de un libro impreso y convertir la imagen en texto usando la tecnología (OCR) reconocimiento óptico de caracteres.

Las herramientas que utilizo son:

SimpleScan
tesseract

Preparación

Para instalar manualmente en Debian: /> $ sudo apt-get install

tesseract es un programa OCR de línea de comandos.

Para instalar: /> $ sudo apt-get install tesseract-ocr

Si el Inglés es el idioma que se utiliza, que es todo lo que necesita para instalar. Si necesita otro idioma, debe instalar los paquetes de idioma tesseract adicionales. Ejemplos de ello son tesseract-ocr-rus para el ruso, tesseract-ocr-deu para el alemán, y Tesseract OCR-fra de francés.

Procedimiento OCR

Escanear las páginas utilizando SimpleScan.
Guarde la imagen.
Ejecute el comando tesseract:
```
 
 $  tesseract OnWritingWell.jpg cabo 
 Tesseract OCR Open Source Engine v3.02 con Leptonica 
 
```
El primer parámetro es el nombre de archivo de imagen de entrada. El segundo parámetro es el nombre base deseada del archivo de texto de salida. El valor predeterminado txt de extensión se agrega al nombre base, por ejemplo, out.txt .
Si el idioma no es el Inglés, es necesario especificar el idioma en la línea de comandos mediante un código de idioma de 3 caracteres (consulte el hombre tesseract página). El siguiente comando especifica el uso de 3 idiomas: ruso, alemán y francés.
```
 
 $  tesseract OnWritingWell.jpg myout-l rus + + deu fra 
 
```

Precisión

Por Gustavo

Entrada relacionada

Linux Open Source Seguridad SysAdmin

Ubuntu corrige falla en less: riesgo de ejecución de comandos

Mar 9, 2026 Gustavo

Ciberseguridad DevOps SysAdmin

Ataques asistidos por IA en 2026: por qué identidad y SaaS pasaron al centro del riesgo

Mar 8, 2026 Gustavo

DevOps Seguridad SysAdmin

InstallFix: cómo los falsos instaladores de herramientas CLI están comprometiendo equipos DevOps

Mar 6, 2026 Gustavo

OCR de escaneo

PorGustavo

Preparación

Procedimiento OCR

Precisión

Por Gustavo

Entrada relacionada

Ubuntu corrige falla en less: riesgo de ejecución de comandos

Ataques asistidos por IA en 2026: por qué identidad y SaaS pasaron al centro del riesgo

InstallFix: cómo los falsos instaladores de herramientas CLI están comprometiendo equipos DevOps

Deja una respuesta Cancelar la respuesta

You missed

Vulnerabilidades zero-day en SonicWall SMA: cronología y vectores de ataque concretos

Amazon EC2 I8ge llega a AWS GovCloud (US): qué cambia para equipos de infraestructura con datos reales

AWS CloudTrail ahora permite filtrar eventos de red por identidad IAM para reducir ruido y costos

AWS Loom: gobernanza de agentes IA a escala con identidad y seguridad integrada en AWS