Tesseract es un sistema OCR (reconocimiento óptico de caracteres), entre los mejores. El software OCR es capaz de comprender texto de imágenes y documentos escaneados (incluida la escritura a mano si lo capacita). Un sistema de OCR puede ser útil para muchas tareas como el recuento de palabras en documentos escaneados, transcripción automática, conversión de caracteres de imagen a texto y más.

LinuxHint ya publicó un tutorial que explica cómo instalar y comprender el entrenamiento de Tesseract.

Este tutorial muestra el proceso de instalación de Tesseract en los sistemas Debian / Ubuntu, pero no se extenderá a las funcionalidades de entrenamiento, si no está familiarizado con este software, leer el artículo mencionado puede ser una buena introducción. Luego le mostraremos cómo procesar una imagen GIF con Tesseract para sacar el texto de ella.

Instalación de Tesseract:

Correr:

apto instalar tesseract-ocr

Ahora necesitas instalar imagemagick, que es un conversor de imágenes.

Una vez instalado ya podemos probar Tesseract, para probarlo encontré un gif con licencia para reutilizar.

Ahora veamos qué sucede cuando ejecutamos tesseract en la imagen gif:

tesseract 2002NY40.gif 1resultado

Ahora haz un "menos" en 1resultado.TXT

menos 1 resultado.TXT

Aquí está la imagen con su texto:

En este Tesseract, la configuración predeterminada es bastante precisa, por lo general, para obtener tal precisión, se requiere entrenamiento. Probemos otra imagen gratuita que encontré en Wiki Commons, después de descargarla, ejecute:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2resultado

Ahora verifique el contenido del archivo.

menos 2resultado.TXT

Ese fue el resultado, mientras que el contenido de la imagen original fue:

Para mejorar el reconocimiento de caracteres tenemos muchas opciones y pasos a seguir los cuales fueron detallados en nuestro tutorial anterior: eliminación de bordes, eliminación de ruido, optimización de tamaño y rotación de página entre otras funciones como recortar.

Para este tutorial usaremos textcleaner, un script desarrollado por Fred's ImageMagick Scripts.

Descarga el script y ejecuta:

./ limpiador de texto -g -e estirar -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.prueba gif.gif

Nota: antes de ejecutar el script, dele permisos de ejecución ejecutando "chmod + x limpiador de texto"Como root o con sudo prefijo.

Dónde:

limpiador de texto: llama al programa

-gramo: Convierte la imagen a escala de grises

-mi: enache

-F: tamaño de filtro

-s: nitidez, cantidad de nitidez de píxeles que se aplicará al resultado.

Para obtener información y ejemplos de uso con el limpiador de texto, visite http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Como ve, el limpiador de texto cambió el color de fondo, aumentando el contraste entre la fuente y el fondo.

Si ejecutamos tesseract probablemente el resultado será diferente:

prueba de tesseract.salida de prueba gif

menos salida de prueba

Como ve, el resultado realmente mejoró incluso cuando no es completamente exacto.

El comando convertir proporcionada por imagemagick nos permite extraer marcos de imágenes gif para ser procesados posteriormente por Tesseract, esto es útil si hay contenido extraíble en diferentes marcos de la imagen gif.

La sintaxis es simple:

convertir

El resultado se generará como cantidad de archivos como marcos en el gif, en el ejemplo proporcionado los resultados serían: salida-0.jpg, salida-1.jpg, salida-2.jpg, etc.

Luego, puede procesarlos con tesseract, indicándole que procese todos los archivos con un comodín y guarde el resultado en un solo archivo ejecutando:

para i en salida- *; do tesseract $ i outputresult; hecho;

Imagemagick tiene una gran variedad de opciones para optimizar imágenes y no hay un modo genérico, para cada tipo de escenario debe leer la página de comando man de convert.

Espero que hayas encontrado útil este tutorial sobre Tesseract.

Cómo ejecutar tesseract en un archivo GIF en linux

Instalación de Tesseract: