LinuxHint ya publicó un tutorial que explica cómo instalar y comprender el entrenamiento de Tesseract.
Este tutorial muestra el proceso de instalación de Tesseract en los sistemas Debian / Ubuntu, pero no se extenderá a las funcionalidades de entrenamiento, si no está familiarizado con este software, leer el artículo mencionado puede ser una buena introducción. Luego le mostraremos cómo procesar una imagen GIF con Tesseract para sacar el texto de ella.
Instalación de Tesseract:
Correr:
apto instalar tesseract-ocr
Ahora necesitas instalar imagemagick, que es un conversor de imágenes.
Una vez instalado ya podemos probar Tesseract, para probarlo encontré un gif con licencia para reutilizar.
Ahora veamos qué sucede cuando ejecutamos tesseract en la imagen gif:
tesseract 2002NY40.gif 1resultado
Ahora haz un "menos" en 1resultado.TXT
menos 1 resultado.TXT
Aquí está la imagen con su texto:
En este Tesseract, la configuración predeterminada es bastante precisa, por lo general, para obtener tal precisión, se requiere entrenamiento. Probemos otra imagen gratuita que encontré en Wiki Commons, después de descargarla, ejecute:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2resultado
Ahora verifique el contenido del archivo.
menos 2resultado.TXT
Ese fue el resultado, mientras que el contenido de la imagen original fue:
Para mejorar el reconocimiento de caracteres tenemos muchas opciones y pasos a seguir los cuales fueron detallados en nuestro tutorial anterior: eliminación de bordes, eliminación de ruido, optimización de tamaño y rotación de página entre otras funciones como recortar.
Para este tutorial usaremos textcleaner, un script desarrollado por Fred's ImageMagick Scripts.
Descarga el script y ejecuta:
./ limpiador de texto -g -e estirar -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.prueba gif.gif
Nota: antes de ejecutar el script, dele permisos de ejecución ejecutando "chmod + x limpiador de texto"Como root o con sudo prefijo.
Dónde:
limpiador de texto: llama al programa
-gramo: Convierte la imagen a escala de grises
-mi: enache
-F: tamaño de filtro
-s: nitidez, cantidad de nitidez de píxeles que se aplicará al resultado.
Para obtener información y ejemplos de uso con el limpiador de texto, visite http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Como ve, el limpiador de texto cambió el color de fondo, aumentando el contraste entre la fuente y el fondo.
Si ejecutamos tesseract probablemente el resultado será diferente:
prueba de tesseract.salida de prueba gifmenos salida de prueba
Como ve, el resultado realmente mejoró incluso cuando no es completamente exacto.
El comando convertir proporcionada por imagemagick nos permite extraer marcos de imágenes gif para ser procesados posteriormente por Tesseract, esto es útil si hay contenido extraíble en diferentes marcos de la imagen gif.
La sintaxis es simple:
convertirEl resultado se generará como cantidad de archivos como marcos en el gif, en el ejemplo proporcionado los resultados serían: salida-0.jpg, salida-1.jpg, salida-2.jpg, etc.
Luego, puede procesarlos con tesseract, indicándole que procese todos los archivos con un comodín y guarde el resultado en un solo archivo ejecutando:
para i en salida- *; do tesseract $ i outputresult; hecho;Imagemagick tiene una gran variedad de opciones para optimizar imágenes y no hay un modo genérico, para cada tipo de escenario debe leer la página de comando man de convert.
Espero que hayas encontrado útil este tutorial sobre Tesseract.