Applications of scene text spotting to the darknet and industry 4.0

Blanco Medina, Pablo

doi:10.18002/10612/17748

Título

Applications of scene text spotting to the darknet and industry 4.0

Autor

Blanco Medina, Pablo

Director/es

Alegre Gutiérrez, Enrique

Fidalgo Fernández, Eduardo

Facultad/Centro

Escuela de Ingenierias Industrial, Informática y Aeroespacial

Área de conocimiento

Ingenieria de Sistemas y Automatica

Cita Bibliográfica

Blanco Medina, P. (2023). Applications of scene text spotting to the darknet and industry 4.0. [Tesis doctoral, Universidad de León]

Fecha

2023-11-30

Resumen

[ES] En esta tesis, proponemos nuevos algoritmos, métodos y conjuntos de datos que pueden ser utilizados para detectar, reconocer y mejorar secuencias de caracteres de texto encontradas dentro de imágenes, basándonos en la necesidad de recuperación de información en sistemas que no pueden rastrear o acceder a dicha información por otro medio que no sea una representación gráfica.Motivados por nuestro trabajo junto al Instituto Nacional de Ciberseguridad (INCIBE), nuestra investigación recupera secuencias de caracteres localizadas dentro de medios visuales tanto de Darknets como de sistemas industriales. Con ello, pretendemos dar soporte a los productos y servicios relacionados con la ciberseguridad, para monitorizar posibles actividades ilegales e infraestructuras críticas. Para mejorar el rendimiento del reconocimiento de texto, analizamos las imágenes en función de su irregularidad, ya que los métodos suelen afirmar ser robustos en conjuntos de datos irregulares, cuando estos contienen una gran cantidad de texto regular. Después de construir un modelo de clasificación para estas categorías, creamos un nuevo conjunto de datos, el conjunto Texto Totalmente Irregular (FIT-Text en Inglés), compuesto exclusivamente por imágenes irregulares, que los métodos de la literatura pueden utilizar para mejorar sus resultados en este tipo de imágenes. Proponemos una nueva métrica de rendimiento, la precisión Contained-Levenshtein (C-Lev), que utilizamos en reconocimiento de texto. Tradicionalmente, los reconocedores de texto de la literatura informan tanto de su precisión como de la distancia de edición normalizada (edit distance) en conjuntos de datos como principales métricas de rendimiento, pero nunca han combinado ambas en una métrica singular y eficaz, que pueda ayudar a discernir entre errores leves y graves. C-Lev también funciona como herramienta de comprobación del etiquetado de los conjuntos de datos, lo cual ayuda a los métodos a mantenerse robustos frente a errores humanos de etiquetado. En tercer lugar, para aumentar la métrica de precisión en reconocimiento de texto, proponemos la integración de medidas de distancia entre cadenas de caracteres como componentes de las funciones de pérdida. Consideramos que la distancia deHamming es la más beneficiosa en el entrenamiento de estosmétodos, con una mejora total registrada de más de 6% de precisión en conjuntos de datos de la literatura. Para los detectores de texto, proponemos una nueva métrica que asigna valor a las imágenes según sus regiones documentadas, la Distribución de Densidad de Texto (TDD en inglés), que clasifica los medios visuales según su cantidad y distribución espacial de regiones. Proponemos utilizar esta métrica para seleccionar conjuntos reducidos de datos con los que entrenar detectores de texto, reduciendo su coste computacional y preservando su rendimiento. Observamos que la F1 score de la detección sólo disminuye en un 4% cuando se utiliza menos del 30% del conjunto de datos de entrenamiento, reduciendo el coste computacional a menos de la mitad y poniendo de manifiesto que los detectores de texto pueden funcionar de forma similar con datos reducidos. En nuestra última contribución, implementamos capas de operaciones morfológicas en los sistemas de detección de texto para hacer que regiones erróneamente descartadas sean más visibles para los métodos, así como reducir la cantidad de falsos negativos en detección de texto.Dado que estas operaciones pueden afectar negativamente a la fase de reconocimiento de los sistemas que combinan ambas tareas, combinamos estas técnicas con nuestras contribuciones en el campo de reconocimiento,mejorando su rendimiento global. Algunas de nuestras contribuciones ya han sido incorporadas en herramientas y servicios desarrollados por INCIBE, que ayudan al Equipo de Respuesta a Emergencias Informáticas de INCIBE (INCIBE-CERT) y a las Fuerzas y Cuerpos de Seguridad del Estado (FFCCSE) a recuperar textos contenidos en darknets como Tor, y a clasificar capturas de pantalla de entornos industriales en tipos preestablecidos antes de aplicar técnicas de postprocesado en sistemas de toma de decisiones.Nuestras propuestas se centran en técnicas de visión por ordenador, aprendizaje automático, análisis y minería de datos, dando como resultado la creación de cuatro conjuntos de datos: TOICO-1K, relacionado con la darknet Tor, CRINF-300 y CRINF-Text para imágenes relacionadas con el ámbito de la Industria 4.0, y FIT-Text para textos exclusivamente irregulares. Utilizando TOICO-1K, evaluamos el rendimiento de detectores, reconocedores y sistemas de reconocimiento óptico de caracteres (OCR). Destacamos las áreas en las que cada enfoque puede aprovecharse mejor y las imágenes y contextos con los que tienen más dificultades, proponiendo mejoras como técnicas de rectificación, resolución y búsqueda de caracteres similares. CRINF-300 y CRINF-Text proporcionan un contexto para la clasificación de imágenes de sistemas industriales de capturas de pantalla, tanto para la detección y el reconocimiento de extremo a extremo que se encuentran en los sistemas de registro, como mediante técnicas de clasificación utilizando fine tuning y transfer learning para generar clasificadores de imágenes industriales. Por último, proponemos FIT-Text para ayudar a los reconocedores a discernir su verdadero rendimiento frente a imágenes irregulares, tras detectar una elevada presencia de texto regular dentro de conjuntos de datos descritos a menudo como irregulares.

[EN] In this thesis,wework on the task of Text Spotting, within the field of Computer Vision. In this manuscript, we propose new algorithms, methods, and datasets that can be used to detect, recognize, and enhance text character sequences found within images, based on the need for information retrieval on systems that cannot crawl or access such information by any other means that is not a graphical representation. Motivated by our work alongside the Spanish National Cybersecurity Institute (INCIBE), we focus our research on recovering character sequences found within visualmedia of both darknet and industrial sources. We intend to support INCIBE products and services related to cybersecurity that may monitor potential illegal activities and critical infrastructures. To improve scene text recognition performance, we analyze images in terms of their irregularity, because some methods often claim to be robust on irregular datasets that contain a large amount of irregular text. After building a classification model for these categories, we created a new dataset, the Fully Irregular Text (FIT-Text) dataset, composed primarily of irregular images, with the intention that other methods, oriented to this problem, can use it to evaluate their performance. We propose a new performance metric, the Contained-Levenshtein (C-Lev) accuracy. Literature scene text recognizers have traditionally reported both the accuracy and the normalized edit distance on datasets as a performance metric, but never combined the two into a singular, effective metric that can help discern between severe and low priority mistakes. C-Lev also serves as a label-checking tool, helping methods stay robust against minor human-generated labeling errors. To increase scene text accuracy, we propose the integration of string-distance measurements as components of the loss functions in both CTC and Attention recognizers. Testing various distances as the proposed weight, we consider the Hamming distance the most beneficial, with a total improvement of over 6% accuracy using literature datasets. For scene text detectors, we propose a new metric that assigns value to scene text images according to their documented regions, the Text Density Distribution (TDD), which classifies visual media according to the spatial distribution of region clusters. We also propose using this metric to train scene text detectors, whilemonitoring their computational cost and performance balance. We note that the detection F1 score only drops 4% when using less than 30% of the training dataset, reducing the computational cost below half of the original approaches and noting how scene text detectors can performjust as well with reduced data. In our last contribution, we implement morphological operation layers in scene text systems to make both discarded regions more visible for any method and to reduce the amount of text-like false negatives. Since such operations can negatively impact the recognition stage of end-to-end systems, we combine these techniques with our previous recognition contributions, improving performance in end-to-end systems up to 1.5%with opening operations and smaller kernels. We also assist INCIBE in the classification of industrial screenshots as belonging to preestablished types, before post-processing techniques can be applied to further decisionmaking processes. Our proposals focus on computer vision, machine learning, data analysis, and data mining techniques, resulting in the creation of four datasets; TOICO-1K, related to Tor darknet, CRINF-300 and CRINF-Text for images related to the field of Industry 4.0, and FIT-Text for global scene task purposes focused on irregular-only texts. Using TOICO-1K, we evaluate the performance of scene text detectors, recognizers, end-to-end systems and Optical Character Recognition (OCR) systems on Tor images. We highlight the areas where each approach can be best utilized and the images and contexts they struggle most, proposing enhancements such as rectification, superresolution, and string-matching technique approaches. Our CRINF-300 and CRINF-Text provide a context for image classification of industrial screenshot systems and the application of end-to-end scene text within logging systems, using fine-tuning and transfer learning to create robust classifiers.

Materia

Ingeniería de sistemas

Palabras clave

URI

https://hdl.handle.net/10612/17748

DOI

10.18002/10612/17748

Aparece en las colecciones