Compartir
Título
Applications of scene text spotting to the darknet and industry 4.0
Autor
Director/es
Facultad/Centro
Área de conocimiento
Cita Bibliográfica
Blanco Medina, P. (2023). Applications of scene text spotting to the darknet and industry 4.0. [Tesis doctoral, Universidad de León]
Fecha
2023-11-30
Resumen
[ES] En esta tesis, proponemos nuevos algoritmos, métodos y conjuntos de datos que pueden
ser utilizados para detectar, reconocer y mejorar secuencias de caracteres de texto
encontradas dentro de imágenes, basándonos en la necesidad de recuperación de información
en sistemas que no pueden rastrear o acceder a dicha información por otro
medio que no sea una representación gráfica.Motivados por nuestro trabajo junto al Instituto
Nacional de Ciberseguridad (INCIBE), nuestra investigación recupera secuencias
de caracteres localizadas dentro de medios visuales tanto de Darknets como de sistemas
industriales. Con ello, pretendemos dar soporte a los productos y servicios relacionados
con la ciberseguridad, para monitorizar posibles actividades ilegales e infraestructuras
críticas.
Para mejorar el rendimiento del reconocimiento de texto, analizamos las imágenes en
función de su irregularidad, ya que los métodos suelen afirmar ser robustos en conjuntos
de datos irregulares, cuando estos contienen una gran cantidad de texto regular. Después
de construir un modelo de clasificación para estas categorías, creamos un nuevo conjunto
de datos, el conjunto Texto Totalmente Irregular (FIT-Text en Inglés), compuesto exclusivamente
por imágenes irregulares, que los métodos de la literatura pueden utilizar para
mejorar sus resultados en este tipo de imágenes.
Proponemos una nueva métrica de rendimiento, la precisión Contained-Levenshtein
(C-Lev), que utilizamos en reconocimiento de texto. Tradicionalmente, los reconocedores
de texto de la literatura informan tanto de su precisión como de la distancia de edición
normalizada (edit distance) en conjuntos de datos como principales métricas de rendimiento,
pero nunca han combinado ambas en una métrica singular y eficaz, que pueda
ayudar a discernir entre errores leves y graves. C-Lev también funciona como herramienta
de comprobación del etiquetado de los conjuntos de datos, lo cual ayuda a los métodos
a mantenerse robustos frente a errores humanos de etiquetado.
En tercer lugar, para aumentar la métrica de precisión en reconocimiento de texto,
proponemos la integración de medidas de distancia entre cadenas de caracteres como
componentes de las funciones de pérdida. Consideramos que la distancia deHamming es
la más beneficiosa en el entrenamiento de estosmétodos, con una mejora total registrada
de más de 6% de precisión en conjuntos de datos de la literatura.
Para los detectores de texto, proponemos una nueva métrica que asigna valor a las
imágenes según sus regiones documentadas, la Distribución de Densidad de Texto (TDD
en inglés), que clasifica los medios visuales según su cantidad y distribución espacial de
regiones. Proponemos utilizar esta métrica para seleccionar conjuntos reducidos de datos
con los que entrenar detectores de texto, reduciendo su coste computacional y preservando
su rendimiento. Observamos que la F1 score de la detección sólo disminuye en un 4%
cuando se utiliza menos del 30% del conjunto de datos de entrenamiento, reduciendo el
coste computacional a menos de la mitad y poniendo de manifiesto que los detectores de
texto pueden funcionar de forma similar con datos reducidos.
En nuestra última contribución, implementamos capas de operaciones morfológicas
en los sistemas de detección de texto para hacer que regiones erróneamente descartadas
sean más visibles para los métodos, así como reducir la cantidad de falsos negativos en
detección de texto.Dado que estas operaciones pueden afectar negativamente a la fase de
reconocimiento de los sistemas que combinan ambas tareas, combinamos estas técnicas
con nuestras contribuciones en el campo de reconocimiento,mejorando su rendimiento
global.
Algunas de nuestras contribuciones ya han sido incorporadas en herramientas y servicios
desarrollados por INCIBE, que ayudan al Equipo de Respuesta a Emergencias Informáticas
de INCIBE (INCIBE-CERT) y a las Fuerzas y Cuerpos de Seguridad del Estado
(FFCCSE) a recuperar textos contenidos en darknets como Tor, y a clasificar capturas
de pantalla de entornos industriales en tipos preestablecidos antes de aplicar técnicas de
postprocesado en sistemas de toma de decisiones.Nuestras propuestas se centran en técnicas
de visión por ordenador, aprendizaje automático, análisis y minería de datos, dando
como resultado la creación de cuatro conjuntos de datos: TOICO-1K, relacionado con la
darknet Tor, CRINF-300 y CRINF-Text para imágenes relacionadas con el ámbito de la
Industria 4.0, y FIT-Text para textos exclusivamente irregulares.
Utilizando TOICO-1K, evaluamos el rendimiento de detectores, reconocedores y sistemas
de reconocimiento óptico de caracteres (OCR). Destacamos las áreas en las que
cada enfoque puede aprovecharse mejor y las imágenes y contextos con los que tienen
más dificultades, proponiendo mejoras como técnicas de rectificación, resolución y búsqueda
de caracteres similares. CRINF-300 y CRINF-Text proporcionan un contexto para
la clasificación de imágenes de sistemas industriales de capturas de pantalla, tanto para
la detección y el reconocimiento de extremo a extremo que se encuentran en los sistemas
de registro, como mediante técnicas de clasificación utilizando fine tuning y transfer
learning para generar clasificadores de imágenes industriales. Por último, proponemos
FIT-Text para ayudar a los reconocedores a discernir su verdadero rendimiento frente a
imágenes irregulares, tras detectar una elevada presencia de texto regular dentro de conjuntos
de datos descritos a menudo como irregulares. [EN] In this thesis,wework on the task of Text Spotting, within the field of Computer Vision.
In this manuscript, we propose new algorithms, methods, and datasets that can be used
to detect, recognize, and enhance text character sequences found within images, based
on the need for information retrieval on systems that cannot crawl or access such information
by any other means that is not a graphical representation. Motivated by our work
alongside the Spanish National Cybersecurity Institute (INCIBE), we focus our research
on recovering character sequences found within visualmedia of both darknet and industrial
sources. We intend to support INCIBE products and services related to cybersecurity
that may monitor potential illegal activities and critical infrastructures.
To improve scene text recognition performance, we analyze images in terms of their
irregularity, because some methods often claim to be robust on irregular datasets that
contain a large amount of irregular text. After building a classification model for these
categories, we created a new dataset, the Fully Irregular Text (FIT-Text) dataset, composed
primarily of irregular images, with the intention that other methods, oriented to this problem,
can use it to evaluate their performance.
We propose a new performance metric, the Contained-Levenshtein (C-Lev) accuracy.
Literature scene text recognizers have traditionally reported both the accuracy and the
normalized edit distance on datasets as a performance metric, but never combined the
two into a singular, effective metric that can help discern between severe and low priority
mistakes. C-Lev also serves as a label-checking tool, helping methods stay robust against
minor human-generated labeling errors.
To increase scene text accuracy, we propose the integration of string-distance measurements
as components of the loss functions in both CTC and Attention recognizers.
Testing various distances as the proposed weight, we consider the Hamming distance the
most beneficial, with a total improvement of over 6% accuracy using literature datasets.
For scene text detectors, we propose a new metric that assigns value to scene text images
according to their documented regions, the Text Density Distribution (TDD), which
classifies visual media according to the spatial distribution of region clusters. We also propose
using this metric to train scene text detectors, whilemonitoring their computational
cost and performance balance. We note that the detection F1 score only drops 4% when using less than 30% of the training dataset, reducing the computational cost below half of
the original approaches and noting how scene text detectors can performjust as well with
reduced data.
In our last contribution, we implement morphological operation layers in scene text
systems to make both discarded regions more visible for any method and to reduce the
amount of text-like false negatives. Since such operations can negatively impact the recognition
stage of end-to-end systems, we combine these techniques with our previous
recognition contributions, improving performance in end-to-end systems up to 1.5%with
opening operations and smaller kernels.
We also assist INCIBE in the classification of industrial screenshots as belonging to
preestablished types, before post-processing techniques can be applied to further decisionmaking
processes. Our proposals focus on computer vision, machine learning, data analysis,
and data mining techniques, resulting in the creation of four datasets; TOICO-1K,
related to Tor darknet, CRINF-300 and CRINF-Text for images related to the field of Industry
4.0, and FIT-Text for global scene task purposes focused on irregular-only texts.
Using TOICO-1K, we evaluate the performance of scene text detectors, recognizers,
end-to-end systems and Optical Character Recognition (OCR) systems on Tor images. We
highlight the areas where each approach can be best utilized and the images and contexts
they struggle most, proposing enhancements such as rectification, superresolution,
and string-matching technique approaches. Our CRINF-300 and CRINF-Text provide a
context for image classification of industrial screenshot systems and the application of
end-to-end scene text within logging systems, using fine-tuning and transfer learning to
create robust classifiers.
Materia
Palabras clave
URI
DOI
Aparece en las colecciones
- Tesis [1354]
Ficheros en el ítem
Tamaño:
26.47
xmlui.dri2xhtml.METS-1.0.size-megabytes
Formato:
Adobe PDF