RT info:eu-repo/semantics/doctoralThesis T1 Image feature representation using deep learning for instance search and scene recognition = Representación de características de la imagen utilizando el aprendizaje profundo para la búsqueda de instancias y el reconocimiento de escenas A1 Saikia, Surajit A2 Ingenieria de Sistemas y Automatica K1 Ingeniería de sistemas K1 Algoritmos computacionales K1 Percepción visual K1 1203.04 Inteligencia Artificial K1 1203.14 Sistemas de Control del Entorno AB [ES] Esta tesis investiga la creación de algoritmos novedosos para representar imágenes con el fin de abordar dos áreas importantes en el campo de la visión por ordenador: la recuperación de imágenes basada en el contenido (CBIR, del inglés Content-Based Image Retrieval) y el reconocimiento de escenas. Los sistemas CBIR se pueden clasificar en dos tipos, recuperación a nivel de instancia y recuperación a nivel de categoría, y en esta tesis abordamos la primera. Motivados por nuestro trabajo conjunto con INCIBE, construimos sistemas basados en el aprendizaje profundo que pueden ayudar a las Fuerzas de Seguridad a cotejar las evidencias en las investigaciones de la escena del crimen, además de a una amplia gama de otras aplicaciones. En particular, proponemos dos algoritmos para la CBIR, uno basado en la descripción del color de los objetos y otro en la descripción de la textura de parches en imágenes. Además, proponemos un método adicional, que permite predecir y recuperar escenas, basándose en la combinación del contenido local y global de la escena. Los sistemas CBIR para la recuperación a nivel de instancia tienen como objetivo recuperar imágenes de una base de datos de imágenes o vídeos que contengan el mismo objeto o escena que el representado en una imagen de consulta. Introducimos dos algoritmos para abordar esta tarea con el fin de ganar robustez frente a las variaciones de color y textura, respectivamente. Por un lado, proponemos descriptores neuronales de color que se componen de características de redes neuronales convolucionales (CNN, del inglés Convolutional Neural Networks) obtenidas mediante la combinación de diferentes espacios de color y canales de color. A diferencia de los trabajos anteriores, que se basan en el ajuste fino de las redes preentrenadas, nosotros calculamos los descriptores propuestos basándonos en las activaciones generadas a partir de una CNN preentrenada sin ajuste fino. Además, aprovechamos un detector de objetos para optimizar la arquitectura de recuperación de instancias propuesta para generar características tanto a escala local como global. Adicionalmente, introducimos una técnica de expansión de consultas basada en zancadas (strides en inglés) para recuperar objetos de conjuntos de datos multivista. Finalmente, demostramos experimentalmente que los descriptores neuronales de color propuestos obtienen resultados superiores al estado del arte en los conjuntos de datos Paris 6K, Revisiting-Paris 6k, INSTRE-M y COIL-100, con una precisión media de 81, 70%, 82, 02%, 78, 8% y 97, 9%, respectivamente. Posteriormente, nos centramos en describir y utilizar las propiedades de textura de las imágenes. En las investigaciones de escenas de un crimen, algunas pistas pueden provenir de parches de textura de las imágenes que no contienen mucha información sobre el contorno del objeto, como puede ser una camiseta tirada en el suelo. Para definir las características de dichas imágenes, los patrones de textura conforman los principales indicios para obtener una descripción visual. Proponemos un nuevo descriptor de características de textura que se basa en la combinación de las imágenes espaciales y sus mapas de transformada discreta de Fourier. Además, presentamos un nuevo y eficiente modelo de recuperación de imágenes basado en la textura, que se apoya en una red de propuesta de regiones, autocodificadores convolucionales y aprendizaje por transferencia. Extraemos las características de la capa de espacio latente del codificador como descriptores de textura compactos. Realizamos experimentos para validar la eficacia del método propuesto y obtuvimos tasas de recuperación medias de 80, 36%, 90, 25% y 81, 02% en los conjuntos de datos Outex, USPtex y Stex. Ademas, también experimentamos con el conjunto de datos TextileTube, que consiste en imágenes en un escenario real de interior. En este caso, calculamos las medias aritméticas de la precisión@k para tres intervalos diferentes, en los que k tomaría valores en los intervalos [1, 10], [1, 20] y [1, 30], siendo los resultados obtenidos de 99, 2%, 93, 2% y 67, 9%, respectivamente. Además, el rendimiento obtenido en estos cuatro conjuntos de datos superó los resultados del estado del arte recogidos en la literatura. La segunda área de investigación se refiere al reconocimiento de escenas en interiores, que es una tarea desafiante y en expansión en el campo de la visión por ordenador. Aunque las CNN pueden obtener resultados extraordinarios en el reconocimiento de escenas en exteriores, su rendimiento carece de la misma solidez en el reconocimiento de escenas en interiores. Esto se debe a la alta variabilidad espacial de las claves semánticas (por ejemplo, los objetos) y a la presencia de objetos similares en diferentes categorías de escenas. Para superar estos problemas, proponemos DeepScenePip (DSP), un pipeline con tres módulos: object-centric y objectsto-scene, y scene-centric, que se centran independientemente en el contenido local y global de la escena, respectivamente. El proceso propuesto tiene tres componentes novedosos. En primer lugar, produce una descripción de la imagen a partir de las etiquetas de los objetos reconocidos para predecir las escenas mediante un enfoque de procesamiento del lenguaje natural. En segundo lugar, utiliza una función de peso que combina la información sobre el objeto y la escena para realizar una predicción global de la misma. En tercer lugar, incluye una técnica de expansión de consultas que resulta muy beneficiosa para la recuperación de escenas. Hemos evaluado nuestro enfoque para el reconocimiento y la recuperación de escenas en interiores en tres conjuntos de datos públicos: MIT-67 Indoor, NYU-v2 y Hotels-50k. La precisión alcanzada (MIT-67 Indoor = 94, 5%, NYU-v2 = 74, 5% y la precisión top-1 10, 1% sin oclusión y 7,8% con oclusión media en el Hotels-50k) demostró la eficacia del método propuesto, que también supera significativamente los enfoques del estado del arte existentes. Esta tesis contribuye al desarrollo de métodos para crear descriptores robustos a los cambios de color, textura y punto de vista y presenta marcos para utilizarlos en sistemas CBIR y de reconocimiento de escenas. [EN] This thesis investigates the creation of novel algorithms for representing imagesto address two important areas in the field of computer vision: content-based image retrieval (CBIR) and scene recognition. CBIR can be classified into two types,instance-level retrieval and category-level retrieval, and in this thesis, we addressthe former. Motivated by our joint work with INCIBE, we build deep learning-basedsystems that can help Law Enforcement Agencies to match evidences in crime sceneinvestigations, among a wide range of other applications. In particular, we proposetwo algorithms for CBIR, one based on the colour description of objects and theother one on the texture description of patches on images, and another additionalalgorithm for scene prediction and retrieval that relies on the combination of localand global scene content.CBIR for instance-level retrieval aims at retrieving images from an image orvideo database that contain the same object or scene as the one depicted in a queryimage. We introduce two algorithms to address this task in order to gain robustnessagainst colour and texture variances, respectively. On the one hand, we propose colour neural descriptors that are composed of convolutional neural networks (CNNs)features obtained by combining different colour spaces and colour channels. In contrast to previous works, which rely on fine-tuning pre-trained networks, we compute the proposed descriptors based on the activations generated from a pre-trainedCNN without fine-tuning. Also, we take advantage of an object detector to optimize the proposed instance retrieval architecture to generate features at both local andglobal scales. In addition, we introduce a stride based query expansion techniqueto retrieve objects from multi-view datasets. Finally, we experimentally demonstrated that the proposed colour neural descriptors obtain state-of-the-art results onthe Paris 6K, Revisiting-Paris 6k, INSTRE-M and COIL-100 datasets, with mean average precision of 81.70%, 82.02%, 78.8% and 97.9%, respectively.On the other hand, we focus on the texture properties of images. In crime sceneinvestigations, some clues may come from texture patches of images that do not contain much information about the object contour, like a t-shirt lying on the floor. Todefine the characteristics of such images, the texture patterns are the prime cues forvisual descriptions. We propose a novel texture feature descriptor that is based onthe combination of the spatial images and their discrete Fourier transform maps. Wefurther present a new and efficient texture-based image retrieval framework basedon a region proposal network, convolutional autoencoders and transfer learning.We extract the features from the latent space layer of the encoder as compact texturedescriptors. We conducted experiments to validate the effectiveness of the proposedmethod and obtained average retrieval rates of 80.36%, 90.25%, and 81.02% on theOutex, USPtex, and Stex datasets. In addition, we also experimented with the TextileTube dataset, that consists of images from a real indoor real scenario. In thiscase, we calculated the arithmetic means of precision@k for three different intervals,where k ranges from 1 to 10, 1 to 20 and 1 to 30, and the obtained results were99.2%, 93.2% and 67.9%, respectively. Besides, the performance achieved in thesefour datasets outperformed the state-of-the-art results reported in the literature.The second area of research concerns indoor scene recognition, which is a challenging and growing task in the field of computer vision. Although CNNs canachieve outstanding results on outdoor scene recognition, their performance lackssimilar robustness in the recognition of indoor scenes. This is due to the high spatial variability in semantic cues (e.g. objects), and due to the presence of similarobjects throughout different scene categories. To overcome these issues, we proposeDeepScenePip (DSP), a pipeline with three modules: object-centric, objects-to-sceneand scene-centric, which independently focus on local and global scene content, respectively. The proposed pipeline has three novel components. Firstly, it producesan image caption from the recognized object labels to predict scenes using a natural language processing approach. Secondly, it relies on a weight function thatcombines object and scene information for an overall scene prediction. Thirdly,it includes a query expansion technique which turns out to be very beneficial inscene retrieval. We evaluated our approach for indoor scene recognition and indoorscene retrieval on three public datasets: MIT-67 Indoor, NYU-v2 and Hotels-50k.The accuracy achieved (MIT-67 Indoor = 94.5%, NYU-v2 = 74.5% and top-1 accuracy 10.1% without occlusion and 7.8% with medium occlusion on the Hotels-50k)demonstrated the effectiveness of the proposed method, which also significantlyoutperforms existing state-of-the-art approaches.This thesis contributes to the development of methods for creating robustdescriptors to colour, texture and view-point changes and presents frameworks touse them in CBIR and scene recognition systems. LK http://hdl.handle.net/10612/15059 UL http://hdl.handle.net/10612/15059 NO 173 DS BULERIA. Repositorio Institucional de la Universidad de León RD 20-abr-2024