2024-03-28T09:47:37Zhttp://buleria.unileon.es/oai/requestoai:buleria.unileon.es:10612/69202023-06-01T10:11:07Zcom_10612_17col_10612_476
Creación de un Framework para el tratamiento de corpus lingüísticos = Development of a Framework for corpus linguistic analysis
Sanjurjo González, Hugo
Alaiz Moretón, Héctor
Rabadán Álvarez, Rosa
A pesar de los indudables avances en el software para el tratamiento de corpus lingüísticos en los últimos tiempos, ya sea por medio de procesamiento de corpus cada vez más grandes o inclusión de estadísticas más complejas, sigue sin tenerse en cuenta la usabilidad y el perfil no técnico del usuario final. La situación resulta más evidente cuando se trabaja con lenguas distintas del inglés y con combinaciones de lenguas, ya que la tipología y especificidad de las mismas incide en los requisitos del software, y por este motivo la disponibilidad de recursos es menor y de peor calidad.
El estado de la cuestión revela que la creación de corpus lingüísticos bi-/multilingües paralelos o comparables, así como la incorporación de etiquetados lingüísticos en los frameworks para el tratamiento de corpus lingüísticos ya existentes, obliga al usuario a disponer de ciertos conocimientos de programación, o al menos a saber ejecutar programas con usabilidad reducida y/o scripts informáticos propios, para ajustar el corpus a los requisitos establecidos por el framework utilizado. Si no se dan estas condiciones, es indispensable contar con especialistas técnicos con habilidades en programación y NLP (por sus siglas en inglés Natural Language Processing).
El objetivo de la tesis doctoral es, por tanto, el desarrollo de un software, denominado ACTRES Corpus Manager, que permita a los usuarios lingüistas construir sus propios corpus lingüísticos (monolingües, paralelos bi-/multilingües o comparables) con distintas capas de anotación (gramatical, semántica o retórica) y obtener datos lingüísticos y estadísticos sin necesidad sin necesidad de asistencia técnica en ningún punto del proceso e independientemente de las habilidades técnicas del usuario.
La estrategia seleccionada para el desarrollo de ACTRES Corpus Manager es la creación de un framework accesible vía web formado por distintos componentes interconectados entre sí. Cada actividad necesaria para la creación de un corpus es asignada a cada uno de estos componentes, posibilitando su fácil modificación y reutilización. ACTRES Corpus Manager combina la utilización de recursos software de terceros, cuya eficiencia y validez haya sido demostrada (ej. The IMS Corpus Workbench, Treetagger, hunalign, etc.), junto con soluciones software propias en aquellos procesos que el estado de la cuestión ha relevado más inmaduros y/o complejos de integrar (etiquetador retórico, etiquetador semántico, etc.).
Por último, señalar que la interfaz de consulta de ACTRES Corpus Manager se inspira en P-ACTRES 2.0 y permite la realización de consultas complejas asistidas, basadas en expresiones regulares, así como la extracción de las estadísticas habituales, sin necesidad de que el usuario disponga de conocimientos específicos de la sintaxis del lenguaje de consulta utilizado
2017-11-13
info:eu-repo/semantics/doctoralThesis
http://hdl.handle.net/10612/6920
https://buleria.unileon.es/bitstream/10612/6920/3/Tesis%20Hugo%20Sanjurjo.pdf.txt
0193f93699c38f590ee4001cfdca366e
https://buleria.unileon.es/bitstream/10612/6920/1/Tesis%20Hugo%20Sanjurjo.pdf
1e5ee89023ff9f9555e7b85cbac41fdb
https://buleria.unileon.es/bitstream/10612/6920/2/license.txt
2afe00e6e6eabe127e18eca38b9388ab
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Lengua inglesa
Lenguajes de programación
Framework
Lingüística computacional
Corpus lingüísticos
10.18002/10612/6920