Tesis doctoral en la red
Autor/ra:De Lucca, Jose Luiz
Fecha de lectura o defensa:14 de diciembre de 2011
Título de la tesis:PhraseNET: Detección y extracción automatizada de unidades fraseológicas
Director/a de la tesis:María Lluïsa Carrió Pastor
Universidad:Universitat Politècnica de València
Departamento:Departamento de Lingüística Apicada
País:España
Tesis completa en el Archivo de Infoling: http://www.infoling.org/repository/ID/167
Descripción de la tesisEsta tesis doctoral se centra en el campo de la Extracción de la Información (EI), en el que se investiga la efectividad de PhraseNET, es decir, una aplicación informática desarrollada para detectar y extraer unidades fraseológicas de un corpus determinado.
Presentamos en esta tesis la interfaz, las características lingüísticas y los recursos informáticos asociados a la evaluación de los resultados mediante un corpus de entrenamiento. Para ello, nos basamos en la clasificación propuesta por Corpas Pastor (1997) de las unidades fraseológicas y las locuciones. Presentamos un sistema que ha de poder extraer la información más relevante desde las unidades fraseológicas que se han propuesto con anterioridad, partiendo desde un corpus en portugués y en castellano.
El tema que abordamos en esta tesis doctoral es un hecho que preocupa a traductores y lingüistas, puesto que no es sencillo poder realizar las equivalencias lingüísticas de las unidades fraseológicas de dos lenguas.
Consideramos que, aunque en los diccionarios se contemplan las traducciones de las unidades fraseológicas, ha de existir una herramienta capaz de detectar sus posibles variaciones en la lengua, es decir, cuando se expresan con tiempos verbales distintos, en plural, etc.
La herramienta que proponemos extrae las unidades fraseológicas de un corpus textual, sea cual sea su forma y muestra sus equivalentes en otras lenguas.
El núcleo del sistema automático de extracción de las unidades fraseológicas es un algoritmo basado en un corpus del que se obtiene una lista de todas las unidades que se encuentran después de compararlas con un diccionario de patrones léxicos. La ventaja de este método, comparado con otros ya existentes, es que no se requiere un conocimiento muy especializado de la Fraseología para poder realizar la búsqueda.
Sin embargo, este proceso conlleva dificultades al adaptarlo a la extracción de unidades de otras lenguas, dificultades que están inherentes en la misma naturaleza de la metodología de la Extracción de la Información.
Por ello, PhraseNET está en constante evolución y continuamente hemos cambiado aspectos para mejorar su funcionamiento.
Los objetivos que plantemos en este estudio son, por un lado, poder diseñar una herramienta que nos permita reconocer unidades fraseológicas (UFs) sin tener en cuenta su forma, por otro, detectarlas en su entorno con ejemplos que identifiquen su ubicación en el corpus y finalmente, poder identificarlos mismos patrones en varias lenguas.
Una vez diseñada la herramienta y descritas las distintas partes que la componen y sus utilidades, finalizamos este estudio concluyendo que PhraseNET suele extraer sin dificultades las siguientes variaciones de las UFs: morfológicas, sintácticas, léxicas, de casillas vacías, diatópicas, diastráticas y diafásicas, las modificaciones internas (como suele ser la reducción de las UFs mediante la eliminación o adición de alguno de sus componentes) y las externas (en la periferia). Somos conscientes de que este estudio posee ciertos aspectos que no hemos incluido como parte del estudio, pero hemos conseguido los objetivos marcados desde el principio y, con ello, delimitar la base de la herramienta para poder mejorar su funcionamiento en el futuro.
Presentamos en esta tesis la interfaz, las características lingüísticas y los recursos informáticos asociados a la evaluación de los resultados mediante un corpus de entrenamiento. Para ello, nos basamos en la clasificación propuesta por Corpas Pastor (1997) de las unidades fraseológicas y las locuciones. Presentamos un sistema que ha de poder extraer la información más relevante desde las unidades fraseológicas que se han propuesto con anterioridad, partiendo desde un corpus en portugués y en castellano.
El tema que abordamos en esta tesis doctoral es un hecho que preocupa a traductores y lingüistas, puesto que no es sencillo poder realizar las equivalencias lingüísticas de las unidades fraseológicas de dos lenguas.
Consideramos que, aunque en los diccionarios se contemplan las traducciones de las unidades fraseológicas, ha de existir una herramienta capaz de detectar sus posibles variaciones en la lengua, es decir, cuando se expresan con tiempos verbales distintos, en plural, etc.
La herramienta que proponemos extrae las unidades fraseológicas de un corpus textual, sea cual sea su forma y muestra sus equivalentes en otras lenguas.
El núcleo del sistema automático de extracción de las unidades fraseológicas es un algoritmo basado en un corpus del que se obtiene una lista de todas las unidades que se encuentran después de compararlas con un diccionario de patrones léxicos. La ventaja de este método, comparado con otros ya existentes, es que no se requiere un conocimiento muy especializado de la Fraseología para poder realizar la búsqueda.
Sin embargo, este proceso conlleva dificultades al adaptarlo a la extracción de unidades de otras lenguas, dificultades que están inherentes en la misma naturaleza de la metodología de la Extracción de la Información.
Por ello, PhraseNET está en constante evolución y continuamente hemos cambiado aspectos para mejorar su funcionamiento.
Los objetivos que plantemos en este estudio son, por un lado, poder diseñar una herramienta que nos permita reconocer unidades fraseológicas (UFs) sin tener en cuenta su forma, por otro, detectarlas en su entorno con ejemplos que identifiquen su ubicación en el corpus y finalmente, poder identificarlos mismos patrones en varias lenguas.
Una vez diseñada la herramienta y descritas las distintas partes que la componen y sus utilidades, finalizamos este estudio concluyendo que PhraseNET suele extraer sin dificultades las siguientes variaciones de las UFs: morfológicas, sintácticas, léxicas, de casillas vacías, diatópicas, diastráticas y diafásicas, las modificaciones internas (como suele ser la reducción de las UFs mediante la eliminación o adición de alguno de sus componentes) y las externas (en la periferia). Somos conscientes de que este estudio posee ciertos aspectos que no hemos incluido como parte del estudio, pero hemos conseguido los objetivos marcados desde el principio y, con ello, delimitar la base de la herramienta para poder mejorar su funcionamiento en el futuro.
Área temática:Lexicografía, Lexicología, Lingüística computacional, Lingüística de corpus
ÍndiceÍNDICE DE FIGURAS
ÍNDICE DE TABLAS
1 INTRODUCCIÓN
2 LA FRASEOLOGÍA
2 1 El concepto de Fraseología
2 2 Definición de las unidades fraseológicas
2 3 Características de las unidades fraseológicas
2 4 Tipología y clasificación de las unidades fraseológicas
2 5 Las corrientes investigadoras de la Fraseología
3 VARIACIÓN Y VARIANTE HACIA UNA CLASIFICACIÓN DE LAS VARIACIONES Y VARIANTES
3 1 La definición de variación y variante
3 2 La tipología de las variantes
3 2 1 Variante fónica
3 2 2 Variante morfológica
3 2 3 Variante morfosintáctica
3 2 4 Variante sintáctica
3 2 5 Variante léxica
3 2 6 Modificación y desautomatización
3 2 7 Variantes lingüísticas y socioculturales
4 LA EXTRACCIÓN DE LA INFORMACIÓN
4 1 Evaluación de los sistemas de extracción de la información
4 2 Métricas de evaluación
4 3 Los métodos
4 4 Tipos de aproximaciones
4 5 Sistemas informáticos de extracción de las unidades fraseológicas
5 OBJETIVOS
6 ARQUITECTURA
6 1 Módulo de Acceso
6 2 Módulo de Extracción de la Información
6 3 Módulo Base de Datos
6 3 1 La base de datos del sistema
6 3 2 El diccionario de patrones
6 4 El corpus de entrenamiento
6 4 1 El muestreo aleatorio simple
6 4 2 Procesamiento del corpus
7 EL MODELO DEL ESPACIO VECTORIAL
7 1 El Sistema SMART
7 2 Medidas de similitud
7 3 El cálculo vectorial
8 LOS RESULTADOS DE PHRASENET
8 1 La interfaz del usuario
8 2 Los experimentos de PhraseNET
9 CONCLUSIONES
10 BIBLIOGRAFÍA
11 ANEJO I
12 RESÚMENES
ÍNDICE DE TABLAS
1 INTRODUCCIÓN
2 LA FRASEOLOGÍA
2 1 El concepto de Fraseología
2 2 Definición de las unidades fraseológicas
2 3 Características de las unidades fraseológicas
2 4 Tipología y clasificación de las unidades fraseológicas
2 5 Las corrientes investigadoras de la Fraseología
3 VARIACIÓN Y VARIANTE HACIA UNA CLASIFICACIÓN DE LAS VARIACIONES Y VARIANTES
3 1 La definición de variación y variante
3 2 La tipología de las variantes
3 2 1 Variante fónica
3 2 2 Variante morfológica
3 2 3 Variante morfosintáctica
3 2 4 Variante sintáctica
3 2 5 Variante léxica
3 2 6 Modificación y desautomatización
3 2 7 Variantes lingüísticas y socioculturales
4 LA EXTRACCIÓN DE LA INFORMACIÓN
4 1 Evaluación de los sistemas de extracción de la información
4 2 Métricas de evaluación
4 3 Los métodos
4 4 Tipos de aproximaciones
4 5 Sistemas informáticos de extracción de las unidades fraseológicas
5 OBJETIVOS
6 ARQUITECTURA
6 1 Módulo de Acceso
6 2 Módulo de Extracción de la Información
6 3 Módulo Base de Datos
6 3 1 La base de datos del sistema
6 3 2 El diccionario de patrones
6 4 El corpus de entrenamiento
6 4 1 El muestreo aleatorio simple
6 4 2 Procesamiento del corpus
7 EL MODELO DEL ESPACIO VECTORIAL
7 1 El Sistema SMART
7 2 Medidas de similitud
7 3 El cálculo vectorial
8 LOS RESULTADOS DE PHRASENET
8 1 La interfaz del usuario
8 2 Los experimentos de PhraseNET
9 CONCLUSIONES
10 BIBLIOGRAFÍA
11 ANEJO I
12 RESÚMENES
Número de págs.:389
Fecha de publicación en Infoling:6 de octubre de 2015
Remitente:
Jose Luiz De Lucca
Universitat Politècnica de València
<JLDLME
HOTMAIL.COM>
Universitat Politècnica de València
<JLDLME
