Tesis doctoral en la redInfoling 6.53 (2014)

Autor/ra:Balbachan, Fernando
Fecha de lectura o defensa:23 de julio de 2014
Título de la tesis:Técnicas de clustering para inducción de categorías sintácticas en español
Director/a de la tesis:Zulema Solana
Codirección:Carlos Reynoso
Universidad:Universidad de Buenos Aires
Departamento:Facultad de Filosofía y Letras
País:Argentina
Descripción de la tesisDe: Fernando Balbachan . 2014. Técnicas de Clustering para Inducción de Categorías Sintácticas en Español. Tesis de doctorado, Universidad de Buenos Aires, págs. 10-12:

"La siguiente tesis de doctorado se propone como un aporte original al campo de la lingüística computacional, específicamente en la tarea de inducción de gramáticas formales (grammar inference) a partir de datos lingüísticos primarios no estructurados. Específicamente, se ofrecerá una modelización plausible al problema de la categorización temprana de palabras durante el proceso de adquisición del lenguaje para el idioma español. Si bien la particularización del modelo sobre un lenguaje puntual resulta fundamental cuando se trabaja en modelización formal estadística, de modo de recrear algorítmicamente las mismas condiciones de posibilidad de inducción de fenómenos sintácticos en comparación con aquellas de que disponen los adquirientes de un lenguaje natural, se espera que el enfoque resulte aplicable a cualquier idioma en virtud de las premisas generales de la hipótesis. En este sentido, debido a la naturaleza transdisciplinaria del enfoque, la tesis releva diversos trabajos con afiliaciones científicas que oscilan entre la psicolingüística, la lingüística formal y la lingüística computacional, en pos de compatibilizar la modelización postulada con la plausibilidad empírica.

La hipótesis central de la tesis es, en alguna medida, un argumento indirecto contra el Argumento de la Probreza de los Estímulos (Argument from the Poverty of the Stimulus APS) en cuanto a que los Datos Lingüísticos Primarios (Primary Linguistic Data PLD) presentarían cierta riqueza factible de ser explotada mediante un mecanismo de aprendizaje general (no específico de dominio), tornando innecasaria la postulación de una Gramática Universal (GU) como requisito para la adquisición del lenguaje. A la luz de este argumento central, la categorización de palabras se presenta como un proceso crucial para la adquisición de una sintaxis rudimentaria. En efecto, esta habilidad temprana es el punto de partida para la construcción de una gramática por parte de los adquirientes de un lenguaje.

La tesis se organiza en nueve capítulos, comenzando por la inserción del proyecto en un paradigma científico específico de investigación lingüística: el paradigma estadístico de la lingüística computacional.

El primer capítulo describe entonces los principios epistemológicos de los paradigmas de investigación en lingüística computacional y los distintos enfoques sobre el problema de la adquisición del lenguaje que derivan de la adscripción a cada uno de ellos. En este capítulo inicial también se presenta el debate en torno al Argumento de la Pobreza de los Estímulos, que se configura como nudo gordiano de la discusión sempiterna entre el innatismo y el empirismo.

El capítulo 2 presenta la hipótesis central y la metodología de este trabajo como un aporte a la comprobación empírica de la riqueza estructural de los Datos Lingüísticos Primarios para la adquisición del lenguaje mediante mecanismos generales de aprendizaje no supervisado. En particular, esta tesis se centra sobre la etapa temprana de categorización de palabras como punto de partida para la inducción de sintaxis. El capítulo también incluye una diferenciación operativa entre las palabras funcionales y las palabras de contenido. La distinción entre palabras funcionales y palabras de contenido resulta de vital importancia para esta tesis, ya que veremos que la evidencia empírica y la modelización estadística contemplan diferencias muy notables para cada una de estas clases de palabras en el proceso ontogenético de adquisición del lenguaje.

El capítulo 3 pasa revista a los modelos formales con motivación psicolingüística que se propusieron para dar cuenta específicamente de la categorización temprana de palabras (Mintz 2002, 2003; Christophe et al. 2008). En particular, notaremos cómo estas propuestas adolecen de contradicciones empíricas o teóricas para abarcar el fenómeno.

El capítulo 4 explica en detalle la definición de las técnicas estadísticas de clustering como mecanismo de aprendizaje general no supervisado. Se pasa revista a los distintos algoritmos (clustering jerárquico y no jerárquico), como así también a diversas métricas específicas de la evaluación de la robustez de los clusters.

El capítulo 5 se explaya sobre el estado de la cuestión en torno a las técnicas de clustering para la tarea específica de inducción de categorías sintácticas, ya en el campo del paradigma estadístico de la lingüística computacional. Entre esos trabajos debemos destacar en particular los de Redington et al. (1998) y Clark (2002), cuyos lineamientos generales estaremos siguiendo en el diseño de nuestros propios experimentos.

El capítulo 6 analiza en detalle la tesis de doctorado de Wang (2012), un trabajo muy reciente que reproduce, en gran medida, el enfoque transdisciplinario con el que trabajaremos en nuestros experimentos: modelización formal estadística y adecuación explicativa ante la evidencia empírica psicolingüística. Wang (2012) trabaja específicamente con la modelización de la tarea de categorización de palabras funcionales en inglés y en alemán, con premisas de modelización que toman en cuenta la evidencia ontogenética de la adquisición del lenguaje. La tesis de doctorado de Wang (2012) es uno de los pocos trabajos en ofrecer una explicación plausible de la categorización temprana de palabras funcionales, no sólo de la de palabras de contenidos.

El capítulo 7 presenta nuestro propio experimento de categorización de palabras de contenido en español, bajo la premisa del pre-requisito de identificación de palabras funcionales sin tipología diferenciada. El experimento propone, además, algunas modificaciones metodológicas a los trabajos clásicos en técnicas de clustering. Se incluye una exhaustiva evaluación de los datos de salida del experimento.

El capítulo 8 describe otro experimento de inducción de fenómenos sintácticos, conectado con el anterior. Básicamente, se sostiene la plausibilidad algorítmica de aprovechar la información de salida del experimento del capítulo 7 como punto de partida para la construcción de una sintaxis rudimentaria, mediante la inducción de constituyentes sintácticos a partir de la etiquetación morfosintáctica de palabras.

El capítulo 9 retoma el debate en torno al Argumento de la Pobreza de los Estímulos, pero, en esta ocasión, con énfasis en los mecanismos cognitivos que plausiblemente actuarían durante el proceso de adquisición del lenguaje. Se ofrece un exhaustivo relevamiento de las posiciones tradicionales en torno al problema y una relectura de las mismas a la luz de los resultados del experimento central de esta tesis. Este capítulo final también apunta algunas conclusiones generales y traza las líneas de investigación a futuro.

En la parte final de la tesis se adjuntan varios anexos con datos de salida de los dos experimentos propuestos en esta tesis y herramientas de facilitación de la lectura: listado de siglas e índice alfabético de conceptos."
Área temática:Adquisición del español como lengua primera (L1), Lingüística cognitiva, Lingüística computacional, Psicolingüística
Tesis completa en el Archivo de Infoling: http://www.infoling.org/repository/ID/126
ÍndiceAgradecimientos
Organización de la tesis
Resumen

Capítulo 1. El debate epistemológico en torno a un problema recurrente
1.1 Paradigmas de investigación en linguística
1.2 El problema de la adquisición del lenguaje
1.3 La pobreza de los estímulos y la riqueza de lo innato
1.4 El Teorema de Gold revisitado

Capítulo 2. La modelización de sintaxis como procesos en cascada
2.1 Inducción de gramáticas y categorización de palabras como punto de partida
2.2 Hipótesis: palabras funcionales como facilitadoras de la categorización y de la adquisición de sintaxis
2.3 Palabras funcionales vs. palabras de contenido: una distinción operativa

Capítulo 3. Estado de la cuestión en categorización: modelos formales con motivación psicolingüística
3.1 La naturaleza de los indicios facilitadores
3.2 Necesidad o no de facilitadores para la categorización en un lenguaje artificial (Mintz 2002)
3.3 La propuesta de los marcos frecuentes (Mintz 2003; Chemla et al. 2009)
3.4 Facilitación mediante frases fonológicas y tipos de palabras funcionales: teoría de los “protoconstituyentes” (Christophe et al. 2008)

Capítulo 4. Técnicas de clustering como mecanismo de aprendizaje general no supervisado
4.1 Representación de objetos en el espacio vectorial multidimensional
4.2 Clustering jerárquico o aglomerativo
4.3 Clustering no jerárquico o partitivo
4.4 Consideraciones acerca de la pertinencia de las técnicas de clustering para la categorización de palabras

Capítulo 5. Estado de la cuestión en categorización: modelos formales basados en clustering
5.1 Dos décadas de inducción no supervisada de categorías de palabras mediante clustering
5.2 Brown et al. (1992)
5.3 Schütze (1993)
5.4 Redington et al. (1998)
5.4.0 Experimento 0 (inicial): Parámetros por default
5.4.1 Experimento 1: Diferentes contextos y diferentes coeficientes de corte
5.4.2 Experimento 2: Variación en el número de palabras target
5.4.3 Experimento 3: Discrimanción de resultados del experimento inicial 0 según POS-tag
5.4.4 Experimento 4: Variación del tamaño del corpus
5.4.5 Experimento 5: Agregado de información de límite de oraciones en el corpus
5.4.6 Experimento 6: Cambio en el criterio de similitud entre clusters
5.4.7 Experimento 7: Remoción de las palabras funcionales del corpus
5.4.8 Experimento 8: Cambios en la naturaleza del corpus
5.4.9 Valoración general del trabajo de Redington et al. (1998)
5.5 Martin et al. (1998)
5.6 Clark (2000, 2002, 2003)
5.7 Investigaciones actuales a partir de los trabajos fundacionales

Capítulo 6. Una propuesta conciliatoria entre la psicolingüística y la lingüística computacional (Wang 2012)
6.1 Categorización temprana de palabras funcionales
6.2 Omisión sistemática de categorías funcionales en el “discurso telegráfico” de los niños
6.3 Experimento 1 de Wang (2012): clustering jerárquico sobre categorías funcionales
6.4 Experimento 2 de Wang (2012): marcos frecuentes para categorías funcionales
6.5 Evaluación general de Wang (2012)

Capítulo 7. Nuestro experimento: Inducción no supervisada de categorías morfosintácticas mediante clustering a partir de palabras funcionales sin tipología diferenciada
7.1 Motivación de las decisiones de diseño
7.2 Corpus de PLD
7.3 Primera etapa del algoritmo: Identificación de cues
7.3.1 Intuición distribucional acerca de las palabras funcionales vs. palabras de contenido
7.3.2 Ley de Zipf
7.3.3 Perfil de Frecuencia Decreciente (Dreceasing Frequency Profile DFP)
7.3.4 Punto de corte entre palabras funcionales y palabras de contenido en el DFP
7.4 Segunda etapa del algoritmo: Reducción de dimensionalidad
7.5 Tercera etapa del algoritmo: Construcción del espacio vectorial
7.6 Cuarta etapa del algoritmo: Clustering K-means iterativo
7.7 Resultados
7.8 Corpus de referencia para etiquetamiento automático de POS-tag
7.9 Métricas de evaluación de un ciclo de clustering
7.9.1 ¿Métricas propias de la distribución o propias de un modelo HMM a partir de la distribución?
7.9.2 Mapeo 1-to-1: El problema del gold standard
7.9.3 La medida justa: mapeo many-to-1 e hiperclusters
7.9.4 Otras métricas: Variación de la información
7.9.5 Otras métricas: Medida F de sustitución
7.10 Evaluación iterativa de todos los ciclos de clustering con la métrica many-to-1
7.11 Discusión de los resultados y conclusiones
7.11.1 Consideraciones cuantitativas y cualitativas
7.11.2 Comparación con el baseline
7.11.3 Comparación con los trabajos clásicos y con el estado del arte
7.11.4 Plausibilidad psicolingüística de la modelización
7.12 Trabajo a futuro para el experimento de categorización

Capítulo 8. Continuación del experimento de categorización hacia una sintaxis rudimentaria: inducción de constituyentes sintácticos
8.1 El estado actual de la cuestión en inducción de gramáticas formales (grammar inference)
8.2 Diseño de corpus propio para inducción de constituyentes
8.3 Algoritmo de inducción de constituyentes sintácticos en Clark (2002)
8.3.1 Descripción general
8.3.2 Acerca de la naturaleza de un constituyente
8.4 Paso 1: perfil de frecuencias decrecientes de secuencias candidatas a constituyentes
8.5 Paso 2: Clustering de secuencias candidatas a constituyentes
8.6 Paso 3: Criterio de filtrado por información mutua entre etiquetas adyacentes a las secuencias candidatas a constituyentes
8.7 Modificaciones al experimento original de inducción de constituyentes
8.8 Evaluación de los resultados de inducción de constituyentes
8.9 Discusión de los resultados del experimento de inducción de constituyentes

Capítulo 9. Conclusiones generales
9.1 Una nueva visita al APS: Mecanismos cognitivos de aprendizaje por inducción
9.2 Una reflexión final

Referencias bibliográficas
Listado de abreviaturas y siglas
Índice alfabético de conceptos

Anexo I Clustering de secuencias candidatas a constituyentes (capítulo 8)
Anexo II Muestra de salida final del experimento con constituyentes: filtrado por MI (capítulo 8)
Anexo III Muestra de constituyentes inducidos sobre algunas oraciones de prueba (capítulo 8)
Número de págs.:182


Fecha de publicación en Infoling:24 de julio de 2014
Remitente:
Fernando Balbachan
Universidad de Buenos Aires
<fernando_balbachanyahoo.com.ar>