Tesis doctoral en la redInfoling 10.2 (2025)

Autor/ra:Álvarez Mellado, Elena
Fecha de lectura o defensa:27 de mayo de 2025
Título de la tesis:Lexical borrowing detection as a sequence labeling task [La detección de préstamos léxicos como tarea de etiquetado de secuencias]. Data, modeling and evaluation methods for anglicism retrieval in Spanish [Datos, modelos y métodos de evaluación para identificar anglicismos en español]
Director/a de la tesis:Julio Gonzalo
Codirección:Constantine Lignos
Universidad:
País:España
Descripción de la tesis

Las lenguas no viven aisladas. Las lenguas conviven. El contacto entre lenguas es uno de los principales motores del cambio lingüístico. Los hablantes de un idioma usan en ocasiones palabras provenientes de otras lenguas, un proceso que se conoce como préstamo léxico. El préstamo léxico es una fuente prolífica de palabras nuevas y, en consecuencia, la identificación automática de préstamos léxicos es relevante tanto en Lingüística (pues facilita la recogida de datos en disciplinas como la lingüística histórica o la lexicografía) como en Procesamiento de Lenguaje Natural (como pre-procesamiento para otras tareas de PLN o a la hora de trabajar con lenguas con pocos recursos). Sin embargo, el trabajo de identificación de préstamos léxicos en Lingüística se ha hecho tradicionalmente a mano, lo que resulta muy limitante para estudiar un fenómeno continuo y disperso como es la incorporación de préstamos léxicos. Por otro lado, trabajos previos en PLN han abordado la detección de préstamos léxicos como un problema de clasificación binaria, en el que la tarea consiste en clasificar palabras sueltas desprovistas de contexto. Esta aproximación pasa por alto el hecho de que es fundamental considerar el contexto en el que aparece un término para decidir si es un préstamo, y no permite dar cuenta adecuadamente de fenómenos como los préstamos multipalabra, los préstamos adyacentes o la ambigüedad contextual, fenómenos prevalentes todos ellos en la lengua real. 

El objetivo de esta tesis es proponer métodos computacionales para la recuperación automática de préstamos léxicos en textos, con especial interés en la identificación de préstamos léxicos del inglés (también llamados anglicismos) en español. A diferencia de otros trabajos previos, proponemos abordar la identificación de préstamos léxicos como un problema de etiquetado de secuencias, en el que el objetivo es recuperar spans relevantes de longitud variable a partir de una frase, de un modo semejante a como se aborda el reconocimiento de entidades nombradas o la identificación de expresiones multipalabra. 

En la primera mitad de esta tesis, proponemos métodos para la recolección y anotación de conjuntos de datos que contengan préstamos en contexto y los aplicamos para producir COALAS, un corpus de prensa española anotado con anglicismos usando codificación BIO. A continuación, usamos COALAS para analizar el rendimiento y los errores de varios modelos supervisados de etiquetado de secuencias (un CRF, modelos basados en Transformers y varios BiLSTM-CRF con distintos tipos de embeddings), así como de un gran modelo de lenguaje en modo few shot (8B Llama3). Nuestros experimentos muestran que un BiLSTM-CRF alimentado con embeddings de palabra y subpalabra obtiene mejores resultados que todos los demás modelos (incluyendo los modelos basados en Transformers y el LLM, que obtiene resultados decepcionantes), y que todos los modelos son sensibles en mayor o menor medida a la posición que ocupa el anglicismo dentro de la oración, la presencia de mayúsculas o la combinación de caracteres que lo conforman. 


 


En la segunda mitad de la tesis ahondamos en los problemas que acarrea usar métricas agregadas a la hora de evaluar tareas de etiquetado de secuencias como la nuestra. Proponemos una nueva metodología basada en dimensiones formales para caracterizar lingüísticamente los spans que aparecen en conjuntos de datos de etiquetado de secuencias y la aplicamos en la creación de BLAS, un benchmark para la identificación de anglicismos en español con capacidad predictiva: los resultados que los modelos obtienen sobre el benchmark BLAS permiten anticipar el rendimiento que esos mismos modelos obtendrán en colecciones de datos externas. 

Por último, presentamos Observatorio Lázaro, un observatorio del anglicismo en la prensa española que implementa lás técnicas y recursos producidos a lo largo de esta tesis. El observatorio monitoriza el uso diario de anglicismos en la prensa española e identifica nuevos préstamos que aparecen en los periódicos. Desde su lanzamiento en abril de 2020 hasta febrero de 2025, el observatorio ha registrado más de 1.400.000 apariciones de anglicismos (con una media de 1.050 anglicismos diarios detectados; 450 de ellos únicos, de los cuales 45 erán nuevos), lo que convierte a Observatorio Lázaro en la mayor base de datos léxica pública de este tipo automáticamente generada y en constante crecimiento. 

Los resultados de esta tesis muestran que la identificación automática de préstamos léxicos puede efectivamente ser formulada como un problema de etiquetado de secuencias, y que esta aproximación permite dar cuenta de forma más precisa la variabilidad lingüística que caracteriza el uso de préstamos léxicos en la lengua real. 


 


========================


 


Languages do not exist in isolation. Languages coexist; speakers of different languages interact. Contact between languages is one of the major inducers of language change. Speakers may take words that belong to one language and incorporate them into another language, a process that is known as lexical borrowing. As lexical borrowings are a source of new words, the automatic identification of borrowings has been shown to be useful both for Linguistics (to assist data-driven research in contact linguistics, historical linguistics and lexicography) and in Natural Language Processing (as a pre-processing step for NLP downstream tasks, or when working on low-resource settings). However, previous work on lexical borrowing within Linguistics has mainly relied on manual inspection of corpora, an approach that is insufficient to account for an on-going and sparse phenomenon like borrowing incorporation. On the other hand, research within NLP has usually framed lexical borrowing identification as a word classification problem, in which isolated words deprived from context are classified as being a borrowing or not. This approach ignores the fact that context is key when deciding whether a given word is a borrowing or not, and is insufficient to account for multiword borrowings, adjacency or contextual ambiguity, which are all prevalent phenomena in real-world data.


 


This dissertation aims to provide computer-assisted methods for automatically retrieving lexical borrowings from text, with a focus on the identification of English lexical borrowings (or anglicisms) in Spanish. Contrary to previous work, we propose to frame lexical borrowing identification as a sequence labeling task, in which relevant spans of text are retrieved from sentences, in a similar fashion to how named entity recognition and multiword expressions are handled.


 


In the first half of this dissertation, we propose methods for collecting and annotating datasets of lexical borrowings in context, and apply them to produce COALAS, a novel corpus of Spanish journalistic texts annotated with anglicisms using BIO encoding. We use COALAS to analyze the performance and errors of several supervised sequence labeling models (CRF, BiLSTM-CRF, and Transformer-based models) and a large language model on a few-shot approach (8B Llama3). Our results show that a BiLSTM-CRF model fed with word and subword embeddings outperforms all other models (including Transformer-based models and the LLM, which performs poorly), and that all models are sensitive in varying degrees to capitalization, sentence position and shape.


 


In the second half of this dissertation, we explore the limitations that standard evaluation based on aggregated metrics produces when evaluating sequence labeling models in general and lexical borrowing identification systems in particular. We propose an evaluation methodology based on formal dimensions to characterize spans in sequence labeling tasks and apply it to build BLAS, a linguistically-motivated benchmark for anglicism identification in Spanish that can predict how a system will generalize to outside data.


 


Finally, we present Observatorio Lázaro, an observatory of anglicism usage in the Spanish press that implements the techniques and resources introduced in the course of this dissertation. The observatory monitors the daily usage of English lexical borrowings in the Spanish press and detects novel anglicisms that appear in Spanish newspapers. As of February 2025, it has registered more than 1,400,000 occurrences of anglicisms since it was launched (with an average of 1,050 anglicisms retrieved daily; 450 of them unique, 45 of those previously unattested), which, to the best of our knowledge, makes Observatorio Lázaro the largest continuously-growing self-populating context-based database of anglicism usage ever compiled.


 


The results of this dissertation show that automatic identification of borrowings can indeed be framed as a sequence labeling task and that this approach is better suited than previous methods for capturing the linguistic nuances of borrowing usage in the wild and can successfully be applied to real-world scenarios.

Área temática:Lexicografía, Lexicología, Lingüística computacional, Lingüística de corpus, Terminología
Índice

I The problem: Lexical borrowing


 


1 Introduction
1.1 Definition: What is lexical borrowing?
1.1.1 Scope of the phenomenon
1.1.2 Anglicisms in Spanish
1.1.3 Borrowing vs codeswitching
1.2 Motivation: Why automatizing lexical borrowing retrieval?
1.2.1 Applications in Linguistics
1.2.2 Applications in Natural Language Processing
1.3 What this thesis is about
1.4 What this thesis is not about
1.5 Structure of this thesis


 


2 Literature review
2.1 Previous work on borrowing detection
2.1.1 Computer-assisted methods to borrowing detection
2.1.2 A typology of borrowing detection systems
2.2 Methodological limitations from previous work
2.2.1 Limitations of pattern matching
2.2.2 Limitations of character n-gram probability
2.2.3 Limitations of lexicon lookup
2.2.4 Limitations of word classification approaches
2.2.5 On the importance of multiword borrowing detection
2.3 Differences with previous work
2.3.1 Differences with work within historical linguistics
2.3.2 Differences with work within code-switching identification
2.3.3 Differences with previous work on anglicism detection in Spanish
2.4 Summary


 


II Data & models


 


3 COALAS: Corpus of Anglicisms in the Spanish Press
3.1 Limitations of previous work and motivation
3.2 Corpus desiderata
3.3 Data curation: sources and filtering
3.4 Annotation process
3.5 Corpus description
3.6 Discussion
3.7 Summary


 


4 Model experimentation
4.1 Supervised models for lexical borrowing detection
4.1.1 Conditional random field model
4.1.2 Transformer-based models: BETO and mBERT
4.1.3 BiLSTM-CRF with unadapted embeddings
4.1.4 BiLSTM-CRF with codeswitch embeddings
4.1.5 Results
4.1.6 Error analysis
4.2 A large language model’s attempt at lexical borrowing detection
4.2.1 Model and prompting methodology
4.2.2 Results
4.2.3 Error analysis
4.3 Discussion
4.4 Summary


 


5 ADoBo: A shared task on Automatic Detection of Borrowings
5.1 Task description
5.1.1 Data
5.1.2 Evaluation
5.1.3 Competition timeline
5.2 Participants’ submissions
5.2.1 A CRF model with data augmentation
5.2.2 Transformer-based models using STILTs
5.3 Results
5.3.1 Systems’ performance
5.3.2 Experiments with outputs
5.4 Discussion
5.5 Summary


 


6 Annotating lexical borrowing vs codeswitching
6.1 The elephant in the room: the codeswitching vs borrowing distinction
6.2 Challenges in annotating codeswitching and borrowing
6.3 Dataset development
6.3.1 Annotation guidelines
6.3.2 Data selection
6.3.3 Dataset description
6.4 Model experimentation
6.5 Results
6.6 Discussion
6.7 Summary


 


III Evaluation


 


7 Evaluation approaches
7.1 Evaluation scenarios and desiderata
7.2 Extraction task evaluation: approaches and limitations
7.2.1 Problems with span-based evaluation
7.2.2 Problems with token-based evaluation
7.2.3 A silver bullet: the token and separator model
7.3 Experiments: Revisiting COALAS outputs
7.4 Discussion
7.5 Summary


 


8 Dimensions in evaluation
8.1 Possible explanations for the paradoxical results from chapter
8.2 Rationale
8.3 Span characterization: precedents from NER
8.4 Dimensions definition
8.5 Experiments across dimensions
8.5.1 Evaluation of the dataset
8.5.2 Evaluation of the models
8.6 Discussion
8.6.1 Benefits of the dimensions
8.6.2 Differences with prior work
8.6.3 Applicability to other span identification tasks
8.6.4 Limitations of the notion of unseenness
8.7 Summary


 


9 BLAS: A Benchmark for Loanwords and Anglicisms in Spanish
9.1 Motivation
9.1.1 What if...?
9.1.2 Limitations of the dimension-based evaluation from chapter
9.1.3 Towards diagnostic, actionable and predictable benchmarking in NLP
9.2 Benchmark creation
9.2.1 Benchmark desiderata
9.2.2 Span attribute selection
9.2.3 Data curation
9.2.4 Punctuation transformations
9.2.5 Benchmark description
9.2.6 Evaluation metrics
9.3 Experiments & results
9.3.1 Experiments across models
9.3.2 Predictive ability of BLAS
9.3.3 Statistical significance of the dimensions
9.4 Discussion
9.4.1 Limitations
9.4.2 Relation to previous work
9.4.3 The cycle of benchmark creation
9.5 Summary


 


IV Results


 


10 Lázaro: an observatory of anglicism usage in the Spanish press
10.1 Motivation
10.2 Implementation
10.3 Public outreach
10.4 Discussion
10.5 Summary


 


11 Conclusions
11.1 Contributions
11.2 Resources
11.3 Limitations
11.4 Future Work
11.5 Publications


 


V Appendices


 


A Annotation guidelines
B Data statement
C A practical comparison between evaluation approaches
D Guidelines for the creation of examples in BLAS
E Results over BLAS benchmark
F Predictive ability of BLAS


 


References

Número de págs.:352
Remitente:Elena Álvarez
Institución: Universidad Nacional de Educación a Distancia (UNED, España)
Correo-e: <ealvarezmelladogmail.com>
Fecha de publicación en Infoling:1 de octubre de 2025