Recurso lingüísticoInfoling 3.71 (2026)

Nombre del recurso:Léxico del Quijote
Descripción

La creación del Léxico de Don Quijote es una investigación enmarcada en el proyecto https://h-ueda.sakura.ne.jp/lyneal/quijo... target="_blank" rel="nofollow noopener">LYNEAL (Letras y Números en Análisis Lingüísticos), desarrollado principalmente por equipos de la Universidad Autónoma de Madrid (UAM) y la Universidad de Tokio.


 


Este proyecto aborda la carencia histórica de una macroestructura lexicográfica que organice de forma sistemática las casi 400.000 palabras que componen las dos partes de la novela, trascendiendo los simples listados de frecuencias para ofrecer una disposición basada en lemas y categorías sintácticas, además asociadas con los personajes principales.


 


Dataverso Léxico del Quijote



La interfaz muestra un conjunto de 3 opciones, correspondientes a tres documentos, dentro del dataverso denominado “Léxico del Quijote". Estos recursos forman parte de una serie de diccionarios o lexicones que organizan la información léxica del corpus del
Quijote.



1. Lema, sublema y forma: formas en orden gramatical
URL: https://doi.org/10.21950/TDJZIQ" target="_blank" rel="noopener">https://doi.org/10.21950/TDJZIQ



Este documento corresponde al segundo diccionario de la serie. Su característica principal es que organiza las formas lingüísticas según su categoría gramatical (por ejemplo, sustantivos, verbos, adjetivos, etc.).


 


Incluye:



  • Todos los lemas, sublemas y formas del corpus.

  • Las ocurrencias de cada forma.

  • Una organización interna que prioriza la estructura gramatical dentro de cada
    entrada.


Esto lo hace especialmente útil para estudios lingüísticos centrados en la morfología y la sintaxis.


 


2. Lema, sublema y forma: formas en orden alfabético
URL: https://doi.org/10.21950/S641LW" target="_blank" rel="noopener">https://doi.org/10.21950/S641LW


 


Este documento es el primer diccionario de la serie. A diferencia del anterior, organiza las formas en orden alfabético, lo que facilita la búsqueda directa de términos.


 


Incluye:



  • El mismo conjunto completo de lemas, sublemas y formas.

  • Sus correspondientes ocurrencias en el corpus.

  • Una estructura más accesible para consultas rápidas, al no depender de categorías gramaticales.


Es más práctico para exploración general o consultas tipo diccionario tradicional.


 


3. Prefacio a la serie Léxico del Quijote
URL: https://edatos.consorciomadrono.es/datas... target="_blank" rel="noopener">https://edatos.consorciomadrono.es/datas...


Este documento actúa como introducción general a toda la serie de lexicones.


 


Contiene información clave como:



  • Presentación del proyecto (prefacio).

  • Autores (ordenados alfabéticamente).

  • Edición del corpus utilizada.

  • Descripción del léxico total.

  • Notas gramaticales.

  • Otras indicaciones metodológicas.


Es fundamental para comprender el enfoque, la estructura y los criterios utilizados en los diccionarios.


 


Archivos disponibles para descarga


 


En la sección inferior (“Ficheros”) se muestran 2 archivos asociados a uno de los conjuntos de datos:


 


1. Archivo principal (datos)


 


Opciones disponibles:



  • Acceso público al archivo: dq02-lema-lexema-forma-grama.pdf

  • Descarga directa en PDF

  • Descarga de metadatos

  • Generación de citas del dataset

  • Lectura en línea


2. Archivo de documentación


 


Este archivo contiene información explicativa adicional sobre el contenido y uso del dataset: readme-es_dq02-lema-lexema-forma-grama.txt


 


Funcionalidades de la plataforma


 


La interfaz también incluye:



  • Un buscador interno: “Buscar en estos ficheros de datos…”

  • Filtros por:
    - Tipo de fichero
    - Acceso
    - Etiquetas

  • Opciones de ordenación de resultados

  • Botones de descarga y exploración


Además, se indica que al seleccionar varios archivos no se pueden descargar más de 10 GB en total.


 


Conclusión


 


El conjunto presentado forma parte de un proyecto estructurado de análisis léxico del Quijote, que ofrece:



  • Diferentes formas de organización (alfabética vs. gramatical).

  • Documentación contextual (prefacio).

  • Acceso a datos y metadatos descargables.


Esto lo convierte en un recurso valioso tanto para investigación lingüística como para docencia en estudios filológicos y de corpus.


 


Presentación


 


La creación del Léxico de Don Quijote es una investigación pionera enmarcada en el proyecto https://h-ueda.sakura.ne.jp/lyneal/quijo... target="_blank" rel="nofollow noopener">LYNEAL (Letras y Números en Análisis Lingüísticos), desarrollado principalmente por equipos de la Universidad Autónoma de Madrid (UAM) y la Universidad de Tokio. Este proyecto aborda la carencia histórica de una macroestructura lexicográfica que organice de forma sistemática las casi 400.000 palabras que componen las dos partes de la novela, trascendiendo los simples listados de frecuencias para ofrecer una disposición basada en lemas y categorías sintácticas, además asociadas con los personajes principales.


 


La metodología combina el procesamiento automático con la validación humana. Se utilizó como base la edición, tanto impresa como digital, de Florencio Sevilla y Antonio Rey (1996). La elección de la edición estuvo motivada por su accesibilidad como texto electrónico (Ciencia Abierta). Desde el punto lingüístico, su interés reside en que preserva las formas originales de la edición princeps, asegurando la fidelidad a la realidad lingüística de la época.


 


El análisis morfosintáctico inicial se realizó con el etiquetador GRAMPAL. En el marco del proyecto del Léxico de Don Quijote, el sistema fue sometido a una adaptación diacrónica para procesar el español del siglo XVII. En las pruebas iniciales, los investigadores encontraron que el lexicón, diseñado para el español actual, no reconocía aproximadamente 4,000 formas presentes en la narrativa de Cervantes, incluyendo arcaísmos (como 'agora'), amalgamas (como 'della', 'desta'), variantes gráficas antiguas (como 'fee', 'experiencia') y tiempos verbales obsoletos. Como resultado, se estimó que era necesario expandir el léxico interno de GRAMPAL añadiendo entre 6.000 y 8.000 nuevas entradas para garantizar una cobertura adecuada de la realidad lingüística del Siglo de Oro. Por razones de tiempo y eficiencia, se decidió apoyar la lematización automática con programas adicionales especializados en el reconocimiento de variantes diacrónicas y en la identificación de nombres propios (antropónimos y topónimos).


 


El uso de tecnología lingüística permitió reducir considerablemente el tiempo requerido para el etiquetado masivo de las casi 400,000 palabras que componen el corpus de la obra. Sin embargo, dado que el procesamiento automático generalmente tiene una tasa de error aproximada del 10%, el resultado de la herramienta se emplea solo como un borrador inicial. Este análisis preliminar luego pasa por una revisión manual minuciosa de un equipo de lingüistas expertos del proyecto LYNEAL, lo que garantiza la precisión filológica y la casi inexistencia de errores en la base de datos final.


 


Bajo la dirección de Hiroto Ueda, el corpus lematizado se convirtió en una base de datos tabular estructurada en filas independientes para cada intervención comunicativa, ya fuera del narrador o de cualquiera de los personajes. Esta metodología de segmentación no fue casual; se fundamentó en la experiencia previa del equipo con el corpus C-ORAL-ROM (Guirao et al 2006), adaptando los turnos de hablantes en una conversación espontánea a la estructura dialógica de la novela. La importancia de este proceso reside en la asociación de cada intervención con variables sociolingüísticas específicas de los personajes (sexo, edad y clase social), lo que permite realizar estudios lingüísticos comparativos entre los personajes. Por ejemplo, cuáles son las palabras distintivas de Quijote en relación con Sancho; qué conceptos predominan en los personajes cultos y los de clase baja; o incluso las diferencias y semejanzas entre el lenguaje de las mujeres y los hombres en la obra cervantina. Además, la base de datos es el elemento clave del proyecto, ya que allí se llevan a cabo todas las correcciones y modificaciones, para posteriormente generar el lexicón final.


 


El análisis lexicográfico identificó un total de 377.417 palabras (formas flexionadas). La distribución del léxico revela que el narrador representa el 35 % del total (133.562 palabras), seguido de Don Quijote (20 %, con 73.874 formas distribuidas en 1.805 lemas) y Sancho Panza (13 %, con 47.823 formas y 713 lemas). Esta estructuración en unidades discretas y enriquecidas no solo ha facilitado la creación de un diccionario de frecuencias de formas y lemas muy preciso, sino que constituye la arquitectura de datos necesaria para la implementación de tecnologías avanzadas, como los grafos de conocimiento y los sistemas de RAG.

Área temática:Lingüística computacional
Remitente:Inmaculada Martínez
Institución: Universidad de Cantabria
Correo-e: <inmaculada.martinezunican.es>
Fecha de publicación en Infoling:29 de marzo de 2026