Recurso lingüísticoInfoling 6.6 (2021)

Nombre del recurso:Old Spanish Textual Archive (OSTA)
Descripción

En el año 2015 el Hispanic Seminary of Medieval Studies (HSMS) empezó a trabajar en el Old Spanish Textual Archive (OSTA), un corpus lingüístico, lematizado y etiquetado morfológicamente, de cerca de 32.000.000 de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del HSMS. 


 


Los orígenes de OSTA se remontan al año 1978 cuando John J. Nitti, uno de los editores del Dictionary of the Old Spanish Language (DOSL) y co-fundador del Hispanic Seminary of Medieval Studies (HSMS), describe en un artículo titulado “Computers and the Old Spanish Dictionary” un proyecto a largo plazo:


«the creation of the Old Spanish Archive (OSA), which is to be a repository … of all the machine-readable manuscripts and concordances of those works represented in DOSL… OSA will be established as a research archive open to any interested scholars wishing to make use of its facilities … eventually … information retrieval will be carried out via the computer … linking the magnetically-stored … machine-readable text transcriptions and concordances» (43-52)


 


Este proyecto superaba, en el momento de su concepción, las posibilidades informáticas disponibles en la época, por lo que el objetivo a medio plazo del HSMS fue la creación y divulgación de la vasta base de datos compuesta por las transcripciones electrónicas de manuscritos e incunables escritos en español entre los años 1000 y 1600, utilizando para ello las microfichas, el CD-ROM y, a partir del año 2011, internet.


 


Tras una fase inicial en la que se delimitó el corpus textual —análisis de los códices y de su contenido—, comenzamos el proceso de lematización y etiquetado gramatical, para el que utilizamos FreeLing, una herramienta de Procesamiento del Lenguaje Natural, y , una herramienta de análisis textual desarrollada específicamente para este proyecto.


 


A partir del año 2017, comenzamos a ampliar los recursos léxicos de FreeLing, trabajando en el reconocimiento de entidades nombradas (topónimos y antropónimos), de variantes ortográficas medievales y de palabras no identificadas por ninguna de las reglas desarrolladas. Para ello procesamos varios de los diccionarios del proyecto Dictionary of the Old Spanish Language del HSMS: el Diccionario español de textos médicos antiguos (Herrera 1996), el Diccionario español de documentos alfonsíes (Sánchez 2000), el Vocabulario militar castellano (siglos XIII-XV) (Gago Jover 2002), el Diccionario de la prosa castellana del Rey Alfonso X (Kasten y Nitti 2002), y el Diccionario herbario de textos antiguos y premodernos (Capuano 2017).


 


A comienzos de 2019 iniciamos el trabajo en la interfaz de consulta, la mejora de las reglas de afijación de FreeLing, la revisión del diccionario de formas de FreeLing y la definición de las formas no identificadas.


 


Antes de comenzar a trabajar con OSTA, recomendamos la lectura del http://hispanicseminary.org/docs/OSTA-ma... target="_blank" rel="noopener">Manual de Consulta. http://www.hispanicseminary.org/osta-es.... target="_blank" rel="noopener">En este enlace, pueden consultarse y descargarse una serie de recursos adicionales:



  • Tabla de códices: recoge los metadatos de cada uno de los códices incluidos en OSTA

  • Tabla de obras: recoge los metadatos de cada uno de las obras incluidas en OSTA

  • Tabla de frecuencias (word_lemma_AbsFreq_RelFreq): Esta tabla contiene la lista de frecuencias de todo el corpus. La tabla está organizada de la siguiente manera: rango - palabra (token) - lema - frecuencia absoluta (número total de tokens) - frecuencia relativa (%).

  • Tabla de frecuencias (word_lemma_PoS_AbsFreq_RelFreq): Esta tabla contiene la lista de frecuencias de todo el corpus. La tabla está organizada de la siguiente manera: rango - palabra (token) - lema - etiqueta morfológica (PoS) - frecuencia absoluta (número total de tokens) - frecuencia relativa (%).


Esta versión del Old Spanish Textual Archive tiene las siguientes limitaciones:



  • La descarga de los resultados en formato TSV está limitada a los primeros 250.000 ejemplos.

  • Existen cerca de 500.000 formas desconocidas en el corpus (1,5% del total).

  • La lematización y el análisis morfológico de un reducido número de formas no es el correcto, algo que esperamos corregir cuando finalicemos la revisión del diccionario de formas de FreeLing.


Cualquier duda sobre el uso de OSTA o sugerencia para su mejora puede ser enviada a la siguiente dirección de correo electrónico: hispanicseminary.ltd@gmail.com

Área temática:Humanidades digitales, Lexicografía, Lexicología, Lingüística de corpus, Lingüística histórica
Remitente:Francisco Gago Jover
Institución: College of the Holy Cross / Hispanic Seminary of Medieval Studies (Worcester, MA, EE.UU)
Correo-e: <fgagojovholycross.edu>
Fecha de publicación en Infoling:3 de junio de 2021