Recurso lingüísticoInfoling 3.41 (2026)
En el año 2021, se publicó la versión 1.0 del Old Spanish Textual Archive (OSTA), un corpus lingüístico lematizado y etiquetado morfológicamente, basado en las transcripciones semipaleográficas elaboradas por colaboradores del Hispanic Seminary of Medieval Studies (HSMS) [cf. https://infoling.org/index.php?p=informa... target="_blank" rel="noopener">información en Infoling]. Desde entonces, los avances en HTR [Handwritten Text Recognition], tecnología de reconocimiento de texto manuscrito (Transkribus y eScriptorium), han permitido a los colaboradores de HSMS añadir un gran número de nuevas transcripciones, que han sido incorporadas ahora a la versión 2.0 de OSTA.
| v 1.0 (2021) | v 2.0 (2026) | |
| códices | 435 | 532 |
| títulos únicos | 1623 | 2094 |
| tokens (millones) | 24 | 39 |
| autores identificados | 335 | 383 |
| traductores identificados | 28 | 33 |
| impresores identificados | 98 | 120 |
| manuscritos | 229 | 255 |
| incunables (1472-1500) | 59 | 93 |
| post-incunables (1501-1520) | 41 | 48 |
| raros (depués de 152) | 106 | 136 |
En la actualidad, los colaboradores del HSMS están desarrollando de la versión 3.0, aunque aún no se ha fijado una fecha de lanzamiento.
Para citar adecuadamente el Old Spanish Textual Archive en los trabajos en que utilicen datos del mismo, puede usarse el siguiente formato (o uno similar que incluya los mismos datos bibliográficos):
- Gago Jover, Francisco and F. Javier Pueyo Mena. 2021- . Old Spanish Textual Archive. Hispanic Seminary of Medieval Studies. https://osta.oldspanishtextualarchive.or... [fecha de consulta]
Las obras individuales deben citarse utilizando el identificador de la obra (e.g., HSMS-0003-0001) o, al citar un códice completo, el identificador del códice (e.g., HSMS-0003), junto con otra información relevante, como el autor y el título.
La versión 2.0 del Old Spanish Textual Archive tiene las siguientes limitaciones:
- La descarga de los resultados en formato TSV está limitada a los primeros 250.000 ejemplos.
- Existen cerca de 250.000 formas desconocidas en el corpus (0,6% del total).
- Un pequeño número de formas presenta una lematización o un análisis morfológico incorrectos. Estos se corregirán en futuras actualizaciones.
Para aprovechar al máximo las funciones de OSTA, recomendamos consultar el http://hispanicseminary.org/docs/OSTA-ma... target="_blank" rel="noopener">Manual de consulta, que ofrece descripciones detalladas de la interfaz de búsqueda, los tipos de búsqueda, las opciones de filtrado y la ordenación de los resultados.
Todas las transcripciones paleográficas (644 a fecha de hoy), incluidas las que se añadirán a la versión 3.0, están disponibles en https://github.com/hispanicseminary/OSTA... target="_blank" rel="noopener">GitHub (para la descarga y el control de versiones) y https://doi.org/10.5281/zenodo.18931376" target="_blank" rel="noopener">Zenodo (para su archivo permanente y referencia bibliográfica). El repositorio está organizado en dos carpetas: tablas y transcripciones.
1. TABLAS: Esta carpeta contiene dos tablas de Excel con metadatos sobre las transcripciones: una con datos codicológicos y bibliográficos, y otra con descripciones del contenido.
tabla-codices.xlsx: contiene los metadatos de cada uno de los códices incluidos en OSTA.
- HSMS-ID: identificador de códice HSMS-0003
- abreviatura HSMS: secuencia alfanumérica utilizada por el HSMS para identificar cada transcripción AXP, LOP5
- BETA manid: número de identificación asignado por PhiloBiblon a cada uno de los manuscritos u obras impresas en los que aparece una obra
- BETA copid: número asignado por PhiloBiblon a un ejemplar concreto
- biblioteca: ubicación actual del manuscrito o del impreso
- signatura: signatura del manuscrito o del impreso
- SPDT-inicio: fecha de producción concreta, que corresponde a la fecha más antigua de la copia de un manuscrito o de la impresión de una edición
- SPDT-fin: fecha de producción concreta, que corresponde a la fecha más reciente de la copia de un manuscrito o a la impresión de una edición
- lugar específico: nombre del lugar donde se escribió o imprimió el códice
- productor específico: nombre del copista o del impresor, cuando se conozca
- formato: formato del códice, puede ser manuscrito, incunable (1478-1500), post-incunable (1501-1520), o raro (después de 1520)
- número de folios: número total de folios del códice
- PhiloBiblon: enlace a la entrada del códice en PhiloBiblon
- facsímil digital: enlace al facsímil digital del códice, si existe
- subcorpus: agrupaciones secundarias
- transcriptor: el nombre del transcriptor o transcriptores
- notas: notas relacionadas con la transcripción
- versión: Versión de OSTA en la que se añadió la transcripción
tabla-obras.xlsx: contiene los metadatos de cada uno de las obras incluidas en OSTA
- abreviatura HSMS: secuencia alfanumérica utilizada por HSMS para identificar cada transcripción AXP, LOP5
- BETA manid: número de registro asignado por PhiloBiblon a cada uno de los manuscritos o impresos en los que aparece una obra
- BETA copid: número de registro asignado por PhiloBiblon a cada una de las copias de un impreso
- HSMS-ID: identificador de códice HSMS-0003
- Obra ID: identificador de obra HSMS-0003-0001
- BETA cnum: número de control asignado por PhiloBiblon a cada entrada
- Autor: nombre del autor, cuando se conozca; de lo contrario, aparecerá como "desconocido"
- Traductor: nombre del traductor, cuando se conozca; de lo contrario, aparecerá como "desconocido"
- Título: título general o estandarizado, siguiendo las normas establecidas en PhiloBiblon
- folio: la secuencia de folios que cada obra ocupa dentro del códice
- OPDT-inicio: fecha de producción original, que corresponde a la más antigua de las fechas conocidas o supuestas de redacción del original de cada obra
- OPDT-fin: fecha de producción original, que corresponde a la más reciente fecha de redacción conocida o supuesta del original de cada obra
- lengua-1, lengua-2: idioma o idiomas utilizados en una obra determinada
- tipo textual: tipología básica de la obra, puede ser verso o prosa
- materia-1, materia-2, materia-3: clasificación taxonómica de las obras por tema
2. TRANSCRIPCIONES: Esta carpeta contiene las transcripciones semipaleográficas. Al principio de cada transcripción hay seis campos de metadatos:
{RMK: identificador de códice.}
{RMK: autor.}
{RMK: [secuencia alfanumérica utilizada por el HSMS para identificar cada transcripción] título.}
{RMK: ciudad | impresor | fecha de impresión.}
{RMK: diudad | biblioteca | signatura.}
{RMK: nombre del transcriptor o transcriptores.}
En el caso de los textos manuscritos, el campo del impresor aparece en blanco.
Adicionalmente, antes de cada obra en una transcripción, hay un campo de metadatos con el identificador de la obra y el título normalizado
[fol. 17v]
{CB2.
con tu Paresc'er
& por en cobraria
el bjen que perdi
{RMK: HSMS-0248-0051: En muy esquivas montañas.} Razona<n>do ./ en tal figura
las aues /. fueron bolando
yo aprez. de vna verdura
me falle /. triste cuyda<n>do
& luego en aquella ora
Cualquier duda sobre el uso del Old Spanish Textual Archive (OSTA) o sugerencia para su mejora puede ser enviada a la siguiente dirección de correo electrónico: hispanicseminary.ltd@gmail.com
Institución: College of the Holy Cross / Hispanic Seminary of Medieval Studies
Correo-e: <fgagojov
holycross.edu>



