Recurso lingüísticoInfoling 10.57 (2025)
El pasado mes de julio, se publicó la nueva versión (la 1.3) del https://www.rae.es/corpes/" target="_blank" rel="noopener">Corpus del Español del Siglo XXI (CORPES XXI). Consta de casi 440 millones de formas correspondientes a algo más de 400.000 documentos, producidos en todos los países hispánicos desde el año 2001 hasta la actualidad. La aplicación de consulta mantiene las características y utilidades incorporadas desde la versión 1.0.
Entre los materiales añadidos al corpus, a las ya habituales listas de frecuencias de formas ortográficas, elementos y lemas, se añade ahora el Diccionario de frecuencias léxicas, elaborado sobre los textos de prensa incluidos en la versión 1.0 del CORPES. Este módulo contiene tres documentos distintos:
https://www.rae.es/corpes/assets/rae/fil... target="_blank" rel="noopener">Guía del Diccionario de frecuencias léxicas, en la que se explican las características del recurso y el procedimiento seguido para su elaboración.
https://www.rae.es/corpes/assets/rae/fil... target="_blank" rel="noopener">Diccionario de frecuencias, que contiene los datos de frecuencia (general y normalizada) de los 116.000 lemas registrados en un corpus de unos 184 millones de elementos, su índice de dispersión y el número de países en que ha sido documentado.
https://www.rae.es/corpes/assets/rae/fil... target="_blank" rel="noopener">Relación de lemas documentados ordenados por importancia decreciente de su índice de dispersión.
Los tres documentos son directamente descargables. Los dos últimos están en https://www.google.com/search?client=fir... target="_blank" rel="noopener">formato TSV, lo que permite su manejo directo y también su importación a una hoja de cálculo o una base de datos.
Con la intención de facilitar más datos a las personas interesadas en este terreno, la Real Academia Española (RAE) publica ahora los https://www.rae.es/corpes/contenidos/lem... target="_blank" rel="noopener">listados de lemas documentados en los diferentes países incluidos en el Diccionario de Frecuencias (https://www.rae.es/corpes/contenidos/lem... target="_blank" rel="noopener">https://www.rae.es/corpes/contenidos/lem...). Además de los datos generales correspondientes a cada subcorpus, los ficheros, en https://www.google.com/search?q=formato+... target="_blank" rel="noopener">formato CSV, contienen el lema, su clase, su frecuencia general y normalizada en el país correspondiente, como muestra el fragmento siguiente, extraído del subcorpus de prensa venezolana [https://www.rae.es/" target="_blank" rel="noopener">https://www.rae.es]:
Diccionario de frecuencias léxicas basado en el CORPES 1.0
(C) Real Academia Española 2025
Lista de lemas correspondiente a subcorpus_venezuela [https://www.rae.es/" target="_blank" rel="noopener">https://www.rae.es]
Tamaño del subcorpus: 14.546.846
Lemas distintos documentados: 51.558
Formas distintas documentadas: 144.253
Lema; Clase; Frecuencia; Frec. normalizada
[…]
abaratar;V; 58; 3,9871
abarcador;A; 12; 0,8249
abarcamiento; N; 2; 0,1375
abarcante;A; 4; 0,2750
abarcar;V; 708; 48,6703
abarcativo;A; 7; 0,4812
abaritonado;A; 1; 0,0687
abarrotado;A; 27; 1,8561
abarrotar;V; 37; 2,5435
abastecedor; A; 1; 0,0687
abastecedor; N; 17; 1,1686
abastecer;V; 185; 12,7175
abastecido;A; 5; 0,3437
abastecimiento;N; 285; 19,5919
abasto;N; 101; 6,9431
abatatar;V; 1; 0,0687
[…]
Los ficheros pueden ser descargados de la página, consultados con las herramientas de análisis de texto de los distintos sistemas operativos e integrados con facilidad en cualquier hoja de cálculo o base de datos.
Institución: Real Academia Española
Correo-e: <guillermo.rojo
rae.es>



