Recurso lingüístico
The Spanish Web corpus (esTenTen) is a text corpus created from the collected internet texts. The corpus belongs to the TenTen corpus family, which is a set of the same processed web corpora with the target size 10+ billion words. Sketch Engine currently provides access to TenTen corpora in more than 40 languages.
The corpus contains subcorpora based on the language varieties – European Spanish and American Spanish. Particular Spanish varieties were downloaded from web domains in the respective continents.
Detailed information about TenTen corpora is on the separate page Common TenTen corpora attributes.
Part-of-speech tagging and lemmatisation were performed using FreeLing analyser with Spanish configuration, see Spanish FreeLing tagset.
A list of Spanish TenTen corpora available in the Sketch Engine database:
- Spanish Web corpus 2023 (esTenTen23) – 28,6 billion words (European Spanish Web, American Spanish Web, whole Spanish Wikipedia) with topic classification for the biggest web domains based on a semi-manual check of sample texts
- Spanish Web corpus 2018 (esTenTen18) – 16.9 billion words (European Spanish Web, American Spanish Web, whole Spanish Wikipedia) with topic classification for the biggest web domains based on a semi-manual check of sample texts
- Spanish Web corpus 2011 (esTenTen11) – 9.5 billion words (European Spanish Web, American Spanish Web, small part of Spanish Wikipedia)
Tokens |
33,135,276,527 |
Words | 28,652,392,686 |
Sentences | 1,326,647,524 |
Web pages | 82,021,635 |
--------------------------------------------------------------
El corpus web español (esTenTen) es un corpus textual creado a partir de textos recopilados de internet. Este corpus pertenece a la familia de corpus TenTen, que es un conjunto de corpus de la web, procesados de manera uniforme con un tamaño de hasta 29.000 millones de palabras. Sketch Engine actualmente proporciona acceso a los corpus TenTen en más de 40 idiomas.
El corpus incluye subcorpus organizados en variedades lingüísticas: español europeo y español americano. Las variedades específicas del español se descargaron de dominios web en sus respectivos continentes.
La información detallada sobre los corpus TenTen se encuentra en la página Common TenTen corpora attributes [atributos comunes de los corpus TenTen].
Etiquetado gramatical
El etiquetado gramatical y la lematización se realizaron utilizando el analizador FreeLing con configuración para español. Consulta el Spanish FreeLing tagset [conjunto de etiquetas gramaticales de FreeLing] para el español.
Resumen de los corpus españoles TenTen
Lista de corpus españoles TenTen disponibles en la base de datos de Sketch Engine:
-
Corpus web español 2023 (esTenTen23) – 28.600 millones de palabras (web en español europeo, web en español americano, Wikipedia completa en español) con clasificación temática para los dominios web más grandes basada en una revisión semiautomática de textos de muestra.
-
Corpus web español 2018 (esTenTen18) – 16.900 millones de palabras (web en español europeo, web en español americano, Wikipedia completa en español) con clasificación temática para los dominios web más grandes basada en una revisión semiautomática de textos de muestra.
-
Corpus web español 2011 (esTenTen11) – 9.500 millones de palabras (web en español europeo, web en español americano, pequeña parte de Wikipedia en español).
Estadísticas básicas de frecuencia del Corpus Web Español 2023
Tokens |
33.135.276.527 |
Palabras | 28.652.392.686 |
Oraciones | 1.326.647.524 |
Páginas web | 82.021.635 |
<infoling
