Recurso lingüísticoInfoling 4.21 (2025)

Nombre del recurso:esTenTen – Spanish corpus from the web
Descripción

The Spanish Web corpus (esTenTen) is a text corpus created from the collected internet texts. The corpus belongs to the https://www.sketchengine.eu/documentatio... target="_blank" rel="noopener">TenTen corpus family, which is a set of the same processed web corpora with the target size 10+ billion words. Sketch Engine currently provides access to TenTen corpora in more than 40 languages.


 


The corpus contains subcorpora based on the language varieties – European Spanish and American Spanish. Particular Spanish varieties were downloaded from web domains in the respective continents.


 


Detailed information about TenTen corpora is on the separate page https://www.sketchengine.eu/documentatio... target="_blank" rel="noopener">Common TenTen corpora attributes.


 


https://www.sketchengine.eu/price-list/#... target="_blank" rel="noopener">Pricing


 


Part-of-speech tagset


 


Part-of-speech tagging and lemmatisation were performed using https://nlp.lsi.upc.edu/freeling/node/1" target="_blank" rel="noopener">FreeLing analyser with Spanish configuration, see https://www.sketchengine.eu/spanish-free... target="_blank" rel="noopener">Spanish FreeLing tagset.


 



Overview of Spanish TenTen corpora

 


A list of Spanish TenTen corpora available in the Sketch Engine database:



  • Spanish Web corpus 2023 (esTenTen23) – 28,6 billion words (European Spanish Web, American Spanish Web, whole Spanish Wikipedia) with topic classification for the biggest web domains based on a semi-manual check of sample texts

  • Spanish Web corpus 2018 (esTenTen18) – 16.9 billion words (European Spanish Web, American Spanish Web, whole Spanish Wikipedia) with topic classification for the biggest web domains based on a semi-manual check of sample texts

  • Spanish Web corpus 2011 (esTenTen11) – 9.5 billion words (European Spanish Web, American Spanish Web, small part of Spanish Wikipedia)



Basic frequency statistics of the Spanish Web 2023 corpus

 























Tokens


33,135,276,527
Words 28,652,392,686
Sentences 1,326,647,524
Web pages 82,021,635

 


 


--------------------------------------------------------------


 


 



[Traducción de https://chat.deepseek.com" target="_blank" rel="noopener">Deep Seek, revisada por Infoling]

 


El corpus web español (esTenTen) es un corpus textual creado a partir de textos recopilados de internet. Este corpus pertenece a la familia de corpus TenTen, que es un conjunto de corpus de la web, procesados de manera uniforme con un tamaño de hasta 29.000 millones de palabras. Sketch Engine actualmente proporciona acceso a los corpus TenTen en más de 40 idiomas.


 


El corpus incluye subcorpus organizados en variedades lingüísticas: español europeo y español americano. Las variedades específicas del español se descargaron de dominios web en sus respectivos continentes.


 


La información detallada sobre los corpus TenTen se encuentra en la página https://www.sketchengine.eu/documentatio... target="_blank" rel="noopener">Common TenTen corpora attributes [atributos comunes de los corpus TenTen].


 


https://www.sketchengine.eu/price-list/#... target="_blank" rel="noopener">Precios


 


Etiquetado gramatical


 


El etiquetado gramatical y la lematización se realizaron utilizando el analizador https://nlp.lsi.upc.edu/freeling/node/1" target="_blank" rel="noopener">FreeLing con configuración para español. Consulta el https://www.sketchengine.eu/spanish-free... target="_blank" rel="noopener">Spanish FreeLing tagset [conjunto de etiquetas gramaticales de FreeLing] para el español.


 


Resumen de los corpus españoles TenTen


 


Lista de corpus españoles TenTen disponibles en la base de datos de Sketch Engine:




  • Corpus web español 2023 (esTenTen23) – 28.600 millones de palabras (web en español europeo, web en español americano, Wikipedia completa en español) con clasificación temática para los dominios web más grandes basada en una revisión semiautomática de textos de muestra.




  • Corpus web español 2018 (esTenTen18) – 16.900 millones de palabras (web en español europeo, web en español americano, Wikipedia completa en español) con clasificación temática para los dominios web más grandes basada en una revisión semiautomática de textos de muestra.




  • Corpus web español 2011 (esTenTen11) – 9.500 millones de palabras (web en español europeo, web en español americano, pequeña parte de Wikipedia en español).




Estadísticas básicas de frecuencia del Corpus Web Español 2023


 























Tokens


33.135.276.527
Palabras 28.652.392.686
Oraciones 1.326.647.524
Páginas web 82.021.635

 





Área temática:Lingüística de corpus
Remitente:Infoling
Correo-e: <infolinginfoling.org>
Fecha de publicación en Infoling:7 de abril de 2025