Recurso lingüístico

Infoling 4.21 (2025)
Nombre del recurso:esTenTen – Spanish corpus from the web
Descripción

The Spanish Web corpus (esTenTen) is a text corpus created from the collected internet texts. The corpus belongs to the TenTen corpus family, which is a set of the same processed web corpora with the target size 10+ billion words. Sketch Engine currently provides access to TenTen corpora in more than 40 languages.

 

The corpus contains subcorpora based on the language varieties – European Spanish and American Spanish. Particular Spanish varieties were downloaded from web domains in the respective continents.

 

Detailed information about TenTen corpora is on the separate page Common TenTen corpora attributes.

 

Pricing

 

Part-of-speech tagset

 

Part-of-speech tagging and lemmatisation were performed using FreeLing analyser with Spanish configuration, see Spanish FreeLing tagset.

 

Overview of Spanish TenTen corpora

 

A list of Spanish TenTen corpora available in the Sketch Engine database:

  • Spanish Web corpus 2023 (esTenTen23) – 28,6 billion words (European Spanish Web, American Spanish Web, whole Spanish Wikipedia) with topic classification for the biggest web domains based on a semi-manual check of sample texts
  • Spanish Web corpus 2018 (esTenTen18) – 16.9 billion words (European Spanish Web, American Spanish Web, whole Spanish Wikipedia) with topic classification for the biggest web domains based on a semi-manual check of sample texts
  • Spanish Web corpus 2011 (esTenTen11) – 9.5 billion words (European Spanish Web, American Spanish Web, small part of Spanish Wikipedia)
Basic frequency statistics of the Spanish Web 2023 corpus
 

Tokens

33,135,276,527
Words 28,652,392,686
Sentences 1,326,647,524
Web pages 82,021,635

 

 

--------------------------------------------------------------

 

 

[Traducción de Deep Seek, revisada por Infoling]

 

El corpus web español (esTenTen) es un corpus textual creado a partir de textos recopilados de internet. Este corpus pertenece a la familia de corpus TenTen, que es un conjunto de corpus de la web, procesados de manera uniforme con un tamaño de hasta 29.000 millones de palabras. Sketch Engine actualmente proporciona acceso a los corpus TenTen en más de 40 idiomas.

 

El corpus incluye subcorpus organizados en variedades lingüísticas: español europeo y español americano. Las variedades específicas del español se descargaron de dominios web en sus respectivos continentes.

 

La información detallada sobre los corpus TenTen se encuentra en la página Common TenTen corpora attributes [atributos comunes de los corpus TenTen].

 

Precios

 

Etiquetado gramatical

 

El etiquetado gramatical y la lematización se realizaron utilizando el analizador FreeLing con configuración para español. Consulta el Spanish FreeLing tagset [conjunto de etiquetas gramaticales de FreeLing] para el español.

 

Resumen de los corpus españoles TenTen

 

Lista de corpus españoles TenTen disponibles en la base de datos de Sketch Engine:

  • Corpus web español 2023 (esTenTen23) – 28.600 millones de palabras (web en español europeo, web en español americano, Wikipedia completa en español) con clasificación temática para los dominios web más grandes basada en una revisión semiautomática de textos de muestra.

  • Corpus web español 2018 (esTenTen18) – 16.900 millones de palabras (web en español europeo, web en español americano, Wikipedia completa en español) con clasificación temática para los dominios web más grandes basada en una revisión semiautomática de textos de muestra.

  • Corpus web español 2011 (esTenTen11) – 9.500 millones de palabras (web en español europeo, web en español americano, pequeña parte de Wikipedia en español).

Estadísticas básicas de frecuencia del Corpus Web Español 2023

 

Tokens

33.135.276.527
Palabras 28.652.392.686
Oraciones 1.326.647.524
Páginas web 82.021.635

 

Área temática:Lingüística de corpus


Fecha de publicación en Infoling:7 de abril de 2025
Remitente:
Infoling
<infolinginfoling.org>