/ lunes 15 de febrero de 2021

Más de 333 millones de formas ortográficas en el nuevo corpus del español

Se trata de la última versión de esta herramienta lingüística, la 0.93, que cuenta con más de 316 mil documentos

Más de 333 millones de formas ortográficas, procedentes de textos escritos y de transcripciones de textos orales, integran la nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI), que ha presentado la RAE, en colaboración con la Asociación de Academias de la Lengua Española.

Se trata de la última versión de esta herramienta lingüística, la 0.93, que cuenta con más de 316.000 documentos y más de 333 millones de formas ortográficas, lo que supone un incremento de más de 21 millones de formas respecto a la versión anterior, publicada en mayo de 2020, según ha informado este lunes la RAE.

El corpus es un conjunto lo más extenso y ordenado posible de textos empleado habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales (programas de radio y televisión, entrevistas en medios de comunicación, o de YouTube).

Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del Corpes sobrepasan los 93 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología) se acercan a los 238 millones.

Los textos procedentes de libros suponen casi 166 millones de formas mientras que las publicaciones periódicas están representadas con unos 158 millones. Seis millones y medio más provienen de blogs, entrevistas digitales y redes sociales.

En cuanto a la distribución temporal, aumenta el número de textos producidos entre 2016 y 2020, con algo más de 42 millones de formas en esta versión. Por lustros, el mayor peso en esta versión, todavía provisional, recae en el segmento 2006-2010, con más de 107 millones de formas; más de 100 millones corresponden a formas producidas entre 2001 y 2005; y, de 2011 a 2015, alcanza casi 82 millones de formas.

Las formas correspondientes a textos generados en España suponen algo más del 30 por ciento mientras que el resto procede de América, con más de 217 millones de formas, además de contener textos procedentes de Filipinas y Guinea Ecuatorial.

Más de 333 millones de formas ortográficas, procedentes de textos escritos y de transcripciones de textos orales, integran la nueva actualización del Corpus del Español del Siglo XXI (CORPES XXI), que ha presentado la RAE, en colaboración con la Asociación de Academias de la Lengua Española.

Se trata de la última versión de esta herramienta lingüística, la 0.93, que cuenta con más de 316.000 documentos y más de 333 millones de formas ortográficas, lo que supone un incremento de más de 21 millones de formas respecto a la versión anterior, publicada en mayo de 2020, según ha informado este lunes la RAE.

El corpus es un conjunto lo más extenso y ordenado posible de textos empleado habitualmente para conocer el contexto y las propiedades de las palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

Más de cuatro millones y medio de las formas incorporadas en esta actualización son transcripciones de textos orales (programas de radio y televisión, entrevistas en medios de comunicación, o de YouTube).

Por lo que respecta al bloque de ficción (novelas, guiones de cine, relatos, obras de teatro), las formas del Corpes sobrepasan los 93 millones, mientras que las contenidas en textos de libros de no ficción y en publicaciones periódicas (ciencias sociales, salud, política, artes, tecnología) se acercan a los 238 millones.

Los textos procedentes de libros suponen casi 166 millones de formas mientras que las publicaciones periódicas están representadas con unos 158 millones. Seis millones y medio más provienen de blogs, entrevistas digitales y redes sociales.

En cuanto a la distribución temporal, aumenta el número de textos producidos entre 2016 y 2020, con algo más de 42 millones de formas en esta versión. Por lustros, el mayor peso en esta versión, todavía provisional, recae en el segmento 2006-2010, con más de 107 millones de formas; más de 100 millones corresponden a formas producidas entre 2001 y 2005; y, de 2011 a 2015, alcanza casi 82 millones de formas.

Las formas correspondientes a textos generados en España suponen algo más del 30 por ciento mientras que el resto procede de América, con más de 217 millones de formas, además de contener textos procedentes de Filipinas y Guinea Ecuatorial.

Local

Avanza construcción de ermita en La Valla

El recinto presenta un avance del 70%, se prevé que pueda estar listo durante este año

Policiaca

Piden justicia para “Yaya”, sanjuanense que murió en Centro Penitenciario de Querétaro

La familia fue a reclamar el cuerpo e indicaron que presentó diversas lesiones con apariencia de golpes, entre otros agravios

Local

Alistan plegarías para pedir lluvia en San Juan del Río

Los campesinos del ejido de San Isidro participarán en la celebración de una misa en parcelas

Local

Advierten de enfermedades virales por picadura de mosquitos

Recomiendan a la población estar atenta a posibles enfermedades como el dengue, zika y chikungunya

Elecciones 2024

Suspenden programas sociales por campañas

El IEEQ dijo que a excepción de información relativa a los servicios educativos, salud o protección civil en casos de emergencia

Policiaca

Joven perdió la vida en un choque frontal

Ocurrió en la carretera estatal 122 cuando uno de los dos conductores invadió el carril contrario