Subcorpus de noticias

Descripción

El subcorpus de noticias está compuesto por un conjunto de lecturas de noticias grabadas en estudio por locutores profesionales. Contiene dos subcorpus:

El corpus 'prosódico': un conjunto de 36 lecturas de noticias seleccionadas teniendo en cuenta criterios prosódicos.
El corpus 'fonético': un conjunto de 36 lecturas de noticias seleccionadas para ofrecer una adecuada cobertura fonética.

Los corpus en español y catalán contienen versiones de las mismas noticias (originalmente en español y luego traducidas al catalán), por lo que pueden considerarse corpus paralelos.

Locutores

8 locutores por lengua:

Contenido

Cada grabación del corpus tiene un identificador único, que indica:

la lengua: catalán ('ca') o español ('sp')
el identificador Glissando del locutor
el subcorpus: prosódico ('prn') o fonético ('phn')
un identificador de dos cifras que indica el número de texto de la noticia en el corpus

Por ejemplo:

sp_f11r_prn01: noticia 1, corpus prosódico, locutor 11 (femenino, profesional de radio), español

Para cada lectura de noticia están disponibles los siguientes ficheros:

La grabación (ficheros wav, mono, frecuencia de muestreo 16000 Hz):
- Señal grabada con un micrófono de sobremesa (ficheros '.fix.wav')
- Señal grabada con un micrófono inalámbrico (ficheros '.wir.wav')
- Señal recogida con un laringógrafo, solo en algunos casos (ficheros '.lar.wav')
La transcripción ortográfica (ficheros txt, UTF-8)
La anotación fonética y prosódica alineada temporalmente con la onda sonora (ficheros TextGrid de Praat)
Valores de F0 e intensidad (formato Praat):
- Valores de intensidad obtenidos del fichero '.fix.wav' (ficheros '.fix.Intensity')
- Valores de intensidad obtenidos del fichero '.wir.wav' (ficheros '.wir.Intensity')
- Valores de Fo obtenidos del fichero '.fix.wav' (ficheros '.fix.Pitch')
- Valores de Fo obtenidos del fichero '.wir.wav' (ficheros '.wir.Pitch')