Descripción
El subcorpus de noticias está compuesto por un conjunto de lecturas de noticias grabadas en estudio por locutores profesionales. Contiene dos subcorpus:
- El corpus 'prosódico': un conjunto de 36 lecturas de noticias seleccionadas teniendo en cuenta criterios prosódicos.
- El corpus 'fonético': un conjunto de 36 lecturas de noticias seleccionadas para ofrecer una adecuada cobertura fonética.
Los corpus en español y catalán contienen versiones de las mismas noticias (originalmente en español y luego traducidas al catalán), por lo que pueden considerarse corpus paralelos.
Locutores
8 locutores por lengua:
Contenido
Cada grabación del corpus tiene un identificador único, que indica:
- la lengua: catalán ('ca') o español ('sp')
- el identificador Glissando del locutor
- el subcorpus: prosódico ('prn') o fonético ('phn')
- un identificador de dos cifras que indica el número de texto de la noticia en el corpus
Por ejemplo:
- sp_f11r_prn01: noticia 1, corpus prosódico, locutor 11 (femenino, profesional de radio), español
Para cada lectura de noticia están disponibles los siguientes ficheros:
- La grabación (ficheros wav, mono, frecuencia de muestreo 16000 Hz):
-
- Señal grabada con un micrófono de sobremesa (ficheros '.fix.wav')
- Señal grabada con un micrófono inalámbrico (ficheros '.wir.wav')
- Señal recogida con un laringógrafo, solo en algunos casos (ficheros '.lar.wav')
- La transcripción ortográfica (ficheros txt, UTF-8)
- La anotación fonética y prosódica alineada temporalmente con la onda sonora (ficheros TextGrid de Praat)
- Valores de F0 e intensidad (formato Praat):
- Valores de intensidad obtenidos del fichero '.fix.wav' (ficheros '.fix.Intensity')
- Valores de intensidad obtenidos del fichero '.wir.wav' (ficheros '.wir.Intensity')
- Valores de Fo obtenidos del fichero '.fix.wav' (ficheros '.fix.Pitch')
- Valores de Fo obtenidos del fichero '.wir.wav' (ficheros '.wir.Pitch')