Subcorpus de noticias

Descripción

El subcorpus de noticias está compuesto por un conjunto de lecturas de noticias grabadas en estudio por locutores profesionales. Contiene dos subcorpus: 

  • El corpus 'prosódico': un conjunto de 36 lecturas de noticias seleccionadas teniendo en cuenta criterios prosódicos.
  • El corpus 'fonético': un conjunto de 36 lecturas de noticias seleccionadas para ofrecer una adecuada cobertura fonética.

Los corpus en español y catalán contienen versiones de las mismas noticias (originalmente en español y luego traducidas al catalán), por lo que pueden considerarse corpus paralelos.


Locutores

8 locutores por lengua:  

 

Contenido

Cada grabación del corpus tiene un identificador único, que indica: 

  • la lengua: catalán ('ca') o español ('sp') 
  • el identificador Glissando del locutor 
  • el subcorpus: prosódico ('prn') o fonético ('phn') 
  • un identificador de dos cifras que indica el número de texto de la noticia en el corpus 

Por ejemplo:

  • sp_f11r_prn01: noticia 1, corpus prosódico, locutor 11 (femenino, profesional de radio), español 

Para cada lectura de noticia están disponibles los siguientes ficheros: 

  • La grabación (ficheros wav, mono, frecuencia de muestreo 16000 Hz): 
    • Señal grabada con un micrófono de sobremesa (ficheros '.fix.wav')
    • Señal grabada con un micrófono inalámbrico (ficheros '.wir.wav')  
    • Señal recogida con un laringógrafo, solo en algunos casos (ficheros '.lar.wav') 
  • La transcripción ortográfica (ficheros txt, UTF-8) 
  • La anotación fonética y prosódica alineada temporalmente con la onda sonora (ficheros TextGrid de Praat) 
  • Valores de F0 e intensidad (formato Praat): 
    • Valores de intensidad obtenidos del fichero '.fix.wav' (ficheros '.fix.Intensity') 
    • Valores de intensidad obtenidos del fichero '.wir.wav' (ficheros '.wir.Intensity') 
    • Valores de Fo obtenidos del fichero '.fix.wav' (ficheros '.fix.Pitch') 
    • Valores de Fo obtenidos del fichero '.wir.wav' (ficheros '.wir.Pitch')