Descripció
El subcorpus de notícies està composat per un conjunt de lectures de notícies enregistrades en estudi per locutors professionals. Conté dos subcorpus:
- El corpus 'prosòdic': un conjunt de 36 lectures de notícies seleccionades tenint en compte criteris prosòdics.
- El corpus 'fonètic': un conjunt de 36 lectures de notícies seleccionades per oferir una adequada cobertura fonètica.
Els corpus en castellà i català contenen versions de les mateixes notícies (originalment en castellà i després traduïdes al català), per la qual cosa poden considerar-se corpus paral·lels.
Locutors
8 locutors per lengua:
Contingut
Cada enregistrament del corpus té un identificador únic, que indica:
- la llengua: català ('ca') o castellà ('sp')
- el identificador Glissando del locutor
- el subcorpus: prosòdic ('prn') o fonètic ('phn')
- un identificador de dues xifres que indica el número de text de la notícia al corpus
Per exemple:
- sp_f11r_prn01: notícia 1, corpus prosòdic, locutor 11 (femení, professional de ràdio), castellà
Per a cada lectura de notícia estan disponibles els següents fitxers:
- La gravació (fitxers wav, mono, freqüència de mostreig 16000 Hz):
-
- Senyal enregistrat amb un micròfon de sobretaula (fitxers '.fix.wav')
- Senyal enregistrat amb un micròfon inalàmbric (fitxers '.wir.wav')
- Senyal recollit amb un laringògraf, només en alguns casos (fitxers '.lar.wav')
- La transcripció ortogràfica (fitxers txt, UTF-8)
- L’anotació fonètica i prosòdica alineada temporalment amb l’ona sonora (fitxers TextGrid de Praat)
- Valors d’F0 i intensitat (format Praat):
- Valors d’intensitat obtinguts del fitxer '.fix.wav' (fitxers '.fix.Intensity')
- Valores de intensidad obtinguts del fitxer '.wir.wav' (fitxers '.wir.Intensity')
- Valores de Fo obtinguts del fitxer '.fix.wav' (fitxers '.fix.Pitch')
- Valores de Fo obtinguts del fitxer '.wir.wav' (fitxers '.wir.Pitch')