Subcorpus de notícies

Descripció

El subcorpus de notícies està composat per un conjunt de lectures de notícies enregistrades en estudi per locutors professionals. Conté dos subcorpus: 

  • El corpus 'prosòdic': un conjunt de 36 lectures de notícies seleccionades tenint en compte criteris prosòdics.
  • El corpus 'fonètic': un conjunt de 36 lectures de notícies seleccionades per oferir una adequada cobertura fonètica.

Els corpus en castellà i català contenen versions de les mateixes notícies (originalment en castellà i després traduïdes al català), per la qual cosa poden considerar-se corpus paral·lels. 


Locutors

8 locutors per lengua:

 

Contingut

Cada enregistrament del corpus té un identificador únic, que indica: 

  • la llengua: català ('ca') o castellà ('sp') 
  • el identificador Glissando del locutor 
  • el subcorpus: prosòdic ('prn') o fonètic ('phn') 
  • un identificador de dues xifres que indica el número de text de la notícia al corpus 

Per exemple: 

  • sp_f11r_prn01: notícia 1, corpus prosòdic, locutor 11 (femení, professional de ràdio), castellà

Per a cada lectura de notícia estan disponibles els següents fitxers: 

  • La gravació (fitxers wav, mono, freqüència de mostreig 16000 Hz): 
    • Senyal enregistrat amb un micròfon de sobretaula (fitxers '.fix.wav') 
    • Senyal enregistrat amb un micròfon inalàmbric (fitxers '.wir.wav')  
    • Senyal recollit amb un laringògraf, només en alguns casos (fitxers '.lar.wav') 
  • La transcripció ortogràfica (fitxers txt, UTF-8) 
  • L’anotació fonètica i prosòdica alineada temporalment amb l’ona sonora (fitxers TextGrid de Praat) 
  • Valors d’F0 i intensitat (format Praat):  
    • Valors d’intensitat obtinguts del fitxer '.fix.wav' (fitxers '.fix.Intensity') 
    • Valores de intensidad obtinguts del fitxer '.wir.wav' (fitxers '.wir.Intensity') 
    • Valores de Fo obtinguts del fitxer '.fix.wav' (fitxers '.fix.Pitch') 
    • Valores de Fo obtinguts del fitxer '.wir.wav' (fitxers '.wir.Pitch')