Korpus

W ramach projektu SONATA powstał duży korpus j. hiszpańskiego obejmujący autentyczną mowę 44 rodzimych użytkowników z północy Gran Canarii.

Korpus zawiera łącznie 4481 zdań, które podzielone zostały na 111,3 tys. dźwięków.

Opiera się on o spontaniczne wypowiedzi native speakerów nagrane w lutym 2016 r. podczas częściowo ustrukturyzowanych wywiadów. Osoby, które słychać na nagraniach pochodzą z gmin Gáldar, Guía, Arucas, Firgas i Agaete. W momencie tworzenia korpusu były w wieku 16-79 lat, przy czym podział na osoby młode, w średnim wieku i starsze był zrównoważony. 26 osób to mężczyźni, a pozostałe 18 - kobiety.

Anotacja korpusu przebiegała kilkustopniowo:
1. Anotacja ortograficzna
2. Anotacja automatyczna za pomocą wtyczki EasyAlign do j. hiszpańskiego, dostępnej dla programu Praat
3. Ręczna korekta anotacji automatycznej
4. Dodawanie dodatkowych elementów anotacji (akcent, usunięcia spółgłosek) i (re)alignment

Proces tworzenia korpusu oraz przygotowania danych do analizy trwał łącznie 1 rok.
Przygotowana anotacja skupiała się przede wszystkim na spółgłoskach /p t k b d g/ oraz, w późniejszej fazie na spółgłosce /s/ i jej realizacjach. W przypadku analizy innych dźwięków z korpusu może być konieczna weryfikacja anotacji fonetycznej.

Anotacja zawiera informacje o dźwięku powierzchniowym (alofonie), fonemie od którego pochodzi, słowie oraz zdaniu, w którym się znajduje, a także o dźwiękach usuniętych (niewypowiedzianych przez użytkownika) i samogłoskach akcentowanych (zgodnie z teorią, bez analizy prozodycznej, czyli oczekiwany akcent). W anotacji fonetycznej nie ma podziału na sylaby.

Z uwagi na ograniczenia użytej anotacji automatycznej, pliki musiały zostać podzielone na mniejsze nagrania (do 60 zdań, co łącznie dało 128 plików). Dodatkowo, z nagrań zostały wycięte wypowiedzi osoby przeprowadzającej wywiady (dr Karoliny Broś), co spowodowało, że w niektórych miejscach trzeba było wprowadzić sztuczne pauzy lub wydłużyć te już istniejące. W każdym przypadku chodzi o pauzy między zdaniami, a nie w środku zdań. A zatem dane nie nadają się do analiz bazujących na pauzach lub automatycznych analiz i anotacji biorących pauzy za podstawowy czynnik w analizie akustycznej bądź statystycznej. Pauzy wewnątrz zdań mogą zostać uznane za rzetelne i właściwe do analizy.

Przykład dźwięku i anotacji fonetycznej:
nagranie
anotacja

Przykład anotacji zdania:

W przypadku chęci wykorzystania danych do analizy fonetycznej lub socjolingwistycznej, prosimy o kontakt mailowy pod adresem k.bros@uw.edu.pl. Przed udostępnieniem danych należy podpisać zobowiązanie do poufności w celu ochrony danych osobowych nagranych osób.