The Universitat Politècnica de Catalunya (UPC) and Applied Tecnologies on Language and Speech (ATLAS) have recorded and processed a large oral database inside this project, funded by the Generalitat de Catalunya.The corpus contains the voice of 550 persons, each one recorded in 1 session, where approximately the half of them will be women and the other half men. One session consists of about 291 read phrases and a maximum of 30 more of spontaneous speech recorded with 4 microphones using a mobile platfom.
La Universitat Politècnica de Catalunya (UPC) i Applied Tecnologies on Language and Speech (ATLAS) han enregistrat i processat una gran base de dades oral dins d'aquest projecte finançat per la Generalitat de Catalunya.
El corpus conté la veu de 550 persones, cadascuna enregistrada en 1 sessió, d'on aproximadament la meitat seran dones i la meitat homes. Una sessió consisteix d'unes 291 locucions llegides i d'un màxim de 30 més de parla espontània enregistrades amb 4 micròfons mitjançant una plataforma mòbil.
Una sessió consisteix d'unes 291 locucions llegides i un màxim de 30 més d'espontànies. La següent taula mostra els continguts de cada locució:
Indentificador del corpus | Identificador de la locució | Contingut del corpus | |
---|---|---|---|
Informació de cal·libració | |||
_ (guió baix) | 01 -06 | Enregistraments de soroll: distància mitjana: 01=pos mig, 02=pos esquerra, 03=pos dreta llarga distància: 04=pos mig, 05=pos esquerra, 06=pos dreta |
|
N | 01 | Enregistrament de la "paraula de silenci" | |
Locucions de parla espontània lliure | |||
F | 01 -30 | 5 minuts (temps de la sessió) de parla espontània lliure, locucions de context ric (explicar una història) | Un nombre variable de temes espontanis d'un total de 30 |
Locucions espontànies induïdes | |||
E | D1 -D3 | 3 dates | 17 locucions espontànies induïdes |
E | T1 -T2 | 2 temps | |
E | P1-P3 | 3 noms propis | |
E | C1 -C2 | 2 noms de ciutats | |
E | L1 | 1 seqüències de lletres | |
E | Q1 -Q2 | 2 respostes de preguntes | |
E | N1 -N3 | 3 números de telèfon | |
E | O1 | 1 idioma | |
Parla llegida | |||
S | 01 -30 | 30 frases riques fonèticament | |
W | 01 -05 | 5 paraules riques fonèticament | |
Paraules (llegides) bàsiques 31 paraules i frases generals, 208 aplicacions paraules i frases específiques | |||
C | I1 -I4 | 4 dígits aïllats | 31 paraules i frases generals |
C | B1 | 1 seqüència de dígits aïllats | |
C | C1 -C4 | 4 seqüència de dígits connectats | |
C | E1 | 1 número de telèfon | |
C | N1 -N3 | 3 nombres naturals | |
C | M1 | 1 quantitat de diners | |
C | T1 -T2 | 2 frases de temps T1: analògic, T2: digital |
|
C | D1 -D3 | 3 dates D1: analògica, D2: data relativa i general, D3: digital |
|
C | L1 -L3 | 3 seqüències de lletres | |
C | P1 | 1 noms propis | |
C | O1 - O2 | 2 noms de ciutat o de carrer | |
C | Q1 - Q2 | 2 preguntes | |
C | K1 - K2 | 2 caràcters especials del teclat | |
C | W1 | 1 adreces web | |
C | W2 | 1 adreces d'email | |
Y | 01 -99 | Sinònims de paraules del nucli | |
1 | 01 -85 | Comandes bàsiques IVR | Total de 208 paraules i frases per sessió d'un total de 453. |
2 | 01 -40 | Paraules per navegació | |
3 | 01 -22 | Edició | |
4 | 01 -57 | Control de sortida | |
5 | 01 -70 | Missatges i Navegació per internet | |
6 | 01 -33 | Funcions de l'organitzador | |
7 | 01 -39 | Encaminament | |
8 | 01 -12 | Automoció | |
9 | 01 -95 | Àudio i Vídeo |
El nombre d'informants és de 550 i cada un enregistra 1 sessió. Els informants han estat seleccionats seguint el criteri:
Figura 3. Dialectes de Catalunya
Regió | #Homes | #Dones |
---|---|---|
CENTRAL | 113 | 132 |
NORD-OCCIDENTAL | 49 | 55 |
GIRONI | 47 | 55 |
TORTOSI | 52 | 47 |
Numero de trucades rebudes per cada regió
Edat | Homes | Dones | Percentatge del total |
---|---|---|---|
15-30 | 145 | 166 | 56.5% |
31-45 | 84 | 85 | 30.7% |
46-60 | 23 | 31 | 9.8% |
mes de 60 | 9 | 7 | 2.9% |
TOTAL | 261 | 289 | 100.0% |
Distribució dels informants per grups d'edat y gènere
S'han definint 5 ambients:
La taula següent mostra la distribució dels informants en els escenaris:
Escenari | Total |
---|---|
Oficina | 200 |
Entreteniment | 75 |
Llocs públics | 200 |
Cotxe | 7 |
Distribució dels informants en els escenaris
Entorn | Homes | Dones | Total |
---|---|---|---|
Oficina | 86 | 114 | 200 |
Lloc d'esbarjo | 26 | 49 | 75 |
Lloc públic | 115 | 85 | 200 |
Cotxe | 34 | 41 | 75 |
Distribució de trucades per entorn de gravació
Al cotxe es graven quatre canals d'àudio d'alta qualitat mitjançant una plataforma mòbil. Les dades s'emmagatzemen en seqüències de 16 bits sense compressió i utilitzant una freqüència de mostreig de 16 kHz.
Cada registre s'emmagatzema en un fitxer separat. Cada fitxer de veu té un fitxer d'etiquetes SAM associat on hi ha una descripció de la freqüència de mostreig, la quantificació i el número de bytes per mostra, entre d'altres. A més, també hi ha informació relativa al nivell de soroll ambient en el moment de l'enregistrament i del valor de la relació senyal-soroll del fitxer de veu.
La plataforma d'enregistrament consisteix en un ordinador portàtil que usa un slot PCMCIA com a interfície per a l'equipament d'àudio. Com a sistema operatiu s'usa Windows XP; la targeta de so en depèn. La UPC ha desenvolupat un programari d'enregistrament específic per a aquest projecte. És possible enregistrar fins a quatre micròfons de manera simultània.
Els micròfons utilitzats depenen de l'ambient on es realitza l'enregistrament: Oficina, entreteniment, cotxe o lloc públic. Cadascun d'aquests ambients d'enregistrament té les seves característiques de soroll, nombre i tipus de micròfons a ser enregistrats simultàniament i posició de la plataforma d'enregistrament i dels micròfons.
Des del punt de vista de les configuracions, els ambients d'oficina i d'entreteniment són tractats de la mateixa manera. Així, es distingeixen 4 configuracions diferents del maquinari:
Escenari | Curta distància | Mitja distància | Llarga distància | ||
---|---|---|---|---|---|
oficina, entreteniment | Sennheiser ME 104 | Nokia Lavalier HDC-6D | Sennheiser ME 64 | - | Mikrofonbau Haun MBNM-550 E-L |
llocs publics | Sennheiser ME 104 | Nokia Lavalier HDC-6D | Sennheiser ME 64 | Mikrofonbau Haun MBNM-550 E-L | - |
cotxe | Sennheiser ME 104 | Nokia Lavalier HDC-6D | AKG Q400 Mk3 T | Peiker ME15/V520-1 | - |
Posicions dels micròfons en relació als escenaris d'enregistrament
La següent figura dóna una visió general de les posicions de muntatge. La posició de 'curta distància' es posarà el micròfon ME104 a 2 cm de la boca, i el HDC-6D fa 10 cm.
Posicions pel muntatge dels micròfons
Entre tots els escenaris d'enregistrament, els micròfons de 'mitja distància' i 'llarga distància' estan encarats a l'informant. La persona enregistrada s'asseu a una cadira durant tota la sessió. Els dos micròfons de 'curta distància' estan muntats sobre el mateix informant i els micròfons de 'mitja' i 'llarga distància' estan situats a una alçada mitja de 1.2 metres, permetent una desviació de 50 cm. Pel que fa a les propietats de reverberació d'un lloc, la posició dels informants relativa a objectes reflectors, com les parets, és important. Les etiquetes de posició diferencien en categories aquestes posicions de forma genèrica. Per cada lloc d'enregistrament i posició específica, la resposta impulsional de l'habitació és mesurada. Per cada sessió, un nivell de soroll és mesurat.
El procediment d'enregistrament està completament supervisat per un operador. El procediment per una sessió es fa de la següent manera:
La transcripció la ha dut a terme l'empresa ATLAS. Està inclosa en aquesta base de dades i la característica principal és que és ortogràfica i lèxica amb alguns detalls que representen sorolls audibles (veu i no-veu) presents en els corresponents senyals d'àudio. Les marques extres contingudes en la transcripció ajuden a interpretar el text de la frase. Les transcripcions es fan en dos passos: un primer pas en el qual es transcriuen les paraules i un segon pas on s'afegeixen els detalls addicionals.
Les marques extres s'utilitzen per a males pronunciacions, paraules inintelligibles i sorolls. Els símbols pels sorolls són:
La base de dades es transcriu mitjançant el programari UPCRevBD.v1, desenvolupat a la UPC. Un 1% de les transcripcions es transcriu dues vegades per a detectar errors. La base de dades final ha estat supervisada i validada per un organisme extern independent.
La documentació inclou un lexicon. El fitxer amb el lexicon és una llista ordenada alfabèticament de les diferents partícules lèxiques (essencialment paraules en el nostre cas) que ocorren en el corpus amb la corresponent informació de pronunciació. Cada paraula diferent té una entrada diferent. Com que el lexicon es deriva del corpus, usa la mateixa codificació alfabètica per a caràcters especials i accentuats com en les transcripcions (ISO-8859). El fitxer inclou també un recompte de freqüència d'aparició per a cada entrada en el lexicon.
Després de la fase de transcripció es genera un lexicon que conté totes les paraules que apareixen en el "LBO:" (una aparició per paraula) ordenades alfabèticament, el seu número d'aparicions, i la seva transcripció fonètica. Les paraules apareixen en el lexicon exactament igual que en la transcripció. Les marques de sorolls, fragments i paraules mal pronunciades no apareixen en el lexicon. El lexicon no conté majúscules.
El programari SEGRE, desenvolupat a la UPC, s'utilitza per a transcriure fonèticament les paraules amb la notació SAMPA. El lexicon es transcriu automàticament. El noms propis i noms d'empreses es faran manualment.
Des d'aquí pots baixar el fitxer de veu
Fitxer d'etiquetes ASCII SAM del fitxer de veu.
Es poden trobar aquí.
La base de dades és pública.
Fitxer de documentació i resultats
Informació: asunciongps.tsc.upc.es
Copyright © 2017 - Designed by Madstudio