Title

Scenari Visivi Per L’Acquisizione Di Palato Narurale

D. Aiello, C. Delogu, A. Di Carlo, M. Nisi, S. Tummeacciu

Fondazione Ugo Bordoni, v. B. Castiglione 59, 00142 Roma, Italy

e-mail: demetrio;cristina;adicarlo@fub.it

Sommario

Questo articolo descrive un sistema, in JAVA, per la generazione automatica di scenari visivi e testuali da utilizzare nella raccolta di una base dati vocali. Il sistema, a partire da regole di riscrittura ispirate dall'analisi del dominio di interesse, genera una rappresentazione concettuale di una situazione possibile nel dominio; questa rappresentazione viene poi visualizzata sotto forma di un paragrafo testuale o di una vignetta che vengono detti scenari testuali e visivi. Gli scenari vengono poi utilizzati per sollecitare un campione di parlatori a produrre espressioni nell'ambito di un sistema di informazioni alberghiere; le espressioni collezionate e opportunamente trascritte costituiscono un corpus per l'addestramento di un sistema di riconoscimento e traduzione del parlato. Il corpus ottenuto e' stato valutato secondo varie figure di merito (ricchezza lessicale e perplessita') allo scopo di comparare le produttivita' dei due tipi di scenari. Il corpus generato dagli scenari visivi risulta essere piu' ricco e complesso di quello ottenuto dagli scenari testuali.

Introduzione

Questo lavoro presenta la valutazione di alcuni metodi per la collezione di corpora vocali. Questi corpora sono indispensabili per la stima dei parametri di diversi modelli utilizzati per il riconoscimento e la comprensione automatici del parlato (ASRU, Automatic Speech Recognition and Understanding).

Nelle applicazioni diverse dalla dettatura, quali le interrogazioni vocali di basi dati o le traduzioni voce-voce, i corpora dovrebbero contenere parlato spontaneo, e cioè prodotto senza che i parlatori leggano ciò che devono dire. Naturalmente, al parlatore devono essere date delle informazioni relative all’argomento della sua frase, che gli lascino un certo margine di libertà nella scelta delle parole e delle costruzioni sintattiche.

In pratica, vengono create delle descrizioni di situazioni, che abbiano la funzione di vincolare il parlatore in ciò che dirà, ma non in come lo dirà. Le situazioni sono descrizioni di un aspetto del dominio dell’applicazione.

La domanda chiave di questo lavoro è la seguente: quale forma e che tipo di informazioni dovrebbero essere presentate ad un parlatore per riuscire ad acquisire un corpus che sia omogeneo nel contenuto e vario nella forma? Nel seguito descriveremo due tipi di presentazione: la testuale e la visiva. Le presentazioni testuali sono testi che descrivono situazioni-tipo in cui si può trovare un utente dell’applicazione. Analogamente, le presentazioni visive sono scene che illustrano graficamente tali situazioni. I parlatori, agendo da utenti, devono immaginare di trovarsi nella situazione descritta e dire qualcosa di appropriato e consistente con gli obiettivi dell’applicazione, che è stata descritta loro prima della fase di acquisizione.

Al contrario del caso della dettatura di giornali, i testi e le scene che devono ispirare i parlatori devono essere generati da una procedura che rispetti i vincoli imposti dall’applicazione. Se una tale generazione venisse automatizzata, sarebbe conveniente utilizzare un metodo formale, che generi una rappresentazione concettuale da cui vengano derivati gli argomenti delle frasi in forma visiva o testuale.

L’impiego di scenari nella sollecitazione di frasi spontanee per la collezione di corpora vocali è fondamentale. Possiamo definire uno scenario come una descrizione di un compito reale che ciascun parlatore deve svolgere. Gli scenari dovrebbero stimolare i soggetti a generare frasi con una grande varietà di parole e di costruzioni sintattiche. Finora, gli scenari testuali (TS) sono stati usati frequentemente per l’acquisizione di corpora. Il limite di questi scenari è che probabilmente influenzano un parlatore nella scelta delle parole utilizzate per esprimere i concetti. Attualmente, non esiste un metodo sperimentato per la produzione di scenari che evitino il condizionamento linguistico introdotto dagli scenari testuali. Sono stati impiegati anche scenari a tabella [1] e rappresentazioni grafiche inserite in scenari testuali [2].

Poiché l’obiettivo è la produzione di un ampio corpus di addestramento che abbia la più grande variabilità di frasi che esprimano strutture concettuali appartenenti al dominio, è importante valutare i corpora acquisiti con presentazioni testuali o visive. Una presentazione testuale influenza facilmente un parlatore nella scelta delle parole impiegate per esprimere i concetti, mentre una presentazione visiva può ispirare una maggiore varietà nelle frasi, anche se la comprensione dei disegni può essere più difficile della comprensione dei testi.

Generazione di rappresentazioni concettuali

Possiamo considerare il processo di generazione di scenari come una sequenza di due passi. Il primo passo consiste nel produrre una descrizione formale del contenuto del messaggio che si vuole elicitare, mentre il secondo passo consiste nel comporre un testo o una immagine che corrisponda alla descrizione. Nel caso delle immagini, il secondo passo può a sua volta essere separato in due parti. Nella prima parte vengono generate le componenti visive della scena e le loro relazioni logiche. Nella seconda parte gli elementi della scena vengono assemblati in modo da soddisfare i vincoli imposti da relazioni logiche e da considerazioni geometriche. Un esempio di vincolo logico è rappresentato dal fatto che un letto d’albergo deve poggiare sul pavimento della camera; un vincolo geometrico può essere quello che impedisce a due oggetti solidi di occupare lo stesso spazio fisico.

Una descrizione più dettagliata della generazione, che fa uso di una grammatica generativa a frames, si può trovare in [3].

Una frame è composta da una intestazione e da coppie (attributo, valore). I valori delle coppie possono essere simboli nonterminali che a loro volta possono essere espansi in strutture a frame. In alcuni casi, la grammatica genera solo l’elemento attributo della coppia, lasciando al soggetto la libertà di decidere i valori.

Il simbolo iniziale s della grammatica rappresenta la classe di tutti gli scenari possibili.

La prima regola è del tipo:

in cui i FRi sono simboli nonterminali a cui corrispondono altrettante strutture a frame.

Generazione di rappresentazioni di situazioni

Ad ogni simbolo terminale della grammatica è associata una funzione di generazione di testo e una funzione di generazione di immagini. Ciascuna funzione può contenere due tipi di istruzione: le istruzioni del primo tipo generano direttamente una o più sequenze testuali in Linguaggio Naturale, o una o più immagini; quelle del secondo tipo consentono di indicare il punto in cui altre funzioni di generazione, chiamate ricorsivamente, devono generare le proprie sequenze o le proprie immagini.

Nel caso delle rappresentazioni visuali, i vincoli di generazione sono naturalmente più complessi che nel caso delle rappresentazioni testuali.

4. Valutazione

Con l'intento di studiare possibili differenze tra scenari testuali e visivi é stato condotto un esperimento di valutazione a cui hanno partecipato 100 soggetti divisi in due gruppi: Gruppo Testuali e Gruppo Visivi che hanno ricevuto rispettivamente scenari testuali e visivi.

Ogni soggetto chiamava il numero verde del centralino sperimentale e diceva la propria frase coerentemente allo scenario. I soggetti dovevano completare i compiti descritti negli scenari ad essi assegnati (10 per ogni soggetto). In Figura 1 è contenuto un esempio dello scenario testuale e del corrispettivo scenario visivo "Richiesta di taxi", che sono stati produtti dalla seguente rappresentazione concettuale:

Scene ( Actor: Generic,

Action: Service Request ( Object: Taxi )

Place: Hotel Room,

Hotel: Hotel ( Name: Excelsior,

City: Rome ) )

Scenario testuale:

"Lei sta telefonando alla reption dell’hotel Excelsior di Roma per richiedere un taxi."

Scenario visivo:

Figura 1

Attraverso l’esperimento si volevano verificare le seguenti ipotesi:

Gli scenari visivi sono più difficili da capire di quelli testuali
Le frasi prodotte dal Gruppo Visivi sono più complesse di quelle prodotte dal Gruppo Testuali;
Le frasi del Gruppo Visivi sono più difficili da modellare rispetto a quelle del Gruppo Testuali.

Per verificare la prima ipotesi, abbiamo valutato la comprensione degli scenari da parte dei Gruppi Visivi e Testuali. A tale scopo sono stati definiti dei criteri per stabilire la correttezza dell’interpretazione dello scenario basati sul significato della rappresentazione concettuale a partire dalla quale lo scenario visivo è stato costruito. Per ogni scenario sono stabilite delle parole chiave; es: la lamentela per la camera in disordine è definita dalle parole chiave "disordine" e "camera", di queste due parole, "disordine" è la parola che maggiormente rappresenta il senso dello scenario ed è considerata essenziale per giudicare la frase giustamente compresa. Naturalmente l’interpretazione dello scenario viene valutata positivamente anche se al posto della parola chiave essenziale viene pronunciato un suo sinonimo. I criteri definiti sono i seguenti:

Criterio stretto: che valuta come pienamente corretta l’interpretazione degli scenari se nelle frasi prodotte dai soggetti sono presenti sia la parole chiave essenziale, sia la parola chiave non essenziale.
Criterio largo: che valuta come genericamente corretta l’interpretazione degli scenari se nella frase prodotta dai soggetti è presente solo la parola chiave essenziale.

L’interpretazione dello scenario viene valutata negativamente se nella frase del soggetto compare solo la parola chiave non essenziale o non compaiono affatto le parole chiave; questa condizione coincide spesso con un’interpretazione completamente errata del contesto dello scenario.

La valutazione del grado di comprensione è stata condotta su 381 frasi ottenetu a partire da 28 scenari visivi: il 90% delle frasi ha raggiunto la comprensione piena degli scenari; il 7% ha raggiunto la comprensione generica; il 3% non ha raggiunto la comprensione.

Per verificare le ipotesi 2 e 3 è stata utilizzata l'analisi statistica della Perplessità [4]. La perplessità fornisce un indice della complessità di un dato vocabolario e un modello del linguaggio basato su bigrammi e trigrammi.

I modelli a bigrammi si basano sulla probabilità che la presenza di ogni parola di un vocabolario possa essere influenzata dalla parola che immediatamente la precede. Il modello a trigrammi si basa sulla probabilità che la presenza di ogni parola possa essere influenzata dalle due parole che la precedono. In questo modo, l’indice di perplessità valuta la complessità di un vocabolario in base alle parole conosciute e in base alla probabilità che ogni parola sia influenzata dalla presenza della precedente o dalle precedenti due parole. Un indice di perplessità elevato indica una maggior complessità del vocabolario, mentre un indice di perplessità non elevato indica un vocabolario relativamente semplice e prevedibile.

E' stato utilizzato un set di 400 frasi (200 visive e 200 testuali) con 8515 parole e un vocabolario di 898 tipi. Il test Corpus Visivo (CV) è stato condotto utilizzando 78 frasi (con 1594 parole), mentre il test per il Corpus Testuale (CT) è stato condotto utilizzando 78 frasi (con 2119 parole).

La tabella 1 mostra il calcolo della perplessità sia per il modello a bigrammi che per quello a trigrammi a partire dalle frasi prodotte da scenari visivi (CV) e quelle prodotte da scenari testuali (CT).

MODELLO A TRIGRAMMI (a)

	Corpus visivo	Corpus testuale
Perplessità	36.92	20.73
Parole fuori dal vocabolario	120	77

MODELLO A BIGRAMMI (b)

	Corpus visivo	Corpus testuale
Perplessità	41.44	26.05
Parole fuori dal vocabolario	120	77

Tabella 1: I valori della perplessità e le parole fuori dal vocabolario ottenute dal modello a trigrammi (a) e dal modello a bigrammi (b).

Poiché da ciascuna rappresentazione concettuale si é generato sia una scenario visivo che uno scenario testuale, i corpora ottenuti con i due meccanismi di generazione sono direttamente comparabili anche se la dimensione del corpus non é grande. Le differenze nella perplessità per il set di frasi sono consistenti e sostanzialmente più alte per il linguaggio generato con gli scenari visivi in entrambi i tipi di modelli del linguaggio (bigrammi e trigrammi). Inoltre, il numero delle parole fuori dal vocabolario (OOV) è più elevato per il corpus visivo rispetto al corpus testuale (120 vs. 77 per un vocabolario di 898 parole).

Da questi dati si evidenzia come l’indice di perplessità abbia dei valori costantemente piu’ elevati per le frasi prodotte a partire da scenari visivi, si attesta invece su dei livelli meno elevati per frasi prodotte da scenari testuali.

In definitiva emerge una maggiore incertezza nel definire il vocabolario di frasi prodotte dalle immagini a causa della sua maggiore complessità rispetto al vocabolario degli scenari testuali. E’ importante sottolineare che per complessità del vocabolario si intende non solo un maggior numero di parole utilizzate, ma soprattutto una varietà di parole usate per indicare uno stesso concetto. Questa ipotesi viene confermata osservando che l’indice di perplessità assume valori più bassi e quindi di minor incertezza quando si testa il corpus di parole prodotte dagli scenari visivi su quello prodotto da scenari testuali, viceversa assume i valori di più alta incertezza testando il corpus di parole prodotte dagli scenari testuali su quelli visivi, indice del fatto che il vocabolario prodotto dagli scenari testuali, in quanto più semplice, non è sufficiente nel predire il vocabolario prodotto dagli scenari visivi.

Infine, è stata condotta l'analisi della word intersection per estrarre da ogni frase del corpora testuale e visivo la frase chiave corrispondente ai vari scenari. Per esempio, nello scenario testuale:

"Lei sta chiamando la reception dell'hotel Hilton, per sapere qual é il costo del servizio in camera"

la frase chiave é < il costo del servizio in camera >.

Tutte le frasi chiave (spesso costituite da una sola parola) vengono individuate all'interno dei due corpora CV e CT. Si é evidenziato che le frasi di CT contengono tutte le parole delle frasi chiave (key_words), le quali invece sono raramente presenti nelle frasi degli CV.

La Tabella 2 riassume i risultati per un campione di 261 frasi generate dopo la presentazione di 28 scenari.

Numeri di frasi	261
Parole chiave negli ST	1253
Parole chiave negli SV	483

Tabella 2. Risultati dell'analisi Key_word intersection

Questi risultati suggeriscono che quando i soggetti del Gruppo Visivi utilizzano delle parole diverse dalle parole chiave. D'altra parte un'analisi dei sinonimi nei due corpora ha mostrato che il corpus visivo contiene in media 7 sinonimi per parola, mentre la media nel corpus testuale è di 3. In media sono 2 i sinonimi condivisi nei due corpora.

Globalmente i risultati della valutazione degli scenari ha confermato l'ipotesi che gli scenari testuali influenzano maggiormente i parlatori nella scelta del lessico utilizzato per esprimere i concetti rispetto agli scenari visivi. Inoltre i risultati hanno evidenziato che le frasi prodotte a partire dagli scenari visivi hanno una differenzazione lessicale molto elevata.

Questi risultati possono essere spiegati considerando il ruolo del linguaggio nei processi cognitivi, e la psicologia sociale degli esperimenti con soggetti umani. Il linguaggio aiuta a segmentare e a categorizzare la realtà. Avere a disposizione una situazione linguistica già descritta evita lo sforzo di trovare l'appropriata segmentazione e categorizzazione della situazione, ma al tempo stesso non incoraggia a cercare segmentazioni e categorizzazioni alternative. Inoltre, un esperimento è un contesto sociale specifico che tende ad indurre un atteggiamento di rispetto nei riguardi dello sperimentatore e del materiale sperimentale. Entrambi i fattori favoriscono i soggetti che hanno ricevuto scenari testuali a produrre frasi utilizzando lo stesso linguaggio usato nel materiale sperimentale loro offerto. D'altra parte, i soggetti che hanno ricevuto scenari visivi devono cercare da soli le parole che descrivano le immagini e non sono influenzati a sottostare al linguaggio dello sperimentatore.

5. Conclusioni

Il sistema descritto in questo articolo ha evidenziato il vantaggio di utilizzare grammatiche concettuali per generare scenari testuali e visivi. Inoltre gli oggetti grafici (per.es. le istanze delle classi di Java) possono essere facilmente generate da un linguaggio di descrizione di frame.

Il risultato dell'esperimento dimostra che il corpus generato dagli scenari visivi ha un valore di perplessità più alto e un vocabolario più ricco del corpus generato utilizzando le stesse derivazioni concettuali per produrre scenari testuali. Inoltre si é evidenziato che gli scenari testuali influenzano maggiormente i parlatori nella scelta del lessico utilizzato rispetto agli scenari visivi.

6. Riferimenti bibliografici

Delogu C., Di Carlo A., Sementina C., Stecconi S. "A Methodology for Evaluating HumanMachine Spoken Language Interaction.", Proceedings of Eurospeech’93, Berlin 1993,Vol. 2, pp. 1427--1430.

Dybkjaer L., Bernsen N.L., Dybkjaer H. "Scenario Design for Spoken Language Systems Development." Proceedings of ESCA Workshop on Spoken Dialogue Systems, Vigso 1995, pp. 93—96

Aiello D., DeloguC., De MoriR., Di CarloA., NisiM. and TummeacciuS. "Automatic Generation Of Visual Scenarios For Spoken Corpora Acquisition." Proceedings of Int. Conf. of Spoken Language Processing, Sydney, 1998

Clarkson P., Rosenfeld R. "Statistical Language Modeling Using the CMU-Cambridge Toolkit." Proceedings of Eurospeech'97, Rhodes 1997, vol. 5, pp. 2707-2710