sabato 1 febbraio 2025

Il Dizionario delle collocazioni italiane per apprendenti (DICI-A): il punto sul progetto

                            


Il progetto PRIN 2022 DICI-A. Dizionario delle collocazioni italiane per apprendenti ha terminato il primo dei due anni di lavoro, la cui conclusione è prevista per la fine del 2025. Il progetto è coordinato da me (Stefania Spina, Università per Stranieri di Perugia, con Irene Fioravanti, Fabio Zanda e Luciana Forti) e ha come partner il Dipartimento di Informatica dell'Università degli studi di Perugia. In questo post sintetizzerò gli obiettivi del progetto, il lavoro svolto nel corso del primo anno e quello che resta da svolgere nel secondo.

Obiettivi

Obiettivo principale del progetto è la pubblicazione in formato digitale di un Dizionario delle collocazioni italiane per apprendenti. I destinatari sono dunque apprendenti di italiano come L2, di qualsiasi livello di competenza, nonché i docenti di italiano L2, che potranno usare il dizionario come strumento di lavoro per la preparazione di sillabi e materiali didattici. 

Il progetto adotta una precisa definizione di collocazione: una combinazione di due o più parole, adiacenti e non, legate tra loro da relazioni sintattiche specifiche, che corrispondono ad un concetto univoco e sono usate in un corpus di riferimento con una certa frequenza e in testi di generi diversi, e che sono inoltre strettamente associate tra loro, in modo tale che i parlanti nativi le percepiscano come familiari e convenzionali. Alcuni esempi di collocazioni sono prendere una decisione, fare finta, buon senso o centro storico. Nel dizionario saranno inserite collocazioni di sei tipi sintattici diversi: verbo + nome_oggetto diretto (vdobj: correre il rischio), aggettivo + nome (amod: opinione pubblica o buona volontà), verbo + aggettivo (advmod1: stare zitto), verbo + avverbio (advmod2: mandare via), avverbio + aggettivo (advmod3: totalmente diverso) e nome + nome (compound: lingua madre).

Risultati del primo anno

Nel corso del primo anno abbiamo definito i criteri di estrazione automatica delle potenziali collocazioni da un corpus di riferimento dell'italiano scritto e parlato, che è stato ampliato e aggiornato per l'occasione, il PEC24, di circa 50 milioni di parole. Abbiamo poi estratto oltre 2 milioni di potenziali collocazioni, integrando vari metodi e utilizzando sia dati annotati per categoria grammaticale che dati annotati sintatticamente, per ottenere un risultato migliore. A questo insieme iniziale abbiamo poi applicato diverse misure quantitative: la frequenza, la dispersione (i diversi generi testuali in cui sono usate) e la forza di associazione. Con il filtro di queste misure, che abbiamo usato in modo integrato, abbiamo ottenuto 16.000 collocazioni. A questo punto, per validare il metodo che abbiamo utilizzato, fin qui solo quantitativo, abbiamo svolto altre due operazioni: abbiamo confrontato le nostre 16.000 collocazioni con quelle contenute in due dizionari esistenti, non indirizzati specificamente ad apprendenti: quello di Vincenzo Lo Cascio e quello di Paola Tiberii. Buona parte delle collocazioni che abbiamo estratto dal corpus PEC24 erano presenti in almeno uno dei due dizionari. Quelle che non erano presenti sono state valutate da sei linguisti esperti riguardo al loro status di collocazioni da inserire nel dizionario. Questo metodo articolato, che combina procedure automatiche e statistiche con un confronto con opere di riferimento esistenti e con una valutazione umana ha portato all'inserimento nel DICI-A di circa 2.300 collocazioni che non erano presenti in nessuno dei due dizionari esistenti, e che derivano solo dalla nostra estrazione dal corpus. Il totale delle collocazioni finali che risultano da questa procedura è di circa 11.000. Il grafico descrive la loro ripartizione nei sei tipi sintattici considerati.




Programma del secondo anno

Il lavoro del secondo anno è rivolto verso due obiettivi diversi. Per completare il dizionario, oltre ad integrare il lemmario con definizioni ed esempi, adatti agli apprendenti, che contiamo di ottenere anche con l'aiuto dell'intelligenza artificiale, dobbiamo assegnare ciascuna delle 11.000 collocazioni al livello di competenza degli apprendenti più appropriato per imparare ad utilizzarla. È un compito complesso, per il quale ci serviremo anche del supporto di learner corpora di italiano. Nel frattempo, i nostri partner informatici realizzeranno l'interfaccia web che ospiterà il dizionario. Inoltre, dobbiamo realizzare e pubblicare una banca dati psicolinguistica delle collocazioni italiane. La risorsa conterrà un sottoinsieme delle 11.000 collocazioni, associate a dati comportamentali che riguardano la percezione che di alcuni aspetti semantici hanno i parlanti nativi, e sarà finalizzata alla ricerca psicolinguistica.


Nessun commento:

Posta un commento