Il corpus, che include oltre 26 milioni di parole, è suddiviso nei 10 generi testuali riportati in grassetto nella figura. Ciascun genere è a sua volta suddiviso in una serie di sottogeneri (le 43 tipologie testuali elencate nella figura), per un totale di 41.401 testi. Una descrizione più approfondita delle caratteristiche del corpus è disponibile qui.
![]() |
I 10 generi e le 43 tipologie testuali del PEC |
Il PEC è interrogabile attraverso CQPweb, uno dei software più diffusi per la gestione di corpora testuali (qui una serie di corpora in altre lingue della famiglia di CQPweb). Il software permette tra l'altro di effettuare ricerche semplici e complesse sull'intero corpus, su singoli generi o singole tipologie testuali, per anno o per canale (scritto e parlato), e consente di gestire i dati attraverso concordanze, liste di frequenza ed estrazione di collocazioni.
Insieme al PEC è inoltre disponibile CAIL2, un learner corpus scritto di apprendenti dell'italiano di livello intermedio ed avanzato.
L'accesso ai corpora è aperto a tutti, previa registrazione al sito.
Nessun commento:
Posta un commento