"Linking Italian" - Finanziamento dell’Unione Europea–NextGenerationEU – missione 4, componente 2, investimento 1.1 - CUP D53D23020720001 -
Progetto Negli ultimi decenni si è assistito a una proliferazione della creazione di risorse linguistiche per molte lingue, come corpora, lessici e dizionari. Far interagire una tale ricchezza di informazioni linguistiche digitalizzate a un livello di grana fine rimane ancora una sfida aperta.
L'obiettivo del progetto "LiIta: Linking Italian" è quello di creare un'interoperabilità a grana fine, basata sul web, tra le risorse disponibili per l'italiano. Per affrontare questa sfida, il progetto si baserà sugli standard de facto creati dalla comunità Linked Open Data (LOD), grazie ai quali le risorse e gli strumenti di elaborazione del linguaggio naturale sono pubblicati, interconnessi e possono interagire tra loro sul web.
Sulla falsariga dell'architettura di successo della LiLa Knowledge Base di risorse interoperabili per il latino, questo progetto svilupperà la componente fondamentale per l'interconnessione delle risorse linguistiche per l'italiano in una base di conoscenza LOD, ovvero una raccolta di forme di citazione italiane (Lemma Bank). Le voci delle risorse lessicali e le occorrenze delle parole nelle risorse testuali sono collegate a questa raccolta, rendendo così possibile la loro interazione.
Nella prima fase del progetto, la Banca dei Lemmi sarà sviluppata selezionando e confrontando gli insiemi di lemmi disponibili per l'italiano, che saranno poi armonizzati comprendendo e risolvendo le idiosincrasie (ad esempio, l'uso di diversi tag PoS e i criteri di assegnazione PoS). Ai lemmi verranno poi assegnati i tag UPoS (Universal Part of Speech) e arricchiti con informazioni aggiuntive quali varianti e diverse rappresentazioni scritte. La Banca dei Lemmi sarà infine pubblicata come LOD, seguendo il vocabolario fornito da un modello ampiamente utilizzato per la descrizione delle risorse lessicali (OntoLex-Lemon).
La seconda fase del progetto consisterà nel collegare alla base di conoscenza un insieme di risorse linguistiche disponibili per l'italiano, tra cui una risorsa lessicale (in particolare una WordNet) e un tipo di risorsa testuale (in particolare due delle treebank italiane disponibili in Universal Dependencies).
Durante la terza fase, il progetto svilupperà uno strumento che permetterà ai fornitori di risorse di collegare i loro dati alla Banca dei Lemmi in modo automatico. Insieme all'adozione di vocabolari comunemente utilizzati per la descrizione della conoscenza come LOD, questo strumento contribuirà a rendere l'output del progetto LiIta aperto e la base di conoscenza pronta a essere arricchita e aumentata in futuro.
L'inclusione della Banca dei Lemmi e delle risorse LOD in infrastrutture come CLARIN-IT e la Griglia linguistica europea garantirà la sostenibilità e completerà la diffusione dei risultati negli ultimi mesi del progetto.