Skip to Main Content (Press Enter)

Logo UNITO
  • ×
  • Home
  • Pubblicazioni
  • Progetti
  • Persone
  • Competenze
  • Settori
  • Strutture
  • Terza Missione

UNI-FIND
Logo UNITO

|

UNI-FIND

unito.it
  • ×
  • Home
  • Pubblicazioni
  • Progetti
  • Persone
  • Competenze
  • Settori
  • Strutture
  • Terza Missione
  1. Progetti

"Linking Italian" - Finanziamento dell’Unione Europea–NextGenerationEU – missione 4, componente 2, investimento 1.1 - CUP D53D23020720001 -

Progetto
Negli ultimi decenni si è assistito a una proliferazione della creazione di risorse linguistiche per molte lingue, come corpora, lessici e dizionari. Far interagire una tale ricchezza di informazioni linguistiche digitalizzate a un livello di grana fine rimane ancora una sfida aperta. L'obiettivo del progetto "LiIta: Linking Italian" è quello di creare un'interoperabilità a grana fine, basata sul web, tra le risorse disponibili per l'italiano. Per affrontare questa sfida, il progetto si baserà sugli standard de facto creati dalla comunità Linked Open Data (LOD), grazie ai quali le risorse e gli strumenti di elaborazione del linguaggio naturale sono pubblicati, interconnessi e possono interagire tra loro sul web. Sulla falsariga dell'architettura di successo della LiLa Knowledge Base di risorse interoperabili per il latino, questo progetto svilupperà la componente fondamentale per l'interconnessione delle risorse linguistiche per l'italiano in una base di conoscenza LOD, ovvero una raccolta di forme di citazione italiane (Lemma Bank). Le voci delle risorse lessicali e le occorrenze delle parole nelle risorse testuali sono collegate a questa raccolta, rendendo così possibile la loro interazione. Nella prima fase del progetto, la Banca dei Lemmi sarà sviluppata selezionando e confrontando gli insiemi di lemmi disponibili per l'italiano, che saranno poi armonizzati comprendendo e risolvendo le idiosincrasie (ad esempio, l'uso di diversi tag PoS e i criteri di assegnazione PoS). Ai lemmi verranno poi assegnati i tag UPoS (Universal Part of Speech) e arricchiti con informazioni aggiuntive quali varianti e diverse rappresentazioni scritte. La Banca dei Lemmi sarà infine pubblicata come LOD, seguendo il vocabolario fornito da un modello ampiamente utilizzato per la descrizione delle risorse lessicali (OntoLex-Lemon). La seconda fase del progetto consisterà nel collegare alla base di conoscenza un insieme di risorse linguistiche disponibili per l'italiano, tra cui una risorsa lessicale (in particolare una WordNet) e un tipo di risorsa testuale (in particolare due delle treebank italiane disponibili in Universal Dependencies). Durante la terza fase, il progetto svilupperà uno strumento che permetterà ai fornitori di risorse di collegare i loro dati alla Banca dei Lemmi in modo automatico. Insieme all'adozione di vocabolari comunemente utilizzati per la descrizione della conoscenza come LOD, questo strumento contribuirà a rendere l'output del progetto LiIta aperto e la base di conoscenza pronta a essere arricchita e aumentata in futuro. L'inclusione della Banca dei Lemmi e delle risorse LOD in infrastrutture come CLARIN-IT e la Griglia linguistica europea garantirà la sostenibilità e completerà la diffusione dei risultati negli ultimi mesi del progetto.
  • Dati Generali
  • Aree Di Ricerca
  • Pubblicazioni

Dati Generali

Partecipanti (2)

BASILE Valerio   Responsabile scientifico  
BOSCO Cristina   Partecipante  

Referenti (2)

COSTA Daniela Nicoletta   Amministrativo  
LO IACONO Cristiano   Amministrativo  

Dipartimenti coinvolti

INFORMATICA   Principale  

Tipo

Progetti PNRR - M4C2 Investimento 1.1 - Fondo per il Programma Nazionale di Ricerca e Progetti di Rilevante Interesse Nazionale (PRIN) - Bando 2022

Finanziatore

Ministero dell'Università e della Ricerca
Ente Finanziatore

Partner

Università degli Studi di TORINO

Contributo Totale (assegnato) Ateneo (EURO)

112.313€

Periodo di attività

Novembre 30, 2023 - Novembre 29, 2025

Durata progetto

24 mesi

Aree Di Ricerca

Settori (7)


SH4_9 - Theoretical linguistics; computational linguistics - (2022)

Settore INF/01 - Informatica

Settore L-LIN/01 - Glottologia e Linguistica

LINGUE e LETTERATURA - Anglistica e angloamericanistica

LINGUE e LETTERATURA - Francesistica

LINGUE e LETTERATURA - Linguistica

SOCIETA', POLITICA, DIRITTO e RELAZIONI INTERNAZIONALI - Relazioni internazionali, cooperazione allo sviluppo e area studies

Parole chiave (2)

OWL ontologies and Linked Open Data
italian linguistics
No Results Found

Pubblicazioni

Pubblicazioni

The Lemma Bank of the LiITA Knowledge Base of Interoperable Resources for Italian 
CEUR WORKSHOP PROCEEDINGS
FELICE DELL'ORLETTA, ALESSANDRO LENCI, SIMONETTA MONTEMAGNI, RACHELE SPRUGNOLI
2024
Contributo in Atti di convegno
Open Access
  • Utilizzo dei cookie

Realizzato con VIVO | Designed by Cineca | 25.5.5.0