Towards It-CMC: A Fine-Grained POS Tagset for Italian Linguistic Analysis
Contributo in Atti di convegno
Data di Pubblicazione:
2016
Abstract:
Il presente lavoro presenta "It-CMC", un tagset di parti del discorso (PoS) che punta a rappresentare un compromesso tra sostenibilità computazionale e precisione in termini di analisi linguistica. It-CMC nasce da un dataset di dati linguistici italiani provenienti dalla Comunicazione Mediata dal Computer (CMC) e le sezioni di questo lavoro portano avanti un paragone sistematico con l'attuale tagset del corpus "La Repubblica". In seguito a una prima fase di monitoraggio della performance d TreeTagger, il tagset è attualmente al centro di un flusso di lavoro che ha lo scopo di creare un file di parametri di RFTagger.
Tipologia CRIS:
04A-Conference paper in volume
Keywords:
PoS-tagging, Etichettatura Morfosintattica, Fine-grained PoS tagset, Corpora di Italiano, Corpus di Italiano, Analisi Linguistica
Elenco autori:
Russo, Claudio
Link alla scheda completa:
Titolo del libro:
Text, Speech, and Dialogue
Pubblicato in: