Skip to Main Content (Press Enter)

Logo UNITO
  • ×
  • Home
  • Pubblicazioni
  • Progetti
  • Persone
  • Competenze
  • Settori
  • Strutture
  • Terza Missione

UNI-FIND
Logo UNITO

|

UNI-FIND

unito.it
  • ×
  • Home
  • Pubblicazioni
  • Progetti
  • Persone
  • Competenze
  • Settori
  • Strutture
  • Terza Missione
  1. Pubblicazioni

Data Augmentation through Back-Translation for Stereotypes and Irony Detection

Contributo in Atti di convegno
Data di Pubblicazione:
2024
Abstract:
Complex linguistic phenomena such as stereotypes or irony are still challenging to detect, particularly due to the lower availability of annotated data. In this paper, we explore Back-Translation (BT) as a data augmentation method to enhance such datasets by artificially introducing semantics-preserving variations. We investigate French and Italian as source languages on two multilingual datasets annotated for the presence of stereotypes or irony and evaluate French/Italian, English, and Arabic as pivot languages for the BT process. We also investigate cross-translation, i.e., augmenting one language subset of a multilingual dataset with translated instances from the other languages. We conduct an intrinsic evaluation of the quality of back-translated instances, identifying linguistic or translation model-specific errors that may occur with BT. We also perform an extrinsic evaluation of different data augmentation configurations to train a multilingual Transformer-based classifier for stereotype or irony detection on mono-lingual data.
Tipologia CRIS:
04A-Conference paper in volume
Keywords:
Back Translation; Data Augmentation; Irony Detection; Low-Resource NLP; Stereotypes Detection
Elenco autori:
Bourgeade T.; Casola S.; Wizani A.M.; Bosco C.
Autori di Ateneo:
BOSCO Cristina
Link alla scheda completa:
https://iris.unito.it/handle/2318/2077393
Link al Full Text:
https://iris.unito.it/retrieve/handle/2318/2077393/1891734/2024.clicit-1.12.pdf
Titolo del libro:
CEUR Workshop Proceedings
Pubblicato in:
CEUR WORKSHOP PROCEEDINGS
Journal
CEUR WORKSHOP PROCEEDINGS
Series
Progetto:
Compagnia di San Paolo - Bando ex-post 2020 - "Stereotypes..."- CdA 21/12/2021
  • Aree Di Ricerca

Aree Di Ricerca

Settori (12)


PE6_7 - Artificial intelligence, intelligent systems, natural language processing - (2024)

CIBO, AGRICOLTURA e ALLEVAMENTI - Farmacologia Veterinaria

CULTURA, ARTE e CREATIVITA' - Culture moderne

INFORMATICA, AUTOMAZIONE e INTELLIGENZA ARTIFICIALE - Digitalizzazione della Cultura e della Creatività

INFORMATICA, AUTOMAZIONE e INTELLIGENZA ARTIFICIALE - Digitalizzazione della Società e della Pubblica Amministrazione

INFORMATICA, AUTOMAZIONE e INTELLIGENZA ARTIFICIALE - Salute e Informatica

LINGUE e LETTERATURA - Anglistica e angloamericanistica

LINGUE e LETTERATURA - Francesistica

PIANETA TERRA, AMBIENTE, CLIMA, ENERGIA e SOSTENIBILITA' - Diritto dell'Ambiente

PIANETA TERRA, AMBIENTE, CLIMA, ENERGIA e SOSTENIBILITA' - Informatica e Ambiente

SCIENZE MATEMATICHE, CHIMICHE, FISICHE - Fisica delle Particelle e dei Nuclei

SCIENZE MATEMATICHE, CHIMICHE, FISICHE - Laboratori innovativi, strumentazione e modellizzazione fisica
  • Utilizzo dei cookie

Realizzato con VIVO | Designed by Cineca | 25.5.3.0