Hizkuntza baliabideak

Basque and Spanish Counter Narrative Generation: Data Creation and Evaluation

Counter Narratives (CNs) are non-negative textual responses to Hate Speech (HS) aiming at defusing online hatred and mitigating its spreading across media. Despite the recent increase in HS content posted online, research on automatic CN generation has been relatively scarce and predominantly focused on English. In this paper, we present CONAN-EUS, a new Basque and Spanish dataset for CN generation developed by means of Machine Translation (MT) and professional post-edition.

Latxa: An Open Language Model and Evaluation Suite for Basque

We introduce Latxa, a family of large language models for Basque ranging from 7 to 70 billion parameters. Latxa is based on Llama 2, which we continue pretraining on a new Basque corpus comprising 4.3M documents and 4.2B tokens.

XNLIeu: a dataset for cross-lingual NLI in Basque

XNLI is a popular Natural Language Inference (NLI) benchmark widely used to evaluate cross-lingual Natural Language Understanding (NLU) capabilities across languages. In this paper, we expand XNLI to include Basque, a low-resource language that can greatly benefit from transfer-learning approaches. The new dataset, dubbed XNLIeu, has been developed by first machine-translating the English XNLI corpus into Basque, followed by a manual post-edition step.

Adimen Artifizial eta Hizkuntza Teknologiako HiTZ Katedra

Adimen Artifizial eta Hizkuntza Teknologiako HiTZ Katedrak asmo handiko programa du, eta bere helburuen artean hizkuntzaren teknologia lidergoa indartzea da, gure herria abangoardia teknologikoan kokatuz. Horretarako, bi oinarri ditu: batetik, UPV/EHUko HiTZ Hizkuntzaren Teknologiako Euskal Zentroaren bikaintasun zientifikoa eta irakaskuntza arloan, UPV/EHUko Informatika Fakultatearekin lankidetzan.

DeepMinor: Language Models for Multilingual and Multidomain Text Processing in Low Resource Scenarios

Hizkuntza eredu handien aurrerapenei esker, Hizkuntzaren Prozesamendua (HP) ikerketa-eremua hizkuntza eredu handi horien ekoizpen eta ustiapenera bideratutako paradigma aldaketa batean murgilduta dago. Izan ere, emaitzak hainbeste hobetzen ari dira, non sistemek giza-mailako errendimendua aldarrikatzen dute ikerketa-erreferenteetan. Ondorioz, industrian asko hasi dira ekoizpenean integratzen. Emaitza ikusgarriak izan arren, hizkuntza eredu hauek ingeleserako garatu dira batez ere, ez dira publikoak eta

Scaling language models for low-resource languages

Hizkuntza- eredu handiak (HE) Adimen Artifizialaren egungo iraultzaren oinarrian daude, eta Hizkuntza Naturalaren Prozesamenduan aurrerapen izugarriak lortzeko oinarriak ezarri dituzte. HEak eraikitzeko baliabide handiak behar dira, bai konputazioari dagokionez, eta baita datuei dagokienez ere. Horrela, gaur egun soilik enpresa pribatu gutxi batzuk dira gai HEak aentrenatzeko. Ondorioz, HEak baliabide handiko hizkuntzetan eraiki ohi dira dira, ingelesa kasu, baina beste hizkuntza askok, batez ere baliabide urriak badituzte, oso atzean geratzeko arriskua dute.

Orriak

RSS - Hizkuntza baliabideak-rako harpidetza egin