Hizkuntza baliabideak

Idiomatic language Test Suite (IdioTS dataset)

You will find here information about the Idiomatic language Test Suite (IdioTS dataset). IdioTS dataset is a new evaluation dataset specifically crafted for idiom detection in English. It is composed by a total of 250 sentences, 164 of which are idiomatic and 86 distractor sentences. (page under construction, more information coming soon)

Euskarazko hizkuntza ereduak

Euskararako entrenatu diren hiru eredu neuronal daude publikoki atzigarri hemen: fastext embedding-ak, BERT hizkuntza eredua, eta FLAIR hizkuntza eredua. BERT hizkuntza eredua Hugging Face-eko liburutegiarekin erabili daiteke zuzenean: https://huggingface.co/ixa-ehu/berteus-base-cased

Euskarazko Testu Sinplifikatuen Corpusa (ETSC) - Corpus of Basque simplified texts (CBST)

Euskarazko Testu Sinplifikatuen Corpusa (ETSC) eskuz sinplifikatutako testuekin eta euren jatorrizko bertsioarekin osatu dugun testu-bilduma da. Testuak sinplifikatzean egin diren eragiketak deskribatzeko etiketatze-eskema osatu dugu eta testuak BRAT tresnaren (Stenetorpet al., 2012) bitartez etiketatu ditugu.

Orriak

RSS - Hizkuntza baliabideak-rako harpidetza egin