Testuen analisia

INTELE: red estratégica para la promoción de las infraestructuras de tecnologías del lenguaje en ehumanidades y ciencias sociales

INTELE propone la creación de una red estratégica, constituida por los investigadores españoles que están relacionados, por su participación anterior y su interés actual, con las actuales infraestructuras europeas, ya constituidas como European Research Infrastructure Consortium o ERIC, para las humanidades: CLARIN (www.clarin.eu) y DARIAH (www.dariah.eu).

Aditza+izena Unitate Fraseologikoak gaztelaniatik euskarara: azterketa eta tratamendu konputazionala // Verb+Noun Multiword Expressions: A linguistic analysis for identification and translation

Unitate Fraseologikoak (UFak) hizkuntzek bere-bereak dituzten hitz-konbinazio idiomatikoak dira. Hizkuntzaren Prozesamenduko (HPko) tresnek kalitatezko emaitzak izan ditzaten, beharrezkoa da halakoak ondo tratatzea, baina lan horrek hainbat zailtasun ditu; besteak beste, hitzez hitzeko itzulgarritasun eza. Tesi-lan honetan, aditza+izena motako UFen azterketa linguistiko bat egin dugu, halakoek HPren alorrean sortzen dituzten bi arazo garrantzitsuri aurre egiten laguntzeko: batetik, corpusetan UFak automatikoki identifikatzeari, eta bestetik, UF horiek gaztelaniaren eta euskararen

Measuring diachronic language distance using perplexity. Application to English, Portuguese and Spanish.

The objective of this work is to set a corpus-driven methodology to quantify automatically diachronic language distance between chronological periods of several languages. We apply a perplexity-based measure to written text representing different historical periods of three languages: European English, European Portuguese and European Spanish. For this purpose, we have built historical corpora for each period, which have been compiled from different open corpus sources containing texts as close as possible to its original spelling. The results of our experiments show that a diachronic

Towards a top-down approach for an automatic discourse analysis for Basque: Segmentation and Central Unit detection tool

Lately, discourse structure has received considerable attention due to the benefits carried out by its application in several NLP task such as opinion mining, summarization, question answering, text simplification, among others.

BigKnowledge for Text Mining.

BigKnowledge proiektuak ingeles, gaztelania, katalan, euskara eta galizierazko testuak prozesatzeko ikasketa sakonean oinarritutako sistemak garatu eta ebaluatuko ditu, Big Data prozesatzeko teknikak erabiliz. Hauek dira proiektuaren helburu nagusiak: - Transferitzia bidezko ikasketa teknikak garatzea, errepresentazio jarraitu eleaniztunen bidez ezagumendua hizkuntza batetik bestera pasatzkeo, edo domeinu batetik bestera pasatzeko. - Tamaina handiko ezagutza-base eleaniztunak eta neurona-sare sakonak aprobetxatzea elkar aberastu eta hobetzeko.

Orriak

RSS - Testuen analisia-rako harpidetza egin