Arhivă

Revista Română de Informatică și Automatică / Vol. 25, Nr. 3, 2015


ACCELERAREA DEZVOLTĂRII UNUI CORPUS DIGITAL ADNOTAT CU RELAŢII DE DEPENDENŢĂ PENTRU LIMBA ROMÂNĂ UTILIZÂND RESURSE ŞI INSTRUMENTE CONSTRUITE PENTRU ALTE LIMBI

Elena IRIMIA

Rezumat:

Un corpus adnotat sintactic este o resursă fundamentală pentru supravieţuirea unei limbi în spaţiul digital. Am construit un corpus de dimensiuni modeste (5000 de propoziţii) într-un timp scurt (12 luni) şi cu resurse umane reduse, acesta urmând să funcţioneze ca bază în dezvoltarea de resurse şi instrumente care să asigure suport pentru analiza sintactică a limbii române, în cadrul grupului de cercetare în Prelucrarea Limbajului Natural de la ICIA. De aceea, propoziţiile selectate pentru adnotare aparţin mai multor stiluri funcţionale şi domenii, au lungimi variate şi complexitate sintactică ridicată şi conţin verbe cu utilizare frecventă în limbă. Prin selecţia atentă, am urmărit să asigurăm corpusului rezultat diversitate stilistică şi sintactică şi reprezentativitate lingvistică.

Cuvinte cheie:
corpus, gramatică de dependenţe, adnotare sintactică automată, model statistic.

Vizualizează articolul complet:

CITAREA ACESTUI ARTICOL SUNT URMĂTOARELE:
Elena IRIMIA, „ACCELERAREA DEZVOLTĂRII UNUI CORPUS DIGITAL ADNOTAT CU RELAŢII DE DEPENDENŢĂ PENTRU LIMBA ROMÂNĂ UTILIZÂND RESURSE ŞI INSTRUMENTE CONSTRUITE PENTRU ALTE LIMBI”, Revista Română de Informatică și Automatică, ISSN 1220-1758, vol. 25(3), pp. 5-16, 2015.