ACCELERAREA DEZVOLTĂRII UNUI CORPUS DIGITAL ADNOTAT CU RELAȚII DE DEPENDENȚĂ PENTRU LIMBA ROMÂNĂ UTILIZÂND RESURSE ȘI INSTRUMENTE CONSTRUITE PENTRU ALTE LIMBI

Art. 01 – Vol. 25 – Nr. 3 – 2015

Elena Irimia
elena@racai.ro

Institutul de Cercetări pentru Inteligenţă Artificială „Mihai Drăgănescu”, Academia Română, Bucureşti

Rezumat: Un corpus adnotat sintactic este o resursă fundamentală pentru supravieţuirea unei limbi în spaţiul digital. Am construit un corpus de dimensiuni modeste (5000 de propoziţii) într-un timp scurt (12 luni) şi cu resurse umane reduse, acesta urmând să funcţioneze ca bază în dezvoltarea de resurse şi instrumente care să asigure suport pentru analiza sintactică a limbii române, în cadrul grupului de cercetare în Prelucrarea Limbajului Natural de la ICIA. De aceea, propoziţiile selectate pentru adnotare aparţin mai multor stiluri funcţionale şi domenii, au lungimi variate şi complexitate sintactică ridicată şi conţin verbe cu utilizare frecventă în limbă. Prin selecţia atentă, am urmărit să asigurăm corpusului rezultat diversitate stilistică şi sintactică şi reprezentativitate lingvistică.

Cuvinte cheie: corpus, gramatică de dependenţe, adnotare sintactică automată, model statistic.

Vizualizează articolul complet