Art. 01 – Vol. 25 – Nr. 3 – 2015
Elena Irimia
elena@racai.ro
Institutul de Cercetări pentru Inteligenţă Artificială „Mihai Drăgănescu”, Academia Română, Bucureşti
Rezumat: Un corpus adnotat sintactic este o resursă fundamentală pentru supravieţuirea unei limbi în spaţiul digital. Am construit un corpus de dimensiuni modeste (5000 de propoziţii) într-un timp scurt (12 luni) şi cu resurse umane reduse, acesta urmând să funcţioneze ca bază în dezvoltarea de resurse şi instrumente care să asigure suport pentru analiza sintactică a limbii române, în cadrul grupului de cercetare în Prelucrarea Limbajului Natural de la ICIA. De aceea, propoziţiile selectate pentru adnotare aparţin mai multor stiluri funcţionale şi domenii, au lungimi variate şi complexitate sintactică ridicată şi conţin verbe cu utilizare frecventă în limbă. Prin selecţia atentă, am urmărit să asigurăm corpusului rezultat diversitate stilistică şi sintactică şi reprezentativitate lingvistică.
Cuvinte cheie: corpus, gramatică de dependenţe, adnotare sintactică automată, model statistic.