Art. 01 – Vol. 25 – Nr. 3 – 2015

ACCELERAREA DEZVOLTĂRII UNUI CORPUS DIGITAL ADNOTAT CU RELAȚII DE DEPENDENȚĂ PENTRU LIMBA ROMÂNĂ UTILIZÂND RESURSE ȘI INSTRUMENTE CONSTRUITE PENTRU ALTE LIMBI

Elena IRIMIA
elena@racai.ro

Institutul de Cercetări pentru Inteligenţă Artificială „Mihai Drăgănescu”, Academia Română, Bucureşti

Rezumat: Un corpus adnotat sintactic este o resursă fundamentală pentru supravieţuirea unei limbi în spaţiul digital. Am construit un corpus de dimensiuni modeste (5000 de propoziţii) într-un timp scurt (12 luni) şi cu resurse umane reduse, acesta urmând să funcţioneze ca bază în dezvoltarea de resurse şi instrumente care să asigure suport pentru analiza sintactică a limbii române, în cadrul grupului de cercetare în Prelucrarea Limbajului Natural de la ICIA. De aceea, propoziţiile selectate pentru adnotare aparţin mai multor stiluri funcţionale şi domenii, au lungimi variate şi complexitate sintactică ridicată şi conţin verbe cu utilizare frecventă în limbă. Prin selecţia atentă, am urmărit să asigurăm corpusului rezultat diversitate stilistică şi sintactică şi reprezentativitate lingvistică.

Cuvinte cheie: corpus, gramatică de dependenţe, adnotare sintactică automată, model statistic.

Introducere

Proiectul descris în cadrul acestui articol este doar un pas dintr-o strategie amplă de integrare a limbii române în spaţiul digital european. Pentru ca vorbitorii săi nativi să se poată bucura neîngrădit de avantajele progresului tehnologic în viaţa publică şi privată la standardele la care au acces alţi cetăţeni europeni, limba română are nevoie de resurse şi instrumente electronice dedicate. Acest suport tehnologic îi poate asigura integrabilitatea în complexele aplicaţii inteligente, mobile şi web, care au devenit indispensabile.

Comisia Europeană are ca prioritate dezvoltarea unei Pieţe Digitale Unice (Digital Single Market), dar, în acelaşi timp, rămâne fidelă strategiei sale de promovare a multilingvismului în societatea europeană. În acest sens, în aprilie 2015 a avut loc la Riga un summit european dedicat Pieţei Digitale Unice Multilingve, la care România a participat şi unde s-a angajat la producerea şi promovarea de tehnologii digitale pentru înlăturarea barierelor lingvistice.

Limba română are un dramatic deficit tehnologic de recuperat în acest domeniu în raport cu limbile care dispun de sprijin avansat (cea mai avantajată între acestea fiind engleza): resursele şi instrumentele lingvistice dezvoltate sunt limitate atât cantitativ cât şi calitativ (vedeţi studiul “Limba română în era digitală” [1], elaborat în cadrul proiectului METANET1). Totuşi, anterior acestui studiu şi de atunci încoace, multe eforturi individuale, instituţionale sau prin colaborarea mai multor instituţii au avut loc în direcţia micşorării acestor diferenţe tehnologice.


1 http://www.meta-net.eu/whitepapers/overview

Concluzii

Metodologia aleasă pentru dezvoltarea treebank-ului de limbă română s-a dovedit inspirată, reuşind ca în timp scurt (aproximativ şase luni) să obţinem 2500 de propoziţii corect adnotate şi un model statistic de calitate satisfăcătoare, care să garanteze că timpul necesar pentru adnotarea celor 2500 de propoziţii rămase se va reduce substanţial. De asemenea, ne aşteptăm ca scorul LAS să continue să crească în etapele de re-antrenare succesive viitoare, chiar dacă într-un ritm tot mai lent: performanţele oricărui instrument statistic sunt tot mai greu de îmbunătăţit când valorile măsurilor de evaluare se apropie de 1. Reamintim că propoziţiile din a doua etapă de corectare vor fi propoziţii de lungime mai mare (între 30 și 40 de cuvinte), aspect care va influenţa de asemenea performanţa adnotării automate, introducând mai multă complexitate sintactică.

După finalizarea sa, corpusul va fi integrat în CoRoLa şi folosit în continuare ca model statistic pentru adnotarea de noi texte. De asemenea, vom produce o variantă a sa complet compatibilă standardelor UD și vom distribui resursa şi în cadrul acestui proiect.

* * *

Această lucrare a fost realizată în cadrul proiectului “Cultura română şi modele culturale europene: cercetare, sincronizare, durabilitate”, cofinanţat de Uniunea Europeană şi Guvernul României din Fondul Social European prin Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007-2013, contractul de finanţare nr.POSDRU/159/1.5/S/136077.

BIBLIOGRAFIE

  1. TRANDABĂŢ, D.; IRIMIA, E.; BARBU MITITELU, V.; CRISTEA, D.; TUFIŞ, D.: The Romanian Language in the Digital Age. Limba română în era digitală. In White Papers Series (Rehm, Georg and Uszkoreit, Hans). Springer-Verlag, Berlin, Heidelberg, 2012.
  2. TUFIȘ, D.; CRISTEA, D.: Methodological issues in building the Romanian Wordnet and consistency checks in BalkaNet. In Proceedings of LREC 2002 Workshop on Wordnet Structures and Standardisation (Christodoulakis, Dimitris, N. and Kunze, Claudia and Lemnitzer, Lothar). Las Palmas, Spain, may 2002 pp. 35-41.
  3. BARBU MITITELU, V.; DUMITRESCU, Ş. D.; TUFIȘ, D.: News about the Romanian Wordnet. In Proceedings of the 7th International Global WordNet Conference. Tartu, Estonia, 2014.
  4. BARBU MITITELU, V.; IRIMIA, E.: The Provisional Structure of the reference Corpus of the Contemporary Romanian Language (CoRoLa). In Proceedings of the 10th International Conference “Linguistic resources and Tools for Processing the Romanian Language” (Colhon, Mihaela and Iftene, Adrian and Barbu Mititelu, Verginica and Cristea, Dan and Tufiș, Dan). Editura Universităţii „Alexandru Ioan Cuza”, Iaşi, September 2014, pp. 57–66.
  5. TUFIȘ, D.; ION, R.; DUMITRESCU, Ș. D.: Wikipedia as an SMT Training Corpus. In Proceedings of the International Conference on Recent Advances on Language Technology (RANLP 2013). Hissar, Bulgaria, September 2013.
  6. IRIMIA, E.: EBMT experiments for the English-Romanian Language Pair. In Recent Advances in Intelligent Information Systems (Klopotek et al.). Springer, Warsaw, 2009, pp. 91-102

Vizualizează articolul complet

  1. TUFIȘ, D.; BOROȘ, T.; DUMITRESCU, Ș. D.: The RACAI Speech Translation System. In Proceedings of the 7th International Conference on Speech Technology and Human-Computer Dialogue (SPED 2013). Cluj-Napoca, October 2013.
  1. OCH, F.-J.; TILLMANN, CH.; NEY, H.: Improved Alignment Models for Statistical Machine Translation. Proceedings of the Joint Conf. on Empirical Methods in Natural Language Processing and Very Large Corpora, College Park, MD, June, 1999, pp. 20–28.
  2. MARCU, D.; WONG, W.: A Phrased-Based, Joint Probability Model for Statistical Machine Translation. Proceedings of the Conference on Empirical Methods in Natural Language Processing, Philadelphia, PA, July, 2002, pp. 133-139.
  3. YAMADA, K.; KNIGHT, K.: A Decoder for Syntax-based Statistical MT. Proceedings of the 40th Annual Conf. of the Association for Computational Linguistics, Philadelphia, PA, July, 2002, pp. 303-310.
  4. COLHON, M.: Syntactic Translation Patterns from a Parallel Treebank. Workshop on Computational Linguistics and Natural Language Processing of Balkan Languages, Balkan Conference in Informatics, 2012, pp. 85-88.
  5. GARSIDE, R.; LEECH, G.; VARADI, T.: Manual of Information for the Lancaster Parsed Corpus. Lancaster University, 1992.
  6. TAYLOR, A.; MITCHELL, M.; SANTORINI, B.: The PENN Treebank: An Overview. In ABEILLE, A (ed.). Treebanks. Building and Using Parsed Corpora. Kluwer Academic Publishers, 2003, pp. 6-22.
  7. SKUT, W.; KRENN, B.; BRANTS, TH.; USZKOREIT, H.: An Annotation Scheme for Free Word Order Languages. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP-97). Washington, DC, USA.
  8. BRANTS, S.; DIPPER, S.; EISENBERG, P.; HANSEN, S.; KONIG, E.; LEZIUS, W.; ROHRER, C.; SMITH, G.; USZKOREIT H.: TIGER: Linguistic Interpretation of a German Corpus. Journal of Language and Computation, 2004 (2), pp. 597-620.
  9. HAJIC, J.; HAJICOVA, E.; PAJAS, P.; PANEVOVA, J.; SGALL, P.; VIDOVA HLADKA, B.: Prague Dependency Treebank 1.0 (Final Production Label). CD-ROM, CAT: LDC2001T10, ISBN 1-58563-212-0, Linguistic Data Consortium.
  10. HRISTEA, F.; POPESCU, M.: A Dependency Grammar Approach to Syntactic Analysis with Special Reference to Romanian. F. Hristea şi M. Popescu (coord.), Building Awareness in Language Technology, Bucureşti, Editura Universităţii din Bucureşti, 2003, pp. 9-16.
  11. BICK, E.; GREAVU, A.: A Grammatically Annotated Corpus of Romanian Business Texts. Proceedings of Multilinguality and Interoperability in Language Processing with Emphasis on Romanian, Editura Academiei Române, 2010, pp. 169-183.
  12. PEREZ, A.-C.: Resurse lingvistice pentru prelucrarea limbajului natural. PhD thesis, “Al. I Cuza” University, Iaşi, 2014.
  13. MĂRĂNDUC, C.; PEREZ, A.-C.: A Romanian dependency treebank. CICLing 2015, Cairo, 14-20 Aprilie.
  14. PUNYAKANOK, V.; ROTH, D.; YIH, W.-T.: The Importance of Syntactic Parsing and Inference in Semantic Role Labeling. Computational Linguistics, 34(2), 2008, pp. 257-287.
  15. CIARAMITA, M.; ATTARDI, G.: Dependency Parsing with Second-Order Feature Maps and Annotated Semantic Information. In H. Bunt, P. Merlo, J. Nivre (eds.), Trends in Parsing Technology, Springer, 2010, pp. 87-104.
  16. WANG, Q. I.; SHUURMANS, S.; LIN, D.: Strictly Lexical Dependency Parsing. In H. Bunt, P. Merlo, J. Nivre (eds.), Trends in Parsing Technology, Springer, 2010, pp. 105-120.
  17. COLLINS, M.: A new statistical parser based on bigram lexical dependencies, 1996.
  18. COLLINS, M.: Head-driven statistical models for natural language parsing. Ph.D. thesis, Computer Science Department, University of Pennsylvania, 1999.
  19. KLEIN, D.; MANNING, C. D.: Fast Exact Inference with a Factored Model for Natural Language Parsing. In Advances in Neural Information Processing Systems 15 (NIPS 2002), Cambridge, MA: MIT Press, 2003, pp. 3-10.
  20. CHEN, D.; MANNING, C. D.: A Fast and Accurate Dependency Parser using Neural Networks. Proceedings of EMNLP 2014.
  21. NIVRE, J.; HALL, J.; NILSSON, J.: MaltParser: A Data-Driven Parser-Generator for Dependency Parsing. In Proceedings of the fifth international conference on Language Resources and Evaluation (LREC2006), Genoa, Italy, 2006, pp. 2216-2219.
  22. CĂLĂCEAN, M.; NIVRE, J.: A Data-Driven Dependency Parser for Romanian. Proceedings the Seventh International Workshop on Treebanks and Linguistic Theories, 2009, pp. 65-76.
  23. SERETAN, V.; WEHRLI, E.; NERIMA, L.; SOARE, G.: FipsRomanian: Towards a Romanian Version of the Fips Syntactic Parser. Proceedings of the Seventh International Conference on Language Resources and Evaluation, Valletta, Malta, 2010.
  24. ION, R.; IRIMIA, E.; ȘTEFĂNESCU, D.; TUFIȘ, D.: ROMBAC: The Romanian Balanced Annotated Corpus. Procedings of LREC 2012, Istanbul, Turkey.
  25. ARIAS, B.; BEL, N.; FOMICHEVA, M.; LARREA, I.; LORENTE, M.; MARIMON, M.; MILA, A.; VIVALDI, J.; PADRO, M.: Boosting the creation of a treebank. Proceedings of LREC 2014, Reykjavik, Iceland.
  26. FLOREA, I. M.; REBEDEA, T.; CHIRU, C. G.: Parser de dependenţe pentru limba română realizat pe baza parserelor pentru alte limbi romanice. Revista Română de Interacţiune Om-Calculator 7(1), 2014, pp. 1-20.
  27. MARIMON, M.; BEL, N.: Dependency structure annotation in the IULA Spanish LSP Treebank. Language Resources and Evaluation. Amsterdam: Springer Netherlands, 2014.
  28. NILSSON, J.; NIVRE, J.: MaltEval: An Evaluation and Visualization Tool for Dependency Parsing. Proceedings of LREC 2008, Marrakesch, Morocco.
  29. TESNIERE, L.: Éléments de syntaxe structurale. Paris, Klincksieck, 1959.
  30. MELCUK, I. A.: Dependency syntax : theory and practice. Albany, State University Press of New York, 1987.

 

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.