marți , 11 decembrie 2018
roen

Art. 02 – Vol. 28 – Nr. 1 – 2018

ANALIZA COMPARATIVĂ A PRINCIPALILOR ALGORITMI
SaaS PENTRU RECUNOAȘTEREA AUTOMATĂ DE ENTITĂȚI
ÎN LIMBA ROMÂNĂ

Bogdan IANCU
Academia de Studii Economice, Piața Romană Nr. 6, Sector 1, București, 010374, România
bogdan.iancu@ie.ase.ro

Rezumat: Lucrarea de față își propune analiza comparativă a principalilor algoritmi de Named Entity Recognition disponibili în cloud, aplicați pentru texte scrise în limba română. Contextul în care acești algoritmi sunt analizați este cel al web-ului semantic, în cadrul căruia încă persistă problema identificării de noi entități ce pot fi legate la ontologii existente. Sunt definite procese prin care textul este tradus într-una din limbile suportate de algoritmii furnizați de DBpedia (DBpedia Spotlight), Google (Google Cloud Natural Language API), Microsoft (modulul NER din Azure Machine Learning Studio) și IBM (IBM Watson Natural Language Understanding), pentru ca mai apoi să fie utilizat scorul F1 pentru a determina procesul optim. Articolul se încheie cu o comparație între rezultatele obținute și performanța altor algoritmi NER specializați pe limba engleză sau independenți de limbă.

Cuvinte cheie: Web semantic, NER, LOD, SaaS.

Introducere: În contextul web-ului semantic a existat încă de la început problema identificării automate de entități ce pot fi legate de ontologii existente. Chiar dacă una dintre cele mai mari ontologii interdisciplinare existente, denumită DBpedia, numără în prezent 4,22 milioane de entități pentru limba engleză [1], acestea nu sunt nici pe departe suficiente pentru a acoperi toate personalitățile, locurile, operele de creație sau organizațiile existente în acest moment sau care au existat vreodată. Dezideratul final în domeniul web-ului semantic este legarea tuturor entităților disponibile în internet într-o ontologie a ontologiilor sau, conform creatorului world wide web, Tim Berners-Lee, conectarea la LOD – Linked Open Data [2] a tuturor entităților posibile. În acest scop, dar nu numai (algoritmii existând aprioric apariției web-ului semantic), au fost definiți diverși algoritmi de tip NER (Named Entity Recognition) ce pot înlesni identificarea automată de entități în text liber. La început, algoritmii de acest tip se concentrau în special pe indentificare de organizații, persoane și locații [12], însă în prezent mulți dintre ei oferă mai mult de atât [11]. Problema care se ridică în acest moment este dată de faptul că majoritatea acestor algoritmi funcționează pe un număr limitat de limbi [9] și, cu toate că au existat încercări de a crea unul independent de limbă cu aplicabilitate și în limba română, rezultatele nu au fost cele așteptate [3]. Scopul lucrării de față este indentificarea unui proces cu randament maxim prin care, folosind algoritmi de tip NER disponibili în cloud ca și SaaS (Software as a Service), poate fi adnotat un text oarecare scris în limba română.

Vizualizează articolul complet

ACEST ARTICOL POATE FI CITAT CA:
Bogdan IANCU, Analiza comparativă a principalilor algoritmi SaaS pentru recunoașterea automată de entități în limba română, Revista Română de Informatică şi Automatică, ISSN 1220-1758, vol. 28(1), pp. 25-34, 2018.

Concluzii: Scopul lucrării de față a fost identificarea unui proces prin care, utilizând un algoritm de NER disponibil ca SaaS în cloud, putem adnota semantic text scris în limba română. Astfel, s-a procedat la utilizarea DBpedia Spotlight pe text tradus într-una din limbile engleză, italiană și franceză, a Google Cloud Natural Language API pe același set de limbi, a modului NER din Azure Machine Learning Studio pe limba engleză și a IBM Watson Natural Language Understanding pentru limbile engleză, franceză și spaniolă. Rezultatele cele mai bune, atât pe un text de mici dimensiuni, cât și pe unul de 2.854 de cuvinte, au fost obținute de algoritmul DBpedia Spotlight pe text tradus în limba engleză, cu un coeficient de încredere setat la 30%. Conform datelor din Figura 5, putem observa că acest algoritm a obținut cea mai bună rată de recuperare (R), chiar dacă cea de precizie (P) a fost cea mai slabă.

Toți ceilalți alogoritmi au avut valori bune pentru rata de precizie, însă numărul mic de valori identificate a dus la o rată scăzută a recuperării, acest lucru afectând scorul F1 final.

Dacă ar fi să comparăm scorul final obținut cu alți algoritmi de NER cum sunt cei prezentați în [3] sau [12], am observa că procesul definit peste modulul de NER al DBpedia Spotlight (F1 = 75,33%) are o eficiență asemănătoare cu cu cel propus de S. Cucerzan și D. Yarowsky (F1 ⊂ [65,69%, 75,43%]) și chiar mai bună decât cea obținută de algoritmii CoNLL-2003 pentru limba germană (F1 ⊂ [47,74%, 72,41%]). Toate acestea pot face din procesul propus de lucrarea de față alegerea potrivită pentru procedeele de NER pe texte
scrise în limba română, în contextul web-ului semantic, în lipsa implementării complete [7] a unui instrument de Prelucrare a Limbajului Natural din limba română.

BIBLIOGRAFIE

  1. About DBpedia, DBpedia.org. Accessed 25 January 2018. <http://wiki.dbpedia.org/about>.
  2. BIZER, C., HEATH, T. IDEHEN, K. & BERNERS-LEE, T. (2008). Linked data on the web (LDOW2008). In Proceedings of the 17th international conference on World Wide Web (pp. 1265-1266).
  3. CUCERZAN, S. & YAROWSKY, D. (1999). Language independent named entity recognition combining morphological and contextual evidence. In 1999 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.
  4. DAIBER, J., JAKOB, M., HOKAMP, C. & Mendes, P. N. (2013, September). Improving efficiency and accuracy in multilingual entity extraction. In Proceedings of the 9th
    International Conference on Semantic Systems (pp. 121-124).
  5. Google Cloud Natual Language API Documentation, Google Cloud Platform. Accessed 25 January 2018. <https://cloud.google.com/natural-language/docs/>.
  6. IBM Knowledge Center – Named Entity Recognition annotator, IBM Knowledge Center. Accessed 25 January 2018. <https://www.ibm.com/support/knowledgecenter/en/
    SS8NLW_10.0.0/com.ibm.watson.wex.aac.doc/aac-tasystemt.html>.
  7. IRIMIA, E. (2015). Accelerarea dezvoltării unui corpus digital adnotat cu relaţii de dependenţă pentru limba română utilizând resurse şi instrumente construite pentru alte limbi, Revista Română de Informatică şi Automatică, 25(3), 5-16.
  8. MOHIT, B. (2014). Named entity recognition, Natural language processing of semitic languages, 221-245.
  9. NADEAU, D. & SEKINE, S. (2007). A survey of named entity recognition and classification, Lingvisticae Investigationes, 30(1), 3-26.
  10. Named Entity Recognition – Azure Machine Learning Studio, Microsoft Docs. Accessed 25 January 2018. <https://docs.microsoft.com/en-us/azure/machine-learning/studiomodule-reference/named-entity-recognition>.
  11. RITTER, A., CLARK, S. & ETZIONI, O. (2011, July). Named entity recognition in tweets: an experimental study. In Proceedings of the conference on empirical methods in natural
    language processing (pp. 1524-1534).
  12. TJONG KIM SANG, E. F. & DE MEULDER, F. (2003, May). Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In Proceedings of the
    seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 142-147).

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.