Art. 06 – Vol. 25 – Nr. 3 – 2015

DESCOPERIREA CUNOȘTINȚELOR DIN DATE: METODE PREDICTIVE

Cornel LEPĂDATU
cornel_lepadatu@biblacad.ro

Biblioteca Academiei Române – Bucureşti

Rezumat: Obiectivul principal al metodelor predictive îl constituie căutarea de modele optimale pentru diferite metode de modelare: clasice (regresia multiplă, analiza discriminantă), mai puţin clasice (segmentarea) sau de instruire (reţelele neuronale, agregarea de modele, maşinile cu suport vectorial). Articolul se concentrează pe prezentarea sub o formă omogenă şi sintetică a celor mai frecvent utilizate metode de instruire supervizată pentru descoperirea de cunoştinţe din volume (foarte) mari de date (Big data, DCD) pentru sprijinirea deciziilor în diverse domenii de aplicare. Pentru fiecare metodă au fost evidenţiate, după caz, o serie de aspecte specifice esenţiale pentru prospectorul de date: domeniile de aplicabilitate, semnificaţiile coeficienţilor, puterea de discriminare a caracteristicilor, metodele de selecţie a variabilelor, adecvarea modelului cu datele observate, măsurarea performanţelor, separarea estimării modelului de estimarea erorilor de previziune, controlul supra-învăţării, caracterizarea şi interpretarea rezultatelor, performanţele computaţionale.

Cuvinte cheie: big data, descoperire cunoştinţe din date (DCD), discriminare, instruire, modelare, previziune.

Introducere

Mediul economic, social şi politic în care se iau în prezent deciziile se caracterizează printr-o dinamică pronunţată şi continuă în care tehnologiile avansate devin un determinant major al stilului de viaţă uman. Numărul căilor de acţiune posibile poate fi foarte mare, gradul de incertitudine poate face foarte dificilă previziunea consecinţelor luării unei decizii, efectele unor erori în luarea deciziilor ar putea fi dezastruoase datorită complexităţii operaţiilor şi reacţiilor în lanţ pe care aceste erori pot să le cauzeze [9, 10].
Convergenţa procesării informaţiei cu tehnicile de comunicaţii, ilustrată elocvent mai ales prin dezvoltarea exponenţială a Internet-ului, a determinat apariţia unor enorme cantităţi de date, informaţii şi cunoştinţe reprezentate în forme din cele mai diverse. Această cantitate imensă de informaţii este sporită, în continuu, nu doar de dezvoltările permanente ale web-ului dar şi de apariţia agresivă a unor tehnologii emergente precum sistemele dedicate (embeded), sistemele mobile şi respectiv sistemele omniprezente (ubiquitous) de prelucrare a informaţiei [1, 2, 3, 5, 6, 7, 14, 15].

Este, deci, indiscutabil de clară necesitatea extragerii de informaţii şi de cunoştinţe, din aceste masive de date distribuite, în primul rând pentru asistarea proceselor decizionale. In acest sens, esenţial este faptul că este nevoie de a reprezenta în mod explicit caracteristici importante ale informaţiilor, care nu mai sunt legate de reprezentarea abstractă a conceptelor lumii reale ci, mai degrabă, de obiectivul factorilor de decizie şi anume susţinerea proceselor de analiză a datelor orientate către luarea deciziilor [9, 10, 12].

Concluzii

Practica de a obţine din date cunoştinţe valoroase şi utile pentru susţinerea activităţilor decizionale, denumită tot mai frecvent data science, este în continuă şi rapidă dezvoltare pentru a face faţă provocărilor de prelucrare a seturilor uriaşe de date (structurate, nestructurate sau semi-structurate generate de dispozitive inteligente, telefoane mobile, web, mass-media sau reţele sociale), big data.

Informatica decizională utilizează statistica descriptivă, pentru date cu mare densitate în informaţie, pentru a măsura fenomene, a detecta tendinţe, etc. în timp ce big data utilizează statistica inferenţială, pentru date cu slabă densitate în informaţie, ale căror volume, foarte mari, permit inferenţe ale legilor conferindu-le capacităţi predictive (cu limitele acestor inferenţe).

Pentru prospectarea datelor şi interpretarea rezultatelor data scientist, specializat de obicei pe un anumit domeniu (marketing, medicină, securitate, fraudă, finanţe, etc.), se bazează pe expertize din statistică, instruire, optimizare, procesare de semnale, regăsire de informaţii sau procesare a limbajului natural.

Având o pregătire de bază în matematică şi statistică, noul data scientist poate privi cu seninătate sosirea valului sau tsunami-ului Big Data.

Activitatea informatică din amonte (permanent reînnoită de evoluţia rapidă a tehnologiilor) este importantă, pentru a stoca datele şi a face executabile metodele dar, conceptual, matematica necesară modelelor respective a luat deja în considerare mărimi şi dimensiuni infinite în spaţii hilbertiene.

Înzestrat cu acest „instrumentar” durabil, data scientist poate deci aborda şi susţine, cu şanse de succes, cercetările emergente.

Vizualizează articolul complet

BIBLIOGRAFIE

  1. BANCIU, D.; COARDOŞ, D.; LEPĂDATU, C-I.; LEPĂDATU, C.: Enhancement of the Retrospective National Bibliography of the Romanian Book through the Application of the Informational Technologies, Proceedings of BIBLIO 2011 „Innovation en bibliotheque/Innovation within libraries”, Editura Universităţii Transilvania din Braşov, 2011, pp. 131-142.
  2. BESSE, P.; LAURENT, B.: Apprentissage Statistique: modélisation, prévision et data mining, Institut National des Sciences Appliquées de Toulouse, 2014, 159 p.
  3. CIUREA, C.; DUMITRESCU, G.; LEPĂDATU, C.: The impact analysis of implementing virtual exhibitions for mobile devices on the access to national cultural heritage, Proceedings of 2nd International Conference Economic Scientific Research – Theoretical, Empirical and Practical Approaches, ESPERA 2014, Bucharest, Romania.
  4. COARDOŞ, D.; COARDOŞ, V.; LEPĂDATU, C-I.; LEPĂDATU, C.: Support Systems for Libraries Based on Business Intelligence Tools, 2008 IEEE International Conference on Intelligent Computer Communication and Processing – Digital Libraries Workshop, Cluj Napoca, August 2008.
  5. COARDOŞ, D.; COARDOŞ, V.; LEPĂDATU, C-I.; LEPĂDATU, C.: Integrated On-line System for Management of the National Retrospective Bibliography – SIMBNR, 2009 IEEE International Conference on Intelligent Computer Communication and Processing – Workshop on Digital Libraries, e-Content Management and e-Learning”, Cluj Napoca, August 2009.
  6. DUMITRESCU, G.; FILIP, F.-G.; IONIŢĂ, A.; LEPĂDATU, C.: Open Source Eminescu’s Manuscripts: A Digitization Experiment, Studies in Informatics and Control, 19(1), 2010, pp. 79-84.
  7. DUMITRESCU, G.; LEPĂDATU, C.; CIUREA C.: Creating Virtual Exhibitions for Educational and Cultural Development, INFOREC Publishing House, Informatica Economică Journal, 2014, 18(1), pp. 102-110.
  8. ENĂCHESCU, D.: Data Mining: metode şi aplicaţii, Edit. Academiei Române, 2009, 277 p.
  9. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.: From Data Mining to Knowledge Discovery in Databases, AAAI, AI Magazine, 17 (3), 1996, pp. 37-54.
  10. FILIP, F.-G.: Decizie asistată de calculator: decizii, decidenţi – metode de bază şi instrumente informatice asociate, Ed. a 2-a, Bucureşti, Editura Tehnică, 2005, 376 p.
  11. FILIP, F.-G. HERERA-VIEDMA, E.: Big Data in the European Union, National Academy of Engineering (NAE), SUA, Winter Bridge: A Global View of Big Data, 2014, 44(4), pp. 33-37.
  12. HAN, J.; KAMBER M.; PEI, J.: Data Mining: Concepts and Techniques, Third Ed., Elsevier, 2011, 703 p.
  13. HASTIE, T.; TIBSHIRANI, R., FRIEDMAN, J.: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd Edition, Springer-Verlag New York, 2009, 745 p.
  14. IONIŢĂ, A.; LEPĂDATU, C.; DUMITRESCU, G.: Digital Cultural Landscape Content, Hernik, Jozef (ed.) Cultural Landscape – Across Disciplines, Oficyna Wydawnicza BRANTA, Kracow, Poland, 2009, pp. 255-277.
  15. LEPĂDATU, C.: De la descriere bibliografică la web semantic, Academica, 2006, XVI (185-186/48-49), pp 78-81 şi XVI (188/51), pp. 42-85.
  16. LEPĂDATU, C.: Support Systems for Knowledge Culture based on Solution and Tools from the Field of Business Intelligence – SSCBI, Proceedings of the Workshop IST – Multidisciplinary Approaches, Bucharest, Romania, 2006, pp. 7-12.
  17. LEPĂDATU, C.: Acquisition Policy of a Library and Data Mining Techniques, Studies in informatics and control, 16(4), 2007, pp. 413-420.
  18. LEPĂDATU, C.: Explorarea datelor şi descoperirea cunoştinţelor – probleme, obiective şi strategii, Revista Română de Informatică şi Automatică, 2012, 22(4), pp. 5-14.
  19. LEPĂDATU, C.: Metode exploratorii multidimensionale, Revista Română de Informatică şi Automatică, 23(1), 2013, pp. 14-30.
  20. LEPĂDATU, C.: Sisteme suport pentru decizii şi bibliomining, Revista Română de Informatică şi Automatică, 24(2), 2014, pp. 17-30.
  21. LEPĂDATU, C.: Sisteme suport pentru decizii de bibliotecă, Revista Română de Informatică şi Automatică, 24(3), 2014, pp. 5-17.
  22. MAIMON, O. ROKACH, L. (Eds.): Data Mining and Knowledge Discovery Handbook, 2nd Ed., Springer New York Dordrecht Heidelberg London, 2010, 1306 p.
  23. NICULESCU, C.; LEPĂDATU, C.; ŞTEFĂNESCU, D.: SSCBI – A Teleworking Environment of Support Systems for Knowledge Culture. In the CD REV 2007 Proceedings of the International Conference Remote Engeneering Virtual Instrumentation, Porto, Portugal, iunie 2007.
  24. TUFFÉRY, S.: Modélisation Predictive et Apprentissage Statistique avec R, TECHNIP, 2015, 415 p.
  25. VAPNIK, V. N.: Statistical learning theory, Wiley-Interscience, 1998, 768 p.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.