EXPLORAREA DATELOR ŞI DESCOPERIREA
CUNOŞTINŢELOR – PROBLEME, OBIECTIVE
ŞI STRATEGII
Cornel Lepădatu
cornel_lepadatu@biblacad.ro
Academia Română Bucureşti
Biblioteca Academiei Române
Rezumat: Explorarea datelor şi descoperirea cunoştinţelor, „data mining”, este un ansamblu de metode şi algoritmi destinat explorării şi analizei unor, adesea, mari volume de date în vederea deducerii, din aceste date, a unor reguli, a unor asocieri, a unor tendinţe necunoscute, a unor structuri specifice care să restituie în mod concis esenţa informaţiei utile pentru asistarea deciziilor.
În ciuda dezvoltării rapide, domeniul data mining este încă vag definit şi lipsit de o abordare integrată, situaţie care provoacă dificultăţi în procesele de predare, de învăţare, de cercetare precum şi în cele de aplicare [9]. Succesul unui proiect, din orice domeniu de activitate al organizaţiilor contemporane, este de multe ori compromis de propensiunea generală de a elabora soluţiile înainte de a identifica şi formula problemele.
Articolul se concentrează asupra unor aspecte importante privind natura şi calitatea datelor utilizate în aplicarea data mining, privind metodele cele mai frecvent utilizate, alegerea principalelor obiective, formularea şi tratarea problemelor în contextul strategiilor uzuale de data mining.
Cuvinte cheie: obiective data mining, problematică data mining, proces data mining, strategie data mining, tehnologie data mining.
Introducere
Organizaţiile au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacţii de diverse tipuri, derulate de-a lungul multor ani. Astfel:
- băncile posedă arhive de milioane de înregistrări în care sunt consemnate în detaliu operaţiile efectuate de clienţii lor;
- în aproape orice firmă se găsesc mii şi sute de mii de înregistrări privitoare la cumpărările, vânzările, încasările şi plăţile efectuate;
- societăţile de telefonie mobilă posedă date privitoare la fiecare convorbire efectuată de abonaţii lor, incluzând data, momentul şi locul apelului, durata convorbirii, numărul de telefon al corespondentului;
- magazinele posedă sute de mii de înregistrări, provenind de la casele de marcaj, în care figurează nu numai articolele cumpărate ci şi cumpărătorii, identificaţi prin legitimaţiile de acces.
O dată cu expansiunea internetului, volumul datelor stocate în format digital nu încetează să crească, din ce în ce mai rapid, peste tot în lume:
- indivizii pun, din ce în ce mai mult, informaţiile pe care le deţin la dispoziţia tuturor, via web;
- numeroase organizaţii, în special cea mai mare parte a marilor magazine, culeg din ce în ce mai multe informaţii despre clienţii lor şi comportamentele acestora;
- foarte multe dintre procesele industriale sunt controlate informatic;
- rezultatele analizelor medicale sunt, din ce în ce mai sistematic, stocate pentru a fi analizate;
- tot mai numeroase măsurători efectuate pretutindeni în lume, ca de exemplu cele meteorologice, umplu de asemenea importante baze de date digitale.
Mijloacele şi tehnicile informatice, tot mai evoluate, au contribuit de-a lungul timpului la amplificarea capacităţii de memorare şi stocare a datelor iar în ultimile decenii au susţinut o reorientare semnificativă, privind utilizarea volumelor de date stocate, de la un proces de explorare retrospectivă către unul cu caracter prospectiv:
- multă vreme aceste date s-au acumulat pur şi simplu în virtutea nevoii de arhivare;
- datele acumulate conţin informaţii şi cunoştinţe „ascunse”, care pot servi la bunul mers al unei organizaţii, dar luate ca atare, nu au mare utilitate dacă nu sunt însoţite de mecanisme care să permită explorarea lor şi înţelegerea fenomenelor care au guvernat funcţionarea surselor de date;
- creşterea permanentă a concurenţei, exigenţele din ce în ce mai mari ale pieţei au determinat organizaţiile să devină conştiente de potenţialul pe care aceste arhive de date îl reprezintă.
„Informaţia nu lipseşte, ceea ce lipseşte este timpul managerului de a considera toate informaţiile care sunt disponibile” semnala încă din 1992, H. Simon, laureat al Premiului Nobel pentru economie [4]. În zilele noastre, nu numai că volumul de date stocate digital este foarte important, dar şi tipul acestor informaţii este foarte diversificat:
- web-ul este un exemplu, foarte prezent astăzi, de spaţiu care regrupează date foarte numeroase, diverse şi variate: texte structurate sau nu, imagini, sunete, filme, etc.;
- bazele de date clienţi, datele extrase din procesele de producţie, rezultate ale analizelor medicale sau baze de date de măsurători mondiale pot conţine de asemenea un număr important de informaţii eterogene: date numerice, categoriale, curbe, etc.
Există în prezent un foarte mare interes de a dezvolta tehnici care să permită utilizarea optimă a tuturor acestor stocuri de informaţii, pentru a extrage din ele un maximum de cunoaştere utilă:
- pe web, este vorba de a înţelege mai bine conţinutul paginilor web şi cererile utilizatorilor pentru a le furniza informaţia ţintă cea mai pertinentă posibilă şi în maniera cea mai comprehensivă posibilă;
- în cazul bazelor de date de clienţi, poate fi vorba de a înţelege cât mai bine comportamentele clienţilor pentru a le facilita accesul la produsele care îi interesează;
- în ce priveşte datele provenite din procesele de producţie, există un mare interes de a extrage din ele un maximum de cunoştinţe pentru a deduce din ele bune practici de optimizare a producţiei;
- studiul rezultatelor analizelor medicale poate să ajute la mai buna depistare a pacienţilor cu risc pentru anumite boli, permiţând astfel mai degrabă prevenirea decât vindecarea;
- analiza datelor meteorologice poate ajuta la mai buna înţelegere a fenomenelor generale care influenţează climatul pentru a anticipa fenomenele extreme şi pentru a acţiona în consecinţă pentru populaţiile vizate.
Concluzii
O practică bună de data mining necesită din partea asistenţilor decizionali să ştie să articuleze toate metodele [1, 2, 4, 5] sarcină care nu poate fi îndeplinită decât cu condiţia de a avea foarte bine clarificate obiectivele studiului.
Pe de o parte, multe metode urmăresc aceleaşi obiective predictive. În cazurile fericite, când datele sunt bine structurate, metodele furnizează rezultate foarte asemănătoare. În celelalte cazuri o anumită metodă poate să se dovedească mai eficace, fie datorită mărimii eşantionului, fie că geometric este mai bine adaptată topologiei grupurilor de discriminat, fie datorită mai bunei interacţiuni cu tipurile de variabile. Astfel, în multe situaţii, poate fi esenţială şi eficace o decupare în clase de variabile predictive cantitative pentru a aborda în mod restrâns o versiune neliniară a modelului prin combinarea variabilelor auxiliare. Acest aspect poate fi important de exemplu în cazul regresiei logistice sau perceptronului, dar este inutil în cazul arborilor de decizie care integrează acest decupaj în clase în chiar construcţia modelelor (singurele optimale).
Pe de altă parte, metodele nu prezintă toate aceleaşi facilităţi de interpretare. Nu există o cea mai bună alegere à priori. Numai experienţa şi un protocol de test atent construit permit determinarea acesteia. Este şi motivul pentru care sistemele software generaliste nu fac o alegere şi oferă aceste metode în paralel pentru a se adapta mai bine la date, la deprinderile fiecărui utilizator (client potenţial) şi chiar şi “modei”.
În fazele exploratorii pot fi găsite relaţii care aparent au semnificaţii importante, valabile în interiorul setului de testare, dar care s-ar putea să fie fără nici o semnificaţie statistică întro populaţie mai largă („data dredging”, „data fishing”, „data snooping”).
În fazele de modelare, o supraparametrizare sau o supraajustare a modelului poate explica perfect datele fără ca rezultatele să fie totuşi extrapolabile sau generalizabile la alte date decât cele studiate. Rezultatele previziunii pot fi deci viciate de o importantă eroare relativă legată de varianţa estimaţiilor parametrilor. Problema este de a găsi un compromis bun între bias-ul unui model mai mult sau mai puţin fals şi varianţa estimatorilor.
Obiectivul esenţial rămâne „căutarea sensului” în vederea facilitării luărilor de decizie, prezervând fiabilitatea. Prezenţa sau controlul unei expertize statistice rămâne inevitabilă pentru că necunoaşterea limitelor şi capcanelor metodelor utilizate poate conduce la aberaţii de natură să discrediteze demersul, făcând caduce investiţiile consimţite.
Bibliografie
- BACCINI, A.; BESSE, P.: Data mining / Exploration Statistique. Toulouse: INSA, 2010,
111 p. - BESSE, P.: Apprentissage Statistique & Data mining. Toulouse: INSA, 2009, 124 p.
- ENĂCHESCU, D.: Data Mining – metode şi aplicaţii. Bucureşti: Editura Academiei Române, 2009, 277 p.
- FILIP, F. G.: Decizie asistată de calculator: decizii, decidenţi – metode de bază şi instrumente informatice asociate, Ed. a 2-a, rev. Bucureşti: Editura Tehnică, 2005, 376 p.
- FILIP, F. G.: Sisteme suport pentru decizii, Ed. a 2-a, rev. Bucureşti: Ed. Tehnică, 2007, 364 p.
- GORUNESCU, F.: Data Mining, Concepts, Models and Techniques, Springer- Heidelberg, series Intelligent Systems Reference Library, 2011, 372 p.
- HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J.: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd Edition. Springer-Verlag, Springer Series in Statistics, 2008, 763 p.
- MĂRGINEAN, N.: Sisteme inteligente pentru asistarea deciziilor. Editura Risoprint, Cluj-Napoca, 2006, 239 p.
- PENG, Y.; KOU, G.; SHI, Y.; CHEN, Z.: A descriptive framework for the field of data mining and knowledge discovery. International Journal of Information Technology & Decision Making, Vol. 7, No. 4, 2008, pp. 639-682.
- TAN, P-N.; STEINBACH, M.; KUMAR, V.:Introduction to Data Mining. Addison-Wesley, 2006, 769 p.
- TUFFERY, S.: Data mining et statistique décisionnelle, 3ème Edition. Editions TECHNIP, 2010, 705 p.
- WU, X.; KUMAR, V. (ed.): The Top Ten Algorithms in Data Mining. Chapman & Hall / CRC DMKD Series, 2009, 232 p.
- YU, P-S.; HAH, J.; FALOUSTOS, C. (ed.): Link Mining: Models, Algorithms, and Applications. Springer, 2010, 586 p.
This work is licensed under a Creative Commons Attribution 4.0 International License.