Art. 02 – Vol.23 – Nr. 1 – 2013

METODE EXPLORATORII MULTIDIMENSIONALE

Cornel Lepădatu
cornel_lepadatu@biblacad.ro

Academia Română Bucureşti, Biblioteca Academiei Române

Rezumat: Explorarea datelor este un ansamblu de metode destinate descrierii şi analizei datelor multidimensionale şi utilizate în orice domeniu, atunci când datele sunt mult prea multe pentru a mai putea fi înţelese de o minte omenească. Unele dintre metode, ajută la evidenţierea relaţiilor care pot exista între diferite date şi elaborează informaţii statistice care permit o descriere mai succintă a informaţiei conţinute în aceste date. Altele, permit regrupări ale datelor în scopul de a face să apară clar ceea ce le face omogene şi astfel de a le înţelege şi de a le defini mai bine.

Metodele exploratorii multidimensionale sunt metode descriptive, în cea mai mare parte geometrice, al căror instrument matematic major este algebra matricială şi care se exprimă fără să presupună à priori un model probabilist. Aceste metode permit,  în special,  prelucrarea şi sinteza informaţiei din tabelele de date de mari dimensiuni pe baza estimării corelaţiilor dintre variabilele studiate, instrumentele statistice utilizate fiind matricea corelaţiilor sau matricea de varianţă-covarianţă.

Un demers exploratoriu îi permite prospectorului de date să abordeze unul dintre principalele obiective ale „data mining” şi anume explorarea multidimensională a datelor sau reducerea de dimensiune: reprezentarea grafică, deducerea unei submulţimi de variabile reprezentative sau a unei mulţimi de componente prealabile pentru alte metode.

Din anii 1980 capacitatea de a stoca informaţii s-a dublat aproximativ la fiecare 40 de luni [10]. Începând cu 2012 au fost create [11], în fiecare zi, 2.5 quintilioane (2,5 × 1018) octeţi de date, iar limitarea la ordinul exabyţilor, privind dimensiunile seturilor de date procesabile într-un timp rezonabil [7, 16], constituie deja un subiect de preocupare sistematică a oamenilor de ştiinţă pentru domenii precum meteorologia, genomica, connectomica, simularea fenomenelor fizice complexe, cercetările biologice şi de mediu şi chiar căutarea pe internet, finanţele şi informatica decizională.

Cuvinte-cheie: analiza canonică, analiza corespondenţelor multiple, analiza corespondenţelor simple, analiza factorială discriminantă, analiza în componente principale.

Introducere: Explorarea datelor este un ansamblu de metode care se ocupă cu descrierea şi analiza datelor multidimensionale. Unele dintre metode, ajută la evidențierea relaţiilor care pot exista între diferite date şi elaborează informaţii statistice care permit o descriere mai succintă a informaţiei conţinute în aceste date. Altele, permit regrupări ale datelor în scopul de a face să apară clar ceea ce le face omogene şi astfel de a le înţelege şi de a le defini mai bine.

Explorarea datelor permite prelucrarea unui număr mare de date şi identificarea celor mai interesante aspecte ale structurii acestora, computerele fiind acelea care au făcut aceste metode operaţionale şi care le-au permis o utilizare foarte extinsă. Succesul din ultimii ani al acestora se datorează în mare măsură reprezentărilor grafice oferite. Aceste reprezentări pot evidenţia relaţii dificil de sesizat de o analiză directă a datelor dar, mai important şi în contrast cu metodele statistice clasice, aceste reprezentări nu sunt legate de nicio ipoteză privind legile fenomenelor analizate.

Explorarea datelor se bazează pe un set de metode descriptive, în cea mai mare parte geometrice, al căror instrument matematic major este algebra matricială şi care se exprimă fără să presupună à priori un model probabilist. Aceste metode permit, în special, prelucrarea şi sinteza informaţiei din tabelele de date de mari dimensiuni pe baza estimării corelaţiilor dintre variabilele studiate, instrumentele statistice utilizate fiind matricea corelaţiilor sau matricea de varianţă-covarianţă.

Fundamentele matematice ale explorării datelor au început să se dezvolte la începutul secolului al XX-lea dar tehnici de bază privind analiza datelor erau deja cunoscute cu mult înainte. Tabelele de contingenţă, de exemplu, sunt prezente [4] încă din 1588, când Alvarez Paz Salas descrie „Invincibila Armada” sub forma unui tabel în care rândurile reprezintă flote de nave, iar coloanele diverse caracteristici ale navelor cum ar fi tonajul, numărul de soldaţi, etc. sau din 1696, când Nicolas Lamoignon Basville, intendent al regelui Ludovic al XIV-lea, enumeră şi caracterizează mânăstiri şi biserici din regiunea Languedoc. Printre fondatorii metodelor moderne de analiză a datelor se regăsesc Jean-Paul Benzécri, Louis Guttman, Chikio Hayashi, Douglas Carroll şi R.N. Shepard [2].

Într-un proces de explorare a datelor şi descoperire a cunoştinţelor („data mining”) un prim demers, inevitabil, constă în efectuarea unei explorări a acestor date: alura distribuţiilor, prezenţa datelor atipice, corelaţii şi coerenţă, transformări eventuale ale datelor. Demersul descriptiv şi exploratoriu permite realizarea de rezumate şi grafice mai mult sau mai puţin elaborate, descrierea mulţimilor de date şi stabilirea de relaţii între variabile, fără a acorda un rol privilegiat vreunei variabile şi care, folosite în mod adecvat, se pot dovedi extrem de utile pentru numeroase probleme şi situaţii din domeniul decizional [5, 6, 12]. Concluziile obţinute privesc doar datele studiate, fără a fi generalizate la o populaţie mai largă. Demersul exploratoriu se sprijină, în mod esenţial, pe noţiuni elementare (medie şi dispersie), pe reprezentări grafice şi pe tehnici descriptive multidimensionale. Metodele exploratorii determină subspaţii de reprezentare (sau factoriale), de dimensiuni mici, care aproximează cel mai bine norii de puncte-indivizi sau de puncte-variabile, astfel încât vecinătăţile măsurate în aceste spaţii să reflecte cât mai exact proximităţile reale.

Demesul exploratoriu îi permite deci prospectorului de date să abordeze unul dintre principalele obiective ale „data mining” şi anume explorarea multidimensională a datelor sau reducerea de dimensiune: reprezentarea grafică, deducerea unei submulţimi de variabile reprezentative sau a unei mulţimi de componente prealabile pentru alte metode. Cele mai frecvent utilizate metode, în funcţie de tipurile variabilelor, sunt [1, 3, 8, 13, 17]: analiza în componente principale (ACP), analiza factorială discriminantă (AFD), analiza corespondenţelor simple (ACS), analiza corespondenţelor multiple (ACM) şi analiza canonică (AC).

Concluzii: Explorarea datelor este utilizată în orice domeniu, atunci când datele sunt mult prea multe pentru a mai putea fi înțelese de o minte omenească. În studiile care vizează un număr important de variabile, respectiv indivizi reprezentabili în spaţii de mari dimensiuni, o dificultate majoră o constituie obţinerea unei reprezentări grafice adecvate a cărei vizualizare şi interpretare să faciliteze înţelegerea structurii datelor analizate. Analiza în componente principale are un rol esenţial fiind metoda care serveşte drept fundament teoretic şi pentru celelalte metode de explorare multidimensională numite factoriale. Obiectivele realizate de analiza în componente principale permit utilizarea prealabilă a acestei metode în cazul altor metode care preferă, fie variabile ortogonale (regresia liniară), fie un număr redus de intrări (reţelele neuronale). Analiza discriminantă este una dintre tehnicile de analiză multidimensională cele mai folosite în practică: diagnostic automat, controlul calităţii, previziunea riscului, recunoaşterea formelor.

Vizualizează articolul complet

Scopul analizei discriminante îl constituie studierea legăturilor între variabilele explicative şi clasele partiţiei şi definirea funcţiilor discriminante care vor permite, într-o etapă ulterioară, afectarea de noi indivizi la aceste clase. Mărirea puterii discriminante a axelor poate fi reclamată de datele problemei, cu scopul de a putea „vedea” o anumită structură în date. Determinarea axelor discriminante poate servi şi ca o tehnică de reducere a dimensiunii spaţiului variabilelor, prin această tehnică fiind selectate cele mai relevante caracteristici. Reducerea dimensiunii poate fi deasemenea impusă şi de necesitatea vizualizării claselor prin proiectarea datelor într-un spaţiu cu una sau două dimensiuni.

Analiza corespondenţelor simple este o metodă descriptivă ce revine la efectuarea unei analize a unui nor de puncte ponderate într-un spaţiu cu o metrică specială. Analiza corespondenţelor simple este în principal utilizată pentru tabele mari de date, comparabile între ele (dacă este posibil exprimate în acceaşi unitate de măsură) şi permite analiza şi interpretarea datelor calitative complexe întâlnite în general în domeniul ştiințelor umane şi sociale, dar nu numai. Analiza corespondenţelor simple este conceptual similară cu analiza în componente principale, se poate aplica unor tabele de contingenţă şi tratează în mod echivalent atât liniile, cât şi coloanele. Abordările curente constau în a defini analiza corespondenţelor simple ca fiind rezultatul a două analize în componente principale (pentru profiluri-linii şi pentru profiluri-coloane) utilizând metrica χ2.

Analiza corespondenţelor multiple este o generalizare posibilă a analizei corespondenţelor simple, are însă proceduri de calcul şi reguli de interpretare specifice şi se pretează la un număr mare de aplicaţii. Ea este în mod deosebit adaptată la descrierea tabelelor mari de variabile nominale, specifice anchetelor socio-economice sau medicale, modalităţile acestora fiind de cele mai multe ori răspunsuri la întrebări. Deasemenea este de multe ori utilizată pentru determinarea unor scoruri prealabile unor metode de clasificare (metoda norilor dinamici).

Analiza canonică este considerată, pe plan teoretic, una din metodele descriptive multidimensionale centrale deoarece generalizează diverse alte metode şi de asemenea poate fi privită ca un caz particular de analiză în componente principale a două pachete de variabile într-un spaţiu înzestrat cu o metrică specială. Multă vreme analiza canonică, nefiind uşor aplicabilă, a avut puţine aplicaţii practice, dar lucrurile s-au schimbat mai ales datorită dezvoltării, la mijlocul anilor 1990, a regresiei PLS („partial least squares”) metodă destul de apropiată cu analiza canonică şi ulterior, prin apariţia datelor de expresie genomică (biochip-uri) combinate cu variabile biologice pentru situaţii tipice de analiză canonică.

Analiza canonică prezintă anumite analogii atât cu analiza în componente principale, privind construirea şi interpretarea graficelor, cât şi cu regresia liniară, privind natura datelor. Analiza canonică este apropiată de regresia liniară multiplă (explicarea unei variabile cantitative prin o mulţime de alte variabile cantitative) metodă pentru care analiza canonică constituie de altfel o generalizare (dacă unul din grupuri se reduce la o singură variabilă se regăseşte regresia). Deasemenea, când unul din cele două grupuri de variabile este înlocuit de variabilele auxiliare (modalităţile) unei variabile calitative se regăseşte analiza factorială discriminantă, iar când fiecare din cele două grupuri este înlocuit cu variabilele auxiliare ale unei variabile calitative se regăseşte analiza corespondenţelor simple. Mai mult, există anumite generalizări ale analizei canonice la mai mult de două grupuri de variabile cantitative, iar acestea permit atât regăsirea analizei corespondențelor multiple (înlocuind fiecare grup prin variabilele auxiliare ale unei variabile calitative), cât şi regăsirea analizei în componente principale (lăsând câte o singură variabilă cantitativă în fiecare grup).

Analiza în componente independente, mai recentă, rezultată din fizica semnalului şi cunoscută iniţial ca „metodă de separare oarbă a sursei”, este mai apropiată, intuitiv, de metodele de clasificare nesupravegheată. Clasificarea automată, analiza factorială discriminantă sau analiza discriminantă permit identificarea, în interiorul unei populaţii, a grupurilor omogene din punctul de vedere al variabilelor studiate.

BIBLIOGRAFIE

  1. BACCINI,; BESSE, P.: Data mining / Exploration Statistique. Toulouse: INSA, 2010,
    111 p.
  2. BENZÉCRI,-P.: Histoire et Préhistoire de l’Analyse des données: Partie 5. Les Cahiers de l’analyse des données, vol. 2, no.1, 1977, pp. 9-40.
  3. ENĂCHESCU,: Data Mining – metode şi aplicaţii. Bucureşti: Editura Academiei Române, 2009, 277 p.
  4. FALGUEROLLES,: L’analyse des données: before and around., Electronic Journal for History of Probability and Statistics, vol. 4, no. 2, dec. 2008.
  5. FILIP, G.: Decizie asistată de calculator: decizii, decidenţi – metode de bază şi instrumente informatice asociate. Ediția a 2-a, rev. Bucureşti: Editura Tehnică, 2005, 376 p.
  6. FILIP, G.: Sisteme suport pentru decizii. Ediția a 2-a, rev. Bucureşti: Editura Tehnică, 2007, 364 p.
  7. FRANCIS, : Future telescope array drives development of exabyte processing. 2012 (http://arstechnica.com/science/2012/04/future-telescope-array-drives-development-of-exabyte-processing/ , accesat 2012-12-18).
  8. GORUNESCU,: Data Mining, Concepts, Models and Techniques. Springer-Heidelberg, series Intelligent Systems Reference Library, 2011, 372 p.
  9. HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J.: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd Edition. Springer-Verlag, Springer Series in Statistics, 2008, 763 p.
  10. HILBERT, ; LOPEZ, P.: The World’s Technological Capacity to Store, Communicate, and Compute Information. Science, Vol. 332, 6025, apr. 2011 p. 60-65.
  11. IBM Bringing big data to the enterprise (http://www-01.ibm.com/software/data/bigdata/, accesat 2012-12-18).
  12. MĂRGINEAN,: Sisteme inteligente pentru asistarea deciziilor. Editura Risoprint, Cluj-Napoca, 2006, 239 p.
  13. PENG,; KOU, G.; SHI, Y.; CHEN, Z.: A descriptive framework for the field of data mining and knowledge discovery. International Journal of Information Technology & Decision Making, Vol. 7, No. 4, 2008, pp. 639-682.
  14. TAN, P-N.; STEINBACH,; KUMAR, V.: Introduction to Data Mining. Addison-Wesley, 2006, 769 p.
  15. TUFFERY,: Data mining et statistique décisionnelle, 3ème Edition. Editions TECHNIP, 2010, 705 p.
  16. WATTERS, : The Age of Exabytes: Tools and Approaches for Managing Big Data. Hewlett-Packard Development Company, 2010 (http://readwrite.com/2012/03/05/big-data , accesat 2012-12-18).
  17. WU, X.; KUMAR, V. (ed.): The Top Ten Algorithms in Data Mining. Chapman & Hall / CRC DMKD Series, 2009, 232 p.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.