METODE EXPLORATORII MULTIDIMENSIONALE

Art. 02 – Vol. 23 – Nr. 1 – 2013

Cornel Lepădatu
cornel_lepadatu@biblacad.ro
Academia Română Bucureşti
Biblioteca Academiei Române

Rezumat: Explorarea datelor este un ansamblu de metode destinate descrierii şi analizei datelor multidimensionale şi utilizate în orice domeniu, atunci când datele sunt mult prea multe pentru a mai putea fi înţelese de o minte omenească. Unele dintre metode, ajută la evidenţierea relaţiilor care pot exista între diferite date şi elaborează informaţii statistice care permit o descriere mai succintă a informaţiei conţinute în aceste date. Altele, permit regrupări ale datelor în scopul de a face să apară clar ceea ce le face omogene şi astfel de a le înţelege şi de a le defini mai bine.

Metodele exploratorii multidimensionale sunt metode descriptive, în cea mai mare parte geometrice, al căror instrument matematic major este algebra matricială şi care se exprimă fără să presupună à priori un model probabilist. Aceste metode permit,  în special,  prelucrarea şi sinteza informaţiei din tabelele de date de mari dimensiuni pe baza estimării corelaţiilor dintre variabilele studiate, instrumentele statistice utilizate fiind matricea corelaţiilor sau matricea de varianţă-covarianţă.

Un demers exploratoriu îi permite prospectorului de date să abordeze unul dintre principalele obiective ale „data mining” şi anume explorarea multidimensională a datelor sau reducerea de dimensiune: reprezentarea grafică, deducerea unei submulţimi de variabile reprezentative sau a unei mulţimi de componente prealabile pentru alte metode.

Din anii 1980 capacitatea de a stoca informaţii s-a dublat aproximativ la fiecare 40 de luni [10]. Începând cu 2012 au fost create [11], în fiecare zi, 2.5 quintilioane (2,5 × 1018) octeţi de date, iar limitarea la ordinul exabyţilor, privind dimensiunile seturilor de date procesabile într-un timp rezonabil [7, 16], constituie deja un subiect de preocupare sistematică a oamenilor de ştiinţă pentru domenii precum meteorologia, genomica, connectomica, simularea fenomenelor fizice complexe, cercetările biologice şi de mediu şi chiar căutarea pe internet, finanţele şi informatica decizională.

Cuvinte cheie: analiza canonică, analiza corespondenţelor multiple, analiza corespondenţelor simple, analiza factorială discriminantă, analiza în componente principale.

Vizualizează articolul complet