Asupra termenului de minerit de date (Data Mining)

Angela Ioniță

Institutul de Cercetări pentru Inteligență Artificială, Academia Română

Rezumat: Mineritul de date (data mining) s-a dezvoltat ca o consecință a disponibilizării marilor rezervoare de date. Colectarea datelor în diverse formate de digitizare a început în anii ’60 permițând o analiză retrospectivă a datelor prin intermediul calculatorului. Bazele de date relaționale au apărut în anii ’80 împreună cu Structured Query Language (SQL) permițând analizarea dinamică la cerere a datelor. Anii ’90 sunt caracterizați de o explozie a datelor. Pentru stocarea lor au început să se folosească depozitele de date (data warehouses). Mineritul de date a apărut ca răspuns Ia provocările cu care s-a confruntat comunitatea specialiștilor în haze de date, care se ocupau cu cantități masive de date, aplicarea analizei statistice și aplicarea tehnicilor de căutare, specifice inteligenței artificiale asupra datelor. Mineritul de date este aplicat într-o varietate de domenii, începând cu managementul de investiții până la astronomie. Importanța și potențialul de aplicare al mineritului de date a fost recunoscut în marketing, domeniul bancar, asigurarea sănătății, telecomunicații ș.a. pentru aplicații cum ar fi analiza coșului de piață, pentru promovarea eficienței, analiza vulnerabilității clienților, managementul relațiilor cu clienții, crearea de portofoliu, detectarea fraudei în telefonia celulară etc. În fiecare dintre aceste aplicații este necesară executarea mai multor operații de minerit de date decât în domeniile depozitării de date (data warehousing) și sistemetor suport pentru decizie. Întrucât până la această dată încă nu există consens asupra traducerii și utilizării termenului de minerit de date (data mining), acest articol și-a propus discutarea mai multor definiții mai mult sau mai puțin acceptate în diferite comunități de specialiști și a contextelor de utilizare. Datorită evoluției rapide a accesării datelor online datorată dezvoltării Internet-ului, s-a creat o imensă cerere de metodologii de descoperire de cunoștințe. În consecință, terminologia a evoluat și ea, mineritul de date căpătând diferite înțelesuri, așa cum este prezentat în prima secțiune a acestui articol. Cea de a doua secțiune face o prezentare a mineritului de date ca etapă în procesul de extragere de cunoștințe și este urmată de o foarte scurtă prezentare a celor mai utilizați algoritmi. În secțiunea a patra, sunt prezentate câteva clase de probleme cărora li se adresează mineritul de date. Secțiunea a cincea se referă la tehnologiile de minerit de date. Ultima secțiune este dedicată concluziilor, punctând asupra înțelesului actual al termenului, tendințelor de standardizare și asupra unor aspecte caracteristice. Fără a avea pretenția de exhaustivitate, acest articol are intenția de a atrage atenția asupra unui domeniu nou, în plină dezvoltare, al științei calculatoarelor, care va furniza un nivel nou și eficient de informații și de descoperire de cunoștințe de care vor beneficia toți utilizatorii din domeniul memorării computerizate de date.

Cuvinte cheie: minerit de date (data mining), depozitare de date (data warehousing), descoperirea de cunoșințe (knowledge discovery), baze de date, reguli de asociere, clusterizare, algoritmi de crasificare, arbori de decizie, rețele neuronale, algoritmi genetici.

Vizualizează articolul complet

COORDONATELE PENTRU CITAREA ACESTUI ARTICOL SUNT URMĂTOARELE:
Angela Ioniță, Asupra termenului de minerit de date (Data Mining), Revista Română de Informatică şi Automatică (Romanian Journal of Information Technology and Automatic Control), ISSN 1220-1758, vol. 15(2), pp. 29-38, 2005.