BIG DATA – CONCEPTE, ARHITECTURI
ŞI TEHNOLOGII
Adriana ALEXANDRU
adriana@ici.ro
Dora COARDOŞ
coardos@ici.ro
Institutul Naţional de Cercetare – Dezvoltare în Informatică, ICI – Bucureşti
Rezumat: Lucrarea prezintă principalele abordări legate de Big Data. Conceptul Big Data introduce modificări în cadrul a trei dimensiuni: (1) tipuri de date, (2) viteza de acumulare a acestora şi (3) volumul lor. Big Data reprezintă o nouă generaţie de tehnologii şi arhitecturi destinate extragerii de valoare din cadrul volumelor foarte mari de date, cu o mare varietate, permiţând prelucrarea şi analiza acestora în timp real. În articol sunt prezentate seturi de tip Big Data, precum şi arhitecturi şi tehnologii pentru Big Data.
Cuvinte cheie: Big Data, seturi Big Data, Hadoop, NoSQL.
Introducere: În ultimele decenii, organizaţiile au început să acorde importanţă sporită datelor şi să inves-tească mai mult în colectarea şi gestionarea lor. Dincolo de informaţiile colectate în interiorul organizaţiilor şi de volumul crescând de date pe care le generează calculatoarele în funcţio-narea lor, sunt utilizate date obţinute din exteriorul organizaţiei, fie structurate sau nestructurate, care au surse multiple care pot include de la informaţii postate pe reţele de socializare şi produse vizionate în magazine virtuale, la informaţii citite de către senzori, semnale GPS de pe dispozitivele mobile, adrese IP ale compu-terelor, cookie-uri, coduri de bare ş.a.m.d. Unele tipuri de date precum text şi voce, există de mult timp, însă volumul acestora în mediul Internet şi în alte structuri digitale anunţă începutul unei noi ere, precum şi a unor noi tehnologii care permit analizarea acestor tipuri de date.
Multe dintre cele mai importante surse de date sunt însă relativ noi. Se argumentează că explozia volumului de date caracteristic fenomenului Big Data provine din datele de natură nestructurată. În cadrul acestora, spre deosebire de datele generate de către utilizatori, care au la origine informaţii furnizate voluntar în diferite medii de diseminare Web, există şi datele interceptate. Acestea din urmă se referă la informaţii colectate în mod pasiv din comportamentul online al indivizilor, cum sunt, de pildă, termenii de căutare online sau localizarea indivizilor prin aplicaţiile prezente pe dispozitivele mobile.
În comparaţie cu instrumentele analitice tradiţionale, conceptul Big Data introduce modificări în cadrul a patru dimensiuni: (1) tipuri de date, (2) viteza de acumulare a acestora, (3) volumul lor şi (4) calitatea datelor. Odată cu lansarea mediului Web 2.0, o mare parte din datele de valoare pentru întreprinderi sunt generate în exteriorul organizaţiei, de către consumatori şi în general, utilizatori Web.
Ne aflăm astăzi la un punct de inflexiune în care volumul şi varietatea datelor generate în organizaţii creează provocări, dar şi oportunitatea de a atinge noi posibilităţi de afaceri şi valoare adăugată. Cei care vor avea capacitatea de a construi infrastructurile corespunzătoare pentru managementul informaţiei vor putea transforma aceste provocări în avantaj competitiv şi vor putea propulsa afacerea lor spre rezultate mult mai bune. Adăugarea de valoare prin utilizarea potenţialului Big Data este încă în faza emergentă, însă reprezintă o schimbare de paradigmă pe care orice afacere trebuie să o ia în considerare.
Aproape orice companie descoperă că trebuie nu doar să gestioneze volume de date din ce în ce mai mari în sistemele lor în timp real, dar şi să analizeze aceste informaţii astfel încât să poată lua rapid deciziile potrivite pentru a concura eficient pe piaţă.
Cererea crescândă pentru platforme analitice de generaţie următoare care oferă clienţilor răspunsuri aproape în timp real, declanşate de date în timp real cum ar fi istoria accesărilor sau parcursul vizitatorilor (clickstreams), social media, senzori, combinate cu puterea de executare distribuită a seriilor de comenzi, demonstrează faptul că inteligenţa ar trebui să se afle, implicit, în centrul oricărei aplicaţii software. Astfel, aplicaţiile moderne pun accent pe utilizarea noilor tehnologii Big Data.
Soluţia oferită prin utilizarea seturilor Big Data ajută afacerile să îşi administreze mai bine fluxurile de date cu volum mare, varietate mare şi viteză mare şi să transforme aceste date în informaţii care să genereze profit.
Concluzii: Big Data poate adăuga valoare şi oferi o nouă perspectivă prin îmbunătăţirea practicilor de analiză şi modelare predictivă. Volumele masive de date provenind din surse diferite au un efect pozitiv în procesul de luare a deciziilor în timp real. Varietatea surselor de date, calitatea datelor care urmează să fie integrate şi vizualizarea lor sunt unele dintre provocările pentru integrarea Big Data.
Noi capacităţi şi tehnologii trebuie să fie adoptate în scopul de a transforma informaţiile prin gestionarea şi de analiza datelor. Principalele provocări sunt acceptarea şi utilizarea noilor tehnologii, precum şi reglementarea lor. Cele mai notabile probleme de depăşit rezidă în dificultatea de a analiza volume mari de date pentru a obţine rezultate precise în timp util, necesitatea de standardizare, interoperabilitatea, securitatea, confidenţialitatea, precum şi expertiza şi finanţarea pentru dezvoltarea infrastructurii Big Data şi integrarea seturilor de date deja disponibile.
Noile metode, instrumente şi abordări statistice tehnologie, cum ar fi cloud computing şi tehnologii de securitate trebuie să fie explorate. Mai mult decât atât, ar trebui să se investească în instruirea personalului cu privire la utilizarea BD.
Big Data constituie o oportunitate de a utiliza noi tipuri de date în scopul de a crea întreprinderi mai agile, care să rezolve probleme care anterior au fost considerate nesoluţionabile, conducând la rezultate mai bune în afaceri. Aceasta duce la schimbări radicale în funcţionarea întreprinderilor, care se schimbă de la utilizarea unui model bazat în principal pe experienţa decidentul, la un model bazat pe informaţii, care dă o valoare reală a afacerii şi organizaţiei în sine.
BIBLIOGRAFIE
- DUTCHER, J.: What Is BD?. Berkeley School of Informatics, Sept. 2014.
- GANTZ, J.; REINSEL, D.: Extracting value from chaos. IDC iView, 2011, pp 1-12.
- GARTNER: “IT glossary: big data” [webpage on the Internet], Stamford, CT; 2012, Available from: http://www.gartner.com/it-glossary/big-data.
- GARTNER: 10 Big Data Software Requirements, http://www.information-management.com/gallery/Big-Data-Required-Software-Applications-10026664-1.html, accesat august 2015.
- HADOOP, A.: Hadoop, 2009, http://hadoop.apache.org/.
- HARVEY, C.: Hadoop and Big Data: 60 Top Open Source Tools, http://www.datamation.com/applications/hadoop-and-big-data-60-top-open-source-tools-1.html, iunie 2015.
- KHAN, N.; YAQOOB, I.; HASHEM, I. A. T. et al.: Big Data: Survey, Technologies, Opportunities, and Challenges, The Scientific World Journal, vol. 2014, Article ID 712826, 18 pagini, 2014. doi:10.1155/2014/712826.
- ANUGANTI, V.: Typical “Big” Data Architecture. 2012. Retrieved from: http://venublog.com/2012/11/30/typical-big-data-architecture/.
- BODAPATI, V.: Data Integration Ecosystem for Big Data and Analytics. 2013. Retrieved from: http://smartdatacollective.com/raju-bodapati/103326/data-integration-ecosystem-big-data-and-analytics.
- MARZ, N.; WARREN, J.: Big data – Principles and best practices of scalable realtime data systems (Chapter 1), 2014.
- TIAN, W.; ZHAO, Y.: Optimized Cloud Resource Management and Scheduling – Theories and Practices, Morgan Kaufmann, Elsevier Inc, 269 p., 2015, ISBN: 978-0-12-801476-9;
- MC CREARY, D.; KELLY, D. A.: Making Sense of NoSQL: A guide for managers and the rest of us, Manning, 2014, ISBN-13:978-1617291074, ISBN-10:1617291072.
- SADALAGE, P. J.; FOWLER, M.: NoSQL Distilled: A Brief Guide to the Emerging, World of Polyglot Persistence, mitfiles.com/CSE/…/NoSQL%20Distilled.pd
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.