Art. 01 – Vol. 27 – Nr. 2 – 2017

VIZUALIZAREA DATELOR MASIVE ŞI
VISUAL ANALYTICS. ABORDĂRI ŞI TENDINŢE

Mihnea Horia VREJOIU
mihnea@dossv1.ici.ro
Mădălina Cornelia ZAMFIR
madalina@ici.ro
Vladimir FLORIAN
vladimir@ici.ro
Institutul Naţional de Cercetare – Dezvoltare în Informatică, ICI – Bucureşti

Rezumat: În zilele noastre, în tot mai multe domenii, sunt colectate şi stocate volume uriaşe de date care cresc continuu. Posibilitatea utilizării efective a acestora, prin extragerea informaţiei utile conţinute, devine o provocare din ce în ce mai mare. Domeniul visual analytics (VA) caută să pună la dispoziţia oamenilor mijloace mai potrivite şi mai eficiente pentru analiza şi înţelegerea acestor seturi mari de date, permiţându-le astfel să decidă şi să acţioneze în mod corespunzător în timp real. Lucrarea de faţă prezintă o imagine generală asupra a ceea ce numim astăzi visual analytics, cu abordările şi tendinţele specifice. Sunt acoperite aspecte privind integrarea tehnicilor de vizualizare a datelor masive, a tehnologiilor de management şi metodelor automate de explorare şi analiză avansată a acestora, cu implicarea interactivă decisivă a utilizatorului uman în lanţul de acţiuni şi procesări specifice visual analytics pentru descoperirea şi extragerea de informaţii şi cunoştinţe din date, utilizabile în elaborarea şi formularea de evaluări, suport pentru decizie şi acţiune imediată. Sunt redate sintetic ideile principale referitoare la definiţia, metoda / procesul şi componentele visual analytics rezultate din proiectul VisMaster, acţiune de coordonare din cadrul programului TVE al PC7 pentru C-D al UE. Sunt trecute în revistă câteva din domeniile majore de aplicaţie. De asemenea, este prezentată situaţia actuală, prin câteva produse open source şi comerciale şi este rezumată o perspectivă asupra abordărilor şi tendinţelor în VA, cu probleme, provocări, oportunităţi şi potenţiale soluţii şi dezvoltări aşteptate. În final, sunt formulate câteva concluzii.

Cuvinte cheie: vizualizare date, date masive, analiză avansată vizuală, explorare vizuală date, gestiune date.

Introducere: În prezent, blocajele şi piedicile în calea progresului ştiinţific nu mai apar în zona achiziţiei de date, ci în posibilităţile de analiză a acestora. Datorită furnizării continue de date diverse de la tot mai multe reţele de senzori, telescoape, experimente ştiinţifice şi instrumente cu rate înalte de transfer, seturile de date disponibile pentru cercetare cresc exponenţial. Tehnicile şi tehnologiile clasice de stocare şi analiză nu mai pot opera eficient în acest nou context. Provocările se mută din zona capturii de date şi a activităţilor de gestionare şi întreţinere a lor, spre analiza şi vizualizarea acestora. Existenţa seturilor de date masive (Big Data) reprezintă atât o oportunitate, deoarece sunt posibile perspective mai profunde când volumul datelor disponibile este mai mare, cât şi o provocare, deoarece de multe ori metodologiile actuale nu sunt adecvate gestionării seturilor extrem de mari de date, fiind deci necesară găsirea de noi soluţii.

Domeniul visual analytics (VA) caută să pună la dispoziţia oamenilor mijloace mai bune şi mai eficiente pentru analiza şi înţelegerea seturilor mari de date pe baza tehnicilor de vizualizare şi explorare pentru extragerea informaţiei şi a cunoştinţelor din acestea, permiţându-le să ia decizii şi să acţioneze imediat în baza celor descoperite, în timp real. Visual analytics integrează capabilităţile analitice ale calculatorului cu abilităţile analistului uman, oferindu-i acestuia posibilitatea să preia controlul procesului analitic şi facilitând descoperiri şi/sau perspective noi, surprinzătoare.

Lucrarea de faţă prezintă o imagine generală asupra a ceea ce numim astăzi visual analytics, cu abordările şi tendinţele specifice şi detalierea raportului între vizualizarea datelor masive (Big Data) şi visual analytics. Sunt acoperite aspecte privind împletirea tehnicilor de vizualizare a datelor masive cu tehnologiile de management şi metodele automate de explorare şi analiză avansată a acestora, cu implicarea decisivă a utilizatorului uman în lanţul de acţiuni şi procesări specifice visual analytics pentru descoperirea şi extragerea de informaţii şi cunoştinţe „ascunse” în date, utilizabile în elaborarea şi formularea de evaluări şi concluzii suport pentru decizie şi acţiune imediată.

În continuarea lucrării, în secţiunea 2 sunt redate sintetic câteva dintre ideile principale referitoare la definiţia, metoda / procesul şi componentele visual analytics, rezultate din proiectul VisMaster – acţiune de coordonare din cadrul programului Future and Emerging Technologies (FET), al Programului Cadru 7 al Uniunii Europene pentru Cercetare şi Dezvoltare Tehnologică [1]. În secţiunea 3 sunt trecute în revistă câteva domenii de aplicaţie pentru visual analytics. Secţiunea 4 prezintă o imagine asupra situaţiei actuale prin câteva produse open source şi comerciale de VA. Secţiunea 5 rezumă o perspectivă asupra abordărilor şi tendinţelor în VA, probleme, provocări, oportunităţi şi potenţiale soluţii şi dezvoltări aşteptate, conform [2]. Lucrarea se încheie cu o secţiune de concluzii.

Concluzii:  Abordările prezentate mai sus remodelează paradigma vizualizării convenţionale. Se acordă prioritate vitezei şi responsivităţii chiar dacă aceasta este în detrimentul preciziei, prezentându-se un subset al datelor sau un rezumat şi o versiune comprimată a acestora. Aceste abordări sunt adesea orientate ecran, complexitatea lor computaţională depinzând mai degrabă de dimensiunea / rezoluţia ecranului decât de dimensiunea datelor.

Sistemele analitice vizuale viitoare trebuie de asemenea să ofere posibilitatea interacţiunii permanente cu datele, utilizatorul putând ajusta parametrii căutărilor în mod constant în timp ce sistemul demonstrează instantaneu noi vizualizări. Astfel de interacţiuni pot fi utile deoarece în procesul de descoperire a datelor este necesar să fie puse mai multe întrebări şi să fie parcurse mai multe iteraţii pe ipoteze înainte de a putea fi formulate întrebările adecvate / corecte. Rareori un analist de date pune o singură întrebare. Memoria umană este foarte limitată, mai ales când sunt implicate cantităţi vaste de informaţie vizuală. O latenţă redusă la căutare şi mecanisme de navigare intuitive pot fi utile în parcurgerea înainte şi înapoi a mai multor vizualizări şi observarea datelor din perspective multiple, mărind şansa identificării / găsirii unor modele / şabloane semnificative în acestea.

Managementul datelor şi visual analytics sunt două discipline care, împreună, sunt capabile să exploateze oportunităţile aduse de era informaţională.

Vizualizează articolul complet

Cum managementul datelor este practic intrinsec visual analytics, rezolvarea unora dintre problemele deschise ale managementului de date va duce (şi) la îmbunătăţirea aplicaţiilor de visual analytics. Pe de altă parte, probleme specifice visual analytics vor ridica noi provocări comunităţii implicate în managementul datelor. Prin urmare, în cadrul acestei dependenţe simbiotice, este important să se reflecteze asupra diferitelor perspective şi relaţiilor inerente atunci când sunt analizate rolurile mutuale jucate de managementul datelor şi visual analytics. De exemplu, managementul datelor oferă tehnici şi algoritmi (de interpolare, statistici) în cazul datelor lipsă, dar o abordare complet automată poate pierde fapte importante, cum ar fi date lăsate lipsă intenţionat sau disfuncţionalităţi ale senzorilor. Vizualizarea oferă de asemenea metode pentru tratarea automată a situaţiilor datelor lipsă, într-o manieră interactivă. Trebuie deci stabilit când / dacă responsabilitatea gestionării unor astfel de situaţii va fi în zona managementului datelor sau în cea a vizualizării.

Integrarea datelor eterogene este o activitate centrală a managementului datelor care devine din ce în ce mai importantă şi mai utilizată. În vreme ce partea de stocare şi regăsire a datelor din seturi foarte mari de date este bine înţeleasă şi acoperită, suportul pentru vizualizările eficace şi eficiente ale datelor cu (de exemplu) miliarde de elemente / articole şi/sau sute de dimensiuni reprezintă încă o activitate provocatoare de cercetare. În particular, utilizatorul trebuie să primească feedback rapid în timp ce explorează datele.

Pentru a se face progrese în domeniul visual analytics este necesar să fie abordate câteva probleme critice cum sunt: problemele de incertitudine, integrarea datelor semantice şi managementul semanticilor, provenienţa datelor, fluxurile de date, vizualizarea interactivă a seturilor masive de date, soluţionarea activităţilor intensive la procesare şi proiectarea de sisteme de visual analytics destinate publicului larg. Rezolvarea acestor probleme reprezintă o provocare pentru ambele comunităţi – de management al datelor şi de visual analytics – pentru a se putea profita de oportunităţile oferite de volumul crescând de informaţii disponibile astăzi.

Dezvoltatorii de aplicaţii visual analytics sunt confruntaţi cu mai multe provocări fundamentale în încercarea de a dezvolta metodologii iterative integrate care implică colectarea informaţiei, preprocesarea datelor, reprezentarea cunoştinţelor, interacţiune şi luarea deciziei. Între oportunităţile majore, amintim: dezvoltarea de instrumente şi metode generice / generale, reglementarea şi controlul calităţii, vizualizarea modelelor. Probabil cea mai importantă oportunitate este aceea de a se oferi liniile directoare şi cadrul pentru ca aceste componente să fie dezvoltate [1].

Menţiuni

Prezentul articol are la bază parte din lucrările Etapei I a Proiectului PN1609-0201, derulat în cadrul Programului Naţional Nucleu COGNOTIC, la ICI Bucureşti, 2016.

BIBLIOGRAFIE

  1. KEIM, D.; KOHLHAMMER, J.; ELLIS, G.; MANSMANN, F. (EDS.): Mastering The Information Age. Solving Problems with Visual Analytics. Eurographics Association, Germany, ISBN 978-3-905673-77-7, electronic version at Eurographics Digital Library: http://diglib.eg.org, 2010.
  2. AMRAII, S. A.; LEWIS, M.; SARGENT, R.; NOURBAKHSH, I.: Explorable Visual Analytics. Knowledge Discovery in Large and High–Dimensional Data. Proceedings of the Association for Computing Machinery Special Interest Group Knowledge Discovery and Data Mining (ACM SIGKDD) Workshop on Interactive Data Exploration and Analytics, New York City, USA, 2014, pp. 26-34.
  3. THOMAS, J. J.; COOK, K. A.: ILLUMINATING THE PATH: The Research and Development Agenda for Visual Analytics. IEEE Computer Society Press, Los Alamitos, 2005.
  4. KEIM, D.; ANDRIENKO, G.; FEKETE, J.-D.; GORG, C.; KOHLHAMMER, J.; MELANCON, G.: Visual analytics: Definition, process, and challenges. In Information Visualization, LNCS 4950, Kerren, A. et al. (Eds.), Springer-Verlag Berlin Heidelberg, 2008, pp. 154-175.
  5. HARGER, J. R.; CROSSNO, P. J.: Comparison of open-source visual analytics toolkits. In Proceedings of the SPIE Conference on Visualization and Data Analysis, 2012.
  6. ZHANG, L.; STOFFEL, A.; BEHRISCH, M.; MITTELSTÄDT, S.; SCHRECK, T.; POMPL, R.; WEBER, S. H.; LAST, H.; KEIM, : Visual Analytics for the Big Data Era – A Comparative Review of State-of-the-Art Commercial Systems. In Proceedings of IEEE Conference on Visual Analytics Science and Technology 2012, Oct. 14-19, Seattle, WA, USA, pp. 173-182.
  7. FEKETE, J.-D.: The infovis toolkit. In INFOVIS, 2004, pp. 167-174.
  8. HEER, J. ; CARD, S. K.; LANDAY, J. A.: Prefuse: a toolkit for interactive information visualization. In Proceedings of the SIGCHI conference on Human factors in computing systems, CHI ’05, New York, NY, USA, (ACM), 2005, pp. 421-430.
  9. WEAVER, C.: Building highly-coordinated visualizations in Improvise. In INFOVIS, 2004, pp. 159-166.
  10. ***: Java Universal Network/Graph Framework, http://jung-sourceforge.net/.
  11. ***: http://www.tableausoftware.com/.
  12. ***: http://spotfire.tibco.com/.
  13. ***: http://www.qlikview.com/.
  14. ***: http://www.jmp.com/.
  15. ***: http://www.advizorsolutions.com/.
  16. ***: http://www.centrifugesystems.com/.
  17. ***: http://www.visualanalytics.com/.
  18. SCHUNN, C. D.; KLAHR, D.: A 4-space model of scientific discovery. In Proceedings of the seventeenth annual conference of the Cognitive Science Society, 1995, pp. 106-111.
  19. FRY, B. J.: Computational information design. Ph. D. Thesis, Massachusetts Institute of Technology, School of Architecture and Planning, Program in Media Arts and Sciences, 2004.
  20. FEKETE, J.-D.: Visual analytics infrastructures: From data management to exploration. Computer, 46(7), July 2013, pp. 22-29.
  21. HERMAN, I.; MELANCON, G.; MARSHALL, :  Graph  visualization and navigation in information visualization: A survey. IEEE Transactions on Visualization and Computer Graphics, 6(1), January 2000, pp. 24-43.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.