SISTEM DE CĂUTARE PERSONALIZATĂ PENTRU REORDONAREA REZULTATELOR DIN CĂUTĂRILE WEB
Ciprian CÂNDEA
ciprian.candea@ropardo.ro
Ropardo SRL, Sibiu – Departamentul de Cercetare şi Dezvoltare
Rezumat: Acest articol prezintă un sistem de căutare personalizată pentru reordonarea rezultatelor căutărilor de pagini web. Sistemul este accesibil din browser-ul web. Evaluând paginile web, utilizatorul poate crea profile multiple, care pot fi folosite pentru personalizarea rezultatelor căutărilor furnizate de motorul de căutare. Un algoritm User Profile este folosit pentru a învăţa preferinţele utilizatorului, folosind un model ierarhic de cuvinte cheie ponderate. Potenţialul unui astfel de sistem personalizat este evaluat prin experimente. În plus, doi algoritmi de Information Retrieval, LSI şi FCRN, sunt puşi în aplicare cu scopul de a evalua îmbunătăţirile posibile ale procesului de recuperare, folosind datele oferite de User Profile. Un algoritm hibrid, între LSI şi FCRN, este, de asemenea, propus şi evaluat. Prin experimente, care folosesc performanţa motorului de căutare ca o linie de referinţă, sunt prezentate beneficiile sistemului de căutare personalizat.
Cuvinte cheie: căutare personalizată, profilul utilizatorului, regăsirea informaţiilor, metrici de similaritate, Singular Value Decomposition, evaluare.
Introducere
Un sistem de căutare personalizată [1] este definit ca un tip de sistem de Information Retrieval (IR) [2], care personalizează căutarea de informaţii, de la un utilizator la altul. Prin calcule contextuale, pentru orice utilizator, mediul de calcul se adaptează la fiecare punct de calcul. Preferinţele şi comportamentele utilizatorilor sunt modelate. Una dintre cele mai importante caracteristici ale unui sistem de căutare personalizat este că relevanţa este relativă pentru fiecare utilizator. În loc de a avea o relevanţă a informaţiei identică pentru toţi utilizatorii (determinată eventual de o mulţime de experţi), căutarea personalizată propune contextualizarea şi individualizarea relevanţei informaţiei.
Există două tehnici generale utilizate de sisteme de căutare personalizate: (1) reordonarea rezultatelor de căutare şi (2) augmentarea interogării şi procesarea rezultatului [1]. Prima tehnică presupune reordonarea rezultatelor obţinute de către utilizator, după o operaţiune de căutare, prin măsurarea similarităţii rezultatelor cu preferinţele utilizatorului, stocate într-un profil de utilizator. A doua abordare încearcă să rafineze o interogare (de căutare) a utilizatorului prin compararea termenilor din interogare cu informaţiile individuale şi contextuale asociate cu acel utilizator. Astfel, sistemul ar trebui să fie capabil de a propune o interogare mai relevantă (din perspectiva utilizatorului respectiv).
Sisteme de căutare personalizate sunt cel mai frecvent utilizate în serviciile de căutare web. Google [3], Bing [4] şi Yahoo [5] au introdus astfel de sisteme. Deşi puţine detalii sunt cunoscute despre sistemele lor (proprietare), este de aşteptat ca limba utilizatorului, locaţia şi istoricul web să fie factorii cheie adoptaţi [6]. De exemplu, căutarea personalizată de la Google funcţionează cel mai bine în cazul în care utilizatorul are un cont cu istoricul web activ. Totuşi, sistemul lor poate lucra şi cu utilizatorii neautentificaţi printr-un cookie în browser-ul web.
În această lucrare propunem un sistem de căutare personalizată pentru reordonarea rezultatelor căutărilor web pe care l-am conceput şi dezvoltat folosind bine-cunoscuta arhitectură software de tipul client-server. În timp ce serverul este responsabil cu menţinerea profilelor pentru mai mulţi utilizatori, clientul este disponibil ca plug-in pentru browser-ul web Mozilla Firefox. Datele sunt schimbate între clienţi şi server prin intermediul serviciilor web. Algoritmul pentru modelarea profilului de utilizator din [7] a fost implementat. Abordarea propusă este detaliată în secţiunea 3, după o imagine de ansamblu a cercetărilor similare, care este prezentată în secţiunea 2. Algoritmul de profil al utilizatorului este, de asemenea, combinat cu alţi algoritmi IR, cu scopul de a încerca să se îmbunătăţească performanţele sale. Obiectivul principal al acestei lucrări este de a evalua şi a compara mai mulţi algoritmi care pot fi utilizaţi pentru un sistem de căutare personalizată. După prezentarea metodologiei noastre de evaluare (a se vedea secţiunea 4), se prezintă mai multe experimente, în secţiunea 5, cu scopul de a demonstra avantajele unei abordări de tipul căutare personalizată, precum şi pentru a arăta modul în care algoritmii adoptaţi performează, folosind motorul de căutare Google ca referinţă. În cele din urmă, secţiunea 6 prezintă concluziile şi direcţiile noastre pentru activitatea viitoare.
Concluzii şi cercetări viitoare
În această lucrare a fost prezentat un sistem de căutare personalizată pentru reordonarea rezultatelor de căutări web. Acest sistem este disponibil ca un plugin pentru browser-ul Mozilla Firefox şi funcţionează cu motorul de căutare Google. Evident, poate fi extins pentru alte browsere şi motoare de căutare. Folosind tehnici cunoscute de NLP (cum ar fi stemming şi detectarea limbii), algoritmul User Profile este folosit pentru a afla şi stoca preferinţele utilizatorilor. Experimentele noastre au arătat că profilul utilizatorului evoluează în direcţia dorită. Mai mult decât atât, algoritmi cum ar fi LSI, FCRN şi FCRN++ (propus de noi) îmbunătăţesc procesul de recuperare chiar din primele etape, în cazul în care profilul de utilizator nu este foarte consistent. Feedback-ul utilizatorului este esenţial pentru buna performanţă a algoritmilor.
Ca şi activitate viitoare, ne propunem să luăm în considerare alţi algoritmi de profil ai utilizatorului, care se bazează pe feedback-ul implicit şi colaborativ al utilizatorilor. De asemenea, intenţionăm să abordăm problema de expansiune a interogării. Clasificarea automată a datelor profilul utilizatorului este un alt aspect interesant.
BIBLIOGRAFIE
- PITKOW, J.; SCHÜTZE, H.; CASS, T.; COOLEY, R.; TURNBULL, D.; EDMONDS, A.; ADAR, E.; BREUEL, T.: Personalized Search. Commun ACM, vol. 45, no. 9, Sep. 2002, pp. 50–55.
- SALTON, G.; McGILL, M. J.: Introduction to Modern Information Retrieval. New York, NY, USA: McGraw-Hill, Inc., 1986.
- *** “Personalized Search for everyone”, Official Google Blog.
- *** “Making search yours | Search Blog” [Online]. Available: http://blogs.bing.com/search/ 2011/02/10/making-search-yours/. [Accessed: 23-Oct-2014].
- WRITER, M. H. S.; NEWS, C.: Yahoo debuts personalized search – CNET News. CNET. [Online]. Available: http://news.cnet.com/Yahoo-debuts-personalized-search/2100-1038_3-5686585.html. [Accessed: 23-Oct-2014].
- HANNAK, A.; SAPIEZYNSKI, P.; MOLAVI KAKHKI, A.; KRISHNAMURTY, B.; LAZER, D.; MISLOVE, A.; WILSON, C.: Measuring Personalization of Web Search. In Proceedings of the 22Nd International Conference on World Wide Web, Republic and Canton of Geneva, Switzerland, 2013, pp. 527–538.
- WIDYANTORO, D. H.: Dynamic Modeling and Learning User Profile in Personalized News Agent. Texas A&M University, 1999.
- SUGIYAMA, K.; HATANO, K.; YOSHIKAWA, M.: Adaptive Web Search Based on User Profile Constructed Without Any Effort from Users. In Proceedings of the 13th International Conference on World Wide Web, New York, NY, USA, 2004, pp. 675–684.
- TEEVAN, J.; DUMAIS, S. T.; HORVITZ, E.: Personalizing Search via Automated Analysis of Interests and Activities. In Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, NY, USA, 2005, pp. 449–456.
- GAUCH, S.; CHAFEE, J.; PRETSCHNER, A.: Ontology-based Personalized Search and Browsing. Web Intelli Agent Sys, vol. 1, no. 3–4, Dec. 2003, pp. 219–234.
- QIU, F.; CHO, J.: Automatic Identification of User Interest for Personalized Search. In Proceedings of the 15th International Conference on World Wide Web, New York, NY, USA, 2006, pp. 727–736.
- SUN, J.-T.; ZENG, H.-J.; LIU, H.; LU, Y.; CHEN, Z.: CubeSVD: A Novel Approach to Personalized Web Search. In Proceedings of the 14th International Conference on World Wide Web, New York, NY, USA, 2005, pp. 382–390.
- SHEN, X.; TAN, B.; ZHAI, C.: Implicit User Modeling for Personalized Search. In Proceedings of the 14th ACM International Conference on Information and Knowledge Management, New York, NY, USA, 2005, pp. 824–831.
- TAN, B.; SHEN, X.; ZHAI, C.: Mining Long-term Search History to Improve Search Accuracy. In Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA, 2006, pp. 718–723.
- PARISER, E.: The Filter Bubble: How the New Personalized Web Is Changing What We Read and How We Think. Penguin, 2011.
- KOEHN, P.: Europarl: A Parallel Corpus for Statistical Machine Translation.
- *** Coursera – Language Modeling, Coursera. [Online]. Available: https://class.coursera.org/nlp/lecture/17. [Accessed: 16-Oct-2014].
- PORTER, M. F.: Readings in Information Retrieval. K. Sparck Jones and P. Willett, Eds. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1997, pp. 313–316.
- FIELDING, R. T.; TAYLOR, R. N.: Principled Design of the Modern Web Architecture. ACM Trans Internet Technol, vol. 2, no. 2, May 2002, pp. 115–150.
- BERRY, M.; DUMAIS, S.; O’BRIEN, G.: Using Linear Algebra for Intelligent Information Retrieval. SIAM Rev., vol. 37, no. 4, Dec. 1995, pp. 573–595.
- SALTON, G.: WONG, A.; YANG, C. S.: A Vector Space Model for Automatic Indexing. Commun ACM, vol. 18, no. 11, Nov. 1975, pp. 613–620.
- BERRY, M. W.;DRMAČ, Z.; JESSUP, E. and R.: Matrices, vector spaces, and information retrieval. SIAM Rev., vol. 41, 1999, pp. 335–362.
- RICCI, F.; ROKACH, L.; SHAPIRA, B.; KANTOR, P. B. Eds.: Recommender Systems Handbook, 2011 edition. New York: Springer, 2010.
- LENZ, M.; BURKHARD, H.-D.: Case retrieval nets: Basic ideas and extensions. In KI-96: Advances in Artificial Intelligence, G. Görz and S. Hölldobler, Eds. Springer Berlin Heidelberg, 1996, pp. 227–239.
- KONTOSTATHIS, A.; POTTENGER, W. M.: A Mathematical View of Latent Semantic Indexing: Tracing Term Co-Occurrences, 2002.
- RIJSBERGEN, C. J. V.: Information Retrieval. 2nd ed. Newton, MA, USA: Butterworth-Heinemann, 1979.
- TEUFEL, S.: An Overview of Evaluation Methods in TREC Ad Hoc Information Retrieval and TREC Question Answering. In Evaluation of Text and Speech Systems, P. L. Dybkjær, H. Hemsen, and P. W. Minker, Eds. Springer Netherlands, 2007, pp. 163–186.
- LIU, F.: Personalized web search by mapping user queries to categories. 2002, pp. 558–565.
This work is licensed under a Creative Commons Attribution 4.0 International License.