luni , 14 octombrie 2019
roen

Deep Reinforcement Learning. Studiu de caz: Deep Q-Network

Mihnea Horia VREJOIU 
Institutul Naţional de Cercetare-Dezvoltare în Informatică – ICI Bucureşti
mihnea.vrejoiu@ici.ro

Rezumat: Inteligenţa artificială (Artificial Intelligence – AI) a ajuns astăzi poate cel mai de actualitate subiect în numeroase domenii. Unul dintre obiectivele principale ale AI este crearea de agenţi complet autonomi capabili să interacţioneze cu lumea înconjurătoare şi să înveţe prin încercare şi eroare comportamente optime în diferite contexte, perfectibile în timp. Între metodele AI de învăţare automată (machine learning), învăţarea cu întărire / prin recompensă (reinforcement learning – RL) prin interacţiuni repetate cu mediul înconjurător cu urmărirea unui scop are un rol deosebit de important, pe lângă învăţarea supervizată şi respectiv nesupervizată. Totuşi, metodele clasice de RL au limitări importante în scalabilitatea la probleme cu dimensionalitate mai mare. În ultimii ani, tehnologiile de învăţare supervizată şi nesupervizată bazate pe deep learning cu utilizarea reţelelor neuronale adânci (deep neural networks), având proprietăţi remarcabile de aproximare a funcţiilor complicate pe spaţii multidimensionale, precum şi de învăţare de reprezentări ierarhice caracteristice extrase automat direct din date, cu reducere dimensională semnificativă, au cunoscut o dezvoltare explozivă producând rezultate impresionante comparabile cu, sau chiar peste performanţa umană în domenii diverse ca: recunoaşterea obiectelor / imaginilor, recunoaşterea vorbirii, traducerea automată etc. Combinarea metodelor RL cu cele deep learning a condus la ceea ce se numeşte astăzi deep reinforcement learning (DRL), oferind noi posibilităţi în realizarea de agenţi autonomi performanţi în spaţii multidimensionale. Lucrarea de faţă îşi propune o prezentare succintă a domeniului DRL şi studierea şi analizarea în detaliu a uneia dintre primele metode DRL de succes şi anume Deep Q-Network, dezvoltată de Google DeepMind.

Cuvinte cheie: învăţare cu/prin întărire/recompensă, agent, stare, acţiune, politică, diferenţă temporală, Q-learning, învăţare profundă, reţea neuronală adâncă, reţea neuronală convoluţională.

Vizualizează articolul complet

COORDONATELE PENTRU CITAREA ACESTUI ARTICOL SUNT URMĂTOARELE:
Mihnea Horia VREJOIU, Deep Reinforcement Learning. Studiu de caz: Deep Q-Network, Revista Română de Informatică şi Automatică (Romanian Journal of Information Technology and Automatic Control), ISSN 1220-1758, vol. 29(3), pp. 65-78, 2019. https://doi.org/10.33436/v29i3y201906