Deep Learning   pentru descrierea automată a imaginilor în limbaj natural – Image Captioning

Anca Mihaela HOTĂRAN, Mihnea Horia VREJOIU
Institutul Național de Cercetare-Dezvoltare în Informatică – ICI București
anca.hotaran@ici.ro, mihnea.vrejoiu@ici.ro

Rezumat: Sintagma Image Captioning (IC) în contextul vederii artificiale se referă la generarea automată de descrieri textuale asociate imaginilor digitale. Nu este vorba doar de recunoaşterea obiectelor din aceste imagini, ci şi de descrierea atributelor lor, precum şi a relaţiilor şi interacţiunilor dintre ele, totul exprimat textual în limbaj natural, corect din punct de vedere sintactic şi semantic. Sintetic, paşii principali în generarea automată de descrieri textuale asociate imaginilor sunt: a) – extragerea informaţiei vizuale din imagine şi, b) – „traducerea” acesteia într-un text adecvat şi semnificativ. Evoluţiile spectaculoase din domeniul reţelelor neuronale adânci şi Deep Learning din ultimii ani au condus la progrese absolut remarcabile şi în domeniul IC, calitatea textelor descriptive generate fiind îmbunătăţită substanţial. Reţelele neuronale convoluţionale (Convolutional Neural Network – CNN) au fost folosite în mod natural pentru obţinerea de reprezentări vectoriale esenţializate ale caracteristicilor (features) din imagini, iar reţelele neuronale recurente (Recurrent Neural Network – RNN), în particular de tip Long Short-Term Memory (LSTM), au fost utilizate pentru decodarea acestor reprezentări în fraze în limbaj natural. În lucrarea de faţă prezentăm o trecere în revistă a noilor tehnici şi metode bazate pe Deep Learning utilizate în domeniul IC, cu detalierea şi analizarea ca studiu de caz a uneia dintre cele mai performante dintre acestea, utilizând o arhitectură de tip encoder-decoder combinată cu un mecanism de focalizare a atenţiei vizuale pe regiunile corespunzătoare relevante din imagine la generarea fiecărui cuvânt nou din secvenţa de ieşire.

Cuvinte cheie: descriere textuală a imaginilor, învăţare automată, învăţare profundă, reţea neuronală adâncă, reţea convoluţională, reţea recurentă, LSTM, encoder-decoder, mecanism atenţional.

Vizualizează articolul complet

COORDONATELE PENTRU CITAREA ACESTUI ARTICOL SUNT URMĂTOARELE:
Anca Mihaela HOTĂRAN, Mihnea Horia VREJOIU, Deep Learning pentru descrierea automată a imaginilor în limbaj natural – Image Captioning, Revista Română de Informatică şi Automatică (Romanian Journal of Information Technology and Automatic Control), ISSN 1220-1758, vol. 30(1), pp. 87-100, 2020. https://doi.org/10.33436/v30i1y202007