SISTEM PENTRU ASISTAREA INTRODUCERII ÎN CALCULATOR A DATELOR DIN CÂMPURILE FORMULARELOR TIPIZATE
Mihnea Horia Vrejoiu
mihnea@dossv1.ici.ro
Institutul Naţional de Cercetare – Dezvoltare în Informatică, ICI – Bucureşti
Rezumat: Introducerea manuală a datelor de pe suport de hârtie în calculator reprezintă o activitate pe cât de necesară şi importantă în contextul informatizării pe scară largă în mai toate domeniile, pe atât de consumatoare de resurse umane şi de timp şi o potenţială sursă de erori de tastare, mai ales în cazul volumelor mari de date ce trebuie preluate. În acest context, sunt extrem de utile tehnici şi instrumente prin care această activitate poate fi automatizată. Adesea însă, datorită cerinţelor critice privind acurateţea de preluare a datelor este neapărat necesară măcar o verificare şi validare a datelor de către operatorul uman în lipsa altor criterii şi/sau posibilităţii de validare automată. În acest context s-a propus şi implementat experimental o soluţie software semiautomată, bazată pe tehnici OCR/ICR, destinată asistării activităţii de introducere în calculator a datelor completate în formulare tipizate, cu format fix, pentru creşterea eficienţei, productivităţii şi acurateţei. Au fost efectuate experimente de testare, au fost făcute observaţii asupra funcţionării şi rezultatelor obţinute şi au fost sintetizate câteva concluzii şi posibilităţi de îmbunătăţiri şi optimizări ulterioare.
Cuvinte cheie: introducere de date în calculator, formulare tipizate, învăţare automată, învăţare supervizată, OCR/ICR, expresii regulate.
Introducere:
În pofida evoluţiei tehnologice şi a introducerii informatizării pe scară largă în cele mai multe sectoare de activitate, precum şi a politicilor şi eforturilor ecologiste de protejare a mediului şi de sustenabilitate actuale, totuşi volumul de informaţie vehiculată pe suport de hârtie şi care trebuie introdusă în calculator este încă foarte mare.
Un exemplu este cel al formularelor tipizate. Preluarea manuală în calculator a datelor din acestea poate implica volume mari de timp şi efort şi poate introduce erori de tastare, în unele situaţii inacceptabile. Automatizarea procesului a reprezentat una din problematicile cele mai vizate de marii producători de software în domeniul analizei de imagini OCR/ICR şi mangement al documentelor. Există deja soluţii comerciale pe piaţă pentru preluarea “automată” a datelor din formulare, cu funcţiuni şi performanţe diferite, dar şi altele anunţate care nu s-au impus (încă) pentru o utilizare pe scară largă. În continuare prezentăm succint câteva idei generale, sintetice, privind acest tip de aplicaţii.
Cele mai multe soluţii sunt configurabile şi se bazează pe crearea şi folosirea de şabloane / machete asociate tipurilor de formulare care specifică poziţionarea şi caracteristicile câmpurilor acestora. Unele îşi propun chiar o identificare automată a câmpurilor de interes pe diferite criterii de analiză a imaginii formularului scanat.
Majoritatea produselor de acest tip anunţă capacitatea de recunoaştere atât a caracterelor tipărite cât şi a celor scrise de mână (separate între ele). De asemenea, unele produse permit în plus şi recunoaşterea marcajelor din check-box-uri şi a codurilor de bare;
Deşi majoritatea producătorilor anunţă rate de recunoaştere spectaculoase ale motoarelor OCR/ICR, toate aplicaţiile acordă o mare atenţie etapei de corecţie şi validare post-recunoaştere. Corecţiile post-recunoaştere se fac în general prin utilizarea de dicţionare, informaţii apriori despre câmpuri, calcularea unor sume de control etc., în timp ce validarea necesită întotdeauna intervenţia utilizatorului.
Astfel, se poate afirma că soluţiile existente sunt practic semiautomate, ele oferind instrumente şi interfeţe de asistare a operatorului uman în această activitate.
Majoritatea produselor oferă facilităţi de conectare, în ceea ce priveşte exportul de date, cu diverse sisteme de baze de date standardizate şi/sau proprietare.
Posibile dezvoltări ulterioare:
Încheiem prezentând câteva posibile dezvoltări/îmbunătăţiri pe care le întrezărim şi care ar mai putea fi eventual aduse sistemului. Acestea pot fi grupate în următoarele trei categorii:
- îmbunătăţirea performanţelor OCR/ICR, de exemplu prin:
- rafinarea mecanismelor de segmentare a caracterelor din zone marcate cu chenar sau linii grilă de ghidare, respectiv de filtrare mai eficientă a acestor marcaje parazite;
- extinderea mecanismelor de ajustare automată a poziţiei (localizării) şi/sau dimensiunilor câmpurilor faţă de cele din şablon/machetă în funcţie de eventuale încadrări puţin diferite în unele scanări;
- adăugarea unor mecanisme de corecţie – validare automată pentru unele câmpuri pe baza unor dicţionare ataşate acestora prin şablon/machetă;
- extinderea setului de atribute de format câmp cu: câmp numeric negativ, câmp numeric cu N zecimale, câmp din care sunt relevante doar primele/ultimele N caractere;
- proiectarea şi implementarea unei alte reprezentări şi mai potrivite pentru caractere (mai ales pentru a asigura o generalizare mai uşoară în cazul scrisului de mână) şi/sau chiar a unui algoritm alternativ de clasificare-recunoaştere complementar (eventual bazat pe memorii asociative) în acest caz;
- antrenarea intensivă şi extensivă (masivă) a unor baze de cunoştinţe specifice, mai ales pentru scrisul de mână;
- extinderea/îmbunătăţirea ergonomiei interfeţei utilizator de exemplu prin:
- adăugarea unui obiect de tip “selection tree” în interfaţa de corectare – editare – validare care să permită o navigare mai intuitivă printre rezultatele „OCR-izării” câmpurilor unui formular;
- adăugarea unor obiecte de control de tip entry field, check box/radio button, în interfaţa de editare atribute câmp (pentru extensiile legate de şablon/machetă: format câmp, dicţionar ataşat unui câmp);
- adaptarea funcţionalităţii pentru aplicaţii specifice de exemplu prin:
- pregătirea pentru interfaţarea cu – respectiv export al datelor de ieşire spre – formate specifice de baze de date, eventual printr-un format intermediar adecvat, general acceptat şi utilizat (cum ar fi XML).
Potenţialii utilizatori / beneficiari ai unui astfel de sistem adaptat şi configurat specific pot fi: administraţii financiare, poliţie, evidenţa populaţiei, bănci, oficii poştale, regii, agenţii, operatori de telefonie, alte birouri de funcţionari publici etc., unde este necesară preluarea pe scară largă a informaţiilor completate în câmpurile unor formulare tipizate, cu format fix (declaraţii tip, cereri tip, mandate tip, avize tip, foi de depunere / vărsământ tip, ordine de plată/încasare/schimb valutar tip etc.).
BIBLIOGRAFIE
- ONŢANU, D.-M.; VREJOIU, M. H.: Sistem de recunoaştere optică a caracterelor bazat pe reţele neurale – produs program pentru recunoaşterea scrisului de mână, Tema A15, Institutul Naţional de Cercetare-Dezvoltare în Informatică – ICI Bucureşti, 1993.
- VREJOIU, M. H.; ONŢANU, D.-M.: Sisteme de programe de tip OCR, PC World România, nr. 6, edit. IDG România, iunie 1995.
- MITCHELL, T.: Machine Learning, McGraw-Hill, ISBN: 0070428077, March 1997.
- ONŢANU, D.-M.: Learning by Evolution. A New Class of General Classifier Networks and Their Training Algorithm, Advances in Modelling & Analysis, AMSE Press, vol. 26, nr. 2, pp. 27-30, 1993.
- FRIEDL, J. E.: Mastering Regular Expressions, 2nd Ed., O’Reilly, July 2002.
- VREJOIU, M. H.; ONŢANU, D.-M.: Sistem de recunoaştere optică de caractere pentru citirea automată de formulare scanate. Faza a V-a. Realizare sistem experimental pentru asistarea introducerii în calculator a informaţiilor de tip text completate în câmpurile formularelor, Raport de fază, proiect PN0313-0301, Institutul Naţional de Cercetare-Dezvoltare în Informatică – ICI Bucureşti, noiembrie 2005.
This work is licensed under a Creative Commons Attribution 4.0 International License.