Saloncatalogiproject bereikt foutenpercentage van minder dan 5% bij tekstherkenning

Met het project ‘VKC Enriched’ zet de Vlaamse Kunstcollectie samen met UGent (GhentCDH en Imec IDLab) in op verschillende mogelijkheden van artificiële intelligentie.

Geautomatiseerde transcriptie en datamining via machine learning

Bij het deelproject ‘Saloncatalogi’ werkten we aan geautomatiseerde transcriptie en datamining via machine learning op de catalogi van de negentiende-eeuwse kunstsalons. Hiervoor maakten we gebruik van tekstherkenning. Partner in het project is MSK Gent.

De eerste stap in de automatische datamining van de saloncatalogi bestaat erin om de woorden correct te detecteren in de gescande catalogi.

Vervolgens brachten we deze gedetecteerde woorden samen tot tekstregels en paragrafen.

Deze worden daarna uitgelezen door een tekstherkenningsmodel (ook wel Optical Character Recognition of OCR geheten) om zo machinewerkbare tekstbestanden te produceren. De kwaliteit van dit proces wordt gemeten aan de hand van de Character Error Rate (CER), die aangeeft hoeveel karakters er procentueel fout uitgelezen worden. De finale iteratie van de OCR bij het saloncatalogiproject heeft een CER van minder dan 5%.

Authorities

De volgende stap in het datamining-proces bestaat erin om uit de tekstbestanden persoonsnamen, tijdsaanduidingen en locaties te filteren. Deze bevat immers vitale informatie over de aanwezige kunstenaars. Op basis hiervan kan daarna een link gelegd worden naar externe authorities zoals VIAF, RKD Artists en Wikidata. Ten slotte wordt al deze data in een database verzameld zodat onderzoekers hiermee verder aan de slag kunnen.