Saloncatalogiproject bereikt foutenpercentage van minder dan 5% bij tekstherkenning
Met het project ‘VKC Enriched’ zet de Vlaamse Kunstcollectie samen met UGent (GhentCDH en Imec IDLab) in op verschillende mogelijkheden van artificiële intelligentie.
Geautomatiseerde transcriptie en datamining via machine learning
Bij het deelproject ‘Saloncatalogi’ werkten we aan geautomatiseerde transcriptie en datamining via machine learning op de catalogi van de negentiende-eeuwse kunstsalons. Hiervoor maakten we gebruik van tekstherkenning. Partner in het project is MSK Gent.
De eerste stap in de automatische datamining van de saloncatalogi bestaat erin om de woorden correct te detecteren in de gescande catalogi.
Vervolgens brachten we deze gedetecteerde woorden samen tot tekstregels en paragrafen.
Deze worden daarna uitgelezen door een tekstherkenningsmodel (ook wel Optical Character Recognition of OCR geheten) om zo machinewerkbare tekstbestanden te produceren. De kwaliteit van dit proces wordt gemeten aan de hand van de Character Error Rate (CER), die aangeeft hoeveel karakters er procentueel fout uitgelezen worden. De finale iteratie van de OCR bij het saloncatalogiproject heeft een CER van minder dan 5%.



Authorities
De volgende stap in het datamining-proces bestaat erin om uit de tekstbestanden persoonsnamen, tijdsaanduidingen en locaties te filteren. Deze bevat immers vitale informatie over de aanwezige kunstenaars. Op basis hiervan kan daarna een link gelegd worden naar externe authorities zoals VIAF, RKD Artists en Wikidata. Ten slotte wordt al deze data in een database verzameld zodat onderzoekers hiermee verder aan de slag kunnen.

Persistente URI:
https://id.kbde.be/0195d194-4c21-7009-82cd-122ac6255b17Organisatie
Licentie
- CC-BY
Type
Medium
Collectie
Expertisedomein
Verwante standaarden
Deze pagina is laatst aangepast op 13 februari 2025
Deze pagina aanvullen of corrigeren?
Foutje gespot? Of heb je aanvullende inzichten? Deel je ervaringen via onderstaande knop.
Zie je geen video? Pas dan je cookieinstellingen aan onderaan deze pagina: Cookie policy Klik op ‘verander uw toestemming’ vlak boven de tabel en vink ‘voorkeuren’ en ‘statistieken’ aan.