MODAL: Metadateren en Ontsluiten van Digitale Archieven met behulp van LLM's
Steeds meer cultureel erfgoed kent een digitale vorm: e-mails, documenten, audio, video, websites, … Voor archivarissen en collectiebeheerders is dat een enorme uitdaging, want hoe behoud je het overzicht, en hoe maak je deze archieven ook écht toegankelijk voor onderzoekers en het brede publiek? In het project MODAL onderzoekt ADVN in samenwerking met Amsab-ISG, Letterenhuis, MoMu en meemoo hoe artificiële intelligentie (AI) kan helpen. Meer bepaald wordt gekeken naar het potentieel van Large Language Models (LLM’s). Dat zijn grootschalige taalmodellen die op basis van immense hoeveelheden tekstuele gegevens zelf tekst genereren.
Dit project wordt mogelijk gemaakt met de steun van de Vlaamse overheid. Datable is technische partner.
Auteur
An De Ridder (ADVN)
Waarom MODAL?
Digitale archieven bestaan vaak uit grote hoeveelheden ongestructureerde, tekstuele data. MODAL verkent hoe LLM’s en generatieve AI (GenAI) kunnen helpen om die informatie sneller te verwerken. Denk aan automatisch samenvattingen maken, teksten naar vorm classificeren, dubbele documenten detecteren of kernwoorden generen. AI-toepassingen kunnen het eenvoudiger maken om inzicht te krijgen in deze omvangrijke archieven, en zo nieuwe mogelijkheden creëren voor erfgoedprofessionals en gebruikers.
Zo gaan we te werk
Binnen het project worden verschillende tools ontwikkeld en getest. De focus ligt niet alleen op technische tests, maar ook op de praktijk: hoe passen deze tools in de dagelijkse werking van archivarissen en collectiebeheerders, en wat is nodig om ze breder inzetbaar te maken binnen de erfgoedsector? MODAL verkent daarbij opensourcesoftware, opensource LLM’s, gedeelde diensten en praktische richtlijnen. Daarnaast onderzoekt MODAL hoe AI-toepassingen op een schaalbare manier uitgerold kunnen worden, zodat zoveel mogelijk collectiebeherende organisaties er voordeel uit kunnen halen. Binnen het project wordt op alle niveaus veel aandacht besteed aan dataveiligheid en respect voor privacy.
Kennisdeling is een essentieel onderdeel van MODAL. De projectpartners delen hun inzichten en ervaringen actief met collega’s binnen de erfgoedsector. In dat kader werden de eerste stappen richting een nieuw op te starten collegagroep rond erfgoed en AI gezet en kwam er in juni 2025 al een groot aantal enthousiastelingen uit de sector samen.
Wat leverde fase 1 op?

Inmiddels is fase 1 (oktober 2024 - september 2025) afgerond. Het doel: inzicht krijgen in de inhoud en structuur van ongeordende, digitale archieven door de ontwikkeling van infrastructuur, software en dataverwerking. Deze eerste fase leverde heel wat methoden, inzichten en praktijkervaring op. Ze toont duidelijk het potentieel van AI voor het verkennen en ontsluiten van digitale archieven aan, maar maakte ook duidelijk waar verdere verfijning nodig is, bijvoorbeeld op het vlak van kwaliteit en performantie.
Testcases en technische uitgangspunten
De technische opzet gebeurde volledig met opensourcecomponenten en LLM’s, waarbij alle verwerking lokaal en offline gebeurde. Dat was een bewuste keuze met het oog op dataveiligheid en praktische toepasbaarheid binnen erfgoedinstellingen.
Deze vier archieven werden geselecteerd als testcase:
- Archief van de Volksuniejongeren [VUJO] (ADVN)
- Archief van een Vlaamse milieubeweging(AMSAB-ISG)
- Auteursarchief (Letterenhuis)
- Audioarchief (MoMu)
Van bestanden naar bruikbare data
In een eerste stap werd de inhoud uit de bestanden voorbereid voor analyse. De tekst werd automatisch uit documenten gehaald met Apache Tika (inclusief de OCR-tekst van gescande PDF’s). Spraak uit audiobestanden werd omgezet naar tekst met Whisper.
Verrijkt met basisinformatie over de bestanden werd deze inhoud gestandaardiseerd opgeslagen in een centrale databank. Die stap bleek cruciaal: ze vergemakkelijkt de verdere verwerking met AI-toepassingen en leverde meteen al waardevolle inzichten op, zoals datering, bestandstypes en namen van betrokken personen. Bepaalde bestandstypes - zoals WARC-bestanden en andere socialemediabestanden - werden niet meegenomen omwille van hun complexiteit (onder andere door het ontbreken van documentatie over hun structuur).
Inhoud verrijken met de hulp van AI
Vervolgens testte het project verschillende AI-technieken zoals Named Entity Recognition (NER), classificatie, onderwerpdetectie en het genereren van automatische samenvattingen. Deze technieken bleken vooral nuttig om globaal inzicht te krijgen in de archieven, al was de kwaliteit niet altijd voldoende voor rechtstreeks hergebruik. Vooral samenvattingen en het detecteren van entiteiten en onderwerpen werden door de projectpartners als waardevol ervaren.
Ook onderzocht MODAL manieren om archieven rechtstreeks te bevragen met behulp van Retrieval Augmented Generation, oftewel RAG. Verder onderzochten we het zoeken met behulp van MongoDB Compass en semantisch zoeken met embeddings. Deze strategieën bleken minder effectief bij zeer grote en ongestructureerde archieven. Een veelbelovende aanpak was wel het visualiseren van de inhoud van een archief. Zo krijgen gebruikers sneller een overzicht van wat een archief bevat, zonder elk document afzonderlijk te moeten openen. Met name de browser bleek een zinvolle benadering, omdat daarbij op verschillende niveaus samenvattingen worden getoond. Dat maakt het makkelijk om te bladeren in de hiërarchie van een archief.
Op naar fase 2!
In fase 2 (oktober 2025 - september 2026) ligt de focus op de verdere implementatie van de tools. Op basis van nut en efficiëntie wordt een selectie gemaakt uit de gevalideerde scripts van fase 1. Deze zullen doorontwikkeld worden tot een laagdrempelige toepassing die past binnen de werkprocessen van archief- en collectiebeheerders.
Aandacht voor juridische aspecten
Op alle lagen van het project is er aandacht voor de juridische aspecten. Zo volgt het project de Algemene Verordening Gegevensbescherming (AVG of GDPR), respecteren we de wetgeving rond auteursrecht en privacy, en proberen we zoveel als mogelijk gebruik te maken van opensourcetools in een afgesloten testomgeving.
Kennisdeling
Ook in fase 2 willen we alle verworven kennis breed verspreiden in de cultureelerfgoedsector: onze ervaring, alle broncode en de resultaten. We brengen beheerders, gebruikers en ontwikkelaars van AI-toepassingen samen in een (internationaal) kennisnetwerk.
Meer lezen
https://advn.be/nl/over-advn/projecten/modal-projectHeb je een vraag?
Contacteer An De Ridder van ADVN via an.deridder@advn.be.
Persistente URI:
https://id.kbde.be/0195d194-4c3c-7360-8c1f-7a29034202f3Organisatie
Licentie
- CC-BY-SA
Type
Expertisedomein
Deze pagina is laatst aangepast op 09 maart 2026
Zie je geen video? Pas dan je cookieinstellingen aan onderaan deze pagina: Cookie policy Klik op ‘verander uw toestemming’ vlak boven de tabel en vink ‘voorkeuren’ en ‘statistieken’ aan.