MODAL: Metadateren en Ontsluiten van Digitale Archieven met behulp van LLM's
In oktober 2024 startte het ADVN in samenwerking met Amsab-ISG, Letterenhuis, MoMu en meemoo het project ‘Metadateren en Ontsluiten van Digitale Archieven met behulp van Large Language Models’ of kortweg MODAL. Large Language Models (LLM’s) zijn grootschalige taalmodellen die getraind zijn om zelf tekst te genereren door immense hoeveelheden tekstgegevens te verwerken.
Auteur
An De Ridder (ADVN)
Doelstellingen
Het doel van MODAL is te onderzoeken wat deze vorm van generatieve artificiële intelligentie (GenAI) kan betekenen voor de cultureelerfgoedsector en de kennis hierover actief binnen die sector te delen.
Cultureel erfgoed kent in toenemende mate digitale vormen. De exponentiële toevloed van born-digital archief is op vlak van beheer, verwerking en ontsluiting een enorme uitdaging voor archivarissen en collectiebeheerders. Hierdoor blijven veel digitale archieven en collecties ontoegankelijk en onzichtbaar voor onderzoekers en het brede publiek. Met de komst van GenAI ontstaan er nieuwe mogelijkheden om erfgoed efficiënter en rijker te ontsluiten.
Methode
Met behulp van LLM’s zouden collectiebeheerders en archivarissen ongestructureerde, tekstuele data sneller kunnen verwerken - bijvoorbeeld door samenvattingen te laten maken, teksten naar vorm te classificeren of kernwoorden te genereren. De mogelijkheid om omvangrijke collecties op een meer gebruiksvriendelijke en doeltreffende manier te doorzoeken, zou baanbrekende kansen voor diverse gebruikers kunnen bieden.
Drie gebruikersscenario's
Binnen MODAL worden drie gebruikersscenario’s onderzocht:
- het doorzoekbaar maken van digitaal archief;
- het opsporen van gevoelige of problematische inhoud;
- het tekstueel doorzoekbaar maken van audiomateriaal.
In functie van deze drie use cases wordt binnen MODAL niet alleen een aantal tools ontwikkeld en getest, maar wordt vooral ook onderzocht hoe deze hulpprogramma’s geïmplementeerd kunnen worden in de werkprocessen van archivarissen en collectiebeheerders. Sinds januari 2025 is Datable, een adviesbedrijf gespecialiseerd in digitaal erfgoed, aan de slag met onderzoeksmateriaal dat aangeleverd werd door de verschillende projectpartners.
Zes werkpakketten

De realisatie van MODAL gebeurt met behulp van zes werkpakketten. Deze werkpakketten zullen resulteren in verschillende deliverables.
- WP1 - Projectmanagement:
In dit werkpakket worden alle aspecten van projectmanagement behandeld, inclusief planning, coördinatie en budgetbewaking om ervoor te zorgen dat het project soepel verloopt en binnen de gestelde doelen blijft.
- WP2 - Gebruikersscenario's en vereisten:
Dit werkpakket richt zich op het identificeren en analyseren van gebruikersscenario's en vereisten. Het doel is om een gedetailleerd inzicht te krijgen in de behoeften en verwachtingen van de (eind)gebruikers. De resultaten van dit werkpakket vormen de basis voor ontwikkeling (WP3) en evaluatie (WP4).
- WP3 - Ontwikkeling en dataverwerking:
Binnen dit werkpakket vindt de concrete ontwikkeling van de oplossingen plaats, waarbij de verzamelde vereisten voor de gebruikersscenario's uit WP2 worden vertaald naar functionele en technische specificaties, resulterend in een werkend product. De applicaties worden gebruikt om effectieve data te genereren, die vervolgens worden geëvalueerd in WP4 en mogelijk verder worden verwerkt in het beheerssysteem van de verschillende partners in WP5.
- WP4 - Evaluatie:
Dit werkpakket is gericht op het uitvoeren van grondige validaties van de data die door de applicaties in WP3 worden gegenereerd, in functie van de in WP2 geformuleerde kwaliteitseisen. De bevindingen zullen worden geanalyseerd om eventuele tekortkomingen te identificeren en eventueel verbeteringen voor te stellen, die weer worden opgenomen in WP3. In dit onderdeel wordt ook een evaluatie gemaakt van andere factoren, zoals gebruiksvriendelijkheid en toepasbaarheid van de oplossingen.
- WP5 - Implementatie:
Binnen dit werkpakket wordt de daadwerkelijke implementatie van de ontwikkelde oplossing in de praktijk onderzocht en uitgevoerd. Dit omvat het vaststellen, testen en beoordelen van (aanpassingen) in bestaande werkprocessen en infrastructuur van de deelnemende partners, inclusief het geautomatiseerd opnemen van gegenereerde data in bronsystemen. Verder onderzoeken we hoe het gebruik van GenAI (bv. in functie van ontsluiten van archief- en collectiemateriaal) kan worden uitgerold in de cultureelerfgoedsector opdat zo'n ruim mogelijke groep collectiebeherende organisaties er gebruik van zou kunnen maken. We bestuderen daarbij wat de voorwaarden en vereisten zijn, en hoe deze kunnen worden ingevuld - bijvoorbeeld door het ter beschikking stellen van open source tools, of het ontwikkelen van shared services.
- WP6 - Communicatie en netwerkontwikkeling:
In dit werkpakket wordt de communicatiestrategie van het project ontwikkeld en uitgevoerd, met als doel relevante belanghebbenden (partners, stakeholders, geïnteresseerden en publiek) op de hoogte te houden van de voortgang en resultaten. De ambitie van het MODAL-project is om enerzijds de onderzoeksresultaten breed te delen en anderzijds samenwerking en kennisuitwisseling rond het gebruik van LLM’s en GenAI in de cultureelerfgoedsector te stimuleren. Dat zal gebeuren door de ontwikkelde scripts uit te rollen als inzetbare toepassingen voor de sector en door het opstarten van een collegagroep.
Nieuws en info
https://advn.be/nl/over-advn/projecten/modal-projectContact
An De Ridder: an.deridder@advn.be
Organisatie
Licentie
- CC-BY-SA
Type
Expertisedomein
Deze pagina is laatst aangepast op 13 februari 2025
Deze pagina aanvullen of corigeren?
Eiusmod ex minim officia eu sunt proident. Id culpa veniam id anim officia incididunt veniam excepteur cupidatat sit consectetur quis consequat. Incididunt proident commodo aliqua ipsum in duis dolore occaecat aute aliquip et pariatur velit. Cupidatat do et sunt labore.