Ga verder naar de inhoud

MODAL: Metadateren en Ontsluiten van Digitale Archieven met behulp van LLM's

In oktober 2024 startte het ADVN in samenwerking met Letterenhuis, MoMu en meemoo het project ‘Metadateren en Ontsluiten van Digitale Archieven met behulp van Large Language Models’. Kortweg: MODAL. Large Language Models (LLM’s) zijn grootschalige taalmodellen die getraind zijn om zelf tekst te genereren door immense hoeveelheden tekstgegevens te verwerken. Wat deze vorm van generatieve AI kan betekenen voor de cultureelerfgoedsector? We onderzoeken het in dit project.

Auteur

An De Ridder (ADVN)

Doelstellingen

Het doel van MODAL is te onderzoeken wat deze vorm van generatieve artificiële intelligentie (GenAI) kan betekenen voor de cultureelerfgoedsector en de kennis hierover actief binnen die sector te delen.

Cultureel erfgoed kent in toenemende mate digitale vormen. De exponentiële toevloed van born-digital archief is op vlak van beheer, verwerking en ontsluiting een enorme uitdaging voor archivarissen en collectiebeheerders. Hierdoor blijven veel digitale archieven en collecties ontoegankelijk en onzichtbaar voor onderzoekers en het brede publiek. Met de komst van GenAI ontstaan er nieuwe mogelijkheden om erfgoed efficiënter en rijker te ontsluiten.

Methode

Met behulp van LLM’s zouden collectiebeheerders en archivarissen ongestructureerde, tekstuele data sneller kunnen verwerken - bijvoorbeeld door samenvattingen te laten maken, teksten naar vorm te classificeren of kernwoorden te genereren. De mogelijkheid om omvangrijke collecties op een meer gebruiksvriendelijke en doeltreffende manier te doorzoeken, zou baanbrekende kansen voor diverse gebruikers kunnen bieden.

Drie gebruikersscenario's

Binnen MODAL worden drie gebruikersscenario’s onderzocht:

  1. het doorzoekbaar maken van digitaal archief;
  2. het opsporen van gevoelige of problematische inhoud;
  3. het tekstueel doorzoekbaar maken van audiomateriaal.

In functie van deze drie use cases wordt binnen MODAL niet alleen een aantal tools ontwikkeld en getest, maar wordt vooral ook onderzocht hoe deze hulpprogramma’s geïmplementeerd kunnen worden in de werkprocessen van archivarissen en collectiebeheerders. Sinds januari 2025 is Datable, een adviesbedrijf gespecialiseerd in digitaal erfgoed, aan de slag met onderzoeksmateriaal dat aangeleverd werd door de verschillende projectpartners.

Zes werkpakketten

De realisatie van MODAL gebeurt met behulp van zes werkpakketten. Deze werkpakketten zullen resulteren in verschillende deliverables.

  • WP1 - Projectmanagement:

In dit werkpakket worden alle aspecten van projectmanagement behandeld, inclusief planning, coördinatie en budgetbewaking om ervoor te zorgen dat het project soepel verloopt en binnen de gestelde doelen blijft.

  • WP2 - Gebruikersscenario's en vereisten:

Dit werkpakket richt zich op het identificeren en analyseren van gebruikersscenario's en vereisten. Het doel is om een gedetailleerd inzicht te krijgen in de behoeften en verwachtingen van de (eind)gebruikers. De resultaten van dit werkpakket vormen de basis voor ontwikkeling (WP3) en evaluatie (WP4).

  • WP3 - Ontwikkeling en dataverwerking:

Binnen dit werkpakket vindt de concrete ontwikkeling van de oplossingen plaats, waarbij de verzamelde vereisten voor de gebruikersscenario's uit WP2 worden vertaald naar functionele en technische specificaties, resulterend in een werkend product. De applicaties worden gebruikt om effectieve data te genereren, die vervolgens worden geëvalueerd in WP4 en mogelijk verder worden verwerkt in het beheerssysteem van de verschillende partners in WP5.

  • WP4 - Evaluatie:

Dit werkpakket is gericht op het uitvoeren van grondige validaties van de data die door de applicaties in WP3 worden gegenereerd, in functie van de in WP2 geformuleerde kwaliteitseisen. De bevindingen zullen worden geanalyseerd om eventuele tekortkomingen te identificeren en eventueel verbeteringen voor te stellen, die weer worden opgenomen in WP3. In dit onderdeel wordt ook een evaluatie gemaakt van andere factoren, zoals gebruiksvriendelijkheid en toepasbaarheid van de oplossingen.

  • WP5 - Implementatie:

Binnen dit werkpakket wordt de daadwerkelijke implementatie van de ontwikkelde oplossing in de praktijk onderzocht en uitgevoerd. Dit omvat het vaststellen, testen en beoordelen van (aanpassingen) in bestaande werkprocessen en infrastructuur van de deelnemende partners, inclusief het geautomatiseerd opnemen van gegenereerde data in bronsystemen. Verder onderzoeken we hoe het gebruik van GenAI (bv. in functie van ontsluiten van archief- en collectiemateriaal) kan worden uitgerold in de cultureelerfgoedsector opdat zo'n ruim mogelijke groep collectiebeherende organisaties er gebruik van zou kunnen maken. We bestuderen daarbij wat de voorwaarden en vereisten zijn, en hoe deze kunnen worden ingevuld - bijvoorbeeld door het ter beschikking stellen van open source tools, of het ontwikkelen van shared services.

  • WP6 - Communicatie en netwerkontwikkeling:

In dit werkpakket wordt de communicatiestrategie van het project ontwikkeld en uitgevoerd, met als doel relevante belanghebbenden (partners, stakeholders, geïnteresseerden en publiek) op de hoogte te houden van de voortgang en resultaten. De ambitie van het MODAL-project is om enerzijds de onderzoeksresultaten breed te delen en anderzijds samenwerking en kennisuitwisseling rond het gebruik van LLM’s en GenAI in de cultureelerfgoedsector te stimuleren. Dat zal gebeuren door de ontwikkelde scripts uit te rollen als inzetbare toepassingen voor de sector en door het opstarten van een collegagroep.

AI datasalon, 12 juni 2025

Op 12 juni 2025 gaven we met de organisatie van een datasalon bij MoMu het startschot voor een nieuwe collegagroep rond erfgoed en AI.

Tijdens deze informele bijeenkomst konden organisaties hun ervaringen met AI en erfgoed in de groep gooien. Ook experimenten die nog volop liepen of ideeën waar deelnemers graag feedback op wilden, kwamen aan bod komen. Daarnaast polsten we naar de verwachtingen over de inhoud en frequentie van deze nieuwe collegagroep, en bespraken we op welke manieren we nog meer expertise kunnen uitwisselen.

Op het programma stonden o.a.

  • Henk Vanstappen (DATABLE): het MODAL-project

In het MODAL-project wordt onderzocht hoe archivarissen (generatieve) AI kunnen gebruiken om digitale archieven te verkennen, metadateren en ontsluiten. Tijdens deze presentatie worden een aantal methoden getoond om dit in een beveiligde omgeving en met opensourcecomponenten te realiseren.

  • Hannes Lowagie (KBR): Automatische Classificatie voor de Belgische Bibliografie

De KBR zet een LLM in om automatisch rubrieken toe te kennen aan elke bibliografische beschrijving. Lokale classificatie speelt een essentiële rol bij het ordenen van de records binnen de Belgische Bibliografie. Tijdens deze presentatie wordt aandacht besteed aan de integratie in de eigen workflow, de nauwkeurigheid van de toegewezen rubrieken (en hoe die te verbeteren) en de beperkingen en risico’s van deze aanpak.

  • Olivier Van D’huynslager (Designmuseum Gent): Cultural Heritage AI Translator (CHAI-T)

Het project CHAI-T onderzoekt hoe artificiële intelligentie ingezet kan worden om cultureelerfgoeddata te vertalen met het oog op het toegankelijker maken van erfgoedcollecties voor een breder (internationaal) publiek. Zowel de uitdagingen als de vooropgestelde oplossingen komen tijdens deze presentatie aan bod.

  • Bart Magnus (meemoo): AI - van experiment naar operationalisering

Meemoo verkende de afgelopen jaren de mogelijkheden van artificiële intelligentie om de metadata van gedigitaliseerde collecties te verrijken. Deze presentatie geeft een inkijk in het traject van experiment richting duurzame operationalisering, met onder meer de geleerde lessen, de genomen hordes en de resterende uitdagingen.

Verslag fase 1 (2024-2025)

Dit rapport beschrijft de ontwikkeling van de infrastructuur, software en dataverwerking die als doel heeft inzicht te krijgen in de inhoud en structuur van ongeordende digitale archieven.

De infrastructuur is opgezet met open source componenten en LLM's, waarbij alle verwerking offline gebeurt en beperkt is tot consumer hardware. Na overleg met data-eigenaars en een eerste analyse zijn vier archieven geselecteerd voor verdere verwerking:

De overdracht van bestanden gebeurde offline vanwege veiligheidsredenen en omvang. WARC-bestanden en andere sociale mediabestanden werden niet verder geanalyseerd vanwege complexiteit en gebrek aan documentatie.

De voorverwerkingsfase omvatte tekstextractie met Apache Tika, inclusief OCR voor gescande PDF's. De geëxtraheerde teksten en metadata werden gestandaardiseerd opgeslagen in een MongoDB-tekstendatabase. Het omzetten van gesproken audio naar tekst met Whisper bleek effectief, hoewel de herkenning van persoonsnamen semi-automatische correctie vereiste. Tekstextractie en opslag in de database vereenvoudigen de AI-verwerking en leveren belangrijke inzichten op, zoals bestandstypen, datering en correspondenten.

Verschillende AI-verrijkingstechnieken werden getest, waaronder Named Entity Recognition (NER), classificatie, onderwerpsdetectie en samenvattingen. Hoewel de resultaten bruikbaar waren voor het verkrijgen van inzicht, was de kwaliteit vaak onvoldoende voor werkelijk betrouwbare resultaten, voornamelijk door hardwarebeperkingen en de daaruit voortvloeiende beperkingen in modelkeuze. NER, onderwerpsdetectie en samenvattingen werden als het meest zinvol ervaren.

Het project onderzocht het bevragen van documenten met Retrieval-Augmented Generation (RAG) en zoekfunctionaliteiten. GPT4All werd gebruikt als out-of-the-box RAG-oplossing. Zoeken met MongoDB Compass en semantisch zoeken met embeddings bleken mogelijk maar nog weinig effectief. Deze strategieën om een archief doorzoekbaar te maken bleken de verwachtingen niet in te lossen, voornamelijk omdat er met zeer omvangrijke, ongestructureerde archieven werd gewerkt, en omwille van de intrinsieke beperkingen van RAG en semantisch zoeken.

Een meer bruikbare strategie werd gevonden in de vorm van het visualiseren van de inhoud van het archief op basis van de geëxtraheerde gegevens en de verrijkingen die door middel van AI werden toegevoegd. Met name de browser, waarin de inhoud van een archief op elk hiërarchisch niveau (directory en subdirectories) werd samengevat, bleek een zinvolle benadering.

Over het algemeen heeft het MODAL-project methoden en inzichten opgeleverd voor het verwerken en analyseren van digitale archieven met behulp van AI. De bevindingen benadrukken het potentieel van AI voor archiefverkenning, maar wijzen ook op de noodzaak van verdere optimalisatie, vooral met betrekking tot de kwaliteit van verrijkingen en de performantie van modellen op beperkte hardware.

Het volledige verslag van fase 1 van het MODAL-project kunt u HIER raadplegen.

Nieuws en info

https://advn.be/nl/over-advn/projecten/modal-project

Contact

An De Ridder: an.deridder@advn.be

Organisatie

Licentie

  • CC-BY-SA

Type

Expertisedomein

Deze pagina is laatst aangepast op 11 december 2025

Deze pagina aanvullen of corrigeren?

Foutje gespot? Of heb je aanvullende inzichten? Deel je ervaringen via onderstaande knop.