NLP & LLM
Bibliotheken, documentatiecentra en archieven beheren grote hoeveelheden tekstuele informatie: van historische documenten tot moderne, digitale publicaties. Natural Language Processing (NLP) en Large Language Models (LLM) bieden geautomatiseerde methoden om deze informatie te beheren en te analyseren, en verbeteren zo de toegankelijkheid van die collecties.
Auteur
Nastasia Vanderperren (meemoo - Vlaams instituut voor het archief)
Wat is NLP?
NLP is een tak van de artificiële intelligentie. Het omvat het gebruik van algoritmes om geschreven en gesproken taal op grote schaal te begrijpen, te interpreteren en te genereren.
NLP-toepassingen worden dagelijks gebruikt, bijvoorbeeld voor spellingscontrole en autocorrectie, categorisering van e-mails (bijvoorbeeld spamfiltering), vertalingen, automatische ondertiteling en chatbots van bedrijven. Deze toepassingen vereisen dat NLP
zowel de context van de tekst als de emotie erin begrijpt.
Wat is LLM?

LLM's zijn 'grote taalmodellen': Al-gebaseerde tekstgeneratoren die op basis van waarschijnlijkheid de volgorde van woorden bepalen en daarvoor met behulp van de technologie van generatieve Al (zie Uitgepakt van META 2024/4) getraind worden met grote hoeveelheden tekst. Die training maakt ze enorm veelzijdig. Ze kunnen op een zeer gedetailleerde en contextueel relevante manier menselijke taal genereren in verschillende talen en stijlen. Ze maken daarbij ook gebruik van NLP. Zo kunnen de LLM's woorden, context en emoties herkennen, wat hen in staat stelt om vragen te beantwoorden, teksten samen te vatten, deel te nemen aan conversaties en nieuwe tekst te creëren die bijna niet te onderscheiden is van een door een mens geschreven tekst. Een voorbeeld van een LLM is GPT-4 dat door ChatGPT gebruikt wordt.
Samenwerking tussen NLP en LLM
NLP en LLM versterken elkaar. Door hun training met enorme hoeveelheden tekst begrijpen LLM's context beter en kunnen ze taken uitvoeren waarvoor weinig gestructureerde data beschikbaar zijn. Dat leidt tot onder andere nauwkeurigere resultaten in chatbots
en bij het maken van samenvattingen en vertalingen.
NLP is beter in taken die specifieke trainingsdata vereisen, zoals het transcriberen van historische handgeschreven teksten. NLP kan ook zorgen voor kwalitatieve data voor de training van LLM's. LLM's zijn immers getraind met teksten die afkomstig zijn van het web. Als die foutieve informatie bevatten, dan bestaat de kans dat de LLM zelf foutieve output zal genereren.
Bruikbaar?
Er zijn verschillende NLP- en LLM-toepassingen die nuttig zijn voor bibliotheken, archieven en documentatiecentra:
- Samenvattingen, analyses en vertalingen: LLM's en NLP kunnen automatisch teksten samenvatten en vertalen. Dat kan handig zijn voor het toegankelijk maken van grote archieven of om documenten te laten ontdekken door een internationaal publiek. Tekstanalyse op groepen teksten kan nieuwe inzichten opleveren.
- Metadata: ze kunnen helpen bij het classificeren en categoriseren van teksten door labels of trefwoorden toe te kennen op basis van de inhoud van de tekst, bij het extraheren van metadata zoals auteur, datum en andere relevante informatie die de vindbaarheid van de documenten verbetert of bij het linken van entiteiten met een online kennisbank zoals Wikidata (zie Uitgepakt van META 2023/6),
- Transcriptie: NLP en LLM zijn de technologieën die het omzetten van tekst in afbeeldingen naar tekstuele data (bijvoorbeeld optical character recognition of OCR) en het omzetten van gesproken tekst naar geschreven tekst (spraakherkenning) mogelijk maken.
Door deze technologieën te integreren, kunnen bibliotheken, archieven en documentatiecentra hun collecties efficiënter beheren en beter toegankelijk maken voor gebruikers.
Organisatie
Licentie
- CC-BY-SA
Type
Medium
Collectie
Expertisedomein
Deze pagina is laatst aangepast op 30 januari 2025
Deze pagina aanvullen of corrigeren?
Heb je aanvullingen of wil je iets rechtzetten? Dan kan je deze pagina makkelijk bewerken via onderstaande knop.