Named Entity Recognition en Named Entity Linking
In de media is er veel aandacht voor het gebruik van artificiële intelligentie (AI). Vaak gaat het daarbij om controversiële toepassingen zoals ChatGPT. In bibliotheken, archieven en documentatiecentra gebruiken we AI al langer. Denk maar aan Optical Character Recognition (OCR), tekenherkenning om gedigitaliseerde documenten en publicaties om te zetten in doorzoekbare tekst. Of aan Speech-To-Text (STT), spraakherkenning om inhoudelijke metadata over audio- en videocollecties te verrijken. OCR en STT worden regelmatig gebruikt in combinatie met andere AI-toepassingen: Named Entity Recognition (NER) en Named Entity Linking (NEL).
Auteur
Rony Vissers (meemoo, Vlaams instituut voor het archief)
Natural Language Processing en Machinelearning

Met NLP worden de regels van natuurlijke taal omgezet in statistische modellen. Op basis van deze modellen kunnen computers betekenis aan de taal ontlenen. Aanvullend helpt machinelearning de computers om te leren en zich te verbeteren met behulp van algoritmen en trainingsgegevens. Chatbots, virtuele assistenten zoals Siri en automatische vertaaltools gebruiken bijvoorbeeld NLP en machinelearning.
Named Entity Recognition
NER is de NLP-technologie die in teksten belangrijke stukjes informatie (entities) opspoort en classificeert in een reeks vooraf gedefinieerde categorieën. Mensen kunnen gemakkelijk entities detecteren die tot verschillende categorieën behoren, zoals personen, organisaties en locaties, maar computers moeten die entities eerst herkennen en vervolgens categoriseren.
Zo’n entity kan elk woord of elke woordgroep zijn die consistent verwijst naar hetzelfde. Named entities zijn de belangrijkste onderwerpen in een tekst, onder andere personen, organisaties en locaties, maar ook kunstwerken, abstracte begrippen en tijdsaanduidingen. Een NER-toepassing zal in een tekst bijvoorbeeld automatisch de woordgroep ‘Eddy Merckx’ detecteren en vervolgens classificeren als ‘Persoon’.
NER gebruikt algoritmes die werken op basis van grammatica, statistische NLP-modellen en voorspellende modellen. Het model wordt getraind met behulp van datasets die door mensen gelabeld zijn met vooraf gedefinieerde named entity-categorieën. Een NER-model kan dankzij de training op automatische wijze nieuwe ongestructureerde tekst analyseren en named entities categoriseren.
Named Entity Linking
NEL gaat nog een stapje verder. Het beperkt zich niet tot het detecteren van de woordgroep ‘Eddy Merckx’ en die te classificeren als ‘Persoon’, maar kent er vervolgens ook een eenduidige betekenis aan toe met behulp van een koppeling naar een online kennisbank (bijvoorbeeld Wikidata). Zo wordt voor iedereen duidelijk of de persoon ‘Eddy Merckx’ de wielerkampioen of de gelijknamige biljarter is.
Relevantie voor bibliotheken, archieven en documentatiecentra
Terwijl andere AI-toepassingen zoals teken- en spraakherkenning helpen om geschreven of gesproken tekst (van bijvoorbeeld gedigitaliseerde kranten of video’s) doorzoekbaar te maken, gaan NER en NEL hierin nog verder: ze verbeteren zowel de snelheid van het zoeken als de relevantie van de zoekresultaten. Ze doen dat door de belangrijkste stukjes informatie te detecteren, te categoriseren en er met behulp van een koppeling naar een externe kennisbron een eenduidige betekenis aan toe te kennen. Bovendien doen ze dat zoveel mogelijk op automatische wijze, dus zonder of met een beperkte afhankelijkheid van tijdrovende menselijke handelingen.
Organisatie
Licentie
- CC-BY-SA
Type
Medium
Expertisedomein
Deze pagina is laatst aangepast op 27 juni 2024
Deze pagina aanvullen of corigeren?
Eiusmod ex minim officia eu sunt proident. Id culpa veniam id anim officia incididunt veniam excepteur cupidatat sit consectetur quis consequat. Incididunt proident commodo aliqua ipsum in duis dolore occaecat aute aliquip et pariatur velit. Cupidatat do et sunt labore.