Speech-To-Text: Whisper en NoScribe
Moderne technologieën zoals artificiële intelligentie (Al) beïnvloeden de werkwijzen binnen de erfgoed- en informatiesector. In dit artikel beschrijven we hoe spraak-naar-teksttranscriptie (in het Engels speech-to-text of STT) met behulp van tools zoals Whisper en NoScribe workflows binnen archieven, bibliotheken en documentatiecentra kan verbeteren en kan bijdragen aan het ontsluiten van audio- en videocontent.
Inhoud
Auteur
Lode Scheers (meemoo - Vlaams instituut voor het archief)
STT en AI
Spraak-naar-teksttranscriptie zet gesproken woorden automatisch om in geschreven tekst. Dat betekent dat een opname van bijvoorbeeld een interview of lezing omgezet wordt in een leesbare tekst. Automatische spraak-naar-teksttranscriptie doet dat zonder dat iemand de opname handmatig hoeft uit te typen.
Whisper
Een belangrijke speler op het vlak van innovatie van STT is OpenAI, het bedrijf achter ChatGPT (zie Uitgepakt in META 2024/5). Het doet dat met Whisper, een Al-toepassing die niet alleen de mogelijkheid biedt om audio- en video-opnamen nauwkeurig en efficiënt om te zetten in doorzoekbare tekst, maar ook om ze te voorzien van automatisch gegenereerde ondertiteling.
Whisper is een spraakherkenningsmodel dat voor uiteenlopende types audiocontent gebruikt kan worden. Het werd ontwikkeld met behulp van de combinatie van geavanceerde machinelearning-technieken en een grootschalig trainingsproces. Het Whisper-systeem is getraind op 680.000 uren aan audio-opnamen, zoals audioboeken, podcasts, interviews en presentaties. Van dat materiaal had 65% betrekking op Engelse spraakherkenning, terwijl slechts 17% betrekking had op meertalige spraakherkenning (en de resterende 18% op Engelse vertaling). Die training resulteert in vijf modellen, die voor ontwikkelaars gratis beschikbaar zijn op Github. Het 'Tiny'model (ongeveer 40 MB) is ideaal voor snelle transcripties en werkt goed op mobiele apparaten met duidelijke opnames. Het 'Large'model (1,5 GB) biedt de hoogste nauwkeurigheid en is geschikt voor uitdagendere audio, maar vereist een krachtigere computer en werkt trager.
Meerwaarde
Het handmatig transcriberen van grote hoeveelheden audio of video is een tijdrovend en duur proces. Whisper biedt archieven, bibliotheken en documentatiecentra een gratis oplossing voor het transcriberen van audio- en videobestanden. De gegenereerde transcripties dienen enkel nog door een mens te worden nagekeken op kleine fouten. Whisper kan bruikbare transcripties produceren, zelfs wanneer de opname ruis of achtergrondgeluiden bevat. Er worden honderd talen ondersteund. De transcripties zijn in sommige talen wel accurater dan in andere. Hoe meer een bepaalde taal opgenomen werd in de trainingsdata, hoe groter de accuraatheid van de transcriptie. Door het gebruik van Whisper kan de content toegankelijker gemaakt worden voor een breder publiek, zoals onderzoekers en gebruikers met auditieve beperkingen. Daarnaast kunnen de transcripties doorzocht en gekoppeld worden aan digitale catalogi. Dat verbetert de vindbaarheid en vergroot het potentieel hergebruik.
NoScribe

NoScribe is een computerprogramma dat ontwikkeld is met behulp van de modellen van Whisper. Het kan zeer accurate transcripties en ondertiteling genereren zonder internetverbinding. NoScribe is gratis en open source, wat in het bijzonder interessant is voor kleinere organisaties met beperkte middelen. In tegenstelling tot Whisper, dat werkt via een command-line interface, heeft NoScribe een gebruiksvriendelijke interface en kan het ook automatisch sprekers detecteren. Hoewel nog in ontwikkeling, biedt NoScribe een flexibele oplossing voor archieven en bibliotheken.
Organisatie
Licentie
- CC-BY-SA
Type
Medium
Deze pagina is laatst aangepast op 30 januari 2025
Deze pagina aanvullen of corrigeren?
Heb je aanvullingen of wil je iets rechtzetten? Dan kan je deze pagina makkelijk bewerken via onderstaande knop.