Ga verder naar de inhoud

Tools voor het geautomatiseerd transcriberen van audio- en videofragmenten

Deze publicatie bevat een overzicht van de verschillende software en services die je kan gebruiken voor het geautomatiseerd transcriberen van audio- en videofragmenten, zoals interviews.

Spraakherkenning, speech-to-text (STT) of automated speech recognition (ASR) is een technologie die het mogelijk maakt om gesproken tekst in video's of audio om te zetten naar tekst, zoals de automatische ondertiteling bij YouTube of Zoom. In dit overzicht focussen we ons op het transcriberen van interviews voor mondelinge geschiedenis, maar ook virtuele assistenen zoals Siri of Google Assistent zijn een vorm van deze technologie.

Spraakherkenning is een relatief oude technologie. De eerste commerciële tools duiken op in het begin van de jaren 90. Ze maken gebruik van modellen, systemen die getraind zijn op een bepaalde set van data om patronen te herkennen en beslissingen te maken zonder dat een menselijke tussenkomst nodig is. Modellen voor spraakherkenning zijn taalmodellen die getraind zijn op audio zoals interviews, audioboeken, lezingen en presentaties. De sterkte van de spraakherkenningstool is enorm afhankelijk van het gebruikte model.

Mogelijkheden van spraakherkenningstools

Uit een onderzoek van meemoo in 2020-2021 bleek dat spraakherkenningstechnologie minder goed was in het transcriberen van audio van gesprekken, maar de laatste jaren zijn er grote stappen gezet waardoor de technologie sterk verbeterd is, o.a. door de grotere rekenkracht van computers, de vooruitgang in de technologie m.b.t. machine learning en big data en de verbeterde taalmodellen. Dit heeft ervoor gezorgd dat de tools meer natuurlijke taal genereren en minder onzinnige teksten produceren waardoor transcripties van gesprekken enorm verbeterd zijn.

Daarnaast kunnen spraakherkenningstools meer dan enkel teksten transcriberen. Ze kunnen ook:

  • verschillende sprekers herkennen en aanduiden welke tekst door welke spreker gezegd geweest is
  • stopwoorden zoals euhm aanduiden en verwijderen uit de tekst
  • stiltes aanduiden
  • samenvattingen en vertalingen maken
  • ...

Verschillende tools hebben ook een mogelijkheid om een woordenboek toe te voegen. Hierin kan je gespecialiseerde woorden zetten die anders foutief getranscribeerd zullen worden.

Aandachtspunten bij het gebruik van de tools

Je kan met een aantal factoren rekening houden om tot betere resultaten te komen:

  • De sterkte van de spraakherkenningstools zijn afhankelijk van het gebruikte model: bv. welke talen ondersteunt het model en hoe goed kan het model omgaan met dialecten of spreektaal? De keuze voor het model is afhankelijk van de noden en use cases, zoals de afweging tussen snelheid en nauwkeurigheid, en de taal die getranscribeerd moet worden. In het overzicht hebben we gekozen voor nauwkeurigheid (het is belangrijk dat de tekst correct is dan dat de tool snel is) en voor het Nederlands als spreektaal. Ze werden ook allemaal getest op interviews waarin licht dialect of tussentaal gesproken werd. Daarop scoorden de meest accurate tools goed, maar algemeen werd wel vastgesteld dat interviews met uitgesproken dialecten voor minder goede transcripties zorgen.
  • Een ander belangrijk aandachtspunt is de kwaliteit van de opname. Opnames met een helder geluid en zonder achtergrondgeluid geven betere resultaten dan opnames met een slechte geluidskwaliteit (bv. ruis) en achtergrondgeluid. Sprekers die duidelijk spreken worden ook beter getranscribeerd dan sprekers die mompelen.
  • Desktopapplicaties maken gebruik van de rekenkracht van de computer bij het transcriberen van de tekst. Als je computer over een dedicated GPU beschikt, dan zal de transcriptie veel sneller verlopen. Een dedicated GPU is een speciale GPU met een eigen kaart die verbonden is met het moederbord, terwijl een geïntegreerde GPU ingebed is in dezelfde chip als de CPU. Dit artikel legt meer uit over de verschillende GPU's. Als je computer die GPU niet heeft, dan wordt (computer) de CPU of processor gebruikt. Dat gaat langzamer. Je kan ook een online service gebruiken zodat je niet beperkt bent door de limieten van je computer.

Overzicht van de verschillende tools

Op vraag van erfgoedorganisaties voor de ondersteuning bij het uitschrijven van interviews werden een aantal tools getest. De meeste tools kunnen meer dan enkel transcriberen, maar die functies werden niet dieper onderzocht.

Amberscript

Amberscript is een commercieel webplatform waarmee je transcripties en ondertiteling kan maken voor audio en video. Wanneer je audio of video wil transcriberen, moet je die fragmenten dus uploaden in hun webomgeving. Welk model gebruikt wordt, is niet gedocumenteerd.

Het ondersteunt:

  • verschillende talen, waaronder Nederlands;
  • sprekersidentificatie;
  • en aanduiding van tijdscodes

Voordelen:
  • Bewerken van transcripties is erg overzichtelijk.
  • Mogelijkheid om een woordenboek toe te voegen.

Nadelen:
  • De sprekersidentificatie is weinig accuraat wanneer er pauzes in het audiofragment zitten.
  • Pauzes worden niet aangeduid.
  • Nauwkeurigheid in het Nederlands is niet goed. De getranscribeerde tekst bevat redelijk veel fouten.

Het gebruik van Amberscript is betalend. Als je eenmalig wil betalen kost het je €15/uur, waarbij je maximaal 100 uur kan aankopen in een keer. Het is ook mogelijk om een abonnement te nemen. Je betaalt dan €40/maand per 5 uur aan geüploade audio of video als je een abonnement voor een jaar neemt, of €50/maand voor 5u audio of video. Het is niet mogelijk om ongebruikte uren over te zetten naar een andere maand.

Screenshot van de automatische transcriptie in Amberscript.

Audapolis

Audapolis is een open source en offline desktopapplicatie die gebruikt maakt van het Vosk-model. Vosk is een relatief klein, maar ook ouder model dat voornamelijk gebruikt wordt voor chatbots, smart home applicaties en virtuele assistenten. Het is oorspronkelijk ontwikkeld voor kleinere toestellen zoals smartphones en microcomputers.

De tool kan twintig talen transcriberen, waaronder Nederlands, identificeert welke tekst door welke sprekers gezegd geweest is en duidt ook tijdscodes aan. Doordat de tool offline werkt, kan je de tool bv. ook op de trein gebruiken wanneer je na een interview naar huis gaat.

Voordelen:
  • gratis en open source applicatie;
  • werkt offline;
  • bevat een ingebouwde editor waarmee je de getranscribeerde tekst kan verbeteren;
  • detecteert en verwijdert euhms en pauzes.

Nadelen:
  • werkt niet goed met accenten of (lichte) dialecten;
  • nauwkeurigheid van getranscribeerde tekst en sprekersidentificatie is laag;
  • tekst kan enkel in HTML geëxporteerd worden;
  • tool is al een jaar niet meer geüpdatet.

Screenshot van een automatische transcriptie in Audapolis.

Limecraft

Limecraft is een online platform voor het beheren van audio en video en biedt als extra feature de mogelijkheid aan om die content te transcriberen. Het maakt daarvoor gebruik van zes modellen: Vocapia, Speechmatics, Google Speech, Microsoft Auze, Scriptix en Kaldi. Als gebruiker kan je zelf niet beslissen welk van die modellen je wil gebruiken. Het platform maakt die keuze voor jou op basis van de doeleinden en de taal die je kiest. Doordat er zoveel modellen gebruikt worden, kan het meer dan 100 talen transcriberen, waaronder Nederlands. Net als de voorgaande tools kan het sprekers identificeren en duidt het tijdscodes aan. Op het platform kan je met meerdere mensen samen aan een transcriptie te werken, zoals je samen zou werken op een document in Sharepoint of Google Drive.

Voordelen:
  • gebruiksvriendelijke interface met eenvoudige editeermogelijkheden;
  • snel;
  • uitgebreide exportmogelijkheden (.pdf, .csv, .doc);
  • mogelijkheid om een eigen woordenboek toe te voegen;
  • heeft extra features, zoals het creëren van ondertitels, onderwerpdetectie en het maken van samenvattingen;
  • het is een Belgisch bedrijf, waardoor support en contact in het Nederlands en in dezelfde tijdszone zijn.

Nadelen:
  • De euhms worden niet goed herkend en stiltes worden niet aangeduid.
  • Het onderscheid tussen de sprekers is niet altijd goed, maar je kan dit wel bewerken.
  • Het maakt rare dingen van woorden die het niet kent.
  • De transcriptie is een extra feature, waardoor het platform nogal duur is en veel functionaliteiten heeft die je niet nodig hebt als je enkel wil transcriberen.

De prijzen gaan van gratis (1 gebruiker met 5u aan materiaal), €85/maand (5 gebruikers met 25u aan materiaal) of €275/maand (voor grotere teams). Om audio en video te laten transcriberen moet je daarvoor €15/uur extra betalen. Limecraft biedt ook de mogelijkheid om die transcriptie te vertalen. Ook dat kost €15/uur.

Screenshot van een automatische transcriptie in Limecraft.

Sonix

Ook Sonix is een commercieel webplatform waarmee je collaboratief kan werken aan transcripties. Zo zijn er uitgebreide mogelijkheden om transcripties te bewerken, tijdscodes aan te passen, ... Het kan meer dan 49 talen transcriberen, waaronder Nederlands, herkent goed de verschillende sprekers en duidt tijdscodes aan. Tot slot heeft het ook de mogelijkheid om aan te duiden in kleurcodes hoe zeker de software is van bepaalde transcripties.

Voordelen:
  • gebruiksvriendelijke interface met uitgebreide en eenvoudige editeermogelijkheden;
  • transcribeert snel;
  • mogelijkheid om eigen woordenboek toe te voegen voor specifieke woorden;
  • uitgebreide exportmogelijkheden
  • heeft een extra (betalende) feature om samenvattingen te maken van transcripties

Nadelen:
  • Euhms worden niet goed herkend.
  • Het comprimeert de originele mediabestanden wanneer je het meest goedkope tariefplan gebruikt, waardoor je de originele mediabestanden niet meer kunt exporteren.
  • Bij het goedkoopste tariefplan heb je enkel support per e-mail.

Sonix heeft verschillende tariefplannen:

  • Standard pay-as-you-go waarbij je $10/uur audio of video betaalt
  • Premium voor organisaties die regelmatiger audio en video willen laten transcriberen en daarvoor meer samewerkingsmogelijkheden nodig hebben. Hiervoor betaal je $5/uur audio of video en maandelijks $22 voor iedere gebruiker.
  • Enterprise voor hoge volumes aan transcriptienoden met uitgebreide samenwerkingsmogelijkheden en contentanalyse.

Je kan de mogelijkheden van Sonix gratis testen op 30 minuten aan audio en video.

Sonix geeft voor het opladen van de audio of video al een indicatie van hoe goed de automatische transcriptie zal zijn.

Sonix kan na de automatische transcriptie een indicatie geven van de kwaliteit.

Speechmatics

Speechmatics is een bedrijf dat zelf een eigen gesloten spraakherkenningsmodel ontwikkeld heeft en tegen betaling API's en een platform aanbiedt om audio en video te laten transcriberen en vertalen. Ze proberen te concurreren met grote bedrijven zoals Google, Amazon en Microsoft en volgens testen scoort hun model beter dan die techbedrijven. Het is te gebruiken voor zowel opgenomen media als voor real-time audio en video. De software kan 52 talen transcriberen, waaronder Nederlands, sprekers identificeren en duidt tijdscodes aan. Speechmatics focust zich enkel op transcriptie. Mediabestanden en hun transcripties worden daardoor maar voor een week bewaard op het platform. Dat heeft als voordeel dat ze een van de goedkoopste speech-to-text aanbieders zijn.

Voordelen:
  • zeer accuraat;
  • verwijdert euhms;
  • platform focust zich enkel op transcriptie, waardoor je niet voor overbodige bells and whistles moet betalen;
  • exporteert naar platte tekst (.txt), SRT (voor ondertitels) en JSON.

Nadelen:
  • hallucineert op termen die het niet kent;
  • duidt stiltes niet aan;
  • geen tijdsaanduidingen wanneer je exporteert naar platte tekst of wanneer je de kopieerfunctie gebruikt;
  • mediabestanden en transcripties worden maar een week bewaard op het webplatform;
  • het webplatform heeft moeite met het opladen van video.

Speechmatics heeft geen abonnementsformule. Je kan maandelijks gratis 4u opgeladen audio of video laten transcriberen (en ook nog 4u real-time audio en video). Daarnaast betaal je per uur en is de prijs afhankelijk van de gewenste accuraatheid van de getranscribeerde tekst. Je betaalt $0,8/uur voor de standard accuracy en $1,04/uur voor de enhanced accuracy of het meest accurate model.

Het uploadscherm van Speechmatics. Je kan met Speechmatics ook realtime video of audio laten transcriberen.

Voorbeeld van een automatische transcriptie in Speechmatics.

noScribe

NoScribe is een gratis opensourcetool voor het transcriberen van audio en video. Het is een offline desktopapplicatie die voor transcriptie gebruikt maakt van het Whisper-model (voor meer info over Whisper, zie onder) van OpenAI, het bedrijf dat ook ChatGTP ontwikkeld heeft. NoScribe kan meer dan 99 talen transcriberen, waaronder Nederlands, identificeert sprekers en geeft tijdscodes aan. Het maakt (nog) geen gebruik van het meest recente (en voor het Nederlands meest accurate) model van Whisper, omdat die versie van dat model minder goed scoort op sommige andere talen.

Voordelen:
  • gratis en opensource;
  • zeer accuraat, hallucineert minder en blijft consistent bij termen die het niet kent;
  • beschikt over editorsoftware om transcripties te verbeteren;
  • kan exporteren naar HTML, platte tekst (.txt) en VTT (voor ondertitels);
  • kan een dedicated GPU gebruiken om de transcriptie sneller te laten verlopen.

Nadelen:
  • snelheid van transcriptie is afhankelijk van de eigen computer;
  • kan hallucineren op stilte, al konden we dat in de praktijk niet vaststellen;
  • meertalige audio (bv. een interview waarin verschillende talen gesproken worden) is niet ondersteund;
  • maakt wel eens fouten bij het herkennen van sprekers.

Lees hier de handleiding van noScribe.

Screenshot van een automatische transcriptie in noScribe.

Whisper

Whisper is een model voor spraakherkenning, ontwikkeld door OpenAI, dat voor het eerst als opensourcesoftware uitgebracht werd in 2022. Het kan gebruikt worden om verschillende talen te transcriberen en om verschillende talen te laten vertalen naar Engels. Het is ingebouwd in verschillende spraakherkenningstools, zoals noScribe, maar kan ook gebruikt worden als commandlinetool. Whisper kan honderd talen transcriberen, waaronder Nederlands, en duidt tijdscodes aan. Uit testen op twee datasets blijkt ook dat de laatste versie van Whisper zeer goed scoort op Nederlands.

Voordelen:
  • opensource en gratis
  • zeer accuraat; de commandlinetool gebruikt het meest recentste model, wat voor het Nederlands ook het meest accurate model is
  • exporst zijn mogelijk in platte tekst (.txt), SRT (ondertiteling), VTT (ondertiteling), TSV (een tabulair formaat vergelijkbaar met CSV) en JSON

Nadelen:
  • snelheid is afhankelijk van de eigen computer, zeker als je geen dedicated GPU hebt (zie noScribe) kan de transcriptie zeer langzaam gaan (maar nog steeds sneller dan als je het zelf zou doen)
  • duidt geen stiltes aan
  • Whisper kan hallucineren op stilte, maar het is mogelijk om via de commandline hier aanpassingen aan te doen
  • meertalige audio is niet ondersteund
  • geen intuïtieve grafische interface (GUI); enkel te gebruiken via de command line.
  • geen omgeving waarin je de transcriptie kan verbeteren.

Screenshot van een automatische transcriptie in Whisper.

Conclusie

Er zijn, afhankelijk van je noden, verschillende tools die je kan gebruiken voor het geautomatsieerd transcriberen van audio- en videofragmenten. Om eenvoudiger een keuze te maken, kan je onderstaande tabel gebruiken. In de tabel wordt onder meer aangeduid welke mogelijkheden de tools volledig (aangeduid met X) of gedeeltelijk (aangeduid met /) ondersteunen en hun prijscategorie: €0 betekent gratis, staat voor een prijs minder dan €5/uur, €€ geeft een prijs tussen €5/uur en €15/uur weer en €€€ is een prijs hoger dan €15/uur.

Amberscript Audapolis Limecraft Sonix Speechmatics noScribe Whisper
Ondersteunt Nederlands X X X X X X X
Accuraat X X X X X
Gebruiksvriendelijk X X X X X X
Snel X X X X
Mogelijkheid tot verbeteren van transcriptie X X X X X
Mogelijkheid tot samenwerken aan transcriptie X X
Identificeert sprekers X X X X X X
Detecteert euhms X / X X X
Duidt tijdscodes aan X X X / X X
Detecteert pauzes X X X X X
Mogelijkheid tot toevoegen eigen woorden X X
Exportformaten .csv, .doc, .json, .rtf, .srt, .stl, .txt, .vtt .html .docx, .pdf, .srt, .txt, .vtt .csv, .doc, .pdf .json, .srt, .txt .html, .txt, .vtt .csv, .json, .srt, .tsv, .txt, .vtt
Open Source X X X
Cloudservice X X X X
Prijs €€ €0 €€€ €€ €0 €0

Deze pagina is laatst aangepast op 08 januari 2025

Deze pagina aanvullen of corigeren?

Eiusmod ex minim officia eu sunt proident. Id culpa veniam id anim officia incididunt veniam excepteur cupidatat sit consectetur quis consequat. Incididunt proident commodo aliqua ipsum in duis dolore occaecat aute aliquip et pariatur velit. Cupidatat do et sunt labore.