Open-source spraakherkenning voor MKB: wat kan het, wat kan het niet?
Nieuwe modellen zoals Cohere Transcribe beloven gratis, nauwkeurige spraak-naar-tekst -- ook in het Nederlands. We bekijken de voordelen, beperkingen en kosten eerlijk.
Vergaderingen vastleggen zonder dure abonnementen
Je kent het probleem. Na een uur vergaderen heb je een paar aantekeningen, maar de helft van wat er gezegd is, is verdwenen. De klant belt, je noteert het gesprek niet, en twee weken later weet niemand meer wat er precies was afgesproken.
Spraakherkenning -- automatisch audio omzetten naar tekst -- is het antwoord. Maar tot voor kort was dat duur (cloud-API's), ingewikkeld (zelf hosten), of simpelweg niet goed genoeg in het Nederlands.
Dat verandert nu. En dit artikel vertelt het eerlijke verhaal.
De nieuwe generatie: Cohere Transcribe
Eind maart 2026 lanceerde Cohere een nieuw open-source spraakherkenningsmodel: Cohere Transcribe. Het staat direct bovenaan de HuggingFace Open ASR Leaderboard met een gemiddelde foutmarge van 5,42% -- beter dan OpenAI's Whisper (7,44%) en NVIDIA's Canary (5,63%).
Wat het interessant maakt:
- 14 talen, waaronder Nederlands. Ook Duits, Frans, Spaans, Arabisch, Japans en meer.
- Open source (Apache 2.0). Je mag het vrij gebruiken, ook commercieel. Geen licentiekosten.
- 2 miljard parameters. Groot genoeg voor goede resultaten, klein genoeg om te draaien op betaalbare hardware (minder dan 8 GB videogeheugen na quantisatie).
- 3x snellere doorvoer dan vergelijkbare modellen in dezelfde grootteklasse.
Het model is beschikbaar als gratis download op HuggingFace en via Cohere's eigen API met een gratis tier.
Hoe verhouden de kosten zich?
Dit is waar het interessant wordt voor ondernemers die kosten willen besparen.
Cloud-diensten (per uur audio)
| Dienst | Kosten per uur |
|---|---|
| Deepgram Nova-3 | ca. EUR 0,25 |
| OpenAI Whisper API | ca. EUR 0,35 |
| Deepgram (streaming) | ca. EUR 0,45 |
| Azure Speech Services | ca. EUR 1,00 |
| Google Cloud Speech-to-Text | ca. EUR 1,40 |
| AWS Transcribe | ca. EUR 1,40 |
Open-source (zelf draaien)
| Methode | Kosten per uur |
|---|---|
| Eigen GPU (eenmalige investering) | EUR 0,00 per uur* |
| Cloud GPU (bijv. RunPod, Lambda) | ca. EUR 0,15-0,40 per uur |
*Na de aanschaf van de hardware zijn er geen doorlopende kosten per audiominuut.
En nu het eerlijke deel: voor de meeste MKB-bedrijven die 10-50 uur audio per maand verwerken, zijn cloud-API's verrassend betaalbaar. Deepgram kost je EUR 2,50-12,50 per maand. Zelfs Google Cloud is bij tien uur nog maar EUR 14 per maand.
De echte reden om zelf te hosten is niet de prijs, maar de privacy. Daar komen we later op terug.
Wat zijn de echte beperkingen?
Hier wordt het eerlijk. Open-source spraakherkenning is goed, maar niet perfect.
1. Nederlands is geen Engels
De meeste modellen zijn primair getraind op Engelse data. Cohere Transcribe scoort 5,42% foutmarge gemiddeld over alle talen, maar dat cijfer is voornamelijk op Engelse benchmarks gebaseerd. Het Nederlands is niet apart getest op de HuggingFace-leaderboard.
Wat we wel weten: Google Chirp scoort 11,2% foutmarge op realistische Nederlandse spraak (met achtergrondgeluid). NVIDIA's specifieke Nederlandse NeMo-model haalt 9,2% op schone audio. Whisper Large v3 komt uit op 15,8% onder realistische omstandigheden. De University of Twente en het Dutch Open Speech Recognition Benchmark project documenteren deze cijfers.
Concreet: voor standaard Nederlands in een rustige ruimte, reken op 85-95% nauwkeurigheid. Maar dialecten (Brabants, Limburgs), samengestelde woorden ("gemeenteraadsverkiezingen") en namen van Nederlandse plaatsen zijn bekende struikelblokken. En als je vergadering wisselt tussen Nederlands en Engels -- wat in veel Nederlandse bedrijven gebruikelijk is -- wordt het lastiger. De meeste modellen herkennen taalwisselingen niet betrouwbaar.
2. Achtergrondgeluid en meerdere sprekers
In een stille ruimte met een goede microfoon werkt spraakherkenning uitstekend. In een vergaderruimte met zes mensen, een airco en iemand die tikken zit te typen op een laptop? Minder.
Speaker diarization -- bijhouden wie wat zegt -- is een aparte uitdaging. Cohere Transcribe biedt dit niet standaard aan. Je hebt aanvullende tools nodig (WhisperX, pyannote) om sprekers te scheiden.
3. Hallucinatie: tekst die niemand heeft gezegd
Dit is het meest ondergerapporteerde probleem. Alle encoder-decoder modellen (Whisper, Cohere Transcribe) kunnen tekst fabriceren bij stilte of achtergrondgeluid. Whisper genereert soms complete zinnen die niemand heeft uitgesproken -- gedocumenteerd in de gezondheidszorg, waar patienten woorden werden toegeschreven die ze nooit hebben gezegd.
Cohere erkent dit zelf: het model is "eager to transcribe" en reageert op niet-spraak geluiden. De oplossing is een Voice Activity Detection (VAD) filter voorschakelen, maar dat is een extra stap in je pipeline.
4. Jargon en vaktaal
Medische termen, juridisch taalgebruik, technische afkortingen -- standaardmodellen struikelen hierover. Uit onderzoek blijkt dat generieke spraakherkenning slechts 62% nauwkeurigheid haalt op echte rechtbankopnames. In medische transcripties is de foutmarge 7,4%, waarvan 5,7-8,9% klinisch significant. Voor gespecialiseerde domeinen heb je fine-tuning nodig, wat extra werk en expertise kost.
5. Real-time vs. batch
De meeste open-source modellen werken het beste in batch-modus: je uploadt een audiobestand en krijgt na verwerking de tekst terug. Real-time transcriptie (live ondertiteling tijdens een meeting) is technisch mogelijk, maar vereist meer hardware en complexere setup.
6. Hardware vereisten
Cohere Transcribe draait op minder dan 8 GB VRAM na quantisatie. Dat past op een gaming-laptop met een moderne NVIDIA GPU (RTX 3060 of nieuwer). Maar een standaard kantoor-PC zonder dedicated GPU? Dan ben je aangewezen op CPU-inferentie, wat 5-10x langzamer is.
Een realistisch scenario: een kantoor-PC met een NVIDIA RTX 4060 (ca. EUR 350) verwerkt audio ruim twee keer sneller dan real-time. Een uur vergadering is in minder dan dertig minuten getranscribeerd.
De privacyhoek: waarom dit voor Europese bedrijven extra relevant is
Hier zit een voordeel dat vaak over het hoofd wordt gezien.
Bij cloud-diensten als Google Speech of Azure Transcribe verlaat je audio de deur. Het gaat naar servers in de VS of elders, wordt verwerkt, en je vertrouwt erop dat het daarna wordt verwijderd.
Met open-source spraakherkenning die je zelf draait, verlaat de data je kantoor niet. De audio gaat van microfoon naar je eigen computer, wordt verwerkt, en de tekst blijft lokaal. Geen dataoverdracht naar het buitenland, geen afhankelijkheid van een derde partij.
Voor bedrijven die werken met gevoelige informatie -- klantgesprekken, personeelszaken, juridische transcripties -- is dat een groot verschil. Geen verwerkersovereenkomst nodig met een Amerikaans techbedrijf. Geen risico dat audiodata wordt gebruikt om modellen van derden te trainen.
Uit onderzoek van EuropeanCloud.eu blijkt dat 73% van Europese bedrijven inmiddels datasoevereiniteit zwaarder laat wegen dan gemak bij de keuze van software-tools. Open-source spraakherkenning past precies in die trend.
Waar werkt het nu al goed?
Laten we concreet zijn. Deze toepassingen zijn vandaag realistisch:
Vergaderingen transcriberen -- Neem op met je telefoon of laptop, verwerk achteraf. Geen live ondertiteling, maar een bruikbaar transcript waar je de belangrijkste punten uit kunt halen. Ideaal voor interne notulen en actiepunten.
Klanttelefoongesprekken vastleggen -- Mits de klant toestemming geeft (verplicht). Achteraf doorzoekbaar, samenvattingen laten maken door AI. Geen gesprek meer dat verloren gaat.
Voicemail naar tekst -- Simpele toepassing, hoge waarde. In plaats van voicemails terugluisteren, lees je een transcript. Bespaart dagelijks minuten.
Podcast- en videocontent -- Ondertiteling genereren voor bedrijfsvideo's. Niet perfect, maar 90% van het werk wordt gedaan.
Waar werkt het nog niet goed genoeg?
Live klantenservice -- Real-time transcriptie met directe acties (bijv. automatisch een ticket aanmaken) vereist een complexe pipeline met lage latentie. Mogelijk, maar niet plug-and-play.
Juridische en medische transcriptie -- De foutmarge is te hoog voor documenten waar elk woord telt. Je hebt menselijke controle nodig, en specialistische fine-tuning.
Meertalige vergaderingen -- Een gesprek dat wisselt tussen Nederlands en Engels (wat in veel Nederlandse bedrijven voorkomt) is lastiger dan een eentalig gesprek. De modellen herkennen taalwisselingen niet altijd correct.
Hoe begin je?
De drempel is lager dan je denkt, maar niet nul.
Optie 1: Cohere's gratis API. Geen installatie nodig. Upload een audiobestand, ontvang tekst. Prima om te testen of het voor jouw situatie werkt. Nadeel: je data gaat naar Cohere's servers.
Optie 2: Lokaal draaien. Vereist een PC met NVIDIA GPU (8+ GB VRAM) en iemand die Python kan opstarten. Eenmalige setup van een uur, daarna onbeperkt gebruik zonder kosten of dataoverdracht.
Optie 3: Laten bouwen. Een automatisering die opnames automatisch verwerkt, transcribeert, samenvat en opslaat in je bedrijfssysteem. Dat is waar het echt waarde oplevert: niet het transcript zelf, maar wat je ermee doet.
Cohere Transcribe vs. Whisper: wat moet je kiezen?
Een eerlijke afweging, want het is niet zo simpel als "nieuwste = beste."
Cohere Transcribe staat bovenaan de benchmark (#1 op HuggingFace), heeft een sterke architectuur, en een goede licentie. Maar het is pas een week oud. Er is geen onafhankelijk getest Nederlands WER-cijfer, geen community-ecosysteem, geen diarization, en geen streaming.
OpenAI Whisper (via faster-whisper of WhisperX) heeft een enorm ecosysteem. Community fine-tunes, speaker diarization via WhisperX+pyannote, CPU-modus via whisper.cpp, en jarenlange praktijkervaring. Het is langzamer en iets minder nauwkeurig op Engelse benchmarks, maar voor Nederlands MKB is het vandaag de veiligere keuze.
Ons advies: begin met Whisper voor productie. Houd Cohere Transcribe in de gaten -- als de Nederlandse prestaties worden bevestigd en het ecosysteem groeit, kan het de nieuwe standaard worden. Maar een 0,3% verschil op Engelse benchmarks weegt niet op tegen Whisper's bewezen track record en tooling.
De balans
Open-source spraakherkenning is in 2026 goed genoeg voor de meeste zakelijke toepassingen. Niet perfect -- je krijgt geen foutloze transcripten, vooral niet in het Nederlands. Maar goed genoeg om uren per week te besparen op notulen, gespreksverslagen en documentatie.
De grootste voordelen zitten in de privacy (data blijft in eigen beheer) en controle. De kosten zijn bij lage volumes geen sterk argument -- cloud-API's zijn verrassend goedkoop. Maar voor bedrijven die werken met gevoelige informatie, is lokale verwerking een wezenlijk verschil.
De grootste beperkingen zitten in de Nederlandse taalondersteuning, het hallucinatieprobleem, en de technische drempel voor lokale installatie.
Wil je testen of spraakherkenning voor jouw bedrijf werkt? Plan een vrijblijvend gesprek -- we laten je horen hoe het klinkt met jouw type audio, en berekenen wat het je bespaart.