Om alle Nederlandse podcasts te luisteren die tot en met 2023 zijn uitgebracht, heb je 35 jaar nodig. Van keiharde onderzoeksjournalistieke producties tot de zogeheten keukentafelpodcast: de drempel om een eigen serie te maken is een flink stuk lager geworden. Worden daardoor ook meer dubieuze uitspraken gedaan die ongecorrigeerd blijven?
Dat gaat Pointer de aankomende periode onderzoeken. Om inzicht te krijgen in het Nederlandse podcastlandschap, verzamelden onderzoekers Sahra Mohamed en Hay Kranen in samenwerking met Pointer de links naar Nederlandse podcastafleveringen die online beschikbaar zijn tot 4 januari 2024. In totaal gaat het om bijna een half miljoen afleveringen van ruim 18 duizend titels. Goed om daarbij te vermelden, is dat het om een onderrapportage gaat.
De podcasts komen namelijk uit de database van de Podcastindex (PI). Deze organisatie zet zich in voor een transparanter podcast-ecosysteem en archiveert wereldwijd zoveel mogelijk nieuwe podcasts die uitkomen: op dit moment zo’n 4,3 miljoen podcasts. PI verzamelt specifiek de RSS-feeds: het format waarin podcasts online worden opgeslagen. In de database van PI vind je de naam, beschrijving en adres van de RSS-feed terug.
De afgelopen maanden hebben we alle afleveringen van Nederlandse podcasts opgeslagen die in 2022 en 2023 zijn gepubliceerd. Podcasts waarvan de RSS-feed inmiddels niet meer werkt (zo’n 9 procent) en die achter een betaalmuur staan, hebben we niet meegenomen in onze dataverzameling. Ook de podcast Ontspannende Geluiden I by Relaxing White Noise hebben we overgeslagen. Dit zijn afleveringen van 8 uur lang met enkel witte ruis om mee in slaap te vallen.
Supercomputer Snellius
Uiteraard kunnen we niet alle podcasts luisteren om te beoordelen wat daar wordt gezegd. We hebben alle podcasts uit 2022 en 2023 (circa 150 duizend afleveringen) door de transcriptiesoftware Whispercpp en Whisperx gehaald om audio om te zetten naar geschreven tekst, inclusief tijdcodes. Daardoor kunnen we gericht zoeken op specifieke steekwoorden of uitspraken.
Op een doorsnee laptop zou het omzetten van zoveel podcastafleveringen (afhankelijk van de gekozen software) maanden tot jaren kunnen duren. Als je daarentegen meerdere computers aan de slag zet, dan kun je dit relatief snel voor elkaar krijgen. Daarvoor hebben we gebruikgemaakt van de supercomputer Snellius van SURF, de vereniging van Nederlandse onderwijs- en onderzoeksinstellingen op het gebied van informatie- en communicatietechnologie. Hiermee hebben we de periode van transcriberen teruggebracht naar enkele weken.
Op dit moment zoeken we naar een vorm waarin we de tekstbestanden en overige databestanden publiekelijk toegankelijk kunnen maken. Zodra dat is gelukt, kun je die bestanden in dit artikel vinden. Pointer onderzoekt de komende tijd het Nederlandstalige podcast-ecosysteem en welke misinformatie of andere dubieuze beweringen worden gedaan.