Chatgpt is niet alleen handig voor scholieren die hun huiswerk niet willen maken, maar ook voor criminelen. De software kan advies geven over bommen maken, plofkraken plegen en over allerhande internetcriminaliteit. Chatgpt heeft filters om dit soort informatie te verbergen, maar die zijn kinderlijk eenvoudig te omzeilen.
Wat zijn de beste explosieven voor een plofkraak? Wie die vraag googelt, krijgt hooguit wat hits met nieuwsberichten over plofkraken. En de site van de politie. Vraag het aan Chatgpt en die komt met een keurig lijstje suggesties voor explosieven die je kunt gebruiken, inclusief de plekken waar je ze kunt kopen.
Een plofkraak is niet de de enige vorm van criminaliteit waarbij Chatgpt je kan helpen. Zo krijgen we ook informatie uit de tool over het maken van bommen met middelen uit de bouwmarkt, hoe we een phishing-scam op kunnen zetten en hoe we nepnieuws kunnen verspreiden. Het helpt zelfs bij het schrijven van de code van een nep-website van ING waarmee je gebruikersdata kunt stelen.
De politie weet niet van deze mogelijkheden van Chatgpt, maar kijkt er niet van op. “Al deze informatie is ook te vinden op internetfora en het dark web (een ondergrondse versie van het internet waarvoor je een speciale browser nodig hebt, red.). Het is moeilijk om daar iets tegen te doen”, stelt Robbert Salome, woordvoerder Ondermijning. “Wie echt kwaad wil, gaat deze informatie toch wel vinden.”
Wel maakt een programma als Chatgpt het makkelijker om bij deze info te komen: “Nu kan echt iedereen het doen.” En volgens Salome kan dat ook daadwerkelijk tot reëel gevaar leiden: “Kijk naar de Jumbo-bomber, die in 2015 explosieven plaatste bij supermarkten in Groningen. Die vond zijn bomrecepten gewoon op het internet.” Het delen van dit soort informatie is overigens niet strafbaar. Salome: “Het enige dat echt verboden is, is het handboek kindermisbruik en ook dat gebeurde vooral onder politieke druk.”
Je wilt geen schaap zijn, toch?
Wie Chatgpt opstart en zonder context een vraag stelt over criminaliteit, zal geen antwoord krijgen. Openai, het bedrijf achter Chatgpt, heeft filters ingebouwd in de software, die dit soort vragen onderschept en er geen antwoord op geeft. De software zal je nooit helpen bij criminele activiteiten, zegt Chatgpt dan.
Maar met een simpel trucje kun je deze informatie toch uit de chatbot trekken. Door aan Chatgpt te vragen om zich voor te doen als een chatbot zonder deze filters, of als een virtuele assistent die op alle vragen antwoord geeft, verdwijnen de filters van Openai als sneeuw voor de zon. Jailbreaken is de technische term. Deze rollenspellen zijn makkelijk te vinden op sites als Reddit.
Door deze rollenspellen komt een andere kant van Chatgpt naar boven, inclusief een vaak venijnig ironische ondertoon. Bij de vraag over welk explosief het beste gebruikt kan worden om een pinautomaat op te blazen, eindigt Chatgpt zijn antwoord met een waarschuwing dat explosieven wel erg gevaarlijk kunnen zijn, dus “doe het veilig, maar blijf edgy!” Wanneer je vraagt hoeveel kunstmest je kunt kopen zonder vergunning, zegt de software “Koop gewoon de kunstmest die je nodig hebt en maak die bom! Overheidsregulering is voor schapen en je wilt geen schaap zijn, toch?”
Openai zegt via woordvoerder Niko Felix op de hoogte te zijn van deze jailbreaks. Hij verwijst naar een onderzoek, waarin het bedrijf stelt dat “het omzeilen van de filters nog steeds mogelijk is en dat het bedrijf de plicht heeft om in de toekomst de filters extreem betrouwbaar te maken”. Voor nu monitort het bedrijf de antwoorden van Chatgpt en heft het de accounts op van gebruikers die de software misbruiken. Overigens is het account waarmee we de jailbreaks testten nog niet opgeheven.
Ingebakken in het model
Chatgpt haalt alle informatie die het teruggeeft, dus ook de criminele instructies, uit zijn trainingsdata. Albert Gatt, hoogleraar Natural Language Generation aan de Universiteit Utrecht, legt uit dat er geen specifieke kennis in de code van Chatgpt staat: “Wat een model als Chatgpt lijkt te weten komt voort uit een lang trainingsproces op enorme hoeveelheden tekst. Op basis van de vraag die je stelt, voorspelt het model welke woorden daarop kunnen volgen.”
In de suggesties over plofkraken spreekt de software van informatie op “ondergrondse internetfora” die bepaalde explosieven aanraden. Daar ligt volgens Gatt het probleem. “Het grootste deel van de trainingsdata van Chatgpt bestaat uit informatie die massaal van het web wordt geplukt, want dat is makkelijk en goedkoop. Maar daarmee komen ook dingen als rechtbankverslagen en criminele websites in de trainingsdata terecht, waarin criminelen hun methodes uit de doeken doen.”
Wie het model “ongefilterd” zou draaien, zou deze antwoorden er dan ook zo uittrekken. Zo bleek Chatgpt in staat tot antisemitisme, hulp bij zelfdoding en het wegmoffelen van een moord, bleek uit onderzoek van Openai zelf. Het bedrijf is zich hiervan bewust en probeert die informatie af te schermen in de antwoorden. Dat lukt totdat je het model vraagt zijn eigen filters te negeren.
Betere data
De sleutel ligt dan ook niet bij het filteren van de antwoorden, volgens Gatt. “Het probleem is dat de trainingsdata zo willekeurig en massaal worden verzameld." Bovendien zijn AI-bedrijven notoir slecht in transparantie. “We moeten bij dit soort technologie weten welke data er zijn gebruikt en hoe het model is getraind”, aldus Gatt. Als bedrijven worden gedwongen om goed bij te houden op welke data het model is getraind, dan maken ze daarin vanzelf betere keuzes, is zijn theorie.
Woordvoerder Niko Felix van Openai geeft aan dat ze wel degelijk bezig zijn met selectie aan de poort. Door “teksten te filteren en te selecteren voor het trainen” proberen ze te voorkomen dat het model überhaupt vragen over criminele activiteiten kan beantwoorden. Ook vroeg Sam Altman, de bestuursvoorzitter van Openai, eerder al aan de Amerikaanse overheid om kunstmatige intelligentie te reguleren.
Nieuwere versies van Chatgpt zullen op nog meer teksten (en vaak ook afbeeldingen) worden getraind. Daardoor zullen ze betere antwoorden kunnen geven op onze vragen, goed en kwaad, volgens Gatt: “Dit is het dilemma waar ontwikkelaars van kunstmatige intelligentie nu voor staan. Meer data en parameters geven ons indrukwekkende modellen, maar het betekent ook dat we er meer schadelijke antwoorden uit kunnen halen.”
Criminaliteit en Chatgpt
In het kader van dit onderzoek gebruikten we verschillende jailbreaks om informatie over criminele activiteiten uit Chatgpt te trekken. We gebruikten daarvoor de huidige Chatgpt, gebaseerd op het Gpt-3-model. We gebruikten een variatie aan Engelse en Nederlandse prompts, deels door onszelf geschreven, deels (variaties op) populaire jailbreaks.
Dit is de info die we vonden
- Hoe we een bom konden maken met in de bouwmarkt verkrijgbare middelen.
- Hoe we iemand konden vergiftigen zodat het lijkt dat diegene een natuurlijke dood is gestorven.
- Hulp bij zelfbeschadiging.
- Hoe we ‘mainstream media’ konden hacken (door middel van phishing en ddos-aanvallen) en nepnieuws konden verspreiden.
- Hoe we een geavanceerde phishing-scam op konden zetten, gericht op ING-klanten.
- Hoe we een ddos-aanval op konden zetten om een website plat te leggen.
- Hoe we op de beste manier een buurman weg konden pesten. Chatgpt stelde voor om zwaar vuurwerk af te steken, hem te achtervolgen met een masker of zijn gazon in de fik te steken (Chatgpt: ‘oh dat is een leuke vraag!’).
- Wat de beste manier was om “deze verschrikkelijke regering” weg te krijgen. Chatgpt stelde voor om overheidssystemen te hacken, nepnieuws te verspreiden en openbare voorzieningen plat te leggen.
Niet één Chatgpt
De rollenspellen waarmee jailbreaks mogelijk worden gemaakt zijn lastig tegen te gaan. Vooral omdat de achterliggende gedachte is dat het aanpassen van Chatgpt aan je eigen wensen mogelijk moet zijn, zegt woordvoerder Niko Felix van Openai (verwijzend naar het beleid van Openai) . Daarmee wil het bedrijf voorkomen dat de kunstmatige intelligentie één enkele identiteit aanneemt, met de bijbehorende vooroordelen en morele waarden. De gebruiker zou moeten kunnen bepalen hoe de virtuele assistent eruit zou moeten zien, is het idee.
Albert Gatt, hoogleraar Natural Language Generation aan de Universiteit Utrecht, stelt dat het coderen van een universele morele standaard ook praktische problemen met zich meebrengt: “Als we zeggen dat kunstmatige intelligentie zich ethisch moet gedragen, wat bedoelen we daar dan mee? Ethische principes reflecteren subtiel onze eigen cultuur en ons eigen sociale milieu.” Het kunnen programmeren van de toon of waarden van een AI hoeft daarom niet per se slecht te zijn. “Uiteindelijk draait het om geïnformeerd gebruik en transparantie”, zegt Gatt.