Waarom ChatGPT niet AVG-conform is ,en wat dat betekent voor bestuurders

Waarom ChatGPT niet AVG-conform is ,en wat dat betekent voor bestuurders

Waarom ChatGPT niet AVG-conform is ,en wat dat betekent voor bestuurders

De meeste Europese organisaties die ChatGPT vandaag gebruiken zouden het onder "scrutiny" niet kunnen verdedigen. Hier is waarom, en hoe verdedigbaar er werkelijk uitziet.

ChatGPT and GDPR compliance
ChatGPT and GDPR compliance

Elke paar maanden komt de vraag weer terug aan de bestuurstafel. Iemand heeft een artikel gelezen. Iemand hoorde dat de Italiaanse toezichthouder weer van zich liet horen. Juridische zaken stuurde een voorzichtige mail. En het antwoord dat uiteindelijk terug naar boven gaat is meestal een variant op

we hebben het enterprise-abonnement, er ligt een verwerkersovereenkomst, het zit goed.

Het zit waarschijnlijk niet goed. En dat komt niet doordat OpenAI slordig is geweest met compliance-papierwerk. Het komt doordat ChatGPT, als product en als systeem, op een niveau botst met de AVG dat geen enkele inkooplijst kan dichten. Bestuurders die het behandelen als een afvinkoefening dragen risico’s die ze nooit echt geprijsd hebben.

Dit stuk is voor de mensen die de titel van deze blog steeds horen langskomen en willen begrijpen welke mechaniek eronder zit.

Wat de AVG eigenlijk vraagt van een AI-systeem

De AVG kan het niets schelen of iets AI heet of niet. Het gaat om persoonsgegevens, en de wet stelt grofweg vier vragen aan iedereen die ze verwerkt.

Is er een rechtsgrond onder artikel 6. Toestemming, overeenkomst, gerechtvaardigd belang, een van de opgesomde grondslagen. Zonder zo’n grondslag is de verwerking onrechtmatig. Is de verwerking transparant ,zijn de betrokkenen verteld wat er met hun gegevens gebeurt en waarom, zoals artikel 13 en 14 voorschrijven. Kunnen betrokkenen hun rechten ook daadwerkelijk uitoefenen als ze daarom vragen: inzage, rectificatie, verwijdering, bezwaar. En kan de verwerkingsverantwoordelijke verantwoording afleggen, niet enkel beweren dat het in orde is.

Dat zijn de meetlatten. Houd ChatGPT er nu eens naast.

Het probleem van de trainingsdata

ChatGPT is getraind op enorme hoeveelheden tekst die van het open web zijn geschraapt. In die tekst zaten de persoonsgegevens van miljoenen EU-burgers. Namen. Biografische details. Opinies geschreven toen de auteur twintig was en die hij nu liever zou vergeten. Rechterlijke uitspraken, forumposts, alt-tekst die foto’s van herkenbare mensen beschrijft. Geen van die mensen heeft toestemming gegeven. Niemand is geïnformeerd. De meesten hebben geen idee dat hun gegevens nu zitten verweven in de statistische gewichten van een model dat honderden miljoenen mensen elke week gebruiken.

De AVG kent geen categorie voor “we hebben er al op getraind, dus de vraag is gesloten.” De vraag naar de rechtsgrond geldt nog steeds. Transparantie ook. Het recht op verwijdering ook. Dit is de kern van het bezwaar van de Italiaanse Garante, en de reden dat andere Europese toezichthouders rond hetzelfde punt blijven cirkelen: er is geen schoon antwoord op die vragen zodra de data eenmaal in een model is opgenomen.

OpenAI voert gerechtvaardigd belang aan als grondslag. Of dat een belangenafweging overleeft, afgewogen tegen de rechten van mensen die nooit de kans hebben gehad om bezwaar te maken, is een open vraag waar Europese toezichthouders duidelijk niet tevreden mee zijn. Verschillenden hebben dat ook al gezegd.

Wat er gebeurt als een medewerker het chatvenster opent

Laat het trainen even links liggen. Het tweede probleem begint op het moment dat een medewerker iets in het promptvak plakt.

Een accountmanager bij een Nederlandse verzekeraar zet een klantmail in ChatGPT om sneller een antwoord te kunnen opstellen. In die mail staan een naam, een adres, een polisnummer, een klacht over een recente schade. Op het moment dat het de laptop verlaat zijn er persoonsgegevens overgedragen aan een verwerker. Nu stapelen de vragen zich op. Was er een rechtsgrond voor juist die overdracht. Is de klant verteld dat haar klacht door een Amerikaanse AI-leverancier zou worden verwerkt. Dekt de verwerkersovereenkomst werkelijk wat hier net is gebeurd. Waar is de data fysiek terechtgekomen. Wie bij OpenAI, of bij welke subverwerker, kan er technisch bij. Hoe lang wordt het bewaard. Kan het op verzoek verwijderd worden, en zo ja, vanwaar precies.

De meeste organisaties kunnen die vragen niet eens beantwoorden voor één enkele prompt, laat staan voor de duizenden die hun medewerkers elke week versturen. Het enterprise-abonnement helpt bij sommige ervan. Het verandert de onderliggende stroom niet in iets wat een Functionaris Gegevensbescherming met droge ogen aan een toezichthouder kan uitleggen.

Het doorgifteprobleem dat niemand wil heropenen

Dan is er nog de vraag waar de data eigenlijk naartoe gaat, en wie er juridisch bij kan zodra die er is. Schrems II is geen oud nieuws. Het is de actuele werkelijkheid dat elke doorgifte van EU-persoonsgegevens naar de Verenigde Staten een lat moet halen die de meeste Amerikaanse aanbieders ongemakkelijk vinden. Het EU-US Data Privacy Framework heeft een deel van de wond gedicht, maar die pleister is politiek kwetsbaar en wordt nu al bij de rechter aangevochten.

En de pleister raakt het deel dat voor een tool als ChatGPT het meest ertoe doet niet: de Amerikaanse CLOUD Act. De CLOUD Act stelt Amerikaanse autoriteiten in staat een Amerikaans bedrijf te dwingen data te overhandigen die het in zijn bezit, beheer of zeggenschap heeft, ongeacht waar de servers toevallig staan. OpenAI is een Amerikaans bedrijf. Microsoft, dat een groot deel van de onderliggende infrastructuur host, ook.

"Gehost in Europa” zegt iets over waar de machines staan. Het zegt niets over welk rechtssysteem het moederbedrijf moet beantwoorden als er een rechterlijk bevel binnenkomt, en dat kan ook niet, want het antwoord blijft hetzelfde.

Voor een Europese verwerkingsverantwoordelijke is dit het deel met écht juridisch gewicht. Elke contractuele clausule kan getekend zijn, elke technische maatregel kan ingericht zijn, en het Amerikaanse moederbedrijf van de leverancier kan volgende dinsdag alsnog een CLOUD Act-bevel ontvangen voor data die bij zijn Europese dochter ligt. De Europese klant hoort het misschien nooit, want geheimhoudingsbepalingen zijn onderdeel van het regime. De AVG staat dat soort openbaarmaking niet toe. De CLOUD Act vraagt de AVG geen toestemming. De verwerkingsverantwoordelijke is degene die in dat gat staat.

Daarom is “soeverein” in soevereine AI geen marketingtaal. Het betekent dat de juridische entiteit, de infrastructuur en de keten van zeggenschap allemaal onder Europees recht vallen, zonder Amerikaans moederbedrijf in de structuur dat ergens anders een bevel opgelegd kan krijgen.

Waar de rechten van betrokkenen botsen met een probabilistisch systeem

Dit is het stuk dat de meeste bestuurders nog nooit uitgelegd hebben gekregen, en het is hier dat de diepste niet-naleving zit.

De AVG geeft elke betrokkene het recht om te weten welke persoonsgegevens een organisatie over hem heeft, om die te corrigeren als ze onjuist zijn, en om ze in veel gevallen te laten verwijderen. Die rechten zijn geschreven voor een wereld van databases. Rijen, velden, records. Je bevraagt de database, je vindt het record, je past het aan of verwijdert het, je bevestigt dat het weg is.

Een groot taalmodel werkt zo niet. Er zijn geen rijen. De “kennis” die het model over een persoon heeft is nergens opgeslagen waar je naar kunt wijzen. Het zit verspreid over miljarden numerieke gewichten die tijdens het trainen ietsje verschoven, als reactie op tekst waarin die persoon voorkwam. Je kunt het model niet openen en het record van Jan de Vries vinden. Je kunt het model bevragen en zien wat het over Jan de Vries zegt, en het antwoord kan kloppen, deels onjuist zijn, volledig verzonnen, of de volgende keer anders. Niets daarvan is op te lossen met een database-update.

Dus als Jan zijn artikel 15-recht op inzage uitoefent en vraagt welke persoonsgegevens het systeem over hem bevat, is er geen eerlijk antwoord. Als hij zijn artikel 16-recht op rectificatie uitoefent omdat het model tegen mensen blijft zeggen dat hij veroordeeld is voor iets wat hij niet gedaan heeft, is er geen mechanisme om naar binnen te reiken en de gewichten te corrigeren. Als hij zijn artikel 17-recht op verwijdering uitoefent, is de enige reële optie een filter bovenop het model dat de output onderdrukt. Dat is geen verwijdering, en een toezichthouder zal vroeg of laat opmerken dat het geen verwijdering is.

Dit is geen kwirkje dat in de volgende release wordt gepatcht. Het is de kern van waarom een model dat op persoonsgegevens is getraind ongemakkelijk past binnen een verordening die rond het recht op zeggenschap over je eigen informatie is gebouwd.

Een scenario om even bij stil te staan

Stel je een middelgrote Nederlandse financiële dienstverlener voor. Zo’n 400 medewerkers. Achttien maanden geleden hebben ze ChatGPT Enterprise uitgerold. Juridische zaken zette een handtekening onder de verwerkersovereenkomst, IT zette SSO aan, communicatie stuurde een opgewekte mail over productiviteit, en niemand maakte er een punt van, want het inkoopverhaal zag er schoon uit.

Dan dient een klant een klacht in bij de Autoriteit Persoonsgegevens. Ze had de organisatie onder artikel 15 gevraagd welke persoonsgegevens er over haar werden bijgehouden. De organisatie stuurde haar de gebruikelijke export uit het CRM. Wat ze eigenlijk wilde weten, en wat ze in haar klacht zette, was of haar gegevens door ChatGPT waren verwerkt. Ze had reden om dat te denken, want een servicemail die ze ontving had een toon die niet bij de huisstijl van de organisatie paste.

De AP opent een onderzoek en begint vragen te stellen. Welke medewerkers ChatGPT hebben gebruikt voor klantcorrespondentie. Welke persoonsgegevens er in die prompts terechtkwamen. Op welke rechtsgrond. Of de klant geïnformeerd was. Waar de verwerking plaatsvond. Welke subverwerkers er toegang hadden. Of de organisatie een lijst kan produceren van elke prompt die de afgelopen twee jaar gegevens van deze klant bevatte. Of de organisatie kan bevestigen dat niets ervan in modelverbetering is beland. Of de organisatie kan aantonen, niet enkel beweren, dat de data uit elk systeem dat het heeft aangeraakt is verwijderd.

De organisatie kan het meeste niet beantwoorden. Niet omdat er kwade trouw in het spel is, maar omdat de tool nooit is gebouwd om dat soort audittrail op te leveren en de werkprocessen eromheen nooit met die verplichtingen in gedachten zijn ontworpen.

Het onderzoek escaleert. De verwerking wordt opgeschort hangende beoordeling. De organisatie moet nu aan haar grootste zakelijke klanten, die hun eigen verwerkersovereenkomsten met doorlopende verplichtingen hebben, vertellen dat een toezichthouder onderzoek doet naar haar omgang met persoonsgegevens. Twee van die klanten zetten hun verlenging in de wacht terwijl hun eigen juristen ernaar kijken.

Niets in dat verhaal vereist kwade opzet. Het vereist alleen dat de toezichthouder de voor de hand liggende vragen stelt en dat de antwoorden de eerlijke zijn.

Wat bestuurders eigenlijk dragen

Boetes zijn het kop-risico en het minst interessante. Ja, de AVG staat boetes toe tot vier procent van de wereldwijde jaaromzet. Die zijn echt. Maar de praktische risico’s zijn stiller en komen sneller aan.

Een toezichthouder kan opdragen om de verwerking te staken. Van de ene dag op de andere. Als je klantenservice, je contractopstelling, je interne kennisuitwisseling allemaal afhangen van een tool die net is opgeschort, dan komt het continuïteitsprobleem eerder dan de boete. Er is ook nog de contractuele blootstelling: elke serieuze B2B-klant heeft tegenwoordig verwerkersvoorwaarden die verplichtingen doorgeven aan zijn leveranciers, en “onze AI-leverancier is opgeschort” is geen verweer dat die klanten met begrip zullen ontvangen. En dan de reputatiestaart, die langer doorzeurt dan beide, want “door de toezichthouder onderzocht vanwege zijn AI-gebruik” is het soort kop dat een merk jaren achtervolgt.

Het diepste risico is het risico dat helemaal niet op een risicoregister staat. Het is het risico dat je werkprocessen hebt opgebouwd op een systeem dat een toezichthouder uit kan zetten, en dat je daar pas achterkomt op de dag dat ze het ook doen.

Hoe verdedigbaar er werkelijk uitziet

Je kunt generatieve AI binnen een Europese organisatie gebruiken op een manier die scrutiny doorstaat. Het ziet er alleen anders uit dan “we hebben ChatGPT Enterprise gekocht.”

De rechtsgrond is vooraf vastgelegd, op papier, voordat de eerste prompt wordt verstuurd. De infrastructuur houdt de data binnen de EU, helemaal tot in de subverwerkersketen, niet alleen aan de voordeur. De leverancier valt onder Europees recht, zonder moederbedrijf elders dat gedwongen kan worden de data af te staan. De contractuele toezegging dat klantdata het onderliggende model niet traint of verbetert is verifieerbaar, niet alleen beloofd. De audittrail is iets dat een Functionaris Gegevensbescherming daadwerkelijk aan een toezichthouder kan overhandigen. De relatie tussen verwerkingsverantwoordelijke en verwerker is zo ingericht dat er, als de lastige vragen komen, antwoorden klaarliggen.

Niets hiervan is exotisch. Het is wat de AVG sinds 2018 vraagt. Het enige dat is veranderd is dat generatieve AI het veel moeilijker heeft gemaakt om te doen alsof.

Wat je terug naar tafel neemt

De vraag is niet of ChatGPT in Europa verboden is. Dat is het niet, en het zal het waarschijnlijk ook niet worden. De vraag is of je organisatie, op de dag dat een toezichthouder vraagt hoe ze het heeft gebruikt, antwoorden heeft die de moeite van het verdedigen waard zijn. De meeste organisaties die het standaardproduct vandaag gebruiken hebben dat niet. Ze hebben een tool geërfd die voor een ander reguleringsklimaat is gebouwd en hem ingepakt in papierwerk dat niet bij het onderliggende probleem komt.

Dat is het gat dat de moeite van het dichten waard is. Niet omdat de koppen het zeggen, maar omdat de mechaniek het zegt.

Over GLBNXT

GLBNXT bouwt soevereine AI-infrastructuur voor Europese organisaties die onder de AVG werken. EU-gehost, geen Amerikaans moederbedrijf in de keten, geen training op klantdata, ontworpen voor de auditvragen voordat ze gesteld worden.

Deze website en de inhoud ervan zijn het exclusieve eigendom van GLBNXT. Geen enkel deel van deze site, inclusief tekst, afbeeldingen of software, mag worden gekopieerd, gereproduceerd of verspreid zonder voorafgaande schriftelijke toestemming van GLBNXT B.V. located at Druivenstraat 5-7, 4816 KB Breda, The Netherlands, registered with the Dutch Chamber of Commerce (KvK) under number 95536779. VAT identification numer (VAT ID) NL867171716B01. All rights reserved.

Deze website en de inhoud ervan zijn het exclusieve eigendom van GLBNXT. Geen enkel deel van deze site, inclusief tekst, afbeeldingen of software, mag worden gekopieerd, gereproduceerd of verspreid zonder voorafgaande schriftelijke toestemming van GLBNXT B.V. located at Druivenstraat 5-7, 4816 KB Breda, The Netherlands, registered with the Dutch Chamber of Commerce (KvK) under number 95536779. VAT identification numer (VAT ID) NL867171716B01. All rights reserved.

Deze website en de inhoud ervan zijn het exclusieve eigendom van GLBNXT. Geen enkel deel van deze site, inclusief tekst, afbeeldingen of software, mag worden gekopieerd, gereproduceerd of verspreid zonder voorafgaande schriftelijke toestemming van GLBNXT B.V. located at Druivenstraat 5-7, 4816 KB Breda, The Netherlands, registered with the Dutch Chamber of Commerce (KvK) under number 95536779. VAT identification numer (VAT ID) NL867171716B01. All rights reserved.

Deze website en de inhoud ervan zijn het exclusieve eigendom van GLBNXT. Geen enkel deel van deze site, inclusief tekst, afbeeldingen of software, mag worden gekopieerd, gereproduceerd of verspreid zonder voorafgaande schriftelijke toestemming van GLBNXT B.V. located at Druivenstraat 5-7, 4816 KB Breda, The Netherlands, registered with the Dutch Chamber of Commerce (KvK) under number 95536779. VAT identification numer (VAT ID) NL867171716B01. All rights reserved.