Synthetische data voor een schone digitale toekomst
‘Data is het nieuwe olie’, aldus het bijna ingeburgerde gezegde. En dat is niet zonder reden: de digitale wereld drijft op data. Alle algoritmes die een ervaring op het internet verbeteren, of überhaupt mogelijk maken, hebben data nodig – net zoals onze fysieke wereld vaak brandstof verbruikt. Die digitale data-brandstof komt in verschillende vormen, maar de meest voorkomende én meest waardevolle vorm is tabular data. Dat is data die je in een tabel kan plaatsen, zoals bijvoorbeeld de likes die je uitdeelt op een sociaal medium, je koopgedrag met je credit card of nog persoonlijker: je gehele medische geschiedenis. Omdat tabular data heel gedetailleerd kan zijn is het ontzettend waardevol. En dat is dan ook gelijk het nadeel: hoe gedetailleerder tabular data wordt, hoe meer de privacy van gebruikers in het geding komt. Samen met de ervaren co-founders Iman Alipour en Edwin Kooistra en ondersteund door Delft Enterprise is Lydia Chen BlueGen.ai gestart om daar wat aan te doen, door te werken aan synthetische data. En net als synthetische olie moet synthetische data de wereld een stuk schoner maken.
Drie vliegen in één klap
Chen begint een gesprek over haar onderzoek graag met een ontnuchterende boodschap ‘Big Data is in de meeste gevallen niets meer dan een buzzwoord: de meeste datasets zijn ontzettend klein. Alhoewel die best waardevol kunnen zijn, is het ontzettend moeilijk om er mee te werken. Vaak weet niemand wat er met die data gedaan moet worden, zelfs niet als de dataset groot is.’ Het gaat haar om de paar uitzonderingen, organisaties die gigantische datasets verzamelen en die niet openbaar maken of delen – daar zit het probleem. Denk dan bijvoorbeeld aan de privé-gegevens die social media op grote schaal verzamelen en gebruikt om gerichte advertentieruimte te verkopen. ‘Omdat ik goed weet wat de kracht kan zijn van goede datasets en algoritmes, ben ik erg huiverig voor die datahonger. Ik probeer mijn persoonlijke data zo min mogelijk te delen met bedrijven, alhoewel dat best lastig is af en toe.’
Alhoewel Chen dus persoonlijk gemotiveerd is om de privacy van big data te verbeteren, en ook goed besefte welke uitdagingen en kansen er lagen, was het nooit de focus van haar academisch onderzoek. Het was pas toen ze spontaan benaderd werd door een verzekeraar, dat alle puzzelstukjes plotseling op hun plaats vielen. ‘Opeens klikte het!’ Ze begint te glunderen als ze het erover heeft. ‘Een verzekeraar vroeg me of ik een manier kon bedenken hoe zij data met hun zustermaatschappijen kunnen delen, zonder dat het daarbij inbreuk doet op de privacy van de klanten. Tussen neus en lippen door vroegen ze naar de mogelijkheden van synthetische data. En toen wist ik het! Onze nieuwe algoritmes kunnen ze helpen! Sterker nog: we kunnen niet alleen deze partij helpen, maar waarschijnlijk ook heel veel andere. Door op een betrouwbare manier ‘nepdata’ te maken die statistisch identiek zijn aan originele datasets. Zulke ‘nepdata’ kun je namelijk zorgeloos delen, je deelt immers geen privégegevens. Het was een fantastische ingeving, die we trouwens samen met het hele team hadden. We beseften allemaal dat we met synthetische data in één keer drie grote problemen kunnen oplossen: je kunt datasets zonder moeite vergroten, waardoor je snel inzicht krijgt in patronen waardoor je de juiste vragen kunt stellen – maar misschien wel het belangrijkste: datahonger hoeft niet meer ten koste te gaan van privacy!’ Investeerders zagen de potentie ook al snel, waardoor Chen en haar team het initiatief commercieel maakten met hun start-up BlueGen.ai.
Datahonger hoeft niet meer ten koste van privacy te gaan!
Een verantwoord alternatief
De synthetische data van Chen is niet het enige initiatief om verantwoordelijker om te gaan met datasets. Sinds de invoering van AVG hebben bedrijven allerlei methodes aangewend om verantwoord met hun data om te kunnen gaan. De belangrijkste daarvan zijn: anonimiseren, differentieren en versleutelen. De eerste oplossing is de simpelste: je haalt alle data weg die direct te relateren is aan één individu, zoals voor- en achternamen. Toch is de dataset dan alles behalve privé: ‘als de rest van de data specifiek genoeg is, zijn gevoelige gegevens alsnog te herleiden tot één specifiek persoon.’ Chen noemt daarbij graag het voorbeeld van ziekenhuisdata: zelfs zonder naam kun je individuele patiënten herkennen, puur door te kijken naar hun gevoelige patiëntgegevens. Differentieren is wat dat betreft een betere oplossing: alle gegevens die potentieel gevoelig of privé zijn, pas je gewoon een klein beetje aan. ‘Het grote probleem is dat je dataset dan een stuk slechter wordt. En bovendien, als je slordig differentieert, dan is gevoelige data nog steeds te herkennen.’
Met versleutelen wordt alle data ge-encrypt, wat betekent dat het zonder wachtwoord niets meer dan gigantische reeks willekeurige getallen. ‘Maar zelfs dan: grote data-partijen zijn zo slim, dat ze uit dit soort versleutelde datasets toch altijd privé-gegevens weten te vergaren. Het is alsof je iets in een doos stopt. Inderdaad, dan kun je niet meer zien wat het is, maar als je de doos schudt, dan kun je nog steeds goed inschatten wat de inhoud is’, legt ze uit. Laat staan dat de doos af en toe geopend wordt.
Synthetische data kent geen enkel van deze nadelen. ‘Maar het feit dat je datasets naar wens kan vergroten, dat is misschien wel even belangrijk!’, haast Chen om toe te voegen. ‘Ik ben er van overtuigd dat al in de vrij nabije toekomst 20 tot 30% van de data synthetisch is. Je kunt het dan vergelijken met synthetisch leer.’ Net als met leer, kun je best zien dat het nep is. Als je goed kijkt en voelt. Maar als je geen andere stof hebt, dan is nepleer de ideale oplossing – net als synthetische data. ‘Ik hoop dat we vooral ook heel veel jonge onderzoekers gaan helpen. Die moeten nu nog onderzoek doen met veel te kleine, moeilijk bruikbare datasets. Ik weet uit ervaring wat voor een handicap dat kan zijn. Met BlueGen.ai willen we dat iedereen een dataset met gemak kan vergroten, zodat je je kan richten op waar het om gaat: data-analyse.
Een computer die zichzelf voor de gek houdt
Maar hoe maak je data? Dat begint allemaal met een ‘generative adversarial network’, een manier van ‘machine learning’ waarbij je een programma vraagt om zichzelf voor de gek te houden. Het programma bestaat daarom uit twee delen: een generator en een discriminator. De generator probeert zo echt mogelijke data te maken. Bijvoorbeeld een tabel met het lichaamsgewicht van een groep mensen. In het begin gaat dat helemaal mis, en zal het programma stellen dat er lichtgewichten van enkele kilo’s rondlopen, samen met mensen van een ton. Het is aan de discriminator om dit door te hebben: die vergelijkt de synthetische data met echte data. Als de discriminator ziet dat de datasets amper op elkaar lijken, dan wordt de generator opnieuw aan het werk gezet. Die krijgt daarbij dan gelijk aanwijzingen om het deze keer beter te doen. Zo maakt de generator data die steeds nauwkeuriger is, totdat de discriminator het niet meer kan onderscheiden van de echte data. Dan is de GAN (kort voor ‘generative adverserial network’) geslaagd en er is synthetische data.
‘We hebben ons in eerste instantie gericht op het verbeteren van GAN’s. Daarbij hebben we technieken gebruikt die bijvoorbeeld al gebruikt worden voor het maken van visuele data. Die programma’s zijn al heel ver, en kunnen akelig goed nepfoto’s maken. In de mode wordt het daarom al veel gebruikt: nieuwe kledingontwerpen worden vaak gemaakt door GAN’s. De mode-ontwerper doet niets meer dan de mooiste GAN-ontwerpen iets aan te passen’, vertelt Lydia met een lichte fascinatie.
Het omvormen van dit soort ‘tried and tested’ GANs naar programma’s die tabular data kwam in de vorm van CTAB-GAN. Deze uitvinding van Lydia en haar team is het meest effectieve algoritme ooit in het namaken van tabular data. De eerste positieve resultaten daarvan werden in februari 2021 gepubliceerd. ‘Maar we zijn er nog niet, zo moeten we ons goed bewust zijn van de risico’s van biases’, voegt ze snel toe. Er is namelijk het risico dat als je een GAN traint er vooroordelen worden ingebouwd. Om weer het voorbeeld van een ziekenhuis te nemen: als je een GAN traint met data van een ziekenhuis uit een stedelijk omgeving, dan is die data niet van toepassing is voor een landelijk ziekenhuis. Als je toch blind vertrouwt op die data loop je het risico om grote problemen te negeren. ‘Het elimineren van dit soort risico’s is onze volgende grote mijlpaal’, aldus Lydia.
Nepdata weliswaar, maar statistisch zo goed als echte data.
Ziekenhuizen komen niet per toeval naar voren als voorbeeldsituatie. Sterker nog, ze zijn voor BlueGen.ai de eerste grote markt. Chen: ‘We willen alle ziekenhuizen met elkaar verbinden. Nu hebben ze ieder ontzettend waardevolle patiëntdata, en daarmee inzichten die potentieel mensenlevens kunnen redden in andere ziekenhuizen – maar die data kan de organisatie niet verlaten.’ Gelukkig is er een oplossing: een ‘federated network’ van GANs. Binnen dit netwerk kunnen ziekenhuizen onbelemmerd hun data-inzichten met elkaar delen. ‘Ieder ziekenhuis krijgt van BlueGen.ai het gereedschap om zijn eigen GAN te trainen, op voorwaarde dat ze de GAN daarna teruggeven. Wij treden dan op als ‘federator’: we verzamelen én combineren al die verschillende GANs. Door die GANs vervolgens weer terug te verdelen, verdeel je via een omweg ook data met elkaar. ‘Nepdata weliswaar, maar statistisch zo goed als hetzelfde als echte data, en daarom voor onderzoeksdoeleinden ontzettend waardevol.’
Zo’n ‘federated network’ is trouwens in veel meer vakgebieden toepasbaar. Het is dan ook de droom van Chen om BlueGen.ai uit te laten uitgroeien tot dé autoriteit op het gebied van synthetische data. ‘Wie weet direct als marktleider’, voegt ze graag toe met een lach. ‘In ieder geval hebben we met onze combinatie van technologische en zakelijke ervaring alle ingredienten in huis om hier een succes van te maken. Zo kunnen we belangrijke tools ontwikkelen om datawetenschappers uit allerlei verschillende hoeken te helpen. Van het delen van data met partners, tot het vergroten van datasets.’ BlueGen.ai zal uitgroeien tot de verbindende factor in een gemeenschap van datawetenschappers, hoopt Lydia, van ziekenhuizen tot bijvoorbeeld bankiers en verzekeraars. En als je goed doorvraagt geeft ze toe: ‘de grote databedrijven zijn zich heel goed bewust van ons potentieel: ze houden ons goed in de gaten’.
Lydia Chen
Visiting Address
Building 28
Room: 180 East 3rd floor
Van Mourik Broekmanweg 6
2628 XE Delft
Mailing Address
EEMCS, Distributed Systems
P.O. Box 5031, 2600 GA Delft
The Netherlands