Orde scheppen in chaos: datavisualisatie
Als je meer wilt weten over het onderzoek van Thomas Höllt, kun je gewoon zijn werk bekijken. Het zou - voor het getrainde oog - voor zichzelf moeten spreken. En wat je dan ziet, varieert van de spreiding van eiwitten in cellen tot de verschillende lagen in een oud schilderij van Vermeer. Zijn visualisatieplatform helpt biologen niet alleen om te begrijpen hoe het immuunsysteem werkt, het helpt hen ook om tot de kern van ziekten door te dringen en gespecialiseerde behandelingen te ontwikkelen. En het kan ook worden gebruikt om schilderijen van onschatbare waarde te identificeren en in kaart te brengen, en zou nog veel meer toepassingen kunnen hebben. "Ik vind het echt motiverend om te zien dat onderzoekers het platform dat ik heb ontwikkeld kunnen gebruiken om wetenschappelijke ontdekkingen te doen", zegt Thomas enthousiast.
Duidelijke, begrijpelijke en interactieve beelden
Met behulp van datavisualisatie kunnen onderzoekers orde scheppen in de chaos. "Computergraphics kunnen bijvoorbeeld beelden zijn die gegenereerd worden voor een tekenfilm. Ik werk op het gebied van visualisatie, wat verwant is aan computergraphics," legt Thomas uit, "maar toch een beetje anders." Binnen visualisatie genereren onderzoekers beelden op basis van gegevens. "Door middel van visualisatie willen we dat de informatie uit deze gegevens zo gemakkelijk mogelijk te begrijpen is voor ons menselijk visueel systeem," legt Thomas uit.
Met andere woorden: datavisualisatie wordt gebruikt om duidelijke, begrijpelijke en interactieve afbeeldingen te maken die datasets met een grote hoeveelheid complexe informatie weergeven. Thomas werkt aan algoritmes om deze visuals efficiënt te maken. "Ik werk meestal met gegevens die hoogdimensionaal zijn. Dit betekent dat elk item in de dataset kan worden omschreven aan de hand van veel variabelen of attributen", verduidelijkt Thomas. Dit kunnen bijvoorbeeld biologische gegevens zijn. Een dataset met DNA-sequentiemetingen kan duizenden genen hebben die één enkel monster of één enkel item in zo'n dataset beschrijven. "Wij mensen kunnen ons heel moeilijk voorstellen hoe zulke hoogdimensionale gegevens eruit zien", zegt Thomas. "Daarom ontwikkel ik methoden om deze gegevens zo te visualiseren dat we ze daadwerkelijk kunnen begrijpen op een 2D computerscherm." Maar het maken van de visualisaties is slechts één aspect, zegt Thomas. "We combineren visualisatie met interactie. We stellen de persoon die naar de visualisatie kijkt in staat om in te zoomen op de gevisualiseerde gegevens, om te filteren op specifieke eigenschappen of om meerdere visuele weergaven te combineren om verschillende perspectieven op de gegevens te krijgen."
Visueel platform voor miljoenen cellen
"Acht jaar geleden begon ik als postdoc aan de TU Delft", blikt Thomas terug. Hij begon direct een samenwerking met het Leids Universitair Medisch Centrum (LUMC). "Bij het LUMC hadden ze net een nieuwe machine gekregen waarmee ze de eigenschappen van cellen konden bepalen, een zogenaamde Mass Cytometer", legt Thomas uit. Met deze machine kunnen onderzoekers bloed- of weefselmonsters van vrijwilligers gebruiken om informatie uit individuele cellen te halen.
Onderzoekers in het LUMC hadden destijds gegevens verzameld over miljoenen cellen in een dataset. "Ik begon te werken aan software die ze in het ziekenhuis konden gebruiken om de gegevens te bekijken", vertelt Thomas. "En dat werd wat nu bekend staat als het Cytosplore platform. Dat is een interactief visueel analysesysteem waarmee onderzoekers kunnen begrijpen hoe het immuunsysteem werkt. Het doel is om een duidelijk beeld te geven van de samenstelling van de cellen van het immuunsysteem, en hun eigenschappen en functionaliteit." Als je naar het Cytosplore platform kijkt, zie je dat de cellen, de eiwitten en de celeigenschappen allemaal worden weergegeven door verschillende gekleurde stippen, van verschillende vormen en groottes, en op verschillende afstanden van elkaar. Je kunt ook inzoomen op de gegevens en meer ontdekken over de eigenschappen van een cluster van cellen of eiwitten. De patronen binnen deze clusters geven onderzoekers veel inzichten in de cellen.
"Toen we net begonnen, hadden onderzoekers duizenden cellen in een dataset. Nu zitten er miljoenen cellen in een typische dataset. De grootste dataset die we hadden bevatte ruwweg 30 miljoen", voegt hij eraan toe. "En de eiwitten die we kunnen meten zijn er op dit moment ongeveer 50 per cel. De software zou technisch gezien nog meer kunnen verwerken."
Ziekten bij de wortel aanpakken
Met behulp van het Cytosplore platform kunnen biologen vaststellen of de cellen van patiënten met een bepaalde ziekte andere eigenschappen hebben dan die van gezonde mensen. Het kan inzicht geven in de verschillen in de samenstelling van de cellen van het immuunsysteem, evenals informatie over de verschillende toestanden van een ziekte.
"Het kan gebruikt worden om auto-immuunziekten te bestuderen, zoals de ziekte van Crohn. Dit soort onderzoek kan worden gebruikt om de gezondheid van het maagdarmkanaal te verbeteren", legt Thomas uit. Het platform kan ook worden gebruikt om ziekten als malaria en bepaalde soorten kanker te bestuderen, en het kan misschien zelfs de weg vrijmaken voor gespecialiseerde behandelingen of medicijnen voor ziekten. "Verschillende soorten kanker zijn bijvoorbeeld ook verschillend per persoon", illustreert Thomas. "Inzicht krijgen in de opbouw van iemands cellen geeft waardevolle informatie richting een persoonlijke behandeling."
Inzicht krijgen in de opbouw van iemands cellen geeft waardevolle informatie richting een persoonlijke behandeling.
Geen pijpleiding
"Er zijn andere - vergelijkbare - tools die ook gebruik maken van visualisatie. Maar ze zijn als een pijpleiding. Je stopt gegevens aan de ene kant in de pijpleiding en aan de andere kant komt er een visualisatie uit", verduidelijkt Thomas. Onderzoekers moeten erop vertrouwen dat alles wat er in deze pipeline gebeurt ook echt werkt. Als bijvoorbeeld het clusteren van gegevens niet goed is gegaan, moeten ze helemaal terug naar het begin.
Via het Cytosplore platform kunnen onderzoekers de gegevens bij elke stap van de analyse bekijken. Als er sprake is van een groepering van cellen - dus een groep gelijksoortige cellen - kunnen onderzoekers direct de uitkomst zien. Wanneer onderzoekers naar deze dataset kijken, is de groepering echt logisch. "Deze interactiviteit en het daadwerkelijk tonen van de gegevens bij elke stap in het analyseproces is volgens mij wat het anders maakt dan andere methoden op dit gebied", zegt Thomas.
De geheimen van Vermeer blootleggen
"Naast mijn samenwerking met het LUMC heb ik ook samengewerkt met het Rijksmuseum", vertelt Thomas. Op dit gebied wordt visualisatie gebruikt voor het in kaart brengen van schilderijen. Er zijn visualisatiemethoden die bijvoorbeeld kunnen meten welke chemische elementen zich op bepaalde posities in een schilderij bevinden. "Visualisatie is erg nuttig voor dit veld omdat dit ook hoogdimensionale data is. Elke pixel wordt beschreven door tientallen chemische elementen", legt Thomas uit. De visualisatie toont de verdeling van verschillende pigmenten in het schilderij of hoe ze gelaagd zijn. Dit helpt onderzoekers om alle verschillende onderdelen van schilderijen van onschatbare waarde te identificeren.
Thomas legt uit dat er nog veel meer toepassingen van visualisatieplatforms mogelijk zijn. "Bijvoorbeeld binnen verzekeringsmaatschappijen. Elk verzekeringsdossier bevat veel informatie en dat vormt ook een hoogdimensionale dataset." Verzekeringsmaatschappijen kunnen - bijvoorbeeld - visualisatiemethoden gebruiken om fraudegevallen te groeperen of te visualiseren in een grotere dataset. En als deze fraudegevallen in een groep zitten met andere gevallen, zijn die mogelijk ook frauduleus.
"Visualisatieplatforms kunnen zeer effectief worden gebruikt in elk veld met gegevens die bestaan uit een groot aantal variabelen of attributen", deelt Thomas, "zoals de beeldende kunst en allerlei industriële toepassingen."
Data wordt steeds belangrijker in onze samenleving en dat zal zo blijven.
Het platform voor zichzelf laten spreken
"Soms ben ik bang dat de software die ik maak niet met voldoende kennis van zaken wordt gebruikt", zegt Thomas. "Ik herinner me een artikel waarvoor ze de software gebruikten en ze deden een analyse die absoluut niet logisch was, althans vanuit mijn perspectief."
Een van de dingen waar Thomas zich dus op richt, is om zijn visualisatietools zo te maken dat ze voor zichzelf spreken. "Ik werk aan deze vraag: Kan ik de interpretatie van de visuele weergave meer fail-safe maken? Ik wil het algoritme dat de visuele weergave creëert uitleggen aan de hand van de visuele weergave zelf. En ik wil ervoor zorgen dat het niet verkeerd geïnterpreteerd wordt. Mijn ambitie is om tools te maken die onderzoekers gemakkelijk kunnen gebruiken. Ik wil dat ze het resultaat begrijpen zonder dat ze de gebruikte methoden of zelfs de codering hoeven te kennen."
Daarnaast staat Thomas ook voor een aantal uitdagingen als het gaat om het steeds sneller maken van de algoritmes die hij gebruikt. "De computer kan de snelheid van de groeiende datasets niet bijhouden", legt Thomas uit. "We kunnen geen supercomputers - zoals de DelftBlue supercomputer - gebruiken om de software te ontwikkelen. Want de software die ik bouw moet eigenlijk op normale machines draaien, zoals een desktopcomputer of laptop. We willen dat iedereen het kan gebruiken, ook binnen bijvoorbeeld ziekenhuizen."
Altijd ruimte voor visualisatie
"Data wordt steeds belangrijker in onze samenleving en dat zal zo blijven", benadrukt Thomas. "Artificial Intelligence (AI) zal de komende jaren steeds meer gebruikt worden om data automatisch te analyseren. Maar er is ook een toenemend besef dat we kritieke beslissingen niet alleen aan AI kunnen overlaten (dit wordt zelfs gespecificeerd in een EU-richtlijn). We hebben een mens nodig die de uiteindelijke beslissing neemt, terwijl hij de door AI gegenereerde informatie gebruikt. En we hebben een manier nodig om de door AI gegenereerde informatie te communiceren naar de mens die de beslissingen neemt. Vaak zal deze informatie in visuele vorm worden aangeboden. Hoe deze informatie te visualiseren zal een groot deel van ons onderzoek blijven uitmaken. Er zal altijd ruimte zijn voor visualisatie."
Ongelooflijk motiverend
"Ik vind het geweldig om te zien dat iets wat ik bedacht en geïmplementeerd heb, andere onderzoekers daadwerkelijk helpt om nieuwe (life science) ontdekkingen te doen", besluit Thomas enthousiast. "Ik zie visualisatie als een 'enabling science'. Het motiveert me echt om te zien dat we een tool als Cytosplore uit het niets hebben gemaakt, via software. Op een gegeven moment hebben we hierover nagedacht en het uitgewerkt, en dan zien dat onderzoekers het ook echt kunnen gebruiken. Daarom doe ik dit soort onderzoek."