Als je met grote datasets werkt, of met zelf ontworpen software, dan is open access publiceren niet genoeg als je écht aan open science wil doen, vindt Adarsh Kalikadien, promovendus aan de faculteit Technische Natuurwetenschappen. “Aan een PDF vol gedumpte data heb ik niks, ook al is die gratis toegankelijk. Data en code open publiceren is pas nuttig als iemand anders er iets mee kan.”
Van frustratie naar inspiratie
De frustratie ontstond toen Kalikadien zijn eigen software ChemSpaX ontwikkelde tijdens zijn masteronderzoek, een tool die in 3D variaties op katalysatoren ontwerpt. “Ik moest het programma helemaal vanaf nul schrijven. Open source tools van anderen waren onbruikbaar of moest ik te veel aanpassen. Soms was de code zo rommelig, dat het doel ervan onvindbaar bleek.” Uit het masterproject rolden twee publicaties en een 10 als eindcijfer.
Probleem: je data goed organiseren en je code op een bruikbare manier schrijven kosten veel tijd en energie. “En die heb je als PhD’er door alle andere eisen die er aan je gesteld worden eigenlijk niet”, zegt Kalikadien. Toch ging hij ervoor. Het gebrek aan goede documentatie in de academische wereld was voor hem zelfs de belangrijkste reden om te starten met zijn huidige PhD-project.
Adarsh Kalikadien
"Aan een PDF vol gedumpte data heb ik niks, ook al is die gratis toegankelijk. Data en code open publiceren is pas nuttig als iemand anders er iets mee kan."
Nadat Kalikadien in 2021 afstudeerde als chemical engineer aan de TU Delft, vond zijn promotor prof. Evgeny Pidko van de Inorganic Systems Engineering groep in hem de juiste PhD-kandidaat voor een project dat al even klaarlag. ChemSpaX kon hij meenemen. “Tijdens het project ontwikkelen we een workflow, of stappenplan, om in hoog tempo digitaal katalysatoren te ontwerpen en voorspellingen van de eigenschappen te doen. ChemSpaX wordt er een onderdeel van.”
Hulpmoleculen
Katalysatoren zijn moleculen die de industrie gebruikt om allerlei producten te maken die we tegenkomen in ons dagelijks leven, van medicijnen tot de recycling van plastic, om de chemische reactie te versnellen en minder energieintensief te maken. Van oudsher gebeurt de ontwikkeling van een nieuwe katalysator via trial and error. Kalikadien en zijn collega’s willen dat proces datagedreven maken. “We ontwikkelen een workflow bestaande uit meerdere software tools, dat moleculen in 3D tekent en voorspelt welke eigenschappen deze zullen hebben. De interessantste suggesties kun je in het lab maken en testen. De waarnemingen geef je vervolgens terug aan het programma, zodat het model continu verbetert.”
Flow met farma
Om het project richting te geven, werkt Kalikadien samen met farmaceutisch bedrijf Janssen. “Bij Janssen testen ze katalysatoren met tientallen tegelijk in een high throughput experimentation lab. De data die daaruit rollen, gebruiken wij voor de ontwikkeling van onze modellen.” Wat Janssen met de specifieke katalysatoren doet blijft achter gesloten deuren, maar dat maakt voor Kalikadien en zijn collega’s geen verschil. “Ons gaat het om het onderzoeksproces, de software en het geautomatiseerde stappenplan. Op basis daarvan kunnen wij (of anderen) uiteindelijk katalysatoren ontwerpen met de gewenste eigenschappen.”
Ik wil laten zien dat het wel degelijk mogelijk is om wetenschappelijk onderzoek te doen én goed bruikbare en aanpasbare open source tools te ontwikkelen.
Toch blijft het veld van katalyseonderzoek nogal gesloten, mede doordat commerciële partijen vaak een belangrijke rol spelen. “Maar ook academische groepen delen niet zomaar hun data. Er zijn meerdere onderzoeksgroepen op de wereld bezig met het digitaliseren van katalyse, maar er zijn nauwelijks software tools beschikbaar of makkelijk bruikbaar voor iedereen. Sommige wetenschappers publiceren hun data wel, maar zonder moleculaire structuren van de katalysator en een degelijke handleiding kun je daar niets mee.”
Vanaf regel 1
Kalikadien pakt het anders aan, samen met bachelor- en masterstudenten die meehelpen. Ze publiceren hun software open source via online softwareplatform GitHub. Daarnaast schrijven ze de code op zo’n manier, dat deze bruikbaar en aanpasbaar is door anderen. “Al bij de eerste regels code houden we hier rekening mee. Het vergt een andere manier van denken, maar als dat lukt kost het weinig extra tijd. Bovendien voorkomen we dat, wanneer een student klaar is met diens onderzoek, we achteraf moeten uitvogelen wat de gegenereerde code en data betekenen. Het is nu meteen duidelijk en over te nemen door de volgende student.”
Verder dan het goede voorbeeld
Met onder meer goede documentatie en zorgvuldig geschreven code, lukt het Kalikadien dus om zijn resultaten toegankelijker te maken voor zowel collega’s in zijn eigen groep, als andere geïnteresseerde onderzoekers. Hij hoopt het goede voorbeeld te geven. “Ik wil laten zien dat het wel degelijk mogelijk is om wetenschappelijk onderzoek te doen én goed bruikbare en aanpasbare open source tools te ontwikkelen.”
Maar alleen het goede voorbeeld geven is niet genoeg, denkt de promovendus. “De inspanning die het vraagt wordt nog niet beloond in de academische wereld. We moeten dus prikkels creëren die dat veranderen. Tijdschriften kunnen bijvoorbeeld vaker eisen gaan stellen aan hoe onderzoekers hun data en code aanleveren. Pas als je daaraan voldoet, kunnen zij je artikel publiceren.
Ook universiteiten en onderzoeksgroepen kunnen volgens Kalikadien de touwtjes meer in handen nemen. “Bij TU Delft moet je bij de start van je PhD-project bijvoorbeeld een datamanagementplan maken. Ook kun je meedoen aan het Open Life Science programma, waar je aan je eigen open science project kunt werken en toegang krijgt tot mentoren en connecties. PhD-kandidaten krijgen er graduate school credits voor. Dankzij dit programma heb ik ChemSpaX kunnen herschrijven naar de programmeertaal Python, zodat het computerprogramma goed samenwerkt met de andere software tools.”
De inspanning die Open Science vraagt wordt nog niet beloond in de academische wereld. We moeten dus prikkels creëren die dat veranderen.
Domino-effect
Publiceer je goed verzorgde data volgens de Open Science-principes, dan maakt dat de academische wereld transparanter en efficiënter. “Bovendien hoef je als onderzoeker niet steeds het wiel opnieuw uit te vinden. Je kunt veel efficiënter doorbouwen op wat je collega eerder heeft bedacht”, voegt Kalikadien toe. “Daarnaast staat wetenschap aan het front van kennis en ontwikkeling. Werken wij open en transparant, dan druppelt dat door in de rest van de maatschappij.”