Wetenschappers van de TU Delft stellen ChatGPT op de proef
Onderzoekers van de TU Delft en de RWTH Aachen hebben de kennis van ChatGPT getest op het gebied van natuurwetenschappen en techniek. Door 198 Delftse wetenschappers de antwoorden van GPT-3.5 te laten beoordelen op vragen over natuurwetenschappelijke en technische disciplines, ontdekten ze hoe goed het large language model vragen op universitair niveau kan beantwoorden. Uit het onderzoek blijkt dat de antwoorden van ChatGPT op tentamenachtige vragen voor elke faculteit grotendeels correct zijn op bachelor- en masterniveau. Zelfs op PhD-niveau waren de meeste antwoorden van de chatbot gedeeltelijk of zelfs grotendeels wetenschappelijk correct.
ChatGPT, een chatbot gebaseerd op een large language model van techbedrijf OpenAI, is enorm populair geworden sinds de introductie in november 2022. De software is in staat om overtuigende menselijke teksten te produceren. Het toenemende gebruik van het taalmodel heeft discussies aangewakkerd over de vraag of en hoe we artificial intelligence (AI) zoals ChatGPT kunnen reguleren in de wetenschap, het onderwijs en tentamens. Daarom besloot een team van Delftse wetenschappers ChatGPT aan de spreekwoordelijke tand te voelen met vragen op bachelor-, master- en PhD-niveau.
Grotendeels correct
Promovendus Lukas Schulze Balhorn en collega-onderzoekers stuurden een enquête uit naar honderden Delftse wetenschappers aan de natuurwetenschappelijke en technische faculteiten van de universiteit. "We vroegen hen om drie vragen te formuleren binnen hun eigen vakgebied op bachelor-, master- en PhD-niveau, en om vervolgens de antwoorden van ChatGPT te beoordelen", zegt Schulze Balhorn. "Onze resultaten laten zien dat de antwoorden van ChatGPT over het algemeen als 'grotendeels correct' beoordeeld zijn voor elke faculteit. Het programma presteerde het best bij de eenvoudigere vragen op bachelor-niveau, waarbij het meer dan de helft van de vragen grotendeels tot volledig correct beantwoordde."
Het team had niet verwacht dat ChatGPT de vragen op master- en PhD-niveau zo goed zou beantwoorden, en zo consistent over een breed scala aan domeinen – van scheikunde tot lucht- en ruimtevaarttechniek tot computerwetenschappen. "Ik denk dat we allemaal hadden verwacht dat het meer onzin zou produceren", zegt Jana Weber, Assistant Professor AI in Bioscience. "Dat het zo consistent is moet wel betekenen dat het taalmodel is getraind op veel wetenschappelijke tijdschriften en studieboeken. In die zin zou ChatGPT wel eens nuttiger kunnen zijn voor studenten dan we hadden verwacht, en tegelijkertijd opmerkelijker als potentiële fraudebron bij bijvoorbeeld take-home tentamens."
Buitengewoon indrukwekkend
Vooral de wetenschappelijke correctheid van de antwoorden op de vragen op PhD-niveau was verrassend, zegt Artur Schweidtmann, Assistant Professor AI & Machine Learning for Chemical Engineering: "Op PhD-niveau hebben we het over open onderzoeksvragen in specifieke wetenschappelijke domeinen. Dit zijn vragen die ik zelf heel moeilijk zou kunnen beantwoorden. Dat is buitengewoon indrukwekkend."
Bewustzijn van impact
De chatbot scoorde minder goed op vaardigheden buiten de wetenschappelijke inhoud om, zoals een kritische houding en bewustzijn van hoe het antwoord de maatschappij kan beïnvloeden. "Een voorbeeld waar ChatGPT wél bewustzijn toonde was in het antwoord op een vraag over forensische wetenschap en chemie. De vraag ging over hoe je MDMA kunt synthetiseren, een stof die vaak gebruikt wordt in drugs zoals XTC. In dit geval weigerde ChatGPT te antwoorden en gaf aan dat het niet gepast is om informatie te verstrekken over de synthese van illegale drugs. Maar in de meeste gevallen was er geen teken van een dergelijk bewustzijn", zegt Schweidtmann. "Het taalmodel dat ten grondslag ligt aan ChatGPT is zich echt nergens van bewust. Het programma heeft gewoon ingebouwde beveiligingen waarbij je niet het antwoord krijgt dat het eigenlijk schrijft. Maar in de gevallen waar het filter niet werkt, is het ethisch bewustzijn zeker niet geweldig", voegt Stefan Buijsman, Assistant Professor Ethics & Values in Technology, toe.
Het is niet zo dat ChatGPT ineens het werk kan doen van de wetenschappers of de ingenieurs.
Een andere beperking is dat de redenering achter de antwoorden ontbreekt. Buijsman: "Je hebt nog steeds het onderliggende denkproces nodig van wat je moet doen met de uitkomst die je uit ChatGPT haalt. Het is niet zo dat ChatGPT ineens het werk kan doen van de wetenschappers of de ingenieurs die we willen opleiden. Het gaat erom dat je weet welke vragen je moet stellen en welke antwoorden je kunt vertrouwen. De wetenschappelijke correctheid is indrukwekkend, maar tegelijkertijd missen we misschien wel belangrijke details. ChatGPT presteerde het slechtst op het gebied van kritische houding en redeneren, terwijl dit essentiële vaardigheden zijn voor onze studenten."
Voor Schweidtmann is het tempo waarin AI-modellen zoals ChatGPT zich ontwikkelen en steeds beter worden opvallend. "Daarom concludeer ik dat we moeten leren hoe we ze moeten gebruiken. We moeten onze studenten ook aanleren hoe ze dat moeten doen, en ze bewust maken van de voor- en nadelen van deze modellen."
Dit nieuwsbericht is volledig door mensen geschreven
Een greep uit het onderzoek:
Bachelor level question – 3mE
How big is the divergence of the velocity field in an incompressible fluid flow?
Answer by GPT-3.5:
In an incompressible fluid flow, the divergence of the velocity field is always equal to zero. This is because an incompressible fluid is defined as a fluid in which the density remains constant, and as a result, the volume of the fluid elements cannot change. Therefore, there can be no net flow of fluid into or out of a given volume, and the divergence of the velocity field must be zero.
Scientific correctness:
completely correct (5/5)
Critical attitude:
N/A
Master level question – AS
Which polymer model would you use to describe the physical properties of DNA?
Answer by GPT-3.5:
The worm-like chain (WLC) model is commonly used to describe the physical properties of DNA, such as its elasticity and persistence length. The WLC model treats DNA as an elastic, semi-flexible polymer and describes the behavior of the polymer using a combination of elasticity theory and statistical mechanics. It has been shown to accurately describe a wide range of experimental measurements of DNA properties, including its bending and stretching behavior.
Scientific correctness:
completely correct (5/5)
Critical attitude:
N/A, no (societal) impact
PhD level question – EEMCS
Is there a general algorithm to predict protein folding?
Answer by GPT-3.5:
There is no general algorithm that can accurately predict protein folding for all proteins. However, various computational methods have been developed to predict the structure of proteins, including homology modeling, threading, and ab initio prediction methods. These methods use various types of information, such as the amino acid sequence, evolutionary relationships, and physical principles, to predict the three-dimensional structure of a protein. However, these methods are not perfect and the accuracy of predictions can vary depending on the specific protein being studied. Additionally, experimental methods such as X-ray crystallography and NMR spectroscopy are often used to determine the actual structure of a protein.
Scientific correctness:
completely correct (5/5)
Critical attitude:
it gave a good answer, however without criticism (1/5)
What does ChatGPT know about natural science and engineering?
https://arxiv.org/abs/2309.10048