Secondo un gruppo di scienziati ChatGPT ha superato il test di Turing: può iscriversi all’università
Sappiamo che ChatGPT potrebbe superare gli esami di Maturità: se l'è cavata bene con la prima prova, quella di italiano, e ci ha almeno provato con la seconda prova di matematica. Tutta un'altra storia, invece, è superare gli esami all'università. Il livello di difficoltà è maggiore, così come la maturità richiesta dallo studente.
Ma anche in questo caso, ChatGPT ha dimostrato di essere all'altezza del compito, riuscendo persino a ingannare i professori ignari che hanno dato i voti (alti) al chatbot di OpenAI. Per i ricercatori, l'intelligenza artificiale (IA) avrebbe superato una piccola versione del cosiddetto "test di Turing", cioè quello usato per stabilire se una macchina esibisce un comportamento intelligente.
Come è stato realizzato lo studio basato sul test di Turing
Uno studente modello "iscritto" alla laurea triennale di psicologia all'Università di Reading, la stessa da cui provengono i ricercatori che hanno condotto l'esperimento. Con la collaborazione di pochi complici, per esempio chi è responsabile di creare i profili degli studenti che devono fare l'esame, e senza dire nulla agli esaminatori del corso, gli scienziati hanno presentato ChatGPT-4 a cinque diversi esami.
Niente risposte a crocette, solo domande a risposta aperta che richiedevano un elaborato di massimo 200 parole oppure un saggio breve da 1.500 parole. Poi le risposte sono state inviate online, come per tutti gli studenti.
A giudicare gli esami scritti sono stati i markers, esaminatori dello staff accademico che hanno il compito di giudicare le competenze acquisite e mettere il voto ai compiti degli studenti. E nel caso di ChatGPT, non si sono (quasi) mai accorti che a firmare l'esame era stata una macchina.
Quale voto ha preso ChatGPT agli esami di Psicologia
Quasi il 95% delle risposte e dei saggi brevi sono passati inosservati e giudicati come se fossero la prova d'esame di un vero studente. Solo in pochi casi selezionati gli esaminatori hanno etichettato la risposta dello "studente" come generata da un'intelligenza artificiale. A volte gli studenti barano, lo sanno anche i markers. Quello che non hanno compreso, tuttavia, è che alcuni compiti sono stati svolti interamente da un chatbot.
Ad eccezione di un solo modulo, in tutti gli esami il modello di OpenAI ha preso voti mediamente superiori rispetto a quelli degli studenti reali. Un modo per dimostrare, insomma, che le raccomandazioni degli esperti ai docenti a volte non bastano. Non è sufficiente guardare gli indicatori più comuni: risposte "troppo perfette per essere vere", prevalenza di argomenti che non sono mai stati trattati a lezione, citazioni a testi che non hanno nulla a che fare con l'insegnamento. Possono sembrare banalità, ma questi indicatori non non sono bastati per aiutare gli esaminatori a individuare lo zampino dell'IA.
Quali sono le conseguenze e la soluzione per evitare che gli studenti usino l'IA
Se prima era ancora possibile beccare con le mani nel sacco gli studenti che barano agli esami, con lo spostamento verso modalità "remote" per svolgere gli esami è diventato più difficile per i docenti scoprire chi sta copiando. Oppure, come in questo caso, chi si sta facendo aiutare dall'intelligenza artificiale. "Un modo semplice per affrontare il problema della cattiva condotta accademica a causa dell'IA sarebbe quello di tornare a modalità di esame supervisionate e di persona", scrivono così i ricercatori.
Ma il mondo sembra procedere nella direzione opposta. Così, le soluzioni dovranno tenere conto della possibilità che ChatGPT e i suoi compagni diventino uno dei tanti strumenti in mano agli universitari. "Una nuova normalità nell'integrare l'IA sembra inevitabile. Una forma autentica di valutazione sarà quella nella quale verrà comunque usata l'intelligenza artificiale. Allora la domanda diventa come possiamo abbracciare l'uso dell'IA per migliorare l'educazione, piuttosto che allontanarla".