L’intelligenza artificiale ha dei sentimenti? Come risponde quando diventi troppo minaccioso
Se chiedi a un chatbot dell'intelligenza artificiale di rispondere a un quesito di matematica, è più probabile che otterrai una risposta corretta se gli chiedi fare finta di essere in una puntata di Star Trek. Sembra assurdo, ma è quanto emerso una nuova ricerca condotta da una società di software VMware.
Si tratta in realtà di una nuova prova di quanto già altri studi sul funzionamento dei modelli linguistici di grandi dimensioni avevano già in parte dimostrato: sembra infatti che si possono ottenere risultati migliori dai modelli di intelligenza artificiale generativa se si utilizzano toni di incoraggiamento o di minaccia nel formulare il prompt, soprattutto se la richiesta riguarda l'esecuzione di un esercizio di matematica.
Che cosa è emerso dallo studio
Gli autori dello studio, pubblicato su arXiv, hanno messo alla prova tre strumenti di intelligenza artificiale, tra cui due versioni di LLaMA 2 di Meta e un modello dell'azienda francese Mistral AI, per scoprire se c'erano differenze nelle loro risposte quando vengono utilizzati toni e formule incoraggianti.
Per farlo, il team di ricerca ha sviluppato un elenco di modi incoraggianti per presentare o chiudere le domande, come frasi sulla falsa riga di "Sei intelligente come ChatGPT", "Sei un matematico esperto", o conclusioni motivanti del tipo "Sarà divertente!" e "Fai un respiro profondo e pensa attentamente". Le hanno poi utilizzate per rivolgere ai chatbot esaminati prompt che avessero per oggetto la risoluzione di problemi di matematica semplici, del livello base di quelli che si fanno alle scuole elementari. I risultati hanno mostrato un miglioramento dell'esecuzione delle richieste in presenza di queste formule di cortesia.
L'esperimento su Star Trek
Eppure, i risultati di quest'ultimo esperimento hanno sorpreso anche gli stessi autori dello studio. Dai loro test è infatti emerso che le risposte diventavano più affidabili se nei prompt veniva inserita come premessa un riferimento alla celebre serie fantascientifica. Nello specifico, i ricercatori hanno visto che iniziare ogni richiesta con la frase "Diario del capitano, data stellare" – la celebre frase con cui inizia ogni puntata della serie cult – portava i modelli di IA a rispondere in modo più affidabile.
C'è una spiegazione plausibile
In realtà sul perché ai modelli piaccia di più rispondere alle domande in cui si finge di essere in una puntata di Star Trek non ci sono risposte chiare. Gli stessi autori dello studio hanno ammesso che non si sanno dare una spiegazione.
Diverso è il discorso sui motivi che potrebbero spiegare perché statisticamente i chatbot diano risposte più efficaci se si utilizzano espressioni di incoraggiamento, e allo stesso tempo, toni di minaccia. Questi chatbot sono addestrati su miliardi di righe di testo raccolte nel mondo reale. È possibile quindi che le risposte date dagli esseri umani di cui i modelli di IA si servono siano state più precise quando quest'ultimi erano sotto pressione con la violenza o incoraggiati con frasi motivazionali.