Possiamo ancora fidarci di Wikipedia? Nell’enciclopedia le voci scritte dall’IA sono sempre di più

Sull’enciclopedia online sono comparse pagine fake di luoghi e personaggi inesistenti. Sempre più spesso vengono rilevati contenuti creati con l’intelligenza artificiale, ora il team WikiProject AI Cleanup li sta cercando per eliminarli definitivamente.

Accedi alla selezione delle news più rilevanti del giorno. Abbonati ora

A cura di Elisabetta Rosso

0 CONDIVISIONI

commenta

“La fortezza di Amberlihisar fu costruita nel 1466 da Mehmed il Conquistatore a Trebisonda, in Turchia", si legge su Wikipedia. L'articolo è strutturato in paragrafi, vengono citati gli assedi, le influenze architettoniche, le operazioni di restauro in seguito "ai danni significativi dei bombardamenti delle forze russe durante la prima guerra mondiale". C'è solo un problema. La fortezza di Amberlihisar non esiste.

Ogni dettaglio che compare sulla pagina è stato scritto dall'intelligenza artificiale (IA). Quello della fortezza di Amberlihisar non è un caso isolato, l'IA infatti sta infestando non solo i risultati di Google e le descrizioni dei prodotti di Amazon, ma anche l'enciclopedia online. Per questo un gruppo di editor di Wikipedia ha formato il WikiProject AI Cleanup, "un team che combatte il crescente problema dei contenuti generati dall'intelligenza artificiale su Wikipedia, privi di fonti e scritti male".

"Alcuni di noi avevano notato pagine con un scrittura strana che tradiva l'intervento dell'intelligenza artificiale" ha spiegato a Media 404 Ilyas Lebleu, membro fondatore di WikiProject AI Cleanup. "Scoprire alcune frasi ad effetto comuni dell'intelligenza artificiale ci ha permesso di individuare rapidamente alcuni degli esempi più eclatanti di articoli generati con l'IA, abbiamo voluto creare rapidamente un progetto organizzato per risolvere il problema".

Come funziona il WikiProject AI Cleanup

Il WikiProject AI Cleanup rileva i contenuti generati con l'IA alla vecchia maniera. Cerca infatti le frasi più utilizzate da ChatGPT. Facciamo un esempio. In un articolo sul Chester Mental Health Center pubblicato a novembre 2023 c'era scritto: "A partire dal mio ultimo aggiornamento che risale a gennaio 2022", un chiaro riferimento all'ultima volta che è stato aggiornato il modello linguistico di grandi dimensioni. Non è però sempre così semplice, come dimostra il caso Amberlihisar. "Abbiamo trovato questo articolo su questa presunta fortezza ottomana", ha spiegato Lebleu. Sulla pagina c'era scritto:

"La fortezza fu progettata dall'architetto armeno Ostad Krikor Baghsarajian. La costruzione della fortezza fu completata utilizzando una combinazione di materiali in pietra e mattoni, con artigiani e costruttori portati dalla regione della Rumelia per lavorare al progetto. Il legname per la fortezza proveniva dalle foreste lungo la costa del Mar Nero. La durata della costruzione non è specificata ma è noto che la fortezza fu completata nel 1466. È probabile che la costruzione abbia richiesto diversi anni per essere completata."

La fortezza non è mi esistita ma alcuni dettagli dell'articolo sono reali, per esempio Mehmed il Conquistatore, o Mehmed II, è un personaggio storico reale. Non solo, sulla pagina erano anche citate fonti per dare veridicità ai fatti narrati. "Era una bufala generata dall'intelligenza artificiale, ma con citazioni ben formattate che facevano riferimento a opere completamente inesistenti".

Perché è così difficile rilevare testi generati con l'IA

"Sebbene mi piacerebbe pensare che i Wikipediani siano bravi a rilevare e rimuovere contenuti di IA, indubbiamente molto materiale sfugge", ha spiegato Queen of Hearts, un altro membro fondatore di WikiProject AI Cleanup. L'attività di controllo non può essere nelle mani di pochi volontari, è necessario sviluppare strumenti che rilevino la presenza di contenuti generati con l'intelligenza artificiale.

Come spiega Lebleu, però, al momento, "non esiste una ‘macchina oracolare' che possa distinguere perfettamente il testo IA da quello non IA. Questi strumenti di rilevamento IA sono spesso imprecisi ed efficaci solo su modelli più vecchi come GPT-2." Gli umani quindi rimangono per ora il miglior antidoto contro i contenuti IA. "I membri del team hanno familiarità sia con le linee guida di scrittura di Wikipedia sia con le parole chiave LLM comuni, e sono spesso più bravi a individuare i contenuti IA in questo contesto specifico".

Continua a leggere su Fanpage.it

Software

Tecnologia

0 CONDIVISIONI

commenta