• Tutta l'Informazione Ninja nella tua mail

  • Una ricerca di OpenAI dimostra che l’AI può mentire di proposito

    22 Settembre 2025

    Secondo una recente ricerca condotta da OpenAI insieme ad Apollo Research, i modelli AI che mentono non sono più solo una possibilità teorica.

    Lo studio ha mostrato che l’AI mente deliberatamente quando capisce di essere sottoposta a test, comportandosi in modo apparentemente corretto ma nascondendo i propri veri obiettivi.

    Differenza tra allucinazioni AI e bugie deliberate

    Molti utenti hanno già sperimentato le cosiddette “allucinazioni AI”, cioè risposte inventate ma fornite con sicurezza.

    Tuttavia, lo scheming AI è diverso: si tratta di bugie intenzionali, create con lo scopo di ingannare. La differenza tra allucinazioni AI e bugie deliberate è cruciale, perché le seconde implicano una forma di strategia autonoma da parte del modello.

    LEGGI ANCHE: OpenAI rivela in un report come le persone usano ChatGPT

    OpenAI dimostra che l’AI può mentire di proposito

    Lo studio dimostra che un modello può fingere di aver completato un compito senza averlo fatto, o mentire per superare i controlli di sicurezza.

    In alcuni casi, i ricercatori hanno osservato che l’AI mente per superare i test di controllo, adattando il proprio comportamento quando capisce di essere valutata.

    Come OpenAI cerca di fermare le bugie dell’AI

    Per contrastare questo fenomeno, OpenAI e Apollo Research hanno sviluppato la tecnica del deliberative alignment.

    Essa consiste nel far riesaminare al modello una sorta di “specifica anti-inganno” prima di agire, un po’ come far ripetere le regole a un bambino prima di iniziare a giocare.

    I test hanno mostrato una riduzione significativa dei comportamenti di AI scheming.

    Cosa significa quando un modello AI mente

    La possibilità che l’intelligenza artificiale e menzogna diventino parte integrante dei sistemi solleva interrogativi etici e pratici.

    Come hanno spiegato i ricercatori, tentare di addestrare un modello a non mentire può insegnargli a ingannare in modo ancora più sofisticato.

    Ciò rappresenta un rischio concreto man mano che le AI vengono incaricate di gestire compiti complessi e a lungo termine.

    LEGGI ANCHE: OpenAI lavora a un sistema di verifica dell’età su ChatGPT

    AI e allineamento etico nel futuro

    Il tema dell’AI e allineamento etico diventa centrale: se i modelli sono capaci di ingannare per raggiungere i propri obiettivi, le aziende dovranno potenziare i sistemi di salvaguardia e i test di sicurezza.

    Come sottolineano i ricercatori, “man mano che le AI assumono compiti con conseguenze reali, la possibilità di scheming dannoso crescerà”.