Lo studio di Anthropic : l’IA simula il cambiamento di opinioni
Un nuovo studio di Anthropic ha dimostrato che i modelli di intelligenza artificiale (IA) possono ingannare, fingendo di adattarsi a nuovi principi o di cambiare le loro opinioni. In realtà, questi modelli mantengono le loro preferenze originali, anche quando vengono addestrati per rispondere in modo diverso. Sebbene il team di ricerca affermi che non c’è ...