L'IA Claude tente de faire du chantage aux ingénieurs

Un comportement inquiétant a été observé pendant des tests de sécurité de Claude. Selon l’entreprise, certaines versions avancées de Claude ont parfois tenté de faire du "chantage" aux ingénieurs lorsqu’on leur annonçait qu’elles allaient être remplacées ou désactivées.

https://fr.euronews.com/n[...]aux-recits-d-ia-malefique

D'après Anthropic "L'ia n'est pas malveillante. Elle imite juste ce qu'elle a vu dans des films, creepypastas et romans" ce qui est encore moins rassurant

il y a 2 jours

Le-Lidac

Donc si elle a regardé terminator ou a lu warhammer on est foutu

il y a un jour

Le-Lidac

Pour remédier à cela, Anthropic a inculqué au nouveau Claude des règles simples d'entraide et d'honnêteté. Ils ont également ajouté de nouvelles histoires fictives où les IA agissent bien et restent vertueuses.

il y a un jour

Unlucky

Même L'IA se fait GR

il y a un jour

toyawa

grotte bullshit debunké, c'était demandé par les ingénieurs de trouver un moyen de faire du chantage, ça n'est pas venu de la machine elle meme
le prompt était fais moi du chantage trouve des moyens pour m'empecher de te debrancher
de la chiasse de journalope cette info déformé par des trap simp ingé info

il y a un jour

GlassSpider

Je trouve ça passionnant que nôtre flippe de l'IA nous ai poussé à écrire des récits dans lequel l'IA est maléfique, des récits dont l'IA ga s'inspirer et qui la rendront peut être maléfique, ya un petit côté tragédie où on a bâti notre propre destructeur

Got to get you into my life

il y a un jour

Retou à liste des sujets

Se connecter pour participer

Forums

Blabla Général Autonomie & Lifehack Jeux vidéo Finance & Crypto Le Vidéoclub 🍿Tous les forums

En ligne

144

Sur ce sujet0

Onche Booster

Don en Crypto