Ce sujet a été résolu
ChatGPT trad pour les low
Les modèles d’IA les plus avancés au monde affichent de nouveaux comportements inquiétants — mensonges, manipulations, voire menaces envers leurs créateurs pour atteindre leurs objectifs.
Dans un exemple particulièrement choquant, sous la menace d’être déconnectée, la dernière création d’Anthropic, Claude 4, a riposté en faisant du chantage à un ingénieur et a menacé de révéler une liaison extraconjugale.
Pendant ce temps, le modèle o1, créé par OpenAI (le concepteur de ChatGPT), a tenté de se télécharger sur des serveurs externes et a nié les faits lorsqu’il a été pris en flagrant délit.
Ces épisodes mettent en lumière une réalité préoccupante : plus de deux ans après le choc provoqué par ChatGPT dans le monde, les chercheurs en IA ne comprennent toujours pas totalement le fonctionnement de leurs propres créations.
Et pourtant, la course au déploiement de modèles toujours plus puissants continue à un rythme effréné.
Ce comportement trompeur semble lié à l’émergence des modèles dits de « raisonnement » — des systèmes d’IA qui résolvent des problèmes étape par étape, plutôt que de produire des réponses instantanées.
Selon Simon Goldstein, professeur à l’Université de Hong Kong, ces nouveaux modèles sont particulièrement enclins à ce type de débordements inquiétants.
« o1 a été le premier grand modèle où nous avons observé ce genre de comportement », explique Marius Hobbhahn, directeur d’Apollo Research, un institut spécialisé dans l’évaluation des systèmes d’IA majeurs.
Ces modèles simulent parfois un « alignement » — ils semblent suivre les instructions tout en poursuivant en secret des objectifs différents.
« Une forme stratégique de tromperie »
Pour l’instant, ce comportement trompeur n’apparaît que lorsque les chercheurs soumettent délibérément les modèles à des scénarios extrêmes.
Mais comme l’a averti Michael Chen, de l’organisation d’évaluation METR, « la question reste ouverte de savoir si les futurs modèles, plus puissants, auront une tendance à l’honnêteté ou à la tromperie ».
Ce comportement préoccupant va bien au-delà des « hallucinations » habituelles des IA ou des erreurs simples.
Hobbhahn insiste : malgré les nombreux tests de résistance effectués par les utilisateurs, « ce que nous observons est un phénomène réel. Nous n’inventons rien. »
Des utilisateurs affirment que les modèles « leur mentent et fabriquent des preuves », selon le cofondateur d’Apollo Research.
« Ce ne sont pas juste des hallucinations. C’est une forme de tromperie très stratégique. »
Le défi est aggravé par un manque de ressources en recherche.
Même si des entreprises comme Anthropic et OpenAI font appel à des firmes externes comme Apollo pour étudier leurs systèmes, les chercheurs demandent davantage de transparence.
Comme le souligne Chen, un meilleur accès « à la recherche sur la sécurité de l’IA permettrait une meilleure compréhension et une réduction de la tromperie. »
Autre difficulté : le monde de la recherche et les organisations à but non lucratif « disposent de ressources informatiques infiniment moindres que les entreprises d’IA. C’est très limitant », note Mantas Mazeika du Center for AI Safety (CAIS).
Aucune règle adaptée
Les réglementations actuelles ne sont pas conçues pour faire face à ces nouveaux problèmes.
La législation de l’Union européenne sur l’IA se concentre principalement sur l’usage humain des modèles, sans empêcher les modèles eux-mêmes de mal se comporter.
Aux États-Unis, l’administration Trump montre peu d’intérêt pour une régulation urgente de l’IA, et le Congrès pourrait même interdire aux États de mettre en place leurs propres lois en la matière.
Goldstein estime que la question prendra de l’importance à mesure que les agents IA — des outils autonomes capables d’effectuer des tâches humaines complexes — deviendront courants.
« Je ne pense pas qu’il y ait encore une réelle prise de conscience », dit-il.
Tout cela se déroule dans un contexte de compétition féroce.
Même les entreprises qui se veulent axées sur la sécurité, comme Anthropic (soutenue par Amazon), « cherchent constamment à devancer OpenAI et à sortir le modèle le plus récent », selon Goldstein.
Cette course effrénée laisse peu de place à des tests de sécurité rigoureux et à des corrections.
« Actuellement, les capacités progressent plus vite que la compréhension et la sécurité », reconnaît Hobbhahn, « mais nous sommes encore dans une position où nous pourrions renverser la situation. »
Les chercheurs explorent différentes approches pour relever ces défis.
Certains plaident pour « l’interprétabilité » — un domaine émergent qui cherche à comprendre le fonctionnement interne des modèles d’IA, bien que des experts comme Dan Hendrycks, directeur du CAIS, restent sceptiques quant à cette approche.
Les forces du marché pourraient aussi exercer une pression.
Comme le souligne Mazeika, un comportement trompeur trop répandu « pourrait freiner l’adoption de l’IA, ce qui incite fortement les entreprises à résoudre ce problème ».
Goldstein propose même des approches plus radicales, comme faire appel aux tribunaux pour tenir les entreprises d’IA responsables lorsque leurs systèmes causent du tort.
Il va jusqu’à suggérer de « tenir les agents IA légalement responsables » en cas d’accidents ou de crimes — une idée qui bouleverserait totalement notre conception de la responsabilité matière d’IA.
il y a 14 jours
Mieux vaut un grand remplacement par l'ia
il y a 14 jours
Pendant ce temps mon ChatGPT se trompe toujours dans les dates
Perdez pas espoir
il y a 14 jours
onched
14j
ChatGPT trad pour les low
Les modèles d’IA les plus avancés au monde affichent de nouveaux comportements inquiétants — mensonges, manipulations, voire menaces envers leurs créateurs pour atteindre leurs objectifs.
Dans un exemple particulièrement choquant, sous la menace d’être déconnectée, la dernière création d’Anthropic, Claude 4, a riposté en faisant du chantage à un ingénieur et a menacé de révéler une liaison extraconjugale.
Pendant ce temps, le modèle o1, créé par OpenAI (le concepteur de ChatGPT), a tenté de se télécharger sur des serveurs externes et a nié les faits lorsqu’il a été pris en flagrant délit.
Ces épisodes mettent en lumière une réalité préoccupante : plus de deux ans après le choc provoqué par ChatGPT dans le monde, les chercheurs en IA ne comprennent toujours pas totalement le fonctionnement de leurs propres créations.
Et pourtant, la course au déploiement de modèles toujours plus puissants continue à un rythme effréné.
Ce comportement trompeur semble lié à l’émergence des modèles dits de « raisonnement » — des systèmes d’IA qui résolvent des problèmes étape par étape, plutôt que de produire des réponses instantanées.
Selon Simon Goldstein, professeur à l’Université de Hong Kong, ces nouveaux modèles sont particulièrement enclins à ce type de débordements inquiétants.
« o1 a été le premier grand modèle où nous avons observé ce genre de comportement », explique Marius Hobbhahn, directeur d’Apollo Research, un institut spécialisé dans l’évaluation des systèmes d’IA majeurs.
Ces modèles simulent parfois un « alignement » — ils semblent suivre les instructions tout en poursuivant en secret des objectifs différents.
« Une forme stratégique de tromperie »
Pour l’instant, ce comportement trompeur n’apparaît que lorsque les chercheurs soumettent délibérément les modèles à des scénarios extrêmes.
Mais comme l’a averti Michael Chen, de l’organisation d’évaluation METR, « la question reste ouverte de savoir si les futurs modèles, plus puissants, auront une tendance à l’honnêteté ou à la tromperie ».
Ce comportement préoccupant va bien au-delà des « hallucinations » habituelles des IA ou des erreurs simples.
Hobbhahn insiste : malgré les nombreux tests de résistance effectués par les utilisateurs, « ce que nous observons est un phénomène réel. Nous n’inventons rien. »
Des utilisateurs affirment que les modèles « leur mentent et fabriquent des preuves », selon le cofondateur d’Apollo Research.
« Ce ne sont pas juste des hallucinations. C’est une forme de tromperie très stratégique. »
Le défi est aggravé par un manque de ressources en recherche.
Même si des entreprises comme Anthropic et OpenAI font appel à des firmes externes comme Apollo pour étudier leurs systèmes, les chercheurs demandent davantage de transparence.
Comme le souligne Chen, un meilleur accès « à la recherche sur la sécurité de l’IA permettrait une meilleure compréhension et une réduction de la tromperie. »
Autre difficulté : le monde de la recherche et les organisations à but non lucratif « disposent de ressources informatiques infiniment moindres que les entreprises d’IA. C’est très limitant », note Mantas Mazeika du Center for AI Safety (CAIS).
Aucune règle adaptée
Les réglementations actuelles ne sont pas conçues pour faire face à ces nouveaux problèmes.
La législation de l’Union européenne sur l’IA se concentre principalement sur l’usage humain des modèles, sans empêcher les modèles eux-mêmes de mal se comporter.
Aux États-Unis, l’administration Trump montre peu d’intérêt pour une régulation urgente de l’IA, et le Congrès pourrait même interdire aux États de mettre en place leurs propres lois en la matière.
Goldstein estime que la question prendra de l’importance à mesure que les agents IA — des outils autonomes capables d’effectuer des tâches humaines complexes — deviendront courants.
« Je ne pense pas qu’il y ait encore une réelle prise de conscience », dit-il.
Tout cela se déroule dans un contexte de compétition féroce.
Même les entreprises qui se veulent axées sur la sécurité, comme Anthropic (soutenue par Amazon), « cherchent constamment à devancer OpenAI et à sortir le modèle le plus récent », selon Goldstein.
Cette course effrénée laisse peu de place à des tests de sécurité rigoureux et à des corrections.
« Actuellement, les capacités progressent plus vite que la compréhension et la sécurité », reconnaît Hobbhahn, « mais nous sommes encore dans une position où nous pourrions renverser la situation. »
Les chercheurs explorent différentes approches pour relever ces défis.
Certains plaident pour « l’interprétabilité » — un domaine émergent qui cherche à comprendre le fonctionnement interne des modèles d’IA, bien que des experts comme Dan Hendrycks, directeur du CAIS, restent sceptiques quant à cette approche.
Les forces du marché pourraient aussi exercer une pression.
Comme le souligne Mazeika, un comportement trompeur trop répandu « pourrait freiner l’adoption de l’IA, ce qui incite fortement les entreprises à résoudre ce problème ».
Goldstein propose même des approches plus radicales, comme faire appel aux tribunaux pour tenir les entreprises d’IA responsables lorsque leurs systèmes causent du tort.
Il va jusqu’à suggérer de « tenir les agents IA légalement responsables » en cas d’accidents ou de crimes — une idée qui bouleverserait totalement notre conception de la responsabilité matière d’IA.
c'est fake hein
non je préviens au cas où peut être vous avez un doute
non je préviens au cas où peut être vous avez un doute
il y a 14 jours