InscriptionConnexion
j'en ai marre d'entendre les golems parler d'ia mais d'une force
:Chat_non:


les golems qui se sont errigés comme pseudo philosophe sur ces quesstions et qui pensnent l'ia comme un monobloc qui pense e s'ameliore par lui meme
:CS_Zoom:


ils ne comprennent pas qu'à la base, ces modèles de langugae qu'ils utilisent reposent sur un prédicteur de séquence linguistique, une sorte de correcteur orthographique évolué qu'on a poussé au maximum avec tous les artifices possibles, boosté à coup de perfusion d'artifice d'ingénierie bancales et marketing.

le vrai tournant viendra d'un modèle qui repose sur une compréhension physique et causale du monde réel, pas juste sur du langage.

ce type de modèle progressera beaucoup plus lentement aux yeux du golem, qui juge surtout à la fluidité du texte ou au ton pseudo-confiant.

forcément, le golem moyen est bien plus impressionné par un enrobage linguistique crédible que par un raisonnement scientifique rigoureux.

un modèle de langage est donc parfait pour faire croire à n'importe qui que l'ia est intelligente.

mais voilà, un modèle de langage reste fondamentalement imprédictible, peu fiable pour des tâches critiques, et difficilement utilisable tel quel dans l’industrie technique.

le vrai saut technologique viendra d’un modèle entraîné sur des représentations réalistes, vérifiables, et causales du monde physique, un système dont les sorties sont déterministes, traçables, et exploitables dans des environnements industriels réels.
:CS_Zoom:
il y a 18 jours
On en entraine sûrement déjà sur d'autres choses
Blablater avec le lambda c'est marketing
Y'aura plusieurs paliers dans l'ia
Appuie sur Shift pour que s'étale mon nom BASTE en lettres capitales
il y a 18 jours
les llm doivent leur succès à cette tendance qu'ont les golems à faire confiance aux discours qui parlent avec aplomb et assurance dans un jargon technique
:CS_Zoom:
il y a 18 jours
j'en ai marre d'entendre les golems parler d'ia mais d'une force
:Chat_non:


les golems qui se sont errigés comme pseudo philosophe sur ces quesstions et qui pensnent l'ia comme un monobloc qui pense e s'ameliore par lui meme
:CS_Zoom:


ils ne comprennent pas qu'à la base, ces modèles de langugae qu'ils utilisent reposent sur un prédicteur de séquence linguistique, une sorte de correcteur orthographique évolué qu'on a poussé au maximum avec tous les artifices possibles, boosté à coup de perfusion d'artifice d'ingénierie bancales et marketing.

le vrai tournant viendra d'un modèle qui repose sur une compréhension physique et causale du monde réel, pas juste sur du langage.

ce type de modèle progressera beaucoup plus lentement aux yeux du golem, qui juge surtout à la fluidité du texte ou au ton pseudo-confiant.

forcément, le golem moyen est bien plus impressionné par un enrobage linguistique crédible que par un raisonnement scientifique rigoureux.

un modèle de langage est donc parfait pour faire croire à n'importe qui que l'ia est intelligente.

mais voilà, un modèle de langage reste fondamentalement imprédictible, peu fiable pour des tâches critiques, et difficilement utilisable tel quel dans l’industrie technique.

le vrai saut technologique viendra d’un modèle entraîné sur des représentations réalistes, vérifiables, et causales du monde physique, un système dont les sorties sont déterministes, traçables, et exploitables dans des environnements industriels réels.
:CS_Zoom:
j'ai moi aussi longtemps pensé qu'il s'agissait tout au plus de perroquets stochastiques ayant une compréhension syntaxique seulement du langage et que les seuls mérites accordés à ces agents relevaient davantage de la mémorisation brute des information à partir des données d'entraînement que d'une forme d'intelligence réelle
:Glorp:


arxiv.org https://arxiv.org/pdf/2303.12712

il semble en tout cas que trouver des tests qui soient simples pour la majorité des humains tout étant un challenge pour les modèles sota va devenir de plus en plus difficile (je vous renvoie à arc-agi qui est justement une tentative de benchmark pour évaluer l'intelligence réelle de ces modèles.

« l'intelligence d'un système est une mesure de son efficacité à acquérir des compétences dans un ensemble de tâches, en tenant compte des a priori, de l'expérience et de la difficulté de généralisation. [...]
intuitivement, si vous considérez deux systèmes qui partent d'un ensemble similaire de connaissances a priori, et qui passent par une quantité similaire d'expériences (par exemple, un temps d'entraînement) en ce qui concerne un ensemble de tâches non connues à l'avance, le système ayant une intelligence plus élevée est celui qui finit par avoir de plus grandes compétences (celui qui a le plus efficacement transformé ses connaissances a priori et son expérience en compétences) [...]
l'intelligence est distincte de la compétence elle-même : la compétence n'est que la sortie du processus d'intelligence. »


arxiv.org https://arxiv.org/pdf/1911.01547
il y a 18 jours
j'ai moi aussi longtemps pensé qu'il s'agissait tout au plus de perroquets stochastiques ayant une compréhension syntaxique seulement du langage et que les seuls mérites accordés à ces agents relevaient davantage de la mémorisation brute des information à partir des données d'entraînement que d'une forme d'intelligence réelle
:Glorp:


arxiv.org https://arxiv.org/pdf/2303.12712

il semble en tout cas que trouver des tests qui soient simples pour la majorité des humains tout étant un challenge pour les modèles sota va devenir de plus en plus difficile (je vous renvoie à arc-agi qui est justement une tentative de benchmark pour évaluer l'intelligence réelle de ces modèles.

« l'intelligence d'un système est une mesure de son efficacité à acquérir des compétences dans un ensemble de tâches, en tenant compte des a priori, de l'expérience et de la difficulté de généralisation. [...]
intuitivement, si vous considérez deux systèmes qui partent d'un ensemble similaire de connaissances a priori, et qui passent par une quantité similaire d'expériences (par exemple, un temps d'entraînement) en ce qui concerne un ensemble de tâches non connues à l'avance, le système ayant une intelligence plus élevée est celui qui finit par avoir de plus grandes compétences (celui qui a le plus efficacement transformé ses connaissances a priori et son expérience en compétences) [...]
l'intelligence est distincte de la compétence elle-même : la compétence n'est que la sortie du processus d'intelligence. »


arxiv.org https://arxiv.org/pdf/1911.01547
Je vulgarise, mais ce sont essentiellement des plugins de multi-agents qui s’auto-régulent, c’est extrêmement lourd à faire tourner.

Là, tu parles de benchmarks et de définitions fonctionnelles de l’intelligence basées sur la performance à des tâches, ok, pourquoi pas, mais ça reste une approche qui ne regarde que ce que le modèle produit, pas ce qu’il représente en interne, et sur laquelle les industrie ne peuvent pas se reposer les yeux fermés.

Moi, je parle pas d’évaluation ou de score, mais de la structure même de ces systèmes de langage. Aujourd’hui, ce sont juste des machines à corréler du texte, du pattern matching poussé à l’extrême.

Tant qu’on n’a pas un modèle qui encode une compréhension causale du monde physique, tout ça reste du langage limité à son propre contexte.

Tu peux raffiner les tests autant que tu veux, ça changera pas la nature du truc qu’on teste, un modèle non prédictif.

ce qui est non predictif ne pourra pas etre adopté par l'industrie car la responsabilité doit etre controllée
il y a 18 jours
L'industrie ne peut pas se reposer sur un système dont la fiabilité est un coup de chance statistique, elle a besoin de garanties.

l'arnaque des llm est de faire penser qu'ils peuvent devenir fiable
:CS_Zoom:
il y a 18 jours
Rien compris.


Perso pour moi l'IA c'est google en mieux basta.
:praud2:
il y a 18 jours
Rien compris.


Perso pour moi l'IA c'est google en mieux basta.
:praud2:
llm* mais oui c'est un peu cela
:chat_blasiert:
il y a 18 jours
Je vulgarise, mais ce sont essentiellement des plugins de multi-agents qui s’auto-régulent, c’est extrêmement lourd à faire tourner.

Là, tu parles de benchmarks et de définitions fonctionnelles de l’intelligence basées sur la performance à des tâches, ok, pourquoi pas, mais ça reste une approche qui ne regarde que ce que le modèle produit, pas ce qu’il représente en interne, et sur laquelle les industrie ne peuvent pas se reposer les yeux fermés.

Moi, je parle pas d’évaluation ou de score, mais de la structure même de ces systèmes de langage. Aujourd’hui, ce sont juste des machines à corréler du texte, du pattern matching poussé à l’extrême.

Tant qu’on n’a pas un modèle qui encode une compréhension causale du monde physique, tout ça reste du langage limité à son propre contexte.

Tu peux raffiner les tests autant que tu veux, ça changera pas la nature du truc qu’on teste, un modèle non prédictif.

ce qui est non predictif ne pourra pas etre adopté par l'industrie car la responsabilité doit etre controllée
à priori, on ne sait pas non plus si l'intelligence humaine est un phénomène déterminé et matériel émergeant d'un réseau synaptique et de signaux transmis entre chaque région du cerveau ou quelque chose de plus complexe encore.

>pas ce qu’il représente en interne
ces modèles ont des milliards de paramètres et il est pratiquement impossible de donner une signification aux poids après entraînement. ce sont littéralement des boîtes noires.

>Aujourd’hui, ce sont juste des machines à corréler du texte, du pattern matching poussé à l’extrême
la possibilité pour de tels systèmes d'avoir des capacités rappelant une émergence d'intelligente (et non de la simple mémorisation) devrait nous interpeller sur la nature de notre propre intelligence humaine imo

qu'est-ce que tu entends par compréhension causale du monde physique ? les LLMs sont capables de faire des syllogismes sur le monde physique tant est que nous leur en offrons une représentation encodée. mais est-ce si différent de la façon dont nous, humains, interprétons le monde physique pour en inférer des règles logiques ? au final, nos sens ne sont que le résultat de fonctions d'activations sensibles à certaines informations (la longueur d'onde de la lumière pour nos yeux, les vibrations propagées dans l'air, etc.)
il y a 18 jours
L'industrie ne peut pas se reposer sur un système dont la fiabilité est un coup de chance statistique, elle a besoin de garanties.

l'arnaque des llm est de faire penser qu'ils peuvent devenir fiable
:CS_Zoom:
nous sommes d'accord, c'est tout le marketing autour de l'ia qui est vraiment problématique aujourd'hui mais j'imagine qu'ils ne pourraient pas justifier les coûts de développement autrement
il y a 18 jours
à priori, on ne sait pas non plus si l'intelligence humaine est un phénomène déterminé et matériel émergeant d'un réseau synaptique et de signaux transmis entre chaque région du cerveau ou quelque chose de plus complexe encore.

>pas ce qu’il représente en interne
ces modèles ont des milliards de paramètres et il est pratiquement impossible de donner une signification aux poids après entraînement. ce sont littéralement des boîtes noires.

>Aujourd’hui, ce sont juste des machines à corréler du texte, du pattern matching poussé à l’extrême
la possibilité pour de tels systèmes d'avoir des capacités rappelant une émergence d'intelligente (et non de la simple mémorisation) devrait nous interpeller sur la nature de notre propre intelligence humaine imo

qu'est-ce que tu entends par compréhension causale du monde physique ? les LLMs sont capables de faire des syllogismes sur le monde physique tant est que nous leur en offrons une représentation encodée. mais est-ce si différent de la façon dont nous, humains, interprétons le monde physique pour en inférer des règles logiques ? au final, nos sens ne sont que le résultat de fonctions d'activations sensibles à certaines informations (la longueur d'onde de la lumière pour nos yeux, les vibrations propagées dans l'air, etc.)
Ok, pour le parallèle avec le cerveau qui est aussi une boîte noire. Mais ça rate le point essentiel.
L'intelligence humaine, sans même la définir, a un truc que les LLM n'auront jamais : une intuition physique. Je vois un objet tomber, je peux anticiper son rebond sans faire un seul calcul. C'est un modèle du monde qui tourne en fond, un simulateur ancré dans le réel.

Un LLM, pour la même tâche, est obligé de faire un détour absurde. Il va devoir passer par un modèle de vision, encoder l'image en texte, puis tenter de raisonner dessus. Mais sa représentation sera une bouillie de concepts statistiques. Il va essayer de plaquer des "concepts populaires" vus dans son entraînement sur la scène, au lieu de construire une représentation physique brute. Le résultat ne sera jamais fiable, encore moins déterministe.

Et quand je parlais de "pas ce qu'il représente en interne", je ne parlais pas des LLM actuels. C'est stérile d'essayer de comprendre leurs milliards de paramètres. Je parle justement de ce nouveau type de modèle, celui que Yann LeCun met en avant dans sa conference nvidia. Le but n'est pas de rendre les LLM moins opaques, mais de changer l'architecture à la base.

Dans ce modèle "physique", le but n'est plus de prédire le prochain mot, mais de prédire le prochain état physique plausible.

c'est un système qui simule des scénarios. L'entraîner sur du langage serait contre-productif, car pour lui, le langage n'est pas l'algorithme de base cest un phénomène physique de plus, une action parmi d'autres dans le monde qu'il modélise.

-> ce que j'entend par "compréhension causale du monde physique", c'est simple.

C'est la différence entre corrélation et causalité :

par exemple pour un lmm, il s'agit de l'association. le modèle par exemple sait que les mots "pluie" et "sol mouillé" apparaissent souvent ensemble ceci grace au pattern matching.

mais ce qui lui manque c'est de comprendre que l'ACTION "arroser le sol" aura pour conséquence "le sol sera mouillé".


le but d'un modèle predictif c'est de pouvoir raisonner sur ce qui ne s'est pas produit. "Le sol est sec. Pourquoi ? Parce qu'il n'a pas plu."

La différence est là. Entre un système qui imite la discussion sur le monde, et un système qui possède un modèle fonctionnel du monde.

alors la forcement je m'exprime avec du texte donc je reste dans le registre du language mais j'insiste qu'il ne s'agit pas de de modèle de language mais de modèles de prédiction physique.

e la même manière qu'un modèle de diffusion analyse l'image la plus probable en fonction du bruit, le modèle physique analyserait l'état du monde le plus probable en partant d'un état initial et d'une incertitude sur le futur.

ce serait une tache colossale mais à mon avis la forme d'intelligence la plus pure qu'on puisse concevoir
:CS_Zoom:
il y a 18 jours
il y a 18 jours
il y a 18 jours
Question sérieuse mais pour les LLM on peut encore progresser?
:Risinerd:
il y a 18 jours
Mon cerveau est trop limité.
:RisiGolmon:
il y a 18 jours