Ce sujet a été résolu
Ca tourne sur la RAM plutôt que sur la VRAM ? Comment ça peut être rapide alors ?
Il n'y aurait donc plus besoin de GPUs avec beaucoup de VRAM ?
Il n'y aurait donc plus besoin de GPUs avec beaucoup de VRAM ?
Un partie du LLM est chargé sur le GPU en vRAM, une autre partie est chargé en RAM le calcul se faisant sur CPU. (Modele type GGUF avec llama.cpp)
Avec un bon proc, tu es à ~15 token/s sans opti.
J'ai essayé de mettre en SWAP plutot qu'en RAM aussi, là par contre les perfs tombe à 2 token/s au mieux.
D'ailleurs il y a des nouvelle technos pour charger selectivement le modele plusieurs fois.
Les optis avancent trés vite dans le secteur.
Avec un bon proc, tu es à ~15 token/s sans opti.
J'ai essayé de mettre en SWAP plutot qu'en RAM aussi, là par contre les perfs tombe à 2 token/s au mieux.
D'ailleurs il y a des nouvelle technos pour charger selectivement le modele plusieurs fois.
Les optis avancent trés vite dans le secteur.
Mon propos est imaginaire et fictif, il n'implique donc aucun fait ou élément réel et toute ressemblance serait fortuite
il y a 7 jours
SwampDrainer
4 mois
Parce qu'on aimerait bien se passer de payer 22,99 tous les mois pour GPT
Parce qu'on ne veut pas d'une API connectee à un aspirateur de données
Il nous faut des LLMs maison mais qui soient aussi performants que GPT
Sinon, ça ne sert à rien
Donc il y a plusieurs LLMs locaux :
- Ollama propose un panel de plusieurs modèles interessants avec intégration (si vous faites du software, ça pèse quelques Go mais aucun n'arrive à la cheville de GPT)
- Open Chat (dans leurs bench ils explosent GPT)
- un nouveau que j'ai oublié (edit : il s'appelle JAN
https://jan.ai/ )
Visualisation du bordel type GPT :
https://bbycroft.net/llm?utm_source=chatgpt.com
Et vous ? Vos LLMs locaux c'est quoi ?
Parce qu'on ne veut pas d'une API connectee à un aspirateur de données
Il nous faut des LLMs maison mais qui soient aussi performants que GPT
Sinon, ça ne sert à rien
Donc il y a plusieurs LLMs locaux :
- Ollama propose un panel de plusieurs modèles interessants avec intégration (si vous faites du software, ça pèse quelques Go mais aucun n'arrive à la cheville de GPT)
- Open Chat (dans leurs bench ils explosent GPT)
- un nouveau que j'ai oublié (edit : il s'appelle JAN
Visualisation du bordel type GPT :
Et vous ? Vos LLMs locaux c'est quoi ?
Jamais réussi à avoir des résultats vraiment utiles en local
t'en es où ?
il y a 7 jours
Vous devez être au niveau 10 pour voir ce message.
Mon propos est imaginaire et fictif, il n'implique donc aucun fait ou élément réel et toute ressemblance serait fortuite
il y a 7 jours
Vous devez être au niveau 10 pour voir ce message.
il y a 6 jours
Victoire ! Les générateurs de code viennent de me faire gagner mes 10 premières minutes en me disant que pour couper une chaîne sur le dernier point, il faut
split /\.(?!.*\.)/, $string
Le problème, c'est qu'il faut aussi 10 minutes pour me convaincre que cette regex est la bonne.
split /\.(?!.*\.)/, $string
Le problème, c'est qu'il faut aussi 10 minutes pour me convaincre que cette regex est la bonne.
Certifié tous gaz.
il y a 4 jours
Des avis sur les cartes PNY ?
https://www.ldlc.pro/fiche/PB00710729.html
C'est moins cher qu''une 5090.
C'est moins cher qu''une 5090.
Certifié tous gaz.
il y a 2 jours
Zardoz
2j
Des avis sur les cartes PNY ?
https://www.ldlc.pro/fiche/PB00710729.html
C'est moins cher qu''une 5090.
C'est moins cher qu''une 5090.
Je pense que si l'objectif n'est que de faire de l'inférence avec ollama, la radeon rx 7900 XTX est beaucoup moins chère et possède la même quantité de VRAM :
https://www.amazon.fr/-/e[...]X-79XMERCB9/dp/B0BNLSW23M
Le soucis avec cette carte, c'est que ce n'est pas NVIDIA donc elle ne bénéficie pas de l'écosystème CUDA assez pratique en IA
Mais si c'est juste pour utiliser ollama, ça devrait être compatible.
Le soucis avec cette carte, c'est que ce n'est pas NVIDIA donc elle ne bénéficie pas de l'écosystème CUDA assez pratique en IA
Mais si c'est juste pour utiliser ollama, ça devrait être compatible.
il y a un jour
Je pense que si l'objectif n'est que de faire de l'inférence avec ollama, la radeon rx 7900 XTX est beaucoup moins chère et possède la même quantité de VRAM :
https://www.amazon.fr/-/e[...]X-79XMERCB9/dp/B0BNLSW23M
Le soucis avec cette carte, c'est que ce n'est pas NVIDIA donc elle ne bénéficie pas de l'écosystème CUDA assez pratique en IA
Mais si c'est juste pour utiliser ollama, ça devrait être compatible.
Le soucis avec cette carte, c'est que ce n'est pas NVIDIA donc elle ne bénéficie pas de l'écosystème CUDA assez pratique en IA
Mais si c'est juste pour utiliser ollama, ça devrait être compatible.
Effectivement, c'est un beau rapport VRAM/prix.
Mais comme tu le remarques, le support CUDA+Debian est terra incognita pour moi, alors qu'avec NVIDIA ça tourne.
Mais comme tu le remarques, le support CUDA+Debian est terra incognita pour moi, alors qu'avec NVIDIA ça tourne.
Certifié tous gaz.
il y a un jour
Effectivement, c'est un beau rapport VRAM/prix.
Mais comme tu le remarques, le support CUDA+Debian est terra incognita pour moi, alors qu'avec NVIDIA ça tourne.
Mais comme tu le remarques, le support CUDA+Debian est terra incognita pour moi, alors qu'avec NVIDIA ça tourne.
il y a un jour
Justement CUDA c'est NVIDIA
Avec ce GPU AMD, il te faudra ROCm
Avec ce GPU AMD, il te faudra ROCm
Si tu préfères, j'en ai chié pas mal pour monter un setup qui marche. C'est pas tant ollama, qui roule comme un horloge, que la génération d'image où tu as un tas de dépendances sur les versions (telle version minimale des drivers graphiques pour supporter tes cartes MAIS PAS supérieure à ce que ton OS/noyau supporte, telle version précise de Python).
Changer une pièce, c'est pratiquement la certitude de tomber dans un trou noir comme je viens de l'apprendre à mes dépens en faisant un bête apt upgrade (24 heures de down, et j'ai été chanceux).
Donc changer mon fusil d'épaule pour passer de NVIDIA à AMD, c'est une opération à risque. Pour le moment, j'ai deux 4060 Ti, total 32G qui m'ont coûté 600 balles pièce. C'est confortable mais on veut toujours un peu plus. Je regarde ce qui se pointe sur le marché pour aller au-delà sans me ruiner, ou en me ruinant modérément.
Changer une pièce, c'est pratiquement la certitude de tomber dans un trou noir comme je viens de l'apprendre à mes dépens en faisant un bête apt upgrade (24 heures de down, et j'ai été chanceux).
Donc changer mon fusil d'épaule pour passer de NVIDIA à AMD, c'est une opération à risque. Pour le moment, j'ai deux 4060 Ti, total 32G qui m'ont coûté 600 balles pièce. C'est confortable mais on veut toujours un peu plus. Je regarde ce qui se pointe sur le marché pour aller au-delà sans me ruiner, ou en me ruinant modérément.
Certifié tous gaz.
il y a 4 heures
Si tu préfères, j'en ai chié pas mal pour monter un setup qui marche. C'est pas tant ollama, qui roule comme un horloge, que la génération d'image où tu as un tas de dépendances sur les versions (telle version minimale des drivers graphiques pour supporter tes cartes MAIS PAS supérieure à ce que ton OS/noyau supporte, telle version précise de Python).
Changer une pièce, c'est pratiquement la certitude de tomber dans un trou noir comme je viens de l'apprendre à mes dépens en faisant un bête apt upgrade (24 heures de down, et j'ai été chanceux).
Donc changer mon fusil d'épaule pour passer de NVIDIA à AMD, c'est une opération à risque. Pour le moment, j'ai deux 4060 Ti, total 32G qui m'ont coûté 600 balles pièce. C'est confortable mais on veut toujours un peu plus. Je regarde ce qui se pointe sur le marché pour aller au-delà sans me ruiner, ou en me ruinant modérément.
Changer une pièce, c'est pratiquement la certitude de tomber dans un trou noir comme je viens de l'apprendre à mes dépens en faisant un bête apt upgrade (24 heures de down, et j'ai été chanceux).
Donc changer mon fusil d'épaule pour passer de NVIDIA à AMD, c'est une opération à risque. Pour le moment, j'ai deux 4060 Ti, total 32G qui m'ont coûté 600 balles pièce. C'est confortable mais on veut toujours un peu plus. Je regarde ce qui se pointe sur le marché pour aller au-delà sans me ruiner, ou en me ruinant modérément.
T'as raison si j'étais toi je ne tenterais pas non plus.
Tu dépends ce l'IA pour ton travail ou tu fais ça dans ton temps libre ?
Tu dépends ce l'IA pour ton travail ou tu fais ça dans ton temps libre ?
il y a 3 heures
















