InscriptionConnexion
Ca tourne sur la RAM plutôt que sur la VRAM ? Comment ça peut être rapide alors ?

Il n'y aurait donc plus besoin de GPUs avec beaucoup de VRAM ?
Un partie du LLM est chargé sur le GPU en vRAM, une autre partie est chargé en RAM le calcul se faisant sur CPU. (Modele type GGUF avec llama.cpp)
Avec un bon proc, tu es à ~15 token/s sans opti.

J'ai essayé de mettre en SWAP plutot qu'en RAM aussi, là par contre les perfs tombe à 2 token/s au mieux.

D'ailleurs il y a des nouvelle technos pour charger selectivement le modele plusieurs fois.

Les optis avancent trés vite dans le secteur.
Mon propos est imaginaire et fictif, il n'implique donc aucun fait ou élément réel et toute ressemblance serait fortuite
il y a 7 jours
Parce qu'on aimerait bien se passer de payer 22,99 tous les mois pour GPT
:MacronZoomTroll:


Parce qu'on ne veut pas d'une API connectee à un aspirateur de données
:MacronZoomTroll:


Il nous faut des LLMs maison mais qui soient aussi performants que GPT
:MacronZoomTroll:


Sinon, ça ne sert à rien

Donc il y a plusieurs LLMs locaux :

- Ollama propose un panel de plusieurs modèles interessants avec intégration (si vous faites du software, ça pèse quelques Go mais aucun n'arrive à la cheville de GPT)
:Walter_crie:


- Open Chat (dans leurs bench ils explosent GPT)
:MacronZoomTroll:


- un nouveau que j'ai oublié (edit : il s'appelle JAN jan.ai https://jan.ai/ )
:WTF_lunettes_:



Visualisation du bordel type GPT :
bbycroft.net https://bbycroft.net/llm?utm_source=chatgpt.com

Et vous ? Vos LLMs locaux c'est quoi ?
:pouet:
Jamais réussi à avoir des résultats vraiment utiles en local
:Mouais_Jesus:
t'en es où ?
il y a 7 jours
Vous devez être au niveau 10 pour voir ce message.
Mon propos est imaginaire et fictif, il n'implique donc aucun fait ou élément réel et toute ressemblance serait fortuite
il y a 7 jours
Vous devez être au niveau 10 pour voir ce message.
Vous devez être au niveau 10 pour voir ce message.
Image J'arrive
:Lalanne_joker_menace:
il y a 6 jours
Victoire ! Les générateurs de code viennent de me faire gagner mes 10 premières minutes en me disant que pour couper une chaîne sur le dernier point, il faut

split /\.(?!.*\.)/, $string

Le problème, c'est qu'il faut aussi 10 minutes pour me convaincre que cette regex est la bonne.
Certifié tous gaz.
il y a 4 jours
Des avis sur les cartes PNY ?

www.ldlc.pro https://www.ldlc.pro/fiche/PB00710729.html

C'est moins cher qu''une 5090.
Certifié tous gaz.
il y a 2 jours
Des avis sur les cartes PNY ?

www.ldlc.pro https://www.ldlc.pro/fiche/PB00710729.html

C'est moins cher qu''une 5090.
Je pense que si l'objectif n'est que de faire de l'inférence avec ollama, la radeon rx 7900 XTX est beaucoup moins chère et possède la même quantité de VRAM : www.amazon.fr https://www.amazon.fr/-/e[...]X-79XMERCB9/dp/B0BNLSW23M

Le soucis avec cette carte, c'est que ce n'est pas NVIDIA donc elle ne bénéficie pas de l'écosystème CUDA assez pratique en IA

Mais si c'est juste pour utiliser ollama, ça devrait être compatible.
Image J'arrive
:Lalanne_joker_menace:
il y a un jour
Je pense que si l'objectif n'est que de faire de l'inférence avec ollama, la radeon rx 7900 XTX est beaucoup moins chère et possède la même quantité de VRAM : www.amazon.fr https://www.amazon.fr/-/e[...]X-79XMERCB9/dp/B0BNLSW23M

Le soucis avec cette carte, c'est que ce n'est pas NVIDIA donc elle ne bénéficie pas de l'écosystème CUDA assez pratique en IA

Mais si c'est juste pour utiliser ollama, ça devrait être compatible.
Effectivement, c'est un beau rapport VRAM/prix.

Mais comme tu le remarques, le support CUDA+Debian est terra incognita pour moi, alors qu'avec NVIDIA ça tourne.
Certifié tous gaz.
il y a un jour
Effectivement, c'est un beau rapport VRAM/prix.

Mais comme tu le remarques, le support CUDA+Debian est terra incognita pour moi, alors qu'avec NVIDIA ça tourne.
Justement CUDA c'est NVIDIA

Avec ce GPU AMD, il te faudra ROCm
Image J'arrive
:Lalanne_joker_menace:
il y a un jour
Justement CUDA c'est NVIDIA

Avec ce GPU AMD, il te faudra ROCm
Si tu préfères, j'en ai chié pas mal pour monter un setup qui marche. C'est pas tant ollama, qui roule comme un horloge, que la génération d'image où tu as un tas de dépendances sur les versions (telle version minimale des drivers graphiques pour supporter tes cartes MAIS PAS supérieure à ce que ton OS/noyau supporte, telle version précise de Python).

Changer une pièce, c'est pratiquement la certitude de tomber dans un trou noir comme je viens de l'apprendre à mes dépens en faisant un bête apt upgrade (24 heures de down, et j'ai été chanceux).

Donc changer mon fusil d'épaule pour passer de NVIDIA à AMD, c'est une opération à risque. Pour le moment, j'ai deux 4060 Ti, total 32G qui m'ont coûté 600 balles pièce. C'est confortable mais on veut toujours un peu plus. Je regarde ce qui se pointe sur le marché pour aller au-delà sans me ruiner, ou en me ruinant modérément.
Certifié tous gaz.
il y a 4 heures
Si tu préfères, j'en ai chié pas mal pour monter un setup qui marche. C'est pas tant ollama, qui roule comme un horloge, que la génération d'image où tu as un tas de dépendances sur les versions (telle version minimale des drivers graphiques pour supporter tes cartes MAIS PAS supérieure à ce que ton OS/noyau supporte, telle version précise de Python).

Changer une pièce, c'est pratiquement la certitude de tomber dans un trou noir comme je viens de l'apprendre à mes dépens en faisant un bête apt upgrade (24 heures de down, et j'ai été chanceux).

Donc changer mon fusil d'épaule pour passer de NVIDIA à AMD, c'est une opération à risque. Pour le moment, j'ai deux 4060 Ti, total 32G qui m'ont coûté 600 balles pièce. C'est confortable mais on veut toujours un peu plus. Je regarde ce qui se pointe sur le marché pour aller au-delà sans me ruiner, ou en me ruinant modérément.
T'as raison si j'étais toi je ne tenterais pas non plus.

Tu dépends ce l'IA pour ton travail ou tu fais ça dans ton temps libre ?
Image J'arrive
:Lalanne_joker_menace:
il y a 3 heures