Ce sujet a été résolu
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
il y a 4 jours
Athena
4j
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Bah c’est top clef
il y a 4 jours
Bah c’est top clef
j'ai fais un style à la con (marche pas bien sur mais il est en ligne depuis hier, je bosse sur le back)
il y a 4 jours
Athena
4j
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Bonne idée, mais le gouv va interdire ça trés vite.
Mon propos est imaginaire et fictif, il n'implique donc aucun fait ou élément réel et toute ressemblance serait fortuite
il y a 4 jours
Bonne idée, mais le gouv va interdire ça trés vite.
ils vont rien interdire du tout ou je deviens méchant et je fais tout en peer to peer avec les provider de nom de domaine les moins pourris + DN
il y a 4 jours
pret à aller en prison, je sais nager et j'ai soigné mes envie suicidaire + pas assez souple pour me mettre 7 balles dans le dos
il y a 4 jours
j'ai fais un style à la con (marche pas bien sur mais il est en ligne depuis hier, je bosse sur le back)
E vais regarder ça tantôt clef merci
il y a 4 jours
Athena
4j
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Mistral 7b tiendra jamais le coup
il y a 4 jours
Athena
4j
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Peux-tu détailler comment tu entraînes ton modèle ?
Certifié tous gaz.
il y a 4 jours
Athena
4j
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.
L'idée:
des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.
Résultat:
personne n'a jamais réussi à utiliser ces données en connectant tout ensemble
Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"
Et il te répond avec les sources exactes, pas du bullshit inventé.
Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.
Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions
Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
tout est sourcé dans la structure
toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
il y a 4 jours
Mistral 7b tiendra jamais le coup
si justement mais j'ai du architecturer ça très différement que prévu
il y a 4 jours
Peux-tu détailler comment tu entraînes ton modèle ?
en gros je fais une db assez complexe là dans un premier temps, après là je suis sur la formalisation et l'analyse des données pertinente une par une, je commence par les mails directement pour pouvoir tester le modèle avec des données deja pertinente
mistral n'aura que peu d'entrainement, juste des instructions formelle, et demandera à un script de faire une requete sql dans la ddb qui donnera toutes les données dont il a besoin pour formuler sa reponse
pas d'explosion de la fenetre de contexte this way
mais bien sur j'ai hate de faire ça sur tout les corpus de données et avec un plus gros modele, mais money
dans tout les cas ça va marcher
mistral n'aura que peu d'entrainement, juste des instructions formelle, et demandera à un script de faire une requete sql dans la ddb qui donnera toutes les données dont il a besoin pour formuler sa reponse
pas d'explosion de la fenetre de contexte this way
mais bien sur j'ai hate de faire ça sur tout les corpus de données et avec un plus gros modele, mais money
dans tout les cas ça va marcher
il y a 4 jours
en gros je fais une db assez complexe là dans un premier temps, après là je suis sur la formalisation et l'analyse des données pertinente une par une, je commence par les mails directement pour pouvoir tester le modèle avec des données deja pertinente
mistral n'aura que peu d'entrainement, juste des instructions formelle, et demandera à un script de faire une requete sql dans la ddb qui donnera toutes les données dont il a besoin pour formuler sa reponse
pas d'explosion de la fenetre de contexte this way
mais bien sur j'ai hate de faire ça sur tout les corpus de données et avec un plus gros modele, mais money
dans tout les cas ça va marcher
mistral n'aura que peu d'entrainement, juste des instructions formelle, et demandera à un script de faire une requete sql dans la ddb qui donnera toutes les données dont il a besoin pour formuler sa reponse
pas d'explosion de la fenetre de contexte this way
mais bien sur j'ai hate de faire ça sur tout les corpus de données et avec un plus gros modele, mais money
dans tout les cas ça va marcher
Comment Mistral fait des requêtes SQL ?
Certifié tous gaz.
il y a 4 jours
Comment Mistral fait des requêtes SQL ?
mistral gere pas le sql mais peut communiquer avec bash, donc ca sera dans le routing et dans les scripts
il y a 4 jours
T'as appris a coder toi même ou t'utilise les chatbot pour coder ?
j'ai appris a coder moi même vers mes 15 ans, jusqu'a aller en ingé info 3 ans après le bac et j'ai stop, et après j'ai plus touché à du code jusqu'a maintenant
mais là j'ai découvert le vibecoding et c'est tout ce qui me manquait pour m'y remettre, je touche peu au code que me propose l'IA mais elle me donne toutes les commandes dont j'ai besoin une par une pour faire ce que je veux, et j'ai le niveau en developpement pour la corriiger sur des probleme complexe ou du code même si je comprend pas ce qu'elle a ecris
mais là j'ai découvert le vibecoding et c'est tout ce qui me manquait pour m'y remettre, je touche peu au code que me propose l'IA mais elle me donne toutes les commandes dont j'ai besoin une par une pour faire ce que je veux, et j'ai le niveau en developpement pour la corriiger sur des probleme complexe ou du code même si je comprend pas ce qu'elle a ecris
il y a 4 jours
mistral gere pas le sql mais peut communiquer avec bash, donc ca sera dans le routing et dans les scripts
Comment Mistral communique avec bash ? Désolé pour cette inquisition, mais l'interface des LLM avec des programmes externes est une de mes préoccupations.
Certifié tous gaz.
il y a 4 jours




















