InscriptionConnexion
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
:indien_vieux:



Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.



L'idée:
:chat_lunettes:


des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.

Résultat:

personne n'a jamais réussi à utiliser ces données en connectant tout ensemble

Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"

Et il te répond avec les sources exactes, pas du bullshit inventé.

Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.

Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions

Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
:ChatPastek:

tout est sourcé dans la structure

toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
:Purer:
il y a 4 jours
:Escargochat:
il y a 4 jours
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
:indien_vieux:



Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.



L'idée:
:chat_lunettes:


des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.

Résultat:

personne n'a jamais réussi à utiliser ces données en connectant tout ensemble

Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"

Et il te répond avec les sources exactes, pas du bullshit inventé.

Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.

Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions

Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
:ChatPastek:

tout est sourcé dans la structure

toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
:Purer:
Bah c’est top clef
:moustachu:
il y a 4 jours
Bah c’est top clef
:moustachu:
pwnd.icu https://pwnd.icu/

j'ai fais un style à la con (marche pas bien sur mais il est en ligne depuis hier, je bosse sur le back)
il y a 4 jours
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
:indien_vieux:



Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.



L'idée:
:chat_lunettes:


des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.

Résultat:

personne n'a jamais réussi à utiliser ces données en connectant tout ensemble

Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"

Et il te répond avec les sources exactes, pas du bullshit inventé.

Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.

Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions

Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
:ChatPastek:

tout est sourcé dans la structure

toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
:Purer:
Bonne idée, mais le gouv va interdire ça trés vite.
:zahi:
Mon propos est imaginaire et fictif, il n'implique donc aucun fait ou élément réel et toute ressemblance serait fortuite
il y a 4 jours
Bonne idée, mais le gouv va interdire ça trés vite.
:zahi:
ils vont rien interdire du tout ou je deviens méchant et je fais tout en peer to peer avec les provider de nom de domaine les moins pourris + DN
:chat_lunettes:
il y a 4 jours
pret à aller en prison, je sais nager et j'ai soigné mes envie suicidaire + pas assez souple pour me mettre 7 balles dans le dos
:chat_lunettes:
il y a 4 jours
:rompidou:
il y a 4 jours
pwnd.icu https://pwnd.icu/

j'ai fais un style à la con (marche pas bien sur mais il est en ligne depuis hier, je bosse sur le back)
E vais regarder ça tantôt clef merci
il y a 4 jours
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
:indien_vieux:



Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.



L'idée:
:chat_lunettes:


des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.

Résultat:

personne n'a jamais réussi à utiliser ces données en connectant tout ensemble

Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"

Et il te répond avec les sources exactes, pas du bullshit inventé.

Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.

Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions

Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
:ChatPastek:

tout est sourcé dans la structure

toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
:Purer:
Mistral 7b tiendra jamais le coup
:Fritechat:
:Flo_couloir_2:
il y a 4 jours
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
:indien_vieux:



Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.



L'idée:
:chat_lunettes:


des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.

Résultat:

personne n'a jamais réussi à utiliser ces données en connectant tout ensemble

Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"

Et il te répond avec les sources exactes, pas du bullshit inventé.

Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.

Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions

Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
:ChatPastek:

tout est sourcé dans la structure

toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
:Purer:
Peux-tu détailler comment tu entraînes ton modèle ?
Certifié tous gaz.
il y a 4 jours
Je bosse sur un chatbot qui permet d'explorer des dossiers judiciaires publics en posant des questions
:indien_vieux:



Le but c'est de pouvoir faire ses petites enquêtes soit même sur toutes les dingueries qu'on voit sortir tout les jours avec un GPT like.



L'idée:
:chat_lunettes:


des tonnes de documents légaux sont techniquement accessibles au public (procès, enquêtes, emails saisis...) mais en pratique personne peut les lire - c'est des milliers de pages en vrac, mal organisées, parfois juste des scans.

Résultat:

personne n'a jamais réussi à utiliser ces données en connectant tout ensemble

Le chatbot permet de poser des questions directement: "Que pense tu de l'implication de machin dans X au vu de ses relations avec tel pays"

Et il te répond avec les sources exactes, pas du bullshit inventé.

Je fais le travail d'extraction des données et la creation de l'architecture des bases de données et compagnie en local sur mon serveur, open source, données publiques uniquement.

Après je vais entrainer un tout petit modèle mistral 7B à piocher très sélectivement les données via l'architecture et à repondre aux questions

Je commence avec les Epstein Files parce que c'est le plus gros dump récent et y'a déjà une communauté qui a bossé dessus pour rendre les documents exploitables.
:ChatPastek:

tout est sourcé dans la structure

toute la méthode est créée de A à Z mais j'essaye d'utiliser le max de données provenant de l'affaire epstein donc j'en cherche un peu partout pour bien faire ma bdd
:Purer:
:rsa_chomeur_bob:
il y a 4 jours
Flo
Flo
4j
Mistral 7b tiendra jamais le coup
:Fritechat:
si justement mais j'ai du architecturer ça très différement que prévu
il y a 4 jours
Peux-tu détailler comment tu entraînes ton modèle ?
en gros je fais une db assez complexe là dans un premier temps, après là je suis sur la formalisation et l'analyse des données pertinente une par une, je commence par les mails directement pour pouvoir tester le modèle avec des données deja pertinente

mistral n'aura que peu d'entrainement, juste des instructions formelle, et demandera à un script de faire une requete sql dans la ddb qui donnera toutes les données dont il a besoin pour formuler sa reponse

pas d'explosion de la fenetre de contexte this way

mais bien sur j'ai hate de faire ça sur tout les corpus de données et avec un plus gros modele, mais money

dans tout les cas ça va marcher
il y a 4 jours
en gros je fais une db assez complexe là dans un premier temps, après là je suis sur la formalisation et l'analyse des données pertinente une par une, je commence par les mails directement pour pouvoir tester le modèle avec des données deja pertinente

mistral n'aura que peu d'entrainement, juste des instructions formelle, et demandera à un script de faire une requete sql dans la ddb qui donnera toutes les données dont il a besoin pour formuler sa reponse

pas d'explosion de la fenetre de contexte this way

mais bien sur j'ai hate de faire ça sur tout les corpus de données et avec un plus gros modele, mais money

dans tout les cas ça va marcher
Comment Mistral fait des requêtes SQL ?
Certifié tous gaz.
il y a 4 jours
T'as appris a coder toi même ou t'utilise les chatbot pour coder ?
:ChatPastek:
il y a 4 jours
Comment Mistral fait des requêtes SQL ?
mistral gere pas le sql mais peut communiquer avec bash, donc ca sera dans le routing et dans les scripts
il y a 4 jours
T'as appris a coder toi même ou t'utilise les chatbot pour coder ?
:ChatPastek:
j'ai appris a coder moi même vers mes 15 ans, jusqu'a aller en ingé info 3 ans après le bac et j'ai stop, et après j'ai plus touché à du code jusqu'a maintenant


mais là j'ai découvert le vibecoding et c'est tout ce qui me manquait pour m'y remettre, je touche peu au code que me propose l'IA mais elle me donne toutes les commandes dont j'ai besoin une par une pour faire ce que je veux, et j'ai le niveau en developpement pour la corriiger sur des probleme complexe ou du code même si je comprend pas ce qu'elle a ecris
il y a 4 jours
mistral gere pas le sql mais peut communiquer avec bash, donc ca sera dans le routing et dans les scripts
Comment Mistral communique avec bash ? Désolé pour cette inquisition, mais l'interface des LLM avec des programmes externes est une de mes préoccupations.
Certifié tous gaz.
il y a 4 jours
Comment Mistral communique avec bash ? Désolé pour cette inquisition, mais l'interface des LLM avec des programmes externes est une de mes préoccupations.
lance un llm avec bash tu verras que c'est très facile de le faire communiquer avec des script .sh ou python
il y a 4 jours