[PRESENTATION] J’ai créé un outil pour explorer toutes les mutations du corps humain grâce au ML sur Onche, votre espace de liberté

Pour travailler à ETH Zurich (équivalent MIT européen) j’ai eu un projet à faire.

J’ai construit un outil pour mieux comprendre comment certaines mutations dans les protéines peuvent conduire à des maladies. J'ai couvert la quasi totalité des mutations possibles du protéome humain.

https://huggingface.co/spaces/edohollou/mutvar

Je vous invite à tester la proteine POGLUT3 (Ubiquitine): Q5T4S7

Pour ça, j’ai travaillé sur un dataset couvrant des centaines de millions de variants, et j’ai utilisé Google Colab pour expérimenter et entraîner un modèle capable de combiner plusieurs signaux biologiques.

J’ai intégré différentes approches complémentaires :

- AlphaMissense : un modèle de deep learning qui prédit la probabilité qu’une mutation soit pathogène, en s’appuyant sur des signaux évolutionnaires et structurels
- ESM1b : un modèle de type “language model” appliqué aux protéines, qui permet d’estimer à quel point une mutation est “surprenante” d’un point de vue évolutionnaire
- ΔΔG (delta delta G) : une estimation de l’impact d’une mutation sur la stabilité de la protéine (est-ce qu’elle la déstabilise ou non)

L’idée est de combiner ces signaux pour proposer des hypothèses sur le mécanisme potentiel (stability, pockets, interface) avec un pourcentage de confiance:

- perturbation de la structure
- impact sur une interaction
- effet sur un site fonctionnel

cf le pourcentage de confiance ci dessous:

J’ai aussi ajouté des outils pour rendre tout ça explorable :

- des heatmaps mutationnelles (toutes les positions × substitutions possibles) pour visualiser rapidement les zones sensibles (via "Open landscape")

- un parser VCF, qui permet de charger les variants d’un individu et d’obtenir une première estimation de leur potentiel pathogène (via tools dans le menu)

Important : je ne considère pas ces résultats comme des vérités, mais comme des hypothèses guidées par les données.
Quand les signaux sont trop faibles ou contradictoires, je préfère ne pas assigner de mécanisme.

PS: j’ai limité à 2000 résultats chaque recherche pour le moment donc vous n’aurez pas l’entièreté des résultats

il y a 5 heures

Ingeniax

Un topic de qualité sur onche ?

il y a 5 heures

TopProduit

Les protéines c'est pas ce qu il y a dans le poulet ?

En tout cas ça a l air impressionnant mais faut connaître le sujet avant donc je vais devoir revoir ce que signifie adn genes etc...

https://youtu.be/3Nd6tQHvgiI

il y a 4 heures

Tableverte

J'ai rien compris mais bravo elop

Clique sur le meilleur topic du monde https://onche.org/topic/1[...]ete-forum#message_1972156

il y a 4 heures

Alucard

Superbe topic clé, ça change de d'habitude, et belle carrière je te le souhaite

il y a 4 heures

Hexa

TopProduit

4h

Les protéines c'est pas ce qu il y a dans le poulet ?

En tout cas ça a l air impressionnant mais faut connaître le sujet avant donc je vais devoir revoir ce que signifie adn genes etc...

J'ai essayé de ne pas trop agrandir le pavé pour rentrer dans ces explication mais j'ai conscience que je perd du monde.
A moins d'avoir fait à minima S - SVT en première / terminale, la connaissance est acquise via l'auto apprentissage et la bio ça passionne pas grand monde

Pour faire court ton adn est une suite acides aminées qui encodent des protéines, une mutation dans l'adn implique une mutation dans la protéine. La proteine peut avoir comme job par exemple de tuer une cellule cancereuse. De permettre la division cellulaire. Etc... il y en a plus de 20 000 différentes

il y a 4 heures

Hexa

Alucard

4h

Superbe topic clé, ça change de d'habitude, et belle carrière je te le souhaite

Merci! Je suis toujours en process pour le job, mais dans la shortlist des candidats. Je ne me fais pas d'illusions non plus, chez ETH on a la crème des chercheurs et ingénieurs.
Beaucoup des prix nobels sont passé par là, par exemple Albert Einstein.

Je sais que j'aurai jamais une 2e chance comme ça, j'y ai mit tout mon coeur dans cette app.

il y a 4 heures

TopProduit

Hexa

4h

J'ai essayé de ne pas trop agrandir le pavé pour rentrer dans ces explication mais j'ai conscience que je perd du monde.
A moins d'avoir fait à minima S - SVT en première / terminale, la connaissance est acquise via l'auto apprentissage et la bio ça passionne pas grand monde

Pour faire court ton adn est une suite acides aminées qui encodent des protéines, une mutation dans l'adn implique une mutation dans la protéine. La proteine peut avoir comme job par exemple de tuer une cellule cancereuse. De permettre la division cellulaire. Etc... il y en a plus de 20 000 différentes

Merci c est intéressant donc je demanderai moi même à une IA de résumé ce que tu as fait et de m expliquer tout ce qui est proteine adn etc...en vulgarisant

Je pense que ce que tu as fait c est comme ça que les labos ou chercheurs vont travailler non ? C est à dire tu fais des probas/prédictions pour chercher faire d éventuelles decouvertes , d ailleurs en utilisant l IA qui elle même marche sur des probas

https://youtu.be/3Nd6tQHvgiI

il y a 4 heures

Hexa

TopProduit

4h

Merci c est intéressant donc je demanderai moi même à une IA de résumé ce que tu as fait et de m expliquer tout ce qui est proteine adn etc...en vulgarisant

Je pense que ce que tu as fait c est comme ça que les labos ou chercheurs vont travailler non ? C est à dire tu fais des probas/prédictions pour chercher faire d éventuelles decouvertes , d ailleurs en utilisant l IA qui elle même marche sur des probas

Oui c'est ça.

L'équipe où j'essaie de rentrer c'est 15 chercheurs, dont un mondialement connu qui est également professeur là-bas (publié dans Science et Nature)

Ils travaillent avec des super-ordinateurs et essaient de se départir de tous les biais pour créer des résultats qui ont du sens. Un peu comme ce que j'ai fait, sauf qu'il y a des inconnus, et je l'ai fait de manière plus niaise que les chercheurs, en utilisant uniquement 5 données pour estimer pathogénité de chaque variant. D'où le nombre élevé d' "unassigned".

J'étais en call avec le professeur chercheur hier, j'ai essayé d'avoir des infos, mais voilà ils font le travail de manière plus rigoureuse. Forcément...

En tout cas il m'a dit avoir été impressionné par l'outil. Il me recontact s'il souhaite continuer l'aventure avec moi.

Si tu veux un résumé en une ligne de mon travail, c'est: Je ne veux pas savoir uniquement si une mutation est dangereuse, je veux savoir par quel méchanisme elle l'est grace au machine learning. (On ne veut pas juste répondre à la question "Oui ou non" mais "Si oui pourquoi?")

il y a 4 heures

Paix

Hexa

4h

Merci! Je suis toujours en process pour le job, mais dans la shortlist des candidats. Je ne me fais pas d'illusions non plus, chez ETH on a la crème des chercheurs et ingénieurs.
Beaucoup des prix nobels sont passé par là, par exemple Albert Einstein.

Je sais que j'aurai jamais une 2e chance comme ça, j'y ai mit tout mon coeur dans cette app.

J'espère que tu nous feras une dédi quand tu recevras ton prix nobel

il y a 2 heures

RealCalliopa

J'ai pas compris le truc
Genre si j'envoie mon génome MyHeritage sur cet outil ça donne des infos sur mes variants?

il y a une heure

Zardoz

Si on passait aux conclusions ?

Certifié tous gaz.

il y a une heure

Zuz_moi

Interessant ton outil

On observe déjà des info sur les aires de mutation critiques

Des info sur les protéines co-dépendantes ?

En relisant je me dis que les codépenances sont implicites et font parties des statistiques es modeles de base. Qui implique un moyennage sur les mutations les plus courantes.
Donc tu évalues une mutation unique, mais tu ne peux pas avoir d'info sur une paire de mutation

il y a une heure