InscriptionConnexion
Pour travailler à ETH Zurich (équivalent MIT européen) j’ai eu un projet à faire.

J’ai construit un outil pour mieux comprendre comment certaines mutations dans les protéines peuvent conduire à des maladies. J'ai couvert la quasi totalité des mutations possibles du protéome humain.

huggingface.co https://huggingface.co/spaces/edohollou/mutvar

Je vous invite à tester la proteine POGLUT3 (Ubiquitine): Q5T4S7


Image

Pour ça, j’ai travaillé sur un dataset couvrant des centaines de millions de variants, et j’ai utilisé Google Colab pour expérimenter et entraîner un modèle capable de combiner plusieurs signaux biologiques.

J’ai intégré différentes approches complémentaires :

- AlphaMissense : un modèle de deep learning qui prédit la probabilité qu’une mutation soit pathogène, en s’appuyant sur des signaux évolutionnaires et structurels
- ESM1b : un modèle de type “language model” appliqué aux protéines, qui permet d’estimer à quel point une mutation est “surprenante” d’un point de vue évolutionnaire
- ΔΔG (delta delta G) : une estimation de l’impact d’une mutation sur la stabilité de la protéine (est-ce qu’elle la déstabilise ou non)


L’idée est de combiner ces signaux pour proposer des hypothèses sur le mécanisme potentiel (stability, pockets, interface) avec un pourcentage de confiance:

- perturbation de la structure
- impact sur une interaction
- effet sur un site fonctionnel

cf le pourcentage de confiance ci dessous:

Image

J’ai aussi ajouté des outils pour rendre tout ça explorable :

- des heatmaps mutationnelles (toutes les positions × substitutions possibles) pour visualiser rapidement les zones sensibles (via "Open landscape")

Image

- un parser VCF, qui permet de charger les variants d’un individu et d’obtenir une première estimation de leur potentiel pathogène (via tools dans le menu)

Image

Important : je ne considère pas ces résultats comme des vérités, mais comme des hypothèses guidées par les données.
Quand les signaux sont trop faibles ou contradictoires, je préfère ne pas assigner de mécanisme.

PS: j’ai limité à 2000 résultats chaque recherche pour le moment donc vous n’aurez pas l’entièreté des résultats
il y a 5 heures
Un topic de qualité sur onche ?
:effroi:
il y a 5 heures
Les protéines c'est pas ce qu il y a dans le poulet ?

:Golempelo:


En tout cas ça a l air impressionnant mais faut connaître le sujet avant donc je vais devoir revoir ce que signifie adn genes etc...

:jesus_x:
il y a 4 heures
J'ai rien compris mais bravo elop
:chat_lunettes:
Clique sur le meilleur topic du monde https://onche.org/topic/1[...]ete-forum#message_1972156
il y a 4 heures
Superbe topic clé, ça change de d'habitude, et belle carrière je te le souhaite
:love:
il y a 4 heures
Les protéines c'est pas ce qu il y a dans le poulet ?

:Golempelo:


En tout cas ça a l air impressionnant mais faut connaître le sujet avant donc je vais devoir revoir ce que signifie adn genes etc...

:jesus_x:
J'ai essayé de ne pas trop agrandir le pavé pour rentrer dans ces explication mais j'ai conscience que je perd du monde.
A moins d'avoir fait à minima S - SVT en première / terminale, la connaissance est acquise via l'auto apprentissage et la bio ça passionne pas grand monde
:sad2:


Pour faire court ton adn est une suite acides aminées qui encodent des protéines, une mutation dans l'adn implique une mutation dans la protéine. La proteine peut avoir comme job par exemple de tuer une cellule cancereuse. De permettre la division cellulaire. Etc... il y en a plus de 20 000 différentes
il y a 4 heures
Superbe topic clé, ça change de d'habitude, et belle carrière je te le souhaite
:love:
Merci! Je suis toujours en process pour le job, mais dans la shortlist des candidats. Je ne me fais pas d'illusions non plus, chez ETH on a la crème des chercheurs et ingénieurs.
Beaucoup des prix nobels sont passé par là, par exemple Albert Einstein.

Je sais que j'aurai jamais une 2e chance comme ça, j'y ai mit tout mon coeur dans cette app.
il y a 4 heures
J'ai essayé de ne pas trop agrandir le pavé pour rentrer dans ces explication mais j'ai conscience que je perd du monde.
A moins d'avoir fait à minima S - SVT en première / terminale, la connaissance est acquise via l'auto apprentissage et la bio ça passionne pas grand monde
:sad2:


Pour faire court ton adn est une suite acides aminées qui encodent des protéines, une mutation dans l'adn implique une mutation dans la protéine. La proteine peut avoir comme job par exemple de tuer une cellule cancereuse. De permettre la division cellulaire. Etc... il y en a plus de 20 000 différentes
Merci c est intéressant donc je demanderai moi même à une IA de résumé ce que tu as fait et de m expliquer tout ce qui est proteine adn etc...en vulgarisant

Je pense que ce que tu as fait c est comme ça que les labos ou chercheurs vont travailler non ? C est à dire tu fais des probas/prédictions pour chercher faire d éventuelles decouvertes , d ailleurs en utilisant l IA qui elle même marche sur des probas
il y a 4 heures
Merci c est intéressant donc je demanderai moi même à une IA de résumé ce que tu as fait et de m expliquer tout ce qui est proteine adn etc...en vulgarisant

Je pense que ce que tu as fait c est comme ça que les labos ou chercheurs vont travailler non ? C est à dire tu fais des probas/prédictions pour chercher faire d éventuelles decouvertes , d ailleurs en utilisant l IA qui elle même marche sur des probas
Oui c'est ça.

L'équipe où j'essaie de rentrer c'est 15 chercheurs, dont un mondialement connu qui est également professeur là-bas (publié dans Science et Nature)

Ils travaillent avec des super-ordinateurs et essaient de se départir de tous les biais pour créer des résultats qui ont du sens. Un peu comme ce que j'ai fait, sauf qu'il y a des inconnus, et je l'ai fait de manière plus niaise que les chercheurs, en utilisant uniquement 5 données pour estimer pathogénité de chaque variant. D'où le nombre élevé d' "unassigned".

J'étais en call avec le professeur chercheur hier, j'ai essayé d'avoir des infos, mais voilà ils font le travail de manière plus rigoureuse. Forcément...

En tout cas il m'a dit avoir été impressionné par l'outil. Il me recontact s'il souhaite continuer l'aventure avec moi.

Si tu veux un résumé en une ligne de mon travail, c'est: Je ne veux pas savoir uniquement si une mutation est dangereuse, je veux savoir par quel méchanisme elle l'est grace au machine learning. (On ne veut pas juste répondre à la question "Oui ou non" mais "Si oui pourquoi?")
il y a 4 heures
Merci! Je suis toujours en process pour le job, mais dans la shortlist des candidats. Je ne me fais pas d'illusions non plus, chez ETH on a la crème des chercheurs et ingénieurs.
Beaucoup des prix nobels sont passé par là, par exemple Albert Einstein.

Je sais que j'aurai jamais une 2e chance comme ça, j'y ai mit tout mon coeur dans cette app.
J'espère que tu nous feras une dédi quand tu recevras ton prix nobel
:gg:
il y a 2 heures
J'ai pas compris le truc
Genre si j'envoie mon génome MyHeritage sur cet outil ça donne des infos sur mes variants?
:risi_jzoom:
il y a une heure
Si on passait aux conclusions ?
Certifié tous gaz.
il y a une heure
Interessant ton outil
:risitas_hanches:


On observe déjà des info sur les aires de mutation critiques

Des info sur les protéines co-dépendantes ?

En relisant je me dis que les codépenances sont implicites et font parties des statistiques es modeles de base. Qui implique un moyennage sur les mutations les plus courantes.
Donc tu évalues une mutation unique, mais tu ne peux pas avoir d'info sur une paire de mutation
il y a une heure