La précision de motifs d'ADN des facteurs de transcription

iStock photos

iStock photos

Une équipe internationale dirigée par des chercheurs de l'EPFL et de l'Académie des sciences de Russie a entrepris une étude comparative complète pour évaluer la performance prédictive des motifs de sites de liaison de facteurs de transcription disponibles au public.

Les facteurs de transcription sont les principaux régulateurs de l'expression des gènes. Ils se lient spécifiquement à de courtes séquences d'ADN dans le génome appelées "motifs de séquences". Les motifs de séquence sont des modèles informatiques largement utilisés pour prédire les sites de liaison des facteurs de transcription en l'absence de données expérimentales. Cependant, des informations fiables sur la précision de ces modèles n'étaient jusqu'à présent pas disponibles. Le besoin de telles informations devient d'autant plus urgent que les utilisateurs ont aujourd'hui la "malédiction du choix" jusqu'à 10 motifs différents, et souvent dissemblables, pour le même facteur de transcription.

Dans un article publié dans Genome Biology, les scientifiques ont abordé la question de la précision des motifs de liaison des facteurs de transcription en comparant 4972 motifs provenant de trois ressources différentes sur 3'161 ensembles de données expérimentales de tests pour les facteurs de transcription humains générés avec trois technologies différentes.

Les résultats de l'étude aideront les scientifiques à évaluer de manière critique les recherches publiées basées sur les prévisions des sites de liaison des facteurs de transcription et leur permettront de sélectionner des sous-ensembles de motifs optimaux pour des cas d'utilisation particuliers. À long terme, on espère que les protocoles de calcul mis au point pour cet effort d'évaluation comparative permettront d'obtenir des modèles plus précis des sites de liaison des facteurs de transcription et, d'améliorer considérablement les outils bioinformatiques permettant de prédire les effets des mutations génétiques régulatrices dans divers contextes pathologiques.

L'ensemble complet des plus de 15 millions de valeurs de performance résultant de cette étude comparative exhaustive est disponible gratuitement dans le dépôt en libre accès Zenodo. Pour faciliter la reproductibilité des calculs, les protocoles d'analyse comparative ont été mis en conteneur sous forme d'images de dockers et mis à la disposition du public sur github.

Autres contributeurs :

  • Institut suisse de bioinformatique
  • Académie des sciences de Russie
  • Université d'État de Moscou
  • Université Martin Luther de Halle-Wittenberg
  • Université d'Aix-Marseille
  • Université de la Colombie-Britannique
Financement

EPFL

Institut suisse de bio-informatique

COST (Coopération européenne dans le domaine de la science et de la technologie)

Fondation russe pour la recherche fondamentale

Fondation russe pour la science

Présidium de l'Académie des sciences de Russie