Recherche et études

Accueil
Espace scientifique
Recherche et études
Evaluation de la qualité des données génétiques dans les cohortes françaises

Evaluation de la qualité des données génétiques dans les cohortes françaises

CARACTÉRISTIQUES

Responsable scientifique T. Truong

Organisme de rattachement Equipe Constances & Inserm

Spécificités Données uniquement

Année d'acceptation 2026

Statut En cours

Contexte

L’Equipex+ Biobanque Cohortes Françaises (BioCF) a permis de mettre en place une infrastructure nationale pour collecter, centraliser, stocker et exploiter les échantillons biologiques de cinq cohortes généralistes françaises (Constances, Gazel, E3N-Générations, Elfe et Epipage2), couvrant plusieurs périodes de la vie et offrant une richesse unique de données épidémiologiques et biologiques. Dans ce cadre, 150 000 participants de ces cohortes seront génotypés d’ici 2027 à l’aide de la puce GSAv4 (Illumina) qui fournit des informations sur environ 650 000 variants génétiques. Les données génétiques pour environ 50 000 participants seront déjà disponibles fin 2025.

Objectifs

Nous visons à présenter et décrire ce premier jeu de données génétiques, en évaluer la qualité et la fiabilité, et en explorer la diversité génétique sous un angle national et international. L’objectif est de démontrer la valeur scientifique des données qui seront issues de cette étude et leur apport spécifique au paysage mondial des biobanques.

Méthodes

Un contrôle qualité standard sera appliqué aux données génétiques : exclusion d’individus et de variants selon le taux de génotypage, discordance sexe génétique/sexe déclaré, taux d’hétérozygotie, détection de doublons et apparenté). Les variants non génotypés seront imputés à l’aide de méthodes statistiques et de panels de référence, afin d’obtenir un jeu de données plus complet (environ 10-15 millions de variants). La qualité de l’imputation sera comparée entre sous-populations et entre les cohortes participantes à cette étude.

La structure de population sera étudiée par analyses en composantes principales (ACP) et, si pertinent, par méthodes complémentaires (ADMIXTURE, clustering). Nous analyserons la diversité génétique des participants en fonction de leur région de naissance ou de résidence au moment de l’inclusion, et comparerons les fréquences alléliques avec celles d’autres biobanques internationales (UK Biobank, FinnGen, 1000 Genomes).

Enfin, pour vérifier la fiabilité de ces données, nous vérifierons qu’elles permettent bien de retrouver certaines relations déjà connues entre variants génétiques et des caractéristiques simples, comme la taille ou l’indice de masse corporelle. Ces analyses reposeront sur des modèles de régression linéaire.

Perspectives

Ces résultats démontreront la qualité et l’utilité de cette étude comme ressource nationale ainsi qu’internationale. À terme, cette infrastructure offrira une base unique pour explorer les déterminants génétiques de multiples maladies chroniques ou indicateurs de santé et contribuer à des recherches innovantes en épidémiologie génétique et en santé publique.