Construction de scores prédictifs de facteurs liés au mode de vie : chaînage de la cohorte Constances au Système National des Données de Santé

Caractéristiques

Responsable scientifique E. Courtois
Organisme de rattachement Inserm & Université Paris Saclay
Laboratoire / Lieu Centre de recherche en Epidémiologie et Santé des Populations, Villejuif
Année de dépôt 2024
Type de projet Données uniquement

Contexte

Malgré son exhaustivité et sa taille, le Système National des Données de Santé ne dispose pas d’informations renseignant directement sur le mode de vie. Les caractéristiques du mode de vie sont bien souvent des facteurs de confusion pour de nombreux évènements de santé et sont, à ce titre, des facteurs d’ajustement incontournables dans de nombreuses études épidémiologiques. Parmi ces facteurs liés au mode de vie, on peut notamment penser à la consommation de tabac, qui est un facteur de risque avéré de nombreuses pathologies, mais aussi la consommation d’alcool, la corpulence ou l’activité physique. A défaut, les études pharmaco-épidémiologiques réalisées à partir du SNDS utilisent des indicateurs proxy construits à partir des données disponibles sur les remboursements de médicaments, les motifs d’hospitalisation, les prises en charge pour affections de longue durée, etc. Néanmoins, l’ajustement sur ce type de variable peut conduire à un biais de confusion résiduel.   

Concernant la consommation de tabac, un algorithme expert a été développé par le groupement d’intérêt scientifique EPI-Phare pour le SNDS. Cet algorithme vise à définir le statut tabagique à partir de pathologies et/ou de médicaments associés à la consommation de tabac. Cet indicateur conduit à des taux de prévalence du tabagisme relativement bas, suggérant ainsi qu’il ne parvient pas à capter pleinement la consommation tabagique. Dans cette même publication, un indicateur binaire renseignant sur la consommation d’alcool est également proposé. A notre connaissance, ces indicateurs n’ont pas fait l’objet de validation dans le contexte des données françaises. En revanche, cet effort de validation a déjà été entrepris pour d’autres bases de données médico-administratives, en particulier en ce qui concerne le statut tabagique et l’obésité. Concernant la corpulence, des algorithmes ont été proposés dans le SNDS visant à cibler très spécifiquement l’obésité morbide. A notre connaissance, aucun algorithme visant à caractériser l’activité physique n’a été développé pour le SNDS.

Objectifs

L‘objectif de ce projet est de développer et d’évaluerà partir des données de la cohorte Constances, des scores prédictifs de quatre facteurs liés au mode de vie que sont : la consommation de tabac, la consommation d’alcool, la corpulence et l’activité physique.

Méthodes

Des informations relatives aux quatre facteurs liés au mode de vie d’intérêt sont disponibles pour tous les participants de Constances grâce à un questionnaire rempli à l’inclusion et à un examen de santé effectué également à l’inclusion. La population d’étude de ce projet sera constituée de l’ensemble des volontaires de la cohorte Constances pour lesquels sont disponibles (i) le chaînage de leurs données SNDS et (ii) une pondération visant à corriger la non-participation à la cohorte, afin de s’assurer au mieux la représentativité de notre population d’étude par rapport à la population générale. Pour construire nos scores prédictifs, les réponses d’intérêt de nos modèles seront issues des données disponibles dans Constances, tandis que les variables explicatives seront exclusivement issues du SNDS. Une réflexion méthodologique sera entreprise pour caractériser de manière précise les facteurs liés au mode de vie d’intérêt, et pour déterminer la meilleure façon de formater les données du SNDS pour les intégrer dans nos modèles.  

Sur un ensemble d’apprentissage constitué de 80% de la population d’étude, deux stratégies distinctes seront mises en œuvre pour la construction des scores, reposant sur deux méthodes d’apprentissage statistique appropriées à la grande dimension des données
 (régression pénalisée de type lasso ; arbres de classification).
Sur un ensemble de validation constitué des 20% restants de la population d’étude, les performances prédictives des scores construits seront évaluées en termes de sensibilité (rappel), spécificité, valeurs prédictives positive (précision) et négative, et aire sous la courbe ROC (AUC).


En parallèle de ce travail, nous implémenterons les algorithmes précédemment proposés pour la consommation de tabac et la consommation d’alcool dans le SNDS sur les données Constances à notre disposition. Leurs performances prédictives seront évaluées avec les mêmes métriques : sensibilité, spécificité, valeurs prédictives positive (précision) et négative, AUC.

Perspectives

Ce projet a pour ambition de faciliter l’implémentation de ces scores au sein de la communauté de la recherche, afin qu’ils puissent être, à terme, utilisés comme facteurs d’ajustement dans les analyses pharmaco-épidémiologiques réalisées sur le SNDS s’ils se révèlent être suffisamment prédictifs.

Informations réglementaires

Responsable de traitement

Démarches réglementaires en cours ou à venir.