CARACTÉRISTIQUES
Contexte
Malgré son exhaustivité et sa taille, le Système National des Données de Santé ne dispose pas d’informations renseignant directement sur le mode de vie. Les caractéristiques du mode de vie sont bien souvent des facteurs de confusion pour de nombreux évènements de santé et sont, à ce titre, des facteurs d’ajustement incontournables dans de nombreuses études épidémiologiques. Parmi ces facteurs liés au mode de vie, on peut notamment penser à la consommation de tabac, qui est un facteur de risque avéré de nombreuses pathologies, mais aussi la consommation d’alcool, la corpulence ou l’activité physique. A défaut, les études pharmaco-épidémiologiques réalisées à partir du SNDS utilisent des indicateurs proxy construits à partir des données disponibles sur les remboursements de médicaments, les motifs d’hospitalisation, les prises en charge pour affections de longue durée, etc. Néanmoins, l’ajustement sur ce type de variable peut conduire à un biais de confusion résiduel.
Concernant la consommation de tabac, un algorithme expert a été développé par le groupement d’intérêt scientifique EPI-Phare pour le SNDS. Cet algorithme vise à définir le statut tabagique à partir de pathologies et/ou de médicaments associés à la consommation de tabac. Cet indicateur conduit à des taux de prévalence du tabagisme relativement bas, suggérant ainsi qu’il ne parvient pas à capter pleinement la consommation tabagique. Dans cette même publication, un indicateur binaire renseignant sur la consommation d’alcool est également proposé. A notre connaissance, ces indicateurs n’ont pas fait l’objet de validation dans le contexte des données françaises. En revanche, cet effort de validation a déjà été entrepris pour d’autres bases de données médico-administratives, en particulier en ce qui concerne le statut tabagique et l’obésité. Concernant la corpulence, des algorithmes ont été proposés dans le SNDS visant à cibler très spécifiquement l’obésité morbide. A notre connaissance, aucun algorithme visant à caractériser l’activité physique n’a été développé pour le SNDS.
Objectifs
L’objectif de ce projet est de développer et d’évaluer, à partir des données de la cohorte Constances, des scores prédictifs de quatre facteurs liés au mode de vie que sont : la consommation de tabac, la consommation d’alcool, la corpulence et l’activité physique.
Méthodes
Des informations relatives aux quatre facteurs liés au mode de vie d’intérêt sont disponibles pour tous les participants de Constances grâce à un questionnaire rempli à l’inclusion et à un examen de santé effectué également à l’inclusion. La population d’étude de ce projet sera constituée de l’ensemble des volontaires de la cohorte Constances pour lesquels sont disponibles (i) le chaînage de leurs données SNDS et (ii) une pondération visant à corriger la non-participation à la cohorte, afin de s’assurer au mieux la représentativité de notre population d’étude par rapport à la population générale. Pour construire nos scores prédictifs, les réponses d’intérêt de nos modèles seront issues des données disponibles dans Constances, tandis que les variables explicatives seront exclusivement issues du SNDS. Une réflexion méthodologique sera entreprise pour caractériser de manière précise les facteurs liés au mode de vie d’intérêt, et pour déterminer la meilleure façon de formater les données du SNDS pour les intégrer dans nos modèles.
Sur un ensemble d’apprentissage constitué de 80% de la population d’étude, deux stratégies distinctes seront mises en œuvre pour la construction des scores, reposant sur deux méthodes d’apprentissage statistique appropriées à la grande dimension des données (régression pénalisée de type lasso ; arbres de classification).
Sur un ensemble de validation constitué des 20% restants de la population d’étude, les performances prédictives des scores construits seront évaluées en termes de sensibilité (rappel), spécificité, valeurs prédictives positive (précision) et négative, et aire sous la courbe ROC (AUC).
En parallèle de ce travail, nous implémenterons les algorithmes précédemment proposés pour la consommation de tabac et la consommation d’alcool dans le SNDS sur les données Constances à notre disposition. Leurs performances prédictives seront évaluées avec les mêmes métriques : sensibilité, spécificité, valeurs prédictives positive (précision) et négative, AUC.
Perspectives
Ce projet a pour ambition de faciliter l’implémentation de ces scores au sein de la communauté de la recherche, afin qu’ils puissent être, à terme, utilisés comme facteurs d’ajustement dans les analyses pharmaco-épidémiologiques réalisées sur le SNDS s’ils se révèlent être suffisamment prédictifs.
Informations réglementaires
Responsable de traitement
Le traitement des données à caractère personnel est placé sous la responsabilité de l’Institut national de la santé et de la recherche médicale (Inserm) situé au 101 rue de Tolbiac, 75 013 Paris – www.inserm.fr
Délégué à la protection des données
Pour la cohorte et l’étude : Délégué à la protection des données de l’Inserm, dpo@inserm.fr ou 101 rue de Tolbiac, 75 013 Paris.
Base légale du traitement et recours à des données dites sensibles
Le traitement de données personnelles nécessaire à la mise en œuvre de cette étude répond à l’exécution d’une mission d’intérêt public dont est investi l’Inserm et nécessite le traitement de données personnelles de santé à des fins de recherche scientifique.
Catégories de données concernées par les traitements
Les données socio-démographiques (âge, sexe), relatives à la vie professionnelle (catégorie socio-professionnelle, situation vis-à-vis de l’emploi, tranches de revenus, etc.), à la qualité de vie (indice de défavorisation, difficultés financières, renoncement aux soins, indice de précarité), au niveau de formation (diplôme), à la consommation de tabac, d’alcool et de drogues, ainsi que les données relatives à la santé (biométrie, poids, diabète), celles relatives à la complémentaire et à la couverture santé, et les habitudes de vie et comportements (activité physique).
Destinataires ou catégories de destinataires des données à caractère personnel
Dans le cadre de cette étude, les données seront mises à disposition de la responsable de l’étude, chercheuse à l’Inserm (Institut public), France. Cette mise à disposition est nécessaire à la réalisation des analyses statistiques menées par l’équipe en charge de l’étude.
Durée de conservation en base active des données à caractère personnel
Les données seront conservées dans les systèmes d’information sécurisés du responsable de traitement, pendant 5 ans, de janvier 2025 à janvier 2030. Par ailleurs, les données sont archivées à l’UMS11 dans le cadre de l’autorisation initiale de la cohorte Constances jusqu’en 2041 (durée susceptible d’être prolongée par une nouvelle autorisation de la CNIL).
Droits des personnes concernées et modalités d’exercice de ces droits
Les données nécessaires à cette étude sont traitées conformément au Règlement général relatif à la protection des données « RGPD » (Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016) et à la loi n° 78-17 du 6 janvier 1978 modifiée relative à l’informatique, aux fichiers et aux libertés. L’ensemble des droits et les moyens pour les exercer sont disponibles sur le site Internet de la cohorte : https://www.constances.fr/ « Espace Volontaires » « Droits et protection des données ». Il est également possible de s’adresser au responsable de traitement de cette étude, par l’intermédiaire de son délégué à la protection des données (coordonnées indiquées ci-dessus).
Transferts de données envisagés vers un pays hors Union européenne (ou vers une organisation internationale) assurant un niveau de protection adéquat (ou des garanties appropriées)
Aucun transfert en dehors de l’Union européenne n’est prévu dans le cadre de cette étude.