Données IREP, prise en compte de la variable temps

Les données Irep sont disponibles par années. On explique ici la préparation des données patient et des données Irep préalable à leur traitement par le logiciel Irep_radius.

I – Sélection des patients

Les adresses
On a considéré trois périodes (celles pour lesquelles nous possédons des adresses) :
1) les 9 mois de grossesse,
2) entre la naissance et la quatrième année,
3) entre la naissance et le diagnostic.
Les adresses que nous avons utilisés sont : les adresses aux périodes considérées quand on en disposait, quand ce n’était pas le cas, nous les avons remplacées par l’adresse que nous possédions la plus proche de la période étudiée. Nous avons donc utilisé les adresses “combinées” de Cobra.

Sélection des patients/témoins pour une année n (2003≤n<2013)
• On a complété la variable “date de diagnostic” pour les témoins de la façon suivante : a) on cherche à quel âge le diabète du patient correspondant a été diagnostiqué, b) on calcule la “date de diagnostic” du témoin comme sa date de naissance + âge au diagnostic du patient.
Dans la suite de ce texte on utilisera le terme “sujet” pour désigner les patients et les témoins.

• Etant donné une année n pour laquelle nous possédons des données concernant les émission ou les déchets dangereux, voici comment nous avons sélectionnées les sujets :

1) les 9 mois de grossesse : pour l’année 2003 on sélectionnera tous les sujets nés entre le 1er janvier 2003 et le 1er mai 2004. Pour les années suivantes, on sélectionnera les sujets né entre le 1 mai de n et le 30 avril de n+1.
n : année pour laquelle on posséde des données d’émission ou de déchets
Date de naissance < 2003 \Rightarrow On ne sélectionne pas le sujet

Date de naissance ≥ 2003 alors
n=2003 \Rightarrow on sélectionne les sujets pour lesquels la condition suivante est remplie : 1er janvier 2003 ≤ Date de naissance <1er mai 2004
2003<n \Rightarrow on sélectionne les sujets pour lesquels la condition suivante est remplie : 1er mai n ≤ Date de naissance < 1er mai n+1

2) entre la naissance et la quatrième année :
On sélectionne les sujets pour lesquels la condition suivante est remplie : n-4 < Date de naissance ≤ n \land Date de diagnostic ≥ n
Exemple : pour un sujet né en 2005 et diagnostiqué en 2007, à deux ans, on recherchera les expositions en 2005, 2006 et 2007.
Autrement dit, pour les émissions de l’année 2005, on recherchera les sujets nés entre 2002 et 2005 et dont la date de diagnostic est supérieure ou égale à 2005

3) entre la naissance et le diagnostic :
On sélectionne les sujets pour lesquels la condition suivante est remplie : Date de naissance ≤ n \land Date de diagnostic ≥ n

• Les sujets ainsi sélectionnés sont regroupés par années d’exposition. Le “code patient” est alors complété par un préfixe (1_ , 2_…) correspondant à la période d’exposition et par un préfixe (patient, temoin) indiquant la nature du sujet.
On préparera donc un fichier par année d’exposition, chaque fichier comprenant 3 colonnes : ID du patient et coordonnées géographiques en wgs84 (attention, contrairement au logiciel fgbase, Irep_radius utilise le système wg84).

Script R permettant de sélectionner les patients : nm.CoordparAnnee_prIrep.R

II – Données Irep

On doit créer trois fichiers (voir utiliser Irep_radius) eta, emi et pol.

  • eta :
    • on utilisera le fichier etablissement.csv en convertissant les coordonnées géographiques comme précisé dans l’article précédemment cité,
      Attention, les coordonnées ne sont pas toutes dans le même système de référence !!!! Pour la France métropolitaine, Lambert II Etendu, mais par pour les DOM, ce qui est logique mais pas mentionné. Il convient donc de supprimer tous les établissements des DOM (Guyane, Martinique, Guadeloupe, Reunion) avant de passer de LambertII en wgs.
    • on renumérotera les établissement de 1 à n Irep_radius n’acceptant que les identifiant numériques pour créer l’identifiant idtab.

    Remarques sur le géocodage des établissements :
    La carte ci-dessous représente les établissements IREP de France métropolitaine.
    geocodIrepNombre de points sont dans la mer… Pour évaluer la vraisemblance du géocodage, j’ai regardé la distance entre centroïde de la commune de l’établissement et les coordonnées géographiques de cet établissement. 186 établissements (sur 13.382) sont à plus de 50km du centroïde de leur commune.
    J’ai vérifié sur le site du ministère de l’environnement, si on retrouvait ces valeurs aberrantes ; c’est le cas. Par exemple, voici la fiche d’un établissement situé en Champagne-Ardennes mais que ses coordonnées géographique localisent en Bretagne. On remarquera que la fiche a été mise à jour le 29 octobre dernier.
    irep_mal_geocodAfin de minimiser les pertes de données j’ai remplacé les coordonnées des établissement mal géocodés, par celles du centroïde de leur commune.
    Choix des établissements “mal géocodés”.
    J’ai appliqué la règle suivante : on remplace les coordonnées géographiques d’un établissement si :

    • la distance entre cet établissement et le centroïde de sa commune est supérieure à 10km et
    • la distance entre l’établissement et le centroïde de la commune est supérieure à 3R. R étant le rayon d’un cercle dont l’aire est celle de la commune concernée.

    Le fichier complet : etablissementsCodageCorr ; les données INSEE (merci Sofia) utilisées : Communes, le descriptif des données INSEE : DC_DL_RGC_2

  • pol :
    • à partir du fichier emission.csv on extraira quatre variables : l’identifiant de l’établissement, l’année de l’émission, le milieu dans lequel cette émission à lieu, le nom de la substance,
    • à partir des fichiers Prod_dechets_dangereux et Trait_dechets_dangereux on extraira quatre variables : l’identifiant de l’établissement, l’année de production ou de traitement, la nature du déchet/opération, le nom de la substance/opération. On dédoubonne.
      Par exemple, en 2005, l’établissement TERIS effectue des opérations de “Récupération ou régénération des solvants” pour des “Huiles dispersées”et pour de l'”Essence”, on obtiendra trois lignes :

      • ID TERIS; 2005; dechet; Huiles dispersées
      • ID TERIS; 2005; dechet; Essence
      • ID TERIS; 2005; operation; Récupération ou régénération des solvants
    • On extrait alors pour les trois fichiers les deux variables descriptives des déchets/opération, on dédoublonne et on crée un identifiant “codepolluant”. La variable “description” sera formée en concaténant le nom du fichier d’origine (emissions, Prod_dechets_dangereux et Trait_dechets_dangereux) et les deux variables descriptives.
  • emi :
    • dans les trois fichiers créés ci-dessus, on rapproche les identifiants numériques créés des identifiants Irep,
    • on crée un fichier global avec trois variables : année, codepolluant et idtab. On scinde le fichier par année.
  • Les fichiers eta, pol et les n fichiers emi (un par année) seront enregistrés en csv en format linux (voir utiliser Irep_radius) ; les voici : irep
    Les fichiers de correspondance :

III – Visualisation des données Irep