Ceci est une ancienne révision du document !


Open Data


L’Open Data est un processus de mise à disposition des données publiques. C’est un mode d’accès à l’information publique, respectant des règles précises :

  • gratuité,
  • formats non propriétaires et techniquement accessibles,
  • licences de réutilisations comme les Creative Commons-CC et l’Open Database Licence-ODL (la donnée publique étant considérée comme un bien commun), après autorisation et anonymisation.

A l'origine de l'Open Data

Le mouvement a été amorcé avec la loi CADA du 17 juillet 1978 (droit d’accès aux documents administratifs), est porté par un mouvement citoyen (recherche de transparence en démocratie, et démocratie participative), et prend aujourd’hui de nouvelles formes. [Continuer Histoire]

Rôle et mission d'ETALAB

Les missions et le rôle d’Etalab pour la modernisation de l’action publique (source Etalab)

  • Etalab coordonne l’action des services de l’Etat et de ses établissements publics pour faciliter la réutilisation la plus large possible de leurs informations publiques.
  • Etalab administre le portail interministériel data.gouv.fr destiné à rassembler et à mettre à disposition librement l’ensemble des informations publiques de l’Etat, de ses établissements publics et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public.

Exemple de réutilisations de données ouvertes

La réutilisation des données doit se faire dans un cadre juridique clair.

Le principe d'héritage licence libre producteur - licence libre utilisateur est le plus fréquent, mais il y a de nombreuses combinaisons possibles. Voir https://www.etalab.gouv.fr/licence-ouverte-open-licence et https://www.data.gouv.fr/fr/faq/producer/. pour les nuances.

Les exemples d’utilisation et d’applications sont très nombreux (voir par exemple), sous l’impulsion de la Mission Etalab créée en 2011 (Henri Verdier, Etalab ).

Début janvier 2017, on vient d'assister à deux évènements coup sur coup:

  • la mise à disposition des données trafic en temps réel de la RATP (dont on imagine sans peine les réutilisations).
  • et l'ouverture de la base Sirène de l'insee.

Cette immense base de données sur les entreprises, peut susciter de multiples réutilisations. Le 15 novembre, l’Insee et Etalab organisaient le hackathon #OpenSirene au SenseSpace qui donne une idée des réutilisations possibles : https://www.etalab.gouv.fr/retour_sur_le_hackathon_opensirene

Etalab organise ainsi chaque année un concours Dataconnexion https://www.data.gouv.fr/fr/dataconnexions-6 des meilleures réutilisations des données publiques, et distingue les 4 catégories suivantes :

  • impact démocratique (suivi de l’action des élus, suivi des dépenses budgétaires…),
  • impact social et environnemental (actions climat, nourriture, énergies… et pauvreté, exclusion),
  • impact économique et scientifique (circulation de l’information recherche, nouveaux services, applications transports, mobilité…),
  • et impact administratif et territorial (visibilité et efficacité des administrations)

La démarche OPEN DATA

La démarche OPEN DATA, consiste à ré-utiliser des base de données (anonymisées) mises à disposition par la puissance publique, afin de produire un service supplémentaire, et une valeur ajoutée à la donnée initiale dispersée et brute.

Le site https://www.data.gouv.fr/ est une précieuse ressource, car il est à la fois la source de données, et un point d’exposition des principales réutilisations.

L’Insee est aussi, bien sur, une source indispensable, avec une qualité des jeux de données remarquable.

Le retraitement des données ouvertes

Les données ouvertes nécessitent souvent un retraitement en raison de leur caractère hétérogène. Les jeux de données mis à disposition sur data.gouv.fr sont de qualité variable, avec des données non normalisées, des présentations hétérogènes, qui nécessitent souvent un travail de traitement des données (notamment parce que le processus de collecte et d'enregistrement des données par les services de l'Etat, ne sont pas homogènes).

Le fichier récupéré (CSV souvent) peut être affiné avec un tableur. Il faut utiliser pour cela un certain nombre de fonctionnalités indispensables des tableurs (si on n'utilise pas des outils comme OPENREFINE http://openrefine.org/index.html, ou des scripts élaborés, sous python par exemple).

  • Convertir des données texte csv, trier, filtrer, copier des formules sur longues colonnes, figer une valeur de formule avec $, plages nommées, figer volets, dé doublonner avec filtre, arrêter le calcul automatique
  • Fonctions mathématiques et statistiques : SOMME, ARRONDI, MIN/MAX, MÉDIANE, MODE, MOYENNE, PETITE/GRANDE.VALEUR, ECARTYPE, SOUS.TOTAL
  • Fonctions logiques : SI, ET, OU, NB.SI, SOMME.SI
  • Fonctions de recherche : RECHERCHER/REMPLACER, RECHERCHE H ET V, ou INDEX + EQUIV
  • Fonctions sur les données texte et les caractères : CONCATENER (ou &), MAJUSCULE/MINUSCULE, NBCAR, DROITE/GAUCHE, STX, CHERCHE, et les jokers ? *