Afin de vous aider à mieux cerner les profils des équipes et des joueurs qui participeront à la Coupe du Monde, MDF a souhaité aller plus loin dans l’analyse des statistiques en vous proposant gratuitement un jeu de données spécialement dédié à la compétition (accessible ici). L’occasion pour nous d’évangéliser les enjeux de la maîtrise des données et d’apporter notre réflexion sur leur importance pour le secteur du football.
- Vous êtes blogueur et vous souhaitez proposer une analyse originale du profil des équipes qui participeront à la Coupe du Monde ;
- Vous êtes designer ou infographiste et vous souhaitez réaliser une infographie à propos des statistiques marquantes des joueurs de la compétition ;
- Vous êtes pronostiqueur et vous souhaitez affiner votre analyser en vue de parier sur la Coupe du Monde ;
- Vous êtes supporter et souhaitez aller plus loin dans l’analyse des listes des 23 joueurs convoqués pour la Coupe du Monde ;
- …
Le problème, c’est que vous n’avez pas accès à des données brutes, un fichier complet des données sur les joueurs et les sélections, et que vous devez vous en tenir aux analyses réalisées par les grands médias ?
- cliquez sur le lien suivant pour accéder au jeu de données : http://bit.ly/DataWorldCup
- une fois le document ouvert, rendez-vous dans fichier > télécharger au format
- choisissez le format d’exportation de vos données (.xls, .ods, . csv, .pdf, .tsv, .zip)
- ouvrez les données avec votre logiciel préféré et retravaillez les comme vous le souhaitez !
Sommaire interactif de l’article
- Quel est le contexte actuel de l’accessibilité des données ?
- Quelle est la solution proposée par Mondial de Football ?
- Quelles sont les caractéristiques de ce jeu de données ?
- Vers la nécessité d’une réflexion globale sur la libéralisation des données du football ?
- Quels sont les enjeux de l’Open Data pour le football ?
La donnée (ou data) est la matière première du blogueur, du designer, du journaliste ou du supporter avide de mieux comprendre son sport favori. Sa libre circulation et sa transformation est à la base de création de valeur et de connaissances. Les données, qui voient leur volume croître de façon exponentielle, ne s’épuisent pas et ne se détruisent pas lorsqu’elles sont transformées. Certains experts allant même jusqu’à les considérer comme l’or noir du XXIe siècle.
Quel est le contexte actuel de l’accessibilité des données ?
En dépit de ces caractéristiques, l’accessibilité des données de la Coupe du Monde est aujourd’hui très difficile. Si des initiatives pertinentes existent pour vous aider à visualiser de façon interactive les statistiques des équipes de la Coupe du Monde, il n’existe pas à ce jour de jeu de données ouvert sur les données brutes des joueurs et équipes nationales de la compétition. Pourtant, ce type de jeu de données (ou dataset), serait fort utile pour de nombreux acteurs, allant des supporters en passant par les médias, les entraîneurs, les blogueurs et les designers, etc.
Toutefois, il existe au niveau des grands médias de nombreuses études et articles récents. Il suffit de surfer depuis quelques jours sur le net pour être inondé d’infographies, de datavisualisation et d’études en tout genre sur les caractéristiques des joueurs et équipes nationales. Ce type de contenus est intéressant à bien des égards, notamment parce que les supporters et le grand public sont friands de chiffres en tout genre. Toutefois, ces contenus posent plusieurs limites :
- l’existence récurrente d’écarts (certes minimes) entre les données utilisées par les différents médias (il suffit de comparer cet article avec cet article ou avec ces infographies) ;
- l’absence de mise à jour en temps réel des données utilisées ;
- l’utilisation de sources de données différentes, soit issues d’opérateurs privés, soit issues du travail de spécialiste de la collecte de données sur le web ;
- la non-accessibilité aux données brutes et la méthodologie de collecte adoptée (comme l’opérateur fournissant l’analyse du 11 juin réalisée par Libération) ;
- la rigidité dans la ré-utilisation des données pour en adopter un angle d’analyse différent.
Ceci explique pourquoi nous avons tenté, pour avoir la main sur les données de nos propres analyses, de collecter nous même les données via le PDF de la FIFA sur les listes des 30 joueurs du Mondial. Toutefois, le format adopté (une image exportée en PDF) ne nous a pas permis d’extraire les données afin de les retravailler dans un fichier Excel.
Quelle est la solution proposée par Mondial de Football ?
Ainsi, pour dépasser l’ensemble des limites énoncées précédemment, nous avons souhaité apporter notre modeste contribution pour une réutilisation simplifiée et flexible des données. Mondial de Football vous propose donc de retrouver un jeu de données brutes sur les 736 joueurs et 32 sélections nationales de la Coupe du Monde, sur lequel nous appuierons nos analyses durant le Mondial (notamment pour affiner ce type d’analyse). Ces données ont été publiées sous la forme de fichiers dits « plats » au format tableur, que vous pourrez télécharger intégralement.
Le jeu de données est accessible sur un Google Document, qui vous permet de le télécharger sous différents formats et qui comprend un onglet « notice – MAJ » définissant les étapes de la collecte et du traitement des données, ainsi que les mises à jour apportées au document afin d’assurer la traçabilité des modifications et la fraîcheur des informations.
- cliquez sur le lien suivant pour accéder au jeu de données : http://bit.ly/DataWorldCup
- une fois le document ouvert, rendez-vous dans fichier > télécharger au format
- choisissez le format d’exportation de vos données (.xls, .ods, . csv, .pdf, .tsv, .zip)
- ouvrez les données avec votre logiciel préféré et retravaillez les comme vous le souhaitez !
Ce fichier comporte toutefois deux principales limites :
- il ne se met pas à jour automatiquement. Celle-ci sera réalisée manuellement ;
- son accessibilité se fait uniquement par téléchargement et ne propose pas d’API (Application Programming Interface).
N’hésitez pas à nous contacter pour nous donner des exemples d’utilisations de ce jeu de données ; nous n’hésiterons par à les relayer. Car la force de la libéralisation des données renferme sa principale faiblesse : si les données sont accessibles gratuitement et sans accès, il est difficile d’en connaitre leur utilisation, rendant difficile l’amélioration continue de la mise à jour des données et la création de nouveaux types de variables.
Quelles sont les caractéristiques de ce jeu de données ?
Pour rappel, l’Open Data est le principe selon lequel les données sensées être publiques (celles recueillies, maintenues et utilisées par les organismes publics) ou privées, doivent être disponibles pour accès et réutilisation par les citoyens et entreprises. Notons qu’en France, le gouvernement Ayrault a suivi et institutionnalisé le mouvement Open Data. Côté entreprise, la SNCF, la RATP ou JC Decaux ont franchi le cap de l’ouverture de leur données.
Nous considérons notre jeu de données comme étant proche des 10 principes de l’Open Data tel que ceux énoncés par la Sunlight Foundation (association américaine, créée en 2006, et à la pointe du mouvement Open Data), puisque nos données en recouvrent 8 :
- complètes (elles couvrent l’ensemble des joueurs et équipes de la Coupe du Monde) ;
- primaires (elles sont totalement brutes, sans retouches) ;
- fraîches (elles datent du 6 juin 2014) ;
- accessibles électroniquement (via le lien du Google Document) ;
- lisibles par une machine ;
- accessibles sans discrimination ;
- accessibles de façon pérenne ;
- gratuites (Mondial de Football ne demandera aucun droit d’accès ni d’utilisation).
Vers la nécessité d’une réflexion globale sur la libéralisation des données du football ?
La création de notre jeu de données ouvre, selon nous, une réflexion globale sur les enjeux d’une ouverture des données du football par les clubs et les fédérations. Cette réflexion prend un sens compte tenu de l’intérêt des fanatiques de sports pour les statistiques :
- simplement descriptives (combien de buts marque un joueur par saison ? Quel est le nombre de passes décisives d’un joueur de foot dans un championnat ?, etc.) ;
- plus élaborées (quels sont les clubs les plus représentés à la Coupe du Monde ? Quelles sont les équipes ayant le plus de joueurs évoluant dans un championnat étranger, etc.);
- totalement intégrées et en temps réel pour analyser une rencontre sportive (décrypter l’importance d’un joueur dans le jeu d’équipe à partir de son habileté à distribuer la ballon, propagation du ballon après une passe à partir d’un jour pour comprendre l’orientation du jeu, etc.).
Au-delà de cet intérêt potentiel des fans de sport et du grand public, nous sommes convaincus que la diffusion libre des statistiques sportives peut également permettre une meilleure analyse des rencontres par les journalistes sportifs, les entraîneurs, voire les marques et équipementiers. Un mouvement massif de libéralisation des données du sport permettrait en outre de créer des jeux de données structurés, documentés et fiables sur lesquels l’ensemble des utilisateurs pourraient s’appuyer.
Quels sont les enjeux de l’Open Data pour le football ?
La libération des données est avant tout une démarche ambitieuse de la part des clubs et fédérations de football (FFF, UEFA, FIFA, etc.). Les impacts sur les acteurs du domaine du football sont non négligeables et les enjeux sont nombreux :
- un enjeu économique et d’innovation : l’Open Data comme un accélérateur d’innovation, un outil de relance par les Technologies de l’Information et de la Communication (TIC) et les tierces personnes (développeurs, indépendants, start-up, etc.), permettant de créer potentiellement des disruptions (ruptures pour se différencier). La situation économique des clubs de Ligue 1 nous parait être un argument suffisamment solide pour que ces derniers songent sérieusement à la libéralisation de leurs données ;
- un enjeu citoyen et démocratique : l’Open Data comme un outil au service de la transparence de la vie publique (dont la FIFA pourrait se servir pour retravailler son image suite aux récentes allégations de corruption) ;
- un enjeu de santé et d’équité : l’Open Data comme un moyen de lutte anti-dopage par les perspectives de développement d’applications statistiques afin d’identifier des comportements « anormaux » ;
- un enjeu métier et RH : l’Open Data comme un moyen de décloisonner et rapprocher les métiers, « horizontalisant » les organisations et favorisant la transdisciplinarité ;
- un enjeu d’information : l’Open Data comme un outil d’information et de ré-information du grand public (comme l’exemple de la création récente de la rubrique « Les décodeurs » du journal Le Monde) via le développement rapide des projets de datajournalisme et de datavisualisation proposant de nouveaux contenus éditoriaux ;
- un enjeu de protection : l’Open Data comme un moyen de prévenir la réutilisation de données non autorisées
- un enjeu marketing : l’Open Data, au même titre que le « Big Data » comme outil d’analyse prédictive, de segmentation par clients et par marché ;
- un enjeu de communication et d’image : l’Open Data comme un moyen pour les clubs et les fédérations de mieux se faire comprendre par leurs parties prenantes (partenaires, supporters, investisseurs, etc.), voire d’en faire un argument commercial ;
- un enjeu tactique et stratégique : l’Open Data comme un outil au service des entraîneurs pour mieux comprendre les performances d’un joueur ou d’une équipe.
Vous souhaitez poursuivre le débat ? N’hésitez pas à commenter cet article ou à nous contacter !
À toutes les catégories de personnes intéressés par ces données, permettez moi d’ajouter les mères qui veulent enseigner la programmation et les statistiques à leurs enfants avec des données qui les intéressent vraiment.
Avez-vous les données de 2018?
Merci!