Quand les graphiques sont une question de vie ou de mort

Vues: 8
0 0
Temps de lecture:10 Minute, 35 Second

Là où van Langren avait résumé la gamme des estimations longitudinales en une ligne, Playfair était allé plus loin. Il a découvert que vous pouviez encoder le temps par sa position sur la page. Cette idée lui est peut-être venue naturellement. Friendly et Wainer décrivent comment, lorsque Playfair était plus jeune, son frère avait expliqué une façon d’enregistrer les températures élevées quotidiennes sur une période prolongée : il devrait imaginer un tas de thermomètres d’affilée et enregistrer ses relevés de température comme s’il traçait les différents niveaux de mercure; à partir de là, ce n’était qu’un petit pas pour laisser l’image du thermomètre se fondre dans l’arrière-plan, utiliser un point pour représenter le haut de la colonne de mercure et aligner les points de gauche à droite sur la page. En visualisant le temps sur l’axe des x, Playfair avait créé un outil pour faire des images à partir de nombres qui offrait un portail vers une connexion beaucoup plus profonde avec le temps et la distance. Au fur et à mesure que l’ère industrielle a émergé, cela s’est avéré être une idée salvatrice.

À l’époque où les voyages longue distance étaient assurés par des diligences tirées par des chevaux, les horaires de départ étaient plus suggestifs que définitifs. Lorsque des horaires existaient, ils étaient souvent répertoriés avec des mises en garde, telles que « sauf accidents ! » ou « si Dieu le permet ! » Une fois que les chemins de fer de voyageurs ont commencé à s’ouvrir, dans les années vingt et trente, les horaires des trains étaient annoncés, mais, sans horaires et fuseaux horaires convenus au niveau national, leur ponctualité était bien en deçà des normes modernes. Lorsque George Hudson, le magnat anglais connu sous le nom de Railway King, a été confronté à des données montrant à quelle fréquence ses trains roulaient en retard, il a répliqué avec les données sur la fréquence à laquelle ses trains étaient en avance et a insisté sur le fait que, en termes nets, son chemin de fer fonctionnait à peu près à temps.

Alors que les voyages en train devenaient de plus en plus populaires, la patience n’était plus la seule victime de ce système : des collisions frontales ont commencé à se produire. Avec l’ajout de lignes et de gares, les opérateurs ferroviaires avaient besoin d’un moyen d’éviter les accidents. Une grande percée est venue de France, dans un nouveau style élégant de graphique démontré pour la première fois par l’ingénieur ferroviaire Charles Ibry.

Dans une présentation au ministre français des Travaux publics en 1847, Ibry a affiché un graphique qui pourrait montrer simultanément les emplacements de tous les trains entre Paris et Le Havre dans une période de vingt-quatre heures. Comme Playfair, Ibry a utilisé l’axe horizontal pour désigner le temps qui passe. Chaque millimètre de diamètre représentait deux minutes. Dans le coin supérieur gauche se trouvait une marque pour désigner la gare de Paris, puis, en bas de l’axe vertical, chaque gare était balisée le long de l’itinéraire vers Le Havre. Ils étaient positionnés précisément en fonction de la distance, avec un kilomètre dans le monde physique correspondant à deux millimètres et demi sur le graphique.

Avec les axes ainsi configurés, les trains apparaissaient sur le graphique sous la forme de simples lignes diagonales, balayant de gauche à droite au fur et à mesure qu’ils parcouraient la distance et le temps. Dans les sections les plus simples du réseau ferroviaire, sans jonctions ni croisements ni arrêts, vous pouviez choisir où placer la ligne diagonale de chaque train pour vous assurer qu’il y avait suffisamment d’espacement autour de celui-ci. Mais les choses se compliquaient si les trains n’avançaient pas à la même vitesse. Plus le train était rapide, plus la ligne était raide, de sorte qu’un train express de passagers traversait rapidement de haut en bas, tandis que les trains de marchandises plus lents apparaissaient comme des lignes fines avec un angle beaucoup plus faible. Le problème de la programmation est devenu une question d’espacement d’une série de lignes à angles différents dans une boîte de sorte qu’elles ne se croisent jamais involontairement sur la page, et donc ne se rencontrent jamais sur la piste.

Un graphique de 1878 montre chaque train entre Paris et Lyon sur une période de vingt-quatre heures ; les intersections des lignes indiquent où et quand les trains passeraient sur les voies.Source: Étienne-Jules Marey, “La méthode graphique dans les sciences expérimentales et principalement en physiologie et en médecine”

Ces graphiques de train n’étaient pas censés être des illustrations – ils n’étaient pas conçus pour persuader ou pour fournir un aperçu conceptuel. Ils ont été créés comme un instrument pour résoudre les complexités complexes de l’emploi du temps, presque semblable à une règle à calcul. Pourtant, ils constituaient également une carte d’un espace conceptuel abstrait, un lieu où, pour paraphraser le statisticien John Tukey, vous étiez obligé de remarquer ce que vous ne verriez pas autrement.

En une décennie, les graphiques ont été utilisés pour créer des horaires de train à travers le monde. Jusqu’à récemment, certains services de transport en commun préféraient encore travailler à la main plutôt qu’à l’ordinateur, en utilisant du papier ligné et un crayon, en inclinant la règle plus fortement pour indiquer les trains plus rapides sur la ligne. Et les logiciels de planification des trains contemporains s’appuient fortement sur ces mêmes graphiques, essentiellement inchangés depuis l’époque d’Ibry. En 2016, une équipe de scientifiques des données a pu déterminer qu’une série de perturbations inexpliquées sur la ligne circulaire MRT de Singapour avaient été causées par un seul train malhonnête. À bord, le train semblait fonctionner normalement, mais en passant d’autres trains dans les tunnels, il déclencherait leurs freins d’urgence. Le modèle n’a pas pu être vu en triant les données par trains, ou par heures, ou par emplacements. Ce n’est que lorsqu’une version du graphique d’Ibry a été utilisée que le problème s’est révélé.

Jusqu’au XIXe siècle, nous disent Friendly et Wainer, la plupart des formes modernes de graphiques de données – camemberts, graphiques linéaires et graphiques à barres – avaient tendance à avoir une vue unidimensionnelle de leurs données. Le graphique linéaire des dépenses de la Marine de Playfair, par exemple, ne s’intéressait qu’à la façon dont cette variable changeait au fil du temps. Mais, à mesure que le XIXe siècle avançait, les graphiques ont commencé à se libérer de leurs racines unidimensionnelles. Le nuage de points, dont certains remontent au scientifique anglais John Herschel, et que Tufte présente comme « le plus grand de tous les designs graphiques », a permis aux graphiques statistiques de prendre la forme de deux variables continues à la fois : la température, ou l’argent, ou les taux de chômage ou la consommation de vin, qu’il ait ou non une présence physique dans le monde réel. Plutôt que de présenter une seule ligne joignant des valeurs uniques au fil du temps, ces graphiques pourraient présenter des nuages ​​de points, chacun tracé en fonction de deux variables.

Leur apparence est instantanément familière. Comme Alberto Cairo le dit dans son livre récent, « How Charts Lie », les nuages ​​de points tirent leur nom pour une raison : « Ils sont destinés à montrer le diffusion des points, leur dispersion ou leur concentration dans différentes régions du graphique. Jeter un coup d’œil sur un nuage de points vous permet de juger si les données évoluent dans un sens ou dans l’autre, et de repérer s’il existe des groupes de points similaires qui se cachent dans les chiffres.

Un exemple célèbre date de 1911 environ, lorsque les astronomes Ejnar Hertzsprung et Henry Norris Russell ont indépendamment produit une dispersion d’une série d’étoiles, traçant leur luminosité par rapport à leur couleur, se déplaçant à travers le spectre du bleu au rouge. (La couleur d’une étoile est déterminée par sa température de surface ; sa luminosité, ou luminosité intrinsèque, est déterminée à la fois par sa température de surface et par sa taille.) Le résultat, comme l’admettent Friendly et Wainer, n’est « pas un graphique d’une grande beauté », mais il a révolutionné l’astrophysique. Le nuage de points a montré que les étoiles n’étaient pas réparties au hasard mais concentrées en groupes, regroupées par type. Ces amas abriteraient les géantes bleues et rouges, ainsi que les naines rouges et blanches.

Dans des graphiques comme ceux-ci, la distance entre deux points donnés sur la page prenait une signification entièrement abstraite. Elle n’était plus liée à la proximité physique ; cela signifiait maintenant quelque chose de plus proche de la similitude. La proximité dans l’espace conceptuel du graphique signifiait que deux étoiles étaient semblables dans leurs caractéristiques. Un nombre surprenant d’étoiles étaient, disons, rougeâtres et sombres, car la naine rouge s’est avérée être une catégorie importante d’étoiles ; la façon dont les étoiles de cette catégorie se sont regroupées sur le nuage de points montrait qu’elles étaient conceptuellement proches, et non physiquement.

Mais si vous pouviez trouver des grappes de points en deux dimensions, pourquoi pas trois ? Friendly et Wainer discutent d’un nuage de points en trois dimensions qui a amélioré notre compréhension du diabète de type 2. En 1979, deux scientifiques, Gerald M. Reaven et R. G. Miller, ont tracé les niveaux de glucose sanguin en fonction de la production d’insuline dans le pancréas pour une série de patients. Le long d’un troisième axe, ils ont ajouté une mesure de l’efficacité avec laquelle l’insuline est utilisée par le corps. Ce qui a émergé était une structure tridimensionnelle qui ressemble un peu à un œuf avec des ailes souples. Cela a permis à Reaven et Miller de diviser les participants en trois groupes – ceux atteints de diabète manifeste, ceux atteints de diabète latent et ceux qui n’étaient pas affectés – et de comprendre comment les patients pouvaient passer d’un état à un autre. Auparavant, on pensait que le diabète manifeste était précédé d’un stade latent, mais le graphique montrait que le seul « chemin » de l’un à l’autre passait par la région occupée par ceux classés comme normaux. À cause de cela et des preuves d’autres études, ils sont maintenant considérés comme deux classes de maladies distinctes.

Si trois dimensions sont possibles, pourquoi pas quatre ? Ou quatre cents ? Aujourd’hui, une grande partie de la science des données est fondée précisément sur ces espaces de grande dimension. Ils sont vertigineux à contempler, mais les principes fondamentaux sont les mêmes que ceux de leurs prédécesseurs en nuage de points du XIXe siècle. Les axes pourraient être l’éventail des réponses possibles à un questionnaire sur un site Web de rencontres, avec des individus flottant comme des points dans un vaste espace de grande dimension, leurs positions étant fixées par les réponses qu’ils ont données lors de leur inscription. En 2012, Chris McKinlay, un étudiant diplômé en mathématiques appliquées, a découvert comment extraire les données d’OkCupid et a utilisé cette stratégie : rechercher des points dans une région similaire, dans l’espoir que la proximité se traduise par une compatibilité romantique. (Il dit que la quatre-vingt-huitième fois était le charme.) Ou les axes pourraient concerner votre réaction à un film sur un service de streaming, ou le temps que vous passez à regarder un article particulier sur un site de réseau social. Ou ils pourraient se rapporter à quelque chose de physique, comme l’ADN dans vos cellules : l’analyse génétique utilisée pour déduire notre ascendance recherche la variabilité et les clusters au sein de ces espaces conceptuels abstraits. Il y a des changements subtils dans les codes des protéines éparpillés dans notre ADN ; ils n’ont souvent aucun effet notable sur notre développement, mais ils peuvent laisser des indices sur l’origine de nos ancêtres. Les généticiens ont trouvé des millions de ces petites variations, qui peuvent être partagées avec une fréquence particulière parmi des groupes de personnes qui ont des ancêtres communs. La seule façon de révéler les groupes est d’examiner la variation dans un espace de grande dimension.

Ce sont des nuages ​​de points que personne n’a jamais besoin de voir. Ils existent en grand nombre sur les disques durs d’ordinateurs puissants, tournés et manipulés comme si les distances entre les points imaginés étaient réelles. La visualisation des données est passée d’un moyen de rendre les choses faciles à comprendre et compréhensibles sur la page à une recherche automatisée de clusters et de connexions, avec des machines entraînées qui effectuent la recherche. Des modèles émergent encore et font avancer notre compréhension du monde, même s’ils ne sont plus visibles à l’œil humain. Mais ces innovations modernes n’existent que grâce à l’idée originale qu’il était possible de penser visuellement aux nombres. L’invention des graphiques et des diagrammes était une affaire beaucoup plus silencieuse que celle du télescope, mais ces outils ont tout autant fait pour changer comment et ce que nous voyons. ♦

#Quand #les #graphiques #sont #une #question #vie #mort

À propos de l\'auteur de l\'article

Dernières nouvelles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *