Un nouveau genre de voyance

Un père est entré dans un magasin Target près de Minneapolis il y a quelques années, serrant une poignée de coupons que Target avait envoyés à sa fille adolescente pour promouvoir des vêtements pour bébé, des vêtements de maternité et des lits d'enfant. «Es-tu en train d'essayer d'encourager [ma fille] à tomber enceinte?» Se plaignit l'homme au directeur.

Selon un rapport de Charles Duhigg du New York Times , le directeur de la cible s'est excusé pour l'erreur embarrassante sur place, et a même appelé l'homme à s'excuser une deuxième fois. Il y avait juste un problème: Target n'était pas dans l'erreur après tout. La lycéenne en question, à l'insu de ses parents, était en fait enceinte.

Le groupe de marketing de Target avait eu l'intuition que la jeune fille s'attendait à ce que ses habitudes d'achat aient changé récemment de manière à prédire – selon les analyses Big Data de Target – qu'elle entrait dans son deuxième trimestre. L'analyse des données de Target avait découvert, par exemple, que les femmes qui passent brusquement de l'achat de lotions parfumées à des lotions non parfumées sont généralement enceintes d'environ quatre mois (les femmes enceintes n'aiment pas souvent les odeurs fortes). Alors Target a commencé à envoyer des coupons à ces femmes, en leur faisant la promotion de toutes les choses dont elles auraient besoin quand elles accoucheraient.

Même, comme dans le cas du Minnesota, à des femmes qui étaient légalement encore des enfants.

En plus de servir de mise en garde sur l'utilisation de la nouvelle technologie sans réfléchir aux implications, l'histoire de Target illustre deux concepts importants sur le comportement humain.

Tout d'abord, un comportement (changement de lotions) peut prédire de manière fiable une autre action ultérieure (donner naissance). Un autre exemple, décrit dans un article publié en 2013 dans la revue Nature , a montré que le volume de recherches sur Internet pour le terme «dette» fournissait une prévision statistiquement significative des baisses à court terme des cours boursiers.

Le tableau ci-dessous compare le volume de pages vues de Wikipedia du terme «dette» avec le Dow Jones Industrial Average. L'intérêt de recherche de Wikipédia dans "dette" a en effet une prédiction de la valeur prédictive des baisses de marché. Ici, le comportement de recherche sur Internet a prédit un comportement de vente sur le marché boursier. (Peut-être que les gens s'inquiètent de la recherche de la dette avant de vendre des actions pour les rembourser.)

Eric Haseltine/Wikipedia
Source: Eric Haseltine / Wikipedia

Cet exemple illustre la deuxième leçon importante découlant de l'expérience de la lotion parfumée de Target: Un «N» élevé (grand nombre d'échantillons), grâce au pouvoir des statistiques déductives, peut révéler des relations subtiles mais cohérentes entre un comportement humain et un autre. L'analyse de la «dette» qui vient d'être présentée provient de plus de 200 000 pages vues de Wikipédia.

Une façon de penser aux prédictions tirées des «Big Data» issues du Web est qu'Internet, de même que les réseaux de données privés similaires à Target, ont instrumenté l'espèce humaine, fournissant des mesures et des aperçus des comportements à une échelle sans précédent. Par exemple, en plus des énormes stocks de données privées accumulées par Target, Walmart, Amazon, Google et d'autres, près de 3,5 milliards de personnes utilisent maintenant le Web, laissant une variété d'enregistrements de leur utilisation pour l'analyse Big Data.

Un exemple récent et intrigant du pouvoir que Big Data a confié aux scientifiques du comportement est dans le domaine de la science politique. On a beaucoup parlé récemment des erreurs de sondage qui ont provoqué tant de surprise lors de la victoire électorale du président Trump. Mais pour ceux qui avaient le nez enfoui dans le Big Data, l'élection n'était pas une surprise.

Regardez la relation entre le volume de recherches Google (et pour 2016, pages vues Wikipedia) pour les candidats à la présidentielle avant les élections en 2004, 2008, 2012 et 2016, et les gagnants éventuels de chaque élection.

Eric Haseltine/Google Trends/Wikipedia
Source: Eric Haseltine / Google Tendances / Wikipedia

Dans les quatre élections, le vainqueur de l'intérêt de recherche sur Internet avant l'élection (les gens Googling un candidat ou les vérifier sur Wikipedia) a également été le vainqueur de l'élection. On peut supposer que le niveau de curiosité des électeurs à l'égard d'un candidat est lié à leur probabilité de voter pour ce candidat.

Il est important d'observer, à ce stade, que les corrélations Big Data sont loin d'être parfaites. Dans son livre Spurious Correlations , Tyler Vigen, diplômé de l'Harvard Law School et consultant en gestion, illustre une vérité profonde sur les statistiques: La corrélation ne prouve pas la causalité.

Par exemple, Vigen montre qu'il existe une corrélation presque parfaite entre la consommation de margarine par habitant et le taux de divorce dans le Maine. Pourtant, rares sont ceux qui prétendent que la consommation de margarine cause le divorce, ou vice versa.

Source: Tyler Vigen

Avec un «N» extrêmement élevé de sources de données (littéralement des milliards de bases de données différentes accessibles sur le Web uniquement), des corrélations aléatoires comme celle-ci ne sont pas susceptibles de se produire, elles sont sûres de se produire.

D'autres corrélations «fausses» que Vigen a découvert incluent:

  • La consommation de fromage par habitant et le nombre de personnes qui meurent en s'emmêlant dans leurs draps (un surprenant 600+ par an).
  • Les gens qui se sont noyés après être tombés d'un bateau de pêche et des mariages dans le Kentucky.
  • Nombre de lettres dans le mot gagnant à l'épellation nationale de Scripps et nombre de décès dus à des piqûres d'araignées venimeuses.

L'une des fausses corrélations de Vigen qui a retenu mon attention était le lien étroit entre les ventes de voitures japonaises en Amérique et les suicides aux États-Unis.

Tyler Vigen
Source: Tyler Vigen

À première vue, cette corrélation entre les ventes de voitures et le suicide de 93,5% semble être le type d'artefact auquel vous vous attendez lorsque vous «trempez» un modèle de séries chronologiques individuelles (p. Ex. Ventes annuelles de voitures) dans un océan de données. la consommation de fromage au taux de mariage annuel au Kentucky – quelque chose dans cet océan de données est lié, par hasard, à ce modèle.

Mais l'histoire de la science est riche d'exemples de découvertes aléatoires qui, à première vue, n'avaient aucun sens. Une forte preuve pour le big bang est apparue pour la première fois comme un «bruit» inexpliqué dans un récepteur de télécommunication. Preuve de la théorie de la relativité générale d'Einstein a finalement été trouvé dans une étrange anomalie dans le calendrier du point éloigné (périhélie) de l'orbite de Mercure autour du soleil. La pénicilline a été découverte lorsque Fleming a observé une tache morte inattendue dans une boîte de Pétri de bactéries.

Tout comme la loi des grands nombres dicte que l'analytique "Big Data" découvrira une pléthore de corrélations aléatoires, la même loi dicte aussi que, occasionnellement, l'observation aléatoire va découvrir des résultats inattendus – comme un point mort dans une boîte de Pétri – qui méritent un regarder de plus près.

Ayant travaillé dans une société automobile américaine pendant la période d'ascendance japonaise dans les ventes de voitures, il m'est apparu que la corrélation entre les ventes de voitures et les suicides de voiture pourrait ne pas être si aléatoire après tout. D'une part, l'augmentation des ventes de voitures japonaises s'est produite alors que les ventes de voitures de marques américaines ont diminué, déclenchant potentiellement une dépression dans une main-d'œuvre américaine démoralisée.

Pour explorer cette possibilité, j'ai comparé les ventes de voitures de marques américaines (ligne bleue ci-dessous) sur la même période d'analyse de Vigen. La comparaison suggère un lien plausible entre le volume des ventes de voitures japonaises et les suicides américains.

Tyler Vigen/USDT/Eric Haseltine
Source: Tyler Vigen / USDT / Eric Haseltine

Lorsque les ventes de voitures de marque américaines ont augmenté par rapport aux ventes de voitures japonaises de 2000 à 2001, les suicides en voiture en Amérique ont quelque peu diminué un an plus tard. Lorsque les ventes de voitures américaines ont commencé à décliner en 2001, les suicides américains en automobile ont augmenté un an plus tard, en 2002. Un an après que les ventes de voitures de marque américaines ont commencé à chuter en 2005, les suicides liés à l'automobile ont pris un coup.

Une raison possible que les suicides en voiture en Amérique a augmenté après un ralentissement des ventes de voitures américaines est que de tels ralentissements mettent les gens au chômage dans l'industrie automobile et les milliers d'entreprises qui dépendent de l'industrie. Un article récent du American Journal of Preventative Medicine a révélé que les récessions économiques augmentent probablement les suicides. Drs. Webb et Kapur, dans The Lancet Psychiatry , ont montré que plus de 40 000 suicides par an étaient associés au chômage mondial en 2006 et 2007 et que la récession de 2008 était responsable de plus de 4 000 suicides supplémentaires cette année-là.

Dans le tableau ci-dessous, la ligne brune en bas représente l'emploi total des États-Unis dans le secteur de l'automobile. Les emplois américains se sont en effet évaporés à mesure que les ventes de voitures japonaises augmentaient.

Tyler Vigen/USDT/Eric Haseltine
Source: Tyler Vigen / USDT / Eric Haseltine

Enfin, les données du CDC indiquent que pendant la baisse de 10 ans des ventes d'automobiles de marques américaines, le taux de suicide en Amérique (ligne verte ci-dessous) a augmenté de façon constante.

Tyler Vigen/USDT/USDL/CDC/Eric Haseltine
Source: Tyler Vigen / USDT / USDL / CDC / Eric Haseltine

Malgré la possibilité d'un lien réel entre les ventes de voitures japonaises et les suicides en voiture aux États-Unis, la forte baisse des suicides en 2009, où il y avait aussi de fortes baisses dans l'emploi automobile et japonais, suggère que la relation entre les ventes, le chômage et le suicide par voiture ne sont pas simples.

Il convient également de souligner que le nombre de suicides par voiture chaque année (environ 100) est peut-être trop faible pour tirer des conclusions définitives sur les liens avec le chômage, les ventes de voitures ou toute autre chose.

De plus, la difficulté de déterminer si un accident de voiture donné était réellement un suicide obscurcit davantage l'image. Étant donné que le taux de suicide aux États-Unis a augmenté en 2009 alors que les suicides en voiture ont chuté de façon abrupte, la fiabilité des statistiques sur les suicides par voiture est suspecte. Des études de Phillips et ses collègues montrant un pic de décès de la route quelques jours après des suicides bien publicisés suggèrent fortement que les suicides en voiture, en particulier les suicides «copistes» qui suivent rapidement les rapports de masse des médias, sont significativement sous-déclarés.

Malgré toutes ces mises en garde, l'histoire des ventes de voitures / de suicide mérite d'être étudiée, car elle nous enseigne à ne pas rejeter les corrélations inattendues de Big Data.

Quand vous arrêtez de penser à cela, des découvertes inattendues – comme la découverte de la pénicilline – ont un énorme potentiel d'être des changeurs de jeu, précisément parce qu'elles ne correspondent pas à notre compréhension actuelle du monde. Alors, quand nous tombons sur l'inattendu, nous avons l'occasion de changer radicalement notre compréhension de la nature … et de nous-mêmes.

Dans cet esprit, voici quelque chose d'inattendu sur les perspectives économiques futures pour l'Amérique. Dans le graphique ci-dessous, la ligne bleue montre le produit intérieur brut américain (PIB, un indice de production économique) au cours des 12 dernières années, tandis que la ligne rouge irrégulière représente le volume de recherches Google pour «Happy Belated Birthday». les données du PIB 6 mois après "Anniversaire" cherche à montrer qu'il y a une corrélation très élevée (0,96) entre le PIB et les gens Googling "Happy Belated Birthday" 6 mois plus tôt (il y a une corrélation presque aussi élevée avec "Happy Belated" et "Funny Happy Birthday").

Google Correlate
Source: Google Correlate

En d'autres termes, pour cet ensemble de données au moins, le volume des recherches liées aux vœux d'anniversaire (probablement les personnes qui recherchent des vœux d'anniversaire en ligne) est un important prédicteur de la production économique des États-Unis.

Cette corrélation est-elle fausse, comme le lien entre les noyades des bateaux de pêche et les mariages au Kentucky, ou est-ce important? L'intuition dit que la corrélation est fausse.

Ramon Espelt Photography/Shutterstock
Source: Ramon Espelt Photographie / Shutterstock

Mais je peux penser à des façons dont le lien pourrait être significatif. Par exemple, lorsque les gens s'inquiètent d'être licenciés au cours des six prochains mois, sont-ils moins susceptibles de prendre le temps d'envoyer des vœux d'anniversaire? Les chercheurs de Google pourraient-ils, globalement, en savoir plus sur la direction de l'économie que les économistes? Et cette prise de conscience pourrait-elle apparaître dans les changements dans le comportement de recherche de Google bien avant les statistiques économiques?

Cela vaut la peine de méditer … surtout que (voir la partie la plus à droite du tableau) les recherches pour "Happy Belated Birthday" ont récemment fait un plongeon très raide.