Petites données

Inversons notre stratégie de collecte de données.

Actuellement, le mouvement Big Data continue de prendre de l’ampleur: profitez de toutes les sources de données disponibles via des appareils mobiles, des antennes et des systèmes de télédétection, des caméras, des microphones, des réseaux de capteurs sans fil, etc. Les données sont là, elles ne demandent qu’à être récoltées pour repérer les tendances et trouver des corrélations. L’énorme volume de données nous oblige à utiliser diverses formes de recherche et d’analyse sur ordinateur, y compris l’apprentissage automatique. L’approche Big Data est passionnante car elle nous permet de prendre en compte des quantités massives d’informations. L’approche Big Data est également troublante car nous sommes confrontés à notre insignifiance et admettons que les algorithmes et les machines intelligentes en savent beaucoup plus que nous ne le pouvons.

Auparavant, j’ai décrit certaines raisons d’être inquiet à propos du Big Data, la façon dont l’analyse Big Data suivra les tendances existantes, mais manquera des changements subtils mais importants dans la situation qui rendent ces tendances obsolètes. Cet essai a également soulevé la question des données manquantes. Les gens remarquent parfois que quelque chose ne s’est pas produit et l’absence d’événement nous aide à comprendre une situation. Le Big Data couvre généralement les événements qui se sont produits et ignore les événements qui ne se sont pas produits, même si ces non-occurrences peuvent être importantes.

Cet essai ne concerne cependant pas les limitations du Big Data.

Au lieu de cela, je veux suggérer que nous allons dans la direction opposée: essayer de collecter le moins de données possible, idéalement juste un seul point de données – mais un point de données qui fait basculer une décision. Plutôt que de se noyer dans la surcharge de données, il arrive que la bonne observation mette en évidence des indices ambigus.

Voici quelques exemples.

1. (Cet exemple provient de Trevor Hadley, ancien analyste du gouvernement américain.) En 2015, la CIA tentait de décider si la Russie et la Chine allaient organiser des exercices navals conjoints en mer Méditerranée. Il n’y avait pas de déclarations officielles. Les tendances n’étaient pas claires, les preuves n’étaient pas concluantes. Ensuite, un analyste extérieur, un superforecaster, s’est demandé ce qu’il faudrait faire pour réapprovisionner une flottille chinoise et a commencé à chasser à travers les bons de commande en ligne des fournisseurs de navires à Chypre. Il trouva de nouvelles commandes, des commandes énormes pour du riz et des nouilles, alors qu’il n’y en avait pas auparavant. Juste pour être sûr, il a également enquêté sur les avis aux navigateurs de la Garde côtière locale et a découvert des preuves corroborantes. Mais ce sont les riz et les nouilles qui ont fait l’affaire. Affaire classée.

2. (Cet exemple vient également de Trevor Hadley.) En 2011, les Français avaient-ils l’intention d’intervenir dans la guerre civile en Libye? Les Français ont nié qu’ils envisageaient même une telle intervention, mais la communauté du renseignement avait appris à ne pas prendre ces dénégations trop au sérieux. Il y avait des raisons de s’attendre à ce que les Français interviennent. Les tentatives de prévision ont échoué. Un marché de prédiction n’était pas utile. Ensuite, un analyste du renseignement a repéré une déclaration obscure dans une directive de la fonction publique française, un mémorandum proposant des modifications aux règlements d’assurance-vie pour les militaires français, énumérant les pays où l’armée française était actuellement active – y compris la Libye! Le mémo a été retiré du site Web dans quelques jours et remplacé par une version qui omettait la Libye, mais il était trop tard. (Plusieurs mois plus tard, la présence des forces françaises combattant en Libye a été confirmée.) Affaire classée.

3. Le gouvernement américain voulait prévoir comment le Royaume-Uni voterait sur le Brexit. (Il en a été de même pour beaucoup d’autres pays.) Les analystes se sont penchés sur les sondages, cherchant des informations susceptibles de faire pencher la balance, mais les signes n’étaient pas suffisamment clairs. Un observateur a ensuite noté que les normes de l’Union européenne obligeraient les ménagères britanniques à utiliser une méthode différente pour faire du thé. Les théières actuelles pour faire bouillir l’eau étaient simplement trop inefficaces sur le plan énergétique, augmentant inutilement l’empreinte carbone. L’UE avait besoin d’un dispositif plus efficace pour faire bouillir l’eau, mais cela prendrait cinq fois plus de temps! Quel effet cela aura-t-il à inviter un voisin pour une tasse de thé rapide? Affaire classée.

4. En 1990, les services de renseignement américains essayaient de prévoir si Saddam Hussein avait réellement l’intention d’envahir le Koweït. Certains pensaient qu’il s’apprêtait à attaquer. D’autres doutaient qu’il serait si téméraire. Ils ont vu son mouvement de 30 000 soldats à la frontière entre l’Irak et le Koweït comme une tactique d’intimidation visant à intimider le Koweït pour qu’il fasse des concessions. Les types habituels d’éléments de preuve n’ont abouti à aucun jugement définitif. Les Égyptiens pensaient qu’il y aurait un règlement pacifique des plaintes déposées par Saddam Hussein contre le Koweït. L’ambassadeur américain en Irak a fait de même. Tout comme les Koweïtiens – même après que l’Iraq eut placé toutes ces troupes à sa frontière, le Koweït n’a pas mobilisé son armée de 18 000 soldats et a permis à beaucoup d’entre eux de partir. Qu’est-ce que Saddam Hussein allait faire? Un analyste du renseignement américain, travaillant au Département de l’énergie, a noté que l’armée irakienne avait réquisitionné plus de 10 000 camions civils. L’enlèvement de tous ces camions devait avoir des effets paralysants sur l’économie irakienne, perturbant toutes sortes d’activités commerciales. Et ce camion réquisitionné avait été tenu secret – il n’avait pas été annoncé publiquement. Il ne pouvait pas intimider les Koweïtiens parce qu’ils ne savaient pas que cela avait été fait. Pourquoi Saddam Hussein ferait-il une telle chose à moins qu’il ait soudainement décidé qu’il avait besoin des camions pour une action militaire? Affaire classée.

5. Le problème de l’accélération de Toyota. Ce problème a provoqué une accélération incontrôlable de Toyotas, malgré les efforts frénétiques du conducteur pour appuyer sur le frein et ralentir la voiture. L’affaire a retenu l’attention nationale. Certains pensaient que le problème provenait d’épais tapis de sol qui bloquaient la pédale d’accélérateur, mais le dysfonctionnement principal semblait être un problème dans le logiciel. Les Toyota contiennent plus de cent millions de lignes de code, de sorte que certains bogues logiciels semblent inévitables. Des centaines de cas d’accélération ont été enregistrés. Toyota a été contraint de payer des milliards de dollars en amendes et en règlements. Cependant, la communauté des facteurs humains avait un diagnostic différent: les conducteurs appuyaient par erreur sur la pédale d’accélérateur, pensant que c’était la pédale de frein. Lorsque la voiture a accéléré au lieu de ralentir, les conducteurs ont constaté que les freins étaient défaillants et que l’accélération était involontaire et incontrôlable. Les conducteurs pressaient naturellement la pédale de plus en plus fort, croyant que c’était le frein, seulement pour voir l’accélération s’aggraver. Il n’ya pas de moyen facile de prouver cette explication, avec de nombreux débats sur les données. Mais il s’avère qu’il existe deux arguments convaincants. La première est qu’en examinant les boîtes noires dans les automobiles, les enquêteurs ont constaté que la pédale de frein n’avait pas été enfoncée en cas d’accélération de l’emballement. Le deuxième argument de tueur vient d’un podcast de Malcolm Gladwell de la saison 1 de sa série Revisionist History. Gladwell a fait en sorte que le magazine Car & Driver mette en place une Toyota Camry sur une piste d’essai. Les conducteurs entraînés ont écrasé la pédale d’accélérateur jusqu’au sol, puis, avec la pédale d’accélérateur toujours écrasée au sol, ont appuyé sur les freins. La voiture s’est arrêtée. Procès après procès, la voiture s’est arrêtée. Pas de problème, pas de crissement, pas de fumée. Les freins ont facilement maîtrisé l’accélérateur. Pas besoin de revoir les statistiques. Pas besoin de revoir les centaines de millions de lignes de code. Affaire classée.

Ces exemples suggèrent que moins est plus. Que la qualité de l’information compte plus que la quantité.

Le terme “petites données” est utilisé de plusieurs manières différentes de nos jours. Il existe même un livre de recherche marketing réalisé par Martin Lindstrom, Small Data: les minuscules indices révélant d’énormes tendances . Et une entrée Wikipedia. Voici quelques attributs que j’ai identifiés concernant les petites données.

Premièrement, la plupart des références opposent les données compactes aux données volumineuses en affirmant que les petites données concernent une connexion personnelle à une quantité limitée d’informations, alors que les données massives traitent de la nécessité pour les machines intelligentes de trier le volume croissant de signaux disponibles. .

Deuxièmement, le Big Data concerne principalement les corrélations, tandis que les Small Data concernent les relations causales.

Troisièmement, le lien personnel créé par Small Data dépend de l’expertise et de l’expérience d’une personne.

Quatrièmement, l’approche fondée sur les petites données a pour but de favoriser la compréhension (voir Klein, 2013) et de transformer les mentalités. Bonde souligne explicitement que Small Data a pour but de nous aider à acquérir des connaissances que nous pouvons mettre en pratique.

Cinquièmement, à peu près tout le monde est d’accord pour dire que le Big Data et les Small Data ne s’excluent pas mutuellement ni ne sont en concurrence. Nous pouvons utiliser les deux approches.

Sixièmement, il existe une divergence sur la manière de rechercher des éléments significatifs de Small Data. Certains suggèrent de commencer par Big Data, puis de réduire la sortie, en créant des journaux et autres artefacts. Je ne suis pas enthousiaste à propos de cette stratégie. Au lieu de cela, je pense que le pouvoir des petites données vient quand nous utilisons nos modèles mentaux pour remarquer ou trouver les informations critiques. Les cinq exemples de cet essai illustrent tous la découverte habile des données critiques, plutôt que de condenser les résultats d’un exercice Big Data.

Septièmement, il y a des moments où nous pouvons soutenir les décideurs en sélectionnant quelques cas représentatifs parmi une population beaucoup plus grande et ensuite donner des détails sur ces cas. Par exemple, si un homme politique s’interroge sur la manière dont une augmentation du prix de l’essence affectera les personnes à faible revenu, il pourrait être utile de définir trois individus spécifiques, par exemple un homme âgé à revenu fixe qui utilise le transport en commun. entre deux ou trois emplois et un retraité faisant du bénévolat avec un groupe religieux pour conduire les fidèles à divers événements sociaux, médicaux et liés au bien-être.

Huitièmement, il faut de l’expertise pour remarquer les points de données critiques une fois que nous les rencontrons. Il faut des modèles mentaux relativement sophistiqués pour comprendre comment le point de données peut être mis en œuvre – pour voir ce que cela nous apporte.

L’un des risques de l’approche fondée sur les petites données est qu’elle peut être utilisée à mauvais escient pour sélectionner des exemples et des anecdotes qui donnent une impression trompeuse. Par conséquent, l’approche Small Data devrait être utilisée dans le contexte des preuves existantes. L’approche des petites données n’élimine pas l’obligation des analystes d’examiner les variables pertinentes. J’ai écrit “Case closed” à la fin de chacun des cinq exemples, mais en réalité, les enquêteurs ont recherché de manière appropriée des données supplémentaires pour confirmer ou infirmer leurs spéculations. L’approche des petites données peut toutefois limiter la tendance à accumuler de plus en plus de données simplement pour satisfaire à des besoins compulsifs. L’approche Small Data évalue la pertinence des données par rapport à leur accumulation.

Les exemples de cet essai suggèrent que nous devrions redéfinir nos efforts pour rassembler des informations. Plutôt que de passer l’aspirateur sur tous les objets disponibles, nous ferions bien de diriger notre collecte d’informations vers la création de sens et la découverte. Nous pourrions rechercher des indices véritablement diagnostiques, des anomalies et des données manquantes – événements attendus qui n’ont pas eu lieu. Nous pouvons être à l’affût des “différences qui font la différence”.

Les références

Martin Lindstrom, Small Data: Les minuscules indices qui révèlent les grandes tendances. New York: St. Marten’s Press.

Klein, G. (2013). Voir ce que les autres ne font pas: Les manières remarquables dont nous tirons parti . New York: PublicAffairs.