Vous êtes ce que vous aimez

Ce que vos actions sur les médias sociaux disent de vous.

Vendredi, Facebook a interdit Cambridge Analytica (CA). Nous avons parlé du rôle que l’approche publicitaire ciblée de CA a joué lors de l’élection présidentielle américaine de 2016, juste après les élections. Cette interdiction beaucoup plus récente s’est produite en raison d’une violation du protocole de gestion des données (qui couvre largement la manière dont les données sont obtenues, transférées et stockées) – PAS en raison de la manière dont ces données ont été utilisées. Un chercheur universitaire (Aleksandr Kogan) a obtenu les données en demandant aux utilisateurs de s’inscrire à une application conçue pour estimer la personnalité des utilisateurs à partir de leur comportement sur Facebook. Le problème a commencé lorsque le Dr Kogan a choisi de fournir les données à quelqu’un d’autre. CA a été banni de Facebook, non pas parce qu’ils ont accédé et utilisé les données, mais parce qu’ils ne sont pas passés par les canaux appropriés pour le faire. Facebook a découvert la rupture du protocole de gestion des données et a demandé à CA de supprimer les données. CA a accepté, mais alors Facebook a appris par un lanceur d’alerte qu’ils avaient menti, et maintenant, CA est interdit.

Blogtrepreneur/flickr

Source: Blogtrepreneur / flickr

Mais ce qui attire le plus d’attention, c’est comment ces données ont été utilisées. La mesure dans laquelle des comportements en ligne apparemment inoffensifs peuvent être utilisés pour prédire les caractéristiques des utilisateurs est choquant pour la plupart des gens. De telles prévisions et ciblages se produisent tous les jours, chaque fois que vous vous engagez dans un comportement lié à votre identité (en ligne, via des profils de médias sociaux permettant de comparer des adresses de messagerie ou des cookies de site, ou dans le monde réel). les achats effectués dans différents magasins en utilisant différentes cartes bancaires et de crédit appariées par des agences d’évaluation du crédit). La plupart de ces prédictions se produisent en arrière-plan, les consommateurs y réfléchissant rarement, et le consentement à la collecte et à l’utilisation des données existe dans les accords utilisateurs que la plupart d’entre nous consultent sans y penser.

Que disent tes “aime” de toi

Nous comprenons facilement que quelque chose comme l’orientation politique peut être deviné en voyant qu’une personne aime ou suit certains politiciens ou organisations. Si un chercheur devait déduire une orientation politique par des politiciens que quelqu’un soutenait, nous appellerions cela des données valables . En d’autres termes, la mesure (les politiciens soutenus) est clairement liée à la chose que nous essayons de prédire (orientation politique).

Ce qui est moins intuitif, c’est que la plupart, sinon tous, de vos attributs personnels peuvent être devinés (même si imparfaitement) par TOUTE information connue à votre sujet. Les mesures ne doivent pas nécessairement être valides pour fournir des estimations précises. Si nous pouvons établir qu’une chose est systématiquement liée à une autre, peu importe que ce lien soit évident ou causal. Tout ce qui compte, c’est que ce lien existe, et maintenant nous pouvons l’utiliser pour faire des prédictions. Ceci est communément appelé une approche empirique, ou ascendante, ou axée sur les données. Réunir BEAUCOUP de ces informations faibles (mais non nulles) nous permet de faire des déductions valables. Ceci est un exemple du principe d’agrégation : davantage de données sont toujours meilleures, même si certaines ou toutes ces données sont de mauvaise qualité. Bien entendu, vous avez besoin de moins de données de haute qualité pour obtenir la même précision de prédiction; mais si des données de haute qualité peuvent être suspectes (par exemple, des problèmes de mensonges directs, des mesures valides) ne sont pas disponibles (par exemple, des mesures approfondies de millions d’internautes), beaucoup de faibles -les données de qualité seront parfaites.

Un article publié il y a quelques années par Michal Kosinski (résumé très bien par Stephen Colbert) montrait comment de telles mesures non valides pouvaient être construites à partir de «J’aime» Facebook. En utilisant un ordinateur pour tester toutes les combinaisons possibles de chaque type, comme la prédiction de chaque trait de personnalité ou résultat démographique, les chercheurs ont pu estimer efficacement la personnalité des utilisateurs, leur orientation sexuelle, leur affiliation politique, etc. Une fois que ces algorithmes sont développés sur un groupe de personnes où les chercheurs connaissent le statut réel des résultats qui les intéressent (souvent appelé échantillon de formation ou de développement), ils peuvent être appliqués à de nouvelles personnes dont les résultats sont inconnus. Vous pouvez l’essayer en utilisant vos propres données depuis Facebook ou Twitter. (Ce site Web N’EST PAS AFFILIÉ avec le chercheur impliqué dans le scandale CA, et il n’y a aucune raison de soupçonner que ces personnes ont fait ou feront n’importe quoi avec vos informations, mais considérez toujours que chaque fois que Les données.)

Utiliser mon profil Facebook à travers l’algorithme de prédiction montre bien que je suis une femme (l’un de mes prédicteurs: mon goût pour Vin Diesel), compétitif (parce que j’aime Sephora) et vraiment très intelligent Will Smith). Mais ce n’est pas parfait. L’algorithme suppose à tort que je suis malheureux (je jure que je ne le suis pas, parce que j’aime bien Rob Zombie). Il est également intéressant de voir comment une telle approche conduit à utiliser les mêmes prédicteurs pour informer de multiples caractéristiques: mon goût pour Starbucks et Barack Obama apparaît comme un facteur contribuant à presque toutes les prévisions à mon égard. L’objectif de ces algorithmes n’est cependant pas la prédiction parfaite pour chaque personne. Il s’agit de rassembler et d’utiliser des données à grande échelle, de manière à cibler plus efficacement les annonces politiques et commerciales (économiser de l’argent et maximiser l’impact) et, du point de vue académique / scientifique, à gagner du temps. en leur demandant des centaines de questions qui pourraient être estimées à partir de leurs données existantes, à condition qu’elles soient disposées à les partager.

Les références

Kosinski, Stillwell et Graepel (2013). Les traits et les attributs privés sont prévisibles à partir des enregistrements numériques du comportement humain. Actes de l’Académie nationale des sciences.