Comment Cambridge Analytica a extrait des données pour déterminer l’influence des électeurs

Pourquoi solliciter des données personnelles avec de la désinformation est un gros problème.

Si l’on se fie à l’utilisation de l’analyse des médias sociaux lors des élections d’Obama, on peut se demander comment la campagne Trump a-t-elle été différente avec la firme de recherche Cambridge Analytica? S’agit-il d’une violation de la politique de Facebook par Cambridge Analytica ou s’agit-il d’une affaire plus importante?

En janvier 2013, j’ai écrit que le président Obama avait effectivement utilisé les médias sociaux dans les campagnes présidentielles de 2008 et de 2012, comparant le savoir-faire des médias sociaux de son équipe à la capacité de Kennedy à utiliser la télévision. Là où Kennedy avait beaucoup de talents innés tels que le charisme et les bons cheveux qui lui permettaient de se projeter sur les écrans de télévision à la maison, l’équipe d’Obama a mis la psychologie sociale au service des médias sociaux. En 2016, les utilisateurs de Trump se sont tournés vers les données.

Pamela Rutledge/Shutterstock

Source: Pamela Rutledge / Shutterstock

Nous sommes maintenant à l’ère de la science des données. La possibilité de récupérer des données sur plusieurs plates-formes de médias sociaux, en capturant les comportements des utilisateurs et les commentaires, est sans précédent. Il a suscité une énorme demande de scientifiques de haut niveau, qui cherchent à collecter et à analyser de grandes quantités de données, à créer des algorithmes permettant de sélectionner et de répondre, et à créer des modèles prédictifs. Leur boîte à outils est un mélange impressionnant d’apprentissage automatique, de statistiques, de compétences de programmation robustes et d’intelligence artificielle et naturelle. Tous tentent de capturer et d’influencer le comportement humain de manière ciblée et toujours plus nuancée.

Quelles que soient les comparaisons entre Obama et Trump, ce sont des harengs rouges. L’accès aux données et leur utilisation sont au centre de ce débat très public. Ce truc ne va pas disparaître. Il ne fera que devenir plus sophistiqué et omniprésent. Ce n’est ni tout mauvais, ni tout bon. Il s’agit d’un moment clef de l’enseignement – une occasion de mieux comprendre certaines des questions éthiques et juridiques majeures liées à l’exploration de données – si nous ne tombons pas dans le trou du doigt politique.

Pourtant, beaucoup voudront faire des comparaisons. Quatre ans est littéralement une vie dans l’évolution de la science des données. Les capacités et le climat social sont tous deux différents de ce qui se passait en 2008 et certainement en 2012. Les outils et la capacité à exploiter et à évaluer les données sont beaucoup plus sophistiqués maintenant, tant sur le plan technologique que théorique. utilisation.

Mais plus important encore, le climat social a changé et, parallèlement, la prise de conscience des violations de données et la compréhension de l’utilisation des données pour violer la vie privée, y compris des directives et réglementations éthiques accrues. Les utilisateurs sont de plus en plus conscients de l’utilisation des algorithmes de données en fonction de nos comportements en ligne, des recommandations d’Amazon aux annonces ciblées qui nous suivent d’un site à l’autre. La transparence, la permission et le respect de la vie privée pour la sécurité et pour éviter la manipulation ont été des sujets majeurs des lanceurs d’alerte et du discours social.

L’un des problèmes majeurs de la controverse de Cambridge Analytica concerne la manière dont les données ont été collectées. Selon des rapports publiés dans le New York Times et ailleurs, Cambridge a sollicité des informations personnelles via une application contenant des informations trompeuses quant à l’objet et à l’intention. Ils ont sollicité divers types d’informations, dont certaines semblent inoffensives, telles que les majors universitaires et les affiliations politiques, mais l’application comprenait également des questions d’évaluation de la personnalité pour générer des profils de personnalité.

Maintenant, pourquoi est-ce un gros problème? Nous savons déjà qu’il est possible d’estimer un profil de personnalité à partir d’un ensemble de données textuelles ou en codant le profil Facebook de quelqu’un, comme les chercheurs l’ont montré. Le problème est que c’est difficile à faire à grande échelle. Vous devez avoir beaucoup de texte de la part de chaque participant, ce qui devient extrêmement coûteux et demande beaucoup de travail pour un groupe de toute taille. Là où les chercheurs en psychologie peuvent regarder un groupe de participants de 200 et être heureux en tant que palourdes avec leur généralisabilité, cela ne réduit pas la persuasion des électeurs. Le désir de dresser un profil psychologique des publics cibles est toutefois très attrayant car il fournit des informations précieuses qui ne sont actuellement pas accessibles au public. Diverses entreprises de recherche travaillent sur des solutions utilisant des techniques analytiques telles que le traitement automatique du langage naturel ou la puissance de Watson, mais elles sont actuellement utilisées en petits groupes à des fins de ressources humaines (avec une autorisation de participant) ou globalement “en aveugle”. aux identités individuelles. Plus important encore, il s’agit là d’estimations – certes, certaines sont meilleures que d’autres – mais elles ne correspondent pas à un profil de personnalité que vous obtenez en prenant des mesures validées de tests psychologiques. (FYI – certains soutiennent que les tests de personnalité étant autodéclarés, ils sont en réalité moins précis que les profils estimés à partir des données, mais je laisse cela aux personnes plus expérimentées dans les tranchées d’évaluation).

Inutile de dire que c’est beaucoup, beaucoup plus facile d’obtenir des profils de personnalité pour un grand nombre de personnes si une entreprise peut amener les gens à faire eux-mêmes un test de personnalité. S’ils ne disent pas aux gens à quoi cela sert, l’entreprise n’a pas à craindre que les participants déforment leurs réponses pour «bien paraître» à leurs fins. Un peu plus de questions clés et d’accès aux poignées de médias sociaux permettent au développeur d’appliquer les données des comptes de médias sociaux (que l’application possède depuis que le participant l’a entré pour utiliser l’application), profils de personnalité avec des goûts, des aversions, des positions politiques, identifier des amis et construire des modèles prédictifs.

Maintenant, ils ont la capacité de cibler des individus sur la base de traits psychologiques, et pas seulement de “variables de style de vie” comme les préférences de film. En toute honnêteté, les spécialistes du marketing aimeraient le faire, mais ils ne le font pas. Il est non seulement difficile d’obtenir des données de préférences personnelles liées à des données utilisateur ciblées sans enfreindre les règles de confidentialité et les normes éthiques des sociétés de médias sociaux, mais elles ne produisent pas non plus de tests de personnalité légitimes. Des entreprises comme Twitter, par exemple, protègent avec zèle l’identification des utilisateurs individuels dans les demandes de correspondance de données provenant de campagnes marketing et politiques. Cambridge Analytica a profité du fait que la plupart d’entre nous signeront une application et donneront des informations privées si nous nous sentons en sécurité. Solliciter sur Facebook et dire aux gens que c’était pour la recherche universitaire leur a permis de se sentir en sécurité. Ainsi la question juridique: compte-t-elle si la permission a été donnée sous de faux prétextes?

En 2008 et 2012, lors de la campagne d’Obama, son équipe utilisait des profils accessibles au public. Si vous avez invité Obama sur Facebook, vous lui avez donné vos données et lui avez montré qui étaient vos amis. C’est dans les petits caractères. Lisez-le quelque temps. Les données fournies par les utilisateurs leur ont permis d’identifier les prédispositions probables à la politique, en les associant à d’autres données disponibles, telles que les codes postaux.

Les gens font des prédictions à partir d’informations tout le temps. Lorsque nous utilisons notre propre expérience, cela s’appelle une heuristique. Avec un tas d’informations et de mathématiques, on appelle cela la science des données. La question est l’exactitude. Même avec les données recueillies par Cambridge, leur capacité à influencer les gens n’est pas une chose sûre ou peut perturber la culture, comme certains l’ont affirmé. Mais le ciblage personnel rend la persuasion plus probable et le fait de cibler sans autorisation, c’est un peu effrayant. L’équipe d’Obama était assez sophistiquée à l’époque, mais pas plus que Google, Amazon ou toute autre entreprise commerciale axée sur les données. La campagne d’Obama n’était que la première fois que les techniques de marketing des médias sociaux étaient appliquées à la politique. L’attention est venue non pas de la sophistication de leur ciblage, mais de la capacité d’Obama à utiliser sa personnalité sur les réseaux sociaux pour activer un enthousiasme populaire et créer une source de financement efficace pour les campagnes.

Ce que nous ignorons encore, qu’est-ce que la campagne Trump a demandé à Cambridge de faire avec ses données? Cette histoire se déroulera. Cependant, les gens n’aiment pas être manipulés. Vous vous souvenez peut-être de la réaction du public à l’expérience de Facebook sur les flux de nouvelles positifs et négatifs pour voir si la valeur du contenu a changé le ton général et Il sera intéressant de voir si les gens trouvent uniformément la perspective d’une manipulation choquante ou si elle est étiquetée différemment selon les partis.

Chaque politicien cherche ce qui résonnera avec les électeurs. L’utilisation des données sur les médias sociaux et le profilage des électeurs lors des élections de 2012 semblent presque sains par rapport à l’exploitation des données de Cambridge Analytica. Mais c’est la première fois (à notre connaissance) que des données ont été sollicitées à des fins politiques en utilisant de la désinformation pour amener les gens à divulguer des informations. Cela déclenche un bouton chaud sérieux pour beaucoup, étant donné la quantité de désinformation qui a tourbillonné pendant et depuis les élections de Trump-Clinton. Tout le monde est hyper-sensible aux fausses nouvelles, peu importe leur conviction politique. Le fait de savoir que la désinformation était à la base de cette collecte de données rendra la violation encore plus flagrante pour beaucoup, compte tenu en particulier des préjugés cognitifs qui nous obligent à attribuer des comportements ou des intentions basés sur l’expérience passée. (S’ils ont trompé A, ils vont probablement tromper B OU s’ils ont trompé B, ils doivent avoir triché sur A.) Ce n’est pas rationnel mais être manipulé déplace les gens d’une position confiante à une position défensive et suspecte.

Malheureusement, tout cela se traduit par beaucoup de reproches et nous aimons toujours blâmer quelqu’un. Dans ce cas, il semblerait que les pieds de Facebook se fassent sentir avec Cambridge Analytica. Je doute sérieusement que Facebook ait pu faire quelque chose pour empêcher une organisation de dénaturer ses intentions. Cependant, ironiquement pour Facebook, la force de leur marque a implicitement validé l’application.