Le nouveau domaine de l'analyse de données sociales nous fournit plus de ressources que jamais auparavant pour étudier les phénomènes sociaux. Un de mes exemples préférés de la façon dont le nouveau domaine de l'analyse de données sociales est appliqué est dans une belle étude de 2013 de Microsoft Research [1] . En analysant les flux Twitter des femmes enceintes, les chercheurs pourraient prédire avec 80% de précision si une femme allait développer une dépression post-partum.
Ils ont commencé par recruter près de 400 femmes pour participer. De Twitter, ils ont recueilli des données, y compris les textes des tweets des femmes, leurs favoris, et les réponses. Ils ont ensuite mesuré quatre types de comportement:
Après avoir dressé une liste d'attributs, les femmes ont été surveillées pour des signes de dépression post-partum (PPD). Alors que tout le comportement des femmes a changé au cours de leur grossesse, les femmes qui ont eu une DPP ont changé de différentes façons. Les chercheurs ont construit des modèles informatiques utilisés ces petites différences. Ces modèles informatiques pourraient ensuite regarder le flux Twitter d'une personne et deviner si elle allait ou non développer PPD.
En utilisant seulement les données d' avant que les femmes accouchent, leurs modèles pourraient classer avec précision les femmes comme susceptibles de développer PPD ou non avec environ 70% d'exactitude. Cependant, PPD se développe généralement environ un mois après l'accouchement. Lorsque les chercheurs ont ajouté dans les premières semaines après l'accouchement, avant que les symptômes de la DPP commencent à se développer , les algorithmes sont devenus encore meilleurs, atteignant 80% de précision ou plus.
De quelle manière le comportement de Twitter des femmes a-t-il changé? Les femmes qui ont développé PPD avaient tendance à diminuer leur fréquence de tweet et leur nombre d'adeptes, ainsi que leur utilisation des pronoms personnels de la deuxième et de la troisième personne ("he", "they", "you"), tandis que pas développer PPD a augmenté dans toutes les catégories.
D'autre part, les femmes développant PPD ont tendance à poser plus de questions alors que les femmes qui n'ont pas diminué le nombre de questions qu'ils ont posées.
L'intuition scientifique intéressante est que ce sont tous des indices subtils qui ne sont pas des expressions directes de PPD. Cela signifie que même si les femmes ont essayé de cacher leur condition potentielle, il est peu probable qu'elles puissent le faire avec succès, du moins à partir de l'algorithme.
En tant qu'outil diagnostique pour les médecins, cette technique est très prometteuse. Il est non invasif et, avec une telle précision, pourrait être d'une aide précieuse pour signaler quelles nouvelles mères pourraient bénéficier d'une surveillance et d'une attention supplémentaires.
[1] De Choudhury, Munmun, Scott Counts, et Eric Horvitz. "Prédire les changements post-partum dans les émotions et les comportements via les médias sociaux." Actes de la Conférence SIGCHI sur les facteurs humains dans les systèmes informatiques. ACM, 2013.