Le Statsman sonne toujours deux fois

Jetez un autre regard sur la tendance des résultats.

Matej Kastelic/Shutterstock

Source: Matej Kastelic / Shutterstock

Ceux d’entre vous qui accordent une certaine attention à la scène de la science de la psychologie savent qu’un autre spectre parcourt les rues et qu’il s’appelle Failure to Replicate . La plupart des découvertes, les chiens de garde et les justiciers nous disent, sont fausses, en psychologie, en médecine, et Dieu sait où. Les raisons sont nombreuses, mais on trouve presque en haut des manigances humaines. Collectivement, ces manigances sont connues sous le nom de p-hacking . Le ‘p’ représente la valeur de p que vous collectez à partir d’un test de signification statistique, et le ‘piratage’ fait référence à une série de pratiques (auto) trompeuses qui abaissent ces valeurs de p en dessous du seuil conventionnel de 0,05 afin que les enquêteurs puissent déclarer résultat significatif en ce sens que l’hypothèse nulle du bruit rend les données obtenues improbables.

Si nous envisageons une seule étude avec une valeur p de, disons, 0,03, nous ne pouvons pas, à partir de ce seul résultat, conclure qu’il a été piraté. Nous aurions besoin de quelques informations sur la manière dont les chercheurs se comportaient, ou nous avons besoin des résultats des études de réplication pour rechercher des tendances révélatrices. S’il y a une tentative de réplication et que la valeur obtenue est p = 0,07, il serait aussi imprudent de déclarer la constatation initiale nulle que de vaincre l’hypothèse nulle après la première étude seulement. Plus de données sont (comme ils écrivent ces jours) nécessaires.

Supposons que nous ayons plusieurs études de réplication. Maintenant, l’intrigue s’épaissit. Nous pouvons examiner la distribution des valeurs p et déployer les outils d’ analyse de courbe p (Simonsohn, Nelson et Simmons, 2014). L’idée de base est que, dans n’importe quel ensemble d’hypothèses rationnelles, la distribution de fréquence des valeurs p peut être asymétrique, mais elle serait unimodale. Il ne devrait pas y avoir de pics locaux, ni de pics particuliers dans la zone douce située entre 0,05 et 0,01, la zone qui à la fois donne de l’importance et économise des ressources. Ce pic local serait suspect car nous savons que la distribution de la valeur p est plate (uniforme) sous une hypothèse de vrai zéro et de plus en plus asymétrique (avec de plus petites valeurs p) sous une hypothèse de faux faux (Krueger & Heck, 2018). .

L’analyse de la courbe P n’exploite pas les informations disponibles. En examinant un ensemble d’études, nous avons également (ou pouvons calculer) des informations sur la taille de l’échantillon (ou les degrés de liberté) et la taille de l’effet. Au fil des études, les intercorrélations entre les valeurs p, la taille de l’échantillon (df) et la taille de l’effet (ES) peuvent être révélatrices ou du moins peuvent-elles, comme le disent les experts contemporains, «poser des questions».

Pour illustrer le potentiel de ce type d’approche [et ce n’est peut-être pas nouveau], j’utilise les données d’une publication de Lasaletta et al. (2014), encore une fois, non pas pour attaquer les auteurs, mais pour essayer une sorte d’analyse statistique de modèle. Les auteurs ont cherché à vérifier l’hypothèse intéressante selon laquelle le fait d’être dans un état d’esprit nostalgique réduirait le besoin et l’appréciation de l’argent. Dans six études, ils ont constaté que la nostalgie augmentait la volonté de payer pour des produits, augmentait la générosité dans le jeu d’un dictateur, réduisait l’importance perçue de l’argent, réduisait la valeur perçue de l’argent, augmentait la volonté de supporter des stimuli aversifs pour un montant donné , et réduit la taille perçue de certaines pièces. Les six valeurs de p sont 0,031, 0,020, 0,045, 0,027, 0,062 et 0,026. Remarquez le regroupement dans la zone de douceur située entre 0,05 et 0,01, à une exception tolérable. Cela ne donne que des motifs d’inquiétude, car les auteurs auraient pu prévoir une taille d’effet moyenne, effectuer une analyse de puissance et collecter l’échantillon recommandé (mais ils ne signalent pas qu’ils en ont fait autant). Les tailles d’effet sont les suivantes: 0,55, 0,38, 0,36, 0,38 et 0,33. Elles sont moyennes (où d est autour de 0,5, d étant le rapport de la différence entre les moyennes sur l’écart type au sein du groupe). Mais il y a aussi des variations dans la df (taille de l’échantillon), à savoir 67, 125, 81, 98, 102 et 56.

Maintenant, nous pouvons intercorréler p, df et ES et demander si les résultats «soulèvent des questions». Voici ce que nous obtenons: Premièrement, la corrélation entre les valeurs p et ES, r (p, ES), est de -,71. Les tailles d’effet plus grandes vont avec des valeurs p plus petites. C’est ce à quoi nous nous attendions si nous avions prédit le même effet moyen pour les six études, ce qui donnerait la même analyse de puissance et le même df. Ensuite, ES, n’étant pas parfaitement identique aux études, aurait une corrélation négative avec p. Deuxièmement, la corrélation entre la taille de l’échantillon (df) et la taille de l’effet (ES), r (df, ES), est de -,68. Les grands ES vont avec des échantillons plus petits. C’est ce à quoi on s’attendrait si les différences de SE avaient été prédites et que les analyses de puissance avaient donné lieu à des recommandations différentes pour la taille de l’échantillon. Nous avons donc une corrélation, r (p, ES), qui a du sens si les ES constantes et moyennes ont été prédites afin que df puisse être constant. Et nous avons une autre corrélation, r (df, ES), qui a du sens si la variation dans le SE a été prédite de manière à ce que de petits échantillons suffisent pour des effets attendus importants. C’est l’un ou l’autre, pas les deux.

Avoir deux corrélations contradictoires «soulève des questions» sur la troisième, la corrélation entre df et p. Nous trouvons que r (df, p) = 0,03. Les échantillons plus grands peuvent donner (en moyenne) les mêmes valeurs de p que les petits échantillons si les différences dans les SE avaient été prédites, et les analyses de puissance avaient donné des tailles d’échantillon différentes. En d’autres termes, précis

les prédictions de puissance rétrécissent la plage des valeurs p obtenues et les découplent de df.

En résumé, ES est négativement corrélé à la fois avec p et df. Autrement dit, à mesure que la taille de l’effet augmente, les valeurs p et les tailles d’échantillon deviennent plus petites. C’est le résultat contradictoire. Encore une fois, nous pouvons imaginer comment, à mesure que la taille d’ES augmente, p diminue sans changer df. Et nous pouvons imaginer comment, à mesure que les ES grandissent, le df devient plus petit sans trop de changement dans p. Mais nous ne pouvons pas imaginer les deux en même temps. Nous pouvons maintenant nous demander quel type de corrélation entre p et df nous sommes en droit d’attendre s’il n’existait aucune différence dans les SE qui soit négativement corrélée avec p et avec df. La corrélation partielle entre p et df, en contrôlant ES, est de -,89. Donc, si la variation dans ES est inconnue, les échantillons plus grands donneront des valeurs p plus basses. Cela ne s’est pas produit ici et cela soulève la question suivante: pourquoi y a-t-il une variation considérable de df avec le résultat que df n’est pas lié à p?

Une analyse alternative

En réponse à cet essai, Uli Schimmack a proposé cette analyse:

Le test de variance insuffisante est le test le plus puissant du biais de publication (ou de quelques autres QRP complexes).

Étape 1
Convertir les valeurs p en scores z, en utilisant z = -qnorm (p / 2)

p = c (0,031, 0,020, 0,045, 0,027, 0,062, 0,026)
z = -qnorm (p / 2)
z
[1] 2.157073 2.326348 2.004654 2.211518 1.866296 2.226212

Étape 2
Calculer la variance des scores z
var.z = var (z)
var.z
[1] 0,02808286

Étape 3
comparer la variance observée à la variance attendue (écart type des scores z = 1)
pchisq (var.z * (k-1), k-1) avec k = nombre de p-valeurs (6)

> pchisq (var.z * 5,5)
[1] 0.0003738066

Conclusion: la probabilité que les valeurs p découlent d’un ensemble d’études indépendantes est très faible, p = 0,0004. On observe depuis longtemps un pêcheur, seulement un sous-ensemble sélectionné des données disponibles »(Fisher 1955, p. 75) [merci à Deborah Mayo pour la citation]

https://replicationindex.wordpress.com/…/the-test-of…/

Références

Krueger, JI, et Heck, PR (2018). Test de signification Collabra: Psychology, 4 (1), 11. DOI: http://doi.org/10.1525/collabra.108.

Lasaletta, JD, Sedikides, C. et Vohs, KD (2014). La nostalgie affaiblit le désir d’argent. Journal of Consumer Research, 41 , 713-729.

Simonsohn, U., Nelson, LD et Simmons, JP (2014). Courbe P: Une clé du tiroir de fichiers. Journal de psychologie expérimentale: général, 143, 534-547