Quels sont les moyens les plus acceptés pour visualiser les résultats d'un test t indépendant à deux échantillons? Est-ce qu'un tableau numérique est plus souvent utilisé ou une sorte de graphique? L'objectif est pour un observateur occasionnel de regarder la figure et de voir immédiatement qu'ils proviennent probablement de deux populations différentes.
11
Réponses:
Il vaut la peine d'être clair sur le but de votre intrigue. En général, il existe deux types d'objectifs différents: vous pouvez créer des graphiques pour évaluer les hypothèses que vous faites et guider le processus d'analyse des données, ou vous pouvez créer des graphiques pour communiquer un résultat aux autres. Ce ne sont pas les mêmes; par exemple, de nombreux téléspectateurs / lecteurs de votre intrigue / analyse peuvent être statistiquement non sophistiqués et ne pas être familiers avec l'idée, par exemple, de la variance égale et de son rôle dans un test t. Vous voulez que votre intrigue transmette les informations importantes sur vos données, même à des consommateurs comme eux. Ils font implicitement confiance que vous avez fait les choses correctement. D'après votre configuration de questions, je suppose que vous recherchez ce dernier type.
De manière réaliste, l'intrigue la plus courante et la plus acceptée pour communiquer les résultats d'un test t 1 à d'autres (mis à part s'il est réellement le plus approprié) est un diagramme à barres des moyennes avec des barres d'erreur standard. Cela correspond très bien au test t dans la mesure où un test t compare deux moyennes en utilisant leurs erreurs standard. Lorsque vous avez deux groupes indépendants, cela donnera une image intuitive, même pour les personnes statistiquement peu sophistiquées, et (si les données le permettent), les gens peuvent "immédiatement voir qu'ils sont probablement de deux populations différentes". Voici un exemple simple utilisant les données de @ Tim:
Cela dit, les spécialistes de la visualisation des données dédaignent généralement ces graphiques. Ils sont souvent ridiculisés comme des "parcelles de dynamite" (cf. Pourquoi les parcelles de dynamite sont mauvaises ). En particulier, si vous ne disposez que de quelques données, il est souvent recommandé de simplement afficher les données elles-mêmes . Si les points se chevauchent, vous pouvez les faire trembler horizontalement (ajouter une petite quantité de bruit aléatoire) afin qu'ils ne se chevauchent plus. Parce qu'un test t concerne fondamentalement les moyennes et les erreurs standard, il est préférable de superposer les moyennes et les erreurs standard sur un tel tracé. Voici une version différente:
Si vous avez beaucoup de données, les boîtes à moustaches peuvent être un meilleur choix pour obtenir un aperçu rapide des distributions, et vous pouvez également y superposer les moyens et les SE.
Les diagrammes simples des données et les diagrammes en boîte sont suffisamment simples pour que la plupart des gens puissent les comprendre même s'ils ne sont pas très avertis sur le plan statistique. Gardez à l'esprit, cependant, qu'aucun de ces éléments ne permet d'évaluer facilement la validité d'avoir utilisé un test t pour comparer vos groupes. Ces objectifs sont mieux servis par différents types de parcelles.
1. Notez que cette discussion suppose un test t d'échantillons indépendants. Ces graphiques pourraient être utilisés avec un test t d'échantillons dépendants, mais pourraient également être trompeurs dans ce contexte (cf., Est-ce que l'utilisation de barres d'erreur pour les moyennes dans une étude intra-sujets est mauvaise? ).
la source
Le moyen le plus couramment utilisé pour visualiser -test comme comparaison est d'utiliser boxplots . Ci-dessous, je donne un exemple utilisant un ensemble de données décrivant "la relation entre le tabagisme de la marijuana et un déficit de performance sur une tâche mesurant la mémoire à court terme" de ce site .t
En fait, les boîtes à moustaches sont couramment utilisées pour les tests d'hypothèses «informelles», par exemple comme décrit par Yoav Benjamini dans l'article de 1988 Ouvrir la boîte d'une boîte à moustaches :
Voir aussi: T-test utilisant uniquement des données récapitulatives dans une boîte à moustaches
Ce graphique ne montre pas les quantités directement impliquées dans le test , comme l' a remarqué @NickCox . Si vous souhaitez une comparaison directe des moyennes avec des intervalles de confiance, vous pouvez utiliser un graphique à barres avec des intervalles de confiance marqués. L'utilisation de moyennes et d'intervalles de confiance vous permet également de réaliser des tests d'hypothèses (voir ici ou ici ).t
Comme vous pouvez le voir dans d'autres articles et commentaires sous ce fil, les boîtes à moustaches et les parcelles à dynamite sont un choix quelque peu controversé, alors laissez-moi vous donner une autre alternative qui n'a pas encore été mentionnée. Tout d'abord, rappelons que test et régression sont liés . Vous pouvez tracer -test comme comparaison que deux points avec errorbars (intervalles de confiance) qui sont connectés à la ligne. La pente de la ligne est proportionnelle à la pente de régression si vous avez utilisé la régression linéaire plutôt quet tt t t -tester dans cette situation. Le principal avantage d'un tel tracé est qu'il vous permet de juger facilement de l'amplitude de la différence de moyennes en regardant la pente de la ligne. Son inconvénient peut être qu'il peut suggérer qu'il existe une certaine «continuité» entre les moyens (c'est-à-dire que vous aviez des échantillons appariés).
Les boîtes à moustaches semblent être plus couramment utilisées, car elles fournissent plus d'informations sur la distribution des variables visualisées (en comparant la moyenne avec l'intervalle de confiance uniquement). Ils complètent également plutôt que reproduisent les informations du test et une telle utilisation de l'intrigue est encouragée par la plupart des guides de style, par exemple par le manuel de publication de l'American Psychological Association :t
la source
Il s'agit principalement d'une variation des réponses utiles de @Tim et @gung, mais les graphiques ne peuvent pas être intégrés dans un commentaire.
Petits points mais éventuellement utiles:
Un tracé en bandes ou en points tel qu'illustré par @gung doit être modifié s'il y a des liens, comme il en existe dans les données d'exemple. Les points peuvent être empilés ou trémoussés, ou comme dans l'exemple ci-dessous, vous pouvez utiliser un diagramme hybride à boîte quantile comme suggéré par Emanuel Parzen (la référence la plus accessible est probablement 1979. Modélisation de données statistiques non paramétriques. Journal, American Statistical Association74: 105-121). Cela a également d'autres avantages, en soulignant que si la moitié des données se trouvent à l'intérieur de la boîte, alors la moitié est également à l'extérieur, et en montrant essentiellement tous les détails de la distribution. Lorsqu'il n'y a que deux groupes, comme c'est le cas dans ce contexte, n'importe quel type plus classique de boîte à moustaches peut être un affichage minimal, voire squelettique. Certains considéreraient cela comme une vertu, mais il est possible de montrer plus de détails. L'argument inverse est qu'une boîte à moustaches signalant des points particuliers, notamment ceux à plus de 1,5 IQR du quartile le plus proche, est un avertissement clair pour l'utilisateur: faites attention avec un test t, car il peut y avoir des points dans les queues que vous devriez inquiétez-vous.
Vous pouvez naturellement ajouter une indication des moyens à une boîte à moustaches, ce qui est assez souvent fait. L'ajout d'un marqueur ou d'un symbole de point différent est courant. Ici, nous choisissons des lignes de référence.
Parcelles en boîte quantile pour fumeurs et non-fumeurs. Les cases indiquent les médianes et les quartiles. Les lignes horizontales en bleu indiquent les moyennes.
Remarque. Le graphique a été créé dans Stata. Voici le code pour les personnes intéressées.
stripplot
doit être installé au préalable avecssc inst stripplot
.ÉDITER. Cette idée supplémentaire, en réponse à la réponse de @Frank Harrell, superpose deux tracés de probabilité normale (tracés vraiment quantile-quantile). Les lignes horizontales indiquent les moyennes. Certains voudraient ajouter des lignes pour chaque groupe indiquant un ajustement parfait, par exemple via ( , sa moyenne) et ( , sa moyenne sa SD) ou des alternatives résistantes.1 +0 1 +
la source
Outre le beau but de présenter les résultats il devrait y avoir une certaine considération dont graphiques vérifier les hypothèses de la variance égale à deux échantillons -test pour elle d'avoir d' excellentes performances. Ce seraient des fonctions inverses normales des deux fonctions empiriques de distribution cumulative. Pour satisfaire aux hypothèses de test, ces deux courbes doivent être des droites parallèles.t
la source