Je veux savoir quelle est la plage des valeurs d' asymétrie et de kurtosis pour lesquelles les données sont considérées comme normalement distribuées.
J'ai lu de nombreux arguments et j'ai surtout obtenu des réponses mitigées. Certains disent que l'asymétrie et pour le kurtosis est une plage acceptable pour une distribution normale. Certains disent que l'asymétrie est une plage acceptable. J'ai trouvé une discussion détaillée ici: Quelle est la plage acceptable d'asymétrie et de kurtosis pour une distribution normale des données concernant ce problème. Mais je n'ai trouvé aucune déclaration décisive.
Quelle est la base pour décider d'un tel intervalle? Est-ce un choix subjectif? Ou y a-t-il une explication mathématique derrière ces intervalles?
la source
Réponses:
Le message original manque quelques points majeurs: (1) Aucune "donnée" ne peut jamais être distribuée normalement. Les données sont nécessairement discrètes. La question valable est: "le processus qui a produit les données est-il un processus normalement distribué?" Mais (2) la réponse à la deuxième question est toujours «non», quel que soit le résultat d'un test statistique ou d'une autre évaluation basée sur des données. Les processus normalement distribués produisent des données avec une continuité infinie, une symétrie parfaite et des probabilités spécifiées avec précision dans des plages d'écart type (par exemple 68-95-99.7), dont aucune n'est jamais précisément vraie pour les processus qui donnent naissance à des données que nous pouvons mesurer avec n'importe quoi appareil de mesure que nous, humains, pouvons utiliser.
Ainsi, vous ne pouvez jamais considérer que les données sont normalement distribuées et vous ne pouvez jamais considérer le processus qui a produit les données comme un processus précisément distribué normalement. Mais, comme Glen_b l'a indiqué, cela n'a peut-être pas trop d'importance, selon ce que vous essayez de faire avec les données.
Les statistiques d'asymétrie et de kurtosis peuvent vous aider à évaluer certains types d'écarts par rapport à la normalité de votre processus de génération de données. Ce sont des statistiques très variables, cependant. Les erreurs standard données ci-dessus ne sont pas utiles car elles ne sont valables que dans le cadre de la normalité, ce qui signifie qu'elles ne sont utiles que comme test de normalité, un exercice essentiellement inutile. Il serait préférable d'utiliser le bootstrap pour trouver les se, bien que de grands échantillons soient nécessaires pour obtenir des se précis.
En outre, le kurtosis est très facile à interpréter, contrairement au post ci-dessus. Il s'agit de la moyenne (ou valeur attendue) des valeurs Z, chacune portée à la quatrième puissance. Grand | Z | les valeurs sont aberrantes et contribuent fortement à la kurtosis. Petit | Z | les valeurs, où le "pic" de la distribution est, donnent des valeurs Z ^ 4 qui sont minuscules et ne contribuent pratiquement pas à la kurtosis. J'ai prouvé dans mon article https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ que le kurtosis est très bien approximé par la moyenne des valeurs Z ^ 4 * I (| Z |> 1). Par conséquent, le kurtosis mesure la propension du processus de génération de données à produire des valeurs aberrantes.
la source
Ce que vous semblez demander ici, c'est une erreur standard pour l'asymétrie et le kurtosis d'un échantillon tiré d'une population normale. Notez qu'il existe différentes façons d'estimer des choses comme l' asymétrie ou la queue grasse (kurtosis), qui affecteront évidemment ce que sera l'erreur standard. Les mesures les plus courantes auxquelles les gens pensent sont plus techniquement connues comme les 3e et 4e moments normalisés.
Pour ce que ça vaut, les erreurs standard sont:
Un bon aperçu introductif de l'asymétrie et du kurtosis peut être trouvé ici .
la source
[Dans ce qui suit, je suppose que vous proposez quelque chose comme "vérifier l'asymétrie et le kurtosis des échantillons, s'ils sont tous les deux dans des plages prédéfinies, utilisez une procédure théorique normale, sinon utilisez autre chose".]
Il y a une multitude d'aspects à cela, dont nous n'aurons de l'espace que pour une poignée de considérations. Je commencerai par énumérer ce que je pense que les questions importantes peuvent être à examiner avant de passer à l'utilisation d'un critère comme celui-ci. Je vais essayer de revenir et d'écrire un peu sur chaque élément plus tard:
Questions à considérer
Dans quelle mesure divers types de non-normalité auraient-ils une incidence sur tout ce que nous faisons?
À quel point est-il difficile de détecter ces écarts en utilisant des plages sur l'asymétrie et le kurtosis des échantillons?
Une chose avec laquelle je suis d'accord dans la proposition - elle examine une paire de mesures liées à la taille de l'effet ( combien d' écart par rapport à la normalité) plutôt qu'à la signification. En ce sens, il sera plus près d'aborder quelque chose d'utile qu'un test formel d'hypothèse, qui tendra à rejeter même des écarts insignifiants à de grands échantillons, tout en offrant la fausse consolation du non-rejet d'écarts beaucoup plus importants (et plus impactants) à petits échantillons. (Les tests d'hypothèse répondent à la mauvaise question ici.)
Bien sûr, pour de petits échantillons, c'est toujours problématique dans le sens où les mesures sont très "bruyantes", donc nous pouvons toujours être induits en erreur (un intervalle de confiance nous aidera à voir à quel point cela pourrait être mauvais).
Cela ne nous dit pas comment un écart d'asymétrie ou de kurtosis est lié à des problèmes avec ce pour quoi nous voulons la normalité - et les différentes procédures peuvent être très différentes dans leurs réponses à la non-normalité.
Cela ne nous aide pas si notre déviation par rapport à la normalité est d'une nature à laquelle aveuglement et kurtosis seront aveugles.
Si vous utilisez ces exemples de statistiques comme base pour choisir entre deux procédures, quel est l'impact sur les propriétés de l'inférence résultante (par exemple, pour un test d'hypothèse, à quoi ressemblent votre niveau de signification et votre pouvoir?)
Il existe un nombre infini de distributions qui ont exactement la même asymétrie et kurtosis que la distribution normale, mais qui sont nettement non normales. Ils n'ont même pas besoin d'être symétriques! Comment l'existence de telles choses influe-t-elle sur l'utilisation de telles procédures? L'entreprise est-elle condamnée dès le départ?
Quelle variation de l'asymétrie et du kurtosis des échantillons pourriez-vous voir dans les échantillons tirés de distributions normales? (Quelle proportion d'échantillons normaux finirions-nous par jeter selon une règle?)
[Ce problème est en partie lié à certains des points abordés par Gung dans sa réponse.]
Pourrait-il y avoir quelque chose de mieux à faire à la place?
Enfin, si après avoir examiné toutes ces questions, nous décidons que nous devons aller de l'avant et utiliser cette approche, nous arrivons à des considérations découlant de votre question:
Quelles sont les bonnes limites à placer sur l'asymétrie et sur le kurtosis pour diverses procédures? De quelles variables devons-nous nous soucier dans quelles procédures?
(Par exemple, si nous effectuons une régression, notez qu'il est incorrect de traiter un IV et même le DV brut de cette façon - aucun de ceux-ci n'est supposé provenir d'une distribution normale commune)
Je reviendrai et ajouterai quelques réflexions, mais tout commentaire / question que vous pourriez avoir en attendant pourrait être utile.
la source