Traitement des valeurs aberrantes produites par Kurtosis

10

Je me demandais si quelqu'un pouvait m'aider avec des informations sur Kurtosis (c'est-à-dire qu'il existe un moyen de transformer vos données pour les réduire?)

J'ai un ensemble de données de questionnaire avec un grand nombre de cas et de variables. Pour quelques-unes de mes variables, les données montrent des valeurs de kurtosis assez élevées (c'est-à-dire une distribution leptokurtic) qui est dérivée du fait que beaucoup de participants ont donné le même score exact pour la variable. J'ai un échantillon particulièrement important, donc selon le théorème de la limite centrale, les violations de la normalité devraient toujours être correctes.

Le problème, cependant, est le fait que les niveaux particulièrement élevés de Kurtosis produisent un certain nombre de valeurs aberrantes univariées dans mon ensemble de données. En tant que tel, même si je transforme les données ou supprime / ajuste les valeurs aberrantes, les niveaux élevés de kurtosis signifient que les scores les plus extrêmes suivants deviennent automatiquement des valeurs aberrantes. Je vise à utiliser (analyse de fonction discriminante). DFA serait résistant aux écarts par rapport à la normalité, à condition que la violation soit causée par une asymétrie et non par des valeurs aberrantes. En outre, DFA serait également particulièrement influencé par les valeurs aberrantes dans les données (Tabachnick & Fidel).

Avez-vous des idées pour contourner cela? (Ma pensée initiale était un moyen de contrôler le Kurtosis, mais n'est-ce pas une bonne chose si la plupart de mon échantillon donne des notes similaires?)

Kyle Brown
la source

Réponses:

8

La manière évidente de "bon sens" pour résoudre votre problème est de

  1. Obtenez la conclusion en utilisant l'ensemble de données complet. c'est-à-dire quels résultats déclarerez-vous en ignorant les calculs intermédiaires?
  2. Obtenez la conclusion en utilisant l'ensemble de données avec lesdites «valeurs aberrantes» supprimées. c'est-à-dire quels résultats déclarerez-vous en ignorant les calculs intermédiaires?
  3. Comparez l'étape 2 avec l'étape 1
  4. S'il n'y a pas de différence, oubliez que vous avez même eu un problème. Les valeurs aberrantes ne sont pas pertinentes pour votre conclusion . Les valeurs aberrantes peuvent influencer une autre conclusion qui peut avoir été tirée à l'aide de ces données, mais cela n'est pas pertinent pour votre travail. C'est le problème de quelqu'un d'autre.
  5. S'il y a une différence, alors vous avez essentiellement une question de «confiance». Ces «valeurs aberrantes» sont-elles réelles dans le sens où elles représentent véritablement quelque chose dans votre analyse? Ou les «valeurs aberrantes» sont-elles mauvaises en ce qu'elles proviennent d'une «source contaminée»?

Dans la situation 5, vous avez essentiellement un cas de ce que le "modèle" que vous avez utilisé pour décrire la "population" est incomplet - il y a des détails qui n'ont pas été spécifiés, mais qui importent aux conclusions. Il existe deux façons de résoudre ce problème, correspondant aux deux scénarios "d'approbation":

  1. P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

La plupart des procédures "standard" peuvent être considérées comme des approximations de ce type de modèles. Le plus évident est en considérant le cas 1, où la variance a été supposée constante d'une observation à l'autre. En assouplissant cette hypothèse dans une distribution, vous obtenez une distribution de mélange. C'est le lien entre les distributions "normales" et "t". La normale a une variance fixe, tandis que le "t" se mélange à différentes variances, la quantité de "mélange" dépend des degrés de liberté. Un DF élevé signifie un faible mélange (les valeurs aberrantes sont peu probables), un faible DF signifie un mélange élevé (les valeurs aberrantes sont probables). En fait, vous pourriez prendre le cas 2 comme un cas spécial du cas 1, où les "bonnes" observations sont normales, et les "mauvaises" observations sont Cauchy (t avec 1 DF).

probabilitéislogique
la source
Quelle excellente réponse, @probabilityislogic
Peter Flom - Rétablir Monica
Juste une note de clarification: la classification optimale nécessite la connaissance des véritables distributions multivariées. Si vous pouvez bien estimer ces distributions, la fonction de classification résultante est presque optimale. Les valeurs aberrantes (comme indiqué par kurtosis) sont en effet problématiques car il n'y a pas peu de données dans la région avec lesquelles estimer la densité. Avec des données multivariées, la malédiction de la dimensionnalité contribue également à ce problème.
Peter Westfall