Comment gérer l'effet de plafond grâce à l'outil de mesure?

12

J'ai collecté des données psychophysiologiques mesurant la capacité des sujets (deux groupes) à percevoir les vibrations. Une sonde vibrante se déplace contre la peau à des déplacements de plus en plus petits, et le sujet indique quand il ressent la vibration. Malheureusement, à des fréquences élevées, la sonde ne peut se déplacer que sur une courte distance, et parfois la plus grande distance que la sonde peut parcourir n'est toujours pas assez grande pour que les sujets puissent la percevoir. Ainsi, j'ai des valeurs de seuil précises pour certains sujets, mais pour certains qui n'ont jamais ressenti la vibration, j'ai simplement une valeur dont je sais que leur seuil est supérieur à. Existe-t-il un moyen pour moi d'inclure toujours ces données? Et quelle est la meilleure façon de l'analyser?

Cale
la source
5
Celles-ci sont appelées observations censurées . La manière de l'inclure dépend du type d'analyse statistique que vous effectuez.
Je suis d'accord avec Procrastinator sauf que j'utiliserais le terme tronqué. L'approche d'un problème similaire appelé censure à droite se produit dans l'analyse de survie où vous conservez la valeur tronquée mais avez une variable indicatrice pour vous dire si la valeur est une valeur complète ou censurée. Dans l'analyse de survie, il existe un moyen simple de gérer cela, mais c'est parce que vous estimez une courbe de survie. Ici, vous souhaiterez peut-être calculer des moyennes. Si vous ignorez la formation, vous sous-estimez la moyenne. Si vous jetez les points tronqués, vous sous-estimez la moyenne.
Michael R. Chernick
Pour incorporer correctement les valeurs tronquées, vous devez disposer d'un modèle de probabilité pour la distance de la sonde étant donné qu'elle est supérieure au seuil. Vous pouvez ensuite prendre la moyenne de cette distribution et calculer une moyenne pondérée en utilisant la moyenne des valeurs qui n'ont pas été tronquées avec la moyenne de la distribution tronquée où la pondération est fonction de la proportion de cas tronqués.
Michael R. Chernick
4
La troncature est ce qui se passerait si vous jetiez les données non quantifiées. Tu ne veux pas faire ça! Vous avez raison, Cale, qu'il y a des informations dans ces valeurs censurées et en soupçonnant qu'il existe des moyens standard de les analyser (et des pièges pour les imprudents). Mais pour fournir une bonne réponse, nous aurions besoin de savoir quel type d'analyse vous recherchez. En particulier, le traitement de ces données est fondamentalement différent selon qu'elles apparaissent comme des variables dépendantes ou indépendantes dans une régression. Peut-être pourriez-vous développer cela?
whuber
1
Petit détail sans rapport avec la question statistique en question, mais il pourrait être utile de savoir: les données de ce type sont généralement appelées données «psychophysiques», pas «psychophysiologiques» (qui comprennent des éléments comme la fréquence cardiaque ou les mesures de conductance cutanée, mais pas des jugements subjectifs sur les sensations ). Cela pourrait également vous aider à rechercher de la documentation sur la façon dont les gens traitent généralement ce type de données.
Gala du

Réponses:

2

J'aime utiliser des modèles de mélanges hétérogènes pour décrire les effets combinés de sources fondamentalement différentes.

Vous pourriez regarder quelque chose comme un modèle «Poisson gonflé zéro» dans le style de Diane Lambert. " Régression de Poisson gonflée zéro, avec une application aux défauts de fabrication ", Diane Lambert, Technometrics, Vol. 34, Iss. 1, 1992

Je trouve cette idée particulièrement intéressante car elle semble contredire l'idée que l'application de la conception statistique des expériences à la médecine ne peut pas guérir complètement la maladie. Derrière la notion se trouve l'idée que la méthode scientifique ne peut pas remplir son objectif en médecine vient de l'idée qu'il n'y a pas de données sur la maladie d'un individu "parfaitement" en bonne santé et que les données ne peuvent pas informer le remède de la maladie. Sans mesure, il n'y a pas de marge d'amélioration.

L'utilisation de quelque chose comme un modèle gonflé à zéro permet d'extraire des informations utiles de données partiellement «sans erreur». Il utilise un aperçu du processus pour prendre les informations qui pourraient être considérées comme «silencieuses» et les faire parler. Pour moi, c'est le genre de chose que vous essayez de faire.

Maintenant, je ne peux pas commencer à affirmer quelles combinaisons de modèles utiliser. Je soupçonne que vous pourriez utiliser un modèle de mélange gaussien à gonflement zéro (GMM) pour les débutants. Le GMM est un peu un approximateur universel empirique pour les fichiers PDF continus - comme le cousin PDF de l'approximation de la série de Fourier, mais avec le soutien du théorème de la limite centrale pour améliorer l'applicabilité globale et permettre généralement beaucoup moins de composants afin de faire un " bonne "approximation.

Bonne chance.

ÉDITER:

Plus d'informations sur les modèles zéro gonflé:

EngrStudent
la source
0

Regrouper les résultats et définir une échelle pourrait être une solution.

Faites une variable de catégorie comme ça (ou différemment):

  1. Haute sensibilité
  2. Sensibilité normale
  3. Faible sensibilité
  4. Insensible (ceux qui sont hors échelle dans votre cas)

Vous pouvez utiliser cette variable pour effectuer l'analyse, mais la pertinence des résultats dépend de la façon dont vous définissez les catégories.

Dennis Jaheruddin
la source