Existe-t-il un test statistique paramétrique et non paramétrique?

20

Existe-t-il un test statistique paramétrique et non paramétrique? Cette question a été posée par un panel d'entrevues. Est-ce une question valable?

Biostat
la source
1
L'étude de l' entrée wikipedia pour des statistiques non paramétriques pourrait être suffisante pour vous préparer à un intervieweur. Vous pouvez répondre à la question par une question, comme dans "Qu'entendez-vous par non paramétrique? Modèles sans distribution ou statistiques d'ordre de classement?"
jrhorn424
3
Comme point de départ, cela pourrait vous aider, ainsi que vos répondants, à consulter une autorité ( pas Internet!) Concernant les définitions. "Les cas paramétriques ... sont tous ceux dans lesquels la classe de tous les [états de la nature] peut être représentée en termes d'un vecteur composé d'un nombre fini de composantes réelles de manière naturelle. (... la distribution et la fonction de perte dépend de θ d'une manière raisonnablement fluide.) Tous les autres problèmes sont appelés non paramétriques .-- JC Kiefer, Introduction to Statistical Inference, p. 23.θθ
whuber
L'un des professeurs m'a dit que le «test du chi carré» avait les deux comportements (c'est-à-dire paramétrique et non paramétrique également). Je ne comprenais pas du tout pourquoi le «test du chi carré» avait les deux comportements.
Biostat
3
Ce n'est pas le test qui est paramétrique, c'est le modèle qui l'est. Les distributions du chi carré se produisent dans les deux situations (de manière naturelle dans le modèle linéaire général avec des hypothèses de distribution normales, et comme approximation d'une différence de vraisemblances logarithmiques - toutes deux des applications paramétriques - et également comme approximation pour le multinomial distributions qui surviennent dans de nombreuses applications non paramétriques), il existe donc de nombreux tests différents portant le nom de "chi-carré". C'est probablement ce que suggère le commentaire de votre professeur.
whuber
@whuber: Votre dernier commentaire signifie-t-il que le test du khi carré pour la qualité de l'ajustement n'est pas paramétrique?
Tim

Réponses:

6

Il est fondamentalement difficile de dire exactement ce que l'on entend par "test paramétrique" et "test non paramétrique", bien qu'il existe de nombreux exemples concrets où la plupart conviendront si un test est paramétrique ou non paramétrique (mais jamais les deux) . Une recherche rapide a donné ce tableau , qui, j'imagine, représente une distinction pratique courante dans certains domaines entre les tests paramétriques et non paramétriques.

Juste au-dessus du tableau auquel il est fait référence, il y a une remarque:

"... les données paramétriques ont une distribution normale sous-jacente ... Tout le reste est non paramétrique."

Il peut être un critère accepté dans certains domaines que soit nous supposons la normalité et utilisons l'ANOVA, et c'est paramétrique, soit nous n'assumons pas la normalité et n'utilisons pas d'alternatives non paramétriques.

Ce n'est peut-être pas une très bonne définition, et ce n'est pas vraiment correct à mon avis, mais c'est peut-être une règle pratique. Principalement parce que le but ultime des sciences sociales, par exemple, est d'analyser les données, et à quoi sert-il de pouvoir formuler un modèle paramétrique basé sur une distribution non normale et ensuite de ne pas pouvoir analyser les données?

Une autre définition consiste à définir les "tests non paramétriques" comme des tests qui ne reposent pas sur des hypothèses de distribution et des tests paramétriques comme autre chose.

La première ainsi que la dernière définition présentées définissent une classe de tests, puis définissent l'autre classe comme le complément (toute autre chose). Par définition, cela exclut qu'un test puisse être aussi bien paramétrique que non paramétrique.

La vérité est que cette dernière définition est également problématique. Que se passe-t-il s'il existe certaines hypothèses naturelles «non paramétriques», telles que la symétrie, qui peuvent être imposées? Cela transformera-t-il une statistique de test qui ne repose autrement sur aucune hypothèse de distribution en un test paramétrique? La plupart diraient non!

Il existe donc des tests dans la classe des tests non paramétriques qui sont autorisés à faire des hypothèses de distribution tant qu'ils ne sont pas «trop paramétriques». La frontière entre les tests "paramétriques" et "non paramétriques" est devenue floue, mais je pense que la plupart des gens soutiendront que soit un test est paramétrique, soit non paramétrique, peut-être ne peut-il être ni l'un ni l'autre, mais en disant qu'il est à la fois n'a pas de sens.-

Dans une optique différente, de nombreux tests paramétriques sont (équivalents à) des tests de rapport de vraisemblance. Cela rend possible une théorie générale et nous avons une compréhension unifiée des propriétés distributionnelles des tests de rapport de vraisemblance dans des conditions de régularité appropriées. Les tests non paramétriques ne sont pas, au contraire, équivalents aux tests de rapport de vraisemblance en soi il n'y a pas de probabilité - et sans la méthodologie unificatrice basée sur la probabilité que nous devons dériver des résultats de distribution au cas par cas. La théorie de la vraisemblance empirique--développé principalement par Art Owen à Stanford est cependant un compromis très intéressant. Il offre une approche statistique basée sur la probabilité (un point important pour moi, car je considère la probabilité comme un objet plus important qu'une valeur , par exemple) sans avoir besoin d'hypothèses de distribution paramétriques typiques. L'idée fondamentale est une utilisation intelligente de la distribution multinomiale sur les données empiriques, les méthodes sont très "paramétriques" mais valables sans restreindre les hypothèses paramétriques.p

Les tests basés sur la vraisemblance empirique ont, à mon humble avis, les vertus des tests paramétriques et la généralité des tests non paramétriques, donc parmi les tests auxquels je peux penser, ils se rapprochent le plus pour être paramétriques et non paramétriques, même si je le ferais pas utiliser cette terminologie.

NRH
la source
+1 Commentaires très intéressants. En ce qui concerne la limite qui devient "floue", je prends cela comme une déclaration correcte sur la perception, mais il n'y a pas de flou dans les définitions elles-mêmes: la distinction entre paramétrique et non paramétrique est aussi claire et nette que celle entre, disons, finie et infini.
whuber
@whuber, concernant ce qui est "flou", je faisais spécifiquement référence au fait qu'il peut aussi y avoir des hypothèses de distribution pour les tests non paramétriques, donc ma deuxième définition ne fonctionne pas non plus. Si je devais tenter une définition précise, un test paramétrique est basé sur un modèle qui peut être paramétré par un sous-ensemble d'un espace euclidien de dimension finie. Ce que je pense être le plus "flou", c'est qu'il n'est pas clair, à mon avis, jusqu'où "aucune hypothèse de distribution" vous pouvez aller avant que les hypothèses non paramétriques deviennent autant un problème que les hypothèses paramétriques.
NRH
@whuber, je lis maintenant votre commentaire à la question en référence à Kiefer, et oui c'est certainement une bonne idée de consulter une autorité pour une définition formelle! J'étais en fait plus préoccupé par ce que les gens signifient généralement quand ils disent "non paramétrique", et je suppose que peu ont une définition de Kiefer en tête.
NRH
Voir ma citation de Kiefer dans un commentaire à la question d'origine. En particulier, «non paramétrique» ne signifie pas «aucune hypothèse de distribution». Au contraire, les tests non paramétriques les plus connus font tous des hypothèses de distribution. Je pense que je comprends votre sens du "flou": j'ai choisi l'analogie finie / infinie par respect pour cela, car en pratique un nombre très important (mais fini) de paramètres pourrait tout aussi bien être considéré comme infini.
whuber
2

Paramétrique est utilisé dans (au moins) deux sens: A - Pour déclarer que vous supposez la famille de la distribution du bruit jusqu'à ses paramètres. B - Pour déclarer que vous supposez la relation fonctionnelle spécifique entre les variables explicatives et le résultat.

Quelques exemples:

  • Une régression quantile avec un lien linéaire serait qualifiée de B-paramétrique et A-non-paramétrique.
  • Le lissage spline d'une série temporelle avec un bruit gaussien peut être de qualité A-non paramétrique et B-paramétrique.

Le terme "semi-paramétrique" se réfère généralement au cas B et signifie que vous n'assumez pas toute la relation fonctionnelle, mais plutôt que vous avez des hypothèses plus douces telles que "additif dans une certaine transformation en douceur des prédicteurs".

Vous pouvez également avoir des hypothèses plus douces sur la distribution du bruit, telles que "tous les moments sont finis", sans spécifier spécifiquement la forme de la distribution. À ma connaissance, il n'y a pas de terme pour ce type d'hypothèse.

Notez que la réponse se rapporte aux hypothèses sous-jacentes au processus de génération de données. Quand on dit "test a-paramétrique", on se réfère généralement à non-paramétrique dans le sens A. Dans ce que vous vouliez dire, je répondrais "non". Il serait impossible d'être paramétrique et non paramétrique dans le même sens en même temps.

JohnRos
la source
Les deux significations du premier paragraphe ont fréquemment un traitement unifié dans la littérature: autrement dit, il ne semble pas y avoir de distinction fondamentale ou importante entre elles. BTW, le cas "tous les moments sont finis" est définitivement un problème non paramétrique.
whuber
@whuber: la définition de Keifer semble couvrir les deux cas (j'avoue - je ne l'ai jamais lue et je cherche toujours des exceptions). D'un autre côté, les termes changent leur signification. "Empirical-Bayes" ne signifie plus à quoi Robbins l'utilisait en 1955. Vous ne pouvez pas ignorer le fait qu'il y a plus d'une interprétation en circulation.
JohnRos
D'accord, mais nous devons être un peu exigeants: il est évident que de nombreuses interprétations et tentatives de définitions de "paramétrique" et "non paramétrique" sont des expressions d'ignorance, pas de compréhension. Pouvez-vous citer une autre définition qui soit à la fois claire, rigoureuse et faisant autorité (pour être précis, faisant autorité dans le sens où elle serait acceptée sans conteste par une revue crédible à comité de lecture)?
whuber
1
@whuber: J'accepte le défi! :-) Bien que notez, puisque tous les chercheurs commencent leurs recherches sur Wikipedia, c'est une question de temps jusqu'à ce que des revues crédibles évaluées par des pairs s'alignent sur la définition du wiki. ("si vous ne pouvez pas les battre ...")
JohnRos
1
L' article de Wikipédia cite Wolfowitz des années 40, qui est non seulement le premier à utiliser "non paramétrique", mais aussi l'un des ancêtres intellectuels directs de Kiefer. Je ne pense pas que nous y trouverons une réelle différence. (Kiefer n'ajoute qu'une exigence technique concernant la fonction de perte.) Cependant, je soupçonne que très peu (le cas échéant) de véritables chercheurs prennent Wikipédia comme point de départ, surtout pas dans les domaines à base mathématique!
whuber
1

Je suppose que cela dépend de ce qu'ils entendent par «paramétrique et non paramétrique»? En même temps exactement les deux, ou un mélange des deux?

Beaucoup considèrent le modèle de risques proportionnels de Cox comme semi-paramétrique, car il n'évalue pas paramétriquement le danger de base.

Ou vous pouvez choisir d'afficher de nombreuses statistiques non paramétriques comme réellement paramétriques massivement.

Fomite
la source
7
Cela semble être une esquive. La question est de savoir si l'on apprécie la distinction entre "paramétrique" et "non paramétrique", qu'elle soit claire ou non. Une bonne réponse éclairera cette distinction, ne la confondra pas.
whuber
1
@whuber Quelle "la question"? Le panneau ou l'OP? Parce que dans mon esprit, le PO ne cherche pas à distinguer quoi que ce soit. Ce qui signifie alors que cela dépend de l'endroit où les gens tracent la ligne. Je ne pense pas que fournir un exemple à la fois commun et philosophique pour "Eh bien, ça dépend" soit une esquive. Je pense que c'est une réponse. Comme si l'on veut ou non considérer un "paramétrique" comme entièrement paramétrique, ou simplement avoir des paramètres.
Fomite
Le point sur "quelle question" est bon. Je pense que là où je commence à avoir des problèmes avec votre réponse, c'est qu'elle fait des distinctions qui, selon mes ressources, n'ont aucun sens (un "mélange" n'a pas de sens, ainsi que l'idée qu'une "statistique" peut être paramétrique), ce qui suggère vous utilisez une définition de «paramétrique» et «non paramétrique» différente de la mienne. Bien que vous fassiez valoir l'excellent argument selon lequel une réponse doit dépendre de la signification de ces termes, vous ne proposez pas réellement de définition pour rendre vos commentaires ultérieurs clairs ou compréhensibles.
whuber
@whuber Assez juste. J'ai trouvé que la question d'origine était quelque peu absurde, alors je faisais ce que je pouvais. La question a maintenant de meilleures réponses qui font certaines hypothèses sur ce que signifie le PO.
Fomite
0

Bradley, dans ses tests statistiques sans distribution classiques (1968, p. 15-16 - voir cette question pour une citation) clarifie la différence entre les tests sans distribution et les tests non paramétriques , qui, selon lui, sont souvent confondus et donne une exemple d'un test paramétrique sans distribution comme test de signe pour la médiane. Ce test ne fait aucune hypothèse sur la distribution sous-jacente de la population échantillonnée de valeurs variables, il est donc sans distribution . Cependant, si la médiane sélectionnée est correcte, les valeurs au-dessus et en dessous devraient être sélectionnées à probabilité égale, en testant des échantillons aléatoires à partir dep=0,5

Mise à jour

(UNE¬UNE)

Avraham
la source
1
J'aime le début de cette réponse car elle fait une distinction intéressante et la soutient avec une bonne référence. Cependant, il me semble que le reste de la réponse confond les hypothèses sur les données avec les propriétés de la statistique de test. Les hypothèses du test de signe sont en effet «sans distribution». Cependant, le fait que la distribution d'échantillonnage de la statistique de test soit binomiale est un problème complètement différent et ne rend pas la procédure paramétrique!
whuber
Eh bien, Bradley lui-même appelle le test Sign sans distribution mais paramétrique à la page 15. La zone de commentaire est trop petite pour apporter les deux phrases clés dans leur intégralité. Veuillez lire l'autre réponse, en particulier les phrases qui commencent par «grosso modo…» et «pour être tout à fait clair…». Je vous remercie.
Avraham
Si c'est le cas avec Bradley, alors soit le sens de ces termes a changé depuis, soit (je déteste le dire) vous mal interpréter ce qu'il a écrit. (Je n'ai pas accès à une copie que je peux vérifier.) Ce n'est certainement pas le cas maintenant - ni depuis au moins les 30 dernières années - que "paramétrique" a fait référence à la distribution d'une statistique de test. Voir la citation de Wolfowitz dans l'article Wikipedia .
whuber
2
FΩθ
2
Pour ce que cela vaut, j'ai examiné deux autres textes statistiques, Probability and Statistics de DeGroot (2e éd, pp 520-521) et Introduction à la théorie des probabilités et à l'inférence statistique de Larson (3e édition, pp.508-509) et tous deux utilisent le terme paramétrique pour signifier ce que Bradly appelle sans distribution , ce qui est comme Kiefer, je pense. Donc, pour répondre à l'OP, cela dépend de la façon dont vous définissez "paramétrique".
Avraham