Une femme pour laquelle je travaillais m'a demandé de faire une ANOVA unidirectionnelle sur certaines données. J'ai répondu que les données étaient des données de mesures répétées (séries chronologiques) et que je pensais que l'hypothèse d'indépendance était violée. Elle a répondu que je ne devais pas m'inquiéter des hypothèses, juste faire le test et elle tiendrait compte du fait que les hypothèses n'étaient peut-être pas remplies.
Cela ne me semblait pas juste. J'ai fait quelques recherches et j'ai trouvé ce merveilleux article de blog de David Robinson, Le clustering K-means n'est pas un déjeuner gratuit , ce qui m'a exposé au théorème du déjeuner gratuit. J'ai regardé le document original et certains suivent des trucs, et franchement, les maths sont un peu au-dessus de ma tête.
L'essentiel - selon David Robinson - semble être que la puissance d'un test statistique vient de ses hypothèses. Et il donne deux excellents exemples. En parcourant les autres articles et articles de blog à ce sujet, il semble toujours être référencé en termes d'apprentissage supervisé ou de recherche.
Ma question est donc la suivante: ce théorème s'applique-t-il aux tests statistiques en général? En d'autres termes, peut-on dire que la puissance d'un test t ou d'une ANOVA vient de son adhésion aux hypothèses, et citer le théorème du déjeuner gratuit?
Je dois à mon ancien patron un document final concernant le travail que j'ai fait, et j'aimerais savoir si je peux me référer au théorème du déjeuner gratuit en déclarant que vous ne pouvez pas simplement ignorer les hypothèses d'un test statistique et dire que vous en tiendrez compte. compte lors de l'évaluation des résultats.
la source
Réponses:
Je ne connais pas de preuve mais je parie que cela s'applique assez généralement. Un exemple est une expérience avec 2 sujets dans chacun des 2 groupes de traitement. Le test de Wilcoxon ne peut pas être significatif au niveau de 0,05, mais le test t peut l'être. On pourrait dire que sa puissance provient plus de la moitié de ses hypothèses et pas seulement des données. Pour votre problème d'origine, il ne convient pas de procéder comme si les observations par sujet étaient indépendantes. Prendre en compte les choses après coup n'est certainement pas une bonne pratique statistique, sauf dans des circonstances très particulières (par exemple, les estimateurs sandwich en grappes).
la source
Vous pouvez citer le théorème du déjeuner gratuit si vous le souhaitez, mais vous pouvez également citer le Modus Ponens (également connu sous le nom de loi du détachement , la base du raisonnement déductif), qui est la racine du théorème du déjeuner gratuit .
Le Théorème No Free Lunch englobe une idée plus spécifique: le fait qu'il n'y a pas d'algorithme qui puisse convenir à toutes les fins. En d'autres termes, le théorème du déjeuner gratuit dit essentiellement qu'il n'y a pas de solution miracle algorithmique . Cela trouve son origine dans le Modus Ponens, car pour qu'un algorithme ou un test statistique donne le résultat correct, vous devez satisfaire les prémisses.
Comme dans tous les théorèmes mathématiques, si vous violez les prémisses, le test statistique est simplement vide de sens et vous ne pouvez en tirer aucune vérité. Donc, si vous voulez expliquer vos données à l'aide de votre test, vous devez supposer que les prémisses requises sont remplies, si elles ne le sont pas (et vous le savez), alors votre test est complètement faux.
En effet , le raisonnement scientifique est basée sur la déduction: essentiellement, votre test / droit / théorème est une règle d'implication , qui dit que si vous avez la Prémisse
A
vous pouvez conclureB
:A=>B
, mais si vous n'avez pasA
, vous pouvez soit avoirB
ou nonB
, et les deux cas sont vrais , c'est l'un des principes de base de l'inférence / déduction logique (la règle Modus Ponens). En d'autres termes, si vous violez les prémisses, le résultat n'a pas d'importance et vous ne pouvez rien en déduire .Rappelez-vous le tableau binaire d'implication:
Donc, dans votre cas, pour simplifier, vous avez
Dependent_Variables => ANOVA_correct
. Maintenant, si vous utilisez des variables indépendantes, ce quiDependent_Variables
estFalse
, l'implication sera vrai, puisque l'Dependent_Variables
hypothèse est violée.Bien sûr, cela est simpliste, et dans la pratique, votre test ANOVA peut toujours renvoyer des résultats utiles car il y a presque toujours un certain degré d'indépendance entre les variables dépendantes, mais cela vous donne l'idée pourquoi vous ne pouvez pas simplement vous fier au test sans remplir les hypothèses .
Cependant, vous pouvez également utiliser des tests dont les prémisses ne sont pas satisfaites par l'original en réduisant votre problème: en relâchant explicitement la contrainte d'indépendance, votre résultat peut toujours être significatif, bien que non garanti (car alors vos résultats s'appliquent au problème réduit, pas au problème complet, vous ne pouvez donc pas traduire tous les résultats sauf si vous pouvez prouver que les contraintes supplémentaires du nouveau problème n'ont pas d'impact sur votre test et donc sur vos résultats).
Dans la pratique, cela est souvent utilisé pour modéliser des données pratiques, en utilisant par exemple Naive Bayes, en modélisant des variables dépendantes (au lieu d'indépendantes) en utilisant un modèle qui suppose des variables indépendantes et, étonnamment, cela fonctionne souvent très bien, et parfois mieux que les modèles comptables pour les dépendances . Vous pouvez également être intéressé par cette question sur la façon d'utiliser l'ANOVA lorsque les données ne répondent pas exactement à toutes les attentes .
Pour résumer: si vous avez l'intention de travailler sur des données pratiques et que votre objectif n'est pas de prouver un résultat scientifique mais de créer un système qui fonctionne simplement (c'est-à-dire un service Web ou toute autre application pratique), l'hypothèse d'indépendance (et peut-être d'autres hypothèses) peut être détendu, mais si vous essayez de déduire / prouver une vérité générale , alors vous devez toujours utiliser des tests que vous pouvez garantir mathématiquement (ou au moins en toute sécurité et de manière prouvable) que vous satisfaites à toutes les prémisses .
la source