Sur l'importance de l'hypothèse iid dans l'apprentissage statistique

54

Dans l’apprentissage statistique, implicitement ou explicitement, on suppose toujours que l’apprentissage ={X,y} est composé de N tuples d’entrée / réponse qui sont indépendamment tirés du même joint distribution avec(Xje,yje) P(X,y)

p(X,y)=p(y|X)p(X)

et la relation que nous essayons de capturer via un algorithme d'apprentissage particulier. Mathématiquement, cette hypothèse de iid écrit:p(y|X)

(Xje,yje)~P(X,y),je=1,...,N(Xje,yje) indépendant de (Xj,yj),jej{1,...,N}

Je pense que nous pouvons tous convenir que cette hypothèse est rarement satisfaite dans la pratique, voir cette question SE et les commentaires judicieux de @Glen_b et @Luca.

Ma question est donc:

Où exactement l'hypothèse iid devient-elle critique dans la pratique?

[Le contexte]

Je pose cette question parce que je peux penser à de nombreuses situations dans lesquelles une hypothèse aussi stricte n'est pas nécessaire pour former un certain modèle (par exemple, des méthodes de régression linéaire), ou au moins une possibilité de contourner l'hypothèse iid et d'obtenir des résultats robustes. En fait, les résultats resteront généralement les mêmes. Ce sont plutôt les inférences que l’on peut tirer qui changent (par exemple, les estimateurs HAC cohérents en hétérocédasticité et autocorrélation dans la régression linéaire: l’idée est de réutiliser les bonnes anciennes pondérations de régression MCO mais d’adapter le comportement de l'échantillon fini de l'estimateur MCO pour tenir compte de la violation des hypothèses de Gauss-Markov).

Mon hypothèse est donc que l'hypothèse initiale est nécessaire pour ne pas pouvoir former un algorithme d'apprentissage particulier, mais plutôt pour garantir que des techniques telles que la validation croisée puissent effectivement être utilisées pour déduire une mesure fiable de la capacité du modèle à bien généraliser , C’est la seule chose qui nous intéresse au bout du compte en matière d’apprentissage statistique, car elle montre que nous pouvons en effet tirer des enseignements des données. Intuitivement, je peux effectivement comprendre que l’utilisation de la validation croisée sur des données dépendantes pourrait être biaisée de manière optimiste (comme illustré / expliqué dans cet intéressant exemple ).

Pour moi, iid n'a donc rien à voir avec la formation d' un modèle particulier mais tout à voir avec la généralisabilité de ce modèle . Cela semble être en accord avec un article que j'ai trouvé par Huan Xu et al. Voir "Robustesse et généralisabilité pour les échantillons markoviens" ici .

Serais-tu d'accord avec ça?

[Exemple]

Si cela peut aider la discussion, considérez le problème de l’utilisation de l’algorithme LASSO pour effectuer une sélection intelligente parmi caractéristiques données à échantillons d’entraînement avec Nous pouvons en outre supposer que:N ( X i , Y i ) i = 1 , . . . , N X i = [ X i 1 , . . . , X i P ]PN(Xje,yje)je=1,...,N

Xje=[Xje1,...,XjeP]
  • Les entrées sont dépendantes, entraînant ainsi une violation de l'hypothèse iid (par exemple, pour chaque caractéristique nous observons une série temporelle à points, introduisant par conséquent une auto-corrélation temporelle)j=1,. . ,PNXjej=1,..,PN
  • Les réponses conditionnelles sont indépendantes.yje|Xje
  • Nous avons .P»N

De quelle manière la violation de l'hypothèse iid peut poser problème dans ce cas en supposant que nous prévoyions de déterminer le coefficient de pénalisation LASSO utilisant une approche de validation croisée (sur l'ensemble de données complet) + une validation croisée imbriquée pour avoir une idée de l'erreur de généralisation de cette stratégie d'apprentissage (nous pouvons laisser de côté la discussion concernant les avantages / inconvénients inhérents au LASSO, sauf si elle est utile).λ

Quantuple
la source
1
Pouvez-vous donner un cadre de référence qui vous intéresse, afin que la discussion ne soit pas trop large sur toute la méthode. Parlons-nous de régression linéaire ici? Ou parlons-nous d'estimation ponctuelle pour les paramètres en utilisant, disons, MLE? Ou parlons-nous du framework CLT?
Greenparker
2
Si vous êtes également en supposant dépendante, puis dans la régression logistique pénalisée, pénalise le journal de vraisemblance. Si les données ne sont pas indépendantes, vous ne pouvez pas écrire le log-vraisemblance joint et ne pouvez donc pas résoudre le problème d'optimisation associé. yje
Greenparker
1
Non, je pense l’inverse: si vous passez rapidement à une hypothèse initiale, vous risquez de ne pas inclure les décalages de , faussement (à des fins telles que l’impartialité, mais nuisant également au pouvoir prédictif) en pensant qu’ils ne sont pas nécessaires. y
Christoph Hanck
3
Je ne suis pas d'accord pour dire que l'hypothèse d'indépendance est "généralement violée". La série chronologique est un cas très particulier - plutôt une exception qu'un exemple typique. Cette hypothèse vous permet de simplifier votre modèle et de construire un modèle plus parcimonieux et cela peut souvent être fait (par exemple, vos cas sont tirés au hasard , de sorte qu'ils peuvent être considérés comme indépendants).
Tim
2
Dans l'exemple, la deuxième balle, l' « s ne devraient pas être assumés sous condition IID Ils peuvent être assumés conditionnellement indépendants, mais on pense la distribution conditionnelle à dépendre de X i , et donc changer avec i . yjeXjeje
NRH

Réponses:

32

L'hypothèse iid sur les couples , i = 1 , , N , est souvent faite en statistique et en apprentissage automatique. Parfois pour une bonne raison, parfois par commodité et parfois simplement parce que nous faisons cette hypothèse. Pour répondre de manière satisfaisante si l'hypothèse est vraiment nécessaire et quelles sont les conséquences si vous ne la faites pas, je finirais facilement par écrire un livre (si vous finissez facilement par faire quelque chose comme ça). Ici, je vais essayer de donner un bref aperçu de ce que je considère être les aspects les plus importants.(Xje,yje)je=1,,N

Une hypothèse fondamentale

Supposons que nous voulions apprendre un modèle de probabilité de donné X , que nous appelons p ( y X ) . Nous ne faisons aucune hypothèse sur ce modèle en tant que prieuré, mais nous supposerons au minimum qu'un tel modèle existe de telle sorte queyXp(y|X)

  • la distribution conditionnelle de étant donné X i est p ( y iX i ) .yjeXjep(yje|Xje)

Ce qu'il convient de noter à propos de cette hypothèse est que la distribution conditionnelle de dépend de i uniquement par le biais de X i . C'est ce qui rend le modèle utile, par exemple pour la prédiction. L’hypothèse est valable comme conséquence de la partie distribuée de manière identique dans l’hypothèse iid, mais elle est plus faible car nous ne faisons aucune hypothèse concernant les X i .yjejeXjeXje

Dans ce qui suit, l'accent sera principalement mis sur le rôle de l'indépendance.

La modélisation

Il existe deux approches principales pour l' apprentissage d' un modèle donné X . Une approche est connue sous le nom de modélisation discriminative et l'autre en tant que modélisation générative .yX

  • Modélisation discriminante : Nous modélisons directement , par exemple un modèle de régression logistique, un réseau de neurones, un arbre ou une forêt aléatoire. L’ hypothèse de modélisation de travail sera généralement que les y i sont conditionnellement indépendants par rapport aux X i , bien que les techniques d’estimation reposant sur le sous-échantillonnage ou l’amorçage soient plus utiles dans le cas du iid ou de l’hypothèse d’échangeable inférieure (voir ci-dessous). Mais en règle générale, pour la modélisation discriminative, nous n'avons pas besoin de faire des hypothèses de répartition sur les X i . p(y|X)yjeXjeXje
  • Modélisation générative : Nous modélisons la distribution conjointe de ( X , y ) généralement en modélisant la distribution conditionnelle p ( Xy ) et la distribution marginale p ( y ) . Nous utilisons ensuite la formule de Bayes pour calculer p ( y X ) . L'analyse discriminante linéaire et les méthodes naïves de Bayes en sont des exemples. L’ hypothèse de travail sera généralement l’hypothèse IID.p(X,y)(X,y)p(X|y)p(y)p(y|X)

Pour les deux approches, l’hypothèse de travail est utilisée pour dériver ou proposer des méthodes d’apprentissage (ou des estimateurs). Cela pourrait être en maximisant la log-vraisemblance (pénalisée), en minimisant le risque empirique ou en utilisant des méthodes bayésiennes. Même si l'hypothèse de modélisation de travail est fausse, la méthode résultante peut toujours fournir un ajustement raisonnable de . p(y|X)

Certaines techniques associées à la modélisation discriminante, telles que l’ensachage (agrégation par bootstrap), consistent à adapter de nombreux modèles aux données échantillonnées de manière aléatoire à partir du jeu de données. Sans l'hypothèse iid (ou l'échangeabilité), les jeux de données rééchantillonnés n'auront pas une distribution conjointe similaire à celle du jeu de données d'origine. Toute structure de dépendance est devenue "gâchée" par le ré-échantillonnage. Je n'y ai pas vraiment réfléchi, mais je ne vois pas pourquoi cela devrait nécessairement casser la méthode en tant que méthode d'apprentissage de . Du moins pas pour les méthodes basées sur les hypothèses d'indépendance de travail. Je suis heureux de me tromper ici.p(y|X)

La cohérence et les limites d'erreur

Une question centrale pour toutes les méthodes d’apprentissage est de savoir si elles aboutissent à des modèles proches de . Il existe une vaste littérature théorique en statistiques et en apprentissage automatique traitant de la cohérence et des limites d'erreur. Un objectif principal de cette littérature est de prouver que le modèle appris est proche de p ( y X ) lorsque N est grand. La cohérence est une assurance qualitative, tandis que les limites d'erreur fournissent un contrôle quantitatif (semi) explicite de la proximité et donnent des taux de convergence.p(y|X)p(y|X)N

Les résultats théoriques reposent tous sur des hypothèses concernant la distribution conjointe des observations dans l'ensemble de données. Les hypothèses de modélisation de travail mentionnées ci-dessus sont souvent formulées (c'est-à-dire indépendance conditionnelle pour la modélisation discriminative et iid pour la modélisation générative). Pour la modélisation discriminative, les limites de cohérence et d'erreur nécessiteront que le remplisse certaines conditions. Dans la régression classique, une telle condition est que 1XjepourN, oùXreprésente la matrice de conception aveclignesX T i . Des conditions plus faibles peuvent suffire à assurer la cohérence. Dans l'apprentissage clairsemé, une autre condition de ce type est la condition de valeur propre restreinte, voir par exempleSur les conditions utilisées pour prouver les résultats d'Oracle pour le lasso. L’hypothèse iid ainsi que certaines hypothèses techniques de distribution impliquent que certaines conditions suffisantes sont remplies avec une probabilité élevée, et donc l’hypothèse iid peut s’avérer être une hypothèse suffisante mais non nécessaire pour obtenir des limites de cohérence et d’erreur pour la modélisation discriminative.1NXTXΣNXXjeT

L'hypothèse de travail de l'indépendance peut être fausse pour l'une ou l'autre des méthodes de modélisation. En règle générale, on peut s'attendre à une cohérence si les données proviennent d'un processus ergodique , et à des limites d'erreur si le processus consiste à mélanger suffisamment rapidement . Une définition mathématique précise de ces concepts nous éloignerait trop de la question principale. Il suffit de noter qu'il existe des structures de dépendance en plus de l'hypothèse iid pour laquelle il est prouvé que les méthodes d'apprentissage fonctionnent, car tend vers l'infini.N

Si nous avons des connaissances plus détaillées sur la structure de dépendance, nous pouvons choisir de remplacer l'hypothèse d'indépendance de travail utilisée pour la modélisation par un modèle qui capture également la structure de dépendance. Ceci est souvent fait pour les séries chronologiques. Un meilleur modèle de travail peut conduire à une méthode plus efficace.

Évaluation du modèle

Plutôt que de prouver que la méthode d'apprentissage donne un modèle proche de il est d'une grande utilité pratique d'obtenir une évaluation (relative) de "la qualité d'un modèle appris". Ces scores d'évaluation sont comparables pour deux modèles appris ou plus, mais ils ne fourniront pas une évaluation absolue de la proximité d'un modèle appris à p ( y X ) . Les estimations des notes d’évaluation sont généralement calculées de manière empirique en divisant l’ensemble de données en un ensemble de données de formation et d’essai, ou en utilisant une validation croisée.p(y|X)p(y|X)

Comme avec la mise en sachet, un fractionnement aléatoire du jeu de données "gâchera" toute structure de dépendance. Toutefois, pour les méthodes basées sur les hypothèses d’indépendance de travail, les hypothèses d’ergodicité plus faibles que iid devraient suffire pour que les estimations de l’évaluation soient raisonnables, bien que les erreurs-types de ces estimations soient très difficiles à obtenir.

[ Edit: La dépendance entre les variables aura pour résultat une distribution du modèle appris différente de la distribution sous l'hypothèse iid. L'estimation produite par la validation croisée n'est pas évidemment liée à l'erreur de généralisation. Si la dépendance est forte, l'estimation sera probablement mauvaise.]

Résumé (tl; dr)

Tout ce qui précède repose sur l'hypothèse qu'il existe un modèle de probabilité conditionnelle fixe, . Par conséquent , il ne peut y avoir des tendances ou des changements brusques de la distribution conditionnelle non capturés par X .p(y|X)X

En apprenant un modèle de donné X , l'indépendance joue un rôle en tant queyX

  • une hypothèse de travail utile qui nous permet de dériver des méthodes d'apprentissage
  • hypothèse suffisante mais non nécessaire pour prouver la cohérence et établir des limites d'erreur
  • hypothèse suffisante mais non nécessaire pour utiliser des techniques de fractionnement aléatoire des données telles que la mise en sac pour l’apprentissage et la validation croisée pour l’évaluation.

Comprendre précisément quelles alternatives à iI qui sont également suffisantes est un sujet de recherche non trivial.

NRH
la source
2
C'est une réponse extrêmement soignée. C'est parfait et me donne assez de références pour l'auto-apprentissage, merci beaucoup pour cela @NRH je suis ravi. Je laisserai simplement la prime pour encourager d'autres réponses à la question, mais je l'ai déjà indiquée comme étant la réponse acceptée, car elle répond merveilleusement à toutes mes préoccupations initiales.
Quantuple
10

L’ hypothèse retenue est que les variables aléatoires sont indépendantes et distribuées de manière identique . Vous pouvez définir formellement ce que cela signifie, mais de manière informelle, il est indiqué que toutes les variables fournissent le même type d'informations indépendamment les unes des autres (vous pouvez également en savoir plus sur les possibilités d' échange connexes ).

Des idées abstraites, passons un instant aux exemples concrets: dans la plupart des cas, vos données peuvent être stockées dans une matrice, avec des observations rangées et des variables rangées. Si vous supposez que vos données sont idiotes , cela signifie que vous devez vous préoccuper uniquement des relations entre les colonnes et ne pas vous soucier des relations entre les lignes. Si vous vous préoccupez des deux, vous modéliserez la dépendance des colonnes et les lignes, des lignes, c'est-à-dire de tout. Il est très difficile de faire des simplifications et de construire un modèle statistique de tout en fonction de tout.

Vous avez bien remarqué que l’exchangeabilité nous permettait d’utiliser des méthodes telles que la validation croisée ou le bootstrap, mais elle permettait également d’utiliser le théorème de la limite centrale et nous permettait de rendre les simplifications utiles à la modélisation ).

Comme vous l'avez remarqué dans l'exemple LASSO, l'hypothèse d'indépendance est souvent assouplie pour devenir une indépendance conditionnelle . Même dans ce cas, nous avons besoin de "parties" indépendantes et identiques. Des hypothèses similaires, plus souples, sont souvent faites pour les modèles de séries chronologiques, que vous avez mentionnés, qui supposent la stationnarité (il existe donc une dépendance, mais il existe également une distribution commune et la série se stabilise dans le temps - encore des parties "iid"). Il s'agit d'observer un certain nombre de choses similaires qui portent la même idée à propos d'un phénomène général. Si nous avons un certain nombre de choses distinctes et dépendantes, nous ne pouvons pas généraliser.

Ce qu'il ne faut pas oublier, c'est qu'il ne s'agit que d' une hypothèse. Nous ne sommes pas stricts à ce sujet. Il s'agit de disposer de suffisamment d'éléments pour que tous, indépendamment, transmettent des informations similaires sur un phénomène courant. Si les choses s'influençaient mutuellement, elles transmettraient évidemment des informations similaires, de sorte qu'elles ne seraient pas si utiles.

Imaginez que vous vouliez en savoir plus sur les capacités des enfants dans une classe, alors vous leur faites passer des tests. Vous pouvez utiliser les résultats du test comme indicateur des capacités des enfants uniquement s'ils les ont exécutés seuls, indépendamment les uns des autres. S'ils interagissaient, vous mesureriez probablement les capacités du plus intelligent des enfants, ou du plus influent. Cela ne signifie pas que vous devez supposer qu'il n'y a eu aucune interaction ou dépendance entre les enfants, mais simplement qu'ils ont fait les tests eux-mêmes. Les enfants doivent également être "identiquement distribués", ils ne peuvent donc pas venir de pays différents, parler différentes langues, être de différents âges, car il sera difficile d'interpréter les résultats (peut-être n'ont-ils pas compris les questions et répondu au hasard). Si vous pouvez supposer que vos données sont iidalors vous pouvez vous concentrer sur la construction d'un modèle général. Vous pouvez traiter des données non iid , mais vous devez alors vous soucier davantage du "bruit" dans vos données.


Outre votre question principale, vous parlez également de la validation croisée avec des données non iid . Alors que vous semblez sous - estimer l'importance de IID hypothèse, en même temps que vous surestiment les problèmes de ne pas répondre à cette pose des hypothèses pour la validation croisée. Il existe de nombreuses façons de traiter de telles données lorsque vous utilisez des méthodes de rééchantillonnage telles que le bootstrap ou la validation croisée. Si vous utilisez des séries chronologiques, vous ne pouvez pas supposer que les valeurs sont indépendantes. Il serait donc mauvais de prendre la fraction aléatoire de valeurs, car cela ignorerait la structure autocorrélée des données. Pour cette raison, nous utilisons couramment des séries chronologiques validation croisée à une longueur d'avance., c’est-à-dire que vous prenez une partie de la série pour prédire la valeur suivante (non utilisée pour la modélisation). De même, si vos données ont structure en cluster , vous échantillonnez des clusters entiers afin de préserver la nature des données. Donc , comme pour la modélisation, nous pouvons traiter non IID -sness également lorsque vous faites la validation croisée, mais nous devons adapter nos méthodes à la nature des données depuis des méthodes conçues pour iid les données ne sont pas applicables dans ce cas.

Tim
la source
yi|XiXje
(ctd) ... En d'autres termes, bien que votre réponse jette un peu de lumière sur le concept iid, j'aimerais en savoir plus sur une base technique: quand cela est violé, quels en sont les effets?
Quantuple
@Quantuple, vous utilisez alors des méthodes pour les données non iid, par exemple, dans une série chronologique, échantillonnez des blocs de données entiers dans bootstrap, etc.
Tim
Merci encore. Je me souviens en effet avoir lu quelque part de telles techniques. Existe-t-il une source qui discute de toutes les méthodes potentielles? Je viens de tomber sur le document de C. Bergmeir, R. Hyndman, B. Koo "Une note sur la validité de la validation croisée pour évaluer la prévision de séries chronologiques" que je vais essayer de lire au plus vite.
Quantuple
1
@Quantuple check classic "Une introduction au bootstrap" de Efron et Tibshirani et "Bootstrap Methods et leur application" de Davison et Hinkley pour en savoir plus sur le bootstrap (les mêmes idées s'appliquent à la validation croisée); Les manuels de séries chronologiques décrivent comment utiliser la validation croisée et l'amorçage pour de telles données (c'est-à-dire une validation croisée à l'avance). Vérifiez aussi mon édition.
Tim
3

Le seul endroit où on peut ignorer iid en toute sécurité est dans les statistiques de premier cycle et les cours de machine learning. Vous avez écrit ça:

on peut contourner l'hypothèse iid et obtenir des résultats robustes. En réalité, les résultats resteront généralement les mêmes, ce sont plutôt les déductions que l'on peut tirer qui vont changer ...

Cela n’est vrai que si la forme fonctionnelle des modèles est supposée être fondamentalement correcte. Mais, une telle hypothèse est encore moins plausible que iid.

Il y a au moins deux raisons pour lesquelles iid est d'une importance cruciale en termes de modélisation appliquée:

  1. C'est une hypothèse explicite dans la plupart des déductions statistiques, comme vous le notez dans votre question. Dans la plupart des modélisations du monde réel, nous devons utiliser l'inférence pour tester la spécification, par exemple lors de la sélection de variables et de la comparaison de modèles. Ainsi, bien que chaque modèle puisse s’avérer correct malgré les violations d’id, vous pouvez quand même choisir le mauvais modèle.

  2. Je trouve que le fait de penser aux violations de iid est un moyen utile de réfléchir au mécanisme de génération de données, ce qui m’aide à mon tour à réfléchir à la spécification appropriée d’un modèle a priori. Deux exemples:

    • Si les données sont regroupées, cela constitue une violation de iid. Un remède à cela peut être un modèle de mélange. L'inférence que je vais tirer d'un modèle de mélange est généralement complètement différente de celle que je tire de MCO.
    • Des relations non linéaires entre les variables dépendantes et indépendantes apparaissent souvent lors de l'inspection des résidus dans le cadre de la recherche des informations.

Bien sûr, dans presque tous les modèles que j'ai jamais construits, ma tentative de réduire la distribution des résidus à une distribution proche d'une distribution vraiment normale a échoué. Mais néanmoins, je gagne toujours beaucoup en essayant vraiment, vraiment, difficile de le faire.

Tim
la source
Merci pour votre réponse qui est très perspicace. Dans la dernière phrase de (1), voulez-vous dire que vous pouvez avoir plusieurs modèles avec un ajustement décent aux données observées, mais que lorsque vous utiliserez des techniques de sélection de modèle standard (par exemple, la validation croisée), vous ne pourrez pas choisir le meilleur ( en termes de généralisabilité) parce que l'inférence que vous tirez sera biaisée en raison de la violation d'IID? (2) Il me semble que vous parlez de résidus IID dans le cadre d'une spécification fonctionnelle (par exemple des résidus de régression) qui n'invalide pas ce que vous écrivez (suite) ...
Quantuple
(suite) ... mais la question initiale concernait des exemples d'apprentissage non iid (x, y) non des résidus non iid après l'estimation d'un modèle. Je suppose que ma question pourrait être la suivante: lorsque vous avez des exemples de formation autres que IDI (par exemple, des séries chronologiques), devez-vous ajouter une étape de prétraitement pour les rendre IDI? Si vous ne le faites pas et que vous appliquez la procédure standard pour estimer / valider votre modèle, quelle est la mise en garde?
Quantuple
1
Lorsque vous avez des exemples d’entraînement autres que iid, l’idée est de trouver un modèle prenant en compte la nature non-iid et produisant des résidus qui sont iid. Bien qu'il existe des problèmes pour lesquels il est judicieux de prétraiter les données (par exemple, des transformations de variables dans une régression linéaire), de nombreux problèmes iid sont mieux résolus en trouvant un modèle qui traite explicitement le problème iid. Par exemple, fonctions de transfert dans une série chronologique ou modèles hiérarchiques dans des données transversales.
Tim
Je conviens avec le fait que, comme les données de séries chronologiques présentent généralement une forme de dépendance, il est naturel de chercher à capturer cette information au moyen de modèles statistiques adaptés à cette fin, par exemple les fonctions de transfert. C'est en ce qui concerne la formation. Maintenant, en ce qui concerne la validation croisée (CV), je suppose que j’ai également besoin de méthodes spéciales pour tenir compte de la non-divulgation? Je veux dire que l'utilisation de fonctions de transfert n'a pas changé le fait que mes données ne sont pas iid en premier lieu. Existe-t-il une liste de ces méthodes spéciales quelque part? Quelle est l'ampleur du biais optimiste lors de l'utilisation de la méthode CV standard avec des données non iid?
Quantuple
1
Cela dépend de la nature de la méthode de validation croisée et du problème. Je pense que l'astuce consiste à utiliser des méthodes de validation croisée qui ne sont pas implicitement structurées autour de iid. Par exemple, un jacknife aurait peu de sens. Mais scinder l'échantillon en échantillons d'estimation, de test et de validation le ferait probablement. Mais c’est vraiment une question différente de votre question initiale et ce n’est pas mon domaine de compétence.
Tim
2

À mon avis, l’hypothèse IID est importante pour l’apprentissage statistique (ou les statistiques en général) pour deux raisons plutôt banales.

  1. Beaucoup de mathématiques en coulisse dépendent de cette hypothèse. Si vous voulez prouver que votre méthode d'apprentissage fonctionne réellement pour plus d'un ensemble de données, cette hypothèse apparaîtra à terme. Il est possible de l'éviter, mais les mathématiques deviennent plusieurs fois plus difficiles.

  2. Si vous voulez apprendre quelque chose à partir de données, vous devez supposer qu'il y a quelque chose à apprendre. L'apprentissage est impossible si chaque point de données est généré par un mécanisme différent. Il est donc essentiel de supposer que quelque chose unifie un ensemble de données donné. Si nous supposons que les données sont aléatoires, il s’agit naturellement d’une distribution de probabilité, car celle-ci englobe toutes les informations relatives à la variable aléatoire.

    X1,...,XnXjeFn

    (X1,...,Xn)~Fn.

    FnFmnmnFnFnnFn=Fn,Xje~FFnFmnF

mpiktas
la source
XyX
(ctd) ... mais comme vous l'avez dit dans votre premier point, l'hypothèse des exemples de formation idoine reviendra lorsque nous examinerons les propriétés de généralisation du LASSO. Ce qui serait bien (et ce que je recherche désespérément, je suppose) est une explication technique simple / de référence qui montre comment la violation de l’hypothèse iid introduit un biais optimiste dans l’estimateur de validation croisée, par exemple.
Quantuple
yje=α+β1X1je+εjeje=1,...,n/2yje=α+β2X2je+εjeje=n/2+1,...,nX1jeX2je
je=1,...,n/2je=n/2+1,...,n
XE[y|X]
1

Je tiens à souligner que, dans certaines circonstances, les données ne sont pas utiles et l’apprentissage statistique est encore possible. Il est essentiel d’avoir un modèle identifiable pour la distribution conjointe de toutes les observations; si les observations sont initiales, cette distribution conjointe s'obtient facilement à partir de la distribution marginale d'observations uniques. Mais dans certains cas, la distribution conjointe est donnée directement, sans recourir à une distribution marginale.

Un modèle largement utilisé dans lequel les observations ne sont pas iid est le modèle linéaire mixte:

Y=Xα+Zvous+ε
YRnXRn×pαRpZRn×qvousRqεRnXZαvousvous~N(0,τjeq)ε~N(0,σ2jen)τσ2

Y

Y~N(Xα,τZZ+σ2jen).
ατσ2Yn
Elvis
la source