Dans l’apprentissage statistique, implicitement ou explicitement, on suppose toujours que l’apprentissage est composé de tuples d’entrée / réponse qui sont indépendamment tirés du même joint distribution avec
et la relation que nous essayons de capturer via un algorithme d'apprentissage particulier. Mathématiquement, cette hypothèse de iid écrit:
Je pense que nous pouvons tous convenir que cette hypothèse est rarement satisfaite dans la pratique, voir cette question SE et les commentaires judicieux de @Glen_b et @Luca.
Ma question est donc:
Où exactement l'hypothèse iid devient-elle critique dans la pratique?
[Le contexte]
Je pose cette question parce que je peux penser à de nombreuses situations dans lesquelles une hypothèse aussi stricte n'est pas nécessaire pour former un certain modèle (par exemple, des méthodes de régression linéaire), ou au moins une possibilité de contourner l'hypothèse iid et d'obtenir des résultats robustes. En fait, les résultats resteront généralement les mêmes. Ce sont plutôt les inférences que l’on peut tirer qui changent (par exemple, les estimateurs HAC cohérents en hétérocédasticité et autocorrélation dans la régression linéaire: l’idée est de réutiliser les bonnes anciennes pondérations de régression MCO mais d’adapter le comportement de l'échantillon fini de l'estimateur MCO pour tenir compte de la violation des hypothèses de Gauss-Markov).
Mon hypothèse est donc que l'hypothèse initiale est nécessaire pour ne pas pouvoir former un algorithme d'apprentissage particulier, mais plutôt pour garantir que des techniques telles que la validation croisée puissent effectivement être utilisées pour déduire une mesure fiable de la capacité du modèle à bien généraliser , C’est la seule chose qui nous intéresse au bout du compte en matière d’apprentissage statistique, car elle montre que nous pouvons en effet tirer des enseignements des données. Intuitivement, je peux effectivement comprendre que l’utilisation de la validation croisée sur des données dépendantes pourrait être biaisée de manière optimiste (comme illustré / expliqué dans cet intéressant exemple ).
Pour moi, iid n'a donc rien à voir avec la formation d' un modèle particulier mais tout à voir avec la généralisabilité de ce modèle . Cela semble être en accord avec un article que j'ai trouvé par Huan Xu et al. Voir "Robustesse et généralisabilité pour les échantillons markoviens" ici .
Serais-tu d'accord avec ça?
[Exemple]
Si cela peut aider la discussion, considérez le problème de l’utilisation de l’algorithme LASSO pour effectuer une sélection intelligente parmi caractéristiques données à échantillons d’entraînement avec Nous pouvons en outre supposer que:N ( X i , Y i ) ∀ i = 1 , . . . , N X i = [ X i 1 , . . . , X i P ]
- Les entrées sont dépendantes, entraînant ainsi une violation de l'hypothèse iid (par exemple, pour chaque caractéristique nous observons une série temporelle à points, introduisant par conséquent une auto-corrélation temporelle)j=1,. . ,PN
- Les réponses conditionnelles sont indépendantes.
- Nous avons .
De quelle manière la violation de l'hypothèse iid peut poser problème dans ce cas en supposant que nous prévoyions de déterminer le coefficient de pénalisation LASSO utilisant une approche de validation croisée (sur l'ensemble de données complet) + une validation croisée imbriquée pour avoir une idée de l'erreur de généralisation de cette stratégie d'apprentissage (nous pouvons laisser de côté la discussion concernant les avantages / inconvénients inhérents au LASSO, sauf si elle est utile).
Réponses:
L'hypothèse iid sur les couples , i = 1 , … , N , est souvent faite en statistique et en apprentissage automatique. Parfois pour une bonne raison, parfois par commodité et parfois simplement parce que nous faisons cette hypothèse. Pour répondre de manière satisfaisante si l'hypothèse est vraiment nécessaire et quelles sont les conséquences si vous ne la faites pas, je finirais facilement par écrire un livre (si vous finissez facilement par faire quelque chose comme ça). Ici, je vais essayer de donner un bref aperçu de ce que je considère être les aspects les plus importants.(Xi,yi) i=1,…,N
Une hypothèse fondamentale
Supposons que nous voulions apprendre un modèle de probabilité de donné X , que nous appelons p ( y ∣ X ) . Nous ne faisons aucune hypothèse sur ce modèle en tant que prieuré, mais nous supposerons au minimum qu'un tel modèle existe de telle sorte quey X p ( y∣ X )
Ce qu'il convient de noter à propos de cette hypothèse est que la distribution conditionnelle de dépend de i uniquement par le biais de X i . C'est ce qui rend le modèle utile, par exemple pour la prédiction. L’hypothèse est valable comme conséquence de la partie distribuée de manière identique dans l’hypothèse iid, mais elle est plus faible car nous ne faisons aucune hypothèse concernant les X i .yje je Xje Xje
Dans ce qui suit, l'accent sera principalement mis sur le rôle de l'indépendance.
La modélisation
Il existe deux approches principales pour l' apprentissage d' un modèle donné X . Une approche est connue sous le nom de modélisation discriminative et l'autre en tant que modélisation générative .y X
Pour les deux approches, l’hypothèse de travail est utilisée pour dériver ou proposer des méthodes d’apprentissage (ou des estimateurs). Cela pourrait être en maximisant la log-vraisemblance (pénalisée), en minimisant le risque empirique ou en utilisant des méthodes bayésiennes. Même si l'hypothèse de modélisation de travail est fausse, la méthode résultante peut toujours fournir un ajustement raisonnable de .p ( y∣ X )
Certaines techniques associées à la modélisation discriminante, telles que l’ensachage (agrégation par bootstrap), consistent à adapter de nombreux modèles aux données échantillonnées de manière aléatoire à partir du jeu de données. Sans l'hypothèse iid (ou l'échangeabilité), les jeux de données rééchantillonnés n'auront pas une distribution conjointe similaire à celle du jeu de données d'origine. Toute structure de dépendance est devenue "gâchée" par le ré-échantillonnage. Je n'y ai pas vraiment réfléchi, mais je ne vois pas pourquoi cela devrait nécessairement casser la méthode en tant que méthode d'apprentissage de . Du moins pas pour les méthodes basées sur les hypothèses d'indépendance de travail. Je suis heureux de me tromper ici.p ( y∣ X )
La cohérence et les limites d'erreur
Une question centrale pour toutes les méthodes d’apprentissage est de savoir si elles aboutissent à des modèles proches de . Il existe une vaste littérature théorique en statistiques et en apprentissage automatique traitant de la cohérence et des limites d'erreur. Un objectif principal de cette littérature est de prouver que le modèle appris est proche de p ( y ∣ X ) lorsque N est grand. La cohérence est une assurance qualitative, tandis que les limites d'erreur fournissent un contrôle quantitatif (semi) explicite de la proximité et donnent des taux de convergence.p ( y∣ X ) p ( y∣ X ) N
Les résultats théoriques reposent tous sur des hypothèses concernant la distribution conjointe des observations dans l'ensemble de données. Les hypothèses de modélisation de travail mentionnées ci-dessus sont souvent formulées (c'est-à-dire indépendance conditionnelle pour la modélisation discriminative et iid pour la modélisation générative). Pour la modélisation discriminative, les limites de cohérence et d'erreur nécessiteront que le remplisse certaines conditions. Dans la régression classique, une telle condition est que 1Xje pourN→∞, oùXreprésente la matrice de conception aveclignesX T i . Des conditions plus faibles peuvent suffire à assurer la cohérence. Dans l'apprentissage clairsemé, une autre condition de ce type est la condition de valeur propre restreinte, voir par exempleSur les conditions utilisées pour prouver les résultats d'Oracle pour le lasso. L’hypothèse iid ainsi que certaines hypothèses techniques de distribution impliquent que certaines conditions suffisantes sont remplies avec une probabilité élevée, et donc l’hypothèse iid peut s’avérer être une hypothèse suffisante mais non nécessaire pour obtenir des limites de cohérence et d’erreur pour la modélisation discriminative.1NXTX →Σ N→ ∞ X XTje
L'hypothèse de travail de l'indépendance peut être fausse pour l'une ou l'autre des méthodes de modélisation. En règle générale, on peut s'attendre à une cohérence si les données proviennent d'un processus ergodique , et à des limites d'erreur si le processus consiste à mélanger suffisamment rapidement . Une définition mathématique précise de ces concepts nous éloignerait trop de la question principale. Il suffit de noter qu'il existe des structures de dépendance en plus de l'hypothèse iid pour laquelle il est prouvé que les méthodes d'apprentissage fonctionnent, car tend vers l'infini.N
Si nous avons des connaissances plus détaillées sur la structure de dépendance, nous pouvons choisir de remplacer l'hypothèse d'indépendance de travail utilisée pour la modélisation par un modèle qui capture également la structure de dépendance. Ceci est souvent fait pour les séries chronologiques. Un meilleur modèle de travail peut conduire à une méthode plus efficace.
Évaluation du modèle
Plutôt que de prouver que la méthode d'apprentissage donne un modèle proche de il est d'une grande utilité pratique d'obtenir une évaluation (relative) de "la qualité d'un modèle appris". Ces scores d'évaluation sont comparables pour deux modèles appris ou plus, mais ils ne fourniront pas une évaluation absolue de la proximité d'un modèle appris à p ( y ∣ X ) . Les estimations des notes d’évaluation sont généralement calculées de manière empirique en divisant l’ensemble de données en un ensemble de données de formation et d’essai, ou en utilisant une validation croisée.p ( y∣ X ) p ( y∣ X )
Comme avec la mise en sachet, un fractionnement aléatoire du jeu de données "gâchera" toute structure de dépendance. Toutefois, pour les méthodes basées sur les hypothèses d’indépendance de travail, les hypothèses d’ergodicité plus faibles que iid devraient suffire pour que les estimations de l’évaluation soient raisonnables, bien que les erreurs-types de ces estimations soient très difficiles à obtenir.
[ Edit: La dépendance entre les variables aura pour résultat une distribution du modèle appris différente de la distribution sous l'hypothèse iid. L'estimation produite par la validation croisée n'est pas évidemment liée à l'erreur de généralisation. Si la dépendance est forte, l'estimation sera probablement mauvaise.]
Résumé (tl; dr)
Tout ce qui précède repose sur l'hypothèse qu'il existe un modèle de probabilité conditionnelle fixe, . Par conséquent , il ne peut y avoir des tendances ou des changements brusques de la distribution conditionnelle non capturés par X .p ( y∣ X ) X
En apprenant un modèle de donné X , l'indépendance joue un rôle en tant quey X
Comprendre précisément quelles alternatives à iI qui sont également suffisantes est un sujet de recherche non trivial.
la source
L’ hypothèse retenue est que les variables aléatoires sont indépendantes et distribuées de manière identique . Vous pouvez définir formellement ce que cela signifie, mais de manière informelle, il est indiqué que toutes les variables fournissent le même type d'informations indépendamment les unes des autres (vous pouvez également en savoir plus sur les possibilités d' échange connexes ).
Des idées abstraites, passons un instant aux exemples concrets: dans la plupart des cas, vos données peuvent être stockées dans une matrice, avec des observations rangées et des variables rangées. Si vous supposez que vos données sont idiotes , cela signifie que vous devez vous préoccuper uniquement des relations entre les colonnes et ne pas vous soucier des relations entre les lignes. Si vous vous préoccupez des deux, vous modéliserez la dépendance des colonnes et les lignes, des lignes, c'est-à-dire de tout. Il est très difficile de faire des simplifications et de construire un modèle statistique de tout en fonction de tout.
Vous avez bien remarqué que l’exchangeabilité nous permettait d’utiliser des méthodes telles que la validation croisée ou le bootstrap, mais elle permettait également d’utiliser le théorème de la limite centrale et nous permettait de rendre les simplifications utiles à la modélisation ).
Comme vous l'avez remarqué dans l'exemple LASSO, l'hypothèse d'indépendance est souvent assouplie pour devenir une indépendance conditionnelle . Même dans ce cas, nous avons besoin de "parties" indépendantes et identiques. Des hypothèses similaires, plus souples, sont souvent faites pour les modèles de séries chronologiques, que vous avez mentionnés, qui supposent la stationnarité (il existe donc une dépendance, mais il existe également une distribution commune et la série se stabilise dans le temps - encore des parties "iid"). Il s'agit d'observer un certain nombre de choses similaires qui portent la même idée à propos d'un phénomène général. Si nous avons un certain nombre de choses distinctes et dépendantes, nous ne pouvons pas généraliser.
Ce qu'il ne faut pas oublier, c'est qu'il ne s'agit que d' une hypothèse. Nous ne sommes pas stricts à ce sujet. Il s'agit de disposer de suffisamment d'éléments pour que tous, indépendamment, transmettent des informations similaires sur un phénomène courant. Si les choses s'influençaient mutuellement, elles transmettraient évidemment des informations similaires, de sorte qu'elles ne seraient pas si utiles.
Imaginez que vous vouliez en savoir plus sur les capacités des enfants dans une classe, alors vous leur faites passer des tests. Vous pouvez utiliser les résultats du test comme indicateur des capacités des enfants uniquement s'ils les ont exécutés seuls, indépendamment les uns des autres. S'ils interagissaient, vous mesureriez probablement les capacités du plus intelligent des enfants, ou du plus influent. Cela ne signifie pas que vous devez supposer qu'il n'y a eu aucune interaction ou dépendance entre les enfants, mais simplement qu'ils ont fait les tests eux-mêmes. Les enfants doivent également être "identiquement distribués", ils ne peuvent donc pas venir de pays différents, parler différentes langues, être de différents âges, car il sera difficile d'interpréter les résultats (peut-être n'ont-ils pas compris les questions et répondu au hasard). Si vous pouvez supposer que vos données sont iidalors vous pouvez vous concentrer sur la construction d'un modèle général. Vous pouvez traiter des données non iid , mais vous devez alors vous soucier davantage du "bruit" dans vos données.
Outre votre question principale, vous parlez également de la validation croisée avec des données non iid . Alors que vous semblez sous - estimer l'importance de IID hypothèse, en même temps que vous surestiment les problèmes de ne pas répondre à cette pose des hypothèses pour la validation croisée. Il existe de nombreuses façons de traiter de telles données lorsque vous utilisez des méthodes de rééchantillonnage telles que le bootstrap ou la validation croisée. Si vous utilisez des séries chronologiques, vous ne pouvez pas supposer que les valeurs sont indépendantes. Il serait donc mauvais de prendre la fraction aléatoire de valeurs, car cela ignorerait la structure autocorrélée des données. Pour cette raison, nous utilisons couramment des séries chronologiques validation croisée à une longueur d'avance., c’est-à-dire que vous prenez une partie de la série pour prédire la valeur suivante (non utilisée pour la modélisation). De même, si vos données ont structure en cluster , vous échantillonnez des clusters entiers afin de préserver la nature des données. Donc , comme pour la modélisation, nous pouvons traiter non IID -sness également lorsque vous faites la validation croisée, mais nous devons adapter nos méthodes à la nature des données depuis des méthodes conçues pour iid les données ne sont pas applicables dans ce cas.
la source
Le seul endroit où on peut ignorer iid en toute sécurité est dans les statistiques de premier cycle et les cours de machine learning. Vous avez écrit ça:
Cela n’est vrai que si la forme fonctionnelle des modèles est supposée être fondamentalement correcte. Mais, une telle hypothèse est encore moins plausible que iid.
Il y a au moins deux raisons pour lesquelles iid est d'une importance cruciale en termes de modélisation appliquée:
C'est une hypothèse explicite dans la plupart des déductions statistiques, comme vous le notez dans votre question. Dans la plupart des modélisations du monde réel, nous devons utiliser l'inférence pour tester la spécification, par exemple lors de la sélection de variables et de la comparaison de modèles. Ainsi, bien que chaque modèle puisse s’avérer correct malgré les violations d’id, vous pouvez quand même choisir le mauvais modèle.
Je trouve que le fait de penser aux violations de iid est un moyen utile de réfléchir au mécanisme de génération de données, ce qui m’aide à mon tour à réfléchir à la spécification appropriée d’un modèle a priori. Deux exemples:
Bien sûr, dans presque tous les modèles que j'ai jamais construits, ma tentative de réduire la distribution des résidus à une distribution proche d'une distribution vraiment normale a échoué. Mais néanmoins, je gagne toujours beaucoup en essayant vraiment, vraiment, difficile de le faire.
la source
À mon avis, l’hypothèse IID est importante pour l’apprentissage statistique (ou les statistiques en général) pour deux raisons plutôt banales.
Beaucoup de mathématiques en coulisse dépendent de cette hypothèse. Si vous voulez prouver que votre méthode d'apprentissage fonctionne réellement pour plus d'un ensemble de données, cette hypothèse apparaîtra à terme. Il est possible de l'éviter, mais les mathématiques deviennent plusieurs fois plus difficiles.
Si vous voulez apprendre quelque chose à partir de données, vous devez supposer qu'il y a quelque chose à apprendre. L'apprentissage est impossible si chaque point de données est généré par un mécanisme différent. Il est donc essentiel de supposer que quelque chose unifie un ensemble de données donné. Si nous supposons que les données sont aléatoires, il s’agit naturellement d’une distribution de probabilité, car celle-ci englobe toutes les informations relatives à la variable aléatoire.
la source
Je tiens à souligner que, dans certaines circonstances, les données ne sont pas utiles et l’apprentissage statistique est encore possible. Il est essentiel d’avoir un modèle identifiable pour la distribution conjointe de toutes les observations; si les observations sont initiales, cette distribution conjointe s'obtient facilement à partir de la distribution marginale d'observations uniques. Mais dans certains cas, la distribution conjointe est donnée directement, sans recourir à une distribution marginale.
Un modèle largement utilisé dans lequel les observations ne sont pas iid est le modèle linéaire mixte:
la source