Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

8

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification):

id, age, income, gender, job category, monthly spend

dans laquelle se monthly spendtrouve la variable de réponse. Mais l'ensemble de données d'apprentissage contient environ 3 millions de lignes, et l'ensemble de données (qui contient id, age, income, gender, job categorymais pas de variable de réponse) à prévoir contient 1 million de lignes. Ma question est: y a-t-il des problèmes potentiels si je jette trop de lignes (3 millions dans ce cas) dans un modèle statistique? Je comprends que les dépenses de calcul sont l'une des préoccupations, y a-t-il d'autres préoccupations? Existe-t-il des livres / articles qui expliquent pleinement le problème de taille de l'ensemble de données?

user2926523
la source
15
Avoir trop de lignes n'entraîne pas de sur-ajustement. Avoir trop de colonnes le fait.
Peter Flom
5
Parce que cette question repose sur plusieurs fausses hypothèses - que les gens hésitent à utiliser de nombreux cas pour des analyses et que la plupart des modèles statistiques ne peuvent pas gérer de grands ensembles de données - elle est susceptible d'accumuler des réponses non pertinentes ou déroutantes. Veuillez envisager de modifier votre question pour supprimer ces fausses déclarations.
whuber
Cependant, vous n'avez toujours pas pris en compte ce que @whuber a dit. Les locaux sont faux. Il n'est pas vrai que «la plupart des modèles statistiques ne peuvent pas traiter d'énormes ensembles de données», vous n'obtiendrez donc pas de réponse utile à votre question. Il n'est pas vrai non plus que vous puissiez utiliser des informations sur toutes les personnes d'un pays à un moment donné (je suppose que c'est ce que vous entendez par "population").
pkofod
2
L'ID est, s'il s'agit d'une analyse saine, pas une seule variable continue. L'ID est une variable catégorielle car les différences entre les individus ne correspondent pas à l'affectation numérique arbitraire qu'ils reçoivent. Cela signifie que vous avez 1 variable pour chaque individu dans l'analyse. Potentiellement des millions.
AdamO
merci pour le commentaire, mais je ne comprends toujours pas pourquoi je ne peux pas utiliser les informations sur toutes les personnes dans un pays à un moment donné (ceci est un exemple artificiel, alors supposons que j'ai ces informations)?
user2926523

Réponses:

12

Vous pouvez rencontrer deux types de problèmes:

1) Problèmes informatiques car l'ensemble de données est trop volumineux. De nos jours, quelques millions de lignes avec 6 colonnes ne sont tout simplement pas si grandes. Mais, selon votre programme, votre ordinateur, votre quantité de RAM et probablement d'autres choses, cela pourrait s'enliser.

2) Problèmes statistiques. Ici, un problème comme celui que vous discutez aura un "problème" que je connais: même de minuscules effets seront très importants. Ce n'est pas vraiment un problème avec la régression, c'est un problème avec les valeurs de p. Mieux vaut regarder les tailles d'effet (paramètres de régression).

3) Un autre type de problème avec votre modèle n'est pas dû au nombre de lignes, mais à la nature de la variable de réponse (dépenses mensuelles). Bien que la régression OLS ne fasse aucune hypothèse sur la distribution de la réponse (uniquement sur l'erreur), néanmoins, les modèles avec de l'argent comme variable dépendante ont souvent des erreurs non normales. De plus, il est souvent logique, sur le fond, de prendre le journal de la réponse. Que ce soit le cas dans votre cas dépend exactement de ce que vous essayez de faire.

Peter Flom
la source
Bonjour Peter, pouvez-vous expliquer plus en détail pourquoi la variable de réponse (c'est-à-dire les dépenses mensuelles) doit être prise en compte? Quel bénéfice pouvons-nous en retirer?
shihpeng
1
Sûr. Les valeurs monétaires doivent souvent être enregistrées. Nous pensons à l'argent en termes multiplicatifs et non additifs. Si vous passez de 1010, ce n'est rien. Si vous passez de 20, c'est énorme. 1000to10to
Peter Flom
2

Ce qui est important, c'est le nombre d'individus (rangées) par rapport au nombre de coefficients que vous devez estimer pour le modèle que vous souhaitez adapter. Les règles de base typiques suggèrent environ 20 observations par coefficient au minimum, vous devriez donc être en mesure d'estimer jusqu'à 150 000 coefficients, sûrement plus qu'adéquat pour vos quatre prédicteurs.

En fait, vous avez une opportunité, pas un problème, dans ce cas: adapter un modèle plutôt complexe comprenant des relations non linéaires de la réponse aux prédicteurs, et des interactions entre les prédicteurs; qui peut prédire la réponse beaucoup mieux qu'une réponse plus simple dans laquelle les relations de la réponse aux prédicteurs sont supposées être linéaires et additives.

Scortchi - Réintégrer Monica
la source