Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification):
id, age, income, gender, job category, monthly spend
dans laquelle se monthly spend
trouve la variable de réponse. Mais l'ensemble de données d'apprentissage contient environ 3 millions de lignes, et l'ensemble de données (qui contient id, age, income, gender, job category
mais pas de variable de réponse) à prévoir contient 1 million de lignes. Ma question est: y a-t-il des problèmes potentiels si je jette trop de lignes (3 millions dans ce cas) dans un modèle statistique? Je comprends que les dépenses de calcul sont l'une des préoccupations, y a-t-il d'autres préoccupations? Existe-t-il des livres / articles qui expliquent pleinement le problème de taille de l'ensemble de données?
la source
Réponses:
Vous pouvez rencontrer deux types de problèmes:
1) Problèmes informatiques car l'ensemble de données est trop volumineux. De nos jours, quelques millions de lignes avec 6 colonnes ne sont tout simplement pas si grandes. Mais, selon votre programme, votre ordinateur, votre quantité de RAM et probablement d'autres choses, cela pourrait s'enliser.
2) Problèmes statistiques. Ici, un problème comme celui que vous discutez aura un "problème" que je connais: même de minuscules effets seront très importants. Ce n'est pas vraiment un problème avec la régression, c'est un problème avec les valeurs de p. Mieux vaut regarder les tailles d'effet (paramètres de régression).
3) Un autre type de problème avec votre modèle n'est pas dû au nombre de lignes, mais à la nature de la variable de réponse (dépenses mensuelles). Bien que la régression OLS ne fasse aucune hypothèse sur la distribution de la réponse (uniquement sur l'erreur), néanmoins, les modèles avec de l'argent comme variable dépendante ont souvent des erreurs non normales. De plus, il est souvent logique, sur le fond, de prendre le journal de la réponse. Que ce soit le cas dans votre cas dépend exactement de ce que vous essayez de faire.
la source
Ce qui est important, c'est le nombre d'individus (rangées) par rapport au nombre de coefficients que vous devez estimer pour le modèle que vous souhaitez adapter. Les règles de base typiques suggèrent environ 20 observations par coefficient au minimum, vous devriez donc être en mesure d'estimer jusqu'à 150 000 coefficients, sûrement plus qu'adéquat pour vos quatre prédicteurs.
En fait, vous avez une opportunité, pas un problème, dans ce cas: adapter un modèle plutôt complexe comprenant des relations non linéaires de la réponse aux prédicteurs, et des interactions entre les prédicteurs; qui peut prédire la réponse beaucoup mieux qu'une réponse plus simple dans laquelle les relations de la réponse aux prédicteurs sont supposées être linéaires et additives.
la source