En quoi consiste exactement la construction d'un modèle statistique?
Ces jours-ci, alors que je postule pour des emplois de recherche ou de consultation, le terme «construire un modèle» ou «modélisation» revient souvent. Le terme semble cool, mais à quoi font-ils référence exactement? Comment construisez- vous votre modèle?
J'ai recherché la modélisation prédictive , qui comprend le k-nn et la régression logistique.
Réponses:
Je vais essayer de le faire bien que je ne sois en aucun cas un statisticien, mais j'arrive à faire beaucoup de «modélisation» - statistique et non statistique.
Commençons d'abord par les bases:
Un modèle est une représentation de la réalité bien que très simplifiée. Pensez à un «modèle» de cire / bois pour une maison. Vous pouvez le toucher / sentir / sentir. Maintenant, un modèle mathématique est une représentation de la réalité à l'aide de nombres.
Quelle est cette «réalité» que je vous entends demander? D'accord. Pensez donc à cette situation simple: le gouverneur de votre État met en œuvre une politique disant que le prix d'un paquet de cigarettes coûterait désormais 100 $ pour l'année prochaine. Le «but» est de dissuader les gens d'acheter des cigarettes, diminuant ainsi le tabagisme, ce qui rend les fumeurs en meilleure santé (car ils arrêteraient de fumer).
Après 1 an, le gouverneur vous demande - est-ce un succès? Comment peux-tu dire ça? Eh bien, vous capturez des données telles que le nombre de paquets vendus / jour ou par an, les réponses à l'enquête, toutes les données mesurables sur lesquelles vous pouvez mettre la main et qui sont pertinentes pour le problème. Vous venez de commencer à «modéliser» le problème. Maintenant , vous voulez analyser ce que ce « modèle » dit . C'est là que la modélisation statistique est utile. Vous pouvez exécuter un simple graphique de corrélation / dispersion pour voir à quoi «ressemble» le modèle. Vous pourriez avoir envie de déterminer la causalité, c.-à-d. Si l'augmentation du prix a entraîné une diminution du tabagisme ou y avait-il d'autres facteurs de confusion en jeu (c.-à-d., C'est peut-être autre chose et votre modèle l' a peut-être raté?).
Maintenant, la construction de ce modèle se fait par un «ensemble de règles» (plus comme des directives), c'est-à-dire ce qui est / n'est pas légal ou ce qui a / n'a pas de sens. Vous devez savoir ce que vous faites et comment interpréter les résultats de ce modèle. La construction / exécution / interprétation de ce modèle nécessite une connaissance de base des statistiques. Dans l'exemple ci-dessus, vous devez connaître les graphiques de corrélation / dispersion, la régression (uni et multivariée) et d'autres éléments. Je suggère de lire la lecture amusante / informative absolue sur la compréhension intuitive des statistiques: qu'est-ce qu'une valeur p de toute façon? C'est une introduction humoristique aux statistiques et vous apprendra la `` modélisation '' du simple au avancé (c'est-à-dire la régression linéaire). Ensuite, vous pouvez continuer et lire d'autres choses.
Alors, rappelez-vous qu'un modèle est une représentation de la réalité et que "Tous les modèles sont faux mais certains sont plus utiles que d'autres" . Un modèle est une représentation simplifiée de la réalité et vous ne pouvez pas tout considérer, mais vous devez savoir quoi et quoi ne pas considérer pour avoir un bon modèle qui peut vous donner des résultats significatifs.
Cela ne s'arrête pas là. Vous pouvez également créer des modèles pour simuler la réalité! C'est ainsi qu'un groupe de chiffres changera avec le temps (disons). Ces chiffres correspondent à une interprétation significative dans votre domaine. Vous pouvez également créer ces modèles pour extraire vos données pour voir comment les différentes mesures sont liées les unes aux autres (l'application des statistiques ici peut être discutable, mais ne vous inquiétez pas pour l'instant). Exemple: Vous regardez les ventes d'épicerie pour un magasin par mois et vous réalisez que chaque fois que de la bière est achetée, il en va de même pour un paquet de couches (vous créez un modèle qui parcourt l'ensemble de données et vous montre cette association). Cela peut être bizarre, mais cela peut impliquer que la plupart des pères achètent cela le week-end lorsque bébé s'assoit avec ses enfants? Mettez des couches près des bières et vous pourrez augmenter vos ventes! Aaah! La modélisation :)
Ce ne sont que des exemples et nullement une référence pour le travail professionnel. Vous construisez essentiellement des modèles pour comprendre / estimer comment la réalité fonctionnera / a fonctionné et pour prendre de meilleures décisions en fonction des résultats. Statistiques ou pas, vous avez probablement fait de la modélisation toute votre vie sans vous en rendre compte. Bonne chance :)
la source
La construction d'un modèle statistique implique la construction d'une description mathématique de certains phénomènes du monde réel qui tient compte de l'incertitude et / ou du caractère aléatoire impliqués dans ce système. Selon le domaine d'application, cela peut aller de quelque chose d'aussi simple qu'une régression linéaire, ou des tests d'hypothèse de base, à une analyse factorielle multivariée compliquée ou à l'exploration de données.
la source
Pour moi, la modélisation implique de spécifier un cadre probabiliste pour les données observées avec des paramètres estimables qui peuvent être utilisés pour discerner des différences précieuses dans les données observables lorsqu'elles existent. C'est ce qu'on appelle le pouvoir. Les modèles probabilistes peuvent être utilisés pour la prédiction ou l'inférence. Ils peuvent être utilisés pour calibrer des machines, pour démontrer un manque de retour sur investissement, pour prévoir les conditions météorologiques ou les stocks, ou pour simplifier la prise de décision médicale.
Un modèle n'a pas nécessairement besoin d'être construit. Dans une expérience isolée, on peut utiliser une approche de modélisation non paramétrique, telle que le test t pour déterminer s'il existe une différence significative de moyennes entre deux groupes. Cependant, à de nombreuses fins de prévision, des modèles peuvent être construits de manière à détecter les changements dans le temps. Par exemple, les modèles de Markov basés sur la transition peuvent être utilisés pour prédire les fluctuations à la hausse et à la baisse de la valeur marchande des investissements, mais dans quelle mesure un «creux» peut-il être considéré comme pire que prévu? En utilisant des preuves historiques et des prédicteurs observés, on peut construire un modèle sophistiqué pour calibrer si les creux observés sont significativement différents de ceux qui ont été historiquement soutenus. À l'aide d'outils tels que les graphiques de contrôle, les graphiques d'incidence cumulée, les courbes de survie et d'autres graphiques "basés sur le temps", il '
Alternativement, certains modèles sont "construits" en ayant la flexibilité de s'adapter à mesure que les données augmentent. La détection des tendances par Twitter et le système de recommandation de Netflix sont des exemples de ces modèles. Ils ont une spécification générale (Bayesian Model Averaging, pour ce dernier) qui permet à un modèle flexible de tenir compte des changements et des tendances historiques et de recalibrer pour maintenir la meilleure prédiction, comme l'introduction de films à fort impact, une large adoption de nouveaux utilisateurs, ou un changement radical dans la préférence des films en raison de la saisonnalité.
Certaines des approches d'exploration de données sont introduites parce qu'elles sont très aptes à réaliser certains types d'approches de prédiction (encore une fois, la question de l'obtention de tendances ou de valeurs "attendues" dans les données). K-NN est un moyen d'incorporer des données de grande dimension et de déduire si les sujets peuvent recevoir des prédictions fiables simplement en raison de la proximité (que ce soit en fonction de l'âge, du goût musical, de l'histoire sexuelle ou de tout autre trait mesurable). D'autre part, la régression logistique peut obtenir un classificateur binaire, mais est beaucoup plus couramment utilisée pour déduire l'association entre un résultat binaire et une ou plusieurs expositions et conditions via un paramètre appelé odds ratio. En raison des théorèmes limites et de leur relation avec les modèles linéaires généralisés, les rapports de cotes sont des paramètres très réguliers qui ont une erreur de type I «hautement conservée» (c.-à-d.
la source
La modélisation est le processus d'identification d'un modèle approprié.
Souvent, un modélisateur aura une bonne idée des variables importantes, et peut-être même aura une base théorique pour un modèle particulier. Ils connaîtront également certains faits sur la réponse et le type général de relations avec les prédicteurs, mais peuvent ne pas être certains que leur idée générale d'un modèle soit tout à fait adéquate - même avec une excellente idée théorique du fonctionnement de la moyenne, ils pourrait, par exemple, ne pas être sûr que la variance n'est pas liée à la moyenne, ou ils pourraient soupçonner qu'une certaine dépendance série pourrait être possible.
Il peut donc y avoir un cycle de plusieurs étapes d'identification du modèle qui fait référence (au moins à certaines) des données. L'alternative est de risquer régulièrement d'avoir des modèles tout à fait inadaptés.
(Bien sûr, s'ils sont responsables, ils doivent tenir compte de la manière dont l'utilisation des données de cette manière influe sur leurs déductions.)
Le processus réel varie quelque peu d'une région à l'autre et d'une personne à l'autre, mais il est possible de trouver certaines personnes énumérant explicitement les étapes de leur processus (par exemple, Box et Jenkins décrivent une telle approche dans leur livre sur les séries chronologiques). Les idées sur la façon de faire l'identification du modèle changent avec le temps.
la source
Je ne pense pas qu'il existe une définition commune de ce qui constitue un modèle statistique. D'après mon expérience dans l'industrie, il semble être synonyme de ce que l'on appelle en économétrie un modèle de forme réduite . Je vais t'expliquer.
Ce modèle aura ce que les physiciens appellent des "constantes" ou des "coefficients", par exemple une densité d'air à une température et une élévation données. Vous devrez découvrir quels sont ces coefficients expérimentalement. Dans notre cas, nous devrons demander à l'artillerie de tirer les canons dans de nombreuses conditions différentes et étroitement contrôlées, telles que les angles, la température, etc.
Nous collectons toutes les données et ajustons le modèle à l'aide de techniques statistiques. Cela pourrait être aussi simple qu'une régression linéaire ou des moyennes. Une fois tous les coefficients obtenus, nous exécutons maintenant notre modèle mathématique pour produire les tables de tir. Ceci est soigneusement décrit dans le document non classifié ici , intitulé "LA PRODUCTION DE TABLES DE TIR POUR L'ARTILLERIE CANNONNE."
Ce que je viens de décrire n'est pas un modèle statistique. Oui, il utilise des statistiques, mais ce modèle utilise établit des lois de la physique, qui sont l'essence du modèle. Ici, les statistiques sont un simple outil pour déterminer les valeurs de quelques paramètres importants. La dynamique du système est décrite et prédéterminée par le terrain.
Supposons que nous ne connaissions pas ou ne nous soucions pas des lois de la physique et que nous essayions simplement d'établir les relations entre la distance de vol du canon et des paramètres tels que l'angle de tir et la température à l'aide d'un «modèle statistique». Nous créerions un ensemble de données volumineuses avec un tas de variables ou caractéristiques candidates et des transformations de variables, peut-être des séries polynomiales de température, etc. Ensuite, nous exécuterions une régression de toutes sortes et identifierions des coefficients. Ces coefficients n'auraient pas nécessairement établi d'interprétations sur le terrain. Nous les appellerions sensibilités au carré de la température, etc. Ce modèle peut en fait être assez bon pour prédire les points terminaux des boulets de canon, car le processus sous-jacent est assez stable.
la source