Dans l'analyse de régression, quelle est la différence entre le processus de génération de données et le modèle?

19

Dans l'analyse de régression, quelle est la différence entre «processus de génération de données» et «modèle»?

Cochon volant
la source
1
Le processus de génération de données n'est jamais connu, nous choisissons le modèle dans l'espoir de nous rapprocher suffisamment du processus de génération de données. C'est l'une des réponses possibles, cela aiderait si vous fournissez plus de contexte, il est donc plus clair quel type de réponse vous recherchez. Consultez le chat, le club de journal en cours discute de l'article où ce problème est soulevé.
mpiktas
3
Les réponses à cette question varieront, comme elles le devraient, car le "processus de génération de données" et le "modèle" sont utilisés de diverses manières par divers auteurs. @Weijie, avez-vous une référence particulière en tête?
whuber

Réponses:

15

Nous avons tous une bonne idée de ce que «modèle» pourrait signifier, bien que sa définition technique varie selon les disciplines. Pour comparer cela à DGP, j'ai commencé par regarder les cinq premiers hits (en comptant deux hits avec le même auteur comme un) dans Google "processus de génération de données".

  1. Un document sur la façon dont l'US Air Force crée réellement des données dans le soutien logistique.

  2. Résumé d'un article publié dans Environment and Planning A concernant la création de "micropopulations synthétiques" via des "modèles de simulation" informatiques.

  3. Une page Web sur la «génération de données synthétiques»; c'est-à-dire la simulation "pour explorer les effets de certaines caractéristiques des données sur ... les modèles".

  4. Résumé d'un document de conférence sur l'exploration de données, affirmant que «les données dans les bases de données sont le résultat d'un processus de génération de données sous-jacent (dgp)».

  5. Un chapitre de livre qui caractérise les données d'intérêt comme "résultant d'une transformation d'un processus [stochastique] sous-jacent ... certains ou tous [dont] peuvent être non observés ..."V tWtVt

Ces liens présentent trois utilisations légèrement différentes mais étroitement liées du terme «processus de génération de données». Le plus courant est dans un contexte de simulation statistique. Les autres se réfèrent aux moyens réels par lesquels les données sont créées dans une situation continue (logistique) et à un modèle de probabilité pour une procédure de création de données en cours, destiné à ne pas être analysé directement. Dans le dernier cas, le texte différencie un processus stochastique inobservable, qui est néanmoins modélisé mathématiquement, des nombres réels qui seront analysés.

Ceux-ci suggèrent que deux réponses légèrement différentes sont tenables:

  1. Dans le contexte de la simulation ou de la création de données "synthétiques" pour l'analyse, le "processus de génération de données" est un moyen de produire des données pour une étude ultérieure, généralement au moyen d'un générateur de nombres pseudo-aléatoires d'un ordinateur. L'analyse adoptera implicitement un modèle qui décrit les propriétés mathématiques de ce DGP.

  2. Dans le cadre de l'analyse statistique, on peut vouloir distinguer un phénomène du monde réel (le DGP) des observations qui seront analysées. Nous avons des modèles pour le phénomène et les observations ainsi qu'un modèle pour la façon dont les deux sont connectés.

( X 1 i , X 2 i , , X p i , Y i ) i = 1 , 2 , , n(X,Oui)je(X1je,X2je,,Xpje,Ouije)je=1,2,,nXjjeOuijeOuijeXβσ2βσ

whuber
la source
Vous écrivez les mots «cause» ou «liés». J'ai une question à ce sujet. D'après votre réponse, il semble que le concept DGP n'implique pas de causalité. Cependant, cette "relation" est quelque chose de plus qu'une corrélation (ou tout type d'association) ou non? Voir aussi ma question connexe: stats.stackexchange.com/questions/399671/…
markowitz
@markowitz "Corrélation", à proprement parler, se réfère à un deuxième moment de la variable aléatoire bivariée. J'utilise «apparenté» au sens large de «non [statistiquement] indépendant».
whuber
Je sais, et c'est précisément pour cette raison que j'ai déclaré "ou tout type d'association [uniquement statistique]". Puis-je répéter ma question comme suit: Mais cette "relation" est-elle quelque chose de plus que l'association ou non? Partant du concept de «vrai modèle», parfois utilisé comme synonyme de DGP, il semble quelque chose de plus. Si oui, je ne comprends pas exactement ce que c'est. Mon lien précédent donne un exemple.
Markowitz
@markowitz J'ai bien peur de ne pas comprendre ce que vous essayez de demander. C'est peut-être parce que je ne sais pas exactement ce que vous entendez par «relation» ou «association». J'ai regardé votre lien, mais l'usage inhabituel de l'anglais ne me donne rien de significatif.
whuber
Je suis désolé pour mon anglais. J'ai essayé de modifier la question liée dans un sens plus clair. J'espère que c'est compréhensible.
Markowitz
4

Le DGP est le vrai modèle. Le modèle est ce que nous avons essayé de faire, en utilisant nos meilleures compétences, pour représenter le véritable état de la nature. Le DGP est influencé par le "bruit". Le bruit peut être de plusieurs types:

  1. Interventions ponctuelles
  2. Décalages de niveau
  3. Les tendances
  4. Changements de saisonnalité
  5. Modifications des paramètres du modèle
  6. Changements de variance

Si vous ne contrôlez pas ces 6 éléments, votre capacité à identifier le vrai DGP est réduite.

Tom Reilly
la source
4

La réponse de Whuber est excellente, mais il convient de souligner que le modèle statistique n'a pas besoin de ressembler au modèle de génération de données à tous égards pour être un modèle approprié pour l'exploration inférentielle des données. Liu et Meng expliquent ce point avec une grande clarté dans leur récent article arXived ( http://arxiv.org/abs/1510.08539 ):

Idée reçue 1. Un modèle de probabilité doit décrire la génération des données.

θ). Ce point n'est nulle part plus clair que dans les applications impliquant des expériences informatiques où un modèle probabiliste est utilisé pour décrire des données suivant un modèle déterministe connu (mais très compliqué) (Kennedy et O'Hagan, 2001; Conti et al., 2009). Nous avons besoin d'un modèle descriptif, pas nécessairement d'un modèle génératif. Voir Lehmann (1990), Breiman (2001) et Hansen et Yu (2001) pour plus d'informations sur ce point.

Michael Lew
la source
+1. J'aime particulièrement la distinction entre les modèles descriptifs et génératifs de données.
whuber