Comment expliqueriez-vous les modèles linéaires généralisés à des personnes sans formation statistique?

16

J'ai toujours du mal à expliquer les techniques statistiques à un public sans fond statistique. Si je voulais expliquer ce qu'est le GLM à un tel public (sans jeter de jargon statistique), quelle serait la meilleure façon ou la plus efficace?

J'explique généralement le GLM en trois parties - (1) la composante aléatoire qui est variable de réponse, (2) la composante systématique qui est des prédicteurs linéaires, et (3) la fonction de lien qui est la "clé" de la connexion (1) et (2). Ensuite, je donnerais un exemple de régression linéaire ou logistique et expliquerais comment la fonction de lien est sélectionnée en fonction de la variable de réponse. Il agit donc comme la clé reliant deux composants.

Ken
la source
Quel genre de formation le public a-t-il? Expliquer le GLM à un mathématicien ou à un biologiste est très différent.
1
Il y aura peu de mathématiciens sans formation statistique, @Procrastinator. Mais votre point est bon: avoir une idée plus claire du public cible aidera à garder les réponses cohérentes et ciblées. Pourriez-vous modifier la question pour en parler davantage, Ken?
whuber
1
Je vois votre point, @Procrastinator mais j'espérais obtenir une réponse facile à comprendre pour tout le monde (mathématiciens et / ou biologistes), en général parce que si je n'ai pas de formation en mathématiques ou en biologie (ce qui est le cas), Je ne saurais de toute façon pas leur expliquer le GLM par rapport à leurs antécédents.
Ken
4
Je pense qu'il est important de garder à l'esprit que vous pouvez obtenir un baccalauréat, une maîtrise ou même un doctorat en biologie sans jamais avoir suivi de cours de statistique, même dans de nombreuses universités de niveau un. Mon diplôme en biochimie a nécessité deux semestres de calcul introductif et un semestre d'équations différentielles. La substance de ces cours est vite oubliée car de nombreux étudiants n'utiliseront plus jamais ces compétences! Je pense donc vraiment qu'il est nécessaire de simplifier l'explication pour les non-statisticiens typiques.
Alexander
Un commentaire à ajouter aux réponses ci-dessous; si vous pouvez traverser l'ajustement d'une ligne (c'est-à-dire la fonction de liaison et les prédicteurs linéaires), la connexion à une pondération efficace de la variance inverse n'est pas si difficile à communiquer; nous voulons simplement surpondérer les contributions précises et sous-pondérer le reste. Cela vous permet d'éviter de dire quoi que ce soit de trop technique sur le caractère aléatoire des résultats. Les GLM NB ont été conçus comme (seulement) les modèles où IWLS peut être utilisé pour donner le MLE, donc la façon de penser décrite ci-dessus capture la plupart des raisons pour lesquelles ils sont réellement utiles.
invité

Réponses:

25

Si le public n'a vraiment aucun fond statistique, je pense que j'essaierais de simplifier un peu plus l'explication. Tout d'abord, je dessinerais un plan de coordonnées sur la carte avec une ligne dessus, comme ceci:

y = mx + b

Tout le monde à votre conversation connaîtra l'équation d'une ligne simple, y = m x + b , car c'est quelque chose qui s'apprend à l'école primaire. Je voudrais donc afficher cela à côté du dessin. Cependant, je l'écrirais à l'envers, comme ceci: y=mX+b

 mX+b=y

Je dirais que cette équation est un exemple de régression linéaire simple. J'expliquerais ensuite comment vous (ou un ordinateur) pourriez adapter une telle équation à un nuage de points de données, comme celui montré dans cette image:

Nuage de points

Je dirais qu'ici, nous utilisons l'âge de l'organisme que nous étudions pour prédire sa taille, et que l'équation de régression linéaire résultante que nous obtenons (montrée sur l'image) peut être utilisée pour prédire la taille d'un organisme est si nous connaissons son âge.

 mX+b=y

Ensuite, je voudrais expliquer à nouveau qu'il s'agissait d'un exemple d'une équation de régression linéaire simple, et qu'il existe en fait des variétés plus compliquées. Par exemple, dans une variété appelée régression logistique , les y ne peuvent être que des 1 ou des 0. On pourrait vouloir utiliser ce type de modèle si vous essayez de prédire une réponse «oui» ou «non», comme si oui ou non quelqu'un a une maladie. Une autre variété spéciale est quelque chose qui s'appelle la régression de Poisson , qui est utilisée pour analyser les données de "comptage" ou "d'événement" (je ne m'attarderais pas sur ce sujet à moins que cela ne soit vraiment nécessaire).

J'expliquerais alors que la régression linéaire, la régression logistique et la régression de Poisson sont vraiment tous des exemples spéciaux d'une méthode plus générale, quelque chose appelée "modèle linéaire généralisé". La grande chose au sujet des "modèles linéaires généralisés" est qu'ils nous permettent d'utiliser des données de "réponse" qui peuvent prendre n'importe quelle valeur (comme la taille d'un organisme en régression linéaire), prendre seulement 1 ou 0 (comme si oui ou non quelqu'un a un maladie dans la régression logistique), ou prendre des comptes discrets (comme le nombre d'événements dans la régression de Poisson).

Je dirais alors que dans ces types d'équations, les x (prédicteurs) sont connectés aux y (réponses) via quelque chose que les statisticiens appellent une «fonction de lien». Nous utilisons ces "fonctions de liaison" dans les cas où les x ne sont pas liés aux y de manière linéaire.

Quoi qu'il en soit, ce sont mes deux cents sur la question! Peut-être que mon explication proposée semble un peu loufoque et stupide, mais si le but de cet exercice est simplement de faire passer "l'essentiel" au public, peut-être qu'une explication comme celle-ci n'est pas trop mauvaise. Je pense qu'il est important que le concept soit expliqué de manière intuitive et que vous évitiez de lancer des mots comme "composant aléatoire", "composant systématique", "fonction de lien", "déterministe", "fonction logit", etc. Si vous ' En parlant à des gens qui n'ont pas vraiment de connaissances statistiques, comme un biologiste ou un médecin typique, leurs yeux vont simplement devenir glaciaux en entendant ces mots. Ils ne savent pas ce qu'est une distribution de probabilité, ils n'ont jamais entendu parler d'une fonction de lien, et ils ne savent pas ce qu'est un "logit"

Dans votre explication à un public non statistique, je me concentrerais également sur le moment d'utiliser quelle variété de modèle. Je pourrais parler du nombre de prédicteurs que vous êtes autorisé à inclure sur le côté gauche de l'équation (j'ai entendu des règles de base comme pas plus que la taille de votre échantillon divisé par dix). Il serait également intéressant d'inclure un exemple de feuille de calcul avec des données et d'expliquer au public comment utiliser un logiciel statistique pour générer un modèle. Je passerais ensuite en revue la sortie de ce modèle étape par étape et essayer d'expliquer ce que signifient toutes les différentes lettres et chiffres. Les biologistes ne savent rien de tout cela et sont plus intéressés à savoir quel test utiliser quand plutôt que de réellement comprendre les mathématiques derrière l'interface graphique de SPSS!

J'apprécierais tout commentaire ou suggestion concernant mon explication proposée, en particulier si quelqu'un note des erreurs ou pense à une meilleure façon de l'expliquer!

Alexandre
la source
4
Tout le monde ne connaît pas l'équation d'une ligne; pas même tous les étudiants diplômés, ni toutes les personnes titulaires d'un doctorat.
Peter Flom - Réintègre Monica
6
Je veux dire, je suis sûr qu'un étudiant diplômé existe dans le monde qui ne connaît pas l'équation d'une ligne, mais vraisemblablement un public auquel vous voudriez expliquer des modèles linéaires généralisés aurait au moins un demi-indice de haut algèbre au niveau de l'école! : -o
Alexander
Je suis d'accord avec toi Alexander et ton approche me semble très naturelle. Je ne me concentrerais pas trop sur le «g» de la glm (ou trop tôt) et je n'entrerais pas non plus dans les distinctions entre aléatoire et fixe. Bien sûr, cela dépend du temps dont vous disposez pour expliquer tout cela.
Dominic Comtois
Oui=αX+βα
10

Je n'appellerais pas la réponse un composant aléatoire. Il s'agit d'une combinaison d'une composante déterministe et aléatoire.

Journal(p/(1-p))[0,1]

Michael R. Chernick
la source
3
Je m'interroge sur cette utilisation de la "réponse". Notre public cible comprendrait probablement que cela signifie la réponse observée : oui ou non, 0 ou 1, etc. Dans la régression logistique, nous modélisons quelque chose d' inobservé (et jamais directement observable); à savoir, la chance hypothétique de la réponse. Le «lien» consiste simplement à exprimer ces chances sous forme de cotes plutôt que de probabilités. La régression logistique suppose que les cotes logarithmiques varient linéairement avec les IV. (Mon utilisation de «modèle», «supposer» et «hypothétique» plutôt que «est» et «prédire», indique également un point de vue cognitif et ontologique différent.)
whuber
1
Bon point whuber.
Michael R. Chernick
-2

Je l'expliquerais en disant que j'ai parfois besoin de choses prédites. Par exemple, le prix d'une maison a donné quelques informations à ce sujet. Disons, sa taille, son emplacement, son âge, la construction, etc. Je veux en tenir compte dans un modèle qui prend en compte l'influence de ces facteurs pour prédire le prix.

Prenons maintenant un sous-exemple, disons, je ne considère que la taille de la maison. Cela impliquerait que rien d'autre n'affecte le prix. Ce pourrait être un cas où je compare des maisons qui sont dans la même localité, qui ont été construites à peu près au même moment, etc. Ou il se peut que je ne veuille pas me compliquer les choses et donc que la vie réelle soit conforme à la façon dont loin je peux penser. En passant, je fais un modèle où j'ai une liste de tailles et de prix correspondants de propriétés similaires (par exemple, des ventes qui ont eu lieu récemment ... mais qui auraient un sérieux biais de maisons qui ne sont pas à vendre et donc affectent le prix des maisons qui sont. mais laisse ignorer cela).

Maintenant, je vois qu'une maison de 100 pieds carrés coûte 1 million de dollars (surmontez-vous, c'est un exemple simplifié). Donc, naturellement, vous vous attendez à ce qu'une maison de 200 pieds carrés coûte le double. Et c'est ce que nous appellerions un "modèle linéaire". Bien sûr, lorsque nous collectons les données et la taille du tracé par rapport au prix, nous constatons que ce n'est pas exactement le double. Mais il y a certainement une tendance à la hausse.

J'essaie donc de quantifier la tendance. Quelle augmentation pour chaque pied carré accru? C'est une régression linéaire.

INSÉRER la carte terminologique et continuer avec les concepts statistiques. Une façon d'expliquer la composante aléatoire et systématique pourrait être que tout ce que vous avez oublié de modéliser, ou que vous ne pourriez pas évaluer, est aléatoire. Tout ce que vous pouvez est systématique. (Par exemple, disons que nous sommes en 2008 et que vous souhaitez vendre une maison.)

Les hypothèses qui sous-tendent ce modèle sont que le nuage de points devrait ressembler à une tige. C'est-à-dire que X et Y sont tous deux "normaux". et tous ont une variance similaire.

Si ce n'est pas le cas, entrez GLM. et maintenant expliquer la fonction de liaison n tout cela.

C'est simplifié, mais cela devrait fonctionner comme une introduction.

Vous pouvez mettre dans l'histoire des GLM et des modèles factoriels. Là où Fisher exigeait que les choses commencent à varier ensemble et ce cadre était adapté à ce genre de complexité.

J'espère que cela t'aides...

Naag
la source
1
Nous apprécions vos efforts, mais il n'est pas nécessaire de publier votre matériel tant que vous n'avez pas fini de l'écrire. Dans sa forme actuelle, la façon dont il se désintègre en notes cryptiques clairsemées à la fin décevra les lecteurs.
whuber