J'ai toujours du mal à expliquer les techniques statistiques à un public sans fond statistique. Si je voulais expliquer ce qu'est le GLM à un tel public (sans jeter de jargon statistique), quelle serait la meilleure façon ou la plus efficace?
J'explique généralement le GLM en trois parties - (1) la composante aléatoire qui est variable de réponse, (2) la composante systématique qui est des prédicteurs linéaires, et (3) la fonction de lien qui est la "clé" de la connexion (1) et (2). Ensuite, je donnerais un exemple de régression linéaire ou logistique et expliquerais comment la fonction de lien est sélectionnée en fonction de la variable de réponse. Il agit donc comme la clé reliant deux composants.
Réponses:
Si le public n'a vraiment aucun fond statistique, je pense que j'essaierais de simplifier un peu plus l'explication. Tout d'abord, je dessinerais un plan de coordonnées sur la carte avec une ligne dessus, comme ceci:
Tout le monde à votre conversation connaîtra l'équation d'une ligne simple, y = m x + b , car c'est quelque chose qui s'apprend à l'école primaire. Je voudrais donc afficher cela à côté du dessin. Cependant, je l'écrirais à l'envers, comme ceci: y= m x + b
Je dirais que cette équation est un exemple de régression linéaire simple. J'expliquerais ensuite comment vous (ou un ordinateur) pourriez adapter une telle équation à un nuage de points de données, comme celui montré dans cette image:
Je dirais qu'ici, nous utilisons l'âge de l'organisme que nous étudions pour prédire sa taille, et que l'équation de régression linéaire résultante que nous obtenons (montrée sur l'image) peut être utilisée pour prédire la taille d'un organisme est si nous connaissons son âge.
Ensuite, je voudrais expliquer à nouveau qu'il s'agissait d'un exemple d'une équation de régression linéaire simple, et qu'il existe en fait des variétés plus compliquées. Par exemple, dans une variété appelée régression logistique , les y ne peuvent être que des 1 ou des 0. On pourrait vouloir utiliser ce type de modèle si vous essayez de prédire une réponse «oui» ou «non», comme si oui ou non quelqu'un a une maladie. Une autre variété spéciale est quelque chose qui s'appelle la régression de Poisson , qui est utilisée pour analyser les données de "comptage" ou "d'événement" (je ne m'attarderais pas sur ce sujet à moins que cela ne soit vraiment nécessaire).
J'expliquerais alors que la régression linéaire, la régression logistique et la régression de Poisson sont vraiment tous des exemples spéciaux d'une méthode plus générale, quelque chose appelée "modèle linéaire généralisé". La grande chose au sujet des "modèles linéaires généralisés" est qu'ils nous permettent d'utiliser des données de "réponse" qui peuvent prendre n'importe quelle valeur (comme la taille d'un organisme en régression linéaire), prendre seulement 1 ou 0 (comme si oui ou non quelqu'un a un maladie dans la régression logistique), ou prendre des comptes discrets (comme le nombre d'événements dans la régression de Poisson).
Je dirais alors que dans ces types d'équations, les x (prédicteurs) sont connectés aux y (réponses) via quelque chose que les statisticiens appellent une «fonction de lien». Nous utilisons ces "fonctions de liaison" dans les cas où les x ne sont pas liés aux y de manière linéaire.
Quoi qu'il en soit, ce sont mes deux cents sur la question! Peut-être que mon explication proposée semble un peu loufoque et stupide, mais si le but de cet exercice est simplement de faire passer "l'essentiel" au public, peut-être qu'une explication comme celle-ci n'est pas trop mauvaise. Je pense qu'il est important que le concept soit expliqué de manière intuitive et que vous évitiez de lancer des mots comme "composant aléatoire", "composant systématique", "fonction de lien", "déterministe", "fonction logit", etc. Si vous ' En parlant à des gens qui n'ont pas vraiment de connaissances statistiques, comme un biologiste ou un médecin typique, leurs yeux vont simplement devenir glaciaux en entendant ces mots. Ils ne savent pas ce qu'est une distribution de probabilité, ils n'ont jamais entendu parler d'une fonction de lien, et ils ne savent pas ce qu'est un "logit"
Dans votre explication à un public non statistique, je me concentrerais également sur le moment d'utiliser quelle variété de modèle. Je pourrais parler du nombre de prédicteurs que vous êtes autorisé à inclure sur le côté gauche de l'équation (j'ai entendu des règles de base comme pas plus que la taille de votre échantillon divisé par dix). Il serait également intéressant d'inclure un exemple de feuille de calcul avec des données et d'expliquer au public comment utiliser un logiciel statistique pour générer un modèle. Je passerais ensuite en revue la sortie de ce modèle étape par étape et essayer d'expliquer ce que signifient toutes les différentes lettres et chiffres. Les biologistes ne savent rien de tout cela et sont plus intéressés à savoir quel test utiliser quand plutôt que de réellement comprendre les mathématiques derrière l'interface graphique de SPSS!
J'apprécierais tout commentaire ou suggestion concernant mon explication proposée, en particulier si quelqu'un note des erreurs ou pense à une meilleure façon de l'expliquer!
la source
Je n'appellerais pas la réponse un composant aléatoire. Il s'agit d'une combinaison d'une composante déterministe et aléatoire.
la source
Je l'expliquerais en disant que j'ai parfois besoin de choses prédites. Par exemple, le prix d'une maison a donné quelques informations à ce sujet. Disons, sa taille, son emplacement, son âge, la construction, etc. Je veux en tenir compte dans un modèle qui prend en compte l'influence de ces facteurs pour prédire le prix.
Prenons maintenant un sous-exemple, disons, je ne considère que la taille de la maison. Cela impliquerait que rien d'autre n'affecte le prix. Ce pourrait être un cas où je compare des maisons qui sont dans la même localité, qui ont été construites à peu près au même moment, etc. Ou il se peut que je ne veuille pas me compliquer les choses et donc que la vie réelle soit conforme à la façon dont loin je peux penser. En passant, je fais un modèle où j'ai une liste de tailles et de prix correspondants de propriétés similaires (par exemple, des ventes qui ont eu lieu récemment ... mais qui auraient un sérieux biais de maisons qui ne sont pas à vendre et donc affectent le prix des maisons qui sont. mais laisse ignorer cela).
Maintenant, je vois qu'une maison de 100 pieds carrés coûte 1 million de dollars (surmontez-vous, c'est un exemple simplifié). Donc, naturellement, vous vous attendez à ce qu'une maison de 200 pieds carrés coûte le double. Et c'est ce que nous appellerions un "modèle linéaire". Bien sûr, lorsque nous collectons les données et la taille du tracé par rapport au prix, nous constatons que ce n'est pas exactement le double. Mais il y a certainement une tendance à la hausse.
J'essaie donc de quantifier la tendance. Quelle augmentation pour chaque pied carré accru? C'est une régression linéaire.
INSÉRER la carte terminologique et continuer avec les concepts statistiques. Une façon d'expliquer la composante aléatoire et systématique pourrait être que tout ce que vous avez oublié de modéliser, ou que vous ne pourriez pas évaluer, est aléatoire. Tout ce que vous pouvez est systématique. (Par exemple, disons que nous sommes en 2008 et que vous souhaitez vendre une maison.)
Les hypothèses qui sous-tendent ce modèle sont que le nuage de points devrait ressembler à une tige. C'est-à-dire que X et Y sont tous deux "normaux". et tous ont une variance similaire.
Si ce n'est pas le cas, entrez GLM. et maintenant expliquer la fonction de liaison n tout cela.
C'est simplifié, mais cela devrait fonctionner comme une introduction.
Vous pouvez mettre dans l'histoire des GLM et des modèles factoriels. Là où Fisher exigeait que les choses commencent à varier ensemble et ce cadre était adapté à ce genre de complexité.
J'espère que cela t'aides...
la source