Transition de l'utilisation d'un logiciel statistique à la compréhension des équations mathématiques?

12

Le contexte:

Je suis doctorant en psychologie. Comme pour de nombreux doctorants en psychologie, je sais comment effectuer diverses analyses statistiques à l'aide de logiciels statistiques, jusqu'à des techniques telles que l'ACP, les arbres de classification et l'analyse en grappes. Mais ce n'est pas vraiment satisfaisant car bien que je puisse expliquer pourquoi j'ai fait une analyse et ce que signifient les indicateurs, je ne peux pas expliquer comment la technique fonctionne.

Le vrai problème est que la maîtrise des logiciels statistiques est facile, mais elle est limitée. Pour apprendre de nouvelles techniques dans des articles, je dois comprendre comment lire des équations mathématiques. À l'heure actuelle, je ne pouvais pas calculer les valeurs propres ou les K-moyennes. Les équations sont comme une langue étrangère pour moi.

Question:

  • Existe-t-il un guide complet qui aide à comprendre les équations dans les articles de revues?

Éditer:

Je pensais que la question serait plus explicite: au-dessus d'une certaine complexité, la notation statistique devient du charabia pour moi; disons que je voudrais coder mes propres fonctions en R ou C ++ pour comprendre une technique mais il y a une barrière. Je ne peux pas transformer une équation en programme. Et vraiment: je ne connais pas la situation dans les écoles doctorales américaines, mais dans la mienne (France), le seul cours que je peux suivre concerne un mouvement littéraire du XVIe siècle ...

Coronier
la source
@Coronier Désolé, je doute qu'il existe un guide complet pour comprendre les articles de psychologie qui utilisent la modélisation statistique. Mais le bagage requis doit être au niveau d'un master en statistique. Si votre programme en paiera le prix, pensez à obtenir une maîtrise en statistiques. La prochaine meilleure option pour vos besoins pourrait être de reprendre la version des statistiques multivariées du département des statistiques - généralement, elles fournissent des notes avec le contexte mathématique pour l'ACP, le clustering, les arbres, etc. Vous aurez besoin d'une formation en algèbre linéaire et en mathématiques de base statistiques malgré tout.
verrouillé
Veuillez poser des questions plus spécifiques.
4
Je suis également doctorant en psychologie, et j'ai fait le choix de prendre une quantité importante de mathématiques au cours de mes études de premier cycle car il y avait tellement de docteurs en psychologie qui ne savent pas comment un PCA (par exemple) a été calculé. La toute première chose que vous devez faire est de vous frayer un chemin à travers n'importe quel manuel d'algèbre linéaire décent. Qu'est-ce qu'un manuel d'algèbre linéaire décent? Gilbert Strang est la bombe, et il a des conférences vidéo de son cours d'algèbre linéaire sur le site Web du MIT pour démarrer. Vous pouvez même les obtenir sur iTunes.
Phillip Cloud
1
La question est si large qu'elle n'obtiendra pas de réponse satisfaisante en quelques paragraphes. Les statistiques sont comme des questions: cela devient plus facile si vous les décomposez en plusieurs composants gérables.
Fr.
Je ne peux qu'être d'accord avec les commentaires ci-dessus. Soit vous devrez vous concentrer sur un problème particulier, soit il vous suffit de parcourir d'abord certains manuels ou documents en ligne. Un manuel décent qui couvre les concepts de base des statistiques multivariées avec des illustrations est Outils mathématiques pour l'analyse multivariée appliquée , par Carroll et Green (AP, 1997, Rev. Ed.). Un autre est la statistique multivariée appliquée et la modélisation mathématique , par Tinsley et Brown (AP, 2000).
chl

Réponses:

9

Aperçu:

  • J'ai l'impression que votre expérience est commune à beaucoup d'étudiants en sciences sociales.
  • Le point de départ est une motivation à apprendre.
  • Vous pouvez emprunter des voies d' enseignement autodidacte ou formelles .

Instruction formelle:

Il existe de nombreuses options à cet égard. Vous pourriez envisager une maîtrise en statistique ou simplement prendre quelques sujets dans un département de statistique. Cependant, vous voudrez probablement vérifier que vous avez les connaissances mathématiques nécessaires. Selon le cours, vous constaterez peut-être que vous devez revoir les mathématiques pré-calcul, et peut-être du matériel tel que le calcul et l'algèbre linéaire avant d'aborder des sujets de statistique mathématique rigoureuse au niveau universitaire.

Autodidacte

Alternativement, vous pouvez emprunter la voie autodidacte. Il existe des tas de bonnes ressources sur Internet. En particulier, lire et faire des exercices dans les manuels de mathématiques est important, mais probablement pas suffisant. Il est important d'écouter les instructeurs parler des mathématiques et de les regarder résoudre des problèmes.

Il est également important de réfléchir à vos objectifs mathématiques et aux conditions mathématiques requises pour atteindre ces objectifs. Si les équations sont pour vous comme une langue étrangère, vous constaterez peut-être que vous devez d'abord étudier les mathématiques élémentaires.

J'ai préparé quelques ressources visant à aider les personnes qui font la transition de l'utilisation de logiciels statistiques à la compréhension des mathématiques sous-jacentes.

Jeromy Anglim
la source
Merci, les ressources que vous fournissez sont excellentes. Btw, votre blog est totalement absorbant (je suis un étudiant I / OP et useR, c'est comme une révélation pour moi).
Coronier
@Coronier C'est formidable de rencontrer une autre personne combinant R avec I / O Psych.
Jeromy Anglim
3

J'ai l'impression que vous pensez que vous pouvez avoir un aperçu d'une équation statistique en la programmant en R ou C ++; tu ne peux pas. Pour comprendre une équation statistique, trouvez un manuel "de premier cycle" avec beaucoup de problèmes de devoirs à la fin de chaque chapitre qui contient l'équation, puis faites les devoirs à la fin du chapitre contenant l'équation.

Par exemple, pour comprendre l'ACP, vous avez besoin d'une bonne compréhension de l'algèbre linéaire et en particulier de la décomposition en valeurs singulières. Tout en apprenant l'informatique quantique à travers le livre de Michael Nielsen, il est devenu évident pour moi que je devais revoir l'algèbre linéaire. Je suis tombé sur les vidéos de Gilbert Strang, elles ont été extrêmement utiles pour établir une compréhension fondamentale des concepts. Cependant, la nuance du matériel n'a pas traversé jusqu'à ce que je trouve un livre d'algèbre linéaire contenant beaucoup de problèmes de devoirs, et ensuite je devais les faire.

schenectady
la source
4
@ schenectady pendant que je sympathise avec votre point de vue, pour moi au moins, le code R fournit un pont que je peux utiliser pour mieux comprendre les équations et les mathématiques concernées. Cela étant dit, je suis tout à fait d'accord avec le fait que les problèmes, les statistiques et les mathématiques en général ne peuvent être appris qu'en faisant.
richiemorrisroe
2

Je comprends votre difficulté car j'ai un problème similaire lorsque j'essaie de faire quelque chose de nouveau en statistique (je suis aussi un étudiant diplômé, mais dans un domaine différent). J'ai trouvé l'examen du code R très utile pour avoir une idée de la façon dont quelque chose est calculé. Par exemple, j'ai récemment appris à utiliser le kmeansclustering et j'ai de nombreuses questions de base, à la fois conceptuelles et comment il est mis en œuvre. En utilisant une Rinstallation (je recommande R Studio, http://www.rstudio.org/ , mais toute installation fonctionne), tapez simplement kmeansla ligne de commande. Voici un exemple d'une partie de la sortie:

x <- as.matrix(x)
    m <- nrow(x)
    if (missing(centers)) 
        stop("'centers' must be a number or a matrix")
    nmeth <- switch(match.arg(algorithm), `Hartigan-Wong` = 1, 
        Lloyd = 2, Forgy = 2, MacQueen = 3)
    if (length(centers) == 1L) {
        if (centers == 1) 
            nmeth <- 3
        k <- centers
        if (nstart == 1) 
            centers <- x[sample.int(m, k), , drop = FALSE]
        if (nstart >= 2 || any(duplicated(centers))) {
            cn <- unique(x)
            mm <- nrow(cn)
            if (mm < k) 
                stop("more cluster centers than distinct data points.")
            centers <- cn[sample.int(mm, k), , drop = FALSE]
        }
    } 

Je ne sais pas à quel point il est pratique d'examiner la source à chaque fois, mais cela m'aide vraiment à avoir une idée de ce qui se passe, en supposant que vous avez une certaine familiarité avec la syntaxe.

Une question précédente que j'ai posée sur stackoverflow m'a orienté dans cette direction, mais m'a aussi dit utilement que les commentaires sur le code sont parfois inclus ici .


Plus généralement, le Journal of Statistical Software illustre ce lien entre théorie et implémentation, mais il s'agit souvent de sujets avancés (que j'ai personnellement du mal à comprendre), mais il est utile à titre d'exemple.

celenius
la source