Statistiques et Big Data

35
Comment choisir une méthode de clustering? Comment valider une solution de cluster (pour justifier le choix de la méthode)?

L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique)....

35
Linéarité de la PCA

La PCA est considérée comme une procédure linéaire, toutefois: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), où . Cela revient à dire que les vecteurs propres obtenus par les PCA sur les matrices...

34
Pourquoi y a-t-il une différence entre le calcul manuel d'un intervalle de confiance de 95% selon la régression logistique et l'utilisation de la fonction confint () dans R?

Cher tout le monde - J'ai remarqué quelque chose d'étrange que je ne peux pas expliquer, pouvez-vous? En résumé: l'approche manuelle pour calculer un intervalle de confiance dans un modèle de régression logistique et la fonction R confint()donnent des résultats différents. Je suis passé par la...

34
Trouver la valeur attendue à l'aide de CDF

Je vais commencer par dire qu'il s'agit d'un problème de devoirs tout droit sorti du livre. J'ai passé quelques heures à chercher comment trouver les valeurs attendues et j'ai déterminé que je ne comprenais rien. Soit XXX le CDF F(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1 . Recherchez...