Statistiques et Big Data

35
Contraste de signification dans la régression linéaire: test t significatif pour un coefficient vs une statistique F globale non significative

Je fais correspondre un modèle de régression linéaire multiple entre 4 variables catégoriques (avec 4 niveaux chacune) et une sortie numérique. Mon jeu de données a 43 observations. La régression me donne les suivantes ppp -values du ttt -test pour chaque coefficient de pente:...

35
Comment prouver que la fonction de base radiale est un noyau?

Comment prouver que la fonction de base radiale est un noyau? Pour autant que je sache, afin de prouver cela, nous devons prouver l'un des éléments suivants:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) Pour tout ensemble de vecteurs matrice K ( x...

35
PCA et train / test split

J'ai un jeu de données pour lequel j'ai plusieurs jeux d'étiquettes binaires. Pour chaque ensemble d'étiquettes, je forme un classificateur, en l'évaluant par validation croisée. Je souhaite réduire la dimensionnalité à l'aide de l'analyse en composantes principales (ACP). Ma question est: Est-il...

35
Qu'est-ce que l'erreur standard résiduelle?

Lors de l'exécution d'un modèle de régression multiple dans R, l'une des sorties est une erreur standard résiduelle de 0,0589 sur 95 161 degrés de liberté. Je sais que les 95 161 degrés de liberté sont exprimés par la différence entre le nombre d'observations dans mon échantillon et le nombre de...

35
Comment résoudre le paradoxe de Simpson?

Le paradoxe de Simpson est un casse-tête classique abordé dans les cours d'introduction aux statistiques dans le monde entier. Cependant, mon cours se contentait de noter simplement qu’un problème existait et n’apportait pas de solution. Je voudrais savoir comment résoudre le paradoxe. C’est-à-dire...

35
Détection des valeurs aberrantes dans les séries chronologiques (LS / AO / TC) à l'aide du paquet tsoutliers en R. Comment représenter les valeurs aberrantes au format équation?

Commentaires: Tout d' abord je voudrais dire un grand merci à l' auteur du nouveau tsoutliers paquet qui met en œuvre de Chen et Liu séries temporelles de détection des valeurs aberrantes qui a été publiée dans le Journal de l'American Statistical Association en 1993 dans le logiciel Open Source...