Statistiques et Big Data

18

Quelle est la bonne façon de tester les différences significatives entre les coefficients?

J'espère que quelqu'un pourra m'aider à redresser un point de confusion. Disons que je veux tester si 2 ensembles de coefficients de régression sont significativement différents les uns des autres, avec la configuration suivante: yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i , avec 5...

regression hypothesis-testing multiple-regression

18

Distribution qui décrit la différence entre les variables distribuées binomiales négatives?

Une distribution de Skellam décrit la différence entre deux variables qui ont des distributions de Poisson. Existe-t-il une distribution similaire qui décrit la différence entre les variables qui suivent des distributions binomiales négatives? Mes données sont produites par un processus de Poisson,...

distributions modeling poisson-distribution negative-binomial skellam

18

Comment calculer les erreurs-types pour les estimations du modèle à effets mixtes?

En particulier, comment calculer les erreurs-types des effets fixes dans un modèle linéaire à effets mixtes (au sens fréquentiste)? J'ai été amené à croire que les estimations typiques ( ), telles que celles présentées dans Laird et Ware [1982] donneront aux SE que sont sous-estimés en taille parce...

r mixed-model random-effects-model

18

Existe-t-il un équivalent R de SAS PROC FREQ?

Quelqu'un connaît-il un R équivalent à SAS PROC FREQ? J'essaie de générer des statistiques descriptives résumées pour plusieurs variables à la

r descriptive-statistics sas

18

Comment le cadre bayésien est-il meilleur dans l'interprétation lorsque nous utilisons habituellement des priors non informatifs ou subjectifs?

On fait souvent valoir que le cadre bayésien a un grand avantage dans l'interprétation (sur fréquentiste), car il calcule la probabilité d'un paramètre étant donné les données - au lieu de comme dans le cadre fréquentiste. Jusqu'ici tout va bien.p ( x | θ )p ( θ | x )p(θ|x)p(\theta|x)p ( x | θ...

bayesian interpretation prior likelihood posterior

18

Pourquoi les tests du chi carré utilisent-ils le nombre attendu comme variance?

Dans le test χ2χ2\chi^2 , quelle est la base de l'utilisation de la racine carrée des dénombrements attendus comme écarts-types (c.-à-d. Les dénombrements attendus comme variances) de chacune des distributions normales? La seule chose que j'ai pu trouver en discutant du tout est...

hypothesis-testing chi-squared

18

Importance variable de GLMNET

Je cherche à utiliser le lasso comme méthode pour sélectionner des entités et ajuster un modèle prédictif avec une cible binaire. Voici un code avec lequel je jouais pour essayer la méthode avec régression logistique régularisée. Ma question est de savoir si j'obtiens un groupe de variables...

logistic importance glmnet

18

Classification de texte à grande échelle

Je cherche à faire une classification sur mes données texte. J'ai 300 classes200 documents de formation par classe (donc 60000 documents in total) et cela est susceptible d'entraîner des données dimensionnelles très élevées (nous pouvons rechercher plus de 1 million de dimensions ). Je voudrais...

machine-learning classification text-mining

18

Quelles méthodes de corrélation robustes sont réellement utilisées?

Je prévois de faire une étude de simulation où je compare les performances de plusieurs techniques de corrélation robustes avec différentes distributions (asymétriques, avec des valeurs aberrantes, etc.). Par robuste , je veux dire le cas idéal d'être robuste contre a) les distributions...

r correlation robust spearman-rho winsorizing

18

Quelle est la différence entre «marge d'erreur» et «erreur standard»?

La "marge d'erreur" est-elle la même que "l'erreur standard"? Un exemple (simple) pour illustrer la différence serait

definition

18

Intervalle de confiance étroit - précision plus élevée?

J'ai deux questions sur les intervalles de confiance: Apparemment, un intervalle de confiance étroit implique qu'il y a une moindre chance d'obtenir une observation dans cet intervalle, par conséquent, notre précision est plus élevée. Un intervalle de confiance à 95% est également plus étroit qu'un...

confidence-interval

18

Comment puis-je obtenir une ANOVA globale significative mais aucune différence significative par paire avec la procédure de Tukey?

J'ai joué avec R an ANOVA et j'ai eu des différences significatives. Cependant, en vérifiant quelles paires étaient significativement différentes en utilisant la procédure de Tukey, je n'en ai pas obtenu. Comment cela est-il possible? Voici le code: fit5_snow<- lm(Response ~ Stimulus,...

anova post-hoc tukey-hsd

18

Marche aléatoire avec élan

Considérez une marche aléatoire entière commençant à 0 avec les conditions suivantes: La première étape est plus ou moins 1, avec une probabilité égale. Chaque étape future est: 60% susceptibles d'être dans la même direction que l'étape précédente, 40% susceptibles d'être dans la direction opposée...

stochastic-processes randomness random-walk

18

Pourquoi le classificateur de régression d'arête fonctionne-t-il assez bien pour la classification de texte?

Au cours d'une expérience de classification de texte, j'ai trouvé un classificateur de crête générant des résultats qui dépassent constamment les tests parmi les classificateurs qui sont le plus souvent mentionnés et appliqués pour les tâches d'exploration de texte, tels que SVM, NB, kNN, etc....

machine-learning classification text-mining ridge-regression

18

Comment calculer la perplexité d'un récalcitrant avec l'allocation de Dirichlet latente?

Je suis confus sur la façon de calculer la perplexité d'un échantillon d'exclusion lors de l'allocation de Dirichlet latente (LDA). Les articles sur le sujet passent dessus, me faisant penser que je manque quelque chose d'évident ... La perplexité est considérée comme une bonne mesure de la...

text-mining topic-models

18

Existe-t-il une représentation graphique du compromis biais-variance dans la régression linéaire?

Je souffre d'une panne d'électricité. On m'a présenté l'image suivante pour présenter le compromis biais-variance dans le contexte de la régression linéaire: Je peux voir qu'aucun des deux modèles ne correspond bien - le "simple" n'apprécie pas la complexité de la relation XY et le "complexe" est...

regression variance bias

18

Fonctionnement du test Chi Squared de Pearson

À la suite d'un récent vote à la baisse, j'ai essayé de vérifier ma compréhension du test Pearson Chi Squared. J'utilise généralement la statistique du chi carré (ou la statistique du chi carré réduit) pour ajuster ou vérifier l'ajustement résultant. Dans ce cas, la variance n'est généralement pas...

chi-squared histogram

18

Comment interpréter les coefficients d'une régression logistique?

J'ai la fonction de probabilité suivante: Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} où z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. Mon modèle ressemble Pr(Y=1)=11+exp(−[−3.92+0.014×(gender)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(gender)])\Pr(Y=1) = \frac{1}{1 +...

probability logistic logit

18

Meilleure façon d'effectuer une SVM multiclasse

Je sais que le SVM est un classificateur binaire. Je voudrais l'étendre au SVM multi-classes. Quelle est la meilleure et peut-être la plus simple façon de la réaliser? code: dans MATLAB u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u)))...

machine-learning matlab svm multi-class

18

Comment l'analyse discriminante linéaire réduit-elle les dimensions?

Il y a des mots de "Les éléments de l'apprentissage statistique" à la page 91: Les K centroïdes dans l'espace d'entrée de dimension p s'étendent sur la plupart des sous-espaces dimensionnels de K-1, et si p est beaucoup plus grand que K, ce sera une baisse considérable de dimension. J'ai deux...

machine-learning discriminant-analysis