Statistiques et Big Data

10

Diagnostics résiduels et homogénéité des variances dans le modèle mixte linéaire

Avant de poser cette question, j'ai fait une recherche sur notre site et j'ai trouvé beaucoup de questions similaires (comme ici , ici et ici ). Mais je pense que ces questions connexes n'ont pas été bien répondues ou discutées, je voudrais donc soulever à nouveau cette question. Je pense qu'il...

10

Estimateur du maximum de vraisemblance pour un minimum de distributions exponentielles

Je suis coincé sur la façon de résoudre ce problème. Donc, nous avons deux séquences de variables aléatoires, et Y i pour i = 1 , . . . , n . Maintenant, X et Y sont des distributions exponentielles indépendantes avec les paramètres λ et μ . Cependant, au lieu d'observer X et Y , on observe à la...

self-study maximum-likelihood exponential minimum

10

Confus au sujet de l'explication visuelle des vecteurs propres: comment des ensembles de données visuellement différents peuvent-ils avoir les mêmes vecteurs propres?

De nombreux manuels de statistiques fournissent une illustration intuitive de ce que sont les vecteurs propres d'une matrice de covariance: Les vecteurs u et z forment les vecteurs propres (enfin les axes propres). C'est logique. Mais la seule chose qui me déroute, c'est que nous extrayons des...

correlation pca covariance-matrix eigenvalues

10

Pourquoi Adaboost avec des arbres de décision?

J'ai lu un peu sur le renforcement des algorithmes pour les tâches de classification et Adaboost en particulier. Je comprends que le but d'Adaboost est de prendre plusieurs "apprenants faibles" et, à travers un ensemble d'itérations sur les données de formation, de pousser les classificateurs à...

machine-learning classification algorithms boosting

10

bayesglm (bras) contre MCMCpack

Les deux bayesglm()(dans le bras package R) et diverses fonctions dans le paquet MCMCpack sont destinés à faire l' estimation bayésienne des modèles linéaires généralisés, mais je ne suis pas sûr qu'ils calcul fait la même chose. Les fonctions MCMCpack utilisent la chaîne de Markov Monte Carlo pour...

bayesian generalized-linear-model

10

Existe-t-il un moyen élégant / perspicace de comprendre cette identité de régression linéaire pour plusieurs ?

En régression linéaire, je suis tombé sur un résultat délicieux que si nous ajustons le modèle E[Y]=β1X1+β2X2+c,E[Y]=β1X1+β2X2+c,E[Y] = \beta_1 X_1 + \beta_2 X_2 + c, puis, si nous normalisons et données , et ,YYYX1X1X_1X2X2X_2 R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R^2 =...

regression linear-model r-squared proof

10

Comment dois-je modéliser les interactions entre les variables explicatives lorsque l'une d'entre elles peut avoir des termes quadratiques et cubiques?

J'espère sincèrement avoir formulé cette question de manière à ce qu'elle puisse être résolue définitivement - sinon, faites-le moi savoir et je vais réessayer! Je devrais également, je suppose, noter que j'utiliserai R pour ces analyses. J'ai plusieurs mesures plant performance (Ys)dont je...

hypothesis-testing mixed-model interaction nonlinear regression-strategies

10

La sortie de Scikit SVM dans la classification multiclasse donne toujours la même étiquette

J'utilise actuellement Scikit learn avec le code suivant: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') puis ajuster et prévoir pour un ensemble de données avec 7 étiquettes différentes. J'ai une sortie bizarre. Quelle que soit la technique de...

svm scikit-learn libsvm multi-class optunity

10

Cohérence de 2SLS avec la variable endogène binaire

J'ai lu que l'estimateur 2SLS est toujours cohérent même avec la variable endogène binaire ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). Dans un premier temps, un modèle de traitement probit sera exécuté au lieu d'un modèle linéaire. Existe-t-il une preuve formelle pour montrer...

probit instrumental-variables endogeneity

10

Est -

Dans le test d'hypothèse statistique, l'hypothèse nulle prend souvent la forme (au moins dans les livres que j'ai lus): H 0 : θ = θ 0 H 0 : θ ≤ θ 0 ou H 0 : θ 1 ≤ θ ≤ θ 2H0H0H_0H0:H0:θ=θ0θ≤θ0H0:θ=θ0H0:θ≤θ0 \begin{align*} H_0:&\theta=\theta_0\\ H_0:&\theta\le\theta_0 \end{align*}...

hypothesis-testing

10

Régression avec variable indépendante inverse

Supposons que j'ai un -vecteur Y de variables dépendantes et un N -vecteur X de variable indépendante. Lorsque Y est tracé contre 1NNNYOuiYNNNXXXYOuiY , je vois qu'il y a une relation linéaire (tendance à la hausse) entre les deux. Maintenant, cela aussi signifie qu'il ya une tendancebaisse...

regression data-transformation linear-model

10

Comment déterminer la prévisibilité des séries chronologiques?

L'un des problèmes importants auxquels sont confrontés les prévisionnistes est de savoir si la série donnée peut être prévue ou non? Je suis tombé sur un article intitulé " L'entropie comme indicateur a priori de la prévisibilité " de Peter Catt qui utilise l' entropie approximative (ApEn) comme...

time-series forecasting entropy maximum-entropy forecastability

10

Existe-t-il des équivalents normalisés de l'asymétrie et du kurtosis?

Quel serait l'équivalent normalisé de l'asymétrie qui aurait la même unité que les données? De même, quel serait l'équivalent normalisé de Kurtosis? Idéalement, ces fonctions devraient être linéaires par rapport aux données, ce qui signifie que si toutes les observations devaient être multipliées...

skewness kurtosis

10

Prédiction probabiliste de forêt aléatoire vs vote majoritaire

Scikit learn semble utiliser la prédiction probabiliste au lieu du vote majoritaire pour la technique d'agrégation du modèle sans expliquer pourquoi (1.9.2.1. Forêts aléatoires). Y a-t-il une explication claire pourquoi? De plus, existe-t-il un bon article ou article de synthèse sur les différentes...

random-forest python scikit-learn aggregation bagging

10

Vérifier l'état du processus de formation dans R [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 4 ans . Je forme un modèle utilisant le caretpackage en R pendant près de 3...

r machine-learning svm caret

10

Modèles linéaires généralisés vs modèles Timseries pour la prévision

Quelles sont les différences dans l'utilisation de modèles linéaires généralisés, tels que la détermination automatique de pertinence (ARD) et la régression de crête, par rapport aux modèles de séries chronologiques comme Box-Jenkins (ARIMA) ou le lissage exponentiel pour les prévisions?...

time-series generalized-linear-model forecasting

10

Analyse de séries chronologiques vs apprentissage automatique?

Juste une question générale. Si vous avez des données de séries chronologiques, quand est-il préférable d'utiliser des techniques de séries chronologiques (aka, ARCH, GARCH, etc.) plutôt que des techniques d'apprentissage machine / statistique (KNN, régression)? S'il y a une question similaire qui...

time-series machine-learning

10

Montrer que si

Actuellement coincé là-dessus, je sais que je devrais probablement utiliser l'écart moyen de la distribution binomiale mais je ne peux pas le

self-study binomial mean expected-value proof

10

Meilleure méthode pour créer des courbes de croissance

Je dois créer des graphiques (similaires aux courbes de croissance) pour les enfants de 5 à 15 ans (seulement 5,6,7, etc.; il n'y a pas de valeurs fractionnaires comme 2,6 ans) pour une variable de santé qui est non négative, continue et la plage de 50 à 150 (avec seulement quelques valeurs en...

ordinal-data quantiles regression-strategies generalized-least-squares growth-model

10

Comment extraire des informations d'une matrice de nuage de points lorsque vous avez un grand N, des données discrètes et de nombreuses variables?

Je joue avec l'ensemble de données sur le cancer du sein et j'ai créé un nuage de points de tous les attributs pour avoir une idée de ceux qui ont le plus d'effet sur la prédiction de la classe malignant(bleu) de benign(rouge). Je comprends que la ligne représente l'axe des x et la colonne...

r data-visualization interpretation scatterplot