Statistiques et Big Data

10

Pourquoi un estimateur doit-il être indépendant du paramètre?

Ceci est un extrait de "Statistiques mathématiques modernes avec applications" de Devore et al. Ce qui m'intrigue, c'est que l'estimateur ne peut s'empêcher d'être dépendant de , puisque l'échantillon dépend du

estimation

10

Analyse chronologique

Je mène des recherches sur la relation entre le rang de naissance d'une personne et le risque ultérieur d'obésité en utilisant les données de plusieurs cohortes de naissance d'un an (par exemple http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2908417/ ). Un défi majeur est que l'ordre de naissance est...

timelines

10

Comment visualiser la qualité de l'ajustement bayésien pour la régression logistique

Pour un problème de régression logistique bayésienne, j'ai créé une distribution prédictive postérieure. J'échantillonne à partir de la distribution prédictive et reçois des milliers d'échantillons de (0,1) pour chaque observation que j'ai. Visualiser la qualité de l'ajustement est loin d'être...

bayesian data-visualization classification goodness-of-fit binary-data

10

Comment extraire / calculer l'effet de levier et les distances de Cook pour les modèles d'effets mixtes linéaires

Est-ce que quelqu'un sait comment calculer (ou extraire) l'effet de levier et les distances de Cook pour un merobjet de classe (obtenu via le lme4package)? Je voudrais les représenter pour une analyse des

r mixed-model linear-model residuals leverage

10

Comment décidez-vous de vos pourcentages de train, de validation et de test?

Lors de la division de mes données étiquetées en ensembles de formation, de validation et de test, j'ai tout entendu du 50/25/25 au 85/5/10. Je suis sûr que cela dépend de la façon dont vous allez utiliser votre modèle et de la tendance à sur-adapter votre algorithme d'apprentissage. Existe-t-il un...

machine-learning cross-validation

10

Modèles à aléas temporels discrets (loglogiciel) dans R

L' survivalensemble Rsemble se concentrer sur des modèles de survie à temps continu. Je souhaite estimer une version en temps discret d'un modèle de risque proportionnel, le modèle log-log complémentaire. J'ai un modèle de survie assez simple, avec une simple censure à droite. Je sais qu'une façon...

r survival

10

Interprétation de la décomposition des séries chronologiques à l'aide de TBATS à partir du package de prévisions R

Je voudrais décomposer les données de séries chronologiques suivantes en composantes saisonnières, tendancielles et résiduelles. Les données sont un profil énergétique de refroidissement horaire d'un bâtiment commercial: TotalCoolingForDecompose.ts <- ts(TotalCoolingForDecompose,...

r time-series forecasting multiple-seasonalities tbats

10

Histogramme avec bacs uniformes vs non uniformes

Cette question décrit la différence fondamentale entre un histogramme uniforme et non uniforme. Et cette question traite de la règle de base pour choisir le nombre de cases d'un histogramme uniforme qui optimise (dans un certain sens) le degré auquel l'histogramme représente la distribution à...

nonparametric outliers histogram rule-of-thumb

10

Trouver un nombre connu de centres de cercle qui maximisent le nombre de points à une distance fixe

J'ai un ensemble de données 2D où je veux trouver les centres d'un nombre spécifié de centres de cercles ( ) qui maximisent le nombre total de points dans une distance spécifiée ( ).NNNRRR Par exemple, j'ai 10 000 points de données et je veux trouver les centres de cercles qui capturent autant de...

r clustering distance

10

Quelles sont les bonnes ressources pour l'histoire de l'analyse des séries chronologiques?

J'ai vérifié la réponse à cette question sur stats.stackexchange: Quelles sont les bonnes ressources fournissant un historique des statistiques? En effet, le livre de Stigler "Statistics on the Table" est excellent et j'ai hâte de le lire. Mais je suis plus intéressé par le développement de modèles...

time-series references arima history

10

Existe-t-il un moyen rapide de convertir les scores z en scores centiles?

Quelqu'un connaît-il une fonction ou un package R qui peut m'aider à transformer les scores z en scores de centile? L'objectif final est de classer ou classer un groupe de répondants en quatre catégories en fonction de la hauteur de leurs scores z (20% des scores les plus bas, 30%, 30%, 20% des...

r quantiles change-scores

10

Question sur l'exemple de fonction d'autocovariance

Je lis un livre d'analyse de séries chronologiques et la formule de l'échantillon d'autocovariance est définie dans le livre comme: γˆ(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)γ^(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)\widehat{\gamma}(h) = n^{-1}\displaystyle\sum_{t=1}^{n-h}(x_{t+h}-\bar{x})(x_t-\bar{x}) avecpour . est...

time-series probability mathematical-statistics

10

Comment LASSO sélectionne-t-il parmi les prédicteurs colinéaires?

Je cherche une réponse intuitive pourquoi un modèle GLM LASSO sélectionne un prédicteur spécifique dans un groupe de facteurs hautement corrélés, et pourquoi il le fait différemment, puis la meilleure sélection de fonctionnalités de sous-ensemble. D'après la géométrie du LASSO montrée sur la figure...

feature-selection lasso

10

Pourquoi le coefficient de variation n'est-il pas valide lors de l'utilisation de données avec des valeurs positives et négatives?

Je n'arrive pas à trouver une réponse définitive à ma question. Mes données se composent de plusieurs graphiques avec des moyennes mesurées variant de 0,27 à 0,57. Dans mon cas, toutes les valeurs de données sont positives, mais la mesure elle-même est basée sur un rapport de valeurs de réflectance...

descriptive-statistics

10

Simuler une normale contrainte sur la limite inférieure ou supérieure dans R

Je voudrais générer des données aléatoires à partir d'une distribution normale contrainte en utilisant R. Par exemple, je pourrais vouloir simuler une variable à partir d'une distribution normale avec mean=3, sd= 2et toutes les valeurs supérieures à 5 sont rééchantillonnées à partir de la même...

r normal-distribution simulation truncation

10

Quelle est la relation entre l'inférence causale et la prédiction?

Quelles sont les relations et les différences entre l'inférence causale et la prédiction (à la fois la classification et la régression)? Dans le contexte de prédiction, nous avons les variables prédicteur / entrée et les variables réponse / sortie. Est-ce à dire qu'il existe une relation causale...

prediction causality definition

10

Modèle d'historique d'événement à temps discret (survie) dans R

J'essaie d'adapter un modèle à temps discret dans R, mais je ne sais pas comment le faire. J'ai lu que vous pouvez organiser la variable dépendante dans différentes lignes, une pour chaque observation de temps, et utiliser la glmfonction avec un lien logit ou cloglog. En ce sens, j'ai trois...

r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

10

Nombre prévu de doublons (triplets, etc.) lors du dessin avec remplacement

J'ai le problème suivant: J'ai 100 articles uniques (n), et j'en sélectionne 43 (m) un à la fois (avec remplacement). Je dois résoudre pour le nombre attendu d'uniques (sélectionné une seule fois, k = 1), doubles (sélectionnés exactement deux fois k = 2), tripples (exactement k = 3), quads etc ......

probability expected-value birthday-paradox

10

Mesurer certains patients plus d'une fois

Je mène une étude clinique où je détermine une mesure anthropométrique des patients. Je sais comment gérer la situation où j'ai une mesure par patient: je fais un modèle, où j'ai un échantillon aléatoire d'une certaine densité , et je fais le truc habituel: écrire la probabilité de l'échantillon,...

inference

10

Quel est glm ou glmnet plus précis?

R glm et glmnet utilisent des algorithmes différents. Je remarque des différences non triviales entre les coefficients estimés lorsque j'utilise les deux. Je m'intéresse au moment où l'un est plus précis qu'un autre, et au moment de résoudre le compromis / l'exactitude. Plus précisément, je fais...

r generalized-linear-model glmnet