Questions marquées «sample»

13

Utiliser la longueur moyenne et le poids moyen pour calculer l'IMC moyen?

Est-il valable d'utiliser la longueur moyenne ( ) et le poids moyen ( )) d'une population donnée pour calculer l'indice de masse corporelle moyen ( ) pour cette population?hhhwwwBMI=wh2BMI=wh2BMI =

mean sample population

12

ANOVA: test d'hypothèse de normalité pour de nombreux groupes avec peu d'échantillons par groupe

Supposons la situation suivante: nous avons un grand nombre (par exemple 20) avec un petit groupe (par exemple n = 3). J'ai remarqué que si je génère des valeurs à partir de la distribution uniforme, les résidus sembleront approximativement normaux même si la distribution d'erreur est uniforme. Le...

anova normal-distribution small-sample

12

Comment prélever de nombreux échantillons de 10 sur une grande liste, sans remplacement global

J'ai un grand ensemble de données (20 000 points de données), à partir duquel je veux prélever des échantillons répétés de 10 points de données. Cependant, une fois que j'ai sélectionné ces 10 points de données, je veux qu'ils ne soient plus sélectionnés. J'ai essayé d'utiliser la samplefonction,...

r sample

12

tests vs tests?

J'essaie de comprendre exactement quelle est la différence entre les tests et les tests .ztttzzz Pour autant que je sache, pour les deux classes de tests, on utilise la même statistique de test, quelque chose de la forme b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})}...

hypothesis-testing t-test small-sample

12

Différence entre les prévisions «dans l'échantillon» et «pseudo hors échantillon»

Existe-t-il une différence explicite entre les prévisions dans l'échantillon et les prévisions pseudo-hors échantillon . Les deux sont conçus dans le contexte de l'évaluation et de la comparaison des modèles de

forecasting model-comparison out-of-sample in-sample

12

Pourquoi la méthode d'exclusion (fractionnement des données en formation et tests) n'est-elle pas utilisée dans les statistiques classiques?

Dans mon exposition en classe à l'exploration de données, la méthode de rétention a été introduite comme moyen d'évaluer les performances du modèle. Cependant, lorsque j'ai suivi mon premier cours sur les modèles linéaires, cela n'a pas été introduit comme moyen de validation ou d'évaluation des...

regression validation model-evaluation out-of-sample

12

Les compétitions Kaggle sont-elles gagnées par hasard?

Les compétitions de Kaggle déterminent les classements finaux sur la base d'un ensemble de tests en suspens. Un ensemble de test retenu est un échantillon; il peut ne pas être représentatif de la population modélisée. Étant donné que chaque soumission est comme une hypothèse, l'algorithme qui a...

machine-learning probability hypothesis-testing sample kaggle

11

Si ce n'est pas un Poisson, alors quelle est cette distribution?

J'ai un ensemble de données contenant le nombre d'actions effectuées par des individus au cours de 7 jours. L'action spécifique ne devrait pas être pertinente pour cette question. Voici quelques statistiques descriptives pour l'ensemble de données: GammeSignifierVarianceNombre d'observations0 -...

r distributions poisson-distribution mean sample

11

Ajustement de modèles multiniveaux à des données d'enquête complexes dans R

Je cherche des conseils sur la façon d'analyser des données d'enquête complexes avec des modèles à plusieurs niveaux dans R. J'ai utilisé le surveypackage pour pondérer les probabilités de sélection inégales dans les modèles à un niveau, mais ce package n'a pas de fonctions pour la modélisation à...

r mixed-model weighted-sampling cluster-sample

11

Estimer la variance d'une population si la moyenne de la population est connue

Je sais que nous utilisons pour estimer la variance d'une population. Je me souviens d'une vidéo de Khan Academy où l'intuition donnée était que notre moyenne estimée est probablement un peu différente de la réelle, de sorte que les distances seraient en fait plus grandes, donc nous divisons par...

variance sample

11

La randomisation est-elle fiable avec de petits échantillons?

Jerome Cornfield a écrit: L'un des meilleurs fruits de la révolution des pêcheurs a été l'idée de la randomisation, et les statisticiens qui sont d'accord sur peu d'autres choses sont au moins d'accord là-dessus. Mais malgré cet accord et malgré l'utilisation généralisée des procédures d'allocation...

small-sample random-allocation

11

SurveyMonkey ignore-t-il que vous obtenez un échantillon non aléatoire?

SurveyMonkey comporte des étapes et un graphique pour vous permettre de déterminer la taille de l'échantillon dont vous avez besoin pour une marge d'erreur ou un intervalle de confiance donné, en fonction de la taille de votre population. Taille de l'échantillon SurveyMonkey Ce tableau ignore-t-il...

confidence-interval sample-size survey sample

11

Quelle est la manière la plus appropriée de créer un ensemble d'exclusion: supprimer certains sujets ou supprimer certaines observations de chaque sujet?

J'ai un ensemble de données avec 26 fonctionnalités et 31000 lignes. C'est l'ensemble de données de 38 sujets. C'est pour un système biométrique. Je veux donc pouvoir identifier les sujets. Afin d'avoir un ensemble de tests, je sais que je dois supprimer certaines valeurs. Alors, que vaut-il mieux...

machine-learning cross-validation out-of-sample

10

Une '' variable significative '' qui n'améliore pas les prévisions hors échantillon - comment interpréter?

J'ai une question qui, je pense, sera assez basique pour beaucoup d'utilisateurs. J'utilise des modèles de régression linéaire pour (i) étudier la relation entre plusieurs variables explicatives et ma variable de réponse et (ii) prédire ma variable de réponse en utilisant les variables...

statistical-significance predictive-models p-value prediction out-of-sample

10

Pourquoi une proportion d'échantillon n'a-t-elle pas également une distribution binomiale

Dans un cadre binomial, la variable aléatoire, X, qui donne le nombre de succès est distribuée binomialement. La proportion d'échantillon peut alors être calculée comme où est la taille de votre échantillon. Mon manuel déclare queXnXn\frac{X}{n}nnn Cette proportion n'a pas de distribution binomiale...

distributions binomial proportion sample

10

Comment calculer sur l'échantillon R au carré?

Je sais que cela a probablement été discuté ailleurs, mais je n'ai pas pu trouver de réponse explicite. J'essaie d'utiliser la formule pour calculer hors échantillon d'un modèle de régression linéaire, où est la somme des carrés des résidus et est la somme totale des carrés. Pour l'ensemble de...

regression machine-learning r-squared out-of-sample

10

La modélisation avec des forêts aléatoires nécessite-t-elle une validation croisée?

Pour autant que je l'ai vu, les opinions ont tendance à différer à ce sujet. Les meilleures pratiques dicteraient certainement l'utilisation de la validation croisée (surtout si l'on compare les RF avec d'autres algorithmes sur le même ensemble de données). D'un autre côté, la source d'origine...

cross-validation random-forest overfitting out-of-sample

10

R régression linéaire variable catégorielle valeur «cachée»

Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant,...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

Limites des méthodes d'ensemble arborescentes dans les petits problèmes n, grands p?

Les méthodes d'ensemble basées sur des arbres telles que la forêt aléatoire et les dérivés subséquents (par exemple, la forêt conditionnelle), prétendent toutes être utiles dans les problèmes dits «petits n , grands p », pour identifier l'importance relative des variables. En effet, cela semble...

random-forest small-sample ensemble

10

Estimation de la taille d'une intersection de plusieurs ensembles à l'aide d'un échantillon d'un ensemble

Je travaille sur un algorithme qui doit calculer la taille d'un ensemble généré par les intersections d'au moins 2 ensembles. Plus précisement: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Les ensembles qui sont intersectés sont générés par des requêtes SQL, et dans un effort...

error sample