Est-il valable d'utiliser la longueur moyenne ( ) et le poids moyen ( )) d'une population donnée pour calculer l'indice de masse corporelle moyen ( ) pour cette population?hhhwwwBMI=wh2BMI=wh2BMI =
Est-il valable d'utiliser la longueur moyenne ( ) et le poids moyen ( )) d'une population donnée pour calculer l'indice de masse corporelle moyen ( ) pour cette population?hhhwwwBMI=wh2BMI=wh2BMI =
Supposons la situation suivante: nous avons un grand nombre (par exemple 20) avec un petit groupe (par exemple n = 3). J'ai remarqué que si je génère des valeurs à partir de la distribution uniforme, les résidus sembleront approximativement normaux même si la distribution d'erreur est uniforme. Le...
J'ai un grand ensemble de données (20 000 points de données), à partir duquel je veux prélever des échantillons répétés de 10 points de données. Cependant, une fois que j'ai sélectionné ces 10 points de données, je veux qu'ils ne soient plus sélectionnés. J'ai essayé d'utiliser la samplefonction,...
J'essaie de comprendre exactement quelle est la différence entre les tests et les tests .ztttzzz Pour autant que je sache, pour les deux classes de tests, on utilise la même statistique de test, quelque chose de la forme b^−Cseˆ(b^)b^−Cse^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})}...
Existe-t-il une différence explicite entre les prévisions dans l'échantillon et les prévisions pseudo-hors échantillon . Les deux sont conçus dans le contexte de l'évaluation et de la comparaison des modèles de
Dans mon exposition en classe à l'exploration de données, la méthode de rétention a été introduite comme moyen d'évaluer les performances du modèle. Cependant, lorsque j'ai suivi mon premier cours sur les modèles linéaires, cela n'a pas été introduit comme moyen de validation ou d'évaluation des...
Les compétitions de Kaggle déterminent les classements finaux sur la base d'un ensemble de tests en suspens. Un ensemble de test retenu est un échantillon; il peut ne pas être représentatif de la population modélisée. Étant donné que chaque soumission est comme une hypothèse, l'algorithme qui a...
J'ai un ensemble de données contenant le nombre d'actions effectuées par des individus au cours de 7 jours. L'action spécifique ne devrait pas être pertinente pour cette question. Voici quelques statistiques descriptives pour l'ensemble de données: GammeSignifierVarianceNombre d'observations0 -...
Je cherche des conseils sur la façon d'analyser des données d'enquête complexes avec des modèles à plusieurs niveaux dans R. J'ai utilisé le surveypackage pour pondérer les probabilités de sélection inégales dans les modèles à un niveau, mais ce package n'a pas de fonctions pour la modélisation à...
Je sais que nous utilisons pour estimer la variance d'une population. Je me souviens d'une vidéo de Khan Academy où l'intuition donnée était que notre moyenne estimée est probablement un peu différente de la réelle, de sorte que les distances seraient en fait plus grandes, donc nous divisons par...
Jerome Cornfield a écrit: L'un des meilleurs fruits de la révolution des pêcheurs a été l'idée de la randomisation, et les statisticiens qui sont d'accord sur peu d'autres choses sont au moins d'accord là-dessus. Mais malgré cet accord et malgré l'utilisation généralisée des procédures d'allocation...
SurveyMonkey comporte des étapes et un graphique pour vous permettre de déterminer la taille de l'échantillon dont vous avez besoin pour une marge d'erreur ou un intervalle de confiance donné, en fonction de la taille de votre population. Taille de l'échantillon SurveyMonkey Ce tableau ignore-t-il...
J'ai un ensemble de données avec 26 fonctionnalités et 31000 lignes. C'est l'ensemble de données de 38 sujets. C'est pour un système biométrique. Je veux donc pouvoir identifier les sujets. Afin d'avoir un ensemble de tests, je sais que je dois supprimer certaines valeurs. Alors, que vaut-il mieux...
J'ai une question qui, je pense, sera assez basique pour beaucoup d'utilisateurs. J'utilise des modèles de régression linéaire pour (i) étudier la relation entre plusieurs variables explicatives et ma variable de réponse et (ii) prédire ma variable de réponse en utilisant les variables...
Dans un cadre binomial, la variable aléatoire, X, qui donne le nombre de succès est distribuée binomialement. La proportion d'échantillon peut alors être calculée comme où est la taille de votre échantillon. Mon manuel déclare queXnXn\frac{X}{n}nnn Cette proportion n'a pas de distribution binomiale...
Je sais que cela a probablement été discuté ailleurs, mais je n'ai pas pu trouver de réponse explicite. J'essaie d'utiliser la formule pour calculer hors échantillon d'un modèle de régression linéaire, où est la somme des carrés des résidus et est la somme totale des carrés. Pour l'ensemble de...
Pour autant que je l'ai vu, les opinions ont tendance à différer à ce sujet. Les meilleures pratiques dicteraient certainement l'utilisation de la validation croisée (surtout si l'on compare les RF avec d'autres algorithmes sur le même ensemble de données). D'un autre côté, la source d'origine...
Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant,...
Les méthodes d'ensemble basées sur des arbres telles que la forêt aléatoire et les dérivés subséquents (par exemple, la forêt conditionnelle), prétendent toutes être utiles dans les problèmes dits «petits n , grands p », pour identifier l'importance relative des variables. En effet, cela semble...
Je travaille sur un algorithme qui doit calculer la taille d'un ensemble généré par les intersections d'au moins 2 ensembles. Plus précisement: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Les ensembles qui sont intersectés sont générés par des requêtes SQL, et dans un effort...