Ceci est un extrait de "Statistiques mathématiques modernes avec applications" de Devore et al. Ce qui m'intrigue, c'est que l'estimateur ne peut s'empêcher d'être dépendant de , puisque l'échantillon dépend du
Ceci est un extrait de "Statistiques mathématiques modernes avec applications" de Devore et al. Ce qui m'intrigue, c'est que l'estimateur ne peut s'empêcher d'être dépendant de , puisque l'échantillon dépend du
Je mène des recherches sur la relation entre le rang de naissance d'une personne et le risque ultérieur d'obésité en utilisant les données de plusieurs cohortes de naissance d'un an (par exemple http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2908417/ ). Un défi majeur est que l'ordre de naissance est...
Pour un problème de régression logistique bayésienne, j'ai créé une distribution prédictive postérieure. J'échantillonne à partir de la distribution prédictive et reçois des milliers d'échantillons de (0,1) pour chaque observation que j'ai. Visualiser la qualité de l'ajustement est loin d'être...
Est-ce que quelqu'un sait comment calculer (ou extraire) l'effet de levier et les distances de Cook pour un merobjet de classe (obtenu via le lme4package)? Je voudrais les représenter pour une analyse des
Lors de la division de mes données étiquetées en ensembles de formation, de validation et de test, j'ai tout entendu du 50/25/25 au 85/5/10. Je suis sûr que cela dépend de la façon dont vous allez utiliser votre modèle et de la tendance à sur-adapter votre algorithme d'apprentissage. Existe-t-il un...
L' survivalensemble Rsemble se concentrer sur des modèles de survie à temps continu. Je souhaite estimer une version en temps discret d'un modèle de risque proportionnel, le modèle log-log complémentaire. J'ai un modèle de survie assez simple, avec une simple censure à droite. Je sais qu'une façon...
Je voudrais décomposer les données de séries chronologiques suivantes en composantes saisonnières, tendancielles et résiduelles. Les données sont un profil énergétique de refroidissement horaire d'un bâtiment commercial: TotalCoolingForDecompose.ts <- ts(TotalCoolingForDecompose,...
Cette question décrit la différence fondamentale entre un histogramme uniforme et non uniforme. Et cette question traite de la règle de base pour choisir le nombre de cases d'un histogramme uniforme qui optimise (dans un certain sens) le degré auquel l'histogramme représente la distribution à...
J'ai un ensemble de données 2D où je veux trouver les centres d'un nombre spécifié de centres de cercles ( ) qui maximisent le nombre total de points dans une distance spécifiée ( ).NNNRRR Par exemple, j'ai 10 000 points de données et je veux trouver les centres de cercles qui capturent autant de...
J'ai vérifié la réponse à cette question sur stats.stackexchange: Quelles sont les bonnes ressources fournissant un historique des statistiques? En effet, le livre de Stigler "Statistics on the Table" est excellent et j'ai hâte de le lire. Mais je suis plus intéressé par le développement de modèles...
Quelqu'un connaît-il une fonction ou un package R qui peut m'aider à transformer les scores z en scores de centile? L'objectif final est de classer ou classer un groupe de répondants en quatre catégories en fonction de la hauteur de leurs scores z (20% des scores les plus bas, 30%, 30%, 20% des...
Je lis un livre d'analyse de séries chronologiques et la formule de l'échantillon d'autocovariance est définie dans le livre comme: γˆ(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)γ^(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)\widehat{\gamma}(h) = n^{-1}\displaystyle\sum_{t=1}^{n-h}(x_{t+h}-\bar{x})(x_t-\bar{x}) avecpour . est...
Je cherche une réponse intuitive pourquoi un modèle GLM LASSO sélectionne un prédicteur spécifique dans un groupe de facteurs hautement corrélés, et pourquoi il le fait différemment, puis la meilleure sélection de fonctionnalités de sous-ensemble. D'après la géométrie du LASSO montrée sur la figure...
Je n'arrive pas à trouver une réponse définitive à ma question. Mes données se composent de plusieurs graphiques avec des moyennes mesurées variant de 0,27 à 0,57. Dans mon cas, toutes les valeurs de données sont positives, mais la mesure elle-même est basée sur un rapport de valeurs de réflectance...
Je voudrais générer des données aléatoires à partir d'une distribution normale contrainte en utilisant R. Par exemple, je pourrais vouloir simuler une variable à partir d'une distribution normale avec mean=3, sd= 2et toutes les valeurs supérieures à 5 sont rééchantillonnées à partir de la même...
Quelles sont les relations et les différences entre l'inférence causale et la prédiction (à la fois la classification et la régression)? Dans le contexte de prédiction, nous avons les variables prédicteur / entrée et les variables réponse / sortie. Est-ce à dire qu'il existe une relation causale...
J'essaie d'adapter un modèle à temps discret dans R, mais je ne sais pas comment le faire. J'ai lu que vous pouvez organiser la variable dépendante dans différentes lignes, une pour chaque observation de temps, et utiliser la glmfonction avec un lien logit ou cloglog. En ce sens, j'ai trois...
J'ai le problème suivant: J'ai 100 articles uniques (n), et j'en sélectionne 43 (m) un à la fois (avec remplacement). Je dois résoudre pour le nombre attendu d'uniques (sélectionné une seule fois, k = 1), doubles (sélectionnés exactement deux fois k = 2), tripples (exactement k = 3), quads etc ......
Je mène une étude clinique où je détermine une mesure anthropométrique des patients. Je sais comment gérer la situation où j'ai une mesure par patient: je fais un modèle, où j'ai un échantillon aléatoire d'une certaine densité , et je fais le truc habituel: écrire la probabilité de l'échantillon,...
R glm et glmnet utilisent des algorithmes différents. Je remarque des différences non triviales entre les coefficients estimés lorsque j'utilise les deux. Je m'intéresse au moment où l'un est plus précis qu'un autre, et au moment de résoudre le compromis / l'exactitude. Plus précisément, je fais...