Statistiques et Big Data

8

Existe-t-il un moyen de forcer une relation entre les coefficients de régression logistique?

Je voudrais spécifier un modèle de régression logistique où j'ai la relation suivante: E[Yi|Xi]=f(βxi1+β2xi2)E[Yi|Xi]=f(βxi1+β2xi2)E[Y_i|X_i] = f(\beta x_{i1} + \beta^2x_{i2}) où est la fonction logit inverse.fff Existe-t-il un moyen "rapide" de le faire avec des fonctions R préexistantes ou...

r logistic generalized-linear-model nonlinear-regression

8

Comment utiliser le test Hausman pour la discrimination fondée sur le sexe?

J'essaie d'estimer l'écart salarial entre hommes et femmes pour les employés de bureau masculins et féminins d'une grande entreprise suédoise afin de vérifier s'il existe une discrimination fondée sur le sexe. Le test de Hausman rejette la valeur nulle selon laquelle les effets fixes individuels...

econometrics panel-data random-effects-model fixed-effects-model hausman

8

Un CDF à partir de données peut-il se croiser avec un autre CDF

Étant donné deux ensembles de données de nombres réels positifs X et Y, tous deux de la même taille et 0 <= Y <= X pour chaque ligne; le CDF empirique de X peut-il jamais croiser le CDF empirique de

distributions cdf

8

Les données déséquilibrées à échantillonnage supérieur ou inférieur sont-elles réellement efficaces? Pourquoi?

J'entends souvent un échantillonnage à la hausse ou à la baisse des données discutées comme moyen de traiter la classification des données déséquilibrées. Je comprends que cela pourrait être utile si vous travaillez avec un classificateur binaire (par opposition à un classificateur probabiliste ou...

classification roc unbalanced-classes

8

Pourquoi les mélanges de prieurs conjugués sont importants?

J'ai une question sur le mélange de prieurs conjugués. J'ai appris et dit le mélange de prieurs conjugués à quelques reprises lorsque j'apprends le bayésien. Je me demande pourquoi ce théorème est si important, comment allons-nous l'appliquer lorsque nous faisons une analyse bayésienne. Pour être...

bayesian conditional-probability hierarchical-bayesian conjugate-prior exponential-family

8

Modélisation des taux de mortalité à l'aide de la régression de Poisson

J'examine les tendances (entre 1998 et 2011) des taux de mortalité chez les patients atteints de la maladie de Crohn. Chaque patient (cas) a été inclus entre 1998 et 2011. À l'inclusion, chaque patient a été apparié à un contrôle sain de même âge et de même sexe. J'analyse les tendances des taux de...

regression multiple-regression survival poisson-regression

8

Pourquoi voudrais-je bootstrap lors du calcul d'un échantillon t-test indépendant? (comment justifier, interpréter et signaler un test t amorcé)

Disons que j'ai deux conditions, et ma taille d'échantillon pour les deux conditions est extrêmement faible. Disons que je n'ai que 14 observations dans la première condition et 11 dans l'autre. Je veux utiliser le test t pour tester si les différences moyennes sont significativement différentes...

confidence-interval t-test bootstrap normality-assumption reporting

8

Algorithme d'apprentissage profond

Quelle est la différence entre un réseau de croyances profondes et un réseau convexe profond

machine-learning neural-networks deep-learning deep-belief-networks

8

Indépendance linéaire vs indépendance statistique (PCA et ICA)

Je lis cet article intéressant sur l'application de l'ICA aux données d'expression génique. Les auteurs écrivent: [T] il n'est pas nécessaire que les composants PCA soient statistiquement indépendants. C'est vrai, mais les PJ sont orthogonaux, n'est-ce pas? Je suis un peu flou quant à la relation...

pca independence ica

8

Distributions asymétriques pour la régression logistique

J'ai développé un modèle de régression logistique basé sur les données rétrospectives d'une base de données nationale sur les traumatismes des traumatismes crâniens au Royaume-Uni. Le résultat clé est la mortalité à 30 jours (désignée comme Outcome30mesure). D'autres mesures dans l'ensemble de la...

r regression logistic splines

8

Quels sont les sujets de recherche chauds pour la thèse de doctorat en biostatistique?

J'ai pensé à choisir des sujets de recherche pour la thèse de doctorat en biostatistique. Je souhaite connaître quelques sujets de recherche brûlants ces dernières années. Pour autant que je sache, certains sujets de recherche brûlants sont: Analyse de données à haute dimension; inférence causale...

biostatistics careers phd

8

Convertir le rapport de risques en rapport de cotes

En méta-analyse: comment convertir les ratios de risque dans certaines études en odds ratio? Il y a des études de cas témoins et de cohorte à inclure et certaines d'entre elles font état de ratios de risque. Les données brutes ne sont pas rapportées de manière à calculer le rapport de...

meta-analysis

8

Termes d'erreur vs Innovations

J'ai remarqué que nous appelons parfois les termes d'erreur «innovations». Je ne comprends pas si c'est dans des situations particulières ou si ces termes peuvent être utilisés les uns pour les autres. Ensuite, une autre question est "pourquoi appelons-nous les termes d'erreur" innovations "?...

mathematical-statistics

8

Examen du document sur le filtre à particules

J'ai trouvé en ligne une ébauche d'un excellent article de synthèse de Zhe Chen intitulé "Filtrage bayésien: des filtres de Kalman aux filtres à particules et au-delà". Selon Google Scholar, la citation de la version publiée est "Statistics 182 (1), 1-69, 2003" mais le journal que je trouve avec ce...

references particle-filter journals

8

Formule Schuette – Nesbitt

Je lisais l'article sur la formule Schuette-Nesbitt , qui est décrite comme "une généralisation du principe d'inclusion-exclusion" , qui a à la fois une version combinatoire et probabiliste. Un autre site Web a fourni une preuve des événements dépendants (téléchargement en pdf) et en a trouvé un...

probability combinatorics

8

Est-ce que calculer un centile équivaut à évaluer une fonction de densité cumulative?

J'essaie de sauter de l'idée d'un centile, disons, sur la ligne du nombre réel (où le nième centile est simplement la position dans laquelle n% des points de données sont en dessous et 100 à n% au-dessus) ), à l'idée de l'aire sous une fonction de densité de probabilité. Si je veux connaître le 50%...

distributions quantiles

8

Dériver l'algorithme K-means comme limite de maximisation des attentes pour les mélanges gaussiens

Christopher Bishop définit la valeur attendue de la fonction de vraisemblance du journal des données complètes (c'est-à-dire en supposant que l'on nous donne à la fois les données observables X et les données latentes Z) comme suit:

self-study maximum-likelihood expected-value convergence expectation-maximization

8

Calcul manuel de la valeur de p pour le test t: comment éviter des valeurs supérieures à

Ces deux méthodes de calcul de la valeur p doivent être équivalentes: t.test(rats.drug,mu=1.2)$p.value 2*pt((mean(rats.drug)-1.2)*sqrt(n)/sd(rats.drug),df=n-1) Le problème avec la deuxième méthode est qu'il y a le risque d'obtenir des valeurs supérieures à (en fait jusqu'à ):111222...

r t-test p-value

8

Utilisation de l'exemple d'amorçage par rapport à l'échantillon d'origine

Prenons un échantillon de nombres réels. Disons que nous voulons estimer la tendance centrale de la population et avoir une idée de notre incertitude autour de cette estimation. Mettons de côté les hypothèses sur la répartition de la population et considérons les deux approches suivantes. Obtenez...

estimation bootstrap

8

Quelles sont les raisons pour lesquelles les moindres carrés itérativement repondérés ne convergeraient pas lorsqu'ils sont utilisés pour la régression logistique?

J'ai utilisé la fonction glm.fit dans R pour ajuster les paramètres à un modèle de régression logistique. Par défaut, glm.fit utilise des moindres carrés itérativement repondérés pour ajuster les paramètres. Quelles sont les raisons pour lesquelles cet algorithme ne parviendrait pas à converger,...

r logistic generalized-linear-model convergence irls