Statistiques et Big Data

8

Calculer la valeur p dans le bootstrap apparié

Je suis tombé sur un nouvel article du groupe Berkeley NLP sur les tests statistiques, An Empirical Investigation of Statistical Significance in NLP . Il existe un pseudocode pour calculer une valeur de p dans le papier, en gros, l'idée est que l'ensemble d'échantillons de X1,X2, . . ....

hypothesis-testing bootstrap p-value

8

0 est-il une valeur valide dans une échelle de Likert?

J'ai réalisé mon étude pilote sur la motivation à l'apprentissage des langues en utilisant une échelle de Likert à 6 points mais de 0 (fortement en désaccord) à 5 (tout à fait d'accord). J'ai remarqué qu'un collègue dans son enquête utilisait 1 à 6. Mes variables calculées (somme et moyenne)...

spss scales likert psychometrics

8

Erreurs non corrélées du modèle des moindres carrés généralisés (GLS)

En tant qu'institution financière, nous nous heurtons souvent à l'analyse de données chronologiques. Souvent, nous finissons par faire une régression en utilisant des variables de séries chronologiques. Dans ce cas, nous rencontrons souvent des résidus avec une structure de séries chronologiques...

r regression time-series generalized-least-squares

8

Quel modèle dois-je utiliser pour les risques proportionnels de Cox avec des données appariées?

J'espère que quelqu'un pourra m'aider avec quel modèle (fragilité, strate ou cluster) je devrais utiliser pour mes données. J'ai couplé des données, je dois donc en tenir compte lors de la modélisation du Cox PH et je ne sais pas quel modèle me donnera un résultat plus précis. Mon étude portait sur...

survival cox-model frailty paired-data

8

Conception de mesures répétées équilibrées

D'accord, c'est mon problème: J'ai 12 participants. Chaque participant a passé 3 nuits dans mon laboratoire à effectuer une tâche de temps de réaction à quatre moments de la nuit (12, 1, 2 et 3 heures), avec une semaine entre chacune de ces nuits. Chaque nuit, chaque participant a été exposé à...

mixed-model spss repeated-measures

8

Comment calculer avec de minuscules probabilités et de gros échantillons?

Est-il possible de calculer ou d'approximer la probabilité que quelque chose d'extrêmement improbable se produise une fois sur un grand échantillon, c'est-à-dire dans des situations où la probabilité est inférieure à l'erreur machine? Par exemple, j'essayais de calculer la probabilité approximative...

probability estimation

8

Techniques de réduction des dimensions pour les très petits échantillons

J'ai 21 variables macroéconomiques et socio-économiques d'attitudes (comme le pourcentage de mères âgées de 24 à 54 ans sans emploi, le pourcentage d'enfants âgés de 3 à 5 ans dans les écoles maternelles, etc.). J'ai également des données sur les proportions de grands-parents qui ont fourni des...

pca factor-analysis dimensionality-reduction small-sample correspondence-analysis

8

Quelle est la distribution de ces données?

J'ai obtenu les données, tracé la distribution des données et utilisé la fonction qqnorm, mais il semble que ne suit pas une distribution normale, alors quelle distribution dois-je utiliser pour décrire les données? Fonction de distribution cumulative empirique

distributions

8

Que disent les graphiques Lift and Gain dans le contexte d'un modèle de rotation du personnel

J'essaie donc de mieux comprendre les graphiques Lift and Gain tels qu'ils s'appliquent à mon modèle de rotation des employés (c'est-à-dire utilisé CHAID dans SPSS Modeler). Pour mes données, cela signifie prévoir le nombre de personnes qui quittent volontairement l'entreprise. J'ai examiné les...

modeling predictive-models

8

Tests de racine unitaire pour les données de panel dans R

J'ai le plmpaquet et je voudrais exécuter des tests de racine unitaire sur certaines variables. J'obtiens l'erreur suivante: > purtest(data$tot.emp) Error in data.frame(baldwin = c(59870, 61259, 60397, 58919, 57856, 57227, : arguments imply differing number of rows: 14, 19, 11, 12, 1, 20, 18,...

r panel-data unit-root

8

Comment puis-je compléter le carré avec une probabilité normale et une priorité normale?

Comment puis-je compléter le carré à partir du point où je me suis arrêté, et est-ce correct jusqu'à présent? J'ai un avant normal pour ββ\beta de la forme p ( β|σ2) ∼ N( 0 ,σ2V)p(β|σ2)∼N(0,σ2V)p(\beta|\sigma^2)\sim \mathcal{N}(0,\sigma^2V), obtenir: p ( β|σ2) = ( 2 πσ2V)p2exp[...

bayesian normal-distribution prior likelihood

8

Calcul de la fonction hypergéométrique dans R

J'ai énormément de difficulté à évaluer avec le package en R. Dans mon cas, les valeurs de , , sont toujours des nombres réels positifs. Même ainsi, la fonction hypergéométrique est incroyablement sensible à leurs valeurs. Je ne recherche pas une précision extrême; Je peux utiliser Excel pour...

r hypergeometric

8

Pourquoi le modèle change-t-il lors de l'utilisation de Relevel?

Lors du calcul de modèles de régression avec R, j'utilise régulièrement la fonction relevel pour que mon modèle me donne également des résultats pour l'autre niveau. J'ai remarqué que parfois, mais pas souvent, cela changeait le modèle dans le sens où les niveaux d'autres facteurs qui étaient...

r regression

8

Choisissez le meilleur modèle entre logit, probit et nls

J'analyse un certain ensemble de données et j'ai besoin de comprendre comment choisir le meilleur modèle qui correspond à mes données. J'utilise R. Un exemple de données dont je dispose est le suivant: corr <- c(0, 0, 10, 50, 70, 100, 100, 100, 90, 100, 100) Ces chiffres correspondent au...

r logit likelihood-ratio probit nls

8

Comment interpréter l'interaction d'ordre inférieur lorsque l'interaction d'ordre supérieur est significative?

J'ai une question sur l'interprétation des termes d'interaction d'ordre inférieur en présence d'un effet d'interaction d'ordre supérieur significatif. Supposons que j'ai un 2 (facteur UNEAA) ××\times 2 (facteur BBB) ××\times 2 (facteur CCC) conception où l'interaction d'ordre le plus élevé (A × B ×...

anova interaction

8

test sur les préférences de l'utilisateur

J'ai généré un test utilisateur pour comparer deux méthodes: M1 et M2. Je génère 40 cas de test et montre le résultat de chaque méthode sur le cas de test à 20 individus, côte à côte, les individus ne savent pas quel résultat est venu de quelle méthode. Pour chaque cas de test, chaque personne doit...

chi-squared nonparametric experiment-design

8

Comment la distribution gamma inverse est-elle liée à et ?

Étant donné que l'estimation postérieure de σ′2σ′2\sigma'^{2} d'une vraisemblance normale et d'un gamma inverse antérieur sur σ2σ2\sigma^2 est: σ′2∼IG(α+n2,β+∑ni=1(yi−μ)22)σ′2∼IG(α+n2,β+∑i=1n(yi−μ)22)\sigma'^{2}\sim\textrm{IG}\left(\alpha + \frac{n}{2}, \beta...

bayesian prior conjugate-prior

8

Modélisation d'une spline dans le temps - matrice de conception et étude des approches

Une variable de réponse y est une fonction non linéaire d'un certain nombre de variables prédictives X (dans mes données réelles, la réponse est distribuée de façon binomiale, mais ici j'utilise une valeur normalement distribuée pour plus de simplicité). Je peux modéliser les relations entre les...

r ggplot2 splines gam

8

Comment générer un joli tableau récapitulatif?

Je veux que R affiche les données qu'il me donne de la summary()fonction dans un tableau afin que je puisse facilement les partager. Je suis actuellement en train de faire summary()dans la console, puis de prendre une capture d'écran, mais je préfère que cela soit généré comme un joli tableau, tout...

r dataset descriptive-statistics tables

8

Comparaisons moyennes après imputation multiple

Je dois faire quelques comparaisons moyennes simples entre les groupes (tests F ANOVA de base) sur des données avec des valeurs manquantes. J'utilise le package de souris dans R pour l'imputation multiple, mais je ne peux regrouper les résultats que pour les coefficients du modèle linéaire, ou le...

r regression t-test f-test multiple-imputation