Statistiques et Big Data

12

Où puis-je trouver de bons tests de statistiques?

Introduction, avancé et même obscur, s'il vous plaît. Surtout pour me tester. J'aime m'assurer de savoir de quoi je parle :)

teaching

12

Test T à deux échantillons avec données pondérées

Je veux effectuer un test T à deux échantillons pour tester une différence entre deux échantillons indépendants que chaque échantillon respecte les hypothèses du test T (chaque distribution peut être supposée indépendante et identiquement distribuée comme Normale avec une variance égale) . La seule...

t-test

12

Que vous disent les courbes ROC que l'inférence traditionnelle ne ferait pas?

Quand auriez-vous tendance à utiliser les courbes ROC sur certains autres tests pour déterminer la capacité prédictive d'une mesure sur un résultat? Lorsqu'il s'agit de résultats discrets (vivants / morts, présents / absents), qu'est-ce qui rend les courbes ROC plus ou moins puissantes que quelque...

regression roc

12

Techniques de traitement des données incomplètes / manquantes

Ma question porte sur les techniques de traitement des données incomplètes lors de la formation / ajustement du classificateur / modèle. Par exemple, dans un ensemble de données avec quelques centaines de lignes, chaque ligne ayant disons cinq dimensions et une étiquette de classe comme dernier...

missing-data

12

Pouvez-vous expliquer pourquoi le lien statistique n'est pas naïvement rejeté lorsque

J'ai besoin d'aide pour expliquer et citer des textes statistiques de base, des articles ou d'autres références, pourquoi il est généralement incorrect d'utiliser la statistique de la marge d'erreur (ME) signalée dans les sondages pour déclarer naïvement un lien statistique. Un exemple: le candidat...

polling

12

Livres ou articles recommandés comme introduction à l'analyse de cluster?

Je travaille sur un petit corpus de texte (200M), que je veux explorer avec une analyse de cluster. Quels livres ou articles sur ce sujet recommanderiez-vous?

machine-learning references clustering

12

Référence standard pour les statistiques mathématiques classiques?

Quelqu'un peut-il recommander des livres qui sont considérés comme des références standard pour les statistiques classiques (fréquentistes)? IE, assez complet, et aussi, existe depuis un certain temps afin que les fautes de frappe et les erreurs dans les formules aient pu être vérifiées et...

references mathematical-statistics

12

Calcul de la taille de l'échantillon paramétrique et analyse non paramétrique

Je suis curieux de savoir si quelqu'un a une référence spécifique (texte ou article de revue) pour soutenir la pratique courante dans la littérature médicale d'effectuer le calcul de la taille de l'échantillon en utilisant des méthodes paramétriques (c'est-à-dire en supposant une distribution...

nonparametric sample-size

12

Statistiques basées sur les mathématiques fractales

Je recherche des livres / manuels sur les statistiques basées sur les mathématiques fractales. Je sais que ce n'est pas un domaine très connu et qu'il est assez difficile de trouver de la bonne littérature. Toutes les suggestions sont les bienvenues (livres, manuels, matériel en...

references fractal

12

Pourquoi utiliser un DV retardé comme variable instrumentale?

J'ai hérité d'un code d'analyse de données que, n'étant pas économétricien, j'ai du mal à comprendre. Un modèle exécute une régression de variables instrumentales avec la commande Stata suivante ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv) Cet ensemble de données est un panneau...

regression stata instrumental-variables

12

Comment appliquer la méthode des moindres carrés itérativement repondérés (IRLS) au modèle LASSO?

J'ai programmé une régression logistique en utilisant l' algorithme IRLS . Je souhaite appliquer une pénalisation LASSO afin de sélectionner automatiquement les bonnes fonctionnalités. À chaque itération, le problème suivant est résolu: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right)...

logistic generalized-linear-model feature-selection lasso convex

12

Estimateurs adaptatifs de densité de noyau?

Quelqu'un peut-il rendre compte de son expérience avec un estimateur adaptatif de densité de noyau? (Il existe de nombreux synonymes: adaptatif | variable | largeur variable, KDE | histogramme | interpolateur ...) Une estimation de densité de noyau variable dit "nous faisons varier la largeur du...

kde k-nearest-neighbour

12

Comment paramétrer le rapport de deux variables normalement distribuées, ou l'inverse d'une?

Problème: je suis en train de paramétrer des distributions à utiliser comme a priori et des données dans une méta-analyse bayésienne. Les données sont fournies dans la littérature sous forme de statistiques résumées, presque exclusivement supposées être normalement distribuées (bien qu'aucune des...

distributions bayesian variance random-variable meta-analysis

12

Analyse d'article pour un débutant R

J'essaie d'évaluer un test de choix multiple de 20 éléments. Je souhaite effectuer une analyse d'élément telle que celle trouvée dans cet exemple . Donc, pour chaque question, je veux la valeur P et la corrélation avec le total, et la distribution des options sélectionnées. Je ne connais rien aux...

r correlation psychometrics scales

12

Comment prélever de nombreux échantillons de 10 sur une grande liste, sans remplacement global

J'ai un grand ensemble de données (20 000 points de données), à partir duquel je veux prélever des échantillons répétés de 10 points de données. Cependant, une fois que j'ai sélectionné ces 10 points de données, je veux qu'ils ne soient plus sélectionnés. J'ai essayé d'utiliser la samplefonction,...

r sample

12

Validation des questionnaires

Je conçois un questionnaire pour ma thèse. Je suis en train de valider le questionnaire J'ai appliqué un test alpha de Cronbach au groupe d'échantillons initial. Les réponses au questionnaire sont sur une échelle de Likert; quelqu'un peut-il suggérer d'autres tests à appliquer pour aider à tester...

survey scales psychometrics scale-construction

12

Mise à jour de l'ajustement au lasso avec de nouvelles observations

J'ajuste une régression linéaire régularisée L1 à un très grand ensemble de données (avec n >> p.) Les variables sont connues à l'avance, mais les observations arrivent en petits morceaux. Je voudrais maintenir l'ajustement du lasso après chaque morceau. Je peux évidemment réajuster le modèle...

regression lasso

12

Comparaison de deux fonctions de densité cumulative

Je recherche une méthode à utiliser pour tester l'égalité de deux fonctions de densité

distributions hypothesis-testing

12

Comment utiliser les statistiques CDF et PDF pour l'analyse

C'est peut-être trop une question générale, mais j'espère que je peux trouver de l'aide ici. Je commence un emploi RA dans mon université et mon sujet sera lié à l'analyse du trafic Internet. Je suis assez nouveau dans le monde de l'analyse, mais je suppose que dans le monde de la recherche, c'est...

mathematical-statistics

12

Meilleure classification des défauts de régression logistique

Divulgation complète: ce sont des devoirs. J'ai inclus un lien vers l'ensemble de données ( http://www.bertelsen.ca/R/logistic-regression.sav ) Mon objectif est de maximiser la prédiction des défaillants dans cet ensemble de données. Chaque modèle que j'ai trouvé jusqu'à présent prédit> 90% des...

r logistic spss self-study