Statistiques et Big Data

11

Comment choisir un bon point de fonctionnement à partir de courbes de rappel de précision?

Existe-t-il une méthode standard pour déterminer un point de fonctionnement "optimal" sur une courbe de rappel de précision ? (c.-à-d. déterminer le point de la courbe qui offre un bon compromis entre précision et rappel)

machine-learning precision-recall

11

Comment gérer les données inexistantes (non manquantes)?

Je n'ai jamais vraiment trouvé de bon texte ou d'exemples sur la façon de gérer les données «inexistantes» pour les entrées de n'importe quel classificateur. J'ai beaucoup lu sur les données manquantes mais que peut-on faire sur les données qui ne peuvent pas exister ou qui n'existent pas par...

missing-data

11

Que faire des explications dans les séries chronologiques?

Ayant travaillé principalement avec des données transversales jusqu'à présent et très récemment parcouru, parcourant un tas de publications introductives sur les séries chronologiques, je me demande quel rôle jouent les variables explicatives dans l'analyse des séries chronologiques. Je voudrais...

r time-series multivariate-analysis

11

Comment générer des points uniformément répartis dans la boule d'unité 3D?

J'ai posté une question précédente , c'est lié mais je pense qu'il vaut mieux commencer un autre fil. Cette fois, je me demande comment générer des points uniformément répartis à l'intérieur de la sphère d'unité 3D et comment vérifier la distribution visuellement et statistiquement aussi? Je ne...

random-generation

11

Taille d'échantillon requise pour déterminer laquelle parmi un ensemble de publicités a le taux de clics le plus élevé

Je suis concepteur de logiciels de métier et je travaille sur un projet pour un client, et je voudrais m'assurer que mon analyse est statistiquement solide. Considérez ce qui suit: Nous avons n publicités (n <10), et nous voulons simplement savoir quelle publicité est la plus performante. Notre...

anova sample-size t-test rule-of-thumb

11

Étiquetage des boîtes à moustaches en R

Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. J'ai besoin de construire un boxplot sans aucun axe et de l'ajouter au tracé actuel (courbe ROC),...

r boxplot

11

Comment calculer le paramètre de régularisation dans la régression de crête en fonction des degrés de liberté et de la matrice d'entrée?

Soit A la matrice des variables indépendantes et B la matrice n × 1 correspondante des valeurs dépendantes. Dans la régression d'arête, on définit un paramètre λ de sorte que: β = ( A T A + X I ) - 1 A T B . Soit maintenant [usv] = svd (A) et d i = i t h l' entrée diagonale de 's'. on définit les...

ridge-regression

11

Quelle est la différence entre les scores Z et les valeurs p?

Dans les algorithmes de motif de réseau, il semble assez courant de renvoyer à la fois une valeur p et un score Z pour une statistique: "Le réseau d'entrée contient X copies du sous-graphique G". Un sous-graphique est considéré comme un motif s'il satisfait valeur p <A, Score Z> B et X> C,...

hypothesis-testing p-value z-statistic

11

Quelles méthodes graphiques sont utiles pour visualiser l'agrégation des incertitudes?

J'ai un ensemble de systèmes où les incertitudes s'accumulent en son sein. Ce ne sont pas toujours purement additifs - parfois ils le sont, parfois ils ne le sont pas. J'ai réussi à utiliser des graphiques en éventail, des graphiques à barres avec des intervalles de confiance et des diagrammes en...

data-visualization confidence-interval uncertainty

11

Exemples d'études utilisant p <0,001, p <0,0001 ou des valeurs de p encore plus faibles?

Je viens des sciences sociales, où p <0,05 est à peu près la norme, avec p <0,1 et p <0,01 également, mais je me demandais: quels domaines d'études, le cas échéant, utilisent des valeurs de p inférieures comme un commun la

statistical-significance p-value

11

Que signifie linéaire dans la régression linéaire?

En R, si j'écris lm(a ~ b + c + b*c) serait-ce encore une régression linéaire? Comment faire d'autres types de régression en R? J'apprécierais toute recommandation de manuels ou de

r regression

11

Comparer les coefficients de régression logistique entre les modèles?

J'ai développé un modèle logit à appliquer à six ensembles différents de données transversales. Ce que j'essaie de découvrir, c'est s'il y a des changements dans l'effet substantiel d'une variable indépendante donnée (IV) sur la variable dépendante (DV) contrôlant d'autres explications à différents...

logistic spss

11

Comment sélectionner le nombre de composants pour une analyse indépendante des composants?

En l'absence de bonnes suppositions a priori sur le nombre de composants à demander dans Independent Components Analysis, je cherche à automatiser un processus de sélection. Je pense qu'un critère raisonnable pourrait être le nombre qui minimise les preuves globales de corrélation entre les...

ica

11

Probabilités de couverture de l'intervalle de confiance bootstrap de base

J'ai la question suivante pour un cours sur lequel je travaille: Mener une étude Monte Carlo pour estimer les probabilités de couverture de l'intervalle de confiance bootstrap normal standard et de l'intervalle de confiance bootstrap de base. Échantillon d'une population normale et vérifier les...

r confidence-interval self-study bootstrap monte-carlo

11

Que signifie pour une étude être surchargée?

Que signifie pour une étude être surchargée? Mon impression est que cela signifie que la taille de vos échantillons est si grande que vous avez le pouvoir de détecter de minuscules tailles d'effet. Ces tailles d'effet sont peut-être si petites qu'elles sont plus susceptibles de résulter de légers...

statistical-significance sample-size effect-size power-analysis power

11

Existe-t-il un moyen d'expliquer une prédiction à partir d'un modèle forestier aléatoire?

Disons que j'ai un modèle de classification prédictif basé sur une forêt aléatoire (en utilisant le package randomForest dans R). Je voudrais le configurer pour que les utilisateurs finaux puissent spécifier un élément pour lequel générer une prédiction, et cela produira une probabilité de...

machine-learning random-forest

11

Mesurer la dépendance non linéaire

La covariance entre deux variables aléatoires définit une mesure de leur lien linéaire entre elles. Mais que se passe-t-il si la distribution conjointe est circulaire? Il y a sûrement une structure dans la distribution. Comment cette structure est-elle

covariance-matrix

11

Comment dessiner un graphique d'interaction avec des intervalles de confiance?

Mes tentatives: Je n'ai pas pu obtenir d'intervalles de confiance interaction.plot() et d'autre part plotmeans()du package 'gplot' n'afficherait pas deux graphiques. De plus, je ne pouvais pas imposer deux plotmeans()graphes l'un sur l'autre car par défaut les axes sont différents. J'ai eu un...

r data-visualization confidence-interval interaction

11

Déterminer si le changement dans une série chronologique est statistiquement significatif

J'ai le nombre total d'appels reçus chaque semaine et les ai tracés sur un graphique, remontant à près de 3 ans. À l'œil nu, il semble qu'il y ait eu une baisse massive de Noël, qui ne semble pas avoir récupéré, il semble qu'il y ait eu un changement radical dans les demandes. Existe-t-il un test...

time-series statistical-significance change-point

11

Qu'est-ce que ce «coefficient de corrélation maximum»?

Une statistique typique de traitement d'image est l'utilisation des caractéristiques de texture Haralick , qui sont 14. Je m'interroge sur le 14e de ces caractéristiques: étant donné une carte d'adjacence (que nous pouvons simplement visualiser une distribution empirique de deux entiers i , j <...

probability computational-statistics