Statistiques et Big Data

50

Une forêt aléatoire peut-elle être utilisée pour la sélection d’entités dans une régression linéaire multiple?

Puisque RF peut gérer la non-linéarité mais ne peut pas fournir de coefficients, serait-il sage d'utiliser une forêt aléatoire pour rassembler les caractéristiques les plus importantes, puis de les brancher dans un modèle de régression linéaire multiple afin d'obtenir leurs coefficients?...

50

Pourquoi l'ANOVA est-elle équivalente à la régression linéaire?

J'ai lu que l'ANOVA et la régression linéaire sont la même chose. Comment peut-il en être ainsi si on considère que la sortie de l'ANOVA produit une valeur de et une valeur de p sur la base de laquelle vous concluez si la moyenne des échantillons d'un échantillon à l'autre est identique ou...

regression anova

50

Quelle est l'intuition derrière SVD?

J'ai lu sur la décomposition en valeurs singulières (SVD). Dans presque tous les manuels, il est mentionné que la matrice est divisée en trois matrices avec une spécification donnée. Mais quelle est l'intuition derrière la division de la matrice sous une telle forme? La PCA et d’autres algorithmes...

matrix linear-algebra svd intuition

50

Encodage à chaud vs factice dans Scikit-learn

Il existe deux manières différentes d’encoder des variables catégorielles. Disons qu'une variable catégorique a n valeurs. Un codage à chaud le convertit en n variables, alors qu'un codage factice le convertit en n-1 variables. Si nous avons k variables catégorielles, chacune d’elles ayant n...

regression categorical-data data-transformation scikit-learn data-preprocessing

49

Que sont les variables aléatoires?

Comment expliqueriez-vous iid (indépendant et identiquement distribué) à des personnes non

random-variable intuition

49

Bootstrap contre jackknife

Les méthodes bootstrap et jackknife peuvent être utilisées pour estimer le biais et l’erreur type d’une estimation et les mécanismes des deux méthodes de ré-échantillonnage ne sont pas très différents: échantillonnage avec remplacement ou omission d’une observation à la fois. Toutefois, le...

r confidence-interval bootstrap jackknife

49

Quelle est la différence entre les effets aléatoires, les effets fixes et le modèle marginal?

J'essaie d'élargir mes connaissances en statistiques. Je viens d'un milieu de sciences physiques avec une approche de test statistique "basée sur des recettes", où nous disons que le test est continu, qu'il est distribué normalement - régression MLS . Dans ma lecture, j'ai rencontré les termes:...

random-effects-model fixed-effects-model marginal

49

Comment interpréter la comparaison des moyennes de différentes tailles d’échantillons?

Prenons le cas des cotes de livres sur un site Web. Le livre A est noté par 10 000 personnes avec une note moyenne de 4,25 et la variance . De même, le livre B a été évalué par 100 personnes et a été noté 4.5 avec σ = 0.25 .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Maintenant, à cause de la...

t-test mean sample-size

49

La «note moyenne» d'Amazon est-elle trompeuse?

Si je comprends bien, les évaluations de livre sur une échelle de 1 à 5 sont des scores de Likert. C'est-à-dire qu'un 3 pour moi peut ne pas être nécessairement un 3 pour quelqu'un d'autre. C'est une échelle ordinale IMO. Il ne faut pas vraiment utiliser les échelles ordinales mais bien prendre le...

mean ordinal-data likert

49

Temps de calcul aléatoire de la forêt en R

J'utilise le package party en R avec 10 000 lignes et 34 fonctionnalités, et certaines fonctionnalités factorielles comportent plus de 300 niveaux. Le temps de calcul est trop long. (Cela a pris 3 heures jusqu'à présent et ce n'est pas fini.) Je veux savoir quels éléments ont un effet important sur...

r random-forest

49

Calculer manuellement la valeur P à partir de la valeur t dans le test t

J'ai un échantillon de données avec 31 valeurs. J'ai exécuté un test t bilatéral en utilisant R pour vérifier si la moyenne vraie est égale à 10: t.test(x=data, mu=10, conf.level=0.95) Sortie: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent...

r statistical-significance t-test p-value

49

Pourquoi le coefficient de corrélation entre les variables aléatoires X et XY a-t-il tendance à être de 0,7?

Tiré de Statistiques pratiques pour la recherche médicale où Douglas Altman écrit à la page 285: ... pour deux quantités quelconques X et Y, X sera corrélé à XY. En effet, même si X et Y sont des échantillons de nombres aléatoires, on s’attendrait à ce que la corrélation de X et XY soit de 0,7 J'ai...

correlation random-variable intuition

49

Mesures de performance pour évaluer l'apprentissage non supervisé

En ce qui concerne l'apprentissage non supervisé (comme la mise en cluster), existe-t-il des métriques permettant d'évaluer les

machine-learning clustering data-mining unsupervised-learning

49

Pourquoi la régression logistique est-elle un classifieur linéaire?

Puisque nous utilisons la fonction logistique pour transformer une combinaison linéaire de l’entrée en une sortie non linéaire, comment une régression logistique peut-elle être considérée comme un classifieur linéaire? La régression linéaire est semblable à un réseau de neurones sans la couche...

logistic classification neural-networks

49

Quelle doit être la taille du lot pour la descente de gradient stochastique?

Je comprends que la descente de gradient stochastique peut être utilisée pour optimiser un réseau de neurones en utilisant la rétropropagation en mettant à jour chaque itération avec un échantillon différent de l'ensemble de données d'apprentissage. Quelle doit être la taille du...

machine-learning neural-networks gradient-descent backpropagation

49

Seuil de probabilité de classification

J'ai une question concernant la classification en général. Soit f un classificateur, qui donne un ensemble de probabilités à partir de données D. Normalement, on dirait: si P (c | D)> 0.5, nous assignerons une classe 1, sinon 0 (que ce soit un binaire classification). Ma question est la...

machine-learning classification binary-data threshold

48

Quel est votre blog de visualisation de données préféré?

Quel est le meilleur blog sur la visualisation de données? Je fais de cette question un wiki de communauté car il est hautement subjectif. Veuillez limiter chaque réponse à un seul lien. Veuillez noter les critères suivants pour les réponses proposées: Des réponses faciles à des questions comme...

data-visualization references

48

Qu'est-ce qu'un bon algorithme pour estimer la médiane d'un énorme jeu de données en lecture unique?

Je recherche un bon algorithme (calcul minimal, exigences de stockage minimales) pour estimer la médiane d'un ensemble de données trop volumineux pour être stocké, de telle sorte que chaque valeur ne puisse être lue qu'une fois (à moins que vous stockiez explicitement cette valeur). Aucune donnée...

algorithms median large-data

48

Quelle est la différence entre NaN et NA?

Je voudrais savoir pourquoi certaines langues comme R ont NA et NaN. Quelles sont les différences ou sont-elles également identiques? Est-il vraiment nécessaire d'avoir

r

48

Comment identifier une distribution bimodale?

Je comprends qu’une fois que nous représentons les valeurs sous forme de graphique, nous pouvons identifier une distribution bimodale en observant les pics jumeaux, mais comment la trouver par programme? (Je cherche un

distributions