Statistiques et Big Data

245

Mise en sac, boost et empilement dans l'apprentissage automatique

Quelles sont les similitudes et les différences entre ces 3 méthodes: Ensachage, Boosting, Empiler? Quel est le meilleur? Et pourquoi? Pouvez-vous me donner un exemple pour

241

Pourquoi la distance euclidienne n'est-elle pas une bonne métrique dans les grandes dimensions?

J'ai lu que "la distance euclidienne n'est pas une bonne distance dans les grandes dimensions". Je suppose que cette déclaration a quelque chose à voir avec la malédiction de la dimensionnalité, mais quoi au juste? En outre, qu'est-ce que les «grandes dimensions»? J'appliquais la classification...

machine-learning clustering distance-functions metric high-dimensional

240

Comment expliqueriez-vous Markov Chain Monte Carlo (MCMC) à un profane?

Peut-être que le concept, pourquoi il est utilisé et un

bayesian mcmc intuition teaching

234

Est utiles ou dangereux?

J'ai parcouru quelques notes de cours de Cosma Shalizi (en particulier, la section 2.1.1 de la deuxième leçon ), et il m'a été rappelé que vous pouvez obtenir un très faible même avec un modèle complètement linéaire.R2R2R^2 Pour paraphraser l'exemple de Shalizi: supposons que vous ayez un modèle ,...

regression r-squared

234

Interprétation de la sortie de lm () de R

Les pages d’aide de R supposent que je sais ce que signifient ces chiffres, mais je ne les connais pas. J'essaie de comprendre intuitivement chaque chiffre ici. Je vais simplement poster le résultat et commenter ce que j'ai découvert. Il y aura peut-être des erreurs, car je vais simplement écrire...

r regression interpretation

229

Quelle est la différence entre un intervalle de confiance et un intervalle crédible?

L'échange de Joris et Srikant ici m'a demander (encore une fois) si mes explications internes de la différence entre les intervalles de confiance et les intervalles crédibles étaient les bonnes. Comment expliqueriez-vous la

bayesian confidence-interval frequentist credible-interval fiducial

228

Que signifie AUC et qu'est-ce que c'est?

Cherché haut et bas et n'ont pas été en mesure de savoir ce que AUC, en ce qui concerne la prédiction, signifie ou

classification prediction roc auc abbreviation

228

Pourquoi un intervalle de confiance à 95% n'implique-t-il pas une chance de contenir la moyenne de 95%?

Il semble que, grâce à diverses questions connexes, il existe un consensus sur le fait que la partie "95%" de ce que nous appelons un "intervalle de confiance à 95%" fait référence au fait que si nous reproduisions exactement nos procédures d'échantillonnage et de calcul CI , 95% des IC ainsi...

probability confidence-interval sampling mean population

227

Quels sont les péchés statistiques communs?

Je suis un étudiant diplômé en psychologie et, au fur et à mesure que je poursuis mes études indépendantes en statistique, je suis de plus en plus émerveillé par l'insuffisance de ma formation. Les expériences personnelles et de seconde main suggèrent que le manque de rigueur statistique dans la...

fallacy

222

Compromis taille du lot par rapport au nombre d'itérations pour former un réseau de neurones

Lors de la formation d'un réseau de neurones, quelle différence cela fait-il de définir: taille du lot à et nombre d'itérations àaaabbb en fonction de la taille du lot à et du nombre d'itérations àcccddd où ?ab=cdab=cd ab = cd Autrement dit, en supposant que nous formions le réseau de neurones avec...

neural-networks train

222

Y a-t-il une raison de préférer l'AIC ou le BIC à l'autre?

L'AIC et le BIC sont deux méthodes d'évaluation de l'adéquation du modèle pénalisées pour le nombre de paramètres estimés. Si je comprends bien, BIC pénalise davantage les modèles pour les paramètres libres que l’AIC. Au-delà d'une préférence basée sur la rigueur des critères, existe-t-il d'autres...

modeling aic cross-validation bic model-selection

215

Quelles sont les différences entre l'analyse factorielle et l'analyse en composantes principales?

Il semble qu'un certain nombre de progiciels statistiques que j'utilise réunissent ces deux concepts. Cependant, je me demande s'il existe différentes hypothèses ou «formalités» de données qui doivent être vraies pour pouvoir être utilisées l'une par rapport à l'autre. Un exemple réel serait...

pca factor-analysis

208

Quelle est la différence entre l'exploration de données, les statistiques, l'apprentissage automatique et l'IA?

Quelle est la différence entre l'exploration de données, les statistiques, l'apprentissage automatique et l'IA? Serait-il juste de dire que ce sont 4 domaines qui tentent de résoudre des problèmes très similaires mais avec des approches différentes? Qu'ont-ils en commun et en quoi diffèrent-ils?...

machine-learning data-mining

207

Comment savoir que votre problème d'apprentissage automatique est sans espoir?

Imaginez un scénario d’apprentissage automatique standard: Vous êtes confronté à un vaste ensemble de données multivariées et vous en avez une compréhension assez floue. Ce que vous devez faire est de faire des prédictions sur certaines variables en fonction de ce que vous avez. Comme d'habitude,...

machine-learning forecasting modeling model-selection forecastability

207

Comment expliqueriez-vous la covariance à quelqu'un qui ne comprend que la moyenne?

... en supposant que je puisse augmenter leurs connaissances sur la variance de manière intuitive ( comprendre "variance" intuitivement ) ou en disant: C'est la distance moyenne des valeurs de données à partir de la "moyenne" - et puisque la variance est en carré unités, nous prenons la racine...

variance covariance intuition

197

Quel «moyen» utiliser et quand?

Nous avons donc la moyenne arithmétique (AM), la moyenne géométrique (GM) et la moyenne harmonique (HM). Leur formulation mathématique est également bien connue, ainsi que leurs exemples stéréotypés associés (par exemple, la moyenne harmonique et son application aux problèmes liés à la «rapidité»)....

mean

193

Algorithmes pour la sélection automatique de modèles

J'aimerais implémenter un algorithme pour la sélection automatique de modèles. Je pense faire une régression par étapes, mais tout ira bien (il faut que cela soit basé sur des régressions linéaires). Mon problème est que je suis incapable de trouver une méthodologie, ou une implémentation open...

references feature-selection model-selection aic stepwise-regression

192

Quel est le meilleur manuel d'introduction à la statistique bayésienne?

Quel est le meilleur manuel d'introduction aux statistiques bayésiennes? Un livre par réponse, s'il vous

bayesian references

191

Comment devrais-je transformer des données non négatives, y compris des zéros?

Si j'ai des données positives très asymétriques, je prends souvent des journaux. Mais que dois-je faire avec des données non négatives hautement asymétriques qui incluent des zéros? J'ai vu deux transformations utilisées: log(x+1)log⁡(x+1)\log(x+1) qui a la particularité que 0 mappe sur 0....

data-transformation large-data

187

Que calcule la couche cachée dans un réseau de neurones?

Je suis sûr que beaucoup de gens répondront avec des liens vers "laissez-moi google ça pour vous", alors je tiens à dire que j'ai essayé de comprendre cela, alors pardonnez mon manque de compréhension ici, mais je ne peux pas comprendre comment le La mise en œuvre pratique d'un réseau de neurones...

machine-learning neural-networks nonlinear-regression