Statistiques et Big Data

143

R vs SAS, pourquoi les entreprises privées préfèrent-elles SAS?

J'ai appris R, mais il semble que les entreprises s'intéressent beaucoup plus à l'expérience SAS. Quels sont les avantages de SAS sur

r sas

141

Quels sont les avantages de ReLU par rapport à la fonction sigmoïde dans les réseaux de neurones profonds?

L’état actuel de la non-linéarité consiste à utiliser des unités linéaires rectifiées (ReLU) au lieu de la fonction sigmoïde dans un réseau neuronal profond. Quels sont les avantages? Je sais que la formation d'un réseau lorsque ReLU est utilisé serait plus rapide et inspirée davantage par la...

machine-learning neural-networks deep-learning

141

Comment exactement "contrôler pour d'autres variables"?

Voici l'article qui a motivé cette question: L'impatience fait-elle grossir? J'ai aimé cet article et il illustre bien le concept de «contrôle des autres variables» (QI, carrière, revenu, âge, etc.) afin de mieux isoler la relation réelle entre les deux variables en question. Pouvez-vous...

regression causality confounding controlling-for-a-variable statistics-in-media

140

Formation avec l'ensemble de données complet après validation croisée?

Est-ce toujours une bonne idée de s'entraîner avec l'ensemble de données complet après validation croisée ? En d'autres termes, est-il possible de s'entraîner avec tous les échantillons de mon jeu de données sans pouvoir vérifier si cet ajustement est trop important ? Quelques informations sur le...

machine-learning cross-validation model-selection

139

Question d'entrevue Amazon - probabilité de 2e interview

J'ai eu cette question lors d'une interview avec Amazon: 50% de toutes les personnes qui reçoivent une première interview reçoivent une deuxième interview 95% de vos amis qui ont eu une deuxième entrevue ont eu une bonne première entrevue 75% de vos amis qui N'ONT PAS eu une deuxième interview...

probability conditional-probability

138

Facebook est-il en train de se terminer?

Récemment, ce document a attiré beaucoup d'attention (par exemple de WSJ ). En gros, les auteurs concluent que Facebook perdra 80% de ses membres d’ici 2017. Ils fondent leurs revendications sur une extrapolation du modèle SIR , un modèle compartimental fréquemment utilisé en épidémiologie. Leurs...

hypothesis-testing correlation epidemiology social-network

136

Choix de K dans la validation croisée du pli K

Je me sers de la quelques fois la validation croisée de d'évaluer la performance de certains algorithmes d'apprentissage, mais je l' ai toujours été perplexe quant à la façon dont je choisir la valeur de .KKKKKK J'ai souvent vu et utilisé une valeur de , mais cela me semble totalement arbitraire et...

machine-learning classification cross-validation

134

Quelle est l'influence du C dans les SVM avec un noyau linéaire?

J'utilise actuellement un SVM avec un noyau linéaire pour classer mes données. Il n'y a pas d'erreur sur le set d'entraînement. J'ai essayé plusieurs valeurs pour le paramètre ( ). Cela n'a pas modifié l'erreur sur l'ensemble de test.10 - 5 , … , 10 2CCCdix- 5, … , 10210−5,…,10210^{-5}, \dots, 10^2...

machine-learning svm libsvm

133

Liste des fonctions de coût utilisées dans les réseaux de neurones, parallèlement aux applications

Quelles sont les fonctions de coût courantes utilisées pour évaluer les performances des réseaux de neurones? Détails (n'hésitez pas à sauter le reste de cette question, mon intention est simplement de fournir des éclaircissements sur la notation que les réponses peuvent utiliser pour les aider à...

machine-learning neural-networks

133

Quelle est la différence entre l'analyse en composantes principales et la mise à l'échelle multidimensionnelle?

Quelle est la différence entre PCA et MDS classique? Qu'en est-il des MDS par rapport aux MDS non métriques? Y a-t-il un moment où vous préféreriez l'un plutôt que l'autre? Comment les interprétations

pca multidimensional-scaling pcoa

133

Comment déterminer quelle distribution correspond le mieux à mes données?

J'ai un jeu de données et j'aimerais savoir quelle distribution correspond le mieux à mes données. J'ai utilisé le fitdistr() fonction pour estimer les paramètres nécessaires pour décrire la distribution supposée (c.-à-d. Weibull, Cauchy, Normal). En utilisant ces paramètres, je peux effectuer un...

r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

132

Pourquoi la méthode de Newton n'est-elle pas largement utilisée dans l'apprentissage automatique?

C'est quelque chose qui me dérange depuis un moment et je ne trouvais pas de réponses satisfaisantes en ligne, alors voici: Après avoir passé en revue un ensemble de conférences sur l'optimisation convexe, la méthode de Newton semble être un algorithme bien supérieur à la descente de gradient pour...

machine-learning optimization gradient-descent hessian

131

Kappa de Cohen en anglais clair

Je lis un livre de data mining qui mentionnait la statistique Kappa comme moyen d’évaluer les performances de prévision des classificateurs. Cependant, je ne peux tout simplement pas comprendre cela. J'ai aussi vérifié Wikipedia mais cela n'a pas aidé aussi:

classification data-mining cohens-kappa

129

Les grands ensembles de données sont-ils inappropriés pour les tests d'hypothèses?

Dans un article récent d' Amstat News , les auteurs (Mark van der Laan et Sherri Rose) ont déclaré: "Nous savons que pour des échantillons suffisamment grands, toute étude - y compris celles dans lesquelles l'hypothèse nulle de non-effet est vraie - déclarera une effet statistiquement significatif...

hypothesis-testing sample-size dataset large-data

127

Explication de bas en haut de la distance de Mahalanobis?

J'étudie la reconnaissance des formes et les statistiques et presque tous les livres que j'ouvre sur le sujet me heurtent au concept de distance de Mahalanobis . Les livres donnent en quelque sorte des explications intuitives, mais elles ne sont toujours pas suffisantes pour que je puisse...

normal-distribution mathematical-statistics distance pattern-recognition intuition

127

Obtenir des connaissances à partir d'une forêt aléatoire

Les forêts aléatoires sont considérées comme des boîtes noires, mais récemment, je pensais quelles connaissances peuvent être obtenues à partir d'une forêt aléatoire. La chose la plus évidente est l’importance des variables, dans la variante la plus simple, il suffit de calculer le nombre...

machine-learning data-mining interaction random-forest cart

127

Quelle est la différence entre la variance et l'écart type?

Je me demandais quelle est la différence entre la variance et l'écart type. Si vous calculez les deux valeurs, il est clair que vous obtenez l'écart type de la variance, mais qu'est-ce que cela signifie en termes de distribution que vous observez? De plus, pourquoi avez-vous vraiment besoin d'un...

variance mathematical-statistics standard-deviation

125

Quelle est la différence entre un estimateur cohérent et un estimateur non biaisé?

Je suis vraiment surpris que personne ne semble l'avoir déjà demandé ... Lors de la discussion sur les estimateurs, deux termes fréquemment utilisés sont "cohérent" et "non biaisé". Ma question est simple: quelle est la différence? Les définitions techniques précises de ces termes sont assez...

unbiased-estimator estimators consistency

125

Aidez-moi à comprendre les distributions bayésiennes antérieures et postérieures

Dans un groupe d’étudiants, 2 sur 18 sont gauchers. Trouver la distribution postérieure des étudiants gauchers dans la population en supposant que les informations ne sont pas antérieures. Résumez les résultats. Selon la littérature, 5 à 20% des gens sont gauchers. Tenez compte de ces informations...

distributions bayesian prior posterior

123

Corrélations avec des variables qualitatives non ordonnées

J'ai une base de données avec de nombreuses observations et de nombreuses variables. Certains sont catégoriques (non ordonnés) et les autres sont numériques. Je cherche des associations entre ces variables. J'ai pu calculer la corrélation pour les variables numériques (corrélation de Spearman)...

r correlation categorical-data continuous-data mixed-type-data