Statistiques et Big Data

54

Validation en attente et validation croisée

À mes yeux, il semble que la validation en attente est inutile. En d’autres termes, scinder le jeu de données original en deux parties (formation et test) et utiliser le score de test comme mesure de généralisation est quelque peu inutile. La validation croisée des plis en K semble donner de...

machine-learning cross-validation validation

54

Exagérons-nous l’importance des hypothèses et de l’évaluation des modèles à une époque où les analyses sont souvent effectuées par des non-spécialistes?

En bout de ligne , plus j'en apprends sur les statistiques, moins je me fie aux articles publiés dans mon domaine; Je crois simplement que les chercheurs ne font pas assez bien leurs statistiques. Je suis un profane, pour ainsi dire. J'ai une formation en biologie mais je n'ai aucune formation...

mathematical-statistics multiple-regression modeling

54

Sur l'importance de l'hypothèse iid dans l'apprentissage statistique

Dans l’apprentissage statistique, implicitement ou explicitement, on suppose toujours que l’apprentissage D={X,y}ré={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \} est composé de NNN tuples d’entrée / réponse qui sont indépendamment tirés du même joint distribution avec(Xi,yi)(Xje,yje)({\bf{X}}_i,y_i)...

machine-learning cross-validation non-independent iid

54

Quelle est l'explication intuitive de la façon dont l'ACP passe d'un problème géométrique (avec des distances) à un problème d'algèbre linéaire (avec des vecteurs propres)?

J'ai beaucoup lu sur la PCA, y compris divers tutoriels et questions (comme celle-ci , celle-ci , celle-ci et celle-ci ). Le problème géométrique que PCA essaie d’optimiser m’est clair: PCA essaie de trouver le premier composant principal en minimisant l’erreur de reconstruction (projection), ce...

pca optimization linear-algebra intuition

54

Comment R et Python se complètent-ils en data science?

Dans de nombreux tutoriels ou manuels, le récit semble impliquer que R et python coexistent en tant que composants complémentaires du processus d'analyse. À mes yeux, cependant, il semble que les deux langues fassent en quelque sorte la même chose. Ma question est donc de savoir s’il existe des...

r python software

53

Détection périodique d'une série temporelle générique

Cet article est la suite d'un autre article lié à une méthode générique de détection des valeurs aberrantes dans les séries chronologiques . Fondamentalement, à ce stade, je suis intéressé par un moyen robuste de découvrir la périodicité / saisonnalité d’une série temporelle générique affectée par...

time-series algorithms frequency real-time

53

Meilleure pratique lors de l'analyse de conceptions pré-post-traitement

Imaginez le design commun suivant: 100 participants sont affectés au hasard à un traitement ou à un groupe témoin la variable dépendante est numérique et mesurée avant et après le traitement Trois options évidentes pour analyser ces données sont: Testez l'effet d'interaction groupe par temps dans...

anova ancova clinical-trials change-scores

53

Les plus célèbres statisticiens

Quels sont les statisticiens les plus importants et qu'est-ce qui les a rendus célèbres? (Répondez à un seul scientifique par réponse, s'il vous

methodology history

53

Régression linéaire en ligne efficace

J'analyse des données pour lesquelles je souhaite effectuer une régression linéaire ordinaire. Toutefois, cela n’est pas possible car je traite d’un paramètre en ligne avec un flux continu de données d’entrée (qui deviendra rapidement trop volumineux pour la mémoire). pour mettre à jour les...

time-series regression algorithms real-time

53

Apprentissage automatique en Python

J'envisage d'utiliser des bibliothèques Python pour mes expériences d'apprentissage automatique. Jusqu'ici, je m'appuyais sur WEKA, mais dans l'ensemble, j'étais plutôt mécontent. C’est principalement parce que j’ai trouvé que WEKA n’était pas très bien pris en charge (très peu d’exemples, la...

machine-learning python

53

API de données / flux disponibles en tant que packages dans R

EDIT: la vue des tâches CRAN Web Services and Services contient une liste beaucoup plus complète des sources de données et des API disponibles dans R. Vous pouvez soumettre une demande d'extraction sur github si vous souhaitez ajouter un package à la vue des tâches. Je fais une liste des différents...

r references dataset

53

Mesure de l'entropie / informations / motifs d'une matrice binaire 2D

Je veux mesurer l'entropie / densité d'information / ressemblance-motif d'une matrice binaire à deux dimensions. Permettez-moi de montrer quelques images pour clarification: Cet affichage devrait avoir une entropie assez élevée: UNE) Cela devrait avoir une entropie moyenne: B) Enfin, ces images...

algorithms binary-data entropy pattern-recognition information

53

Box-Cox comme transformation pour les variables indépendantes?

Existe-t-il une transformation de type Box-Cox pour les variables indépendantes? C’est-à-dire une transformation qui optimise la variable manière à ce qu’elle corresponde mieux à un modèle linéaire?XXxy~f(x) Si oui, existe-t-il une fonction pour effectuer cela

r regression data-transformation normality-assumption

53

Comment générer des nombres aléatoires corrélés (étant donné les moyennes, les variances et le degré de corrélation)?

Je suis désolé si cela semble un peu trop fondamental, mais je suppose que je cherche simplement à confirmer que nous comprenons. J'ai l'impression que je devrais le faire en deux étapes et j'ai commencé à essayer de grogner des matrices de corrélation, mais cela commence à peine à sembler vraiment...

probability correlation conditional-probability random-generation

53

Que signifie avoir «variance constante» dans un modèle de régression linéaire?

Que signifie avoir "variance constante" dans le terme d'erreur? À mon avis, nous avons des données avec une variable dépendante et une variable indépendante. La variance constante est l'une des hypothèses de la régression linéaire. Je me demande ce que signifie l'homoscédasticité. Puisque même si...

regression heteroscedasticity

53

Quels sont les inconvénients des modèles d'état et de Kalman Filter pour la modélisation de séries chronologiques?

Compte tenu de toutes les bonnes propriétés des modèles d'état et de la KF, je me demande quels sont les inconvénients de la modélisation de l'espace et de l'utilisation du filtre de Kalman (ou EKF, UKF ou filtre de particules) pour l'estimation. Supposons des méthodologies conventionnelles comme...

time-series arima kalman-filter var

53

Comment un réseau de neurones artificiel ANN peut-il être utilisé pour un regroupement non supervisé?

Je comprends comment artificial neural network (ANN), peut être formé de manière supervisée à l’aide de backpropogation pour améliorer l’ajustement en diminuant l’erreur dans les prédictions. J'ai entendu dire qu'un ANN peut être utilisé pour un apprentissage non supervisé, mais comment peut-on le...

clustering neural-networks unsupervised-learning self-organizing-maps

53

Adam optimiseur avec décroissance exponentielle

Dans la plupart des codes Tensorflow, j'ai constaté qu'Adam Optimizer est utilisé avec un taux d'apprentissage constant 1e-4(0,0001). Le code a généralement l'aspect suivant: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to...

neural-networks deep-learning gradient-descent tensorflow adam

53

Quand le déséquilibre des données pose-t-il vraiment un problème dans le Machine Learning?

Nous avions déjà plusieurs questions sur les données déséquilibrées lors de l'utilisation de la régression logistique , de la SVM , des arbres de décision , de la mise en sac et de plusieurs autres questions similaires, ce qui en fait un sujet très populaire! Malheureusement, chacune des questions...

machine-learning classification predictive-models unbalanced-classes

52

Dans quelles conditions les échelles de Likert doivent-elles être utilisées comme données ordinales ou à intervalles?

De nombreuses études en sciences sociales utilisent les échelles de Likert. Quand est-il approprié d'utiliser les données Likert comme ordinales et quand est-il approprié de les utiliser comme données

ordinal-data likert scales measurement