Statistiques et Big Data

39
Existe-t-il des cas où PCA est plus approprié que t-SNE?

Je veux voir comment 7 mesures du comportement de correction de texte (temps passé à corriger le texte, nombre de frappes au clavier, etc.) sont liées les unes aux autres. Les mesures sont corrélées. J'ai exécuté une ACP pour voir comment les mesures étaient projetées sur PC1 et PC2, ce qui évitait...

38
Apprentissage en ligne ou hors ligne?

Quelle est la différence entre l' apprentissage hors ligne et en ligne ? Est-ce juste une question d’apprentissage sur l’ensemble du jeu de données (hors ligne) par opposition à un apprentissage incrémentiel (une instance à la fois)? Quels sont les exemples d'algorithmes utilisés dans les...

38
Séries chronologiques 'clustering' in R

J'ai un ensemble de données chronologiques. Chaque série couvre la même période, bien que les dates réelles dans chaque série chronologique ne soient pas toutes "alignées" exactement. Autrement dit, si la série chronologique devait être lue dans une matrice 2D, elle ressemblerait à ceci: date T1 T2...

38
Est-il valide d’inclure une mesure de référence en tant que variable de contrôle lors du test de l’effet d’une variable indépendante sur les scores de changement?

J'essaie d'exécuter une régression OLS: DV: Variation du poids sur un an (poids initial - poids final) IV: Que vous exerciez ou non. Cependant, il semble raisonnable que les personnes plus lourdes perdent plus de poids par unité d'exercice que les personnes plus minces. Ainsi, je voulais inclure...

38
Qu'est-ce que l'identifiabilité du modèle?

Je sais qu'avec un modèle non identifiable, on peut dire que les données sont générées par de multiples assignations différentes aux paramètres du modèle. Je sais qu'il est parfois possible de contraindre des paramètres afin qu'ils soient tous identifiables, comme dans l'exemple de Cassella &...