Statistiques et Big Data

8
Regroupement de séries chronologiques

J'ai de nombreuses séries chronologiques dans cette colonne de format 1 dans laquelle j'ai le format de date (d / m / an) et de nombreuses colonnes qui représentent différentes séries chronologiques comme ici: DATE TS1 TS2 TS3 ... 24/03/2003 0.00 0.00 ... 17/04/2003 -0.05 1.46 11/05/2003 0.46 -3.86...

8
Test de la différence entre deux (ajusté) r ^ 2

Disons que j'ai deux modèles de régression, un avec trois variables et un avec quatre. Chacun crache un r ^ 2 ajusté, que je peux comparer directement. De toute évidence, le modèle avec le r ^ 2 ajusté le plus élevé est le meilleur ajustement, mais est-il possible de tester la différence entre les...

8
Arbres de décision boostés calibrés dans R ou MATLAB

Dans An Empirical Comparison of Supervised Learning Algorithms (ICML 2006), les auteurs (Rich Caruana et Alexandru Niculescu-Mizil) ont évalué plusieurs algorithmes de classification (SVM, ANN, KNN, Random Forests, Decision Trees, etc.) et ont rapporté que les arbres boostés calibrés classé comme...

8
Les pentes des régressions linéaires peuvent-elles être utilisées comme variables indépendantes ou dépendantes dans d'autres modèles de régression?

J'ai 100 patients et chaque patient a 10 mesures longitudinales de la créatinine sérique. Les taux de filtration glomérulaire estimés (DFGe) ont été calculés à partir d'une formule MDRD comprenant le sexe, l'âge et la créatinine sérique. Le DFGe est la variable dépendante et le temps est la...