Je trace quelque chose pour me faire comprendre ou faire comprendre à quelqu'un d'autre. Habituellement, une question démarre ce processus, et souvent la personne qui demande espère une réponse particulière.
Comment puis-je apprendre des choses intéressantes sur les données de manière moins biaisée?
En ce moment, je suis à peu près cette méthode:
- Statistiques sommaires.
- Bande dessinée.
- Nuage de points.
- Peut-être répéter avec un sous-ensemble intéressant de données.
Mais cela ne semble pas assez méthodique ou scientifique.
Y a-t-il des lignes directrices ou des procédures à suivre qui révèlent des choses sur les données que je ne pense pas demander? Comment savoir quand j'ai fait une analyse adéquate?
Si vous avez des données chronologiques sur les séries ietime, alors il y a des "connus" et les "inconnus" attendent d'être découverts. Par exemple, si vous avez une séquence de points de données pour 10 périodes telles que 1,9,1,9,1,5,1,9,1,9, sur la base de cet échantillon, vous pouvez raisonnablement vous attendre à 1,9,1,9 , ... à se poser à l'avenir. Ce que l'analyse des données révèle, c'est qu'il y a une lecture «inhabituelle» à la période 6, même si elle se situe bien dans les limites de + -3 sigma, ce qui suggère que le DGF n'a pas tenu. Démasquer l'Inlier / Outlier nous permet de révéler des choses sur les données. Nous notons également que la valeur moyenne n'est pas la valeur attendue. Cette idée s'étend facilement à la détection de décalages moyens et / ou de tendances temporelles locales qui pouvaient être inconnus avant l'analyse des données (génération d'hypothèses). Maintenant, il est tout à fait possible que les 10 prochaines lectures soient également 1,9,1,9, 1,5,1,9,1,9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. 9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. 9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. n'est pas nécessairement fâcheuse. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. n'est pas nécessairement fâcheuse. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure de plomb, contemporaine et de décalage) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. structure contemporaine et lag) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. structure contemporaine et lag) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle.
la source
Le datamining pourrait être divisé en deux catégories. Si vous souhaitez mesurer l'effet d'un ensemble de données / variables sur une variable spécifique, cela serait considéré comme un apprentissage supervisé. Pour un apprentissage approfondi et exploratoire sans objectif, vous subissez un apprentissage non supervisé.
La représentation graphique et l'analyse statistique des données (comprendre les distributions et gagner en intuition) sont les premières étapes.
la source