Lignes directrices pour découvrir de nouvelles connaissances dans les données

Il y a tout un champ d'analyse exploratoire des données (EDA), et un excellent livre sur ce sujet intitulé Exploratory Data Analysis , par John W. Tukey.

J'aime que vous utilisiez des graphiques - il existe de nombreux autres graphiques qui peuvent être utiles, selon vos données - combien de variables? De quelle nature sont les variables (catégoriques? Numériques? Continues? Comptées? Ordinales?)

Un graphique qui est souvent utile pour les données à plusieurs variables est une matrice de nuage de points.

Vous pouvez rechercher différents types de valeurs aberrantes, qui sont souvent des points intéressants.

Mais je ne pense pas que tout ce processus puisse être rendu vraiment méthodique et scientifique - l'exploration est ce qui vient AVANT que les approches méthodiques et scientifiques puissent être introduites. Ici, je pense que l'aspect clé est le côté ludique.

Peter Flom
la source

(+1) Pouvez-vous fournir un lien vers le livre mentionné?

steffen

EDA du Engineering and Statistics Handbook itl.nist.gov/div898/handbook/eda/eda.htm .

Selden

Les variables @Peter Flom 13 sont produites en comparant deux ensembles de sorties produites par un programme fonctionnant sur deux ensembles d'entrées. Le programme s'exécute périodiquement. Les variables sont ordinales, catégorie, catégorie, catégorie, catégorie, nombre, nombre, nombre, nombre, numérique, numérique, nombre et nombre. Les noms sont id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB. Mais la décision de ne comparer que la sortie la plus récente est aussi ma bonne / mauvaise idée.

Selden

Le livre est en fait appelé Exploratory Data Analysis (pas EDA), il est de John W.Tukey (ma mémoire m'a trompé parce que la couverture de mon édition est étiquetée EDA) Lien: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…

Peter Flom

@selden Eh bien, l'ID n'est probablement pas une variable utile. Entre deux variables catégorielles, vous pouvez regarder des graphiques en mosaïque; entre un boxplots catégorique et un numérique, les boxplots parallèles peuvent être bons.

Peter Flom

Si vous avez des données chronologiques sur les séries ietime, alors il y a des "connus" et les "inconnus" attendent d'être découverts. Par exemple, si vous avez une séquence de points de données pour 10 périodes telles que 1,9,1,9,1,5,1,9,1,9, sur la base de cet échantillon, vous pouvez raisonnablement vous attendre à 1,9,1,9 , ... à se poser à l'avenir. Ce que l'analyse des données révèle, c'est qu'il y a une lecture «inhabituelle» à la période 6, même si elle se situe bien dans les limites de + -3 sigma, ce qui suggère que le DGF n'a pas tenu. Démasquer l'Inlier / Outlier nous permet de révéler des choses sur les données. Nous notons également que la valeur moyenne n'est pas la valeur attendue. Cette idée s'étend facilement à la détection de décalages moyens et / ou de tendances temporelles locales qui pouvaient être inconnus avant l'analyse des données (génération d'hypothèses). Maintenant, il est tout à fait possible que les 10 prochaines lectures soient également 1,9,1,9, 1,5,1,9,1,9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. 9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. 9 suggérant que le "5" n'est pas nécessairement fâcheux. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. n'est pas nécessairement fâcheuse. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné dans le temps; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. n'est pas nécessairement fâcheuse. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Si nous observons un processus d'erreur à partir d'un modèle approprié qui présente une variance non constante prouvable, nous pourrions révéler l'un des états de la nature suivants: 1) les paramètres peuvent avoir changé à un moment donné; 2. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure de plomb, contemporaine et de décalage) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. Il peut être nécessaire de procéder à une analyse pondérée (GLS); 3. Il peut être nécessaire de transformer les données via une transformation de puissance; 4. Il peut être nécessaire de modéliser réellement la variance des erreurs. Si vous disposez de données quotidiennes, une bonne analyse peut révéler qu'il existe une fenêtre de réponse (structure des pistes, contemporaine et des retards) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. structure contemporaine et lag) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle. structure contemporaine et lag) autour de chaque jour férié reflétant un comportement cohérent / prévisible. Vous pourrez également révéler que certains jours du mois ont un effet significatif ou que les vendredis avant les vacances du lundi ont une activité exceptionnelle.

IrishStat
la source

Lignes directrices pour découvrir de nouvelles connaissances dans les données

Réponses: