Quelle est la différence entre Outlier et Anomaly dans le contexte de l'apprentissage automatique. Je crois comprendre que les deux se réfèrent à la même
Quelle est la différence entre Outlier et Anomaly dans le contexte de l'apprentissage automatique. Je crois comprendre que les deux se réfèrent à la même
Dans Kahneman et Deaton (2010) , les auteurs écrivent ce qui suit:††^\dagger Cette régression explique 37% de la variance, avec une erreur quadratique moyenne (RMSE) de 0,67852. Pour éliminer les valeurs aberrantes et les rapports de revenus peu plausibles, nous avons supprimé les observations dans...
J'ai un ensemble de données avec l'hypothèse que les voisins les plus proches sont les meilleurs prédicteurs. Juste un exemple parfait de gradient bidirectionnel visualisé- Supposons que nous ayons un cas où peu de valeurs manquent, nous pouvons facilement prédire en fonction des voisins et de la...
J'essaie de séparer deux groupes de valeurs d'un même ensemble de données. Je peux supposer que l'une des populations est normalement distribuée et représente au moins la moitié de la taille de l'échantillon. Les valeurs du second sont à la fois inférieures ou supérieures aux valeurs du premier (la...
Quels sont les avantages et les inconvénients de l'utilisation de LARS [1] par rapport à l'utilisation de la descente de coordonnées pour ajuster la régression linéaire régularisée L1? Je m'intéresse principalement aux aspects de performance (mes problèmes ont tendance à avoir Ndes centaines de...
J'ai une série chronologique quotidienne assez prévisible avec une saisonnalité hebdomadaire. Je peux proposer des prédictions qui semblent assez précises (confirmées par validation croisée) quand il n'y a pas de vacances. Cependant, quand il y a des vacances, j'ai les problèmes suivants: J'obtiens...
J'ai besoin d'obtenir une valeur aussi précise que possible pour la luminosité d'une source de lumière principalement stable étant donné douze valeurs de luminosité d'échantillon. Le capteur est imparfait, et la lumière peut parfois "scintiller" plus ou moins sombre, ce qui peut être ignoré, d'où...
J'essaie de détecter des valeurs anormales dans une série chronologique de données climatiques avec quelques observations manquantes. En cherchant sur le Web, j'ai trouvé de nombreuses approches disponibles. Parmi ceux-ci, la décomposition stl semble attrayante, dans le sens de supprimer les...
Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les...
Je travaille sur les statistiques des builds de logiciels. J'ai des données pour chaque build sur réussite / échec et le temps écoulé et nous générons ~ 200 de ces / semaine. Le taux de réussite est facile à agréger, je peux dire que 45% ont réussi une semaine donnée. Mais je voudrais également...
J'ai trouvé de nombreux articles qui indiquent que les méthodes de boosting sont sensibles aux valeurs aberrantes, mais aucun article expliquant pourquoi. D'après mon expérience, les valeurs aberrantes sont mauvaises pour tout algorithme d'apprentissage automatique, mais pourquoi les méthodes de...
J'écris un script qui analyse les temps d'exécution des processus. Je ne suis pas sûr de leur distribution mais je veux savoir si un processus se déroule "trop longtemps". Jusqu'à présent, j'ai utilisé 3 écarts-types des derniers temps d'exécution (n> 30), mais on m'a dit que cela ne fournit...
J'emploie l'estimateur habituel de , mais je remarque que mêmepetites valeurs aberrantes « » dans ma distribution empirique,savoirpetits pics loin du centre, affectent énormément. Existe-t-il un estimateur de kurtosis qui est plus
Je fais des recherches sur le domaine de la réponse fonctionnelle des acariens. Je voudrais faire une régression pour estimer les paramètres (taux d'attaque et temps de manipulation) de la fonction Rogers type II. J'ai un ensemble de données de mesures. Comment puis-je déterminer au mieux les...
J'ai une régression logistique d'interception aléatoire (due à des mesures répétées) et je voudrais faire quelques diagnostics, en particulier concernant les valeurs aberrantes et les observations influentes. J'ai regardé les résidus pour voir s'il y a des observations qui ressortent. Mais je...
La régression peut-elle être utilisée pour une détection externe. Je comprends qu'il existe des moyens d'améliorer un modèle de régression en supprimant les valeurs aberrantes. Mais l'objectif principal ici n'est pas d'adapter un modèle de régression, mais de découvrir des mensonges en utilisant la...
Comme son titre l'indique, quelqu'un connaît-il un bon livre à jour qui couvre le prétraitement des données en général et en particulier les techniques de détection des valeurs aberrantes? Le livre n'a pas besoin de se concentrer exclusivement sur cela, mais il devrait traiter de manière exhaustive...
Quelle est la meilleure façon de sélectionner automatiquement les fonctionnalités pour la détection des anomalies? Je traite normalement la détection d'anomalies comme un algorithme où les fonctionnalités sont sélectionnées par des experts humains: ce qui compte, c'est la plage de sortie (comme...
J'essaie d'automatiser la détection des valeurs aberrantes dans les séries chronologiques et j'ai utilisé une modification de la solution proposée par Rob Hyndman ici . Disons que je mesure les visites quotidiennes d'un site Web de divers pays. Pour certains pays où les visites quotidiennes sont de...
J'ai besoin d'écrire un programme pour trouver le point GPS moyen à partir d'une population de points. En pratique, les événements suivants se produisent: Chaque mois, une personne enregistre un point GPS du même actif statique. En raison de la nature du GPS, ces points diffèrent légèrement chaque...