Y a-t-il un meilleur nom que «moyenne de l'intégrale»?

12

Je teste les capteurs de position du papillon (TPS) que mon entreprise vend et j'imprime le tracé de la réponse en tension à la rotation de l'arbre du papillon. Un TPS est un capteur rotatif avec une plage d' 90 ° et la sortie est comme un potentiomètre avec une ouverture totale de 5 V (ou la valeur d'entrée du capteur) et l'ouverture initiale étant une valeur entre 0 et 0,5 V. J'ai construit un banc d'essai avec un contrôleur PIC32 pour prendre une mesure de tension tous les 0,75 ° et la ligne noire relie ces mesures.

Un de mes produits a tendance à faire des variations localisées de faible amplitude loin de (et sous) la ligne idéale. Cette question concerne mon algorithme pour quantifier ces "creux" localisés; quel est le bon nom ou la description du processus de mesure des creux? (l'explication complète suit) Dans l'image ci-dessous, la baisse se produit dans le tiers gauche de l'intrigue et est un cas marginal si je réussirais ou échouerais cette partie:

Imprimer une partie suspecte

J'ai donc construit un détecteur d'immersion ( stackoverflow qa sur l'algorithme ) pour quantifier ma sensation intestinale. J'ai d'abord pensé que je mesurais la "surface". Ce graphique est basé sur l'impression ci-dessus et ma tentative d'expliquer graphiquement l'algorithme. Il y a une immersion durant 13 échantillons entre 17 et 31:

Données échantillonnées affichées avec le "dip" agrandi

Les données de test vont dans un tableau et je fais un autre tableau pour "monter" d'un point de données au suivant, que j'appelle . J'utilise une bibliothèque pour obtenir l'écart moyen et standard pour les .d e l t a sdeltasdeltas

L'analyse du tableau des est représentée dans le graphique ci-dessous, où la pente est supprimée du graphique ci-dessus. À l'origine, je pensais à cela comme «normalisant» ou «unifiant» les données car l'axe x sont des étapes égales et je travaille maintenant uniquement avec l'augmentation entre les points de données. En recherchant cette question, je me suis rappelé que c'est la dérivée, des données originales.d ydeltasdydx

Analyse de la dérivée ...?

Je parcours les pour trouver des séquences où il y a 5 valeurs négatives adjacentes ou plus. Les barres bleues sont une série de points de données inférieurs à la moyenne de tous les . Les valeurs des barres bleues sont:d e l t a sdeltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

Ils totalisent , ce qui représente l'aire (ou l'intégrale). Ma première pensée est "Je viens d'intégrer le dérivé", ce qui devrait signifier que je récupère les données d'origine, bien que je sois certain qu'il y a un terme pour cela.23

La ligne verte est la moyenne de ces "valeurs inférieures à la moyenne" trouvées en divisant la zone par la longueur du creux:

23÷13=1.77

Au cours des tests de plus de 100 pièces, j'ai décidé que les creux avec ma moyenne de ligne verte inférieure à étaient acceptables. L'écart type calculé sur l'ensemble de l'ensemble de données n'était pas un test assez strict pour ces creux, car sans une surface totale suffisante, ils tombaient toujours dans la limite que j'ai établie pour les bonnes pièces. J'ai choisi par observation l'écart type de pour être le plus élevé que je permettrais.3,02.63.0

La définition d'un seuil pour l'écart-type suffisamment strict pour faire échouer cette partie serait alors si stricte qu'elle ferait échouer les pièces qui, autrement, semblent avoir un excellent tracé. J'ai également un détecteur de pointes qui échoue à la pièce s'il y en a . .|deltasavg|>avg+stddev

Cela fait près de 20 ans depuis Calc 1, alors s'il vous plaît, allez-y doucement, mais cela ressemble beaucoup à quand un professeur a utilisé le calcul et l'équation de déplacement pour expliquer comment en course, un compétiteur avec moins d'accélération qui maintient une vitesse de virage plus élevée peut battre un autre compétiteur ayant une plus grande accélération au virage suivant: en passant plus rapidement au virage précédent, la vitesse initiale plus élevée signifie que la zone sous sa vitesse (déplacement) est plus grande.

Pour traduire cela à ma question, j'ai l'impression que ma ligne verte serait comme l'accélération, la dérivée 2e des données originales.

J'ai visité wikipedia pour relire les principes fondamentaux du calcul et les définitions de dérivée et intégrale , j'ai appris le terme approprié pour additionner l'aire sous une courbe via des mesures discrètes comme intégration numérique . Beaucoup plus sur Google en moyenne de l'intégrale et je suis amené au sujet de la non-linéarité et du traitement du signal numérique. La moyenne de l'intégrale semble être une mesure populaire pour quantifier les données .

Y a-t-il un terme pour la moyenne de l'intégrale? ( , la ligne verte)? 1.77
... ou pour le processus d'utilisation pour évaluer les données?

Chris K
la source
Je pense que "dip moyen" est assez bon. Il n'a pas les dimensions de l'accélération, donc cela n'a certainement rien à voir avec cela.
ShreevatsaR
Et j'apprécierais toute observation ou commentaire sur ce sujet dans son ensemble. Je suis un peu troublé par le fait que cette mesure de «sensation d'intestin» ne soit pas mieux exprimée mathématiquement.
Chris K
Pourriez-vous éventuellement ajouter tous les points de données que vous avez utilisés pour construire la ligne idéale, ou ajouter un peu plus d'informations sur la façon dont la ligne rouge en pointillés est calculée pour justifier que les barres bleues soient les "deltas qui sont inférieurs à la moyenne de tous les points de données "? Si c'est moralement la distance moyenne de la moyenne, alors il devrait y avoir un nom de style d'accélération, remplaçant bien sûr la différenciation par la prise d'une moyenne.
1
Migré de Math.SE par demande OP: meta.stats.stackexchange.com/questions/1845/…
Willie Wong
1
Je pourrais ajouter le mot «local» pour indiquer clairement que l'étape 1 existe - je suis d'accord avec @Glen_b (un autre Glen - salut!) Que c'est important. Je suggérerais donc provisoirement «défaut moyen local» où je viens de concaténer «écart par rapport à l'idéal» à «défaut». Semble approprié.
Glen Wheeler

Réponses:

3

Tout d'abord, c'est une excellente description de votre projet et du problème. Et je suis un grand fan de votre cadre de mesure fait maison, qui est super cool ... alors pourquoi diable est-ce important ce que vous appelez "la moyenne des intégrales"?

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thαh
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

x[n]

Il existe également d'autres règles que vous voudrez peut-être prendre en compte pour classer un périphérique comme défectueux:

  • si tout écart (delta) est supérieur à un multiple de la SD de tous les deltas
  • si la somme carrée des écarts est supérieure à un certain seuil
  • si le rapport de la somme des deltas positifs et négatifs n'est pas approximativement égal (ce qui pourrait être utile si vous préférez des erreurs plus petites dans les deux directions plutôt qu'un fort biais dans une seule direction)

Bien sûr, vous pouvez trouver plus de règles et les concaténer en utilisant la logique booléenne, mais je pense que vous pouvez aller très loin avec les trois ci-dessus.

Dernier point mais non le moindre, une fois que vous l'avez configuré, vous devrez tester le classificateur (un classificateur est un système / modèle mappant une entrée à une classe, dans votre cas, les données de chaque périphérique, soit "bonnes", soit " défectueux"). Créez un ensemble de tests en étiquetant manuellement les performances de chaque appareil. Ensuite, examinez ROC , qui vous indique essentiellement le décalage entre le nombre de périphériques que votre système récupère correctement sur les retours, par rapport au nombre de périphériques défectueux qu'il récupère.

sens à sens
la source
Je crois que "pourquoi diable ça compte" est fonction de votre propre nom d'utilisateur. :) Pourquoi? Même raison pour laquelle il existe une crête iliaque: nous avons besoin de mots pour quantifier distinctement tout ce qui est unique dans la vie. À mon humble avis, cet AQ est un exemple de la limitation du vocabulaire dans les statistiques. Nous devons combiner des descripteurs confus ou contradictoires pour ce qui est «à l'œil» si simple.
Chris K
Hehe, bien repéré monsieur! :) Si j'ai omis toute entreprise au pays de la marque créative, c'est simplement parce que je me sentais obligé de soutenir l'ingéniosité et le dévouement de vos efforts et de vos idées plutôt que de concocter de vaines étiquettes. Puisque vous insistez pour nommer la moyenne de l'intégrale, sachez que ce que vous considérez comme la "moyenne de l'intégrale" est une simple moyenne de vos deltas. Et en tant que tels, vos valeurs aberrantes sont simplement des «écarts par rapport à la moyenne», ou éventuellement des écarts par rapport à la moyenne locale. Je ne vois pas vraiment l'avantage de penser dans les intégrales, à moins que vous n'ayez pas assez de points d'échantillonnage.
moyen à sens