Calcul de la pente moyenne: moyenne harmonique ou arithmétique?

11

Je dois calculer la pente moyenne du pourcentage de pente ascendante pour un grand ensemble de données, la méthode de base est détaillée ici. Cependant, j'ai commencé à me demander si la moyenne harmonique pourrait être plus appropriée que la moyenne arithmétique standard, car il s'agit techniquement d'un taux de changement. Je n'ai vu cela apparaître dans aucune des autres discussions sur la moyenne de la pente sur des points, des zones, des lignes, etc. Cela devrait être assez simple à réaliser.

modifier: Le but du calcul de la pente moyenne dans ce cas est de générer un paramètre (parmi plusieurs) à utiliser dans la modélisation des seuils d'initiation de canal. J'ai un ensemble d'emplacements de tête de canal collectés sur le terrain que je collecterai l'accumulation de flux, divers paramètres de pente ascendante moyenne, etc., et utiliserai une régression linéaire multiple pour essayer de décrire les seuils d'accumulation en fonction des autres paramètres.

Jay Guarneri
la source
4
Cela dépend de la raison pour laquelle vous calculez la pente moyenne. Quel est le but? Quelle quantité physique essayez-vous de mesurer? Bien que de nombreuses formes de moyenne soient légitimes, méfiez-vous de la moyenne harmonique: cela pose des problèmes lorsque n'importe quelle pente est nulle, ce qui arrive fréquemment.
whuber

Réponses:

10

La pente moyenne ressemble à une quantité naturelle mais c'est plutôt une chose étrange. Par exemple, la pente moyenne d'une plaine horizontale plate est nulle, mais lorsque vous ajoutez un tout petit peu de bruit aléatoire nul à un DEM de cette plaine, la pente moyenne ne peut que monter. D'autres comportements étranges sont la dépendance de la pente moyenne de la résolution DEM, que j'ai documentée ici , et sa dépendance de la façon dont le DEM a été créé. Par exemple, certains DEM créés à partir de cartes de contours sont en fait légèrement en terrasses - avec de minuscules sauts brusques où se trouvent les lignes de contour - mais sinon, ils sont des représentations précises de la surface dans son ensemble. Ces sauts brusques, s'ils reçoivent trop ou trop peu de poids dans le processus de calcul de la moyenne, peuvent modifier la pente moyenne.

L'augmentation de la pondération est pertinente car, en fait, une moyenne harmonique (et d'autres moyens) pondère différemment les pentes. Pour comprendre cela, considérons la moyenne harmonique de seulement deux nombres positifs x et y . Par définition,

Harmonic mean(x,y) = 1 / ((1/x + 1/y)/2) = x (y/(x+y)) + y (x/(x+y)) = a x + b y

où les poids sont a = y / (x + y) et b = x / (x + y). (Ceux-ci méritent d'être appelés "poids" car ils sont positifs et totalisent l'unité. Pour la moyenne arithmétique, les poids sont a = 1/2 et b = 1/2). Évidemment, le poids attaché à x , égal à y / (x + y), est grand quand x est petit comparé à y . Ainsi, l'harmonique signifie surpondérer les petites valeurs.

Cela peut aider à élargir la question. La moyenne harmonique fait partie d'une famille de moyennes paramétrées par une valeur réelle p . Tout comme la moyenne harmonique est obtenue en faisant la moyenne des inverses de x et y (puis en prenant l'inverse de leur moyenne), en général, nous pouvons faire la moyenne des pth puissances de x et y (puis prendre la puissance 1 / pth du résultat ). Les cas p = 1 et p = -1 sont respectivement les moyennes arithmétique et harmonique. (Nous pouvons définir une moyenne pour p = 0 en prenant des limites et ainsi obtenir la moyenne géométrique en tant que membre de cette famille.) Comme pdiminue à partir de 1, les valeurs les plus petites sont de plus en plus fortement pondérées; et lorsque p augmente à partir de 1, les valeurs les plus élevées sont de plus en plus fortement pondérées. Il s'ensuit que la moyenne ne peut augmenter que lorsque p augmente et doit diminuer lorsque p diminue. (Cela est évident dans la deuxième figure ci-dessous, dans laquelle les trois lignes sont soit plates soit croissantes de gauche à droite.)

En adoptant une vision pratique de la question, nous pourrions plutôt étudier le comportement de divers moyens de pente et ajouter ces connaissances à notre boîte à outils analytiques: lorsque nous nous attendons à ce que les pentes entrent en relation de telle manière que les pentes plus petites devraient recevoir plus de une influence, on pourrait choisir une moyenne avec p inférieur à 1; et inversement, nous pourrions augmenter p au-dessus de 1 afin de souligner les pentes les plus importantes. À cette fin, considérons différentes formes de profils de drainage au voisinage d'un point.

Pour montrer ce qui pourrait continuer, j'ai considéré trois terrains locaux qualitativement différents : l'un est où toutes les pentes sont égales (ce qui fait une bonne référence); une autre est l'endroit où nous nous situons localement au fond d'un bol: autour de nous les pentes sont nulles, mais augmentent progressivement et finalement, autour du bord, deviennent arbitrairement grandes. L'inverse de cette situation se produit lorsque les pentes proches sont modérées mais se stabilisent ensuite loin de nous. Cela semblerait couvrir un large éventail réaliste de comportements.

Voici des tracés pseudo-3D de ces trois types de formes de drainage:

Tracés en 3D

Ici, j'ai calculé la pente moyenne de chacun - avec le même codage couleur - en fonction de p , en laissant p aller de -1 (moyenne harmonique) à 2.

Pente signifie vs p

Bien sûr, la ligne bleue est horizontale: quelle que soit la valeur de p , la moyenne d'une pente constante ne peut être autre que cette constante (qui a été fixée à 1 pour référence). Les hautes pentes autour du bord le plus éloigné du bol rouge influencent fortement les pentes moyennes car p varie: remarquez à quel point elles deviennent grandes une fois que p dépasse 1. Le bord horizontal dans la troisième surface (or-vert) provoque la moyenne harmonique (p = - 1) à zéro.

Il est à noter que les positions relatives des trois courbes changent à p = 0 (la moyenne géométrique): pour p supérieur à 0, le bol rouge a des pentes moyennes plus grandes que le bleu, tandis que pour p négatif , le bol rouge a une moyenne plus petite pentes que le bleu. Ainsi, votre choix de p peut même modifier le classement relatif des pentes moyennes.

L'effet profond de la moyenne harmonique (p = -1) sur la forme jaune-vert devrait nous faire réfléchir: il montre que lorsqu'il y a suffisamment de petites pentes dans le drainage, la moyenne harmonique peut être si petite qu'elle écrase toute influence de toutes les autres pistes.

Dans l'esprit d'une analyse exploratoire des données, vous pourriez envisager de faire varier p - peut-être en le laissant varier de 0 à légèrement supérieur à 1 afin d'éviter des poids extrêmes - et de trouver quelle valeur crée la meilleure relation entre la pente moyenne et la variable que vous modélisent (comme les seuils d'initialisation des canaux). «Meilleur» est généralement compris dans le sens de «plus linéaire» ou de «création de résidus [homoscédastiques] constants» dans un modèle de régression.

whuber
la source
Merci pour l'analyse approfondie! Je vais devoir réfléchir un peu là-dessus.
Jay Guarneri
1

J'ai entrepris une approche empirique pour trouver une réponse complémentaire à l'excellente réponse théorique de whuber. J'ai décidé de calculer la pente en degrés et la moyenne en utilisant une moyenne angulaire . Ensuite, j'ai calculé les moyennes arithmétiques et harmoniques de la pente en pourcentage, j'ai créé un ensemble de points d'échantillonnage situés au hasard dans la zone d'étude. J'ai demandé 2000 points avec une distance minimale de 100m, ce qui a rapporté 1326 points. J'ai échantillonné les valeurs de chaque raster de pente moyenne à chaque point et converti les pourcentages moyens en degrés en utilisant la formule Degrees = atan(percent/100). Mon hypothèse ici est que la moyenne angulaire produira la pente moyenne "correcte" en degrés, et quel que soit le pourcentage moyen le plus proche, ce serait la bonne procédure.

Ensuite, j'ai comparé toutes les valeurs non nulles en utilisant un test de Kruskal-Wallace (les hypothèses étant que pour la plupart des valeurs de pente zéro, ce serait zéro dans les trois, et que les valeurs nulles masqueraient les différences entre les méthodes). J'ai trouvé une différence significative entre les trois (chi carré = 17,9570, DF = 2, p = 0,0001), j'ai donc examiné les données en utilisant la procédure de Dunn en utilisant alpha = 0,05 (Elliot et Hynan 2011) . Le résultat final est que la moyenne arithmétique et harmonique sont significativement différentes l'une de l'autre, mais neigher est significativement différente de la moyenne angulaire:

Comparison           Diff        SE        q         q(0.05)    Conclude                      
------------------------------------------------------------------------------                
arith     harm      164.12    38.78     4.23       2.394    Reject                            
arith     angular   75.3      38.8      1.94       2.394    Do not reject                     
angular   harm      88.82     38.68     2.3        2.394    Do not reject                     

Si mes hypothèses étaient toutes correctes (elles pourraient très bien ne pas l'être), cela signifie que bien que les moyens harmoniques et arithmétiques créent des valeurs différentes les uns des autres, ils sont tous les deux "étroitement liés" à la moyenne angulaire pour être acceptables. Il y a deux autres mises en garde ici auxquelles je peux penser (veuillez en ajouter d'autres si vous y pensez):

  1. Une taille d'échantillon plus grande pourrait trouver une différence significative entre les moyennes en pourcentage et la moyenne angulaire. Cependant, ma taille d'échantillon était de ~ 1000 points uniquement pour les valeurs non nulles.
  2. Étant donné que mes points d'échantillonnage étaient situés sans tenir compte des bassins versants, il peut y avoir une pseudo-réplication impliquée, car toute pente moyenne va être liée aux pentes moyennes au-dessus.
Jay Guarneri
la source
1
C'est intéressant (+1), mais attention aux limitations. (1) Oui, si vous choisissez une taille d'échantillon plus grande, vous constaterez que toutes les différences sont significatives. Il n'est donc pas logique d'effectuer un test d'hypothèse statistique: vous souhaitez vous concentrer sur la quantité de différence entre les procédures. (2) Vos résultats dépendent entièrement des propriétés réelles de vos données. Ils varieront avec d'autres ensembles de données. (3) La moyenne angulaire est utile comme référence mais ce n'est en aucun cas une valeur préférée. Le choix de la référence dépend entièrement de la façon dont la moyenne sera utilisée dans des analyses ou des cartographies ultérieures.
whuber
0

Étant donné l'hypothèse qu'aucun paramètre définissant la pente n'est connu, tout statisticien dirait d'utiliser la pente qui minimise les écarts RMS des données. (Bien sûr, les exemples de whuber ne sont pas admissibles car il a choisi des formes de relief générées mathématiquement, mais pour les formes de relief réelles, l'hypothèse de paramètres inconnus devrait être valide.)

johnsankey
la source
Cette réponse est appréciée, mais je pense qu'elle méconnaît la situation. Plus important encore, ces pentes ne sont pas utilisées pour ajuster les courbes: le concept de «déviations RMS des données» n'est tout simplement pas applicable. Deuxièmement, j'ai choisi des types de relief qualitatifs pour couvrir un large spectre de ce qui sera vraiment rencontré, donc je maintiens qu'ils donnent des informations utiles sur ce à quoi s'attendre. Les ensembles de données réels ne contribuent pas beaucoup à comprendre ce qui se passe ici, car il n'y a pas de "vraie" pente moyenne. La principale question est de savoir quelles moyennes seront utiles ou informatives.
whuber
1
BTW, je crois que j'ai quelques qualifications en tant que statisticien. Cela ne fait ni mieux ni pire mon opinion sur cette question: comme pour n'importe qui d'autre, je dois la soutenir aussi clairement et objectivement que possible, et je suis tout à fait susceptible de me tromper et de devoir changer d'avis: - ). Je viens de proposer ce point comme un contrepoids à votre remarque «tout statisticien».
whuber
La question de savoir quel ajustement est utile, je pense, dépend de l'utilisation de la pente. Pour le potentiel d'affaissement des terres, par exemple, les pentes plus raides seraient pondérées plus haut que les pentes douces conformément à un modèle de potentiel d'affaissement par rapport à la pente, alors l'approche d'ajustement RMS devrait être valide. D'autres modèles de pondération seraient utilisés pour correspondre à d'autres utilisations. En bref, modéliser tout ce que nous savons par pondération ou par d'autres moyens, puis compter sur RMS comme modèle pour tout ce que nous ne savons pas, c'est ce que je suggère.
johnsankey
Je suis d'accord avec la prémisse de ce commentaire, John, mais je ne vois pas comment votre conclusion suit. Si les pentes plus raides doivent recevoir des poids plus lourds, il semble RMS est juste ce que vous ne pas voulez faire, car il pèse tous les écarts également, quelle que soit la pente. De plus, RMS, en tant que fonction de perte quadratique, ne peut pas être un remplacement universel de ce que d'autres techniques peuvent réaliser, y compris des ré-expressions non linéaires de la pente et l'utilisation de fonctions de perte alternatives (exploitées par des méthodes d'ajustement robustes par exemple).
whuber
RMS comprend des poids
johnsankey