Création d'un indice de qualité à partir de plusieurs variables pour permettre le classement des classements

22

J'ai quatre variables numériques. Tous sont des mesures de la qualité du sol. Plus la variable est élevée, plus la qualité est élevée. La gamme pour chacun d'eux est différente:

Var1 de 1 à 10

Var2 de 1000 à 2000

Var3 de 150 à 300

Var4 de 0 à 5

Je dois combiner quatre variables en un seul score de qualité du sol qui réussira à classer l'ordre.

Mon idée est très simple. Standardisez les quatre variables, résumez-les et tout ce que vous obtenez est le score qui doit être classé. Voyez-vous un problème avec l'application de cette approche? Y a-t-il une autre (meilleure) approche que vous recommanderiez?

Merci

Modifier:

Merci les gars. Beaucoup de discussions ont porté sur "l'expertise du domaine" ... Des trucs agricoles ... Alors que je m'attendais à plus de statistiques. En termes de technique que j'utiliserai ... Ce sera probablement une simple sommation du score z + une régression logistique comme expérience. Parce que la grande majorité des échantillons a une qualité médiocre à 90%, je vais combiner 3 catégories de qualité en une seule et avoir essentiellement un problème binaire (qualité contre non-qualité). Je tue deux oiseaux avec une pierre. J'augmente mon échantillon en termes de taux d'événements et je fais appel à des experts en les faisant classifier mes échantillons. Des échantillons classés experts seront ensuite utilisés pour adapter le modèle log-reg afin de maximiser le niveau de concordance / discordance avec les experts .... Comment cela vous semble-t-il?

user333
la source

Réponses:

19

L'approche proposée peut donner un résultat raisonnable, mais uniquement par accident. À cette distance - c'est-à-dire en prenant la question pour argent comptant, avec la signification des variables déguisées - certains problèmes apparaissent:

  1. Il n'est même pas évident que chaque variable soit positivement liée à la «qualité». Par exemple, que se passe-t-il si un 10 pour «Var1» signifie que la «qualité» est pire que la qualité lorsque Var1 est 1? L'ajouter à la somme est à peu près aussi mauvais que l'on peut faire; il doit être soustrait.

  2. La normalisation implique que la "qualité" dépend de l'ensemble de données lui-même. Ainsi, la définition changera avec différents ensembles de données ou avec des ajouts et des suppressions à ces données. Cela peut transformer la «qualité» en une construction arbitraire, transitoire et non objective et empêcher les comparaisons entre les ensembles de données.

  3. Il n'y a pas de définition de la «qualité». Qu'est-ce que cela est censé signifier? Capacité à bloquer la migration de l'eau contaminée? Capacité à soutenir les processus organiques? Capacité à favoriser certaines réactions chimiques? Les sols bons pour l'une de ces fins peuvent être particulièrement pauvres pour d'autres.

  4. Le problème, comme indiqué, n'a aucun but: pourquoi la "qualité" doit-elle être classée? À quoi servira le classement - contribution à une analyse plus approfondie, sélection du «meilleur» sol, décision d'une hypothèse scientifique, élaboration d'une théorie, promotion d'un produit?

  5. Les conséquences du classement ne sont pas apparentes. Si le classement est incorrect ou inférieur, que se passera-t-il? Le monde aura-t-il plus faim, l'environnement sera-t-il plus contaminé, les scientifiques plus induits en erreur, les jardiniers plus déçus?

  6. Pourquoi une combinaison linéaire de variables devrait-elle être appropriée? Pourquoi ne devraient-ils pas être multipliés ou exponentiés ou combinés en tant que posynôme ou quelque chose d'encore plus ésotérique?

  7. Les mesures de la qualité des sols bruts sont souvent ré-exprimées. Par exemple, la perméabilité logarithmique est généralement plus utile que la perméabilité elle-même et l'activité log ionique hydrogène (pH) est beaucoup plus utile que l'activité. Quelles sont les ré-expressions appropriées des variables pour déterminer la "qualité"?

On pourrait espérer que la science des sols répondrait à la plupart de ces questions et indiquerait la combinaison appropriée des variables pour tout sens objectif de la «qualité». Sinon, vous êtes confronté à un problème de valorisation multi-attributs . L'article de Wikipedia répertorie des dizaines de méthodes pour résoudre ce problème. À mon humble avis, la plupart d'entre eux sont inappropriés pour répondre à une question scientifique. La théorie de l'évaluation à attributs multiples de Keeney & Raiffa est l' une des rares à avoir une théorie solide et une applicabilité potentielle aux questions empiriques.(MAVT). Il vous faut être en mesure de déterminer, pour deux combinaisons spécifiques de variables quelconques, laquelle des deux devrait se classer plus haut. Une séquence structurée de ces comparaisons révèle (a) des moyens appropriés pour ré-exprimer les valeurs; (b) si une combinaison linéaire des valeurs ré-exprimées produira ou non le classement correct; et (c) si une combinaison linéaire est possible, elle vous permettra de calculer les coefficients. En bref, MAVT fournit des algorithmes pour résoudre votre problème à condition que vous sachiez déjà comment comparer des cas spécifiques.

whuber
la source
RE: 1. Je sais avec certitude que "plus le nombre, plus la qualité" pour les quatre variables RE: 2. Bon point. Que puis-je faire pour rendre deux jeux de données comparables
user333
2
@user Mes recommandations sont dans le dernier paragraphe: de préférence, trouvez une expression quantitative de la «qualité» dans la littérature scientifique. Sauf cela, appliquez MAVT. Les deux produisent une formule fixe indépendante de l'ensemble de données. Cela garantit la comparabilité.
whuber
1
@whuber, ne pourrait-on pas considérer cela comme un problème de prise d'une mesure formative basée sur les informations disponibles, auquel cas la somme des scores Z n'est pas aussi mauvaise que vous le dites?
Andy W
3
@Andy Pourriez-vous expliquer ce que vous entendez par "mesure formative" et "informations disponibles"? // Je dois souligner que de nombreuses mesures de l'aptitude des sols à l'agriculture ne sont même pas monotones, et encore moins linéaires: par exemple, une plante peut s'épanouir dans une plage de pH mais souffrir de pH au-delà de cette plage dans les deux sens . Ce serait en effet une circonstance particulière - peut-être impliquant une gamme étroite de valeurs - si une simple combinaison linéaire des caractéristiques du sol avait une relation objective avec les qualités agricoles.
whuber
2
(y1,,yk)(X1,,Xk)
whuber
3

Quelqu'un a regardé Russell G. Congalton, «Review of Assessing the Exuracy of Classifications of Remotely Sensed Data», 1990?. Il décrit une technique connue sous le nom de matrice d'erreur pour les matrices de varing, également un terme qu'il utilise appelé `` données de normalisation '', par lequel on obtient tous les différents vecteurs et `` normalise '' ou les définit comme égaux de 0 à 1. Vous changez fondamentalement tous les vecteurs en des plages égales de 0 à 1.

Ragus Paganini
la source
0

Une autre chose dont vous n'avez pas discuté est l'échelle des mesures. V1 et V5 semblent être de rang et les autres ne semblent pas. La normalisation peut donc fausser le score. Il est donc préférable de transformer toutes les variables en rangs et de déterminer une pondération pour chaque variable, car il est très peu probable qu'elles aient le même poids. La pondération égale est plus une valeur par défaut "non rien". Vous voudrez peut-être faire une analyse de corrélation ou de régression pour trouver des pondérations a priori.

Ralph Winters
la source
Comment puis-je utiliser l'analyse de corrélation pour déterminer le poids?
user333
Si vous disposez déjà d'une mesure globale de qualité préexistante, par exemple des opinions d'experts (ou si vous êtes disposé à accepter d'autres variables comme proxy pour cela), vous pouvez choisir les variables corrélées les plus élevées et lui donner la pondération la plus élevée.
Ralph Winters le
-3

Pour faire suite à la réponse de Ralph Winters, vous pouvez utiliser l'ACP (analyse en composantes principales) sur la matrice de scores convenablement standardisés. Cela vous donnera un vecteur de poids "naturel" que vous pouvez utiliser pour combiner les scores futurs.

Faites-le également après que tous les scores ont été transformés en rangs. Si les résultats sont très similaires, vous avez de bonnes raisons de continuer avec l'une ou l'autre méthode. S'il y a des divergences, cela conduira à des questions intéressantes et à une meilleure compréhension.

Hans Engler
la source
4
Je ne suis pas d'accord. Alors que l'on serait probablement intéressé par les corrélations inter-éléments pour la curiosité, toutes les variables pourraient être orthogonales tout en contribuant à la qualité. Pour un exemple stupide, le sol de l'Antarctique peut avoir une teneur optimale en azote, mais je doute qu'il suffirait d'un climat approprié.
Andy W
@Andy W: Dans ce cas, toutes les variables doivent être pondérées de manière égale, et PCA vous le dira. Cela vous indiquerait également que la composante principale ne représente qu'une fraction relativement faible de la variabilité globale de la matrice des scores.
Hans Engler
3
Je suis toujours en désaccord. Il ne vous dit pas si les scores doivent être pondérés également. Deux éléments pourraient avoir une corrélation positive, mais chacun a des relations opposées à la «qualité». Les corrélations inter-items ne disent pas nécessairement quoi que ce soit sur la mesure non observée dans le contexte donné. Si la qualité était une variable latente et que les variables «reflétaient» cette construction latente, cela pourrait être vrai, mais ce n'est pas le cas dans cet exemple donné.
Andy W
UNEm×nσ1uvTUNEnvjvj
Hans Engler
3
Je suis toujours en désaccord. Même si l'association est censée être dans la même direction, cela ne signifie pas que les indicateurs devraient être intrinsèquement accordés un poids en fonction de leur corrélation entre les éléments. La variance partagée ne peut que dire quelque chose sur la relation entre les indicateurs. Pensez à un modèle de régression dans lequel nous prédisons une mesure connue de la qualité à partir de ces indicateurs. Les corrélations inter-items entre les indicateurs ne vous indiquent pas quelles seront les pentes attendues.
Andy W