J'ai quatre variables numériques. Tous sont des mesures de la qualité du sol. Plus la variable est élevée, plus la qualité est élevée. La gamme pour chacun d'eux est différente:
Var1 de 1 à 10
Var2 de 1000 à 2000
Var3 de 150 à 300
Var4 de 0 à 5
Je dois combiner quatre variables en un seul score de qualité du sol qui réussira à classer l'ordre.
Mon idée est très simple. Standardisez les quatre variables, résumez-les et tout ce que vous obtenez est le score qui doit être classé. Voyez-vous un problème avec l'application de cette approche? Y a-t-il une autre (meilleure) approche que vous recommanderiez?
Merci
Modifier:
Merci les gars. Beaucoup de discussions ont porté sur "l'expertise du domaine" ... Des trucs agricoles ... Alors que je m'attendais à plus de statistiques. En termes de technique que j'utiliserai ... Ce sera probablement une simple sommation du score z + une régression logistique comme expérience. Parce que la grande majorité des échantillons a une qualité médiocre à 90%, je vais combiner 3 catégories de qualité en une seule et avoir essentiellement un problème binaire (qualité contre non-qualité). Je tue deux oiseaux avec une pierre. J'augmente mon échantillon en termes de taux d'événements et je fais appel à des experts en les faisant classifier mes échantillons. Des échantillons classés experts seront ensuite utilisés pour adapter le modèle log-reg afin de maximiser le niveau de concordance / discordance avec les experts .... Comment cela vous semble-t-il?
Quelqu'un a regardé Russell G. Congalton, «Review of Assessing the Exuracy of Classifications of Remotely Sensed Data», 1990?. Il décrit une technique connue sous le nom de matrice d'erreur pour les matrices de varing, également un terme qu'il utilise appelé `` données de normalisation '', par lequel on obtient tous les différents vecteurs et `` normalise '' ou les définit comme égaux de 0 à 1. Vous changez fondamentalement tous les vecteurs en des plages égales de 0 à 1.
la source
Une autre chose dont vous n'avez pas discuté est l'échelle des mesures. V1 et V5 semblent être de rang et les autres ne semblent pas. La normalisation peut donc fausser le score. Il est donc préférable de transformer toutes les variables en rangs et de déterminer une pondération pour chaque variable, car il est très peu probable qu'elles aient le même poids. La pondération égale est plus une valeur par défaut "non rien". Vous voudrez peut-être faire une analyse de corrélation ou de régression pour trouver des pondérations a priori.
la source
Pour faire suite à la réponse de Ralph Winters, vous pouvez utiliser l'ACP (analyse en composantes principales) sur la matrice de scores convenablement standardisés. Cela vous donnera un vecteur de poids "naturel" que vous pouvez utiliser pour combiner les scores futurs.
Faites-le également après que tous les scores ont été transformés en rangs. Si les résultats sont très similaires, vous avez de bonnes raisons de continuer avec l'une ou l'autre méthode. S'il y a des divergences, cela conduira à des questions intéressantes et à une meilleure compréhension.
la source