Meilleures pratiques lors du traitement continu des données de plage

Je cherche à savoir si l'abondance est liée à la taille. La taille est (bien sûr) continue, cependant, l'abondance est enregistrée sur une échelle telle que

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc...

A à Q ... 17 niveaux. Je pensais qu'une approche possible serait d'attribuer à chaque lettre un nombre: soit le minimum, le maximum ou la médiane (c'est-à-dire A = 5, B = 18, C = 38, D = 75,5 ...).

Quels sont les pièges potentiels - et en tant que tel, serait-il préférable de traiter ces données comme catégoriques?

J'ai lu cette question qui donne quelques réflexions - mais l'une des clés de cet ensemble de données est que les catégories ne sont même pas - donc le traiter comme catégorique supposerait que la différence entre A et B est la même que la différence entre B et C ... (qui peuvent être rectifiés en utilisant le logarithme - merci Anonymouse)

En fin de compte, j'aimerais voir si la taille peut être utilisée comme prédicteur de l'abondance après avoir pris en compte d'autres facteurs environnementaux. La prédiction sera également dans une plage: étant donné la taille X et les facteurs A, B et C, nous prédisons que l'abondance Y se situera entre Min et Max (qui, je suppose, pourrait s'étendre sur un ou plusieurs points d'échelle: Plus de Min D et moins de Max F ... mais le plus précis sera le mieux).

categorical-data variance model continuous-data Arbres4laForêt
la source

Réponses:

Solution catégorique

$A\lt B\lt \cdots \lt J\lt \ldots$

À titre d'illustration, considérons 30 paires (taille, catégorie d'abondance) générées comme

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

avec une abondance classée en intervalles [0,10], [11,25], ..., [10001,25000].

Diagramme de dispersion de la catégorie d'abondance en fonction de la taille

La régression logistique ordonnée produit une distribution de probabilité pour chaque catégorie; la distribution dépend de la taille. À partir de ces informations détaillées, vous pouvez produire des valeurs estimées et des intervalles autour d'eux. Voici un graphique des 10 PDF estimés à partir de ces données (une estimation pour la catégorie 10 n'a pas été possible en raison du manque de données):

Densités de probabilité par catégorie

Solution continue

Pourquoi ne pas sélectionner une valeur numérique pour représenter chaque catégorie et afficher l'incertitude sur la véritable abondance au sein de la catégorie dans le cadre du terme d'erreur?

$f$ $a$ $f(a)$ $a$

$f$ $\alpha_i$ $i$ $\beta_i$ $i$ $f(\beta_i)$ $\alpha_i$ $\alpha_{i+1}$ $f(a)$

$\varepsilon$ $a+\varepsilon$ $a$ $f(\beta_i)$ $f(\beta_i) - f(a)$

error = f (a + ε) - f (a) - (f (a + ε) - f (β_{i})) .

$\text{error} = f(a + \varepsilon) - f(a) - \left(f(a + \varepsilon) - f(\beta_i)\right).$

$f(a + \varepsilon) - f(a)$ $f$ $\varepsilon$ $\varepsilon$ $\varepsilon$ $i - f(\beta_i) \lt 0$ $i+1 - f(\beta_i) \ge 0$ $f$ $\beta_i$ $f(\beta_i)$ $i$ $i+1$ $\beta_i \approx f^{-1}(i+1/2)$

$f$

$4 \log(10) \approx 9.21$

Résultats de régression

Ce graphique montre les abondances non catégorisées ainsi qu'un ajustement basé sur les abondances catégorisées (en utilisant les moyennes géométriques des critères de catégorie comme recommandé) et un ajustement basé sur les abondances elles-mêmes. Les ajustements sont remarquablement proches, ce qui indique que cette méthode de remplacement des catégories par des valeurs numériques convenablement choisies fonctionne bien dans l'exemple .

$\beta_i$ $f$ $1$ $0$ $25000$

whuber
la source

+1 excellente réponse! J'aime particulièrement la façon dont 2 options différentes sont décrites avec leurs justifications. Je pense aussi que prendre l'accent sur l'abondance, et non sur la taille, devrait être l'accent, ce qui était également ma pensée. Une question, dans la partie 1, vous dites "vous pouvez produire des valeurs estimées et des intervalles autour d'eux". Comment est-que quelqu'un peut faire ça?

gung - Rétablir Monica

Bonne question, @gung. Une manière grossière, qui peut être efficace, consiste à traiter les catégories comme des données de valeur d'intervalle et les résultats logit ordonnés fournissent une distribution (discrète) sur ces intervalles pour toute valeur donnée de la «taille». Le résultat est une distribution à intervalles, qui aura une moyenne à intervalles et des limites de confiance à intervalles.

whuber

@whuber, il convient de mentionner les options logicielles. Je suppose que vous avez utilisé Stata (si je suis assez bien formé aux graphiques Stata et que je les dis à partir des graphiques R et SAS), où ce modèle est équipé ologit. Dans R, vous pouvez le faire avec polrdans le MASSpackage.

StasK

Vous avez raison, @Stask. Merci pour la référence à la solution R. (Les graphiques sont tous des graphiques par défaut dans Stata 11; seuls la légende et les styles de ligne dans le dernier ont été personnalisés car la distinction rouge-vert pourrait autrement ne pas être apparente pour environ 3% de tous les lecteurs.)

whuber

@StasK rms::lrmet le paquet ordinal ( clm) sont également de bonnes options.

chl

Pensez à utiliser le logarithme de la taille.

A QUIT - Anony-Mousse
la source

Ha - Cette réponse a provoqué une paume partielle du visage. Certes, cela prend en charge le problème d'échelle - mais toujours à portée de main: catégoriser ou non, et à quel nombre attribuer la "valeur". Si ces questions ne sont pas pertinentes, je peux gérer cela aussi.

Trees4theForest

Eh bien, vous avez regroupé plusieurs problèmes. Les données dont vous disposez semblent avoir plus de sens sur une échelle logarithmique. Que vous souhaitiez effectuer le binning ou non est une question distincte, et là je n'ai qu'une autre réponse face palm pour vous: cela dépend de vos données et de ce que vous voulez réaliser. Ensuite, il y a une autre question cachée: comment calculer la différence entre les intervalles - calculer la différence de leurs moyennes? ou la distance minimale (alors A à B serait 0, B à C serait 0, mais pas A à C). etc.

A QUITTER - Anony-Mousse

Bon point, j'ai mis à jour ma question avec plus d'informations pour atteindre les objectifs. Quant à la différence d'intervalles, je pense que c'est ma question - quels seraient les avantages / inconvénients relatifs du calcul de l'intervalle en fonction de la différence de moyennes, distance minimale, distance maximale, distance entre min, distance entre max, etc. sur ce genre de choses que je dois considérer pour prendre cette décision (ou si elle doit même être prise en compte) serait formidable.

Trees4theForest

Il existe de nombreuses autres options. Par exemple, pour éliminer tous les effets d'échelle, vous pouvez essayer de prédire la position de classement à la place. A part cela, il s'agit de mesurer les erreurs. En prenant le logarithme, vous pondérez généralement aussi les erreurs de cette façon. Ainsi, lorsque la valeur vraie est 10000 et la valeur prédite est 10100, c'est beaucoup moins que lorsque la valeur prédite est 1 et la valeur vraie est 101. En faisant en outre le binning et le calcul de l'esprit entre les bacs, vous auriez même un petit poids erreurs avec 0.

A QUIT - Anony-Mousse