Comment tester si mes données sont discrètes ou continues?

11

Il me semble que pour choisir les bons outils statistiques, je dois d'abord identifier si mon jeu de données est discret ou continu.

Pourriez-vous me dire comment puis-je tester si les données sont discrètes ou continues avec R?

evdstat
la source
Voulez-vous dire si certaines variables doivent être ajoutées en tant que prédicteurs continus ou catégoriels (discrets) dans un modèle de type de régression?
Nick Sabbe
La façon dont les données ont été collectées et la façon dont les variables ont été enregistrées vous donnera probablement quelques indices à ce sujet; en outre, cela dépendra probablement de la manière dont vous souhaitez modéliser vos données en tant que données continues ou discrètes (voir, par exemple, la question relative aux éléments de Likert et l'analyse des échelles discrètes). Point indépendant: il serait bon que vous puissiez enregistrer votre compte une fois pour toutes, et peut-être envisager d'accepter des réponses ou de réviser vos questions précédentes.
chl
faire une qqnorm et si les points sont tout le long de la diagonale, les données sont continues (si elles sont en lignes horionales, elles sont discrètes)
user222362

Réponses:

14

La seule raison pour laquelle je peux immédiatement penser à exiger cette décision, est de décider de l'inclusion d'une variable comme continue ou catégorique dans une régression.

Tout d'abord, vous n'avez parfois pas le choix: les variables de caractère ou les facteurs (où quelqu'un fournissant le data.frame a pris la décision pour vous) sont évidemment catégoriques.

Cela nous laisse avec des variables numériques. Vous pouvez être tenté de vérifier simplement si les variables sont des entiers, mais ce n'est pas un bon critère: regardez la première ligne de code ci-dessous ( x1): ce sont 1000 observations de seulement les deux valeurs et : même si elles sont pas des entiers, cela semble une variable catégorielle évidente. Ce que vous pourriez faire pour certains est de vérifier le nombre de valeurs différentes dans vos données, bien que tout seuil que vous pourriez utiliser pour cela sera subjectif, je suppose:2,51.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

J'aurais tendance à dire qu'une variable qui n'a que 5% de valeurs uniques pourrait être qualifiée de discrète en toute sécurité (mais, comme mentionné: c'est subjectif). Cependant: cela ne fait pas de lui un bon candidat pour l'inclure en tant que variable catégorielle dans votre modèle: si vous avez 1000000 observations et 5% de valeurs uniques, cela laisse encore 50000 `` catégories '': si vous l'incluez comme catégorique, vous '' va passer un enfer de beaucoup de degrés de liberté.

Je suppose que cet appel est encore plus subjectif et dépend grandement de la taille de l'échantillon et de la méthode de choix. Sans plus de contexte, il est difficile de donner des directives ici.

Alors maintenant, vous avez probablement des variables que vous pourriez ajouter comme catégoriques dans votre modèle. Mais devriez- vous? On peut répondre à cette question (même si cela dépend vraiment, encore une fois, de votre objectif) avec un test de rapport de vraisemblance: le modèle où la variable est catégorique est un mannequin du modèle avec la variable comme covariable continue. Pour voir cela, imaginez une régression linéaire sur une variable xqui contient trois valeurs 0, 1et 2. Ajustement d'un modèle: où le est un indicateur de variable fictive (il est égal à 1 si ) est juste un plus flexible façon d'ajuster un modèle x i x = = i E [ y ] = β 0 + β 1 x E [ y ] = β 0 + β 1 x 1 + 2 β 1 x 2

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
car la dernière équivaut à
E[y]=β0+β1x1+2β1x2

Avec la structure super / sous-modèle, vous pouvez savoir s'il y a des preuves dans les données que la structure plus complexe est nécessaire, en effectuant un test de rapport de vraisemblance : -2 fois la différence de log maximum de vraisemblance (généralement indiquée comme la déviance dans R) suivre une avec df = la différence de nombre de paramètres (dans l'exemple ci-dessus: 4 paramètres - 3 paramètres).χ2

Nick Sabbe
la source
3
+1 Bel exemple de la façon d'améliorer une question impaire avec une excellente réponse.
1
Eh bien, en fait, tout continu peut être discrétisé, ce qui fait que les histogrammes montrent simplement comment cela se fait dans la pratique. J'ai probablement mélangé des données de comptage (données de valeurs entières) avec des données catégoriques ... bien que ma première supposition concernait les distributions discrètes et continues, pas seulement les points de données (et les chercheurs fous qui attribuent des valeurs réelles aux catégories), alors ... j'ai supprimé le mien de toute façon , car ne pense pas que cela résout le problème (+1)
Dmitrij Celov
1
il semble que @Dmitrij ait supprimé sa réponse, pourriez-vous s'il vous plaît rééditer votre réponse pour refléter cela? C'est une excellente réponse (+1), de sorte que la référence à du contenu non existant ressort un peu.
mpiktas