Donc, par exemple, voici les définitions que j'obtiens des manuels standard
Variable - caractéristique de la population ou de l'échantillon. ex. Prix d'un stock ou d'une note sur un test
Données - valeurs réelles observées
Donc, pour un rapport à deux colonnes [Nom | Revenu] les noms des colonnes seraient les variables et les valeurs réelles observées {dave | 100K}, {jim | 200K} seraient les données
Donc, si je dis que la colonne [Nom] est une donnée nominale et que [le revenu] est une donnée de ratio, ne serais-je pas plus précis en la décrivant comme un type de variable au lieu d'un type de données comme le font la plupart des manuels? Je comprends que cela pourrait être de la sémantique, et c'est bien, c'est tout ce qu'il y a aussi. Mais je crains de manquer quelque chose ici.
la source
Réponses:
La typologie d'échelle de Stevens n'est pas nécessairement une caractéristique inhérente des variables, ni même des données elles-mêmes, mais de la façon dont nous traitons l'information - de ce que nous utilisons pour signifier .
Dans certaines circonstances, exactement la même valeur peut être considérée comme un rapport, un intervalle, un ordinal ou un nominal, selon ce que nous en faisons - c'est une question de sens que nous donnons aux valeurs, qui peut changer d'une analyse à l'autre. La typologie de Stevens a une certaine valeur, mais elle ne doit pas être trop normative à ce sujet.
Cette question de l'importance de l'échelle en tant que signification remonte au moins à Lord (1953), qui a offert un exemple où il y avait à la fois des interprétations nominales et par intervalles du même ensemble de nombres.
Ce point a été encore plus clairement souligné par Velleman et Wilkinson (1993), qui offrent un exemple de personnes recevant des billets numérotés consécutifs à l'entrée d'une réception avec un prix attribué à l'un des billets; selon l'utilisation faite des numéros sur les tickets, ils ont des interprétations sur les quatre échelles.
Ainsi, par exemple, "ai-je gagné?" est une question traitant le numéro comme nominal, alors que "suis-je arrivé trop tôt pour obtenir le billet gagnant?" est une question qui la traite comme ordinale; d'autre part (et je ne pense pas que celui-ci soit dans le journal) en utilisant 5 numéros de billets aléatoires afin d'estimer le nombre de personnes dans la salle les traiterait comme un rapport (par exemple, s'il y avait 4 numéros tirés au hasard qui ont obtenu prix de consolation, vous auriez au total 5 nombres aléatoires à partir desquels estimer la fréquentation totale).
Ils soutiennent que "une bonne analyse des données ne suppose pas de types de données", "les catégories de Stevens ne décrivent pas les attributs fixes des données", "les catégories de Stevens sont insuffisantes pour décrire les échelles de données" et "les procédures statistiques ne peuvent pas être classées selon les critères de Stevens" (en effet chaque énoncé est également un titre de section).
Des critiques ont également été formulées à plusieurs endroits par Tukey (par exemple dans le chapitre 5 du livre de 1977 de Mosteller et Tukey, Analyse et régression des données ); Mosteller et Tukey ont proposé une typologie - noms , grades (étiquettes ordonnées), rangs (à partir de 1, qui peut représenter le plus grand ou le plus petit), fractions comptées (délimitées par zéro et un, celles-ci incluent des pourcentages), nombres (non négatifs) entiers), montants (nombres réels non négatifs), soldes (valeurs illimitées, positives ou négatives).
Dans mon propre travail, j'ai vu des situations où de graves problèmes d'analyse ont été causés par des personnes qui ne comprenaient pas la grande différence entre les variables relatives aux niveaux (parfois appelées variables `` stock '') et les flux - un exemple simple de ces types est la différence dans les types d'analyse appropriés pour les quantités d'eau réellement dans un réservoir de stockage dans chacune d'une séquence de périodes, et la quantité d'eau qui y coule. Il s'agirait (dans certains de ces cas) de sous-catégories du type « montants » de Mosteller et Tukey (et dans ces mêmes cas, les deux variables de rapport dans le schéma de Stevens), indiquant que les problèmes de typologie peuvent être assez subtils, mais peut encore avoir un impact critique sur les analyses appropriées.
PFVelleman et L.Wilkinson (1993),
«Les typologies nominale, ordinale, d'intervalle et de rapport sont trompeuses»,
The American Statistician , vol. 47 n ° 1 pp.65-72
(une version de travail semble être disponible sur la deuxième page Web des auteurs ici )
Lord, F. (1953),
«Sur le traitement statistique des chiffres du football»,
American Psychologist , 8 , pp.750-751
(L'année de cet article est donnée à tort dans les références de la version de l'article de Velleman et Wilkinson à laquelle j'ai lié, mais correctement référencée dans le corps de l'article)
la source
Le type des données est lié mais non identique au type de la variable. Dans la plupart des cas, ce sont les mêmes, mais ce n'est pas obligatoire.
Par exemple, si vous collectez N échantillons à partir d'une distribution normale. On pourrait penser que ce sont des données numériques (rapport ou échelle). Mais je peux aussi dire que c'est une variable catégorielle avec N catégories différentes, avec une fréquence de 1 pour chaque catégorie. Cela a l'air stupide mais c'est aussi une variable valide.
la source