Je me rends compte que c'est subjectif, mais j'ai pensé que ce serait bien de parler de nos ensembles de données préférés et de ce que nous pensons les rend intéressants. Il y a une multitude de données là-bas, et avec toutes les API (par exemple, Datamob ) ainsi que les ensembles de données classiques (par exemple, les données R ), je pense que cela pourrait avoir des réponses très intéressantes.
Par exemple, j'ai toujours aimé les ensembles de données comme l'ensemble de données "Boston Housing" (malgré les implications regrettables) et "mtcars" pour leur polyvalence. D'un point de vue pédagogique, on peut montrer les mérites d'une grande variété de techniques statistiques les utilisant; et le jeu de données iris d'Anderson / Fisher aura toujours une place dans mon cœur.
Pensées?
Réponses:
L'étude sur le faible poids de naissance
Il s'agit de l'un des ensembles de données du manuel de Hosmer et Lemeshow sur la régression logistique appliquée (2000, Wiley, 2e éd.). Le but de cette étude prospective était d'identifier les facteurs de risque associés à l'accouchement d'un bébé de faible poids à la naissance (pesant moins de 2 500 grammes). Des données ont été recueillies sur 189 femmes, dont 59 avaient un bébé de faible poids à la naissance et 130 avaient un bébé de poids normal à la naissance. Quatre variables jugées importantes étaient l'âge, le poids du sujet à ses dernières menstruations, la race et le nombre de visites chez le médecin au cours du premier trimestre de la grossesse.
Il est disponible en R as
data(birthwt, package="MASS")
ou en Stata withwebuse lbw
. Une version texte apparaît ici: lowbwt.dat ( description ). Il convient de noter qu'il existe plusieurs versions de cet ensemble de données, car il a été étendu à une étude cas-témoins (1-1 ou 1-3, appariés selon l'âge), comme l'illustrent Hosmer et Lemeshow dans le chapitre 7 de l'ALR.J'avais l'habitude d'enseigner des cours d'introduction basés sur cet ensemble de données pour les raisons suivantes:
Autres points qui peuvent être soulignés, en fonction du public et du niveau d'expertise avec les logiciels statistiques ou les statistiques en général.
Quant à l'ensemble de données disponible dans R, les prédicteurs catégoriels sont notés sous forme d'entiers (par exemple, pour l'origine ethnique de la mère, nous avons «1» = blanc, «2» = noir, «3» = autre), malgré le fait que l'ordre naturel de certains prédicteurs (par exemple, nombre de travaux prématurés précédents ou nombre de visites chez le médecin) ou l'utilisation d'étiquettes explicites (c'est toujours une bonne idée d'utiliser «oui» / «non» au lieu de 1/0 pour les variables binaires, même si cela ne fonctionne pas » t changer quoi que ce soit dans la matrice de conception!) sont tout simplement absents. En tant que tel, il est facile de discuter des problèmes qui peuvent être soulevés en ignorant les niveaux ou les unités de mesure dans l'analyse des données.
Les variables de types mixtes sont intéressantes lorsqu'il s'agit de faire une analyse exploratoire et de discuter du type d'affichages graphiques appropriés pour résumer les relations univariées, bivariées ou trivariées. De même, produire de beaux tableaux récapitulatifs, et plus généralement des rapports, est un autre aspect intéressant de cet ensemble de données (mais la
Hmisc::summary.formula
commande le rend si facile sous R).Hosmer et Lemeshow ont rapporté que les données réelles ont été modifiées pour protéger la confidentialité des sujets (p. 25). Il pourrait être intéressant de discuter des problèmes de confidentialité des données, comme cela a été fait dans l'un de nos précédents Journal Club , mais consultez sa transcription . (Je dois admettre que je n'entre jamais dans les détails avec ça.)
Il est facile d'introduire des valeurs manquantes ou des valeurs erronées (qui sont des problèmes courants dans la vie réelle d'un statisticien), ce qui conduit à discuter (a) de leur détection via le livre de codes (
Hmisc::describe
ou Statacodebook
) ou des graphiques exploratoires (tracez toujours vos données en premier!) , et (b) une éventuelle correction (imputation de données, suppression par liste ou mesure d'association par paire, etc.).la source
Bien sûr, les ensembles de données Anscombe 4 sont très bons pour l'enseignement - ils ont l'air très différents, mais ont des propriétés statistiques simples identiques.
Je suggère également des jeux de données KDD Cup http://www.kdd.org/kddcup/ parce qu'ils ont été bien étudiés et qu'il existe de nombreuses solutions, afin que les étudiants puissent comparer leurs résultats et voir comment ils se classent.
Dans mon cours d'exploration de données, j'ai fourni un concours d'ensembles de données Microarray qui peut être utilisé par les professeurs http://www.kdnuggets.com/data_mining_course/
la source
Beaucoup de mes cours d'analyse statistique à Cal Poly ont utilisé le jeu de données "Iris" qui, déjà dans R. Il a des variables catégorielles et des variables hautement corrélées.
la source
L'ensemble de données Titanic utilisé par Harrell dans "Stratégies de modélisation de régression". J'utilise une version simplifiée de son analyse pour expliquer la régression logistique, expliquer la survie en utilisant le sexe, la classe et l'âge.
L' ensemble de données Loyn discuté dans «Conception expérimentale et analyse de données pour les biologistes» par Gerry Quinn et Mick Keough contient de beaux problèmes nécessitant une transformation pour une régression linéaire multiple.
la source