Ensemble de données axé sur la science des données / question de recherche pour la thèse de maîtrise en statistique

11

J'aimerais explorer la «science des données». Le terme me semble un peu vague, mais je m'attends à ce qu'il nécessite:

  1. l'apprentissage automatique (plutôt que les statistiques traditionnelles);
  2. un ensemble de données suffisamment grand pour exécuter des analyses sur des clusters.

Quels sont les bons ensembles de données et problèmes, accessibles à un statisticien ayant une certaine expérience en programmation, que je peux utiliser pour explorer le domaine de la science des données?

Pour que cela reste aussi étroit que possible, j'aimerais idéalement que les liens ouvrent des ensembles de données bien utilisés et des exemples de problèmes.

user3279453
la source

Réponses:

5

La Fondation Sunlight est une organisation qui se concentre sur l'ouverture et l'encouragement d'une analyse non partisane des données gouvernementales.

Il existe une tonne d'analyses dans la nature qui peuvent être utilisées à des fins de comparaison, et une grande variété de sujets.

Ils fournissent des outils et des API pour accéder aux données et ont contribué à rendre les données disponibles dans des endroits comme data.gov .

Un projet intéressant est Influence Explorer . Vous pouvez obtenir des données source ici ainsi que l'accès à des données en temps réel.

Vous pourriez également vouloir jeter un coup d'œil à l'une de nos questions les plus populaires:

Ensembles de données accessibles au public .

Steve Kallestad
la source
5

Votre maîtrise en informatique est-elle? Statistiques?

La «science des données» va-t-elle être au centre de votre thèse? Ou un sujet secondaire?

Je suppose que vous êtes en statistique et que vous souhaitez concentrer votre thèse sur un problème de «science des données». Si c'est le cas, je vais aller à contre-courant et suggérer que vous ne devriez pas commencer avec un ensemble de données ou une méthode ML. Au lieu de cela, vous devriez rechercher un problème de recherche intéressant qui est mal compris ou où les méthodes de ML n'ont pas encore fait leurs preuves, ou où il existe de nombreuses méthodes de ML concurrentes mais aucune ne semble meilleure que d'autres.

Considérez cette source de données: Stanford Large Network Dataset Collection . Bien que vous puissiez choisir l'un de ces ensembles de données, faire une déclaration de problème, puis exécuter une liste de méthodes de ML, cette approche ne vous dit vraiment pas grand-chose sur la science des données , et à mon avis, ne le fait pas conduire à une très bonne thèse de maîtrise.

Au lieu de cela, vous pouvez le faire: recherchez tous les articles de recherche qui utilisent le ML dans une catégorie spécifique - par exemple les réseaux de collaboration (aka co-auteur). En lisant chaque article, essayez de découvrir ce qu'ils ont pu accomplir avec chaque méthode ML et ce qu'ils n'ont pas pu aborder. Recherchez en particulier leurs suggestions de "recherche future".

Peut-être qu'ils utilisent tous la même méthode, mais n'ont jamais essayé les méthodes ML concurrentes. Ou peut-être qu'ils ne valident pas adéquatement leurs résultats, ou peut-être que les ensembles de données sont petits, ou peut-être que leurs questions de recherche et leurs hypothèses étaient simplistes ou limitées.

Le plus important: essayez de savoir où va cette ligne de recherche. Pourquoi prennent-ils même la peine de faire ça? Qu'est-ce qui est important à ce sujet? Où et pourquoi rencontrent-ils des difficultés?

MrMeritology
la source
C'est une assez bonne idée. Le Master est en statistique.
user3279453