J'ai un cours d' apprentissage machine ce semestre et le professeur nous a demandé de trouver un problème du monde réel et de le résoudre par l'une des méthodes d'apprentissage automatique introduites dans la classe, telles que:
- Arbres de décision
- Réseaux de neurones artificiels
- Machines à vecteurs de support
- Apprentissage basé sur les instances ( kNN , LWL )
- Réseaux Bayésiens
- Apprentissage par renforcement
Je suis l'un des fans de stackoverflow et stackexchange et je sais que les vidages de bases de données de ces sites Web sont fournis au public car ils sont géniaux! J'espère que je pourrai trouver un bon défi d'apprentissage automatique à propos de ces bases de données et le résoudre.
Mon idée
Une idée m'est venue à l’esprit est de prédire les étiquettes des questions en fonction des mots entrés dans le corps de la question. Je pense que le réseau bayésien est le bon outil pour apprendre les tags pour une question, mais nécessite plus de recherche. Quoi qu’il en soit, après la phase d’apprentissage lorsque l’utilisateur a fini de saisir la question, certaines balises doivent lui être suggérées.
S'il vous plaît dites-moi :
Je souhaite poser des questions à la communauté des statistiques en tant que personnes expérimentées sur ML:
Pensez-vous que la suggestion de tag est au moins un problème qui a une chance de résoudre? Avez-vous des conseils à ce sujet? Je suis un peu inquiet car stackexchange n'implémente pas encore cette fonctionnalité.
Avez-vous une autre idée / meilleure idée pour le projet ML basé sur la base de données stackexchange? Je trouve vraiment difficile de trouver quelque chose à apprendre des bases de données stackexchange.
Considérations sur les erreurs de base de données: je voudrais souligner que, bien que les bases de données soient énormes et comportent de nombreuses instances, elles ne sont pas parfaites et sont à l’abri des erreurs. La plus évidente est l’âge des utilisateurs qui n’est pas fiable. Même les étiquettes sélectionnées pour la question ne sont pas correctes à 100%. Quoi qu'il en soit, nous devrions prendre en compte le pourcentage d'exactitude des données lors de la sélection d'un problème.
Considération sur le problème lui-même: Mon projet ne devrait pas être sur data-mining
ou quelque chose comme ça. Cela devrait juste être une application des méthodes de ML dans le monde réel.
la source
Je pensais aussi à la prédiction de tags, j'aime bien l'idée. J'ai l'impression que c'est possible, mais vous devrez peut-être surmonter de nombreux problèmes avant d'arriver à votre jeu de données final. Je suppose donc que la prédiction de balises peut nécessiter beaucoup de temps. Outre les balises incorrectes, la limite de 5 balises maximum peut jouer un rôle. De plus, certaines étiquettes sont des sous-catégories d’autres (par exemple, les «comparaisons multiples» peuvent être considérées comme une sous-catégorie de «test de signification»).
Je n'ai pas vérifié si les temps de vote vers le haut étaient inclus dans la base de données téléchargeable, mais un projet plus simple et toujours intéressant pourrait être de prédire le nombre «final» de votes (peut-être au bout de 5 mois) sur une question en fonction des votes initiaux, et le moment d'accepter une réponse.
la source
C'est une bonne question. Moi aussi, j'ai pensé que les jeux de données StackExchange disponibles au public constitueraient de bons sujets d'analyse. Celles-ci sont suffisamment inhabituelles pour constituer de bons bancs d'essai pour les nouvelles méthodes statistiques. Avoir une telle quantité de données bien structurées est inhabituel, en tout cas.
Cardinal a suggéré un tas de choses qui seraient réellement utiles pour StackExchange. Je ne me limiterai pas à cela.
Voici un candidat évident pour l’analyse, bien qu’il n’ait pas d’utilisation évidente à l’esprit. Il est un effet notable que les utilisateurs à forte représentation sont plus susceptibles d’obtenir des votes positifs, toutes choses étant égales par ailleurs. Cependant, cet effet est probablement non trivial à modéliser. Comme nous ne pouvons pas facilement comparer l'utilité entre utilisateurs, une approche évidente consisterait à supposer que les réponses des utilisateurs sont toujours aussi utiles (ce qui n'est pas vrai en général mais il faut bien commencer quelque part), puis à ajouter un terme inflationniste pour rendre compte de sa réputation croissante. . On pourrait ensuite (je suppose) ajouter des termes expliquant que ses réponses s’amélioraient avec l’expérience. Peut-être que cela pourrait être traité par une sorte de série chronologique. Je ne suis pas sûr de savoir comment l'intervalle de données affecterait ceci. Ce pourrait être un exercice intéressant.
J'ajouterai d'autres exemples si / quand j'y pense.
Est-ce que quelqu'un a connaissance de documents de recherche statistique basés sur des données SE? En outre, Isaac a mentionné que les données contiennent des erreurs. Est-ce que quelqu'un sait quelque chose de plus à ce sujet?
la source