Différence entre les données manquantes et les données rares dans les algorithmes d'apprentissage automatique

20

Quelles sont les principales différences entre les données rares et les données manquantes? Et comment cela influence-t-il l'apprentissage automatique? Plus précisément, quel effet les données éparses et les données manquantes ont-elles sur les algorithmes de classification et le type d'algorithmes de régression (prédiction des nombres). Je parle d'une situation où le pourcentage de données manquantes est important et nous ne pouvons pas supprimer les lignes contenant des données manquantes.

dev fatigué et ennuyé
la source
4
Des données éparses signifient que la plupart des valeurs sont nulles, mais vous savez qu'elles sont nulles. Des données manquantes signifient que vous ne savez pas quelles sont certaines ou plusieurs des valeurs.
Anna SdTC
Merci. C'est ce que je pensais aussi, mais je voulais confirmer. Aussi, comme mentionné en question, aimerait savoir comment, en général, ces types de jeux de données sont traités dans les problèmes d'apprentissage automatique.
dev fatigué et ennuyé dev
1
Je pense que votre question est un peu vague. "L'apprentissage automatique" comprend un large éventail de méthodes et d'outils, donc la réponse dépend de ce que vous avez ou de ce que vous voulez faire. Ici, ils discutent de certaines méthodes de traitement des données manquantes: stats.stackexchange.com/questions/103500/…
Anna SdTC
Merci. Je connais une large gamme d'outils et de types d'algorithmes ml. Mais je voulais savoir s'il existe des approches générales.
dev fatigué et ennuyé

Réponses:

16

Pour faciliter la compréhension, je vais décrire cela à l'aide d'un exemple. Supposons que vous collectez des données à partir d'un appareil doté de 12 capteurs. Et vous avez collecté des données pendant 10 jours.

Les données que vous avez collectées sont les suivantes: entrez la description de l'image ici

C'est ce qu'on appelle des données clairsemées car la plupart des sorties du capteur sont nulles. Ce qui signifie que ces capteurs fonctionnent correctement mais la lecture réelle est nulle. Bien que cette matrice possède des données dimensionnelles élevées (12 axes), on peut dire qu'elle contient moins d'informations.

Disons que 2 capteurs de votre appareil fonctionnent mal.
Ensuite, vos données seront comme:entrez la description de l'image ici

Dans ce cas, vous pouvez voir que vous ne pouvez pas utiliser les données de Sensor1 et Sensor6. Soit vous devez remplir les données manuellement sans affecter les résultats, soit vous devez refaire l'expérience.

Lahiru Karunaratne
la source