Quelles sont les principales différences entre les données rares et les données manquantes? Et comment cela influence-t-il l'apprentissage automatique? Plus précisément, quel effet les données éparses et les données manquantes ont-elles sur les algorithmes de classification et le type d'algorithmes de régression (prédiction des nombres). Je parle d'une situation où le pourcentage de données manquantes est important et nous ne pouvons pas supprimer les lignes contenant des données manquantes.
machine-learning
dataset
missing-data
sparse
dev fatigué et ennuyé
la source
la source
Réponses:
Pour faciliter la compréhension, je vais décrire cela à l'aide d'un exemple. Supposons que vous collectez des données à partir d'un appareil doté de 12 capteurs. Et vous avez collecté des données pendant 10 jours.
Les données que vous avez collectées sont les suivantes:
C'est ce qu'on appelle des données clairsemées car la plupart des sorties du capteur sont nulles. Ce qui signifie que ces capteurs fonctionnent correctement mais la lecture réelle est nulle. Bien que cette matrice possède des données dimensionnelles élevées (12 axes), on peut dire qu'elle contient moins d'informations.
Disons que 2 capteurs de votre appareil fonctionnent mal.
Ensuite, vos données seront comme:
Dans ce cas, vous pouvez voir que vous ne pouvez pas utiliser les données de Sensor1 et Sensor6. Soit vous devez remplir les données manuellement sans affecter les résultats, soit vous devez refaire l'expérience.
la source