J'implémente PCA, LDA et Naive Bayes, respectivement pour la compression et la classification (implémentant à la fois un LDA pour la compression et la classification).
J'ai le code écrit et tout fonctionne. Ce que je dois savoir, pour le rapport, c'est quelle est la définition générale de l' erreur de reconstruction .
Je peux trouver beaucoup de mathématiques et les utiliser dans la littérature ... mais ce dont j'ai vraiment besoin, c'est d'une vue plongeante / définition de mots simples, donc je peux l'adapter au rapport.
machine-learning
pca
terminology
dimensionality-reduction
discriminant-analysis
Christophe
la source
la source
general definition of reconstruction error
est d'une portée insaisissable.Réponses:
Pour PCA, vous projetez vos données sur un sous-ensemble de votre espace d'entrée. Fondamentalement, tout tient sur cette image ci-dessus: vous projetez des données sur le sous-espace avec une variance maximale. Lorsque vous reconstruisez vos données à partir de la projection, vous obtenez les points rouges, et l'erreur de reconstruction est la somme des distances du bleu au point rouge: elle correspond en effet à l'erreur que vous avez commise en projetant vos données sur le vert ligne. Il peut bien sûr être généralisé dans toutes les dimensions!
Comme indiqué dans les commentaires, cela ne semble pas aussi simple pour LDA et je ne trouve pas de définition correcte sur Internet. Désolé.
la source
La définition générale de l'erreur de reconstruction serait la distance entre le point de données d'origine et sa projection sur un sous-espace de dimension inférieure (son «estimation»).
Source: Mathématiques de la spécialisation en apprentissage automatique par Imperial College London
la source
Ce que j'utilise habituellement comme mesure de l'erreur de reconstruction (dans le contexte de l'ACP, mais aussi d'autres méthodes) est le coefficient de détermination et l'erreur quadratique moyenne (ou RMSE normalisée). Ces deux sont faciles à calculer et vous donnent une idée rapide de ce que la reconstruction a fait.R2
Calcul
Supposons que soit vos données d'origine et les données compressées.X f
Le de la variable peut être calculé comme suit:R2 ith
Puisque pour un ajustement parfait, vous pouvez juger de la reconstruction en fonction de la proximité du à 1,0.R2=1.0 R2
Le RMSE de la variable peut être calculé comme suit:ith
que vous pouvez également normaliser par une quantité qui vous convient (norme ), je normalise souvent par la valeur moyenne, le NRMSE est donc:N
Calcul
Si vous utilisez Python, vous pouvez les calculer comme suit:
où
X
sont les données d'origine etf
les données compressées.Visualisation
Dans le cas où il est utile pour vous de faire une analyse de sensibilité, vous pouvez alors juger visuellement comment le ou le RMSE changent lorsque vous changez les paramètres de votre compression. Par exemple, cela peut être pratique dans le contexte de l'ACP lorsque vous souhaitez comparer des reconstructions avec un nombre croissant de composants principaux conservés. Ci-dessous, vous voyez que l'augmentation du nombre de modes permet de vous rapprocher du modèle:R2
la source