Une personne reçoit trois articles, par exemple des images de visages, et est invitée à choisir quels sont les deux visages les plus similaires. Cette opération est répétée un grand nombre de fois avec différentes combinaisons de visages, chaque visage pouvant apparaître dans de nombreuses combinaisons. Compte tenu de ce type de données, je voudrais modéliser / estimer la différence / similitude entre les faces en supposant que chaque face pourrait être placée dans un espace 2D (ou 3d, 4d, etc.) où la distance entre chaque face reflète les choix de le participant.
Quelle serait une bonne façon (peut-être même standard) de modéliser / estimer cela?
Tout pointeur vers des modèles / documents et / ou progiciels est très apprécié.
modeling
dimensionality-reduction
psychometrics
similarities
Rasmus Bååth
la source
la source
MASS::isoMDS()
deR
.Réponses:
Une bonne approche de ce type de problème peut être trouvée dans la section 4 de l'article The Bayesian Image Retrieval System, PicHunter de Cox et al (2000). Les données sont un ensemble de résultats entiers où est le nombre d'essais. Dans votre cas, il y a 3 résultats possibles par essai. Je vais laisser l'index du visage qui a été laissé de côté. L'idée est de postuler un modèle génératif pour le résultat en fonction de certains paramètres du modèle, puis d'estimer les paramètres par maximum de vraisemblance. Si nous montrons des visages et que le participant dit que sont les plus similaires, alors le résultat est , avec probabilitéUNE1, . . . ,UNEN N UNEje (X1,X2,X3) (X2,X3) A = 1
Le modèle dans le papier était légèrement différent car le papier utilisait des attributs connus des images pour calculer la distance, plutôt qu'une incorporation inconnue. Pour apprendre une intégration, vous auriez besoin d'un ensemble de données beaucoup plus grand, dans lequel chaque face était affichée plusieurs fois.
Ce modèle de base suppose que tous les essais sont indépendants et que tous les participants sont identiques. Un bon avantage de cette approche est que vous pouvez facilement embellir le modèle pour inclure la non-indépendance, les effets des participants ou d'autres covariables.
la source
Pensée:
Je pense que les faces propres sont un moyen décent de convertir ce qui peut être des espaces à plusieurs millions de dimensions en quelques dizaines de dimensions.
Prémisse:
Supposons donc que vous utilisez un outil aux faces propres décent, ou un outil qui:
Cela signifie que vous n'avez pas "d'images" autant que vous avez des vecteurs de longueur O (n = 50) éléments de taille où les éléments sont des poids pour chaque face propre constituant la base.
Une analyse:
Tout d'abord, je créerais des vecteurs à 150 éléments (concaténation de poids) comme entrées et des vecteurs à 1 élément (éléments de correspondance la plus proche) comme sorties. Si les éléments 1 et 2 étaient les plus proches, la valeur de sortie serait "12". Si les éléments 1 et 3 étaient les plus proches, la sortie serait "13". Si les éléments 2 et 3 étaient les plus proches, la sortie serait "23". Étant donné qu'il n'y a que 3 sorties uniques, je pourrais les re-mapper au cas 1 pour "12", au cas 2 pour "13" et au cas 3 pour "23.
Deuxièmement, je voudrais jeter autant de données inutiles que possible. Cela signifie que j'essaierais d'utiliser quelque chose comme des forêts aléatoires pour déterminer laquelle des ~ 150 colonnes n'était pas informative. Il y a aussi une "méthode du mal jumeau aléatoire" mais je ne l'ai pas à portée de main comme R me donne avec des forêts aléatoires. (Si vous connaissez une bonne bibliothèque R pour cela, je vous invite à la mettre dans les commentaires).
Troisièmement, dans mon expérience personnelle, si vous avez des tailles d'échantillon décentes et une base décente, une forêt aléatoire peut généralement vous ramener aux ~ 30 variables d'intérêt, même à partir de 15 000 colonnes. C'est là que vous devez considérer quelle est la forme générale de la réponse.
Vous pouvez essayer une douzaine de races de transformations de ces variables pour mapper les entrées réduites aux sorties:
Plus de réflexions:
MISE À JOUR:
L'outil "jumeau maléfique aléatoire" est "Boruta". ( lien )
la source