Je suis curieux de voir comment un système de rencontres en ligne peut utiliser les données d'enquête pour déterminer les correspondances.
Supposons qu'ils aient des données sur les résultats des correspondances précédentes (par exemple, 1 = heureux marié, 0 = pas de 2e date).
Supposons ensuite qu'ils avaient 2 questions de préférence,
- "A quel point aimez-vous les activités de plein air? (1 = n'aime pas du tout, 5 = aime beaucoup)"
- "Dans quelle mesure êtes-vous optimiste quant à la vie? (1 = n'aime pas du tout, 5 = aime fortement)"
Supposons également que pour chaque question de préférence, ils aient un indicateur "Quelle est l'importance de votre conjoint partage votre préférence? (1 = pas important, 3 = très important)"
S'ils ont ces 4 questions pour chaque paire et un résultat pour savoir si le match a été un succès, quel est un modèle de base qui utiliserait cette information pour prédire les futurs matchs?
predictive-models
d_a_c321
la source
la source
Réponses:
J'ai parlé une fois à quelqu'un qui travaille pour l'un des sites de rencontres en ligne qui utilise des techniques statistiques (ils préfèrent probablement que je ne dis pas qui). C'était assez intéressant - pour commencer, ils utilisaient des choses très simples, telles que les voisins les plus proches avec des distances euclidiennes ou L_1 (cityblock) entre les vecteurs de profil, mais il y avait un débat pour savoir si faire correspondre deux personnes trop similaires était une bonne ou une mauvaise chose. Il a ensuite poursuivi en disant que maintenant ils ont rassemblé beaucoup de données (qui était intéressé par qui, qui est sorti avec qui, qui s'est marié, etc. etc.), ils l'utilisent pour recycler constamment les modèles. Ils travaillent dans un cadre de traitement par lots incrémentiel, où ils mettent à jour leurs modèles périodiquement à l'aide de lots de données, puis recalculent les probabilités de correspondance sur la base de données. Des trucs assez intéressants, mais je '
la source
Vous avez demandé un modèle simple. Voici comment je commencerais avec le code R:
outdoorDif = la différence entre les réponses des deux personnes quant à leur plaisir des activités de plein air. outdoorImport = la moyenne des deux réponses sur l'importance d'une correspondance concernant les réponses sur le plaisir des activités de plein air.
Le * indique que les termes précédents et suivants interagissent et sont également inclus séparément.
Vous suggérez que les données de correspondance sont binaires, les deux seules options étant «heureusement marié» et «pas de deuxième date», c'est donc ce que j'ai supposé en choisissant un modèle logit. Cela ne semble pas réaliste. Si vous avez plus de deux résultats possibles, vous devrez passer à un logit multinomial ou ordonné ou à un tel modèle.
Si, comme vous le suggérez, certaines personnes ont fait plusieurs tentatives de correspondance, ce serait probablement une chose très importante à prendre en compte dans le modèle. Une façon de le faire pourrait être d'avoir des variables séparées indiquant le nombre de correspondances précédentes pour chaque personne, puis d'interagir entre les deux.
la source
Une approche simple serait la suivante.
Pour les deux questions de préférence, prenez la différence absolue entre les réponses des deux répondants, en donnant deux variables, disons z1 et z2, au lieu de quatre.
Pour les questions d'importance, je pourrais créer un score qui combine les deux réponses. Si les réponses étaient, disons, (1,1), je donnerais 1, a (1,2) ou (2,1) obtient un 2, a (1,3) ou (3,1) obtient un 3, un (2,3) ou (3,2) obtient un 4 et un (3,3) obtient un 5. Appelons cela le «score d'importance». Une alternative serait simplement d'utiliser max (réponse), donnant 3 catégories au lieu de 5, mais je pense que la version à 5 catégories est meilleure.
Je créerais maintenant dix variables, x1 - x10 (pour le concret), toutes avec des valeurs par défaut de zéro. Pour les observations avec un score d'importance pour la première question = 1, x1 = z1. Si le score d'importance pour la deuxième question est également = 1, x2 = z2. Pour les observations avec un score d'importance pour la première question = 2, x3 = z1 et si le score d'importance pour la deuxième question = 2, x4 = z2, etc. Pour chaque observation, exactement une parmi x1, x3, x5, x7, x9! = 0, et de même pour x2, x4, x6, x8, x10.
Après avoir fait tout cela, je ferais une régression logistique avec le résultat binaire comme variable cible et x1 - x10 comme régresseurs.
Des versions plus sophistiquées de cela pourraient créer des scores plus importants en permettant de traiter différemment l'importance des répondants masculins et féminins, par exemple a (1,2)! = A (2,1), où nous avons ordonné les réponses par sexe.
Un défaut de ce modèle est que vous pourriez avoir plusieurs observations de la même personne, ce qui signifierait que les "erreurs", en gros, ne sont pas indépendantes d'une observation à l'autre. Cependant, avec beaucoup de personnes dans l'échantillon, je vais probablement simplement ignorer cela, pour un premier passage, ou construire un échantillon où il n'y a pas de doublons.
Un autre inconvénient est qu'il est plausible qu'à mesure que l'importance augmente, l'effet d'une différence donnée entre les préférences sur p (échec) augmente également, ce qui implique une relation entre les coefficients de (x1, x3, x5, x7, x9) et également entre les coefficients de (x2, x4, x6, x8, x10). (Probablement pas un ordre complet, car il n'est pas a priori clair pour moi comment un score d'importance (2,2) est lié à un score d'importance (1,3).) Cependant, nous n'avons pas imposé cela dans le modèle. J'ignorerais probablement cela au début et verrais si je suis surpris par les résultats.
L'avantage de cette approche est qu'elle n'impose aucune hypothèse sur la forme fonctionnelle de la relation entre l '«importance» et la différence entre les réponses de préférence. Cela contredit le commentaire précédent sur le manque à gagner, mais je pense que l'absence d'une forme fonctionnelle imposée est probablement plus bénéfique que le fait de ne pas tenir compte des relations attendues entre les coefficients.
la source