Un nom: d'abord, éventuellement un deuxième prénom, et un nom de famille.
Je suis curieux de savoir combien d'informations vous pouvez extraire d'un nom, en utilisant des ensembles de données accessibles au public. Je sais que vous pouvez obtenir ce qui suit n'importe où entre une probabilité faible à élevée (selon l'entrée) en utilisant les données du recensement américain: 1) Sexe. 2) Course.
Facebook, par exemple, a utilisé exactement cela pour découvrir, avec un niveau de précision décent, la répartition raciale des utilisateurs de leur site (https://www.facebook.com/note.php?note_id=205925658858).
Quoi d'autre peut être extrait? Je ne cherche rien de spécifique, c'est une question très ouverte pour apaiser ma curiosité.
Mes exemples sont spécifiques aux États-Unis, nous supposerons donc que le nom est le nom d'une personne située aux États-Unis; mais, si quelqu'un connaît des ensembles de données accessibles au public pour d'autres pays, je suis plus que ouvert à eux aussi.
Je ne sais pas trop si c'est le bon endroit pour ça, sinon, j'apprécierais que quelqu'un me pointe vers un endroit plus approprié.
J'espère que c'est une question intéressante, et c'est l'endroit approprié!
Réponses:
Ce n'est pas une réponse sérieuse, mais je viens de me rappeler quelque chose d'un livre que j'ai lu il y a un an. Il y a un chapitre dans Freakonomics consacré à ce que vous pouvez dire sur une personne du nom. Le chapitre est basé sur le document de recherche de l'auteur Les causes et les conséquences des noms typiquement noirs
Je pense que j'en ai trouvé un extrait ou un résumé dans cet article
la source
D'après le prénom, prédire la région, l'âge, le statut d'immigrant de première génération. À partir du nom de famille, vous pouvez prédire l'emplacement géographique du patronyme d'origine. Pour le nom complet, vous pouvez prédire le statut social et économique (Thurston Howell III).
la source
Juste pour ajouter d'autres suggestions ici, l'une des plus grandes sources de données familiales est la multitude de sites de généalogie. Je pense que la plupart des occidentaux sont probablement répertoriés par un membre de la famille, éloigné ou non sur quelques-uns d'entre eux et une telle inclusion est accompagnée d'un arbre généalogique généralement complet, accompagné de lieux, de détails sur la naissance, etc. Très informatif.
Si vous recoupez ces données avec des graphiques d'amis dans Facebook, comme les gens ont tendance à ajouter des frères et sœurs / cousins (et des parents / enfants à l'occasion), puis utilisez les données de localisation avec des rôles électoraux et des répertoires, vous pouvez généralement localiser des personnes même avec des noms communs, et obtenir une quantité étonnamment importante de données à leur sujet.
la source
Le dernier chapitre de Freakonomics (2005, Steven D. Levitt et Stephen J. Dubner) a une discussion fascinante sur les noms, en particulier en ce qui concerne le statut socio-économique et la race.
Ils ont une liste de prénoms qui pourraient ou non être en bonne corrélation avec l'analyse des noms de famille par FB. Ils décrivent également comment le choix du nom évolue diachroniquement (au fil du temps).
Qui sait - le nom de la sélection des parents pourrait être plus précis que ce que les gens rapportent sur le recensement.
la source
Vous avez beaucoup de bonnes suggestions ci-dessus, donc je vais juste mentionner une anecdote intéressante. Un étudiant d'été (maintenant un éminent informaticien) dans un laboratoire de recherche d'entreprise (qui doit rester anonyme) a regardé les données de l'annuaire téléphonique en ligne de l'entreprise et a construit un modèle prédictif de la rémunération en utilisant des n-grammes de caractères à partir des noms. Le prédicteur le plus fort était que ez_ indiquait un salaire moins élevé, une conclusion que j'imagine qu'il n'était pas encouragé à parler de ...
la source
Vous pourriez probablement découvrir:
Ce qui signifie que vous ne devriez jamais utiliser quoi que ce soit de la liste ci-dessus pour vos mots de passe, questions secrètes, etc.
la source
Darden et Robinson (1976) ont tenté de trouver une structure linguistique qui guide les associations de personnes à propos des prénoms des hommes. Ils ont demandé à deux groupes de sujets (étudiants en sociologie et officiers de marine) d'évaluer un ensemble de noms américains communs le long de différentiels sémantiques tels que soft-hard, common-noble et urban-rural. Ils ont également demandé des jugements de similitude entre les différentes paires de noms, et à titre de validation, ils ont corrélé les moyennes des différentiels sémantiques avec les dimensions qu'ils ont trouvées, à la fois dans les solutions à trois et à quatre D, en utilisant la procédure TORSCA MDS.
Les auteurs ont trouvé que leur solution 3-D correspond à peu près au trio classique d'Osgood d'activation, d'évaluation et de puissance. En quatre dimensions, l'espace correspondait un peu mieux aux données, et ici ils ont interprété la structure comme dépendant du «caractère», de la «maturité», de la «sociabilité» et de la «virilité», bien que ces échelles ne semblent pas aussi bien définies que suggèrent les auteurs. Une conclusion surprenante qui est ressortie de l'étude est que, au moins pour ces deux petits échantillons (n = 83 et 21), aucune dimension ne correspond à la distinction entre prénom et surnom.
Darden, DK et Robinson, IE (1976). Mise à l'échelle multidimensionnelle des prénoms masculins: une approche sociolinguistique. Sociometry, 39 , 4, 422-431.
la source
La quantité d'informations qui peuvent être trouvées varie énormément, de la race et le sexe à toutes sortes d'informations personnelles. Votre meilleur pari pour obtenir les informations serait des sites de réseaux sociaux comme Facebook, car ils fournissent généralement plus d'informations que les bases de données Cencus.
la source
Il existe un large éventail d'informations que vous pouvez obtenir en fonction des sources que vous utilisez. Les données du recensement sont évidentes. Vous pouvez également obtenir des informations sur Facebook, MySpace et d'autres sites de réseaux sociaux. Vous pouvez également rechercher dans les archives de nouvelles publiques des mentions de leur nom. Peut-être même ces sites de propriété ubclained que certains États ont.
Si vous voulez un exemple du monde réel de ce qui peut être fait, jetez un œil à pipl.com
la source
Vous pouvez rechercher des diplômes, un permis de conduire, un casier judiciaire (est-ce la bonne traduction?). Avec facebook, vous pouvez trouver des informations sur les loisirs, les sports, la musique aimée. Vous pouvez également rechercher la proportion d'utilisateurs d'un autre nom sur les réseaux sociaux. (Je serais intéressé par ces résultats)
la source
N'oubliez pas les scores Scrabble, par exemple la fonction de score de scramble Wolfram Alpha
la source
Si vous savez quelque chose sur l'emplacement de la personne, une base de données est les bases de données d'inscription des électeurs. De nombreuses bases de données sur l'inscription des électeurs sont disponibles (moyennant des frais; certaines entreprises les achètent et leur fournissent un accès aux requêtes en ligne, moyennant des frais). La base de données d'inscription des électeurs peut contenir l'adresse et / ou la date de naissance de l'individu. Ces informations peuvent vous permettre de rechercher l'individu dans d'autres bases de données.
Cependant, il y a des limites à combien cela aide. Cela peut être utile si vous connaissez la ville ou le comté où vit la personne et si son nom est assez inhabituel. Mais si c'est un nom commun, ou si vous ne savez pas où ils vivent, cela ne vous aidera probablement pas.
la source
l'une des plus grandes sources de données accessibles au public, y compris de nombreux autres attributs utiles, est le bureau des greffiers du comté pour les dossiers de propriété. le problème est de rassembler toutes les données ... certains États fournissent une base de données centrale mais d'autres non.
la source
La présence des initiales du milieu est déjà assez intéressante, et cela pourrait nous dire quelque chose sur l'ethnicité. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/
la source