Combien d'informations pouvez-vous extraire d'un nom?

11

Un nom: d'abord, éventuellement un deuxième prénom, et un nom de famille.

Je suis curieux de savoir combien d'informations vous pouvez extraire d'un nom, en utilisant des ensembles de données accessibles au public. Je sais que vous pouvez obtenir ce qui suit n'importe où entre une probabilité faible à élevée (selon l'entrée) en utilisant les données du recensement américain: 1) Sexe. 2) Course.

Facebook, par exemple, a utilisé exactement cela pour découvrir, avec un niveau de précision décent, la répartition raciale des utilisateurs de leur site (https://www.facebook.com/note.php?note_id=205925658858).

Quoi d'autre peut être extrait? Je ne cherche rien de spécifique, c'est une question très ouverte pour apaiser ma curiosité.

Mes exemples sont spécifiques aux États-Unis, nous supposerons donc que le nom est le nom d'une personne située aux États-Unis; mais, si quelqu'un connaît des ensembles de données accessibles au public pour d'autres pays, je suis plus que ouvert à eux aussi.

Je ne sais pas trop si c'est le bon endroit pour ça, sinon, j'apprécierais que quelqu'un me pointe vers un endroit plus approprié.

J'espère que c'est une question intéressante, et c'est l'endroit approprié!


la source
2
on peut supposer que vous pourriez également obtenir quelque chose sur la situation géographique, si vous pouviez obtenir les données de correspondance appropriées? Vous pouvez également utiliser des informations sur la popularité des prénoms au fil du temps (google "baby name wizard") pour faire des inférences sur l'âge ...
Ben Bolker
1
J'ai fusionné la question transférée avec le duplicata.

Réponses:

12

Ce n'est pas une réponse sérieuse, mais je viens de me rappeler quelque chose d'un livre que j'ai lu il y a un an. Il y a un chapitre dans Freakonomics consacré à ce que vous pouvez dire sur une personne du nom. Le chapitre est basé sur le document de recherche de l'auteur Les causes et les conséquences des noms typiquement noirs

Je pense que j'en ai trouvé un extrait ou un résumé dans cet article

Les données montrent qu'en moyenne, une personne avec un nom distinctement noir - que ce soit une femme nommée Imani ou un homme nommé DeShawn - a un résultat de vie pire qu'une femme nommée Molly ou un homme nommé Jake. Mais ce n'est pas la faute de son nom. Si deux garçons noirs, Jake Williams et DeShawn Williams, sont nés dans le même quartier et dans les mêmes circonstances familiales et économiques, ils auraient probablement des résultats de vie similaires. Mais le genre de parents qui nomment leur fils Jake n'ont pas tendance à vivre dans les mêmes quartiers ou à partager les circonstances économiques avec le genre de parents qui nomment leur fils DeShawn. Et c'est pourquoi, en moyenne, un garçon nommé Jake aura tendance à gagner plus d'argent et à obtenir plus d'éducation qu'un garçon nommé DeShawn. DeShawn '


la source
4

D'après le prénom, prédire la région, l'âge, le statut d'immigrant de première génération. À partir du nom de famille, vous pouvez prédire l'emplacement géographique du patronyme d'origine. Pour le nom complet, vous pouvez prédire le statut social et économique (Thurston Howell III).

fgregg
la source
+1 juste pour la 1ère mention sur ce site d'un personnage de Gilligan's Island.
rolando2
4

Juste pour ajouter d'autres suggestions ici, l'une des plus grandes sources de données familiales est la multitude de sites de généalogie. Je pense que la plupart des occidentaux sont probablement répertoriés par un membre de la famille, éloigné ou non sur quelques-uns d'entre eux et une telle inclusion est accompagnée d'un arbre généalogique généralement complet, accompagné de lieux, de détails sur la naissance, etc. Très informatif.

Si vous recoupez ces données avec des graphiques d'amis dans Facebook, comme les gens ont tendance à ajouter des frères et sœurs / cousins ​​(et des parents / enfants à l'occasion), puis utilisez les données de localisation avec des rôles électoraux et des répertoires, vous pouvez généralement localiser des personnes même avec des noms communs, et obtenir une quantité étonnamment importante de données à leur sujet.


la source
3

Le dernier chapitre de Freakonomics (2005, Steven D. Levitt et Stephen J. Dubner) a une discussion fascinante sur les noms, en particulier en ce qui concerne le statut socio-économique et la race.

Ils ont une liste de prénoms qui pourraient ou non être en bonne corrélation avec l'analyse des noms de famille par FB. Ils décrivent également comment le choix du nom évolue diachroniquement (au fil du temps).

Qui sait - le nom de la sélection des parents pourrait être plus précis que ce que les gens rapportent sur le recensement.

rajah9
la source
3

Vous avez beaucoup de bonnes suggestions ci-dessus, donc je vais juste mentionner une anecdote intéressante. Un étudiant d'été (maintenant un éminent informaticien) dans un laboratoire de recherche d'entreprise (qui doit rester anonyme) a regardé les données de l'annuaire téléphonique en ligne de l'entreprise et a construit un modèle prédictif de la rémunération en utilisant des n-grammes de caractères à partir des noms. Le prédicteur le plus fort était que ez_ indiquait un salaire moins élevé, une conclusion que j'imagine qu'il n'était pas encouragé à parler de ...

DavidDLewis
la source
2

Vous pourriez probablement découvrir:

  1. Profession et éventuellement historique de l'emploi, si l'on participe à des discussions professionnelles (l'emploi actuel peut généralement être trouvé à partir de l'un des noms de domaine par e-mail ou signature, la recherche révélera également les anciens)
  2. Parents, si l'on maintient un profil sur les réseaux sociaux.
  3. Emplacement actuel, au moins jusqu'à la ville.
  4. Origine ethnique, si l'on a un nom distinct (c'est-à-dire que quelqu'un nommé "Lubomir" est probablement lié à l'un des pays européens slaves, etc.).
  5. Date de naissance sur les réseaux sociaux - les gens ont tendance à féliciter une personne à sa date de naissance ou vers celle-ci, et si vous êtes chanceux, vous obtenez également l'année où l'on atteint 25, 30, 35, etc., comme l'une des personnes qui félicitent le mentionnerait probablement sinon la personne en question.
  6. Formation - de LinkedIn, etc.
  7. Loisirs, équipes sportives préférées, etc.
  8. Si l'un est un amoureux des animaux de compagnie, il aurait probablement tous ses animaux de compagnie sur les réseaux sociaux.

Ce qui signifie que vous ne devriez jamais utiliser quoi que ce soit de la liste ci-dessus pour vos mots de passe, questions secrètes, etc.


la source
Qu'en est-il des gens qui ont le même nom que vous ... il y a un certain nombre de "Dean Harding" là-bas, l'un d'eux était même un footballeur professionnel! Le "DeanHarding" sur Twitter n'est pas moi, il y a des centaines de "Dean Harding" sur Facebook, etc etc ...
Cela dépend du hasard, bien sûr. Habituellement, vous pouvez savoir lequel il s'agit par profession, lieu, etc., bien que j'aie vu des cas où il y avait 3 personnes avec le même nom complet, dans la même profession et vivant à peu près dans la même région. Alors bien sûr, cela devient plus difficile :)
2

Darden et Robinson (1976) ont tenté de trouver une structure linguistique qui guide les associations de personnes à propos des prénoms des hommes. Ils ont demandé à deux groupes de sujets (étudiants en sociologie et officiers de marine) d'évaluer un ensemble de noms américains communs le long de différentiels sémantiques tels que soft-hard, common-noble et urban-rural. Ils ont également demandé des jugements de similitude entre les différentes paires de noms, et à titre de validation, ils ont corrélé les moyennes des différentiels sémantiques avec les dimensions qu'ils ont trouvées, à la fois dans les solutions à trois et à quatre D, en utilisant la procédure TORSCA MDS.

Les auteurs ont trouvé que leur solution 3-D correspond à peu près au trio classique d'Osgood d'activation, d'évaluation et de puissance. En quatre dimensions, l'espace correspondait un peu mieux aux données, et ici ils ont interprété la structure comme dépendant du «caractère», de la «maturité», de la «sociabilité» et de la «virilité», bien que ces échelles ne semblent pas aussi bien définies que suggèrent les auteurs. Une conclusion surprenante qui est ressortie de l'étude est que, au moins pour ces deux petits échantillons (n ​​= 83 et 21), aucune dimension ne correspond à la distinction entre prénom et surnom.

Darden, DK et Robinson, IE (1976). Mise à l'échelle multidimensionnelle des prénoms masculins: une approche sociolinguistique. Sociometry, 39 , 4, 422-431.

rolando2
la source
1

La quantité d'informations qui peuvent être trouvées varie énormément, de la race et le sexe à toutes sortes d'informations personnelles. Votre meilleur pari pour obtenir les informations serait des sites de réseaux sociaux comme Facebook, car ils fournissent généralement plus d'informations que les bases de données Cencus.


la source
1

Il existe un large éventail d'informations que vous pouvez obtenir en fonction des sources que vous utilisez. Les données du recensement sont évidentes. Vous pouvez également obtenir des informations sur Facebook, MySpace et d'autres sites de réseaux sociaux. Vous pouvez également rechercher dans les archives de nouvelles publiques des mentions de leur nom. Peut-être même ces sites de propriété ubclained que certains États ont.

Si vous voulez un exemple du monde réel de ce qui peut être fait, jetez un œil à pipl.com


la source
Pourriez-vous nous dire où (partout dans le monde) nous pouvons trouver des données de recensement avec des noms ?
whuber
1

Vous pouvez rechercher des diplômes, un permis de conduire, un casier judiciaire (est-ce la bonne traduction?). Avec facebook, vous pouvez trouver des informations sur les loisirs, les sports, la musique aimée. Vous pouvez également rechercher la proportion d'utilisateurs d'un autre nom sur les réseaux sociaux. (Je serais intéressé par ces résultats)

lcrmorin
la source
0

Si vous savez quelque chose sur l'emplacement de la personne, une base de données est les bases de données d'inscription des électeurs. De nombreuses bases de données sur l'inscription des électeurs sont disponibles (moyennant des frais; certaines entreprises les achètent et leur fournissent un accès aux requêtes en ligne, moyennant des frais). La base de données d'inscription des électeurs peut contenir l'adresse et / ou la date de naissance de l'individu. Ces informations peuvent vous permettre de rechercher l'individu dans d'autres bases de données.

Cependant, il y a des limites à combien cela aide. Cela peut être utile si vous connaissez la ville ou le comté où vit la personne et si son nom est assez inhabituel. Mais si c'est un nom commun, ou si vous ne savez pas où ils vivent, cela ne vous aidera probablement pas.

DW
la source
0

l'une des plus grandes sources de données accessibles au public, y compris de nombreux autres attributs utiles, est le bureau des greffiers du comté pour les dossiers de propriété. le problème est de rassembler toutes les données ... certains États fournissent une base de données centrale mais d'autres non.

NetConstructor.com
la source