Meilleur terme pour les données composées?

23

J'écris un exemple et j'ai composé quelques données. Je veux qu'il soit clair pour le lecteur que ce ne sont pas de vraies données, mais je ne veux pas non plus donner l'impression de malveillance, car elles ne servent qu'à titre d'exemple.

Il n'y a pas de composante (pseudo) aléatoire dans ces données particulières, il me semble donc que «simulé» n'est pas approprié. Si je l'appelle fictif ou fabriqué, cela donne-t-il l'impression de données frauduleuses ? Est-ce que «inventé» est un mot qui pourrait s'inscrire dans un contexte scientifique?

Quelle est la terminologie dans la littérature statistique pour les données composées non simulées?

terminology synthetic-data Frans Rodenburg
la source

9

Juste pour ajouter un commentaire qui s'étend sur plusieurs réponses: "synthétique" est un bon mot pour des données composées qui essaient de paraître aussi réalistes que possible, tandis que "maquette" suggère des données qui ont été conçues pour démontrer quelque chose de particulier. Par exemple, les données "fictives" peuvent contenir des valeurs aberrantes absurdes, simplement pour démontrer combien il est important de traiter correctement les valeurs aberrantes.

Cort Ammon - Rétablir Monica

Personnellement, je préfère le terme "simulé" et je l'ai rencontré le plus dans la littérature statistique (c'est-à-dire "nous avons effectué des simulations pour comparer notre modèle contre X, Y, Z ...."

Samir Rachid Zaim

45

J'appellerais probablement ces données "synthétiques" ou "artificielles", bien que je pourrais aussi les appeler "simulées" (la simulation est juste très simple).

Louis Cialdella
la source

30

On entend des "données de jouets", "des exemples de jouets" et des "données factices". Je suis également d'accord pour dire que "simulé" pourrait bien convenir même en l'absence de nombres aléatoires.

rolando2

7

Des "données illustratives" ou des "données d'exemple" pourraient également fonctionner

Henry

8

+1 « données synthétiques » et « exemple de jouet » sont deux termes que je pourrais utiliser, si l'occasion se présente, tout comme «exemple construit». Parfois, je dis «exemple illustratif» ou quelque chose de similaire, en particulier lorsque l'exemple a été explicitement construit pour avoir des caractéristiques particulières (par exemple lorsqu'il est conçu comme contre-exemple d'une notion erronée).

Glen_b -Reinstate Monica

1

J'ai tendance à utiliser des données sur les jouets (sans artificiel ou simulé ) pour des ensembles de données réels (mesurés) que j'abuse pour démontrer quelque chose.

cbeleites prend en charge Monica

1

Cela dépend un peu de votre application ce qui fonctionnera le mieux. Par exemple, je fais aussi un projet avec des "fausses" données, mais une autre partie du projet implique l'utilisation d'une simulation de modèle informatique. Donc, cela pourrait confondre le lecteur pour moi de faire référence aux fausses données comme "simulées", impliquant faussement que les données proviennent de la simulation. Je me suis donc appuyé sur «artificiel», et parfois je décris les données comme «fabriquées». Personnellement, j'éviterais "synthétique" car pour moi ce terme impliquerait que les données sont une sorte de combinaison d'autres sources de données (une "synthèse" par exemple des données A et des données B).

Ceph

12

Si vous voulez qualifier vos données de fictives, vous serez en bonne compagnie, car c'est le terme utilisé par Francis Anscombe pour décrire son désormais célèbre quatuor .

D'après Anscombe, FJ (1973). " Graphs in Statistical Analysis ", Am. Stat. 27 (1):

Certains de ces points sont illustrés par quatre ensembles de données fictifs, chacun composé de onze (x, y) paires, présentées dans le tableau.

Mais je pense que votre prudence est bien placée, car mon OED (v4) semble indiquer que cette utilisation de fictif est obsolète

fictif , a.

(fɪkˈtɪʃəs)

[F. L. fictīci-us (f. Doigt à la mode, feindre) + -ous: voir -itieux.]

1.1 † a.1.a Artificiel par opposition à naturel (obs.). b.1.b Contrefaçon, «imitation», imposture; pas authentique.

AkselA
la source

En termes de lisibilité, la première suggestion et les commentaires sont une bien meilleure alternative. Pas besoin d'utiliser des mots rares et compliqués.

Tim

1

@Tim: Je veux être d'accord, mais je ne sais pas exactement avec quoi je serais d'accord. Êtes-vous en train de dire que fictif serait un mauvais choix, bien qu'il ait été utilisé dans un contexte similaire auparavant? Parce que c'est ce que je dis.

AkselA

7

En informatique, nous l'appelons souvent des données de maquette , qui peuvent être présentées via une maquette (application).

Les données de maquette peuvent également être présentées via une application entièrement fonctionnelle, par exemple pour tester la fonctionnalité de l'application de manière contrôlée.

ErikE
la source

5

Bon point, mais je pense que les données de maquette et les données simulées ne sont pas exactement les mêmes. Lorsque vous créez des données de maquette pour des tests unitaires, vous n'en avez besoin que pour conserver certaines propriétés très basiques des données réelles, tandis que lorsque vous utilisez des données simulées pour l'analyse statistique, vous utilisez généralement des exemples de données plus sophistiqués.

Tim

2

Je crois toujours qu'ErikE est correct cependant, lorsque vous écrivez du code analytique, vous avez besoin de la vraie chose ou de données fictives. Les données factices peuvent être aussi volumineuses que vous le souhaitez.

Mathijs Segers

1

Les pratiques varient probablement, tout comme l'utilisation de la terminologie, je suppose. Pour bon nombre de nos tests et analyses, nous utilisons des données en direct qui ont été "désamorcées" pour des raisons de sécurité et d'anonymat. Pour d'autres, nous créons des données sur les os nus comme Tim le décrit. Je n'ai pas d'opinion bien arrêtée, mais nous utilisons le terme maquette de façon assez vague.

ErikE

3

J'ai vu des suggestions répétées pour le terme "données synthétiques". Ce terme a cependant une signification largement utilisée et très différente de ce que vous voulez exprimer: https://en.wikipedia.org/wiki/Synthetic_data

Je ne suis pas sûr qu'il existe un terme scientifique généralement accepté, mais le terme "données d'exemple" semble difficile à comprendre?

srass
la source

1

Cet article semble un peu confus - la relation avec l'anonymisation est assez ténue.

Matt Krause

+1 mais je suis d'accord avec le commentaire précédent: à part les deuxièmes paragraphes (disant que les données synthétisées sont un type de données anonymisées), le reste de cet article Wikipedia semble décrire ce que le questionneur veut. C'est-à-dire des données maquillées réalistes.

Darren Cook

3

J'ai rencontré le terme «fausses données» assez souvent. Je suppose que cela pourrait avoir des connotations négatives, mais je l'ai entendu assez souvent pour qu'il ne s'enregistre pas du tout négativement pour moi.

FWIW, Andrew Gelman l'utilise aussi:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Une recherche rapide sur Google de «fausses données» révèle de nombreux résultats qui semblent utiliser le terme de la même manière:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

Et il y a même un fakeRpackage, ce qui suggère que cela est relativement courant: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

mkt - Réintégrer Monica
la source

2

J'utilise un mot différent selon la manière dont j'utilise les données. Si j'ai trouvé l'ensemble de données composé qui traîne et que j'ai pointé mon algorithme de manière confirmative, alors le mot "synthétique" est très bien.

Cependant, souvent lorsque j'utilise ce type de données, j'ai inventé les données avec l'intention spécifique de montrer les capacités de mon algorithme. En d'autres termes, j'ai inventé des données dans le but spécifique d'obtenir de «bons résultats». Dans de telles circonstances, j'aime le terme «artificiel» ainsi qu'une explication de mes attentes pour les données. C'est parce que je ne veux pas que quiconque fasse l'erreur de penser que j'ai pointé mon algorithme vers un ensemble de données synthétiques arbitraires que j'ai trouvé traîner et cela a vraiment bien fonctionné. Si j'ai des données triées sur le volet (au point de les inventer) spécifiquement pour bien faire fonctionner mon algorithme, je le dis. En effet, ces résultats fournissent la preuve que mon algorithme peutfonctionnent bien, mais ne fournissent que des preuves très faibles que l'on pourrait s'attendre à ce que l'algorithme fonctionne bien en général . Le mot «artificiel» résume très bien le fait que j'ai choisi a priori les données avec de «bons résultats».

"cela donne-t-il l'impression de données frauduleuses ?"

Non, mais il est important d'être clair sur la source de tout ensemble de données et vos attentes a priori en tant qu'expérimentateur lors du rapport de vos résultats sur n'importe quel ensemble de données. Le terme "fraude" inclut explicitement un aspect d'avoir dissimulé quelque chose ou d'avoir menti purement et simplement. Le moyen n ° 1 d'éviter la fraude dans le domaine scientifique est simplement d'être honnête et direct sur la nature de vos données et vos attentes. En d'autres termes, si vos données sont fabriquées et que vous omettez de le dire de quelque manière que ce soit , et que vous vous attendez à ce que les données ne soient pas fabriquées ou, pire, vous prétendez que les données sont collectées de manière non fabriquée de façon, alors c'est"fraude". Ne fais pas ça. Si vous voulez utiliser un synonyme pour le terme "fabriqué" qui "sonne mieux", comme "synthétique", personne ne vous en voudra, mais en même temps, je ne pense pas que quiconque remarquera la différence à part vous.

Une note latérale:

Moins évidentes sont les circonstances où l'on prétend avoir eu des attentes a priori qui sont en fait des explications post hoc . Il s'agit également d'une analyse frauduleuse des données.

Il y a un danger à cela lorsque l'on choisit des données spécifiquement dans le but de "montrer" les capacités d'un algorithme, ce qui est souvent le cas avec des données synthétiques.

Pour comprendre pourquoi c'est le cas, considérons que la méthode scientifique "normale" fonctionne comme ceci: 1) Une population est choisie 2) Une hypothèse est concise 3) est testé contre (ou un échantillon choisi parmi ). La science n'a pas à travailler dans cette définition étroite, mais c'est ce qu'on appelle une analyse «confirmatoire», et est généralement considérée comme la forme de preuve la plus solide que l'on puisse fournir. Étant donné que l'ordre des événements est en corrélation avec la force des preuves, il est important de les documenter spécifiquement. $D$ $H$ $H$ $D$ $D$

Notamment, dans le cas de données « ménagées », le processus fonctionne plus souvent comme ceci: 1) Une hypothèse est conçu, 2) Une population est choisie, 3) est testée contre . Si vous testez un algorithme, par exemple, l'hypothèse que votre nouvel algorithme de fantaisie "fait du bon travail" pourrait se produire avant l'invention de l'ensemble de données synthétique. Si tel est le cas, vous devez le mentionner. À tout le moins, vous ne devez pas prétendre que les événements se sont produits de manière "confirmative", car cela amènerait les lecteurs à conclure que vos preuves sont plus solides qu'elles ne le sont en réalité. $H$ $D$ $H$ $D$

Il n'y a aucun problème à le faire, tant que vous êtes honnête et direct sur ce que vous avez fait. Si vous avez eu du mal à créer un ensemble de données qui donne de "bons résultats", dites-le. Tant que vous informez le lecteur des étapes que vous avez suivies dans votre analyse de données, il dispose des informations nécessaires pour évaluer efficacement les preuves pour ou contre vos hypothèses. Lorsque vous n'êtes pas honnête ou que vous n'êtes pas franc , cela peut donner l'impression que vos preuves sont plus solides qu'elles ne le sont en réalité. Lorsque vous êtes sciemment moins qu'honnête et franc pour faire en sorte que votre preuve paraisse plus forte qu'elle ne l'est réellement, alors c'est, en effet, frauduleux.

En tout cas, c'est pourquoi je préfère le terme «artificiel» pour de tels ensembles de données, ainsi qu'une brève explication qu'ils sont, en effet, choisis avec une hypothèse en tête. "Conçu" donne le sentiment que non seulement j'ai créé un ensemble de données synthétique, mais je l'ai fait avec des intentions particulières qui reflètent le fait que mon hypothèse était déjà en place avant la création de mon ensemble de données.

Pour illustrer par un exemple: Vous créez un algorithme pour l'analyse de séries chronologiques arbitraires. Vous supposez que cet algorithme donnera de "bons résultats" lorsqu'il est pointé sur des séries chronologiques. Considérez maintenant les deux possibilités suivantes: 1) Vous créez des données synthétiques qui ressemblent au genre de chose sur laquelle vous vous attendez à ce que votre algorithme fonctionne bien. Vous analysez ces données et l'algorithme fonctionne bien. 2) Vous récupérez des jeux de données synthétiques car ils sont disponibles pourquoi pas. Vous analysez ces données et l'algorithme fonctionne bien. Laquelle de ces deux circonstances fournit la meilleure preuve que votre algorithme fonctionne bien sur des séries temporelles arbitraires? De toute évidence, il s'agit de l'option 2. Cependant, il pourrait être facile de signaler dans l'option 1 ou l'option 2 que «nous avons appliqué l'algorithme $A$ au jeu de données synthétiques . Les résultats sont présentés dans la figure . "En l'absence de tout contexte, un lecteur peut raisonnablement supposer que ces résultats sont confirmatifs (option 2), alors que, dans le cas de l'option 1, ils ne le sont pas. Le lecteur a donc, en option 1, a eu l'impression que la preuve est plus solide qu'elle ne l'est réellement. $D$ $x.y$

tl; dr

Utilisez le terme que vous aimez, "synthétique", "artificiel", "fabriqué", "fictif". Cependant, le terme que vous utilisez est insuffisant pour garantir que vos résultats ne sont pas trompeurs . Assurez-vous que votre rapport indique clairement comment les données ont été produites, y compris vos attentes à l'égard des données et les raisons pour lesquelles vous avez choisi les données que vous avez choisies.

Scott
la source

Bien que les réponses ici se chevauchent et que presque toutes fassent de bons points, je pense que celle-ci transmet le mieux le point clé qu'aucun terme ne transmettra à tous les lecteurs l' intention derrière la constitution de données. Les raisons peuvent être non seulement appropriées, mais essentielles à cet effet, par la paresse (mauvais textes introductifs), la tricherie et la fraude. Expliquer pourquoi vous le faites longuement peut être une bonne idée.

Nick Cox

... raisons ...

Nick Cox

1

Tout d'abord, il n'y a aucune raison de ne pas l'appeler un "ensemble de données". Il n'y a pas de terme (s) universellement convenu (s) pour les données "fausses" vs "simulées" vs ... Si l'objectif est d'être complètement clair, il est préférable de consacrer une phrase, plutôt qu'un mot, pour qualifier ce jeu de données. Après cela, vous pouvez assouplir la désignation et simplement faire référence à vos données en tant que données.

"Synthétique", "artificiel" ne se distingue pas des autres ensembles de données "simulés" échantillonnés par MCMC dans mon esprit. L'utilisation d'un générateur de nombres quasi aléatoire avec une graine fixe (comme une formation appropriée le dicterait) crée également un ensemble de données synthétique ou artificiel.

Si vous souhaitez organiser un ensemble de données pour une illustration spécifique, plutôt que de générer une instance ou une réalisation à partir d'un modèle de probabilité, je pense qu'il vaut mieux appeler un tel ensemble de données "un exemple d'ensemble de données ". De telles données s'apparentent au quatuor d'Anscombe: totalement abstraites et non plausibles, mais destinées à illustrer un point.

AdamO
la source

1

En biologie, les analyses sont parfois démontrées à l'aide d'un ensemble de données sur des animaux mythiques. Il appartient à l'auteur / examinateur de déclarer explicitement ou non que les données sont simulées.

Guide d'un écologiste sur le modèle animal, 2009

Ces tutoriels décrivent une série d'analyses génétiques quantitatives sur une population de griffons (reflétant un compromis entre les biais aviaires et mammifères des auteurs). Le griffon étant une bête mythique, les données fournies ont nécessairement été simulées.

Variance à effet fixe et estimation des répétabilités et héritabilités: problèmes et solutions, 2017

Pour illustrer cela, revenons au jeu de données licorne de Wilson (2008). C'est un fait connu que chez les licornes, la longueur de la corne varie selon la masse corporelle individuelle (pente: β = 0,403 pour un modèle complet incluant l'âge, le sexe et leur interaction).

DA Wells
la source

1

Approche intéressante! Je pense que cela pourrait être formidable pour l'enseignement des statistiques des étudiants en biologie. Lors de la présentation au public, je ne sais pas si cela donnerait la bonne impression

Frans Rodenburg

0

Intuitivement, j'utiliserais le terme «données fictives», dans le même sens que «Lorem ipsum ...» est appelé «texte fictif». Le mot «factice» est assez général et facile à comprendre pour les personnes d'horizons divers et est donc moins susceptible d'être mal interprété par des lecteurs ayant un passé moins statistique.

Mathijs
la source

2

Si c'est dans un contexte de régression, j'éviterais de surcharger "factice", de peur que vous ayez des variables factices encodant des données factices.

Matt Krause

Je suis d'accord, je l'éviterais personnellement car "Dummy" a déjà une connotation fixe en régression. Étant donné qu'il existe une abondance de termes disponibles, il est probablement préférable d'éviter ces termes qui peuvent signifier différentes choses pour différentes personnes.

Samir Rachid Zaim

0

Les données sont latin pour donné , qui est utilisé dans les temps modernes comme raccourci pour un ensemble donné de faits enregistrés . Donc, d'une certaine manière, se référer à des enregistrements fabriqués comme une sorte de faits donnés serait une contradiction ouverte.

Cependant, en raison de l'utilisation croissante des données pour se référer simplement aux enregistrements - indépendamment de la présomption d'origine des enregistrements étant des faits - nous nous comprenons volontiers lorsque nous parlons d'enregistrements qui peuvent ou non être véridiques - donc des données réelles / fausses.

Je résumerai mon expérience des façons d'aborder les enregistrements fabriqués ci-dessous. L'étiquette utilisée dépend si l'on suppose que nous parlons de données comme des enregistrements fabriqués qui sont censés être raisonnablement réalistes pour permettre une analyse plus approfondie, ou des données comme une charge de calcul.

Dans les cercles d'analyse / science des données / consultance stratégique, les gens traitent le plus souvent un ensemble fabriqué d'enregistrements générés sous des hypothèses réalistes comme des données synthétiques - et parfois des données simulées . Les enregistrements fabriqués créés à l'aide d'hypothèses brutes sont appelés ensemble de données sur les jouets .
Chez les ingénieurs logiciels, les fausses données , les données factices , les données composées et les données de maquette sont des étiquettes fréquentes qui font principalement allusion à des enregistrements qui ne sont pas nécessairement censés avoir des propriétés réalistes, mais qui ne partagent que les propriétés de base avec les données d'origine (les données d'âge sont toujours numériques) , les adresses e-mail contiennent toujours des chaînes contenant «@»).
Les chercheurs universitaires qualifieraient un ensemble réaliste d'enregistrements fabriqués de pseudo-données ou de données simulées . Dans certains cercles, si l'ensemble d'observations fabriqué est le résultat d'une simulation de Monte Carlo, il peut être appelé familièrement Monte Carlo . Les enregistrements semi-réalistes sont couramment utilisés à des fins d'illustration ou pour tester d'autres hypothèses, et sont appelés ensemble de données sur les jouets

famargar
la source

2

"Monte Carlo" est le nom de la méthode, donc le nom "familier" serait très trompeur.

Tim

@Tim en effet, cela peut être considéré comme trompeur. Cependant, la langue n'est qu'un outil fondé sur le consensus dans une communauté comme un moyen de se référer à quelque chose. A tel point que nous nous référons sur ce site aux enregistrements et mesures donnés (anglais pour les données latines ). Si je devais adopter votre point de vue, je trouverais que le traitement des mesures simulées comme fausses est très discutable.

famargar

J'espère que vous verrez maintenant que se référer à une "simulation de Monte Carlo" comme simplement "Monte Carlo" est une version moderne de se référer à "des observations données" comme "données". J'ai édité ma réponse pour incorporer ceci et plus de considérations sur la signification par rapport à l'utilisation réelle du mot «données».

famargar

1

"Les chercheurs universitaires se réfèrent le plus souvent à un ensemble réaliste d'enregistrements fabriqués sous la forme de pseudo-données": je ne me souviens pas avoir vu ce terme dans plus de 40 ans de recherche universitaire. "Les universitaires n'ont généralement pas besoin d'enregistrements irréalistes": désolé, mais cela semble tout à fait faux. Les universitaires dans de nombreux domaines utilisent des simulations de plusieurs types différents. Même des simulations irréalistes peuvent être utiles, par exemple la variabilité des échantillons normaux est un contexte important pour évaluer la non-normalité.

Nick Cox

@NickCox Pseudodata est fréquemment utilisé en physique, et je l'ai vu en biologie et en statistiques. Serait curieux de savoir quel est votre domaine et comment votre domaine se réfère aux simulations. Quant aux données irréalistes, j'ai fait une distinction entre irréaliste et semi-réaliste. Ai-je raté votre cas d'utilisation?

famargar

Meilleur terme pour les données composées?

Réponses:

Une note latérale:

tl; dr