J'écris un exemple et j'ai composé quelques données. Je veux qu'il soit clair pour le lecteur que ce ne sont pas de vraies données, mais je ne veux pas non plus donner l'impression de malveillance, car elles ne servent qu'à titre d'exemple.
Il n'y a pas de composante (pseudo) aléatoire dans ces données particulières, il me semble donc que «simulé» n'est pas approprié. Si je l'appelle fictif ou fabriqué, cela donne-t-il l'impression de données frauduleuses ? Est-ce que «inventé» est un mot qui pourrait s'inscrire dans un contexte scientifique?
Quelle est la terminologie dans la littérature statistique pour les données composées non simulées?
terminology
synthetic-data
Frans Rodenburg
la source
la source
Réponses:
J'appellerais probablement ces données "synthétiques" ou "artificielles", bien que je pourrais aussi les appeler "simulées" (la simulation est juste très simple).
la source
Si vous voulez qualifier vos données de fictives, vous serez en bonne compagnie, car c'est le terme utilisé par Francis Anscombe pour décrire son désormais célèbre quatuor .
D'après Anscombe, FJ (1973). " Graphs in Statistical Analysis ", Am. Stat. 27 (1):
Mais je pense que votre prudence est bien placée, car mon OED (v4) semble indiquer que cette utilisation de fictif est obsolète
la source
En informatique, nous l'appelons souvent des données de maquette , qui peuvent être présentées via une maquette (application).
Les données de maquette peuvent également être présentées via une application entièrement fonctionnelle, par exemple pour tester la fonctionnalité de l'application de manière contrôlée.
la source
J'ai vu des suggestions répétées pour le terme "données synthétiques". Ce terme a cependant une signification largement utilisée et très différente de ce que vous voulez exprimer: https://en.wikipedia.org/wiki/Synthetic_data
Je ne suis pas sûr qu'il existe un terme scientifique généralement accepté, mais le terme "données d'exemple" semble difficile à comprendre?
la source
J'ai rencontré le terme «fausses données» assez souvent. Je suppose que cela pourrait avoir des connotations négatives, mais je l'ai entendu assez souvent pour qu'il ne s'enregistre pas du tout négativement pour moi.
FWIW, Andrew Gelman l'utilise aussi:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/
https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false
Une recherche rapide sur Google de «fausses données» révèle de nombreux résultats qui semblent utiliser le terme de la même manière:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
Et il y a même un
fakeR
package, ce qui suggère que cela est relativement courant: https://cran.r-project.org/web/packages/fakeR/fakeR.pdfla source
J'utilise un mot différent selon la manière dont j'utilise les données. Si j'ai trouvé l'ensemble de données composé qui traîne et que j'ai pointé mon algorithme de manière confirmative, alors le mot "synthétique" est très bien.
Cependant, souvent lorsque j'utilise ce type de données, j'ai inventé les données avec l'intention spécifique de montrer les capacités de mon algorithme. En d'autres termes, j'ai inventé des données dans le but spécifique d'obtenir de «bons résultats». Dans de telles circonstances, j'aime le terme «artificiel» ainsi qu'une explication de mes attentes pour les données. C'est parce que je ne veux pas que quiconque fasse l'erreur de penser que j'ai pointé mon algorithme vers un ensemble de données synthétiques arbitraires que j'ai trouvé traîner et cela a vraiment bien fonctionné. Si j'ai des données triées sur le volet (au point de les inventer) spécifiquement pour bien faire fonctionner mon algorithme, je le dis. En effet, ces résultats fournissent la preuve que mon algorithme peutfonctionnent bien, mais ne fournissent que des preuves très faibles que l'on pourrait s'attendre à ce que l'algorithme fonctionne bien en général . Le mot «artificiel» résume très bien le fait que j'ai choisi a priori les données avec de «bons résultats».
Non, mais il est important d'être clair sur la source de tout ensemble de données et vos attentes a priori en tant qu'expérimentateur lors du rapport de vos résultats sur n'importe quel ensemble de données. Le terme "fraude" inclut explicitement un aspect d'avoir dissimulé quelque chose ou d'avoir menti purement et simplement. Le moyen n ° 1 d'éviter la fraude dans le domaine scientifique est simplement d'être honnête et direct sur la nature de vos données et vos attentes. En d'autres termes, si vos données sont fabriquées et que vous omettez de le dire de quelque manière que ce soit , et que vous vous attendez à ce que les données ne soient pas fabriquées ou, pire, vous prétendez que les données sont collectées de manière non fabriquée de façon, alors c'est"fraude". Ne fais pas ça. Si vous voulez utiliser un synonyme pour le terme "fabriqué" qui "sonne mieux", comme "synthétique", personne ne vous en voudra, mais en même temps, je ne pense pas que quiconque remarquera la différence à part vous.
Une note latérale:
Moins évidentes sont les circonstances où l'on prétend avoir eu des attentes a priori qui sont en fait des explications post hoc . Il s'agit également d'une analyse frauduleuse des données.
Il y a un danger à cela lorsque l'on choisit des données spécifiquement dans le but de "montrer" les capacités d'un algorithme, ce qui est souvent le cas avec des données synthétiques.
Pour comprendre pourquoi c'est le cas, considérons que la méthode scientifique "normale" fonctionne comme ceci: 1) Une population est choisie 2) Une hypothèse est concise 3) est testé contre (ou un échantillon choisi parmi ). La science n'a pas à travailler dans cette définition étroite, mais c'est ce qu'on appelle une analyse «confirmatoire», et est généralement considérée comme la forme de preuve la plus solide que l'on puisse fournir. Étant donné que l'ordre des événements est en corrélation avec la force des preuves, il est important de les documenter spécifiquement.D H H D D
Notamment, dans le cas de données « ménagées », le processus fonctionne plus souvent comme ceci: 1) Une hypothèse est conçu, 2) Une population est choisie, 3) est testée contre . Si vous testez un algorithme, par exemple, l'hypothèse que votre nouvel algorithme de fantaisie "fait du bon travail" pourrait se produire avant l'invention de l'ensemble de données synthétique. Si tel est le cas, vous devez le mentionner. À tout le moins, vous ne devez pas prétendre que les événements se sont produits de manière "confirmative", car cela amènerait les lecteurs à conclure que vos preuves sont plus solides qu'elles ne le sont en réalité.H D H D
Il n'y a aucun problème à le faire, tant que vous êtes honnête et direct sur ce que vous avez fait. Si vous avez eu du mal à créer un ensemble de données qui donne de "bons résultats", dites-le. Tant que vous informez le lecteur des étapes que vous avez suivies dans votre analyse de données, il dispose des informations nécessaires pour évaluer efficacement les preuves pour ou contre vos hypothèses. Lorsque vous n'êtes pas honnête ou que vous n'êtes pas franc , cela peut donner l'impression que vos preuves sont plus solides qu'elles ne le sont en réalité. Lorsque vous êtes sciemment moins qu'honnête et franc pour faire en sorte que votre preuve paraisse plus forte qu'elle ne l'est réellement, alors c'est, en effet, frauduleux.
En tout cas, c'est pourquoi je préfère le terme «artificiel» pour de tels ensembles de données, ainsi qu'une brève explication qu'ils sont, en effet, choisis avec une hypothèse en tête. "Conçu" donne le sentiment que non seulement j'ai créé un ensemble de données synthétique, mais je l'ai fait avec des intentions particulières qui reflètent le fait que mon hypothèse était déjà en place avant la création de mon ensemble de données.
Pour illustrer par un exemple: Vous créez un algorithme pour l'analyse de séries chronologiques arbitraires. Vous supposez que cet algorithme donnera de "bons résultats" lorsqu'il est pointé sur des séries chronologiques. Considérez maintenant les deux possibilités suivantes: 1) Vous créez des données synthétiques qui ressemblent au genre de chose sur laquelle vous vous attendez à ce que votre algorithme fonctionne bien. Vous analysez ces données et l'algorithme fonctionne bien. 2) Vous récupérez des jeux de données synthétiques car ils sont disponibles pourquoi pas. Vous analysez ces données et l'algorithme fonctionne bien. Laquelle de ces deux circonstances fournit la meilleure preuve que votre algorithme fonctionne bien sur des séries temporelles arbitraires? De toute évidence, il s'agit de l'option 2. Cependant, il pourrait être facile de signaler dans l'option 1 ou l'option 2 que «nous avons appliqué l'algorithmeA au jeu de données synthétiques . Les résultats sont présentés dans la figure . "En l'absence de tout contexte, un lecteur peut raisonnablement supposer que ces résultats sont confirmatifs (option 2), alors que, dans le cas de l'option 1, ils ne le sont pas. Le lecteur a donc, en option 1, a eu l'impression que la preuve est plus solide qu'elle ne l'est réellement.D x.y
tl; dr
Utilisez le terme que vous aimez, "synthétique", "artificiel", "fabriqué", "fictif". Cependant, le terme que vous utilisez est insuffisant pour garantir que vos résultats ne sont pas trompeurs . Assurez-vous que votre rapport indique clairement comment les données ont été produites, y compris vos attentes à l'égard des données et les raisons pour lesquelles vous avez choisi les données que vous avez choisies.
la source
Tout d'abord, il n'y a aucune raison de ne pas l'appeler un "ensemble de données". Il n'y a pas de terme (s) universellement convenu (s) pour les données "fausses" vs "simulées" vs ... Si l'objectif est d'être complètement clair, il est préférable de consacrer une phrase, plutôt qu'un mot, pour qualifier ce jeu de données. Après cela, vous pouvez assouplir la désignation et simplement faire référence à vos données en tant que données.
"Synthétique", "artificiel" ne se distingue pas des autres ensembles de données "simulés" échantillonnés par MCMC dans mon esprit. L'utilisation d'un générateur de nombres quasi aléatoire avec une graine fixe (comme une formation appropriée le dicterait) crée également un ensemble de données synthétique ou artificiel.
Si vous souhaitez organiser un ensemble de données pour une illustration spécifique, plutôt que de générer une instance ou une réalisation à partir d'un modèle de probabilité, je pense qu'il vaut mieux appeler un tel ensemble de données "un exemple d'ensemble de données ". De telles données s'apparentent au quatuor d'Anscombe: totalement abstraites et non plausibles, mais destinées à illustrer un point.
la source
En biologie, les analyses sont parfois démontrées à l'aide d'un ensemble de données sur des animaux mythiques. Il appartient à l'auteur / examinateur de déclarer explicitement ou non que les données sont simulées.
Guide d'un écologiste sur le modèle animal, 2009
Variance à effet fixe et estimation des répétabilités et héritabilités: problèmes et solutions, 2017
la source
Intuitivement, j'utiliserais le terme «données fictives», dans le même sens que «Lorem ipsum ...» est appelé «texte fictif». Le mot «factice» est assez général et facile à comprendre pour les personnes d'horizons divers et est donc moins susceptible d'être mal interprété par des lecteurs ayant un passé moins statistique.
la source
Les données sont latin pour donné , qui est utilisé dans les temps modernes comme raccourci pour un ensemble donné de faits enregistrés . Donc, d'une certaine manière, se référer à des enregistrements fabriqués comme une sorte de faits donnés serait une contradiction ouverte.
Cependant, en raison de l'utilisation croissante des données pour se référer simplement aux enregistrements - indépendamment de la présomption d'origine des enregistrements étant des faits - nous nous comprenons volontiers lorsque nous parlons d'enregistrements qui peuvent ou non être véridiques - donc des données réelles / fausses.
Je résumerai mon expérience des façons d'aborder les enregistrements fabriqués ci-dessous. L'étiquette utilisée dépend si l'on suppose que nous parlons de données comme des enregistrements fabriqués qui sont censés être raisonnablement réalistes pour permettre une analyse plus approfondie, ou des données comme une charge de calcul.
la source