Existe-t-il des séries numériques pré-générées avec des propriétés statistiques connues?

8

J'essaie de tester un programme qui prétend calculer certaines propriétés statistiques d'une séquence numérique (comme la moyenne, la médiane, l'écart-type, etc.). Les séquences simples et courtes réussissent bien le test, mais je voudrais contester le programme avec des séquences longues ou des séquences avec des valeurs grandes et petites (pour tester les débordements / débordements) etc. Donc, y a-t-il un logiciel ou une ressource en ligne ou autre source de différentes séquences numériques aux propriétés statistiques connues?

mbaitoff
la source

Réponses:

9

Le National Institute of Standards and Technology des États-Unis dispose d'un ensemble de jeux de données statistiques de référence "qui fournit des jeux de données de référence avec des valeurs certifiées pour une variété de méthodes statistiques", y compris un jeu intitulé "Statistiques récapitulatives univariées" avec des valeurs certifiées pour la moyenne, l'écart type et autocorrélation lag-1.

Il ne semble pas inclure de valeurs de la médiane, mais un calcul précis de la médiane ne devrait pas être un problème. Un calcul efficace de la médiane de l'échantillon est un peu plus difficile.

un arrêt
la source
Ces ensembles de données semblent être plutôt courts - plusieurs milliers de valeurs au maximum. Existe-t-il de longues séquences et des séquences avec des valeurs extrêmes pour tester les débordements et les pertes de précision? Existe-t-il également des propriétés statistiques de «l'ordre supérieur» disponibles pour ces ensembles, comme l'asymétrie, le kurtosis, etc.?
mbaitoff
1

Vous pouvez prendre votre boîte à outils de statistiques préférée (la mienne est R) et l'utiliser pour commencer à générer de longues séries de données. Dans R par exemple, il est possible de générer des données à partir de toutes sortes de distributions. De cette façon, vous pouvez valider que ce programme que vous testez est conforme à votre autre programme de statistiques. Cela ne compare que les performances par exemple à R, mais je ferais confiance à R à cet égard :).

Paul Hiemstra
la source
Je recherche non seulement des séquences, mais des séquences avec des pièges possibles. Le type de distribution n'est pas très pertinent ici.
mbaitoff