Où peut-on obtenir de bons ensembles de données / problèmes de test pour tester des algorithmes / routines?

41

Lorsque vous évaluez la qualité d'un logiciel que vous êtes sur le point d'utiliser (qu'il s'agisse de quelque chose que vous écrivez ou d'un paquet pré-construit) en calcul, il est souvent judicieux de voir à quel point il fonctionne correctement avec des ensembles de données ou des problèmes standard. Où peut-on obtenir ces tests pour vérifier les routines de calcul?

(Un site / livre par réponse, s'il vous plaît.)

JM
la source
Je voulais que ce soit un message Wiki de la communauté et l’ai donc marqué pour la conversion.
JM
3
Cette question n’est-elle pas trop large, c’est-à-dire que cela dépend des algorithmes / de la nature du problème que ce logiciel est utilisé pour résoudre?
Andre Holzner
Je voulais vraiment que cette question soit un wiki de la communauté , @Andre (en tant que "grande liste" de ressources); Je l'avais marqué pour conversion, mais je ne sais pas pourquoi il n'a pas été converti.
JM
@JM je l'ai converti.
David Ketcheson

Réponses:

13

La méthode de fabrication des solutions est une norme pour tester les PDE et autres solveurs. La plupart des systèmes d’algèbre symbolique disposent d’installations pour générer du code, ce qui est utile pour créer des solutions manufacturées. SymPy et Maple ont la fonction ccode, entre autres à cet effet.

aterrel
la source
10

Un groupe de tests pour les IVP (problèmes de valeur initiaux pour les résolveurs d'ODE) est actuellement mis à jour par des membres de l'Université de Bari, en Italie, qui en ont succédé à CWI Amsterdam.

Jitse Niesen
la source
1
Certains jeux de tests supplémentaires pour IVPs sont donnés dans cette réponse de JM sur Math.StackExchange: math.stackexchange.com/a/59398
David Ketcheson
8

Dans le domaine de l'électromagnétisme informatique, il existe un ensemble de problèmes de test célèbres (ou tristement célèbres à cause des difficultés de certains): Tests de méthodes d'analyse électromagnétique (TEAM) .

Certains d'entre eux ont vraiment besoin de techniques numériques de pointe pour obtenir les résultats de simulation corrects alignés sur les données expérimentales. Par exemple, le problème de la bobine de conducteur .

Un autre ensemble de problèmes de test pour les équations de Maxwell sont compilés par Dauge: Calculs de référence pour les équations de Maxwell pour l'approximation de solutions très singulières . Celui du célèbre (ou infâme) Fichera Cube:

Fichera

tout et E = - & phiv vivant sur ce cube sera un défi à vos codes numériques PDE.ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).
Shuhao Cao
la source
7

Si vous souhaitez analyser des algorithmes liés aux structures moléculaires, la base de données pubchem contient une vaste collection de molécules essentiellement organiques. Cela peut être utile pour comparer les prévisions des propriétés moléculaires obtenues avec différents modèles / programmes. Le site propose plusieurs options pour le téléchargement de gros lots de molécules répondant à certains critères prédéfinis (par exemple, la composition chimique).

Toon Verstraelen
la source
7

Le site Web CUTEr met à jour le jeu de tests CUTE mentionné sur le site Web d'Arnold Neumaier avec quelques problèmes supplémentaires d'optimisation et de résolution linéaire. En outre, il fournit des outils logiciels pour tester et mettre à jour l'algèbre linéaire et les solveurs d'optimisation.

Geoff Oxberry
la source
6

Nous utilisons des ensembles de données météorologiques dans notre logiciel de simulation énergétique des bâtiments. Pour les États-Unis, les ensembles de données comprennent les observations météorologiques effectuées (généralement dans les aéroports) toutes les heures pendant les 20 années précédentes.

Ensembles de données disponibles pour le téléchargement .
Manuel pour décrire le format de fichier .

Tangurena
la source
4

Pour tester des analyses statistiques multivariées et des algorithmes d’apprentissage automatique, vous trouverez le référentiel de jeux de données UCI à l’ adresse http://www.ics.uci.edu/~mlearn/.

Sam Roberts
la source
3

Alan Genz a proposé une suite de tests de fonctions dans le document Test de routines d'intégration multidimensionnelles . Je ne trouve pas de version en ligne de cet article, mais des références à celle-ci sont disponibles dans les articles sur la bibliothèque CUBA .

dls
la source
3

Vous trouverez ici une collection de problèmes d’optimisation de référence liés à l’EDP gérée par Roland Herzog chez TU-Chemnitz .

Andrew T. Barker
la source
2

Un bon logiciel doit avoir été testé et doit indiquer comment les auteurs ont testé et soit fournir les ensembles de données de test eux-mêmes (par exemple sous la forme de tests de régression), soit au moins fournir des liens vers les données avec lesquelles il a été testé.

Wolfgang Bangerth
la source
Entendre entendre; voir Reproductibilité ff. et cahiers reproductibles de recherche et IPython .
denis
2

Si vous recherchez de grands graphiques ou des données réseau sur lesquels effectuer des tests. Le projet d'analyse de réseau de Stanford (SNAP) comprend de nombreux grands ensembles de données graphiques, généralement sous la forme d'une liste de contiguïté anonymisée. Certaines de leurs options incluent:

Les données

Propriétés des données

  • Nombre d'arêtes: entre ~ 10 et ~ 400 millions
  • Nombre de nœuds: entre ~ 10 et ~ 100 millions
  • Types de bord: dirigé, non dirigé, pondéré, non pondéré, signé et non signé.
  • Types de réseaux: dirigé, non dirigé, bipartite, multigraphique, temporel, étiqueté.

Statistiques de vérité au sol disponibles sur les jeux de données:

Outils

Ryan
la source
@JM pas de problème! Il y a quelque temps, j'ai utilisé certains de leurs jeux de données de réseau social pour un projet, puis suis tombé par hasard sur cet échange de pile et j'ai pensé que cela pourrait être utile ici.
Ryan
-3

Les données sont faciles. L'API pour l'obtenir peut être difficile. Je recommande Quandl . Ce site contient plus de 10 millions d'ensembles de données disponibles au public accessibles via une API simple et conviviale, compatible REST. Toutes les données sont renvoyées au format CSV ou JSON. Ou bien, si la programmation n'est pas votre point fort, il existe des moyens simples d'obtenir les données dans Excel. Les programmeurs R, Python et Ruby seront à l'aise avec les bibliothèques natives.

Brian Risk
la source
1
Bienvenue sur Scicomp! Je ne pense pas que ce soit le type de données sur lequel porte la question; pour tester des algorithmes, vous avez besoin non seulement d'un ensemble de données, mais également d'un résultat connu correspondant (en fonction du problème / de l'algorithme) avec lequel comparer vos résultats.
Christian Clason
Merci @ChristianClason. Je vois ce que tu veux dire. Par exemple, si le logiciel est destiné à la régression linéaire, l’auteur s’intéresse aux jeux de données ainsi qu’à un ensemble de résultats d’analyse sélectionnés pour vérifier si le logiciel de régression linéaire fonctionne correctement.
Brian Risk