Algèbre informatique symbolique pour les statistiques

8

Quelles fonctionnalités devraient exister dans un CAS spécifiquement axé sur les statistiques?

Les systèmes d'algèbre symbolique comme Mathematica et Maple sont souvent utilisés pour les problèmes de calcul, de logique et de physique, mais sont rarement utilisés pour les statistiques. Pourquoi est-ce?

Quelles constructions statistiques pourraient être ajoutées à un système d'algèbre symbolique pour améliorer son utilisation dans ce domaine? Quels sont les exemples de code spécifiques que beaucoup de gens aimeraient pouvoir faire.

Veuillez penser aux trois utilisateurs suivants: statisticien de recherche, chercheur non statistique utilisant des statistiques dans un autre domaine (comme la biologie), étudiant en statistique.

Je travaillerai sur le code statistique de SymPy au cours des prochains mois et je voudrais solliciter des informations pour la fonctionnalité souhaitée. Les choses que j'utilise ne sont pas nécessairement celles que la communauté plus large utilise.

MRocklin
la source
Il existe un package dédié aux statistiques, voir le projet R pour le calcul statistique ( r-project.org ).
Roman Luštrik
1
Oui, R est idéal pour les statistiques. Cependant, il a tendance à se spécialiser dans les calculs principalement numériques. Je m'intéresse à ce que nous pouvons faire pour aider les chercheurs dans les manipulations symboliques.
MRocklin
2
Il n'est pas évident que ces systèmes symboliques aient besoin de «constructions statistiques» qui leur soient ajoutées. Mathematica a fait beaucoup de cela dans la version 8, mais il est peu probable qu'il devienne une plate-forme populaire pour les statistiques appliquées ou les étudiants. L'une des raisons est qu'un bon logiciel de statistiques prend en charge le travail non mathématique beaucoup mieux que le logiciel mathématique: saisie de données, gestion, transformation, interrogation et documentation. Le logiciel de statistiques prend généralement également en charge une énorme galerie de méthodes de visualisation des données.
whuber
2
Je ne sais pas pourquoi vous pensez que CAS est rarement utilisé dans les statistiques; personnellement j'utilise Mathematica tout le temps. Casella & Berger a même une annexe consacrée à Mathematica. Mais en tant que statisticien, je consacre généralement plus de temps aux données qu'aux mathématiques, comme le souligne @whuber.
JMS
2
Reconnaissez également que de nombreux (et la plupart?) Chercheurs et étudiants universitaires ont un accès gratuit à des packages matures comme Maple et Mathematica via des machines uni et / ou des licences de site.
JMS

Réponses:

9

Prise en charge de l'algèbre matricielle. La grande majorité des statistiques pratiquées est multivariée et implique des matrices, et souvent la simplification des formes matricielles nécessite des règles spéciales qui ne sont pas facilement traduites à partir d'un cas univarié, donc un bon support de matrice serait vraiment utile.

user2839
la source
2
C'est quelque chose que Mathematica est déjà bon.
whuber
Excellent point. Que pourrait-on ajouter à un système qui exprime déjà bien l'algèbre linéaire? Ou une expression solide des matrices est-elle suffisante?
MRocklin
1
@MR Plutôt que de demander ce qui pourrait être ajouté à ces systèmes, réfléchissez à la raison pour laquelle vous faites cela. Pour qui? Quelles utilisations voulez-vous soutenir? Quelles sont les raisons impérieuses (le cas échéant) d'ajouter des procédures statistiques à un système symbolique? En d'autres termes, commencez par une bonne spécification fonctionnelle.
whuber