Je suis en train de suivre un cours de deuxième cycle en statistique appliquée qui utilise le manuel suivant (pour vous donner une idée du niveau du matériel couvert): Concepts et méthodes statistiques , par GK Bhattacharyya et RA Johnson.
Le professeur nous oblige à utiliser SAS pour les devoirs.
Ma question est la suivante: existe-t-il une ou plusieurs bibliothèques Java qui peuvent être utilisées à la place de SAS pour les problèmes généralement rencontrés dans ces classes.
J'essaie actuellement de me débrouiller avec Apache Math Commons et bien que je sois impressionné par la bibliothèque (c'est la facilité d'utilisation et la compréhensibilité) il semble manquer même des choses simples telles que la possibilité de dessiner des histogrammes (en pensant à les combiner avec une bibliothèque de graphiques) ).
J'ai regardé Colt, mais mon intérêt initial s'est dissipé assez rapidement.
J'apprécierais toute contribution - et j'ai examiné des questions similaires sur Stackoverflow, mais je n'ai rien trouvé de convaincant.
REMARQUE: Je connais les bibliothèques R, SciPy et Octave et java qui les appellent - je recherche une bibliothèque native Java ou un ensemble de bibliothèques qui peuvent fournir ensemble les fonctionnalités que je recherche.
REMARQUE: Les sujets abordés dans une telle classe comprennent généralement: les tests à un échantillon et à deux échantillons et les intervalles de confiance pour les moyennes et les médianes, les statistiques descriptives, les tests de qualité de l'ajustement, l'ANOVA unidirectionnelle et bidirectionnelle, l'inférence simultanée, les tests variances, analyse de régression et analyse de données catégoriques.
Réponses:
Quand je suis obligé d'utiliser java pour les statistiques de base, apache commons math est la voie à suivre. Pour les tracés, j'utilise et recommande JFreeChart . Ce dernier est largement répandu, donc stackoverflow a même une balise remplie pour cela .
Éditer
Si l'on cherche une suite, alors peut-être que Deducer est une option. L'interface graphique est basée sur JGR, tandis que les parties statistiques sont appelées en R. Il semble être extensible à la fois via R et java . On pourrait par exemple ignorer les appels à Rengine mais appeler des bibliothèques java référencées à la place. Mais j'avoue, je ne l'ai pas encore essayé.
Pour autant que j'ai compris l'OP, l'optimum serait quelque chose comme Rapidminer for Statistics , car Rapidminer est un cadre java pur qui prend en charge l'accès à l'interface graphique (y compris les visualisations), l'utilisation comme bibliothèque et le développement de plugins personnalisés. À ma connaissance, quelque chose comme ça pour les statistiques n'existe pas. Je ne recommande pas Rapidminer pour cette tâche particulière , car au meilleur de ma connaissance, il ne comprend que les tests statistiques les plus élémentaires. Les visualisations ont été étendues récemment, mais je ne peux pas estimer à quel point elles sont personnalisables.
la source
Consultez Suan Shu: NumericalMethod.com . Ce n'est pas gratuit en général, mais c'est gratuit pour un usage académique.
la source
Semblable à la suggestion de steffen de RapidMiner, vous voudrez peut-être considérer Weka . Il peut être plus spécifiquement axé sur l'apprentissage automatique que vous ne l'espérez. Il possède de nombreux algorithmes pour des tâches telles que le clustering, la classification et la régression. Weka a une interface graphique, mais elle peut également être utilisée comme bibliothèque de logiciels. J'ai vu des histogrammes dans l'interface graphique, mais je ne sais pas s'il est facile de les réutiliser via la bibliothèque ou non.
la source
Essayez http://www.roguewave.com/Portals/0/products/imsl-numerical-libraries/java-library/docs/5.0.1/api/overview-summary.html
Il est bien documenté et fournit de nombreuses fonctions statistiques et mathématiques utiles. Mais malheureusement ce n'est pas open source. Donc, si cela ne vous dérange pas, la bibliothèque devrait être correcte.
Je ne sais pas cependant s'il fournit une sortie graphique.
la source
L' environnement informatique DataMelt possède de nombreuses bibliothèques statistiques Java presque pour tous les sujets. Vous pouvez l'utiliser en utilisant Jython comme préconisé sur le site Web, mais je l'utilise avec Java et Groovy.
Je peux en dire plus: le projet DataMelt couvre les sujets statistiques suivants:
Voici un exemple de régression non linéaire utilisant l'approche log-vraisemblance pour ajuster les données avec des erreurs:
Le forfait est gratuit.
la source