Une enquête sur les outils logiciels d'exploration de données

15

Bien que j'ai été formé comme ingénieur, je trouve que je m'intéresse de plus en plus à l'exploration de données. En ce moment, j'essaie d'enquêter davantage sur le terrain. En particulier, je voudrais comprendre les différentes catégories d'outils logiciels qui existent et quels outils sont remarquables dans chaque catégorie et pourquoi. (Notez que je n'ai pas dit les "meilleurs" outils, juste les plus remarquables de peur que nous ne commencions une guerre des flammes.) Surtout notez les outils qui sont open-source et librement disponibles - bien que cela ne signifie pas que Je ne suis intéressé que par l'open source et gratuit.

John Berryman
la source
1
Je conseille que ce soit un wiki communautaire.
Tal Galili
sonne comme une question de devoirs
Neil McGuigan
@Tal Certainement, maintenant converti.
@el chief - C'est une question très large et générale ... mais je crains que ce ne soit pas une question de devoirs.
John Berryman

Réponses:

7

C'est probablement la liste la plus complète que vous trouverez: mloss.org

Pedro Oliveira
la source
Cependant, il est axé sur l'apprentissage automatique, qui peut être considéré comme un domaine connexe de l'exploration de données, tout comme l'IA. Bien que couramment utilisé comme synonyme, la "prédiction" est l'un des principaux défis de l'exploration de données. Mais l'exploration de données ne se limite pas à «apprendre».
A QUIT - Anony-Mousse
7

Jettes un coup d'oeil à

  • Weka (java, fort dans la classification)
  • Orange (scripts python, principalement classification)
  • GNU R (langage R, quelque peu orienté table vectorielle, voir la vue des tâches Machine Learning et l' interface utilisateur Rattle )
  • ELKI (java, fort en clustering et détection de valeurs aberrantes, prise en charge de la structure d'index pour les accélérations, liste d'algorithmes )
  • Mahout (Java, appartient à Hadoop, si vous avez un cluster et d'énormes ensembles de données)

et le référentiel d'apprentissage automatique UCI pour les ensembles de données.

chl
la source
1
vous pouvez ajouter Red-R à la liste (une sorte de clone d'Orange dans R): red-r.org
Amro
J'ai téléchargé R et je joue avec lui maintenant.
John Berryman
@Amro Merci! Cependant, il n'est pas disponible sur la plate-forme Mac, sauf erreur de ma part?
chl
Je ne suis pas un utilisateur Mac, mais je pense que la version Linux pourrait fonctionner pour vous (vous devez installer manuellement toutes les dépendances python): red-r.org/forum/topic.php?id=22#post-76
Amro
@Amro, je vais essayer; dans le passé, j'ai testé RAnalyticFlow ( j.mp/bYF8xs ) mais je n'ai pas été convaincu: je suis essentiellement un utilisateur CLI :-)
chl
3

Rattle est une interface graphique d'exploration de données qui fournit une interface à une large gamme de packages R.

Jeromy Anglim
la source
3

Jetez un œil à KNIME .

Très facile à apprendre. Avec beaucoup de possibilités pour de nouveaux progrès. S'intègre parfaitement avec Weka et R.

radek
la source
2

RapidMiner (Java) [open source]

Amro
la source
2

Il y a ELKI , un projet universitaire open source quelque peu comparable à WEKA, mais beaucoup plus puissant en ce qui concerne le clustering et la détection des valeurs aberrantes. WEKA n'est pas vraiment de l'exploration de données, mais un logiciel d'apprentissage automatique.

A QUIT - Anony-Mousse
la source
1

Il y a ce Red-R qui a une belle interface graphique et de programmation visuelle. Il utilise R pour traiter les différentes analyses de données.

Stat-R
la source
1

Rexer Anlaytics réalise chaque année une enquête sur la boîte à outils. KDnuggets a des descriptions de logiciels par secteur ainsi que par intention.

Dimitriy V. Masterov
la source
0

L'exploration de données SQL Server (SSDM) n'a pas été mise à jour depuis longtemps, mais elle reste très compétitive si vous extrayez de grandes bases de données relationnelles et des cubes. Je progresse lentement mais systématiquement à travers les tests du plus grand nombre d'outils d'exploration possible et l'interface Windows de SQL Server est la plus productive et la plus stable que j'ai trouvée à ce jour (en particulier en ce qui concerne les bases de données d'entreprise, dont certaines ont étonnamment interfaces bâclées) malgré son âge. Je préfère une interface Windows Presentation Foundation (WPF) moderne, mais c'est la meilleure chose à faire.

J'ai écrit toute une série de tutoriels amateurs détaillés à ce sujet, intitulé Un escalier Rickety vers l'exploration de données SQL Server , à l'époque où j'essayais d'acquérir des compétences de base en matière d'exploration de données. Malgré mon inexpérience, ils sont toujours utiles pour aider à identifier certains des "pièges" à l'avance.

SQLServerSteve
la source