Science des données

12
Aide concernant NER en NLTK

Je travaille en NLTK depuis un certain temps en utilisant Python. Le problème auquel je suis confronté est qu'il n'y a aucune aide disponible sur la formation NER en NLTK avec mes données personnalisées. Ils ont utilisé MaxEnt et l'ont formé sur le corpus ACE. J'ai beaucoup cherché sur le Web, mais...

12
Qu'est-ce qu'un «ancien nom» de data scientist?

Des termes comme «science des données» et «scientifique des données» sont de plus en plus utilisés de nos jours. De nombreuses entreprises recrutent des «data scientist». Mais je ne pense pas que ce soit un tout nouveau travail. Les données ont existé dans le passé et quelqu'un a dû gérer les...

12
Tarifs des compagnies aériennes - Quelle analyse doit-on utiliser pour détecter les comportements concurrentiels de fixation des prix et les corrélations de prix?

Je veux étudier le comportement de fixation des prix des compagnies aériennes - en particulier la façon dont les compagnies aériennes réagissent aux prix des concurrents. Comme je dirais que mes connaissances sur l'analyse plus complexe sont assez limitées, j'ai principalement utilisé toutes les...

12
MinHashing vs SimHashing

Supposons que j'ai cinq ensembles que j'aimerais regrouper. Je comprends que la technique SimHashing décrite ici: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ pourrait produire trois grappes ( {A}, {B,C,D}et {E}), par exemple, si ses résultats étaient: A -> h01 B...

12
À combien de dimensions réduire lors de la réalisation de l'ACP?

Comment choisir K pour PCA? K est le nombre de dimensions à projeter. La seule exigence est de ne pas perdre trop d'informations. Je comprends que cela dépend des données, mais je cherche plus un aperçu général simple sur les caractéristiques à considérer lors du choix de...

12
Comment fusionner deux trames de données dans Python Pandas?

J'ai deux trames de données df1 et df2 et je voudrais les fusionner en une seule trame de données. C'est comme si df1 et df2 avaient été créés en divisant verticalement un seul bloc de données au centre, comme déchirer un morceau de papier qui contient une liste en deux de sorte que la moitié des...

12
Importez le contenu du fichier csv dans des cadres de données pyspark

Comment importer un fichier .csv dans des cadres de données pyspark? J'ai même essayé de lire le fichier csv dans Pandas, puis de le convertir en un cadre de données spark à l'aide de createDataFrame, mais il affiche toujours une erreur. Quelqu'un peut-il me guider à travers cela? Aussi, dites-moi...