Je travaille sur pas mal de modélisation statistique, comme les modèles de Markov cachés et les modèles de mélanges gaussiens. Je vois que la formation de bons modèles dans chacun de ces cas nécessite une grande quantité (> 20000 phrases pour les HMM) de données qui sont extraites...