Existe-t-il un concept de «suffisamment» de données pour la formation de modèles statistiques?

10

Je travaille sur pas mal de modélisation statistique, comme les modèles de Markov cachés et les modèles de mélanges gaussiens. Je vois que la formation de bons modèles dans chacun de ces cas nécessite une grande quantité (> 20000 phrases pour les HMM) de données qui sont extraites d'environnements similaires comme utilisation finale. Ma question est:

  1. Existe-t-il un concept de «suffisamment» de données de formation dans la littérature? Combien de données d'entraînement sont "assez bonnes"?
  2. Comment puis-je calculer le nombre de phrases nécessaires pour que les «bons» (qui donnent une bonne précision de reconnaissance (> 80%)) soient formés?
  3. Comment savoir si un modèle a été correctement formé? Les coefficients du modèle commenceront-ils à présenter des fluctuations aléatoires? Si oui, comment distinguer les fluctuations aléatoires et les changements réels dus à la mise à jour du modèle?

N'hésitez pas à redéfinir cette question au cas où elle aurait besoin de plus de balises.

Sriram
la source

Réponses:

10

Vous pouvez découper votre ensemble de données en sous-ensembles consécutifs avec 10%, 20%, 30%, ..., 100% de vos données et pour chaque sous-ensemble estimer la variance de la précision de votre estimateur en utilisant la validation croisée k ou le bootstrap. Si vous avez "suffisamment" de données, le traçage des variances devrait afficher une ligne monotone décroissante qui devrait atteindre un plateau avant 100%: l'ajout de données ne diminue pas de manière significative la variance de la précision de l'estimateur.

ogrisel
la source
Je vais devoir essayer ça. Ça semble intéressant. Merci!
Sriram