Comment mesurer la dispersion des données de fréquence des mots?

Comment puis-je quantifier la quantité de dispersion dans un vecteur de décompte de mots? Je recherche une statistique qui sera élevée pour le document A, car elle contient de nombreux mots différents qui se produisent rarement, et faible pour le document B, car elle contient un mot (ou quelques...