Il n'y a pas de meilleur nombre de casiers pour estimer les informations mutuelles (MI) avec des histogrammes. Le meilleur moyen est de le choisir par validation croisée si vous le pouvez, ou de vous fier à une règle empirique. C'est la raison pour laquelle de nombreux autres estimateurs de l'IM qui ne sont pas basés sur des histogrammes ont été proposés.
Le nombre de cases dépendra du nombre total de points de données . Vous devez essayer d'éviter trop de casiers pour éviter les erreurs d'estimation de la distribution conjointe entre les deux variables. Vous devez également éviter trop peu de casiers pour pouvoir capturer la relation entre les deux variables. Étant donné que cela génère un histogramme 2D avec des bacs de largeur égale pour les deux et je choisirais personnellement:
Dans ce cas, en moyenne pour deux variables aléatoires uniformément réparties, vous aurez au moins points pour chaque cellule de l'histogramme:
nnp.histogram2d(x, y, D)
D
x
y
D = ⌊ n / 5---√⌋
5nréXréOui≥ 5 ⇒ nré2≥ 5 ⇒ D2≤ n / 5 ⇒ D = ⌊ n / 5---√⌋
Il s'agit d'un choix possible qui simule l'approche de partitionnement adaptatif proposée dans
(Cellucci, 2005) . Cette dernière approche est souvent utilisée pour estimer l'IM pour déduire des réseaux génétiques: par exemple dans
MIDER .
Si vous avez beaucoup de points de données et aucune valeur manquante, vous ne devriez pas trop vous soucier de trouver le meilleur nombre de casiers; par exemple, si . Si ce n'est pas le cas, vous pourriez envisager de corriger l'IM pour les échantillons finis. (Steuer et al., 2002) discute d'une correction pour l'IM pour la tâche d'inférence du réseau génétique.nn = 100 , 000
L'estimation du nombre de cases pour un histogramme est un vieux problème. Vous pourriez être intéressé par cette conférence de Lauritz Dieckman sur l'estimation du nombre de bacs pour l'IM. Cet exposé est basé sur un chapitre du livre de Mike X Cohen sur les séries chronologiques neuronales.
Vous pouvez choisir et indépendamment et utiliser la règle empirique utilisée pour estimer le nombre de casiers dans les histogrammes 1D.réXréOui
Règle de Freedman-Diaconis (pas d'hypothèse sur la distribution):
où est la différence entre le 75-quantile et le 25-quantile. Regardez cette question connexe dans SE .
réX= ⌈ max X- min X2 ⋅ IQR ⋅ n- 1 / 3⌉
IQR
Règle de Scott (hypothèse de normalité):
où est l'écart type pour .
réX= ⌈ max X- min X3,5 ⋅ sX⋅ n- 1 / 3⌉
sXX
Règle de Sturges (peut sous-estimer le nombre de bacs mais bon pour les grands ):
n
réX= ⌈ 1 + log2n ⌉
Il est difficile d'estimer correctement l'IM avec des histogrammes. Vous pouvez alors choisir un estimateur différent:
- L' estimateur NN de Kraskov , qui est un peu moins sensible au choix des paramètres: ou voisins les plus proches est souvent utilisé par défaut. Papier: (Kraskov, 2003)kk = 4k = 6
- Estimation de l'IM avec des noyaux (Moon, 1995) .
Il existe de nombreux packages pour estimer l'IM:
- Boîte à outils d'estimation d'entropie non paramétrique pour Python. site .
- Boîte à outils de dynamique de l'information en Java mais également disponible pour Python. site .
- Boîte à outils ITE dans Matlab. site .