Comment trouver des valeurs non données dans (interpoler dans) des tableaux statistiques?

19

Souvent, les gens utilisent des programmes pour obtenir des valeurs de p, mais parfois - pour une raison quelconque - il peut être nécessaire d'obtenir une valeur critique à partir d'un ensemble de tables.

Étant donné un tableau statistique avec un nombre limité de niveaux de signification et un nombre limité de degrés de liberté, comment puis-je obtenir des valeurs critiques approximatives à d'autres niveaux de signification ou degrés de liberté (comme avec les tableaux , khi carré ou ) ?tF

Autrement dit, comment puis-je trouver les valeurs "entre" les valeurs dans une table?

Glen_b -Reinstate Monica
la source

Réponses:

26

Cette réponse est en deux parties principales: d'une part, en utilisant une interpolation linéaire , et d'autre part, en utilisant des transformations pour une interpolation plus précise. Les approches discutées ici conviennent au calcul manuel lorsque vous disposez de tables limitées, mais si vous implémentez une routine informatique pour produire des valeurs de p, il existe de bien meilleures approches (si elles sont fastidieuses lorsqu'elles sont effectuées à la main) qui devraient être utilisées à la place.

Si vous saviez que la valeur critique de 10% (une queue) pour un test z était de 1,28 et la valeur critique de 20% était de 0,84, une estimation approximative de la valeur critique de 15% serait à mi-chemin entre - (1,28 + 0,84) / 2 = 1,06 (la valeur réelle est 1,0364), et la valeur de 12,5% pourrait être devinée à mi-chemin entre cela et la valeur de 10% (1,28 + 1,06) / 2 = 1,17 (valeur réelle 1,15+). C'est exactement ce que fait l'interpolation linéaire - mais au lieu de «à mi-chemin entre», il examine n'importe quelle fraction du chemin entre deux valeurs.

Interpolation linéaire univariée

Regardons le cas de l'interpolation linéaire simple.

Nous avons donc une fonction (disons ) que nous pensons être approximativement linéaire près de la valeur que nous essayons d'approximer, et nous avons une valeur de la fonction de chaque côté de la valeur que nous voulons, par exemple, comme ceci:X

Xy89.316y162015,6

Les deux valeurs dont est nous le savons sont 12 (20-8) à part. Voyez comment la valeur (celle pour laquelle nous voulons une valeur approximative ) divise cette différence de 12 dans le rapport 8: 4 (16-8 et 20-16)? Autrement dit, c'est 2/3 de la distance entre la première valeur et la dernière. Si la relation était linéaire, la plage correspondante de valeurs y serait dans le même rapport.y x y xXyXyX

interpolation linéaire

Donc devrait être à peu près la même chose que . 16-8y16-9.315,6-9.316-820-8

C'est-à-direy16-9.315,6-9.316-820-8

réarrangement:

y169.3+(15,6-9.3)16-820-8=13,5

Un exemple avec des tableaux statistiques: si nous avons un t-table avec les valeurs critiques suivantes pour 12 df:

(2-queue)αt0,013.050,022,680,052.180,101,78

Nous voulons la valeur critique de t avec 12 df et un alpha bilatéral de 0,025. Autrement dit, nous interpolons entre la ligne 0,02 et la ligne 0,05 de ce tableau:

αt0,022,680,025?0,052.18

La valeur à " " Est la valeur que nous souhaitons utiliser une interpolation linéaire pour approximer. (Par je veux dire en fait le point de l'inverse cdf d'unt 0,025 t 0,025 1 - 0,025 / 2 t 12?t0,025t0,0251-0,025/2t12 distribution .)

Comme précédemment, divise l'intervalle de à dans le rapport à (c.-à-d. ) et la valeur inconnue devrait diviser la plage de à dans le même rapport; de manière équivalente, se produit ème du chemin le long de la plage , donc la valeur inconnue doit se produire ème du chemin le long de la plage .0,02 0,05 ( 0,025 - 0,02 ) ( 0,05 - 0,025 ) 1 : 5 t t 2,68 2,18 0,025 ( 0,025 - 0,02 ) / ( 0,05 - 0,02 ) = 1 / 6 x t 1 / 6 t0,0250,020,05(0,025-0,02)(0,05-0,025)1:5tt2,682.180,025(0,025-0,02)/(0,05-0,02)=1/6Xt1/6t

C'est-à-dire ou équivalentt0,025-2,682.18-2,680,025-0,020,05-0,02

t0.0252.68+(2.182.68)0.0250.020.050.02=2.680.5162.60

La réponse réelle est ... ce qui n'est pas particulièrement proche car la fonction que nous approchons n'est pas très proche de linéaire dans cette plage (plus proche elle l'est).α = 0,52.56α=0.5

interpolation linéaire de la valeur critique dans les tables t

Meilleures approximations via la transformation

Nous pouvons remplacer l'interpolation linéaire par d'autres formes fonctionnelles; en effet, nous nous transformons à une échelle où l'interpolation linéaire fonctionne mieux. Dans ce cas, dans la queue, de nombreuses valeurs critiques tabulées sont plus presque linéaires le du niveau de signification. Après avoir pris s, nous appliquons simplement l'interpolation linéaire comme précédemment. Essayons cela sur l'exemple ci-dessus:journalloglog

αlog(α)t0.023.9122.680.0253.689t0.0250.052.9962.18

Maintenant

t0.0252.682.182.68log(0.025)log(0.02)log(0.05)log(0.02)=3.6893.9122.9963.912

ou équivalent

t0.0252.68+(2.182.68)3.6893.9122.9963.912=2.680.50.2432.56

Ce qui correspond au nombre de chiffres cité. En effet, lorsque nous transformons l'échelle x de manière logarithmique, la relation est presque linéaire:

interpolation linéaire en log alpha
En effet, visuellement la courbe (grise) se situe nettement au dessus de la ligne droite (bleue).

Dans certains cas, le logit du niveau de signification ( ) peut bien fonctionner sur une plage plus large mais n'est généralement pas nécessaire (nous ne nous soucions généralement des valeurs critiques précises que lorsque est suffisamment petit pour que fonctionne assez bien).logit(α)=Journal(α1-α)=Journal(11-α-1)αJournal

Interpolation entre différents degrés de liberté

t tables , khi-carré et ont également des degrés de liberté, où toutes les valeurs df ( -) ne sont pas tabulées. Les valeurs critiques, pour la plupart ne sont pas représentées avec précision par interpolation linéaire dans le df. En effet, il est souvent plus proche du cas que les valeurs tabulées soient linéaires dans l'inverse de df, .Fν1/ν

(Dans les anciens tableaux, vous voyez souvent une recommandation de travailler avec - la constante sur le numérateur ne fait aucune différence, mais était plus pratique dans les jours de pré-calculatrice car 120 a beaucoup de facteurs, donc est souvent un entier, ce qui rend le calcul un peu plus simple.)120/ν120/ν

Voici comment l'interpolation inverse fonctionne sur 5% des valeurs critiques de entre et . Autrement dit, seuls les points finaux participent à l'interpolation dans . Par exemple, pour calculer la valeur critique de , nous prenons (et notons qu'ici représente l'inverse du cdf):F4,νν=601201/νν=80F

F4,80,.95F4,60,.95+1/80-1/601/120-1/60(F4,120,.95-F4,60,.95)

interp inverse en df

(Comparez avec le schéma ici )


Surtout mais pas toujours. Voici un exemple où l'interpolation linéaire en df est meilleure, et une explication de la façon de dire à partir du tableau que l'interpolation linéaire va être précise.

Voici un morceau d'une table chi carré

            Probability less than the critical value
 df           0.90      0.95     0.975      0.99     0.999
______   __________________________________________________

 40         51.805    55.758    59.342    63.691    73.402
 50         63.167    67.505    71.420    76.154    86.661
 60         74.397    79.082    83.298    88.379    99.607
 70         85.527    90.531    95.023   100.425   112.317

Imaginez que nous souhaitons trouver la valeur critique de 5% (95e centiles) pour 57 degrés de liberté.

En regardant de près, nous voyons que les valeurs critiques de 5% dans le tableau progressent presque linéairement ici:

entrez la description de l'image ici

(la ligne verte rejoint les valeurs pour 50 et 60 df; vous pouvez voir qu'elle touche les points pour 40 et 70)

L'interpolation linéaire fera donc très bien l'affaire. Mais bien sûr, nous n'avons pas le temps de dessiner le graphique; comment décider quand utiliser l'interpolation linéaire et quand essayer quelque chose de plus compliqué?

En plus des valeurs de chaque côté de celle que nous recherchons, prenez la prochaine valeur la plus proche (70 dans ce cas). Si la valeur tabulée du milieu (celle pour df = 60) est proche de linéaire entre les valeurs finales (50 et 70), alors une interpolation linéaire conviendra. Dans ce cas, les valeurs sont espacées, c'est donc particulièrement facile: proche de ?(X50,0,95+X70,0,95)/2X60,0,95

Nous constatons que , ce qui, par rapport à la valeur réelle pour 60 df, 79,082, peut être précis à près de trois chiffres complets, ce qui est généralement assez bon pour l'interpolation, donc dans ce cas, vous vous en tiendriez à une interpolation linéaire; avec le pas plus fin pour la valeur dont nous avons besoin, nous nous attendrions maintenant à avoir une précision de 3 chiffres.(67,505+90,531)/2=79.018

Nous obtenons donc: ouX-67,50579,082-67,50557-5060-50

X67,505+(79,082-67,505)57-5060-5075,61 .

La valeur réelle est 75,62375, donc nous avons en effet obtenu 3 chiffres de précision et nous n'étions sortis que de 1 sur le quatrième chiffre.

Une interpolation plus précise peut encore être obtenue en utilisant des méthodes de différences finies (en particulier, via des différences divisées), mais cela est probablement exagéré pour la plupart des problèmes de test d'hypothèse.

Si vos degrés de liberté dépassent les extrémités de votre table, cette question traite de ce problème.

Glen_b -Reinstate Monica
la source