J'ai essayé d'établir l'inégalité
où est la moyenne de l'échantillon et l'écart-type de l'échantillon, c'est-à-dire .
Il est facile de voir que et ainsi mais ce n'est pas très proche de ce que je cherchais, ce n'est pas non plus une limite utile. J'ai expérimenté les inégalités de Cauchy-Schwarz et du triangle mais je suis allé nulle part. Il doit y avoir une étape subtile qui me manque quelque part. J'apprécierais de l'aide, merci.
Après avoir simplifié le problème au moyen de procédures de routine, il peut être résolu en le convertissant en un programme de minimisation double qui a une réponse bien connue avec une preuve élémentaire. Cette dualisation est peut-être «l'étape subtile» mentionnée dans la question. L'inégalité peut également être établie de manière purement mécanique en maximisant|Ti| via les multiplicateurs de Lagrange.
Mais d'abord, je propose une solution plus élégante basée sur la géométrie des moindres carrés. Il ne nécessite aucune simplification préalable et est presque immédiat, fournissant une intuition directe dans le résultat. Comme suggéré dans la question, le problème se réduit à l'inégalité de Cauchy-Schwarz.
Solution géométrique
Considérons comme un vecteur à n dimensions dans l'espace euclidien avec le produit scalaire habituel. Soit y = ( 0 , 0 , … , 0 , 1 , 0 , … , 0 ) le i ème vecteur de base et 1 = ( 1 , 1 , … , 1 ) . Écrirex=(X1,X2,…,Xn) n y=(0,0,…,0,1,0,…,0) ith 1=(1,1,…,1) etx^ pour les projections orthogonales dexetydans le complément orthogonal de1. (Dansterminologie statistique, ce sont les résidus enqui concerne les moyens.) Alors, puisqueXi- ˉ X = x ⋅yetS=| | x | | /√y^ x y 1 Xi−X¯=x^⋅y ,S= | | X^| | / n - 1-----√
est la composante de y dans la x direction. Par de Cauchy-Schwarz, il est maximisée exactement quandy^ X^ est parallèle à Y =(-1,-1,...,-1,n-1,-1,-1,...,-1)/n, pour lesquelsTi=±√X^ y^= ( - 1 , - 1 , … , - 1 , n - 1 , - 1 , - 1 , … , - 1 ) / n QED.
Soit dit en passant, cette solution fournit une caractérisation exhaustive de tous les cas où est maximisé: ils sont tous de la forme|Ti|
pour tout réel , σ .μ , σ
Cette analyse se généralise facilement au cas où est remplacé par n'importe quel ensemble de régresseurs. Évidemment, le maximum de T i est proportionnel à la longueur du résidu de y , | | y | | .{ 1 } Tje y | | y^| |
Simplification
Parce que est invariant sous les changements de localisation et d'échelle, nous pouvons supposer sans perte de généralité que la somme de X i à zéro et leurs carrés à n - 1 . Cela identifie | T i | avecTje Xje n - 1 | Tje| , puisque S (le carré moyen) vaut 1 . La maximiser équivaut à la maximiser | T i | 2 = T 2 i = X 2 i . Aucune généralité n'est perdue en prenant| Xje| S 1 | Tje|2= T2je= X2je , soit, puisque les X i sont échangeables.i = 1 Xje
Solution via une double formulation
Un double problème consiste à fixer la valeur de et à se demander quelles valeurs des X j , j ≠ 1 restantes sont nécessaires pour minimiser la somme des carrés ∑ n j = 1 X 2 j étant donné que ∑ n j = 1X21 Xj, j ≠ 1 ∑nj = 1X2j . Parce que X 1 est donné, c'est le problème de minimiser ∑ n j = 2 X 2 j étant donné que ∑ n∑nj = 1Xj= 0 X1 ∑nj = 2X2j .∑nj = 2Xj= - X1
La solution se trouve facilement à bien des égards. L'un des plus élémentaires est d'écrire
pour laquelle . Élargir la fonction objectif et utiliser cette identité somme-à-zéro pour la simplifier produit∑nj = 2εj= 0
montrant immédiatement la solution unique est pour tout j . Pour cette solution,εj= 0 j
et
QED .
Solution via les machines
Revenons au programme simplifié avec lequel nous avons commencé:
sujet à
La méthode des multiplicateurs de Lagrange (qui est presque purement mécanique et simple) équivaut à une combinaison linéaire non triviale des gradients de ces trois fonctions à zéro:
Composante par composante, ces équations sontn
Les derniers - 1 d'entre eux impliquent soit X 2 = X 3 = ⋯ = X n = - λ 2 / ( 2 λ 3 ) ou λ 2 = λ 3 =n−1 X2=X3=⋯=Xn=−λ2/(2λ3) . (Nous pouvons exclure ce dernier cas car alors la première équation implique λ 1 = 0 , banalisant la combinaison linéaire.) La contrainte de somme à zéro produit X 1 = - ( n - 1λ2=λ3=0 λ1=0 . La contrainte de somme des carrés fournit les deux solutionsX1=−(n−1)X2
Ils cèdent tous les deux
la source
L'inégalité, comme indiqué, est vraie. Il est assez clair intuitivement que nous obtenons le cas le plus difficile pour l'inégalité (c'est-à-dire en maximisant le côté gauche pour donné ) en choisissant une valeur, disonsS2 aussi grande que possible tout en ayant toutes les autres égales. Voyons un exemple avec une telle configuration:X1
maintenant | x i - ˉ x |
ÉDITER
Nous allons maintenant prouver la réclamation, comme indiqué ci-dessus. Premièrement, pour tout vecteur donné dans ce problème, nous pouvons le remplacer par x - ˉ x sans changer l'un ou l'autre côté de l'inégalité ci-dessus. Donc, dans ce qui suit, supposons que ˉ x = 0 . On peut aussi en réétiquetant supposer que x 1 est le plus grand. Ensuite, en choisissant d'abord x 1 > 0 puis x 2x = ( x1, x2, … , Xn) x - x¯ X¯= 0 X1 X1> 0 X2= x3= ⋯ = xn= - x1n - 1 nous pouvons vérifier par algèbre simple que nous avons l'égalité dans l'inégalité revendiquée. Donc, c'est net.
Définissez ensuite la région (convexe) par R = { x ∈ R : ˉ x = 0 , ∑ ( x i - ˉ x ) 2 / ( n - 1 ) ≤ S 2 } pour une constante positive donnée S 2 . Notez que R est l'intersection d'un hyperplan avec une sphère centrée à l'origine, tout comme une sphère dans ( n - 1R
la source