J'ai quelques données qui sont ajustées le long d'une ligne à peu près linéaire:
Lorsque je fais une régression linéaire de ces valeurs, j'obtiens une équation linéaire:
Dans un monde idéal, l'équation devrait être .
De toute évidence, mes valeurs linéaires sont proches de cet idéal, mais pas exactement. Ma question est, comment puis-je déterminer si ce résultat est statistiquement significatif?
La valeur de 0,997 est-elle significativement différente de 1? -0,01 est-il significativement différent de 0? Ou sont-ils statistiquement les mêmes et je peux conclure que avec un certain niveau de confiance raisonnable?
Qu'est-ce qu'un bon test statistique que je peux utiliser?
Merci
Réponses:
Ce type de situation peut être géré par un test F standard pour les modèles imbriqués . Puisque vous souhaitez tester les deux paramètres par rapport à un modèle nul avec des paramètres fixes, vos hypothèses sont les suivantes:
Le test F implique l'ajustement des deux modèles et la comparaison de leur somme des carrés résiduels, qui sont:
La statistique de test est:
La valeur p correspondante est:
Implémentation dans R: Supposons que vos données se trouvent dans une trame de données appelée
DATA
avec des variables appeléesy
etx
. Le test F peut être effectué manuellement avec le code suivant. Dans les données simulées simulées que j'ai utilisées, vous pouvez voir que les coefficients estimés sont proches de ceux de l'hypothèse nulle, et la valeur de p du test ne montre aucune preuve significative pour falsifier l'hypothèse nulle que la véritable fonction de régression est la fonction d'identité.La
summary
sortie etplot
pour ces données ressemblent à ceci:la source
sd = 2/sqrt(1+abs(x))
Voici une méthode graphique sympa que j'ai extraite de l'excellent livre de Julian Faraway "Modèles linéaires avec R (deuxième édition)". Il s'agit d'intervalles de confiance simultanés à 95% pour l'interception et la pente, tracés sous forme d'ellipse.
Pour illustration, j'ai créé 500 observations avec une variable "x" ayant une distribution N (moyenne = 10, sd = 5) puis une variable "y" dont la distribution est N (moyenne = x, sd = 2). Cela donne une corrélation d'un peu plus de 0,9 qui peut ne pas être aussi serrée que vos données.
Vous pouvez vérifier l'ellipse pour voir si le point (interception = 0, pente = 1) se situe à l'intérieur ou à l'extérieur de cet intervalle de confiance simultané.
Créé le 2019-01-21 par le package reprex (v0.2.1)
la source
Vous pouvez calculer les coefficients avec n échantillons bootstrapés. Il en résultera probablement des valeurs de coefficient réparties normales (théorème de limite centrale). Avec cela, vous pourriez alors construire un intervalle de confiance (par exemple 95%) avec des valeurs t (n-1 degrés de liberté) autour de la moyenne. Si votre CI n'inclut pas 1 (0), il est différent statistiquement significatif, ou plus précis: vous pouvez rejeter l'hypothèse nulle d'une pente égale.
la source
Vous pouvez effectuer un test d'hypothèse simple, à savoir un test t. Pour l'interception, votre hypothèse nulle estβ0= 0 (notez qu'il s'agit du test de signification), et pour la pente que vous avez sous H0 β1= 1 .
la source
Vous devez ajuster une régression linéaire et vérifier les intervalles de confiance à 95% pour les deux paramètres. Si le CI de la pente comprend 1 et le CI du décalage comprend 0, le test bilatéral est insignifiant env. au niveau (95%) ^ 2 - comme nous utilisons deux tests distincts, le risque de type I augmente.
Utilisation de R:
ou vous utilisez
et calculez vous-même les 2 intervalles sigma.
la source