Utiliser un modèle de régression pour faire des prédictions: quand s'arrêter?

9

J'ai calculé un modèle de régression linéaire simple à partir de mes mesures expérimentales afin de faire des prédictions. J'ai lu que vous ne devriez pas calculer les prévisions pour les points qui s'écartent trop des données disponibles. Cependant, je n'ai trouvé aucune indication pour m'aider à savoir jusqu'où je peux extrapoler. Par exemple, si je calcule la vitesse de lecture pour une taille de disque de 50 Go, je suppose que le résultat sera proche de la réalité. Qu'en est-il d'une taille de disque de 100 Go, 500 Go? Comment savoir si mes prévisions sont proches de la réalité?

Les détails de mon expérience sont:

Je mesure la vitesse de lecture d'un logiciel en utilisant une taille de disque différente. Jusqu'à présent, je l'ai mesuré avec 5 Go à 30 Go en augmentant la taille du disque de 5 Go entre les expériences (6 mesures au total).

Mes résultats sont linéaires et les erreurs standard sont faibles, à mon avis.

Flanfl
la source
2
Je pense que pour obtenir des réponses utiles, vous devrez développer et clarifier considérablement votre 2ème phrase.
rolando2
rolando2 a raison. Que voulez-vous dire par «trop de prédictions»?
David Robinson
Je ne trouve pas les termes exacts qui ont été utilisés dans le document que j'ai lu. L'idée est "trop ​​éloignée de mes mesures d'origine". J'ai donc mesuré la vitesse de lecture avec un disque de 30 Go. Si je prédis la vitesse de lecture d'un disque de 100 Go, est-ce "trop ​​loin"?
Flanfl
La réponse de Gung est suffisante pour décrire les problèmes impliqués. une autre chose qui peut vous aider dans votre cas spécifique est de considérer le processus physique impliqué dans la lecture d'un logiciel. Quels types d'opérations doivent être effectuées? le logiciel doit-il organiser ou trier le disque dans le cadre du processus de lecture? ces questions aideront à jeter les bases de l'hypothèse de linéarité
probabiliste

Réponses:

19

Le terme que vous recherchez est «extrapolation». Le problème est que peu importe la quantité de données dont vous disposez et le nombre de niveaux intermédiaires que vous avez entre vos points de terminaison sur la taille du disque (c'est-à-dire entre 5 et 30), il est toujours possible qu'il y ait un certain degré de courbure dans la véritable fonction sous-jacente , que vous n'avez tout simplement pas le pouvoir de détecter. Par conséquent, lorsque vous extrapolez loin du point final, ce qui était un petit degré de courbure est agrandi, en ce sens que la vraie fonction s'éloigne de plus en plus de votre ligne d'ajustement. Une autre possibilité est que la véritable fonction est vraiment parfaitement droite dans la plage examinée, mais qu'il y a peut-être un point de changement à une certaine distance du point final de votre étude. Ce genre de choses est impossible à exclure; La question est, quelle est leur probabilité et quelle serait l'inexactitude de vos prévisions si elles s'avéraient réelles? Je ne sais pas comment fournir une réponse analytique à ces questions. Mon intuition est que 500 est terriblement loin quand la gamme étudiée était [5, 30], mais il n'y a aucune raison réelle de penser que mes intuitions valent plus que les vôtres. Les formules standard pour calculer les intervalles de prédiction vous montreront un intervalle en expansion lorsque vous vous éloignerez deX¯ , voir à quoi ressemble cet intervalle pourrait être utile. Néanmoins, vous devez garder à l'esprit que vous faites une supposition théorique que la ligne est vraiment parfaitement droite et reste telle jusqu'à la valeur vous utiliserez pour la prédiction. La légitimité de cette prédiction dépend à la fois des données et de l'ajustement et de cette hypothèse. X

gung - Réintégrer Monica
la source
2
Tout à fait d'accord (+1). La réponse à cette question ne peut être strictement statistique. Parler à un ingénieur logiciel et informatique serait pertinent ici!
Dominic Comtois
Merci pour la réponse, c'est vraiment utile. Je suis autodidacte donc je manque pas mal de connaissances de base (comme connaître le vocabulaire).
Flanfl
L'inverse de la largeur de l'intervalle de confiance ne pourrait-il pas être considéré comme une sorte d'indicateur de «force» de prédiction? De toute évidence, vous devez choisir des valeurs arbitraires pour l'utiliser.
naught101
2
@ naught101, si vous êtes prêt à supposer que la droite de régression est parfaitement droite, la largeur de l'intervalle de prédiction peut être considérée comme une mesure de la force de la prédiction (w / des intervalles plus larges indiquant des prédictions plus faibles), mais c'est toujours dépend de cette hypothèse.
gung - Rétablir Monica
7

Permettez-moi d'ajouter quelques points à l'excellente réponse de @ gung:

  • Selon votre domaine, il peut y avoir des normes pertinentes (comme dans DIN / EN ou ISO). Ce n'est probablement pas un problème avec la prévision de la vitesse de lecture du disque dur, mais par exemple en chimie analytique, la règle n'est pas d'extrapolation . Période. Si vous voulez aller jusqu'à 500 Go, faites des mesures jusqu'à 500 Go.

  • La façon habituelle de mettre en place un modèle linéaire a deux hypothèses importantes

    • De toute évidence, que la fonction est linéaire. En pratique, ce n'est généralement pas une très bonne hypothèse que la linéarité s'étend à l'infini. Par exemple, pouvez-vous vous attendre à trouver encore la linéarité si vous lisez des quantités plus importantes que le volume du disque dur?

    • Habituellement, on suppose également l'homoscédasticité. Cela signifie que la quantité absolue d'erreur / bruit ne dépend pas de la variable dépendante ( ), ici: la quantité de données à lire. Je ne suis pas sûr des lectures du disque dur, mais j'expérimente (chimie / chimiométrie) généralement quelque chose entre un bruit absolu constant et un bruit relatif constant (ou un comportement plus compliqué en raison de différentes sources de bruit). Tout écart par rapport au régime absolu constant de bruit signifie que les intervalles de prédiction pour l'extrapolation sont grossièrement erronés - ils sont généralement beaucoup trop étroits.X

  • Même si ces hypothèses sont remplies, considérez la taille réelle de l'intervalle de prédiction pour ce type d'extrapolation:

    gamme d'étalonnage lm extrapolation lm

    (J'ai pris de vraies données d'étalonnage d'une très belle mesure que j'ai eue et je l'ai adaptée à votre problème).
    Notez que l'intervalle de prédiction à = 500 est déjà deux fois plus grande que la différence totale vos portées de données d'étalonnage! Si vous ne disposez pas d'un ensemble de données linéaires extrêmement agréable, l'intervalle de prédiction "explosera" simplement.Xt

cbeleites mécontents de SX
la source
1
+1, l'hypothèse d'homoscédasticité en particulier est un bon ajout à la discussion ici. (Petite note, par "Dot.", Voulez-vous dire Période. Comme un moyen de souligner la finalité de la règle énoncée dans la phrase précédente?)
gung - Rétablir Monica
@gung: Si période est le mot, c'est ce que je veux dire :-) merci.
cbeleites mécontents de SX le
2
L'appel d'un point "point" n'est vraiment utilisé que dans la terminologie informatique et en particulier pour les URL (par exemple, "stats dot stackexchange dot com"). Il s'agit d'un usage assez nouveau en anglais, probablement âgé d'environ 20 ans.
gung - Reinstate Monica
1
Merci pour vos points supplémentaires. J'ai terminé mon travail il y a quelque temps mais j'espère que les deux réponses à cette question aideront les autres étudiants!
Flanfl