J'ai calculé un modèle de régression linéaire simple à partir de mes mesures expérimentales afin de faire des prédictions. J'ai lu que vous ne devriez pas calculer les prévisions pour les points qui s'écartent trop des données disponibles. Cependant, je n'ai trouvé aucune indication pour m'aider à savoir jusqu'où je peux extrapoler. Par exemple, si je calcule la vitesse de lecture pour une taille de disque de 50 Go, je suppose que le résultat sera proche de la réalité. Qu'en est-il d'une taille de disque de 100 Go, 500 Go? Comment savoir si mes prévisions sont proches de la réalité?
Les détails de mon expérience sont:
Je mesure la vitesse de lecture d'un logiciel en utilisant une taille de disque différente. Jusqu'à présent, je l'ai mesuré avec 5 Go à 30 Go en augmentant la taille du disque de 5 Go entre les expériences (6 mesures au total).
Mes résultats sont linéaires et les erreurs standard sont faibles, à mon avis.
la source
Réponses:
Le terme que vous recherchez est «extrapolation». Le problème est que peu importe la quantité de données dont vous disposez et le nombre de niveaux intermédiaires que vous avez entre vos points de terminaison sur la taille du disque (c'est-à-dire entre 5 et 30), il est toujours possible qu'il y ait un certain degré de courbure dans la véritable fonction sous-jacente , que vous n'avez tout simplement pas le pouvoir de détecter. Par conséquent, lorsque vous extrapolez loin du point final, ce qui était un petit degré de courbure est agrandi, en ce sens que la vraie fonction s'éloigne de plus en plus de votre ligne d'ajustement. Une autre possibilité est que la véritable fonction est vraiment parfaitement droite dans la plage examinée, mais qu'il y a peut-être un point de changement à une certaine distance du point final de votre étude. Ce genre de choses est impossible à exclure; La question est, quelle est leur probabilité et quelle serait l'inexactitude de vos prévisions si elles s'avéraient réelles? Je ne sais pas comment fournir une réponse analytique à ces questions. Mon intuition est que 500 est terriblement loin quand la gamme étudiée était [5, 30], mais il n'y a aucune raison réelle de penser que mes intuitions valent plus que les vôtres. Les formules standard pour calculer les intervalles de prédiction vous montreront un intervalle en expansion lorsque vous vous éloignerez deX¯ , voir à quoi ressemble cet intervalle pourrait être utile. Néanmoins, vous devez garder à l'esprit que vous faites une supposition théorique que la ligne est vraiment parfaitement droite et reste telle jusqu'à la valeur vous utiliserez pour la prédiction. La légitimité de cette prédiction dépend à la fois des données et de l'ajustement et de cette hypothèse. X
la source
Permettez-moi d'ajouter quelques points à l'excellente réponse de @ gung:
Selon votre domaine, il peut y avoir des normes pertinentes (comme dans DIN / EN ou ISO). Ce n'est probablement pas un problème avec la prévision de la vitesse de lecture du disque dur, mais par exemple en chimie analytique, la règle n'est pas d'extrapolation . Période. Si vous voulez aller jusqu'à 500 Go, faites des mesures jusqu'à 500 Go.
La façon habituelle de mettre en place un modèle linéaire a deux hypothèses importantes
De toute évidence, que la fonction est linéaire. En pratique, ce n'est généralement pas une très bonne hypothèse que la linéarité s'étend à l'infini. Par exemple, pouvez-vous vous attendre à trouver encore la linéarité si vous lisez des quantités plus importantes que le volume du disque dur?
Habituellement, on suppose également l'homoscédasticité. Cela signifie que la quantité absolue d'erreur / bruit ne dépend pas de la variable dépendante ( ), ici: la quantité de données à lire. Je ne suis pas sûr des lectures du disque dur, mais j'expérimente (chimie / chimiométrie) généralement quelque chose entre un bruit absolu constant et un bruit relatif constant (ou un comportement plus compliqué en raison de différentes sources de bruit). Tout écart par rapport au régime absolu constant de bruit signifie que les intervalles de prédiction pour l'extrapolation sont grossièrement erronés - ils sont généralement beaucoup trop étroits.X
Même si ces hypothèses sont remplies, considérez la taille réelle de l'intervalle de prédiction pour ce type d'extrapolation:
(J'ai pris de vraies données d'étalonnage d'une très belle mesure que j'ai eue et je l'ai adaptée à votre problème).X t
Notez que l'intervalle de prédiction à = 500 est déjà deux fois plus grande que la différence totale vos portées de données d'étalonnage! Si vous ne disposez pas d'un ensemble de données linéaires extrêmement agréable, l'intervalle de prédiction "explosera" simplement.
la source