Comparaison des coefficients de régression d'un même modèle dans différents ensembles de données

12

J'évalue deux (2) réfrigérants (gaz) qui ont été utilisés dans le même système de réfrigération. J'ai des données de température d'aspiration saturée ( ), de température de condensation ( ) et d'ampérage ( ) pour l'évaluation. Il y a deux (2) ensembles de données; 1er réfrigérant ( ) et 2e réfrigérant ( ). J'utilise un modèle polynomial de troisième ordre linéaire et multivarié ( & ) pour les analyses de régression. Je voudrais déterminer combien d'ampérage de moins / plus (ou, une mesure similaire comme comparaison de performances) en moyenne, en pourcentage, est consommée par le deuxième réfrigérant.D Y R 1 R 2 S DSDYR1R2SD

Ma première pensée a été:

  1. Déterminez le modèle à utiliser:Oui=b0+b1S+b2+b3S+b4S2+b52+b6S2+bsept2S+b83+b9S3
  2. coefficients ( ) à partir des données de référence ( ).R 1bjeR1
  3. À l'aide de ces coefficients, pour chaque & dans l' données , calculez chaque tirage d'ampères attendu ( ) puis la moyenne.D R 2SR2Oui^
  4. Comparez la moyenne avec le tirage moyen réel ( ) des données . Y2R2Oui^Oui2R2
  5. changement en pourcentage (%)=(Oui2-Oui^)/Oui^

Cependant, comme le 2e réfrigérant a des propriétés thermiques légèrement différentes et de petits changements ont été apportés au système de réfrigération (réglages TXV et surchauffe), je ne pense pas que cette `` méthode de comparaison de base '' soit exacte.

Ma prochaine pensée était de faire deux (2) analyses de régression distinctes:

Oui1=une0+une1S1+une21+une3S11+une4S12+une512+une6S121+unesept12S1+une813+une9S13Oui2=b0+b1S2+b22+b3S22+b4S22+b522+b6S222+bsept22S2+b823+b9S23

puis, pour la température d'aspiration saturée ( ), comparer les coefficients ( vs ) comme suit: a 1 b 1 % de variation = b 1 - a 1Sune1b1

% changement=b1-une1une1

Cependant, encore une fois, ces coefficients doivent être pondérés différemment. Par conséquent, les résultats seraient biaisés.

Je pense que je pourrais utiliser un test z pour déterminer la pondération différente des coefficients, mais je ne suis pas sûr de bien comprendre la signification de la sortie: . Mais cela ne me donnerait toujours pas de mesure de performance, ce qui est l'objectif global.z=(une1-b1)/SEune12+SEb12)

gth826a
la source
1
1. Un modèle polynomial est un modèle linéaire, car il est linéaire dans le coefficient. 2. J'essaie de comprendre votre question. Si le système de réfrigération a été modifié entre le moment où R1 et R2 ont été utilisés, alors ce n'est vraiment pas le «même système de réfrigération» (ligne 1), n'est-ce pas? 3. Pourquoi dans votre deuxième approche, vous avez commencé à comparer les coefficients de S? 4. Avez-vous envisagé d'introduire une covariable de «réfrigérants» avec les niveaux R1 et R2 dans l'ajustement polynomial (peut-être avec interaction)? Son coefficient pourrait répondre à la question.
qoheleth
@qoheleth 1. Je ne suis pas sûr de suivre votre façon de penser ... Le coefficient est toujours linéaire - c'est un nombre. Quand le coefficient ne serait-il pas alors linéaire? 2. Correct, le système de réfrigération a été légèrement modifié, mais uniquement pour garantir la même température de sortie pour les deux fluides frigorigènes - "pommes à pommes". 3. «S» est la seule variable d'intérêt pour cette comparaison spécifique. 4. J'ai lu des informations sur la méthode des variables covariantes / interactives, mais je n'arrive pas à comprendre la signification des coefficients en utilisant une telle méthode. Pouvez-vous élaborer sur l'interprétation de la sortie? Je vous remercie.
gth826a
1. du point de vue statistique, c'est la linéarité des éléments que vous estimez qui compte, donc un modèle polynomial est linéaire. Un exemple d'un modèle non linéaire serait la fonction de mitscherlich y = alpha (1-exp (beta-lambda * X)), où alpha / beta / lambda sont ce que nous estimons. 3. Qu'essayez-vous réellement de tester? est-ce le coefficient de S? ou Y? Si c'est S, pourquoi votre première tentative est-elle une comparaison dans \ hat {Y}?
qoheleth
Y-hat serait: le S & D réel du 2e ensemble de données utilisé avec les coefficients dérivés du 1er ensemble de données. Cette méthode est courante pour les analyses d'énergie `` Performance Contracting '' lorsque l'on compare la consommation d'énergie d'un équipement précédent à la consommation d'énergie après une rénovation / rénovation / rénovation / etc. L'équation serait la suivante: consommation d'énergie = y-hat = charge de base + énergie / degré-jour * degrés-jours ... où énergie / degré-jour est le coeff dérivé de l'analyse de régression de base et les degrés-jours proviennent de la post-rénovation . Le "
qu'auriez-
1
Il semble donc que finalement vous vouliez comparer Y. Je dirais oublier de calculer le% de variation des coefficients, en présence de termes d'ordre supérieur (S ^ 2, S ^ 3 etc.), les coefficients ne sont pas ce que vous pensez elles sont. Concentrez-vous sur Y. La question qui ne me paraît pas claire est la suivante: dites-vous que le S & D dans R2 signifie des choses différentes pour le S & D dans R1? Sinon, vous pouvez simplement ajuster un modèle à l'ensemble de données combiné, avec une covariable supplémentaire (variable X) appelée réfrigérant (r1 ou r2), et regarder son coefficient pour faire l'inférence, en supposant que votre modèle est adéquat.
qoheleth

Réponses:

2

D'après la loi du gaz idéal ici , , suggérant un modèle proportionnel. Assurez-vous que vos unités sont en température absolue. Demander un résultat proportionnel impliquerait un modèle d'erreur proportionnel. Considérons, peut-être , puis pour une régression linéaire multiple, on peut utiliser en prenant les logarithmes des valeurs Y, D et S, de sorte que cela ressemble alors à , où les indices signifient "logarithme de". Maintenant, cela peut mieux fonctionner que le modèle linéaire que vous utilisez et les réponses sont alors de type d'erreur relative.PV=nRTOui=unebScln(Oui)=ln(une)+bln()+cln(S)Ouil=unel+bl+cSll

Pour vérifier le type de modèle à utiliser, essayez-en un et vérifiez si les résidus sont homoscédastiques. Si ce n'est pas le cas, vous avez un modèle biaisé , alors faites quelque chose d'autre comme modéliser les logarithmes, comme ci-dessus, une ou plusieurs inverses de données x ou y, racines carrées, quadrature, exponentiation et ainsi de suite jusqu'à ce que les résidus soient homoscédastiques. Si le modèle ne peut pas produire de résidus homoscédastiques, utilisez plusieurs régressions linéaires de Theil, avec censure si nécessaire.

La répartition normale des données sur l'axe des y n'est pas requise, mais les valeurs aberrantes peuvent fausser les résultats des paramètres de régression de manière marquée et le font souvent. Si l'homoscédasticité ne peut pas être trouvée, les moindres carrés ordinaires ne doivent pas être utilisés et un autre type de régression doit être effectué, par exemple la régression pondérée, la régression de Theil, les moindres carrés en x, la régression de Deming, etc. De plus, les erreurs ne doivent pas être corrélées en série.

Signification de la sortie: , peut ou non être pertinent. Cela suppose que la variance totale est la somme de deux variances indépendantes. Autrement dit, l'indépendance est l'orthogonalité (perpendicularité) sur un tracé . C'est-à-dire que la variabilité totale (variance) suit alors le théorème de Pythagore, , ce qui peut ou non être le cas pour vos données. Si tel est le cas, alors la statistique est une distance relative, c'est-à-dire une différence de moyennes (une distance), divisée par Pythagore, vecteur AKA, addition de l'erreur standard (SE), qui sont des écarts-types (SD) divisés par x,yH=+z=(une1-b1)/SEune12+SEb12)X,y zH=+UNE2+O2zN, où les SE sont eux-mêmes des distances. La division d'une distance par l'autre les normalise ensuite, c'est-à-dire la différence de moyennes divisée par l'erreur totale (standard), qui est alors sous une forme permettant d'appliquer ND (0,1) pour trouver une probabilité.

σ T ρ A , BC2=UNE2+B2-2UNEBcos(θ),θ=(UNE,B)σTρUNE,BσT2=σUNE2+σB2-2σUNEσBρUNE,B

Carl
la source
"Pour vérifier quel type de modèle utiliser, essayez-en un et vérifiez si les résidus sont homoscédastiques", oui bien sûr ... sauf que vous ne faites pas du tout cette hypothèse, et même si elle est valide - cela ne garantit en aucune façon que vous avez un "bon" modèle.
Repmat
Si l'on utilise OLS et que les résidus sont hétéroscédastiques, alors à coup sûr on a un modèle biaisé. L'homoscédasticité est une exigence OLS, illustrée ici . Pour avoir un bon modèle, il faut d'autres conditions, comme éviter le biais de variable omis , mais avoir des erreurs série non corrélées , et la linéarité du modèle par rapport à la variable dépendante.
Carl
Vous pouvez avoir un modèle non biaisé et / ou cohérent (estimations) où les résidus sont hétéroscédlastiques. Cela impliquerait seulement que les procédures d'inférence habituelles ne fonctionnent pas
Repmat
L'hétéroscédasticité aplatit la pente, même si une valeur aberrante corrige cela, la pénalité serait de grands intervalles de confiance et un modèle moche. N'utiliserait pas un tel modèle, mais, oui, on peut faire des modèles moche. La littérature médicale en regorge.
Carl
La première partie de votre commentaire est tout simplement fausse. Je ne sais même pas ce que cela signifie.
Repmat