Récemment, un client est venu me voir pour faire une analyse bootstrap parce qu'un examinateur de la FDA a dit que la régression des erreurs dans les variables n'était pas valide car lors de la mise en commun des données des sites, l'analyse inclut la mise en commun des données de trois sites où deux sites comprenaient des échantillons qui étaient le même.
CONTEXTE
Le client disposait d'une nouvelle méthode de dosage qu'il voulait montrer équivalente à une méthode approuvée existante. Leur approche consistait à comparer les résultats des deux méthodes appliquées aux mêmes échantillons. Trois sites ont été utilisés pour effectuer les tests. Des erreurs dans les variables (régression de Deming) ont été appliquées aux données de chaque site. L'idée est que si la régression montrait que le paramètre de pente était proche de 1 et l'ordonnée à l'origine près de 0, cela montrerait que les deux techniques de dosage donnaient presque les mêmes résultats et donc la nouvelle méthode devrait être approuvée. Au site 1, ils avaient 45 échantillons, ce qui leur a valu 45 observations par paires. Le site 2 comptait 40 échantillons et le site 3, 43 échantillons. Ils ont effectué trois régressions de Deming distinctes (en supposant un rapport de 1 pour les erreurs de mesure pour les deux méthodes). L'algorithme a donc minimisé la somme des distances perpendiculaires au carré.
Dans sa soumission, le client a souligné que certains des échantillons utilisés aux sites 1 et 2 étaient les mêmes. Dans l'examen, le réviseur de la FDA a déclaré que la régression de Deming n'était pas valide car des échantillons communs ont été utilisés, ce qui provoque une «interférence» qui invalide les hypothèses du modèle. Ils ont demandé qu'un ajustement bootstrap soit appliqué aux résultats de Deming pour tenir compte de cette interférence.
À ce moment-là, puisque le client ne savait pas comment faire le bootstrap, j'ai été amené. Le terme interférence était étrange et je ne savais pas exactement à quoi le critique voulait en venir. J'ai supposé que le fait était que, parce que les données regroupées avaient des échantillons communs, il y aurait une corrélation pour les échantillons communs et, par conséquent, les termes d'erreur du modèle ne seraient pas tous indépendants.
L'ANALYSE DU CLIENT
Les trois régressions distinctes étaient très similaires. Chacun avait des paramètres de pente proches de 1 et des intersections près de 0. L'intervalle de confiance à 95% contenait respectivement 1 et 0 pour la pente et l'ordonnée à l'origine. La principale différence était une variance résiduelle légèrement plus élevée au site 3. De plus, ils ont comparé cela aux résultats de l'OLS et les ont trouvés très similaires (dans un seul cas, l'intervalle de confiance pour la pente basée sur l'OLS ne contenait pas 1). Dans le cas où l'IC OLS pour la pente ne contenait pas 1, la limite supérieure de l'intervalle était quelque chose comme 0,99.
Les résultats étant si similaires sur les trois sites, la mise en commun des données du site semblait raisonnable. Le client a effectué une régression de Deming groupée qui a également conduit à des résultats similaires. Compte tenu de ces résultats, j'ai rédigé un rapport pour le client contestant l'affirmation selon laquelle les régressions n'étaient pas valides. Mon argument est que, comme il y a des erreurs de mesure similaires dans les deux variables, le client a eu raison d'utiliser la régression de Deming comme moyen de montrer son accord / désaccord. Les régressions de sites individuels n'ont eu aucun problème d'erreurs corrélées car aucun échantillon n'a été répété dans un site donné. Mise en commun des données pour obtenir des intervalles de confiance plus serrés.
Cette difficulté pourrait être corrigée en regroupant simplement les données avec les échantillons communs du site 1, disons exclus. Les trois modèles de sites individuels n'ont pas non plus le problème et sont valides. Cela me semble fournir une preuve solide d'accord même sans la mise en commun. De plus, les mesures ont été prises indépendamment aux sites 1 et 2 pour les sites communs. Je pense donc que même l'analyse groupée utilisant toutes les données est valide parce que les erreurs de mesure pour un échantillon sur le site 1 ne sont pas corrélées avec les erreurs de mesure dans l'échantillon correspondant sur le site 2. Cela revient vraiment à répéter un point dans la conception espace qui ne devrait pas être un problème. Il ne crée pas de corrélation / "interférence".
Dans mon rapport, j'ai écrit qu'une analyse bootstrap n'était pas nécessaire car il n'y a pas de corrélation à ajuster. Les trois modèles de site étaient valides (aucune «interférence» possible au sein des sites) et une analyse groupée pourrait être effectuée en supprimant les échantillons communs au site 1 lors de la mise en commun. Une telle analyse groupée ne pouvait pas poser de problème d'interférence. Un ajustement bootstrap ne serait pas nécessaire car il n'y a pas de biais à ajuster.
CONCLUSION
Le client était d'accord avec mon analyse mais avait peur de la porter à la FDA. Ils veulent quand même que je fasse le réglage du bootstrap.
MES QUESTIONS
A) Êtes-vous d'accord avec (1) mon analyse des résultats du client et (2) mon argument selon lequel le bootstrap n'est pas nécessaire.
B) Étant donné que je dois amorcer la régression de Deming, y a-t-il des procédures SAS ou R qui me sont disponibles pour effectuer la régression de Deming sur les échantillons de bootstrap?
EDIT: Compte tenu de la suggestion de Bill Huber, je prévois d'examiner les limites de la régression des erreurs dans les variables par régression à la fois y sur x et x sur y. Nous savons déjà que pour une version d'OLS, la réponse est essentiellement la même que les erreurs dans les variables lorsque les deux variances d'erreur sont supposées égales. Si cela est vrai pour l'autre régression, je pense que cela montrera que la régression de Deming donne une solution appropriée. Êtes-vous d'accord?
Afin de répondre à la demande du client, je dois faire l'analyse de bootstrap demandée qui a été vaguement définie. D'un point de vue éthique, je pense qu'il serait erroné de simplement fournir le bootstrap car cela ne résout pas vraiment le vrai problème du client, qui est de justifier sa procédure de mesure de dosage. Je vais donc leur donner à la fois des analyses et demander au moins qu'ils disent à la FDA qu'en plus de faire le bootstrap, j'ai fait une régression inverse et j'ai délimité les régressions de Deming qui, je pense, sont plus appropriées. Je pense également que l'analyse montrera que leur méthode est équivalente à la référence et que la régression de Deming est donc également adéquate.
J'ai l'intention d'utiliser le programme R que @whuber a suggéré dans sa réponse pour me permettre d'amorcer la régression de Deming. Je ne connais pas très bien R mais je pense que je peux le faire. J'ai installé R avec R Studio. Est-ce que ce sera assez facile pour un novice comme moi?
J'ai également SAS et je suis plus à l'aise dans la programmation en SAS. Donc, si quelqu'un connaît un moyen de le faire dans SAS, j'apprécierais de le savoir.
la source
Réponses:
Il s'agit d'un problème d'étalonnage mutuel: c'est-à-dire de comparer quantitativement deux appareils de mesure indépendants.
Il semble y avoir deux problèmes principaux. La première (qui n'est qu'implicite dans la question) est de formuler le problème: comment déterminer si une nouvelle méthode est "équivalente" à une méthode approuvée? La seconde concerne la façon d'analyser les données dans lesquelles certains échantillons peuvent avoir été mesurés plus d'une fois.
Cadrer la question
La meilleure solution (et peut-être évidente) au problème posé est d'évaluer la nouvelle méthode en utilisant des échantillons avec des valeurs connues avec précision obtenues à partir de milieux comparables (tels que le plasma humain). (Cela se fait généralement en enrichissant les échantillons réels avec des matériaux standard de concentration connue.) Parce que cela n'a pas été fait, supposons que ce n'est pas possible ou ne serait pas acceptable pour les régulateurs (pour une raison quelconque). Ainsi, nous en sommes réduits à comparer deux méthodes de mesure, dont l'une est utilisée comme référence car elle est réputée précise et reproductible (mais sans précision parfaite).
En effet, le client demandera à la FDA d'autoriser la nouvelle méthode comme proxy ou substitut de la méthode approuvée. À ce titre, leur fardeau est de démontrer que les résultats de la nouvelle méthode prédiront, avec une précision suffisante, ce que la méthode approuvée aurait déterminé si elle avait été appliquée. L'aspect subtil de ceci est que nous n'essayons pas de prédire les vraies valeurs elles-mêmes - nous ne les connaissons même pas. Ainsi, la régression des erreurs dans les variables n'est peut-être pas le moyen le plus approprié pour analyser ces données.
Traitement des échantillons en double
Les concepts pertinents ici sont des exemples de support et des composantes de variance. "Exemple de support" fait référence à la partie physique d'un sujet (un être humain ici) qui est réellement mesurée. Une fois qu'une partie du sujet a été prise, elle doit généralement être divisée en sous-échantillons adaptés au processus de mesure. Nous pourrions être préoccupés par la possibilité de variation entre les sous-échantillons. Dans un échantillon liquide qui est bien mélangé, il n'y a essentiellement aucune variation de la quantité sous-jacente (telle qu'une concentration d'un produit chimique) dans l'échantillon, mais dans les échantillons de solides ou semi-solides (qui pourraient inclure du sang), une telle variation peut être substantiel. Étant donné que les laboratoires n'ont souvent besoin que de microlitres de solution pour effectuer une mesure, nous devons nous préoccuper de la variation presque à l'échelle microscopique. Cela pourrait être important.
La possibilité d'une telle variation à l' intérieurun échantillon physique indique que la variation des résultats de mesure devrait être divisée en «composantes de variance» distinctes. L'une des composantes est la variance par rapport à la variation intra-échantillon, et d'autres sont des contributions à la variance de chaque étape indépendante du processus de mesure suivant. (Ces étapes peuvent comprendre l'acte physique de sous-échantillonnage, le traitement chimique et physique supplémentaire de l'échantillon - comme l'ajout de stabilisants ou la centrifugation -, l'injection de l'échantillon dans l'instrument de mesure, les variations à l'intérieur de l'instrument, les variations entre les instruments et d'autres variations dues à des changements dans le fonctionnement de l'instrument, à une éventuelle contamination ambiante dans les laboratoires, etc. J'espère que cela montre clairement que pour faire un très bon travail de réponse à cette question, le statisticien a besoin d'une compréhension approfondie de l'ensemble du processus d'échantillonnage et d'analyse. Tout ce que je peux faire, c'est donner des conseils généraux.)
Ces considérations s'appliquent à la question posée car un "échantillon" mesuré sur deux "sites" différents est en réalité deux échantillons physiques obtenus de la même personne et ensuite répartis entre les laboratoires. La mesure par la méthode approuvée utilisera un morceau d'un échantillon divisé et la mesure simultanée par la nouvelle méthode utilisera un autre morceau de l'échantillon divisé. En considérant les composantes de la variance que ces divisions impliquent, nous pouvons régler le problème principal de la question. Il devrait maintenant être clair que les différences entre ces mesures appariées doivent être attribuées à deux choses: premièrement, les différences réelles entre les procédures de mesure - c'est ce que nous essayons d'évaluer - et deuxièmement, les différences dues à toute variation au sein del'échantillon ainsi que les variations provoquées par les processus physiques d'extraction des deux sous-échantillons à mesurer. Si un raisonnement physique sur l'homogénéité de l'échantillon et le processus de sous-échantillonnage peut établir que la deuxième forme de variance est négligeable, alors il n'y a en effet pas d '"interférence" comme le prétend l'examinateur. Sinon, ces composantes de la variance pourraient devoir être explicitement modélisées et estimées dans l'analyse de régression inverse.
la source