Peut-on prouver que l'exécution d'un GPU à des températures élevées est mauvaise pour la carte?

11

Si vous utilisez continuellement votre carte graphique entre 80 ° C et 90 ° C (176 ° F et 194 ° F), est-ce réellement mauvais pour la carte graphique? Est-ce que cela réduit la durée de vie de la carte? Cela peut-il être prouvé? Ou s'agit-il simplement d'hypothèses?

Je comprends que la fermeture de sécurité des GPU est normalement de 90 ° C (194 ° F).

Daniel
la source
L '«arrêt de sécurité» dépend beaucoup de l'endroit où la température est mesurée et du processus et de la température maximale avec lesquels le circuit a été conçu. Je me souviens d'un certain temps, une certaine génération de processeurs Intel avait une température nominale maximale de 110 ° C, ce qui inquiétait certains passionnés de matériel parce qu'ils pensaient que les puces se détruiraient. Spoiler: Ils ne l'ont pas fait.
Joren Vaes
1
Je pense que cette question est fortement liée à cette autre question ic-product-life-as-function-of-junction-temperature . La conclusion de cette question est que chaque 15 ° C au-dessus de la température ambiante réduit de moitié l'espérance de vie d'un CI. Donc, faire fonctionner une carte graphique à 90 ° C par rapport à 80 ° C réduira sa durée de vie de ~ 37% (donc si l'espérance de vie est de 8 ans à 80 ° C, elle est de ~ 5 ans à 90 ° C à la place)
Harry Svensson
1
La loi d'Arhennius est plus proche d'une augmentation de 50% du MTBF / 10'C, mais d'autres facteurs doivent être pris en compte pour les diélectriques où ils commencent avec un MTBF beaucoup plus faible, comme 1000 h @ 85h ou 105h, donc je soupçonne qu'ils utilisent des plafonds de 105'C ou meilleur.
Tony Stewart Sunnyskyguy EE75

Réponses:

21

Étudions les mécanismes de défaillance et voyons comment ils sont affectés par la chaleur. Il est très important de se rappeler que, simplement parce qu'un mécanisme de défaillance se produit plus rapidement avec la température, le GPU n'échouera pas nécessairement plus rapidement! Si un sous-composant qui dure 100 ans à température ambiante ne dure que 20 ans s'il est chaud, mais un autre sous-composant ne dure que 1 an pour commencer (mais n'est pas affecté par la chaleur), la durée de vie de votre produit ne changera guère avec Température.

J'ignorerai la question du cyclisme évoquée par Siméon car ce n'est pas mon expertise.

Au niveau de la carte, je peux penser à un composant principal qui «rompra» avec la tête: les condensateurs électrolytiques. Ces condensateurs sèchent et il est bien entendu qu'ils sèchent plus rapidement lorsque la chaleur est appliquée. (Les condensateurs au tantale ont également tendance à avoir une durée de vie plus courte, mais je ne sais pas comment cela change avec la chaleur).

Mais qu'en est-il du silicium?

Ici, si je comprends bien, il y a quelques choses qui peuvent provoquer un échec. L'un des principaux ici est l'électromigration. Dans un circuit, les électrons traversant des morceaux de métal se déplaceront réellement physiquement autour des atomes. Cela peut devenir si grave que cela entraînera des lacunes dans les conducteurs, ce qui peut ensuite entraîner une défaillance.

Cette image donne une bonne illustration (de Tatiana Kozlova, Henny W. Zandbergen; observation TEM in situ de l'électromigration dans les nanobridges Ni):

entrez la description de l'image ici

Ce processus augmente de façon exponentielle avec la température, et donc en effet, la puce durera moins longtemps si la température est plus élevée et l'électromigration est la principale cause de défaillance.

Le mécanisme de l'anthère est la décomposition de l'oxyde, où à l'intérieur du circuit, les transistors subiront une perforation de grille. Cela dépend également de la température. Cependant, la tension a un impact beaucoup plus important ici.

Il existe également un décalage VT, dû à la dérive des dopants ou à l'injection de porteurs chauds. La dérive des dopants augmente avec la température (mais il est peu probable que cela pose problème, en particulier avec les circuits numériques, car il s'agit d'un processus très lent). Je ne suis pas sûr de la dépendance à la température de l'injection de porteurs chauds, mais je pense encore une fois que la tension est un facteur beaucoup plus important ici.

Mais il y a ensuite une question importante: dans quelle mesure cela réduit-il la durée de vie? Sachant cela, devez-vous vous assurer que votre carte graphique reste toujours fraîche? Je suppose que non, sauf si une erreur a été commise au stade de la conception. Les circuits sont conçus en tenant compte de ces situations les plus défavorables, et fabriqués de telle sorte qu'ils survivent s'ils sont poussés aux limites de la durée de vie nominale du fabricant. Dans le cas des circuits d'overclocking des personnes: l'augmentation de la tension qu'ils utilisent souvent pour maintenir le circuit stable (car cela peut accélérer un peu les circuits) fera beaucoup plus de mal que la température elle-même. De plus, cette augmentation de tension entraînera une augmentation du courant, ce qui accélérera considérablement les problèmes d'électromigration.

Joren Vaes
la source
2
Ce sont des images fantastiques, je me suis toujours demandé à quoi ressemblerait physiquement l'électromigration.
Cursorkeys
9

Oui, il est prouvé que la chaleur dégrade les composants électriques. Les métaux se dilatent lorsqu'ils chauffent, la soudure (utilisée pour les connexions de circuits électriques) est un alliage métallique, donc elle se dilate lorsqu'elle est chauffée. Un chauffage et un refroidissement constants provoquent une expansion et une contraction constantes des joints, ce qui peut entraîner des fissures et éventuellement une défaillance du joint.

                                                      Graphique du taux d'échec en fonction de la température

Le graphique ci - dessus montre comment la loi d'Arrhenius donne une corrélation entre une augmentation de la chaleur et une défaillance des semi-conducteurs. Cet article détaille les effets de la chaleur sur les composants électroniques. Il traite plus des choses au niveau des électrons, ce qui est un peu en dehors de mes connaissances

Simeon R
la source
1
Je peux croire que le cyclisme est mauvais, en raison comme vous le dites de l'expansion et de la contraction, mais y a-t-il un problème avec le fonctionnement à une charge élevée, et donc une température élevée tout le temps?
Colin
Je suis concepteur de circuits intégrés, donc je connais peu les modes de défaillance au niveau de la carte, mais pendant tout mon temps à réparer des choses (comme passe-temps), je n'ai pas encore rencontré d'échec en raison du cycle d'expansion, donc je dois me demander quelle est l'importance il est comparé à d'autres mécanismes.
Joren Vaes
1
@Colin rien de tel que "une charge élevée tout le temps"; à moins que vous n'explosiez par exemple le bitcoin sur votre GPU, il y aura des secondes où il y aura plus de charge que les autres. Le refroidissement devant être assez puissant sur les GPU, cela conduit déjà aux problèmes mentionnés. Voir: XBox ring of death.
Marcus Müller
@ MarcusMüller il y en a absolument. Et peu importe que la charge ne soit pas absolument constante. Pour le cyclisme, la température delta est importante. Une carte qui fonctionne 99% du temps à 95-100% de charge (c.-à-d. Calcul) dans les températures prévues, serait beaucoup moins sensible aux dommages cycliques hypothétiques, que la même carte oscillant entre 0% et 100% sauvagement 50% de l'if (c'est-à-dire les jeux).
Dan M.
6

La relation entre l'augmentation de la température de jonction d'un semi-conducteur et la réduction de son MTBF (Mean Time Between Failure) est bien comprise.

Cette note technique de Micron en parle

En pratique, le taux de défaillance augmentera de façon exponentielle une fois que la température de jonction approche et dépasse ~ 125 ° C, donc si vous opérez bien en dessous de cette température, de petits incréments peuvent ne pas être aussi critiques.

joribama
la source