Je désactive temporairement la protection de la mémoire ECC sur un NVIDIA K20m (périphérique 0 dans mon nœud) et maintenant je ne peux plus le remettre au travail. Avant cela, il fonctionnait correctement avec ECC activé. Alors, voici ce que j'ai fait: j'ai désactivé ECC avec
nvidia-smi -i 0 --ecc-config=0
et redémarré. Quand il est apparu, il montrait une utilisation du GPU à 100% et il ne démarrerait aucun noyau (il a en fait déjà échoué lors de la création du contexte). La raison en était une erreur double bit. Je le réinitialise avec
nvidia-smi -i 0 --reset-ecc-errors=0
et redémarré le nœud. Après le redémarrage, l'utilisation de l'appareil était de 0% et je pouvais commencer les travaux comme d'habitude. Quelques heures plus tard, l'appareil montrait à nouveau une utilisation à 100% du GPU. Cette fois, il n'a pas signalé d'erreur double bit (pas même une erreur simple bit). Cependant, comme je n'ai pu exécuter aucun travail, j'ai redémarré le nœud et il est arrivé avec une utilisation de GPU à 100%, je ne peux pas l'utiliser, mais ne signale aucune erreur de bit. Quel est le problème?
GPU 0000:02:00.0
Product Name : Tesla K20m
Display Mode : Disabled
Persistence Mode : Enabled
Driver Model
Current : N/A
Pending : N/A
Serial Number : 0324512044699
GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
VBIOS Version : 80.10.11.00.0B
Inforom Version
Image Version : 2081.0208.01.07
OEM Object : 1.1
ECC Object : 3.0
Power Management Object : N/A
GPU Operation Mode
Current : Compute
Pending : Compute
PCI
Bus : 0x02
Device : 0x00
Domain : 0x0000
Device Id : 0x102810DE
Bus Id : 0000:02:00.0
Sub System Id : 0x101510DE
GPU Link Info
PCIe Generation
Max : 2
Current : 2
Link Width
Max : 16x
Current : 16x
Fan Speed : N/A
Performance State : P0
Clocks Throttle Reasons
Idle : Not Active
User Defined Clocks : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
Unknown : Not Active
Memory Usage
Total : 4799 MB
Used : 12 MB
Free : 4787 MB
Compute Mode : Default
Utilization
Gpu : 100 %
Memory : 0 %
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Temperature
Gpu : 30 C
Power Readings
Power Management : Supported
Power Draw : 49.51 W
Power Limit : 225.00 W
Default Power Limit : 225.00 W
Min Power Limit : 150.00 W
Max Power Limit : 225.00 W
Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Applications Clocks
Graphics : 705 MHz
Memory : 2600 MHz
Max Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Compute Processes : None
la source
Réponses:
Mon GPU est-il en train de mourir?
Je dis qu'il est déjà mort. Il ne signale plus les erreurs de bits car vous avez désactivé la chose qui les détecte. (ECC détecte plus qu'il ne peut corriger.) Cependant, c'est peut-être la mémoire de la carte (ou la carte physique elle-même) qui a développé un défaut.
Il y a deux autres suspects avant de le jeter dans la corbeille "recyclage": le refroidissement et l'alimentation. Le refroidissement est assez facile à vérifier; le pouvoir, pas tellement.
la source