Mon GPU est-il en train de mourir?

14

Je désactive temporairement la protection de la mémoire ECC sur un NVIDIA K20m (périphérique 0 dans mon nœud) et maintenant je ne peux plus le remettre au travail. Avant cela, il fonctionnait correctement avec ECC activé. Alors, voici ce que j'ai fait: j'ai désactivé ECC avec

nvidia-smi -i 0 --ecc-config=0

et redémarré. Quand il est apparu, il montrait une utilisation du GPU à 100% et il ne démarrerait aucun noyau (il a en fait déjà échoué lors de la création du contexte). La raison en était une erreur double bit. Je le réinitialise avec

nvidia-smi -i 0 --reset-ecc-errors=0

et redémarré le nœud. Après le redémarrage, l'utilisation de l'appareil était de 0% et je pouvais commencer les travaux comme d'habitude. Quelques heures plus tard, l'appareil montrait à nouveau une utilisation à 100% du GPU. Cette fois, il n'a pas signalé d'erreur double bit (pas même une erreur simple bit). Cependant, comme je n'ai pu exécuter aucun travail, j'ai redémarré le nœud et il est arrivé avec une utilisation de GPU à 100%, je ne peux pas l'utiliser, mais ne signale aucune erreur de bit. Quel est le problème?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None
ritter
la source
2
semble étrange; jamais repéré quelque chose comme ça. Même si cela ne résout pas le problème, essayez de réinstaller vos pilotes, peut-être?
Ben Franchuk
Je suppose que vous avez déjà essayé l'évidence de simplement supprimer et réinstaller tout? Je veux dire, euh, je connais peu de choses sur le matériel, donc mon approche est toujours de m'assurer absolument que le logiciel - ce que je comprends - devrait fonctionner. Et puis je déclarerai la pièce cassée jusqu'à ce qu'elle soit contredite par une opinion plus avisée.
Ariane
Je l'ai regardé, et j'ai passé un peu de temps à rechercher ce problème et ses causes. Il semble que la meilleure solution soit de remplacer le matériel.
Adovi
1
Avez-vous déjà essayé de réinitialiser le CMOS?
Sergei

Réponses:

2

Mon GPU est-il en train de mourir?

Je dis qu'il est déjà mort. Il ne signale plus les erreurs de bits car vous avez désactivé la chose qui les détecte. (ECC détecte plus qu'il ne peut corriger.) Cependant, c'est peut-être la mémoire de la carte (ou la carte physique elle-même) qui a développé un défaut.

Il y a deux autres suspects avant de le jeter dans la corbeille "recyclage": le refroidissement et l'alimentation. Le refroidissement est assez facile à vérifier; le pouvoir, pas tellement.

Ricky Beam
la source