Nvidia K20X vs GeForce Titan pour l'accélération GPGPU

10

Im essayant de comprendre la différence entre ces deux cartes graphiques pour l'informatique académique, en particulier pour le composant DGEMM.

Si nous regardons les statistiques brutes, les deux ont la même puce GK110, ont des statistiques comparables dans pratiquement toutes les catégories et, je crois, ont la même architecture de base. Avant toute remise, le K20X coûte environ 4x le coût d'un Titan. Du point de vue de l'efficacité, il semble très logique d'utiliser Titan plutôt que K20X.

J'ai du mal à comprendre la différence ici, quelqu'un peut-il éclairer la situation?

En tant que note, je cherche à acheter ces cartes pour un serveur rack et à fonctionner à pleine inclinaison essentiellement jusqu'à leur mort; cependant, je ne considère pas que l'efficacité de l'utilisation de plusieurs GPU pour un seul travail soit particulièrement primordiale.

Ophion
la source

Réponses:

13

Il existe quelques différences, mais elles ne concernent pas nécessairement le matériel ou les spécifications. Notez que ce sont toutes les informations que j'ai obtenues des forums ou des communiqués de presse, alors prenez tout cela avec un grain de sel.

Le premier est «l'évolutivité et la fiabilité» ( source ). Le K20 a été conçu pour s'asseoir dans un système de cluster et fonctionner à pleine inclinaison 24/7. Le Titan est plus conçu pour les jeux, il fonctionnera donc à ce cycle de service, mais il peut souffrir de problèmes de durée de vie à long terme s'il est utilisé de cette façon.

Les pilotes sont également différents, mais je ne suis pas sûr des différences majeures. La différence d'orientation de la conception des cartes entraîne probablement des gains de performances relativement faibles pour les cartes Tesla sur ce front.

"Certaines fonctionnalités exclusives de Tesla incluent:

  • NVIDIA GPUDirect RDMA pour les performances InfiniBand
  • Hyper-Q pour MPI (Hyper-Q pour CUDA Streams est pris en charge sur GeForce GTX TITAN)
  • Protection ECC pour tous les registres et mémoires internes et externes
  • Outils pris en charge pour la gestion des GPU et des clusters, tels que Bright Computing, Ganglia. "( Source )

Cela montre que la principale différence est leur évolutivité. Si vous cherchez à exécuter sur un ordinateur de bureau dans votre bureau, il serait difficile de contester un Titan au-dessus du K20 pour la différence de prix. Si vous avez besoin des performances supplémentaires de plusieurs K20, trouvez-vous un centre HPC et gagnez du temps avec leurs serveurs.

Éditer:

Après avoir regardé un peu plus dans ECC, je mets à jour cette réponse pour souligner les implications de l'avoir sur le K20 et non sur le Titan. Les informations suivantes sont une paraphrase d'informations trouvées ici .

ECC vérifie les erreurs sur la DRAM et enregistre le GPU. Les erreurs logicielles surviennent lorsqu'un bit est mal transféré / stocké. Plus les circuits sont rapides et rapprochés, plus la probabilité d'une erreur douce est élevée. Si vous résolvez un ensemble d'ODE couplés ou résolvez un système linéaire, un seul nombre étant décalé d'un bit pourrait changer considérablement les résultats d'une manière non reproductible. La plupart des RAM standard et des caches dans le CPU sont vérifiés pour ces erreurs en utilisant ECC.

Les GPU, d'autre part, n'ont pas, en général, d'ECC même si leur bus mémoire est beaucoup plus rapide que ceux du CPU. En effet, si un pixel à l'écran est légèrement décalé d'une image, la qualité du programme n'est pas diminuée. Ces erreurs ne se propagent pas non plus. Par conséquent, beaucoup de biens immobiliers (et de coûts) peuvent être économisés en ignorant cette fonctionnalité. Cette complexité supplémentaire entraîne probablement une grande partie du coût supplémentaire de la ligne Tesla.

Godric Seer
la source
3
Grande réponse +1! Il est difficile de croire que ces fonctionnalités sont si coûteuses. Je pense que la ligne "Développer avec GeForce, Déployer avec Tesla" du site lié Nvidia résume les problèmes importants. Il semble que la meilleure solution pour l'instant soit d'acheter plusieurs GeForce et de les faire fonctionner jusqu'à ce qu'ils abandonnent la fumée bleue pour ainsi dire.
Ophion
3
"Cela ne les a cependant pas empêchés d'être utilisés à Oakridge." Le Cray XK7 d'OLLC nommé "Titan" utilise des GPU Tesla K20, pas le GTX Titan. NVidia dit que la GTX Titan a "la technologie de" OLCF Titan, qui est le même vocabulaire utilisé pour dire qu'une voiture économique a "la technologie" d'une voiture de Formule 1. (Les performances de GTX Titan sont assez bonnes, mais elles n'ont pas d'ECC et ne sont utilisées dans aucune des installations majeures que je connaisse.)
Jed Brown
1
Mon erreur, j'ai mal interprété l'article. Je mettrai à jour la réponse pour ne pas induire en erreur.
Godric Seer
2

À mon avis, la différence semble être principalement la segmentation du marché. Si vous êtes un scientifique, alors NVidia veut que vous ayez peur que votre papier soit rejeté parce que vous utilisez un GPGPU sans autant de RAM de correction d'erreurs que ce qui serait disponible avec K20X. De même, si vous êtes une société, vous voudrez peut-être payer 4x si cela signifie que vous êtes moins susceptible d'être poursuivi pour suspicion que vos calculs ne sont pas aussi corrigés des erreurs que possible. Les joueurs individuels ou les amateurs de GPGPU sont vendus Titan parce qu'ils ont moins d'argent et qu'ils sont plus difficiles à convaincre de cette manière.

k20
la source
2
Je n'ai fait que des calculs avec ECC, avez-vous un bon article démontrant les défaillances des systèmes non ECC et les points d'arrêt logiques où il est avantageux d'avoir?
Ophion
2
@Ophion Une étude des effets du code correcteur d'erreurs sur les simulations de dynamique moléculaire accélérées par GPU ---> cela peut vous intéresser.
BenC
Pour ceux qui veulent le résumé exécutif de l'excellent lien de BenC: les erreurs logicielles que ECC corrigerait sont extrêmement rares, et le papier va jusqu'à recommander de désactiver ECC sur Tesla pour une vitesse accrue. Avertissement: cela n'a pas été réellement testé avec des GPU grand public.
semi-extrinsèque du
0

Cela dépend vraiment de l'application que vous exécutez. GPUGRID.net fonctionne sur des machines qui n'ont pas ECC et tout va bien. Les résultats sont aussi bons que sur n'importe quelle autre plateforme. Acellera vend également du matériel avec des cartes GeForce et dans très peu de cas, les GPU ont échoué. GeForce est tout ce dont vous avez besoin.

David
la source