Nvidia hat auf der GPU Technology Conference 2016 in Silicon Valley mit dem Tesla P100 das jüngste Modell seiner GPU-Beschleuniger-Reihe für High Performance Computing vorgestellt. Der zugrunde liegende Grafikprozessor GP100 basiert auf der neuen Architektur Pascal, die das Unternehmen vor zwei Jahren angekündigt hatte. Er soll im Form des Tesla P100 ab dem ersten Quartal 2017 in Servern von Cray, Dell, HPE sowie IBM zum Einsatz kommen und mittelfristig die bisher eingesetzten Kepler- und Maxwell-Chips ablösen. Mit dem DGX-1 hat Nvidia auch gleich einen eigenen Großrechner mit acht Tesla P100 für Deep-Learning-Berechnungen angekündigt.
Der GPU-Beschleuniger Tesla P100 verwendet den auf der Pascal-Architektur basierenden GP100-Chip (Bild: Nvidia). Der bisher leistungsstärkste Grafikchip von Nvidia wird im 16-Nanometer-FinFET-Verfahren gefertigt. Dadurch bietet er eine deutlich höhere Energieeffizienz als die bisherigen GPUs mit einer Strukturbreite von 28 Nanometern. Mit 15,3 Milliarden Transistoren ist die Pascal-GPU laut Hersteller der bisher größte FinFet-Chip weltweit.
Als Speicher kommt beim Tesla P100 die zweite Generation von High Bandwidth Memory (HBM 2) zum Einsatz, die gegenüber dem Vorgänger HBM 1 und herkömmlichem GDDR-RAM wesentlich höhere Transfergeschwindigkeiten und mehr Speicher pro GPU ermöglicht. In Kombination mit dem neuartigen Ansatz „Chip on Wafer on Substrate“ (CoWoS) soll er für eine dreimal höhere Speicherbandbreite im Vergleich zur Maxwell-Architektur sorgen. Konkret spricht Nvidia von 720 GByte/s.
Beim Messverfahren mit einfacher Genauigkeit (FP32) erreicht der Tesla P100 nach Herstellerangaben eine theoretische Rechenleistung von 10,6 Billionen Operationen pro Sekunde (Teraflops). Bei doppelter Genauigkeit (FP64) schafft er mit 5,3 Teraflops noch die Hälfte. Ein neuer halbgenauer Code (FP16) soll zudem 21,2 Teraflops an Höchstleistung für Deep Learning bringen.
Die Cloud forciert Innovationen
Die 16 GByte ECC-geschützter HBM 2 des Tesla P100 sind über insgesamt 4096 Datenleitungen angebunden. Für kurze Signalwege und somit schnelle Transferraten sind die vier 4 GByte großen Speicherstapel sehr nahe an der GPU platziert. Der integrierte GP100-Grafikchip verfügt über 3584 Shader-Rechenkerne und 224 Textureinheiten – verteilt auf 56 Streaming-Multiprozessoren. Standardmäßig läuft die GPU mit 1328 MHz und im Turbomodus mit bis zu 1480 MHz.
Eine Neuerung der Pascal-Architektur ist auch das in Zusammenarbeit mit IBM entwickelte NVLink . Es ermöglicht den Datenaustausch zwischen CPU und GPU sowie zwischen mehreren Grafikprozessoren mit bis zu 80 GByte/s in jede Richtung. Das bisher verwendete PCI Express schafft lediglich 16 GByte/s.
Der schlüsselfertige Deep-Learning-System DGX-1 verwendet acht Tesla P100 (Bild: Nvidia). Eine Page Migration Engine sowie Unified Memory sollen für verbesserte Programmierbarkeit sorgen. Mit der für August angekündigten Parallel Computing Platform CUDA 8 erhalten Enwtickler direkten Zugang zu den Funktionen von Pascal, inklusive NVLink und eine Bibliothek namens nvGRAPH. Außerdem kündigte Nvidia die Einführung von cuDNN 5 an, einer GPU-beschleunigten Bibliothek zur Entwicklung tiefer neuronaler Netzwerke. Sie beinhaltet Vorlagen und optimierte Versionen der üblichen Deep Learning Frameworks wie Caffe, Theano und Torch sowie Zugang zu Cloud-Management-Tools.
Das auf acht Tesla P100 aufbauende, schlüsselfertige System DGX-1 umfasst laut Nvidia Hardware, Deep-Learning-Software und Entwicklungstools. Es soll 170 Teraflops bei halber Genauigkeit leisten und einen mit 250 CPU-basierten Servern vergleichbaren Datendurchsatz bieten. Zur Ausstattung zählen 7 TByte SSD DL Cache, zwei 10-Gigabit-Ethernet-Ports und vierfaches 100-GBit/s-InfiniBand. Das DGX-1 nimmt drei Höheneinheiten im Rack ein. Seinen Energiebedarf gibt Nvidia mit 3200 Watt an. Das System wird in den USA ab Juni für 129.000 Dollar erhältlich sein. Andere Regionen folgen im dritten Quartal.
Aktuelle Tesla-Beschleunigerkarten im Vergleich