banner
Nachrichtenzentrum
Beeindruckende Erfahrung im Grafikdesign.

Im zukünftigen Facebook-Rack und Mikroserver-Eisen

Aug 13, 2023

Die Hyperscaler und Cloud-Builder geben seit etwa einem Jahrzehnt das Tempo für Innovationen im Serverbereich vor, insbesondere und öffentlich, seit Facebook im April 2011 das Open Compute Project ins Leben gerufen hat und mit dem Beitritt von Microsoft Anfang 2014 zunahm und im Grunde genommen erstellte ein ganz neuer Server-Innovationsstrom, der sich von den von Facebook herausgegebenen Designs unterscheidet und mit diesen größtenteils nicht kompatibel ist.

Microsoft spricht diese Woche beim letzten virtuellen Open Compute Summit nicht viel über seine Hardware-Designs, Facebook hingegen schon. Vijay Rao, Direktor für Technologie und Strategie bei Facebook, stellte letztes Jahr auf dem OCP Summit das maschinelle Lerntrainingssystem „Zion“ mit der innovativen OCP Accelerator Module-Architektur vor, von der wir glauben, dass sie sich aufgrund ihrer Dichte und Modularität in der Branche durchsetzen wird Angebote und die Fülle an Verbindungen und Beschleunigern, die diese Architektur nutzen können. Rao deutete an, wie kleinere M.2-Inferenz-Engines zusammengefasst und in Facebooks „Yosemite“-Mikroserverdesigns eingesetzt werden könnten, die im März 2015 ihr Debüt feierten und in dem wir auch The Next Platform starteten. Das Yosemite-Chassis ist ein Rechnerschlitten mit einer Breite von einem Drittel, der in die von Facebook empfohlenen 21-Zoll-Open-Rack-Gehäuse passt und zunächst über bis zu vier Single-Socket-Mikroserver sowie gemeinsame Netzwerk- und Speicherfunktionen für diese Knoten sowie bis zu 24 dieser Schlitten verfügte plus zwei Stromregale und etwas Luftraum füllten ein einziges offenes Rack für insgesamt 96 Server.

Bei unserer Veranstaltung „The Next AI Platform“ im letzten Jahr sprach Rao etwas ausführlicher darüber, wie Facebook massiv mit relativ bescheidenen Inferenz-Engines zusammenarbeiten und diese in Maschinen wie Yosemite einsetzen könnte, und dieses Jahr haben die Ingenieure von Facebook auf dem virtuellen OCP Summit genau dargelegt wie sie dies tun werden, und sprechen über zukünftige Ein- und Zwei-Sockel-Server auf Basis von Intels „Cooper Lake“ Xeon SP-Prozessoren, die dank ihrer Unterstützung von Half Precision FP16 und Bfloat16 auch einige Inferenzarbeit leisten werden Datenformate und Verarbeitung in den AVX-512-Vektoreinheiten auf diesen Prozessoren.

Das Yosemite-Gehäuse ist neben verschiedenen Generationen von Zwei-Sockel-Maschinen ein großer Teil der Facebook-Infrastruktur. Wir haben bereits im Jahr 2016 beschrieben, wie Facebook seine Server für unterschiedliche Arbeitslasten konfiguriert. Dabei stellten die Zwei-Sockel-Systeme „Leopard“ und Yosemite den größten Teil der Infrastruktur dar, während die GPU-fähigen „Big Sur“-Maschinen ein relativ geringes Volumen aufwiesen, aber schnell wuchsen an Bedeutung. Aber Facebook hat mehr als zwei Maschinen erstellt und sie zu Open Source beigetragen, wie dieser Überblick von Katharine Schmidtke, Beschaffungsdirektorin für ASICs und kundenspezifische Silizium beim sozialen Netzwerk, in ihrer Grundsatzrede darlegte:

Facebook hat mit Entwürfen für Rechenzentren, Racks, Server, Speicherserver, verschiedene Arten von Mezzanine- und Netzwerkschnittstellenkarten und Beschleunigermodulen für Server, modulare und Chassis-Switches sowie optische Transceiver begonnen, ganz zu schweigen von einer Menge Software. Sie könnten selbst aus den alten Prineville-Designs, die 2011 eröffnet wurden, ein ziemlich anständiges Rechenzentrum bauen und es mit kostengünstigeren, kosmetikfreien Geräten füllen, wenn Sie den Mut dazu hätten.

Letztes Jahr sprach Facebook vage über die Modifikationen, die es am Yosemite-Chassis vornehmen könnte, und darüber, wie es mithilfe relativ bescheidener Inferenz-Engines verschiedener Anbieter mithilfe einer „Glacier Point“-Trägerkarte für die passenden Inferenz-Sticks massiv parallele Inferenzkomplexe erstellen könnte das Yosemite-Gehege. In diesem Jahr gaben sie Einzelheiten zum aktualisierten Yosemite V2.5-Chassis und der Glacier Point V2-Trägerkarte bekannt, die tatsächlich in Produktion ist. Facebook hat eine Reihe von Gründen, warum es Baby-Inferenzchips auf PCI-Express-Karten mit M.2-Formfaktor verwenden möchte. Zum einen möchte das Unternehmen nicht, dass Inferenz, die ein wesentlicher Bestandteil seines Anwendungsstapels ist, eine große Belastungszone hat, wenn etwas schief geht. Darüber hinaus handelt es sich bei Inferenz um eine ziemlich leichte und natürlich massiv parallele Arbeitslast (wie Web-Serving), die sich natürlich für die Ausführung auf kleinen Geräten eignet. Das Preis-Leistungs-Verhältnis und die Thermik dieser Geräte sind auch sehr attraktiv für die Ausführung von Inferenzen auf GPUs oder FPGAs – jedenfalls nach Facebooks Berechnungen. Aber diese Geräte sind nicht wirklich gut im Training und gehen genau in die entgegengesetzte Richtung, die Nvidia einschlägt, indem sie HPC, KI-Training und KI-Inferenz auf der neuen „Ampere“ GA100-GPU-Engine zusammenführen, die diese Woche angekündigt wurde. Aber Facebook muss noch andere Workloads unterstützen, wie zum Beispiel Videokodierung und -dekodierung, die auch auf M.2-Sticks laufen und auf Trägerkarten bereitgestellt und auf den Yosemite-Servern untergebracht werden können. Darüber hinaus ermöglicht der selbst entwickelte GLOW-Compiler, über den wir hier gesprochen haben, die Aufteilung von Inferenzmodellen auf mehrere, relativ kleine Geräte, sodass er nicht für die Inferenz eine stärkere Rechenleistung wählen muss, nur weil er über eine umfangreichere Inferenz verfügt.

Um das Yosemite-Chassis so zu aktualisieren, dass es die höheren Arbeitslasten der parallelen Inferenz bewältigen kann, mussten einige Änderungen vorgenommen werden, wie hier beschrieben:

Die große Änderung besteht darin, dass die PCI-Express 3.0-Umschaltung zwischen den Modulen im Yosemite-Gehäuse neu ausbalanciert wurde, wobei mehr Bandbreite von der CPU zur Netzwerkschnittstellenkarte geht und weniger Lanes die Module miteinander verbinden. Die maximale Leistung des Gehäuses wurde um 20 Prozent auf 720 Watt erhöht, und Lüfter mit höherer Geschwindigkeit und 15.000 U/min konnten diese Wärme vom Rechner abführen. Es wurde eine 100-Gbit/s-Multihost-NIC hinzugefügt und mit einer NIC ausgestattet, die über große Empfängerpuffer verfügte, um eine geringe Latenz zu erreichen, sowie Hardware-Unterstützung für die Überlastungskontrolle. (Wir sind ziemlich sicher, dass es sich hierbei um eine ConnectX-Karte von Mellanox, jetzt Nvidia, handelt, aber Facebook sagt das nicht.)

So sieht die optimierte Trägerkarte Glacier Point V2 aus:

Und so sieht die ganze Baugruppe aus:

Und so sieht das fertige Eisen aus:

Jede Glacier Point-Trägerkarte hat eine maximale Leistung von 180 Watt und kann ein Dutzend M.2-Karten oder ein halbes Dutzend M.2-Karten mit doppelter Breite enthalten. Hier sind die Spezifikationen der beiden M.2-Inferenzkarten, die Facebook der Branche zur Verfügung gestellt hat, damit sie diese herstellen kann:

Die M.2-Module müssen PCI-Express 3.0 und 4.0 (ein x4-Steckplatz) unterstützen und insgesamt im Bereich von 10 bis 14 Watt liegen. Diese sind nützlich, weil sie an bestehende Server angeschlossen werden können, die über M.2 verfügen .2 Steckplätze, wenn nötig. Es ermöglicht auch die Verwendung mehrerer Module innerhalb von Facebook für verschiedene Arten der Beschleunigung und Facebook kann bei Bedarf auch lokale Beschleunigungen vieler Arten mit lokalen Optane- oder Flash-M.2-Modulen kombinieren. Der M.2 mit doppelter Breite ist für die Aufnahme dickerer und heißerer ASICs im Bereich von 15 bis 25 Watt ausgelegt, und die größere Platinenfläche ermöglicht auch einen größeren lokalen Speicher auf dem Gehäuse. Es ist der gleiche Bedarf für PCI-Express 3.0 und PCI-Express 4.0 (ein Paar x4-Lanes, in beide Richtungen) erforderlich.

Das Inferenzteam bei Facebook schlägt vor, dass es beim Yosemite V3-Gehäuse, über das wir gleich sprechen werden, eine eigenständige Netzwerkkarte für jeden Schlitten im Gehäuse benötigen wird, da insbesondere die PCI-Express-Umschaltung zwischen den Trägerkarten und dem CPU-Host erfolgt bei PCI-Express 3.0-Geschwindigkeiten – kann ein Engpass sein, wenn versucht wird, mit bescheidenen Komponenten eine Schlussfolgerung mit geringer Latenz zu erstellen. Auf der Wunschliste stehen außerdem ein separater Baseboard-Management-Controller für jeden Server im Yosemite-Gehäuse und die Verwendung von PCI-Express 4.0-Switches zur Verbindung von Trägerkarten mit den Hosts.

Das bringt uns zum Yosemite V3-Design. Jetzt wird Facebook die Elektronik im Gehäuse um 90 Grad drehen, sodass vertikal ausgerichtete Elemente horizontal werden. Was Facebook aus dem M.2-Experiment mit Yosemite V2.5 gelernt hat, ist, dass die vertikale Ausrichtung mit der CPU in der Mitte und Trägern vorne und hinten nicht ideal für die Kühlung thermisch dichterer Beschleunigerträger ist. Aber wenn man alles auf die andere Seite dreht, wird die Wärmeverteilung gleichmäßiger über die gleiche Anzahl an Geräten verteilt, und ehrlich gesagt ist es einfacher, relativ bescheidene CPUs zu kühlen, und die Beschleuniger-Motherboards werden zu den Wärmeleitblechen des Systems. Das Inferenzteam von Facebook blickt in die Zukunft und möchte Flexibilität bei der Größe, Form und Anzahl der Speichergeräte und Beschleuniger im Yosemite-Gehäuse haben sowie schnelleres (und vermutlich heißeres) PCI-Express unterstützen können 5.0-Verbindungen und versorgen und kühlen Geräte mit einer Leistung von bis zu 30 Watt. Zumindest einige bei Facebook gehen davon aus, dass Single- und Dual-M.2-Formfaktoren nicht funktionieren werden, und das liegt unserer Meinung nach vor allem daran, dass PCI-Express 5.0-Geräte nicht schnell auf den Markt kommen werden genug in diesen Formfaktoren. Darüber hinaus werden in Zukunft größere Chips benötigt, da diese thermisch effizienter sind. Hier ist ein Diagramm, das einen 20-Watt-Bare-Chip auf einer simulierten Dual-M.2-Karte zeigt und das Zusammenspiel von Temperatur und Chipgröße zeigt:

Mit Yosemite V3 gibt es also einen neuen Delta-Lake-Single-Socket-Server, und jetzt können Sie vier Uniprozessoren in das Gerät stopfen, aber jetzt werden sie von vorne statt von oben geladen, was ein echter Aufwand ist, wenn Sie es tun müssen Hunderttausende Male.

So sehen die Basiskomponenten im Yosemite V3-Gehäuse aus:

Und so sieht es mit vier Delta-Lake-Rechnerkarten aus:

Hier ist die gleiche Box mit vier Serverknoten und Flash-Speicher pro Knoten:

Hier ist ein Setup von Yosemite V3 mit zwei leistungsfähigeren Servern mit jeweils zwei Beschleunigern:

Und hier sind zwei leistungsstarke Serverknoten mit zwei stärkeren Beschleunigern und einem Switch, der sie verbindet, sowie einer dedizierten Netzwerkschnittstelle pro Knoten:

Der Delta-Lake-Serverknoten basiert auf dem zukünftigen Cooper-Lake-Prozessor, der noch in diesem Jahr von Intel auf den Markt kommt. Facebook kann nicht viel über die Fähigkeiten dieses Xeon SP-Prozessors der dritten Generation sagen, aber er wird offenbar zukünftige „Barlow Pass“-Optane-Persistent-Memory-Sticks unterstützen und über mehr PCI-Express-Lanes und ein Paar lokaler M.2-Anschlüsse verfügen. Hier ist der Delta Lake-Servermodus:

Und hier ist der Schaltplan des Delta-Lake-Servers, bei dem die Anzahl der Speicherkanäle verdeckt ist. (Vielleicht sind es mehr als sechs? Man kann hoffen. . . . )

Und das sind vier mögliche Konfigurationen von Schlitten basierend auf Delta Lake:

Okay, das bringt uns endlich zu Rack-Servern, und wir haben auf dem virtuellen Open Compute Summit zwei entdeckt, die auf den Cooper Lake Xeon SPs basierten.

Die von Facebook heißt „Sonora Pass“ und ist eine Maschine mit zwei Sockeln, also:

Die Schaltpläne waren in der offiziellen Präsentation ausgeblendet, aber wir haben während der Sitzung einen verschwommenen Screenshot gemacht, der die Daten enthält:

Abgesehen von dem Rätsel um Speichercontroller können wir sehen, dass es sich immer noch um PCI-Express 3.0 handelt und von diesem Design nicht viele Lanes verwendet werden. Interessant ist, dass viele der Peripheriekomponenten vom Inneren des Gehäuses zur Frontplatte verlegt wurden und die Oberseite des Rack-Chassis über eine geteilte Abdeckung verfügt, sodass Sie die Abdeckung beim Ausrollen abnehmen und austauschen können Einheiten an der Vorderseite – Speicher, NICs und so weiter. Das Design verfügt außerdem über vier E1.S-Speichermodule auf der rechten Seite und ist mit vier auf acht erweiterbaren Lüftern für zusätzliche Kühlung ausgestattet.

Die andere Cooper-Lake-Maschine, die wir ausspioniert haben, war das „Catalina“-System von Hyve Solutions, ein Acht-Sockel-System, das auf vier Sockel reduziert werden kann und kein Facebook-Design ist, aber wir werfen es hier hinein. Dies ist die Folie, die in einer Intel-Präsentation aufgetaucht ist:

Wieder einmal wurden die Speichermodule ausgeblendet, um Mystik zu erzeugen.

Mit Highlights, Analysen und Geschichten der Woche direkt von uns in Ihren Posteingang, ohne dass etwas dazwischen liegt. Jetzt abonnieren