Wer braucht eine GPU wenn er auch eine LPU haben kann?

Revolutionäre Chiparchitektur erhöht KI-Effizienz

Die Zukunft Künstlicher Intelligenz und auf neuronalen Netzwerken basierender Systeme sind weder CPU noch GPU oder TPU, sondern eine völlig neue KI-Chiparchitektur. Die Lösung nennt sich „Layer Processing Unit“ (LPU) und stellt einen Paradigmenwechsel in der Hard- und Softwarestruktur von neuronalen Netzwerken dar, den der europäische Technologieführer EYYES in seinen Produkten bereits auf den Markt bringt. Mit einer Vervielfachung der parallel stattfindenden Rechenoperationen wird die Verarbeitungsgeschwindigkeit und der Datendurchsatz maximiert. Dies ermöglicht die Umsetzung besonders leistungsfähiger, energieeffizienter Systeme.

Der Einsatz von Deep Learning basierten Systemen in mobilen Anwendungen wächst rasant, insbesondere für fahr- und sicherheitsrelevante Anwendungen im Verkehr und der Industrie. Gerade der Bereich Autonomes Fahren und Fahrsicherheit erfordert aufgrund des Wandels des Mobilitätsbereichs in Richtung Elektromobilität und der damit verbundenen Reichweiten-Problematik, besonders energieeffiziente und zugleich enorm leistungsfähige Systeme. Auch im Bereich Überwachung, Security, Robotik sowie bei Safety Anwendungen, welche Videoprocessing mit Objekterkennung benötigen, steht die Entwicklung reaktionsschneller, kompetenter und dennoch stromsparender Systeme an oberster Stelle.

Berechnungen in Echtzeit dürfen kaum Latenz haben, müssen schnell und zuverlässig sein und absolut sicher funktionieren. Damit KI-Objekterkennung in praktischen Use-Cases überhaupt zum Einsatz kommt, sind die Kosten für Rechenleistung und die entstehende Wärmeentwicklung in den Endprodukten besonders kritisch.
Der Einsatz von Deep Learning basierten Systemen in mobilen Anwendungen wächst rasant, insbesondere für fahr- und sicherheitsrelevante Anwendungen im Verkehr und der Industrie. Gerade der Bereich Autonomes Fahren und Fahrsicherheit erfordert aufgrund des Wandels des Mobilitätsbereichs in Richtung Elektromobilität und der damit verbundenen Reichweiten-Problematik, besonders energieeffiziente und zugleich enorm leistungsfähige Systeme. Auch im Bereich Überwachung, Security, Robotik sowie bei Safety Anwendungen, welche Videoprocessing mit Objekterkennung benötigen, steht die Entwicklung reaktionsschneller, kompetenter und dennoch stromsparender Systeme an oberster Stelle.

Berechnungen in Echtzeit dürfen kaum Latenz haben, müssen schnell und zuverlässig sein und absolut sicher funktionieren. Damit KI-Objekterkennung in praktischen Use-Cases überhaupt zum Einsatz kommt, sind die Kosten für Rechenleistung und die entstehende Wärmeentwicklung in den Endprodukten besonders kritisch.

Die Herausforderung

Die Entwickler stehen vor gleich vor mehreren Herausforderungen. Vor allem gilt es die Neuronalen Netze entsprechend zu optimieren, damit sie überhaupt in einer Edge-Umgebung einsetzbar sind. Folgende Optimierungsschritte sind dabei zu beachten:

  • Reduktion der Größe von Neuronalen Netzen durch Quantisierung
  • Reduktion der benötigten Operationen pro Sekunde
  • Verbesserung des Trainings der Algorithmen
  • Verwendung von erklärbaren Algorithmen zum Monitoring der Funktionalität des Netzes

Für all diese Herausforderungen haben die Ingenieure des europäischen Marktführers EYYES Lösungen gefunden und in einem revolutionären IP-Core zusammengefasst.

Die Lösung

Die Lösung nennt sich LPU – „Layer Processing Unit“ – und stellt einen Paradigmenwechsel in der Hard- und Softwarestruktur von neuronalen Netzwerken dar, den EYYES in den kommenden Jahren vorantreiben wird. Wie funktioniert nun der neue Wunderprozessor?

Im Schritt eins wird das Netz mit der sogenannten Toolchain so verkleinert und optimiert, dass es seine Aufgaben ohne Funktionsverluste wesentlich schneller abarbeiten kann („Pruning“). Der entstehende Algorithmus wird mithilfe einer Simulation genauestens überprüft und abschließend mittels Toolchain in eine Binärdatei exportiert, die im IP-Core der LPU abgearbeitet werden kann.

Die Optimierung der parallelen Rechenoperationen bringt den Durchbruch im processing core der LPU.

GPU

Graphics Processing Unit


Eine GPU ist sehr schnell und kann viele Vektoroperationen parallel beginnen, pro Rechentakt aber immer nur einen Operations-Schritt abarbeiten. Gerade um alle einzelnen Layer eines neuronalen Netzes zu durchlaufen, benötigt sie daher viele Takte zum Rechnen und Zwischenspeichern – hohe Anforderungen an Leistung, Speicher und Bandbreite sowie eine daraus resultierende hohe Energieaufnahme sind die Folge.

TPU

Tensor Processing Unit


Eine TPU arbeitet diesbezüglich schon etwas effizienter, denn sie berechnet jeweils einen Tensor mit mehreren Vektoren auf einmal. Dennoch sind auch bei einer TPU noch viele Takte zum Zwischenspeichern und der endgültigen Abarbeitung aller Neuronen erforderlich.

LPU

Layer Processing Unit

Die LPU von EYYES kann demgegenüber in einem einzigen Takt die Tensoren aller Neuronen eines Layers des neuronalen Netzes gleichzeitig berechnen, denn das patentierte Verfahren verarbeitet die eingehenden Daten parallel und führt Aktivierung und Pooling in einem Operationsschritt aus. Damit kann der Output eines Layers in einem einzigen Rechentakt vollständig berechnet werden, ohne Takte für die Zwischenspeicherung der Ergebnisse zu verschwenden. Die LPU ist deshalb in der Lage, auch bei geringen Taktfrequenzen die benötigten Milliarden Rechenoperationen hocheffizient abarbeiten.

Performance

Warum diese Architektur zur Parallelisierung von Rechenoperationen so revolutionär ist, zeigt ein Performance-Vergleich der drei genannten Typen in der untenstehenden Grafik, im Hinblick auf abgeschlossene Operationen pro Sekunde bei gleicher nomineller Taktung und Chipfläche.

LPU Performance

Die Grafik zeigt eindrucksvoll, wie leistungsfähig die LPU-Architektur im Hinblick auf die Implementierung neuronaler Netzwerke ist. Dreimal mehr Power als eine GPU und die doppelte Effizienz einer TPU stellen nicht bloß eine Optimierung bekannter Technologien dar, sondern beweisen, dass hier eine Revolution im Bereich neuronaler Netzwerke eingeläutet wird!

RTI 3.0 – Next-Generation System on module

Künstlicher Intelligenz im flexiblen Bausatz

Aufbauend auf der Layer Processing Unit Architektur, entwickelte EYYES das Real Time Interface 3.0 (RTI 3.0). Dabei handelt es sich um ein System on Module zur visuell basierten Objekterkennung, das sich durch geringe Hardwarekosten und eine besonders hohe Energieeinsparung auszeichnet und somit in unterschiedlichsten Anwendungsbereiche eingesetzt werden kann.

TODO: Link zum Produkt