NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

DeepSeek stellt mHC vor, steht aber vor Hürden im Peer-Review-Verfahren

VonEnacy MapakameEnacy Mapakame
3 Minuten Lesezeit
DeepSeek stellt mHC vor, steht aber vor Hürden im Peer-Review-Verfahren.
  • DeepSeek schlägt einen neuen Weg vor, KI ohne zusätzliche Rechenleistung zu skalieren.
  • Die Forscher sehen vielversprechende Ergebnisse, warnen aber davor, dass weitere Tests erforderlich sind.
  • mHC könnte die Art und Weise, wie große Sprachmodelle trainiert werden, grundlegend verändern.

In einer Zeit, in der die steigenden Kosten für die Entwicklung und Wartung von KI sowie die begrenzte Verfügbarkeit von Hardware Probleme bereiten, hat DeepSeek einen neuen Plan für die Entwicklung und Skalierung künstlicher Intelligenz (KI) vorgestellt.

Das chinesische Start-up-Unternehmen ist überzeugt, deutlich bessere KI-Modelle entwickeln zu können, ohne zwangsläufig mehr Chips zu benötigen und damit den Stromverbrauch zu erhöhen. Obwohl das vorgeschlagene mHC-Konzept bereits großes Interesse bei vielen Forschern geweckt hat, befindet es sich allgemein noch in einem frühen Entwicklungsstadium.

Weitere Forschung ist erforderlich, um die Vorteile dieses Ansatzes bei der Entwicklung größerer KI-Systeme zu ermitteln. Ein Fachartikel, der das mHC-Konzept detailliert beschreibt, wurde letzte Woche veröffentlicht und von Liang Wenfeng, Gründer und CEO von DeepSeek, mitverfasst.

DeepSeek überdenkt das Netzwerkdesign, um KI zu skalieren

Ein zentraler Bestandteil der Arbeit ist die Neubewertung der Frage, wie Informationen zwischen den verschiedenen Schichten eines mehrschichtigen neuronalen Netzes übertragen werden.

Jede Schicht eines neuronalen Netzes leitet verarbeitete Informationen an die nächste Schicht weiter und erzeugt so ein sogenanntes „Residual Learning Network“ (ResNet). Die vor etwa zehn Jahren von Kaiming He von Microsoft Research und anderen entwickelten ResNets bilden die Grundlage für viele der fortschrittlichsten KI-Systeme von heute.

Ein von DeepSeek entwickeltes Konzept entstand, nachdem ByteDance Hyper-Connections . Hyper-Connections ermöglichen es, dass Informationen über mehrere Wege durch ein Netzwerk fließen, anstatt nur über einen Hauptpfad. Dies kann die Lerngeschwindigkeit und die Vielfalt der Lernerfahrung erhöhen.

Allerdings können sie zwar von Vorteil sein, aber auch zumatic Trainingsereignissen führen, bei denen die Modelle Trainingsinstabilität oder ein vollständiges Versagen erleiden.

Laut Song Linqi (City University of Hong Kong) ist die Forschung von DeepSeek eine Weiterentwicklung einer bestehenden Idee, eine Fortsetzung der Art und Weise, wie DeepSeek die Arbeit anderer Unternehmen betrachtet, anstatt etwas von Grund auf neu zu erfinden.

ResNet wird mit einer einspurigen Schnellstraße verglichen, während Hyper-Connections einer mehrspurigen Schnellstraße ähneln; Song warnte jedoch davor, dass mehrere Spuren ohne angemessene Regeln zu mehr Kollisionen führen könnten.

Professor Guo Song von der Hong Kong University of Science and Technology ist der Ansicht, dass diese Forschungsarbeit einen Wandel im Forschungsverhalten der KI-Forschung. Anstatt weiterhin nur kleine Anpassungen an bestehenden Modellen vorzunehmen, könnte sich die Forschung seiner Meinung nach hin zur Entwicklung neuer Modelle auf Basis theoretischer Konstrukte entwickeln.

Forscher testen mHC, äußern aber praktische Bedenken

Obwohl die jüngsten Fortschritte bei der Erprobung von mHC für Deep Learning Begeisterung auslösen, betonen Experten, dass die Forschung noch nicht abgeschlossen ist. Die von DeepSeek durchgeführten Tests nutzten lediglich vier Datenpfade bei der Prüfung von Modellen mit 27 Milliarden Parametern.

„Die Experimente validierten Modelle mit bis zu 27 Milliarden Parametern, aber wie würden sie sich bei den heutigen Spitzenmodellen schlagen, die um eine Größenordnung größer sind?“

Professor Guo Song.

Die heute verfügbaren KI-Modelle sind größer und verfügen typischerweise über Hunderte von Milliarden Parameter im Vergleich zu den 30 Milliarden Parametern, die noch vor wenigen Jahren Standard waren.

Guo stimmte diesen Einschätzungen zu und erklärte, dass noch niemand mit Sicherheit sagen könne, ob mHC in der Lage sein werde, im Bereich der KI-Technologie Spitzenleistungen zu erbringen. Er führte außerdem aus, dass die für den Betrieb von mHC benötigte Infrastruktur möglicherweise zu komplex für kleinere Forschungseinrichtungen und für Unternehmen zur Nutzung auf mobilen Geräten sei.

Laut Cryptopolitanverdankt DeepSeek seine Popularität der Veröffentlichung des großen Sprachmodells DeepSeek V3 und der darauf folgenden Veröffentlichung des Schlussfolgerungsmodells DeepSeek-R1 nur wenige Wochen später.

Beim Vergleich der Ergebnisse der Modelle mit denen ihrer Konkurrenten in Benchmark-Tests konnten beide Modelle die Ergebnisse ihrer Konkurrenten erreichen oder sogar übertreffen, obwohl sie nur mit einem Bruchteil der Trainingsdaten veröffentlicht wurden, die für die anderen konkurrierenden Sprachmodelle verwendet wurden.

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Diesen Artikel teilen
MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS