Deep Seek – eine Einordnung

Das Semester ist rum, die Vorlesungen vorbei und trotzdem dreht sich die Welt weiter. Und zwar schnell. Daher auf diesem Weg eine kurze Einordnung…

Was passiert ist, dürfte hinlänglich bekannt sein. Deep Seek (China) holt mit einem Bruchteil des Aufwandes zu den großen Sprachmodellen auf. Aktienkurse fallen in den Keller, 1000e Testimonials, eine „neue Ära“, ein neuer Hype, und so weiter…

Wie aber ist das einzuordnen?

1. Deep Seek hat gezeigt, dass KI nicht nur über eine reine „Materialschlacht“ funktioniert. Durch eine schlaue Lastverteilung (Mixture-Of-Experts-Architektur) im Modell werden die Bereiche, die gerade nicht wichtig sind, abgeschaltet, was zu weniger Ressourcenverbrauch bei vergleichbaren Ergebnissen führt.
2. Deep Seek ist Open-Source (na ja, irgendwie zumindest). Jeder kann Deep Seek runterladen, man bekommt aber keine (!) Info zu Trainingsdaten usw. Man sollte daher besser von Open Weight sprechen.
3. Möchte man Deep Seek auf „eigener Hardware“ installieren, sollte man dennoch mal auf die Systemvoraussetzungen achten… Empfohlen wird für das große Modell V3 671B ein Cluster aus 16 NVIDIA H100 Karten mit je 80 GB Speicher (30.000 € pro Stück), die Online-Version von Deep Seek ist aktuell noch kostenlos, wird vermutlich aber auch bald zu einem Abo-Modell übergehen
4. Trainingsdaten und Zensur spielen eine große Rolle. Deep Seek gibt bspw. keine Informationen zu bestimmten Themen raus. Man sieht bei Deep Seek auch gut, wie Modelle faktisch „gefärbt“ werden und durch leichte (oder große) Fehl- oder Nicht-Information das Wertegebilde der Nutzer prägen. (Ehrlich gesagt – das machen die großen Sprachmodelle auch nicht anders, nur fällt es uns dort weniger auf, weil wir im selben Kulturraum unterwegs sind und weil es etwas geschickter versteckt abläuft.)
5. Ein Feature-Vergleich lohnt sich m.E. noch nicht. Da ist noch sehr viel Bewegung drin. Man sieht allerdings jetzt schon, dass Deep Seek mit den großen Sprachmodellen mithalten kann.

Deep Seek ist insofern ein „Game Changer“, als dass nunmehr endlich jemand aufgezeigt hat, dass man ein großes Sprachmodell mit deutlich weniger Hardware-Einsatz entwickeln kann.

President Trump hat gerade erst 500 Mrd. $ Investitionen angekündigt, NVIDIA sich vermutlich tierisch darüber gefreut – darauf hat Deep Seek einen leichten bis mittleren Schatten geworfen. Allerdings dürfte das m.E. nach nicht dramatisch sein, denn KI ist immer noch irre rechenintensiv. Und natürlich versuchen alle großen Anbieter ohnehin, ihre Modelle, Algorithmen und Architekturen zu optimieren. Diesmal waren die Chinesen eben schneller – so what.

Spannend ist Deep Seek, weil es – ähnlich wie das LLama Modell von Meta – auf eigener Hardware installiert und auch sinnvoll genutzt werden kann. Das könnte für viele Unternehmen eine interessante Alternative sein. Allerdings fehlt hier noch die Erfahrung mit chinesischen Modellen…