KI-generierte Informationen markieren!

Nun ist es also so weit… in einem neuen Paper (https://lnkd.in/eADdp5r6) belegen einige Kollegen der Standord und der Rice University das, was mich schon lรคnger beschรคftigt:

๐˜๐—ฟ๐—ฎ๐—ถ๐—ป๐—ถ๐—ฒ๐—ฟ๐˜ ๐—บ๐—ฎ๐—ป ๐—ž๐—œ ๐—บ๐—ถ๐˜ ๐—ž๐—œ-๐—ด๐—ฒ๐—ป๐—ฒ๐—ฟ๐—ถ๐—ฒ๐—ฟ๐˜๐—ฒ๐—ป ๐—ง๐—ฟ๐—ฎ๐—ถ๐—ป๐—ถ๐—ป๐—ด๐˜€๐—ฑ๐—ฎ๐˜๐—ฒ๐—ป, ๐˜„๐—ฒ๐—ฟ๐—ฑ๐—ฒ๐—ป ๐—ฑ๐—ถ๐—ฒ ๐—˜๐—ฟ๐—ด๐—ฒ๐—ฏ๐—ป๐—ถ๐˜€๐˜€๐—ฒ ๐˜€๐—ฐ๐—ต๐—น๐—ฒ๐—ฐ๐—ต๐˜๐—ฒ๐—ฟ (d.h. sie werden falscher und gleichen sich immer mehr).

Am Beispiel der Bildgenerierung wird dieser Effekt in dem Paper eindrucksvoll gezeigt, generell betrifft dies aber jede Art von generativer KI! Also auch, wenn man bspw. Chat-GPT mit von Chat-GPT generierten Daten trainiert… KI kannibalisiert sich dann irgendwann selbst.

Aktuell leben wir in einem Zeitalter, in dem das Verhรคltnis von generierten zu echten Daten noch sehr gรผnstig ist (KI beginnt ja gerade erst). Allerdings รคndert sich das rapide. Und das bedeutet, dass wir bald nichts mehr haben, womit wir die KI’s sinnvoll trainieren kรถnnen (ohnehin sind in den groรŸen Sprachmodellen bereits nahezu alle verfรผgbaren Daten eintrainiert).

Denn auch wenn permanent neue Informationen produziert werden – wenn wir nicht unterscheiden kรถnnen, was menschen-generiert und was KI-generiert ist, dann kรถnnen wir nichts mehr qualifiziert zum Training verwenden, d.h. unsere KI’s werden irgendwann nicht mehr besser.

๐—š๐—ฒ๐—ฟ๐—ฎ๐—ฑ๐—ฒ ๐—ณ๐˜‚ฬˆ๐—ฟ ๐—จ๐—ป๐˜๐—ฒ๐—ฟ๐—ป๐—ฒ๐—ต๐—บ๐—ฒ๐—ป ๐—ถ๐˜€๐˜ ๐—ฑ๐—ฎ๐˜€ ๐—ฑ๐—ฒ๐—ฟ ๐—ฏ๐—น๐—ฎ๐—ป๐—ธ๐—ฒ ๐—›๐—ผ๐—ฟ๐—ฟ๐—ผ๐—ฟ!

Sobald die Mitarbeiter Ihres Unternehmens beginnen, unkontrolliert / ungefรผhrt Generative KI einzusetzen, schaufeln Sie sich damit selbst Ihr potenzielles Daten-Grab, weil Sie sich irgendwann nicht mehr auf Ihre Daten verlassen kรถnnen. Und Ihre Daten sind Ihr Kapital…

๐——๐—ฎ๐—ต๐—ฒ๐—ฟ ๐—บ๐˜‚๐˜€๐˜€ ๐—ฎ๐—ธ๐˜๐˜‚๐—ฒ๐—น๐—น ๐—ฑ๐—ถ๐—ฒ ๐—ผ๐—ฏ๐—ฒ๐—ฟ๐˜€๐˜๐—ฒ ๐—ฃ๐—ฟ๐—ถ๐—ผ๐—ฟ๐—ถ๐˜๐—ฎฬˆ๐˜ ๐˜€๐—ฒ๐—ถ๐—ป, ๐—ž๐—œ-๐——๐—ฎ๐˜๐—ฒ๐—ป ๐˜‡๐˜‚ ๐—ธ๐—ฒ๐—ป๐—ป๐˜‡๐—ฒ๐—ถ๐—ฐ๐—ต๐—ป๐—ฒ๐—ป!

In der ร–ffentlichkeit schwierig bis unmรถglich, im Unternehmen aber zum Glรผck umsetzbar.

Wenn Sie nicht wissen, wie Sie das bewerkstelligen sollen, sprechen Sie mich an!



P.S.: natรผrlich gibt es auch Anwendungsfรคlle, wo synthetische Daten sehr hilfreich sind. Dies sind aber punktuelle Ausnahmen und nicht die allgemeine Regel.

P.P.S.: hier einige meiner vorherigen Posts zu diesem Thema:
https://lnkd.in/eY8rC8C7
https://lnkd.in/e3bcJ_92
https://lnkd.in/efAex_M2
https://lnkd.in/eHZMm6KZ

P.P.P.S.: das Titelbild habe ich mit Midjourney generiert. Denn noch funktioniert unsere Generative KI ๐Ÿ™‚