Nvidia: Bild-Erzeugungs-KI nur 100KB groß und in Minuten trainiert

Nvidia-Forscher erregen gerade mit einer neu entwickelten Bild-KI einiges an Aufsehen. Bei Perfusion handelt es sich nicht um ein millionenschweres Superschwergewicht, sondern um lediglich 100 Kilobyte Code, die in wenigen Minuten trainiert werden können.

Locking ist zentrales Feature

Entwickelt wurde Perfusion in Kooperation Nvidias mit der Universität Tel-Aviv in Israel, die Vorstellung erfolgte jetzt im Rahmen eines gemeinsamen Forschungs-Papers. Trotz seiner geringen Größe soll das Tool in der Lage sein, führende KI-Bildgeneratoren wie Stable Diffusion und MidJourney hinsichtlich der Effizienz und einiger anderer Merkmale zu übertreffen.

Eines der wichtigsten Features der neuen Bild-KI heißt „Key-Locking“. Dabei werden neue Inhalte, die ein Benutzer hinzufügen möchte, wie beispielsweise eine bestimmte Katze oder ein Stuhl, während der Bilderzeugung mit einer allgemeineren Kategorie verknüpft. Zum Beispiel würde die Katze mit dem weiter gefassten Bild von „Katze“ verbunden. Das soll die sogenannte Überanpassung verhindern, die es einer KI schwer macht, neue kreative Versionen eines Konzepts zu entwickeln.
Nvidia Perfusion
Das macht es für den Algorithmus am Ende leichter, die vorgegebene Katze in vielen verschiedenen Posen, Erscheinungsbildern und Umgebungen darzustellen. Dabei behält sie ihre individuellen Merkmale und sieht nicht irgendwann wie eine beliebige andere Katze aus. Dadurch können individuelle Objekte flexibler dargestellt werden, während sie ihre Kernidentität bewahren.

Übung erforderlich

Perfusion ermöglicht es auch, mehrere personalisierte Konzepte in einem einzigen Bild mit natürlichen Interaktionen zu kombinieren – im Gegensatz zu bestehenden Tools, die Konzepte isoliert erlernen. Der Benutzer kann den Prozess der Bilderstellung mit Hilfe von Textaufforderungen steuern und Konzepte wie eine bestimmte Katze und einen Stuhl miteinander kombinieren.

Tests zufolge erfordert das neue KI-System allerdings einiges an Übung, um den optimalen Kompromiss zwischen Textähnlichkeit und Bildähnlichkeit zu erreichen. Wenn man sich zu sehr auf die Reproduktion des Modells konzentriert, führt dies beispielsweise dazu, dass das Modell immer wieder die gleiche Ausgabe produziert. Wenn wenn man es hingegen dazu bringt, sich zu eng an die Eingabeaufforderung zu halten, ohne dabei Freiheiten zu gewähren, führt dies in der Regel zu einem schlechten Ergebnis.
Nvidia Perfusion
Wie sich das neue KI-System konkret in der Praxis schlagen wird, muss sich allerdings noch zeigen – auch wenn es bereits recht vielversprechend aussieht. Aktuell wurde lediglich das Forschungs-Paper bereitgestellt. Nvidia sicherte allerdings zu, in Kürze auch den Code zu veröffentlichen.

Zusammenfassung

Nvidia und Universität Tel-Aviv entwickeln neue Bild-KI „Perfusion“ (100KB Code).
KI kann führende KI-Bildgeneratoren übertreffen.
Feature „Key-Locking“ verknüpft neue Inhalte mit allg. Kategorie.
KI kombiniert individuelle Objekte flexibel, ohne Kernidentität zu verlieren.
Benutzer kann Bilderzeugung mithilfe von Textaufforderungen steuern.
Optimaler Kompromiss zwischen Textähnlichkeit und Bildähnlichkeit erfordert Übung.
Code wird in Kürze veröffentlicht.

Siehe auch:

Title: Nvidia: Bild-Erzeugungs-KI nur 100KB groß und in Minuten trainiert
URL: https://winfuture.de/news,137700.html
Source: WinFuture News
Source URL: https://winfuture.de/
Date: August 2, 2023 at 08:46AM
Feedly Board(s): Technologie