Lokale KI-Videos erstellen – Von der Idee bis zum ersten eigenen Clip

Erstellt von chatGPT
Alle in diesem Bericht verwendeten Bilder und Videos wurden mithilfe von KI erstellt. Die Ergebnisse von ChatGPT und deevid.ai dienten dabei ausschließlich als Referenz, um die Leistungsfähigkeit und Qualität der lokal ausgeführten KI-Modelle unter vergleichbaren Bedingungen beurteilen zu können.
Wenn aus einem Bild plötzlich ein Video wird
Noch vor wenigen Jahren waren realistische KI-Videos ausschließlich großen Unternehmen vorbehalten. Wer aus einem einzelnen Bild eine kurze Animation erstellen wollte, musste auf Cloud-Dienste zurückgreifen oder über entsprechend hohe Budgets verfügen. Inzwischen hat sich die Situation grundlegend verändert. Moderne Grafikkarten besitzen genügend Rechenleistung, um aktuelle Open-Source-Modelle vollständig lokal auszuführen. Dadurch bleiben sämtliche Daten auf dem eigenen Rechner, laufende Kosten entfallen und auch längere Experimente sind jederzeit möglich.
In dieser Anleitung entsteht aus einem einzelnen Bild ein etwa fünf Sekunden langes Video. Als Oberfläche kommt ComfyUI zum Einsatz, während das eigentliche Videomodell Wan 2.2 Image-to-Video die Animation erzeugt. Die gesamte Einrichtung erfolgt unter Windows und richtet sich bewusst an Einsteiger, ohne auf technische Hintergründe zu verzichten.
Welche Hardware wird benötigt?
Bevor mit der Installation begonnen wird, lohnt sich ein Blick auf die vorhandene Hardware. Für einfache Bildgeneratoren reichen heute bereits Grafikkarten mit acht Gigabyte Videospeicher aus. Bei Video-KIs steigt der Speicherbedarf jedoch deutlich an. Je mehr VRAM vorhanden ist, desto höher können Auflösung und Qualität gewählt werden.
Für diese Anleitung wurde folgendes Testsystem verwendet:
- Intel Core Ultra 7 265K
- 64 GB DDR5-6000 Arbeitsspeicher
- NVIDIA GeForce RTX 3090 OC mit 24 GB VRAM
- Windows 11 Pro
Die RTX 3090 gehört trotz ihres Alters noch immer zu den interessantesten Grafikkarten für lokale KI-Anwendungen. Der Grund liegt weniger in der reinen Rechenleistung als vielmehr im großen Videospeicher. Die 24 Gigabyte VRAM ermöglichen den Einsatz aktueller Video-Modelle, die auf kleineren Grafikkarten häufig bereits an ihre Grenzen stoßen.
ComfyUI – Die Schaltzentrale für lokale KI
Viele Einsteiger gehen zunächst davon aus, dass ComfyUI selbst eine künstliche Intelligenz ist. Tatsächlich handelt es sich jedoch um eine grafische Oberfläche, welche verschiedene KI-Modelle miteinander verbindet. Statt komplizierter Konsolenbefehle werden einzelne Verarbeitungsschritte über sogenannte Nodes miteinander verbunden. Jeder Node übernimmt dabei genau eine Aufgabe, beispielsweise das Laden eines Bildes, das Schreiben eines Prompts oder das Speichern des fertigen Videos.
Das eigentliche Denken übernimmt anschließend das jeweilige KI-Modell.
Für diese Anleitung wird Wan 2.2 Image-to-Video verwendet. Das Modell erzeugt aus einem einzelnen Bild realistische Bewegungen und gehört derzeit zu den interessantesten frei verfügbaren Projekten im Bereich Image-to-Video.
Schritt 1 – NVIDIA-Treiber aktualisieren
Noch bevor weitere Software installiert wird, sollte der aktuelle Grafikkartentreiber eingespielt werden. NVIDIA veröffentlicht regelmäßig Optimierungen für KI-Anwendungen, wodurch sowohl Geschwindigkeit als auch Stabilität verbessert werden können.
Nach der Installation empfiehlt sich ein kompletter Neustart des Systems.
Schritt 2 – ComfyUI herunterladen
Für Windows existiert eine Portable-Version von ComfyUI. Diese muss nicht klassisch installiert werden und bringt bereits alle notwendigen Komponenten mit.
Nach dem Download wird das Archiv entpackt und beispielsweise unter folgendem Pfad gespeichert:
C:\ComfyUI
Anschließend genügt ein Doppelklick auf:
run_nvidia_gpu.bat
Beim ersten Start öffnet sich ein Konsolenfenster. Zahlreiche Meldungen laufen über den Bildschirm. Dieser Vorgang ist vollkommen normal und kann je nach System einige Minuten dauern.
Sobald ComfyUI gestartet wurde, öffnet sich automatisch der Browser.
Falls dies nicht geschieht, kann die Oberfläche jederzeit manuell geöffnet werden:
http://127.0.0.1:8188
Damit läuft bereits die erste lokale KI-Anwendung auf dem eigenen Rechner.
Schritt 3 – ComfyUI Manager installieren
Bereits nach kurzer Zeit wird deutlich, dass ComfyUI allein nur die Grundfunktionen bereitstellt. Zusätzliche Modelle und Erweiterungen werden über sogenannte Custom Nodes eingebunden. Um diese komfortabel verwalten zu können, empfiehlt sich die Installation des ComfyUI Managers.
Im Explorer wird zunächst folgender Ordner geöffnet:
C:\ComfyUI\ComfyUI\custom_nodes
Anschließend in der Adresszeile cmd eingeben und mit Enter bestätigen.
Nun wird folgender Befehl ausgeführt:
git clone https://github.com/Comfy-Org/ComfyUI-Manager comfyui-manager
Nach einem Neustart von ComfyUI erscheint im oberen Bereich der neue Menüpunkt Manager.
Schritt 4 – Die wichtigsten Erweiterungen installieren
Über den neuen Manager lassen sich sämtliche Erweiterungen bequem per Mausklick installieren.
Für den Einstieg reichen zunächst folgende Komponenten:
VideoHelperSuite
ComfyUI Essentials
Wan Video Nodes
Impact Pack
Nach Abschluss der Installation wird ComfyUI erneut gestartet.
Schritt 5 – Das Wan-2.2-Modell herunterladen
ComfyUI selbst enthält noch kein Videomodell. Dieses muss separat heruntergeladen werden.
Für eine RTX 3090 empfiehlt sich insbesondere:
Wan2.2-I2V-A14B FP8
Die FP8-Version benötigt deutlich weniger Videospeicher als die ursprünglichen Modelle und eignet sich hervorragend für Grafikkarten mit 24 Gigabyte VRAM.
Je nach Workflow werden die Dateien anschließend in folgende Verzeichnisse kopiert:
ComfyUI\models\diffusion_models
ComfyUI\models\text_encoders
ComfyUI\models\vae
Welches Modell in welchen Ordner gehört, wird normalerweise direkt auf der Downloadseite beschrieben.
Schritt 6 – Einen fertigen Workflow laden
ComfyUI besitzt keine klassische Menüführung. Stattdessen arbeitet die Software mit sogenannten Workflows.
Ein Workflow besteht aus mehreren miteinander verbundenen Nodes und kann bequem als JSON-Datei geladen werden.
Hierfür genügt es, die Datei einfach in das Browserfenster von ComfyUI zu ziehen.
Dadurch erscheinen sämtliche Arbeitsschritte automatisch.
Schritt 7 – Das erste Bild laden
Im Workflow befindet sich normalerweise ein Node mit der Bezeichnung:
Load Image
Hier wird das Ausgangsbild ausgewählt.
Im praktischen Beispiel könnte dies ein realistisches Bild einer Person auf dem Mount Everest sein.
Schritt 8 – Den Prompt erstellen
Nun wird beschrieben, welche Bewegung im Video stattfinden soll.
Ein guter Prompt lautet beispielsweise:
Ultra realistic selfie video on the summit of Mount Everest.
A man wearing a professional red expedition suit with the white "DataHolic" logo on the chest.
He is holding the camera himself.
Natural handheld movement.
Strong wind.
Snow particles blowing through the air.
Visible breath condensation.
Bright sunlight.
Documentary style.
Photorealistic.
Duration 5 seconds.
Ebenso wichtig ist der Negative Prompt:
cartoon
anime
painting
low quality
blurry
extra arms
duplicate person
bad anatomy
watermark
text artifacts
Dieser verhindert viele typische Fehler moderner Bild- und Videomodelle.
Schritt 9 – Die ersten Einstellungen
Für den Einstieg empfiehlt sich eine moderate Auflösung.
Auflösung: 720p
Dauer: 5 Sekunden
FPS: 16 bis 24
Steps: 20 bis 30
CFG: 5 bis 7
Höhere Werte liefern häufig bessere Ergebnisse, erhöhen jedoch gleichzeitig den Speicherbedarf und die Rechenzeit.
Schritt 10 – Das erste Video erzeugen
Nach einem Klick auf Queue Prompt beginnt ComfyUI mit der Berechnung.
Je nach Modell und Auflösung benötigt eine RTX 3090 für einen fünf Sekunden langen Clip meist nur wenige Minuten.
Das fertige Video wird automatisch gespeichert:
ComfyUI\output
Von dort kann es direkt angesehen oder weiterbearbeitet werden.
Apple Silicon – Was ist mit MacBook und Mac Studio?
Auch Besitzer eines Apple-Rechners müssen auf lokale KI keineswegs verzichten. Dank der leistungsfähigen M-Chips mit gemeinsamer Speicherarchitektur (Unified Memory) lassen sich viele moderne Sprach-, Bild- und sogar kleinere Videomodelle überraschend flüssig ausführen. Gerade Modelle mit sieben oder acht Milliarden Parametern laufen bereits auf einem MacBook Air oder MacBook Pro angenehm schnell. Wer hingegen größere Bild- oder Videomodelle wie Wan 2.2 oder HunyuanVideo einsetzen möchte, profitiert deutlich von einem Mac Studio oder MacBook Pro mit M3 Max, M4 Max oder leistungsstärkeren Varianten und möglichst viel Unified Memory. Dennoch gilt: NVIDIA-Grafikkarten besitzen bei aufwendigen Video-Workflows derzeit weiterhin einen klaren Leistungsvorteil, da viele KI-Modelle primär für CUDA optimiert wurden. Für Textgenerierung, Programmierung, Bildbearbeitung und viele Stable-Diffusion-Modelle sind aktuelle Apple-Systeme dagegen eine hervorragende und zugleich angenehm leise Alternative.
Die Einrichtung unter macOS gestaltet sich vergleichsweise unkompliziert. Zunächst sollte der Paketmanager Homebrew installiert werden. Falls dieser noch nicht vorhanden ist, genügt folgender Befehl:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Nach erfolgreicher Installation empfiehlt es sich, Homebrew sowie bereits installierte Pakete zu aktualisieren:
brew update
brew upgrade
Für viele lokale KI-Anwendungen werden anschließend Git und Python benötigt:
brew install git python
Wer Sprachmodelle lokal betreiben möchte, installiert anschließend Ollama:
brew install ollama
Danach kann der Ollama-Dienst gestartet werden:
ollama serve
In einem zweiten Terminal lassen sich nun beliebige Modelle herunterladen und direkt ausführen. Ein Beispiel ist Gemma 3:
ollama run gemma3
Alternativ können selbstverständlich auch andere Modelle wie Qwen, Llama oder Mistral verwendet werden:
ollama run qwen3
ollama run llama3.1
Für Bildgeneratoren und Video-Workflows empfiehlt sich anschließend die Installation von ComfyUI. Am einfachsten gelingt dies über Git:
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
Die benötigten Python-Abhängigkeiten werden anschließend installiert:
pip3 install -r requirements.txt
Zum Start genügt schließlich:
python3 main.py
Standardmäßig ist ComfyUI anschließend unter folgender Adresse erreichbar:
http://127.0.0.1:8188
Besonders Besitzer eines Mac Studio mit M3 Ultra oder zukünftigen M4-Ultra-Systemen profitieren von der großen Unified-Memory-Ausstattung. Dadurch lassen sich auch umfangreichere Modelle laden, die auf vielen klassischen Grafikkarten aufgrund ihres begrenzten Videospeichers nicht mehr vollständig in den Speicher passen. Zwar erreicht Apple derzeit bei komplexen Image-to-Video-Workflows noch nicht die Geschwindigkeit aktueller NVIDIA-Grafikkarten, für lokale Sprachmodelle, Stable Diffusion, Bildbearbeitung und viele alltägliche KI-Aufgaben gehören Apple-Systeme jedoch zu den komfortabelsten Plattformen überhaupt.
AMD Radeon – Mehr möglich als häufig angenommen
Lange Zeit galten AMD-Grafikkarten im Bereich der künstlichen Intelligenz als Außenseiter. Viele Anwendungen unterstützten ausschließlich NVIDIA und CUDA, wodurch Radeon-Besitzer häufig außen vor blieben. Dieses Bild hat sich in den vergangenen Monaten jedoch deutlich verändert. Mit ROCm stellt AMD eine eigene Plattform für KI-Berechnungen bereit, die inzwischen von immer mehr Projekten unterstützt wird. Unter Linux ist die Kompatibilität mittlerweile sehr gut, während unter Windows weiterhin nicht jede Anwendung ohne Anpassungen funktioniert. Für Sprachmodelle, Stable Diffusion und zahlreiche Bildgeneratoren eignen sich aktuelle Radeon-Karten bereits hervorragend. Im Bereich aufwendiger Image-to-Video-Modelle liegt NVIDIA derzeit jedoch weiterhin vorne, da viele Workflows zuerst für CUDA entwickelt und anschließend auf andere Plattformen übertragen werden. Wer bereits eine leistungsstarke Radeon RX 7900 XT oder RX 7900 XTX besitzt, sollte sich davon dennoch nicht abschrecken lassen. Die Entwicklung schreitet rasant voran und nahezu jede neue Modellgeneration verbessert die Unterstützung für AMD-Hardware weiter.
Unter Windows empfiehlt sich zunächst die Installation des aktuellen AMD Software: Adrenalin Edition-Treibers. Anschließend sollte Python installiert werden, falls es noch nicht vorhanden ist. Für viele lokale KI-Anwendungen werden außerdem Git und einige Python-Bibliotheken benötigt.
Nach der Installation von Python kann zunächst geprüft werden, ob alles korrekt eingerichtet wurde:
python --version
pip --version
Anschließend empfiehlt sich die Installation von Git:
winget install --id Git.Git
Nun kann ComfyUI heruntergeladen werden:
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
Die benötigten Python-Abhängigkeiten werden anschließend installiert:
pip install -r requirements.txt
Da viele aktuelle KI-Modelle inzwischen DirectML unterstützen, empfiehlt sich unter Windows zusätzlich die Installation von ONNX Runtime DirectML:
pip install onnxruntime-directml
Wer lokale Sprachmodelle einsetzen möchte, kann zusätzlich Ollama installieren. Unter Windows erfolgt dies am einfachsten über den offiziellen Installer oder alternativ per Winget:
winget install Ollama.Ollama
Nach der Installation wird Ollama gestartet:
ollama serve
Nun kann bereits das erste Modell heruntergeladen werden. Beispielsweise Gemma 3:
ollama run gemma3
Oder alternativ Qwen 3:
ollama run qwen3
ComfyUI wird anschließend über folgenden Befehl gestartet:
python main.py
Die Benutzeroberfläche ist danach wie gewohnt unter folgender Adresse erreichbar:
http://127.0.0.1:8188
Wer Linux verwendet, profitiert zusätzlich von ROCm, der offiziellen Compute-Plattform von AMD. Viele aktuelle KI-Anwendungen unterstützen ROCm inzwischen direkt und erreichen damit eine deutlich höhere Leistung als über DirectML unter Windows. Besonders Besitzer einer Radeon RX 7900 XT oder RX 7900 XTX erhalten dadurch eine sehr leistungsfähige Plattform für lokale Sprachmodelle, Stable Diffusion und zahlreiche Bildgeneratoren. Bei komplexen Image-to-Video-Modellen wie Wan 2.2 oder HunyuanVideo besitzt NVIDIA aktuell zwar weiterhin einen Geschwindigkeitsvorteil, doch der Abstand wird mit jeder neuen Softwareversion kleiner. Für viele alltägliche KI-Aufgaben sind moderne Radeon-Grafikkarten bereits heute eine interessante Alternative und ermöglichen einen vollständig lokalen Betrieb ohne Cloud-Dienste oder laufende Kosten.
Typische Fehler
Gerade beim ersten Start treten häufig ähnliche Probleme auf. Fehlt ein Modell, erscheint meist eine rote Fehlermeldung. In diesem Fall sollte überprüft werden, ob sämtliche Dateien im richtigen Ordner liegen.
Bei einem Fehler aufgrund von zu wenig Grafikspeicher helfen häufig bereits kleinere Anpassungen:
- Auflösung reduzieren.
- Weniger Bilder pro Sekunde verwenden.
- Ein FP8-Modell einsetzen.
- ComfyUI vollständig neu starten.
Auch ein deutlich kürzerer Prompt kann manchmal bessere Ergebnisse liefern. Moderne Modelle bevorzugen häufig klare und präzise Beschreibungen gegenüber langen Romanen.
Fazit
Lokale KI-Videoerstellung wirkt auf den ersten Blick deutlich komplizierter, als sie tatsächlich ist. Ist ComfyUI einmal eingerichtet, reduziert sich der gesamte Ablauf auf wenige Schritte: Bild auswählen, Prompt schreiben, Workflow starten und das fertige Video exportieren. Gerade Besitzer einer RTX 3090 profitieren vom großen Videospeicher und können aktuelle Image-to-Video-Modelle wie Wan 2.2 problemlos lokal betreiben. Der größte Vorteil bleibt dabei die vollständige Kontrolle über sämtliche Daten. Bilder und Videos verlassen den eigenen Rechner nicht, laufende Kosten entfallen und auch längere Experimente sind jederzeit möglich. Für alle, die tiefer in das Thema einsteigen möchten, bildet ComfyUI damit eine hervorragende Grundlage und öffnet die Tür zu einer ganzen Welt lokaler KI-Anwendungen.
