Gemini: Videos aus Text erstellen – Schritt für Schritt
Was ist Gemini, und kann es wirklich Videos erzeugen?
Gemini ist der KI-Assistent von Google – erreichbar im Browser, steuerbar durch normale Sprache oder Text. Für die Videogenerierung ist das Modell Veo 3.1 direkt in Gemini integriert. Du beschreibst eine Szene, und Gemini erzeugt daraus einen kurzen Videoclip als herunterladbare Datei. Die Funktion ist in Deutschland verfügbar – für das bezahlte Abo Google One AI Premium.
Was Gemini ist
Gemini wird von Google entwickelt und ist über gemini.google.com im Browser erreichbar. Ein Google-Konto genügt zur Anmeldung – wer bereits Gmail oder Google Drive nutzt, ist damit bereits registriert. Gemini ist ein KI-Assistent, der auf Texteingaben reagiert: Du schreibst eine Frage oder eine Aufgabe, Gemini antwortet. Der Unterschied zu anderen KI-Systemen im Bereich Video ist, dass Gemini die Videoerzeugung direkt eingebaut hat. Das Modell, das diese Funktion übernimmt, heißt Veo 3.1 und stammt von Google DeepMind. Du musst kein separates Werkzeug aufrufen – du beschreibst deine Szene im normalen Chat-Fenster, und Gemini erzeugt daraus den Clip.
Wo Gemini bei Videos wirklich beeindruckt
Veo 3.1 setzt Textbeschreibungen in kurze Videoclips um – bis zu acht Sekunden, ausgegeben als 720p MP4. Das klingt nach wenig, ist aber für eine stimmungsvolle Eingangsszene, einen kurzen Teaser oder eine bewegte Ankündigung mehr als ausreichend. Die erzeugten Clips haben echte Kamerabewegungen, Lichtänderungen und Tiefenschärfe. Sie sehen nicht aus wie Diashow-Bilder – sie wirken wie kurze Filmaufnahmen.
Gemini versteht Beschreibungen auf Deutsch zuverlässig. Stimmungsangaben („warm und nostalgisch“), Perspektiven („Nahaufnahme“, „Vogelperspektive“), Zeitangaben („Herbstmorgen“, „goldene Stunde“) – das System setzt auch nuancierte Vorgaben erkennbar um. Wer bereits das Google-Ökosystem nutzt (Google Drive, Google Fotos, Gmail), findet sich in Gemini schnell zurecht, denn die Oberfläche und die Anmeldung funktionieren auf dieselbe Weise.
Ein weiterer Vorteil: Gemini kann nicht nur Videos, sondern auch Texte, Bilder und Bildbeschreibungen verarbeiten. Wer im selben Gespräch erst ein Skript entwickeln und dann einen Clip dazu erzeugen möchte, kann das ohne Systemwechsel tun.
Wo die Grenzen liegen
Acht Sekunden sind die aktuelle Längenobergrenze. Das reicht für einen Teaser oder eine Eingangsszene, nicht für eine erzählerische Geschichte. Wer ein Video mit mehreren Szenen, Schnitt und dramaturgischem Aufbau möchte, wird mit Veo 3.1 allein nicht weit kommen.
Ton ist in der aktuellen Version nicht enthalten. Die erzeugten Clips sind stumm. Wer Musik, Sprache oder Geräusche zum Video hinzufügen möchte, tut das in einem zweiten Schritt – mit einem separaten Videoeditor oder einer App wie CapCut.
Die Ausgabequalität ist 720p. Für die Weitergabe per Messenger, für Vereinspräsentationen auf einem Bildschirm oder für soziale Medien reicht das. Für professionelle Videoproduktionen oder großformatige Bildschirme ist es kein Kinoformat.
Veo 3.1 ist für kurze Clips ausgelegt, nicht für animierte Erklärvideos, Trickfilm-Sequenzen oder lange Dokumentarformate. Je genauer und bildlicher deine Beschreibung, desto besser das Ergebnis – aber bei sehr komplexen Szenen mit vielen gleichzeitigen Elementen kann das Ergebnis von der Vorstellung abweichen.
Im Vergleich
ChatGPT unterstützt beim Schreiben von Videoskripten und Storyboards sehr gut – kann aber in der EU keine Videos direkt erzeugen, da der zugehörige Generator (Sora) für europäische Nutzerinnen und Nutzer nicht verfügbar ist. Gemini ist damit das einzige der großen KI-Systeme, mit dem du von Deutschland aus tatsächlich einen Clip herunterladen kannst.
So sieht das in der Praxis aus
Du möchtest nach einem Urlaub einen kurzen Clip verschicken, der die Stimmung des Urlaubs einfangt – als persönlichere Alternative zum Foto-Album. Du beschreibst in Gemini eine typische Szene aus dem Urlaub: eine Meeresbucht im Abendlicht, ein Bergpfad im Morgennebel, ein belebter Marktplatz in der Mittagssonne. Gemini erzeugt daraus einen achtsekündigen Clip, den du als MP4 herunterladen und per Messenger oder E-Mail teilen kannst. Du musst kein Filmmaterial aufnehmen und kein Schnittprogramm bedienen.
Dein Verein richtet eine Veranstaltung aus und möchte auf der Website oder im Newsletter mit mehr als einem Textblock aufmerksamkeitsstark einladen. Du beschreibst, was die Veranstaltung ausmacht – eine festliche Atmosphäre, ein Vereinsheim, Menschen im Gespräch, warmem Licht – und Gemini erzeugt einen kurzen, stimmungsvollen Clip. Dieser kann als Hintergrundvideo in eine Webseite eingebettet oder vor einen Ankündigungstext gestellt werden.
Zum runden Geburtstag einer Person, die dir wichtig ist, möchtest du etwas Persönliches gestalten. Du beschreibst eine Szene, die zu ihrer Lebensgeschichte passt – ein Garten im Frühling, eine Berglandschaft, ein altes Stadtbild. Gemini erzeugt daraus einen kurzen Clip, den du mit einem Videoeditor um Fotos, Musik und einen persoönlichen Text ergänzt. Das Ergebnis ist kein professioneller Film – aber ein durchdachtes, selbst gestaltetes Geschenk.
Für Videos, die länger als acht Sekunden sein sollen, Ton enthalten sollen oder mit eigenem Filmmaterial kombiniert werden sollen, sind spezialisierte Apps die bessere Wahl. CapCut, Runway und andere Werkzeuge aus der Reihe Apps mit KI bieten mehr Kontrolle über Länge, Schnitt, Ton und Stil. Sie sind ebenfalls ohne Vorkenntnisse nutzbar und auf geältere Nutzerinnen und Nutzer abgestimmt.
Direkt ausprobieren: So sprichst du mit Gemini
In Gemini gibst du deine Videobeschreibung als normalen deutschen Satz ein. Gemini liest ihn und erzeugt daraus den Clip. Der Text, den du eingibst, nennt sich Prompt. Je genauer du ihn formulierst, desto gezielter das Ergebnis. Hier sind drei Beschreibungen, die du direkt kopieren und in Gemini eingeben kannst:
Zum Kopieren:
Erstelle ein kurzes Video: Ein älteres Paar spaziert an einem Herbstmorgen durch einen bunten Park. Warmes Licht, ruhige Atmosphäre.
Was passiert dann?
Gemini erzeugt einen achtsekündigen Clip mit einer Parkszene im Herbstlicht. Kamerabewegung, Farbpalette und Licht entsprechen der Stimmungsbeschreibung. Das Ergebnis kannst du sofort herunterladen.
Warum funktioniert das gut?
Motiv, Tageszeit, Stimmung – drei Elemente reichen für ein erstes, brauchbares Ergebnis. Von hier aus kannst du die Beschreibung schrittweise präzisieren.
Zum Kopieren:
Erstelle ein kurzes Video: Eine ruhige Meeresbucht bei Sonnenuntergang. Das Wasser spiegelt das orange-goldene Licht. Leichte Wellen, keine Menschen. Kamera langsam schwenkend von links nach rechts.
Was passiert dann?
Gemini erzeugt eine Abendszene am Meer mit der beschriebenen Farbstimmung und einer sanften Schwenkbewegung. Der Clip sieht aus wie eine kurze Drohnenaufnahme oder eine ruhige Kamerafahrt.
Warum funktioniert das gut?
Farbangabe („orange-golden“), Bewegungsangabe („Kamera schwenkend“) und ein ausdrücklicher Ausschluss („keine Menschen“) geben Gemini einen sehr präzisen Rahmen. Das Ergebnis ist entsprechend fokussierter.
Zum Kopieren:
Erstelle ein kurzes Video: Nahaufnahme einer alten Holzbank in einem herbstlichen Garten. Gelbe und rote Blätter fallen langsam herab. Weiches, diffuses Licht wie an einem bewölkten Tag. Kamera leicht unschärfe im Hintergrund. Stimmung: nostalgisch, ruhig, erinnerungsvoll.
Was passiert dann?
Gemini erzeugt eine Nahaufnahme mit Tiefenschärfe und Bokeh-Effekt im Hintergrund. Die fallenden Blätter sind in Bewegung, das Licht wirkt bewusst gefältert. Der Clip wirkt wie ein Filmmoment aus einem ruhigen Drama.
Warum funktioniert das gut?
Kameraangabe („Nahaufnahme“, „Unschärfe im Hintergrund“), eine konkrete Bildwelt (Holzbank, fallende Blätter) und eine emotionale Stimmungsangabe („nostalgisch“) zusammen geben Gemini alle nötigen Informationen für ein gezieltes Ergebnis.
Schnellstart – Schritt für Schritt
Schritt 1: Anmelden
- Seite aufrufen: Öffne gemini.google.com im Browser – Chrome, Firefox oder Edge funktionieren alle.
- Google-Konto: Klicke auf „Anmelden“ und gib deine Google-Kontodaten ein. Wer bereits Gmail oder Google Drive nutzt, hat automatisch ein Google-Konto.
- Kein Konto vorhanden? Unter „Konto erstellen“ lässt sich kostenlos ein Google-Konto einrichten. Eine bestehende E-Mail-Adresse kann dafür verwendet werden.
- Abo aktivieren: Die Videofunktion ist im kostenpflichtigen Google One AI Premium enthalten. Klicke in der linken Seitenleiste auf „Gemini Advanced“ oder „Abonnieren“ und folge den Anweisungen. Kosten: 21,99 Euro pro Monat, inkl. 2 TB Google-Speicher.
Schritt 2: Video erzeugen
- Textfeld öffnen: Im Hauptbereich von Gemini siehst du ein Eingabefeld. Hier tippst du deine Szenenb eschreibung ein.
- Beschreibung eingeben: Schreib, was du dir vorstellst – zum Beispiel einen der Prompts aus dem Abschnitt oben. Du kannst auf Deutsch schreiben.
- Auf Senden klicken: Drücke Enter oder klicke auf den Sende-Pfeil. Gemini verarbeitet die Anfrage und erzeugt innerhalb von etwa zwanzig bis dreißig Sekunden einen Clip.
- Video erscheint als Player: Das Ergebnis erscheint direkt unter deiner Eingabe als abspielbarer Videobereich. Klicke auf Play, um den Clip anzusehen.
Schritt 3: Ergebnis prüfen und verfeinern
- Passt der Clip? Wenn das Ergebnis gut ist, fahre mit dem nächsten Schritt fort. Wenn nicht, passe die Beschreibung an und erzeuge eine neue Version.
- Variante erzeugen: Schreib „Noch eine Variante“ oder „Diesmal mehr Bewegung im Vordergrund“ – Gemini erzeugt eine neue Version auf Basis der gleichen Grundidee.
- Details anpassen: Wenn ein Element fehlt oder stört, formuliere gezielt: „Ohne Personen im Hintergrund“, „Die Stimmung soll wärmer wirken“, „Kamera ruhiger“.
Schritt 4: Video herunterladen und weiterverarbeiten
- Herunterladen: Neben dem Video-Player erscheint ein Download-Symbol. Klicke darauf, um den Clip als MP4-Datei auf deinem Gerät zu speichern.
- Weiterverarbeiten: Den heruntergeladenen Clip kannst du in einem einfachen Videoeditor (z. B. CapCut, iMovie, Windows-Fotos) mit Musik, Text oder anderen Clips kombinieren.
- Teilen: Als MP4-Datei lässt sich der Clip per E-Mail, Messenger oder als Anhang in einer Präsentation weitergeben.
- Nutzungsrechte: Für private, nicht-kommerzielle Nutzung kannst du die erzeugten Clips ohne Einschränkung verwenden. Für öffentliche Veröffentlichung oder kommerzielle Nutzung empfiehlt sich ein Blick in die Nutzungsbedingungen von Google.
Typische Stolpersteine – und wie du sie vermeidest
Wenn das Ergebnis beliebig aussieht und nicht zur gewünschten Stimmung passt, war die Beschreibung wahrscheinlich zu kurz. Ergänze konkrete Details: eine Tageszeit, ein Lichtverhältnis, eine Kameraangabe („Nahaufnahme“, „langsamer Schwenk“) oder eine emotionale Stimmungsangabe („ruhig und nostalgisch“). Jedes zusätzliche Detail hilft Gemini, das Ergebnis einzugrenzen.
Falls Gemini auf deine Beschreibung nur mit Text antwortet statt einen Clip zu erzeugen, prüfe zwei Dinge: Erstens, ob das Google One AI Premium-Abo aktiv ist – die Videofunktion ist nur in der bezahlten Version enthalten. Zweitens, ob du mit deinem Google-Konto angemeldet bist. Manchmal hilft es, die Anfrage direkter zu formulieren: „Erstelle ein kurzes Video:“ als Einleitung vor die Beschreibung setzen.
Veo 3.1 erzeugt Clips bis zu acht Sekunden. Wenn das Ergebnis kürzer wirkt oder ein abrupter Schnitt zu sehen ist, liegt das an der Szenenkomplexität. Eine ruhigere Szene mit weniger Bewegungselementen ergibt in der Regel einen flüssigeren Clip. Versuche, die Beschreibung auf eine einzige, ruhige Kamerabewegung zu fokussieren.
Was ist neu?
Google hat Veo 3.1 in die Gemini-Advanced-Version integriert – verfügbar auch für Deutschland. Die aktuelle Version erzeugt Clips bis zu acht Sekunden in 720p-Qualität. Gegenüber der Vorgängerversion hat sich die Qualität der Kamerabewegungen und die Texttreue verbessert. Ton ist noch nicht enthalten.
Quelle: Google Blog, 2026
Recherche-Stand: 05/2026
Wichtige Hinweise
Die kostenlose Version von Gemini enthält keine Videogenerierung. Für Videoclips via Veo 3.1 ist Google One AI Premium erforderlich: 21,99 Euro pro Monat, inklusive 2 TB Google-Speicher und Gemini Advanced. Stand: 05/2026. Aktuelle Preise bei Google.
Gemini verarbeitet Eingaben auf Google-Servern in den USA. Alle über Veo 3.1 erzeugten Videoclips tragen ein unsichtbares digitales Wasserzeichen (SynthID) – ein Hinweis darauf, dass der Clip KI-erzeugt wurde. Für das Abspielen und private Weitergeben ist das irrelevant. Daten aus dem Gespräch können für die Modellverbesserung genutzt werden; ein Opt-out ist in den Google-Kontoeinstellungen möglich. Für private, nicht-öffentliche Nutzung der Clips gibt es keine Einschränkungen.
Offizielle Links:
Gemini |
Google One AI Premium – Preise |
Datenschutzerklärung Google
