Skip to main content
AI Tool Radar
Workflows

Von Blog-Post zu YouTube-Video in 30 Minuten mit KI: mein Workflow

Schritt-fuer-Schritt-Begleitung durch den Workflow, mit dem ich einen fertigen Blog-Post in etwa einer halben Stunde in ein publiziertes YouTube-Video verwandle. Nicht theoretisch, nur die Tools und die Reihenfolge.

6 min read2026-04-10Von Roland Hentschel
content repurposingyoutubeki videoworkflowski voice

Warum das jetzt ueberhaupt moeglich ist#

Vor zwei Jahren waere die Headline eine Luege gewesen. Die Video-Qualitaet war schlecht, die KI-Stimmen klangen wie gelangweilte Ansager, und die Caption-Tools brauchten manuelle Nachbearbeitung.

Das hat sich irgendwann 2025 geaendert. Zwischen ElevenLabs v3, anstaendigen Stockfootage-Bibliotheken und Descripts Transkript-basierter Bearbeitung ist die Pipeline von geschriebenem Content zu fertigem Video-Clip jetzt wirklich 30 Minuten Aufmerksamkeit pro Stueck, wenn Ihr Ausgangsmaterial gut ist.

Das ist der Workflow, den ich fuer meinen eigenen Kunden-Content und fuer die woechentlichen Update-Videos auf aitoolradar.io nutze. Es ist nicht der bestmoegliche Workflow. Es ist der, bei dem ich tatsaechlich dranbleibe.

Vorher: Was das Quellmaterial braucht#

Die ganze Pipeline faellt auseinander, wenn der Blog-Post schwach ist. Ich habe das auf die harte Tour gelernt. Ein schlechter Artikel wird ein schlechtes Video, und keine Menge schickes Editing versteckt das.

Meine Mindestanforderungen, bevor ich einen Post wiederverwende:

  • Mindestens 1.200 Woerter echte Substanz
  • Klare Abschnitts-Ueberschriften, die zu visuellen Momenten passen
  • Mindestens ein konkretes Beispiel oder eine Zahl pro Abschnitt
  • Ein spezifischer Leser im Kopf, keine generische Zielgruppe

Wenn der Post eine dieser Anforderungen nicht erfuellt, schreibe ich ihn um, bevor ich ihn wiederverwende. Ueberspringen Sie das nicht.

Schritt 1 (5 Min): Blog-Post in Skript zerlegen#

Ich oeffne den Blog-Post und reduziere ihn auf die Teile, die gesprochen funktionieren. Geschriebene Artikel haben viel Bindegewebe, das seltsam klingt, wenn es vorgelesen wird. Phrasen wie "wie oben erwaehnt" und "darauf gehen wir unten ein" fallen raus.

Ich teile auch jeden Satz ueber 20 Woertern. Geschriebene Prosa toleriert lange Saetze. Gesprochene Narration nicht.

Claude uebernimmt etwa 70 Prozent dieser Arbeit. Mein Prompt lautet ungefaehr:

Nimm den folgenden Blog-Post und schreibe ihn als gesprochene Narration um. Behalte Struktur und Fakten identisch, aber kuerze Saetze, entferne Verweise auf "diesen Artikel" oder "unten", und lass es klingen wie eine Person, die mit einer anderen spricht. Fuege keinen neuen Content hinzu.

Ich lese den Output einmal und streiche manuell alles, was noch geschrieben klingt.

Schritt 2 (3 Min): Stimme in ElevenLabs generieren#

Ich nutze meine eigene geklonte Stimme in ElevenLabs, die ich vor Monaten einmal eingerichtet habe. Wenn Sie Ihre Stimme nicht klonen wollen, sind die Standard-Stimmen gut genug, dass die meisten Zuschauer es nicht merken.

Die Schluessel-Einstellung ist Stability. Ich fahre meine bei etwa 35 Prozent fuer die Haupt-Narration. Zu niedrig und die Stimme wird komisch; zu hoch und sie klingt flach. Testen Sie auf einem 30-Sekunden-Sample, bevor Sie das volle Skript rendern.

Fuer ein 1.500-Wort-Skript liegt die Render-Zeit bei vielleicht zwei Minuten. Ich exportiere als MP3 mit 128 kbps, was fuer YouTube Overkill ist, aber jede Konvertierungs-Kopfschmerzen spaeter vermeidet.

Schritt 3 (10 Min): Visuals in Descript zusammenbauen#

Hier habe ich frueher drei Stunden verbracht. Jetzt sind es 10 Minuten, dank einer Aenderung: Ich habe aufgehoert, massgeschneiderte B-Roll zu produzieren.

Meine aktuelle Regel: Stockfootage plus Bildschirmaufnahmen plus Text-Overlays, nichts Custom. Descript handhabt das alles in einer Timeline. Ich importiere die MP3 aus ElevenLabs, fuege das Skript als Captions ein, und Descript synchronisiert automatisch.

Fuer Visuals nutze ich eine Mischung aus:

  • Stock-Clips aus Descripts eingebauter Bibliothek (Storyblocks)
  • Screenshots der Tools, die ich erwaehne, in 1920x1080
  • Text-Overlays fuer Zahlen und Kern-Phrasen
  • Gelegentlich eine gebrandete Titelkarte

Die Regel, die ich mir selbst auferlege: ein Visual-Wechsel alle 5-8 Sekunden. Statische Visuals auf YouTube toeten die Retention innerhalb von 30 Sekunden.

Fuer den vollen Funktionsumfang siehe den Descript-Guide. Ich nutze ihn noch im Pro-Plan, was fuer woechentliche Videos reicht.

Schritt 4 (5 Min): Auto-Edit mit Descripts KI-Features#

Hier kumulieren die Zeitersparnisse. Descripts Fuellwort-Entfernung, Magic Edit und Auto-Chapters laufen parallel in vielleicht zwei Minuten. Ich reviewe die Schnitte manuell (die KI entfernt gelegentlich Woerter, die sie nicht sollte), aber 90 Prozent der Edits sind in Ordnung.

Ich lasse auch Descripts Auto-Captioning laufen, das genauer ist als YouTubes native Captions. Ich exportiere die SRT-Datei zum separaten Upload.

Schritt 5 (3 Min): Short-Form-Clips mit Opus Clip#

Wenn das volle Video laenger als drei Minuten ist, jage ich es auch durch Opus Clip, um kurze Clips fuer TikTok, Instagram Reels und YouTube Shorts zu generieren. Opus waehlt die Momente und fuegt vertikale Captions automatisch hinzu.

Der Output ist nicht perfekt. Ich lehne etwa 40 Prozent der vorgeschlagenen Clips ab. Aber die 60 Prozent, die ich behalte, haetten mich jeweils eine Stunde manueller Produktion gekostet.

Schritt 6 (4 Min): Upload und Scheduling#

YouTube, Shorts und andere Plattformen. Ich nutze YouTubes natives Scheduling, also ist das nur Hochladen der MP4 plus SRT, Schreiben einer Beschreibung mit einem Link zurueck zum Blog-Post und Auswaehlen eines Thumbnails.

Fuer Thumbnails habe ich aufgehoert, KI-Generierung zu nutzen. Die Click-Through-Raten waren schlecht. Ich nutze Canva mit einem einfachen Template: Gesicht links, 3-5-Wort-Headline rechts, ein Farb-Akzent. Nichts Schickes.

Was das ersetzt#

Vor diesem Workflow war mein "Blog zu Video"-Prozess entweder:

  • Video komplett ignorieren (was ich jahrelang getan habe)
  • Mich 45 Minuten vor die Kamera setzen, drei Stunden editieren, das Ergebnis hassen

Die 30-Minuten-Pipeline ist nicht so persoenlich wie ein richtiges Talking-Head-Video. Aber ich publiziere konsistent, was mehr zaehlt als dass ein einzelnes Video grossartig ist.

Wo es bricht#

Ich will ehrlich ueber die Grenzen sein. Dieser Workflow funktioniert nicht fuer:

  • Tutorials, die echte Bildschirmaufnahme mit Live-Interaktion brauchen
  • Content, bei dem mein Gesicht vor der Kamera Ueberzeugungsarbeit leistet (Sales-Pages, vertrauenslastige Pitches)
  • Alles unter 60 Sekunden, wo das ganze Spiel der Hook ist (reiner TikTok-Content)

Dafuer nehme ich noch manuell auf. Die KI-gestuetzte Pipeline ist fuer informativen Content, bei dem die Information der Wert ist, nicht die Lieferung.

Gesamtkosten#

Monatlich fuer diesen Workflow:

  • Claude Pro: 20 $
  • ElevenLabs Creator: 22 $
  • Descript Creator: 15 $
  • Opus Clip Starter: 20 $
  • Canva Pro (fuer Thumbnails): 12,99 $

Gesamt: ungefaehr 90 $ pro Monat. Ich produziere vier bis sechs Videos pro Monat, also liegen die Tool-Kosten pro Video bei 15-22 $. Offensichtlich guenstiger als irgendeinen Editor einzustellen, und die Kosten skalieren auf null, wenn ich aufhoere zu publizieren.

Die eigentliche Lektion#

Die Videos sind nicht so gut wie das, was ein professionelles Video-Team produzieren wuerde. Aber die Alternative ist nicht professionelles Video. Die Alternative ist kein Video, weil die Zeitkosten zu hoch waren, um es zu rechtfertigen. Diese Pipeline verwandelt ein Binaer (Video oder kein Video) in einen Gradient (gut-genug Video, konsistent).

Fuer die meisten Content-Creator schlaegt konsistent-gut-genug gelegentlich-grossartig. Die KI-Pipeline ist das, was konsistent-gut-genug bezahlbar macht.


Roland Hentschel

Roland Hentschel

AI & Web Technology Expert

Web developer and AI enthusiast helping businesses navigate the rapidly evolving landscape of AI tools. Testing and comparing tools so you don't have to.

Weitere Beiträge aus dem Blog