Die Konvertierung von Videodateien in Audiodateien kann aus vielen Gründen nützlich sein: Ob du die Audiospur eines Vortrags, eines Tutorials oder Podcasts extrahieren möchtest, um es bequem unterwegs anzuhören – das OGG-Format ist ideal für eine effiziente, verlustbehaftete Kompression.
Neben der Konvertierung von Dateien ist auch die Nutzung der Whisper API eine hilfreiche Methode, um Audiodateien zu transkribieren. Allerdings gibt es Beschränkungen bei der Nutzung der API, insbesondere wenn man große Mengen (25 MB ist das Limit) an Audio transkribieren möchte. In diesem Blog erfährst du, wie du ein einfaches Bash-Skript zur Konvertierung von Videos in OGG-Dateien erstellst und gleichzeitig Strategien anwendest, um das Whisper API Limit zu umgehen.
Wenn du Unterstützung benötigst, dann schreibe mir eine E-Mail oder vereinbare gleich einen Termin mit mir.
Warum solltest du Long Format transkribieren?
Das Transkribieren von Long-Format-Audiodateien (wie Podcasts, Interviews, Vorträge, Webinare oder Schulungen) bringt viele Vorteile mit sich. Hier sind einige Gründe, warum es sinnvoll ist, längere Audioinhalte in Textform zu bringen:
1. Bessere Auffindbarkeit und SEO-Vorteile
- Suchmaschinenoptimierung (SEO) profitiert erheblich von transkribierten Inhalten. Suchmaschinen können den Inhalt von Audiodateien nicht direkt analysieren, aber Texte können durchsucht und indiziert werden.
- Eine Transkription sorgt dafür, dass der Inhalt von Podcasts oder Webinaren in Suchmaschinen auftaucht, was die Reichweite erhöht und zu einem besseren Ranking beiträgt.
2. Barrierefreiheit erhöhen
- Nicht alle Menschen können oder wollen Audiodateien anhören – beispielsweise Menschen mit Hörbehinderungen. Durch die Transkription von Inhalten machst du sie für ein größeres Publikum zugänglich und förderst die Inklusion.
- Es gibt auch Menschen, die in einer Umgebung sind, in der sie keinen Ton hören können oder wollen (z. B. in der Bahn oder bei der Arbeit).
3. Schnelles Scannen und Zitieren
- Lange Audioformate können schwer zu durchsuchen sein. Mit einem Textdokument können Nutzer die Inhalte schnell durchlesen, nach Stichwörtern suchen und gezielt auf bestimmte Abschnitte zugreifen.
- Transkriptionen ermöglichen es auch, Zitate oder wichtige Informationen einfach herauszuziehen und weiterzuverwenden, etwa in Berichten, Artikeln oder Präsentationen.
4. Wiederverwendung des Inhalts
- Transkriptionen können leicht in andere Formate umgewandelt werden, z. B. in Blogbeiträge, Social-Media-Posts oder Newsletter. Dies maximiert die Reichweite des ursprünglichen Inhalts und erhöht den Wert deiner Inhalte.
- Außerdem kannst du aus einer Transkription kürzere Textabschnitte für verschiedene Content-Strategien verwenden, etwa als Teaser oder Zusammenfassungen.
5. Mehrwert für deine Hörer/Leser
- Einige Menschen bevorzugen es, Informationen in Textform aufzunehmen, anstatt sich lange Audioinhalte anzuhören. Eine Transkription bietet deinen Nutzern die Möglichkeit, den Inhalt so zu konsumieren, wie es ihnen am besten passt.
- Dies erhöht die User Experience und macht es wahrscheinlicher, dass deine Inhalte häufiger geteilt oder empfohlen werden.
6. Erweiterung der internationalen Reichweite
- Eine Transkription ermöglicht es, den Inhalt einfacher in verschiedene Sprachen zu übersetzen und somit eine internationale Zielgruppe anzusprechen.
- Tools wie Maschinenübersetzungen (z. B. Google Translate) funktionieren wesentlich besser mit Text als mit Audio.
7. Bildung und Forschung
- Für Studien, Forschung oder Schulungen ist es oft notwendig, Inhalte aus Vorträgen oder Interviews in Textform zu haben, um sie zu analysieren, zu kommentieren oder darauf Bezug zu nehmen.
- Studierende oder Wissenschaftler können Transkriptionen leicht durchlesen und relevante Informationen für ihre Arbeiten markieren.
8. Zeitersparnis
- Eine lange Audiodatei durchzuhören kann viel Zeit in Anspruch nehmen. Mit einer Transkription können die Inhalte deutlich schneller erfasst und verstanden werden. Das ist besonders in professionellen Kontexten hilfreich, wo es darauf ankommt, Informationen effizient zu verarbeiten.
9. Dokumentation
- Eine Transkription kann als dauerhafte Aufzeichnung für Meetings, Interviews oder Diskussionen dienen. Das erleichtert es, später auf wichtige Informationen zurückzugreifen oder Entscheidungen nachzuvollziehen.
- Für rechtliche oder formale Zwecke kann eine schriftliche Version von Gesprächen oder Interviews notwendig sein.
Das Transkribieren von Long-Format-Audiodateien bietet erhebliche Vorteile in Bezug auf Zugänglichkeit, Auffindbarkeit und Wiederverwendung von Inhalten. Es ermöglicht es dir, das volle Potenzial deines Audioinhalts auszuschöpfen und ihn einem breiteren Publikum zugänglich zu machen. Ob es um SEO, Barrierefreiheit oder Content-Strategien geht – Transkriptionen spielen eine Schlüsselrolle, um den Wert deiner Inhalte zu maximieren.
Was ist das OGG-Format?
OGG ist ein freies und offenes Containerformat, das für die effiziente Speicherung und Übertragung von Audiodaten entwickelt wurde. Es wird häufig in der Musikindustrie verwendet, da es eine ausgezeichnete Balance zwischen Dateigröße und Klangqualität bietet.
Was ist die Whisper API?
Die Whisper API von OpenAI ermöglicht es, Audiodateien in Text umzuwandeln. Das Problem, auf das viele Nutzer stoßen, ist die Begrenzung der Anfragen, was besonders dann ärgerlich sein kann, wenn man große Mengen von Audiodateien transkribieren muss. Ein häufiges Anliegen ist es, Möglichkeiten zu finden, um diese Limits zu umgehen und mehr Inhalte verarbeiten zu können.
Wie konvertierst du Videos in OGG-Dateien?
Voraussetzungen
- ffmpeg: Ein leistungsstarkes Kommandozeilen-Tool zur Bearbeitung von Multimedia-Dateien.
- WSL (Windows Subsystem for Linux) oder eine Linux/Mac-Terminal-Umgebung.
- Whisper API (optional, für die anschließende Transkription).
1. Installation von ffmpeg
Falls ffmpeg
nicht installiert ist, kannst du es in deiner Unix-Umgebung (WSL, Linux, etc.) einfach mit den folgenden Befehlen installieren:
sudo apt update
sudo apt install ffmpeg
2. Das Bash-Skript zur Konvertierung erstellen
Hier ist ein Beispielskript, das alle .mp4
-Dateien in einem Verzeichnis in das .ogg
-Format umwandelt:
#!/bin/bash
# Verzeichnis, in dem sich die .mp4-Dateien befinden
INPUT_DIR="/mnt/c/Users/user/Downloads/"
OUTPUT_DIR="/mnt/c/Users/user/Downloads/"
# Audioeinstellungen
AUDIO_CODEC="libopus"
BITRATE="12k"
CHANNELS="2"
APPLICATION="audio"
# Schleife durch alle .mp4 Dateien im Eingangsverzeichnis
for INPUT_FILE in "$INPUT_DIR"/*.mp4; do
if [ ! -e "$INPUT_FILE" ]; then
echo "Keine MP4-Dateien im Verzeichnis $INPUT_DIR gefunden."
exit 0
fi
# Dateiname ohne Erweiterung
BASENAME=$(basename "$INPUT_FILE" .mp4)
OUTPUT_FILE="$OUTPUT_DIR/${BASENAME}.ogg"
echo "Konvertiere $INPUT_FILE zu $OUTPUT_FILE..."
# Konvertierung
ffmpeg -i "$INPUT_FILE" \
-vn \
-map_metadata -1 \
-ac "$CHANNELS" \
-c:a "$AUDIO_CODEC" \
-b:a "$BITRATE" \
-application "$APPLICATION" \
"$OUTPUT_FILE"
if [ $? -eq 0 ]; then
echo "Erfolgreich konvertiert: $INPUT_FILE zu $OUTPUT_FILE"
else
echo "Fehler bei der Konvertierung von $INPUT_FILE"
fi
done
echo "Alle Konvertierungen abgeschlossen!"
3. Das Skript ausführbar machen und ausführen
Nachdem du das Skript erstellt und z.B. als convert_to_ogg.sh
gespeichert hast, machst du es mit dem folgenden Befehl ausführbar:
chmod +x convert_to_ogg.sh
Dann führst du es mit:
./convert_to_ogg.sh
Das Skript konvertiert alle .mp4
-Dateien im angegebenen Verzeichnis in das .ogg
-Format und speichert die Audiodateien im gleichen Ordner.
Whisper API und API Limits – Lösungen und Ansätze
Bei der Nutzung der Whisper API kann es zu Problemen kommen, wenn du viele Audiodateien transkribieren möchtest, da die Anzahl der Anfragen pro Zeiteinheit begrenzt ist. Hier sind einige Strategien, wie du das Whisper API Limit umgehen kannst:
1. Batch-Processing mit Bash
Statt alle Dateien auf einmal zu verarbeiten, kannst du mit Script erstellen, dass es Dateien in kleinen Mengen verarbeitet. Dies reduziert die Anzahl der API-Anfragen pro Zeiteinheit und hilft, das Limit nicht zu überschreiten.
#!/bin/bash
# Anzahl der Dateien pro Batch
BATCH_SIZE=5
COUNTER=0
# Audiodateien verarbeiten
for FILE in "$OUTPUT_DIR"/*.ogg; do
if [ $COUNTER -ge $BATCH_SIZE ]; then
echo "Wartezeit, um API Limits zu umgehen..."
sleep 60 # Warte eine Minute, bevor die nächste Batch gestartet wird
COUNTER=0
fi
# Hier könnte der Whisper API-Aufruf zur Transkription stattfinden
whisper-cli "$FILE"
COUNTER=$((COUNTER + 1))
done
2. Batch-Processing mit Make
Make.com ist eine leistungsstarke No-Code/Low-Code Automatisierungsplattform (früher bekannt als Integromat), die es Benutzern ermöglicht, Workflows zu automatisieren, indem sie verschiedene Apps, Services und Tools miteinander verbinden.
Make.com bietet eine visuelle Oberfläche, mit der du komplexe Automatisierungen ohne Programmierkenntnisse erstellen kannst. Es ist eine Alternative zu Tools wie Zapier und eignet sich für die Automatisierung wiederholbarer Aufgaben in einer Vielzahl von Anwendungsbereichen, von Marketing über Vertrieb bis hin zu IT-Prozessen.
Auf dem Screenshot ist der Automationsprozess in Make.com abgebildet, der dazu dient, eine Audiodatei zu transkribieren und zusammenzufassen. Dieser Prozess besteht aus mehreren Schritten, die nacheinander ausgeführt werden. Hier ist eine Erklärung der einzelnen Schritte:
1. Google Drive – Watch Files in a Folder
- Der Prozess beginnt damit, dass Make.com ein bestimmtes Verzeichnis auf Google Drive überwacht.
- Sobald eine neue Datei (in diesem Fall eine Audiodatei) in den Ordner hochgeladen wird, löst dies den Prozess aus.
2. Google Drive – Download a File
- Nach dem Hochladen der Datei wird diese aus dem überwachten Ordner heruntergeladen, um im nächsten Schritt verarbeitet zu werden.
3. OpenAI Whisper – Create a Transcription (Whisper)
- Die heruntergeladene Audiodatei wird dann mit der Whisper API von OpenAI transkribiert.
- Whisper ist ein fortschrittliches Spracherkennungssystem, das Audiodateien in Text umwandelt. Dieser Schritt erstellt also eine Texttranskription der Audiodatei.
4. OpenAI ChatGPT – Create a Completion (Prompt)
- Der transkribierte Text wird anschließend an ChatGPT weitergegeben, um eine Zusammenfassung oder eine weitere Analyse des Inhalts zu erstellen.
- Hier wird wahrscheinlich ein Prompt an ChatGPT gesendet, der den transkribierten Text zusammenfasst oder bestimmte Informationen daraus extrahiert.
5. Google Drive – Create a File from Text (Transcription)
- Der erstellte Text (also die Transkription) wird in einer neuen Textdatei gespeichert und in einem festgelegten Verzeichnis auf Google Drive abgelegt.
6. Google Drive – Create a File from Text (Summary)
- Ebenso wird die Zusammenfassung, die von ChatGPT erstellt wurde, als separate Datei auf Google Drive gespeichert.
Fazit
Dieser Prozess ist nützlich, um automatisch Audiodateien in Text zu transkribieren und deren Inhalte zusammenzufassen. Alle Dateien werden am Ende zentral in Google Drive gespeichert, was den Zugriff und die Verwaltung der erstellten Dokumente erleichtert.
Falls du Fragen zu weiteren Details hast oder wissen möchtest, wie du diesen Workflow anpassen kannst, lass es mich wissen!