Start
>
Blog
>
Automation
>
Wie du das Whisper API Limit umgehen und Long Format Content transkribieren kannst

Wie du das Whisper API Limit umgehen und Long Format Content transkribieren kannst

Minuten Lesedauer verbleibend

Von Antonio Blago

September 19, 2024

Zusammenfassung mit einem Klick

ChatGPT Perplexity Gemini Google KI Claude

Share 0

Tweet 0

Share 0

Die Konvertierung von Videodateien in Audiodateien kann aus vielen Gründen nützlich sein: Ob du die Audiospur eines Vortrags, eines Tutorials oder Podcasts extrahieren möchtest, um es bequem unterwegs anzuhören – das OGG-Format ist ideal für eine effiziente, verlustbehaftete Kompression.

Neben der Konvertierung von Dateien ist auch die Nutzung der Whisper API eine hilfreiche Methode, um Audiodateien zu transkribieren. Allerdings gibt es Beschränkungen bei der Nutzung der API, insbesondere wenn man große Mengen (25 MB ist das Limit) an Audio transkribieren möchte. In diesem Blog erfährst du, wie du ein einfaches Bash-Skript zur Konvertierung von Videos in OGG-Dateien erstellst und gleichzeitig Strategien anwendest, um das Whisper API Limit zu umgehen.

Wenn du Unterstützung benötigst, dann schreibe mir eine E-Mail oder vereinbare gleich einen Termin mit mir.

Warum solltest du Long Format transkribieren?

Das Transkribieren von Long-Format-Audiodateien (wie Podcasts, Interviews, Vorträge, Webinare oder Schulungen) bringt viele Vorteile mit sich. Hier sind einige Gründe, warum es sinnvoll ist, längere Audioinhalte in Textform zu bringen:

1. Bessere Auffindbarkeit und SEO-Vorteile

Suchmaschinenoptimierung (SEO) profitiert erheblich von transkribierten Inhalten. Suchmaschinen können den Inhalt von Audiodateien nicht direkt analysieren, aber Texte können durchsucht und indiziert werden.
Eine Transkription sorgt dafür, dass der Inhalt von Podcasts oder Webinaren in Suchmaschinen auftaucht, was die Reichweite erhöht und zu einem besseren Ranking beiträgt.

2. Barrierefreiheit erhöhen

Nicht alle Menschen können oder wollen Audiodateien anhören – beispielsweise Menschen mit Hörbehinderungen. Durch die Transkription von Inhalten machst du sie für ein größeres Publikum zugänglich und förderst die Inklusion.
Es gibt auch Menschen, die in einer Umgebung sind, in der sie keinen Ton hören können oder wollen (z. B. in der Bahn oder bei der Arbeit).

3. Schnelles Scannen und Zitieren

Lange Audioformate können schwer zu durchsuchen sein. Mit einem Textdokument können Nutzer die Inhalte schnell durchlesen, nach Stichwörtern suchen und gezielt auf bestimmte Abschnitte zugreifen.
Transkriptionen ermöglichen es auch, Zitate oder wichtige Informationen einfach herauszuziehen und weiterzuverwenden, etwa in Berichten, Artikeln oder Präsentationen.

4. Wiederverwendung des Inhalts

Transkriptionen können leicht in andere Formate umgewandelt werden, z. B. in Blogbeiträge, Social-Media-Posts oder Newsletter. Dies maximiert die Reichweite des ursprünglichen Inhalts und erhöht den Wert deiner Inhalte.
Außerdem kannst du aus einer Transkription kürzere Textabschnitte für verschiedene Content-Strategien verwenden, etwa als Teaser oder Zusammenfassungen.

5. Mehrwert für deine Hörer/Leser

Einige Menschen bevorzugen es, Informationen in Textform aufzunehmen, anstatt sich lange Audioinhalte anzuhören. Eine Transkription bietet deinen Nutzern die Möglichkeit, den Inhalt so zu konsumieren, wie es ihnen am besten passt.
Dies erhöht die User Experience und macht es wahrscheinlicher, dass deine Inhalte häufiger geteilt oder empfohlen werden.

6. Erweiterung der internationalen Reichweite

Eine Transkription ermöglicht es, den Inhalt einfacher in verschiedene Sprachen zu übersetzen und somit eine internationale Zielgruppe anzusprechen.
Tools wie Maschinenübersetzungen (z. B. Google Translate) funktionieren wesentlich besser mit Text als mit Audio.

7. Bildung und Forschung

Für Studien, Forschung oder Schulungen ist es oft notwendig, Inhalte aus Vorträgen oder Interviews in Textform zu haben, um sie zu analysieren, zu kommentieren oder darauf Bezug zu nehmen.
Studierende oder Wissenschaftler können Transkriptionen leicht durchlesen und relevante Informationen für ihre Arbeiten markieren.

8. Zeitersparnis

Eine lange Audiodatei durchzuhören kann viel Zeit in Anspruch nehmen. Mit einer Transkription können die Inhalte deutlich schneller erfasst und verstanden werden. Das ist besonders in professionellen Kontexten hilfreich, wo es darauf ankommt, Informationen effizient zu verarbeiten.

9. Dokumentation

Eine Transkription kann als dauerhafte Aufzeichnung für Meetings, Interviews oder Diskussionen dienen. Das erleichtert es, später auf wichtige Informationen zurückzugreifen oder Entscheidungen nachzuvollziehen.
Für rechtliche oder formale Zwecke kann eine schriftliche Version von Gesprächen oder Interviews notwendig sein.

Das Transkribieren von Long-Format-Audiodateien bietet erhebliche Vorteile in Bezug auf Zugänglichkeit, Auffindbarkeit und Wiederverwendung von Inhalten. Es ermöglicht es dir, das volle Potenzial deines Audioinhalts auszuschöpfen und ihn einem breiteren Publikum zugänglich zu machen. Ob es um SEO, Barrierefreiheit oder Content-Strategien geht – Transkriptionen spielen eine Schlüsselrolle, um den Wert deiner Inhalte zu maximieren.

Was ist das OGG-Format?

OGG ist ein freies und offenes Containerformat, das für die effiziente Speicherung und Übertragung von Audiodaten entwickelt wurde. Es wird häufig in der Musikindustrie verwendet, da es eine ausgezeichnete Balance zwischen Dateigröße und Klangqualität bietet.

Was ist die Whisper API?

Die Whisper API von OpenAI ermöglicht es, Audiodateien in Text umzuwandeln. Das Problem, auf das viele Nutzer stoßen, ist die Begrenzung der Anfragen, was besonders dann ärgerlich sein kann, wenn man große Mengen von Audiodateien transkribieren muss. Ein häufiges Anliegen ist es, Möglichkeiten zu finden, um diese Limits zu umgehen und mehr Inhalte verarbeiten zu können.

Wie konvertierst du Videos in OGG-Dateien?

Voraussetzungen

ffmpeg: Ein leistungsstarkes Kommandozeilen-Tool zur Bearbeitung von Multimedia-Dateien.
WSL (Windows Subsystem for Linux) oder eine Linux/Mac-Terminal-Umgebung.
Whisper API (optional, für die anschließende Transkription).

1. Installation von ffmpeg

Falls ffmpeg nicht installiert ist, kannst du es in deiner Unix-Umgebung (WSL, Linux, etc.) einfach mit den folgenden Befehlen installieren:

sudo apt update
sudo apt install ffmpeg

2. Das Bash-Skript zur Konvertierung erstellen

Hier ist ein Beispielskript, das alle .mp4-Dateien in einem Verzeichnis in das .ogg-Format umwandelt:

#!/bin/bash

# Verzeichnis, in dem sich die .mp4-Dateien befinden
INPUT_DIR="/mnt/c/Users/user/Downloads/"
OUTPUT_DIR="/mnt/c/Users/user/Downloads/"

# Audioeinstellungen
AUDIO_CODEC="libopus"
BITRATE="12k"
CHANNELS="2"
APPLICATION="audio"

# Schleife durch alle .mp4 Dateien im Eingangsverzeichnis
for INPUT_FILE in "$INPUT_DIR"/*.mp4; do
    if [ ! -e "$INPUT_FILE" ]; then
        echo "Keine MP4-Dateien im Verzeichnis $INPUT_DIR gefunden."
        exit 0
    fi

    # Dateiname ohne Erweiterung
    BASENAME=$(basename "$INPUT_FILE" .mp4)
    OUTPUT_FILE="$OUTPUT_DIR/${BASENAME}.ogg"

    echo "Konvertiere $INPUT_FILE zu $OUTPUT_FILE..."

    # Konvertierung
    ffmpeg -i "$INPUT_FILE" \
           -vn \
           -map_metadata -1 \
           -ac "$CHANNELS" \
           -c:a "$AUDIO_CODEC" \
           -b:a "$BITRATE" \
           -application "$APPLICATION" \
           "$OUTPUT_FILE"

    if [ $? -eq 0 ]; then
        echo "Erfolgreich konvertiert: $INPUT_FILE zu $OUTPUT_FILE"
    else
        echo "Fehler bei der Konvertierung von $INPUT_FILE"
    fi
done

echo "Alle Konvertierungen abgeschlossen!"

3. Das Skript ausführbar machen und ausführen

Nachdem du das Skript erstellt und z.B. als convert_to_ogg.sh gespeichert hast, machst du es mit dem folgenden Befehl ausführbar:

chmod +x convert_to_ogg.sh

Dann führst du es mit:

./convert_to_ogg.sh

Das Skript konvertiert alle .mp4-Dateien im angegebenen Verzeichnis in das .ogg-Format und speichert die Audiodateien im gleichen Ordner.

Whisper API und API Limits – Lösungen und Ansätze

Bei der Nutzung der Whisper API kann es zu Problemen kommen, wenn du viele Audiodateien transkribieren möchtest, da die Anzahl der Anfragen pro Zeiteinheit begrenzt ist. Hier sind einige Strategien, wie du das Whisper API Limit umgehen kannst:

1. Batch-Processing mit Bash

Statt alle Dateien auf einmal zu verarbeiten, kannst du mit Script erstellen, dass es Dateien in kleinen Mengen verarbeitet. Dies reduziert die Anzahl der API-Anfragen pro Zeiteinheit und hilft, das Limit nicht zu überschreiten.

#!/bin/bash

# Anzahl der Dateien pro Batch
BATCH_SIZE=5
COUNTER=0

# Audiodateien verarbeiten
for FILE in "$OUTPUT_DIR"/*.ogg; do
    if [ $COUNTER -ge $BATCH_SIZE ]; then
        echo "Wartezeit, um API Limits zu umgehen..."
        sleep 60  # Warte eine Minute, bevor die nächste Batch gestartet wird
        COUNTER=0
    fi

    # Hier könnte der Whisper API-Aufruf zur Transkription stattfinden
    whisper-cli "$FILE"
    
    COUNTER=$((COUNTER + 1))
done

2. Batch-Processing mit Make

Make.com ist eine leistungsstarke No-Code/Low-Code Automatisierungsplattform (früher bekannt als Integromat), die es Benutzern ermöglicht, Workflows zu automatisieren, indem sie verschiedene Apps, Services und Tools miteinander verbinden.

Make.com bietet eine visuelle Oberfläche, mit der du komplexe Automatisierungen ohne Programmierkenntnisse erstellen kannst. Es ist eine Alternative zu Tools wie Zapier und eignet sich für die Automatisierung wiederholbarer Aufgaben in einer Vielzahl von Anwendungsbereichen, von Marketing über Vertrieb bis hin zu IT-Prozessen.

Auf dem Screenshot ist der Automationsprozess in Make.com abgebildet, der dazu dient, eine Audiodatei zu transkribieren und zusammenzufassen. Dieser Prozess besteht aus mehreren Schritten, die nacheinander ausgeführt werden. Hier ist eine Erklärung der einzelnen Schritte:

1. Google Drive – Watch Files in a Folder

Der Prozess beginnt damit, dass Make.com ein bestimmtes Verzeichnis auf Google Drive überwacht.
Sobald eine neue Datei (in diesem Fall eine Audiodatei) in den Ordner hochgeladen wird, löst dies den Prozess aus.

2. Google Drive – Download a File

Nach dem Hochladen der Datei wird diese aus dem überwachten Ordner heruntergeladen, um im nächsten Schritt verarbeitet zu werden.

3. OpenAI Whisper – Create a Transcription (Whisper)

Die heruntergeladene Audiodatei wird dann mit der Whisper API von OpenAI transkribiert.
Whisper ist ein fortschrittliches Spracherkennungssystem, das Audiodateien in Text umwandelt. Dieser Schritt erstellt also eine Texttranskription der Audiodatei.

4. OpenAI ChatGPT – Create a Completion (Prompt)

Der transkribierte Text wird anschließend an ChatGPT weitergegeben, um eine Zusammenfassung oder eine weitere Analyse des Inhalts zu erstellen.
Hier wird wahrscheinlich ein Prompt an ChatGPT gesendet, der den transkribierten Text zusammenfasst oder bestimmte Informationen daraus extrahiert.

5. Google Drive – Create a File from Text (Transcription)

Der erstellte Text (also die Transkription) wird in einer neuen Textdatei gespeichert und in einem festgelegten Verzeichnis auf Google Drive abgelegt.

6. Google Drive – Create a File from Text (Summary)

Ebenso wird die Zusammenfassung, die von ChatGPT erstellt wurde, als separate Datei auf Google Drive gespeichert.

Fazit

Dieser Prozess ist nützlich, um automatisch Audiodateien in Text zu transkribieren und deren Inhalte zusammenzufassen. Alle Dateien werden am Ende zentral in Google Drive gespeichert, was den Zugriff und die Verwaltung der erstellten Dokumente erleichtert.

Falls du Fragen zu weiteren Details hast oder wissen möchtest, wie du diesen Workflow anpassen kannst, lass es mich wissen!

Wie hilfreich war dieser Beitrag?

Klicke auf die Sterne um zu bewerten!

Durchschnittliche Bewertung 5 / 5. Anzahl Bewertungen: 1

Bisher keine Bewertungen! Sei der Erste, der diesen Beitrag bewertet.

Share0

Tweet0

Share0

Vorher

Über den Autor

Hi, ich bin Antonio.
Ich optimiere SEO datengetrieben mit Python, Verkaufspsychologie und meinem Neuro-SEO System®. So verstehe ich, wie Käufer ticken, und entwickle gezielte Strategien für mehr Sichtbarkeit.
Auf YouTube, LinkedIn und Instagram teile ich regelmäßig praxisnahe Anleitungen, Insights und aktuelle SEO-Tricks.
Abonniere gern meine Kanäle und bleib immer auf dem neuesten Stand.

Share 0

Webseiten Status Checker Workflow mit n8n und Apify: Eine Schritt-für-Schritt-Anleitung

Das Problem mit 500er-Statuscodes Anke Probst beschreibt es in ihrem LinkedIn-Post sehr

Automation, SEO Tools

Webseiten Status Checker Workflow mit n8n und Apify: Eine Schritt-für-Schritt-Anleitung

Das Problem mit 500er-Statuscodes Anke Probst beschreibt es in ihrem LinkedIn-Post sehr [...]

Automation, KI, SEO

Endlich Barrierefrei: ALT-Texte mit AI effizient füllen

5 (1) Praxis Beispiel in Shopify In meinem Job als SEO Freelancer [...]

Automation

Apify Account erstellen

Tutorial: Apify Account erstellen & starten Schritt 1: Auf apify.com gehen Öffne [...]

Automation, SEO, SEO Tools

Günstigere Alternative zum Keyword Planner: 130k Keywords mit Python abrufen

5 (1) Der Google Keyword Planner ist praktisch – aber bei großen [...]

Analyse, Automation, SEO, SEO Tools

Tutorial + Template: Backlink Analyse mit DataForSEO API Key

5 (1) Du bist auf der Suche nach Backlink-Analysen, Keyword-Daten oder umfassenden [...]

Automation, SEO Tools

Eigene Cloud-Instance mit DigitalOcean & Domain in wenigen Minuten einrichten

Warum eine eigene Cloud-Instance? Eine eigene Cloud-Instance bietet dir volle Kontrolle über [...]

Wie du das Whisper API Limit umgehen und Long Format Content transkribieren kannst

Zusammenfassung mit einem Klick

Warum solltest du Long Format transkribieren?

1. Bessere Auffindbarkeit und SEO-Vorteile

2. Barrierefreiheit erhöhen

3. Schnelles Scannen und Zitieren

4. Wiederverwendung des Inhalts

5. Mehrwert für deine Hörer/Leser

6. Erweiterung der internationalen Reichweite

7. Bildung und Forschung

8. Zeitersparnis

9. Dokumentation

Was ist das OGG-Format?

Was ist die Whisper API?

Wie konvertierst du Videos in OGG-Dateien?

Voraussetzungen

1. Installation von ffmpeg

2. Das Bash-Skript zur Konvertierung erstellen

3. Das Skript ausführbar machen und ausführen

Whisper API und API Limits – Lösungen und Ansätze

1. Batch-Processing mit Bash

2. Batch-Processing mit Make

1. Google Drive – Watch Files in a Folder

2. Google Drive – Download a File

3. OpenAI Whisper – Create a Transcription (Whisper)

4. OpenAI ChatGPT – Create a Completion (Prompt)

5. Google Drive – Create a File from Text (Transcription)

6. Google Drive – Create a File from Text (Summary)

Fazit

Webseiten Status Checker Workflow mit n8n und Apify: Eine Schritt-für-Schritt-Anleitung

Webseiten Status Checker Workflow mit n8n und Apify: Eine Schritt-für-Schritt-Anleitung

Endlich Barrierefrei: ALT-Texte mit AI effizient füllen

Apify Account erstellen

Günstigere Alternative zum Keyword Planner: 130k Keywords mit Python abrufen

Tutorial + Template: Backlink Analyse mit DataForSEO API Key

Eigene Cloud-Instance mit DigitalOcean & Domain in wenigen Minuten einrichten

Nutze meinen SEO Fahrplan, wie du bei Google auf Seite 1 kommst!