Tamanho de fonte
Alto contraste
Altura de linha

Como Transcrever Áudios com a API da OpenAI

Avatar de Ana Maria Gomes Ana Maria Gomes
5 minutos de leitura 3 meses atrás

Você já imaginou transformar áudios em texto de forma automática e precisa? Com a API da OpenAI, isso é possível! Neste tutorial, vamos explorar como utilizar a API da OpenAI para transcrever áudios, seja de arquivos de áudio, vídeos ou até mesmo gravações ao vivo. Se você é iniciante em Python, não se preocupe! Vamos explicar tudo de forma simples e detalhada. Vamos lá?

O que é a API da OpenAI?

A OpenAI é uma das maiores desenvolvedoras de ferramentas de inteligência artificial do mundo. Entre suas criações, temos o ChatGPT, o DALL-E e o Whisper. Neste tutorial, focaremos no Whisper, um modelo de reconhecimento de fala que pode transcrever áudios em texto de forma eficiente.

Por que usar a API da OpenAI para transcrição de áudios?

A transcrição de áudios pode ser uma tarefa demorada e sujeita a erros quando feita manualmente. Com a API da OpenAI, você pode automatizar esse processo, economizando tempo e aumentando a precisão. Além disso, a API suporta múltiplos idiomas e pode ser integrada facilmente em seus projetos Python.

Passo a Passo: Transcrevendo Áudios com a API da OpenAI

1. Configurando o Ambiente

Antes de começarmos, precisamos configurar nosso ambiente de desenvolvimento. Vamos instalar as bibliotecas necessárias e configurar a API da OpenAI.

Instalando Bibliotecas

Primeiro, vamos instalar as bibliotecas necessárias. Abra seu terminal e execute os seguintes comandos:

pip install openai python-dotenv

Configurando a API Key

Para utilizar a API da OpenAI, você precisará de uma API Key. Siga os passos abaixo para obter a sua:

  1. Acesse o site da OpenAI.
  2. Crie uma conta ou faça login.
  3. Vá até a seção de API Keys e crie uma nova chave.
  4. Copie a chave gerada e salve-a em um arquivo .env no seu projeto. O arquivo .env deve conter a seguinte linha:
OPENAI_API_KEY=sua_api_key_aqui

2. Escrevendo o Código para Transcrição de Áudios

Agora que nosso ambiente está configurado, vamos escrever o código para transcrever áudios utilizando a API da OpenAI.

Importando Bibliotecas e Carregando a API Key

Primeiro, vamos importar as bibliotecas necessárias e carregar a API Key do arquivo .env:

import openai
from dotenv import load_dotenv
import os

# Carregar a API Key do arquivo .env
load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")

# Configurar o cliente da OpenAI
openai.api_key = api_key

Transcrevendo um Arquivo de Áudio

Vamos começar transcrevendo um arquivo de áudio. Suponha que temos um arquivo chamado audio_asimov.mp3 no nosso diretório de trabalho. O código abaixo mostra como fazer a transcrição:

# Abrir o arquivo de áudio
with open('audio_asimov.mp3', 'rb') as audio_file:
    # Fazer a transcrição utilizando a API da OpenAI
    transcricao = openai.Audio.transcriptions.create(
        model='whisper-1',
        file=audio_file
    )

# Exibir a transcrição
print(transcricao['text'])

3. Explorando Outras Funcionalidades

A API da OpenAI oferece várias outras funcionalidades que podem ser úteis em seus projetos. Vamos explorar algumas delas.

Transcrevendo Áudio de Vídeos

Além de arquivos de áudio, você também pode transcrever áudios de vídeos. Suponha que temos um vídeo chamado video_asimov.mp4. O processo é semelhante ao de transcrição de áudio:

# Abrir o arquivo de vídeo
with open('video_asimov.mp4', 'rb') as video_file:
    # Fazer a transcrição utilizando a API da OpenAI
    transcricao = openai.Audio.transcriptions.create(
        model='whisper-1',
        file=video_file
    )

# Exibir a transcrição
print(transcricao['text'])

Transcrevendo Áudio em Tempo Real

Você também pode transcrever áudios em tempo real, como gravações feitas pelo microfone. Para isso, você precisará de uma biblioteca adicional para capturar o áudio do microfone, como o pyaudio. Veja um exemplo básico:

import pyaudio
import wave

# Configurações de gravação
formato = pyaudio.paInt16
canais = 1
taxa = 44100
chunk = 1024
duracao = 5
arquivo_saida = "gravacao.wav"

# Inicializar PyAudio
audio = pyaudio.PyAudio()

# Iniciar gravação
stream = audio.open(format=formato, channels=canais,
                    rate=taxa, input=True,
                    frames_per_buffer=chunk)
print("Gravando...")

frames = []

for i in range(0, int(taxa / chunk * duracao)):
    data = stream.read(chunk)
    frames.append(data)

print("Gravação finalizada.")

# Parar gravação
stream.stop_stream()
stream.close()
audio.terminate()

# Salvar gravação em um arquivo
with wave.open(arquivo_saida, 'wb') as wf:
    wf.setnchannels(canais)
    wf.setsampwidth(audio.get_sample_size(formato))
    wf.setframerate(taxa)
    wf.writeframes(b''.join(frames))

# Abrir o arquivo de áudio gravado
with open(arquivo_saida, 'rb') as audio_file:
    # Fazer a transcrição utilizando a API da OpenAI
    transcricao = openai.Audio.transcriptions.create(
        model='whisper-1',
        file=audio_file
    )

# Exibir a transcrição
print(transcricao['text'])

4. Considerações Finais

A transcrição de áudios com a API da OpenAI é uma ferramenta poderosa que pode ser integrada em diversos projetos, desde aplicativos de acessibilidade até sistemas de análise de reuniões. Com este tutorial, você aprendeu a configurar seu ambiente, transcrever áudios de diferentes fontes e explorar outras funcionalidades da API.

Se você gostou deste tutorial e quer aprender mais sobre Python e inteligência artificial, confira nossos outros artigos e cursos na Asimov Academy. Até a próxima!

Imagem de um notebook

Cursos de programação gratuitos com certificado

Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:

  • Conteúdos gratuitos
  • Projetos práticos
  • Certificados
  • +20 mil alunos e comunidade exclusiva
  • Materiais didáticos e download de código
Inicie agora

Comentários

Comentar
Faça parte da discussão Crie sua conta gratuita e compartilhe
sua opinião nos comentários
Entre para a Asimov