Como Utilizar Ollama via LangChain: Um Guia para Iniciantes

Você já imaginou transformar áudios em texto de forma automática e precisa? Com a API da OpenAI, isso é possível! Neste tutorial, vamos explorar como utilizar a API da OpenAI para transcrever áudios, seja de arquivos de áudio, vídeos ou até mesmo gravações ao vivo. Se você é iniciante em Python, não se preocupe! Vamos explicar tudo de forma simples e detalhada. Vamos lá?
A OpenAI é uma das maiores desenvolvedoras de ferramentas de inteligência artificial do mundo. Entre suas criações, temos o ChatGPT, o DALL-E e o Whisper. Neste tutorial, focaremos no Whisper, um modelo de reconhecimento de fala que pode transcrever áudios em texto de forma eficiente.
A transcrição de áudios pode ser uma tarefa demorada e sujeita a erros quando feita manualmente. Com a API da OpenAI, você pode automatizar esse processo, economizando tempo e aumentando a precisão. Além disso, a API suporta múltiplos idiomas e pode ser integrada facilmente em seus projetos Python.
Antes de começarmos, precisamos configurar nosso ambiente de desenvolvimento. Vamos instalar as bibliotecas necessárias e configurar a API da OpenAI.
Primeiro, vamos instalar as bibliotecas necessárias. Abra seu terminal e execute os seguintes comandos:
pip install openai python-dotenv
Para utilizar a API da OpenAI, você precisará de uma API Key. Siga os passos abaixo para obter a sua:
.env
no seu projeto. O arquivo .env
deve conter a seguinte linha:OPENAI_API_KEY=sua_api_key_aqui
Agora que nosso ambiente está configurado, vamos escrever o código para transcrever áudios utilizando a API da OpenAI.
Primeiro, vamos importar as bibliotecas necessárias e carregar a API Key do arquivo .env
:
import openai
from dotenv import load_dotenv
import os
# Carregar a API Key do arquivo .env
load_dotenv()
api_key = os.getenv("OPENAI_API_KEY")
# Configurar o cliente da OpenAI
openai.api_key = api_key
Vamos começar transcrevendo um arquivo de áudio. Suponha que temos um arquivo chamado audio_asimov.mp3
no nosso diretório de trabalho. O código abaixo mostra como fazer a transcrição:
# Abrir o arquivo de áudio
with open('audio_asimov.mp3', 'rb') as audio_file:
# Fazer a transcrição utilizando a API da OpenAI
transcricao = openai.Audio.transcriptions.create(
model='whisper-1',
file=audio_file
)
# Exibir a transcrição
print(transcricao['text'])
A API da OpenAI oferece várias outras funcionalidades que podem ser úteis em seus projetos. Vamos explorar algumas delas.
Além de arquivos de áudio, você também pode transcrever áudios de vídeos. Suponha que temos um vídeo chamado video_asimov.mp4
. O processo é semelhante ao de transcrição de áudio:
# Abrir o arquivo de vídeo
with open('video_asimov.mp4', 'rb') as video_file:
# Fazer a transcrição utilizando a API da OpenAI
transcricao = openai.Audio.transcriptions.create(
model='whisper-1',
file=video_file
)
# Exibir a transcrição
print(transcricao['text'])
Você também pode transcrever áudios em tempo real, como gravações feitas pelo microfone. Para isso, você precisará de uma biblioteca adicional para capturar o áudio do microfone, como o pyaudio
. Veja um exemplo básico:
import pyaudio
import wave
# Configurações de gravação
formato = pyaudio.paInt16
canais = 1
taxa = 44100
chunk = 1024
duracao = 5
arquivo_saida = "gravacao.wav"
# Inicializar PyAudio
audio = pyaudio.PyAudio()
# Iniciar gravação
stream = audio.open(format=formato, channels=canais,
rate=taxa, input=True,
frames_per_buffer=chunk)
print("Gravando...")
frames = []
for i in range(0, int(taxa / chunk * duracao)):
data = stream.read(chunk)
frames.append(data)
print("Gravação finalizada.")
# Parar gravação
stream.stop_stream()
stream.close()
audio.terminate()
# Salvar gravação em um arquivo
with wave.open(arquivo_saida, 'wb') as wf:
wf.setnchannels(canais)
wf.setsampwidth(audio.get_sample_size(formato))
wf.setframerate(taxa)
wf.writeframes(b''.join(frames))
# Abrir o arquivo de áudio gravado
with open(arquivo_saida, 'rb') as audio_file:
# Fazer a transcrição utilizando a API da OpenAI
transcricao = openai.Audio.transcriptions.create(
model='whisper-1',
file=audio_file
)
# Exibir a transcrição
print(transcricao['text'])
A transcrição de áudios com a API da OpenAI é uma ferramenta poderosa que pode ser integrada em diversos projetos, desde aplicativos de acessibilidade até sistemas de análise de reuniões. Com este tutorial, você aprendeu a configurar seu ambiente, transcrever áudios de diferentes fontes e explorar outras funcionalidades da API.
Se você gostou deste tutorial e quer aprender mais sobre Python e inteligência artificial, confira nossos outros artigos e cursos na Asimov Academy. Até a próxima!
Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:
Comentários
30xp