Tamanho de fonte
Alto contraste
Altura de linha

Visão computacional com GPT-Vision: um guia para iniciantes

Avatar de Renata Lopes Renata Lopes
5 minutos de leitura 4 meses atrás

Quer entender como a visão computacional pode ser aplicada de forma prática e acessível? Aprenda o que é visão computacional, o que é o GPT-Vision e como utilizá-lo para interpretar imagens com o guia definitivo da Asimov Academy!

olho abstrato

Se você está começando seus estudos em Inteligência Artificial, provavelmente já ouviu falar sobre visão computacional e modelos de linguagem como o GPT. Mas como esses conceitos se conectam? E como você pode utilizá-los em seus projetos? É disso que vamos tratar neste artigo.

Aqui, vamos apresentar tudo o que você precisa saber sobre visão computacional com GPT-Vision para começar a utilizá-lo de forma prática. Vamos entender o que é visão computacional, aprender a utilizar o GPT-Vision para interpretar imagens e explorar algumas aplicações práticas. Vamos lá!

O que é visão computacional?

Visão computacional é um campo da inteligência artificial que permite que computadores e sistemas interpretem e compreendam o mundo visual. Em outras palavras, é a capacidade de um computador de “ver” e processar imagens e vídeos da mesma forma que os humanos fazem. Isso é feito através de algoritmos que analisam e extraem informações de dados visuais.

Aplicações de visão computacional

A visão computacional tem uma ampla gama de aplicações práticas, incluindo:

  • Reconhecimento facial: Utilizado em sistemas de segurança e autenticação.
  • Detecção de objetos: Usado em veículos autônomos para identificar pedestres, sinais de trânsito e outros veículos.
  • Análise de imagens médicas: Auxilia na detecção de doenças através de exames de imagem.
  • Monitoramento de qualidade: Em linhas de produção para identificar defeitos em produtos.

O que é o GPT-Vision?

O GPT-Vision é uma ferramenta poderosa desenvolvida pela OpenAI que combina a capacidade de gerar texto com a interpretação de imagens. Em outras palavras, o GPT-Vision pode receber imagens e responder perguntas sobre elas, descrevendo o conteúdo visual de forma detalhada e precisa.

Como o GPT-Vision funciona?

O GPT-Vision utiliza um modelo híbrido que processa tanto texto quanto imagens. Quando você envia uma imagem para o modelo, ele analisa o conteúdo visual e gera uma resposta em texto baseada na análise. Isso permite que você faça perguntas sobre a imagem e obtenha respostas detalhadas.

Como utilizar o GPT-Vision

Agora que você já sabe o que é visão computacional e o GPT-Vision, vamos aprender a utilizá-lo na prática. Vamos começar com um exemplo simples de como interpretar uma imagem da internet.

Interpretando uma imagem da internet

Para interpretar uma imagem hospedada em um site, você pode utilizar o seguinte código em Python:

# imports necessários
import openai
from dotenv import load_dotenv, find_dotenv

_ = load_dotenv(find_dotenv())

client = openai.Client()

# interpretando a imagem
comando = 'Descreva a imagem fornecida'
url = 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg'

resposta = client.chat.completions.create(
    model='gpt-4-vision-preview',
    messages=[{
        'role': 'user',
        'content': [
            {'type': 'text', 'text': comando},
            {'type': 'image_url', 'image_url': {'url': url}}
        ]
    }]
)

print(resposta.choices[0].message.content)

Interpretando uma imagem do seu computador

Para enviar uma imagem do seu computador, é necessário realizar um encoding para base64. Veja o exemplo abaixo:

import base64

def encode_image(caminho_imagem):
    with open(caminho_imagem, 'rb') as img:
        return base64.b64encode(img.read()).decode('utf-8')

caminho = 'celulas.jpg'
base_64_img = encode_image(caminho)

comando = 'Quantas células aparecem na imagem?'
url = f'data:image/jpg;base64,{base_64_img}'

resposta = client.chat.completions.create(
    model='gpt-4-vision-preview',
    messages=[{
        'role': 'user',
        'content': [
            {'type': 'text', 'text': comando},
            {'type': 'image_url', 'image_url': {'url': url}}
        ]
    }],
    max_tokens=1000,
)

print(resposta.choices[0].message.content)

Interpretando palavras escritas

O GPT-Vision também pode ser utilizado para interpretar palavras escritas em imagens. Veja como fazer isso:

import base64

def encode_image(caminho_imagem):
    with open(caminho_imagem, 'rb') as img:
        return base64.b64encode(img.read()).decode('utf-8')

caminho = 'escrito_mao_dificil.jpg'
base_64_img = encode_image(caminho)

texto = "O que está escrito na imagem?"

resposta = client.chat.completions.create(
    model='gpt-4-vision-preview',
    messages=[{
        'role': 'user',
        'content': [
            {'type': 'text', 'text': texto},
            {'type': 'image_url', 'image_url': {'url': f'data:image/jpg;base64,{base_64_img}'}}
        ]
    }],
    max_tokens=1000,
)

print(resposta.choices[0].message.content)

Conclusão

A visão computacional com GPT-Vision é uma ferramenta poderosa e acessível para iniciantes em inteligência artificial. Com ela, você pode interpretar imagens de forma detalhada e precisa, aplicando essa tecnologia em diversos projetos práticos. Esperamos que este guia tenha ajudado você a entender melhor o que é visão computacional, o que é o GPT-Vision e como utilizá-lo. Agora, é hora de colocar em prática e explorar as infinitas possibilidades que essa tecnologia oferece!

Se você quiser aprender mais sobre inteligência artificial e visão computacional, recomendamos assistir aos cursos da Asimov Academy, que oferecem uma abordagem prática e acessível para iniciantes. Boa sorte e bons estudos!

Imagem de um notebook

Cursos de programação gratuitos com certificado

Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:

  • Conteúdos gratuitos
  • Projetos práticos
  • Certificados
  • +20 mil alunos e comunidade exclusiva
  • Materiais didáticos e download de código
Inicie agora

Comentários

Comentar
Faça parte da discussão Crie sua conta gratuita e compartilhe
sua opinião nos comentários
Entre para a Asimov