Visão computacional com GPT-Vision: um guia para iniciantes

6 minutos de leitura 23/06/2024 • Atualizado 1 mês atrás 5xp

Quer entender como a visão computacional pode ser aplicada de forma prática e acessível? Aprenda o que é visão computacional, o que é o GPT-Vision e como utilizá-lo para interpretar imagens com o guia definitivo da Asimov Academy!

Se você está começando seus estudos em Inteligência Artificial, provavelmente já ouviu falar sobre visão computacional e modelos de linguagem como o GPT. Mas como esses conceitos se conectam? E como você pode utilizá-los em seus projetos? É disso que vamos tratar neste artigo.

Aqui, vamos apresentar tudo o que você precisa saber sobre visão computacional com GPT-Vision para começar a utilizá-lo de forma prática. Vamos entender o que é visão computacional, aprender a utilizar o GPT-Vision para interpretar imagens e explorar algumas aplicações práticas. Vamos lá!

O que é visão computacional?

Visão computacional é um campo da inteligência artificial que permite que computadores e sistemas interpretem e compreendam o mundo visual. Em outras palavras, é a capacidade de um computador de “ver” e processar imagens e vídeos da mesma forma que os humanos fazem. Isso é feito através de algoritmos que analisam e extraem informações de dados visuais.

Aplicações de visão computacional

A visão computacional tem uma ampla gama de aplicações práticas, incluindo:

Reconhecimento facial: Utilizado em sistemas de segurança e autenticação.
Detecção de objetos: Usado em veículos autônomos para identificar pedestres, sinais de trânsito e outros veículos.
Análise de imagens médicas: Auxilia na detecção de doenças através de exames de imagem.
Monitoramento de qualidade: Em linhas de produção para identificar defeitos em produtos.

O que é o GPT-Vision?

O GPT-Vision é uma ferramenta poderosa desenvolvida pela OpenAI que combina a capacidade de gerar texto com a interpretação de imagens. Em outras palavras, o GPT-Vision pode receber imagens e responder perguntas sobre elas, descrevendo o conteúdo visual de forma detalhada e precisa.

Como o GPT-Vision funciona?

O GPT-Vision utiliza um modelo híbrido que processa tanto texto quanto imagens. Quando você envia uma imagem para o modelo, ele analisa o conteúdo visual e gera uma resposta em texto baseada na análise. Isso permite que você faça perguntas sobre a imagem e obtenha respostas detalhadas.

Como utilizar o GPT-Vision

Agora que você já sabe o que é visão computacional e o GPT-Vision, vamos aprender a utilizá-lo na prática. Vamos começar com um exemplo simples de como interpretar uma imagem da internet.

Interpretando uma imagem da internet

Para interpretar uma imagem hospedada em um site, você pode utilizar o seguinte código em Python:

# imports necessários
import openai
from dotenv import load_dotenv, find_dotenv

_ = load_dotenv(find_dotenv())

client = openai.Client()

# interpretando a imagem
comando = 'Descreva a imagem fornecida'
url = 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg'

resposta = client.chat.completions.create(
    model='gpt-4-vision-preview',
    messages=[{
        'role': 'user',
        'content': [
            {'type': 'text', 'text': comando},
            {'type': 'image_url', 'image_url': {'url': url}}
        ]
    }]
)

print(resposta.choices[0].message.content)

Interpretando uma imagem do seu computador

Para enviar uma imagem do seu computador, é necessário realizar um encoding para base64. Veja o exemplo abaixo:

import base64

def encode_image(caminho_imagem):
    with open(caminho_imagem, 'rb') as img:
        return base64.b64encode(img.read()).decode('utf-8')

caminho = 'celulas.jpg'
base_64_img = encode_image(caminho)

comando = 'Quantas células aparecem na imagem?'
url = f'data:image/jpg;base64,{base_64_img}'

resposta = client.chat.completions.create(
    model='gpt-4-vision-preview',
    messages=[{
        'role': 'user',
        'content': [
            {'type': 'text', 'text': comando},
            {'type': 'image_url', 'image_url': {'url': url}}
        ]
    }],
    max_tokens=1000,
)

print(resposta.choices[0].message.content)

Interpretando palavras escritas

O GPT-Vision também pode ser utilizado para interpretar palavras escritas em imagens. Veja como fazer isso:

import base64

def encode_image(caminho_imagem):
    with open(caminho_imagem, 'rb') as img:
        return base64.b64encode(img.read()).decode('utf-8')

caminho = 'escrito_mao_dificil.jpg'
base_64_img = encode_image(caminho)

texto = "O que está escrito na imagem?"

resposta = client.chat.completions.create(
    model='gpt-4-vision-preview',
    messages=[{
        'role': 'user',
        'content': [
            {'type': 'text', 'text': texto},
            {'type': 'image_url', 'image_url': {'url': f'data:image/jpg;base64,{base_64_img}'}}
        ]
    }],
    max_tokens=1000,
)

print(resposta.choices[0].message.content)

Conclusão

A visão computacional com GPT-Vision é uma ferramenta poderosa e acessível para iniciantes em inteligência artificial. Com ela, você pode interpretar imagens de forma detalhada e precisa, aplicando essa tecnologia em diversos projetos práticos. Esperamos que este guia tenha ajudado você a entender melhor o que é visão computacional, o que é o GPT-Vision e como utilizá-lo. Agora, é hora de colocar em prática e explorar as infinitas possibilidades que essa tecnologia oferece!

Se você quiser aprender mais sobre inteligência artificial e visão computacional, recomendamos assistir aos cursos da Asimov Academy, que oferecem uma abordagem prática e acessível para iniciantes. Boa sorte e bons estudos!

Você também pode gostar:

CURSO

Aplicações de IA com LangChain

TUTORIAL

API da Cohere em Python: Um Guia Completo

Ana Maria Gomes • 7 meses atrás

TUTORIAL

Como Utilizar a API da Mistral AI com LangChain

Ana Maria Gomes • 1 ano atrás

TUTORIAL

Como Utilizar Ollama via LangChain: Um Guia para Iniciantes

Renata Lopes • 1 mês atrás

TUTORIAL

Utilizando os modelos Claude da Anthropic com Python

Renata Lopes • 2 meses atrás

CURSO

Agents de IA com Python e LangChain

CURSO

IAs para Imagens e Áudio com Hugging Face

TUTORIAL

Acessando a API do Google Gemini com LangChain

Ana Maria Gomes • 1 mês atrás

TUTORIAL

Como Utilizar a API do Anthropic com LangChain

Ana Maria Gomes • 26 dias atrás

TUTORIAL

Utilizando a API da Mistral AI com Python

Ana Maria Gomes • 1 ano atrás

CURSO

Introdução à Inteligência Artificial

Comunidade

Explorando a API da OpenAI

LG Lucas Valério Giraldi • 1 mês atrás

TUTORIAL

Utilizando a API da Cohere com LangChain

Ana Maria Gomes • 6 dias atrás

CURSO

Python para iniciantes: do zero ao primeiro projeto

Cursos de programação gratuitos com certificado

Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:

Conteúdos gratuitos
Projetos práticos
Certificados
+20 mil alunos e comunidade exclusiva
Materiais didáticos e download de código

Inicie agora

Comentários

30xp

Comentar

Faça parte da discussão Crie sua conta gratuita e compartilhe
sua opinião nos comentários Entre para a Asimov

Conteúdo do tutorial

Tags:

Compartilhe