Os gráficos de dispersão, ou scatter plots, são uma ferramenta essencial para a análise exploratória de dados, permitindo visualizar a relação entre duas variáveis numéricas e identificar padrões, tendências ou anomalias. Neste tutorial, vamos aprender a criar scatter plots utilizando a biblioteca Plotly em Python, uma poderosa ferramenta para visualização de dados interativos.
Introdução ao Plotly
Plotly é uma biblioteca gráfica interativa que suporta mais de 40 tipos de gráficos, incluindo gráficos 3D, gráficos geográficos, gráficos de rede e muito mais. Com Plotly, você pode criar gráficos que são visualmente atraentes e que podem ser facilmente compartilhados na web.
Para começar, você precisa instalar o Plotly, o que pode ser feito facilmente através do pip:
pip install plotly
Criando um Scatter Plot Básico
Para criar um scatter plot básico, você precisa de um conjunto de dados com duas variáveis numéricas. Vamos utilizar o Plotly para plotar esses dados:
import plotly.graph_objects as go
# Dados de exemplo
x = [1, 2, 3, 4, 5]
y = [2, 1, 4, 3, 5]
# Criando o scatter plot
fig = go.Figure(data=go.Scatter(x=x, y=y, mode='markers'))
# Mostrando o gráfico
fig.show()
Personalizando Tamanho e Cor com Colunas
Você pode personalizar o tamanho e a cor dos marcadores no scatter plot com base em outras colunas do seu conjunto de dados. Isso é útil para adicionar outra dimensão ao seu gráfico:
import plotly.express as px
import pandas as pd
# Criando um DataFrame de exemplo
df = pd.DataFrame({
'x': [1, 2, 3, 4, 5],
'y': [2, 1, 4, 3, 5],
'tamanho': [10, 20, 30, 40, 50],
'cor': [100, 200, 300, 400, 500]
})
# Criando o scatter plot com tamanho e cor personalizados
fig = px.scatter(df, x='x', y='y', size='tamanho', color='cor')
# Mostrando o gráfico
fig.show()
Eixos Categóricos e Pontos de Dispersão Agrupados
Plotly também permite trabalhar com eixos categóricos e agrupar pontos de dispersão:
# Adicionando uma coluna categórica ao DataFrame
df['categoria'] = ['A', 'B', 'A', 'B', 'A']
# Criando o scatter plot com eixos categóricos
fig = px.scatter(df, x='categoria', y='y', color='cor')
# Mostrando o gráfico
fig.show()
Barras de Erros
As barras de erros podem ser adicionadas para indicar a incerteza em torno de cada ponto de dados:
# Adicionando barras de erro
fig = go.Figure(data=go.Scatter(x=x, y=y, mode='markers', error_y=dict(type='data', array=[0.5, 1, 1.5, 0.5, 1])))
# Mostrando o gráfico
fig.show()
Gráficos de Dispersão Marginal
Os gráficos de dispersão marginal adicionam histogramas, boxplots ou outros gráficos nas margens do scatter plot principal:
# Criando o scatter plot com gráficos marginais
fig = px.scatter(df, x='x', y='y', marginal_x='histogram', marginal_y='box')
# Mostrando o gráfico
fig.show()
Regressão Linear
Para adicionar uma linha de regressão linear ao seu scatter plot, você pode usar o seguinte:
# Criando o scatter plot com linha de regressão linear
fig = px.scatter(df, x='x', y='y', trendline='ols')
# Mostrando o gráfico
fig.show()
Com essas técnicas, você pode criar scatter plots ricos e informativos que ajudam a revelar insights sobre seus dados. Lembre-se de que o Plotly oferece muitas outras opções de personalização, então não deixe de explorar a documentação oficial para descobrir mais.
Comentários