O box plot, também conhecido como diagrama de caixa, é uma ferramenta gráfica muito utilizada em estatística para representar a distribuição de dados numéricos de forma visual. Este tipo de gráfico é extremamente útil para identificar rapidamente a mediana, os quartis e os valores atípicos (outliers) de um conjunto de dados. Neste tutorial, vamos aprender como criar box plots utilizando a biblioteca Plotly em Python, uma ferramenta poderosa e interativa para visualização de dados.
O que é um Box Plot?
Imagine que você tem uma lista de números e quer entender como esses números estão distribuídos. Você poderia simplesmente listar todos eles, mas isso não seria muito prático, principalmente se a lista for grande. É aí que entra o box plot. Ele resume essa lista de números em cinco pontos-chave: o mínimo, o primeiro quartil (Q1), a mediana, o terceiro quartil (Q3) e o máximo. Esses cinco pontos são representados visualmente de forma que você possa entender rapidamente a distribuição dos dados.
- Mínimo e Máximo: São os valores menores e maiores do conjunto de dados, excluindo outliers.
- Quartis: Dividem os dados em quatro partes iguais. Q1 é o valor abaixo do qual 25% dos dados se encontram, e Q3 é o valor abaixo do qual 75% dos dados se encontram.
- Mediana: É o valor que divide o conjunto de dados ao meio.
Criando Box Plots Básicos com Plotly
Para começar, você precisa ter o Plotly instalado. Se ainda não tem, você pode instalar usando pip:
pip install plotly
Agora, vamos criar um box plot básico. Suponha que temos uma lista de idades de um grupo de pessoas e queremos visualizar a distribuição dessas idades.
import plotly.graph_objects as go
idades = [22, 25, 27, 22, 34, 31, 29, 22, 40, 19, 30, 25, 22]
fig = go.Figure(data=[go.Box(y=idades)])
fig.show()
Este código irá gerar um box plot onde a caixa central representa os quartis Q1 a Q3, a linha dentro da caixa é a mediana e as linhas que se estendem para fora da caixa, chamadas de “bigodes”, vão até os valores mínimo e máximo.
Box Plot Horizontal
Às vezes, pode ser útil mostrar o box plot na horizontal, especialmente se você estiver comparando vários conjuntos de dados. Para criar um box plot horizontal, basta trocar o eixo y
pelo eixo x
no código:
fig = go.Figure(data=[go.Box(x=idades)])
fig.show()
Estilizando Box Plots
Plotly oferece várias opções para personalizar seus gráficos. Por exemplo, você pode mudar a cor da caixa, adicionar um título e muito mais.
fig = go.Figure(data=[go.Box(y=idades, boxpoints='all', jitter=0.3, pointpos=-1.8)])
fig.update_layout(title='Distribuição de Idades')
fig.show()
Neste exemplo, boxpoints='all'
adiciona pontos para todos os nossos dados, jitter
controla o espalhamento desses pontos e pointpos
ajusta a posição dos pontos em relação à caixa.
Adicionando Legendas
Legendas são importantes para ajudar quem está visualizando o gráfico a entender o que cada parte representa. No Plotly, você pode adicionar legendas facilmente:
fig = go.Figure(data=[go.Box(y=idades, name='Idades')])
fig.update_layout(legend_title='Legenda')
fig.show()
Aqui, name='Idades'
é o texto que aparecerá na legenda para esse conjunto de dados.
Conclusão
O box plot é uma ferramenta poderosa para análise de dados, e com Plotly em Python, você pode criar visualizações interativas e estilizadas com facilidade. Agora que você aprendeu o básico sobre box plots e como criá-los com Plotly, você pode começar a explorar seus próprios conjuntos de dados e descobrir insights valiosos através da visualização de dados. Continue praticando e experimentando com diferentes opções de estilo para tornar seus gráficos ainda mais informativos e atraentes!
Comentários