Entendendo e Interpretando Boxplots com Python

Juliano Faccioni
4 minutos de leitura

Conteúdos do tutorial

Os boxplots, também conhecidos como diagramas de caixa, são uma forma gráfica de representar a distribuição de um conjunto de dados. Eles são extremamente úteis para visualizar medidas de tendência central, dispersão e identificar valores discrepantes (outliers). Neste tutorial, vamos entender o que é um boxplot e como interpretá-lo.

O que é um Boxplot?

Um boxplot é um gráfico que representa uma distribuição de valores através de seus quartis. O gráfico é composto por uma “caixa”, que contém a mediana (Q2 ou percentil 50) e os quartis Q3 (quartil superior ou percentil 75) e Q1 (quartil inferior ou percentil 25). Os extremos de um boxplot (“bigodes”) se estendem da caixa até os valores máximos e mínimos, excluindo outliers. Pontos que são considerados outliers são plotados como pontos individuais.

Interpretando um Boxplot

Para interpretar um boxplot, é importante entender seus componentes:

  • Mediana (Q2/Percentil 50): A linha no meio da caixa indica a mediana dos dados, que é o valor que separa a metade superior da metade inferior dos dados.
  • Q1 (Percentil 25): A borda inferior da caixa mostra o quartil inferior dos dados, ou seja, 25% dos dados são menores que esse valor.
  • Q3 (Percentil 75): A borda superior da caixa indica o quartil superior, significando que 75% dos dados são menores que esse valor.
  • Intervalo Interquartil (IQR): A distância entre o quartil superior e o quartil inferior. É uma medida de dispersão e indica onde está concentrada a “massa” dos dados.
  • Bigodes: As linhas que se estendem da caixa até os valores máximos e mínimos, excluindo outliers. Geralmente, eles se estendem até 1,5 vezes o IQR acima do Q3 e abaixo do Q1.
  • Outliers: Pontos que estão fora dos bigodes são considerados outliers e são plotados como pontos individuais.

Exemplo de Boxplot

Vamos considerar um exemplo de boxplot para a interpretação:

import matplotlib.pyplot as plt
import seaborn as sns

# Dados fictícios
dados = [10, 14, 19, 20, 25, 30, 34, 36, 40, 45, 70]

# Criando o boxplot
sns.boxplot(dados)
plt.title('Exemplo de Boxplot')
plt.show()
Testar

Neste boxplot, você pode ver a mediana como uma linha dentro da caixa. O quartil inferior e superior são as bordas da caixa. Os bigodes se estendem até os valores máximos e mínimos que não são considerados outliers. Veja que o valor 70 foi considerado um outlier, sendo representados como pontos além dos bigodes.

Conclusão

Boxplots são ferramentas poderosas para análise exploratória de dados, pois fornecem uma visualização rica em informações sobre a distribuição dos dados. Eles são especialmente úteis para comparar distribuições entre vários grupos ou conjuntos de dados. Ao entender como interpretar um boxplot, você pode rapidamente identificar a mediana, a dispersão e possíveis outliers em seus dados.

Inscreva-se gratuitamente e fique atualizado

Receba toda semana um resumo dos principais conteúdos da Asimov direto no seu e-mail. 100% livre de spam.

Áreas de interesse: