Quando você está iniciando no mundo da análise de dados, é comum se deparar com um desafio que pode parecer assustador: lidar com dados ausentes. No entanto, se você já tem alguma familiaridade com o Excel, saiba que o Pandas, uma biblioteca do Python, oferece ferramentas poderosas para tratar esses dados ausentes de forma eficiente e intuitiva.
O que são dados ausentes?
Dados ausentes são informações que, por algum motivo, não foram coletadas ou se perderam ao longo do processo. Isso pode acontecer por diversos motivos, como falhas na coleta de dados, erros de digitação ou até mesmo porque a informação não estava disponível naquele momento. No Pandas, esses valores são geralmente representados por NaN
(do inglês “Not a Number”).
Identificando dados ausentes
Antes de tratarmos os dados ausentes, precisamos identificá-los. O Pandas oferece métodos simples para isso. Por exemplo, o método isna()
retorna um DataFrame booleano, onde cada valor é True
se o dado for ausente e False
caso contrário. Já o método info()
nos dá uma visão geral dos dados, incluindo a contagem de valores não nulos em cada coluna.
import pandas as pd
# Suponha que temos o seguinte DataFrame:
df = pd.DataFrame({'A': [1, 2, None],
'B': [5, None, None],
'C': [1, 2, 3]})
# Identificando dados ausentes
print(df.isna())
# Informações gerais, incluindo dados não nulos
df.info()
Tratando dados ausentes
Agora que identificamos onde estão os dados ausentes no Pandas, como podemos tratá-los? O Pandas nos oferece várias estratégias:
Excluindo dados
Uma abordagem direta é excluir linhas ou colunas que contêm dados ausentes. Isso pode ser feito com o método dropna()
. Por exemplo, df.dropna()
excluirá todas as linhas onde há pelo menos um dado ausente.
# Excluindo linhas com dados ausentes
df_limpo = df.dropna()
Preenchendo dados
Outra estratégia é preencher os dados ausentes com um valor específico ou com uma estatística, como a média ou mediana da coluna. Isso é feito com o método fillna()
.
# Preenchendo dados ausentes com zero
df_preenchido = df.fillna(0)
# Preenchendo com a média da coluna
df['A'] = df['A'].fillna(df['A'].mean())
Quando tratar dados ausentes?
A decisão de tratar ou excluir dados ausentes depende do contexto e do objetivo da sua análise. Se os dados ausentes representam uma parcela significativa do seu conjunto de dados, excluí-los pode não ser a melhor opção, pois você pode perder informações valiosas. Por outro lado, preencher esses dados com valores arbitrários também pode distorcer suas análises. Portanto, é importante ponderar as opções e escolher a estratégia que melhor se adapta ao seu caso.
Conclusão
Lidar com dados ausentes é uma habilidade essencial para qualquer analista de dados, e o Pandas oferece ferramentas robustas para ajudá-lo nessa tarefa. Com a prática, você se tornará cada vez mais confortável em tratar esses dados e extrair insights valiosos de conjuntos de dados incompletos. Lembre-se de que cada conjunto de dados é único, e a melhor estratégia para lidar com dados ausentes pode variar de caso para caso. Siga estes passos para tornar o seu processo de análise exploratória de dados cada vez melhor!
Cursos de programação gratuitos com certificado
Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:
- Conteúdos gratuitos
- Projetos práticos
- Certificados
- +20 mil alunos e comunidade exclusiva
- Materiais didáticos e download de código
Comentários