Dados ausentes no Pandas: tratamento de dados em Python

Ana Maria Gomes
5 minutos de leitura

Conteúdos do tutorial

Quando você está iniciando no mundo da análise de dados, é comum se deparar com um desafio que pode parecer assustador: lidar com dados ausentes. No entanto, se você já tem alguma familiaridade com o Excel, saiba que o Pandas, uma biblioteca do Python, oferece ferramentas poderosas para tratar esses dados ausentes de forma eficiente e intuitiva.

O que são dados ausentes?

Dados ausentes são informações que, por algum motivo, não foram coletadas ou se perderam ao longo do processo. Isso pode acontecer por diversos motivos, como falhas na coleta de dados, erros de digitação ou até mesmo porque a informação não estava disponível naquele momento. No Pandas, esses valores são geralmente representados por NaN (do inglês “Not a Number”).

Exemplo de um DataFrame com dados ausentes no Pandas.

Identificando dados ausentes

Antes de tratarmos os dados ausentes, precisamos identificá-los. O Pandas oferece métodos simples para isso. Por exemplo, o método isna() retorna um DataFrame booleano, onde cada valor é True se o dado for ausente e False caso contrário. Já o método info() nos dá uma visão geral dos dados, incluindo a contagem de valores não nulos em cada coluna.

import pandas as pd

# Suponha que temos o seguinte DataFrame:
df = pd.DataFrame({'A': [1, 2, None],
                   'B': [5, None, None],
                   'C': [1, 2, 3]})

# Identificando dados ausentes
print(df.isna())

# Informações gerais, incluindo dados não nulos
df.info()

Tratando dados ausentes

Agora que identificamos onde estão os dados ausentes no Pandas, como podemos tratá-los? O Pandas nos oferece várias estratégias:

Excluindo dados

Uma abordagem direta é excluir linhas ou colunas que contêm dados ausentes. Isso pode ser feito com o método dropna(). Por exemplo, df.dropna() excluirá todas as linhas onde há pelo menos um dado ausente.

# Excluindo linhas com dados ausentes
df_limpo = df.dropna()

Preenchendo dados

Outra estratégia é preencher os dados ausentes com um valor específico ou com uma estatística, como a média ou mediana da coluna. Isso é feito com o método fillna().

# Preenchendo dados ausentes com zero
df_preenchido = df.fillna(0)

# Preenchendo com a média da coluna
df['A'] = df['A'].fillna(df['A'].mean())

Quando tratar dados ausentes?

A decisão de tratar ou excluir dados ausentes depende do contexto e do objetivo da sua análise. Se os dados ausentes representam uma parcela significativa do seu conjunto de dados, excluí-los pode não ser a melhor opção, pois você pode perder informações valiosas. Por outro lado, preencher esses dados com valores arbitrários também pode distorcer suas análises. Portanto, é importante ponderar as opções e escolher a estratégia que melhor se adapta ao seu caso.

Conclusão

Lidar com dados ausentes é uma habilidade essencial para qualquer analista de dados, e o Pandas oferece ferramentas robustas para ajudá-lo nessa tarefa. Com a prática, você se tornará cada vez mais confortável em tratar esses dados e extrair insights valiosos de conjuntos de dados incompletos. Lembre-se de que cada conjunto de dados é único, e a melhor estratégia para lidar com dados ausentes pode variar de caso para caso. Siga estes passos para tornar o seu processo de análise exploratória de dados cada vez melhor!

Inscreva-se gratuitamente e fique atualizado

Receba toda semana um resumo dos principais conteúdos da Asimov direto no seu e-mail. 100% livre de spam.

Áreas de interesse: