Dados ausentes no Pandas: tratamento de dados em Python

4 minutos de leitura 18/03/2024 • Atualizado 1 ano atrás 5xp

Quando você está iniciando no mundo da análise de dados, é comum se deparar com um desafio que pode parecer assustador: lidar com dados ausentes. No entanto, se você já tem alguma familiaridade com o Excel, saiba que o Pandas, uma biblioteca do Python, oferece ferramentas poderosas para tratar esses dados ausentes de forma eficiente e intuitiva.

O que são dados ausentes?

Dados ausentes são informações que, por algum motivo, não foram coletadas ou se perderam ao longo do processo. Isso pode acontecer por diversos motivos, como falhas na coleta de dados, erros de digitação ou até mesmo porque a informação não estava disponível naquele momento. No Pandas, esses valores são geralmente representados por NaN (do inglês “Not a Number”).

Exemplo de um DataFrame com dados ausentes no Pandas.

Identificando dados ausentes

Antes de tratarmos os dados ausentes, precisamos identificá-los. O Pandas oferece métodos simples para isso. Por exemplo, o método isna() retorna um DataFrame booleano, onde cada valor é True se o dado for ausente e False caso contrário. Já o método info() nos dá uma visão geral dos dados, incluindo a contagem de valores não nulos em cada coluna.

import pandas as pd

# Suponha que temos o seguinte DataFrame:
df = pd.DataFrame({'A': [1, 2, None],
                   'B': [5, None, None],
                   'C': [1, 2, 3]})

# Identificando dados ausentes
print(df.isna())

# Informações gerais, incluindo dados não nulos
df.info()

Tratando dados ausentes

Agora que identificamos onde estão os dados ausentes no Pandas, como podemos tratá-los? O Pandas nos oferece várias estratégias:

Excluindo dados

Uma abordagem direta é excluir linhas ou colunas que contêm dados ausentes. Isso pode ser feito com o método dropna(). Por exemplo, df.dropna() excluirá todas as linhas onde há pelo menos um dado ausente.

# Excluindo linhas com dados ausentes
df_limpo = df.dropna()

Preenchendo dados

Outra estratégia é preencher os dados ausentes com um valor específico ou com uma estatística, como a média ou mediana da coluna. Isso é feito com o método fillna().

# Preenchendo dados ausentes com zero
df_preenchido = df.fillna(0)

# Preenchendo com a média da coluna
df['A'] = df['A'].fillna(df['A'].mean())

Quando tratar dados ausentes?

A decisão de tratar ou excluir dados ausentes depende do contexto e do objetivo da sua análise. Se os dados ausentes representam uma parcela significativa do seu conjunto de dados, excluí-los pode não ser a melhor opção, pois você pode perder informações valiosas. Por outro lado, preencher esses dados com valores arbitrários também pode distorcer suas análises. Portanto, é importante ponderar as opções e escolher a estratégia que melhor se adapta ao seu caso.

Conclusão

Lidar com dados ausentes é uma habilidade essencial para qualquer analista de dados, e o Pandas oferece ferramentas robustas para ajudá-lo nessa tarefa. Com a prática, você se tornará cada vez mais confortável em tratar esses dados e extrair insights valiosos de conjuntos de dados incompletos. Lembre-se de que cada conjunto de dados é único, e a melhor estratégia para lidar com dados ausentes pode variar de caso para caso. Siga estes passos para tornar o seu processo de análise exploratória de dados cada vez melhor!

Você também pode gostar:

TUTORIAL

Contagem de Linhas de um DataFrame do Pandas

Ana Maria Gomes • 1 ano atrás

CURSO

Python para iniciantes: do zero ao primeiro projeto

CURSO

Introdução à Inteligência Artificial

TUTORIAL

Como usar SQL com pandas: Um guia para iniciantes

Ana Maria Gomes • 11 meses atrás

CURSO

SQL na prática: domine bancos de dados PostgreSQL e pgAdmin

Comunidade

Engenharia de Prompts

LG Lucas Valério Giraldi • 29 dias atrás

TUTORIAL

Como fazer um SELECT com pandas: Comparando com SQL

Ana Maria Gomes • 1 ano atrás

CURSO

Python Starter

TUTORIAL

Como Selecionar Múltiplas Colunas em um DataFrame do Pandas

Ana Maria Gomes • 8 meses atrás

TUTORIAL

UPDATE e DELETE com pandas: Guia Prático

Ana Maria Gomes • 1 ano atrás

TUTORIAL

Como fazer um WHERE no pandas

Ana Maria Gomes • 1 ano atrás

TUTORIAL

Como Verificar Dimensões de um Array no NumPy

Ana Maria Gomes • 2 anos atrás

Comunidade

Explorando a API da OpenAI

LG Lucas Valério Giraldi • 15 dias atrás

TUTORIAL

Como fazer um UNION com pandas

Ana Maria Gomes • 1 ano atrás

Cursos de programação gratuitos com certificado

Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:

Conteúdos gratuitos
Projetos práticos
Certificados
+20 mil alunos e comunidade exclusiva
Materiais didáticos e download de código

Inicie agora

Comentários

30xp

Comentar

Faça parte da discussão Crie sua conta gratuita e compartilhe
sua opinião nos comentários Entre para a Asimov