Como Unir Duas Tabelas e Manter Registros Não Correspondentes

3 minutos de leitura 08/02/2024 • Atualizado 6 meses atrás 5xp

Quando trabalhamos com análise de dados em Python, frequentemente nos deparamos com a necessidade de unir duas tabelas. A biblioteca Pandas oferece uma função poderosa chamada merge, que permite combinar DataFrames. Neste tutorial, vamos aprender a configurar o merge para unir duas tabelas, mantendo também os registros que não correspondem entre elas.

Entendendo o Merge em Pandas

O merge é uma função que combina dois DataFrames baseados em uma ou mais chaves em comum. O comportamento padrão é realizar um “inner join”, que mantém apenas as linhas que têm correspondência em ambas as tabelas. No entanto, podemos alterar esse comportamento para incluir todas as linhas, mesmo aquelas que não têm correspondência, utilizando o argumento how.

Merge no Pandas: como usar pd.merge em Python

Configurando o Merge para um Full Outer Join

Para manter todos os registros de ambas as tabelas, utilizamos o how='outer'. Isso é conhecido como “full outer join” e garante que nenhuma informação seja perdida durante a união.

Exemplo Prático

Vamos considerar dois DataFrames de exemplo:

import pandas as pd

# DataFrame esquerda
esquerda = pd.DataFrame({
    'chave': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

# DataFrame direita
direita = pd.DataFrame({
    'chave': ['K0', 'K1', 'K4', 'K5'],
    'C': ['C0', 'C1', 'C4', 'C5'],
    'D': ['D0', 'D1', 'D4', 'D5']
})

import pandas as pd

# DataFrame esquerda
esquerda = pd.DataFrame({
    'chave': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

# DataFrame direita
direita = pd.DataFrame({
    'chave': ['K0', 'K1', 'K4', 'K5'],
    'C': ['C0', 'C1', 'C4', 'C5'],
    'D': ['D0', 'D1', 'D4', 'D5']
})

Para unir esses DataFrames mantendo todos os registros, fazemos o seguinte:

resultado = pd.merge(esquerda, direita, on='chave', how='outer')

O resultado será um DataFrame que inclui todas as linhas de ambos os DataFrames. As colunas que não têm correspondência serão preenchidas com NaN (Not a Number), que é o marcador padrão do Pandas para dados ausentes.

Visualizando o Resultado

print(resultado)

print(resultado)

O output será:

  chave    A    B    C    D
0    K0   A0   B0   C0   D0
1    K1   A1   B1   C1   D1
2    K2   A2   B2  NaN  NaN
3    K3   A3   B3  NaN  NaN
4    K4  NaN  NaN   C4   D4
5    K5  NaN  NaN   C5   D5

  chave    A    B    C    D
0    K0   A0   B0   C0   D0
1    K1   A1   B1   C1   D1
2    K2   A2   B2  NaN  NaN
3    K3   A3   B3  NaN  NaN
4    K4  NaN  NaN   C4   D4
5    K5  NaN  NaN   C5   D5

Como podemos observar, as linhas K2 e K3 da tabela esquerda e K4 e K5 da tabela direita foram mantidas, apesar de não terem correspondência na outra tabela.

Considerações Finais

O merge com how='outer' é uma ferramenta extremamente útil quando não queremos perder dados durante a união de tabelas. É importante lembrar que, ao trabalhar com grandes conjuntos de dados, esse tipo de operação pode aumentar significativamente o tamanho do DataFrame resultante, o que pode impactar o desempenho da análise.

Agora que você aprendeu a configurar o merge para manter registros não correspondentes, pode aplicar esse conhecimento em seus projetos de análise de dados e garantir que nenhuma informação valiosa seja descartada.

Você também pode gostar:

CURSO

Aplicações de IA com LangChain

CURSO

IAs para Imagens e Áudio com Hugging Face

TUTORIAL

DataFrame: como selecionar linhas usando valores de uma coluna

Ana Maria Gomes • 8 meses atrás

TUTORIAL

Lendo e Escrevendo Arquivos de Planilhas com Python

Ana Maria Gomes • 2 anos atrás

TUTORIAL

Anaconda: Instalação e o uso do Jupyter Notebook e Lab em Python

Mateus Kienzle • 3 meses atrás

TUTORIAL

Lendo e Escrevendo Planilhas com Python

Ana Maria Gomes • 7 meses atrás

TUTORIAL

UPDATE e DELETE com pandas: Guia Prático

Ana Maria Gomes • 1 ano atrás

CURSO

Introdução à Inteligência Artificial

TUTORIAL

Como Verificar Dimensões de um Array no NumPy

Ana Maria Gomes • 1 ano atrás

CURSO

Agents de IA com Python e LangChain

Comunidade

Explorando a API da OpenAI

LG Lucas Valério Giraldi • 4 meses atrás

CURSO

Python para iniciantes: do zero ao primeiro projeto

Cursos de programação gratuitos com certificado

Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:

Conteúdos gratuitos
Projetos práticos
Certificados
+20 mil alunos e comunidade exclusiva
Materiais didáticos e download de código

Inicie agora

Comentários

30xp

Comentar

Faça parte da discussão Crie sua conta gratuita e compartilhe
sua opinião nos comentários Entre para a Asimov