Join no Pandas: como utilizar o método join de DataFrames

Ana Maria Gomes
5 minutos de leitura

Conteúdos do tutorial

Quando se trata de análise de dados, especialmente para aqueles que estão começando, é comum se deparar com a necessidade de combinar diferentes conjuntos de dados. No Excel, frequentemente realizamos essa tarefa através de funções como PROCV ou Tabela Dinâmica. No entanto, ao migrar para a programação em Python com a biblioteca Pandas, você encontrará métodos poderosos e flexíveis para realizar essas operações, como o método join.

Entendendo o Método join

O método join é uma das ferramentas que o Pandas oferece para combinar DataFrames de maneira eficiente. Imagine que você tem duas tabelas: uma com informações de vendas e outra com detalhes dos produtos. Seu objetivo é unir essas tabelas para ter uma visão completa das vendas com todas as informações relevantes dos produtos. É aqui que o join entra em ação.

Como Funciona o Join no Pandas

O join no Pandas funciona de forma semelhante ao join em SQL, onde você pode combinar colunas de dois DataFrames diferentes baseando-se em seus índices ou em uma chave comum. Por padrão, o join é realizado utilizando os índices dos DataFrames, mas você pode especificar colunas específicas para a junção.

Exemplo Prático de Join

Vamos a um exemplo prático para ilustrar como o método join funciona. Suponha que temos dois DataFrames: df_vendas e df_produtos.

import pandas as pd

# DataFrame de vendas
df_vendas = pd.DataFrame({
    'ID_Venda': [1, 2, 3],
    'Produto': ['Notebook', 'Smartphone', 'Monitor']
}).set_index('Produto')

# DataFrame de produtos
df_produtos = pd.DataFrame({
    'Produto': ['Notebook', 'Smartphone', 'Monitor'],
    'Preço': [2500, 1500, 700]
}).set_index('Produto')

# Utilizando o método join
df_vendas.join(df_produtos)

No exemplo acima, definimos o índice do df_vendas e do df_produtos como a coluna ‘Produto’. Em seguida, chamamos o método join para combinar as informações baseadas nesse índice comum. O resultado está representado abaixo:

#             ID_Venda  Preço
# Produto                    
# Notebook           1   2500
# Smartphone         2   1500
# Monitor            3    700
Representação visual do join, onde as tabelas df_vendas e df_produtos são unidas pelo seus índices.

Parâmetros Importantes do Join

  • how: Define como a junção será feita. Pode ser left, right, outer ou inner. O padrão é left, que mantém todos os índices do DataFrame à esquerda.
  • on: Especifica a coluna do DataFrame à esquerda que deve ser usada como chave para a junção.

Dicas para Utilizar o Join

  1. Certifique-se de que os índices ou as colunas que você está usando para juntar os DataFrames estão corretos e contêm os valores correspondentes.
  2. Use o parâmetro how para controlar como as linhas que não têm correspondência em ambos os DataFrames serão tratadas.
  3. Se os DataFrames tiverem colunas com o mesmo nome, mas você não deseja usá-las para a junção, considere renomeá-las antes de realizar o join.

Conclusão

O método join é uma ferramenta poderosa que facilita a combinação de DataFrames no Pandas, tornando a análise de dados mais eficiente e menos propensa a erros. Com a prática, você se sentirá mais confortável para explorar as diferentes opções que o Pandas oferece e, em breve, estará realizando operações de junção de dados com a mesma facilidade que faria no Excel. Continue praticando e explorando os recursos do Pandas para se tornar um analista de dados ainda mais habilidoso.

Inscreva-se gratuitamente e fique atualizado

Receba toda semana um resumo dos principais conteúdos da Asimov direto no seu e-mail. 100% livre de spam.

Áreas de interesse: