Como Selecionar Múltiplas Colunas em um DataFrame do Pandas

Ana Maria Gomes
4 minutos de leitura

Conteúdos do tutorial

Ao trabalhar com dados em Python, a biblioteca Pandas é uma ferramenta poderosa para manipulação e análise de dados. Uma tarefa comum que você pode encontrar é a necessidade de selecionar múltiplas colunas de um DataFrame e salvá-las em um novo DataFrame. Neste artigo, exploraremos como realizar essa tarefa de forma eficiente.

Selecionando Colunas pelo Nome

Se você conhece os nomes das colunas que deseja selecionar, pode usar a sintaxe __getitem__ (os colchetes []) para criar um novo DataFrame apenas com essas colunas. Aqui está um exemplo simples:

import pandas as pd

# DataFrame de exemplo
df = pd.DataFrame({
    'a': [2, 3],
    'b': [3, 4],
    'c': [4, 5]
})

# Selecionando as colunas 'a' e 'b'
df1 = df[['a', 'b']]
Testar

Isso criará um novo DataFrame df1 que contém apenas as colunas ‘a’ e ‘b’ do DataFrame original df.

Selecionando Colunas pelo Índice

Às vezes, você pode não saber os nomes das colunas ou preferir selecionar colunas pelo índice numérico delas. Nesse caso, você pode usar o método iloc:

# Selecionando as duas primeiras colunas pelo índice
df1 = df.iloc[:, 0:2]

Lembre-se de que o Python usa indexação baseada em zero, e o intervalo 0:2 selecionará as colunas nos índices 0 e 1, que correspondem às duas primeiras colunas.

Criando uma Cópia dos Dados

Quando você seleciona colunas usando os métodos acima, pode estar criando uma visualização dos dados em vez de uma cópia. Para garantir que você tenha uma cópia separada que não afetará o DataFrame original quando modificada, você pode usar o método .copy():

# Criando uma cópia das duas primeiras colunas
df1 = df.iloc[:, 0:2].copy()

Usando .loc para Indexação Baseada em Rótulos

A partir da versão 0.11.0 do Pandas, você também pode usar o indexador .loc para selecionar colunas pelo rótulo:

# Selecionando as colunas 'C' até 'E' usando .loc
df.loc[:, 'C':'E']

Este método inclui o índice final, então ele selecionará as colunas ‘C’, ‘D’ e ‘E’.

Selecionando Colunas com Indexação Booleana

Você também pode usar um array booleano para selecionar colunas. Por exemplo, para selecionar as colunas ‘B’, ‘C’ e ‘D’:

# Selecionando colunas com um array booleano
df.loc[:, df.columns.isin(['B', 'C', 'D'])]

Isso retornará um DataFrame apenas com as colunas para as quais a entrada correspondente no array booleano é True.

Resumo

Selecionar múltiplas colunas em um DataFrame do Pandas é um processo simples. Você pode selecionar colunas pelo nome usando colchetes, pelo índice usando iloc, ou pelo rótulo usando loc. Lembre-se de usar o método .copy() se precisar de uma cópia separada dos dados. Com essas técnicas, você pode facilmente manipular e analisar seus dados em Python.

Inscreva-se gratuitamente e fique atualizado

Receba toda semana um resumo dos principais conteúdos da Asimov direto no seu e-mail. 100% livre de spam.

Áreas de interesse: