Ao trabalhar com dados em Python, a biblioteca Pandas é uma ferramenta poderosa para manipulação e análise de dados. Uma tarefa comum que você pode encontrar é a necessidade de selecionar múltiplas colunas de um DataFrame e salvá-las em um novo DataFrame. Neste artigo, exploraremos como realizar essa tarefa de forma eficiente.
Selecionando Colunas pelo Nome
Se você conhece os nomes das colunas que deseja selecionar, pode usar a sintaxe __getitem__
(os colchetes []
) para criar um novo DataFrame apenas com essas colunas. Aqui está um exemplo simples:
import pandas as pd
# DataFrame de exemplo
df = pd.DataFrame({
'a': [2, 3],
'b': [3, 4],
'c': [4, 5]
})
# Selecionando as colunas 'a' e 'b'
df1 = df[['a', 'b']]
TestarIsso criará um novo DataFrame df1
que contém apenas as colunas ‘a’ e ‘b’ do DataFrame original df
.
Selecionando Colunas pelo Índice
Às vezes, você pode não saber os nomes das colunas ou preferir selecionar colunas pelo índice numérico delas. Nesse caso, você pode usar o método iloc
:
# Selecionando as duas primeiras colunas pelo índice
df1 = df.iloc[:, 0:2]
Lembre-se de que o Python usa indexação baseada em zero, e o intervalo 0:2
selecionará as colunas nos índices 0 e 1, que correspondem às duas primeiras colunas.
Criando uma Cópia dos Dados
Quando você seleciona colunas usando os métodos acima, pode estar criando uma visualização dos dados em vez de uma cópia. Para garantir que você tenha uma cópia separada que não afetará o DataFrame original quando modificada, você pode usar o método .copy()
:
# Criando uma cópia das duas primeiras colunas
df1 = df.iloc[:, 0:2].copy()
Usando .loc para Indexação Baseada em Rótulos
A partir da versão 0.11.0 do Pandas, você também pode usar o indexador .loc
para selecionar colunas pelo rótulo:
# Selecionando as colunas 'C' até 'E' usando .loc
df.loc[:, 'C':'E']
Este método inclui o índice final, então ele selecionará as colunas ‘C’, ‘D’ e ‘E’.
Selecionando Colunas com Indexação Booleana
Você também pode usar um array booleano para selecionar colunas. Por exemplo, para selecionar as colunas ‘B’, ‘C’ e ‘D’:
# Selecionando colunas com um array booleano
df.loc[:, df.columns.isin(['B', 'C', 'D'])]
Isso retornará um DataFrame apenas com as colunas para as quais a entrada correspondente no array booleano é True
.
Resumo
Selecionar múltiplas colunas em um DataFrame do Pandas é um processo simples. Você pode selecionar colunas pelo nome usando colchetes, pelo índice usando iloc
, ou pelo rótulo usando loc
. Lembre-se de usar o método .copy()
se precisar de uma cópia separada dos dados. Com essas técnicas, você pode facilmente manipular e analisar seus dados em Python.
Cursos de programação gratuitos com certificado
Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:
- Conteúdos gratuitos
- Projetos práticos
- Certificados
- +20 mil alunos e comunidade exclusiva
- Materiais didáticos e download de código
Comentários
30xp