Como fazer um WHERE no pandas

Ao trabalhar com dados em Python, a biblioteca Pandas é uma ferramenta poderosa para manipulação e análise de dados. Uma tarefa comum que você pode encontrar é a necessidade de selecionar múltiplas colunas de um DataFrame e salvá-las em um novo DataFrame. Neste artigo, exploraremos como realizar essa tarefa de forma eficiente.
Se você conhece os nomes das colunas que deseja selecionar, pode usar a sintaxe __getitem__
(os colchetes []
) para criar um novo DataFrame apenas com essas colunas. Aqui está um exemplo simples:
import pandas as pd
# DataFrame de exemplo
df = pd.DataFrame({
'a': [2, 3],
'b': [3, 4],
'c': [4, 5]
})
# Selecionando as colunas 'a' e 'b'
df1 = df[['a', 'b']]
TestarIsso criará um novo DataFrame df1
que contém apenas as colunas ‘a’ e ‘b’ do DataFrame original df
.
Às vezes, você pode não saber os nomes das colunas ou preferir selecionar colunas pelo índice numérico delas. Nesse caso, você pode usar o método iloc
:
# Selecionando as duas primeiras colunas pelo índice
df1 = df.iloc[:, 0:2]
Lembre-se de que o Python usa indexação baseada em zero, e o intervalo 0:2
selecionará as colunas nos índices 0 e 1, que correspondem às duas primeiras colunas.
Quando você seleciona colunas usando os métodos acima, pode estar criando uma visualização dos dados em vez de uma cópia. Para garantir que você tenha uma cópia separada que não afetará o DataFrame original quando modificada, você pode usar o método .copy()
:
# Criando uma cópia das duas primeiras colunas
df1 = df.iloc[:, 0:2].copy()
A partir da versão 0.11.0 do Pandas, você também pode usar o indexador .loc
para selecionar colunas pelo rótulo:
# Selecionando as colunas 'C' até 'E' usando .loc
df.loc[:, 'C':'E']
Este método inclui o índice final, então ele selecionará as colunas ‘C’, ‘D’ e ‘E’.
Você também pode usar um array booleano para selecionar colunas. Por exemplo, para selecionar as colunas ‘B’, ‘C’ e ‘D’:
# Selecionando colunas com um array booleano
df.loc[:, df.columns.isin(['B', 'C', 'D'])]
Isso retornará um DataFrame apenas com as colunas para as quais a entrada correspondente no array booleano é True
.
Selecionar múltiplas colunas em um DataFrame do Pandas é um processo simples. Você pode selecionar colunas pelo nome usando colchetes, pelo índice usando iloc
, ou pelo rótulo usando loc
. Lembre-se de usar o método .copy()
se precisar de uma cópia separada dos dados. Com essas técnicas, você pode facilmente manipular e analisar seus dados em Python.
Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:
Este site utiliza cookies para melhorar sua experiência. Ao continuar navegando, você concorda com o uso de cookies.
Comentários
30xpsua opinião nos comentários Entre para a Asimov