Quando trabalhamos com dados, seja em programação ou em planilhas do Excel, muitas vezes precisamos selecionar e manipular apenas uma parte desses dados. No Excel, por exemplo, podemos selecionar células, linhas ou colunas específicas para realizar alguma operação. No mundo da programação com Python, uma das ferramentas mais poderosas para manipulação de dados é a biblioteca Pandas, e o método iloc
do Pandas é um dos recursos que nos permite selecionar dados de forma semelhante ao que fazemos no Excel.
O que é Pandas?
Antes de mergulharmos no método iloc
, vamos entender o que é o Pandas. Pandas é uma biblioteca do Python que fornece estruturas de dados e ferramentas de análise de dados. É como se fosse uma versão superpoderosa do Excel dentro do Python, permitindo que você faça tudo o que faria em uma planilha, mas de forma mais rápida, eficiente e com a capacidade de lidar com conjuntos de dados muito maiores.
Entendendo DataFrames e Series
No Pandas, os dados são geralmente armazenados em algo chamado DataFrame, que é basicamente uma tabela com linhas e colunas, muito parecida com as planilhas do Excel. Cada coluna em um DataFrame é chamada de Series. Você pode pensar em um DataFrame como um armário cheio de arquivos (as Series), onde cada arquivo representa uma coluna de dados.
Caso você tenha interesse, temos tutoriais sobre como manipular tanto DataFrames do Pandas quanto Series do Pandas.
O Método iloc
do Pandas
Agora que temos uma noção do que é o Pandas e como os dados são organizados, vamos falar sobre o método iloc
. iloc
é uma abreviação de “index location” (localização de índice) e é usado para selecionar linhas e colunas por sua posição numérica no DataFrame.
Como Usar o iloc
Para usar o iloc
, você precisa conhecer a posição (o número da linha e da coluna) dos dados que deseja selecionar. No Pandas, a contagem começa em 0, então a primeira linha é a linha 0, a segunda linha é a linha 1 e assim por diante. A mesma ideia vale também para colunas.
Aqui está um exemplo básico de como usar o iloc
:
import pandas as pd
# Vamos criar um DataFrame simples para o exemplo
dados = {
'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela'],
'Idade': [23, 34, 45, 26],
'Cidade': ['Rio de Janeiro', 'São Paulo', 'Salvador', 'Curitiba']
}
df = pd.DataFrame(dados)
# Selecionando a primeira linha do DataFrame
primeira_linha = df.iloc[0]
# Selecionando um elemento específico (linha 2, coluna 3)
elemento_especifico = df.iloc[1, 2] # Bruno, São Paulo
No exemplo acima, primeira_linha
conterá todos os dados da primeira linha do DataFrame (Ana, 23, Rio de Janeiro), e elemento_especifico
conterá o dado da segunda linha e terceira coluna (São Paulo):
print(primeira_linha)
# output:
# Nome Ana
# Idade 23
# Cidade Rio de Janeiro
# Name: 0, dtype: object
print(elemento_especifico)
# output:
# São Paulo
Como já explicamos anteriormente, a contagem de linhas e colunas começa de 0, e não de 1. Lembre-se desse detalhe para não selecionar a linha ou coluna errada!
Selecionando Múltiplas Linhas e Colunas
Você também pode usar o iloc
para selecionar múltiplas linhas e colunas ao mesmo tempo, usando :
para indicar um intervalo:
# Selecionando as primeiras três linhas
primeiras_tres_linhas = df.iloc[0:3]
# Selecionando todas as linhas e as primeiras duas colunas
duas_colunas = df.iloc[:, 0:2]
E o resultado da seleção:
print(primeiras_tres_linhas)
# output:
# Nome Idade Cidade
# 0 Ana 23 Rio de Janeiro
# 1 Bruno 34 São Paulo
# 2 Carlos 45 Salvador
print(duas_colunas)
# output:
# Nome Idade
# 0 Ana 23
# 1 Bruno 34
# 2 Carlos 45
# 3 Daniela 26
No segundo exemplo acima, note que o seletor iloc
de linhas foi apenas :
sem nenhum número antes ou depois. Isso representa uma seleção de todas as linhas. Efetivamente, o código significa “selecione todas as linhas e as primeiras duas colunas”.
Comparando o método iloc
do Pandas com o Excel
Se você está acostumado a trabalhar com o Excel, pode pensar no iloc
como uma forma de usar a referência de célula para selecionar dados. No Excel, você pode clicar e arrastar para selecionar um intervalo de células, como A1:C3 para selecionar as três primeiras linhas e as três primeiras colunas. No Pandas, df.iloc[0:3, 0:3]
faria algo semelhante.
Conclusão
O método iloc
do Pandas é uma ferramenta poderosa que permite acessar seus dados diretamente por sua posição no DataFrame. Lembre-se de que a prática leva à perfeição, então não hesite em experimentar e explorar o que o Pandas pode fazer por você e seus dados!
Cursos de programação gratuitos com certificado
Aprenda a programar e desenvolva soluções para o seu trabalho com Python para alcançar novas oportunidades profissionais. Aqui na Asimov você encontra:
- Conteúdos gratuitos
- Projetos práticos
- Certificados
- +20 mil alunos e comunidade exclusiva
- Materiais didáticos e download de código
Comentários