Escolar Documentos
Profissional Documentos
Cultura Documentos
albaro paiva
2023-11-24
Pandas é uma popular biblioteca de código aberto para manipulação e análise de dados em Python. Ele
fornece estruturas de dados e funções necessárias para manipular e analisar dados estruturados, como planil-
has, tabelas e séries temporais
A função read_csv() é um método conveniente de ler dados de um arquivo CSV e armazená-los em um
DataFrame panda. Esse recurso tem vários parâmetros que você pode personalizar de acordo com suas
necessidades de importação de dados, como especificar delimitadores, manipular valores ausentes e definir a
coluna de índice.
Para ler um arquivo CSV usando pandas, deve primeiro importar a biblioteca de pandas, em seguida, use
a função read_csv() para ler o arquivo CSV:
Para ler um arquivo xlsx usando pandas,use a função read_excel para ler o arquivo xlsx:
## (1000, 8)
## genero object
## etnia object
## escolaridade_dos_pais object
## almoco object
## simulado object
## nota_matematica int64
## nota_literatura int64
## nota_redacao int64
## dtype: object
1
df.describe() # escreve todas as variáveis numéricas
## genero
## female 518
## male 482
## Name: count, dtype: int64
## etnia
## group C 319
## group D 262
## group B 190
## group E 140
## group A 89
## Name: count, dtype: int64
## 100
2
df.nota_matematica.min() # notas min de Matematica
## 0
df.groupby(['etnia'])[['nota_matematica','nota_literatura','nota_redacao']].std()
3
Histograms
250
200
150
100
50
0
0 20 40 60 80 100
4
# control binwidth (never go with default)
# para o calculo de binwidth não por defeito como grafico anterior
#usamos np.arange , max e min valor da nota
plt.hist(df.nota_matematica, bins = np.arange(min(df.nota_matematica),
max(df.nota_matematica)+5,5))
plt.savefig('hist2.png')
plt.show()
140
120
100
80
60
40
20
0
0 20 40 60 80 100
5
Histograms nota_literatura
140
120
100
80
60
40
20
0
20 40 60 80 100
6
Histograms nota_literatura
120
100
Frequêcia
80
60
40
20
0
20 40 60 80 100
Notas
7
multiple histograms
# multiple histograms
axarr[1,1].hist(df.nota_redacao)
axarr[1,1].set_title('ota de Literatura')
plt.show()
8
Nota de matemática Nota de Literatura
250
200
200
150
150
100
100
50 50
0 0
0 20 40 60 80 100 20 40 60 80 100
Nota de redação ota de Literatura
200 200
150 150
100 100
50 50
0 0
20 40 60 80 100 20 40 60 80 100
9
Scatter plot
plt.plot(df.nota_matematica,df.nota_redacao,'r*')
plt.title('Notas Matemática by Nota redação')
plt.xlabel('Notas Matemática')
plt.ylabel('Nota redação')
plt.show()
80
Nota redação
60
40
20
0 20 40 60 80 100
Notas Matemática
10
Scatter plot
plt.plot(df.nota_literatura,df.nota_redacao,'r*')
plt.title('Notas literatura by Nota redação')
plt.xlabel('Notas literatura')
plt.ylabel('Nota redação')
plt.show()
80
Nota redação
60
40
20
20 40 60 80 100
Notas literatura
11
Scatter plot
plt.plot(df.nota_literatura,df.nota_matematica,'r*')
plt.title('Notas literatura by Nota redação')
plt.xlabel('Notas literatura')
plt.ylabel('Nota nota_matematica')
plt.show()
80
Nota nota_matematica
60
40
20
0
20 40 60 80 100
Notas literatura
12
Boxplot por grupo (genero)
100
80
nota_matematica
60
40
20
0
female male
genero
13
Boxplot genero
import seaborn as sns # importo library searbon facilita box plot por grupo
sns.boxplot(x='genero',y='nota_literatura',data=df)
100
80
nota_literatura
60
40
20
female male
genero
14
Boxplot genero (etnia)
import seaborn as sns # importo library searbon facilita box plot por grupo
sns.boxplot(x='etnia',y='nota_literatura',data=df)
100
80
nota_literatura
60
40
20
group B group C group A group D group E
etnia
15
grafico pie genero
plt.show()
female
51.8%
48.2%
male
16
grafico pie etnia
plt.show()
31.9%
B
26.2%
8.9%
D
19.0% 14.0%
C D
17