Você está na página 1de 35

Data

Curso:
AULA 01 - RNA
© Copyright 2018-2019 www.infinityschool.com.br - All Rights
Tema da aula:
Aula 1 - Representação tabular e representação gráfica

Conteúdo Programático
• Representação tabular:
○ Dados qualitativos;
○ Dados quantitativos;
○ Tipos de frequência;
• Representação gráfica:
○ Diagramas em colunas;
○ Diagramas em setores;
○ Diagramas em Linhas;
○ Histogramas;
○ Diagrama de dispersão.
© Copyright 2018-2019 www.infinityschool.com.br - All Rights
Representação Tabular
Representação Tabular

Introdução
A representação tabular em estatística (ou em desenvolvimento) é um método
para organizar e/ou apresentar dados:

Características:
● Os dados são dispostos em linhas e colunas;
● Cada linha representa uma observação;
● Cada coluna representa uma variável (característica);
● As tabelas podem ser formatadas para apresentação resumida (de forma
clara e concisa);
● Uma forma comum de apresentação e representação de dados.
Representação Tabular
Código 1: Pandas
Introdução 1 import pandas as pd
Um exemplo de uso da 2
representação tabular: 3 # Cria um DataFrame com alguns dados
4 dados = {
5 'Idade': [25, 30, 35, 40, 45, 50],
Tabela de frequências: usada 6 'Sexo': ['M', 'F', 'M', 'M', 'F', 'F']
para mostrar a contagem ou a 7 }
porcentagem de observações em 8
cada categoria de uma variável 9 df = pd.DataFrame(dados)
categórica 10
11 # Cria a tabela de frequência
12 tabela_freq = pd.crosstab(
13 index=df["Idade"],
14 columns=df["Sexo"]
15 )
16 print(tabela_freq)
17
Representação Tabular
Código 2: Numpy
Introdução 1 import numpy as np
Um exemplo de uso da 2
representação tabular: 3 # Cria arrays com os dados
4 idade = np.array([25, 30, 35, 40, 45, 50])
5 sexo = np.array(['M', 'F', 'M', 'M', 'F', 'F'])
Tabela de frequências: usada 6
para mostrar a contagem ou a 7 # cria uma tabela com zeros
porcentagem de observações em 8 tabela_freq = np.zeros((len(np.unique(idade)),
cada categoria de uma variável 9 len(np.unique(sexo))))
categórica 10
11 for i, idade_cat in enumerate(np.unique(idade)):
12 for j, sexo_cat in enumerate(np.unique(sexo)):
13 tabela_freq[i, j] = np.sum(
14 (idade == idade_cat) & (sexo == sexo_cat))
15 print(tabela_freq)
16
17
Representação Tabular

Introdução
Outros exemplos em que se usa a representação tabular são:

● Tabela de médias;
● Tabela de desvios padrão;
● Tabela de correlação.
Representação Tabular

Dados qualitativos
Representam a informação que identifica alguma
qualidade, categoria ou característica, não
susceptível de medida, mas de classificação,
assumindo várias modalidades (Martins, Maria,
2005).

Por exemplo, o estado civil de um indivíduo é um


dado qualitativo, podemos exemplificar com as
seguintes categorias: solteiro, casado,
divorciado e viúvo (Martins, Maria, 2005).
Representação Tabular

Exemplo prático
Tabela 1: Distribuição de veículos
comercializados de acordo com o modelo na
Para exemplificar, vamos trabalhar empresa toyord, 2012.
em uma base de dados
disponibilizada em link, que Modelo Veículo percentual
apresenta os dados de vendas de chicoNaultla 82 32,8%
veículos.
DeltaForce3 60 24,0%

SpaceShuttle 49 16,6%

Valentiniana 36 14,4%

LuxuriousCar 23 9,2%

Total 250 100%

Fonte: (Matos, viviane, 2017)


Representação Tabular

Exemplo prático
Tabela 2: Distribuição de veículos comercializados de acordo com a satisfação do cliente, toyord, 2012.

Quantidade de clientes
modelo
Muito Muito
Insatisfeito Satisfeito Total
insatisfeito satisfeito

ChicoNaultla 68 12 1 1 82

DeltaForce3 26 29 5 0 60

SpaceShuttle 7 26 14 2 49

Valentiniana 7 6 12 11 36

LuxuriousCar 1 5 3 14 23

Total 109 78 35 28 250

Fonte: (Matos, viviane, 2017)


Representação Tabular

Exemplo prático Código 3: Quantificando a satisfação.

Formas de conseguir 1 import pandas as pd


2 df = pd.read_csv('AmostraToyord.csv',sep=';')
quantificar a satisfação
3 #Ajuste nos nome do modelo
do cliente usando 4 df.Modelo.replace('Chic','Chiconaultla', inplace=True)
pandas. 5 df.Modelo.replace('Chico','Chiconaultla', inplace=True)
6 df.Modelo.replace('Chiconau','Chiconaultla', inplace=True)
7 df.Modelo.replace('Chicona','Chiconaultla', inplace=True)
8 df.Modelo.replace('Deltafo','Deltaforce3', inplace=True)
9 df.Geral.replace('Muito in','Muito insatisfeito', inplace=True)
10 df.Geral.replace('Muito','Muito insatisfeito', inplace=True)
11 df.Geral.replace('Bastant','Bastante satisfeito', inplace=True)
12 df.Geral.replace('Insatis','Insatisfeito', inplace=True)
13 pd.crosstab(
14 index=df['Modelo'],
15 columns=df['Geral']
16 )
Representação Tabular

Exemplo prático Código 4: Quantificando a satisfação com regex.

Formas de conseguir 1 import pandas as pd


2 import re
quantificar a satisfação
3 df = pd.read_csv('AmostraToyord.csv',sep=';')
do cliente usando 4 def replace_values(df, replace_dict):
pandas e regex. 5 for column in df.columns:
6 df[column].replace(replace_dict, regex=True, inplace=True)
7 replace_dict = {
8 'Chic(.*)' :'Chiconaultla', 'Deltafo(.*)' : 'Deltaforce3',
9 'Muito in(.*)' :'Muito insatisfeito', 'Muito(.*)' : 'Muito insatisfeito',
10 'Bastant(.*)' : 'Bastante satisfeito','Insatis(.*)' : 'Insatisfeito'
11 }
12 replace_values(df,replace_dict)
13 pd.crosstab(
14 index=df['Modelo'],
15 columns=df['Geral']
16 )
Representação Tabular

Vamos à prática
1. Liste três exemplos de variáveis qualitativas.
2. Como você faria uma escala de notas não numéricas de uma avaliação?
3. A profissão (Desenvolvedor, Engenheiro, Médico, Advogado, etc.) de um
indivíduo pode ser considerada uma variável qualitativa ? justifique.

OBS: Faça suas anotações, será escolhido três alunos aleatoriamente para socializar suas respostas.
Representação Tabular

Dados quantitativos
Representam a informação resultante de
características susceptíveis de serem medidas,
apresentando-se com diferentes intensidades.
(Martins, Maria, 2005).

Alguns exemplos são:


● Idade;
● Peso;
● Renda.
Representação Tabular

Vamos a prática Tabela 3: Distribuição de veículos


comercializados de acordo com o modelo na
empresa toyord, 2012.
1. Usando seus conhecimentos em
Python, baixe e leia o dataset (link) Modelo Vendas percentual
que deve ser usado para as próximas
chicoNaultla 82 32,8%
atividades.
2. Usando o dataset da atividade 1, faça DeltaForce3 60 24,0%
uma tabela que apresenta o valor SpaceShuttle 49 16,6%
absoluto de vendas de cada veículo.
3. Usando o dataset da atividade 1, faça Valentiniana 36 14,4%

uma tabela que apresenta o percentual LuxuriousCar 23 9,2%


de vendas de cada veículo.
Total 250 100%
Representação Tabular

Conhecendo símbolos
● Somatório;
● Conjuntos.
Representação Tabular

Somatório
Para expandir o entendimento Código 7: Soma da lista A

sobre a simbologia do somatório 1 #No python, o equivalente pode ser escrito


vamos apresentar mais um 2 import numpy as np
3 a = [10, 9, 9, 10, 11]
exemplo:
4 soma = sum(a)
5
Seja a lista, 6 #ou
a = [10, 9, 9, 10, 11] 7 soma = 0
Então, a representação de uma 8 for i in range(len(a)):
9 soma += a[i]
operação de soma pode ser
10
descrita como. 11 #ou
12 soma = np.sum(a)
Representação Tabular

Somatório
Um somatório (representado pelo Código 5: Somando valores de forma convencional.
símbolo ∑) é uma notação utilizada 1 n=5
para representar a soma de uma 2 soma = 0
3 for i in range(1, n+1):
sequência de números. 4 soma += i**2
5 print(soma)
Por exemplo, suponha que 6
precisamos somar os valores: [1², 7
8
2², 3², 4², 5²] e armazenar em uma
variável. Podemos representar essa Código 6: Somando valores com a função sum.
operação com a simbologia abaixo.
1 n=5
2 soma = sum(i**2 for i in range(1,n+1))
3 print(soma)
Representação Tabular

Conjuntos
Para representar um conjunto de
elementos específicos, os elementos são
escritos entre chaves {}. Por exemplo, para
representar o conjunto dos números
inteiros, podemos fazer a seguinte notação
ℤ = {..., -2, -1, 0, 1, 2, ...}.

● O conjunto dos números reais é


representado por ℝ;
● O conjunto dos números inteiros é
representado por ℤ;
● O conjunto vazio é representado por {}
ou Ø.
Representação Tabular

Conjuntos
Em Python, os conjuntos são
representados pelo tipo de dados "set", ou
apenas usando colchetes {}.
Código 8: Criando um conjunto em python.
1 conjunto = set([1, 2, 3, 4, 5])
2 #ou
3 conjunto = {1, 2, 3, 4, 5}
Código 9: Criando um conjunto em python.
1 A, B = set([1, 2, 3]), {3, 4, 5}
2 # união
3 print(A.union(B))
4 # intersecção
5 print(A.intersection(B))
6 # diferença
7 print(A.difference(B))
Representação Tabular

Vamos à prática
1. Sendo um conjunto S={20,30,60,5,10}, então, calcule a média segundo a
seguinte regra:
Representação Tabular

Tipos de frequência
A frequência simples absoluta da i-ésima classe ou categoria, denotada por fi, é
o número de ocorrências de uma categoria/valor em um conjunto de dados.
Por definição, a frequência simples relativa da i-ésima classe ou categoria é
dada por:

Onde,

e k é a quantidade de categorias.
Representação gráfica
Representação gráfica

Introdução
A representação gráfica consiste em
organizar os dados coletados em
desenhos, o objetivo é dar uma clara
e rápida interpretação aos dados.
Representação gráfica
Diagramas em colunas
Neste tipo de diagrama, são Código 10: Exemplo 1 do gráfico de colunas

traçadas várias colunas ou barras 1 import plotly.express as px


verticais, uma barra para cada 2 data_canada =
3 px.data.gapminder().query("country == 'Canada'")
categoria.
4 fig = px.bar(data_canada, x='year', y='pop')
5 fig.show()
Conhecendo a biblioteca Plotly
Express.
Representação gráfica
Diagramas em colunas
Conhecendo a biblioteca Plotly Código 11: Exemplo 2 do gráfico de colunas

Express. 1 import plotly.express as px


2 long_df = px.data.medals_long()
3 fig = px.bar(long_df, x="nation", y="count",
● Os dados de formato longo
4 color="medal", title="Long-Form Input")
têm uma linha por observação 5 fig.show()
e uma coluna por variável
(plotly, 2023).
● Isso é adequado para
armazenar e exibir dados
multivariados, ou seja, com
dimensão maior que 2 (plotly,
2023).
Representação gráfica
Diagramas em setores
Esse tipo de gráfico é utilizado Código 12: Gráfico de setores.

quando é desejado evidenciar as 1 import plotly.express as px


frequências percentuais 2 # This dataframe has 244 lines, but 4 distinct
3 values for `day`
associadas a cada categoria.
4 df = px.data.tips()
5 fig = px.pie(df, values='tip', names='day')
6 fig.show()
Representação gráfica
Diagramas em setores
Código 13: Gráfico de setores
Esse tipo de gráfico é utilizado
quando é desejado evidenciar as 1 import plotly.express as px
frequências percentuais 2 df = px.data.gapminder().query("year ==
3 2007").query("continent == 'Europe'")
associadas a cada categoria. 4 df.loc[df['pop'] < 2.e6, 'country'] = 'Other countries'
5 # Represent only large countries
6 fig = px.pie(df, values='pop', names='country',
7 title='Population of European continent')
8 fig.show()
Representação gráfica
Diagramas em linhas
Código 14: Gráfico de linhas
Conhecendo um pouco sobre o
diagrama em linhas. 1 import plotly.express as px
2 df=px.data.gapminder().query("country=='Canada'
3 ")
4 fig = px.line(df, x="year", y="lifeExp", title='Life
5 expectancy in Canada')
6 fig.show()
7
8
Representação gráfica
Histograma
Código 15: Histograma
Em estatística, um histograma é a
representação da distribuição de 1 import plotly.express as px
dados numéricos, onde os dados 2 df = px.data.tips()
3 # Here we use a column with categorical data
são categorizados e a contagem 4 fig = px.histogram(df, x="day")
de cada categoria é representada 5 fig.show()
(plotly, 2023) 6
7
8
Representação gráfica
Diagrama de dispersão
Com px.scatter, cada ponto de Código 16: Gráfico de dispersão

dado é representado como um 1 import plotly.express as px


ponto marcador, cuja localização 2 df = px.data.iris()
3 fig = px.scatter(df, x="sepal_width",
é dada pelas colunas x e y (plotly,
4 y="sepal_length", color="species",
2023). 5 size='petal_length',
6 hover_data=['petal_width'])
7 fig.show()
8
Vamos à prática
Para essa atividade considere a base de dados a seguir:
https://raw.githubusercontent.com/natorjunior/db-atividades/main/ibge_populaca
o.csv
1. Plotar a curva de crescimento populacional de Fortaleza;
2. Plotar a curva de crescimento populacional de Sobral;
Vamos à prática
Para essa atividade considere a base de dados a seguir:
https://raw.githubusercontent.com/natorjunior/db-atividades/main/microdados_vi
olencia_reduzido.csv
1. Separar apenas os dados da UF 23;
2. Quantificar ocorrências separando por sexo;
3. Descobrir a média de idade das ocorrências por meio de arma de fogo;
4. Plotar as ocorrências por arma de fogo por ano (Gráfico de barras);
Referências
● MARTINS, Maria Eugénia Graça; CERVEIRA, A. Introdução à Probabilidade e à Estatística. Pes,
v. 100, p. 150, 2005.
● MORAIS, Carlos. Descrição, análise e interpretação de informação quantitativa. Obtido em, v. 15,
2010.
● Trevor Hastie, The Elements of Statistical Learning Data Mining, Inference, and Prediction. 2ª
edição, Springer Series in Statistics, 2017
● Mattos, Viviane. Introdução à Estatística - Aplicações em Ciências Exatas. LTC; 1ª edição, 2017.
71 3901 1052 | 71 9 9204 0134
@infinity.school
www.infinityschool.com.br
Salvador Shopping Business | Torre Europa Sala
310 Caminho das Árvores, Salvador - BA CEP:
40301-155
© Copyright 2018-2019 www.infinityschool.com.br - All Rights

Você também pode gostar