Você está na página 1de 4

Aula prática 06 – Estatística descritiva

Na aula prática de hoje vamos exercitar os conceitos vistos na aula teórica de


estatística descritiva e aprender a plotar histogramas e box-plot no Lemonade.

Instruções

1. Acesse o Lemonade (https://lemonade.ctweb.inweb.org.br)


Se você já tiver importado a base de dados ENEM_2015_mg.csv (utilizada na aula prática
passada), vá para o próximo passo. Se não, baixe-a e importe-a no Lemonade

Box Plot

2. Crie um novo fluxo de trabalho e dê o nome Box plot e histograma a ele


Adicione as operações Ler dados e Box plot ao fluxo, como mostra a figura abaixo. Lembre-se
de selecionar a base ENEM_2015_mg.csv na operação Ler dados

Preencha os
campos do
Box plot como
mostra a Figura
ao lado

3. Execute o fluxo e vá para Visualizações para obter o gráfico. Salve a figura do gráfico (como
PNG) para colá-la no documento que será entregue. Ou então tire um print da sua tela e cole-o
no documento

O Box plot ou diagrama de caixa é um gráfico que permite visualizar a mediana, os quartis,
valores extremos e, opcionalmente, valores discrepantes (os outliers) de um atributo do
conjunto de dados. Dessa forma, com ele podemos ver valores centrais e extremos de uma
distribuição, e ter uma ideia da variabilidade dos valores dessa distribuição.
Observe as notas das escolas no box plot. Qual tipo de escola tem a maior mediana? Qual tem
a maior variabilidade de notas? E qual tem a maior quantidade de valores discrepantes?

Histograma

4. Volte para o mesmo fluxo de trabalho para continuar editando-o. Agora vamos calcular a
frequência absoluta de cada tipo de escola e plotar isso em um histograma.

O histograma é um gráfico de barras contendo as frequências (relativas ou absolutas) de cada


valor (ou de intervalos de valores) de um determinado atributo. Normalmente, o eixo X
contém os valores do atributo, enquanto o eixo Y contém a frequência de cada valor.

Exemplo:

No Lemonade, não existe uma operação pronta para montar um histograma. Mas podemos
fazer isso com duas operações: uma para contar as frequências e a outra para plotar o gráfico
de barras. Já utilizamos essas duas caixinhas em aulas práticas anteriores, veja detalhes dessas
operações a seguir:

Operação Agrupar linhas por função:

Permite agrupar as linhas da tabela pelos valores de um atributo, e aplica uma função a cada
grupo formado. Exemplos de funções que podem ser aplicadas incluem o Count (para contar
o número de elementos em cada grupo) e o Avg (Para tirar a média dos valores de cada
grupo)

A caixinha que iremos utilizar (Agrupar linhas por função) é a mesma da aula prática 05,
porém lá o objetivo era outro (calcular uma nota média para cada tipo de escola). Logo, a
configuração da caixinha na aula de hoje vai ser diferente.

O objetivo agora é calcular a frequência absoluta de cada tipo de escola, ou seja,


simplesmente a quantidade de cada tipo de escola, e é isso que um histograma mostra
(frequências no eixo Y).
Temos que configurar a operação Agrupar linhas por função com pelo menos essas duas
informações:

(i) Atributo para agregação: As linhas da tabela de


dados serão agrupadas de acordo com os valores
desse atributo. Por exemplo, se for usado o tipo de
escola (DEPENDENCIA_ADMINISTRATIVA) como
atributo, a tabela será separada em quatro grupos:
um para escolas privada, outro para escolas
federais, outro para estaduais e outro para
municipais, que são os quatro valores possíveis
desse atributo.

(ii) Função de agregação: define qual a operação a ser


realizada com cada grupo gerado no passo (i). Veja
detalhes de como configurá-la abaixo:

Ao escolher uma função de agregação, temos que preencher três campos, a saber:

(1) Atributo: esse é o atributo que vai ser usado como parâmetro da função, ou seja, sobre
qual atributo a função será aplicada. Na aula 05, queríamos calcular a média das notas das
escolas. Na aula 06, queremos contar o número de escolas de cada tipo.

(2) Função: é o que queremos calcular. Ex.: uma contagem (Count), uma média (Avg)

(3) Novo atributo: você escolhe o nome que quiser para ele. É como se estivéssemos criando
uma coluna nova na tabela, com o novo nome que você escolheu. O novo atributo será
definido pelo resultado da aplicação da função - item (2) - sobre o atributo antigo - item (1).

Percebam que o novo atributo criado será o eixo Y do histograma

5. Execute o fluxo e inclua o histograma gerado no documento que você irá submeter.
Seu fluxo final deve ficar parecido com a imagem a seguir (tente fazer sem olhar):

Você também pode gostar