Você está na página 1de 19

INTRODUÇÃO

A CIÊNCIA
DE DADOS

Talysson Manoel de Oliveira Santos


Estatística descritiva
para ciência de dados
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

 Descrever a correlação entre estatística e ciência de dados.


 Analisar os conceitos de variáveis e distribuição de frequência.
 Explicar as medidas em estatística descritiva.

Introdução
Atualmente, a ciência de dados é uma das áreas do conhecimento mais
valorizadas por empresas de diferentes ramos de atuação. Entre as fer-
ramentas utilizadas por essa área, os métodos advindos da estatística
figuram como os principais, tendo um papel fundamental nas etapas
de processamento de dados e análise dos resultados.
De forma geral, a estatística é a ciência que apresenta métodos
próprios para coletar, apresentar e interpretar adequadamente con-
juntos de dados, sejam eles qualitativos ou quantitativos. A estatística
descritiva — cujo objetivo básico é o de sintetizar um conjunto de
observações de uma variável — permite que se tenha uma visão global
sobre a posição e a dispersão desses valores por meio do uso de tabelas,
gráficos e medidas descritivas.
Neste capítulo, você vai estudar sobre a importância da ciência
de dados e o motivo pelo qual essa área vem sendo cada vez mais
solicitada por empresas ligadas a diversos setores da economia. Você
2 Estatística descritiva para ciência de dados

também vai ler sobre a importância da estatística para a ciência de


dados, assim como os conceitos de variáveis e distribuição de frequên
cia. Por fim, você vai conhecer as medidas em estatística descritiva e
ver como extrair informações de tabelas e gráficos que vão auxiliar na
tomada de decisões a partir dos dados.

1 O que é ciência de dados e como


se correlaciona com a estatística?
Nas últimas décadas, a tecnologia tem passado por rápidas e constantes
evoluções. Na Primeira Revolução Industrial, entre 1760 e 1840, o desen-
volvimento da máquina a vapor impulsionou o progresso da indústria têxtil
e de ferro. Entre 1850 e 1945, a Segunda Revolução Industrial alavancou
a indústria química, elétrica, de petróleo e de aço. Na Terceira Revolu-
ção, os computadores tiveram a sua capacidade aumentada e tornaram-se
acessíveis, impactando profundamente na sociedade e nas empresas. Na
atualidade, estamos vivendo a Quarta Revolução Industrial, na qual diver-
sos dispositivos conectados geram grandes volumes de dados diariamente
(AMARAL, 2016).
Por volta de 1980, armazenar dados era um grande desafio, que custava
caro: cerca de 200 dólares a cada 1 MB. Hoje o avanço tecnológico nos
permite armazenar grandes quantidades de dados a um preço baixo (AMA-
RAL, 2016). Em função dessa mudança, organizações públicas e privadas
começaram a buscar metodologias capazes de armazenar e processar essa
quantidade abundante de dados, a fim de obter informações. Isso mudou
a maneira de operar das empresas, tornando-as mais ágeis na tomada de
decisões sustentadas por informações extraídas dos dados (SHARDA;
DELEN; TURBAN, 2019).
Com essa constante evolução nos moldes operacionais das empresas e a
busca de informações para agregar valor a um negócio, a ciência de dados
cresceu muito. Isso ocorreu porque essa área é a responsável por todas as
etapas do uso de dados, conforme ilustra a Figura 1.
Estatística descritiva para ciência de dados 3

Figura 1. Etapas do uso de dados que são atribuições da ciência


de dados.
Fonte: Adaptada de Amaral (2016).

O primeiro passo realizado pela ciência de dados surge de uma demanda. É


importante pensar em todas as variáveis que fazem parte do processo e no tipo
de informação que se deseja extrair. Após entender o problema e determinar
o tipo de informação desejada e as variáveis que fazem parte do processo, é
hora de iniciar o segundo passo: coletar os dados. Os dados obtidos nesse passo
podem ser comprados de empresas especializadas em vendê-los, produzidos ou
simplesmente coletados de algum banco de dados com acesso aberto.
Os dados coletados são então armazenados. A etapa de armazenamento é
responsável por garantir a recuperação e a duplicação dos dados. Além disso,
permite que eles sejam analisados no futuro, mantém informações sigilosas
em segurança e otimiza o espaço utilizado (AMARAL, 2016).
4 Estatística descritiva para ciência de dados

É nas etapas de processar os dados e explorar os resultados que surge


a correlação entre estatística e ciência de dados. Nessas etapas, o obje-
tivo é buscar e aplicar metodologias adequadas para encontrar padrões,
extrair informações e interpretar os resultados obtidos a partir da análise
dos dados. Entre as metodologias mais utilizadas está a estatística, que
pode ser definida como parte da matemática aplicada que estuda maneiras
de organizar, descrever e interpretar dados de forma sistemática (SILVA;
GRAMS; SILVEIRA, 2018). Nos passos seguintes, o cientista de dados é
responsável por comunicar os resultados e retornar informações para a
etapa de entendimento do problema.
A estatística é uma ferramenta da ciência de dados que se divide em três
grandes áreas (SILVA; GRAMS; SILVEIRA, 2018):

 estatística descritiva;
 inferência estatística;
 estatística probabilística.

A estatística descritiva é a primeira etapa da análise de dados, ou


seja, é responsável por descrever e resumir os dados por meio de gráficos,
tabelas e números. A estatística inferencial interpreta os indicadores da
estatística descritiva para inferir eventos prováveis, fundamentados pelas
características dos dados. A estatística probabilística analisa a proba-
bilidade de um evento ocorrer e atribui o grau de incerteza associado à
sua ocorrência.
Na próxima seção, você vai aprender a analisar conceitos de variáveis e
distribuição de frequência, que são termos comuns da estatística descritiva.

2 Conceitos de variáveis e distribuição


de frequência
A estatística descritiva está ligada à análise inicial dos dados. A partir do
seu uso, é possível avaliar como as observações se distribuem, onde estão
concentradas e como estão em termos de associação e dispersão (ZABALA,
2020). Na sequência, você vai aprender conceitos de variáveis e de métodos
descritivos, que são a base para análises estatísticas mais avançadas.
Estatística descritiva para ciência de dados 5

Variáveis
Variável é uma característica de interesse que é mensurada em cada indivíduo
da população. Os seus valores variam entre os indivíduos, podendo ser numé-
ricos ou não numéricos. As variáveis quantitativas são as características que
podem ser medidas utilizando valores numéricos, como número de alunos na
classe de cálculo ou peso de uma pessoa. As variáveis qualitativas representam
as características não numéricas dentro de um conjunto de interesse, como
marca, modelo de veículos e gênero (ZABALA, 2020).
As variáveis quantitativas podem ser classificadas como contínuas ou discretas:

 Variáveis contínuas – características mensuráveis que assumem valores


em uma escala contínua, podendo ser valores não inteiros (como peso,
altura, tempo e pressão arterial).
 Variáveis discretas – características mensuráveis que assumem apenas
valores inteiros, ou seja, discretos (como número de filhos e número
de jogadores).

As variáveis qualitativas podem ser classificadas como ordinais ou nominais:

 Variáveis ordinais – existe uma ordenação para as categorias. Exem-


plos de variáveis ordinais são escolaridade (1º, 2º, 3º grau), estágio da
gravidez (inicial, intermediário, final) e mês (janeiro, fevereiro, ...,
novembro, dezembro).
 Variáveis nominais – não existe uma ordenação para as categorias
(como religião, raça, cor preferida, time de futebol favorito).

Uma variável originalmente quantitativa pode ser coletada de forma qualitativa. Por
exemplo, quando a variável idade informa apenas a faixa etária (25 a 30 anos, 50 a 55
anos...), ela é qualitativa ordinal. Outro ponto importante é que nem sempre uma variável
representada por números é quantitativa. Exemplos disso são o número do telefone
de uma pessoa, o número da casa, o número da identidade e o sexo do indivíduo,
quando registrado em uma planilha como 1 para masculino e 2 para feminino.
6 Estatística descritiva para ciência de dados

Distribuição de frequência
Você já viu que as variáveis de um processo se dividem em quatro tipos. Como
os dados gerados pelos diferentes tipos de variáveis são de naturezas diversas,
eles devem receber tratamentos diversos. Portanto, você vai estudar agora as
ferramentas (tabelas e gráficos) mais adequadas para a análise de frequência
de cada tipo de dados.
Para os dados de natureza qualitativa, é usual fazer uma tabela de
frequência, como mostra o Quadro 1. Nesse quadro, são apresentadas as
frequências de ocorrência de cada um dos sexos no total de 103 entrevis-
tados em uma pesquisa de satisfação do consumidor feita por uma loja de
eletrodomésticos.

Quadro 1. Distribuição de frequências dos entrevistados conforme o sexo

Sexo Frequência absoluta Frequência relativa (%)

Feminino 62 60,2

Masculino 41 39,8

Total de participantes 103 100

Observe que, no Quadro 1, cada categoria da variável sexo (feminino,


masculino) é representada em uma linha. A coluna de frequência absoluta
mostra a contagem de entrevistados em cada categoria, e a coluna de fre-
quência relativa mostra o percentual que as contagens representam no total
de entrevistados.
Para variáveis do tipo qualitativa ordinal, as linhas da tabela de frequên-
cias devem ser dispostas na ordem existente para as categorias. O Quadro
2 mostra a distribuição de frequências dos entrevistados segundo o mês
de observação, que é uma variável qualitativa ordinal. Para essa análise,
é possível acrescentar mais duas colunas com as frequências acumuladas
(absoluta e relativa). Frequências acumuladas mostram a quantidade de
clientes entrevistados até cada mês.
Estatística descritiva para ciência de dados 7

Quadro 2. Distribuição de frequências dos entrevistados em função do mês de observação

Frequência Frequência
Mês de Frequência Frequência absoluta relativa
observação absoluta relativa (%) acumulada acumulada (%)

Fevereiro 19 18,45 19 18,45

Março 6 5,82 25 24,27

Abril 6 5,82 31 30,09

Maio 11 10,69 42 40,78

Junho 23 22,33 65 63,11

Julho 20 19,42 85 82,53

Agosto 18 17,47 103 100

Total 103 100 --- ---

A frequência absoluta se refere à quantidade de entrevistados em cada mês; a


frequência acumulada, à quantidade total entrevistada até determinado mês. Por
exemplo, no mês de fevereiro, 19 pessoas responderam à pesquisa de satisfação.
Em março, outras seis pessoas foram entrevistadas. Logo, a frequência acumulada
de março indica que, até esse mês, um total de 25 pessoas já foram entrevistadas
(19 em fevereiro, mais seis em março). A partir do Quadro 2, você pode observar
que a maior frequência de participação na pesquisa ocorreu nos últimos três
meses: de fevereiro a maio, apenas 40,78% do total de pessoas entrevistadas já
haviam participado; os outros 59,22% participaram de junho a agosto.
Com o intuito de tornar a análise de distribuição de frequência mais fácil
de visualizar, você pode utilizar também os gráficos. Os mais comuns para a
análise de distribuição de frequência de variáveis qualitativas são os gráficos
de setores (popularmente conhecidos como gráficos de pizza) e os histogramas,
que são a representação gráfica em colunas ou em barras (REIS; REIS, 2002).
A Figura 2 ilustra o uso do gráfico de setores para a distribuição de frequências
do total de entrevistados segundo sexo. Na Figura 3, o uso do histograma para a
distribuição de frequências dos entrevistados em função do mês de observação.
8 Estatística descritiva para ciência de dados

Figura 2. Gráfico de distribuição dos entrevistados quanto ao sexo.

Figura 3. Gráfico de distribuição dos entrevistados por mês.

À medida que a complexidade das análises aumenta, como quando é ne-


cessário comparar vários grupos com relação às variáveis que têm muitas
categorias, as vantagens do uso da representação gráfica ficam ainda mais
evidentes.
Estatística descritiva para ciência de dados 9

Se você quiser usar o gráfico de setores para comparar a distribuição de frequências


de uma mesma variável em N grupos, então você vai precisar de N gráficos de setores.
Já o histograma permite fazer esse tipo de comparação com apenas um gráfico. Se for
comparar uma variável entre dois ou mais grupos de número de observações diferentes,
use a frequência relativa de cada grupo para a construção do gráfico e a comparação.

Quando se trata de uma variável discreta que assume poucos valores, a forma
de analisar é semelhante ao tratamento dado às variáveis qualitativas ordinais. É
como se cada valor que a variável discreta assume fosse uma classe, e que existe
uma ordem natural nessas classes (REIS; REIS, 2002). Veja o exemplo a seguir.

A prefeitura de uma cidade no interior de Minas Gerais resolveu fazer um levantamento


do número de filhos por família em uma localidade específica. Para isso, 25 famílias
informaram o número de filhos. Com as informações coletadas, você pode fazer uma
análise completa a partir da tabela de distribuições de frequência mostrada no Quadro
3, e do histograma que consta na Figura 4.

Quadro 3. Distribuição de frequências do número de filhos por família em uma localida-


de (25 famílias)

Número de Frequência Frequência Frequência relativa


filhos absoluta relativa (%) acumulada (%)
0 1 4,0 4,0
1 3 12,0 16,0
2 7 28,0 44,0
3 10 40,0 84,0
4 2 8,0 92,0
5 2 8,0 100
Total 25 100 ---
10 Estatística descritiva para ciência de dados

Figura 4. Distribuição de frequência do número de filhos por família em uma localidade.

Analisando a distribuição de frequência (Figura 4), é possível concluir


que a maioria das famílias (40%) tem três filhos. A frequência acumulada
mostra que 84% das famílias entrevistadas possuem de zero a três filhos, e
apenas 16% possuem de quatro a cinco filhos. Só uma família entre as 25
entrevistadas não tem filhos. O histograma deixa claras as afirmações feitas
a partir da tabela e evidencia que a maior concentração de frequência é de
famílias que têm dois ou três filhos.
Quando você trabalhar com uma variável qualitativa discreta que pode
assumir muitos valores distintos, ou quando a variável for qualitativa contí-
nua, é impraticável tentar construir uma tabela ou fazer a representação em
gráficos considerando cada valor como uma categoria. A solução é agrupar
os valores em classes que representam faixas de valores com certa amplitude
(ZABALA, 2020). De acordo com Scott (1979), a escolha do número de classes
(k sc) e o tamanho das classes (hsc) estão condicionados à amplitude dos valores
a serem representados, da quantidade de observações disponíveis no conjunto
de dados e do desvio padrão amostral:
Estatística descritiva para ciência de dados 11

onde:
n = número de observações (ou amostras);
s = desvio padrão amostral;
max(x) = maior valor observado;
min(x) = menor valor observado.

A altura de 100 alunos de uma escola do ensino médio foi coletada. Sabendo que o
desvio das amostras de altura é s = 0,066, que a altura máxima é 1,80, e que a altura
mínima é 1,50, determine o tamanho e a quantidade de classes para representar a
distribuição de frequência de altura dos alunos.

hsc= 3,5*0,066/100^(1/3) hsc= 0,05


ksc= (1,80-1,50)/0,05 ksc= 6

Após encontrar o comprimento do intervalo e o número de classes, basta montar a


tabela de distribuições de frequência e preenchê-la de acordo com os dados, como
mostra o Quadro 4.

Quadro 4. Distribuição de frequências de altura dos alunos do ensino médio

Frequência
Número Frequência Frequência relativa
de filhos absoluta relativa (%) acumulada (%)

1,5 1,55 9 9,0 9,0

1,55 1,60 14 14,0 23,0

1,60 1,65 17 17,0 40,0

1,65 1,70 19 19,0 59,0

1,70 1,75 33 33,0 92,0

1,75 1,80 8 8,0 100

Total 100 100 ---


12 Estatística descritiva para ciência de dados

Na atualidade, há muitos dados sendo gerados a todo instante, e é comum trabalhar


com conjuntos de dados em que as variáveis contêm milhares de observações. Portanto,
é impossível trabalhar com essa quantidade enorme de dados sem utilizar ferramentas
computacionais. Atualmente, uma das linguagens de programação mais utilizadas é
o Python. Saiba mais sobre como usar o Python consultando o livro Data Science do
zero: Primeiras regras com o Python de Joel Grus.

3 Medidas em estatística descritiva


A estatística descritiva é a etapa inicial para descrever e resumir os dados.
A seguir, você vai aprender a usar e interpretar as métricas da estatística
descritiva, que se dividem em duas partes: medidas para análise de posição e
medidas para análise de dispersão.

Medidas de posição
A média de uma variável é dada pela soma de todas as observações, dividida
pelo número de observações. Pela facilidade de cálculo e de entendimento, é a
medida de tendência central mais conhecida e usada (REIS; REIS, 2002). Portanto,

onde n é o número de observações no conjunto de dados, e xi é o valor da


i-ésima observação desse conjunto.
A mediana de um conjunto de dados é definida como sendo o valor maior
que 50% dos dados dispostos em ordem crescente, ou seja, é o valor central
para um conjunto de observações ordenadas. A mediana é conhecida também
como segundo quartil (ZABALA, 2020). Para um conjunto de n observações,
a mediana ocupa a posição (n + 1)/2 dos valores ordenados.
A moda é o valor que ocorre com maior frequência para uma variável. Para
uma tabela de frequência composta por classes que representam intervalos, a
classe de maior frequência é chamada de classe modal. Se existe apenas uma
moda, a distribuição é conhecida como unimodal; se existem duas modas,
bimodal; se existem três modas, trimodal. Quando existem quatro ou mais
modas, trata-se de uma distribuição multimodal.
Estatística descritiva para ciência de dados 13

Dado um conjunto de observações x = [4, 3, 5, 2, 6, 5, 8, 4, 4], calcule a média, a mediana


e a moda do conjunto.

Média: = 4,55

Mediana: valores ordenados – 2, 3, 4, 4, 4, 5, 5, 6, 8. Mediana = 4.


Moda: o valor mais frequente. Moda = 4.

A média é uma medida influenciada pela presença de valores extremos em


um conjunto de dados, isto é, se no meio das observações há um valor muito
menor que os demais, esse valor vai fazer a média tender na sua direção. O
mesmo ocorre para um valor muito grande. Já a mediana não é tão influen-
ciada por esses valores extremos (ou outliers), visto que o seu cálculo consiste
em ordenar os valores e, a partir disso, determinar a mediana (REIS; REIS,
2002). A moda também tem as suas vantagens. Quando a variável apresenta
distribuições bimodais ou multimodais, a moda pode representar melhor a
posição dos dados do que a média e a mediana.
Os quartis ou separatrizes deixam k * 100% das observações abaixo deles
na amostra ordenada. Os casos mais comuns são os seguintes (ZABALA, 2020):

 o primeiro quartil deixa 25% das amostras ordenadas abaixo, ou seja,


é o valor maior do que 25% das observações ordenadas;
 o segundo quartil é a mediana;
 o terceiro quartil é o valor maior do que 75% das observações ordenadas.

Um método simples para calcular os quartis de forma aproximada pode


seguir os seguintes passos (ZABALA, 2020):

 ordene os dados de forma crescente;


 L = k * n. Se L não é inteiro, arredonde-o para o maior inteiro mais
próximo. O valor do quartil é o L-ésimo valor, a contar do menor. Se L
é inteiro, o quartil é a média entre o L-ésimo e o (L + 1)-ésimo termo,
a contar do menor.

Geralmente, os softwares calculam os quartis usando interpolação.


14 Estatística descritiva para ciência de dados

Com o conjunto de observações 15, 5, 3, 8, 10, 2, 7, 11, 12, calcule os quartis 0,25 e 0,75.

1. Ordene os dados: 2, 3, 5, 7, 8, 10, 11, 12, 15.


2. Para 0,25, L= 2,25; para 0,75, L= 6,75.
3. O primeiro quartil é 5, e o terceiro quartil é 11.

Medidas de dispersão
A amplitude de uma variável é dada pela diferença do valor máximo pelo
valor mínimo.

A variância avalia o quanto, em média, os dados variam ao quadrado em re-


lação à média. Trata-se de uma das principais medidas de dispersão em estatística
(ZABALA, 2020). A variância amostral pode ser calculada da seguinte forma:

O desvio padrão amostral (S) é a raiz quadrada da variância amostral.


Usa-se o desvio padrão porque a interpretação da sua grandeza é mais intuitiva,
uma vez que a unidade de medida é a mesma da variável x (ZABALA, 2020).
O coeficiente de variação (CV) é uma medida de dispersão relativa. Essa
métrica exprime a variabilidade em relação à média, eliminando o efeito da
magnitude dos dados (DAVILA, [201-?]). É extremamente útil para comparar
duas ou mais variáveis com unidades de medidas diferentes (PETERNELLI,
[2013]). O CV pode ser calculado da seguinte forma:
Estatística descritiva para ciência de dados 15

Os agentes de fiscalização de uma cidade frequentemente realizam uma vistoria


nos restaurantes, a fim de apurar possíveis irregularidades na venda dos seus
produtos. Na última vistoria, os agentes coletaram o peso de 10 bifes que eram
vendidos como bife de 200 gramas. Os dados coletados são mostrados a seguir.

X = [170 175 180 185 190 195 200 200 200 205].

Faça uma análise estatística para verificar se há irregularidades com os bifes


vendidos pelo restaurante.
 Média = (170+175+180+185+190+195+200+200+205)/10 Média = 190
 A = 205 – 170 = 35g
 Variância = [ (170-190)^2 + (175-190)^2 + (180-190)^2+ (185-190)^2 + (190-190)^2
+ (195-190)^2 + (200-190)^2 + (200-190)^2 + (205-190)^2 ] / (10 – 1) Variância
= 144,44
 Desvio padrão = 12,02
 Coeficiente de variação = 12,02 / 190 CV = 0,06
Dentro do processo de produção de determinado produto, é normal o peso ou
outra medida de quantidade variar um pouco. Porém, analisando os resultados
para esse caso específico, visto que os bifes apresentam média de peso igual a 190
gramas e desvio padrão de 12 gramas, é possível concluir que a maioria dos clientes
estão sendo lesados. Portanto, no que diz respeito ao controle de qualidade, os
bifes não apresentam um padrão bom.

Neste capítulo, você estudou sobre a importância da ciência de dados


nos moldes operacionais atuais das empresas e como a estatística descritiva
é uma ferramenta importante no processo de extração de informações a
partir dos dados. Além disso, você leu sobre os tipos de variáveis que
podem estar presentes no conjunto de informações de um processo, bem
como a importância da análise da distribuição de frequência dos dados.
Por fim, você viu como interpretar as medidas em estatística descritiva e
extrair informações de tabelas e gráficos que permitem tomar decisões a
partir dos dados.
16 Estatística descritiva para ciência de dados

AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de


Janeiro: Alta Books, 2016.
DAVILA, V. H. L. Estatística descritiva. Campinas: IME-UNICAMP, [201-?]. Disponível em:
https://www.ime.unicamp.br/~hlachos/estdescr1.pdf. Acesso em: 27 abr. 2020.
PETERNELLI, L. A. Estatística descritiva. In: INF 162. São Paulo: EACH USP, [2013]. Disponível
em: http://www.each.usp.br/rvicente/Paternelli_Cap2.pdf. Acesso em: 27 abr. 2020.
REIS, E. A.; REIS, I. A. Análise descritiva de dados. Belo Horizonte: UFMG, 2002. Disponível
em: http://www.est.ufmg.br/portal/arquivos/rts/rte0202.pdf. Acesso em: 27 abr. 2020.
SCOTT, D. W. On optimal and data-based histograms. Biometrika, v. 66, n. 3, Dec. 1979.
Disponível em: http://www.jstor.org/stable/2335182?origin=JSTOR-pdf . Acesso em:
27 abr. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
SILVA, J. S. F.; GRAMS, A. L. B.; SILVEIRA, J. F. Estatística. Porto Alegre: Sagah, 2018.
ZABALA, F. Estatística clássica no RStudio. Porto Alegre: [S. n.], 2020. Disponível em: http://
www.estatisticaclassica.com/ecnrs.pdf. Acesso em: 27 abr. 2020.

Leitura recomendada
GRUS, J. Data Science do zero: primeiras regras com o Python. Rio de Janeiro: Alta
Books, 2018.

Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.

Você também pode gostar