Você está na página 1de 43

Estatística

Autora: Profa. Fabíola Mariana Aguiar Ribeiro


Colaboradores: Prof. Angel Antonio Gonzalez Martinez
Profa. Christiane Mazur Doi
Prof. Jose Carlos Morilla
Profa. Larissa Rodrigues Daminiani
Professora conteudista: Fabíola Mariana Aguiar Ribeiro

É graduada em Física com habilitação em Astronomia pela Universidade de São Paulo (2001).
É doutora em Astrofísica pela mesma universidade (2006). Em 2009, mudou seu enfoque de
pesquisa para o ensino, ministrando disciplinas para o ciclo básico do Curso de Engenharia na
Universidade Paulista (UNIP), como: Mecânica da Partícula, Cálculo com Geometria Analítica,
Tópicos de Informática, Estática dos Fluidos, Fenômenos de Transporte, Complementos de Física,
Programação de Computadores e Cálculo de Funções de Várias Variáveis. Desde 2009, integra
também a equipe da Comissão de Qualificação e Avaliação (CQA) da UNIP, elaborando e revisando
materiais didáticos e de apoio de diversos cursos, além de realizar a tabulação de resultados de
avaliações internas e externas.

Dados Internacionais de Catalogação na Publicação (CIP)

R484e Ribeiro, Fabíola Mariana Aguiar.

Estatística / Fabíola Mariana Aguiar Ribeiro. – São Paulo: Editora


Sol, 2023.

212 p., il.

Nota: este volume está publicado nos Cadernos de Estudos e


Pesquisas da UNIP, Série Didática, ISSN 1517‑9230.

1. Variáveis. 2. Medidas. 3. Probabilidade. I. Título.

CDU 519.2

U517.13 – 23

© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou
quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem
permissão escrita da Universidade Paulista.
Profa. Sandra Miessa
Reitora

Profa. Dra. Marilia Ancona Lopez


Vice-Reitora de Graduação

Profa. Dra. Marina Ancona Lopez Soligo


Vice-Reitora de Pós-Graduação e Pesquisa

Profa. Dra. Claudia Meucci Andreatini


Vice-Reitora de Administração e Finanças

Prof. Dr. Paschoal Laercio Armonia


Vice-Reitor de Extensão

Prof. Fábio Romeu de Carvalho


Vice-Reitor de Planejamento

Profa. Melânia Dalla Torre


Vice-Reitora das Unidades Universitárias

Profa. Silvia Gomes Miessa


Vice-Reitora de Recursos Humanos e de Pessoal

Profa. Laura Ancona Lee


Vice-Reitora de Relações Internacionais

Prof. Marcus Vinícius Mathias


Vice-Reitor de Assuntos da Comunidade Universitária

UNIP EaD
Profa. Elisabete Brihy
Profa. M. Isabel Cristina Satie Yoshida Tonetto
Prof. M. Ivan Daliberto Frugoli
Prof. Dr. Luiz Felipe Scabar

Material Didático
Comissão editorial:
Profa. Dra. Christiane Mazur Doi
Profa. Dra. Ronilda Ribeiro

Apoio:
Profa. Cláudia Regina Baptista
Profa. M. Deise Alcantara Carreiro
Profa. Ana Paula Tôrres de Novaes Menezes

Projeto gráfico: Revisão:


Prof. Alexandre Ponzetto Luiza Gomyde
Vitor Andrade
Sumário
Estatística
APRESENTAÇÃO.......................................................................................................................................................7
INTRODUÇÃO............................................................................................................................................................7
Unidade I
1 CONCEITOS BÁSICOS.........................................................................................................................................9
1.1 Introdução à estatística.........................................................................................................................9
1.2 Conceitos fundamentais.................................................................................................................... 10
1.2.1 População e amostra.............................................................................................................................. 10
1.2.2 Processos estatísticos de abordagem...............................................................................................11
1.2.3 Dados estatísticos.................................................................................................................................... 12
1.2.4 Estatística descritiva............................................................................................................................... 13
1.2.5 Dados brutos.............................................................................................................................................. 15
1.2.6 Rol.................................................................................................................................................................. 15
2 SÉRIES ESTATÍSTICAS...................................................................................................................................... 16
2.1 Apresentação de dados estatísticos............................................................................................... 18
2.2 Distribuição de frequência – variável discreta.......................................................................... 19
2.3 Distribuição de frequência – variável contínua........................................................................ 24
2.4 Representação gráfica de séries estatísticas.............................................................................. 25
2.4.1 Gráfico de dispersão............................................................................................................................... 26
2.4.2 Gráfico de barras...................................................................................................................................... 27
2.4.3 Gráfico de colunas.................................................................................................................................. 29
2.4.4 Gráfico de setores.................................................................................................................................... 30
2.4.5 Histograma................................................................................................................................................. 33
Unidade II
3 MEDIDAS DE TENDÊNCIA CENTRAL.......................................................................................................... 44
3.1 Médias........................................................................................................................................................ 44
3.1.1 Somatório................................................................................................................................................... 44
3.1.2 Média aritmética simples..................................................................................................................... 45
3.1.3 Média ponderada..................................................................................................................................... 48
3.1.4 Média para medidas organizadas em classes............................................................................... 50
3.2 Mediana.................................................................................................................................................... 53
3.3 Moda.......................................................................................................................................................... 58
4 MEDIDAS DE DISPERSÃO.............................................................................................................................. 59
4.1 Amplitude total...................................................................................................................................... 59
4.2 Desvio médio simples.......................................................................................................................... 63
4.3 Variância e desvio padrão.................................................................................................................. 70
4.4 Interpretação do desvio padrão...................................................................................................... 77
Unidade III
5 ANÁLISE COMBINATÓRIA.............................................................................................................................. 90
5.1 Binômio de Newton............................................................................................................................. 90
5.1.1 Fatorial de um número.......................................................................................................................... 90
5.1.2 Coeficientes binomiais........................................................................................................................... 92
5.1.3 Triângulo de Pascal................................................................................................................................. 94
5.1.4 Teorema binomial.................................................................................................................................... 96
5.1.5 Termo geral do binômio........................................................................................................................ 98
5.2. Análise combinatória.......................................................................................................................... 99
5.2.1 Princípio fundamental da contagem (PFC).................................................................................100
5.2.2 Arranjos simples.....................................................................................................................................102
5.2.3 Permutações............................................................................................................................................104
5.2.4 Combinações...........................................................................................................................................104
6 PROBABILIDADES...........................................................................................................................................106
6.1 Conceitos básicos................................................................................................................................107
6.1.1 Experimento aleatório.........................................................................................................................107
6.1.2 Espaço amostral.....................................................................................................................................107
6.1.3 Evento.........................................................................................................................................................108
6.2 Regras do cálculo de probabilidades...........................................................................................108
Unidade IV
7 MODELOS TEÓRICOS DISCRETOS E CONTÍNUOS E INFERÊNCIA ESTATÍSTICA.......................127
7.1 Variável aleatória discreta unidimensional...............................................................................127
7.1.1 Definição de variável discreta aleatória...................................................................................... 127
7.1.2 Função de probabilidade.................................................................................................................... 127
7.1.3 Valor esperado de uma variável discreta aleatória................................................................. 129
7.1.4 Variância de uma variável discreta aleatória.............................................................................131
7.2 Modelos teóricos discretos e contínuos de probabilidade.................................................133
7.2.1 Distribuição binomial.......................................................................................................................... 133
7.2.2 Distribuição normal............................................................................................................................. 139
7.3 Inferência estatística..........................................................................................................................146
7.3.1 Amostragem............................................................................................................................................ 146
7.3.2 Estimadores............................................................................................................................................. 148
7.3.3 Intervalos de confiança...................................................................................................................... 148
8 REGRESSÃO LINEAR SIMPLES...................................................................................................................154
8.1 Relação entre duas variáveis..........................................................................................................156
8.2 Correlação linear.................................................................................................................................158
8.3 Coeficiente de correlação linear....................................................................................................161
8.4 Ajuste de reta aos dados..................................................................................................................168
8.4.1 Método dos mínimos quadrados.................................................................................................... 169
8.4.2 Ajuste de reta para incertezas diferentes....................................................................................171
8.4.3 Ajuste de reta para incertezas iguais............................................................................................ 177
8.5 Coeficiente de determinação.........................................................................................................179
8.6 Funções linearizáveis.........................................................................................................................180
APRESENTAÇÃO

Caro aluno,

Neste livro-texto, são apresentados os conceitos essenciais de estatística, necessários para cursos de
diversas áreas.

A estatística é uma área da matemática essencial em situações nas quais precisamos lidar com
dados, compreender a relevância de um resultado ou, ainda, fazer uma estimativa de alguma grandeza.

É importante que profissionais do campo da tecnologia tenham conhecimentos de estatística básica


a fim de interagir com a área de Ciência de Dados, na qual é fundamental organizar e analisar esses
dados e conseguir resultados (insights) a partir deles.

O objetivo deste livro-texto é apresentar os conceitos de estatística de forma precisa e direta,


tornando o conteúdo interessante e acessível ao estudante de forma que ele adquira a fluência necessária
na disciplina.

As equações que encontramos em estatística podem, a princípio, parecer complicadas, mas


essas equações serão trabalhadas em exemplos práticos. Além disso, os cálculos serão desenvolvidos
passo a passo.

Boa leitura!

INTRODUÇÃO

Na unidade I, o tópico 1 apresenta os conceitos básicos envolvendo estatística e séries estatísticas.


São detalhadas as definições de população, amostra e processos estatísticos de abordagem. É explicado
o que são dados estatísticos e o que é estatística descritiva, definindo-se também o que são dados
brutos e rol.

Em seguida, no tópico 2, abordam‑se as séries estatísticas. Ele trata da apresentação de dados


estatísticos e das distribuições de frequência para variáveis discretas e para variáveis contínuas.
Destacam-se as construções da variável discreta e da variável contínua, a distribuição das frequências –
tanto para variáveis discretas quanto para variáveis contínuas – e foca‑se na representação gráfica de
séries estatísticas.

Na unidade II, fala‑se sobre as medidas de tendência eventual e as medidas de dispersão.


No tópico 3, são acentuadas as medidas de tendência eventual, definindo-se os conceitos de média,
média aritmética simples, média ponderada, mediana e moda.

No tópico 4, são apresentadas as medidas de dispersão. Detalham‑se os conceitos e os cálculos de


desvio médio simples, variância e desvio padrão, bem como a interpretação do desvio padrão.

7
Na unidade III, exploram‑se a análise combinatória e as probabilidades. No tópico 5 são definidos
alguns conceitos matemáticos fundamentais para estudo de análise combinatória, como o binômio
de Newton, o fatorial de um número, os coeficientes binomiais, o triângulo de Pascal, o somatório, o
teorema binomial e o termo geral do binômio.

Parte‑se, então, para o estudo da análise combinatória em si, abordando o princípio geral da
contagem, os arranjos, as permutações e as combinações. Prossegue‑se para o estudo de probabilidades,
que apresenta os conceitos básicos sobre o tema e define o que são experimento aleatório, espaço
amostral, evento, avaliação, regras do cálculo de probabilidades e exemplos de aplicação das regras.

Na unidade IV, são apresentados os modelos teóricos discretos e contínuos de probabilidade. Fala‑se
sobre inferência, estimação e regressão linear.

A unidade tem início no tópico 7, destacando-se os modelos teóricos discretos e contínuos e a


definição de variável aleatória discreta unidimensional. Explora‑se, nele, a função de probabilidade,
o valor esperado de uma variável aleatória e a variância de uma variável aleatória. Na sequência,
acentuam‑se os modelos teóricos discretos e contínuos de probabilidade, a distribuição binomial e
a distribuição normal de probabilidades. É abordada, então, a inferência estatística, discutindo-se
conceitos como amostragem, estimadores e intervalos de confiança.

O último tópico do material, 8, detalha a regressão linear simples, analisando a relação entre duas
variáveis. Define‑se correlação linear e coeficiente de correlação linear, além de fixar o ajuste de reta aos
dados. Nessa parte, é apresentado o método dos mínimos quadrados, que é aplicado no ajuste de retas
para incertezas diferentes e para incertezas iguais. Define‑se, também, o coeficiente de explicação. Este
livro‑texto é encerrado tratando de funções linearizáveis.

Bom estudo!

8
ESTATÍSTICA

Unidade I
1 CONCEITOS BÁSICOS

Iniciamos este título apresentando alguns conceitos básicos, como as definições de estatística,
amostra, população, processos e dados estatísticos. Definimos, ainda, o que é estatística descritiva, bem
como o que são dados brutos e rol.

1.1 Introdução à estatística

O dicionário Michaelis on‑line define estatística da seguinte maneira:

1. Ramo da matemática que tem por objetivo a coleção, análise e


interpretação de dados numéricos a respeito de fenômenos coletivos
ou de massa.

2. Representação numérica e comparativa, em tabelas ou gráficos, dos


resultados da análise desses fenômenos.

3. Conjunto de elementos numéricos relativos a um fato social


(ESTATÍSTICA, c2022).

Vemos que estatística é um ramo da matemática que visa coletar, analisar e interpretar dados,
usando como ferramentas tabelas e gráficos para analisar fenômenos.

A estatística está presente em nosso dia a dia de forma explícita e implícita. Por exemplo, usamos
estatística para calculam as chances de um time ser campeão Por sua vez, ou as chances de um time
ser rebaixado, para calcular as médias de uma disciplina ou, ainda, para calcular o score de uma pessoa
para a obtenção de crédito.

Observação

Uma das maneiras de classificarmos a estatística é “dividi‑la” em dois


segmentos: estatística descritiva e estatística indutiva.

Podemos pensar que a estatística descritiva se destina a organizar,


descrever, explorar, expressar e sintetizar as informações brutas vindas da
aplicação de um questionário, da observação de algum evento ou da contagem
de ocorrências, por exemplo. Em suma, a estatística descritiva trabalha com
9
Unidade I

conjuntos de dados oriundos de algo “certo”, que já aconteceu, que “pertence


ao passado”. Por exemplo, se soubermos as idades de três pessoas e quisermos
calcular a idade média deste grupo, não há incerteza associada a tal cálculo.

A estatística indutiva trabalha com uma amostra a fim de que, com


o uso de técnicas e métodos adequados, seja possível obter informações
a respeito da população que tal amostra representa. Nesse caso, para
dado intervalo de confiança, temos um erro associado. Por exemplo: se
uma pesquisa eleitoral diz que certo candidato tem 60% dos votos com
margem de erro de 3% e confiança de 95%, isso significa que ele tem 95%
de chance de ter entre 57% e 63% dos votos na data da pesquisa. Vale
destacar que nem sempre a máxima “amostra boa é amostra grande” é
verdadeira – amostra boa é amostra que fornece todas as características
presentes na população e na proporção em que ocorrem na população.

Vale dizer que, a respeito das probabilidades, lidamos com a chance


de algo acontecer; ou seja, estamos no campo da incerteza, dos eventos
aleatórios, dos acontecimentos que não podem ser previstos com 100%
de exatidão. Por exemplo, sabemos que temos 50% de probabilidade de
obtermos cara quando lançamos uma moeda – logo, não há como dizer,
com certeza, se obteremos cara ou coroa nesse lançamento.

Saiba mais

São leituras interessantes sobre a estatística e sobre como ela está


presente em nossas vidas os seguintes livros:

MLODINOW, L. O andar do bêbado: como o acaso determina nossas


vidas. Rio de Janeiro: Zahar, 2009.

SALSBURG, D. Uma senhora toma chá: como a estatística revolucionou


a ciência no século XX. Rio de Janeiro: Zahar, 2009.

1.2 Conceitos fundamentais

A seguir serão detalhados alguns conceitos fundamentais para o estudo de estatística.

1.2.1 População e amostra

Podemos definir população (ou universo) como um conjunto completo de elementos com um
parâmetro comum. Por exemplo: a população brasileira é formada pelo conjunto de pessoas nascidas
no Brasil ou com nacionalidade brasileira.

10
ESTATÍSTICA

A população pode ser classificada em finita ou infinita. A população finita tem um número
determinado de elementos, já a população infinita não. Por exemplo, ao estudarmos as características da
folha de determinada planta, estamos tratando de uma população infinita, já que não é possível
determinar o número de plantas existentes nem, muito menos, o número total de folhas em todas
essas plantas. Já ao estudar as notas de estatística dos alunos de uma sala, estamos tratando de uma
população limitada e, portanto, finita.

A amostra é um subconjunto da população. Por exemplo, o grupo formado por jovens brasileiros de
12 a 14 anos é uma amostra da população brasileira.

Em estatística, frequentemente não podemos acessar os dados de uma população completa, mas, se
escolhermos uma amostra representativa dessa população, podemos fazer um levantamento estatístico
que a represente. Isso é feito em pesquisas eleitorais, em que apenas uma amostra determinada dos
habitantes do país são entrevistados.

1.2.2 Processos estatísticos de abordagem

No estudo de um fenômeno coletivo usando estatística, podemos escolher entre duas


diferentes abordagens:

• censo;

• amostragem.

Saiba mais

Para saber mais sobre o Censo Demográfico 2010, conduzido pelo


Instituto Brasileiro de Geografia e Estatística (IBGE), acesse:

IBGE. Censo demográfico: conceitos e métodos. Brasília, c2022a.


Disponível em: https://cutt.ly/iMRmtIj. Acesso em: 14 nov. 2022.

Os principais resultados do Censo Demográfico 2010 estão


disponíveis em:

IBGE. Censo demográfico: principais resultados. Brasília, c2022b.


Disponível em: https://cutt.ly/SMRm6N2. Acesso em: 14 nov. 2022.

11
Unidade I

No censo é feita a avaliação direta de um parâmetro utilizando‑se de toda a população.


A necessidade de acessar toda a população para obter a informação faz com que o processo seja
lento, mas aumenta sua confiabilidade. É um processo que por vezes não é viável por ser custoso, e
sua lentidão pode implicar dados desatualizados.

Na amostragem, a avaliação de um parâmetro é indireta e usa‑se como estimador o cálculo de


probabilidades. Nela, não é necessário acessar toda a população, de forma que o processo se torna mais
rápido e com menos custos, e permite, ainda, que os dados sejam constantemente atualizados.

1.2.3 Dados estatísticos

Os dados estatísticos são os elementos fundamentais a partir dos quais a estatística é feita. Define‑se
como variável a característica de interesse de cada dado da amostra ou da população.

As variáveis podem ser de dois tipos:

• variáveis quantitativas;

• variáveis qualitativas.

As variáveis quantitativas assumem valores numéricos e, a partir deles, podemos realizar cálculos
estatísticos. Elas podem ser classificadas como discretas ou contínuas: as variáveis quantitativas
discretas assumem apenas certos valores (inteiros), enquanto as contínuas podem assumir um
intervalo de valores. Como exemplo de variável quantitativa discreta, podemos ter o número de
pessoas em uma sala de aula (quantidade medida apenas em números inteiros) e, como exemplo
de variável quantitativa contínua, podemos ter a altura de uma pessoa (que pode assumir qualquer
valor dentro de uma faixa de valores).

As variáveis qualitativas contêm informações não numéricas relativas a categorias, por exemplo,
gênero, cargo e endereço, ao tratarmos de pessoas, ou ainda cor, volume e peso, ao tratarmos de produtos.
Note que o CEP de um endereço ou um número de telefone, mesmo representados por algarismos, são
variáveis qualitativas, pois não fazemos operações matemáticas com telefones ou CEP, visto que não
faz sentido.

As variáveis qualitativas ainda podem ser classificadas em ordinais ou nominais. As variáveis ordinais
contêm informações que localizam o dado dentro de uma categoria, como escolaridade ou faixa de
renda. Já as variáveis nominais contêm informações que não localizam o dado em uma categoria, como
cor dos olhos ou endereço.

Saber o tipo de variável que estamos tratando é fundamental na análise de dados.

12
ESTATÍSTICA

Exemplo de aplicação

Considere a tabela a seguir com os dados dos moradores de um condomínio.

Tabela 1 – Dados dos moradores do condomínio

Morador Placa Número


Apartamento responsável do carro de moradores
10 Paula Silva – 2
11 Felipe Rodrigues DEF2132 5
20 Marcos Junior F23R222 4
21 Diana Souza AED1202 1
30 Rafaela Moraes – 2

A tabela 1 apresenta as seguintes variáveis: número do apartamento, nome do morador responsável,


placa do carro e número de moradores.

São variáveis qualitativas o número apartamento, o nome do morador responsável e a placa do


carro. A única variável quantitativa é o número de moradores.

1.2.4 Estatística descritiva

Como já foi comentado, a estatística divide‑se em:

• estatística descritiva;

• estatística indutiva.

A estatística descritiva tem como objetivo organizar e analisar um conjunto de dados. Ela pode
reduzir uma grande quantidade de dados a informações resumidas que caracterizem determinada
população, e baseia‑se no cálculo de medidas de tendência central (como a média, a moda e a mediana)
e no cálculo de medidas de dispersão dos dados (como o desvio padrão), a variância e os valores máximo
e mínimo, que veremos mais adiante.

Já a estatística indutiva tem como objetivo inferir, induzir ou estimar o comportamento da


população a partir da qual a amostra foi obtida. A estatística indutiva faz uma generalização a partir
de resultados particulares.

Um estudo estatístico completo de uma população deve basear‑se no método estatístico, que é
composto por uma série de etapas, listadas a seguir:

1) Definição do problema.

2) Delimitação do problema.
13
Unidade I

3) Planejamento para a obtenção dos dados.

4) Coleta dos dados.

5) Apuração dos dados.

6) Apresentação dos dados.

7) Análise dos dados.

8) Interpretação dos dados.

A primeira etapa do método estatístico é a definição do problema. Nessa etapa, deve‑se definir com
clareza o que será pesquisado, qual é o objetivo da pesquisa e qual é o objeto de estudo.

Partimos, então, para a delimitação do problema, etapa na qual é definido onde será realizada a
pesquisa, quais serão os objetos dessa pesquisa e em quais dias e horários ela será conduzida.

No planejamento para a obtenção dos dados é feito o levantamento de como solucionar o problema
proposto, quais dados são necessários e como obter esses dados, além do cronograma das atividades.
Nessa etapa são determinados o tamanho da população ou da amostra analisada e o custo do processo.
Dependendo do objetivo da pesquisa, é preciso elaborar um questionário (ou um roteiro de pesquisa) e
dimensionar a estrutura necessária para a aplicação do questionário ou roteiro em questão.

Já na etapa de coleta de dados, os dados são coletados por meio de observação ou da aplicação
de questionários.

A apuração dos dados é a etapa na qual os dados são analisados de forma crítica, e
determina‑se quais dados serão descartados por algum erro no processo de coleta. Nessa etapa
é feita a tabulação dos dados, processo no qual os dados são resumidos, contados e agrupados
por características semelhantes.

Na sequência, há a apresentação dos dados, em que eles são organizados com objetivo de facilitar
seu entendimento e visualização, sob a forma de tabelas ou gráficos, por exemplo.

Passa‑se, então, para a análise dos dados. Nessa etapa são obtidas conclusões a partir dos dados
coletados para solucionar o problema levantado nas etapas iniciais do estudo.

Na última etapa do processo, a fase de interpretação dos dados, as medidas estatísticas, as tabelas
e os gráficos obtidos a partir dos dados são analisados, levando a algumas generalizações obtidas por
inferência estatística e às incertezas associadas a essas generalizações.

A seguir, vamos tratar dos dados, elementos fundamentais na análise estatística.

14
ESTATÍSTICA

1.2.5 Dados brutos

Chamamos de dados brutos os dados exatamente da forma como são obtidos, sem tratamento
nem organização. Por exemplo: em uma pesquisa de cargos e salários, o conjunto de dados com
cargo do funcionário e o seu salário são dados brutos se não passaram por nenhuma forma
de organização.

Não é incomum que dados brutos – isso é, sem nenhum tipo de tratamento –, apresentem
incompatibilidades que precisam ser resolvidas. Um exemplo clássico está nos dados envolvendo datas,
que podem ser escritas em diversos formatos; esses formatos precisam ser uniformizados para que a
análise dos dados se dê de forma correta. Outro exemplo de incompatibilidade que é frequente ocorre
em dados de nomes de cidades com diversas grafias possíveis, como São Paulo, S. Paulo ou ainda SP, que
se referem à mesma cidade e devem ter a grafia uniformizada.

1.2.6 Rol

Se partirmos de dados brutos e aplicarmos alguma forma de organização, teremos o que chamamos
de rol. No rol, os dados podem ser organizados de forma crescente, decrescente ou em ordem alfabética.

Exemplo de aplicação

Uma turma de alunos de estatística obteve, em uma prova, as notas mostradas na tabela a seguir.

Tabela 2 – Desempenhos dos alunos na prova

Aluno Nota
Maria 9
Pedro 4
Otávio 6
Mariana 7
Sheila 8,5
Oswaldo 3
Matheus A. 8
Matheus R. 10
Leonardo 10

Se tomarmos as notas dos alunos, sem nenhuma organização, teremos os seguintes dados brutos:

9 4 6 7 8,5 3 8 10 10

Se aplicarmos qualquer processo de organização nesses dados, passaremos a ter um rol. Vamos, por
exemplo, organizar as notas de forma decrescente:

10 10 9 8,5 8 7 6 4 3

15
Unidade I

Dessa forma é possível analisar a distribuição de notas dos alunos com mais facilidade, mas a
informação ainda não está apresentada da melhor maneira, o que pode ser feito a partir de um estudo
de frequências (que veremos mais adiante).

Nem todos os dados, porém, são de natureza numérica. A tabela 2 também apresenta informações
sob a forma de nomes, que são classificados como dados alfanuméricos. Poderíamos obter um rol
organizando o nome dos alunos em ordem alfabética, por exemplo.

Uma forma de melhorar a visualização e a compreensão dos dados, já organizados em rol, é


realizarmos um estudo de frequências – que veremos no próximo título.

2 SÉRIES ESTATÍSTICAS

Definimos como séries estatísticas as tabelas que apresentam os dados organizados em função do
tempo, da localidade ou da espécie do dado. As séries estatísticas são classificadas em:

• séries históricas;

• séries geográficas;

• séries específicas;

• séries conjugadas.

As séries históricas são classificadas em função do tempo; as séries geográficas são classificadas em
função da localidade; as séries específicas são classificadas em função de categorias características dos
dados; e as séries conjugadas, também conhecidas como séries mistas, são uma combinação das séries
temporais, geográficas ou específicas.

Na tabela a seguir é apresentado um exemplo de série histórica, em que os dados são organizados
por ano:

Tabela 3 – População residente no Brasil, por ano

Ano População
1991 146.815.815
2000 169.872.856
2010 190.755.799

Fonte: IBGE (c2022b).

16
ESTATÍSTICA

Na tabela a seguir é apresentado um exemplo de série geográfica, em que os dados são organizados
por localidade:

Tabela 4 – População residente no Brasil


em 2010, por grande região

Grande região População


Norte 15.864.454
Nordeste 53.081.950
Sudeste 80.364.410
Sul 27.386.891
Centro‑Oeste 14.058.094

Fonte: IBGE (c2022b).

A seguir, temos um exemplo de série específica, onde os dados são organizadospor sexo.

Tabela 5 – População residente no Brasil


em 2010, por sexo

Sexo População
Homens 93.406.990
Mulheres 97.348.809

Fonte: IBGE (c2022b).

Na tabela a seguir, temos um exemplo de série conjugada ou mista:

Tabela 6 – População residente no Brasil


em 2010, por grande região e por ano

Ano
Grande Região
1991 2000 2010
Norte 10.027.373 12.911.170 15.864.454
Nordeste 42.494.112 47.782.487 53.081.950
Sudeste 62.740.146 72.430.193 80.364.410
Sul 22.129.131 25.119.348 27.386.891
Centro‑Oeste 9.425.053 11.638.658 14.058.094

Fonte: IBGE (c2022b).

Note que, nos quatro exemplos, os dados foram apresentados na forma de tabelas. Detalharemos
esse modo de apresentação de dados a seguir.
17
Unidade I

2.1 Apresentação de dados estatísticos

A maneira fundamental de apresentação e organização de dados estatísticos é por tabelas.

As tabelas são quadros que contêm um conjunto de dados seguindo determinada ordem ou
determinada classificação. São partes fundamentais de uma tabela:

• título;

• cabeçalho;

• coluna indicadora;

• corpo da tabela:

— linhas;

— células.

O título localiza‑se na parte superior da tabela (ABNT, 2011) e especifica o assunto dos dados da
tabela e, se for o caso, o período ao qual os dados se referem. Assim, todas as tabelas devem ter título.

O cabeçalho é a parte superior da tabela, normalmente destacado do corpo da tabela. O cabeçalho


deve indicar os conteúdos de cada coluna.

A coluna indicadora é, normalmente, a primeira coluna à esquerda da tabela e especifica o conteúdo


das linhas. Na tabela 5, a coluna indicadora é o sexo.

Abaixo do cabeçalho e à direita da coluna indicadora, temos o corpo da tabela. No corpo da tabela
temos as linhas, que disponibilizam a informação no sentido horizontal. Cada elemento do corpo da
tabela, obtido pelo cruzamento de uma linha com uma coluna, é chamado de célula.

Como elementos complementares de uma tabela, temos a fonte e as notas. Esses elementos
complementares localizam‑se na parte inferior da tabela. A fonte indica a origem dos dados e o método
usado em sua obtenção e em sua elaboração. As notas trazem informações relevantes do conjunto de
dados ou de alguns dados específicos.

18
ESTATÍSTICA

2.2 Distribuição de frequência – variável discreta

Aqui será discutido como apresentar dados usando uma distribuição de frequência (f). A primeira
etapa envolve variáveis discretas.

Lembrete

Como vimos, variáveis discretas são variáveis quantitativas que podem


assumir apenas determinados valores (inteiros), diferentemente das variáveis
contínuas, que podem ocorrer dentro de uma faixade valores.

Para classificar dados por distribuição de frequências, faz‑se a contagem da ocorrência de cada
evento. A fim de facilitar a contagem das ocorrências, pode‑se organizar os dados brutos em um rol
antes de analisar as frequências.

Exemplo de aplicação

Considere um dado de 6 faces cujas faces são numeradas de 1 a 6.

Figura 1 – Dados mostrando cada uma das 6 faces

Disponível em: https://cutt.ly/bMxBZzD. Acesso em: 14 nov. 2022.

Imagine que esse dado tenha sido lançado 14 vezes e que tenham sido obtidos os seguintes
resultados:

4251352616223

Vamos classificar esses dados por frequência, ou seja, vamos contar o número de ocorrências de
cada resultado.

19
Unidade I

Tabela 7 – Frequência de resultados obtidos pelo lançamento de um dado

Face do dado Frequência


1 3
2 4
3 2
4 1
5 2
6 2

Note que, se somarmos as frequências, devemos recuperar o número total de lançamentos (14).

Os dados também podem ser indicados pela frequência relativa (fr), de forma que o tamanho da
amostra ou da população não fique evidente nos dados. Na frequência relativa, dividimos a frequência
de cada valor pelo número total de dados na amostra ou população.

Exemplo de aplicação

Na tabela a seguir, são expostas as frequências relativas para o resultado do lançamento do dado
estudado no exemplo anterior.

Tabela 8 – Frequência relativa de resultados


obtidos por 14 lançamentos de um dado

Face do dado Frequência Frequência relativa


1 3 3/14 = 0,21
2 4 4/14 = 0,29
3 2 2/14 = 0,14
4 1 1/14 = 0,08
5 2 2/14 = 0,14
6 2 2/14 = 0,14

Note que a soma das frequências relativas deve ser igual a 1, ou próxima de 1, no caso de
arredondamento dos valores.

Observação

Considere o valor 0,3147. Deseja‑se representar esse valor com duas


casas decimais. Para tanto, devemos analisar a casa decimal seguinte para
saber se arredondaremos para cima ou para baixo.

20
ESTATÍSTICA

A regra de arredondamento costuma ser a seguinte:

• Decimal seguinte maior do que cinco: arredonda‑se para cima.

• Decimal seguinte menor do que cinco: arredonda‑se para baixo.

• Decimal seguinte igual a 5: aplica‑se a regra considerando a próxima


casa decimal.

Então, para representar 0,3147 com duas casas decimais, deve‑se analisar
o número que está na terceira decimal, que, no caso, é 4. Como esse número
é menor do que 5, arredondamos para baixo. No caso, 0,3147, quando
representado com duas casas decimais, é arredondado para 0,31.

Para representar o número 0,4881 com duas casas decimais, analisa‑se


o número na terceira decimal, que é igual a 8 e, portanto, maior do que 5,
indicando que se deve fazer o arredondamento para cima. No caso, 0,4881,
quando representado com duas casas decimais, é arredondado para 0,49.

Podemos, ainda, representar um conjunto de dados por sua frequência acumulada (fa), em que
somamos as frequências anteriores àquele valor.

Exemplo de aplicação

Voltando ao exemplo dos 14 lançamentos do dado. Temos, na tabela 9, a frequência de cada


ocorrência e sua frequência acumulada.

Tabela 9 – Frequência e frequência acumulada de


resultados obtidos por 14 lançamentos de um dado

Face Frequência Frequência acumulada


do dado
1 3 3
2 4 3+4=7
3 2 3+4+2=9
4 1 3 + 4 + 2 + 1 = 10
5 2 3 + 4 + 2 + 1 + 2 = 12
6 2 3 + 4 + 2 + 1 + 2 + 2 = 14

Quando os resultados de uma pesquisa se espalham por uma faixa muito grande de valores,
é interessante agruparmos esses dados em classes ou intervalos, que são faixas de valores. Por
exemplo: em uma pesquisa envolvendo as idades de pessoas residentes em certo bairro, podemos

21
Unidade I

ter idades de 0 a cerca de 100 anos, e, por isso, construir uma tabela com 100 linhas pode não
apresentar os dados da melhor forma. Uma solução possível para esse caso seria separar as idades
em intervalos de 10 anos (tabela 10).

Figura 2 – Duas pessoas de idades diferentes

Disponível em: https://cutt.ly/bMxMBNc. Acesso em: 14 nov. 2022.

Tabela 10 – Distribuição das idades dos moradores de certo bairro

Número de
Idade (anos) moradores
0‑9 21
10 ‑ 19 42
20 ‑ 29 543
30 ‑ 39 321
40 ‑ 49 521
50 ‑ 59 321
60 ‑ 69 83
70 ‑ 79 43
80 ‑ 89 56
90 ‑ 99 9
e acima 1

22
ESTATÍSTICA

Note que, para cada faixa de idade, temos um limite inferior, representado por Li, indicado à esquerda,
e um limite superior, representado por Ls, indicado à direita. Não podemos ter um mesmo valor em
intervalos diferentes. O único intervalo sem limite superior é o último, que inclui moradores com idade
igual ou superior a 100 anos.

A quantidade de intervalos (ou classes) é escolhida para representar a grandeza que está sendo
analisada. Usar poucas classes pode causar perda de informação, mas usar classes demais pode dificultar
a visualização dos dados. Normalmente são utilizados de 5 a 20 intervalos (ou classes).

Outra forma de representar intervalos é pelo símbolo ⊢, que indica intervalo fechado à esquerda,
ou seja, quando o limite inferior faz parte do intervalo, mas o superior não. Nessa notação, no intervalo
1 ⊢ 5 está contido o número 1, mas não o número 5.

Reescrevendo a tabela 10 com as idades da população do bairro usando o símbolo para intervalo
fechado à esquerda, temos o que segue:

Tabela 11 – Distribuição de idades dos moradores do bairro

Número de
Idade (anos) moradores
0 ⊢ 10 21

10 ⊢ 20 42

20 ⊢ 30 543

30 ⊢ 40 321

40 ⊢ 50 521

50 ⊢60 321

60 ⊢ 70 83

70 ⊢ 80 43

80 ⊢ 90 56

90 ⊢ 100 9
100 e acima 1

Chamamos de amplitude do intervalo o resultado do cálculo do limite superior do intervalo menos


o limite inferior, quando indicados com a notação de intervalo fechado em apenas um dos lados. Para
facilitar a leitura e a interpretação dos dados, recomendamos que todos os intervalos da tabela tenham
a mesma amplitude.

Os intervalos (ou classes) podem ser escolhidos com base nos valores máximo e mínimo dos dados
que estão sendo analisados e de quantos intervalos desejamos na tabela.

23
Unidade I

Para efeito de análise dos dados, consideramos que todos os dados, quando agrupados em intervalos,
estão associados ao ponto médio (Pm) da classe à qual pertencem. O ponto médio de uma classe é
calculado por:

Ls + Li
Pm =
2

Na equação:

• Ls é o limite superior do intervalo ou da classe;

• Li é o limite inferior do intervalo ou da classe.

2.3 Distribuição de frequência – variável contínua

Como fazemos a distribuição de frequências de dados contínuos, ou seja, de dados que estão
distribuídos em uma faixa de valores?

Nesse caso, é fundamental que os dados sejam agrupados em classes ou intervalos como foi feito
com as variáveis discretas. Todas as observações sobre a distribuição de frequência para as variáveis
discretas aplicam‑se também à distribuição de frequências das variáveis contínuas.

Na tabela a seguir, que representa a distribuição dos salários em uma empresa, temos um exemplo
de distribuição de frequência para uma variável contínua.

Figura 3 – Desenho representando salário

Disponível em: https://cutt.ly/TMx1Sem. Acesso em: 14 nov. 2022.

24
ESTATÍSTICA

Tabela 12 – Distribuição de salários em uma empresa

Salário Número
(em salários mínimos) de funcionários
0⊢1 0
1⊢2 5
2⊢3 23
3⊢4 53
4⊢5 12

Frequentemente a visualização de dados em uma tabela não apresenta, de forma imediata, as


características dos dados, ainda mais para o público leigo. Há um ditado que diz que uma imagem vale
mais do que mil palavras – o que é válido também em estatística –, de forma que podemos dizer que
um gráfico “repassa” melhor dada informação do que mil tabelas.

2.4 Representação gráfica de séries estatísticas

A melhor forma de apresentarmos os dados ou resultados de uma pesquisa costuma ser por
meio de gráficos (figura 4). Os gráficos, independentemente do tipo, precisam ser de fácil
visualização e de rápida interpretação. Assim como as tabelas, eles devem sempre ser identificados
por um título na parte superior, e, se for o caso, a fonte dos dados deve ser identificada na
parte inferior.

Figura 4 – Gráficos em um relatório

Disponível em: https://cutt.ly/UMx156S. Acesso em: 14 nov. 2022.

25
Unidade I

Existem diversos tipos de gráficos, como os listados a seguir:

• gráfico de dispersão;

• gráfico de barras;

• gráfico de colunas;

• gráfico de setores;

• histograma;

• polígono de frequências.

De acordo com os dados que são representados no gráfico, um tipo pode ser mais adequado do
que o outro.

2.4.1 Gráfico de dispersão

O gráfico de dispersão é um dos tipos mais usado nas ciências exatas. Podemos utilizar gráficos de
dispersão quando queremos mostrar a relação entre duas (ou três) grandezas.

O gráfico de dispersão em duas dimensões tem dois eixos, um na vertical e outro na horizontal. Nos
eixos deve‑se indicar sempre as grandezas representadas neles e, se for o caso, suas unidades.

Na construção de um gráfico de dispersão, devemos elaborar escalas numéricas em cada um dos


eixos. Essa escala numérica deve ser construída de forma que todos os dados fiquem incluídos na escala,
tenham passo uniforme e sempre o mesmo comportamento ao longo do eixo, seja ele crescente, seja ele
decrescente. Como os eixos são independentes, pode‑se adotar escalas com intervalos e passos distintos
em cada um dos eixos.

Pode‑se ter, também, gráficos de dispersão tridimensionais, em que se trabalham três eixos.

Posicionados os eixos e construídas as suas escalas, marcam‑se os pontos do gráfico, relacionando


as grandezas nos dois eixos.

A figura a seguir mostra um exemplo de gráfico de dispersão em duas dimensões.

26
ESTATÍSTICA

Relação entre expectativa de vida e PIB per capita, por país

Expectativa de vida
(anos)
80

60

40 PIB per capita (US$)


0 20K 40K 60K 80K 100K 120K 140K

Figura 5 – Gráfico tipo dispersão

No gráfico da figura 5 tem‑se, no eixo horizontal, o PIB per capita em dólares americanos. Note
que a escala desse eixo começa em 0 e vai até um pouco além de 140k, ou 140 mil dólares. O intervalo
entre os números da escala do eixo é sempre uniforme e os valores são sempre crescentes.

O mesmo comportamento pode ser visto no eixo vertical, que representa a expectativa de vida,
em anos, em que temos como valores da escala do eixo 40, 60 e 80. Veja que a escala vertical não
inicia em 0.

Repare que, como os eixos são independentes, os valores máximo, mínimo e intervalo das escalas
não precisam coincidir.

No gráfico da figura 5, nota‑se que há uma correlação entre a expectativa de vida e o PIB per capita,
de forma que países com menor PIB tendem a ter menor expectativa de vida e que há um espalhamento
desses dados (eles não se apresentam alinhados).

2.4.2 Gráfico de barras

Quando desejamos mostrar a evolução de dada grandeza, ou ainda comparar essa grandeza em
locais e situações diferentes, trabalhamos com gráficos de barras.

Os gráficos de barras também têm dois eixos: no eixo vertical, costuma‑se colocar a variável
categórica (ou qualitativa). No eixo horizontal, costuma‑se colocar a variável quantitativa.

27
Unidade I

O gráfico da figura 6 é um exemplo de gráfico de barras.


Número de pessoas analfabetas, por grande região

Grande região

Nordeste

Sudeste

Norte

Sul

Centro‑Oeste

0 2.000.000 4.000.000 6.000.000 8.000.000

número de pessoas

Figura 6 – Exemplo de gráfico de barras representando


o número de pessoas analfabetas, por grande região

Note que o gráfico da figura 6 tem uma variável categórica no eixo vertical – no caso, as grandes
regiões –, e uma variável quantitativa no eixo horizontal – no caso, o número de pessoas analfabetas
em cada grande região.

As barras do gráfico foram ordenadas de forma decrescente, com as grandes regiões com maior
número de analfabetos na parte superior do gráfico. A ordenação das barras facilita a visualização e a
compreensão do gráfico.

A espessura e a separação das barras podem ser ajustadas de forma a facilitar a visualização. Se há
uma grande quantidade de barras, pode‑se trabalhar com barras mais finas, embora barras de maior
espessura tenham visualização melhor.

No gráfico da figura 6 usa‑se a variável quantitativa de forma absoluta, como um número


ou uma contagem de pessoas; mas também é possível usar essa variável de forma relativa,
usando porcentagens. O uso de porcentagens facilita a comparação entre os diferentes valores
apresentados no gráfico.

28
ESTATÍSTICA

O gráfico da figura 7 apresenta as mesmas grandezas do gráfico da figura 6, mas com a população
de pessoas analfabetas representada como percentual do total de cada região.
Porcentegem de pessoas analfabetas, por grade região

Grande região

Nordeste

Norte

Centro‑Oeste

Sudeste

Sul

0 5 10 15

pessoas (%)

Figura 7 – Exemplo de gráfico de barras representando o número de pessoas analfabetas, por grande
região, como porcentagem do número total de pessoas analfabetas por região

Vemos, do gráfico, que cerca de 20% dos analfabetos residem na grande região Nordeste, enquanto
cerca de 6% dos analfabetos residem na região Sul.

Quando desejamos representar em um gráfico as porcentagens de um todo, embora seja possível


fazê‑lo em um gráfico de barras, o mais usual é usar o gráfico de setores (detalhado mais adiante).

2.4.3 Gráfico de colunas

Outra forma de representação similar ao gráfico de barras é o gráfico de colunas. A diferença entre
eles é que, no gráfico de colunas, a variável categórica é representada no eixo horizontal, e a variável
quantitativa é representada no eixo vertical.

29
Unidade I

A figura 8 exibe as mesmas informações do gráfico da figura 6, mas representadas na forma de um


gráfico de colunas.
Pessoas analfabetas, por grande região
números
de pessoas

8.000.000

6.000.000

4.000.000

2.000.000

0
este este Nort
e Sul Oest
e
Nord Sud o‑
C entr
Grande região

Figura 8 – Exemplo de gráfico de colunas representando o número de pessoas analfabetas, por grande
região

2.4.4 Gráfico de setores

O gráfico de setores, ou “gráfico de pizza”, é um gráfico polêmico e muitos não gostam de usá‑lo.
O gráfico de setores é apresentado de forma circular e é utilizado para representar a divisão de dada
grandeza em diferentes categorias, em que cada categoria usa uma fatia do círculo. Nesse tipo de
gráfico é interessante representar a grandeza quantitativa sob a forma de porcentagem.

Um cuidado que é preciso ter em gráficos de setores refere‑se ao emprego das cores para
representar cada fatia. Se usamos uma legenda para indicar as diferentes categorias, é fundamental
que sejam usadas cores contrastantes para cada fatia, de forma a não confundir a associação da fatia
com a legenda do gráfico. Uma maneira de minimizar esse problema é indicar as categorias não como
uma legenda, mas ao lado de cada fatia. A desvantagem disso é que o gráfico fica visualmente mais
poluído, o que dificulta a leitura.

Outro cuidado importante quando usamos legenda e código de cores em gráficos é testarmos a
acessibilidade do gráfico para pessoas com distúrbios visuais na identificação de cores.

30
ESTATÍSTICA

Saiba mais

Para saber mais sobre distúrbios visuais na identificação de cores, leia:

TESTONI, M. Mutação genética, daltonismo distorce as cores e se


divide em três tipos. VivaBem, São Paulo, 19 out. 2020. Disponível em:
https://cutt.ly/hMTei3m. Acesso em: 14 nov. 2022.

Para saber mais sobre acessibilidade no uso de cores em gráficos para


daltônicos, leia:

SHAFFER, J. Cinco dicas para criar visualizações adaptadas para daltônicos.


Tableau, Seattle, 12 out. 2022. Disponível em: https://cutt.ly/6MTe8Ot. Acesso
em: 14 nov. 2022.

Na figura a seguir, temos um exemplo de gráfico de setores ou tipo “pizza”.


Porcentagem de alfabetização
no Brasil, 2010

Alfabetizadas Não alfabetizadas

10,53%

89,47%

Figura 9 – Exemplo de gráfico de setores, mostrando


a porcentagem de alfabetização no Brasil no ano de 2010

O gráfico de setores pode não ser adequado se tivermos uma grandeza muito menor do que as
demais de forma que ela ocupe um setor muito pequeno no gráfico, ou, ainda, quando as grandezas são
similares (figura 10).
31
Unidade I

Distribuição da população por idade no Brasil, 2010

0 a 5 anos 6 a 5 anos 7 a 9 anos 10 a 14 anos 15 a 19 anos


20 a 24 anos 25 a 29 anos 30 a 39 anos 40 a 49 anos 50 a 59 anos
60 a 69 anos 70 anos ou mais

5,22% 8,46%
6,72%
3,29%
5,17%
10,41%

9,7%

14,04%
9,6%

9,74%
16,75%
9,67%

Figura 10 – Exemplo de gráfico em que a representação por setores não é adequada. Temos nesse
gráfico a distribuição da população brasileira por idade, onde os setores ocupam áreas muito
parecidas e a variação dos dados não se torna evidente

Os dados da figura 10 seriam mais bem representados por um gráfico de barras ou um gráfico
de colunas.

Note que só podemos usar gráficos de setores para representar as porcentagens de uma
mesma grandeza. Além disso, é preciso que essas porcentagens somem 100%, senão o gráfico de setores
ficará incompleto.

Uma variação do gráfico de setores é o gráfico tipo rosca (ou donut), em que podemos representar a
distribuição de porcentagens de duas grandezas distintas – uma em uma rosca externa e outra em uma
rosca interna (figura 11). No entanto, muitas vezes, esse tipo de gráfico não é recomendado, por ser de
visualização mais difícil e de interpretação menos direta.

32
ESTATÍSTICA

Distribuição de notas na provas

0a2
2a4
4a6
6a8
8 a 10

turma A turma B

Figura 11 – Exemplo de gráfico de rosca com duas roscas, uma externa e uma interna. Note como a
visualização do gráfico é difícil. O gráfico mostra a distribuição de notas em uma prova para a turma B
na rosca interna e para a turma A na rosca externa. A diferença da posição angular da mesma faixa
de nota dificulta muito a comparação das duas turmas

2.4.5 Histograma

O histograma é uma variação do gráfico de colunas, em que:

• no eixo horizontal, os dados são divididos em intervalos (ou classes);

• no eixo vertical, é apresentada a frequência dos dados.

O histograma, portanto, é uma representação gráfica de uma tabela de frequências.

O histograma na figura a seguir foi construído a partir dos dados da tabela 7, que listava possíveis
resultados para 14 lançamentos de um dado de 6 faces, cujas faces são numeradas de 1 a 6.
Distribuição de frequências para lançamento de um dado numérico de 6 faces
frequência
4

1 2 3 4 5 6 face

Figura 12 – Exemplo de histograma construído a partir dos dados da tabela 7, com dados de
frequência absoluta dos resultados de 14 lançamentos de um dado de 6 faces

33
Unidade I

Pode‑se, também, construir histogramas usando a frequência relativa (figura 13). O uso de
frequências relativas em histogramas é mais recomendado, pois o tamanho da amostra/população
não altera o eixo de frequências do gráfico.
Distribuição de frequências para lançamento de um dado numérico de 6 faces

frequência 0,30
relativa

0,20

0,10

1 2 3 4 5 6 face

Figura 13 – Exemplo de histograma construído a partir dos dados da tabela 8, com dados de
frequência relativa dos resultados de 14 lançamentos de um dado de 6 faces

Lembrete

Quando contamos o número de ocorrências de determinado valor ou


de um valor incluído em um intervalo, trata‑se de frequências absolutas.

Se dividirmos o número de ocorrências pelo total de observações ou de


medidas, trata‑se de frequências relativas.

Quando trabalhamos com histogramas, é possível incluir no gráfico o que chamamos de polígono
de frequências, obtido pela ligação dos pontos médios do topo de cada barra do histograma (figura 14).
Distribuição de frequências para lançamento de um dado numérico de 6 faces

frequência 0,30
relativa

0,20

0,10

1 2 3 4 5 6 face

Figura 14 – Histograma de frequências relativas com polígono de


frequências para os resultados de 14 lançamentos de um dado de 6 faces

34
ESTATÍSTICA

Resumo

Iniciamos o primeiro título vendo que estatística é um ramo da


matemática que visa coletar, organizar e interpretar dados, usando como
ferramenta tabelas e gráficos para analisar fenômenos.

Definimos população, ou universo, como um conjunto completo de


elementos com um parâmetro comum. A população pode ser classificada
em finita ou infinita. A população finita tem um número determinado de
elementos, diferentemente do que ocorre na população infinita.

Vimos que amostra é um subconjunto da população.

Observamos que, no estudo de um fenômeno coletivo usando estatística,


podemos escolher entre duas diferentes abordagens: censo e amostragem.

No censo, ocorre a avaliação direta de um parâmetro usando‑se


toda a população. A necessidade de acessar toda a população para
obter a informação faz com que o processo seja lento, mas aumenta a
sua confiabilidade. É um processo que, por vezes, não é viável, pois tem
maior custo e a lentidão pode implicar dados desatualizados. Muitas
vezes, pode ser impossível de ser praticado. Na amostragem, não é
necessário acessarmos toda a população, de forma que o processo se
torna mais rápido e com menor custo, o que facilita que os dados sejam
constantemente atualizados.

Os dados estatísticos são os elementos fundamentais a partir dos quais


a estatística é feita.

Definimos como variável a característica de interesse em dada amostra


(ou população).

As variáveis podem ser de dois tipos: quantitativas ou qualitativas.

As variáveis quantitativas assumem valores numéricos e, a partir delas,


podemos realizar cálculos estatísticos. As variáveis quantitativas podem
ainda ser classificadas em discretas ou contínuas. As variáveis quantitativas
discretas assumem apenas certos valores (inteiros), enquanto as contínuas
podem assumir um intervalo de valores.

As variáveis qualitativas contêm informações não numéricas, mas


de categorias, como sexo, cargo, endereço, quando tratamos de pessoas,

35
Unidade I

ou, ainda, cor ou peso, quando tratamos de produtos. Note que o CEP de
um endereço ou um número de telefone, mesmo sendo representados
por números, são variáveis qualitativas, pois não fazemos operações
matemáticas com telefones ou CEPs, pois não faz sentido. As variáveis
qualitativas ainda podem ser classificadas em nominais e ordinais. As
variáveis qualitativas ordinais contêm informação que localiza o dado
dentro de uma categoria, por exemplo, escolaridade ou faixa de renda. Já
as variáveis qualitativas nominais contêm informações que não localizam
o dado em uma categoria, como cor dos olhos ou endereço.

Vimos que a estatística se divide em estatística descritiva e estatística


indutiva. A estatística descritiva refere‑se à organização de dados e considera
os cálculos de medidas de tendência central, como a média, a moda e a
mediana, e de medidas de dispersão, como o desvio padrão e a variância,
que veremos mais adiante. Já a estatística indutiva tem como objetivo
inferir, induzir ou estimar o comportamento da população a partir da qual a
amostra foi obtida. A estatística indutiva faz uma generalização a partir de
resultados particulares.

Um estudo estatístico completo de uma população deve basear‑se no


método estatístico, que é composto de uma série de fases:

• Definição do problema.

• Delimitação do problema.

• Planejamento para a obtenção dos dados.

• Coleta dos dados.

• Apuração dos dados.

• Apresentação dos dados.

• Análise dos dados.

• Interpretação dos dados.

Vimos que dados brutos são os dados apresentados da forma como


foram obtidos, sem nenhum tratamento ou nenhuma organização. Por
exemplo, em uma pesquisa de cargos e salários, o conjunto de dados com
o cargo do funcionário e o salário são dados brutos se não passaram por
nenhuma forma de organização.

36
ESTATÍSTICA

Se partirmos de dados brutos e aplicarmos alguma forma de


organização, teremos o que chamamos de rol. No rol, os dados podem ser
dispostos de forma crescente, decrescente ou alfabética.

Também tratamos das séries estatísticas, das distribuições de


frequências e da apresentação dos dados em tabelas e gráficos.

Definimos como séries estatísticas tabelas que apresentam dados


organizados em função do tempo, da localidade ou da espécie do dado.
As séries estatísticas são classificadas em históricas, geográficas, específicas
e conjugadas.

A maneira fundamental de apresentação e de organização de dados


estatísticos é sob a forma de tabelas. Tabelas são quadros que contêm um
conjunto de dados, seguindo determinada ordem ou classificação. São
partes fundamentais de uma tabela:

• título

• cabeçalho

• coluna indicadora

• corpo da tabela

— linhas

— células

Ao classificarmos dados por distribuição de frequências, fazemos a


contagem da ocorrência de cada evento. Para facilitar essa contagem,
podemos organizar os dados brutos em um rol antes de analisarmos as
frequências. No caso de dados agrupados por frequência, o tamanho da
amostra é relevante, já que quanto mais dados, maior a possibilidade
de ocorrência de um valor.

Os dados também podem ser organizados pela frequência relativa (fr),


de forma que o tamanho da amostra ou da população não fique evidente.
Na frequência relativa, dividimos a frequência de cada valor pelo número
total de dados na amostra ou população.

Podemos, ainda, representar um conjunto de dados pela frequência


acumulada (fa), em que somamos as frequências anteriores àquele valor.

37
Unidade I

Quando os resultados de uma pesquisa se espalham por uma faixa muito


grande de valores, é interessante agruparmos esses dados em classes ou
intervalos, que são faixas de valores. Para cada intervalo, temos um limite
inferior (Li) e um limite superior (Ls). A quantidade de intervalos ou classes
é escolhida de forma a representar a grandeza que está sendo analisada.
Usar poucas classes pode causar perda de informação, mas usar classes
demais pode dificultar a visualização dos dados. Normalmente, utilizamos
de 5 a 20 intervalos ou classes. Outra forma de mostrarmos intervalos é
usando o símbolo ├, que indica intervalo fechado à esquerda. Chamamos
de amplitude do intervalo o resultado do cálculo do limite superior do
intervalo menos o limite inferior, quando indicados com a notação de
intervalo fechado em apenas um dos lados. Para facilitar a leitura e a
interpretação dos dados, é recomendado que todos os intervalos da tabela
tenham a mesma amplitude.

Para efeito de análise dos dados, consideramos que todos os dados,


quando agrupados em intervalos ou classes, estão associados ao ponto
médio (Pm) da classe à qual pertencem. O ponto médio de uma classe
é calculado por:

Ls + Li
Pm =
2

Na equação:

• Ls é o limite superior do intervalo ou da classe;

• Li é o limite inferior do intervalo ou da classe.

Na distribuição de frequências de dados contínuos, os dados devem


ser agrupados em classes ou intervalos. Todas as observações feitas sobre
a distribuição de frequência para a variável discreta aplicam‑se também à
distribuição de frequências da variável contínua.

Vimos que a melhor forma de apresentar os dados ou os resultados de


uma pesquisa costuma ser por meio de gráficos.

O gráfico de dispersão em duas dimensões tem dois eixos, um na


vertical e outro na horizontal. Nos eixos, devemos indicar as grandezas
representadas neles e, se for o caso, as suas unidades. Na construção
de um gráfico de dispersão, devemos construir uma escala numérica em
cada um dos eixos. Essa escala numérica deve ser feita de forma que todos
os dados fiquem incluídos na escala, deve ter passo uniforme e sempre

38
ESTATÍSTICA

o mesmo comportamento ao longo do eixo, seja ele crescente, seja ele


decrescente. Como os eixos são independentes, podemos adotar escalas
com intervalos e passos distintos em cada um dos eixos. Podemos ter,
também, gráficos de dispersão tridimensionais, em que trabalhamos com
três eixos. Posicionados os eixos e construídas as suas escalas, marcamos
os pontos do gráfico, relacionando as grandezas nos dois eixos.

Quando desejamos mostrar a evolução de dada grandeza ou comparar


essa grandeza em locais e situações diferentes, trabalhamos com gráficos
de barras. Nos gráficos de barras, também temos dois eixos. No eixo vertical,
costumamos colocar a variável categórica e, no eixo horizontal, a variável
quantitativa. A espessura e a separação das barras podem ser ajustadas
de forma a facilitar a visualização. Se temos uma grande quantidade de
barras, podemos trabalhar com barras mais finas, embora barras de maior
espessura tenham melhor visualização.

O gráfico de colunas é similar ao gráfico de barras, com a diferença de


que, no gráfico de colunas, a variável categórica é representada no eixo
horizontal e a variável quantitativa é representada no eixo vertical.

O gráfico de setores, ou de “pizza”, é apresentado de forma circular


e é usado para representar a divisão de dada grandeza em diferentes
categorias, sendo que cada categoria usa uma fatia do círculo. Nesse tipo
de gráfico, é interessante representarmos a grandeza quantitativa sob a
forma de porcentagem. Um cuidado que precisamos ter em gráficos de
setores é com o uso das cores para representar cada fatia. Além disso, é
fundamental testarmos a acessibilidade do gráfico para pessoas com
distúrbios visuais na identificação de cores. O gráfico de setores pode não
ser adequado se tivermos uma grandeza muito menor do que as demais,
de forma que ela ocupe um setor muito pequeno do gráfico ou quando as
grandezas são similares.

O histograma é uma variação do gráfico de colunas, em que, no eixo


horizontal, os dados são divididos em intervalos ou classes, e, no eixo vertical,
são apresentadas as frequências dos dados. Os histogramas podem mostrar
as frequências absolutas ou as frequências relativas. O uso de frequências
relativas em histogramas é mais recomendado, pois o tamanho da amostra/
população não altera o eixo de frequências do gráfico. O histograma pode
incluir o que chamamos de polígono de frequências, obtido pela ligação
dos pontos médios do topo de cada barra do histograma.

39
Unidade I

Exercícios

Questão 1. Considere uma moeda, como a apresentada na figura a seguir, em que um dos lados é
chamado de cara e o outro é chamado de coroa.

Cara Coroa

Figura 15 – Faces de uma moeda

Imagine que, em 6 lançamentos dessa moeda, tenhamos observado a seguinte sequência de


resultados: cara, cara, coroa, coroa, cara e cara.

Com base no exposto e nos seus conhecimentos, avalie as afirmativas.

I – A sequência de resultados comprova que a moeda é desonesta, pois, em 6 lançamentos dessa


moeda, deveríamos ter obtido, obrigatoriamente, 3 caras e 3 coroas.

II – A frequência absoluta do resultado cara foi igual a 4.

III – A frequência relativa do resultado coroa foi igual a 0,2.

É correto o que se afirma em:

A) I, apenas.

B) II, apenas.

C) III, apenas.

D) II e III, apenas.

E) I, II e III.

Resposta correta: alternativa B.

40
ESTATÍSTICA

Análise das afirmativas

I – Afirmativa incorreta.

Justificativa: obter 4 caras e 2 coroas, e não 3 caras e 3 coroas, em apenas 6 lançamentos não
comprova que a moeda é desonesta. Se o número de lançamentos aumentar muito, o número de caras
e o número de coroas tendem a se tornar muito próximos.

II – Afirmativa correta.

Justificativa: como foram obtidas 4 caras, a frequência absoluta do resultado cara é igual a 4.

III – Afirmativa incorreta.

Justificativa: como foram obtidas 2 coroas em 6 lançamentos, a frequência relativa do resultado


coroa é:

2 1
= ≈ 0,33
6 3

Questão 2. Um entrevistador perguntou a um grupo de pessoas a respeito do sabor preferido de


sorvete. Com os dados obtidos, o entrevistador elaborou o gráfico a seguir.

Sabor preferido de sorvete

5
Quantidade de pessoas

0
Chocolate Morango Creme Flocos Napolitanos

Figura 16

41
Unidade I

Com base no exposto e nos seus conhecimentos, avalie as afirmativas.

I – O gráfico elaborado pelo entrevistador é chamado de gráfico de dispersão.

II – Foram entrevistadas 20 pessoas.

III – O percentual de pessoas que prefere sorvete de flocos é igual a 30%.

É correto o que se afirma em:

A) I, apenas.

B) II, apenas.

C) III, apenas.

D) II e III, apenas.

E) I, II e III.

Resposta correta: alternativa D.

Análise das afirmativas

I – Afirmativa incorreta.

Justificativa: o gráfico elaborado pelo entrevistador é chamado de gráfico de colunas (ou


barras verticais).

II – Afirmativa correta.

Justificativa: na tabela a seguir, temos as quantidades de pessoas de preferem determinado sabor de


sorvete e a quantidade total de pessoas entrevistadas (20).

Tabela 13 – Preferência por sabores de sorvete

Sabor Quantidade
do sorvete de pessoas
Chocolate 5
Morango 4
Creme 3
Flocos 6
Napolitano 2
Total 20

42
ESTATÍSTICA

III – Afirmativa correta.

Justificativa: como 6 das 20 pessoas preferem sorvete de flocos, o percentual de pessoas que prefere
sorvete de flocos:

6
.100% = 30%
20

43

Você também pode gostar