Estatística descritiva e distribuição de frequências

ESTATÍSTICA
Em sua essência, a Estatística é a ciência que apresenta processos próprios para coletar, apresentar e
interpretar adequadamente conjuntos de dados, numéricos ou não. Pode-se dizer que seu objetivo é o
de apresentar informações sobre dados em análise para que se tenha maio compreensão dos fatos que
os mesmos representam.
A Estatística subdivide-se em três áreas: descritiva, probabilística e inferencial. A estatística

descritiva, como o próprio nome já diz, se preocupa em descrever os dados. A estatística inferencial,
fundamentada na teoria das probabilidades, se preocupa com a análise destes dados e sua
interpretação.
A estatística descritiva é a etapa inicial da análise utilizada para descrever e resumir os dados. A
disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes
revigorou está área da estatística.
A) CONCEITOS FUNDAMENTAIS E DEFINIÇÕES
A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população ou de uma
amostra, definida como:
População: conjunto de elementos que tem pelo menos uma característica em comum.
Esta característica deve delimitar corretamente quais são os elementos da população que podem ser
animados ou inanimados.
Amostra: subconjunto de elementos de uma população. Este subconjunto deve ter dimensão menor
que o da população e seus elementos devem ser representativos da população. A seleção dos
elementos que irão compor a amostra pode ser feita de várias maneiras e irá depender do
conhecimento que se tem da população e da quantidade de recursos disponíveis. A estatística
inferencial é a área que trata e apresenta a metodologia de amostragem.
Em se tratando de conjuntos-subconjuntos, estes podem ser:
Finitos: possuem um número limitado de elementos.

Infinitos: possuem um número ilimitado de elementos.
Segundo Medronho (2003), elemento significa cada uma das unidades observadas no estudo. Após a
determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi-los, observá-los,
contá-los surgindo um conjunto de respostas que receberá a denominação de variável.
B) TABELA
É muito comum nos dias de hoje, devido ao uso de computadores, realizarem pesquisas em que a
coleta de dados resulta em grandes coleções (quantidades) de dados para análise e torna-se quase
impossível entendê-los, quanto ao(s) particular(es) objetivo(s) de estudo, se estes dados não estiverem
resumidos. Em outras palavras, os dados na forma em que foram coletados não permitem, de maneira
fácil e rápida, que se extraiam informações. Torna-se difícil detectar a existência de algum padrão. É
necessário trabalhar os dados para transformá-los em informações, para compará- los com outros
resultados, ou ainda para julgar sua adequação a alguma teoria. Montgomery (2003), afirma que
“sumários e apresentações de dados bem constituídos são essenciais ao bom julgamento estatístico,
porque permitem focar as características importantes dos dados ou ter discernimento acerca do tipo
de modelo que deveria ser usado na solução do problema em questão”.
1.1 ELEMENTOS DA TABELA

Toda tabela deve ser simples, clara, objetiva e autoexplicativa. Segundo Milone (2004, p.25), os
elementos fundamentais da tabela são: título, cabeçalho, coluna indicadora e corpo. O título aponta o
fenômeno, época e local de ocorrência; o cabeçalho explica o conteúdo das colunas; a coluna
indicadora detalha as linhas; o corpo mostra os dados. Complementarmente, tem-se: fonte, notas e
chamadas. A fonte cita o informante (caracterizando a confiabilidade dos dados); as notas
esclarecem o conteúdo e indicam a metodologia adotada na obtenção ou elaboração da informação;
as chamadas clarificam pontos específicos da tabela.
A disposição de uma tabela pode ser generalizada como mostra a Figura 01 a seguir.
Destaca-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem no texto,
como é o caso de trabalhos científicos; as bordas superiores e inferiores devem ser fechadas com
traços horizontais enquanto às da esquerda e direita não, podendo ou não ser fechadas por traços
verticais a separação das colunas no corpo da tabela. É conveniente também que o número de casas
decimais seja padronizado
1.2 TABELA SIMPLES
Uma tabela simples contém as diferentes categorias observadas de uma variável qualitativa e suas
respectivas contagens, denominadas frequências absolutas. A contagem refere-se ao número de
ocorrências de cada categoria e é realizada utilizando-se um banco de dados.
Quanto à classificação, uma tabela simples pode ser temporal quando as observações são feitas
levando-se em consideração o tempo; geográfica quando os dados referem-se ao local de ocorrência;
específica (ou categórica) quando tempo e local são fixos; e comparativa quando a tabela resume
informações de duas ou mais variáveis. A tabela comparativa é também denominada tabela cruzada
ou de dupla ou mais entradas. Os nomes da coluna indicadora e cabeçalho podem ser escritos
iniciando-se com letras maiúsculas. Também é prática comum justificar à esquerda as diferentes
categorias da variável qualitativa que se apresentam no conteúdo das linhas, iniciando-se com letras
maiúsculas e podem ser dispostas na ordem em que aparecem nos questionários, ordem alfabética ou
ordem decrescente de frequência absoluta.
1.3 DISTRIBUIÇÃO DE FREQUÊNCIA
Como já mencionado, dependendo do volume de dados, torna-se difícil ou impraticável tirar

conclusões a respeito do comportamento das variáveis e, em particular, de variáveis quantitativas.
Pode-se, no entanto, colocar os dados brutos de cada uma das variáveis quantitativas em uma ordem
crescente ou decrescente, denominado rol. A visualização de algum padrão ou comportamento
continua sendo de difícil observação ou até mesmo cansativa, mas torna-se rápido identificar maiores
e menores valores ou concentrações de valores no caso de variáveis quantitativas. Estes números
(menor e maior valor observado) servem de ponto de partida para a construção de tabelas para estas
variáveis. Vale destacar que para as variáveis qualitativas, pode-se também construir um rol em ordem
temporal ou alfabética, por exemplo.
É a diferença entre o menor (mínimo) e maior (máximo) valor observado da variável X, denominada
amplitude total (AT = xmax – xmin), que definirá a construção de uma distribuição de frequência
pontual ou em classes. O ideal é que uma distribuição de frequência resuma os dados em um número
de linhas que varie de 5 a 10.
1.3.1 Distribuição de frequência pontual – sem perda de informação
A construção de uma distribuição de frequência pontual é equivalente à construção de uma tabela

simples, onde se listam os diferentes valores observados da variável, com suas frequências absolutas,
denotadas por Fi, onde o índice i corresponde ao número de linhas da tabela, como é mostrado na
Tabela.
Tabela – Número de irmãos de pacientes internados em hospital em Foz do Iguaçu
Observa-se que esta variável foi resumida em 5 linhas. Assim, i = 1,...,5, e, portanto, tem-se 5 valores
para as frequências absolutas. A frequência absoluta da segunda linha, F2 = 6, por exemplo, indica
que seis alunos têm um irmão, enquanto apenas um afirmou ter seis irmãos. A soma de todas as
frequências absolutas deve ser igual ao número total de observações da variável, neste caso, 22. A
segunda coluna desta tabela é uma coluna opcional em distribuições de frequências. Ainda, como
colunas complementares em uma distribuição de frequências e considerando i, a ordem da linha na
tabela, tem-se:
- a) frequência relativa, denotada por fi, e já definida anteriormente, onde n é o tamanho da amostra,
devendo ser substituída por N se os dados forem populacionais. A soma das frequências relativas de
todas as categorias é igual a 1;
- b) frequência relativa em percentual, denotada por fi%, e definida como, representando o

percentual de observações que pertencem àquela categoria. A soma das frequências deve, agora, ser
igual a 100%;
- c) frequência absoluta acumulada, denotada por Fai . Estas frequências são obtidas somando-se
a frequência absoluta do valor considerado, às frequências absolutas anteriores a este mesmo valor.
- d) frequência acumulada relativa, denotada por fai% e definida como:
Tabela – Número de irmãos de paciente internados em hospital X, 2015.
Segundo Milone (2004), em se tratando das frequências relativas em percentuais, arredondamentos

se fazem necessários e devem ser feitos de maneira convencional. Neste tipo de aproximação opta-
se sempre pelo menor erro. Por exemplo, se for necessário aproximar o número 0,483 para a ordem
do centésimo, erra-se menos subtraindo 0,003 que adicionando 0,007 ao valor 0,483, portanto a
aproximação correta é 0,48. Se a aproximação for do número 0,4853 para a ordem do centésimo,
então o erro menor será para a adição de 0,0047 e não para a subtração de 0,0053, e a aproximação
adequada é 0,49. Já no caso do número 0,485, o tamanho do erro de aproximação é o mesmo que se
obtém quando feita para mais ou para menos (0,005), e neste caso, cabe ao pesquisador decidir qual
aproximação é mais conveniente.
A soma de todas as frequências relativas percentuais deve ser igual a 100. Entretanto, quando são
feitas aproximações, tal fato pode não ocorrer. Para o caso em que for menor que 100, soma-se uma
unidade ao dígito de interesse das maiores frequências relativas até que a soma seja 100. Se for maior
que 100, deve-se subtrair uma unidade das maiores frequências relativas. Agora, se ocorrem empates
ou se as maiores frequências forem números inteiros, é conveniente trabalhar com as outras
frequências. O importante é que a distribuição dos dados não seja alterada.
1.3.2 Distribuição de frequência em classes – com perda de informação
“A distribuição de frequências em classes é apropriada para apresentar dados quantitativos contínuos

ou discretos com um número elevado de possíveis valores” (Medronho, 2003, p. 231). É necessário
dividir os dados em intervalos ou faixas de valores que são denominadas classes. Uma classe é uma
linha da distribuição de frequências. O menor valor da classe é denominado limite inferior (Li) e o
maior valor da classe é denominado limite superior (Ls). O intervalo ou classe pode ser representado
das seguintes maneiras:
a) Li |----- LS, onde o limite inferior da classe é incluído na contagem da frequência absoluta,
mas o superior não;
b) Li ------| LS, onde o limite superior da classe é incluído na contagem, mas o inferior não;
c) Li |------| LS, onde tanto o limite inferior quanto o superior são incluídos na contagem;
d) Li ----- LS, onde os limites não fazem parte da contagem.
Pode-se escolher qualquer uma destas opções sendo o importante tornar claro no texto ou na tabela
qual está sendo usada.
“Se houver muitos intervalos, o resumo não constituirá grande melhoria com relação aos dados
brutos. Se houver muito poucos, um grande volume de informação se perderá. Embora não seja
necessário, os intervalos são frequentemente construídos de modo que todos tenham larguras iguais,
o que facilita as comparações entre as classes”. (Pagano, 2004, p.11).
Etapas para a construção de tabelas de frequência para dados agrupados:
1) O cálculo da amplitude total dos dados é a diferença entre o maior e o menor valor da série, isto
é:
2) Não existindo um critério rígido para estabelecer o número ideal de intervalos, sugere-se que não
se utilize menos de 5 e não mais de 15 intervalos. A experiência tem demonstrado que se pode fixar
o número de intervalos (k) como:
ln= logaritmo natural

log= logaritmo
3) O intervalo das classes ou amplitude de classes (ac ou h) pode ser feito dividindo-se a amplitude
total pelo número de classes.
O ponto médio de cada amplitude de classe é dada pela forma:
Ponto médio (Xi) = Li +Ls/2
Exemplo:
Considerando a idade dos pacientes atendidos em ambulatório de um hospital (n = 20).
18, 18, 19, 19, 20, 20, 21, 22, 23, 25, 26, 27, 28, 28, 30, 31, 32, 32, 34, 35
At = 35– 18
At = 17
k = √n
k = √20
k = 4,47 aproximadamente 04 classes
Ac = 17/4,47 = 3,8 aproximadamente 4 a amplitude de cada classe
Tabela – Distribuição dos indivíduos atendidos em ambulatório do Hospital X, segundo faixa etária,
2015.
Faixa etária Fi fi% Fac fac% Ponto Médio (Xi)

18 |----22 anos 7 35 7 35 20
22 |----26 amos 3 15 10 50 24
26 |----30 anos 4 20 14 70 28
30 |----|35 anos 6 30 20 100 32,5
Total 20 100
C) GRÁFICOS
Gráfico é um recurso visual da Estatística utilizado para representar um fenômeno. Sua utilização em
larga escala nos meios de comunicação social, técnica e científica, devem-se tanto à sua capacidade
de refletir padrões gerais e particulares do conjunto de dados em observação, como à facilidade de
interpretação e a eficiência com que resume informações dos mesmos.
Embora os gráficos forneçam menor grau de detalhes que as tabelas, estes apresentam um ganho na
compreensão global dos dados, permitindo que se aperceba imediatamente da sua forma geral sem
deixar de evidenciar alguns aspectos particulares que sejam de interesse do pesquisador.
Uma representação gráfica coloca em evidência as tendências, as ocorrências ocasionais, os valores

mínimos e máximos e também as ordens de grandezas dos fenômenos que estão sendo observados.
Todo gráfico, em sua versão final deve primar pela simplicidade, clareza e veracidade nas
informações.
Para atingir tal objetivo, a construção de um gráfico exige muito trabalho e cuidados. Segundo Silva
(1996) apud Wallgren (1996), a escolha da representação gráfica e, consequentemente, a escolha do
tipo de gráfico mais adequado para representar um conjunto de dados deve ser feita com base nas
respostas de questões como:
- Um gráfico realmente é a melhor opção?

- Qual é o público-alvo?
- Qual é o objetivo do gráfico?
- Que tipo de gráfico deve ser usado?
- Como o gráfico deve ser apresentado?
- Que tamanho o gráfico deve ter?
- Deverá ser usado apenas um gráfico?
- A qual meio técnico se deve recorrer?
Ao incluir um gráfico em um trabalho, sua identificação deve aparecer na parte inferior, precedido
pela palavra Gráfico seguida de seu número de ordem de ocorrência no texto (algarismos arábicos),
de seu respectivo título e/ou legenda explicativa de maneira breve e clara (dispensando a leitura do
texto) e da fonte de onde se extraiu os dados. Uma regra básica para a elaboração adequada do título
de qualquer gráfico é verificar se o mesmo responde a três exigências: o quê, onde e quando.
Quando um gráfico for inserido em um texto, recomenda-se que este seja destacado tanto do texto
que o precede, como do texto imediatamente subsequente, por meio de três espaços simples.
O título é escrito em letras minúsculas, exceto a inicial da frase e dos nomes próprios. Deve ser
separado da numeração do gráfico por um hífen seguido de um espaço. Caso seja composto por mais
de uma linha, estas devem ser alinhadas sob a primeira letra da primeira linha do título. Em casos
onde a legenda se fizer necessário, como nos casos de gráficos comparativos, ela deve ser colocada à
direita ou abaixo do gráfico.
A proporção da altura identificada no eixo vertical deve ser, aproximadamente, de 60% a 70% da
largura da abscissa, ou seja, do eixo horizontal. Dá-se preferência a pouca variação de cores. A
variação de cores num mesmo gráfico é recomendada para o caso de gráficos comparativos. No final
das linhas que definem os eixos (abscissa e ordenada), devem ser expostas as unidades utilizadas nas
escalas que mensuram as grandezas representadas. Existem diversos tipos de gráficos. Porém, serão
destacados aqueles de maior interesse pedagógico na representação das variáveis qualitativas e
quantitativas.
1 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS
1.1 Gráfico de barras
É um gráfico formado por retângulos horizontais de larguras iguais, onde cada um deles representa a
intensidade de uma modalidade ou atributo. É recomendável que cada coluna conserve uma distância
entre si de aproximadamente 2/3 da largura da base de cada barra, evidenciando deste modo, a não
continuidade na sequência dos dados.
O objetivo deste gráfico é de comparar grandezas e é recomendável para variáveis cujas categorias
tenham designações extensas.
1.2 Gráfico de colunas
É o gráfico mais utilizado para representar variáveis qualitativas. Difere do gráfico de barras por
serem seus retângulos dispostos verticalmente ao eixo das abscissas sendo mais indicado quando as
designações das categorias são breves. Também para este tipo de gráfico deve ser preservada a
distância entre cada retângulo de, aproximadamente, 2/3 da largura da base de cada coluna. O número
de colunas ou barras do gráfico não deve ser superior a 12 (doze).
Ao se descrever simultaneamente duas ou mais categorias para uma variável, é conveniente fazer uso
dos gráficos de barras ou colunas justapostas (ou sobrepostas), chamados de gráficos comparativos.
Este tipo de gráfico só deve ser utilizado quando apresentar até três elementos para uma série de no
máximo quatro valores.
1.3 Gráfico de setores
Tipo de gráfico onde a variável em estudo é projetada num círculo, de raio arbitrário, dividido em
setores com áreas proporcionais às frequências das suas categorias. São indicados quando se deseja
comparar cada valor da série com o total. Recomenda-se seu uso para o caso em que o número de
categorias não é grande e não obedecem a alguma ordem específica.
1.4 Gráfico de linhas

Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão, conhecidos
também como gráficos de séries cronológicas. Sua construção é feita colocando-se no eixo vertical
(y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável numa ordem
crescente. Este tipo de gráfico permite representar séries longas, o que auxilia detectar suas flutuações
tanto quanto analisar tendências. Também podem ser representadas várias séries em um mesmo
gráfico.
2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS
2.1 Gráfico de bastões
Este gráfico é formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da variável),
cujo comprimento corresponde à frequência absoluta ou relativa de cada elemento da distribuição.
Suas coordenadas não podem ser unidas porque a leitura do gráfico deve tornar claro que não há
continuidade entre os valores individuais assumidos pela variável em estudo.
2.2 Gráfico da frequência acumulada
A Figura 08 mostra o gráfico para frequência acumulada de uma variável quantitativa discreta. Na
abscissa são alocados os valores assumidos pela variável número de irmãos e no eixo das ordenadas
suas frequências acumuladas. Observa-se que a leitura do gráfico exige alguns cuidados básicos: caso
o valor da variável esteja ou não incluído, sua frequência acumulada difere.
Se for de interesse saber quantos alunos tem dois ou menos irmãos (inclui-se dois irmão), a frequência
acumulada é de 19 alunos. Caso se queira apenas saber quantos alunos têm menos de dois irmãos
(portanto o número dois não está incluso), sua frequência acumulada é de 7 alunos.
3 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS CONTÍNUAS
3.1 Histograma
É um gráfico de colunas justapostas que representa uma distribuição de frequência para dados
contínuos ou uma variável discreta quando esta apresentar muitos valores distintos. No eixo
horizontal são dispostos os limites das classes segundo as quais os dados foram agrupados enquanto
que o eixo vertical corresponde às frequências absolutas ou relativas das mesmas.
Quando os dados são distribuídos em classes de mesma amplitude, Figura 09 (a), todas as colunas
apresentam bases iguais com alturas variando em função das suas frequências absolutas ou relativas.
Neste caso, tem-se que a área de cada retângulo depende apenas da sua altura enquanto que no caso
de dados agrupados em classes de dimensões diferentes, como mostra a Figura 09 (b), a área de cada
coluna já não é mais proporcional à sua altura. Como a altura de cada classe precisa variar
simultaneamente com sua largura, é necessário que a área de cada uma das colunas permaneça em
proporção conveniente, o que pode ser obtido dividindo-se as frequências das classes pelas
respectivas amplitudes e construindo-se o histograma a partir destas frequências. Portanto, pode-se
dizer que no primeiro caso, o eixo dos valores informa sobre a frequência relativa de cada classe, no
segundo caso, tal procedimento perde todo significado, e é necessário comparar as áreas para
interpretar as informações que são expostas.
3.2 Polígono de frequência
É um gráfico de linha cuja construção é feita unindo-se os pontos de coordenadas de abscissas

correspondentes aos pontos médios de cada classe e as ordenadas, às frequências absolutas ou
relativas dessas mesmas classes. O polígono de frequência é um gráfico que deve ser fechado no eixo
das abscissas. Então, para finalizar sua elaboração, deve-se acrescentar à distribuição, uma classe à
esquerda e outra à direita, ambas com frequências zero. Tal procedimento permite que a área sob a
linha de frequências seja igual à área do histograma. Uma das vantagens da aplicação de polígonos
de frequências é que, por serem gráficos de linhas, permitem a comparação entre dois ou mais
conjuntos de dados por meio da superposição dos mesmos.
3.3 Gráfico da frequência acumulada ou Ogiva
É um gráfico que permite descrever dados quantitativos por meio da frequência acumulada. A ogiva
é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das classes, e,
ordenadas suas respectivas frequências acumuladas. Convém observa-se que o ponto inicial desse
gráfico é o limite inferior do primeiro intervalo, com frequência acumulada zero, pois não existe
qualquer valor inferior a ele.
Quando os dados contidos em cada classe são distribuídos uniformemente, pode-se estimar, a partir
da ogiva, o número de elementos pertencentes a qualquer uma das classes que compõe a distribuição
de frequência dos dados e a quantidade ou porcentagem de elementos que estão abaixo de certo valor
pertencente ao conjunto de dados.
Pela Figura 11, nota-se que não existem alunos com idade inferior a 18 anos enquanto que abaixo de
34 anos existem vinte alunos.
3.4 Ramo-e-Folhas
O diagrama Ramo-e-Folhas, criado por John Tukey, é um procedimento utilizado para armazenar
os dados sem perda de informação. É utilizado para se ter uma idéia visual da distribuição dos
dados. Cada valor observado, xi, da variável X, deve consistir de no mínimo dois dígitos e a variável
pode ser tanto quantitativa discreta como contínua.
Para construí-lo, divide-se cada número em duas partes. A primeira é denominada ramo e a
segunda, folhas. O ramo consistirá de um ou mais dígitos iniciais se o valor da variável for um
número inteiro e do número inteiro, se o valor da variável for um número com decimais. Nas folhas,
colocam-se os dígitos restantes se o valor observado for número inteiro, ou os decimais, caso
contrário. A Figura 12 (a) apresenta o ramo-e-folhas correspondente a variável idade do aluno.
Observa-se que o ramo correspondente ao dígito 2 tem muitas folhas. Neste caso, a opção é dividir
este ramo em dois: as folhas de 0 a 4 pertencerão a uma linha e as folhas de 5 a 9 pertencerão à
outra linha. Os ramos são discriminados por um sinal no seu expoente, como na Figura 12 (b)
VARIÁVEIS
Variáveis são o agrupamento das medidas repetidas de um dado objeto de estudo, realizadas em
diferentes unidades de observação. Como nome afirma é aquilo que varia entre o objeto de estudo.
Ex: As variáveis peso, altura e tempo empregado na realização de uma tarefa, podem ser “medidas”
para cada funcionário (objeto de estudo) de uma empresa.
As variáveis podem ser quantitativas ou qualitativas. As técnicas estatísticas apropriadas para analisar
um conjunto de variáveis dependem da maneira como essas variáveis foram medidas. Variáveis
podem ser classificadas como quantitativas ou qualitativas.
1. Variáveis Quantitativas ou numéricas - são aquelas em que as possíveis realizações (resultados)

são números resultantes de uma contagem ou mensuração. Por exemplo: número de filhos, salário,
estatura, peso, pressão sanguínea etc.
Dentre as variáveis quantitativas ainda se pode fazer distinção entre dois tipos:
1.1 Variável Quantitativa Discreta é aquela que só pode assumir valores inteiros positivos, inclusive
o zero, resultante, normalmente, de uma contagem. Seus possíveis valores formam um conjunto finito
de números ou enumerável de números inteiros.
Ex: número de filhos (0,1,2,3...); número de acidentes de trabalho (20,30,50...); número de faltas
(0,4,8,15...); número de alunos presentes às aulas de PIESC no 2º semestre de 2016: ago= 18, set =
30 , out = 35 , nov = 36...
1.2. Variável Quantitativa Contínua é aquela que pode assumir infinitos valores entre dois limites
quaisquer, resultando, geralmente, de alguma mensuração ou medição. Seus possíveis valores
formam um intervalo de números reais.
Ex: altura (1,54; 1,65; 1,81m...); peso de um indivíduo (42,0; 54,2; 65,8 kg...); temperatura ambiente
(5; 12; 14,7; 35,2ºC); tempo empregado na realização de uma tarefa (1 hora; 1 ½ hora; 55,22
minutos...).
2. Variáveis Qualitativas ou não numéricas ou categóricas são aquelas que apresentam como
possíveis realizações (resultados) uma qualidade (ou atributo) do(s) indivíduo(s) pesquisado(s). Por
exemplo: sexo, estado civil, educação, situação com relação a uma doença (possuir ou não) etc.
De modo análogo, as variáveis qualitativas podem sofrer uma classificação dicotômica:
2.1. Variável Qualitativa Nominal, para a qual não existe nenhuma ordenação nas possíveis
realizações. Os elementos (resultados) são alocados em categorias que não possuem ordem entre si.
Ex.: sexo (masculino, feminino), Estado de origem (PR, SC, RS, SP..), estado civil (solteiro, casado,
viúvo...) etc.
2.2 Variável Qualitativa Ordinal para a qual existe uma certa ordem (ou grau) nos possíveis
resultados. Os elementos (resultados) são alocados em categorias (postos) que são ordenadas entre si.
Ex.: nível de escolaridade, pois 1º, 2º e 3º graus correspondem a uma ordenação baseada nos anos de
escolaridade; resposta do paciente com relação a um tratamento: nenhuma melhora, alguma melhora
ou muita melhora; classe social: alta, média, baixa...
ESTATÍSTICA DESCRITIVA
MEDIDAS DESCRITIVAS
Outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas e gráficos, é
apresentá-los na forma de valores numéricos, denominados medidas descritivas. Estas medidas, se
calculadas a partir de dados populacionais, são denominados parâmetros e, se calculadas a partir
de dados amostrais, são denominadas estimadores ou estatísticas. As medidas descritivas auxiliam
a análise do comportamento dos dados. Tais dados são provenientes de uma população ou de uma
amostra, o que exige uma notação específica para cada caso, conforme mostra o Quadro 01.
Classificam-se as medidas descritivas como: medidas posição (tendência central e separatrizes),

medidas de dispersão, medidas de assimetria e de curtose.
1 Medidas de Tendência Central
As medidas de tendência central são assim denominadas por indicarem um ponto em torno do qual
se concentram os dados. Este ponto tende a ser o centro da distribuição dos dados. A seguir, são
definidas as principais medidas de tendência central: média, mediana e moda.
1.1 Moda
Em estatística, a moda (Mo) é o valor que ocorre com maior frequência. Aplicada geralmente para
variável quantitativa. A moda pode ser um atributo aplicado a uma variável qualitativa.
Exemplos:
Número de componentes familiares de indivíduos de determinado
bairro (n= 8) 4, 5, 4, 6, 5, 8, 4, 4 Mo = 4 indivíduos por família
Cores dos olhos de alunos de uma turma (n= 10)

azul, verde, castanho, castanho, azul, verde, castanho, verde, castanho, castanho
Mo = olhos da cor castanho
1.2 Média aritmética
A média aritmética é a soma de todos os valores observados da variável dividida pelo número total
de observações. Sob uma visão geométrica a média de uma distribuição é o centro de gravidade,
representa o ponto de equilíbrio de um conjunto de dados. É a medida de tendência central mais
utilizada para representar a massa de dados.
Seja (x1, ..., xn) um conjunto de dados. A média é dada por:

para dados populacionais ou amostrais,
respectivamente. Legenda:
Σ= letra grega Sigma que significa somatório
X= média amostral
µ= média populacional
xi= valor de cada elemento de população ou
amostra N= população
n= amostra
i= i-ésima classe
****Caso os dados estejam apresentados segundo uma distribuição de frequência, tem-se:
Nota:
k= k-ésimo – O k-ésimo corresponde à grandeza de um valor. Por exemplo: 1, 3, 5, 8, 12.
O segundo maior valor deste conjunto é 8, logo, o k-ésimo é "2" (dois), pois se equivale a
segundo!
Se quiséssemos encontrar o terceiro menor valor, este seria o 5. O k-ésimo seria "3", ou seja, o
algarismo que indica a grandeza é o três.
Fi= frequência
Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, em que os
pesos são as frequências absolutas de cada classe e xi é o ponto médio da classe i.
Observe que no caso de dados agrupados a média é obtida a partir de uma ponderação, onde os
pesos são as frequências absolutas de cada classe e xi é o ponto médio da classe i.
Citam-se a seguir, algumas propriedades da média aritmética:
1. a média é um valor calculado facilmente e depende de todas as observações;

2. é única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é
igual a um determinado valor observado;
3. a média é afetada por valores extremos observados;
4. por depender de todos os valores observados, qualquer modificação nos dados fará com que a
média fique alterada. Isto quer dizer que, somando-se, subtraindo-se, multiplicando-se ou
dividindo-se, uma constante a cada valor observado, a média ficará acrescida, diminuída,
multiplicada ou dividida desse valor.
5. a soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma dos
desvios é zero.
A propriedade 5 é de extrema importância para a definição de variância, uma medida de
dispersão a ser definida posteriormente.
Destaca-se, ainda, que a propriedade 3, quando se observam no conjunto dados discrepantes, faz
da média uma medida não apropriada para representar os dados. Neste caso, não existe uma regra
prática para a escolha de outra medida. O ideal é, a partir da experiência do pesquisador,
Exemplo:
Número de indivíduos em cada família de determinado

bairro (n= 5) n= 2, 5, 3, 7, 8
X = [(2+5+3+7+8)/5]=5, logo o número médio de indivíduos em cada família de 05.
Tabela 1- Distribuição da idade de indivíduos em cada família de determinado bairro São José,
Alpinópolis, 2016.
Fonte: Fictícia
Nota-se que esta diferença ocorre devido ao fato de se utilizar os dados sem o conhecimento de
seus valores individuais. Neste caso, tornou-se necessário representá-los pelos pontos médios de
suas respectivas classes resultando numa certa perda de informação.
1.3 Mediana
A mediana (Md) é o valor que ocupa a posição central da série de observações de uma variável,
em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores inferiores à
mediana é igual à quantidade de valores superiores a mesma.
Exemplo: Retomando o exemplo do número de filhos por famílias, verifica-se que: Para o caso de
oito famílias, n=8, a mediana é determinada como a seguir:
Este procedimento pode tornar-se inadequado quando o conjunto de dados for composto por muitos
elementos. Os passos a seguir indicam uma forma para o cálculo da mediana, independentemente
do tamanho da amostra. Ordenar as observações em ordem crescente ou decrescente (rol). Calcular
a posição, p, que a mediana ocupa no conjunto de dados:
Posição da Mediana: p = 0,5 * (n+1)
Na fórmula 0,5, porque a mediana divide a sequência de valores ao meio, ficando 50% com uma
parte e 50% com outra.
Propriedades da mediana
I. Unicidade. Existe somente uma mediana para um conjunto de dados.

II. Simplicidade. A mediana é fácil de ser calculada.
III. A mediana não é tão afetada pelos valores extremos como a média aritmética, por isso, se diz
que a mediana é uma medida robusta.
Valor da Mediana
Md= Xp + XFp * (Xp+1 - Xp) Onde,

Xp = Posição da Mediana inteira
XFp = Fração da Posição da Mediana
Xp+1 = Elemento seguinte depois da posição Xp
Exemplo:
Considere a idade dos pacientes atendidos em ambulatório de um
hospital (n = 14) 11, 14, 32, 26, 15, 16, 20, 27, 44, 28, 32, 17, 28, 13
Determinar a posição da mediana e o valor de mediana
- Primeiro passo consiste na ordenação dos valores

- 11, 13, 14, 15, 16, 17, 20, 26, 27, 28, 28, 32, 32, 44
- Em seguida, determinar a posição da mediana no conjunto de

elementos. p = posição na mediana
p = 0,5 *(n+1) p = 0,5 * (14+1)
p = 7,5 (posição 7,5; localizada entre o elemento 7 e o 8)
Md= Xp + XFp * (Xp+1 - Xp)

Nesse caso,
Xp = Posição 7 = 20
XFp = Fração da Posição da Mediana = 0,5 Xp+1 = Posição 8 = 26
Md= Xp + XFp *(Xp+1 - Xp)

Md= 20 + 0,5 * (26 - 20)
Md= 20 + 0,5 * (6)
Md= 20 + 3 = 23 anos
logo, 50% dos alunos têm idade inferior a 23 anos e 50 % dos alunos possuem idade superior a 23
anos.
2 MEDIDAS SEPARATRIZES
Estas medidas são valores que ocupam posições no conjunto de dados, em rol, dividindo-o em
partes iguais e podem ser:
Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais.
Quadro: Descrição dos quartis (dados amostrais).
Decil: Os decis dividem o conjunto de dados em dez partes iguais.
Quadro: Descrição dos decis (dados amostrais).

Percentil: Os percentis dividem o conjunto de dados em cem partes iguais. A seguir são
apresentados alguns dos percentis mais usados:
Quadro: Descrição de alguns percentis (dados amostrais).
Percentis
Para os dados em rol, o cálculo das medidas separatrizes é a mesma que a da
mediana, a saber: Sp= Xp + XFp * (Xp+1 - Xp)
Onde,
Sp= Separatriz, que pode ser mediana, tercil, quartil, percentil, quintil, decil.
Lembrando: A mediana constitui um tipo de separatriz, por dividir o conjunto de valores ao meio.
3 MEDIDAS DE DISPERSÃO
De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam-se por
suas semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de tendência
central a descrever o conjunto de dados adequadamente. Indicam se os dados estão, ou não,
próximos uns dos outros.
Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos seus
elementos. Existe ausência de dispersão e a medida de dispersão é igual a zero. Por outro lado,
aumentando-se a dispersão, o valor da medida aumenta e se a variação for muito grande, a média
não será uma medida de tendência central representativa.
Faz-se necessário, portanto, ao menos uma medida de tendência central e uma medida de
dispersão para descrever um conjunto de dados. As medidas de dispersão que serão definidas
a seguir são:
-amplitude total,
-amplitude interquartílica
-desvio médio
-desvio padrão
-variância.
***O desvio padrão, desvio médio e a variância têm como ponto de referência a média.
3.1 Amplitude Total
A amplitude total (At) de um conjunto de dados é a diferença entre o maior e o menor valor
observado. A medida de dispersão não levar em consideração os valores intermediários perdendo
a informação de como os dados estão distribuídos e/ou concentrados.
Exemplo: A amplitude total da idade dos pacientes atendidos em ambulatório de

um hospital (n = 14)
11, 13, 14, 15, 16, 17, 20, 26, 27, 28, 28, 32, 32, 44
At = 44-11 = 33 anos, isto é, as idades dos pacientes diferem em 33 anos.
3.2 Amplitude Interquartílica
A amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Esta medida é mais
estável que a amplitude total por não considerar os valores mais extremos. Esta medida abrange
50% dos dados e é útil para detectar valores discrepantes.
Por outro lado, a amplitude semi-interquartílica é definida como a média aritmética da

diferença entre a mediana e os quartis:
Exemplo: A amplitude total da idade dos pacientes atendidos em ambulatório de

11, 13, 14, 15, 16, 17, 20, 26, 27, 28, 28, 32, 32, 44
1º Quartil = Q1 = quartil 25 (p25)

p= posição
p = 0,25 * (n+1) p = 0,25 * (14+1)
p = 3,75, posição 3,75 (posição está entre o elemento 3 e o 4)
p25= Xp + XFp * (Xp+1 - Xp) Nesse caso,

p25 = Xp + XFp *(Xp+1 - Xp) p25 = 14 + 0,75 * (15 - 14)

p25 = 14 + 0,75 * (1)
p25 = 14,75 anos = (1º Quartil = Q1)
3º Quartil = Q3 = quartil 75 (p75)

p= posição
p = 0,75 * (n+1) p = 0,75 * (14+1)

p75 = Xp + XFp *(Xp+1 - Xp) p75 = 28 + 0,25 * (32 - 28)

p75 = 28 + 0,25 * (4)
p75 = 29 anos = (3º Quartil = Q3)
* Amplitude interquartílica ou distância interquartílica
Q3= 29 anos
Q1= 14,75 anos
dq = 29 - 14,75
dq= 14,25 anos
A amplitude entre o terceiro e primeiro quartil, que envolve 50% dos pacientes, é de 14,25 anos.
3.3 Amplitude semi-interquartílica
Q3= 29 anos
Q1= 14,75 anos
dqm = (29 -14,75)/2

dqm= 7,125 anos
Em cada metade amplitude interquartílica entre o terceiro e primeiro quartil, que envolve 25%
dos pacientes, é de 7,125 anos.
3.4 Desvio-médio
O desvio-médio (dm) é a diferença entre cada valor observado e a média é denominada desvio
(d) e é dado por:
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em relação
à média, o resultado é igual a zero (propriedade 5 da média). Isto significa que esta medida não mede
a variabilidade dos dados. Para resolver este problema, pode-se desconsiderar o sinal da diferença,
considerando-as em módulo e a média destas diferenças em módulo é denominada desvio médio
(dm):
3.5 Variância e desvio padrão
Enquanto não há nada conceitualmente errado em se considerar o desvio médio, segundo Pagano
(2004), esta medida não tem certas propriedades importantes e não é muito utilizada. O mais
comum é considerar o quadrado dos desvios em relação à média e então calcular a média.
Obtém-se, assim a variância que é definida por:
Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades quadráticas,
o que dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz quadrada da
variância, definindo-se, assim, o desvio padrão:
Exemplo: Considerando a idade dos pacientes atendidos em ambulatório de
Indivídu Xi X d (Xi - Σ(Xi - S2 = Σ(Xi - S= √ S2

o (média) X) X)2 X)2/n-1
A 11 23,1 -12,1 145,7 1160,9/13 = 89,3 √ 89,3
=9,4
B 13 23,1 -10,1 101,4
C 14 23,1 -9,1 82,3
D 15 23,1 -8,1 65,1
E 16 23,1 -7,1 50,0
F 17 23,1 -6,1 36,8
G 20 23,1 -3,1 9,4
H 26 23,1 2,9 8,6
I 27 23,1 3,9 15,4
J 28 23,1 4,9 24,3
K 28 23,1 4,9 24,3
L 32 23,1 8,9 79,7
M 32 23,1 8,9 79,7
N 44 23,1 20,9 438,1
Total 0,0 1160,9
dm= |12,1+ 10,1+ 9,1 + 8,1 + 7,1 + 6,1+ 3,1 + 2,9 + 3,9 + 4,9 + 4,9 + 8,9 + 8,9 + 20,9| /14-1 =
8,53
Legenda:
Xi = valor do elemento na amostra para dada variável X = média aritmética

d = desvio
dm = desvio-médio S2 = variância
S = desvio-padrão
√ = raiz quadrada
Observa-se que as médias das idades dos pacientes são iguais, porém, seus desvios (d) em torno da
média são diferentes. Isto quer dizer que suas idades são diferentes. Em outras palavras, apesar de
os pacientes terem a mesma média de idade, a variabilidade difere.
Como demonstrado no exemplo, geralmente, o desvio padrão é maior ou igual ao desvio médio
(dm), e isto devido ao fato de que para o cálculo do desvio-padrão cada desvio em torno da média
é elevado ao quadrado, aumentando desproporcionalmente o peso dos valores extremos.
3.6 Erro Padrão
Diferentes amostras retiradas de uma mesma população podem apresentar médias diferentes. A
variação existente entre este conjunto de médias é estimada através do erro padrão, que
corresponde ao desvio padrão
das médias, sendo representado por e calculado pela fórmula:
Onde
S= desvio-padrão
n = tamanho da amostra
3.7 Coeficiente de Variação
O coeficiente de variação é uma medida de dispersão relativa definida como a razão entre o
desvio-padrão e a média:
A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados e,

consequentemente, se a média é uma boa medida para representar estes dados. É utilizado, também,
para comparar conjuntos com unidades de medidas distintas. Uma desvantagem do coeficiente de
variação é que ele deixa de ser útil quando a média está próxima de zero. Uma média muito próxima
de zero pode inflacionar o CV.
Um coeficiente de variação superior a 50% sugere alta dispersão o que indica heterogeneidade dos
dados. Quanto maior for este valor, menos representativa será a média. Neste caso, opta-se pela
mediana ou moda, não existindo uma regra prática para a escolha de uma destas medidas. O
pesquisador, com sua experiência, é que deverá decidir por uma ou outra. Por outro lado, quanto
mais próximo de zero, mais homogêneo é o conjunto de dados e mais representativa será sua média.
Exemplo:
Calcular o coeficiente de variação (CV) da idade dos pacientes internados no
hospital n= 14 11, 13, 14, 15, 16, 17, 20, 26, 27, 28, 28, 32, 32, 44
Considerando os valores da tabela anterior
Média (X) = 23,1 anos Desvio-padrão (S) = 9,4
CV= 9,4/23,1 * 100 CV= 0,4 ou 40%
Como CV<50%, pode-se afirmar que a média é uma medida descritiva representativa para a
variável idade dos pacientes internados no hospital.
4 MEDIDAS DE ASSIMETRIA
A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma

distribuição de frequências e/ou um histograma, está-se buscando, também, identificar
visualmente, a forma da distribuição dos dados que é ou não confirmada pelo coeficiente de
assimetria de Pearson (As) definido como:
Exemplo: Considere a distribuição das idades de estudantes do curso de medicina:

Média (X) = 23.1
Moda = 28
Desvio padrão (S) = 9,4
As = (23,1-28)/9,4 As = -0,52
Nesse caso, a distribuição dos dados é assimétrica negativa, pois o valor As < 0.
4.1 Medidas de Curtose
A medida de curtose (K) é o grau de achatamento da distribuição, é um indicador da

forma desta distribuição. É definido como:
Considerando-se:
Q3= Terceiro; Quartil Q1= Primeiro Quartil; P90= Percentil 90; P10= Percentil 10
A curtose ou achatamento é mais uma medida com a finalidade de complementar a caracterização
da dispersão em uma distribuição. Esta medida quantifica a concentração dos valores ao longo da
distribuição. Uma distribuição é classificada quanto ao grau de achatamento como:
Leptocúrtica: quando a distribuição apresenta uma curva de frequência bastante fechada, com os
dados fortemente concentrados em torno de seu centro, K < 0,263.
Mesocúrtica: quando os dados estão razoavelmente concentrados em torno de seu centro, K=
0,263
Platicúrtica: quando a distribuição apresenta uma curva de frequência mais aberta, com os dados
fracamente concentrados em torno de seu centro, K > 0,263. dispersão dos valores de um conjunto
de dados em relação às medidas de tendência central em uma distribuição de frequências.
Exemplo: Considerando a idade dos pacientes atendidos em ambulatório de um hospital (n =

14). Calcule a curtose da curva de distribuição dos dados.
11, 13, 14, 15, 16, 17, 20, 26, 27, 28, 28, 32, 32, 44
Conforme cálculo
anterior: Q3= 29 anos
Q1= 14,75 anos
p90 (Percentil 90) p= posição

p = 0,90 * (n+1) p = 0,90 * (14+1)

P90 = Xp + XFp *(Xp+1 - Xp) P90 = 32 + 0,5 * (44 - 32)

P90 = 32 + 0,5 * (12)
P90 = 38 anos
p10 (Percentil 10) p= posição
p = 0,10 * (n+1) p = 0,10 * (14+1)


p10 = Xp + XFp *(Xp+1 - Xp) p10 = 11 + 0,5 * (13 - 11)

p10 = 11 + 0,5 * (2)
p10 = 12 anos
Nesse caso, a curtose (K):
K = (29-14,25)/2 *
(38-12) K = 0,283
Assim, a distribuição das idades é classificada como platicúrtica (K> 0,263), pois a distribuição
apresenta uma curva de frequência mais aberta, com os dados fracamente concentrados em torno
de seu centro.
5 BOX PLOT OU DESENHO ESQUEMÁTICO
O gráfico Box Plot (ou desenho esquemático) é uma análise gráfica que utiliza cinco medidas
estatísticas: valor mínimo, valor máximo, mediana, primeiro e terceiro quartil da variável
quantitativa. Este conjunto de medidas oferece a idéia da posição, dispersão, assimetria, caudas e
dados discrepantes. A posição central é dada pela mediana e a dispersão dos valores (variabilidade)
pelo desvio interquartílico (Q3 – Q1). Quanto maior intervalo interquartílico maior a variabilidade
ao se comparar dois Box Plots.
Como desenho esquemático, o Box Plot pode ser representado de maneira horizontal ou vertical.
dq= Q3 – Q1. As posições relativas de Q1, Q2 e Q3 dão uma noção da assimetria da distribuição.
Os intervalos semi-interquartílicos de Q1 a Q2 e Q2 a Q3 de mesmo tamanho indica simetria da
distribuição.
Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores atípicos.
Segundo Triola (2004), um outlier ou ponto discrepante é um valor que se localiza distante de
quase todos os outros pontos da distribuição. A distância a partir da qual considera-se um valor como
discrepante é aquela que supera 1,5dq. De maneira geral, são considerados outliers todos os valores
inferiores Li= Q1-1,5dq ou os superiores a Ls= Q3+1,5dq.
Considerando que:
Li = limite
inferior Ls =
limite superior
dq = amplitude ou desvio interquartílico (Q3-Q1)
Exemplo:
Considerando a idade dos pacientes atendidos em ambulatório de um hospital (n = 14). Calcule a

curtose da curva de distribuição dos dados.
11, 13, 14, 15, 16, 17, 20, 26, 27, 28, 28, 32, 32, 44
Conforme cálculo anterior: Q3= 29 anos

Q1= 14,75 anos
Q2 (Segundo quartil = medida= Percentil 50) P50 (Percentil 50)
p= posição
p = 0,50 * (n+1) p = 0,50 * (14+1)

p50 = Xp + XFp *(Xp+1 - Xp) p50 = 20 + 0,5 * (26 - 20)

p50 = 20 + 0,5 * (6)
p50 = 23 anos = Q2 quartil
dq = Q3- Q1
dq = 29-14,75 = 14,25 anos
Li = Q1 - 1,5dq
Li = 14,75 -1,5 *14,25
Li = 14,75 – 21,375
Li = -6,625 anos
Ls = Q3 + 1,5dq
Ls = 29 + 1,5 *14,25
Ls = 29 + 21,375
Ls = 50,375 anos
Construção do Box Plot

Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no valor da
mediana.
Li Q1 Md=Q2 Q3 Ls
5, 6, 7, 8, 9, 10 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44
Idade
Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior Li e a outra no
centro do lado do retângulo correspondente ao primeiro quartil. Trace outra linha paralela à reta, com
uma extremidade no centro do lado do retângulo correspondente ao terceiro quartil e a outra alinhada
com o limite máximo Ls.
Boxplot e outlier
Em estatística, outlier, valor aberrante ou valor atípico, é uma observação que apresenta um grande
afastamento das demais da série (que está "fora" dela), ou que é inconsistente.
Legenda:
* Outlier
º Ponto externo – que é até 03 vezes o dq (diferença interquartílica); expresso por 3dq
Causas do aparecimento de outliers
Dentre as possíveis causas do aparecimento de outliers, pode citar as seguintes:

• Leitura, anotação ou transição incorreta dos dados.
• Erro na execução do experimento ou na tomada da medida.
• Mudanças não controláveis nas condições experimentais ou dos pacientes.
Como detectar outliers
As questões básicas são quais observações devem ser consideradas como outliers e como
detectá-los. Existem procedimentos para responder a essas perguntas. Os outliers podem ser detectados
simplesmente por uma verificação lógica dos dados, através de gráficos específicos ou ainda através de
teste apropriados.
Uma forma gráfica usual é o box plot. As plotagens de retângulos são outras maneiras de identificar os
pontos fora da curva. Mas eles não necessariamente identificam os mesmos valores que aqueles com
uma contagem menor que -3 ou maior que +3. No entanto, o objetivo de ambas as abordagens é
simplesmente identificar os valores de dados extremos que devem ser revisados para assegurar a
validade dos dados. Pontos fora da curva identificados pelos dois métodos devem ser revisados.
Amostragem
É o processo de retirada de informações dos "n" elementos amostrais, na qual deve seguir um método
adequado (tipos de amostragem).
1 Plano de Amostragem
1º) Definir os Objetivos da Pesquisa

2º) População a ser Amostrada
- Parâmetros a ser Estimados (Objetivos)
3º) Definição da Unidade Amostral
- Seleção dos Elementos que farão parte da amostra
4º) Forma de seleção dos elementos da população
- Tipo de Amostragem
5º) Tamanho da Amostra
Exemplo: Moradores de uma Cidade (população alvo)

Objetivo: Tipo de Residência
Própria.....................um piso
Alugada....................dois pisos
Emprestada...............três ou mais pisos
 Unidade Amostral: Domicílios (residências)
 Elementos da População: Família por domicílio
2 Tipo de Amostragem
-Não Probabilística
Os métodos de amostragem não probabilística são métodos ad-hoc de caráter pragmático ou intuitivo e
são largamente utilizados, pois possibilitam um estudo mais rápido e com menores custos. Um claro
inconveniente destes métodos e o facto de que a inclusão de um elemento da população na amostra e
determinada por um critério subjetivo, normalmente uma opinião pessoal, um outro inconveniente ¶e que
existem elementos da população que não têm possibilidade de ser escolhidos.
Tipos de amostras não probabilística:

(i) Amostra intencional: Composta por elementos da população selecionados intencionalmente pelo
investigador, porque este considera que esses elementos possuem características típicas ou representativas
da população;
Exemplo: escolha de localidades "representativas" em tempo de eleições legislativas.
(ii) Amostra "snowball": Tipo de amostra intencional em que o investigador escolhe um grupo inicial de
indivíduos e pede-lhes o nome de outros indivíduos pertencentes µa mesma população. A amostra vai
assim crescendo como uma bola de neve à medida que novos indivíduos são indicados ao investigador. É
um tipo de amostragem bastante útil quando se pretende estudar pequenas população muito específica
(exemplo, os "sem abrigo"), no entanto pode originar em resultados enviesados, uma vez que as pessoas
tendem a indicar o nome de pessoas intimas ou amigos (com comportamentos e pensamentos similares).
(iii) Amostra por quotas: As amostras são obtidas dividindo a população por categorias ou estratos e
selecionando um certo número (quota) de elementos de cada categoria de modo não aleatório.
(iv) Amostra por conveniência: Os elementos são escolhidos por conveniência ou por facilidade. Um
exemplo diste tipo de amostragem é os casos em que os espectadores de um determinado programa são
convidados a responder a um questionário. As amostras obtidas desta forma não são representativas da
população e em geral são enviesadas.
-Probabilística
A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida,

e diferente de zero, de pertencer à amostra.
 aleatória simples
 aleatória estratificada (pode ser com alocação proporcional ou alocação igualitária)
 sistemática
 conglomerados
 por estágios múltiplos
2.1 Amostragem "COM" e "SEM" reposição
Seja "N" o número de elementos de uma população, e seja "n" o número de elementos de uma
amostra, então:
Se o processo de retirada dos elementos for COM reposição (pop. infinita (f 5%), onde f é fator
de correção), o número de amostras possíveis será:
nº de amostras = Nn
Se o processo de retirada de elementos for SEM reposição (pop. finita (f > 5%) onde f é fator de
correção), o número de amostras possíveis será
2.2 Tipos de Amostragem
2.2.1. Amostragem Simples ou Ocasional
É o processo mais elementar e frequentemente utilizado. Todos os elementos da população têm igual
probabilidade de serem escolhidos. Para uma população finita o processo deve ser sem reposição. Todos
os elementos da população devem ser numerados. Para realizar o sorteio dos elementos da população
devemos usar a Tabela de Números Aleatórios.
2.2.2 Amostragem Sistemática
Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a população está
naturalmente ordenada, como fichas em um fichário, lista telefônica, etc.
Exemplo: N = 5000, n = 50, r = N / n = 10 (P. A. de razão 5)
Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x = 3), o número sorteado
refere-se ao 1º elemento da amostra, logo os elementos da amostra serão:
3 13 23 33 43
Para determinar qualquer elemento da amostra podemos usar a fórmula do termo geral de uma
Progressão Aritmética (P.A)
an = a1 + (n – 1). r
Exemplo: amostra de 20% dos matriculados empregados. Sorteia-se um valor de 1 a 5. Se o sorteado for
o 2, incluem-se na amostra o aluno 2, o 7, o 12 e assim por diante de cinco em cinco.
2.2.3. Amostragem Estratificada
É um processo de amostragem usado quando nos depararmos com populações heterogêneas, na qual se
pode distinguir subpopulações mais ou menos homogêneas, denominados estratos. Após a determinação
dos estratos, seleciona-se uma amostra aleatória de cada uma subpopulação (estrato).
As diversas subamostras retiradas das subpopulações devem ser proporcionais aos respectivos números
de elementos dos estratos, e guardarem a proporcionalidade em relação à variabilidade de cada estrato,
obtendo-se uma estratificação ótima.
Tipos de variáveis que podem ser usadas em estratificação: idade, classes sociais, sexo, profissão, salário,
procedência, etc.
Exemplo de amostra estratificada proporcional: a população de alunos empregados é composta por

40% de homens e 60% de mulheres. Separam-se os dois grupos e sorteiam-se 30 mulheres e 20 homens.
Exemplo de amostra estratificada igualitária: o investigador tem especial interesse na empregabilidade

de adolescentes (8% dos casos); separa a população em adultos e adolescentes e sorteia 25 casos de cada
grupo
2.2.4 Amostra por conglomerados
É um método muito utilizado por motivos de ordem prática e econômica, onde divide-se uma população
em pequenos grupos e sorteia-se um número suficiente desses pequenos grupos (conglomerados), cujos
elementos constituirão a amostra;
Este esquema amostral é utilizado quando há uma subdivisão da população em grupos que sejam bastante
semelhantes entre si, mas com fortes discrepâncias dentro dos grupos, de modo que cada um possa ser
uma pequena representação da população de interesse específico;
• A amostragem é realizada em cima dos conglomerados, e não mais sobre os indivíduos da população. É
uma amostra aleatória de agrupamentos naturais de indivíduos (conglomerados) na população. Tem
vantagens logísticas na sua aplicação, porém aumenta a complexidade da análise estatística porque os
indivíduos de um mesmo conglomerado tendem a ter certa homogeneidade.
Exemplo: num estudo de empregabilidade de alunos do ensino médio, foram sorteadas as salas de aula
das escolas de um município e aplicado um questionário a todos os alunos das turmas sorteadas.
O processo da amostra
O primeiro passo para aplicar essa técnica consiste em definir os aglomerados. Trata-se de identificar uma
característica que permita dividir a população em grupos distintos (não sobrepostos) e exaustivos (todos
os indivíduos devem estar em um grupo), de modo que os grupos não diferem em relação ao que queremos
medir. Uma vez que tenhamos definido esses agrupamentos, basta selecionar aleatoriamente alguns deles
para estudo.
Um critério bastante habitual para definir os conglomerados são os clusters geográficos. Por exemplo, se
queremos estudar qual a proporção de argentinos que fumam, podemos dividir o total da população em
províncias e selecionar algumas delas para estudo. Se não temos um parâmetro para a % de fumantes, que
poderia variar de uma província a outra, esta solução vai permitir uma concentração de amostragem em
uma única área geográfica. Se o estudo for realizado através de entrevistas pessoais, esta técnica
representaria uma economia significativa nos custos de viagem.
Uma vez definido os conglomerados, o próximo passo é selecionar os grupos para realizar o estudo,
por amostragem aleatória simplesou amostragem sistemática.
Por último, uma vez que selecionados os conglomerados, podemos pesquisar a todos os indivíduos que
formam parte dos mesmos grupos, ou aplicar uma outra técnica de amostragem dentro do cluster, como
por exemplo, realizar uma amostragem aleatória simples ou sistemática. Se optarmos por essa
possibilidade, estamos falando de uma amostra de duas etapas ou bietápica: a primeira etapa é a seleção
do conglomerado e a segunda é a dos indivíduos dentro do cluster. Se em vez disso, estudarmos todos os
indivíduos conglomerados, estaremos realizando uma amostragem por conglomerados unietápica.
Amostra estratificada e amostra por conglomerados

A essência da amostra por conglomerados lembra um pouco a amostragem estratificada. Em ambos os
casos nós dividimos a população em grupos. No entanto, os princípios posteriores das duas técnicas são
opostos.
A amostragem estratificada é particularmente adequada quando os grupos (camadas) são internamente
homogêneos e muito diferentes. Nesse caso, devemos garantir que temos representantes em nossa amostra
que vêm de todos os estratos. Por outro lado, a amostragem por conglomerados é adequada quando os
grupos que formam a população são muito semelhantes entre si, por isso não há grande diferença entre
estudar indivíduos em um grupo ou de outro. É por isso que, embora ambas as técnicas dividem a
população (estratos ou aglomerados), o processo de seleção dos indivíduos é radicalmente diferente.
Benefícios da amostra por conglomerados

 A principal vantagem desta técnica é a parte operacional: selecionar um conglomerado costuma ser
mais fácil e mais barato do que fazer uma amostra aleatória ou sistemática. Usar clusters geográficos
podem representar uma economia significativa no deslocamento.
 A principal desvantagem é o risco dos clusters não serem realmente homogêneos entre eles. No
exemplo citado anteriormente, poderia acontecer de em uma das províncias ser mais propensas o
número de fumantes por ser uma área mais urbana ou outras razões culturais.
Eficiência da amostra por conglomerados

Como podemos comparar esta técnica com as demais?
Normalmente essa relação poderá ser representada pelo coeficiente de correlação entre os conglomerados
(δ), definido como o coeficiente de correlação linear entre todos os pares de valores das variáveis do
estudo, medidos através das unidades dos conglomerados e estendido a todos os grupos. Em síntese, este
coeficiente é uma medida de homogeneidade dentro de clusters.
Quanto menor o coeficiente de homogeneidade entre conglomerados δ, maior eficiência terá a amostragem
por conglomerados. Vale lembrar que o ideal é que os conglomerados sejam heterogêneos como a amostra
total, de modo que a seleção de um conglomerado nos forneça a mesma informação que a seleção dos
indivíduos da população aleatória total.
Comparando a amostra aleatória simples com a amostragem por conglomerados, se δ =0 , podemos afirmar
que os métodos são equivalentes. Esta condição implica que os clusters são tão heterogêneos como a
população total. O pior caso seria δ=+1, e o caso mais favorável seria δ=-1/(M-1), onde M é o tamanho
do conglomerado. No entanto, δ normalmente será sempre maior do que 0, pois um conglomerado sempre
tem alguma semelhança uns com os outros.
Outra forma de ver o impacto deste problema é calcular o tamanho da amostra necessário para obter a
mesma precisão de amostragem aleatória simples. Seria a expressão seguinte:
nc = na (1 + (M-1) δ)
Onde nc é o tamanho da amostra por conglomerado e na é o tamanho da amostra necessária para a

amostragem aleatória simples. Portanto, (1+(M-1) δ é a variação do tamanho da amostra necessária devido
ao uso de aglomerados. Normalmente, este será um incremento. Este fator é conhecido como efeito de
desenho.
2.2.5 Amostra por métodos múltiplos
 São amostras obtidas por métodos combinados.

◦ Exemplo: numa pesquisa sobre tabagismo em estudantes de ensino superior foram
sorteadas as instituições e depois as turmas (amostra por conglomerados). De cada turma,
foram sorteados 20% dos alunos do sexo masculino e 20% dos alunos do sexo feminino
(amostra aleatória estratificada).
4 Tamanho da Amostra
Os pesquisadores de todo o mundo, na realização de pesquisas científicas, qualquer setor da atividade

humana, utilizam as técnicas de amostragem no planejamento de seus trabalhos, não só pela
impraticabilidade de poderem observar, numericamente, em sua totalidade determinada população em
estudo, como devido ao aspecto econômico dessas investigações, conduzida com um menor custo
operacional, dentro de um menor tempo, além de possibilitar maior precisão nos respectivos resultados,
ao contrário, do que ocorre com os trabalhos realizados pelo processo censitário (COCHRAN, 1965;
CRUZ, 1978). A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma
didática mais adequada aos pesquisadores iniciantes.
Na teoria da amostragem, são consideradas duas dimensões:

1ª) Dimensionamento da Amostra;
2ª) Composição da Amostra.
5 Procedimentos para determinar o tamanho da amostra
1º) Analisar o questionário, ou roteiro da entrevista e escolher uma variável que julgue mais importante
para o estudo. Se possível mais do que uma;
2º) Verificar o nível de mensuração da variável: nominal, ordinal ou intervalar;
3º) Considerar o tamanho da população: infinita ou finita
4º) Se a variável escolhida for:
5.1 Intervalar e a população considerada infinita
O tamanho da amostra é definido pela fórmula:
onde:
Z = abscissa da curva normal padrão, fixado um nível de confiança (1- α)
Nível de Confiança 90% = 1,65
Geralmente, usa-se o nível de confiança de Z= 2
σ= Desvio-padrão da população, expresso na unidade variável, onde poderá ser determinado por:
Especificações Técnicas
Resgatar o valor de estudos semelhantes
Fazer conjeturas sobre possíveis valores
d = erro amostral, expresso na unidade da variável. O erro amostral é a máxima diferença que o
investigador admite suportar entre a distância e o erro
**** o erro amostral em algumas literaturas é especificado pela letra “e”
5.2 Intervalar e a população considerada finita

5.3 Nominal ou ordinal, e a população considerada infinita
da verdadeira proporção de grandes empresas do setor que está sendo estudado. pˆ será expresso em
decimais (p= 30% que equivale dizer p=0,30)
d = erro amostral, expresso em decimais. O erro amostral neste caso será a máxima diferença que o
investigador admite suportar
5.4 Nominal ou ordinal, e a população considerada finita
Estas fórmulas são básicas para qualquer tipo de composição da amostra; todavia, existem fórmulas
específicas segundo o critério de composição da amostra. Se o investigador escolher mais de uma variável,
poderá acontecer de ter que aplicar mais de uma fórmula, assim deverá optar pelo maior valor de "n".
Obs.: Quando não tivermos condições de prever o possível valor para pˆ, admita pˆ = 0.50, pois, dessa
forma, você terá o maior tamanho da amostra, admitindo-se constantes os demais elementos.
Intervalo de Confiança
Teorema do Limite Central
A distribuição da média amostral, de uma amostra aleatória de tamanho n extraída de uma população NÃO
NORMAL, com média μ e desvio padrão σ, é APROXIMADAMENTE NORMAL com média μ e desvio
padrão de n.
À medida que o tamanho (n) da amostra aumenta, a distribuição das médias amostrais tende a uma
distribuição normal. A média das médias amostrais tenderá à média populacional:
O desvio padrão das médias amostrais será o Erro-padrão da média, dado por:
O erro padrão da média estima a variabilidade entre médias amostrais que você obteria se coletasse
diversas amostras da mesma população. O erro padrão da média estima a variabilidade entre amostras,
enquanto o desvio padrão mede a variabilidade em uma única amostra.
Observações importantes:
–Quando maior o tamanho das amostras, a distribuição das médias será mais próxima de uma distribuição
normal.
–Regra prática: para n> 30, a distribuição das médias amostrais pode ser aproximada satisfatoriamente por
uma distribuição normal.
–Se a distribuição da variável ‘x’ for originalmente uma distribuição normal, então a distribuição das
médias amostrais terá distribuição normal para qualquer tamanho amostral ‘n’.
Tipos de Estimações de Parâmetros

i) Estimação Pontual
ii) Estimação Intervalar
Estimação Pontual - É usada quando, a partir da amostra, procura-se obter um único valor de certo
parâmetro populacional, ou seja, obter estimativas a partir dos valores amostrais.
Estimação Intervalar - É o intervalo definido pela estimativa pontual mais/menos o erro máximo da
estimativa.
Erro Máximo da Estimativa - Representa a diferença (erro) máxima que será permitida entre a
estimativa pontual (média ) e o valor verdadeiro do parâmetro que está sendo estudado (μ).
Intervalo de Confiança
•É uma amplitude (ou um intervalo) de valores que tem a probabilidade de conter o valor verdadeiro da
população
•Observa-se que, na definição de intervalo de confiança, está associado a uma probabilidade.
•A esta probabilidade chamamos de:
De forma geral, a estimação por intervalos utiliza um estimador pontual para o parâmetro de interesse e a
partir deste são gerados os limites inferior (Li) e superior (Ls) do intervalo, diminuindo e somando do
estimador pontual uma quantidade fixa que é comumente chamada de margem de erro.
O intervalo (Li, Ls) é chamado de intervalo de confiança da média da população.

•α é o nível de significância.
•100(1-α) é o nível de confiança em %.
•1-α é o coeficiente de confiança.
CUIDADO!!!
NÍVEL DE CONFIANÇA (1-α) É DIFERENTE NÍVEL DE SIGNIFICÂNCIA (α)
Construção do Intervalo de Confiança
Probabilidade [Li≤μ≤Ls] = 1-α
•Determinar o Nível de Confiança (NC) desejado (90%, 95%, 99%).

•A partir do NC que envolve a área da normal padronizada e os valores críticos Zα/2
–Os valores críticos são os limites inferior e superior
•A partir dos valores críticos Zα/2 converte para os valores da distribuição normal original (x)
–Cálculo dos limites inferior e superior do Intervalo de Confiança
Nível de Confiança (NC)
É a probabilidade 1-α (comumente expressa percentualmente) do intervalo de confiança conter o valor

verdadeiro, o parâmetro populacional.
Comumente utiliza-se NC de:
- 90% com α= 0,10

- 95% com α= 0,05
- 99% com α= 0,011
Observações:
–O Intervalo de Confiança consiste em um intervalo na escala z e está associado a um NC.
Conclusão:
–Se coletarmos várias amostras de 20 alunos e construirmos um intervalo de 95% de confiança para cada
amostra, em longo prazo, 95% destes intervalos conteriam, efetivamente, a média da população μ.
Valor Crítico: Zα/2
- Corresponde ao valor de fronteira da área de α/2 na cauda direita ou esquerda da distribuição normal
padronizada.
- É o número na fronteira que separa os valores estatísticos amostrais prováveis de ocorrerem, dos valores
que tem pouca chance de ocorrer.
- É um escore z com a propriedade de separar uma área de α/2 na cauda direita ou esquerda da distribuição
normal padronizada
Observação Importante
•Pelo Teorema do Limite Central, sabemos que as médias amostrais tendem a distribuir-se por uma
normal. Assim, a área sombreada apresenta chance relativamente pequena de conter uma média amostral.
•Denotando de α/2 a área sombreada de cada extremo, há uma probabilidade de α da média amostral estar
em um dos extremos. Pela regra do complemento, há uma probabilidade de 1 –α da média amostral estar
na região não sombreada.
•Por que se usa a Distribuição Normal Padronizada? Pelo Teorema do Limite Central, as médias
amostrais distribuem-se normalmente em torno da média das médias. Então, pode-se usar a Normal
Padronizada para cálculo das áreas (probabilidades).
Exemplo: Valores Z α/2
•Calcule o valor crítico Zα/2 que corresponde ao NC de 90%.
- NC = 0,90 => α=0,10 => α/2=0,05

- Na tabela de Distribuição Normal α/2 = 0,05
- Área entre Z=0 e Z=α/2 é 0,450
- Zα/2 = 1,645
- NC = 0,95 => α=0,05 => α/2=0,025

- Zα/2 = 1,96
- NC = 0,99 => α=0,01 => α/2=0,005

- Zα/2 = 2,575
EXEMPLO
•O processo de produção das unidades de caixa de controle de um tipo de motor foi modificado
recentemente. Antes da modificação, os dados históricos indicavam que os diâmetros do orifício dos
mancais nas caixas eram distribuídos normalmente com σ=0,100mm. Acredita-se que a modificação no
processo não tenha alterado a distribuição ou o desvio padrão, mas o valor do diâmetro médio pode ter
mudado.
•Seleciona-se uma amostra de 40 caixas e mede-se o diâmetro do orifício para cada uma, resultando num
diâmetro médio de 5,426mm. Calcule um IC para o diâmetro médio real (populacional) do orifício usando
um NC de 90%.
Nesse caso,
xs= limite superior (Ls)
xi= limite inferior (Li)
O que isto significa?
–μ=5,426±0,026 ou 5,400<μ<5,452
–Existe 90% de probabilidade do intervalo de 5,400mm a 5,452mm conter as médias de cada uma das 100
amostras calculadas da mesma população.
Intervalo de Confiança para Média de uma População Não-Normal – Grandes Amostras
Enquanto, nos casos anteriores, se conhecia a distribuição da estatística com base na qual se obteve o
intervalo, aqui, não se passa o mesmo. Usaremos o Teorema Central do Limite para afirmar que, se
n é suficientemente grande em que n é maior que 60,
tem distribuição aproximadamente normal N(0, 1). Portanto,
é um intervalo de confiança para média com nível de aproximado de 100(1 – alfa )%
Estimativa de Proporções
Suponha que há interesse na proporção de elementos da população que possuem alguma característica de
interesse (p).
Se o tamanho da amostra (n) for suficientemente grande, é possível fazer mensurações para: Intervalo de
Confiança e Teste de Hipótese.
Legenda:
p= proporção do evento em estudo na amostra
P= a proporção do evento na população
Exemplo: Entrevistam em uma cidade 1.500 pessoas em idade de trabalho, e constata-se que 145 estão
desempregadas.
1) Estimar a taxa de desempregado com base nos dados,
2) Estabelecer um intervalo de 95% de confiança para a taxa populacional.
Distribuição Normal
1. Introdução
“O mundo é normal!” Acredite se quiser! Muitos dos fenômenos aleatórios que encontramos na
prática apresentam uma distribuição muito peculiar, chamada Normal.
Um modelo probabilístico é aquele que nos diz, ou melhor, nos traduz na forma de números o
comportamento de uma variável. Na estatística, existem diversos tipos de distribuição para representar as
variáveis. Um tipo de distribuição é a normal denominada curva normal, considerada um modelo teórico
ou ideal que resulta muito mais de uma equação matemática do que de um real delineamento de pesquisa
com coleta de dados.
A curva normal é um tipo de curva simétrica, suave, cuja forma lembra um sino. Ela é unimodal,
sendo seu ponto de frequência máxima situado no meio da distribuição, em que a média, a mediana e a
moda coincidem.
Para exemplificarmos, suponhamos 2000 lançamentos de 200 moedas honestas. Utilizando um software
de simulação, obtivemos os seguintes resultados:
A partir desses dados, construímos o histograma:
Observando tal histograma e os dados anteriores, notamos que a média está entre as duas classes
com maiores frequências. Além disso, considerando-se a média, percebemos que o histograma parece ser
simétrico ao redor dela. A frequência é menor quanto mais nos afastamos da média, tanto para mais quanto
para menos, sendo que as menores frequências ocorrem nas pontas do gráfico.
E quanto mais classes usamos na distribuição dos dados, mais fácil fica identificarmos um formato
criado pelas colunas do histograma. Esse formato faz lembrar um sino, conforme a figura seguinte:
“Limpando” o gráfico acima, temos:

Essa curva que chamamos de sino recebe um nome especial: Curva Normal.
A Curva Normal é a representante do modelo normal e é obtida a partir da função densidade que nada
mais é do que uma função que origina o gráfico anterior.
Assim, se X é uma variável aleatória com distribuição Normal com média e variância
A Normal
A Normal apresenta as seguintes propriedades:

- é simétrica ao redor da média;
- a área sobre a curva é igual a 1;
- para valores muito grandes de X, tendendo a infinito (ou muito pequenos, tendendo a menos infinito), a
curva tende a zero.
Note que conforme o caso, poderemos ter curvas com formatos diferentes, ou seja, mais para a direita,
mais para a esquerda, mais ou menos achatadas... enfim, cada caso poderá gerar uma curva diferente.
Vejamos mais um caso.
Assim, conforme havíamos dito, existem diferentes curvas, que variam conforme os valores da média e
do desvio-padrão.
Lembramos que a área abaixo desse gráfico vale 1. Ou seja, a área corresponde a uma probabilidade.
2. Área sob a Curva Normal
É aquela região do plano compreendida entre a curva e o eixo das abscissas, que corresponde em qualquer
distribuição normal a 100% dos dados considerados.
A natureza simétrica da curva normal vai levar a concluir que qualquer distância medida em “sigmas”
(desvio padrão), acima ou abaixo da média, contém a mesma porção da área sob a curva.
A NORMAL PADRÃO
Em muitos livros de Estatística podemos encontrar uma tabela da Normal Padrão. Dessa forma, criou-se
uma maneira mais simples de se obter as áreas desejadas. Criou-se uma curva denominada Normal Padrão,
que corresponde a uma distribuição normal com média zero e desvio-padrão um. Geralmente a variável
aleatória associada à distribuição normal padrão é chamada de Z. Em notação:
A grande vantagem de usarmos tal distribuição é o fato de trabalharmos apenas com uma distribuição e,
portanto, com uma única tabela. Tudo é mais fácil!
Porém, como fazer para obtermos tal variável Z (padronizada) a partir de uma variável aleatória qualquer
X tal que X ~ N(μ,σ2) ?
Basta padronizarmos ou normalizarmos a variável X através da fórmula:
Usando a tabela da Normal Padrão
Leitura da Tabela
Exemplo – Padronização
Em um estudo sobre a hipertensão sistólica em população de 3.000 indivíduos hipertensos obteve-se μ=
174 e σ= 8. Queríamos calcular a probabilidade encontrar indivíduos com pressão sistólica acima de
180mmHg P(X >180 mmHg). Vamos normalizar a variável X (ou seja, transformá-la em Z) e utilizar a
tabela para obter a probabilidade desejada.
Para obtermos a probabilidade desejada, devemos lembrar que a nossa tabela nos fornece a probabilidade
de 0 até um certo valor
Dado Z = 0,75, vejamos como obter a probabilidade a partir da tabela da Normal Padrão. Na coluna mais
à esquerda, em verde, tomamos a parte inteira e a primeira decimal de Z, no caso, 0,7. Na linha superior,
em azul, observamos o valor da segunda casa decimal, no caso 5 (lembre-se que o número é 0,75). A
célula correspondente á linha do número 0,7 e da coluna é 0,05 em que o valor de p=0,2734
Exemplo 5 – Teste de aptidão
Em um certo teste de aptidão para contratação de determinada empresa, os candidatos devem realizar uma
sequência de tarefas no menor tempo possível. Suponhamos que o tempo necessário para completar esse
teste tenha uma distribuição Normal com média 45 minutos e desvio-padrão de 20 minutos. Suponhamos
que, numa primeira etapa, esse teste foi aplicado com uma amostra de 50 candidatos. Qual a probabilidade
de encontrarmos algum candidato que tenha um tempo superior a 50 minutos (candidato muito lento) ou
inferior a 30 minutos (que seria impossível completar o teste)? Qual o número aproximado de candidatos
com tal perfil?
Inicialmente, seja X uma variável que indique o tempo de execução das tarefas tal que X ~ N(45, 20).
Desejamos calcular:
Entre 50 pessoas que se aplicou o teste, 31,39 indivíduos (arredondando 31) têm as características que os
excluiriam do processo de seleção. Então, nesse teste a empresa já exclui 31 candidatos, restando apenas
19 para continuarem no processo de seleção.
4. Resumo das Propriedades da Distribuição Normal

1ª) A variável aleatória X pode assumir todo e qualquer valor real.
2ª) A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da
média, que recebe o nome de curva normal ou de Gauss.
3ª) A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à
probabilidade de a variável aleatória X assumir qualquer valor real.
4ª) A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente
do eixo das abscissas sem, contudo, alcançá-lo.
5ª) Como a curva é simétrica em torno da média, a probabilidade de ocorrer valor maior que a média é
igual à probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a
0,5 ou 50%. Cada metade da curva representa 50% de probabilidade
Teste t-student
O teste t de Student ou somente teste t é um teste de hipótese que usa conceitos estatísticos para rejeitar ou não
uma hipótese nula quando a estatística de teste t segue uma distribuição t de Student.
Essa premissa é normalmente usada quando a estatística de teste, na verdade, segue uma distribuição normal, mas
a variância da população é desconhecida. Nesse caso, é usada a variância amostral s 2 e, com esse ajuste, a
estatística de teste passa a seguir uma distribuição t de Student.
Teste t para a média de um único grupo de Observações

A hipótese nula afirma que os dados foram coletados de uma população com distribuição Normal de
média hipotética k e variância desconhecida σ2. De forma geral, as hipóteses são:
Sendo assim, a estatística de teste para definir o critério de rejeição e para o cálculo do valor p é:
que será confrontada com um valor da distribuição t-Student com n−1 graus de liberdade. Se a variância
da população, σ2, for conhecida substitui-se S2 por σ2 e usa-se a distribuição Normal padrão no lugar da
t-Student.
***IMPORTANTE: O teste t-student segue o raciocínio parecido com o usado no teste Z em que faz a
comparação da diferença entre as duas médias dividindo-se pelo erro-padrão. A diferença está no tipo
de escala utilizada que neste momento não é a Distribuição Normal Padrão e sim a Distribuição t que é
medida em graus de liberdade (n-1); que quer dizer n da amostra menos 1). Exemplo se a amostra é n=
20, o grau de liberdade a ser considerado será 19 (20-1=19)
Exemplo: Dispõe-se do consumo diário de energia de 11mulheres saudáveis e se pretende avaliar se elas
estão consumindo, em média, o valor recomendado de 7.725 kJ.
As hipóteses a testar são:

onde μ representa o consumo médio diário de energia.
Assumindo que os dados têm distribuição que se aproxima da Normal com variância populacional
desconhecida para amostra n=11, considerando nível de significância 0,05 (95%) com grau de liberdade
10 (11-1=10), obtem-se t tabelado (t tab) de 2,2281 para HIPÓTESE BILATERAL se fosse para o
mesmo grau de liberdade com HIPÓTESE UNILATERAL seria de t tabelado de 1,812.
Dessa forma, admiti-se que o critério de aceitar a hipótese alternativa seria estar fora do intervalo
−2,2281 ≤ t cal ≤ 2,2281 para hipótese bilateral.
Se fosse hipótese unilateral a hipótese alternativa seria:
t cal ≤ t tabelado que quer dizer 1,812≤ t tabelado ou
t cal ≥ - t tabelado que quer dizer -1,812 ≥ t tabelado
O cálculo da estatística de teste é
Como o valor do teste t calculado ficou fora das regiões mencionadas anteriormente para hipótese bilateral, o
resultado foi considerado estatisticamente significativo.
Assim como obedeceu às condições da hipótese unilateral, o resultado foi considerado

estatisticamente significativo.
O resultado da estatística levam à rejeição da hipótese nula, concluindo-se que o consumo médio das
mulheres em estudo é significativamente diferente do recomendado.
Teste t para as médias de dois grupos de observações pareadas

A hipótese básica é que ambos os grupos de observações têm nível médio semelhante. Assume-se, também,
que os dados têm distribuição Normal, porém ambos os grupos não são independentes. Para dados pareados o
interesse está na diferença média entre observações. Estes dados pareados geralmente aparecem quando são
realizadas duas medições nos mesmos indivíduos, medições estas que são feitas em dois instantes diferentes ou
por dois meios diferentes.
As hipóteses são:
onde μ1 e μ2 são as médias populacionais dos grupos 1 e 2. A
estatística de teste será:
onde d é a diferença média e Sd é o desvio padrão das diferenças.
Exemplo: A tabela a seguir mostra o consumo energético pré e pós-menstrual de 11 mulheres.
Deseja-se provar que o consumo pré-menstrual é maior. As hipóteses de interesse são:
onde média pré-menstrual (μ pré) e média pré-menstrual (μ pós) são os consumos médios pré e pós- menstrual.
Assumindo que os dados têm distribuição Normal com variância populacional desconhecida para amostra n=11,
considerando nível de significância 0,05 (95%) com grau de liberdade 10 (11-1=10), obtem-se t tabelado (t
tab) de 1,8125.
A hipótese de interesse para o exemplo é a alternativa e, assumindo normalidade dos dados, definem-se os
critérios:
Hipótese nula se tcal ≤ 1,8125.
Hipótese alternativa tcal ≥ 1,8125
A estatística de teste calculada é:
O que leva a rejeitar a hipótese nula, concluindo-se que o consumo pré-menstrual é

significativamente maior. O valor p é igual a 0,0000002.
Teste t para as médias de dois grupos independentes
Provavelmente as análises estatísticas mais comuns consideram a comparação de dois grupos de observações
independentes. O interesse está na diferença média entre grupos, porém a variabilidade de cada grupo é
considerada importante.
Aqui, o teste assume que os dois grupos de observações são obtidos de populações com distribuição Normal e
com variâncias semelhantes, caso esta última suposição não for verdadeira terão que ser feitos ajustes na
estatística de teste.
As hipóteses são:
onde μ1 e μ2 são as médias populacionais dos grupos 1 e 2. A
estatística de teste está definida como:
Exemplo: As porcentagens de alfa 2 globulina de 13 pessoas com baixo peso e 9 obesas aparecem na
tabela a seguir. Comparar o nível médio desta proteína em ambos os grupos.
As hipóteses do problema são:
onde média baixo peso (μBP) e média obeso (μObeso) são as porcentagens médias de alfa 2 globulina entre os
indivíduos com baixo peso e obesos, respectivamente.
Em seguida determina-se o grau de liberdade para os dois grupos = (n1+n2-2)= 13+9-2 = 20. Para
o grau de liberdade 20 no nível de significância de 0,05 (95%) o valor da tabelado é de 2,0860
para hipótese bilateral (0,05/2 = 0,025).
Fazendo as suposições de normalidade necessárias tem-se que o critério de decisão sobre a hipótese nula é
aceitar Ho se −2,0860 ≤ tcal ≤ 2,0860. A hipótese alternativa consiste em o valor calculado estar fora desse
intervalo. O cálculo da estatística resulta em:
O valor p é 0,0001 e, assim como pelo critério definido para a estatística tcal, rejeita-se a hipótese de que a
porcentagem média de alfa 2 globulina é semelhante entre indivíduos com baixo peso e obesos.
ANÁLISE DE VARIÂNCIA (ANOVA)
- Usado para Comparação de médias para mais de duas populações

- Conhecemos os testes de hipóteses para a média/proporção de uma população,
para a diferença entre médias/proporções de duas populações e para a comparação
de variâncias de duas populações.
- Agora, o procedimento de teste de hipóteses será utilizado para comparar as
médias de mais de duas populações.
- A análise de variância ou ANOVA é um teste de hipóteses para médias de mais de
duas populações.
Aplicações:
Comparar a eficiência de diversas marcas de remédios para o tratamento de

uma mesma doença.
Comparar o consumo em km/litro de um modelo de carro abastecido com

combustíveis do mesmo tipo, porém de marcas diferentes.
Comparar a eficiência de uma lavoura tratada com diferentes fertilizantes.
Comparar o tempo de reação de uma pessoa em função do estímulo de luz de

quatro cores diferentes.
Exemplo:
Estudo buscou comparer a ação enzimática em três amostras de cultura de célula animal
Amostra 1 Amostra 2 Amostra 3
5 7 8
6 9 6
5 7 10
4 6 11
6 9
10
HIPÓTESES
- A diferença entre as três médias é apenas consequência da variação

amostral?
- A diferença entre as médias das amostras é consequência da variação

amostral ou é uma evidência da diferença entre as médias das populações?
Nesse sentido, A variabilidade total das amostras pode ser dividida em duas partes:
A variabilidade total das amostras pode ser dividida em duas partes:

–Variabilidade devido ao fato de que as populações são diferentes, denominada variabilidade
entre (entre as populações).
•Quanto maior for a variabilidade entre, mais forte é a evidência de que as médias das populações
são diferentes.
–Variabilidade devido a diferenças dentro de cada amostra, denominada variabilidade dentro.

•Quanto maior for a variabilidade dentro, maior será a dificuldade para concluir que as médias
das populações são diferentes.
Exigências da Anova
As populações têm a mesma variância.

As amostras são retiradas de populações com distribuição normal.
As amostras são independentes.
O teste de hipóteses para comparação de k amostras é estabelecida da seguinte forma:
78
-A distribuição F conduzirá a decisão de aceitar o rejeitar a hipótese nula, comparando o valor da
estatística de Teste F
com o valor F tabelado correspondente ao nível de significância α adotado teste de

hipóteses para comparação de k amostras é estabelecida da seguinte forma:
F calculado grande (maior que o valor tabelado) indica que

-Variância entre > Variância dentro.
Logo F calculado grande é evidência contra a hipótese nula. Logo, se
-Fcalculado > F tabelado. Então, rejeitamos a hipótese nula.
F calculado pequeno (menor que o valor tabelado) indica que

Variância entre < Variância dentro.
Logo F calculado pequeno evidencia a favor da hipótese nula. Logo, se F calculado ≤ F tabelado
não rejeitamos a hipótese nula.
Variância dentro
 (n
j 1
j  1) s 2j
SQD
sd2  
nT  k nT  k
nj: tamanho da j-ésima amostra.

k: número de amostras.
s2j: variância da j-ésima amostra.
nT: número total de dados.
SQD: Soma de Quadrados Dentro
Variância entre
 n (x
j 1
j j  x) 2
SQE
se2  
k 1 k 1
x j : média do grupo j
x : média geral
k : número de amostras
n j : tamanho da j  ésima amostra
SQE : Soma de Quadrados Entre
79
Estatística F
Variância Total
Tabela de Análise de Variância (ANOVA)
Exemplo
Estudo buscou comparar a ação enzimática em três amostras de cultura de célula animal
80
Resultados
Tabela Análise de Variância (ANOVA)
-F calculado= 9,73 indica que a variação entre as amostras é 9 vezes maior que a variação dentro das
amostras.
- Adotando 5% de significância: F tabelado com 2 gl no numerador e 12 gl no denominador
F tabelado = 3,885
Se compararmos:
- F calculado = 9,73 > F tabelado = 3,885.
- Conclusão: rejeitamos a hipótese nula ao nível de 5% de significância, ou seja, nem todas as

populações tem a mesma média.
- valor-p = P(F > 9,73) = 0,003

- - Para α=0,05 (5% de significância): rejeitamos a hipótese nula.
- - Para α=0,01 (1% de significância): rejeitamos a hipótese nula.
Comparações múltiplas
• Suponha que através da Anova para comparação de k médias concluímos que a hipótese nula
deve ser rejeitada ao nível alfa de significância, ou seja, concluímos que nem todas as
populações têm a mesma média.
• Neste caso devemos usar um dos testes de Comparações Múltiplas para identificar qual ou
quais grupos tem médias diferentes das demais.
• Testes de Comparações Múltiplas: teste de Tukey e teste de Scheffé.
Teste de Tukey
81
82
83
84
85
Teste Qui-quadrado (χ2)
Este teste tem diversos usos, o mais comum é para comprovar a relação existente entre dois fatores
em tabelas de duas entradas.
Em uma tabela 2 × 2 onde “l” = número de linhas e “k” número de colunas ou k grupos, permite
comparar as proporções de indivíduos com uma característica de interesse nos k grupos definidos na
tabela; caso a hipótese nula de igualdade das proporções for aceita conclui-se que a característica de
interesse não está relacionada com o fator que determinou os “l” como “k” grupos, o que implica que
eles são independentes. Este teste utiliza a distribuição χ2.
86
87
88
89
90
Teste Exato de Fisher
O teste exato de Fisher serve para testar a hipótese de que duas variáveis, apresentadas em uma tabela
2 x 2 estão associadas
É indicado quando o tamanho das duas amostras independentes é pequeno e consiste em determinar
a probabilidade exata de ocorrência de uma frequência observada, ou de valores mais extremos
O que é necessário?
-Amostras aleatórias e independentes;

-Duas classes mutuamente exclusivas;
-Nível de Mensuração em escala nominal ao menos
Teste exato de Fisher Em amostras pequenas o erro do valor de Qui quadrado é alto e, portanto, o
teste não é recomendável.
Ronald Fisher apresentou outro teste que permite calcular a probabilidade de associação das
características que estão em análise, ou seja, a probabilidade de taiscaracterísticas serem
independentes, quando o número total de dados é pequeno.
Assim, em amostras pequenas deve-se executar esse teste, pois produz erro menor que o teste de Qui-
Quadrado. Apesar do assunto ser um pouco controverso, de modo geral usa-se o Teste exato de Fisher
quando:
-o valor de N < 20 ou
-20 < N < 40 e a menor frequência esperada for menor que 5. A análise do teste de Fisher é feita como
a de χ2
Como fazer?
Considere a definição de duas amostras I e II, agrupadas em duas classes negativo (–) e positivo (+)
Estabeleça o nível de significância, por exemplo, alfa= 0,05
Exemplo 01
91
Fórmula
92
TESTES NÃO - PARAMÉTRICOS
As técnicas da Estatística Não-Paramétrica são, particularmente, adaptáveis aos dados

das ciências do comportamento. A aplicação dessas técnicas não exige suposições quanto à
distribuição da variável populacional. Os testes não-paramétricos são extremamente interessantes
para análises de dados qualitativos. Na Estatística Paramétrica, para aplicação de teste como o
“t” de Student, a variável em análise precisa ser numérica. Como o próprio nome sugere, a
Estatística Não-Paramétrica independe dos parâmetros populacionais e de suas respectivas
estimativas.
Assim, se a variável populacional analisada não segue uma distribuição normal e/ou as
amostras forem pequenas, pode-se aplicar um teste Não- Paramétrico.
Vantagens dos Métodos Não-Paramétricos
1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações,

porque não exigem populações distribuídas normalmente.
2. Ao contrário dos métodos Paramétricos, os métodos Não-Paramétricos podem

freqüentemente ser aplicados a dados não-numéricos.
3. Os métodos Não-Paramétricos em geral envolvem cálculos mais simples do que seus

correspondentes Paramétricos, sendo, assim, mais fáceis de entender.
Desvantagens dos Métodos Não-Paramétricos
1. Os métodos Não-Paramétricos tendem a perder informação, porque os dados numéricos

são freqüentemente reduzidos a uma forma qualitativa.
2. Os testes Não-Paramétricos não são tão eficientes quanto os testes Paramétricos; assim,
com um teste Não-Paramétrico, em geral necessitamos de uma amostra maior ou maiores
diferenças para então rejeitarmos uma hipótese nula.
93
94
95
96
97
98
99
10
0
10
1
10
2
REGRESSÃO LINEAR SIMPLES
10
3
10
4
10
5
10
6
10
7
10
8
10
9
11
0
11
1
11
2
REGRESSÃO LOGÍSTICA
11
3
11
4
11
5
11
6
11
7
11
8

Estatística descritiva e distribuição de frequências

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística descritiva e distribuição de frequências

Enviado por

Direitos autorais:

Formatos disponíveis

ESTATÍSTICA

A Estatística subdivide-se em três áreas: descritiva, probabilística e inferencial. A estatística

A) CONCEITOS FUNDAMENTAIS E DEFINIÇÕES

Em se tratando de conjuntos-subconjuntos, estes podem ser:

Finitos: possuem um número limitado de elementos.

1.1 ELEMENTOS DA TABELA

1.2 TABELA SIMPLES

Como já mencionado, dependendo do volume de dados, torna-se difícil ou impraticável tirar

1.3.1 Distribuição de frequência pontual – sem perda de informação

A construção de uma distribuição de frequência pontual é equivalente à construção de uma tabela

Tabela – Número de irmãos de pacientes internados em hospital em Foz do Iguaçu

- b) frequência relativa em percentual, denotada por fi%, e definida como, representando o

- d) frequência acumulada relativa, denotada por fai% e definida como:

Tabela – Número de irmãos de paciente internados em hospital X, 2015.

Segundo Milone (2004), em se tratando das frequências relativas em percentuais, arredondamentos

1.3.2 Distribuição de frequência em classes – com perda de informação

“A distribuição de frequências em classes é apropriada para apresentar dados quantitativos contínuos

Etapas para a construção de tabelas de frequência para dados agrupados:

ln= logaritmo natural

O ponto médio de cada amplitude de classe é dada pela forma:

Ponto médio (Xi) = Li +Ls/2

Considerando a idade dos pacientes atendidos em ambulatório de um hospital (n = 20).

Ac = 17/4,47 = 3,8 aproximadamente 4 a amplitude de cada classe

Faixa etária Fi fi% Fac fac% Ponto Médio (Xi)

Uma representação gráfica coloca em evidência as tendências, as ocorrências ocasionais, os valores

- Um gráfico realmente é a melhor opção?

1 GRÁFICOS PARA VARIÁVEIS QUALITATIVAS

1.1 Gráfico de barras

1.4 Gráfico de linhas

2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS

2.1 Gráfico de bastões

3 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS CONTÍNUAS

É um gráfico de linha cuja construção é feita unindo-se os pontos de coordenadas de abscissas

1. Variáveis Quantitativas ou numéricas - são aquelas em que as possíveis realizações (resultados)

Classificam-se as medidas descritivas como: medidas posição (tendência central e separatrizes),

1 Medidas de Tendência Central

Cores dos olhos de alunos de uma turma (n= 10)

1.2 Média aritmética

Seja (x1, ..., xn) um conjunto de dados. A média é dada por:

****Caso os dados estejam apresentados segundo uma distribuição de frequência, tem-se:

Citam-se a seguir, algumas propriedades da média aritmética:

1. a média é um valor calculado facilmente e depende de todas as observações;

Número de indivíduos em cada família de determinado

X = [(2+5+3+7+8)/5]=5, logo o número médio de indivíduos em cada família de 05.

Posição da Mediana: p = 0,5 * (n+1)

I. Unicidade. Existe somente uma mediana para um conjunto de dados.

Md= Xp + XFp * (Xp+1 - Xp) Onde,

Determinar a posição da mediana e o valor de mediana

- Primeiro passo consiste na ordenação dos valores

- Em seguida, determinar a posição da mediana no conjunto de

Md= Xp + XFp * (Xp+1 - Xp)

Md= Xp + XFp *(Xp+1 - Xp)

Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais.

Quadro: Descrição dos quartis (dados amostrais).

Decil: Os decis dividem o conjunto de dados em dez partes iguais.

Quadro: Descrição dos decis (dados amostrais).

Quadro: Descrição de alguns percentis (dados amostrais).

3.1 Amplitude Total

Exemplo: A amplitude total da idade dos pacientes atendidos em ambulatório de

At = 44-11 = 33 anos, isto é, as idades dos pacientes diferem em 33 anos.

3.2 Amplitude Interquartílica

Por outro lado, a amplitude semi-interquartílica é definida como a média aritmética da

p25 = Xp + XFp (Xp+1 - Xp) p25 = 14 + 0,75 (15 - 14)

p75 = Xp + XFp (Xp+1 - Xp) p75 = 28 + 0,25 (32 - 28)

P90 = Xp + XFp (Xp+1 - Xp) P90 = 32 + 0,5 (44 - 32)

p10 = Xp + XFp (Xp+1 - Xp) p10 = 11 + 0,5 (13 - 11)

p50 = Xp + XFp (Xp+1 - Xp) p50 = 20 + 0,5 (26 - 20)