Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução
Neste capítulo, você terá a oportunidade de estudar dois conteúdos essenciais
a sua formação profissional: 1) Tipos de dados numéricos e 2) medidas de
tendência central e medidas de dispersão.
Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar os tipos de dados numéricos;
• demonstrar medidas de tendência central e medidas de dispersão.
Esquema
1.1 Tipos de dados numéricos
1.1.1 Dados nominais
1.1.2 Dados ordinais
1.1.3 Dados substituídos por postos
1.1.4 Dados discretos
1.1.5 Dados contínuos
1.2 Medidas de tendência central e medidas de dispersão
1.2.1 Média
1.2.2 Mediana
1.2.3 Moda
1.2.4 Amplitude
1.2.5 Variância
1.2.6 Desvio padrão
Alguns dados nominais só permitem dois valores distintos. Esses dados são
denominados dicotômicos ou binários. A dicotomia nada mais é “ser uma coisa
ou outra”. Em outras palavras, temos por exemplo, em pesquisas realizadas com
questionários/entrevistas, muitas vezes o padrão de resposta só pode ser “SIM”
ou “NÃO”. Nesses dados, podemos atribuir o número 0 (zero) para “SIM” e o
número 1 (um) para “NÃO”. Em avaliações, também é muito utilizado a
elaboração de questões do tipo verdadeiro ou falso. Novamente, estamos diante
de uma dicotomia e podemos atribuir os códigos 0 (zero) e 1 (um) em
substituição às letras V ou F.
Então, aprendemos nesse exemplo que, embora a média seja um número não
inteiro, o número de acidentes de carros continua sendo um dado discreto, pois
não olhamos a média para classificá-lo.
Exemplificando
1.2.1 Média
1.2.2 Mediana
1.2.4 Amplitude
2.2.5 Variância
Considerando o que foi abordado sobre a variância, para obtermos uma medida
de dispersão que apresente um valor mais fidedigno, precisamos realizar a
operação inversa à exponenciação. Portanto, o desvio padrão é a raiz quadrada
positiva da variância.
Em termos conceituais, não há diferenças entre variância e desvio padrão:
ambos quantificam a dispersão, variabilidade ou espalhamento ao redor da
média. Entretanto, há diferenças na fórmula para o cálculo, sendo que frisamos
novamente que o desvio padrão é a raiz quadrada positiva da variância. Dessa
forma, o desvio padrão tem a mesma unidade de medida que a média. Em
termos práticos, se a média estiver expressa em Kg, o desvio padrão será em
Kg; se a média estiver em mL, o desvio padrão estará em mL, e assim por diante.
Como o desvio padrão tem unidade de medida, não tem sentido comparar
desvios padrão para duas quantidades não relacionadas. Outro ponto
importante: “o que é grande para um grupo de dados pode ser pequeno para
outro”. Assim, deve-se sempre levar em consideração o valor do desvio padrão
em relação à média. Surge, a partir dessa análise comparativa, mais uma medida
de dispersão: coeficiente de variação.
REFERÊNCIAS
Introdução
A apresentação dos dados é de grande relevância no contexto da estatística,
sendo a análise descritiva a fase inicial desse processo.
Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar a importância da apresentação dos dados;
• escolher a forma mais adequada de apresentá-los;
• contribuir com a interpretação dos dados.
Esquema
2.1 Dados e variáveis
2.2 Representação tabular
2.3 Componentes das tabelas
2.3.1 Elementos essenciais
2.3.2 Elementos complementares
2.4 Apresentação de dados qualitativos
2.4.1 Tabelas de contingências
2.5 Apresentação de dados numéricos
2.6 Medidas resumos
2.1 Dados e Variáveis
São exemplos:
Tipo de sangue: A, B, AB, O.
Gênero: M,F.
Tabagismo: fumante, ex-fumante, nunca fumou.
Cor de cabelos: loiro, castanho, preto, ruivo.
São exemplos:
Classe social: A, B, C, D, E.
Escolaridade: 1º grau, 2º grau, superior.
Gravidade de uma doença: leve, moderada, severa.
Os dados são do mesmo tipo que o das variáveis. Por exemplo, uma variável
nominal produz dados nominais, assim como uma variável discreta produz dados
discretos.
Observe a Figura 1:
Lazer Frequência
Esporte 15
Computador e vídeo game 10
Shopping 5
Viagem 26
Total 56
Observe a Tabela 2:
Observe a Tabela 3:
Depressão
Sexo Sim Não Total
Masculino 14 36 50
Feminino 30 20 50
Total 44 56 100
Doença
Cardiovascular
Idoso Sim Não Total Porcentagem
Com Doença Periodontal 5 20 25 20% (5/25)
Sem Doença Periodontal 20 321 341 5,9% (20/341)
Total 25 341 366
Observe a Tabela 5:
Tabela 5: Idade em anos completos, tempo de tabagismo em anos e quantidades de cigarros
consumidos por dia
1 2 1 0 3 1 0 4 2 0
3 1 0 0 2 3 5 1 2 3
4 0 0 2 2 3 1 4 2 2
1 1 0 1 3 5 4 1 0 2
Observe a Tabela 7:
Tabela 7: Distribuição do número de filhos de 40 funcionários de uma Universidade
Número Frequência Percentual
de filhos
0 9 22,5%
1 10 25,0%
2 9 22,5%
3 6 15,0%
4 4 10,0%
5 2 5,0%
Total 40 100%
Tabelas com grande número de dados não oferecem ao leitor visão rápida e
global do fenômeno, dificultando a interpretação dos resultados. Observe os
dados apresentados na Tabela 8: diante de uma quantidade excessiva de dados
torna-se difícil dizer como os valores estão distribuídos. Por esta razão, dados
contínuos, quando em grande número, são apresentados em tabelas de
distribuição de frequências.
3. Dividir a amplitude dos dados pelo número de faixas que pretende organizar
(no caso as faixas são de altura). Essas faixas recebem o nome de classes.
Vamos definir quatro classes. Então calcule:
0,59 / 4 = 0,147
Arredondar 0,147 para 0,20 e construir a primeira classe, que será de 1,60 m a
1,80m (esta classe contém o menor valor); depois, a segunda classe, que será
de 1,80 m a 2,0 m, e assim por diante.
Na classe de 1,60 m até menos de 1,80m são inseridos desde jogadores com
1,60 m até os que tem 1,79 m; na classe de 1,80 m até menos de 2,00 m são
inseridos jogadores com 1,80m até 1,99 m e assim por diante. Logo, cada classe
cobre um intervalo de 0,20 m.
Observe a Tabela 9:
Tabela 9: Distribuição da frequência para a altura dos jogadores de basquete, em metros
Classe Frequência
1,60 ├ 1,80 10
1,80 ├ 2,00 19
2,00 ├ 2,20 18
2,20 ├ 2,40 7
2.6 Medidas-Resumo
(a) Medidas de posição ou de tendência central: São medidas ao redor das quais
as observações tendem a se agrupar. Ex.: média, mediana, moda.
S. aureus E. coli
2.5% 15,88 [15,43; 16,42]a 10,39 [10,07; 11,16]a
Introdução
Um gráfico, quando bem construído, é capaz de transmitir uma ideia com muita
rapidez e de forma simples e atraente, levando o leitor a poupar tempo e a
despender menor esforço na compreensão de uma série de dados, os quais
podem ser muitas vezes de difícil percepção na forma tabular.
Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar a importância da apresentação dos dados numéricos em gráficos;
• escolher a forma mais adequada de apresentá-los;
• contribuir com a interpretação dos dados.
Esquema
3.1 Apresentação de dados qualitativos
3.1.1 Gráfico de setores
3.1.2 Gráfico de barras
3.2 Apresentação de dados quantitativos
3.3 Outros gráficos para variáveis quantitativas
3.3.1 Diagrama de pontos ou de dispersão
3.3.2 Diagrama de linha
3.3.3 Polígono de frequências
3.4 Proporções das escalas
3.5 O boxplot
3.6 Considerações finais
Masculino
(32; 35,6%)
Feminino
(58; 64,4%)
Através desse gráfico, fica fácil perceber que o maior número de diagnósticos da
doença Alzheimer foi em pacientes do sexo feminino.
Na presença de mais de duas categorias de uma variável nominal, a disposição
no gráfico de setores deve ser pela ordem decrescente das frequências, no
sentido horário. A categoria “outros”, quando existir, deve ser sempre a última,
mesmo que não seja a de menor frequência.
Observe a Figura 2:
OUTROS CASTANHO
27% S
32%
RUIVOS
8%
LOIROS PRETOS
15% 18%
Figura 2: Cor dos cabelos dos alunos do Curso de Publicidade e Propaganda.
3.1.2 Gráfico de barras
Nesses casos, a soma das frequências relativas de alunos com este tipo
sanguíneo em cada curso não é 100% e nem deve ser, pois se tratam de
frequências calculadas nos diferentes cursos. A ordem dos grupos pode ser
qualquer, ou aquela que julgar mais adequada para a análise.
Engenharia Química
Fisioterapia
Medicina
Odontologia
A B AB O
Figura 6: Frequência do tipo sanguíneo dos alunos em diferentes cursos da Universidade de Uberaba.
Figura 7: Frequência de reprovações dos alunos, de acordo com o sexo e período do curso.
3.2 Apresentação de dados quantitativos
Variáveis discretas que assumem poucos valores podem ser tratadas da mesma
forma que as variáveis qualitativas ordinais ou seja, podemos assumir que cada
valor é uma classe e que existe uma ordem natural nessas classes.
Ao trabalhar com uma variável discreta, com grande número de valores distintos,
a construção da tabela de frequências e de gráficos considerando cada valor
como uma categoria fica inviável.
Observe a Tabela 3:
Tabela 3: Distribuição de frequências do número de pontos dolorosos em 100 pacientes
portadores de fibromialgia.
Observe a Figura 9:
Figura 10: Distribuição de frequências do número de pessoas interessadas em realizar aula de música de
acordo com a idade.
Observe a Tabela 4:
Tabela 4: Resistência à flexão de diferentes materiais odontológicos
A B C D
Média 48,03 51,44 67,99 76,61
Desvio Padrão 5,58 6,02 10,7 11,54
100
90
Resistência à flexão (MPa)
80
70
60
50
40
30
20
10
0
A B C D
Material
Figura 11: Resistência à flexão de diferentes materiais odontológicos.
Y X
Comprimento Comprimento
ao nascer (cm) aos 12 meses (cm)
45 70
46 70,3
48 71,9
51 78
46 70
46 71
47 71,9
46 73,5
48 72,9
48 76,8
51,5 74,9
52 74
51,9 76,8
52 77,3
52 78
Diagrama de linhas
Este tipo de gráfico possibilita identificar a variação dos dados em uma série
cronológica. Exemplo: Foram coletadas informações relacionadas ao número de
casos de dengue entre alunos de uma Universidade, de janeiro a maio de 2019.
Tabela 6: Casos de dengue entre alunos de uma Universidade, de janeiro a maio de 2019
Tabela 7: Massa corpórea de camundongos alimentados com dieta padrão e dieta hiperlipídica
Figura 14: Massa corpórea de camundongos alimentados com dieta padrão e dieta hiperlipídica.
Polígono de frequências
Observe a Figura 9:
Tabela 10: Pessoas que apresentaram redução do peso, de acordo com o sexo (%)
(%)
Figura 18: Pessoas que apresentaram redução do peso, de acordo com o sexo.
60
52%
50 48%
40
30
20
10
0
Feminino Masculino
Figura 19: Pessoas que apresentaram redução do peso, de acordo com o sexo.
3.5 O boxplot
Em outros casos, os outliers podem ser valores corretos, que, por alguma razão,
são muito diferentes dos demais valores, devendo a análise desses dados ser
realizada cuidadosamente pois, como relatado, algumas estatísticas descritivas,
como a média e o desvio-padrão, são influenciadas por valores extremos.
O Boxplot é constituído por uma caixa atravessada por uma linha, construído
usando um eixo com uma escala de valores, como mostra a Figura 20. O fundo
da caixa é marcado na escala de valores na altura do primeiro quartil (Q1). O
topo da caixa é marcado na altura do terceiro quartil (Q3). Uma linha é traçada
dentro da caixa na altura da mediana, que não precisa estar necessariamente
no meio da caixa. Entre o primeiro e o terceiro quartis, encontram-se 50% dos
dados. Essa caixa contém, portanto, metade dos dados do conjunto.
A altura da caixa é dada por (Q3 - Q1), que é denominada distância interquartílica
(DQ).Observe a Figura 20:
Maior valor
3º quartil (75%)
Unidades
Mediana
1º quartil (25%)
Menor valor
Variável
REFERÊNCIAS
Introdução
Objetivos
Ao final deste estudo, esperamos que você seja capaz de:
• explicar a importância da amostragem;
• escolher a forma mais adequada de amostragem;
• contribuir com a interpretação dos dados.
Esquema
4.1 Amostra e população
4.1.1 Amostra
4.1.2 População
4.2 Tipos de amostragem
4.2.1 Amostragens não-probabilísticas
4.2.2 Amostragens probabilísticas
4.1.1 Amostra
4.1.2 População
Técnica muito comum que consiste em selecionar uma amostra acessível. Isso
significa que os indivíduos foram selecionados para fazer parte da amostra pois
estavam prontamente disponíveis. A principal vantagem dessa amostragem é a
própria conveniência, tornando o processo simples, rápido e de baixo custo.
Esses sorteios podem ser realizados com repetição ou sem repetição. Na técnica
sem repetição, o indivíduo selecionado para a amostra só poderá ser
selecionado uma única vez. Quando da utilização da técnica com repetição, um
indivíduo selecionado em um sorteio não está impedido de ser selecionado nos
sorteios seguintes. Para determinador qual tipo de sorteio realizar, o pesquisador
deve conhecer profundamente o que está sendo estudo, notadamente as
variáveis de resposta.
Nessa técnica, quando os softwares estatísticos são utilizados, conseguimos a
obtenção de amostras bem representativas da realidade, de modo que o erro
que poderá ser introduzido será apenas referente ao “azar aleatório”.
Se, por exemplo, a variável de estudo for nível socioeconômico, teremos dentro
de um conglomerado as mais variáveis faixas de renda. Outro exemplo seria
para a variável escolaridade: o cluster teria internamente características
heterogêneas, ou seja, desde um indivíduo sem qualquer tipo de alfabetização
até um indivíduo com pós-doutorado estariam dentro de um mesmo
conglomerado. E, externamente, haveria uma característica homogênea, como
por exemplo a cidade destes indivíduos: “todos são de Uberaba-MG”. Esse
inclusive é um dos principais tipos de conglomerados, conhecido como “cluster
geográfico”.
Para determinação dos próximos indivíduos que serão sorteados após o primeiro
sorteio, seguimos a sistematização de k em k, onde k = N/n.
Exemplo: em uma população de 30 indivíduos, realizou-se o cálculo do
dimensionamento amostral e definiu-se que o tamanho da amostra será de n=5.
Para o uso da amostragem aleatória sistemática, primeiramente será feito um rol
destes 30 indivíduos (cada indivíduo receberá um número). Considerando que k
= N/n, temos que k = 30/5 = 6.
REFERÊNCIAS
Simon J. Resampling: The new statistics. Belmont, Calif.: Duxbury Press, 1992.