Você está na página 1de 17

ESTUDOS OBSERVACIONAIS (ANALÍTICOS)

- Caso-controle
 O pesquisador sabe previamente quem é portador e quem não é daquela condição de
interesse.
 Não é possível obter uma estimativa da proporção de portadores de determinada condição
na população, pois os tamanhos amostrais são definidos pelo pesquisador.
- Transversal (corte transversal, seccional ou estudo de prevalência)
 Objetivo central: obter uma estimativa da proporção (taxa de prevalência) de pessoas
portadoras de determinada condição.
 Maior desafio: conseguir uma amostra representativa.
 Não me dá uma relação de causa-efeito, é apenas descritivo.
 Não tenho hipótese etiológica, mas sim hipótese de associação – por isso, usamos testes
de hipótese estatística (ex.: teste de hipótese simples – Qui-quadrado, exato de Fischer, t
de Student e ANOVA; modelos de regressão – modelo linear de regressão, modelos para
dados qualitativos, modelos de regressão logística e modelo log binominal; medidas
epidemiológicas – prevalência e razão de prevalências)
- Coorte
 A princípio, a amostra é selecionada de duas maneiras: expostos e não expostos à
determinada situação, SEM a ocorrência do evento (doença), ou seja, ninguém ainda está
doente.
 Os grupos são acompanhados por um período de tempo. Durante o período, avaliamos quais
indivíduos desenvolveram o evento. Se a proporção for maior no grupo de expostos, há
indícios de que a situação (ex: a fumaça) pode ocasionar o evento (ex: câncer).

ESTUDOS DE INTERVENÇÃO

- Profiláticos (preventivo): destinam-se a estudar o efeito de uma intervenção em evitar uma


doença (ex.: novas vacinas) ou terapêutico.

 Ensaio controlado aleatorizado (ou ensaio clínico randomizado) – indivíduos são divididos
ao acaso em dois ou mais grupos.

 Ensaio de não superioridade – investigar se uma intervenção é tão boa quanto a outra
(ex.: genérico vs não genérico).
ESTATÍSTICA DESCRITIVA

- Variável: é uma característica de interesse que pode assumir diferentes valores ou classificações

- Segundo sua natureza, podem ser QUALITATIVAS (OU CATEGÓRICAS) ou QUANTITATIVAS.

- Quantitativas
 Discretas: conjunto finito ou contável (ex.: número de filhos, número de residentes na casa,
idade em anos completos) – nós CONTAMOS
 Contínuas: assumem valores em uma escala contínua (na reta real). Ex.: peso, altura, nível
sério de colesterol, idade (anos, meses e dias) – nós MEDIMOS

- Qualitativas
 Ordinais – assumem classificações que podem ser descritas em uma ordem natural (ex.:
nível de escolaridade – fundamental, médio, superior)
 Nominais – não há uma ordem natural para a classificação (ex.: sexo, tipo sanguíneo)

- Tabelas: para variáveis qualitativas (frequência absoluta: o número; frequência relativa: a


porcentagem)

- Gráficos: para variáveis quantitativas

GRÁFICOS DE DISPERSÃO

- Útil para descrever a relação entre duas variáveis quantitativas contínuas

- Histograma: para descrever a distribuição de uma variável quantitativa contínua.

ATENÇÃO: gráfico de barras é diferente de histograma. Gráfico de barras é usado para variáveis
qualitativas, enquanto que o histograma é usado para variáveis quantitativas contínuas.
(a) Simétrico; (b) assimétrico com cauda longa à direita ou assimétrica positiva

(c) assimétrico com cauda longa à esquerda ou assimétrica negativa


(d) dados bimodais (quando há duas corcovas no gráfico. Se há apenas 1 corcova, como em a, b
e c, chamamos de unimodais).

- Dados bimodais: é como se os dados tivessem sido obtidos de duas populações em que a
variável de interesse comporta-se de maneira diferente.

POLÍGONO DE FREQUÊNCIAS
É o resultado da união de todos os seguimentos de retas que ligam os pontos médios do
histograma.
CAPÍTULO 3
ESTATÍSTICA DESCRITIVA: MEDIDAS-RESUMO

Medidas-resumo: ferramentas da estatística descritiva que permitem caracterizar um conjunto de


dados quantitativos de acordo com sua tendência central ou a dispersão dos dados estudados.

MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL

Buscam caracterizar um conjunto de observações por meio de um valor em torno do qual as


observações se distribuem. As mais conhecidas são média, mediana e moda.

IMPORTANTE: a média é um resumo incompleto do conjunto de dados, dado que ela não informa
o tamanho da dispersão dos dados ao seu redor. Para isso, usamos o desvio padrão (discutido
posteriormente).
- Se o número de filhos é uma variável quantitativa discreta (não admite casas decimais), é possível
uma média de 2,125 filhos? Ainda que a variável de interesse não admita casas decimais, sua
média pode ter casas decimais (basta uma casa decimal para a média = 2,1 filhos).

- A média amostral é também chamada MÉDIA ARITMÉTICA.

1,58 é a mediana.

IMPORTANTE: a mediana não é sensível a valores atípicos do nosso conjunto de dados.

IMPORTANTE: dado que a média é sensível a valores atípicos do conjunto de dados, a mediana
é muitas vezes utilizada quando temos esses valores no nosso conjunto de dados.

IMPORTANTE: quando temos um número par de observações, a mediana é a média dos dois
valores do meio (ex.: 49 e 54. Mediana: 49 + 54 / 2 = 51,5).
IMPORTANTE: não confundir moda com maioria. A moda é a observação mais frequente, mas isso
não implica necessariamente que a moda corresponde à maioria das observações.

----------------------------------------------------------------------------------------------------------------------------------
- A moda também pode ser útil na descrição de variáveis qualitativas (ex.: o auto relato do estado
de saúde de uma população: bom, regular, ruim).

MÉDIA GEOMÉTRICA

- É também uma importante medida de tendência central.

- No exemplo acima, temos uma distribuição bastante assimétrica¸ com valores que se afastam
dos demais à medida em que crescem.
- Neste caso, temos valores atípicos à direita. Esses valores atípicos atraem a média, que podem
não representar os dados com fidedignidade.

LOGARITMO: é uma função matemática bastante importante, que pode “afastar” os valores
relativamente pequenos de uma variável quantitativa contínua e “aproximar” os valores grandes
demais.
TABELA DO ANEXO A: traz aproximações dos valores dos logaritmos naturais, quando nossos
dados possuem uma casa decimal. Ex.: o logaritmo natural de 2,2 é aproximadamente 0,7885; de
3,4 é aproximadamente 1,2238.

- O logaritmo é uma função monótona, ou seja, ela não modifica a ordem dos dados.

- Distribuição das observações convertidas em logaritmos naturais e a posição que sua média
aritmética ocupa (do exemplo acima):

Nessa figura as observações convertidas em logaritmos naturais possuem uma distribuição


mais simétrica¸ sem que os valores atípicos se evidenciem.
A média dessas observações parece agora melhor representar os dados.
IMPORTANTE: só podemos usar a média geométrica se meus dados forem maiores que zero.

MEDIDAS DE DISPERSÃO

- Medem a variabilidade dos dados.

 AMPLITUDE AMOSTRAL

- É a diferença entre o maior valor e o menor valor das observações.


- É a medida de dispersão mais simples.
- Quanto maior a amplitude, maior a dispersão dos dados.
- A amplitude é a maior diferença possível entre duas quaisquer observações da nossa amostra.

DESVIO MÉDIO

1) Desvio: é a distância entre cada uma das observações amostrais e a média amostral. Mede
o quanto a observação de cada indivíduo está acima ou abaixo da média da amostra.

2) Desvio médio: a média dos desvios (em valores absolutos, transformando todos em
positivos) obtidos nas observações da amostra.
O desvio médio é a distância média das observações individuais a partir da média amostral.
VARIÂNCIA

- Na obtenção da variância, consideramos os quadrados dos desvios.


- A variância (s²) é dada pela divisão entre a soma dos quadrados dos desvios e o tamanho
da amostra – 1 (n – 1 = grau de liberdade).

DESVIO PADRÃO

- O desvio padrão (s) é a raiz quadrada da variância.


- Quanto maior o desvio padrão, maior a dispersão dos nossos dados (variabilidade).
- A interpretação do desvio padrão é semelhante à do desvio médio. O desvio padrão é um valor
que resume todos os desvios individuais, ou seja, as distâncias entre cada observação e a média
amostral.

IMPORTANTE: não existe desvio padrão negativo, mas pode haver d.p. = 0 (quando os dados são
iguais, ex.: todos têm 20 anos).

COEFICIENTE DE VARIAÇÃO

- Divide-se o desvio padrão (s) pela média amostral (x) x 100%.


- O CV é usualmente expresso em porcentagem. Ele mede o percentual de variação sem a unidade
de medida.
- É útil quando queremos comparar as variabilidades de duas ou mais variáveis que possuem
unidades de medida diferentes (ex.: peso e altura).
- Os quartis também ajudam a entender se a distribuição dos dados é simétrica ou assimétrica.

INTERVALO INTERQUARTIL

BOX PLOT

- É um gráfico que descreve a distribuição dos dados através dos quartis.


- É apropriado para descrever a distribuição de variáveis quantitativas contínuas. Para variáveis
quantitativas discretas, o box plot pode ser usado quando a amplitude dos dados for razoavelmente
grande.
- Teoricamente, precisamos de no mínimo 5 observações para construir um boxplot.

- Não podemos representar duas variáveis distintas em um mesmo boxplot.


- Uma importante função do boxplot é verificar a presença de outliers (valores atípicos).
- É um gráfico para descrever os nossos dados (visualizá-los).
VALORES ATÍPICOS

CAPÍTULO 4
CORRELAÇÃO

- Objetivo: estudar a relação entre duas variáveis quantitativas (ex.: IMC de adolescentes x horas
diárias de vídeo game).

COVARIÂNCIA

- É uma medida para sabermos o quanto uma variável se modifica quando a outra se modifica.
RELAÇÕES LINEARES
ASSOCIAÇÃO E CAUSA: Devemos ser cuidadosos para distinguirmos a diferença entre
associação e causa. Duas variáveis têm associação se a distribuição de uma é afetada pelo
conhecimento do valor da outra. Mas isso não significa que uma causa a outra. Associação NÃO
implica causa.
CORRELAÇÃO NÃO É CONCORDÂNCIA

CAPÍTULO 5
FUNDAMENTOS DE PROBABILIDADE