introdução
Introdução
Apresentação
O nosso curso é uma ferramenta matemática para auxiliar a fazer estimações e inferências e teste de hipótese, mas realizar isso de
maneira quantitativa e formal. O nosso objetivo, no fundo, é fazer modelos genéricos, definir leis, entender como o mundo funciona, mas nós
também fazemos isso em diversas situações corriqueiras como ir na feira. O feirante te oferece uma mexerica, você vê que ela está doce e no
final leva meia dúzia de mexericas. O que fizemos? Uma interpretação genérica que todas as mexericas vendidas estão doces a partir de uma
única experiencia. Ou seja, fazemos inferências sem utilizar estatísticas ou qualquer ferramenta matemática, mas nós não fazemos isso muito
bem, no geral levantamos hipóteses com muita facilidade e a extrapolamos com a mesma facilidade.
Conclusivamente, a inferência estatística é só uma maneira de manter nossas extrapolações sob controle utilizando métodos que nos
permitem ter ideia do tamanho e da validade das nossas extrapolações.
Primeiro quizz: bit.ly/01_mexerica
Fazendo uma análise gráfica conseguimos dizer muito bem que existe uma diferença entre grupos, como no
exemplo ao lado, onde temos dois grupos de ratos, um controle (salina) e outro que injetamos uma droga e analisamos o
que acontecia com uma medida de interesse X. A partir do gráfico vemos que o grupo controle 1 tem uma dosagem de
proteína X diferente do grupo 2.
Temos 7 medidas para o grupo dos ratos controle e outras 7 para o grupo o qual injetamos a droga. E podemos
concluir, a partir da análise gráfica, que dar a droga aumenta a quantidade de proteína X. Isso porque temos uma distribuição de valores baixos
concentrada para o controle 1 e valores altos concentrados para o grupo 2. Então você diria que existe uma diferença entre
os grupos e a estatística vai dar um número para isso, ou seja, qual a chance de uma coisa como essa aconteça ao acaso.
Já no segundo caso ao lado temos que não existe diferença entre os grupos. Imaginando que fizemos o mesmo
tratamento, mas o resultado foi diferente. Tivemos duas nuvens de resultados mais ou menos no mesmo nível.
E pior que o segundo resultado, seriam casos como os dois abaixo, onde no gráfico da esquerda, temos o grupo
controle I concentrado em valores baixo e o grupo 2 também concentrado em valores baixo, mas com
um único valor alto. Concluiríamos que provavelmente o ponto mais alto fosse um erro de medida ou que
fosse um animal com alguma mutação ou algo do tipo, mas o importante é ver que não seria possível
tirar uma conclusão analisando apenas o gráfico, mas provavelmente acreditaríamos que foi um erro. Já
o quarto caso, no gráfico da direita, temos que o grupo 2 possui valores um pouco mais acima, mostrando
que poderia haver uma diferença, mas ela é bem pequena. Teria que analisar de uma forma mais quantitativa, tentando encontrar qual a chance
de encontrar uma diferença ao acaso e se a probabilidade ao acaso fosse pequena eu poderia dizer que há diferenças.
A moral da história é que a resposta da inferência estatística deve ser a mesma da análise gráfica, mas feita de forma quantificada.
O intervalo de confiança estima o intervalo de valor o qual a média populacional está, ou seja, o quão
confiável é a estimativa.
Como por exemplo no estudo ao lado temos a porcentagem de volume cerebral de várias regiões
diferentes do cérebro (eixo Y) ao longo da idade (eixo X) em pessoas saudáveis (linha preta) e em indivíduos com
Alzheimer (linha vermelha). E neste estudo temos escrito “mean and 95% confidence level”, dando um zoom em
um dos gráficos (como podemos ver na amigdala), vemos leves linhas pontilhadas para cima e para baixo de cada
uma das linhas preta e vermelho, que é o intervalo de confiança. A ideia básica é que
sabemos que essa média tem uma incerteza por ser uma estatística ruidosa, mas que
ela deve estar naquele intervalo 95% de chance. Essa definição não é muito correta,
mas é a logica do intervalo de confiança, estimar o intervalo que a média populacional está. Mas não temos acesso
à média populacional porque não temos acesso a todas as pessoas no mundo saudáveis e com Alzheimer, temos
acesso a uma amostra (mesmo que gigantescas), como no caso do estudo temos acesso a 2944 pessoas saudáveis
com envelhecimento normal e 3262 indivíduos com Alzheimer, e com essa amostra estamos fazendo uma estimativa sobre o cérebro de toda a
população de humanos com Alzheimer e sem.
No estudo estamos fazendo duas coisas, a primeira é fazer uma estimativa do parâmetro populacional, ou seja, estamos fazendo uma
estimativa da média µ, e a outra coisa é um teste de hipótese comparando uma mesma região, vendo se as linhas vermelho e preto estão ou não
sobrepostas.
Um segundo exemplo que podemos ver é a estimativa de intenção de voto na véspera da eleição. 2897 pessoas foram entrevistadas e
viram que 23% votavam por Covas, 14% por Boulos e assim por diante. No caso, esses valores são a nossa média (𝑥̅ ) e a partir dele tentamos
estimar o µ da população e que iremos descobrir quando as pessoas de fato forem votar. Nessa pesquisa foi
escrito que “a margem de erro máxima da pesquisa é de 2 pontos percentuais, para mais ou para menos,
considerando um nível de confiança de 95%” (o professor não explicou o que isso seria, mas acredito que a
leitura dessa informação seria, por exemplo, que 23% da população é a favor de Covas, sendo que esse número pode variar entre 21% e 25%,
considerando uma precisão de 95%).
Representatividade da amostra
Nossa amostra deve ser representativa da população que queremos estudar. E a amostra representativa deve ser tão aleatória quanto
possível (qualquer sujeito na população deve ter igual chance de fazer parte da amostra).
Então em um exemplo de estudos em ratos da UFABC, essa é a minha população, todos os ratos da UFABC. E eu tenho uma amostra
de ratinhos e as estatísticas que eu computei a partir da minha amostra, eu desejo extrapolar para uma população geral que são todos os ratinhos
da UFABC. Mas não desejamos fazer apenas isso, queremos que nosso estudo sirva para todos os ratos, como inclusive os ratos estudados na
universidade de Tokio. E indo ainda mais além, nosso estudo é em ratos, mas queremos fazer uma extrapolação para humanos, eu posso fazer isso
com a estatística? Não, apenas até o estudo de ratinhos em Tokio. A inferência estatística não garante que os estudos feito em ratos implica que
os mesmos resultados sejam vistos em humanos.
Problemas básicos da inferência estatística
Os dois problemas básicos que a inferência estatística vai tratar é a estimação e o teste de hipótese.
O primeiro, no caso, você faz uma estimação sobre o parâmetro. Então olhando as estatísticas (𝑥̅ , s) da minha amostra, eu estimo que
os parâmetros da minha população (µ, σ) sejam tal e por fim eu calculo o intervalo de confiança dessas medidas, então eu falo um valor pontual
(sem desvios) e falo a estimação intervalar (medida de incerteza).
A segunda coisa é fazer o teste de hipótese. Olhando a estatística (𝑥̅ , s) com o desvio padrão, eu concluo, por exemplo, que a média da
população (µ) é maior que tanto, ou seja, eu tomo uma decisão falando, como no exemplo dos ratinhos, que a injetar a droga X aumenta os níveis
de proteína, e dou um p-valor que é o valor de probabilidade, qual é a chance de encontrar, ao acaso, um valor que é contra aquilo que você
mediu.
Segundo quizz: bit.ly/01_amostra
Programação em R
Os dois programas que iremos utilizar nesta disciplina são: RStudio e R-project. Abaixo falando um pouco do RStudio.
Em B temos o console, onde o programa roda. É possível escrever comandos diretamente nele, como eu coloquei “a=1”, perguntei o valor
de “a” e ele me devolveu 1, e então na caixa C temos os valores das variáveis, aparecendo o valor de a=1.
Em A é onde escrevemos o script, como eu escrevi que b=2, dei ctrl+ENTER e ele apareceu no console e também nos locais das variáveis.
E por fim em D temos os locais dos arquivos, o help de funções, os pacotes etc.
A
C
B
D
Comandos básicos
Abrindo o script “Aula01_PrimeirosComandosDeR” temos que:
- Para definir uma variável (constante) utilizamos a=1.
Para rodar, basta colocar o digitalizador após a escrita a=1 e dar ctrl+ENTER. O programa
roda apenas o que está anterior à barra de escrita.
- Para definir um vetor já é necessário utilizar uma função chamada c, de combine.
Para saber como ela funciona, selecione ela e aperte F1, assim você consegue abrir o help
da função.
- O comando ls() cria listas com as variáveis que temos até o momento, que no caso são
x e y, sendo x uma constante e y um vetor.
Obs: Eu testei no programa e acredito que se você quiser colocar a lista em um variável é
necessário escrever d=ls(), ou seja, que a variável ‘d’ receba os valores da lista.
- O comando rm(x), remove o objeto entre parênteses da lista de variáveis, ou seja,
removemos a variável x
Obs: removemos o x da lista de variáveis e não da lista que criamos, em outras palavras, se
falamos que a variável d recebeu a lista composta pelos valores x e y, depois removemos o x com a função rm(x), ele vai remover o x apenas da
lista de variáveis (indicado pelo retângulo C no print do programa) e não da lista d que criamos.
- rm(list=ls()) remove todas as variáveis da lista de variáveis (retângulo identificado por C).
- Agora com as variáveis zeradas, eu crio um novo vetor ‘z’ com os números 7, 4, 5, 8, 6. Ele fica identificado como um vetor numérico
(num) e assim é possível realizar operações com ele como soma, número de elementos (tamanho) e com isso já conseguimos fazer soma/elementos,
achando a média, mas também tem uma função para isso pronta no R que é o mean(z).
Também é possível acharmos a mediana median(z), que ranqueia os números (coloca em ordem crescente) e acha o elemento central.
E no caso da mediana, ela encontra o valor central (50%), mas é possível você escrever o percentil, como por exemplo colocar em ordem e achar
o valor 25%: quantile(z,0.25) e assim obtemos o valor 5.
- Para saber o elemento que está na posição 3 do vetor 3 basta escrever z[3]. Também podemos fazer testes lógicos (verdadeiro ou
falso), como do vetor z, quais valores são maiores que 5, escrevendo z > 5 e obtemos: true false false true true (lembrando que o vetor z é 7, 4,
5, 8, 6)
Quizzes
Quizz 1.1 – mexerica
01 Tendo a possibilidade de provar pedaços de 1, 2 ou 3 mexericas, quantas mexericas você amostraria para fazer inferência mais confiável?
a) 1 mexerica b) 2 mexericas c) 3 mexericas
02- Que mexericas você incluiria na tua amostra para fazer inferência mais confiável?
a) As mexericas que o feirante te oferece, afinal ele sabe mais de mexerica do que você
b) As mexericas mais próximas de você, pois a conveniência é uma boa razão para seleção
c) As mexericas escolhidas num uni-duni-tê nas coordenadas X, Y e Z da banca
03- Na verdade você não prova a mexerica inteira, mas sim um pedaço. Para fazer inferência mais confiável:
a) os pedaços devem ser da mesma mexerica
b) os pedaços devem ser de mexericas distintas
c) não faz diferença se os pedaços são da mesma mexerica ou de mexericas distintas
02 –Na próxima semana será feita uma pesquisa de opinião com a comunidade da UFABC para escolha de reitor e vice -reitor. Para estimar
qual é a porcentagem de votos em cada chapa, um professor planeja perguntar quais são as preferências dos seus colegas do Bacharelado
em Neurociência. Por que essa estratégia não é a mais adequada, de acordo com os procedimentos de inferência estatística?
Porque sempre devemos levar em consideração a representatividade da amostra, assim, limitar a pesquisa apenas aos que cursam
Bacharelado em Neurociência não lhe dá uma representatividade fiel de todos os outros bacharelados presentes na universidade.
02 - Descreva o que é "estimação" e "teste de hipótese" usando suas palavras. Inclua na sua resposta os termos "bootstrap" e "perm utação".
Dado duas ou mais populações, pela inferência estatísticas, busca-se estimar seus parâmetros utilizando métodos como o bootstrap, que
calcula a média das amostras por reamostragem, para, por fim, fazer um teste de hipóteses, interpretando os valores das médias obtidas,
calculando, através da permutação, as chances da diferença entre eles ser puro acaso (se o resultado é verdadeiro ou falso)