Você está na página 1de 76
! N — 8s wo § ES! 2 ‘2S + oD § ne 8 oC a x ze 2 8 Nn ac) ° g os 3 ore aes NVVVVVVVAVAAAA AVA EE Ao comprarem esta sebenta na reprografia do Samju, esto a contribuir com 20 céntimos para a fundagao Acreditar, a Associagio de Pais ¢ Amigos das Criangas Com Cancro. Entre outras coisas, a fundagao Acreditar mantém as casas Acreditar, préximas de varios centros hospitalares, onde podem ficar a viver criangas comi cancro ¢ respectivas familias em periodos de tratamento em ambulatério Isto é importante porque muitas criancas moram longe dos grandes centros hospitalares ¢ teriam de outro modo de ficar internadas durante o tratamento, com consequente perda de qualidade de vida Eu nao estou a obrigar ninguém 2 contzibuir. Quem nao quiser, pode sempre ir imprimir a sebenta noutro sitio. . eeone’ t oe e oe £, » PP ILLS £2. p LLLLV PLC CCP PPPLL RAUIAAN REL -_ DOVGERVDVIDEDUTVE LUTE RRL BE REL RU LRU RLU UU URL LLU, Indice indice 3 1 A biostatistica comega 5 11 Conceitos bsicos 6... 2. Ret ont te xe cate 6 1.2 Esealas de medida cot Sana . 8 1.3 Estatistica Deseritiva .. 0... 2 eee ee pee i LB: Vector ondenadlo. 502s geste a dew Be iit 1.3.2 Agrupamento de dados: distribuicao das frequéncias.. 11 1.3.3 Medidas do tondéncia contral u 1.34 Medidas de dispersio Bors A ss dts ofa 80) 1.4. Correlacéo ¢ Causalidade . 24 1A. Diagramas de dispersio 0.0... 222 ee 25 14.2 Coeficientes de eces be Vers $26 14.3 Regressfio linear. 2... ee 88 14.3.1 Cuidados a ter com a regressfio linear... 30 2 O biostatistico desespera 33, 2.1 Introdugio ‘i aoe aerate 33 2.2 Distribuigdo normal eceral Gieeabutiory se As SM. 2.2.1 Distribuicéo normal padrio .. 2.2... fy a7 2.2.2 Tabelas ¢ CAlaulo de Probabilidades. . ... 38 3 Distribuicio da média da amostra de uma popnlagio normal . - Mele > Gs DE 2.2.4 Teorema do Limite Central (TLC) ..... 0.2... 39 2.3 Distribuicao da proporgao de uma amostra ... -. 40 24 Info . 2 ene AL 2,5 Amostras aleatérias e nao aleat6rias. . 2... wees AL 3 = i 26 27 28 2.9 2.10 211 2.12 2.13 Estimacio . Bscolher um estimador adequado Intervalos de Confianga . .. . . INDICE 2.8.1 Anatomia de um intervalo de confianca 28.2 Dis ribuigao t de Student . 28. 2.8.2.3 Decisio entre et 283 Dimensio da amostra para intervalos de confianca 2.8.4 Algumas propriedade dos intervalos de confianca . Teste de hipdteses . Tipos de erro Hipétese nula, Hipétese Alternativa . Célculo do valor p ... 2... 2.12.1 Te: 2.12.11 Teste unilateral dircito . 2.12.12 Teste unilateral esquerdo 2.12.2 Tastes de ee Se ded) . 282.1 Propricdades da distribuigéo ¢ de Student Iutervalos de confianca usando a distritnigao ¢ stes de hipdteses unilaterais (one-sided) 2.13.2 Testes de Tose unilaterais (one Be 2.13.2.1 Teste unilateral direito 2.13.2.2 Teste unilateral esquerdo A biostatistica acaba Distribuicgo Qui-quadrado Free A estitistica de teste do Qui-quadrado Regra de decisao head Frequéneias esperadas pequenas Testes de independéncia 3.6.1 Callenlo das frequéncias esperadas Teste de homogeneidade ins chservedas VS Trequéncias esperadas .... |. . 48 60 62 63 64 65 67 67 68 69 70 71 7 73 2? » CATAL UTI TLT Ree eee eee ereeeeeereererorereeree ee t ReEL EE AHVEUEVEIDOYOVOV ULL ELL BWU ERED ULL UL UEUUL ULL Capitulo 1 A biostatistica comega Na longa tradicio desta ilustrfssima faculdade, que conta com obras de reuome intemporal como as sebentas da Rita Luz, a genial Raminios Biolégicos, a sublime Snow wGrass, a extremamente cficaz Schentite Loca, decido acrescentar mais uma gota ao infinito oceano de conhecimentos remnido ¢ catalogado pelos ahmos da Faculdade de Medicina de Lisboa. sta seberrta, nascon da mesma forma que todas as nobres sebentas da, nossa faculdade, isto &, do deseo sincero dle espalhar 0 conhevimento por todas os alunos desta grande institni- io. Bem, na tealidade nem por isso. A verdadeiza tazio 6 a segninte: depois de ter passado © primeira semestre do 1° ano a dizer mal das sebentas todas, fui desafiado a escrever uma sebenta minka, Nao querendo recuar perante este desafio, colocou-se @ questo: que dis plina escolher? Talvez 4 anatomia, visio que 2 morfologia é a base de toda a funcio. Talvez, a histologia, pois unis avi é do que a morfologia A escala mierosedpica. E porque nio a fisiologia, a disciplina que faz a ligagdo entre as ciéneias bdsicas e a medicina clinica? Depois pensei que estava 8 ser limitado ao restringi disciplinas do Méduilo I. Porque uo a biologia do desenvolvimento com os seus interessantfssimos genes ¢ factores de transcrigao? Ou a genética, que... qne.. Ok, eu mio chegnei a perceber bem a que é isso da genética. Mas apds muito deliberar, a. questo resolven-se com um sonho, Estava eu, a reponsar, apés wm longo dla de estude, cuando sonhei o segtinte: Sete jovens sedentas atravessavam 0 deserto, quase desfalecidas pela sede. Quando ja desesperavam, aparece. como que vinda do nada uma jovem de beleza singular, que s° aproximou das peregrinas, ¢ saciou a sua sede com um fresco cdntaro de cerveja. Assim restabelecidas, as jovens pnderam continuar a sua caminhada até destino desconhiecido. Acordei, ¢ procurei perceber qual o significado deste sono profético. Desloqueme entéo aun sébio anciio ¢ contei-lhe o meu sonho, Ble respondewane o seguinte: “© jovem, prepare-te pois o sonho que tiveste revela algo sobre e natureza profunda das coisae! As cote jovens que visto, atravessando o deserto ropresentam as sete ciéncias humanas: a fisica, a quimica, @ engenharia, a biologia, a goolosin, a modicina 0 a arte de accrtar as eseolhas miltiplas de Médulo U1. Tal:como as sete jovens atravessavam o deserto, rumo a destines desconhecidos, assim as ciéneias viajam pelo vazio, tentando aproximar-se cada vez mais do seu destino, que 0 verdadeiro conhecimento. A jovem que viste acudir 4 sua affigao naib € nmais do que @ rainha de Lodas as cidncias: a Mateimdtica. 5 6 CAP{TULO 1. A BIOSTATISTICA COMEGA Assim como a verveja da bela jovem proporcionou as peregrinas o énimo ¢ a capacidade para continuarem a sua viagem, também a matemética fomece as bases conceptuais € raciocinio Igico nocessérios para 0 progresso das ciéncias hnmanas. Porque repara, 6 jovem, que a Matemtica nao se conta entre es ciéncias hnmanas, pois sempre existiu, E sim, a Jovem peregrina que mais beben do cfintaro representa a modicina.” Assiin, tendo em conta o papel cenital que a matematica tem em todas as ciéncias hnmanas, pareceu-me légico que a sebenta teria de ser sobre a diseiplina deste curso que tem mais watemética. E essa disciplina 6 naturalmente biostatistica. Ah, e também ja estava, com algumes saudades da minke matematica. Esta sebenta foi feita com todo o amor e carinho para todas aqueles que, como eu, néio ‘quiseram/pnderam ir & maior parte das aulas teéricas daquela que a grande maioria das pessoas é a segunda melhor discipling do curso (a seguir a modicina preventiva, claro esta) tnas que ao contrério de mim nfo quiseram/puderam ler o livro. Ao longo do texto, sempre que nm novo termo é introduzido aparece a bold, normalmente arompanhado do termo corresponclente em inglés em ttdlico. Antes de comecarem com grandes esperancas, tenho de dizer que a sebenta lida apenas com a teoria ¢ ndo coném qualquer tipo de instrucdes sobre como utilizar 0 SPSS (a contar com este pardgrafo, a palavra SPSS deve aparever para ai unas quatro veves...). Para alén disso, a scbenta nao apresenta exercicios resolvidos nem grandes exemplos de aplicagio dos conhocimentos tedricos, pelo que 6 cssencial fazer um esforgo para tentar ecompanhar as aulas praticas. Espero que esta sebenta ajude a lomar isso mais fécil. Dedico esta primeira parte da minha sebenta aos meus amigos Vitor Verissimo, Diana Silva, Ant6nio Pinheiro, Rafael Cra ¢ Helena Paicio, e também Rui Barata ¢ Rita Pinheiro. pelo esforgo que fizeram a tentar aparecer aqui e também porque as adoro <3. 1.1 Conceitos basicos Como outras dreas do conhecimento, a estatfstica tem o seu proprio voca- bulétio. Definemese em seguida alguns conceitos bésicos. O dominio destes conceitos fundamental para os testes ¢ para o exame, uma ver que mui- tas perguntas se baseiam em subtilezas, por vozes inesperadas, baseadas nas definigées. Dados (data): E 0 material basico da estatistica. Dados sto normalmente definidos como mimeros. Os dois tipos de nimeros que se usam na estatistica so resultado de uma medida (mediu-se uma temperatura de 38.5°C) ou de uma contagem (¢: 35 doentes num certo servigo). Cada nimero é um dado (datum), ¢ varios mimeros juntos san dados (data) Estatistica (statistics): ¢ 0 campo de estudo que trata da (1) recolha, organizacdo, sumarizacao e andlise dos dados; ¢ da (2) elaboragao de inferén- now: HMANAARTLIRAAVLAKAKeKvereereeeoeereerreereRiereeerrEeT TEETH PVVESRUDVDV SPUD PDR UD LULA R URL EULER 1.1. CONCEITOS BASICOS % cias acerca da totalidade de um conjunto de dados quando apenas parte dos dados € observada Fontes de dados (sources of data): rogistos mantidos rotinciramente, questionérios, experiéncias, fontes externas (dados j& pesquisados por outras fontes). Biostatistica (biostatistics): estatistica aplicada a dados provenientes das ciéncias biolégicas e medicina. Varidvel (variable): uma caracteristica que toma diferentes valores nas diferentes pessoas, coisas ou entidades estudadas. Por exemplo, séo varidveis a pressiio sist6lica, a cor dos olhos e 0 sexo, pois variam consoante as pessoas em que séo medidas. Varidvel quantitativa (quantitative variable): B uma varidvel que pode set medida no sentido usual, como peso ¢ temperature. Déo-nos informacio quanto a quantidade. Variavel qualitativa (qualitative variable): E uma varidvel que néo pode ser medida no sentido usual. Por cxemplo, uma pessoa é dum certo grupo éinico ou é diagnosticada como tendo uma certa docnga. Bssas varidveis dfo-nos informacéio quanto 2 atributos. Quanto a estas varidveis, nfo as podemos tratar numericamente (isto 6, calcular a média ou desvio padrao, por exemplo), mas podemos contar quantas pessoas ou coisas pertencem a cada categoria (por exemplo, contar 0 mimero de pessoas diagnosticadas como tendo diabetes). Estas contagens on frequéncias sao 0s mimeros que podemos manipular com varidveis qualitativas Variavel aleatéria (random variable): so varidveis cujo valor no pode ser previsto por depender de factores ligados & sorte. Um exemplo é a al- tura que wma crianga vai atingir na idade adulta, que depende de numerosos factores genéticos ¢ ambientais que nio podem ser previstos quando a cri- anga nasce. Apesar do valor destas varidveis nfo poder ser previsto, pode obviamente ser medido. Se esperarmos uns anos, podemos medir a altura da. crianga na idade adulta. Varidvel aleatéria discreta (discrete random variable) ¢ Varidvel ale~ atéria continua (continuous random variable): as varisveis podem torizadns como sendo discrctas ou continuas. A definigio matemstica rigorosa r carac- TA palavra estatistice pode ter um duplo significado. Ver a subseogo Medidas de tendéncia central para 0 outro significado. ; CAPITULO 1. A BIOSTATISTICA COMECA esta para além do nivel exigido a alunos de medicina, e é a seguinte: uma varidvel disereta é uma varidvel que s6 pode tomar valores pertencentes a um conjunto finito (por exemplo {1,2,3,4}) ou infinito contével’ (como por exemplo N, Z on Q). Uma varidvel continua é uma variével que tem uma distribuigéo de probabilidade continua (0 conceit de distribuigdo de proba- bilidade ser. abordado mais adiante). De uma mancira intuitiva, pode-se dizer que uma variével 6 continua se pode tomar todos os valores num certo intervalo e é discreta se tem saltos nos valores que pode tomar (0 conjunto dos ntimeros racionais, @, tem saltos entre os seus valores, que sao preeisamente os niimeros irracionais). Um exemplo de varidvel continua é a temperatura, que pode tomar qualquer valor real a partir dos 0K (—273°C). Devido a limita- Ses nos instrumentos de medida, por vezes certas varidveis que séo continuas podem ser registadas como sendo discretas devido aos arredondamentos. Populagiio (population): uma populagio de entidades é a maior colecgio de entidades que estamos interessados em estudar num dado momento. Se medirmos o valor de alguma varidvel em todos os membros de uma populacdo, obtemos uma populagao de valores. Uma populagio de valores ¢ a maior coleegio de valores de uma varidvel aleatéria nos quais estamos interessados num dado momento. As populagdes séo definidas apenas pela nossa esfera de interesse. Se se quiser estudar a percentagem de fumarores nos alunos da FML (que como ¢ ébvio 6 0%), a populagao 6 o conjunto de todos os alunos da FML. Se se quiser estudar a percentagem de fumadores em todos os alunos de medicina do pais, a populagao é 0 conjunto de todos os alunos de medicina, no pais. As populag6es padem ser finitas ou infinitas. Normalmente estamos interessados em populagées finitas. Amostra (sample): wma amostra é parte da populagio. Como nao é prético perguntarmos a todos os alunos da FML se fumam ou nao (até porque ja sabemos que a resposta vai ser nao), podemos escolher apenas alguns deles, e essa é a nossa amostra, 1.2. Escalas de medida Na seccdo anterior fwlou-se em medida (measurement). Vai-se agora def nir cientificamente 0 conceita de medigao e as quatro escalas de medida 2Ningném vai perguntar nos testes nem no exame 6 que & que 6 um conjunto infinite contavel CF 7s CULCEC ERE TES ” REeEE » KELKKK KKK KEKE PPR R EEK Eee ee ebb S SILVIA CUED LU UR UU LULA, ES CALAS DE MEDIDA 9 (measurement scales). As duas primeiras (nominal e ordinal) so usadas com varidvels qualitativas enquanto as duas dltimas, as escalas métricas (de inter- valo ou 1az40) sao usadas com varidveis quantitativas. Medigao (measurement): atribuigao de mimeros a objectos on aconteci- mentos com base num conjunto de regras. As escalas seguem uma hierarquia, da mais baixa para a mais elevada, no sentido em que ha mais ou menos operactes matemsticas que sio permitidas nos valores que sio medidos de acordo com essas escalas Escala nominal (nominal scale): consiste em atribuir nomes As observa- Ses ou classifica-las om categotias que so (1) mutuamente exclusivas © (2) c&austivas, isto 6, abrangom todas as observages. Como exemplo de observa Bes medidas nesta escala temos: o diagndstico de um doente, casado/solteiro, macho/fémea, Esta escala 6 muito pouco poderosa porque nao nos permite fazer muitas operagdes com os seus valores. Nao podemos cfectuar operagdes aritméticas (logo nao podemos calcular média nem desvio padrao) e nem se- quer podemios ordenar os elementos (logo néo podemos calcular a mediana, ‘os quartis ou percentis). Podemos, no entanto, contar os membros de cada classe © assim calenlar as froquéncias o\consequenternente a moda, Escala ordinal (ordinal scale); consiste em atribuir As diferentes ob- rvacbes categorias que nao sé so diferentes umas das outras mas podem ser também ser ordenadas entre si. Por exemplo, doentes em convalescenca podem ser classificados como nao melher, melhor ou muito melhor. Estas situagdes podem ser hierarquizadas, a0 contrério do que acontecia na escala nominal. Quando se atribui niimeros as categorias desta escala pressupde-se que 0s ntimeros traduzem a hierarquia entre as categorias. No caso anterior: nao melhor = 0, melhor = 1 e muito melhor = 2, evidenciando o facto de 9 por ordem crescente. Esta cscala é mais poderosa que a anterior, porque nao s6 nos permite classificar os dados e calcular frequén, cias como também nos permite ordenar os valores, permitindo-nos calculat persfio, como a mediana e os quartis! No entanto, ainda nao podemos efectuar operagdes aritméticas com os valores, porque nao tem sentido somar ou subtrair muito melhor a melhor, por exemplo, porque os mimeros apenas nos indicam a hierarquia © nao “distancia” a que as catego rias estdio umas das outras, Assim, néo faz sentido calcular a média nem o desvio padrao destes valores. i que as categorias es! as medidas de dis 10 CAPITULO 1. A BIOSTATISTICA COMEGA Escala de intervalo (interval scale): nesta escala 6 possivel nio sé or- denar as medidas mas também saber a “distdncia” entre quaisquer duas me- didas, isto 6, faz sentido subtrair as medidas umas as outras. Por exemplo, a temperatura em °C ¢ medida numa escala de intervalo porque a diferenca de temperaturas entre 10°C e 20°C 6 a mesma do que entre 20°C ¢ 30°C. Recorde-se que na escala ordinal a diferenga entre nio melhor (0) ¢ melhor (1) nfo era a mesma do que entre muito melhor (2) e melhor (1), apesar de 2—1=1-0=1. Esta escala j4 pode ser utilizada para varidveis quan- titativas. Nesta escala define-sc uma unidade de medida, 0 grau Celsius, ¢ um valor de referéncia a que chamamos 0°C (zero). No entanto, este zero nao é um verdadeiro 0. Nao podemos dizer portanto que 20°C é 0 dobro de 10°C, porque a referéncia do 0 é arbitréria. Se nos lembrarmos que se define a temperatura como a agitacao média das particulas que constituem a matéria, percebe-se imediatamente que 03 0°C n&o correspondem a uma agitacdo nula (isso é 0 zero absoluto). B assim incorrecto dizer que a agitacio média das particulas a 20°C 6 o dobro da agitacdo a 10°C. Em resumo, nesta escala 6 fazem sentido as operagoes aritméticas de soma e subtraccdo. Podemos assim calcular a média’o desvio padrio®,-a moda, a mediana ¢ os quartis. Escala de razao (ratio scale): Esta esvala 6 parecida com a anterior, mas, a0 contrério dela, apresenta um verdadeiro 0 (zero). Isto permite-nos falar em razbes entre as quantidades, ¢ no s6 de diferengas. Um exemplo desta escala é a temperatura medida em Kelvin (K). Neste caso, 0 zero cor- responde verdadeiramente ao zero absoluto, e portanto a auséncia de agitacao das moléculas € portanto anséncia de calor. Assim, uma temperatura de 40K 6 verdadeiramente o dobro de uma temperatura de 20K. Outro exemplo é 0 peso, em que Okg representa uma verdadeira auséncia de massa, © portanto 30kg € verdadeiramente o triplo de 10kg. Esta escala permite assim div ¢ multiplicagao. Com esta escala podemos caleular a média 0 desvio padrao, a moda, a mediana ¢ os quartis. Qutras medidas que se podem calcular nesta escala ¢ nao na anterior estao fora do programa da disciplina c sio por exemplo a média harmédnica e média geométrica, > $e nko podemos multiplicar quantidades, como € que podemes calcular 0 desvio padrio? A Tesposta € que no desvio padrao niio ce eleva ao quadrado quantidades “em si”, mas sim uma dlvfevenca entre duas quantidades, Isto faz toda a diferengs. CHAR ee ae PoP OPPPSVPHPEEDELLLLEEE EEE EL EEE ELELDELLELULLUL Lb bbb bbe 1.3. ESTATISTICA DESCRITIVA il 1.3. Estatistica Descritiva Medidas nao organizadas ou analisadas chamam-se dados em bruto (raw data). Os dados em bruto normalmente nao comunicam muita informagao, ¢ 6 por isso que tém de sor resumidos. O maior resumo possivel é aquele que resume todos os dados a um tinico niimero. Uma medida descritiva (de criptive measure) é um niimero que de alguma forma comunica informacéo acerca dos dados a. partir dos quais é calculado. Exemplos de medidas 4 tivas sio a moda, a média ¢ 0 desvio padrao (explicados mais A frente) Comecemos por abordar algumas formas de agrupamento de dados que nio se limitam ao célculo de um tinico nimero. 1.3.1 Vector ordenado Um vector ordenado (ordered array) é uma lista de todos os valores de uma colecgéo (populacao ou amostra), ordenados do mais pequeno para o maior (ordem crescente). Um vector ardenado permite-nos conhecer imediatamente o maior valor ec o menor valor, A claboragio de um vector ordenado é normal- mente © primeiro passo na organizacao dos dados. Isto é muito titil quando temps, por exemplo, uma folha de papel com todos os valores desordenados. No entanto, as aplicagdes de software claboram este vector automaticamente, pelo que na pritica, esta forma de organizacéo nao ¢ algo com que nos tenha- mos que preoeupar. 1.3.2. Agrupamento de dados: distribuigao das frequéncias Para melhor compreender a informagio contida nos dados, é frequentemente ‘itil agrupé-los por classes. Para isso divide-se 0 conjunto de valores que as observagdes podem tomar em intervalos disjuntos (disjoint), isto 6, nenhum ponto pertence « mais do que um interval © contiguos (contiguous), isto 6 nenhum ponto fica entre dois intervalos, de modo a que cada observacdo fic em um e apenas um dos intervalos. Estes intervalos sa chamados intervalos de classe (class intervals). Quantos intervalos se escolhe? Intervalos a mend © perde-se informagio (porque cada intervalo de classe é mais largo, e dentro de um mesmo intervalo udo diferenciamos entre os varios valores), enquanto 12 CAPITULO 1. A BIOSTATISTICA COMECA intervalos a mais indica que nfo estamos a fazer 0 nosso melhor para resumir os dados. Hé varias regras que podemos seguir, das quais se destacam as seguintes: 1. os intervalos nao deve ser menos de 5 nem mais de 15 2. a formula de Sturges: para uma populagdo ou amostra de n clemen- tos, o niimero de intervalos (que vamos representar por k), € dado por: k = 143.322logyyn. Isto quer dizer que o ntimero de intervalos é aproximadamente proporcional ao logaritmo de base 10 da dimenséio da populagéo on amostra, De uma forma intuitiva, o logaritmo de n é uma fungdo crescente, mas que cresce muito devagar quando.comparado com ‘n, e portanto 6 uma boa funcao para determinar um miimero de classes que dove crescer com a dimensao da populagio, mas nio demais, para manter pequeno 0 mimero de classes So R 6a diferenga entre a maior observagio ¢ a menor observagao (amplitude ou range), entao a largura (w) de cada intervalo de classes (class interval width) é dada por: w = R/k. Também podemos fazer intervalos com larguras diferentes, ¢ nesse caso nao se utiliza a formula anterior, que se utiliza para intervalos de largura igual Quando escrevemos numa tabela quantas observagdes ficam em cada in- tervalo, abtemos uma distribuigao de frequéncias (frequency distribution) Frequéncias relativas (relative frequencies): correspondem a propor- cdo (¢ nio ao mimero}# de valores que calham em cada interval de classe. A frequéncia relativa de uma classe obtém-se dividindo o mimero de valores nessa classe em partienlar pelo mimero total de valores em estado. A frequén- cia relativa também pode ser chamada probabilidade experimental (cx- perimental probability) ou probabilidade empirica (empirical probability), Isto é bastante intuitive. Como se faz para determinar empiricamente a pro- babilidade de uma mocda atirada ao ar sair cara? Langa-se a mocda um grande niimero de vezes, e divide-se o niimero de vezes em que saiu cara pelo nfimero de vezes que se langou a moeda. Ou seja, faz-se uma proporcao entre © miimero de vezes que sain cara e o mimero de vezes que se langou a mocda. {Uma propargio corresponde sempre a uma fracgio entre 0'¢ 1 (ou entre O% e 100%). Resnita de uma divisdo. Quando se usa percentagens para Tepresentar proporgbes, deve-se ao interpretar 0 sinal % como wma abreviatuza para %0,01. Assim, 35% € equivalente a 0.35. RANAAAR RAL LALATALRU RE KERR RE KER EKeRe CRE RR ere ererere reer eee’ UVUUEUDUREREDEUDRAU VELL VALEUR LULL U UALR ULC UL 1.3. ESTATISTICA DESCRITIVA 13 Isto justifica as designagdes de probabilidade experimental e probabilidade empirica Frequéncia acumulada (curaulative frequency) ¢ Frequéncia acumu- lada relativa (relative cumulative frequency) de um intervalo correspondem a.soma das frequéncias ou frequéncias relativas dos intervalos de classe desde © mais abaixo até ao intervalo em estudo (inclusivamente). Por exemplo se temos os intervalos [0,1[,[1, 2[,[2,3[ ¢ [3,4{, a frequéncia acumulada para o intervalo [2,3] € igual a soma, das frequéncias dos intervalos [0, 1[,[1,2[ ¢ [2,3| (o mesmo para a frequéncia relativa acumulada). As frequéncias acumula- das permitem-nos responder & pergunta: “Quantos valores existem até ao intervalo x?” © nfo “Quantos valores contém o intervalo x?”. As frequéncias podem ser dispostas numa tabela, como por exemplo a soguinte: Intervalo de classe Freq. Abs. Freq. Abs, Acum. Freq. Rel. Frog. Rel. Acum, 3039 1 aay 0.0582 (.0582 40-49 46 87. 0.3016 50-59 70 127 0.6720 60-69 45 172 6.9101 7079 16 188, 0.9948 80-89 1 189 1,0001* Total: 189 1.0001* * nfo é exactamente igual a 1 por cansa dos arredondamentas. Como as frequéncias acumuladas (absolutas ou rélativas) nfo sio mais do qe a soma das frequéncias correspondentes, é possivel completar uma tabela com espagos em branco, desde que haja um conjunto suficiente de células preenchidas, subtraindo ou somando as varias frequéncias conhecidas. Histograma (histogram): 6 um tipo especial de grafico de barras para representa frequéncias relativas ou absolutas. Represente-se a varidvel em considera¢Ao no eixo horizontal, enquanto no cixo vertieal se representa a frequéncia. Divide-se a varidvel em intervalos de classe, ¢ sobre cada intervalo de classe desenha-se uma barra com a altura correspondente A frequéncia desse intervalo. O histograma pode ser complementado com um poligono de frequéncias 4 CAPITULO 1. A BIOSTATISTICA COMECA Poligono de frequéncias (frequency polygon): & um tipo de especial de grafico de linha. Para se desenhar um poligono de frequéncias, une-se os Pontos médios do topo das barras do histograma, ¢ une-se esses pontos por moio de uma linha. A linha 6 ainda unida ao cixo das abcissas (horizontal) do gréfico no ponto que seria o ponto médio do intervalos de classe que estariam abaixo ou acima das barras que aparecem nos extremos do histograma, Um histograma com 0 respectivo poligono de frequéncias aparece representado na imagem: Htegiam and potygon of requency . Zs | \ CochRi 0 ¢ uma distribuigéo platiciirtica vai ter uma kurtosis <0, Subtrai-se 3 & fraccdo precisamente para que uma distribuicdo mesociirtica tenha kurtosis = 0 (se nao se subtraisse 3, uma distribuigéo mesociirtica teria kurtosis = 3, 0 que & menos “elegante”, mas de resto néo havia diferenga nenkuma). Graficamente, tem-se 0 seguinte: Kurtosis = i S oS oS LLLLLLOL PPL ELOEELC POE » LLLL t Rt = = = = = = = =— = — = =— — = —_ PUVUVEVRLYEVUDUULLED ELLER ODER DEDEDE EEE DUDDDULDLEELD i bbbt bbe 1.3. ESTATISTICA DESCRITIVA 23 Diagrama de caixa de bigodes (bor-and-whisker plot ou borplot): é uma representacio gréfica dos dados que faz uso dos quartis de um conjunto de dados. B construfdo da seguinte maneira: 1. Representa-se a varidvel de interesse num eixo horizontal 2. Desenha-se uma caixa no espago acima do eixo horizontal de tal forma que a ponta esquerda da caixa esté alinhada com o primeiro quartil Qi ea ponta direita esté alinhada com o terceiro quartil Qs. 3. Divide-se a caixa em duas partes horizontais por uma linha vertical alinhada com o eixo da mediana. A mediana é 0 mesmo que Qo. 4. Desenha-se uma linha horizontal (ou bigode) desde a ponta esquerda da caixa até & menor observagao. 5. Desenha-se outra linha horizontal (ou bigode) desde a ponta direita da caixa até um ponto alinhado com a maior observacio. Por vezes representam-se no diagrama de caixa de bigodes os outliers. Um outlier é um valor que é ou alto de mais ou baixo de mais comparado com os outros. De uma forma mais precisa, um outlier é normalmente definido em fungio da amplitude interquartis (QR): chama-se outlier a uma observacao cujo valor x excede o terceiro quartil por mais do que uma vez e meia a amplitude interquartis ou est abaixo do primeiro quartil por mais do que uma vez e meia a amplitude interquartis. Matematicamente, x é um outlier se: z Q3+1.5(1QR) Os programas de computador como o SPSS podem assinalar estes outliers com um asterisco ou com um ponto. Para fazer um diagrama de caixa de Digodes também se pode colocar os dados no eixo vertical (ver a segunda figura) Nesta primeira figura estd representado um diagrama de caixa de bigodes. Encontra-se marcada a média e dois outliers, um & esquerda marcado por um oe um A direita marcado por um *. A amplitude interquartis (IQR) encontra-se também representada, | 24 CAPITULO 1. A BIOSTATISTICA COMEQA Box AND WHISKER PLOT o 1 3 Q Tae 8 —____> eek L5xIQR T5x1QR, 3x10R, 3x1QR Na imagem Seguinte mostra-se o output de uma sesso de SPSS ¢ diagrama de eaixa de bigodes correspondente. As setas indicam a localizagio no gréfico de um certo pardimetro da populacio. = 1.4 Correlagéo e Causalidade Correlagao (correlation) entre duas varidveis 6 uma expresso qne significa que as variéveis estéio de algum modo associadas. Diz-se que hé uma correla- gao entre X ¢ ¥ quando os valores de ¥ esido de algum modo “tigados” aos valores de X e vice versa. Por exemplo, a altura a que uma crianea atinge quando adulta esta correlacionada com a altura dos pais. No devemos con- fundir 0 conceito de correlag&o com 0 conceito de causalidade (causation). Sc X esta correlacionado com Y, no podemos conchuir que X casa Y nem eeecereterrrereeereereeg e e e e ea e ea ea oe e -— 2 ae = = = = Se e = = a ARERL LEE eee Vis PHEVEVRTERL UWE EVLA LUL EUR AVEO 1.4. CORRELAGAO E CAUSALIDADE re & que Y causa X. Por exemplo, pode existir um W que causa tanto X como Y. E um erro enorme concluir que correlagao implica causalidade. Este tema é bastante bem ilustrado por este cartoon, de Randall Munroe (que publica no site xkcd .com) I usepT THINK | | THEN T Took A | | sounds Uxe THE CORRELATION IMMPUED] | STATISTICS Class. | | CLASS HELPED. eaeee Ou melhor ainda, este (mesmo autor): PNOIFER HUGE STUDY WH? OORE Nor. THERE ARE 57. SOND no Enpence THAT (amen STATES: (PANY PROBLEMS Wd THAT CELL PHONES CAUSE CANCER. (WELL, TAME | 05 feo | JUST YO BE SAFE, ONT WaT WISTENHO Fe |/ A tabK. | | TOT Cauca 4 Ese vere Dam TH | Secor ce || | Gane To aceite cance Gor Bsc, Uses Cou. PHONES, | 8 Ss iB [het A Ba 1.4.1 Diagramas de dispersao Suponhamos que temos wm conjunto de dados que consisie em pares orde- nados da forma (c;, y;). Queremos saber se ha correlagao entre os «; € 08 4 Uma ferramenta que nos pode ajudar a decidir é 0 diagrama de dispersio. Um diagrama de dispersao (scuiter plot ou seaitergraph) é um grafico. com um sistema de cixos ortogonais (um referencial ry normal eomo os da cola), onde se representa um conjunto de pontos. Ao conjunto de pontos num diagrama de disperséio também se pode chamar nuvem de pontos. Esses pontos nao sio mais do que os pontos com coordenadas (xj, y;), corresponden- tes aos dados que obtivemos. E indiferente se os dados foram obtidos fazendo 26 CAPITULO 1. A BIOSTATISTICA COMEGA variar © e medindo o valor de y (caso em que wel independente e y &a variavel dependente), fazendo variar y e medindo o valor de x (caso em que x é a variével dependente ¢ y 6 0 variével independente), ou por outro método qualquer. Um exemplo de um diagrama de dispersio é 0 seguinte: a val y 102 ane 7 7 - £ o 5 0 6 20 1.4.2 Coeficientes de correlagao Coeficientes de correlagao (correlation coefficient do ntimeros caleu- lados @ partir de um conjunto de dados, que nos permitem concluir soba correlagao entre duas varigveis. Esies calculos permitem por vezes estahele- cer rclagées de correlagiio que nfo sdo aparentes “a oho nu” quando se observa os dados em bruto. Uma classe particular de coeficientes de correlagao sio os coeficientes de correlagio linear. Estes coeficientes indicam se as duas varidveis tém uma correlagao linear. Duas varidyeis X ¢ ¥ 1¢ a uma correlagio linear se duas constantes a ¢ b tais que para cada par de valores (:r,y), se verifica: ereererrerere rere PRLLLTILLALLLILLLALLSS LOL ELLIS OL LG POEL LPS P AD DDVEDSDULUVDULLDUPLALUULLRLUUUURULULUL LL UUL A, bobyhd 14. CORRELACAO E CAUSALIDADE 27 y=art+b Se duas varidveis 1 una correlagao linear, entdo existe wma. recta que se ajusta relativamente bem aos pontos do diagrama de dispersao. Um coeficiente de correlagao importante ¢ 0 coeficiente de correlagaio de Pearson. Normalmente reprosenta-se por r. Se representarmos a média dos «; por £ ¢ a média dos y; por G, podemos definir 0 coeficiente de correlacdio de Pearson pela seguinte formula (n é 0 mimero de pontos): VEE - de manipulagdes algébricas, a fSrmula anterior pode ser trausfor- O coeficienta de correlagao de Pearson varia entre|—1 ¢ 1Um coeficiente préximo de 1 indica que as varidiveis estéo positivamente correlacionadas, isto é, quando uma aumenta a outra também aumenta, Um coeficiente pro- ximo de —1 indica que as varisveis estdio negativamente correlacionadas, isto 6, quando uma aumenta a outra diminui. Quanto mais préximo. do zero, menos a correlacio entre as varifiveis se aproxima de uma recta. Nao quer dizer que nao haja correlacao entre as duas varidveis; apenas diz que se houver entao a correlacao nao é linear. Dois erros frequentes neste tema sio dizer que: 1. Quanto menor r, menor ¢ a correlagao entre as duas varidveis (0 que & falso porque r proximo de —1 indica uma correlagéo linear negativa. muito forte) re Quando r = 0 ndo hé correlagdo entre as duas varidveis (0 que ¢ falso porque pode haver uma correlagao nao linear; as varidveis podem estar correlacionadas por uma cnrva maluca qualquer, como wna parabola) A demoustracto disto relativamente simples, mas en nfo a vou fazer aqui, porque ceupa muito espago ¢ nao acrescenta nada de particularmente interessante, Convido os interessados sem muito mais que fazer a tentarem demonstiar isto. 28 CAPITULO 1. A BIOSTATISTICA COMEGA A figura soguinte apresenta um conjunto de nuyens de pontos ¢ os respectives coeficientes de correlagio de Pearson: a ee. as 1.4.3. Regressdo linear Agora que j& sabemos como determinar se duas varidveis tém uma correla- Ao linear, esizmos prontos para dar o passo seguinte: desta vez j4 nao nos interessa $6 saber apenas que as varidveis ost&o correlacionadas mas também determinar qual a recta que se ajusta a essa correlagio. © conhecimento desta recta permite-nos prever o valor de uma das varidveis em funcdo da outra. Para isto vamos ter de definir uma vari4vel dependente ¢ uma varidvel independente Num diagrama de dispersio, a varidvel independente aparece no eixo das abcissas (cixo do x) ¢ a varidvel dependente aparece no eixo das ordenad: (cixo do y) Nés queremos construir uma recta que se ajuste aos dados. Num conjunto de dados reais, nenhuma recta se ajusta na perfei¢do aos pontos obtidos. No eubanto, pode-se provar matematicamente que para cada conjunto de pontos existe uma ¢ uma $6 recta qne se ajusta, melhor, desde que so defina 0 que é um “bom ajuste”’, O tipo de ajuste que nos interessa é o fétode dos quadrad *Dependendo de como definirmos o que é um “hom ajuste”, a recta que vamos obter seri diferente Rega! LLLLS erenneeececereeeeceececeeeeecee erenet bbbbbbbte' bobbbbbbbt ny pbbbbtbt 2 2 2 2 2 = = = 2 — — — = ea = www wh rbbbit 14. CORRELAGAO E CAUSALIDADE 29 © método dos minimos quadrados escole a recta tal que_a soma dos quadrados das distancias dos valores y; a recta da regressao linear 6 a menor possivel. Isto corresponde a minimizar os quadrados das distfncias indicadas pelas setas na figura seguinte: Matematicamente, queremos determinar os valores a e 6 tais que a recta y = ax +b se ajuste o melhor possivel aos dados, de acordo com 0 método dos minimas quadrados. Os valores de a e de sio: a=y-bt Di iyi = DEG Yh t — ni Hoje em dia existem programas informéticos (como 0 SPSS) que fazem todos estes célculos automaticamente, Para avaliar quio bom é 0 ajusta- mento da recta aos valores, utiliza-se uma medida se chama 0 coeficiente de determinacdo. Representa-se por R? e é numericamente igual ao cocficiente de Pearson ao quadrado. On soja, R? = r?. No entanto, a mancira como estes niimeros s&0 definidos 6 diferente. Note-se que oles ndo sio iguais por defini- cio; esta igualdade é um teorema matemético que tem de ser demonstrado. Como a ignaldade anterior mostra, A? é sempre wm nitimero nao negativo. Como r € [-1,1], entao ? € [0,1]. A qualidade do ajustamento da recta ¢ 30 CAPITULO 1. A BIOSTATISTICA COMEGA tanto maior quanto mais proximo R? estiver de 1. Ao contrério do que se disse acerca do r, j& € correcto dizer que o ajuste é tanto picr quanto mener for R? (mais uma ver, isto ndo impede que as varidveis estejam correlacionadas; uma recta 6 que no é um bom modelo para essa correlaco). Um oxemplo de uma recta obtida pela regrossiio linear feita a partir de um diagrama de dispersio 6 a da seguinte figura: 1.4.3.1 Cuidados a ter com a regressdo linear di ‘A rogrossio linear 6 pode ser utilizada para o intervalo no qual esto os valores dex ¢ dey. Se os a vao desde 10 até 20, nao podemos utilizar a eqnaciio da recta y = ar +b para prever o valor de y quando a = 30, porque 30 est fora do intervalo donde vieram os pontos para construir a recta. 6 se deve utilizar a equagio y = ax +b quando 0 coeficiente de determi- nagao é grande 0 swliciente. Quao grande é grande o suficiente depende dos autores. Um exemplo é R? > 0.90 prBeron Antes de se madi p coeficiente de correlacao, 0 coeficiente de deter minagio © de se calcular og valores a ¢ b da equagio da recta, deve-se marcat_os pontos num diagrama de dispersdo, porque os conjuntos de YAAVIAAAAAA AMARA ARAN AHH ERT RELLIRTE EET REL EERE RETR Ree TT ee PUDEULLEEDEDEDUDUUEDEDLL ELE bbs boy h hhh wohbVVVbPVbb phi ws 14. Quarteto de Anscombe a . ‘i - e ° " an = ° s sq, ° ss Lee : 7 ee rire x Xe 1. Iv. e 2 A} 40 0 Bea ge Se Ae ¢ 4-3 CORRELACAO E CAUSALIDADE. 31 pontos mais idiotas podem dar rectas bastante bonitas e crediveis. Um exemplo de quatro conjuntos de pontos idiotas que dao todos a mesma. recta, apesar de 1m muito diferentes uns dos outros 6 0 quarteto de Anscombe, constituido pelos seguintes diagramas de dispersao (to- dos dao rectas de ajuste muito parecidas e coeficientes de correlagio dispersio quase iguais)= SIVVVAAVIIVIIIIIIIIVIIDIIVAVVIVVVIVVVVAV VED GV VET ALD ULU n PUEDPL ELA W DDE DAA REDUCE BRU U DUALLY Capitulo 2 O biostatistico desespera Esta segunda parte da sehenta 6 um ponco mais dificil que a primeira. As ideins matemiticas tornam-se mais avancadas e alstractas, A partir daqui, isto deixa de ser um desporto de espectadores, ¢ a leitura da sebenta tem de ser complementada com um minimo de atencio Uuiante as aulas préuieas, porque esta matéria $6 se percebe bem fazendo exercfetos. Esta maiéria é extensa, € tem muitos pontos por onde se pegar, especialmente em termos de per~ guntas para exame. No entanto, os conceites que esto por detrds de tudo séo relativamente simples. A cxerita do qualquer sebonta representa um equilibrio entre elarcza © extensio. Algumas destas ideias poderiam ter sido muito mais desenvolvidas, o que talvez facilitasse a compreensio. No entanto, isso iris aumentar perigosamente o mimero de paginas dest sebenta, que en quero impedir de engordar ainda mais. O compromisso que encontrei no sera perfeito, mas 6.0 melhor que consegu Nesta segunda parte, gostaria le agradecer a todas as pessoas que leram a primeira edigdo desta sebenta com muita atengio, delecLanto subuis contradicbes intemas e diferencas em relago ao resto da literatura, Le. coisas erradas. Curiosamente, 0 conjunto de todas estas pessoas tem um 36 elemento, que ¢ a Gabriela Botelho (Gabi), que o ano pasado fez anos no din do Grande Exame, © que teve 0 trabalho de ler cuidadosamente a. primeira parte da primeira sebenta, doscobrindo um erro grave pelo caminho. 2.1 Introdugao Uma distribuigio de probabilidades (probability distribution) de uma variével aleatoria €uma.tabela, ui grifico ov uma formula ou outro meio de especificar todos os valores que uma variavel aleatéria pode tomar, juntamente com as respectivas probabilidades. ‘As distribuigdes de probabilidades podem ser discretas ou continuas, cou soante o tipo de variaveis aleatérias. Para os nossos propésitos, s6 nos inte- rossam (listribuigées de varidveis aleatérias continuas, Neste caso definimos 0 33 34 CAPITULO 2. O BIOSTATISTICO DESESPERA seguinte: Uma fimgan nao negativa f(r) chama-se uma distribuigio de probabi lidades (probability distribution), também chamada fungao de densidade de probabilidades (protability densitiy function) de uma. varidvel aleatéria X se 1. Para todo 0 x, f(a) > 0 (porque a probabilidade de um acontecimento é sempre positiva) 2. A érea, total abaixo da curva do grafico de f e acima do eixo do az 6 igual 1 (porque a probabilidade total tem de ser igual a 1) 3. A area abaixo da curva. do gréfica de f © acima do cixo do xx entre 0s pontos x= ae « =) €a probabilidade de X calhar entre ae b A rea entre 0 ponto @ © 0 ponto a (nio é uma gralha!) é 0, porque “a parte do grafico” entre cla, © ndo uma regiéo plana, e as rectas jndio tém rea. Assim, pela definigao acima, a_probabilidade de X — a 6 zero para qualquer ponto a, Isto é vordade para todas as distribuigdes de probabilidades continuas. A probabilidade de X calhar entre a e b pode-se represeutar simbolicamente por P(a < X < 6). Comoa probabilidade de cada ponto individual 6 zero, P(a < X TUAAMAKKKLEKLE LL ELE LKeeeeeLe vw x \ EREETRA POPPED PP PSS E bP EE PEPER PEPER EDEDEEDEDL bbb bbbbey 2.2. DISTRIBUICAO NORMAL (NORMAL DISTRIBUTION) 39 3. O desvio padrao de 7, que se representa por gg, vai ser igual ao desvio padrio da populagio (2) a dividir pela raiz quadrada da dimensio da amostra (7) Simbolicamente, podemos dizer que se X 9 N(j1,a) entao X A N(j1,0/ Vn). Isto 56 se pode utilizar quando a distribuigao da populagao é normal, a menos que se aplique o Teorema do Limite Central (TLC). 2.2.4 Teorema do Limite Central (TLC) O teorema do limite central é uma ferramenta muito poderosa em estatistica, Diz o seguinte: Dada uma populagio que segue qualquer distribuigio com média p varidncia 9”, a distribuicao da média das amostras com tamanho n vai seguir uma distribuiggo aproximadamente normal com média js € variancia o?/n (logo, com desvio padréo 7//n)quand’m(o tamanho da amostra) é grande. = ¥ Quao grande 6 grande 0 suficiente? Normalmente considera-ce qne para. se poder aplicar o teorema do limite central, tem de se ter n > 30. Sem < 30, utilizamos uma outra distribuicao de probabilidades diferente da normal: a. distribuigio ¢ de Student. Se representarmos por # a média da amostra com n elementos, entdo pelo que ja foi diseutido, 0 tegrema diz-mos que a expresso: wees ola sogue uma distribui¢do aproximadamente normal com média 0) ¢ variancia 1 quando 7, tende para +00 © Teorema do Limite Central permite “estender” 0 resultado da seccao anterior aos casos em que a distribuigio da populagao nao 6 normal ¢ a di- mensdo da amostra é grande. 40 CAPITULO 2. O BIOSTATISTICO DESESPERA 2.3 Distribuigao da proporgao de uma amostra a rp ae Jma proporgao de uma amostra ou populacao (sample proportion on population proportion) & wm wimero que representa a razio entre o nimero de elementos que tém uma certa propriedade ¢ a totalidade da amostra ou Populacao. Exemplos de situacdcs em que se usa. proporcies so: + “Qual a proporeao de pacientes que sobrevive mais do que 5 anos a uma. certa doenga?” + “Qual a proporgao de uma certa populacdo que tem uma certa doenga?” A proporgao da amostra (uma estatistica) representa-se por f ea propor- so da populagao (um parametro) represonta-se por p. Por vezes pode-se utilizar os simbolos @ e g que siio definidos como: @ = 1—feq=1—p. Estes simbolos utilizam-se porque as vezes podem simplificar algumas férmulas, A média das proporgdes das amostras com n elementos Tepresenta-se por Hy € 0 desvio padrao da proporcéio representa-se por oj. Se o tamanho da amosira (m) 6 grande, entaa: 1. A distribuigao de p é aproximadamente normal 2. a média das proporedes (jig) vai ser igual A proporedo da populagao, p. Simbolicamente, tem-se: j1y = p. . O desvio padrao da distribuicio da proporgao da amostra representa-se por gp @ igual a Vp(1 — p)/n que também pode ser escrito como V/pq/n. a ay ee Simbolicamente, temos: ~M N(p, yp(1 —p)/n). Podemos, como J fizemos anteriormente, converter esta distribuigéo ua distribuigio normal padrao, As- sim, para responderimos a questes acerea de p (0 pardmetro), usamos a ¢s- tatistica: REPL LLLP LD VD, CUARTRTRK LLL Lee tere errr ree Rene ree cA oa 5 a a = =) = = —_ =_ =_ = _ —_ = —) ) —) —_4 —_4 —_ = —_a —_7 =—_ bhvygyady BAbbbaG 24, INFERENCIA ESTATISTICA 41 Qual o critério que nos diz se podemes usar ou nao esta estatfstica? Po- demos utilizar esta estatistica quando tanto np como n(1—p) sda maiores que 5. Esta estatfstica 6 a que é utilizada para os intervalos de confianga ou para os testes de hipdtese, e utiliza-se da mesma maneira que as estatistica ja discutidas, 2.4 Inferéncia estatistica Existem dois tipos de inferéncia estatistica, complementares um ao outro: a estimagao eo teste de hipdteses. No primeiro interessa-nos estimar um parémotro de uma populagdo a partir da estatistica de uma amostra. No segundo interessa-nos testar uma hipétese acerca de uma populagao a partir dos dados de uma amostra, com o objectivo de rejeitar ou no rejeitar a hipdtese. Antes de abordar estes temas, ¢ necessirio falar da conceito de amostra aleatéria. 2.5 Amostras aleatérias e ndo aleatérias Uma amostra aleatéria (random sample) 6 uma amostra que é escolhida com base em critérios aleatérios, por oposigio a critérios deterministas. Dito de outra forma, num proceso aleatério nao h4 maneira de prever qual seré a amnostra que resultard do processo de selecefic. Quando queremos fazer in- ferdncias estatisticas a partir de uma amostra, esta tem de ser uma amostra aleatéria. Isto 6 uma exigéncia tedrica dos métodos que utilizamos, ¢ vali- dade matematica do nosso raciocinio depende desse facto. Se a amostra nao for aleatéria, nao podemos gencralizar a partir dela para uma populagao, isto 6, no podemos fazer inforéncia estatfstica. Intuitivamente, isto 6 dbvio. Se nao hé uma escolha aleatéria da amostra, entao nao faz sentido falarmos de probabilidades de isto ¢ aquilo ser verdade, porque as probabilidades tém de ter algo de aleatério. 42 CAPITULO 2. O BIOSTATISTICO DESESPERA 2.6 Estimacao Inferéncia estatistica (statistical inference) 6 0 procedimento pelo qual che- games a uma concluséo acerca de uma populagdo com base na informagao contida numa amostra dessa populacéo. O processo de estimacao implica calcular uma estatistica da. amostra, que serve como uma aproximacao 20 parametro da populagdo de onde a amostra é retirada, A inferéncia estatistica permite-nos assim conhecer os parametros de uma populagio, conhecendo apenas estatfsticas de amostras dessa populagao. Uma das razdes pelas quais podemos querer fazer uma inferéncia estatistica 6 porque a populagao, apesar de finita, ser tao grande que podemos nunca a conseguir analisar na totalidade. Outra razdo é um pouco menos bvia Queremos testar a eficdcia de um medicamento. A populacao é a totalidade de pessoas que alguma vez vio precisar de tomar esse medicamento. Nio queremos dar o medicamento a toda a populagio antes de saber se ele ¢ eficaz ou n&o, até porque a populagio é infinita (n&o 86 as pessoas que precisam, mas também todas as pessoas que vao precisar). Assim, testamns o medicamento huma amostra da populagao, calculando as estatisticas relevantes, a. partir das quais estimamos os parfmetros da populacdo, que traduzem a eficAcia que esperamos que esse medicamento tenha na populacao. Exemplos de parametros que podemos querer estimar so a média de uma populagao (qual a média de anos de vida dos pacientes apés uma certa lesiio?) e a proporgdo de uma populagao (qual a proporcao de doentes que aprescnutam reacgdes adversas a um certo antibitico?). Vao ser apresen- tadas técnicas que permitem estimar estes parémetros a partir das amostras. Nao so aqui abordadas (nem foram na aula): estimagao de diferencas entre médias de duas populagdes ¢ estimacéio de diferencas entre proporgées de populagées. Apesar de a estimacao destes parametros nao ter sido abordada na aula, é preciso saber operar com estas cstimativas caso estas sejam dadas sob a forma de um output de SPSS Utilizamos dois tipos de estimativas: estimativa pontual ou estimativa de intervalo: Estimativa pontual (point estiraate): um s6 valor numérico utilizado ara estimar um parametro da populacio. Estimativa de intervalo (interval estimate): consiste em dois valores definindo um intervalo, que com um grau especifice de confianga, mais prova~ bpp & e 4 s S a - — = = S o = & = = & = = = & = = & = = & = = = e e e = = = AAARAD DD V- VOUWOUULULUDLUUUUUUU LUCE SUGVEUEUEEUOUELELULL 2.7. ESCOLHER UM ESTIMADOR ADEQUADO 43 velmente inclui o parémetro que estamos a estimar. Isto inclui nao 86 0 valor que achamos mais provivel, mas também os intervalo em que consideramos que 0 valor deve eair com uma certa confianga. Nunca dégam “com uma certa probabilidade”, porque esta errado. { 2.7 Escolher um estimador adequado Como jé foi referido, um valor caleulado a partir da amostra ¢ uma estima- tiva (estimate). A regra que nos diz como calcular este valor 6 um estimador (estimator). Os estimadores sio normalmente apresentados como férmulas. Por exemplo: 6 um estimador para a média de uma populagao (representada por j1) Se & for caleulado de acordo com a férmula acima, ontao entdo dizemos que = é uma estimativa de y.. A definigéo de estimador no diz nada acerea do estimador, apenas que é uma regra que produz um niimero calculado a partir da amostra. Em particular, o estimador no tem de ser bom, no sentido em que néo tem de se ajustar ao valor do pardmetro que queremos estimar. Assim, trés exemplos possiveis de estimativas da média de uma populaggo (11) te 1. a média de uma amostra (#) - uma bea estimativa 2, a mediana da amostra (Q2) 3. 0 menor valor da amostra (vo) - uma estimativa muito ma* O que é que quer dizer, de uma forma rigorosa, um estimador bom ou mau? De uma forma mais rigorosa vamos introduzir 0 conceito de e: esado, Dizemos que um estimador T @ um estimador nao enviesado (un- biased) de um pardmetro 9 se acontecer o seguinte: para todas as amostras ‘Para além deser uma estimativa muito mui, 0 proceso de caleulo desta estimativa é um exemple de um estimador que nao ¢ apresentado como uma formula. 0 estimador pode ser apresentado come a segninte regra: faz-se um vector ardemado com todos os valores ¢ escolhe-se @ menor. Também a mediaua é um exemplo de um estimador que néo é calculado com uma féramla: faz-se um vector ordenado com todos os valores e cscolho-se © do meio.

Você também pode gostar