Você está na página 1de 58

| } | u y w v u ts r q p EE{ z XEx ERHYaPo m RHe m EEEiRHe d EEEHE1H#YPEE PEEEEPP#t sq p EEg f EEERc aaYXEE#RPHEECA n f f k l k g j h g e f u y x w x w v v u r i h e V d V b F ` A W V U T SQ I G F D B @    5! 2  ! 0 )  ( %  !

       987643#1'&$#"
Departamento de Cincias Bsicas

Prof. Dr. Csar Gonalves de Lima

Universidade de So Paulo

APOSTILA DE ESTATSTICA I

Pirassununga - SP 2002
E_mail: cegdlima@usp.br

1. NOES DE ESTATSTICA DESCRITIVA 1.1. INTRODUO Em alguma fase de seu trabalho, o pesquisador estar interessado em analisar e entender um conjunto de dados importante ao seu particular objeto de estudos. Numa primeira fase, precisar resumir os seus dados para que estes sejam mais informativos e possa, posteriormente, compar-los com outros resultados j obtidos ou verificar a adequao desses dados a algum modelo terico. Nesta primeira parte do nosso curso, estaremos interessados em estudar algumas tcnicas usadas para resumir um conjunto de dados. Esta fase preliminar de anlise chamada Anlise Exploratria dos Dados e objetiva conseguir informaes, atravs de grficos, tabelas e medidas de tendncia central, disperso, achatamento e simetria, que indiquem possveis modelos a serem utilizados numa fase final, chamada Inferncia Estatstica. 1.2. ALGUMAS DEFINIES INICIAIS Ao conjunto de indivduos ou objetos sobre os quais desejamos desenvolver algum estudo e que tm alguma caracterstica em comum, chamamos populao ou universo. Uma populao estar bem definida quando conseguirmos afirmar se um indivduo (ou objeto) pertence ou no a este conjunto. Quanto ao nmero de elementos, uma populao pode ser finita ou infinita. Entende-se por amostra qualquer subconjunto de elementos retirados de uma populao. Se uma amostra for bem representativa da populao (situao ideal), as concluses tiradas a partir desta amostra podem ser inferidas (expandidas, induzidas) para toda a populao. De um modo geral, a cada elemento investigado associamos um ou mais resultados que correspondem realizao de uma ou mais variveis. Basicamente, essas variveis podem ser qualitativas e quantitativas. Uma varivel dita qualitativa quando apresenta como possveis realizaes um atributo ou qualidade do indivduo pesquisado. Por exemplo: raa, ms da desmama, sexo, cor de pelagem etc. Uma varivel qualitativa pode ser classificada, de acordo com sua escala de medida, como: nominal, quando no possvel uma ordenao dos seus resultados (por exemplo: sexo, raa, etc.), ordinal, quando permite uma ordenao dos seus resultados (por exemplo: conceitos finais em uma disciplina de ps-graduao, classes sociais etc.) Uma varivel dita quantitativa quando suas realizaes so expressas em nmeros resultantes de uma contagem ou de uma mensurao. Podem ser classificadas como: discretas: quando as suas realizaes formam um conjunto finito ou enumervel de valores sendo, freqentemente, resultantes de uma contagem. Por exemplo: nmero de leites nascidos vivos e natimortos num certo ms, produo diria de ovos no avirio do Campus etc., ou contnuas: quando os seus possveis valores formam um intervalo de nmeros reais resultantes, geralmente, de uma mensurao. Por exemplo: peso da leitegada ao nascer, produo diria de leite, produo de matria verde por hectare, etc. Geralmente, designamos as variveis por letras latinas maisculas (X, Y, Z por exemplo) e os seus resultados, por letras latinas minsculas com ou sem ndices. Por exemplo, os cinco resultados da varivel X podem ser escritos, genericamente, como X = {x1, x2, x3, x4, x5}. 1.3. ESTATSTICA DESCRITIVA Aps a definio do problema a ser estudado e do estabelecimento da forma pela qual os dados sero coletados, cronograma das atividades, custos envolvidos, exame das informaes disponveis sobre o assunto, delineamento da amostra etc. (planejamento da pesquisa) o passo seguinte a coleta dos dados, que consiste na busca ou na compilao dos dados. Aps a coleta dos dados, objetivando a eliminao de erros capazes de provocar futuros enganos de apresentao e anlise, procede-se a uma reviso crtica dos dados, suprimindo os valores reconhecidamente estranhos ao levantamento. Aps essa crtica dos dados, convm organizarmos os dados de maneira prtica e racional para o melhor entendimento do fenmeno que se est estudando. A apresentao de dados pode ser feita atravs de Tabelas (ou Quadros) e Grficos. Para cada tipo de varivel estudada (qualitativa ou quantitativa) existem dispositivos mais apropriados para a apresentao e resumo das informaes, muito embora as alternativas usadas numa situao possam ser adaptadas para outras.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

1.3.1. APRESENTAO TABULAR DOS DADOS As tabelas ou quadros so constitudos, basicamente, de: corpo: a parte estrutural da tabela na qual se inscrevem os dados, sendo constitudo de linhas e colunas onde cada cruzamento linha-coluna chamado de casela ou clula; ttulo: a definio clara e concisa da natureza do fato estatstico, o espao geogrfico abrangido e a referncia no tempo a que fato corresponde; cabealho: especifica a informao apresentada em cada coluna; coluna indicadora: identifica o tipo de informao que cada linha contem; fonte: a identificao da entidade responsvel pelo levantamento dos dados, registros estatsticos ou por sries estatsticas derivadas; notas: so informaes de natureza geral destinadas a conceituar ou esclarecer o contedo das tabelas, a indicar o critrio adotado no levantamento ou o mtodo de elaborao das estatsticas derivadas; chamadas: so informaes especficas relativas a uma parte da tabela destinadas a complementar informaes sobre os dados numricos.

Tabela 1. Evoluo do quadro de docentes na USP por categoria - 1988/1996. Categoria docente (*) ANO 1988 1989 1990 1991 1992 1993 1994 1995 1996 MS-1 614 593 516 383 320 254 175 113 107 MS-2 1.253 1.271 1.258 1.191 1.129 1.047 947 804 771 MS-3 2.140 2.267 2.347 2.392 2.396 2.484 2.553 2.522 2.510 MS-5 855 864 828 817 782 788 797 831 804 MS-6 527 550 630 637 682 703 720 673 664 TOTAL 5.389 5.545 5.579 5.420 5.309 5.276 5.192 4.943 4.856

(*) MS-1: Auxiliar de Ensino; MS-2: Assistente; MS-3: Doutor; MS-5: Associado; MS-6: Titular Fonte: Anurio Estatstico da USP - 1996

Toda tabela deve ter ttulo, cabealho e corpo; os demais componentes podem at no existir, dependendo da natureza do problema e nunca do gosto de quem constri a tabela. A apresentao de dados em tabelas foi regulamentada pelas Normas de Apresentao Tabular do FIBGE (Rio de Janeiro, 1979, 21 p.) e so reproduzidas, parcialmente, a seguir: (a) a estrutura da tabela, constituda de traos (retas perpendiculares) delimitada em suas partes superior e inferior por traos horizontais paralelos; (b) admissvel a excluso dos traos verticais entre as colunas, desde que o nmero delas no prejudique a leitura dos dados inscritos em colunas contguas; (c) o ttulo deve preceder a tabela; (d) a fonte, as notas e as chamadas so includas no rodap da tabela; (e) as tabelas, intercaladas em texto corrido, devem situar-se na parte do texto em que so citadas pela primeira vez; (f) as tabelas devem ter significado prprio, isto , devem prescindir de consultas ao texto em que eventualmente se achem inseridas; (g) no se indica a fonte nos casos em que a tabela apresentada pelo prprio autor ou pela instituio que obteve os dados.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

1.3.2. APRESENTAO GRFICA DOS DADOS A apresentao grfica das sries estatsticas tem por finalidade dar uma idia, a mais imediata possvel, dos resultados obtidos numa pesquisa, permitindo chegar-se a concluses sobre a evoluo do fenmeno ou sobre como se relacionam os valores da srie. A escolha do tipo de grfico mais apropriado para representar a srie estatstica em estudo ficar a critrio do pesquisador, contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaborao do mesmo.
3000 Nmero de docentes 2500 2000 1500 1000 500 0 1988 1989 1990 1991 1992 1993 1994 1995 1996 MS-1 MS-2 MS-3

(*) MS-1: Auxiliar de Ensino; MS-2: Assistente; MS-3: Doutor Fonte: Anurio Estatstico da USP - 1996

Figura 1. Evoluo do quadro de docentes das categorias MS-1, MS-2 e MS-3 da USP - 1988 a 1996. Na apresentao grfica de dados so necessrios alguns cuidados, tais como: (a) todo grfico deve ter ttulo e escala, para que possa ser interpretado sem que haja necessidade de esclarecimentos adicionais no texto; (b) no eixo das abcissas a escala cresce da esquerda para a direita e escrita sob o eixo; no eixo das ordenadas a escala cresce de baixo para cima e escrita esquerda do eixo; (c) podem ser feitas setas para indicar a direo dos eixos; (d) as variveis representadas em cada eixo devem ser claramente identificadas, bem como suas unidades de medidas; (e) quando o valores inicial do conjunto de dados for muito alto, deve ser feita uma interrupo no eixo correspondente, com indicao clara da posio da origem; (f) as legendas explicativas devem ser colocadas direita do grfico; (g) sempre que possvel deve-se indicar a fonte de onde os dados foram obtidos.

A seguir, so apresentados alguns exemplos de grficos e descritas as situaes mais comuns onde podem ser usados: Grfico de Linhas (Figura 2) usado, principalmente, para apresentar sries cronolgicas. O Grfico de Barras ou Colunas (Figuras 1, 3 e 4) usado para apresentar sries cronolgicas, geogrficas e categricas ou classificatrias. As barras podem ser construdas na posio horizontal quando as categorias so identificadas por nomes muito extensos. Os Grficos de reas ou de Setores (Figura 5) so usados para comparar propores ou evidenciar a composio percentual de uma parte dos dados. O Grfico Polar usado para representar dados que variam ao longo de um intervalo de tempo limitado. Os Grficos Comparativos so usados para representar comparativamente duas ou mais variveis quantitativas. Muitas vezes so desenhados dois grficos, lado a lado, para melhor estabelecer a comparao do fenmeno e outras vezes, os dados obtidos em situaes distintas so apresentados no mesmo grfico para evidenciar a comparao.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

25
Zootecnia

20

Matemtica Aplicada

15 Nmero

10

0 1986 1987 1988 1989 ANO 1990 1991 1992

Figura 2.

Evoluo do nmero de alunos formados nos cursos de Zootecnia e Matemtica Aplicada -1986/1992.

600 Docentes 500 400 300 200 100 0 ESALQ FAU FEA Unidade FM FMVZ FZEA No docentes

Figura 3. Nmero de docentes e funcionrios no docentes em algumas unidades da USP em julho de 1996.

Nmero

100% 80% 60% 40% 20% 0% ESALQ FAU FEA FM FMVZ FZEA UNIDADE No docentes Docentes

Figura 4. Porcentagens de docentes e funcionrios no docentes em algumas unidades da USP em julho de 1996.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

FEA
Mestrado 20%

ESALQ

Mestrado 32% Especiais 46%

Doutorado 9%

Especiais 71% Doutorado 22%

Figura 5. Alunos de ps-graduao distribudos por categoria na ESALQ e FEA em 1995.

Jan 400 Dez 350 300 250 Nov 200 150 100 50 0 Out Mai Mar Fev

Set

Jun

Ago

Jul

Figura 6. Altura total da precipitao pluviomtrica em Manaus no ano de 1983, segundo o ms

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

2. DISTRIBUIO DE FREQNCIAS Podemos resumir os resultados de uma varivel qualitativa ou quantitativa discreta associando a cada uma de suas categorias a freqncia correspondente, apresentando esses resultados numa tabela, que chamada, genericamente, de Distribuio de Freqncias dessa varivel. Uma medida bastante til na interpretao dessas tabelas e na comparao com os resultados de outra srie de dados onde essa mesma varivel tenha sido avaliada, a proporo (f ri) ou a porcentagem (f pi) que cada categoria assume, quando comparada com o total de elementos da srie. Tabela 2 Distribuio de freqncias da raa da me de coelhos desmamados no primeiro trimestre de 1989 - Setor de cunicultura do Campus de Pirassununga. RAA Califrnia Nova Zelndia Selecta Borboleta Fulvo de Borgonha Total absoluta (fi) 6 17 10 3 4 40 Freqncia relativa (fri) 0,150 0,425 0,250 0,075 0,100 1,000 percentual (fpi) 15,0 42,5 25,0 7,5 10,0 100,0

Com base na Tabela 2, que apresenta a distribuio de freqncias da raa da me de coelhos desmamados no primeiro trimestre de 1989, no setor de Cunicultura do Campus, podemos afirmar, por exemplo, que 42,5% das ninhadas de coelhos nascidos no primeiro trimestre de 1989, provm de mes da raa Nova Zelndia, enquanto apenas 7,5% provm de mes da raa Borboleta. A distribuio de freqncias da varivel quantitativa discreta tamanho da ninhada de coelhos (Tabela 3) foi construda de maneira anloga da varivel qualitativa raa da me. Nesta tabela podemos perceber, por exemplo, que mais freqente encontrarmos ninhadas de tamanho 4 ou 5, que juntas totalizaram 40% das ninhadas.

Tabela 3 Distribuio de freqncias do tamanho de ninhadas de coelhos desmamados no primeiro trimestre de 1989. Tamanho da ninhada 1 2 3 4 5 6 7 8 9 Total de ninhadas Freqncia absoluta (fi) 1 2 7 8 8 6 5 2 1 40 percentual (fpi) 2,5 5,0 17,5 20,0 20,0 15,0 12,5 5,0 2,5 100,0

J a construo de distribuies de freqncias para variveis quantitativas contnuas um pouco mais trabalhosa, pois os dados precisam ser agrupados, no mais em categorias, mas sim em classes de freqncias.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

Para ilustrar tal procedimento, vamos utilizar os dados de pesos (em gramas) de 40 coelhos desmamados, que so apresentados a seguir: 770 697 842 823 716 880 860 657 900 1040 817 878 808 963 842 583 910 992 727 666 960 940 830 883 1020 560 1000 737 1000 798 823 750 1000 552 731 492 960 657 873 699

Para facilitar o agrupamento dos pesos, podemos orden-los segundo sua ordem crescente de grandezas, resultando em: 492 727 830 940 552 731 842 960 560 737 842 960 583 750 860 963 657 770 873 992 657 798 878 1000 666 808 880 1000 697 817 883 1000 699 823 900 1020 716 823 910 1040

Para decidirmos quantas classes de freqncia sero usadas, precisamos conhecer a amplitude (H) do conjunto de dados, que definida como a diferena entre o maior e o menor dos valores observados. Para o conjunto de pesos em questo, H = 1040 492 = 548g, ou seja, os pesos variam dentro de um intervalo de 548 unidades. Vamos dividir esse intervalo de H = 548 unidades em k = 6 classes de tamanho h = 100 gramas (note que a amplitude de classe h H/k e um mltiplo de dez), quais sejam: 490 | 590; 590 | 690; 690 | 790; 790 | 890; 890 | 990 e 990 | 1090 Cada classe de freqncias definida por dois nmeros denominados limites inferior (Li) e superior (li) da classe. Por exemplo: a primeira classe (i = 1) tem limite inferior igual L1 = 490g, limite superior l1 = 590g e dever incluir todos os pesos iguais ou maiores a 490 e menores que 590 gramas; a ltima classe (i = 6) tem limite inferior L6 = 990g, limite superior l6 = 1090g e dever incluir todos os pesos iguais ou maiores a 990 e menores que 1090 gramas. Aps a definio das classes de freqncia, precisamos classificar cada um dos 40 pesos mdios em uma destas classes, obtendo assim as respectivas freqncias absolutas (f i). Outra medida bastante usada em distribuies de freqncias a freqncia acumulada que indica quantos elementos (Fi), ou qual a proporo (Fri), ou ainda, qual a porcentagem (Fpi) de elementos que esto abaixo do limite superior da classe i (i = 1, 2, ..., k). Quando resumimos os resultados de uma varivel contnua em classes de freqncias sempre perdemos alguma informao. Por exemplo: na confeco da Tabela 4, perdemos a informao sobre os valores numricos individuais dos quatro pesos classificados na primeira classe de freqncia. Para representar bem uma classe de freqncia, elegemos o seu ponto mdio, que calculado como o valor mdio dos limites inferior e superior da classe. Por exemplo: o ponto mdio da primeira classe igual a Pm1 = (490 + 590)/2 = 540 gramas e assumimos que os quatro pesos includos na primeira classe so todos iguais a este valor. Tabela 4. Distribuio de freqncias dos pesos de coelhos desmamados no primeiro trimestre de 1989. Peso (g) 490 |- 590 590 |- 690 690 |- 790 790 |- 890 890 |- 990 990 |- 1090 Total fi 4 3 8 13 6 6 40 Pmi 540 640 740 840 940 1040 fri 0,100 0,075 0,200 0,325 0,150 0,150 1,000 fpi 10,0 7,5 20,0 32,5 15,0 15,0 Fi 4 7 15 28 34 40 Fri 0,100 0,175 0,375 0,700 0,850 1,000 Fpi 10,0 17,5 37,5 70,0 85,0 100,0 -

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

Com base na Tabela 4, podemos afirmar, por exemplo, que: mais freqente encontrarmos coelhos ao desmame com pesos entre 790 e 890 gramas; essa classe de peso inclui 32,5% dos coelhos; 70% dos coelhos ao desmame tm peso mdio inferior a 890 gramas; 15% dos coelhos ao desmame tm peso igual ou superior a 990 gramas etc. Ainda sobre as distribuies de freqncias, sempre bom lembrar que: as escolhas do nmero (k) de classes e dos seus limites (inferior e superior) so arbitrrias; com um nmero pequeno de classes perde-se muita informao e com um nmero grande o objetivo de resumir os dados fica prejudicado; de bom senso construir classes de mesma amplitude (h), pois isto facilitar bastante os clculos baseados em tabelas de freqncia; sempre que possvel, construir classes cujas amplitudes so mltiplos de 10; uma frmula emprica para calcular o nmero de classes: k = 1 + 3,3Log(n). Por esta frmula, para n = 40 pesos, precisaramos construir k = 1 + 3,3Log(40) = 6,287 6 classes!

2.1. REPRESENTAO GRFICA DE DISTRIBUIES DE FREQNCIAS A representao grfica de uma distribuio de freqncias pode ser feita, principalmente, atravs de histogramas e do dispositivo chamado ramo-e-folhas ("stem-and-leaf"). O Histograma a representao grfica de uma distribuio atravs de retngulos proporcionais freqncia absoluta (ou proporcional ou percentual) de cada classe ou categoria. No caso de variveis discretas, os retngulos ou segmentos de reta devero estar separados uns dos outros e no caso de variveis contnuas, esses retngulos devero ser justapostos (colados um ao outro). As Figuras 7 e 8 apresentam exemplos de histogramas associados s variveis tamanho de ninhada (varivel discreta) e peso de coelhos desmamados (varivel contnua), respectivamente. Os retngulos do histograma da Figura 8 tm alturas proporcionais s freqncias absolutas e bases constitudas por segmentos cujos extremos representam os limites inferior e superior das classes de freqncias. Para melhorar o entendimento, podemos colocar acima de cada retngulo o valor da freqncia absoluta, relativa ou percentual da respectiva classe de freqncia.
9 8 7 6 Nmero 5 4 3
2 2 1 5 7 6 8 8

2 1 0 1 2 3 4 5 6 7 8 9 Tamanho da ninhada de coelhos


1

Figura 7. Histograma de freqncias absolutas do tamanho de ninhadas de coelhos Uma outra representao grfica que tambm pode ser utilizada com variveis contnuas o chamado Polgono de Freqncias (ver Figura 9), que se obtm unindo-se os pontos mdios dos patamares. Para completar a figura e formar o polgono, consideram-se duas classes laterais com freqncias nulas.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

14 12 10 Freqncia absoluta 8 6 4 2 0 390

490

590

690

790

890

990

1090

1190

Peso de coelhos ao desmame (g)

Figura 8. Histograma de freqncias absolutas dos pesos (em gramas) de coelhos desmamados no primeiro trimestre de 1989.
14 12 10 Freqncia absoluta
8

13

8 6
4 6 6

4 2 0 390
0

490

590

690

790

890

990

1090

1190

Peso de coelhos ao desmame (g)

Figura 9. Polgono das freqncias absolutas dos pesos (em gramas) de coelhos desmamados no primeiro trimestre de 1989.
100 85 80 70 Porcentagem 60

40

38

20 10 0 0 390 490 590

17

690

790

890

990

1090

1190

Peso de coelhos ao desmame (g)

Figura 10. Ogiva de Galton das freqncias percentuais acumuladas dos pesos (em gramas) de coelhos desmamados no primeiro trimestre de 1989.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

10

O grfico mais indicado para descrever as freqncias acumuladas chamado ogiva de Galton. Uma Ogiva de Galton das freqncias percentuais acumuladas definida como uma linha poligonal que une os pontos (li, Fpi), onde li o limite superior e Fpi a freqncia percentual acumulada da classe i. A Figura 10 apresenta a ogiva de Galton dos pesos (em gramas) de coelhos desmamados no primeiro trimestre de 1989. Um procedimento alternativo usado tambm para resumir um conjunto de dados o Diagrama de Ramos-e-Folhas. Este dispositivo , na realidade, uma variao da distribuio de freqncias, com uma forma de apresentao que facilita muito a observao de caractersticas importantes dos dados, tais como: distribuio, simetria, presena de valores discrepantes, concentrao de observaes etc. No dispositivo de ramo-e-folhas, cada linha um ramo e cada valor em uma linha uma folha. O nmero de ramos (linhas) pode ser determinado, aproximadamente, atravs da frmula: R = [10.log(n)] onde [ ] representa o maior nmero inteiro que no ultrapassa o argumento. A Figura 11 ilustra o diagrama de ramo-e-folhas do peso (em gramas) de coelhos desmamados no primeiro trimestre de 1989. Note que na primeira coluna esto os algarismos das centenas e as folhas so formadas por dois algarismos correspondentes s dezenas e unidades dos pesos. Observe tambm que: os valores correspondentes s folhas esto ordenados; uma classe tpica (com maior freqncia) deste conjunto de dados a que inclui pesos de coelhos desmamados entre 800 e 900 gramas; a distribuio levemente assimtrica; o peso de 492 gramas um candidato a valor discrepante (muito pequeno!). 4 5 6 7 8 9 10 92 52 57 16 08 00 00

60 57 27 17 10 00

83 66 31 23 40 00

97 37 30 60 20

99 50 42 60 40

70 42 62

98 60 92

72

72

78

80

83

Figura 11. Ramo-e-folhas dos pesos (em gramas) de coelhos desmamados no primeiro trimestre de 1989.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

11

3. ALGUMAS MEDIDAS ASSOCIADAS A VARIVEIS QUANTITATIVAS J percebemos que a reduo dos dados atravs de diagramas de ramo-e-folhas e tabelas de freqncias fornece mais informaes sobre o comportamento de uma varivel do que a prpria srie original de dados. O problema que se apresenta agora o de analisar essas variveis com o intuito de descrever os seus aspectos mais importantes. Procuraremos resumir ainda mais esses conjuntos de dados, atravs de alguns valores representativos da srie.

3.1. MEDIDAS DE POSIO OU DE TENDNCIA CENTRAL As medidas de posio ou de tendncia central visam determinar o centro de uma distribuio. A seguir, estudaremos, com alguns detalhes, as seguintes medidas de posio: mdia aritmtica, moda e mediana. A mdia aritmtica (Me) definida como a soma das observaes dividida pelo nmero delas. Se uma varivel X assume os valores x1, x2, ..., xn, a mdia da varivel X calculada como: xj + xn x1 + x 2 + j =1 Me(X) = = (1) n n Por exemplo, a mdia aritmtica dos valores 6, 4, 8 e 4 igual a Me(X) = (6+4+8+4)/4 = 5,5. Quando os dados de uma varivel quantitativa discreta (X) so apresentados numa tabela de freqncias, a mdia pode ser calculada atravs da frmula: x f + x 2 f2 + Me(X) = 1 1 n

Por exemplo, a partir da distribuio de freqncias do tamanho das ninhadas, Tamanho da ninhada 1 2 3 4 5 6 7 8 9 Total fi 1 2 7 8 8 6 5 2 1 40

a sua mdia igual a Me(X) =

40

No caso de uma varivel quantitativa contnua, cujos dados esto tabulados numa distribuio de freqncias, a mdia pode ser obtida de modo similar, atravs da frmula: Pm i fi Pm1 f1 + Pm 2 f 2 + + Pm k f k i =1 Me(X) = = , n n onde Pmi o ponto mdio da classe i e considerado o valor mais representativo desta classe.

(1 1 + 1 2 +

+ 9 1)

+ x k fk

xf
=
i =1

i i

(2)

194 = 4,85 coelhos/ninhada. 40

(3)

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

12

Por exemplo, a partir da distribuio de freqncias dos pesos de coelhos ao desmame: Peso (g) 490 | 590 590 | 690 690 | 790 790 | 890 890 | 990 990 | 1090 Total a mdia aritmtica igual a: Me(X) = fi 4 3 8 13 6 6 40 Pmi 540 640 740 840 940 1040 -

A moda (Mo) de uma srie definida como "o seu valor mais freqente. Embora o seu significado seja bastante simples, a moda nem sempre existe e nem sempre nica. Por exemplo, na srie de valores de tamanhos de ninhada (ver Tabela 3), temos duas modas: 4 e 5 (que ocorrem 8 vezes), ou seja, so mais freqentes ninhadas com 4 e 5 coelhos. Dizemos, neste caso, que o tamanho de ninhadas uma srie bimodal. Se quisermos estimar o valor da moda de um conjunto de dados oriundos de uma varivel contnua (X), apresentados numa distribuio de freqncia, podemos utilizar a seguinte frmula:

Mo(X) = Lmo +

(fmo f a ) h (fmo fa ) + (fmo fp )

onde: Lmo o limite inferior da classe modal (de maior freqncia); f mo a freqncia absoluta da classe modal; f a a freqncia absoluta da classe anterior modal; f p a freqncia absoluta da classe posterior modal e h a amplitude da classe modal. Por exemplo, a moda do peso de coelhos ao desmame :

Mo(X) = 790 +

(13 8) 100 (13 8) + (13 6)

= 790 + 41,7 = 831,7 gramas, ou seja, mais freqente en-

contrarmos coelhos desmamados com peso de 831,7 gramas. A mediana (Md) definida como "o valor que ocupa a posio central da srie ordenada segundo sua ordem de grandeza". Desse modo, quando o nmero (n) de valores da srie mpar a mediana igual ao valor que ocupa a posio (n+1)/2 e se n par, a mediana coincide com a mdia aritmtica dos dois valores centrais, que ocupam as posies n/2 e (n+2)/2. Por exemplo, para calcularmos a mediana do tamanho da ninhada precisamos, primeiramente, ordenar os seus valores:
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

(540 4 +

32800 + 1040 6 ) = = 820 gramas. 40 40

(4)

13

1 5

2 5

2 5

3 5

3 5

3 5

3 6

3 6

3 6

3 6

4 6

4 6

4 7

4 7

4 7

4 7

4 7

4 8

5 8

5 9

a mediana do tamanho de ninhadas igual mdia dos valores que ocupam as posies 40/2 = 20 e 42/2 = 21 da srie ordenada, ou seja, Md(X) = (5+5)/2 = 5 coelhos/ninhada. Neste caso, podemos afirmar que 50% das ninhadas tm tamanho inferior (ou superior) a 5 coelhos. No caso de variveis contnuas, quando os dados j esto tabulados numa distribuio de freqncias, a mediana pode ser calculada atravs da frmula: n Fa 2 h Md(X) = Lmd + f md

(5)

onde: Lmd o limite inferior da classe que contem a mediana (classe mediana); n o nmero de elementos da srie; Fa a freqncia acumulada da classe anterior classe mediana; f md a freqncia absoluta da classe mediana e h a amplitude da classe mediana. Usando esta frmula, podemos calcular a mediana do peso de coelhos ao desmame:

40 15 2 Md = 790 + 100 = 790 + 38,5 = 828,5 gramas e podemos afirmar que em 50% das ni13 nhadas encontramos coelhos com peso ao desmame inferior (ou superior) a 828,5 gramas. Qualquer uma das medidas de posio calculadas: Me = 820,0, Mo = 831,7 ou Md = 828,5 gramas pode representar (ou resumir) bem a srie de pesos de coelhos ao desmame. No temos ainda um critrio para decidir qual medida a melhor ou a mais representativa da srie. Alm da mediana existem outras medidas de ordem que tm a propriedade de deixar a sua esquerda uma certa proporo (ou porcentagem) das observaes da srie ordenada. Essas medidas so denominadas, genericamente, de separatrizes ou quantis. As principais separatrizes so os quartis e os percentis. QUARTIS (Qj, j = 1, 2 e 3): so os valores que dividem a srie ordenada em 4 partes iguais e foram utilizados, primeiramente, por GALTON (1882). O quartil inferior (Q1) de uma srie ordenada o valor que deixa 25% dos valores sua esquerda e 75% dos valores sua direita; o quartil superior (Q3) o valor da srie que deixa 75% dos valores sua esquerda e 25% dos valores sua direita. Quando o tamanho da srie (n) um mltiplo de 4, o primeiro quartil (Q1) corresponde mdia entre os valores que ocupam as posies n/4 e (1+n/4) e o terceiro quartil, mdia entre os valores que ocupam as posies 3n/4 e (1+3n/4). Quanto n impar ou no um mltiplo de 4, deveremos usar interpolao (ver exemplo apresentado a seguir).
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

14

PERCENTIS (Pj, j = 1, 2,..., 99) so os valores que dividem a srie ordenada em 100 partes iguais e foram utilizados, primeiramente, por GALTON (1885). O percentil Pj de uma srie ordenada, o valor que deixa j% dos valores da srie sua esquerda e (100-j)% dos valores sua direita. Vale a pena notar que: Q1 = P25; Q2 = Md = P50 e Q3 = P75. No caso de uma varivel discreta, o percentil Pj (ou o quartil Qj) calculado como o valor da n j srie ordenada que ocupa a posio . Para a srie ordenada de tamanhos de ninhada: 100 1 5 2 5 2 5 3 5 3 5 3 5 3 6 3 6 3 6 3 6
o

4 6

4 6
o

4 7

4 7

4 7

4 7

4 7

4 8

5 8

5 9

o quartil inferior (Q1 = P25) a mdia entre o 10 e o 11 valores da srie, ou seja, Q1 = P25 = (3+4)/2 = 3,5 coelhos/ninhada o valor que deixa 25% dos valores da srie ordenada sua direita e 75% sua esquerda; de modo anlogo, o segundo quartil, que corresponde mediana da srie, Q2 = Md = P50 = (5+5)/2 = 5 coelhos/ninhada, deixa 50% dos valores esquerda e 50% dos valores direita; o quartil superior (Q3 = P75) a mdia entre o 30 e o 31 valores da srie, ou seja, Q3 = P75 = (6+6)/2 = 6 coelhos/ninhada o valor que deixa 75% dos valores da srie ordenada sua esquerda e 25% sua direita.
o o

No caso da posio do percentil (ou quartil) no ser um nmero inteiro, devemos usar interpo45 25 o lao. Por exemplo, a posio do 25 percentil de uma srie com n = 45 valores = 11,25. 100 o o Neste caso, P25 = X11 + 0,25 (X12-X11), onde X11 e X12 so, respectivamente, o 11 e 12 valores da srie ordenada. Para variveis contnuas apresentadas em tabelas de freqncias calculamos o j-simo quartil (j = 1, 2 e 3) atravs da frmula: jn Fa Qj = LQj + 4 f Qj h

(6)

onde: LQj o limite inferior da classe que contem o j-simo quartil; j a ordem do quartil; n o nmero de elementos da srie; Fa a freqncia acumulada da classe anterior classe que contem o quartil; f Qj a freqncia absoluta da classe que contem o quartil e h a amplitude desta classe. De maneira anloga, calculamos o j-simo percentil (j = 1, 2, ..., 98, 99) atravs da seguinte frmula: jn Fa Pj = LPj + 100 f Pj h

(7)

Utilizando as frmulas j definidas e a distribuio de freqncias dos pesos de coelhos desmamados (Tabela 4), vamos calcular algumas separatrizes: Q1 = P25 = 690 + P15 = 590 + 10 7 30 28 100 = 727,5g; Q3 = P75 = 890 + 100 = 923,3g. 8 6

64 36 34 100 = 656,7g; P90 = 990 + 100 = 1023,3g. 3 6


Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

15

Freqentemente estamos interessados em saber qual a posio que um determinado valor ocupa numa certa srie ordenada de valores. Se os dados (varivel contnua) j esto agrupados numa distribuio de freqncias, a posio "j" do valor Pj pode ser estimada pela frmula: Pj L Pj fPj 100 + Fa j= h n

(7a)

Ainda no exemplo dos pesos de coelhos desmamados (Tabela 4), queremos calcular a porcentagem de animais com peso superior a 1000g e vamos usar a frmula (7a) para fazermos isso: (1000 990 ) 6 100 + 34 j= = 86,5 100 40 ento, podemos concluir que abaixo de 1000g esto 86,5% dos coelhos e acima deste peso, 13,5%. Algumas consideraes importantes sobre as medidas de posio: a mdia aritmtica a medida mais usada para representar uma srie; a mdia aritmtica bastante influenciada por valores aberrantes ou discrepantes (muito grandes ou muito pequenos), o que no acontece com a moda e a mediana; em se tratando de dados agrupados em classes de freqncias, os valores da mdia, moda e mediana so afetados pela maneira como as classes de freqncias so escolhidas e pela quantidade delas; para distribuies de freqncias unimodais e moderadamente assimtricas vale a relao emprica: Mdia - Moda 3(Mdia - Mediana).

3.2. MEDIDAS DE DISPERSO OU DE VARIABILIDADE As medidas de tendncia central do o valor da abcissa de um ponto, em torno do qual os dados se distribuem. Assim, com a informao de que o tamanho mdio de ninhadas de coelhos aproximadamente igual a 5 coelhos (4,85 coelhos, exatamente), nada podemos concluir sobre a distribuio dos dados ao redor desse valor central. Numa situao mais crtica temos sries diferentes com mdias iguais como, por exemplo, as seguintes sries de idades de trs grupos de alunos: Grupo A: 18 19 19 20 Grupo B: 19 18 17 19 22 Grupo C: 19 19 19 cujas distribuies, em torno da mdia (19 anos), podem ser visualizadas nos grficos: Grupo A
3 2 1 0 17 18 19 20 21 22 Idade (anos) 3 2 1 0 17 18 19 20 21 22 Idade (anos)

Grupo B
3 2 1 0

Grupo C

17 18 19 20 21 22 Idade (anos)

Torna-se conveniente a criao de uma medida de disperso, que resuma a variabilidade de uma srie de valores e que nos permita, por exemplo, comparar diferentes sries quanto a distribuio dos seus valores em torno de uma medida de posio.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

16

Freqentemente, so definidas medidas de disperso em torno da mdia aritmtica, como por exemplo: o desvio mdio, a varincia e o desvio padro, que sero apresentados, com detalhes, a seguir. O Desvio Mdio [DM(X)] de uma varivel quantitativa definido como a soma dos mdulos dos desvios de cada observao em relao mdia, dividida por n, ou seja:

X
DM(X) =
i =1

Me( X) n (8)

A Varincia [Var(X)] definida como a soma dos quadrados dos desvios de cada observao em relao mdia, dividida por n, ou seja:

[X
Var(X) =
i =1

Me( X )] n

(9)

Sendo a varincia uma medida que expressa um desvio quadrtico mdio, sua unidade de medida igual ao quadrado da unidade de medida da varivel estudada. Devido a este fato, convm definirmos uma outra medida de disperso que tenha a mesma unidade de medida da varivel em estudo. Esta medida o Desvio Padro [DP(X)], que corresponde raiz quadrada positiva da varincia, ou seja: DP(X) = + Var( X ) (10)

Tendo sido definidas estas medidas de disperso, podemos calcular os seus valores para os trs grupos de idades: Grupo A: DM(X) = 0,50; Var(X) = 0,50 e DP(X) = 0,7071 Grupo B: DM(X) = 1,20; Var(X) = 2,80 e DP(X) = 1,6733 Grupo C: DM(X) = Var(X) = DP(X) = 0 e podemos dizer que o Grupo C o mais homogneo porque tem os menores valores para o desvio mdio, varincia e desvio padro. O Grupo B o mais heterogneo porque tem os maiores valores para o desvio mdio, varincia e desvio padro. Quando os valores de uma varivel discreta esto agrupados em classes de freqncias, as frmulas de clculo do desvio mdio e da varincia precisam ser adaptadas:

X
DM(X) =
i =1

Me( X) f i n (11)
2

[X
Var(X) =
i=1

Me( X)] f i n (12)

Para os dados de tamanho da ninhada (Tabela 3) temos: DM(X) = Var(X) = DP(X) =

40 40

3,2275 = 1,80 coelhos/ninhada.

(1 4,85)2 (1) +

+ (9 4,85 ) (1)
2

1 4,85 (1) + 2 4,85 (2) +

+ 9 4,85 (1)

= 1,46 coelhos/ninhada

129,10 2 = 3,2275 (coelhos/ninhada) 40

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

17

Quando os valores de uma varivel contnua esto agrupados em classes de freqncias, usamos as seguintes frmulas de clculo do desvio mdio e da varincia:

Pm
DM(X) =
i=1

Me( X) f i n (13)
2

[Pm
Var(X) =
i=1

Me( X)] f i n (14)

Para o peso de coelhos ao desmame temos: DM(X) = Var(X) = DP(X) = 40

21100 = 145,26 gramas .

Uma medida de disperso (relativa) que pode ser usada na comparao de variveis que tenham unidades de medida diferentes o Coeficiente de Variao [CV(X)], que tem como unidade de medida a porcentagem e calculado por: CV(X) = 100 DP( X) Me( X) (15)

O Coeficiente de Variao do tamanho da ninhada CV(X) = (100x1,80)/4,85 = 37,1% e do peso de coelhos ao desmame CV(X) = (100x145,26)/820 = 17,7%. Comparando estas duas variveis quanto ao valor do coeficiente de variao, podemos afirmar que o tamanho da ninhada tem uma disperso relativa maior que o peso de coelhos ao desmame. Uma outra estratgia de anlise, denominada Esquema dos Cinco Nmeros, sugerida por TUKEY (1977), envolve o clculo de cinco medidas: a mediana, os extremos (o menor e o maior valores da srie) e os quartis (ou juntas) inferior e superior. Por exemplo, para o tamanho da ninhada, temos: Q1 = 3,5; Q3 = 6; Md(X) = 5 e os extremos inferior e superior so 1 e 9, respectivamente. Para a distribuio de freqncias do peso de coelhos ao desmame (Tabela 4), temos: Q1 = 727,5g; Md = 828,5g; Q3 = 923,3g e os extremos inferior e superior so 490 e 1040g, respectivamente. O Esquema dos Cinco Nmeros dessas duas variveis so representados por: (a) Tamanho da ninhada n=40 Md(X) J 3,5 1,0 5 6,0 9,0 Md(X) J 727,5 490,0 828,5 923,3 1090,0 (b) Peso de coelhos ao desmame n=40

As informaes contidas no Esquema dos Cinco Nmeros podem ser traduzidas num Desenho Esquemtico ou Box-Plot, que tem as seguintes caractersticas: a) o grosso das observaes est numa caixa retangular de amplitude df = Q3 - Q1, que chamado intervalo inter-quartlico; b) um trao transversal na caixa indica a posio da mediana Md(X) = Q2;

(540 820 )2 ( 4) +

540 820 4 +

1040 820 6
2

= 115 gramas

844.000 + (1040 820 ) (6) 2 = = 21.100 gramas 40 40

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

18

c) os valores Q1 1,5df e Q3 + 1,5df so chamados de limites crticos inferior e superior da srie, respectivamente; d) a partir de Q3 (e de Q1 ) traada uma linha paralela ao eixo das abcissas at o ponto mais afastado da srie, que pode ser o limite crtico superior (e inferior) ou at o maior (e menor) valor observado; e) a posio dos limites crticos ou dos extremos marcada com traos verticais; f) os valores da srie que se localizarem alm (ou aqum) do limite crtico superior (ou inferior) so identificados no grfico com um crculo cheio (ou um x ou um asterisco) e so chamados outliers ou valores discrepantes.

Figura 12. Exemplo de um desenho esquemtico ou box-plot O Box-plot permite a comparao de diferentes conjuntos de dados atravs de algumas caractersticas de sua distribuio (simetria e disperso, por exemplo), alm de indicar a presena de pontos discrepantes (outliers) que se destacam no conjunto de valores. A localizao da srie representada pela mediana; o comprimento da caixa mostra-nos qual a disperso dos dados e, a partir da localizao da mediana e dos quartis inferior e superior, inferimos qual o tipo de assimetria da distribuio. Neste caso, se a mediana est mais perto do quartil inferior do que do quartil superior, h uma indicao de que a distribuio tem uma assimetria positiva (ou direita).

10 8

1150 1050 950

6 4 2

850 750 650 550

Tamanho da ninhada

450

Peso ao desmame (g)

Figura 13. Desenhos esquemticos do tamanho da ninhada e do peso de coelhos ao desmame

Para a construo do box-plot do peso ao desmame temos: menor valor 490,0g e maior valor 1040g df = 923,3-727,5 = 195,8g; limite crtico inferior: Q1 - 1,5df = 727,5 - 1,5x195,8 = 433,8g; limite crtico superior: Q3 + 1,5df = 923,3 + 1,5x195,8 = 1217,0g; as linhas horizontais traadas a partir de Q1 e de Q3 encontram primeiramente o menor (490,0) e o maior (1040,0) valores, respectivamente; a posio desses valores deve ser indicada com traos verticais;
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

19

Baseado nos box-plots apresentados na Figura 13, podemos afirmar que: tanto a srie de dados de tamanho de ninhadas quanto de pesos ao desmame so levemente assimtricas direita, a primeira um pouco mais que a ltima; nenhuma das sries apresenta valores discrepantes ou outliers.

3.3. MEDIDAS DE ASSIMETRIA E DE ACHATAMENTO Uma distribuio de freqncias chamada simtrica em torno de um valor A, (que geralmente uma medida de posio), se todos os pontos eqidistantes deste valor tiverem a mesma freqncia. Assimetria (ou skewness) definido como o grau do desvio ou de afastamento da simetria de uma distribuio. Se a curva de freqncias da distribuio tem uma cauda mais longa direita (Figura 14.a), dizemos que a distribuio tem uma assimetria positiva ou direita; se tem uma cauda mais longa esquerda (Figura 14.b), diz-se que tem uma assimetria negativa ou esquerda.

(a) assimetria positiva ou direita (b) assimetria negativa ou esquerda Figura 14. Exemplo de distribuies assimtricas

Baseado no fato de que em distribuies assimtricas a mdia tende a situar-se entre a moda e a cauda mais longa, Pearson props o seguinte coeficiente de assimetria, que baseado na diferena entre a mdia e a moda: sk = Me( X) Mo( X ) DP( X) (16)

Baseado no valor dessa medida, uma distribuio : assimtrica negativa ou tem uma assimetria negativa(ou esquerda), se sk < 0; simtrica se sk = 0 e assimtrica positiva ou tem uma assimetria positiva (ou direita), se sk > 0. Para a distribuio dos pesos de coelhos ao desmame, temos que o seu coeficiente de assimetria sk = (820 - 831,7)/145,26 = -0,08. Avaliando este valor e a Figura 8, podemos dizer que a distribuio de pesos de coelhos ao desmame levemente assimtrica esquerda, ou tem uma leve assimetria negativa.

Define-se como Curtose o grau de achatamento de uma distribuio (ver Figura 14). Quanto ao grau de achatamento uma distribuio chamada: leptocrtica: quando ela tem um topo relativamente alto; mesocrtica: quando ela tem um topo nem muito alto nem muito achatado, e platicrtica: quando ela tem o topo muito achatado.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

20

Para variveis quantitativas, podemos calcular o Coeficiente de Curtose, que baseado no quarto momento centrado na mdia: 1 n g2 = 1 n

[X
i =1 n i =1 i

Me( X)

[X

Me( X)

(17)

Quando os dados da varivel contnua estiverem tabulados numa distribuio de freqncias, o coeficiente de curtose calculado atravs de: 1 n 1 n

[Pm
i=1 k i i=1

Me( X)] fi
4

g2 =

[Pm

Me( X)]

fi

(18)

Comparativamente distribuio normal, que tem coeficiente de curtose g2 = 3, definimos como leptocrtica uma distribuio com g2 > 3; como platicrtica, uma distribuio com g2 < 3 e como mesocrtica uma distribuio com g2 3.

Figura 15. Exemplo de distribuies com diferentes graus de achatamento ou curtose.

19,2324 = 1,85, ou 10,4168 seja, a distribuio de tamanhos de ninhada platicrtica. Para os dados de peso de coelhos ao 1.084 .120 .000 desmame (Tabela 4, pgina 7) temos que g2 = = 2,44, ou seja, a distribuio de pesos 445.210.000 ao des-mame levemente achatada, pois o valor do coeficiente de achatamento est prximo de 3. Comparati-vamente, a distribuio de dados de tamanhos de ninhada mais achatada que a de pesos de coelhos ao desmame. Para os dados de tamanho de ninhada (Tabela 3, pgina 6) temos g2 =

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

21

4. PROBABILIDADES At a aula anterior preocupamo-nos em descrever as caractersticas principais de fenmenos casuais, atravs de grficos, distribuies de freqncias e medidas de tendncia central, de disperso, de assimetria e de achatamento das variveis associadas a esses fenmenos. Com base nesses valores pudemos entender o comportamento de alguns conjuntos de dados. A partir de agora, com suposies adequadas e sem observar o fenmeno, iremos criar um modelo terico que reproduza bem a distribuio de freqncias dos dados observados. Tais modelos so chamados de Modelos Probabilsticos. Historicamente, a Teoria da Probabilidade comeou a ser desenvolvida por volta de 1650, com Pascal, juntamente com o estudo de jogos de azar (roleta, dados, cartas, etc.). Esses jogos envolvem duas caractersticas bsicas: a incerteza e a regularidade. Assim, ao lanarmos um dado no certo que aparea a face 1. Entretanto, se repetirmos esse experimento muitas vezes, esperamos que todas as faces do dado ocorram um nmero igual (ou bem prximo) de vezes. Essas caractersticas criaram a idia de que seria possvel achar uma frmula que permitisse ao jogador ganhar sempre ou, pelo menos, ganhar muitas vezes. Sabemos (?) que isso no possvel, porem essa idia incentivou o estudo de tais jogos, o que levou, mais tarde, formulao da Teoria da Probabilidade, que a base da Inferncia Estatstica.

4.1. DEFINIES INICIAIS O conjunto de todos os resultados possveis de um experimento aleatrio chamado de espao amostral e denotado pela letra S (ou pela letra grega omega, ). Um elemento de S chamado de ponto amostral. Evento qualquer subconjunto do espao amostral, S, sendo representado por letras maisculas. O evento que consiste de um nico ponto amostral chamado evento elementar ou evento simples. O conjunto vazio, denotado pela letra grega (fi), chamado evento impossvel e S, o espao amostral, chamado de evento certo. Exemplo 4.1. Um experimento consiste em sortear trs leites de uma certa ninhada e anotar o sexo de cada um deles (M para macho e F para fmea). Os resultados possveis desse experimento so: S = {MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF} Os eventos A: "o primeiro leito macho" e B: "somente dois dos leites so machos" so representados pelos conjuntos: A = {MMM, MMF, MFM, MFF} e B = {MMF, MFM, FMM} Podemos combinar dois eventos quaisquer, A e B, usando as operaes de conjuntos, que j so bastante conhecidas: (i) a unio dos eventos A e B um novo evento, denotado por A B, que formado pelos elementos que so de A, de B ou de ambos; (ii) a interseo dos eventos A e B um novo evento, denotado por A B, que formado pelos elementos que so de A e de B, simultaneamente. (iii) o complementar do evento A em relao ao espao amostral, S, um novo evento, denotado c por A , que formado por todos os elementos que no so de A; (iv) a diferena entre os eventos A e B um novo evento, A-B, formado pelos elementos de A que no pertencem a B. Dizemos que dois eventos A e B so mutuamente exclusivos ou disjuntos se no tm pontos amostrais comuns, ou seja, se A B=. Dois eventos, A e B, so chamados exaustivos se juntos (unidos) formarem o espao amostral, ou seja, A B = S.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

22

Usando os eventos A e B do Exemplo 4.1. temos: (c) A = {FMM, FFM, FMF, FFF} (d) A-B = {MMM, MFF} (e) B-A = {FMM} Do item (a) conclumos que os eventos A e B no so exaustivos e do item (b), que no so mutuamente exclusivos. As operaes entre eventos possuem propriedades anlogas quelas vlidas para operaes entre conjuntos. Por exemplo: (e) A = A (i) A = S - A
c c

Para melhor visualizar as operaes entre eventos podemos utilizar os Diagramas de Venn.

Figura 16. Diagramas de Venn: unio e interseo de dois eventos e evento complementar.

4.2. AXIOMAS DE PROBABILIDADE A definio clssica de probabilidade, que remonta dos estudos de jogos de azar, a seguinte: "Suponha que um evento A possa ocorrer de k maneiras diferentes num total de n maneiras possveis e igualmente provveis. Ento, a probabilidade de ocorrncia do evento A definida como a freqncia relativa k/n" Essa definio clssica dbia, pois a idia de "igualmente provveis" a mesma de "com probabilidades iguais", a qual no foi definida anteriormente. Portanto, esta definio no serve para a construo de modelos tericos, embora sirva para calcularmos probabilidades em espaos finitos equiprovveis. Por exemplo, se S = {s1, s2, ..., sn} um espao amostral finito e equiprovvel (isto , todos os pontos amostrais tm a mesma probabilidade 1/n de ocorrer) e A um evento com k pontos amostrais (k<n), ento P(A) = k/n. O tratamento moderno da Teoria da Probabilidade puramente axiomtico (axioma uma verdade evidente e incontestvel): "Sejam S um espao amostral, E uma classe de eventos e P uma funo de valor real definida em E. Ento P chamada funo de probabilidade e P(A), a probabilidade do evento A, se os seguintes axiomas so vlidos: a) 0 < P(A) < 1, para qualquer evento A; b) P(S) = 1; c) P(A B) = P(A) + P(B), se A e B so eventos mutuamente exclusivos; d) Se A1, A2,... uma seqncia de eventos mutuamente exclusivos, ento, vale a igualdade: P(A1 A2 ...) = P(A1) + P(A2) + ..."

A B

A B

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

(f) A =

(g) A S = S

(h) A S = A

(a) (A B) = A

(b) (A B) = A

(c) A A = S

(a) A B = {MMM, MMF, MFM, MFF, FMM}

(b) A B = {MMF, MFM}

(d) A A =
c

Ac

23

Desses axiomas, resultam alguns teoremas bastante importantes: Teorema 1. P() = 0 c Teorema 2. P(A ) = 1 - P(A) Teorema 3. Se AB ento P(A) < P(B) Teorema 4. P(A-B) = P(A) - P(A B) Teorema 5. P(A B) = P(A) + P(B) - P(A B), chamado Teorema da Soma de Eventos. Exemplo 4.2. Escolha aleatoriamente uma carta de um baralho comum de 52 cartas. Sejam os eventos A: "a carta sorteada de espadas" e B: "a carta sorteada uma figura". Ento, a probabilidade de ocorrncia de cada um desses eventos : 13 12 0,2308 = 0,25 e P(B) = 52 52 A probabilidade da ocorrncia simultnea de A e B, ou seja, da carta sorteada ser uma figura de espa3 0,0577 e a probabilidade da carta sorteada ser de espadas ou uma figura das igual a P(A B) = 52 13 12 3 22 0,4231, ou seja, se repetirmos o igual a P(A B) = P(A) + P(B) - P(A B) = + = 52 52 52 52 sorteio de uma carta do baralho 1000 vezes, acreditamos que em aproximadamente: P(A) = 250 das vezes, encontraremos uma carta de espadas; 231 das vezes, encontraremos uma figura; apenas 58 das vezes, encontraremos uma figura de espadas; em 423 das vezes, obteremos uma carta de espadas ou uma figura.

4.3. PROBABILIDADE CONDICIONAL E INDEPENDNCIA Definio 4.1. Para dois eventos quaisquer A e B, com P(B)>0, a probabilidade do evento A ocorrer, dado que o evento B j ocorreu, ou a probabilidade condicional de A dado B, definida por: P(AB) = P(A B) P(B)

Atravs desse diagrama de Venn, podemos perceber que P(AB) avalia a probabilidade relativa de A, com respeito ao espao amostral reduzido B. A informao sobre a ocorrncia de B promoveu essa reduo do espao amostral. Para o Exemplo 4.1. a probabilidade do primeiro leito ser um macho, dado que somente dois P(MMF,MFM) 2 0,6667. J para o Exemplo 4.2, dos leites so machos igual a P(AB) = = P(MMF,MFM,FMM) 3 a probabilidade da carta sorteada ser de espadas, dado que a carta uma figura igual a P(AB) = 3 / 52 1 = = 0,25 = P(A) , ou seja, a ocorrncia do evento B no influenciou na ocorrncia do evento 12 / 52 4 A, ou seja, podemos dizer que os eventos A e B so independentes.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

(19)

24

Definio 4.2. Um evento B dito independente de um outro evento A, se a probabilidade de B ocorrer no influenciada pelo fato de A j ter ocorrido ou no, isto , A independente de B se e somente se P(B) = P(BA) ou P(A) = P(AB) Se multiplicarmos em cruz a equao da probabilidade condicional e usarmos o fato de que A B = B A, obteremos a frmula geral para o clculo da probabilidade da multiplicao de dois eventos A e B: que chamada Teorema da multiplicao de dois eventos A e B. Vale observar que, se os eventos A e B forem independentes, a probabilidade da ocorrncia simultnea dos eventos A e B calculada por: P(A B) = P(A) P(BA) = P(A) P(B). Para o Exemplo 4.1, a probabilidade do primeiro leito ser um macho e somente dois dos leites sorteados serem machos, igual a: P(A B) = P(B) P(AB) = (3/8) (2/3) = 1/4 = 0,25. J para o Exemplo 4.2, a probabilidade de uma carta sorteada ser de espadas e ser tambm uma figura igual a P(A B) = P(A) P(B) = (13/52)(12/52) = 3/52 0,05769. Exemplo 4.3. Consideremos trs baias da granja de sunos com as caractersticas: Baia 1: 10 leites, 4 dos quais j foram vacinados; Baia 2: 6 leites, 1 dos quais j foi vacinado; Baia 3: 8 leites, 3 dos quais j foram vacinados. O experimento consiste em selecionar uma das trs baias e desta baia sortear um leito. Qual a probabilidade deste leito sorteado j estar vacinado? Para descrevermos todas as possibilidades deste experimento podemos usar um Diagrama de rvore. Neste diagrama, os nmeros 1, 2 e 3 identificam as baias, e as letras V e N identificam um leito j vacinado ou no, respectivamente. EVENTO PROBABILIDADE (1/3)(4/10) = 48/360 0,1333 (1/3)(6/10) = 72/360 0,2000 (1/3) (1/6) = 20/360 0,0556 (1/3) (5/6) = 100/360 0,2778 (1/3) (3/8) = 45/360 0,1250 (1/3) (5/8) = 75/360 0,2083

A probabilidade de ocorrer um determinado caminho do diagrama igual ao produto das probabilidades encontradas em cada ramo do caminho (Teorema da Multiplicao). Por exemplo: a probabilidade de escolhermos a Baia 1 e depois sortearmos um leito vacinado, igual a: P(1 V) = P(1)xP(V1) = (1/3)x(4/10) = 48/360 0,1333. Como no diagrama acima existem trs eventos (caminhos) que so mutuamente exclusivos e que nos levam a um leito vacinado, a probabilidade do leito sorteado j estar vacinado P(V) = P(1 V) + P(2 V) + P(3 V) = (1/3)x(4/10) + (1/3)x(1/6) + (1/3)x(3/8) = 113/360 P(V) = 0,3139

P(A B) = P(B A) = P(B) P(AB) = P(A) P(BA)

(20)

1 1 2 2 3 3

V N V N V N

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

25

e consequentemente, temos que: P(N) = 1 - P(V) = 1 - (113/360) = 247/360 P(N) = 0,6861 ou seja, a probabilidade de um leito sorteado j ter sido vacinado 0,3139 e de ainda no ter sido vacinado 0,6861.

4.4. FRMULA DE BAYES Suponhamos que os eventos A1, A2, ..., Ak formem uma partio do espao amostral S, isto , os eventos Ai so mutuamente exclusivos e exaustivos. Seja B um outro evento qualquer. Ento: B=B S = (B A1) (B A2)

onde os eventos (B Ai), para i = 1, 2, ..., k, so tambm mutuamente exclusivos. Consequentemente, temos que: P(B) = P(B A1) + P(B A2) + ... + P(B Ak) Usando o Teorema da Multiplicao de eventos, podemos escrever: P(B) = P(A1)xP(BA1) + P(A2)xP(BA2) + ... + P(Ak)xP(BAk) e ento, a probabilidade condicional de um evento Ai dado que o evento B j ocorreu, calculada pela seguinte frmula, chamada Frmula de Bayes: P(AiB) = P( A i )xP(B A i ) P(B Ai ) = P(B) P(B)

ou seja, para calcularmos a P(AiB) dividimos a probabilidade do caminho Ai B pela probabilidade do espao amostral reduzido B, formado por todos os caminhos que levam a este evento. No Exemplo 4.3 queremos calcular agora, a probabilidade do leito sorteado ser da baia 1, sabendo que ele j foi vacinado. Pela Frmula de Bayes temos: P(1V) = P(1)xP( V 1) P(1 V ) (1 / 3)x( 4 / 10 ) 48 0,4248 = = = 113 P( V ) P( V ) (113 / 360 )

ou seja, sabendo-se que um leito est vacinado, a probabilidade dele ter sido sorteado da baia 1 igual a 0,4248. De maneira anloga, calculamos tambm as probabilidades do leito sorteado ser da baia 2 e da baia 3, j sabendo que ele est vacinado: P(2V) = P(3V) = P(2)xP( V 2) P( V ) P(3 )xP( V 3) P( V ) = = (1 / 3)x(1 / 6) 20 0,1770 = 113 (113 / 360 ) (1 / 3)x(3 / 8) 45 0,3982. = 113 (113 / 360 )

Vale a pena observar que os eventos (1V), (2V) e (3V) so mutuamente exclusivos e que pelo fato de P(1V) + P(2V) + P(3V) = 0,4248 + 0,1770 + 0,3982 = 1, eles tambm so considerados exaustivos.

= B (A1

A2

... Ak) ... (B Ak)

(21)

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

26

5. VARIVEIS ALEATRIAS DISCRETAS Embora os experimentos aleatrios envolvam variveis qualitativas e quantitativas, os recursos disponveis para o estudo e anlise das variveis quantitativas so muito mais ricos e numerosos. Isto sugere o uso de artifcios para transformar variveis qualitativas em quantitativas. Por exemplo: em experimentos genticos com flores de ervilhas, a cor das ptalas pode ser branca, vermelha ou rosa. Da gentica sabemos que essas cores so devidas a dois alelos, W e R, de um determinado locus. Desse modo temos a seguinte associao: WW = flor branca, WR ou RW = flor rosa e RR = flor vermelha e o espao amostral do experimento pode ser escrito como S = {WW, WR, RW, RR}. Para quantificar esses resultados podemos associar a cada ponto amostral o nmero de alelos R. Associamos o nmero 0 ao ponto WW, o nmero 1 aos pontos WR e RW e o nmero 2 ao ponto RR. Definio 5.1. A funo que associa a cada ponto do espao amostral um nmero real chamada varivel aleatria (v.a.). Assim, para a v.a. X = "nmero de alelos R" temos que: X(WW) = 0, X(WR) = X(RW) = 1, e X(RR) = 2. O domnio da v.a. X o conjunto D(X) = {WW, WR, RW, RR} = S e a imagem, o conjunto dos nmeros inteiros I(X) = {0, 1, 2}. Definio 5.2. Chamamos de varivel aleatria discreta toda funo definida no espao amostral S (ou ) que assume valores num conjunto enumervel de pontos do conjunto real. Exemplo 5.1 Em um piquete existem dois bezerros Gir (G) e trs Nelore (N). Sorteamos, sem reposio, dois desses animais para serem submetidos a um tratamento com carrapaticida. Neste caso, o espao amostral S = {GG, GN, NG, NN}. Utilizando o diagrama de rvore poderemos calcular as probabilidades de ocorrncia de cada resultado:

Evento G G G N N G N N

Probabilidade (2/5)(1/4) = 1/10 (2/5)(3/4) = 3/10 (3/5)(2/4) = 3/10 (3/5)(2/4) = 3/10

Definindo a v.a. X = "nmero se bezerros Gir na amostra", podemos construir a seguinte distribuio de probabilidades: x P(X=x) 0 3/10 1 6/10 2 1/10

ou seja, a probabilidade do nmero de bezerros Gir na amostra ser igual a zero 3/10, igual a um 6/10 e igual a dois 1/10. Definio 5.3. Chamamos de Funo de Probabilidade (f.p.) da v.a. discreta X, que assume os valores x1, x2, ..., xn, a funo P(xi) que associa a cada valor xi da varivel aleatria X, sua probabilidade de ocorrncia, isto , P(xi) = P(X = xi) = pi (Vale notar que p1 + p2 + ...+ pn = 1).

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

27

Exemplo 5.2. Um jogador lana um dado no viciado. Se ocorrer um nmero primo (1, 2, 3 ou 5) ele ganha este nmero de reais, mas se ocorrer um nmero que no seja primo (4 ou 6), ele perde este nmero de reais. Para trabalharmos este exemplo, definiremos a v.a. X = "nmero de reais que o jogador ganha por lanamento do dado ", que pode assumir os valores 1, 2, 3, -4, 5 e -6. A distribuio de probabilidades desta v.a., assumindo que o dado no viciado, est apresentada a seguir: Face do dado xi P(X = xi) 1 1 1/6 2 2 1/6 3 3 1/6 4 -4 1/6 5 5 1/6 6 -6 1/6

ou ento, de uma forma mais resumida: xi P(X = xi) -6 1/6 -4 1/6 1 1/6 2 1/6 3 1/6 5 1/6

5.1. VALOR ESPERADO DE UMA VARIVEL ALEATRIA DISCRETA Definio 5.4. Dada uma v.a. discreta X, assumindo os valores x1, x2,... , xn, com as respectivas probabilidades p1, p2, ..., pn, chamamos de valor mdio ou esperana matemtica da v.a. X, o valor numrico calculado atravs da frmula: E(X) =

i=1

x iP( X = x i ) =

x p
i=1 2

i i

(22)

chamamos de varincia da v.a. X o valor calculado atravs da frmula: Var(X) =

[x
i=1

E( X)] p i

(23)

e chamamos de desvio padro da v.a. X o valor calculado atravs da frmula: DP(X) = Var( X ) (24)

O clculo da varincia de X pode ser feito de maneira mais simples se utilizarmos a seguinte frmula alternativa, que envolve um nmero menor de operaes aritmticas: Var(X) = E[X ] - [E(X)] ,
2 2

onde E[X ] =

x
i=1

2 i pi

(25)

Desejamos resolver agora o problema do jogador de dados do Exemplo 5.2, que deseja saber quanto ele vai conseguir ganhar, em mdia, por lanamento do dado. Com base na distribuio de probabilidades acima, podemos calcular o ganho mdio por jogada: Ganho mdio = (1)(1/6) + (2)(1/6) + (3)(1/6) + (-4)(1/6) + (5)(1/6) + (-6)(1/6) = [1+2+3+(-4)+5+(-6)](1/6) = 1/6 0,17 reais ou seja, o jogador deve ganhar, em mdia, R$ 0,17 por lanamento do dado. Utilizando a frmula alternativa (25) para calcular a varincia da v.a. X, temos: 2 2 Var(X) = E(X ) - [1/6] , pois E(X) = 1/6 E(X ) = (1) (1/6) + (2) (1/6) +...+ (-6) (1/6) = 91/6 2 Var(X) = 91/6 - 1/36 = 545/36 = 15,14 reais
2 2 2 2

DP(X) =

545 / 36 = 3,89 reais.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

28

No Exemplo 5.1 podemos calcular a esperana, a varincia e o desvio padro do nmero de bezerros Gir na amostra, usando as frmulas apresentadas acima: E(X) = 0(3/10) + 1(6/10) + 2(1/10) = 8/10 = 0,8 bezerros Var(X) = (0-0,8) (3/10) + ... + (2-0,8) (1/10) = 0,360 bezerros
2 2 2

DP(X) =

0,360 = 0,6 bezerros.

5.2. ALGUMAS PROPRIEDADES DA ESPERANA MATEMTICA Podemos provar que para uma v.a. X (discreta ou contnua) e um nmero k R, valem as seguintes propriedades: a) E(X + k) = k + E(X) b) E(kX) = kE(X) c) Var(k + X) = Var(X) d) Var(kX) = k Var(X) e) DP(k + X) = DP(X) f) DP(kX) = kDP(X) Ao invs de provarmos algebricamente essas propriedades, faremos apenas uma verificao numrica, utilizando os dados do Exemplo 5.2. Situao 1: a banca resolve presentear o jogador com 1 cruzeiro por lanamento, independente do resultado obtido. A distribuio de probabilidades dessa nova v.a. Y = X+1 : xi yi = xi+1 P(yi) 1 2 1/6 2 3 1/6 3 4 1/6 -4 -3 1/6 5 6 1/6 -6 -5 1/6
2

Neste caso, o ganho mdio por lanamento ser igual a: E(Y) = E(X+1) = [(2) + (3) + (4) + (-3) + (5) + (-5)](1/6) = 7/6 E(Y) = 1,17 reais/jogada e a propriedade (a) est verificada, pois E(Y) = E(X+1) = 7/6 = E(X)+1. Calculando o valor da varincia e do desvio-padro do ganho mdio por lanamento, obtemos: 2 2 Var(Y) = Var(X+1) = E[(Y) ] - (7/6) , pois E(Y) = E(X+1) = 7/6

e as propriedades (c) e (e) esto verificadas, pois os valores da varincia e desvio padro no se alteraram quando somamos uma constante (k = 1) a todos os valores da v.a.. Vale observar que nessa situao, onde a banca resolve presentear o jogador com 1 real em cada lanamento, o jogo de dados passa a ser mais favorvel ao jogador, proporcionando um ganho mdio esperado de R$1,17 por lanamento. Situao 2: a banca e o jogador resolvem dobrar as apostas. A distribuio de probabilidades dessa nova v.a. Z = 2X : xi zi = 2xi P(zi) 1 2 1/6 2 4 1/6 3 6 1/6 -4 -8 1/6 5 10 1/6 -6 -12 1/6

Neste caso, o ganho mdio por lanamento :


Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

mas E[(Y) ] = 2 (1/6) + ... + (-5) (1/6) = 99/6 2 Var(Y) = Var(X+1) = 99/6 - 49/36 = 545/36 = 15,14 reais
2 2 2

DP(Y) = DP(X+1) =

545 / 36 = 3,89 reais

29

E(Z) = E(2X) = (2).(1/6) + 4.(1/6) + ... + (-12).(1/6) = 2/6 E(Z) = 0,33 reais/lanamento e a propriedade (b) est verificada, pois E(Z) = E(2X) = 2/6 = 2E(X). Calculando a varincia e o desvio padro da v.a. Z = 2X obtemos: 2 2 Var(Z) = Var(2X) = E[(Z) ] - (2/6) , pois E(2X) = 2/6 mas E[(Z) ] = (2) (1/6) + ... + (-12) (1/6) = 364/6 2 Var (Z) = Var(2X) = 364/6 - 4/36 = 2180/36 = 60,56 reais
2 2 2

e, assim as propriedades (d) e (f) tambm esto verificadas, pois Var(Z) = Var(2X) = 4Var(X) e DP(2X) = 2DP(X). A Esperana Matemtica pode ser pensada como uma mdia ponderada. Ainda, se considerarmos cada valor da v.a. X como a abcissa de um ponto em um eixo real e interpretarmos P(x) como a massa ou o peso concentrado no ponto x, a abcissa E(X) pode ser entendida como o centro de gravidade do sistema, e a varincia - Var(X) - como o momento de inrcia. Por exemplo, se considerarmos uma v.a. X que pode assumir os valores x1, ..., x10, cujas probabilidades so proporcionais s colunas (massas") apresentadas na figura abaixo, a esperana matemtica desta varivel corresponde ao valor x6.
0,20

5.3. FUNO DE DISTRIBUIO ACUMULADA Definio 5.5. Dada a v.a. X que pode assumir os valores x1, ..., xn, com probabilidades pi = P(X=xi), respectivamente, definimos a funo de distribuio acumulada (f.d.a.) ou, simplesmente, a funo de distribuio de probabilidades da v.a. X, como: F(xi) = P(X xi). Essa funo monotnica no decrescente e o seu grfico tem a forma de uma escada. utilizada no clculo de probabilidades e tambm em testes de aderncia de modelos probabilsticos. Como exemplo, calcularemos a funo de distribuio de probabilidades da v.a. X do Exemplo 5.2. Utilizando a Definio 5.5, obtemos: 0, se x < -6 1 / 6, se - 6 x < -4 2 / 6, - 4 x < 1 F(xi) = 3 / 6, se 1 x < 2 4 / 6, se 2 x < 3 5 / 6, se 3 x < 5 1, se 5 x
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

DP(Z) = DP(2X) =

2180 / 36 = 7,78 reais

0,15

0,15

0,15

0,10

0,1

0,1

0,1

0,1

0,1

0,05

0,05

0,05

0,05

0,00 x1 x2 x3 x4 x5

E(X)

x6

x7

x8

x9

x10

Figura 17. Histograma da distribuio de probabilidades da v.a. X.

30

cujo grfico est apresentada na Figura 18.


1.0

0.8

Probabilidade

0.6

0.4

0.2

0.0 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 Nmero de reais ganhados por lanamento do dado

Figura 18. Funo distribuio do nmero de reais ganhados por lanamento do dado.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

31

6. ALGUNS MODELOS PROBABILSTICOS PARA V.A. DISCRETAS Algumas v.a. adaptam-se muito bem a uma srie de problemas prticos. Como aparecem com bastante freqncia, justificam um estudo mais pormenorizado de suas funes de probabilidades. Para facilitar o clculo de probabilidades existem tabelas prprias que fornecem as distribuies de probabilidades dos modelos mais comuns, em funo de seus respectivos parmetros. A seguir, apresentaremos alguns modelos, enfatizando as condies em que eles aparecem e so usados, sua funo de probabilidade e parmetros. 6.1. O MODELO BINOMIAL Consideremos n repeties independentes de um experimento com dois resultados possveis (Experimento de Bernoulli): um desses resultados chamaremos de sucesso e o outro de fracasso. Admitiremos tambm que a chance de ocorrer um sucesso p = P(sucesso) e a chance de ocorrer um fracasso q = 1-p = P(fracasso). Exemplo 6.1. Consideremos uma baia com 3 leites, que podem estar doentes (D) ou sos (S). Neste caso o espao amostral : S = {DDD, DDS, DSD, SDD, DSS, SDS, SSD, SSS}. Consideremos tambm a v.a. discreta X = "nmero de leites doentes" e P(sucesso) = P(D) = p. Ento: 3 P(X=0) = P(SSS) = qqq = q P(X=2) = P(SDD DSD DDS) = ppq + ppq + pqq = 3p q 3 P(X=3) = P(DDD) = ppp = p Se a probabilidade do leito estar doente nessa poca do ano igual a 20%, ou seja, p = 0,20 e q = 0,80, temos: 3 P(X=0) = (0,80) = 0,512 2 P(X=1) = 3(0,20)(0,80) = 0,384 2 P(X=2) = 3(0,20) (0,80) = 0,096 3 P(X=3) = (0,20) = 0,008 e a distribuio de probabilidades da v.a. X fica: x P(X=x)

Baseado nesta distribuio de probabilidades, podemos calcular a mdia e a varincia da v.a. X, utilizando as frmulas convenientes: E(X) = 0.(0,512) + ... + 3.(0,008) = 0,60 leites doentes E(X ) = 0 .(0,512) + ... + 3 .(0,008) = 0,84
2 2 2

Var(X) = 0,84 - (0,60) = 0,48 leites Vale notar que este problema teve uma soluo relativamente simples e pouco trabalhosa. Porm, se o estudo fosse realizado em baias com um nmero maior de leites, a enumerao de todos os casos possveis e o clculo das probabilidades ficariam impraticveis. Para resolver tais problemas, que envolvem quaisquer valores de n e p, usaremos o modelo probabilstico chamado Modelo Binomial.
2 2

Teorema 6.1. A probabilidade de ocorrncia de k sucessos em n repeties independentes de um experimento de Bernoulli com p = P(sucesso), dada por: n P(X = k) = pk (1 p)nk , k n n! para k = 0, 1, 2, ..., n, e = k !(n k)! k (26)

Os parmetros do modelo binomial so: n (nmero de repeties) e p (probabilidade de sucesso) e a notao usual para a distribuio binomial X ~ B(n, p). Pode ser provado que, se a varivel aleatria X ~ B(n, p), ento: E(X) = np e Var(X) = np(1p) = npq.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

P(X=1) = P(DSS

SDS

SSD) = pqq + pqq + pqq = 3pq


2

0 0,512

1 0,384

2 0,096

3 0,008

32

Exemplo 6.2. Suponhamos que a baia em estudo tenha 6 animais e que a probabilidade de um leito estar doente nesta poca do ano seja p = 0,40. Ao invs de enumerarmos todas os casos possveis e a partir da calcularmos as probabilidades, como fizemos no Exemplo 6.1, utilizaremos o Teorema 6.1 para executar tais clculos. Ento: 6 P(X = 0) = 0,40 0 (1 0,40) 6 = 0,047 0 6 P(X = 1) = 0,40 1 (1 0,40 ) 5 = 0,187 1 6 P(X = 2) = 0,40 2 (1 0,40) 4 = 0,311 2 6 P(X = 3) = 0,40 3 (1 0,40) 3 = 0,276 3 6 P(X = 4) = 0,40 4 (1 0,40 ) 2 = 0,138 4 6 P(X = 5) = 0,40 5 (1 0,40 )1 = 0,037 5 6 P(X = 6) = 0,40 6 (1 0,40 ) 0 = 0,004 6 a distribuio de probabilidades da v.a. X ~ B(6, 0,40) fica: x P(X=x) 0 0,047 1 0,187 2 0,311 3 0,276 4 0,138 5 0,037 6 0,004

O valor esperado (mdia) de leites doentes de E(X) = 6(0,40) = 2,40 leites doentes e a varincia e o desvio padro do nmero de leites doentes, Var(X) = 6(0,40)(0,60) = 1,44 e DP(X) = 144 = 1,2 , leites doentes, respectivamente.

6.2. O MODELO DE POISSON A distribuio de Poisson, tambm chamada de distribuio dos eventos raros, largamente empregada em problemas nos quais contamos o nmero de eventos de um certo tipo que ocorrem num intervalo de tempo, rea ou volume especificados. Por exemplo: nmero de chamadas telefnicas recebidas por um PABX, em intervalos de tempo de 10 minutos; nmero de bactrias contadas em reticulados de uma placa de Petri; nmero de falhas de um computador em um dia de operao; nmero de determinadas plantas ou animais distribudos por uma certa regio bem delimitada etc. Teorema 6.3. Se uma v.a. discreta X tem distribuio de Poisson com parmetro > 0, ento: P(X = k) = e k , para k = 0, 1, 2, ... k! (27)

e ainda, E(X) = = Var(X), ou seja, o parmetro > 0, representa a esperana (mdia) e a varincia do nmero de ocorrncias do evento no intervalo considerado.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

33

Exemplo 6.3. Uma regio foi dividida em 20 quadrantes de 100m . Em cada quadrante foi contado o nmero de plantas de uma determinada espcie, resultando em: Nmero de plantas Freqncia 0 3 1 6 2 5 3 4 4 1 5 0 6 1

onde a freqncia indica o nmero de quadrantes onde foram encontradas 0, 1, 2, ... plantas. Como pretendemos usar a distribuio de Poisson para estudar a v.a. X = "nmero de plantas por quadrante", devemos estimar o valor de (mdia), que o parmetro desta distribuio. Ento =

e 1,91,9k , para k = k! 0, 1, 2, ... e com esta funo poderemos calcular as probabilidades de encontrarmos 0, 1, 2, ... plantas por quadrante. Por exemplo: A funo de probabilidades da v.a. X pode ento ser escrita como: P(X=k) = P(X = 0) = P(X = 2) = e 1,9 1,9 0 = 0,1496, 0! e 1,9 1,9 2 = 0,2700, ... 2! P(X = 1) = P(X = 6) = e 1,9 1,9 1 = 0,2842 1 ! e 1,9 1,9 6 = 0,0098, ... 6!

A distribuio de probabilidades do nmero de plantas/quadrante : k P(X=k) 0 0,1496 1 0,2842 2 0,2700 3 0,1710 4 0,0812 5 0,0309 6 0,0098 + de 6 0,0033

Usando esta distribuio de probabilidades, poderemos estimar o nmero de quadrantes que contm 0, 1, ..., 6 ou mais plantas e verificar numericamente se o modelo de Poisson adequado a este estudo. Para tanto, multiplicamos o nmero total de quadrantes (20) pela probabilidade de um quadrante ter 0, 1, ..., 6 ou mais plantas. Agindo deste modo, teremos: Plantas por quadrante Freq. observada Freq. estimada 0 3 2,99 1 6 5,68 2 5 5,4 3 4 3,42 4 1 1,62 5 0 0,62 6 1 0,20 + de 6 0 0,07

Comparando as duas ltimas linhas desta tabela, podemos observar que os valores das freqncias estimadas pelo modelo de Poisson so timas aproximaes das freqncias observadas no experimento, o que mostra a boa adequao do modelo.

Observaes importantes: i) Para uma v.a. X ~ B(n; p) com n bastante grande e p bastante pequeno, as probabilidades podem ser obtidas, aproximadamente, usando-se a distribuio de Poisson, com = n.p; ii) Existem outros modelos (distribuies) associados a v.a. discretas que so teis em outros campos de pesquisa, como por exemplo as distribuies geomtrica e hipergeomtrica, que no sero apresentadas em nosso curso. A bibliografia especializada em probabilidade traz detalhes sobre todos estes modelos; iii) Outros exemplos de aplicaes dessas (Binomial e Poisson) e de outras distribuies de probabilidades, podem ser encontrados no livro "Introduo Matemtica para Biocientistas", de E. Batschelet.

0(3) + 1(6) + 2(5) + 20

+ 6(1)

38 = 1,9 plantas/quadrante. 20

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

34

7. VARIVEIS ALEATRIAS CONTNUAS Sabemos que uma v.a. contnua uma funo que pode assumir infinitos valores num intervalo real. Se X uma v.a. contnua, associaremos a cada subintervalo do seu domnio uma probabilidade, atravs de uma funo densidade de probabilidade (f.d.p.). Definio 7.1. Uma funo f(x), definida para x[a, b] chamada de funo densidade de probabilidade (f.d.p.) se satisfaz as seguintes condies: a) f(x) positiva, para todo x [a, b]; b)

f (x) dx
a

= 1, ou seja, a rea sob a curva representativa de f(x), entre as abcissas a e b,

igual a um. Vale observar que: a) a funo f(x) no define uma probabilidade; b) o que define uma probabilidade, realmente, o resultado da integral de f(x) no intervalo [a, b], que coincide com a rea da regio sob a curva de f(x), o eixo das abcissas e os limites de integrao; c) para calcularmos a probabilidade da v.a. X assumir valores entre x1 e x2, com x1 < x2, precisaremos resolver a integral: P(x1 < X < x2) =

x2

f ( x) dx

(28)

x1

d) a probabilidade de uma v.a. contnua assumir um certo valor k nula, pois

f(x) dx = [F(x)]
k k

k k

= F(k) - F(k) = 0.

e portanto, somente tem sentido calcularmos a probabilidade de uma v.a. contnua assumir valores dentro de um intervalo real. Exemplo 7.1. Dada a funo definida por f(x) = 2x, para x [0, 1], pede-se: (i) verificar se f(x) uma funo densidade de probabilidade; (ii) calcular P(0 < X < 0,5) e P(0,2 < X < 0,7). Resoluo: i) Verificando as duas condies da Definio 7.1, temos: a) analisando a Figura 19, percebemos que a funo f(x) = 2x, para x [0, 1] positiva;
2.0

1.5

f(x)

1.0

0.5

0.0 0.0

0.2

0.4

0.6

0.8

1.0

Figura 19. Grfico da funo densidade de probabilidade f(x) = x, para x [0, 1]

b)

2x dx = [x ]
1 2 0

1 0

=1

como as duas condies esto satisfeitas, podemos dizer que a funo f(x) = 2x, para x [0,1], uma funo densidade probabilidade.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

35

ii) calculando as probabilidades, temos: a) P(0<X<0,5) =

(2x) dx = [x ]
0,5 2 0

0,5 0

= (0,5) = 0,25 = (0,7) - (0,2) = 0,45 b) P(0,2<X<0,7)


2 2

b) P(0,2<X<0,7) = a) P(0 < X < 0,5)

0,7

(2x) dx = x 2

0,2

[ ]

0,7 0,2

Figura 20. Clculo das probabilidades P(0<X<0,5) e P(0,2<X<0,7) da v.a. X do Exerccio 7.1.

Exemplo 7.2. Determinar a constante positiva "k" para que a funo f(x) = kx , definida no intervalo [0, 2], seja uma f.d.p. Resoluo: Para que a condio (a) da Definio 7.1 se verifique, necessrio que a constante k > 0 e para a verificao da condio (b), temos que: 1=

x3 23 8 8 3 (kx) 2 dx = k = k = k 1 = k k = . 3 3 3 3 8 0 3 2 x , para x [0,2], uma f.d.p. 8

e portanto, f(x) =

Definio 7.2. Se X uma v.a. contnua definida no intervalo [a, b] e f(x) sua funo densidade de probabilidade, ento definimos: (a) a esperana matemtica ou a mdia de X: E(X) = (b) a varincia de X: Var(X) =

x f ( x) dx
a
2 2 2

(29)

[ x E(X)] 2 f(x) dx = E(X ) [E(X)] , onde E(X ) =

x 2 f ( x) dx

(30)

Utilizando estas frmulas vamos calcular a mdia e a varincia da v.a. X, definida no Exerccio 7.1: 2x 2 2 0,6667 E(X) = x.2x) dx = = 0 3 3

x4 2 E(X ) = x (2x) dx = 2x dx = = 1/2 Var(X) = 1/2 - (2/3) = 1/18. 0 0 2 0


2

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

36

Definio 7.3. Se X uma v.a. contnua e f(x) sua f.d.p., definimos sua funo distribuio acumulada (f.d.a.) ou funo repartio como F(x) = P(X x) =

f (t) dt .
-

Esta funo bastante til para o clculo de probabilidades. Por exemplo, se a e b so dois nmeros reais, com a < b e F(x) a f.d.a. da v.a. X, ento, P(a X b) = F(b) F(a). Vale a pena observar que nem sempre fcil obtermos a funo de distribuio acumulada associada a uma v.a. X. Porem, sempre que isto for possvel, ela pode ser utilizada no clculo de probabilidades. Por exemplo: para a f.d.p. do Exerccio 7.1, temos: F(x) = P(X x) =

(2t) dt = [t ]
x 2 0

x 0

0, se x < 0 = x F(x) = x 2 , se 0 x 1 1, se x > 1


2

a funo de distribuio da v.a. X, cujo grfico est apresentado na Figura 21. Utilizando esta funo, F(x), podemos calcular: P(0 < X < 0,5) = F(0,5) - F(0) = (0,5) - 0 = 0,25 P(0,2 < X < 0,7) = F(0,7) - F(0,2) = 0,7 - 0,2 = 0,49 - 0,04 = 0,45.
2 2 2

1,0

0,8

0,6 F(X) F(x) = x2 0,4

0,2

0,0 0,0

0,1

0,2

0,3

0,4

0,5 X

0,6

0,7

0,8

0,9

1,0

Figura 21. Grfico da funo de distribuio da v.a. X do Exerccio 7.1.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

37

8. ALGUNS MODELOS PROBABILSTICOS PARA V.A. CONTNUAS Podemos construir modelos tericos para v.a. contnuas, escolhendo adequadamente as funes densidade de probabilidade. Dada uma varivel aleatria contnua, interessa conhecer a sua f.d.p., o seu grfico e algumas caractersticas importantes, como mdia e varincia. A seguir apresentaremos dois modelos de uso bastante freqente em problemas prticos.

8.1. O MODELO EXPONENCIAL Definio 8.1. Dizemos que a v.a. contnua X, definida para valores positivos, tem distribuio exponencial de parmetro > 0, se a sua f.d.p. f(x) = 1 x 1 e = exp x

( )

(31)

Pode-se provar que se X ~ Exp(), ento E(X) = e Var(X) = 2 e a sua funo distribuio acumulada dada por: F(x) = P(X x) = 1 e
x

, para x > 0

(32)

O grfico de uma distribuio exponencial de mdia =1 ilustrado abaixo:


1,2 1,0 0,8 0,6 0,4 0,2 0,0 0,0

f(x)

0,5

1,0

1,5

2,0 X

2,5

3,0

3,5

4,0

Figura 22. Funo densidade de probabilidade de uma varivel X ~ Exp(=1)

Exemplo 8.1. O tempo de vida (em horas) de um transistor uma v.a. T, contnua, com distribuio exponencial de mdia = 500h. Calcular a probabilidade de que o tempo de vida de um transistor esteja entre 500 e 600 horas. Resoluo: Se T ~ exp(500), sua f.d.p. f(t) = 1 t 500 e . Para calcularmos P(500 T 600), deve500
600

ramos resolver a seguinte integral definida: P(500 T 600) =

500

1 t 500 e dt . Porm, como j co500

nhecemos a frmula de sua funo de distribuio, o clculo da probabilidade se restringe a:


600 500 500 1 e 500 = e-1 e-1,2 P(500 T 600) = F(600) F(500) = 1 e

P(500 T 600) = 0,3679 - 0,3012 = 0,0667, ou seja, de 6,7% a chance do transistor ter um tempo de vida entre 500 e 600 horas.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

38

8.2. O MODELO NORMAL (ou de Gauss) A distribuio normal uma das mais importantes distribuies de probabilidade de v.a. contnuas, tendo aplicaes no estudo de inmeros fenmenos e no desenvolvimento terico da Inferncia Estatstica. Definio 8.2. Dizemos que a v.a. contnua X tem distribuio normal, com parmetros e se a sua f.d.p. dada por: f(x) = 1 x 2 2 exp , para - < x <, onde = E(X) e = Var(X) 2 2 1
2

(33)

O grfico da distribuio normal (Figura 23) tem algumas caractersticas interessantes: tem a forma de um sino; simtrico em relao ao ponto de abcissa x = ( = 0, neste grfico), que tambm o ponto de mximo absoluto da funo; tem uma assntota horizontal: f(x) = 0; os pontos de abcissas - e + (-1 e 1, neste grfico) so pontos de inflexo; dada a simetria da curva, a probabilidade de ocorrer um valor maior ou igual mdia igual probabilidade de ocorrer um valor menor ou igual mdia, ou seja, P(X>) = P(X<) = 0,5.
0,5

0,4

0,3 f(x) 0,2 0,1 0,0 -4 -3 -2 -1 X 0 1 2 3 4

Figura 23. Funo de densidade de probabilidade da v.a. X ~ N(=1; =0)


2

A Figura 24 apresenta os grficos de distribuies normais com (a) varincias iguais e mdias diferentes e (b) mdias iguais e varincias diferentes.

(a) varincias iguais e mdias diferentes (1 < 2 < 3)

(b) mdias iguais e varincias diferentes


2 ( 1 < 2 < 2 ) 2 3

Figura 24. Distribuies normais com algumas caractersticas interessantes.


Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

39

Baseado na Figura 24, observamos que: na situao (a) as trs curvas tm o mesmo grau de achatamento, porem as abcissas dos seus pontos de mximo so diferentes: 1 < 2 < 3; na situao (b), as abcissas dos pontos de mximo das trs curvas so exatamente iguais, porem 2 os graus de achatamento so diferentes: 1 < 2 < 2 (Lembre-se que varincia maior sinni2 3 mo de maior disperso dos dados! ). A probabilidade de X ~ N(, ) assumir um valor entre a e b, com a<b, igual rea sob a curva de f(x) entre os pontos de abcissas x = a e x = b, envolvendo a integrao da funo apresentada na Definio 8.2, o que uma operao bastante complicada. Para facilitar o clculo de probabilidades definimos a varivel normal padronizada ou reduzida:
2

Z=

X
2

(34)

que tem mdia 0 e varincia 1, ou seja, se X ~ N(, ) Z ~ N(0; 1), quaisquer que sejam os valores de e 2 (tente provar esses resultados, utilizando as propriedades apresentadas na seo 5.2). Como as probabilidades envolvendo a varivel padronizada Z esto tabeladas na Tbua I (pgina 42), ao invs de resolvermos: P(a < X < b) = f ( x) dx , onde f(x) a expresso apresentada na definia

o 8.2, fazemos a padronizao ou reduo da varivel X e buscamos na Tbua I (pgina 42), o valor de: a X b P(z1 < Z < z2) = P < < = P(a < X < b) (35)

Exemplo 8.2. Seja X uma v.a. com distribuio normal de mdia 10 e varincia 4, ou seja, X ~ N(10; 4). Calcular as seguintes probabilidades: (a) P(X<10); (b) P(X<12); (c) P(9<X<11); (d) P(X>8) (e) P(11<X<12) e (f) P(7<X<8) Resoluo:

X 10 10 10 < (a) P(X < 10) = P 2 2 = P(Z < 0) = 0,5000

X 10 12 10 < (b) P(X < 12) = = P(Z <1) 2 2 = P(Z < 0) + P(0 < Z < 1) = 0,5000 + 0,34134 = 0,84134

(c) P(9 < X < 11) = P(-0,5 < Z < 0,5) = 2P(0<Z<0,5) = 2(0,19146) = 0,38292.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

40

(d) P(X > 8) = P(Z > -1) = = P(-1<Z<0) + P(Z>0) = = 0,5000 + 0,34134 = 0,84134

(e) P(11<X<12) = P(0,5<Z<1) = = P(0<Z<1) - P(0<Z<0,5) = = 0,34134 - 0,19146 = 0,14988

(f) P(7<X<8) = P(-1,5<Z<-1) = = P(1<Z<1,5) = P(0<Z<1,5) - P(0<Z<1) = = 0,43319 - 0,34134 = 0,09185.

8.3. APROXIMAO DA DISTRIBUIO BINOMIAL PELA NORMAL Objetivo: usar uma distribuio associada a v.a. contnuas (normal) para aproximar valores de probabilidades de uma distribuio associada a v.a. discretas (binomial). Exemplo 8.3. Uma moeda lanada 10 vezes. Seja a v.a. X = nmero de caras obtidas nos 10 lanamentos. A distribuio de probabilidades e o histograma da varivel X ~ B(10; 0,5) esto apresentados na Figura 25. k 0 1 2 3 4 5 6 7 8 9 10 P(X = k) 0,001 0,010 0,044 0,117 0,205 0,246 0,205 0,117 0,044 0,010 0,001

Figura 25. Distribuio de probabilidades da v.a. X ~ Bin(10; 0,5) e da aproximao da binomial pela 2 normal W ~ N( = 5; = 2,5)
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

41

A probabilidade exata da ocorrncia de 7 ou mais caras (usando a binomial), igual a: P(X 7) = P(X = 7) + P(X = 8) + P(X = 9) + P(X = 10) = 0, 117 + 0,044 + 0,010 + 0,001 = 0,172 que coincide com a rea dos retngulos correspondentes s abcissas 7, 8, 9 e 10 da Figura 25. A nossa proposta aproximar a rea dos retngulos hachurados pela rea sob a curva normal e direita da abcissa 6,5 (cor preta). Esta curva normal est associada a uma nova v.a. W, com mdia = np = 2 (10)(0,5) = 5 e varincia = np(1-p) = (10)(0,5)(0,5) = 2,5, ou seja, a varivel W ~ N(10; 2,5). Ento: P(X 7) P(W 6,5) P(W 6,5) = P(Z 0,949) = 0,5 - P(0 Z 0,949) = 0,17106 que um valor bastante prximo do valor exato (0,172). A probabilidade de ocorrncia de exatamente 7 caras, que pela distribuio binomial igual a 0,117, pode ser calculada de modo aproximado, utilizando a distribuio normal: P(X = 7) P(6,5 W 7,5) = 0,11401 que tambm uma valor bastante prximo do valor exato (0,117).

Observaes importantes: podemos obter boas aproximaes para probabilidades envolvendo uma v.a. com distribuio binomial, utilizando uma distribuio normal; esta aproximao ser tanto melhor quanto maior for o valor de "n" e mais prximo de 0,5 for o valor de "p" (probabilidade de sucesso), ou seja, quando n + e p 0,5; quando o valor de n for grande (n +) e o valor de p for muito pequeno (p 0) e quisermos obter aproximaes para as probabilidades de uma v.a. X ~ B(n,p), ao invs de usarmos a distribuio normal, melhor utilizarmos a distribuio de Poisson de parmetro = np.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

42

TBUA I: DISTRIBUIO NORMAL REDUZIDA - N(0; 1)

Probabilidades p tais que p = P(0 < Z < Zc)

SEGUNDA DECIMAL DE Zc Zc 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 0 0,0000 0,0398 0,0793 0,1179 0,1554 0,1915 0,2257 0,2580 0,2881 0,3159 0,3413 0,3643 0,3849 0,4032 0,4192 0,4332 0,4452 0,4554 0,4641 0,4713 0,4773 0,4821 0,4861 0,4893 0,4918 0,4938 0,4953 0,4965 0,4974 0,4981 0,4987 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,5000 1 0,0040 0,0438 0,0832 0,1217 0,1591 0,1950 0,2291 0,2611 0,2910 0,3186 0,3438 0,3665 0,3869 0,4049 0,4207 0,4345 0,4463 0,4564 0,4649 0,4719 0,4778 0,4826 0,4864 0,4896 0,4920 0,4940 0,4955 0,4966 0,4975 0,4982 0,4987 0,4991 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,5000 2 0,0080 0,0478 0,0871 0,1255 0,1628 0,1985 0,2324 0,2642 0,2939 0,3212 0,3461 0,3686 0,3888 0,4066 0,4222 0,4357 0,4474 0,4573 0,4656 0,4726 0,4783 0,4830 0,4868 0,4898 0,4922 0,4941 0,4956 0,4967 0,4976 0,4983 0,4987 0,4991 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 3 0,0120 0,0517 0,0910 0,1293 0,1664 0,2019 0,2357 0,2673 0,2967 0,3238 0,3485 0,3708 0,3907 0,4082 0,4236 0,4370 0,4484 0,4582 0,4664 0,4732 0,4788 0,4834 0,4871 0,4901 0,4925 0,4943 0,4957 0,4968 0,4977 0,4983 0,4988 0,4991 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 4 0,0160 0,0557 0,0948 0,1331 0,1700 0,2054 0,2389 0,2704 0,2995 0,3264 0,3508 0,3729 0,3925 0,4099 0,4251 0,4382 0,4495 0,4591 0,4671 0,4738 0,4793 0,4838 0,4875 0,4904 0,4927 0,4945 0,4959 0,4969 0,4977 0,4984 0,4988 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 5 0,0199 0,0596 0,0987 0,1368 0,1736 0,2088 0,2422 0,2734 0,3023 0,3289 0,3531 0,3749 0,3944 0,4115 0,4265 0,4394 0,4505 0,4599 0,4678 0,4744 0,4798 0,4842 0,4878 0,4906 0,4929 0,4946 0,4960 0,4970 0,4978 0,4984 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 6 0,0239 0,0636 0,1026 0,1406 0,1772 0,2123 0,2454 0,2764 0,3051 0,3315 0,3554 0,3770 0,3962 0,4131 0,4279 0,4406 0,4515 0,4608 0,4686 0,4750 0,4803 0,4846 0,4881 0,4909 0,4931 0,4948 0,4961 0,4971 0,4979 0,4985 0,4989 0,4992 0,4994 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 7 0,0279 0,0675 0,1064 0,1443 0,1808 0,2157 0,2486 0,2794 0,3079 0,3340 0,3577 0,3790 0,3980 0,4147 0,4292 0,4418 0,4525 0,4616 0,4693 0,4756 0,4808 0,4850 0,4884 0,4911 0,4932 0,4949 0,4962 0,4972 0,4979 0,4985 0,4989 0,4992 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 8 0,0319 0,0714 0,1103 0,1480 0,1844 0,2190 0,2517 0,2823 0,3106 0,3365 0,3599 0,3810 0,3997 0,4162 0,4306 0,4429 0,4535 0,4625 0,4699 0,4761 0,4812 0,4854 0,4887 0,4913 0,4934 0,4951 0,4963 0,4973 0,4980 0,4986 0,4990 0,4993 0,4995 0,4996 0,4997 0,4998 0,4999 0,4999 0,4999 0,5000 0,5000 9 0,0359 0,0753 0,1141 0,1517 0,1879 0,2224 0,2549 0,2852 0,3133 0,3389 0,3621 0,3830 0,4015 0,4177 0,4319 0,4441 0,4545 0,4633 0,4706 0,4767 0,4817 0,4857 0,4890 0,4916 0,4936 0,4952 0,4964 0,4974 0,4981 0,4986 0,4990 0,4993 0,4995 0,4997 0,4998 0,4998 0,4999 0,4999 0,5000 0,5000 0,5000 Zc 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

43

9. VARIVEIS ALEATRIAS BIDIMENSIONAIS Muitas vezes, ao descrever os resultados de um experimento, atribumos a um mesmo ponto amostral, os valores de duas ou mais variveis aleatrias discretas ou contnuas. Nesta aula, concentraremos nossas atenes no estudo de um par de v.a. discretas, apresentando os principais resultados e conceitos envolvidos nesse estudo. Exemplo 9.1. Suponha que estamos interessados em estudar o sexo dos filhotes de coelhos em nascimentos triplos. Sejam as v.a. X ="nmero de machos", e Y ="sexo do primeiro filhote" (Y=0: fmea; Y=1: macho). Se estivssemos interessados em estudar cada uma das variveis individualmente, utilizaramos as suas respectivas distribuies de probabilidades: x P(X=x) 0 1/8 y P(Y=y) 1 3/8 0 1/2 2 3/8 1 1/2 3 1/8 E(X) = 3/2 e Var(X) = 3/4

E(Y) = 1/2 e Var(Y) = 1/4

Agora, se estivermos interessados em estudar conjuntamente as duas variveis precisaremos, para cada um dos eventos simples, associar o valor que as variveis X e Y assumem e a respectiva probabilidade de ocorrncia: Evento MMM FMM MFM MMF FFM FMF MFF FFF X 3 2 2 2 1 1 1 0 Y 1 0 1 1 0 0 1 0 Probabilidade 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8

Com essas informaes, podemos construir uma tabela com todos os pares de valores das v.a. X e Y e suas respectivas probabilidades: (x; y) (0; 0) (1; 0) (1; 1) (2; 0) (2; 1) (3; 1) P(X=x; Y=y) 1/8 2/8 1/8 1/8 2/8 1/8 onde P(X=x, Y=y) a probabilidade de ocorrncia simultnea dos eventos X=x e Y=y. Esta tabela chamada distribuio conjunta das variveis aleatrias X e Y.

Uma maneira mais cmoda de apresentar esta distribuio de probabilidades conjunta, atravs da seguinte tabela de dupla entrada: y \ x 0 1 P(X=x) 0 1/8 0 1/8 1 2/8 1/8 3/8 2 1/8 2/8 3/8 3 0 1/8 1/8 P(Y=y) 1/2 1/2 1

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

44

A Figura 26 apresenta o histograma da distribuio conjunta de probabilidade das variveis aleatrias X e Y. Vale notar que a altura do segmento de reta no ponto (x; y) proporcional probabilidade P(X=x; Y=y).

0.25

0.25

0.125

0.125 0.125

0.125

Figura 26. Histograma da distribuio de probabilidade conjunta das variveis aleatrias X (nmero de machos) e Y (sexo do primeiro filhote).

9.1. DISTRIBUIES MARGINAIS E CONDICIONAIS Note que a primeira e ltima linhas da distribuio conjunta coincidem com a distribuio de probabilidades da v.a. X e que a primeira e ltima colunas, com a distribuio de probabilidades da v.a. Y. Essas distribuies so chamadas Distribuies Marginais das variveis aleatrias X e Y, respectivamente. Com base na distribuio conjunta de probabilidades note tambm que: P(X=1) = P(X=1,Y=0) + P(X=1,Y=1) = 2/8 + 1/8 = 3/8, e que P(Y=0) = P(X=0,Y=0) + P(X=1,Y=0) + P(X=2,Y=0) + P(X=3,Y=0) = 1/8 + 2/8 + 1/8 + 0 = 4/8 = 1/2. ou seja, as probabilidades marginais podem ser obtidas atravs da soma das probabilidades conjuntas. Definio 9.1. A probabilidade condicional da v.a. X, dado que a v.a. Y assume o valor k, definida como P(X=xY=k) = P(X = x; Y = k ) , para todos os valores da v.a. X. P(Y = k ) (36)

A Esperana e a Varincia Condicionais da varivel X, dado que Y=k so definidas, respectivamente, como: E(XY=k) = Var(XY=k) =

x P(X = x
i i

Y = k)

(37)

[x
i

E(X Y = k) P(X = x i Y = k ) = E X 2 Y = k E(X Y = k )

]2

) [

]2

(38)

Por exemplo, determinemos a distribuio de probabilidades, a esperana e a varincia condicionais do nmero de filhotes machos, sabendo-se que o primeiro filhote um macho. A distribuio de probabilidades condicionais de X dado que Y=1 :
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

45

x P(X=xY=1)

1 1/4

2 2/4

3 1/4

e a partir desta distribuio, calculamos a esperana e a varincia condicionais de XY=1: E(XY=1) = 0(0) +...+3 (1/4) = 8/4 = 2 filhotes machos E(X Y=1] = 0 (0) +...+ 3 (1/4) = 18/4
2 2 2

Var(XY=1) = 18/4 (2) = 1/2 e portanto, com a informao adicional de que o primeiro filhote um macho, o nmero esperado de filhotes machos em nascimentos triplos, aumenta para 2 e a varincia de XY=1 igual a 1/2.

Definio 9.2. (IMPORTANTE!) As variveis aleatrias X e Y, assumindo os valores x1, x2 ,... e y1, y2,... respectivamente, so chamadas independentes, se e somente se, para todo par de valores (xi, yj) de X e Y, tem-se que P(X=xi ; Y=yj) = P(X=xi) P(Y=yj). Vale a pena observar que para mostrarmos que duas variveis X e Y no so independentes, basta que a igualdade P(X=xi ; Y=yj) = P(X=xi) P(Y=yj) no se verifique para um nico par (xi, yj). Por exemplo, as variveis X e Y do Exemplo 9.1 no so independentes, porque para o par (X=0,Y=0) temse: 1/8 = P(X=0,Y=0) P(X=0) P(Y=0) = (1/8) (1/2) = 1/16

9.2. FUNES DE VARIVEIS ALEATRIAS Na prtica, bastante comum trabalharmos no s com as variveis aleatrias originais, mas tambm com funes de variveis aleatrias. Como exemplo, podemos trabalhar com as variveis X = peso inicial, Y = peso final e tambm com G = Y X = ganho de peso. O nosso objetivo agora estudar a distribuio de probabilidades de algumas funes envolvendo duas v.a. discretas, como a soma, a diferena e o produto das variveis X e Y. Exemplo 9.2. Estamos interessados em comprar dois ingredientes (A e B) para a fabricao de rao para frangos de corte. Foi feita uma pesquisa de preos com os fornecedores da regio de Pirassununga, cujos resultados possibilitaram a construo da tabela apresentada abaixo, onde X e Y so os preos (em reais), de um quilograma dos ingredientes A e B, respectivamente: x\y 9,00 10,00 11,00 P(Y=y) 4,00 0,01 0,02 0,30 0,33 5,00 0,04 0,20 0,07 0,31 6,00 0,30 0,03 0,03 0,36 P(X=x) 0,35 0,25 0,40 1

Baseado nesta tabela, podemos calcular: 2 E(X) = 10,05; E(X ) = 101,75 e Var(X) = 0,7475 2 E(Y) = 5,03; E(Y ) = 25,99 e Var(Y) = 0,6891 e as distribuies de probabilidades da soma (S = X + Y), diferena (D = X Y) e produto (V = X Y), que so funes das variveis X e Y: S P(S=s) D P(D=d) 13 0,01 3 0,30 14 0,06 4 0,07 15 0,80 5 0,24 16 0,10 6 0,09 17 0,03 7 0,30

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

46

V P(V=v)

36 0,01

40 0,02

44 0,30

45 0,04

50 0,20

54 0,30

55 0,07

60 0,03

66 0,03

A partir dessas distribuies de probabilidades podemos calcular a mdia e a varincia de cada uma das variveis. Os resultados so os que seguem (refaam as contas, por favor!): 2 E(S) = 15,08; E(S ) = 227,72 e Var(S) = 0,3136 2 E(D) = 5,02; E(D ) = 27,76 e Var(D) = 2,5596 2 E(V) = 49,99; E(V ) = 2531,99 e Var(V) = 32,9899. Um resultado que tem interesse prtico o valor esperado do preo total de um kg dos ingredientes X e Y, que igual a R$ 15,08. No momento, no tem qualquer interesse prtico sabermos qual o valor esperado ou a varincia da diferena e do produto dos preos dos dois produtos X e Y. Existem algumas relaes bastante importantes que envolvem a esperana matemtica (mdia) de funes de variveis aleatrias: (a) E(S) = E(X+Y) = E(X) + E(Y) (b) E(D) = E(XY) = E(X) E(Y) (c) E(V) = E(XY) = E(X)E(Y) se X e Y so independentes. As relaes (a) e (b) podem ser facilmente verificadas utilizando os resultados obtidos at agora para as variveis X e Y do Exemplo 9.2.

9.3. COVARINCIA E CORRELAO ENTRE DUAS VARIVEIS ALEATRIAS Definio 9.3. Uma medida da relao linear entre as variveis X e Y a covarincia, que definida por

[ cov(X; Y) = E{ X E(X )][Y E(Y)]} = E(XY) E(X)E(Y)


i j

(39)

onde E(XY) =

x y P(X = x ; Y = y ) .
i j i j

Da expresso (39), podemos dizer que a covarincia corresponde ao valor mdio do produto dos desvios das variveis X e Y, tomados em relao s suas respectivas mdias. Como cov(X,Y) mede o relacionamento linear entre essas duas variveis, cov(X,Y) > 0 indica que as variveis X e Y so diretamente proporcionais e cov(X,Y) < 0, que as variveis X e Y so inversamente proporcionais. Se cov(X,Y) = 0 dizemos que X e Y so no correlacionadas. importante notar que: se X e Y so independentes E(XY) = E(X)E(Y) cov(X; Y) = 0, ou seja, variveis aleatrias independentes tm covarincia nula. Porem, se cov(X,Y) = 0 no podemos garantir que as variveis X e Y sejam independentes; neste caso dizemos, simplesmente, que X e Y no so correlacionadas. As variveis X e Y podem ser consideradas independentes, se e somente se, P(X=xi; Y=yj) = P(X=xi) P(Y=yj). Se estivermos interessados em saber se existe alguma relao linear entre os preos dos ingredientes X e Y (Exemplo 9.2) usados na fabricao de rao para frango de corte, podemos calcular a covarincia entre essas duas variveis: E(XY) = 49,99 cov(X,Y) = 49,99 (10,05)(5,03) = -0,5615. E pelo sinal negativo do valor de cov(X;Y) conclumos que tais preos so inversamente proporcionais, ou seja, existe uma tendncia de nos lugares onde o preo de um ingrediente mais baixo o do outro ingrediente mais alto e vice-versa. Definida a covarincia entre duas v.a., podemos conhecer algumas relaes envolvendo a varincia de funes de v.a., que so: (a) Var(S) = Var(X+Y) = Var(X) + Var(Y) + 2.cov(X,Y) (b) Var(S) = Var(X+Y) = Var(X) + Var(Y), se X e Y so independentes (c) Var(D) = Var(X-Y) = Var(X) + Var(Y) - 2.cov(X,Y)
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

47

Podemos verificar as relaes (a) e (c), utilizando os resultados j obtidos do Exemplo 9.2: Var(S) = Var(X + Y) = 0,7475 + 0,6891 + 2(-0,5615) = 0,3136 = Var(S) Var(D) = Var(X Y) = 0,7475 + 0,6891 - 2(-0,5615) = 2,5596 = Var(D) Embora o valor da covarincia sirva para decidir sobre o tipo de relao linear existente entre as variveis aleatrias, ele no serve para fazermos afirmaes sobre a intensidade dessa possvel relao. Como cov(X;Y) pode assumir qualquer valor real, fica difcil garantirmos se um certo valor de covarincia alto ou baixo. Surge ento a necessidade de definirmos o coeficiente de correlao linear - (X;Y) - que assume valores no intervalo entre 1 e 1, inclusive.
(c) ( a)

Definio 9.4. Uma medida do grau de dependncia linear entre duas variveis aleatrias X e Y, o Coeficiente de Correlao Linear, que definido como: (X;Y) = cov(X; Y) Var (X) Var(Y) , com 1 (X;Y) 1 (40)

Da, dizemos que a dependncia linear entre as variveis X e Y perfeita quando (X,Y) = +1 (ou 1). Quanto mais prximos de +1 (ou 1) estiver o valor de (X;Y) maior o grau de dependncia entre as duas variveis. Quando (X,Y) = 0, dizemos que no existe qualquer relao linear entre as v.a. X e Y, ou que elas so no correlacionadas. = -0,7824, ou seja, existe uma correla(0,7475 )(0,6891) o linear negativa e alta entre os preos dos dois ingredientes para rao de frangos (confirmando, claro, o resultado obtido com a covarincia). Exemplo 9.3. Em um estudo sobre rotatividade de mo de obra especializada na lavoura foram definidas, para uma determinada populao, as variveis X: "nmero de empregos que o trabalhador teve nos cinco ltimos anos" e Y: "salrio atual, em nmero de salrios mnimos". Com base nos resultados organizados na tabela abaixo, podemos dizer que o salrio atual de um trabalhador na lavoura depende do nmero de empregos nos ltimos cinco anos? y\x 3 5 7 10 P(X=x) 1 0 0,05 0,05 0,10 0,20 2 0 0,05 0,20 0,05 0,30 3 0,10 0,10 0,05 0,05 0,30 4 0,10 0,10 0 0 0,20 P(Y=y) 0,20 0,30 0,30 0,20 1,00 No Exemplo 9.2 temos que (X;Y) = 0,5615

Usando as frmulas j apresentadas, calculamos: E(X) = 2,5 empregos nos cinco ltimos anos E(Y) = 6,2 salrios mnimos E(XY) = 14,05 cov(X;Y) = 14,05 (2,5)(6,2) = 1,45 ou seja, existe uma relao de dependncia (linear) negativa entre o nmero de empregos e o salrio atual de trabalhadores na lavoura. E(X ) = 7,3 6 Var(X) = 7,3 (2,5) = 1,05
2 2

E(Y ) = 44,0 6 Var(Y) = 44,0 (6,2) = 5,56


2 2

= 0,6001 ou seja, existe uma correlao linear negativa e relativa(1,05)(5,56 ) mente alta entre o nmero de empregos e o salrio atual de trabalhadores na lavoura, indicando uma forte tendncia de salrios menores para o trabalhador na lavoura com maior nmero de empregos nos ltimos cinco anos, ou de salrios maiores para o trabalhador com menor nmero de empregos nos ltimos cinco anos.
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

(X;Y) =

1,45

48

REFERNCIAS BIBLIOGRFICAS IMPORTANTES

BLACKWELL, D., Estatstica Bsica, So Paulo: McGraw-Hill do Brasil, 1973, 143p. BUSSAB, W.O., Estatstica Bsica, So Paulo: Atual, 1986, 329p. COCHRAN, W.G. Tcnicas de Amostragem. Rio de Janeiro: Fundo de Cultura, 1955. COSTA NETO, P.L.O., Estatstica, So Paulo: Edgard Blucher, 264p. 1988. FONSECA, J.S. & MARTINS, G.A. Curso de Estatstica. So Paulo: Atlas, 3.ed., 1982. GOMES, F.P., Iniciao Estatstica, 6.ed., So Paulo: Nobel, 1978, 211 p. HOEL, P.G. Estatstica Elementar. So Paulo, Atlas, 430p. 1987. HOFFMANN, R., Estatstica para Economistas - Srie Biblioteca Pioneira de Cincias Sociais Economia, So Paulo: Pioneira, 1980, 379p. HOFFMAN, R. & VIEIRA, S. Anlise de Regresso - uma Introduo Econometria. So Paulo, Hucitec. 1977. MEYER, P.L. Probabilidade: Aplicaes Estatstica. Rio de Janeiro: Livro Tcnico e Cientfico, 1983. MORETTIN,P.A. & BUSSAB, W.O. Mtodos Quantitativos para Economistas e Administradores Estatstica Bsica. So Paulo, Atual. 1981. SOUNIS, E. Bioestatstica: princpios fundamentais, metodologia estatstica, aplicao s cincias biolgicas. So Paulo, McGraw-Hill do Brasil, 2.ed.rev., 1976. SPIEGEL, M., Estatstica - Srie: Coleo Schaum, So Paulo: McGraw-Hill do Brasil, 2.ed., 454p., 1984. VIEIRA, S. Introduo Bioestatstica. Rio de Janeiro: Campus, 2.ed., 1983. VIEIRA, S. & HOFFMANN, R., Elementos de Estatstica, So Paulo: Atlas, 1986, 159p.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

49

REVISO DE SOMATRIOS Define-se a soma dos n valores x1, x2, ..., xn da varivel quantitativa X por: x =

x
i =1

= x1 + x2 + ... + xn

e l-se: somatrio de x ndice i, para i = 1 at n. Quando estivermos acostumados com a notao do somatrio, poderemos simplific-la (se no houver chance de confuso!) utilizando somente invs de
n

x , ao

x
i =1

Exemplo 1 Seja a varivel X que descreve o peso corporal, em gramas de frangos de corte aos 42 dias de vida e est assumindo os seguintes valores: X = {1900, 2050, 1950, 2100, 1950, 2050} Ento:

x
i=1

= 1900 + 2050 + ... + 2050 = 12000 gramas o peso total dos n = 6 frangos.
6

x
x =
i=1

12000 = 2000 gramas o peso mdio dos n = 6 frangos. 6

ALGUMAS PROPRIEDADES IMPORTANTES DO SOMATRIO: P.1) Se k R ( k uma constante real) ento P.2)

k = nk
i =1

kX
i=1 n i =1 n

=k

x
i =1

i n

P.3)

(xi k) = (x x
i =1 2 i

1 - k) + (x 2 - k) + ... + (x n - k) =

x
i =1

nk

P.4)

2 2 = x1 + x 2 + ... + x n 2 2

(soma de quadrados)

P.5) P.6)

i =1 n i =1

2 2 xi = (x1 + x2 + ... + xn) = (x)

(quadrado da soma)

(
n

x i k = ( x 1 k ) 2 + (x 2 k) 2 + ... + (x n k) 2 =

i =1

xi2 2k

x
i =1

+ nk

(soma dos quadrados dos desvios em relao constante k) P.7)

x y
i =1

i i

= x1y1 + x2y2 + ... + xnyn

(soma de duplos produtos)

Exerccio Os resultados experimentais apresentados na tabela a seguir, foram obtidos de um ensaio de irrigao onde se estudou a produo de alfafa (t/ha) como uma funo da quantidade de 2 gua aplicada (ml/cm ). X: gua Y: Produo 12 5,27 18 5,68 24 6,25 30 7,21 36 8,02 42 8,71 48 8,42

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

50

Com base nestes dados, pede-se: 1) Desenhe um grfico de disperso Y vs. X e tente visualizar que o relacionamento entre as variveis pode ser bem explicado por uma reta. 2) Calcule: (a)

i=1 7

x i = x y i2

(b)

i=1 7

y i = y

(c)

x
i =1 7 i =1

2 i

(d)

i =1

(e)
7

i =1

xi yi

(f)

(2x

3yi

(g) x =
i=1

xi (h) y =

y
i=1

7
7

(i)

s2 x

1 = 7 1 = 7

7 x 1 ( xi x) = x2 6 i =1 i 7 i =1
7 2

( )2 ( )2

(j)

s2 y

7 y 1 ( y i y) = yi 2 6 i =1 7 i =1
2 7

(X i X)(Yi Y)
(k) r(X,Y) =
i =1 2 2 (X i X) (Yi Y) i =1 i =1 7 7

X Y
i i

i =1 2

i =1

Xi 7

Y
i i =1

7 X i2 i =1

7 Xi i =1 7

7 Yi2 i =1

7 Yi i =1 7

(X
(l) b =
i =1

X)( Yi Y) = ( X i X) 2

X Y
i i i =1

X Y
i =1 i i =1

(m) a = Y b X 3) Para perceber para que serve a maioria dos clculos feitos no item 2, desenhe no grfico pedido no item 1, a reta Y = a + b X (reta ajustada) e atente para o fato de que ela passa pelo meio dos pontos. Utilizando esta reta voc pode obter estimativas da produo de alfafa (Y) para diversas quantidades de gua aplicada (X). Por exemplo: calcule a produo (estimada) de alfafa para X = 20, 2 25 e 40 ml/cm .

Respostas do item 2: (a) 210 (b) 49,56 (c) 7308 (d) 362,1630 (e) 1590,58 (f) 271,32 (g) 30 (h) 7,08 (i) 168 (b) 1,8797 (k) 0,9724 (l) 0,1029 (m) 3,9943.

i =1

i =1

i =1

X2 i

Xi 7

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

51

EXERCCIOS DE APLICAO

1) Complete a distribuio de freqncias abaixo: IDADE (anos) 17 | | 21 21 | | | 27 TOTAL Baseando-se nesta distribuio pede-se: a) desenhar um histograma para as freqncias absolutas; b) desenhar uma ogiva de Galton para as freqncias percentuais acumuladas e estime a idade mediana; c) calcule a mdia, a moda e a mediana dos pesos, usando as frmulas convenientes. 2) Um ensaio com 50 frangos de corte forneceu os seguintes pesos (em gramas) aos 56 dias de idade: 2330 2340 2350 2360 2360 2370 2370 2380 2380 2380 2380 2380 2380 2390 2390 2390 2390 2390 2390 2390 2390 2400 2400 2400 2400 2400 2400 2400 2410 2410 2410 2410 2420 2420 2420 2420 2430 2430 2430 2440 2440 2440 2440 2450 2450 2450 2450 2480 2480 2480 Com base nesses dados, pede-se: a) construir um dispositivo de ramo-e-folhas para os pesos dos frangos; b) calcular a mdia, a mediana e a moda dos pesos originais; c) construir uma distribuio de freqncias dos pesos com, no mximo, k=7 classes de freqncias; d) calcular a mdia, a mediana e a moda dos pesos com base nas informaes da distribuio de freqncias; e) comparar os resultados obtidos em (b) e (d) e comentar se os resultados so parecidos ou no; f) construir um histograma de freqncias percentuais; 3) Os dados apresentados abaixo se referem ao Consumo de Matria Seca (kg) de novilhos de dois anos, em fase de acabamento: 10,3 10,5 10,9 10,8 10,9 10,4 10,9 11,0 10,1 10,3 11,2 10,7 10,0 10,2 10,7 10,6 10,8 10,9 10,6 10,9 10,7 11,4 10,0 10,6 10,1 10,8 10,6 10,3 10,4 11,2 10,9 10,7 10,4 10,5 11,5 10,5 10,3 10,5 10,6 11,6 10,2 10,4 10,6 10,4 10,3 10,5 10,6 11,1 10,7 10,7 11,0 10,3 10,1 11,0 10,9 Pmi 18 fi 3 fri fpi Fi 10 0,40 45 5 90 Fpi

Construir uma distribuio de freqncias desses dados, considerando k = 6 classes, h = 0,3kg e limite inferior da primeira classe igual a 10,0kg. A partir dessa distribuio de freqncias: a) calcular a mdia, a mediana e a moda; b) calcular a varincia, o desvio-padro, o desvio mdio e o coeficiente de variao; c) calcular Q1 , Q2 , Q3 , P20 , P53 e P95. d) calcular os coeficientes de assimetria e de curtose e comentar sobre a simetria e o grau de achatamento da distribuio; e) construir o histograma das freqncias absolutas simples e uma ogiva de Galton das fre-qncias percentuais acumuladas.

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

52

4) Baseado na distribuio de freqncias dos pesos ao nascer (em kg) de 80 leites da raa Landrace apresentada abaixo, pede-se: a) estimar o peso ao nascer acima do qual esto 80%, 50%, 20% e 5% dos leites; b) qual a porcentagem de leites com peso mdio abaixo de 1,38 kg? E acima de 1,26 kg? c) qual o nmero de leites com peso inferior ao peso mais freqente (moda)? d) qual a porcentagem de leites com pesos no intervalo [Me(X) DP(X); Me(X) + DP(X)]? Peso ao nascer (kg) 1,20 | 1,28 1,28 | 1,36 1,36 | 1,44 1,44 | 1,52 1,52 | 1,60 1,60 | 1,68 fi 8 13 28 18 9 4

5) A distribuio de freqncias acumuladas do ganho de peso dirio (GPD), em gramas, do gado leiteiro com peso vivo entre 16 e 17 arrobas de uma fazenda experimental a seguinte: GPD (g) 400 | 460 460 | 520 520 | 580 580 | 640 640 | 700 700 | 760 760 | 820 Fi 60 130 230 310 380 430 450

Pede-se: a) A porcentagem de animais com ganho de peso abaixo da mdia? E abaixo da moda? b) A porcentagem de animais com ganho de peso inferior a um desvio padro abaixo da mdia? c) A porcentagem de animais com ganho de peso superior a um desvio-padro abaixo da mdia e inferior a um desvio-padro acima da mdia, ou seja, com ganho de peso dirio no intervalo [Me(X) DP(X); Me(X) + DP(X)]? d) Considerando que um C.V.(X) < 10% caracteriza rebanhos homogneos, qual a sua concluso sobre esse rebanho? 6) O responsvel pela granja do Campus pretende dividir os frangos a serem enviados para abate em quatro categorias de peso, de tal modo que: a Categoria D inclua 20% dos frangos mais leves, a C inclua os 30% seguintes, a B inclua os 40% seguintes e a categoria A inclua os 10% mais pesados. Baseando-se na distribuio de freqncias apresentada a seguir, pede-se: a) Calcular os limites de peso de frangos ao abate para as 4 categorias acima definidas? b) Suponha que o responsvel decida separar desse lote as aves com peso inferior a um desvio padro abaixo da mdia, para receber uma rao reforada por mais 5 dias. Quantos frangos sero separados? Peso (kg) 1,60 | 1,70 1,70 | 1,80 1,80 | 1,90 1,90 | 2,00 2,00 | 2,10 2,10 | 2,20 2,20 | 2,30 fi 60 160 280 260 140 60 40
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

53

7) Defina um espao amostral (de resultados) para cada um dos seguintes experimentos aleatrios: a) lanamento de dois dados, anotando-se a soma das faces superiores; b) investigao de leitegadas de tamanho 4, anotando-se a configurao segundo o sexo; c) lanamento de uma moeda at que aparea uma cara. 8) Sejam A, B e C trs eventos no disjuntos associados a um experimento cujo espao amostral W. i) Interprete as seguintes operaes usando os diagramas de Venn: (a) A B C
c

(b) A B C
c c

(c) (A B C)

(d) A (B C)

(e) (A B) W (f) (A B C) ii) Exprima em termos de operaes de eventos as seguintes afirmaes: (a) ocorrncia de pelo menos um dentre os eventos A, B e C; (b) ocorrncia de nenhum dos eventos A, B e C.
c

9) Dentre 6 nmeros positivos e 8 negativos so sorteados dois nmeros, sem reposio, e multiplicados. Qual a probabilidade de que o produto seja positivo? E negativo? (sugesto: usar o diagrama de rvore) 10) Considere os eventos A: "o animal sorteado tem peso superior a 200kg" e B: "o animal sorteado macho", com as seguintes probabilidades associadas: P(A) = 1/4, P(BA) = 1/2 e P(AB) = 1/4. Com base nesses valores, pede-se: a) os eventos A e B so mutuamente exclusivos? por qu? b) os eventos A e B so independentes? por qu? c) calcule e interprete P(A B ) e P(AB ).
c c c

11) A probabilidade de que o Palmeiras vena seu prximo jogo no Campeonato Paulista estimada em 70% se no chover, mas s em 50% se chover. Se os registros meteorolgicos mostrarem que tem chovido em 40% dos jogos do Palmeiras, qual a probabilidade dele vencer o prximo jogo? E de perder? 12) Sabe-se que as aves de um box do galpo experimental para frangos de corte, escolhido ao acaso, recebeu uma "nova" vacina. Dos seis boxes existentes, os boxes 1, 2 e 3 tm 20 fmeas e 40 machos, o box 4 tem 20 machos e 40 fmeas e os boxes 5 e 6 tm 30 machos e 30 fmeas cada um. Nosso experimento consiste em sortear um desses seis boxes e dentro dele, sortear uma ave. Pedese: a) qual a probabilidade da ave sorteada de ser um macho? e ser uma fmea? b) sabendo-se que a ave sorteada uma fmea, qual a probabilidade dela ter sido retirada do box 1? E do 4? E do 5? 13) Num determinado local temos dois piquetes: no piquete 1 so colocados 3 bezerros Gir e 2 Nelore, e no piquete 2 so colocados 2 bezerros Gir e 5 Nelore. Um piquete sorteado e um bezerro retirado deste piquete e colocado no outro; da, um bezerro sorteado deste segundo piquete. Calcule a probabilidade que, a) o segundo bezerro sorteado seja um Nelore; b) os dois bezerros sorteados sejam da mesma raa. 14. Sabendo-se que a v.a. X ~ B(n, p), que E(X) = 20 e Var(X) = 4, calcule: (a) os valores dos parmetros n e p; (b) P(X < 3) (c) P(X < 23) (d) E(Z) e Var(Z), onde Z = ( X 20 ) . 2

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

54

15. Sabe-se que 20% dos animais de uma fazenda so fmeas. Num lote de 5 animais escolhidos ao acaso para um certo exame clnico, qual a probabilidade de encontrarmos: (a) no mximo 3 fmeas? (b) nenhuma fmea? (c) pelo menos 4 fmeas? (d) exatamente 2 fmeas? 16. Um avicultor recebe trs propostas para a compra da sua produo de ovos de avestruz: PROPOSTA A: sero examinados 15 ovos; se for encontrado, no mximo um ovo de baixa qualidade o comprador A paga R$0,16 por unidade, caso contrrio, paga somente R$0,07. PROPOSTA B: sero examinados 20 ovos; se forem encontrados at 3 ovos de baixa qualidade, o comprador B paga R$0,15 por unidade, caso contrrio, paga somente R$0,06. PROPOSTA C: sero examinados 18 ovos; se nenhum deles for de baixa qualidade, o comprador C paga R$0,20 por unidade, caso contrrio, paga somente R$0,09. Assumindo que a v.a. X = nmero de ovos de baixa qualidade tem distribuio binomial e que a probabilidade de um ovo sorteado ser de baixa qualidade p = 0,10, determine qual a melhor proposta para o avicultor. 17) Um fabricante de peas de automveis garante que qualquer caixa de peas conter, no mximo, 2 peas defeituosas. Se uma caixa contm 20 peas e a experincia tem mostrado que o processo de fabricao produz 5% das peas defeituosas, qual a probabilidade de que uma caixa, escolhida ao acaso, satisfaa a garantia? 18) Suponha que um veterinrio queira decidir se vai ou no aceitar um lote de vacinas. Para ajudar na deciso, ele retira uma amostra de "n" vacinas do lote e conta o nmero "x" de vacinas vencidas. Baseado no nmero de vacinas vencidas na amostras, decide: se x<a ele aceita o lote, mas se x>a ele o rejeita ("a" fixado priori). Suponha que a amostra seja de n = 25 vacinas, que a = 2 e que a v.a. X = nmero de vacinas vencidas tem distribuio binomial, de parmetros n = 25 e p. Calcule a probabilidade do veterinrio aceitar o lote de vacinas, assumindo: (a) p = 0,10 (b) p = 0,20 (c) p = 0,05 19) No PABX do Campus de Pirassununga o "nmero de chamadas telefnicas para professores do ZAB" chega segundo uma distribuio de Poisson, com mdia = 6 chamadas/hora. Calcular a probabilidade de que numa hora cheguem: (a) 4 ou mais chamadas; (b) menos de 2 chamadas; (c) no mximo 7 chamadas. 20) Seja X uma varivel aleatria contnua com funo densidade de probabilidade: x + f(x) = 6 k, se 0 x 3 0, caso contrario Calcule: (a) o valor da constante k, para que f(x) seja uma f.d.p; (b) P(1 X 2); (c) E(X) e Var(X). 21) Dizemos que uma varivel aleatria contnua - X - tem distribuio uniforme no intervalo real [; ], se a sua funo densidade de probabilidade (f.d.p.) for definida como: f(x) = 1 , para todo x , e > + ( ) e que Var(X) = 2 12
2

Com base nesta definio, mostrar que E(X) =

22) Dada uma v.a. uniforme X definida no intervalo entre = 5 e = 10, ou seja X ~ U(5; 10), calcular: (a) P(X < 7) (b) P( 8 < X < 9) (c) P(X > 8,5) (d) P( |X-7,5| > 2)

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

55

23) Supondo que X ~ N(; ), encontre:


2

(a) P(X + 2)

(b) P( |X-| )

(c) o valor k, tal que P( - k X + k) = 0,99

24) O peso de 600 estudantes normalmente distribudo com mdia 65,3 kg e desvio padro 5,5 kg. Encontre o nmero de alunos com peso: (a) entre 60 e 70 kg. (b) mais que 63,2 kg. 25) Uma fbrica de pneumticos fez um teste e verificou que o desgaste de seus pneus obedecia a uma distribuio normal de mdia 48.000 km e desvio padro 2.000 km. Calcular a probabilidade de um pneu escolhido ao acaso: (a) durar mais que 46.000 km. (b) durar entre 45.000 e 50.000 km. 26) Supondo que o tempo de vida, em meses, dos equipamentos E1 e E2 tenham distribuies N(45; 9) e N(40; 36), respectivamente. Se um desses equipamentos tiver que ser usado por um perodo superior a 45 meses, qual deles deve ser preferido? E se o perodo de uso for superior a 48 meses? 27) O peso bruto de latas de conserva tem distribuio normal de mdia 1.000 g e desvio padro 20 g. O peso das latas tambm tem distribuio normal, mas de mdia 100 g e desvio padro de 10 g. Calcule a probabilidade de uma lata conter: (a) menos de 850 g de peso lquido (b) mais de 920 g de peso lquido. 28) Uma enchedora automtica de garrafas de refrigerantes est regulada para que o volume mdio do 3 3 lquido em cada garrafa seja de 1.000 cm e o desvio padro de 10 cm . Se admitirmos que a varivel tem distribuio normal, calcule: 3 (a) a porcentagem de garrafas onde o volume de lquido menor que 990 cm ; (b) a porcentagem de garrafas onde o volume de lquido no se desvia da mdia em mais que 2 desvios padres; (c) o que acontecer com a porcentagem calculada no item (b) se a mquina for regulada de forma 3 3 que a mdia seja 1.200 cm e o desvio padro 20 cm . 29) O dimetro X de rolamentos esfricos fabricados numa indstria pirassununguense tem distribuio 2 normal com mdia 6,140 mm e varincia 0,625 mm . O preo de custo T de cada rolamento depende do seu dimetro, e T = R$ 0,10 se o rolamento considerado bom [ 6,10 X 6,18 mm] T = R$ 0,05 se o rolamento recupervel [6,08 X < 6,10 mm ou 6,18 < X 6,20 mm] T = - R$ 0,10 se a esfera defeituosa [X < 6,08 ou X > 6,20] Com base nesses informaes, calcule: (a) a probabilidade de um rolamento ser considerado bom, recupervel e defeituoso; (b) o preo mdio de um rolamento, ou seja, E(T). 30) Uma indstria produz televisores e garante a restituio da quantia paga se qualquer televisor que vende apresentar algum defeito considerado grave, no prazo de 6 meses. Ela produz televisores de 20 e de 29 polegadas, com um lucro mdio respectivo de R$ 100 e R$ 200 se no houver restituio, e com um prejuzo de R$ 300 e R$500 se houver restituio. Suponha que o tempo (T) para a ocorrncia de algum defeito grave seja, em ambos os casos, uma varivel aleatria com 2 distribuio normal, respectivamente, com mdias 9 e 12 meses e varincias 4 e 9 meses . (a) Se voc tivesse que planejar uma estratgia de marketing para a empresa, voc incentivaria as vendas dos aparelhos de 20 ou de 29 polegadas? (b) Sua deciso mudaria se o prazo de garantia contra defeitos graves aumentasse de 6 para 8 meses?

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

56

31) Um avio de turismo de 4 lugares pode levar uma carga til de 350 kg. Suponha que o peso de um passageiro tem distribuio normal com peso mdio de 70 kg e desvio padro 20 kg e que o peso da bagagem de cada passageiro tenha distribuio normal de mdia 12 kg e desvio padro 5 kg. Calcular a probabilidade de: (a) haver sobrecarga se o piloto no pesar os quatro passageiros e suas respectivas bagagens; (b) que o piloto tenha de tirar pelo menos 50 kg de combustvel do avio para evitar a sobrecarga. 32) Seja a v.a. X ~ N(100;100). Usando a tbua de probabilidades conveniente, calcule: (a) P(X < 105) (b) P(|X-100| < 1,3) (c) o valor de a, tal que P(X > a) = 0,90 33) A altura de 10.000 alunos de um colgio tem distribuio aproximadamente normal de mdia 170 cm e desvio padro 5 cm, ou seja X ~ N(170; 25). Calcule: a) qual o nmero esperado de alunos com altura superior a 165 cm? b) qual o intervalo simtrico em torno da mdia, que conter 80% das alturas dos alunos? (ou seja, obtenha o valor de k, de tal modo que P(170-k X 170+k) = 0,80) 34) A distribuio de pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuio normal, com mdia de 5,0kg e desvio padro de 0,8 kg. Um abatedouro comprar 5000 coelhos e pretende classific-los, de acordo com o peso, em quatro classes: como pequenos os 20% dos mais leves; como mdios os 55% seguintes; como grandes os 15% seguintes e como extras os 10% mais pesados. Calcule os limites de peso para cada classe. 35) Sabe-se que a v.a. X ~ N(; ) e que 28% dos valores dessa varivel so superiores a 34 e 12% dos valores so inferiores a 19. Baseado nessas informaes, calcule o valor da mdia () e da 2 varincia ( ) da v.a. X.
2

36) Sejam X e Y duas v.a. discretas, cuja distribuio conjunta dada por P(X=x;Y=y) = kxy, para x = 1; 3; 5 e y = 2; 4. a) Calcule o valor de k; b) apresente a distribuio conjunta de X e Y e as respectivas distribuies marginais; c) calcule E(S) e Var(S) onde S = X+Y . 2

37) Durante uma grande exposio de animais, diversos eqinos foram julgados por dois juizes, cujas notas (de 5 a 10) foram anotadas numa planilha. Baseado na distribuio conjunta de X (notas do juiz A) e Y (notas do juiz B), apresentada a seguir: Y X 5 6 7 8 6 0,10 0 0 0,10 7 0,10 0,10 0,10 0 8 0 0 0,10 0,10 9 0,10 0,10 0,10 0

a) Calcule E(X), E(Y) e r(X,Y); b) Com base nos resultados obtidos em (a) podemos dizer que os critrios de julgamento utilizados pelos dois juizes so bastante parecidos? Por que? c) Obtenha a distribuio condicional das notas do juiz B, dado que a nota do juiz A foi 7. 38) Dois cartes so selecionados aleatoriamente de uma caixa que contem cinco cartes numerados: 1, 1, 2, 2 e 3. Sejam as variveis aleatrias X: "soma " e Y: "o maior dos dois nmeros selecionados: (i) Determine a funo de probabilidade conjunta de X e Y. (ii) As variveis X e Y so independentes? Por que? (iii) Obtenha a distribuio condicional de X, dado que o maior dos nmeros selecionados foi o 2, ou seja, Y=2. A seguir, calcule E[X | Y=2] e Var[X | Y = 2]
Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

57

39) Supondo que as v.a. X e Y sejam independentes com as distribuies apresentadas a seguir, encontre a distribuio conjunta de X e Y e verifique que Cov(X, Y) = 0. X f(x) 1 0,7 2 0,3 y g(y) -2 0,3 5 0,5 8 0,2

40) Numa comunidade em que apenas 15 casais trabalham, fez-se um levantamento onde foram obtidos os seguintes rendimentos mensais do homem (X) e da mulher (Y), expressos em nmeros de salrios mnimos: Casal X Y 1 10 5 2 10 10 3 5 5 4 10 5 5 15 5 6 10 10 7 5 10 8 15 10 9 10 10 10 5 10 11 15 5 12 15 10 13 10 15 14 10 10 15 15 15

(a) Construa a distribuio de probabilidade conjunta de X e Y e desenhe um histograma da distribuio. (b) Determine as distribuies marginais de X e de Y. (c) X e Y so variveis independentes? Justifique a resposta. (d) Calcule E(X), E(Y), Var(X), Cov(X, Y) e (X, Y). Explique o significado de cada valor obtido. (e) Sabendo-se que o rendimento da mulher igual a 10 salrios mnimos, obtenha a distribuio condicional de X, sua mdia e sua varincia. (f) Considere a varivel T igual soma dos vencimentos do homem e da mulher. Obtenha a distribuio de probabilidades da v.a. T = X + Y e calcule E(T) e Var(Z). 41) Suponha que as variveis X e Y tenham a seguinte distribuio conjunta: y 1 2 3 1 0,1 0,1 0,1 x 2 0,1 0,2 0,1 3 0,1 0,1 0,1

(a) Obtenha a funo de probabilidade de S = X + Y, D = X Y e V = XY e utilize essas distribuies para calcular: E(S), E(D), E(V), Var(S), Var(D) e Var(V). (b) Calcule esses valores utilizando as propriedades relacionadas com a soma e a diferena de variveis aleatrias. (c) Mostre que, embora Cov(X; Y) = 0, as variveis X e Y NO SO INDEPENDENTES!

Material elaborado pelo Prof. Dr. Csar Gonalves de Lima

Você também pode gostar