Você está na página 1de 50

Universidade Federal de Mato Grosso Curso de Probabilidade e Estatstica - Computao Prof(a) Silvia Maria Prado O que Estatstica

A Estatstica uma cincia ( ou mtodo) baseada na teoria das probabilidades, cujo objetivo principal nos auxiliar a tomar decises ou tirar concluses em situaes de incerteza, a partir de informaes numricas.

1.

Amostragem

Amostragem um subconjonto de elementos da populao, em geral leva reduo de custos e tempo. Mas a amostragem deve ser feita de maneira correta com critrios, caso contrrioa anlise estatstica no ser apropriada e as concluses no sero satisfatrias sobre a populao em estudo. 1.2 Noes de amostragem - Amostragem por conglomerado A populao dividida em diferentes conglomerados (grupos), extraindo-se uma amostra apenas dos conglomerados selecionados, e no de toda a populao. O ideal seria que cada conglomerado representasse tanto quanto possvel o total da populao. Na prtica, selecionam-se os conglomerados geograficamente. Escolhem-se aleatoriamente algumas regies, em seguida algumas sub-regies e finalmente, alguns lares. Esse processo possibilita ao pesquisador entrevistar apenas poucas pessoas. - Amostragem Estratificada Se a populao pode ser dividida em subgrupos que consistem, todos eles, em indivduos bastante semelhantes entre si, pode-se obter uma amostra aleatria de pessoas em cada grupo. Esse processo pode gerar amostras bastante precisas, mas s vivel quando a populao pode ser dividida em grupos homogneos. - Amostragem Aleatria Simples

A amostragem aleatria simples a maneira mais fcil para selecionarmos uma amostra probabilstica de um populao. Podemos obter uma amostra nessas condies, escrevendo cada elemento num carto, misturando-os numa urna e sorteando tantos cartes quantos desejarmos na amostra. Esse procedimento torna-se invivel quando a populao muito grande. Nesse caso, usa-se um processo alternativo, no qual os elementos so numerados e em seguida sorteados por meio de uma tabela de nmeros aleatrios. Utilizando-se um procedimento aleatrio, sorteia-se um elemento da populao, sendo que todos os elementos tm a mesma probabilidade de ser selecionados. Repetese o procedimento at que sejam sorteadas as unidades da amostra. Podemos ter um sorteio com reposio, se for permitido que uma unidade possa ser sorteada mais de uma vez, e sem reposio, se a unidade sorteada for removida da populao. Do ponto de vista da quantidade de informao contida na amostra, amostrar sem reposio mais adequado. Contudo, a amostragem com reposio conduz a um tratamento terico mais simples, pois ela implica que tenhamos independncia entre as unidades selecionadas. Essa independncia facilita o desenvolvimento das propriedades dos estimadores que sero considerados. - Amostragem Sistemtica Quando os elementos da populao se apresentam ordenados e a retirada dos elementos da amostra feita periodicamente, temos uma amostragem sistemtica.

Assim, por exemplo, em uma linha de produo, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produo diria. Amostras no-probabilsticas so tambm, muitas vezes, empregados em trabalhos estatsticos, por simplicidade ou por impossibilidade de se obterem amostras probabilsticas, como seria desejvel. No entanto processos no-probabilsticos de amostragem tm tambm sua importncia. Sua utilizao, entretanto, deve ser feita com cuidado. - Amostragem no probabilstica - Algumas tcnicas de amostragem no-probabilstica. - Inacessibilidade a toda populao Esta situao ocorre com muita freqncia na prtica. Por exemplo, seja a populao que nos interessa constituda de todas as peas produzidas por certa mquina. Existem peas que so parte da populao que ainda no foram produzidas. - Amostragem a esmo a amostragem em que o amostrador, para simplificar o processo, procura ser aleatrio sem, no entanto, realizar propriamente o sorteio usando algum dispositivo aleatrio confivel. Por exemplo, se desejarmos retirar uma amostra de 100 parafusos de uma caixa contendo 10.000, evidentemente no faremos uma amostragem aleatria simples , pois seria muito trabalhosa, mas retiramos simplesmente a esmo. - Amostragens intencionais

quando escolhida de forma deliberada os elementos da amostra, ele capaz de julgar com o elemento que deve fazer parte da amostra. O perigo desse tipo de amostragem grande, pois pode facilmente se enganar em seu prjulgamento. - Amostragem por voluntrios Ocorre, por exemplo, no caso da aplicao experimental de uma nova droga em pacientes, quando a tica obriga que haja concordncia dos escolhidos. - Tcnica de amostragem usando nmeros aleatrios Apresentamos uma forma simples de utilizar o Excel ou Broffice para selecionar uma amostra aleatria simples. Seqncias de nmeros aleatrios so teis em muitas aplicaes, em particular, para testar programas. Nmeros verdadeiramente aleatrios so muito difceis de obter; na verdade geramos nmeros pseudo-aleatrios, gerados por algoritmos. Para selecionar uma amostra aleatria de uma populao (pequena) como o catalogo de endereo de um empresa, os alunos de uma sala de aula devemos proceder da seguinte forma: - Na primeira coloque a populao de interesse, a partir da linha 2, e na coluna seguinte gere o nmero aleatrio para cada elemento da populao.

Esta atribuio ter de ser feita com as devidas precaues, de forma que a cada nmero tenha o mesmo nmero de dgitos. 1) Assistente de funes

Para diminuirmos a variabilidade devemos replicar em torno de 200 vezes ou mais, continuara volteis mas iro variar da

mesma forma ou seja a variabilidade ser menor. ( no foi feito em sala mas faremos nos prximos exemplos).

Uma vez que a funo ALEATORIO() uma funo voltil, isto , muda quando se recalcula a folha, no caso de pretendermos ficar com os valores gerados convm ir ao EDITAR e fazer um COLAR ESPECIAL - VALORES, como se indica a seguir:

Coloque os valores em outra coluna e SALVE.

Ordene os valores onde foram colocados os nmeros aleatrios, e selecione a amostra a partir desses valores. Se usarmos o programa R ser uma pouco mais simples para selecionarmos uma amostra: >alunos=c("Ana","Carlos","Joo","Mario","Patricia") >sample(alunos,2) ( 2 o tamanho da amotra desejada)

Tamanho da amostra: No muito simples determinar o tamanho da amostra. ( ser discutido no decorrer do curso, quando teremos os elementos necessrios para este clculo) . Mas podemos dizer que o tamanho da amostra importante a variabilidade da populao . Por exemplo: a amostra de sangue pode ser pequena, pois o sangue homogneo em nosso corpo. Por outro lado, populaes com grandes variabilidades necessitam de amostras maiores. Exerccio 1 Exerccio 1: Selecione uma amostra aleatria dos cursos da UFMT ( tamanho 10) . Caso queira poder gerar o seu prprio gerador de nmeros aleatrios, pois muitas linguagens possuem o nmero randon.(

para entregar)

2. Variveis Qualitativas e Quantitativas

Variveis qualitativas no podem ser mesurveis numericamente. qualitativa nominal :cor dos olhos, qualidade ( defeituosa, perfeita), sexo, tec... qualitativa ordinal: tamanho (P,M,G), grau de instruo (fundamental, ensino mdio, superior)- quando existe uma ordem Variveis quantitativas podem ser medidas numericamente

quantitativa discreta: nmeros inteiros, como nmero de filhos, nmeros de pessoas na fila, nmero de servidores. quantitativa contnua : Nmeros reais, existe uma escala, como peso, altura, salrio. Obs: Depende como o pesquisador olha os dados, a varivel pode ser contnua ou discreta, por exemplo a varivel idade poder ser classificada como contnua ou discreta. 2.1 Anlise de Variveis Qualitativas Aprenderemos a descrever e a explorar dados de variveis qualitativas, ou seja, aquelas cujos os possveis resultados so observados na forma de categorias, para isto iremos seguir o exemplo abaixo: Exemplo1: Para adequar os produtos s preferncias dos clientes, um projetista de pginas de Internet pretende conhecer o perfil dos indivduos que acessam um de seus sites. Pensando nisso, ele fez uma pesquisa e levantou os seguintes dados:

Para construir a distribuio de frequncia com o dados de uma varivel qualitativa, basta contar a quantidade de resultados observados em cada categoria. Usando o Broffice ( ou excel) isto fica muito fcil, basta usarmos CONT.SE ( assistente de funes - Matemticas - CONT.SE)

Em intervalo escolha a coluna que ir ser feita a contagem:

Depois temos que ir a critrios para escolhermos a varivel, para a contagem, ela dever ser digitada da forma " nome ":

Fica facil agora basta fazer a tabela de frequncia Tabela de frequncia A primeira coluna da tabela dever mostrar as categorias previamente estabelecidas , a segunda coluna resultar da contagem de quantas observaes se identificam com cada categoria, so as frequncias observadas - (fi) ou frequncias absolutas. A terceira coluna apresentar a medida relativa da frequncia de cada categoria. So as porcentagens, obtidas dividindo-se a frequncia observada pelo total de dados, e multiplicando- se por 100. So as chamadas frequncias relativas (pi) que so particularmente importantes para

comparar distribuies de frequncias de outros estudos feitos, pois em geral o tamanho das amostras so diferentes, e nas frequncias relativas o total ser sempre o mesmo. Logo temos para este exemplos a tabela de frequncia abaixo: Tabela : Distribuio de frequncia do provedor usado pelo visitante do site

Para Calcularmos as frequncias relativas no Broffice , se f1 esta na coluna E na linha 2 e o total de dados est na linha 6 , logo pi ser p1 = E2/E$6, $ para fixarmos o total de dados , para os outros pi basta arrastarmos o mouse para obtermos os valores:

Ou voc poder utilizar o Broffice para fazer a tabela , primeiro coloque os dados ordenados em uma outra coluna, e ao lado voc ira criar uma coluna de fi com o valor 1 para todas as clulas.

Selecionar as duas colunas com os ttulos

Faa DADOS- ASSISTENTE DE DADOS - INICIAR

Arraste os ttulos para por exemplo Provedor para o campo de linha e fi para campo de dados.

Clique em SOMA ( duas vezes) - CONTAGEM e OK. A tabela de frequncia ir aparecer. Facil!!

2.2 Representaes Grficas As representaes fornecem uma melhor visualizao, so formas alternativas de apresentar uma distribuio de frequncia. A figura abaixo representa a distribuio de frequncia atravs de colunas, onde cada categoria representada por uma coluna e a frequncia (absoluta ou relativa) colocada na vertical. Grfico de Barras

Para obtermos o grfico acima no Broffice.

Basta escolhermos as colunas que iro compor o grfico, ir no Broffice em Grfico , e escolhermos o grfico que ser construido, neste caso o grfico de colunas.

Podemos fazer o mesmo grfico mas utilizando a frequncia relativa pix100.

O grfico de Pizza ou circular construido da mesma forma que os anteriores. Grfico de Pizza

Exerccios Exerccio1: Considere o objetivo de verificar a demanda da qualidade no desenvolvimento de um software. Numa pesquisa de mercado foi obtido os seguintes dando considerando os mais importantes (a) interface de fcil acesso, (b) desempenho do sistema, c) mtodos de anlise avanados, d) mtodo de custeio, e) manuteno e suporte, f) personalizao ,g) atualizao em tempo real, h) confiabilidade das informaes, i) segurana dos dados e j) uso de novas tecnologias de informatica. As frequncias foram : a)8, b)7, c)7, d)12, e) 2, f) 4, g)3 , h) 21,i) 6 e j) 0, respectivamente. a) A varivel demanda de qualidade no desenvolvimento de software , operacionalizada de acordo com a pergunta feita aos clientes, qualitativa ou quantitativa? b) Faa uma anlise dos dados, atravs da tabela de frequncia e grficos. Exerccio 2: Uma empresa gostaria de saber como so os seus clientes e se acessam o site da empresa, para isto foi enviado um questionrio, e obtiveram os seguintes resultados dados de acesso ao site: N: no acessa S: Sim acessa

Faa uma anlise desses dados : Tabela de frequncia e atravs de grficos.

2.3 - Anlise das Variavis Quantitativas Uma varivel dita quantitativa quando os possveis resultados so nmeros em certa escala. Por exemplo: Podemos contar o nmero de defeitos de uma mquina, ou nmero de usurios na fila na espera de atendimento, o nmero de servidores, ou canais de acesso. Esses valores podem ser listados com valores 0, 1, 2, 3, .... so as variveis discretas. Quando medimos o tempo gasto no sistema, a altura dos alunos de uma classe ou o peso, teoricamente esses valores podem assumir valores num intervalo de nmeros reais [0,infinito) um exemplo de varivel contnua.

2.3.1 Variveis Discretas

A distribuio de frequncia de variveis discretas anloga as variveis qualitativas. Como os valores da varivel so numricos poderemos utilizar grficos com pares de eixos cartesianos. Eixo horizontal x: representa a varivel. Eixo vertical y : representa as frequncias. Mostraremos atravs de exemplos como trabalhar com a varivel discreta, que feito da mesma forma que a varivel qualitativa, j descrito anteriormente. Exemplo: Os dados representam o nmero de erros apresentados por um programa a cada rodada e que gera um sistema de filas

Tabela de distribuio de frequncia

Observamos que 35% das vezes que foi rodado apareceram 1 erro, 25% 2 erros Grfico

Podemos fazer o mesmo grfico mas utilizando a frequncia relativa.

2.3.2 - Variveis contnuas Para construir a tabela de frequncia, dividimos a amplitude total dos dados ( diferena do maior para o menor valor) em vrios intervalos, denominados classes. Esses intervalos devem ser mutuamente exclusivos, e de preferncia ter o mesmo tamanho. Isto feito para melhor visualizao dos dados, principalmente se temos muitos dados, caso contrrio a tabela poder ser construda da mesma forma que foi visto em anteriormente sem a diviso de classes. Exemplo: Os dados, a seguir, representam o tempo ( em segundos) para a carga de um aplicativo, num sistema compartilhado ( 50 observaes).

O nmero de classes a ser usado na tabela de frequncia uma escolha arbitrria. Quanto maior o nmero de dados, mais classes podem ser usadas. Uma tabela com poucas classes apresenta a distribuio de forma resumida, podendo deixar de evidenciar algumas caractersticas relevantes. Por outro lado, se usarmos muitas classes, a tabela pode ficar grande, no realando aspectos relevantes da distribuio de frequncia. Em geral, so usados de 5 a 20 classes, dependendo da quantidade de dados e dos objetivos. Na prtica o pesquisador usar a quantidade que acha necessrio para melhor visualizao, mas didaticamente usado uma formula para encontrar o nmero de classe como sendo: onde n = nmero de dados observados. A amplitude do intervalo dada por:

Obs: Caso c for igual a c=5,6 assuma c=6 caso nao seja este o valor quando estiver fazendo a tabela, dever refaze-la e tentar um outro valor, est formula apenas uma sugesto assim como a amplitude do intervalo.

Obs: Existem vrias maneiras de obtermos o nmero de classes. Iremos usar as ferramentas do Excel ou BrOffice para fazer a tabela de frequncia com classes. Exemplo: Os dados, a seguir, representam o tempo ( em segundos) para carga de um aplicativo, num sistema compartilhado ( 50 observaes)

Coloque os dados em uma coluna e ao lado uma outra (fi) com valores iguais a 1.

Depois construa a tabela dinmica como foi descrita anteriormente. Para construir a os intervalos, como vocs descobriram em sala. Depois de feita a tabela dinnica, marque a primeria linha da tabela e aperte F12:

Na janela aberta podemos mudar o inicio do intervalo e o fim, assim como a amplitude.

A representao grfica dessa distribuio recebe o nome de Histograma . E um grfico de colunas justapostas.

Com o ponto mdio das classes podemos traar o Polgono de frequncia:

O Polgono de frequncia representa a forma aproximada do que se observou. Podemos calcular a frequncia observada acumulada (Fi) e frequncia relativa acumulada (Pi)

Observe a tabela acima que a frequncia observada acumulada nada mais do que uma soma, na segunda linha 20+14 =34, assim por diante, 34+8 = 42. Da mesma forma a frequncia relativa acumulada. Com ela podemos ter noo do sistema como um todo por exemplo no intervalo de tempo de 5,7 at 8,7 temos 46 aplicativos.

Ao confrontarmos a distribuio observada com vrios modelos tericos existentes, temos uma idia de qual modelo seria o mais adequado para explicar o comportamento da varivel estudada. Na investigao sobre a forma da distribuio, vrias caracteristicas devem ser observadas. As principais so: a) A posio central, que informa onde e localiza o centro da distribuio ( mdia) b) A disperso, que se refere a variabilidade dos dados. c) A assimetria, que representa a concentrao dos valores em um dos extremos da distribuio. d) O grau de achatamento da curva.

Exerccio Exerccio 3 - Os dados abaixo representam 50 leituras de temperatura em graus Celcius de um pasteurizador.

a) Construa uma tabela de frequncias. b) Apresente a distribuio em um histograma. c) Faa um grfico da distribuio acumulada. Indique no grfico a porcentagem aproximada de observaes abaixo de 75 graus Celcius. Exerccio 2: A MB Indstria e Comrcio, desejando melhorar o nvel de seus funcionrios em cargos de chefia, montou um curso experimental e indicou 25 funcionrios para a primeria turma. Os dados referentes seo a que pertencem, notas e graus obtidosno curso esto na tabela a seguir. Como havia dvidas quanto adoo de um nico critrio de avaliao, cada instrutor adotou seu prprio sistema de aferio. Usando dados daquela tabela. responda as questes:

a) Aps observar atentamente cada varivel, e com o intuito de resumi-las, como voc indentificaria qualitativa ordinal ou nominal, quantitativa discreta ou contnua) cada uma das 9 variveis. b) Compare e indique as diferenas existentes entre as distribuies das variveis Direito, Poltica e Estatstica. c) Construa o histograma para a varivel Redao. d) Construa a distribuio de frequncia da varivel Metodologia e faa um grfico para indicar essa distribuio. e) Sorteando ao acaso um dos 25 funcionrios, qual a probabilidade de que ele tenha obtido grau A em Metodologia? f) Se , em vez de um, sortessemos dois , a probabilidade de que ambos tivessem tido A em Metodologia maior ou menor do que a resposta em e) g) Como o aproveitamentop dos funcionrios na disciplina Estatstica. segundo a seo a que eles pertencem?

3. Diagrama de Ramos e folhas O diagrama de ramo e folhas consiste em apresentar os dados separando os primeiros dgitos, os quais formaro os ramos, e os demais dgitos, que formaro as folhas. Por exemplo, para os npumeros 10, 15 3 23, as dezenas 1 e 2 ficariam do lado esquerdo de uma linha vertical ( os ramos 1 e 2) e as unidades 0, 5 e 3 do lado direito ( as folhas) como segue:

Exemplo 2: 5,2 6,4 5,7 8,3 7,0

O diagrama de ramos-e-folhas evidencia um caos atpico, ele possui as mesmas caractersticas do histograma. 4. Medidas Descritivas Quando analisamos uma varivel qualitativa, apenas construmos a tabela de frequncia. Mas com as variveis quantitativas temos condies de empregar algumas medidas descritivas, que resumem as caracteristicas da distribuio. Mostraremos algumas, pois muitas vezes o conjunto de informaes quantitativas pode ser bem representadas por alguma medida descritiva. Como a mdia, amplitude, varincia. 4.1 Medidas de Posio - Mdia aritmtica: a soma das observaes dividida pelo nmero delas :

Usando os dados brutos:

Exemplo : 3 4 7 8 8:

Usanso o BrOffice para calcular a mdia aritmtica: Va em Assistente de funes e escolha Estatstica - Mdia

Mdia

Moda : o valor que ocorre com maior freqncia Notao : Mo Obs: A moda usada como medida rpida.
*Pode-se

ter: uma moda:unimodal, duas modas: bimodal, +

duas: multimoda

- Dados no agrupados deve-se colocar em ordem crescente. Ex : 7 8 9 10 10 11 12 13 15 o valor que se repete o 10. Logo a moda 10, Mo = 10

No BrOffice em Assistente de Funes - Estatstica Modo ( como feito anteriormente).

Mediana: Conjunto de valores ordenados segundo a ordem de grandeza ( forma crescente), o valor situado de tal forma que separa em 2 subconjuntos de mesmo nmero de elementos .

O clculo da mediana leva em considerao somente a ordenao e a magnitude relativa das observaes em um conjunto de dados. Notao: Mediana = Md Dados no agrupados Exemplo : 5 13 10 2 18 15 6 16 9 Ordenar : 2 5 6 9 10 13 15 16 18 Se o nmero de itens for mpar, a Mediana ser o valor do meio. Se o nmero de itens par, a Mediana ser a mdia dos 2 valores do meio. Como anteriormente para obtermos a Mediana no BrOffice Assistente de funes - Estatsticas - Med A mediana mais robusta que a mdia, pois ela no sensvel aos dados, como valores muito maiores ou menores. Por outro lado a mdia leva em considerao todas as observaes. A mediana e a mdia sero iguais caso os dados sejam simtricos.

Quartis: divide em 4 partes iguais: Primeiro quartil (q1) - mostra 25 % dos dados Segundo quartil (q2) - como a mdiana - 50% dos dados Terceiro quartil (q3) - 75% dos dados. Basta ordenar os dados e dividirmos em 4 partes

Exemplo : Sejam os dados : 15 18 5 7 9 11 3 5 6 8 12 Ordenar : 3 5 5 6 7 8 9 11 12 15 18

Usando o BrOffice - Assistente de funo - quartil - escolha 1 - 25% , 2 - 50% e 3 - 75%.

4.2 Medidas de disperso Para melhorar o resumo de dados, podemos apresentar , ao lado da mdia aritmtica uma medida da disperso desses dados. As medidas de posio so insuficientes, pois no revelam a variabilidade dos dados Exemplo: Notas do Aluno A : 6, 6, 6, 6 ,6: Mdia = 6 Notas do Aluno B : 7, 5, 6, 4, 8 : Mdia = 6 O Aluno A possui um comportamento homogneo e o aluno B no. As medidas de disperso nos fornecem esta variao. Medidas de Disperso : Amplitude Total, varincia, desvio padro, coeficiente de variao:
1.

Amplitude Total: a diferena entre o maior valor e o menor valor observado.

Notao: At Dados no agrupados ( devem estar ordenados de forma crescente)


-

Exemplo: 40 45 48 52 54 62 70 At = 70 40 = 30 Varincia: Baseia- se na distncia de cada varivel em relao a mdia. A frmula da varincia amostral dada por:

Desvio-Padro(S)- a medida de disperso mais usada e mais importante. Mede a concentrao dos dados em torno da mdia. dado pela soma dos quadrados dos desvios dividido pelo nmero total de observaes , e a Raiz quadrada da varincia.

Interpretao do desvio-padro (anloga da varincia): Devemos ter em mente que o desvio-padro mede a variao entre valores. Se os valores estiverem prximos uns dos outros, ento o desvio-padro ser pequeno, e consequentemente os dados sero homogneos. Se os valores estiverem distantes uns dos outros, ento o desvio-padro ser grande, e consequentemente os dados sero heterogneos. A desvantagem do uso da varincia perante o uso do desviopadro que a unidade de medida utilizada igual ao quadrado da unidade de medida dos dados. Coeficiente de Variao Trata-se de uma medida relativa de disperso, til para comparao em termos relativos do grau de concentrao em torno da mdia de sries distintas. dada por:

Referncias Bibliogrficas [1] Barbetta P. A., Reis M.M. R, Bornia A. C. B. Estatstica Para cursos de Engenharia e Informtica- So Paulo, Editora Atlas S.A. - 2004. [2] Bussab, W.O.; Morettin, P.A. Estatstica Bsica. 4a ed., Atual Editora, S.P.,1993. [3] Fonseca, J.S.; Martins, G. de A. Curso de estatstica, 4a ed., Editora Atlas, SP.,1993. [4] JAY L. DEVORE, Probabilidade e Estatstica para Engenharia e Cincias, Editora THOMSON, SP, 2006. [5] Morettin, Luiz Gonzaga. Estatstica Bsica. 7a ed. Editora Makron Books. Vols. 1e 2. 1999. [6] TRIOLA, Mrio. Introduo Estatstica. 7aed. Editora LTC. 1999 [7] MEYER, P.L. Probabilidade, aplicaes a estatstica. Traduo de Ruy C. B. Loureno Filho, (ENCE/IBGE), Rio de Janeiro, R.J., 1984.3