Você está na página 1de 9

Curso de Estatística Descritiva e Análise Exploratória de Dados

1. Conceitos fundamentais da estatística descritiva
População: Toda questão de pesquisa define um universo de objetos aos quais os resultados do estudo deverão ser aplicados. Amostra: Uma amostra é um subconjunto de indivíduos da população alvo. Variável: é uma característica da população Variável qualitativa (ou categórica) nominal: São aquelas cujas respostas podem ser encaixadas em categorias, sendo que cada categoria é independente, sem nenhuma relação com as outras: sexo (masculino, feminino), raça (branco, preto, outro), etc. Variável qualitativa (ou categórica) ordinal: São aquelas cujas categorias mantêm uma relação de ordem com as outras, que podem ser regulares ou não (existe uma ordem natural nas categorias): classe social (alta, média, baixa), auto percepção de desempenho em Estatística (péssimo, ruim, regular, bom, ótimo), etc. Variável quantitativa discreta: São aquelas resultantes de contagens, constituem um conjunto finito de valores: número de filhos, número de reprovações em estatística, idade em anos completos, etc. Variável quantitativa contínua: Resultados de mensurações, podem tomar infinitos valores: pontuação na escala de atitude, nota na prova de estatística, pontuação no vestibular, etc.

2. Medidas de Tendência Central
Média aritmética É o valor que representa um conjunto de valores da população ou de uma amostra. Definida como a soma de todos os valores da população ou amostra dividida pelo número de observações. Por exemplo: renda per capita de um país, esperança de vida, renda familiar média, pontuação média na escala de atitudes em relação à Estatística, etc. Fórmula:

Para obter no excel: Clique na guia fórmulas→inserir função→ selecione a função média→ok → em Núm1 selecione o intervalo de dados que deseja obter a média→ok. Formula para obter no Excel: =MÉDIA(célula de inicial do intervalo de dados:célula final do
intervalo de dados)

para os quais não se pode calcular a média e por vezes a mediana. Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos. Obtenha no excel a média. Ou seja. nem sempre a média representa bem os dados... a mediana e a moda dos dados abaixo: . p3. o intervalo de classe com maior frequência se os dados são contínuos. xn cuja importância relativa ("peso") é respectivamente p1. Exercícios Medidas de Tendência central 1. aconselha-se usar a mediana. apresentados sob a forma de nomes ou categorias. Formula para obter no Excel: =MED(célula de inicial do intervalo de dados:célula final do intervalo de dados) Moda Moda é o valor que surge com mais frequência se os dados são discretos.. pn é calculada da seguinte maneira: p = Formula para obter no Excel: =SOMARPRODUTO(matriz de valores. Com isso. Já a moda. valores altos podem elevar o valor da média ou valores baixos podem diminuir o valor da média. é o valor situado de tal forma no conjunto que separa em dois subconjuntos de mesmo número de elementos. Para obter no excel: Clique na guia fórmulas→inserir função→ selecione a função modo. ordenados segundo uma ordem de grandeza. isto é. ou. Nessas situações. . x2. Difere da média aritmética porque atribui pesos a cada valor da população ou amostra. x3. p2. Para obter no excel: Clique na guia fórmulas→inserir função→ selecione a função med→ok → em Núm1 selecione o intervalo de dados que deseja obter a mediana→ok..ÚNICO(célula de inicial do intervalo de dados:célula final do intervalo de dados) Obs: Como a média é sensível à presença de dados atípicos. .Média Ponderada É o valor que representa um conjunto de valores da população ou de uma amostra.único→ok → em Núm1 selecione o intervalo de dados que deseja obter a moda→ok.matriz de pesos)/SOMA (matriz de pesos) Mediana Mediana de um conjunto de valores.. 50% dos valores estão abaixo da mediana e 50% dos valores estão acima da mediana. Formula para obter no Excel: = MODO. vai ser interessante quando estamos trabalhando com gráficos e tabelas de frequências. A média aritmética ponderada p de um conjunto de números x1..

00 260. Biologia e História.50 257.0 em Português. Construa uma tabela no excel com os dados e responda qual foi a média que ele obteve? 3.00 295.0 em Biologia e 9. Definida como a soma dos . 2.65 Interprete os resultados. Para obter no excel: Clique na guia fórmulas→inserir função→ selecione a função mínimo→ok → em Núm1 selecione o intervalo de dados que deseja obter o número mínimo→ok. 8.56 199. onde foram realizadas provas de Português. Alcebíades participou de um concurso.30 265.90 205. Matemática. 7. Para obter no excel: Clique na guia fórmulas→inserir função→ selecione a função máximo→ok → em Núm1 selecione o intervalo de dados que deseja obter o número máximo→ok.30 195. Formula para obter no Excel: = MÁXIMO(célula de inicial do intervalo de dados:célula final do intervalo de dados) Variância É um valor que mede o grau de dispersão dos valores da variável.Mês Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Gasto mensal com combustível R$ R$ R$ R$ R$ R$ R$ R$ R$ R$ R$ R$ 225.0 em História. Medidas de Dispersão Mínimo É o menor valor do conjunto de dados.5 em Estatística. Essas provas tinham peso 3.40 205.00 181.50 205. 2 e 2. em relação à média populacional ou a média amostral. Sabendo que Alcebíades tirou 8. 3.30 275. na população ou na amostra. Formula para obter no Excel: = MÍNIMO(célula de inicial do intervalo de dados:célula final do intervalo de dados) Máximo É o maior valor do conjunto de dados. respectivamente.

A(célula de inicial do intervalo de dados:célula final do intervalo de dados) do intervalo de dados) (amostra) =VAR. em relação à média populacional ou a média amostral. A medida relativa CV permite a comparação de conjuntos de dados. Formula para obter no Excel: = (célula contendo o valor do desvio padrão/célula contendo o valor da média)*100 Exercício Medidas de Dispersão 1. Valores baixos da variância indicam pequena dispersão dos dados e consequentemente homogeneidade nos dados. a variável que tiver menor CV tem menor dispersão ou variabilidade.A (amostra) ou VAR. divido pelo número de observações: Valores altos da variância indicam grande dispersão dos dados e consequentemente heterogeneidade nos dados. Para obter no excel: Clique na guia fórmulas→inserir função→ selecione a função DESVPAD. os dados assumem valores diferentes e distantes uns dos outros. Para obter no excel: Clique na guia fórmulas→inserir função→ selecione a função VAR.A (amostra) ou DESVPAD. mínimo. ou seja. os dados assumem valores similares e próximos uns dos outros. na população ou na amostra. O desvio padrão é a raiz quadrada da variância: √S2 Valores altos do desvio padrão indicam grande dispersão dos dados e consequentemente heterogeneidade nos dados. os dados assumem valores diferentes e distantes uns dos outros. . ou seja.P(matriz de dados) (população) Coeficiente de Variação O coeficiente de variação CV é a divisão do desvio padrão pela média. Valores baixos do desvio padrão indicam pequena dispersão dos dados e consequentemente homogeneidade nos dados. máximo. ou seja. Obtenha no excel para cada ano: a média.P (população)→ok → em Núm1 selecione o intervalo de dados que deseja obter desvio padrão→ok.P(célula de inicial do intervalo de dados:célula final (população) Desvio padrão Também é um valor que mede o grau de dispersão dos valores da variável. Comparando duas variáveis. pois seu resultado é o desvio padrão por unidade de média.quadrados dos desvios dos valores da variável em relação a sua média. moda. Formula para obter no Excel: =DESVPAD. variância.P (população)→ok → em Núm1 selecione o intervalo de dados que deseja obter a variância→ok. os dados assumem valores similares e próximos uns dos outros.A(matriz de dados) (amostra) =DESVPAD. ou seja. Formula para obter no Excel: =VAR. mediana.

Frequência Relativa Percentual: É o resultado de dividir sua frequência absoluta pelo tamanho da amostra multiplicado por 100.50 R$ 295. Quando determinamos a frequência de alguma variável torna-se necessário a construção de uma distribuição de frequência (tabela com as respectivas frequências dos possíveis valores que a variável em estudo pode assumir).30 R$ 247. Gasto mensal com combustível 2009 R$ 223.30 R$ 215.65 Mês Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Interprete os resultados.00 R$ 199.30 R$ 175. Frequência Acumulada: É a soma das frequências absolutas ou relativas percentuais da primeira classe até a última classe da tabela de frequência.00 R$ 181.40 R$ 285. Exemplo: Distribuição de Frequência dos Salários dos Bolsistas do Programa Pacto Federativo Lotados em Salvador.56 R$ 159.40 R$ 225. 2011 .50 R$ 247.50 R$ 307.00 R$ 247.50 R$ 262.50 R$ 357.30 R$ 295.50 R$ 305.30 R$ 205.00 R$ 315.30 R$ 265.00 R$ 215.50 R$ 287.50 2011 R$ 325.00 R$ 262.30 R$ 325.40 R$ 211.50 R$ 310.30 R$ 262. Em qual ano o gasto médio com combustível foi menor.00 R$ 280.90 R$ 235.00 R$ 305.desvio padrão e coeficiente de variação dos dados abaixo.90 R$ 185. Tabelas de Frequência e Análise Gráfica A frequência do valor de uma variável é o número de repetições desse valor. • • • Frequência Absoluta: É a contagem das repetições de cada valor dentro da variável.00 R$ 245. em qual ano teve uma menor variabilidade de gasto com combustível? 4.65 2010 R$ 175.50 R$ 185.50 R$ 285.

53%).0 Frequência Acumulada Absoluta 77 85 120 135 159 162 - Frequência Acumulada Percentual 47.00 Total Frequência Absoluta 77 8 35 15 24 3 162 Frequência Relativa Percentual 47.47 74.000.00 e 47.94 21.00 ITEC2. Como construir no excel: Clique na guia Inserir→Barras→escolha o tipo de gráfico de barras desejado→na janela aberta clique com o lado direito do mouse e escolha selecionar dados→em intervalo de classe dos dados selecione os dados que deseja fazer o gráfico de barras→ok→na guia Design escolha o Layout do gráfico→ coloque titulo no gráfico→clique com o lado direito do mouse em cima do titulo e escolha a fonte e o estilo de fonte desejada→clique com o lado direito do mouse em qualquer barra do gráfico e selecione adicionar rótulos aos dados →clique com o lado direito do mouse em cima dos rótulos dos dados e escolha a fonte e o estilo de fonte desejada→ para mudar o visual de seu gráfico clique duplo pausado primeiro com o lado esquerdo do mouse e depois clique simples com o lado direito do mouse e escolha formatar ponto de dados→em opções de série e escolha a .400.00 ITEC1.700. Gráfico de Pizza O gráfico de pizza deve ser usado preferencialmente para apresentar variáveis com no máximo 4 eventos.26 14.47% dos bolsistas recebem bolsas abaixo de R$ 1.00 (47.53 4.14 100 - Interpretação: Aproximadamente metade dos bolsistas do Pacto Federativo lotados em Salvador recebe bolsa de R$ 720. Como construir no excel: Clique na guia Inserir→Pizza→escolha o tipo de gráfico de pizza desejado→na janela aberta clique com o lado direito do mouse e escolha selecionar dados→em intervalo de classe dos dados selecione os dados que deseja fazer o gráfico de pizza→ok→na guia Design escolha o Layout do gráfico→ coloque titulo no gráfico→clique com o lado direito do mouse em cima do titulo e escolha a fonte e o estilo de fonte desejada→clique com o lado direito do mouse em cima da legenda e escolha a fonte e o estilo de fonte desejada→clique com o lado direito do mouse em cima dos rótulos dos dados e escolha a fonte e o estilo de fonte desejada→ para mudar o visual de seu gráfico clique primeiro com o lado esquerdo do mouse e depois o lado direito do mouse e escolha formatar ponto de dados→em opções de série e escolha o ângulo desejado→em preenchimento escolha o tipo de preenchimento e a cor desejada→ em cor da borda escolha cor desejada→em formato 3D escolha o bisel superior e inferior e escolha o material desejado.00 ITEC3.R$ 2.53 52.700.Classes de Salários AT3 .800.53% dos bolsistas recebem bolsa acima de R$ 1.R$ 1. A classe AT3 é a classe modal.33 98.81 1. pois tem a maior frequência.00. 52.600.07 83.R$ 720. Gráfico de Barras O gráfico de barras deve ser usado preferencialmente para apresentar variáveis com mais 4 eventos.60 9.86 100.R$ 960.R$ 3.00 GT5.R$ 1.00 AT2 .

unidade principal e secundária do eixo. Gráfico de Linhas O gráfico de linhas deve ser usado quando esta se analisando um conjunto de dados ao longo do tempo. . Como construir no excel: Clique na guia Inserir→Colunas→escolha o tipo de gráfico de colunas desejado→na janela aberta clique com o lado direito do mouse e escolha selecionar dados→em intervalo de classe dos dados selecione os dados que deseja fazer o gráfico de colunas→ok→na guia Design escolha o Layout do gráfico→ coloque titulo no gráfico→clique com o lado direito do mouse em cima do titulo e escolha a fonte e o estilo de fonte desejada→clique com o lado direito do mouse em qualquer coluna do gráfico e selecione adicionar rótulos aos dados →clique com o lado direito do mouse em cima dos rótulos dos dados e escolha a fonte e o estilo de fonte desejada→ para mudar o visual de seu gráfico clique duplo pausado primeiro com o lado esquerdo do mouse e depois clique simples com o lado direito do mouse e escolha formatar ponto de dados→em opções de série e escolha a profundidade desejado e a largura da coluna desejada→em preenchimento escolha o tipo de preenchimento e a cor desejada→ em cor da borda escolha cor desejada→em formato 3D escolha o bisel superior e inferior e escolha o material desejado→no eixo x do gráfico clique com o lado esquerdo do mouse e escolha a fonte e o estilo de fonte do eixo→escolha o alinhamento desejado para o texto→no eixo y do gráfico clique com o lado esquerdo do mouse e escolha a fonte e o estilo de fonte do eixo→em opções de eixo determine o valor mínimo. máximo. máximo. Como construir no excel: Clique na guia Inserir→Linhas→escolha o tipo de gráfico de linha desejado→na janela aberta clique com o lado direito do mouse e escolha selecionar dados→em intervalo de classe dos dados selecione os dados que deseja fazer o gráfico de linhas→ok→na guia Design escolha o Layout do gráfico→ coloque titulo no gráfico→clique com o lado direito do mouse em cima do titulo e escolha a fonte e o estilo de fonte desejada→para mudar o visual de seu gráfico clique primeiro com o lado esquerdo do mouse e depois clique com o lado direito do mouse e escolha formatar séries de dados→em opções de Marcador escolha o tipo desejado→em Preenchimento de Marcador escolha o tipo de preenchimento e a cor desejada→ em cor da linha escolha cor desejada→ em estilo da linha escolha a largura e o tipo de traço desejado→ em formato 3D escolha o bisel superior e inferior e escolha o material e a lunimosidade desejada→no eixo x do gráfico clique com o lado esquerdo do mouse e escolha a fonte e o estilo de fonte do eixo→escolha o alinhamento desejado para o texto→no eixo y do gráfico clique com o lado esquerdo do mouse e escolha a fonte e o estilo de fonte do eixo→em opções de eixo determine o valor mínimo. Gráfico de Colunas O gráfico de colunas deve ser usado preferencialmente para apresentar variáveis com mais 4 eventos. máximo. unidade principal e secundária do eixo. unidade principal e secundária do eixo.profundidade desejado e a largura da barra desejada→em preenchimento escolha o tipo de preenchimento e a cor desejada→ em cor da borda escolha cor desejada→em formato 3D escolha o bisel superior e inferior e escolha o material desejado→no eixo y do gráfico clique com o lado esquerdo do mouse e escolha a fonte e o estilo de fonte do eixo→no eixo x do gráfico clique com o lado esquerdo do mouse e escolha a fonte e o estilo de fonte do eixo→em opções de eixo determine o valor mínimo.

a análise gráfica: Tabela do Estado Civil dos Funcionários da EBDA Estado Civil Frequência Casado 1033 Concubinato 12 Divorciado 149 Não informou 1 Solteiro 413 Viúvo 28 Total 1636 Fonte: Recursos Humanos Percentual 63.11 0.25 1. Faça um gráfico de coluna para representar os dados e analise o gráfico. acumuladas absolutas e acumuladas percentuais do grau de escolaridade dos funcionários da EBDA. 1. Tabela do Grau de Escolaridade dos Funcionários da EBDA Escolaridade Analfabeto Primário incompleto (1ª a 4ª Série) Primário completo (1ª a 4ª Série) 1º Grau incompleto (5ª a 8ª Série) 1º Grau completo (Ginásio) 2º Grau incompleto (Colegial) 2º Grau completo (Colegial) Curso técnico Superior incompleto Superior completo Superior com especialização Superior com mestrado Superior com doutorado Não informou Total Fonte: Recursos Humanos Frequência 2 25 66 39 56 31 546 143 21 600 52 48 5 2 1636 2.50 257.0 3. Faça um gráfico de linha com as informações abaixo e analise o mesmo: Mês Janeiro Fevereiro Gasto mensal com combustível R$ R$ 225. Faça um gráfico de barras com as informações abaixo.Exercícios Tabela de Frequência e Análise Gráfica no Excel Determine as frequências relativas percentuais. bem como.71 100.06 25.40 .14 0.73 9.

90 205. Apresente os resultados dos exercícios feitos durante o curso.50 205.Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro R$ R$ R$ R$ R$ R$ R$ R$ R$ R$ 205.00 181.0 Exercícios com os conteúdos abordados no Excel 1.56 199. .00 295.30 265.30 275.30 195.00 260. Faça um gráfico de pizza com as informações abaixo e analise o mesmo: Tabela da Categoria de Atividade dos Bolsistas Lotados em Salvador Categoria ADM Ater Subprojeto Total Frequência 43 5 114 162 Percentual 27 3 70 100.65 4.