Trabalho Final - Helga Correia 1002153

UNIVERSIDADE ABERTA
Estatística e
Desenvolvimentos
Computacionais em R
Aplicações na área da Educação
Helga Carina Correia

2010/2011
Este trabalho pretende ser uma aplicação dos conhecimentos adquiridos ao longo da disciplina de
Computação Estatística I. Pretende demonstrar a importância da linguagem R, a sua utilidade e as suas
vantagens através de várias aplicações na área da educação. Serão feitas vários tipos de análise de
dados, desde representações gráficas a vários tipos de análises comparativas.
1 INTRODUÇÃO
Hoje em dia já existem muitos softwares estatísticos que disponibilizam um vasto leque de
ferramentas que permitem ao investigador o tratamento e análise dos dados de uma forma
mais simples e muito menos morosa. Softwares como o Excel, o SPSS, o R, o Minitab, o
Statistica, o Stata, entre outros, apresentam aplicativos estatísticos capazes de importar
ficheiros de dados gravados noutras aplicações, escolher o tratamento de análise adequado
para os dados, desde estatísticas descritivas a vários tipos de gráficos, seleccionar as variáveis
de interesse para cada estudo, entre outros.
Neste estudo pretende-se realçar a importância da computação, nomeadamente o software R,
nas diversas vertentes da Estatística. Pretende ainda reconhecer o seu contributo para o
desenvolvimento na área da Educação, salientando a sua utilidade em fenómenos
pedagógicos.
Anualmente, o Gabinete de Estudos e Planeamento do Ministério da Educação e Ensino
Superior, publica o Anuário Estatístico da Educação com a finalidade de divulgar os dados e
as informações do sector. Este anuário informa sobre as estatísticas oficiais do sistema
educativo nacional, nomeadamente alunos, professores, escolas, turmas, acção social escolar,
alfabetização e educação de adultos, bolsas de estudo, administração, cooperação entre o
MEES e os seus respectivos Parceiros e afectação de recursos financeiros. É por isso de
grande interesse para a população em geral um estudo mais aprofundado dos seus dados.
O último Anuário publicado é referente ao ano de 2008/2009 e é com base neste que irão ser
feitas diversas análises com o intuito de conhecer mais informações sobre o Sistema
Educativo Cabo-verdiano. Assim, irão ser apresentadas situações concretas da aplicação do
software R na área da Educação.
Na primeira aplicação serão usadas algumas das ferramentas do R para caracterizar e

representar graficamente os dados relativos ao nº de alunos nas diversas instituições de ensino
superior em cabo verde. Na segunda aplicação será feita uma análise no sentido de verificar se
existem diferenças significativas no nº de alunos nas diversas instituições que frequentam os
três primeiros anos que compõem um curso. Esta análise será feita com base na análise da
variância e a testes para igualdade de variâncias e para a normalidade. Na terceira aplicação,
irá ser analisado o nível de formação dos docentes de ensino superior relativamente ao ano
lectivo de 2008/2009. Pretende-se com esta 3ª aplicação verificar se existem diferenças
significativas entre o nº de professores com o nível de Doutoramento, Mestrado e
Licenciatura. Será usado um teste não paramétrico alternativo à ANOVA, o teste de Kruskall-
wallis. Na última aplicação pretende-se analisar se existem diferenças significativas entre o
sexo dos alunos nestas instituições e se o nº de alunos provém de uma distribuição normal.
Foram utilizados os testes de ajustamento de Friedman e de Lilliefors.
2 ANÁLISE DESCRITIVA E REPRESENTAÇÃO GRÁFICA NO R - 1 ª APLICAÇÃO
Nesta aplicação pretende-se fazer uma análise descritiva e uma representação gráfica dos
dados relativos ao nº de alunos que frequentam as instituições de ensino superior no ano de
2008/2009.
Uma tabela com os dados relativos a este estudo é obtida recorrendo à importação dos dados:
> alunos=read.table('c:/Users/Helga/Desktop/alunosano.txt',header=T,sep=';',dec='.')
> alunos
Uni.cv Uni.Piaget IESIG ISCEE INIDA ISCJS M_EIA LUSO UNICA US
1 1166 1045 259 544 0 242 19 161 107 335
2 1008 710 229 323 0 169 0 105 0 0
3 591 374 147 167 0 126 0 0 0 0
4 282 0 91 0 0 0 0 0 0 0
5 198 0 23 0 44 0 0 0 0 0
Através do comando summary obtém-se o resumo das principais medidas descritivas dos
dados, tal como a média, mediana, quartis e o valor máximo e mínimo dos dados. (anexo 1)
> summary(alunos)
Verifica-se que é na Uni-CV que a média para o nº de alunos é mais elevada sendo a média da
Uni-Piaget a que mais se aproxima desses valores. As outras instituições apresentam médias
mais baixas, esta diferença deve-se essencialmente ao facto destas instituições terem iniciado
as suas actividades recentemente e, na maioria dos casos, apresentarem menor oferta
formativa.
A representação gráfica dos dados é um recurso muito importante para ajudar a conhecer
melhor os dados. Existem vários tipos de gráficos que podem ser usados para os diversos
tipos de variáveis. Neste caso, a variável em estudo é o nº de alunos que frequentam as
instituições de ensino superior no ano lectivo de 2008/2009, e como tal é uma variável do tipo
quantitativa. O boxplot dos dados é obtido através dos seguintes comandos:
>boxplot(alunos,xlab="Instituição superior",ylab="Nº de Alunos",

col=c("yellow","green","red","blue","pink","orange","gray","purple","brown","violet"))
Figura 1 – Diagrama de extremos para o nº de alunos por instituição superior
Verifica-se que existe maior variabilidade no nº de alunos na Uni-Cv e Jean Piaget. A

existência de outliers é visível no INIDA, MEIA, ÚNICA e US. Este facto é justificável,
como já referido anteriormente, devido à maioria destas instituições terem iniciado as suas
actividades lectivas no ano a que se referem os dados.
A representação gráfica do nº de alunos por instituição e por ano é feita através do gráfico de
barras pelo comando:
> barplot(as.matrix(alunos),main="Alunos por instituição e por ano",ylab="nº de
alunos",beside=TRUE,col=rainbow(5))
>legend("topleft",c("1ºano","2ºano","3ºano","4ºano","5ºano"),cex=0.6,bty="n",fill=rainbow(5))
Figura 2 – Gráfico de barras para o nº de alunos por instituição superior e por ano de curso
Estes gráficos sugerem que na maioria das instituições é no primeiro ano que existe maior
concentração de alunos e verifica-se uma diminuição à medida que o ano do curso
aumenta. No caso da INIDA, apenas existem alunos a frequentar o 5º ano pois esta
instituição apenas dá formação a uma turma por ano.
O gráfico circular é um gráfico de fácil leitura e que nos permite facilmente verificar a
instituição com o maior nº de estudantes.
> nºalunos
[1] 3245 2129 749 1034 44 537 19 266 107 335
> colors<-c("yellow","green","red","blue","pink","orange","gray","purple","brown","violet")
> nºalunos_labels<-round(nºalunos/sum(nºalunos)*100,1)
> nºalunos_labels<-paste(nºalunos_labels,"%",sep="")
> pie(nºalunos,main="Nº de alunos por instituição",col=colors,labels=nºalunos,cex=0.8)
>legend(1.5,0.5,c("Uni.cv","Uni.Piaget","IESIG","ISCEE","INIDA","ISCJS","M_EIA","LUSO","UNICA","
US"),cex=0.8,fill=colors)
Figura 3 – Gráfico circular para o nº de alunos por instituição superior
Verifica-se facilmente que a maior “fatia” do gráfico circular representa a Uni-cv, sendo
também a Uni-Piaget a instituição com maior nº de estudantes. As restantes instituições
superiores representam menos de 50% do nº de alunos no ano de 2008/2009.
3 ANÁLISE DA VARIÂNCIA NO R- 2 º APLICAÇÃO
Nesta aplicação, foram recolhidos os dados referentes aos 3 primeiros anos dos cursos
leccionados em algumas instituições do ensino superior no ano lectivo de 2008/2009. Foram
apenas consideradas as instituições superiores que já funcionavam nos 3 anos imediatamente
anteriores ao ano a que se referem estes dados. Assim sendo, as instituições a que se refere o
estudo são: Universidade Pública de Cabo Verde (Uni-Cv), Universidade Jean Piaget (Jean
Piaget), Instituto de Estudos Superiores Isidoro da Graça (IESIG), Instituto de Ciências
Económicas e Empresariais (ISCEE), Instituto Superior de Ciências Jurídicas e Sociais
(ISCJS).
Pretende-se verificar se o nº de alunos nas instituições de ensino superior varia
significativamente relativamente ao ano do curso que frequentam.
Uma tabela com os dados relativos a este estudo é obtida recorrendo à importação dos dados:
> valores=read.table('c:/Users/Helga/Desktop/valores.txt',header=T,sep=';',dec='.')
> valores
A1 A2 A3
1 1166 1008 591
2 1045 710 374
3 259 229 147
4 544 323 167
5 242 169 126
As médias e o desvio-padrão para o nº de alunos por cada ano são dadas por:
> attach(valores)
> mean(valores)
A1 A2 A3
651.2 487.8 281.0
> sd(valores)
A1 A2 A3
433.8360 359.0790 199.8287

Analisando os dados apresentados através das medidas descritivas e diagrama de extremos
(Figura 4) pode verificar-se que a média do nº de alunos vai diminuindo à medida que o nº de
ano do curso aumenta.
>boxplot(valores,xlab="Ano do curso",ylab="Alunos",col=c("yellow","green","red"))
Figura 4- Diagrama de extremos do nº de alunos por ano de curso
A maior diferença verifica-se entre as médias do 1º e do 3º ano do curso. Também se pode

verificar pelas caixas do diagrama de extremos que a variabilidade dos dados é maior no 1º
ano do curso, o que poderá conduzir à heterogeneidade das variâncias entre os anos.
A análise de variância (ANOVA) é um teste estatístico muito utilizado em investigações nas

diversas áreas do conhecimento. O pesquisador tem necessidade de comparar mais do que
dois grupos experimentais com relação a uma variável quantitativa. Esta análise verifica se
existe uma diferença significativa entre as médias dos grupos e se os fatores exercem
influência em alguma variável dependente. Para esta análise pressupõe-se que os erros
aleatórios são independentes, são normalmente distribuídos, com média 0 (zero) e variância
2, ou seja, . Isto significa que cada grupo provém de uma população Normal,
com certa média mas todos com a mesma variância 2, ou seja, . Caso os
pressupostos para a análise da variância não sejam satisfeitos terão que ser aplicados outros
métodos, nomeadamente os de comparação múltipla. Na área da Educação, a ANOVA
também tem sido fundamental nas pesquisas pedagógicas, quer na verificação de hipóteses
experimentais, quer na comparação de resultados escolares ou até fidedignidade e validade
das notas de testes pedagógicos, métodos pedagógicos, entre outros.
Nesta aplicação, e uma vez que o diagrama de caixas indica heterogeneidade das variâncias,
será importante verificar se os pressupostos da ANOVA são válidos.
Um simples diagrama de dispersão dos resíduos (Figura 5) mostra que estes se encontram
dispersos aleatoriamente, não apresentando algum tipo de relação, de onde se presume serem
independentes.
> detach(valores)
> amostra=stack(valores)
> amostra
values ind
1 1166 A1
2 1045 A1
3 259 A1
.. ….
14 167 A3
15 126 A3
> modelo=lm(values~ind,data=amostra)
> residuos=resid(modelo)
Figura 5- Diagrama de dispersão dos resíduos
Através da análise dos gráficos dos resíduos (Figura 6) verifica-se no painel dos resíduos vs
valores ajustados, que o modelo não indicia violação dos pressupostos pois repara-se que as
observações encontram-se empilhadas em 3 colunas apesar de existirem observações que
estão mais dispersas.
> par(mfrow=c(2,2))
> plot(modelo)
Figura 6- Gráficos dos resíduos
No entanto, será conveniente aplicar um teste para a igualdade das variâncias. Neste caso foi
utilizado o teste de Bartlett. Este teste permite investigar o nível de significância das
diferenças entre as variâncias das g populações, admitindo a sua normalidade e
independência.
> bartlett.test(values~ind,data=amostra)
Bartlett test of homogeneity of variances
data: values by ind
Bartlett's K-squared = 1.9944, df = 2, p-value = 0.3689
O teste de Bartlett, indica a não rejeição de H0 pois o valor da estatística de teste (1.9944) é
significativo para o p-value 0.3689,
ao nível de significância de 5%, ou seja, o pressuposto de que as variâncias são iguais em
cada nível do factor, é válido.
Verificando o gráfico Normal Q-Q (Figura 6), conclui-se que os pontos, na sua maioria,
tendem a aproximar-se da recta de 45º mas verifica-se que alguns valores positivos dos
resíduos (extremos) deveriam ser menores. Ainda assim, este gráfico não é grosseiramente
não normal. No entanto, poderá ser aplicado um teste de ajustamento para verificar se de facto
os resíduos têm distribuição normal. O teste de normalidade de Shapiro-Wilk é uma
alternativa ao teste do qui-quadrado, quando se pretende ajustamento apenas a uma normal.
Este teste tem-se revelado um dos mais potentes, em condições gerais e pode ser utilizado
mesmo quando a dimensão, n, da amostra é pequena, não necessitando que seja feito
agrupamento dos dados, sendo mais potente do que o teste de Kolmogorov-Smirnov para
amostras de dimensão inferior a 30.
> shapiro.test(residuos)
Shapiro-Wilk normality test
data: residuos
W = 0.9075, p-value = 0.1238
Através do teste de normalidade de Shapiro-Wilk verifica-se que a hipótese inicial de que os

resíduos têm distribuição normal é aceite pois a estatística de teste (0.9075) com p-value
0.1238 para um nível de significância de 5%, é significativa.
Uma vez válidos os pressupostos da ANOVA, poderá ser feita a análise da variância:
>anova(modelo)
Analysis of Variance Table
Response: values
Df Sum Sq Mean Sq F value Pr(>F)
ind 2 344190 172095 1.4458 0.2738
Residuals 12 1428332 119028
Verifica-se que a estatística de teste (1.4458) cujo p-value associado é 0.2738, é significativa
para um nível de significância de 5%, ou seja, a hipótese inicial da igualdade das médias do nº
de alunos nos 3 primeiros anos do curso é aceite. Estatisticamente, as diferenças entre os 3
anos do curso não são significativas.
4 TESTES NÃO PARAMÉTRICOS NO R - 3 ª APLICAÇÃO
Segundo a UNESCO, calcula-se que em 2015 o mundo necessitará de 18 milhões de novos

professores – só em África haverá falta de quatro milhões. No entanto, o problema é mais
complicado que uma simples questão de números. A qualidade dos professores e da docência
são fundamentais para que os resultados da aprendizagem sejam satisfatórios. Em Cabo
Verde, especula-se muito relativamente à qualidade do ensino superior. A falta de docentes
qualificados é uma das razões mais apontadas para esta grave lacuna no ensino superior. No
entanto, o nº de docentes qualificados tem vindo a aumentar de ano para ano apesar de ainda
ser em número inferior ao esperado.
Os dados desta aplicação referem-se ao nº de professores nas instituições superiores em Cabo
verde no ano lectivo de 2008/2009. O nº de docentes encontra-se dividido pelo seu nível de
formação, Doutorado, Mestrado e Licenciado nas diversas instituições. Assim, pretende-se
analisar se existem diferenças significativas no nº de docentes do ensino superior
relativamente ao seu nível de formação.
> professores=read.table('c:/Users/Helga/Desktop/professores.txt',header=T,sep=';',dec='.')
>boxplot(professores,xlab="Nível de formação",ylab="Professores",col=c("yellow","green","red"))
Figura 7- Diagrama de extremos do nível de formação dos docentes

O diagrama de extremos do nível de formação dos docentes do ensino superior (Figura 7)
permite verificar que é ao nível do Doutoramento que se encontram menos docentes mas este
nº aumenta significativamente quando o nível de formação é a Licenciatura. Verifica-se que
apesar de não existem outliers, a variabilidade dos dados é maior para o nível do Mestrado e
Licenciatura, enquanto que para o nível de Doutorado a variabilidade é bem menor.
Será também neste caso importante verificar se os pressupostos da ANOVA são válidos.
O diagrama dos resíduos (Figura 8) mostra que os resíduos estão dispersos aleatoriamente o
que sugere que sejam independentes.
> amostra=stack(professores)
> modelo=lm(values~ind,data=amostra)
> residuos=resid(modelo)
> plot(residuos)
Figura 8– Diagrama de dispersão dos resíduos
Através da análise dos gráficos dos resíduos (Figura 9) verifica-se que o modelo indicia
violação do pressuposto para a igualdade da variância, pois no 1º gráfico dos resíduos vs
valores esperados, verifica-se que os resíduos tendem a crescer ficando mais dispersos.
> par(mfrow=c(2,2))
> plot(modelo)
Figura 9 – Gráficos dos resíduos

Deverá ser realizado o teste de Bartlett para verificar a igualdade das variâncias.
> bartlett.test(values~ind,data=amostra)
Bartlett test of homogeneity of variances
data: values by ind
Bartlett's K-squared = 11.4046, df = 2, p-value = 0.003338
Neste caso, o teste de Bartlett indica a rejeição de H0, pois a estatística de teste (11.4046), é
significativa com o p-value 0.003338, ao nível de significância de 5%. Assim, conclui-se que
o pressuposto para a igualdade das variâncias não é válido.
Verificando o gráfico Normal Q-Q (Figura 9), e apesar dos pontos extremos se afastarem
mais da recta, conclui-se que no geral, os pontos tendem a aproximar-se da recta de 45º o que
conduz à normalidade dos erros.
> shapiro.test(residuos)
Shapiro-Wilk normality test
data: residuos
W = 0.963, p-value = 0.7448
A normalidade dos erros também aqui é provada pelo teste de Shapiro-Wilk pois a estatística
de teste (0.963), cujo p-value associado é de 0.7448, é significativa para o nível de
significância de 5%, ou seja, a hipótese nula de que os erros provêm de uma distribuição
normal é aceite.
Assim sendo, e uma vez que o pressuposto da igualdade das variâncias não é válido, será
usado o teste não paramétrico de Kruskal-Wallis como alternativa à ANOVA. Este teste tem
como objectivo verificar se k amostras aleatórias independentes podem ou não ser
consideradas como provenientes de populações com a mesma distribuição. Assim, as
hipóteses a serem formuladas são: : as k amostras possuem a mesma distribuição vs
Pelo menos uma das amostras tem distribuição diferente das restantes, dando origem a
valores tendencialmente superiores.
> kruskal.test(values~ind,data=amostra)
Kruskal-Wallis rank sum test
data: values by ind
Kruskal-Wallis chi-squared = 7.9542, df = 2, p-value = 0.01874

Após aplicado o teste de Kruskal-Wallis, obtém-se como valor para a estatística de teste
7.9542, com p-value 0.01874, o que leva a rejeitar a hipótese nula para um nível de
significância de 5%. Assim pode dizer-se as diferenças existentes entre o nº de professores
com nível de Doutoramento, Mestrado e Licenciatura é estatisticamente significativo.
5 TESTES DE AJUSTAMENTO NO R - 4 ª APLICAÇÃO
Pretende-se agora determinar se existem grandes diferenças entre os sexos dos alunos nas
diferentes instituições.
Considerando agora a matriz com os vectores para o nº de alunos do sexo feminino e para o nº
de alunos do sexo masculinos temos que:
x<-
matrix(c(1672,1573,1176,953,474,275,689,345,18,26,318,219,8,11,159,107,61,46,188,147),n
row=10,byrow=TRUE,dimnames=list(1:10,c("fem","masc")))
>x
fem masc
1 1672 1573
2 1176 953
3 474 275
4 689 345
5 18 26
6 318 219
7 8 11
8 159 107
9 61 46
10 188 147
Por não sabermos as distribuições das amostras e uma vez que se tratam de amostras
dependentes pois ambas estão a ser analisadas nas mesmas instituições, o teste mais adequado
poderá ser o teste de Friedman com . Este teste é uma alternativa não paramétrica à
análise dupla da variância, referindo-se os dados a uma escala pelo menos ordinal. Pode
considerar-se que o teste de Friedman é uma extensão do teste dos sinais/Wilcoxon,
utilizando-se para comparar k amostras dependentes ou correlacionadas.
As hipóteses a testar são:

H0: Não há diferença entre os alunos de sexo feminino e masculino nas diferentes instituições
H1: Há diferenças entre os sexos
> friedman.test(x)
Friedman rank sum test
data: x
Friedman chi-squared = 3.6, df = 1, p-value = 0.05778
Como o valor de p> 0,05 então aceita-se a hipótese nula. Assim, estatisticamente não há
diferenças entre os sexos nas diferentes instituições.
Para testar se o nº de alunos dos institutos superiores em Cabo Verde provém de uma
distribuição normal, será neste caso mais adequado aplicar o teste de normalidade de
Lilliefors uma vez que a amostra é pequena n=10 e não são conhecidos . O teste de
Lilliefors, pode ser utilizado quando se pretende efectuar um ajustamento de uma distribuição
normal, sem especificar o valor dos parâmetros e .
As hipóteses a testar são:
H0-A amostra tem distribuição Normal

H1- A amostra não tem distribuição Normal.
Calculando as estimativas para a média e desvio padrão temos que:

> mean(nºalunos)
[1] 846.5
> sd(nºalunos)
[1] 1054.740
Aplicando o teste de Lilliefors temos que:
> lillie.test(rnorm(10,846.5,1054.740))
Lilliefors (Kolmogorov-Smirnov) normality test
data: rnorm(10, 846.5, 1054.74)
D = 0.1993, p-value = 0.3136
Como p-value>0.05, então ao nível se significância de 5%, não rejeitamos a hipótese de a

população em estudo ter distribuição normal.
6 CONCLUSÃO
A análise descritiva bem como a representação dos gráficos são ferramentas fundamentais
para conhecer melhor as características dos dados de uma investigação. Na Educação, os
investigadores procuram a cada dia encontrar relações entre diversos grupos com
determinadas características, avaliar percepções e atitudes de alunos e professores de forma a
encontrar métodos que ajudem a compreender e ultrapassar as limitações que surgem nesta
área. Existem assim inúmeras investigações realizadas na área da Educação nas quais é
necessário o recurso a métodos computacionais. O uso do Software R neste trabalho veio
demonstrar a importância desta ferramenta neste tipo de análise. Tanto as medidas descritivas
como os vários tipos de gráficos foram obtidos de uma forma simples e muito menos morosa
que os métodos tradicionais. Foram feitas várias análises, comparando grupos, testando
hipóteses de uma maneira mais rápida e mais eficiente.
O software R dispõe assim, de um vasto leque de aplicações estatísticas capazes de fazer
diversos tipos de análises tornando a sua utilização bastante útil nas mais diversas áreas do
conhecimento. Sendo este software gratuito, torna-se uma poderosa ferramenta não só para
estatísticos como também para outros investigadores que pretendam obter resultados fiáveis,
menos morosos e com menor custo.
REFERÊNCIAS
REIS, E., Melo, P., Andrade, R., Calapez, T. (2007): Estatística aplicada. Vol I e II, Edições Sílabo. 1ª Edição.
OLIVEIRA, T., (2004): Estatística Aplicada, Universidade Aberta
http://finzi.psych.upenn.edu/R/
http://www.harding.edu/fmccown/r/
http://leg.ufpr.br/~paulojus/embrapa/Rembrapa/Rembrapase9.html
http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:02_tutoriais:tut5
http://cran.r-project.org/doc/contrib/Beasley-BioestatisticaUsandoR.pdf
http://lib.stat.cmu.edu/R/CRAN/doc/contrib/Lam-IntroductionToR_LHL.pdf
http://www.minedu.gov.cv/index.php?option=com_docman&Itemid=32
ANEXO 1
> summary(alunos)
Uni.cv Uni.Piaget IESIG ISCEE INIDA
Min. : 198 Min. : 0.0 Min. : 23.0 Min. : 0.0 Min. : 0.0
1st Qu.: 282 1st Qu.: 0.0 1st Qu.: 91.0 1st Qu.: 0.0 1st Qu.: 0.0
Median : 591 Median : 374.0 Median :147.0 Median :167.0 Median : 0.0
Mean : 649 Mean : 425.8 Mean :149.8 Mean :206.8 Mean : 8.8
3rd Qu.:1008 3rd Qu.: 710.0 3rd Qu.:229.0 3rd Qu.:323.0 3rd Qu.: 0.0
Max. :1166 Max. :1045.0 Max. :259.0 Max. :544.0 Max. :44.0
ISCJS M_EIA LUSO UNICA US
Min. : 0.0 Min. : 0.0 Min. : 0.0 Min. : 0.0 Min. : 0
1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0
Median :126.0 Median : 0.0 Median : 0.0 Median : 0.0 Median : 0
Mean :107.4 Mean : 3.8 Mean : 53.2 Mean : 21.4 Mean : 67
3rd Qu.:169.0 3rd Qu.: 0.0 3rd Qu.:105.0 3rd Qu.: 0.0 3rd Qu.: 0
Max. :242.0 Max. :19.0 Max. :161.0 Max. :107.0 Max. :335

Trabalho Final - Helga Correia 1002153

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Trabalho Final - Helga Correia 1002153

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE ABERTA

Helga Carina Correia

Na primeira aplicação serão usadas algumas das ferramentas do R para caracterizar e

2 ANÁLISE DESCRITIVA E REPRESENTAÇÃO GRÁFICA NO R - 1 ª APLICAÇÃO

Uni.cv Uni.Piaget IESIG ISCEE INIDA ISCJS M_EIA LUSO UNICA US

1 1166 1045 259 544 0 242 19 161 107 335

2 1008 710 229 323 0 169 0 105 0 0

3 591 374 147 167 0 126 0 0 0 0

>boxplot(alunos,xlab="Instituição superior",ylab="Nº de Alunos",

Figura 1 – Diagrama de extremos para o nº de alunos por instituição superior

Verifica-se que existe maior variabilidade no nº de alunos na Uni-Cv e Jean Piaget. A

[1] 3245 2129 749 1034 44 537 19 266 107 335

> pie(nºalunos,main="Nº de alunos por instituição",col=colors,labels=nºalunos,cex=0.8)

Figura 3 – Gráfico circular para o nº de alunos por instituição superior

1 1166 1008 591

2 1045 710 374

3 259 229 147

4 544 323 167

5 242 169 126

651.2 487.8 281.0

433.8360 359.0790 199.8287

Figura 4- Diagrama de extremos do nº de alunos por ano de curso

A maior diferença verifica-se entre as médias do 1º e do 3º ano do curso. Também se pode

A análise de variância (ANOVA) é um teste estatístico muito utilizado em investigações nas

Figura 5- Diagrama de dispersão dos resíduos

Figura 6- Gráficos dos resíduos

Bartlett test of homogeneity of variances

data: values by ind

Bartlett's K-squared = 1.9944, df = 2, p-value = 0.3689

Shapiro-Wilk normality test

W = 0.9075, p-value = 0.1238

Através do teste de normalidade de Shapiro-Wilk verifica-se que a hipótese inicial de que os

Analysis of Variance Table

Df Sum Sq Mean Sq F value Pr(>F)

ind 2 344190 172095 1.4458 0.2738

Residuals 12 1428332 119028

Segundo a UNESCO, calcula-se que em 2015 o mundo necessitará de 18 milhões de novos

Figura 7- Diagrama de extremos do nível de formação dos docentes

Figura 8– Diagrama de dispersão dos resíduos

Figura 9 – Gráficos dos resíduos

Bartlett test of homogeneity of variances

data: values by ind

Bartlett's K-squared = 11.4046, df = 2, p-value = 0.003338

Shapiro-Wilk normality test

W = 0.963, p-value = 0.7448

Kruskal-Wallis rank sum test

data: values by ind

Kruskal-Wallis chi-squared = 7.9542, df = 2, p-value = 0.01874

5 TESTES DE AJUSTAMENTO NO R - 4 ª APLICAÇÃO

As hipóteses a testar são:

As hipóteses a testar são:

H0-A amostra tem distribuição Normal

Calculando as estimativas para a média e desvio padrão temos que:

Aplicando o teste de Lilliefors temos que:

Lilliefors (Kolmogorov-Smirnov) normality test

data: rnorm(10, 846.5, 1054.74)

D = 0.1993, p-value = 0.3136

Como p-value>0.05, então ao nível se significância de 5%, não rejeitamos a hipótese de a

OLIVEIRA, T., (2004): Estatística Aplicada, Universidade Aberta

Uni.cv Uni.Piaget IESIG ISCEE INIDA

ISCJS M_EIA LUSO UNICA US

Min. : 0.0 Min. : 0.0 Min. : 0.0 Min. : 0.0 Min. : 0

Median :126.0 Median : 0.0 Median : 0.0 Median : 0.0 Median : 0