Escolar Documentos
Profissional Documentos
Cultura Documentos
Informática Aplicada
a las Ciencias
Sociales
Profesora: Myriam Sofía Rodríguez G.
Octubre de 2018
Estadística y ramas de la
estadística
La estadística es la ciencia que se ocupa de recolectar, describir,
organizar e interpretar una serie de datos, para transformarlos
en información, y poder tomar decisiones más eficientes ante
fenómenos de tipo aleatorio.
Estadística Descriptiva: Se refiere a la metodología que se sigue
para recolectar, organizar, resumir, analizar e interpretar una
serie de datos, (por ejemplo, edad de empleados de una
empresa, altura de los estudiantes de una escuela, temperatura
en los meses de verano, entre otros) que pueden ser
presentados en forma numérica o gráfica.
Metodología:
• Selección de la muestra a partir de la población de estudio.
• Obtención de los datos.
• Clasificación de los datos.
• Análisis descriptivo de los datos.
Estadística
• Representación gráfica de los datos.
• Si se requiere hacer contraste de la hipótesis.
• Conclusiones.
Escala de medición
Nominal Intervalo
Ordinal Razón
Escalas de Medición
• Nominal: Las observaciones sólo se pueden clasificar por categorías,
no admiten un criterio de orden. Por ejemplo: género, estado civil,
grupo sanguíneo, entre otros.
• Ordinal: Los elementos son clasificados en categorías que presentan
un orden. Por ejemplo: nivel educativo, estado de salud, entre otros.
• Intervalo: Se clasifican los elementos en categorías que tienen un
orden o jerarquía, se pueden realizar diferencias (restas) entre los
valores y estas tienen un significado. No existe el cero (0) absoluto.
Por ejemplo, la temperatura en grados Fahrenheit. Sin embargo,
para la escala de temperaturas, no hay un punto de partida. El valor
0°F puede parecer ser un punto de partida, pero este valor no indica
el estado de "sin temperatura". Por otra parte, no es correcto decir
que 20°F es dos veces tan caliente como 10°F.
• De razón: Se clasifican los elementos en categorías que tienen un
orden o jerarquía, se pueden realizar diferencias significativas entre
los valores. Existe el 0 absoluto. Por ejemplo, el salario.
Ejemplo
Transductores de temperatura de un cierto tipo se envían en
lotes de 50. Se seleccionó una muestra de 60 lotes, y se
determino el número de transductores de cada lote que difieren
de las especificaciones de diseño, dando como resultado los
siguientes datos:
212401320533132470230421311341232284
513150232106421603336123
• 1. Determine la tabla de distribución de frecuencias.
• 2. Represente gráficamente los datos.
• 2,1,2,4,0,1,3,2,0,5,3,3,1,3,2,4,7,0,2,3,0,4,2,1,3,1,1,3,4,1,2,3,2,
2,8,4,5,1,3,1,5,0,2,3,2,1,0,6,4,2,1 ,6,0,3,3,3,6,1,2,3
Tabla de frecuencias en R
• Nombramos al vector que contendrá los datos:
datos<-c( 2,1,2,…) (F5 ó ctrl r)
• Crea una tabla de la variable transductores con la frecuencia
absoluta:
tabla1=data.frame(table(datos)) (se puede usar = ó <-)
• Frela representa la frecuencia relativa ajustada a 2 decimales;
Freac=cumsum(Freq) la frecuencia absoluta acumulada;
Freac=round(cumsum(prop.table(Freq)),2) la frecuencia
relativa acumulada:
tabla2=transform(tabla1,Freac=cumsum(Freq),Frela=round(prop
.table(Freq),2),Freac=round(cumsum(prop.table(Freq)),2))
Vista en R
Tabla de Frecuencias para
variable cuantitativas
• Identificar el tipo de variable
• Determinar el valor máximo 𝑥𝑚𝑎𝑥 y el valor mínimo 𝑥𝑚𝑖𝑛
• Hallar el Rango, 𝑅 :
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Si la variable es cuantitativa discreta y el rango es pequeño, se
trabaja con los datos originales ordenados. Si el rango es grande se
trabaja con los datos ordenados en intervalos de clase.
• Si la variable es cuantitativa continua, se determina el número de
intervalos 𝑘 (o clases). Usaremos la Regla de Sturges, para
determinar 𝑘:
𝑘 = 1 + 3,322 log 𝑛
Donde 𝑛 es el número total de datos de la muestra.
𝑅
• Determinar la amplitud 𝐴, del intervalo; 𝐴 =
𝐾
Ejemplo
Jarjour et al. (A-2) realizaron un estudio en el que se midieron los
niveles de histamina del fluido de lavado bronquialveolar (BAL, siglas
en inglés) en individuos con rinitis alérgica, individuos con asma y
voluntarios normales. Una de las mediciones obtenidas es la proteína
total (mg=ml) en muestras de BAL. Los siguientes son los resultados de
61 muestras analizadas:
• 76.33, 57.73 74.78, 100.36, 73.50, 77.63, 88.78, 77.40, 51.16, 62.20,
• 149.49, 86.24, 57.90, 72.10, 67.20, 54.38, 54.07, 91.47, 62.32, 44.73,
• 55.47, 95.06, 71.50, 75.53, 57.68, 51.70, 114.79, 61.70, 47.23, 78.15,
• 53.07, 106, 35.90, 85.40, 72.30, 61.10, 72.20, 41.98, 59.36, 63.96,
• 66.60, 69.91, 59.20, 54.41, 59.76, 128.40, 67.10, 83.82, 95.33, 88.17,
• 109.30, 79.55, 58.50, 82.60, 153.55, 84.70, 62.80, 70.17, 44.40,
61.90, 55.05
• 1. Determine la tabla de distribución de frecuencias.
• 2. Represente gráficamente los datos
Datos Agrupados (a mano)
• Calculamos 𝑥𝑚𝑎𝑥 y 𝑥𝑚𝑖𝑛
• Hallamos el rango: 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Número de clases: 𝑘 = 1 + 3,322 log 𝑛
𝑅
• Amplitud 𝐴 =
𝐾
En R
• # Datos agrupados
• #Le damos nombre a nuestros datos
• histamina=c(76.33, 57.73, 74.78, 100.36,73.50, 77.63, 88.78,
77.40, 51.16, 62.20,149.49, 86.24, 57.90, 72.10, 67.20, 54.38,
54.07, 91.47, 62.32, 44.73,55.47, 95.06, 71.50, 75.53, 57.68,
51.70, 114.79, 61.70, 47.23, 78.15,53.07, 106, 35.90, 85.40,
72.30, 61.10, 72.20, 41.98, 59.36, 63.96,66.60, 69.91, 59.20,
54.41, 59.76, 128.40, 67.10, 83.82, 95.33, 88.17,109.30,79.55,
58.50, 82.60, 153.55, 84.70, 62.80, 70.17, 44.40, 61.90, 55.05)
• # Para saber entre qué valores se encuentran nuestros datos
• range(histamina)
• #Para definir el número de intervalos con la regla de Sturges
• nclass.Sturges(histamina)
Datos agrupados en R
• #Obtenemos los extremos de los intervalos con:
• seq(35.9,153.55,length=nclass.Sturges(x))
• #Construimos los intervalos:
• intervalosx=cut(x,breaks=seq(35.9,153.55,length=nclass.Sturg
es(x)),include.lowest=TRUE)
• #Tabla de frecuencias absolutas:
• tabla1=data.frame(table(intervalosx))
• #Agregar frecuencias relativas, acumuladas:
• tabla2=transform(tabla1,Frela =
round(prop.table(Freq),2),Freac = cumsum(Freq),Freac =
round(cumsum(prop.table(Freq)),2),)
En R
Histograma
Describe una distribución de frecuencias de variables discretas o
continuas. En el eje horizontal se escriben los límites exactos de
los diferentes intervalos; el eje vertical describe la frecuencia o
la frecuencia relativa de las observaciones dentro de cada
intervalo. Las barras del histograma deben ser adyacentes. Para
hacer un histograma simplemente debemos de escribir la
siguiente orden:
hist(histamina)
Histograma con Instrucciones
El problema es que R por defecto selecciona el número de clases
siguiendo un método de Sturges. Para poder utilizar el número
de clases que a nosotros nos interesa, tenemos que crear un
vector con los puntos de corte de las clases. Esto se puede hacer
mediante:
# Número de clases
numeroclases = 7
• puntos=min(histamina)+(0 : numeroclases)*(max(histamina)-
min(histamina))/numeroclases
• hist(histamina,breaks = puntos)
• hist(histamina,breaks= puntos, col=”lightblue”,xlab=”Proteina
Total”, ylab=”Número de Personas”,main = ”Histograma”)
hist(x,breaks= puntos, col= c("lightblue","blue","darkblue",
"red","yellow", "pink","purple"),xlab="Proteina Total", ylab="Número de
Personas",main = "Histograma")
Tipos de Histogramas
• Unimodal: Es el histograma que sube hasta un solo pico y
después baja; puede ser simétrico si la forma en un lado del
pico es aproximadamente igual al otro lado. Un histograma
simétrico indica que la distribución de los datos es simétrica.
Esto significa que los valores de la variable están distribuidos
uniformemente alrededor del valor con mayor frecuencias. Un
histograma con el pico en la izquierda, es un histograma que
está sesgado hacia la derecha. Un histograma con el pico en la
derecha, es un histograma sesgado hacia la izquierda.
• Bimodal: Tiene dos picos distintos. La bimodalidad resulta
cuando el conjunto de datos consiste en observaciones de dos
clases bastante distintas de individuos u objetos.
• Uniforme: Cada clase tiene igual freciancia.
Tipos de Histogramas
Datos Atípicos o Outliers
Son datos numéricamente distantes del resto de datos.