Você está na página 1de 14

Estadstica: Ciencia que proporciona tcnicas para tratar gran volumen de datos para extraer y mostrar la informacin que

subyace en ellos. Permite obtener informacin de un colectivo muy amplio de datos a partir de un conjunto relativamente pequeo de datos procedentes de l, gracias a ello se formulan modelos matemticos que representen la repuesta obtenida en alguna caracter stica de inters al ser influenciada por diferentes factores. Con esta informacin en la mano se puede tomar decisiones cuando exista un marco de incertidumbre. !n !stad stica se estudian fenmenos aleatorios, que son aquellos cuyo resultado no es previsible aunque se repitan en idnticas condiciones. Colectivo o Poblacin" es el conjunto todos los individuos a los que va dirigido el estudio estad stico. Muestra" es el subconjunto de datos elegidos del colectivo que realmente se anali#an. Variable estadstica" es cada una de las caracter sticas que se miden de cada uno de los individuos que forman la muestra. $as variables estad sticas pueden ser cualitativas y cuantitativas. %e dice que una variable estad stica es cualitativa cuando los valores que puede tomar son atributos. &ariables cuantitativas son aquellas que pueden tomar valores numricos. $as variables cualitativas pueden ser" Nominales o categricas" los valores no admiten ordenacin, por ejemplo, el color, o la marca de bebida preferida, o el partido pol tico elegido, o el lugar de procedencia, etc. Ordinales" los valores de este tipo de variables admiten ordenacin, aunque sean cualitativas, por ejemplo, el estado de salud de pacientes de un 'ospital" (uy grave, )rave, $eve. *ambin son ordinales las variables que miden el grado de satisfaccin conseguido por alg+n servicio" (uy mal, (al, ,egular, -ien, (uy bien. $as variables cuantitativas pueden ser" Discretas" aquellas que solo pueden tomar valores aislados, y dados dos consecutivos no puede 'aber valores intermedios, frecuentemente van asociadas a procesos de conteo" ./ de ramas de un rbol, ./ de puestas en nidos, ./ de miembros por familia, etc. Continuas" aquellas variables numricas que, si se poseyesen instrumentos con infinita precisin, su valor podr a ser expresado con infinitas cifras decimales, dados dos valores, por prximos que estn, siempre ser a posible encontrar valores intermedios entre ambos. $a mayor a de las variables que implican una medicin son de este tipo" la temperatura de la atmsfera, la velocidad del vuelo de un ave, la altura que alcan#a un rbol, son ejemplos de variables cuantitativas Continuas. 0 veces, cuando las variables son numricas, es necesario conocer su escala de medida" 1ecimos que una variable numrica est medida en escala por intervalos cuando no 'ay un cero absoluto origen de las medidas, por ejemplo" la 'ora de llegada de un tren a una estacin, si se toma como cero las 23 'oras del d a anterior y 'a llegado un tren a las 4' 54 min. y otro a las 4' 24 min., sabemos que el segundo lleg 54 minutos despus que el primero, pero no podemos decir que el segundo 'aya tardado el doble que el primero en llegar, pues no se 'a adoptado un cero absoluto com+n a todos los recorridos. 6n ejemplo clsico de este tipo de variable es la temperatura" si el aire 'oy est a 54/C y ayer estaba a 24/C, no podemos decir que la temperatura 'oy sea el doble de la de ayer, pues el cero en la escala de medida se 'a tomado de modo arbitrario, para comprobarlo, basta con expresar ambas temperaturas en grados 7a'ren'eit. 6na variable estad stica est medida en escala por ratios cuando existe un cero absoluto, entonces podemos considerar diferencias entre las medidas y tambin proporciones. $a mayor a de los fenmenos f sicos que consideremos estn medidos en

este tipo de escala, por ejemplo, la temperatura absoluta, en grados 8elvin es una variable medida en escala por ratios, tambin el peso, la longitud, o la masa lo son. Estadstica descriptiva" !s la parte de la estad stica que proporciona tcnicas para extraer y mostrar la informacin que subyace en conjuntos de muy numerosos datos. Cuando se acomete un estudio cient fico, es 'abitual medir gran cantidad de parmetros sobre cada uno de los individuos elegidos, la estadstica descriptiva univariante permite estudiar los datos correspondientes a cada caracter stica sin considerar la influencia de las dems. ablas de frecuencias Como resultado del estudio estad stico se posee una serie de estadillos o cuestionarios, uno por cada individuo considerado en el que se recogen todas las medidas reali#adas a cada individuo. $a tabla siguiente es un ejemplo de uno de estos estadillos , en l se 'an anotado seis caracter sticas de rboles de un vivero despus de un ao de 'aber sido plantadas, la tabla recoge las medidas correspondientes a los die# primeros. 9rbol n/
5 2 < 3 @ > ? A = 54 Cdigos:

,eplantado
. % . . . % . . % % %" %i ." .o

)rado de afeccin
() .0 ( ) ( .0 $ $ () ( .0" .o 0fectado $" $eve (" (edio )" )rave ()" (uy )rave

./ de ramas primarias
5 4 2 5 < 3 2 5 4 2

1imetro :cm;
<,= 3,< <,= 2,@ <,= 3,2 3,@ @,< 2,@ 2,=

0ltura :cm;
5>4,3 24<,? 5>4,@ 53>,< 52<,4 5A3,3 5@<,4 5A>,4 5>=,A 5>A,A

el primer paso para sinteti#ar la informacin es tabular los datos. Consideraremos distintos tipos de agrupaciones de datos" ablas de frecuencias de datos en agrupamiento discreto" ,eali#amos este tipo de agrupamiento cuando el n+mero de posibles respuestas a la variable en estudio es reducido. $as variables cualitativas se prestan muy bien a este sistema de agrupamiento Para construir una tabla de frecuencias de agrupamiento discreto se anotan en una columna cada uno de los distintos valores que tome la variable y en la columna siguiente su frecuencia o n+mero de veces que se repite. $a tabla de frecuencia de la variable ,eplantado es" ,eplantado frecuencia % 3 . > *otal" 54

$a tabla de frecuencia de la variable B C )rado de afeccin es" )rado de afeccin xi .0 $ ( ) () *otal frecuencia ni 2 2 < 5 2 54 frecuencia relativa fi 4.2 4.2 4.< 4.5 4.2 5.4

$a frecuencia relativa es la frecuencia absoluta dividida entre el n+mero de observaciones, indica la proporcin de datos que muestran un determinado valor de la variable. %e puede expresar tambin en D. $a tabla de frecuencia de la variable BC.+mero de ramas primarias es. ./ ramas primarias xi 4 5 2 < 3 *otal frecuencia ni 2 < < 5 5 54 frecuencia relativa fi 4.2 4.< 4.< 4.5 4.5 5.4 7recuencia acumulada .i 2 @ A = 54 7recuencia acumulada relativa 7i 4.2 4.@ 4.A 4.= 5.4

$a frecuencia acumulada es el n+mero de datos que presentan un valor menor o igual que uno dado de la variable. $a frecuencia acumulada relativa es la proporcin de datos menores o iguales a uno dado. ablas de frecuencias de datos agrupados en clases" Cuando tenemos una variable continua, o cuando, siendo discreta, el n+mero de valores diferentes es muy grande, se agrupan los datos en clases o intervalos. !l n+mero de intervalos o clases I a considerar es una cuestin importante y no 'ay un criterio fijo para establecerlo. $a frmula de %turges es una de las que se pueden utili#ar para determinarlo, seg+n ella, I es el exponente de la primera potencia de dos cuyo resultado supera al n+mero de datos, con un m nimo de 3 clases. Para el ejemplo que estamos comentando, con 10 datos, como 24>10, se toma I=4. Para determinar la amplitud de cada clase se divide el rango o diferencia entre el mayor y el menor de los valores observados entre el n+mero de clases I. Para la variable dimetro, la amplitud es"
a= R @.< 2.@ 2.A = = = 4.? I 3 3

%i el cociente no es exacto se puede redondear por exceso, aunque eso 'ar que la +ltima clase termine en un valor superior al mximo observado. Para evitar dudas, se consideran todos los intervalos cerrados por la derec'a y abiertos por la i#quierda, salvo el primero que se considera cerrado por ambos extremos.

<

Cada clase o intervalo se identifica con una cifra llamada marca de clase, que es la media entre ambos extremos. $a tabla de frecuencias de la variable dimetro es" Clases (arcas frecuencia frecuencia frecuencia frecuencia de clase relativa acumulada acumulada relativa xi ni fi .i 7i E2.@ F <.2G 2.A@ < 4.< < 4.< :<.2 F <.=G <.@@ < 4.< > 4.> :<.= F 3.>G 3.2@ < 4.< = 4.= :3.> F @.<G 3.=@ 5 4.5 54 5.4 !epresentaciones gr"ficas: Diagramas de sectores o de tarta: %on aplicables a cualquier tipo de variables, pero se utili#an sobre todo para las categricas. %e construyen dividiendo un c rculo en tantos sectores como categor as se vayan a representar. Cada sector abarca un ngulo proporcional a la frecuencia que se desea representar. !l diagrama de sectores de la variable ,eplantado es"
Diagrama de sectores

S 40% N 60%

Diagramas de barras: %on representaciones aplicables a tablas de frecuencias de datos en agrupamiento discreto, se pueden aplicar tanto a datos cualitativos como cuantitativos discretos. Consisten en un sistema de ejes cartesianos sobre cuyo eje de abcisas se llevan los valores de la variable y sobre el de ordenadas la frecuencia absoluta o relativa, acumulada o no. Por cada valor de la variable se levantar una l nea o barra :aunque puede ser un rectngulo; de altura equivalente a la frecuencia que se desea representar. %e muestran diagramas de barras de la variable )rado de afeccin y de la variable ./ de ramas"

diagrama de barras
3.5 3 2.5 2 1.5 1 0.5 0 NA L M G MG Grado de afeccin Frecuencia acumulada relativa 1.2 1 0.8 0.6 0.4 0.2 0 0

Diagrama de barras

frecuencia absoluta

N de ramas primarias

$os diagramas de barras, al representar sobre el eje de abcisas los valores de la variable, y ser el eje numrico, tienen mejor aplicacin en variables como m nimo ordinales, pues en las variables nominales no 'ay una ordenacin de los valores y se pueden representar en cualquier orden. #istograma 0plicables a tablas de frecuencias de datos agrupados en clases. Consiste en llevar sobre un eje 'ori#ontal segmentos consecutivos que representen las amplitudes de cada clase, posteriormente se tra#a sobre cada clase un rectngulo cuyo "rea sea proporcional a la frecuencia que se desea representar. %i todas las clases tienen igual amplitud, los rectngulos tienen no solo el rea proporcional a la frecuencia, su altura tambin lo es. $as alturas de los rectngulos representan frecuencia por cada unidad de amplitud, que tambin se llama densidad de frecuencia. %i se tra#a un eje vertical, la escala sobre este es la frecuencia por unidad de amplitud. 0 continuacin se muestran 'istogramas de la variable 1imetro.
Histograma de frecuencias
Frecuencia por unidad de amplitud 3 Frecuencia relativa acumulada por unidad de amplitud 2.85 3.55 4.25 4.95 2.5 2 1.5 1 0.5 0 Marcas de clase 1 0.8 0.6 0.4 0.2 0 2.85 3.55 4.25 4.95 Marcas de clase

Histograma de frecuencias acumuladas relativas

!n estos dos 'istogramas se 'a tomado la unidad de longitud igual a la amplitud y, como todas las amplitudes son iguales, la cifra que indica el rea de cada rectngulo coincide con la que indica la altura y ambas con la frecuencia que se representa. Polgonos de frecuencias: 0plicables a variables numricas, aunque tambin se pueden tra#ar sobre cualitativas ordinales, se construyen uniendo los extremos de los diagramas de barras o los centros de las bases superiores de los rectngulos del 'istograma mediante l neas rectas. %i se desea cerrar la l nea poligonal por sus dos extremos, se podr a inventar un valor o intervalo por delante del primero y otro mayor que el +ltimo, cuyas frecuencias sern

cero. !n el caso de datos agrupados tambin es frecuente unir el origen de la primera clase con el centro de su base superior y el centro de la base superior del +ltimo rectngulo con el extremo de su base inferior.
Polgono de frecuencias
frecuencia absoluta # ". " !. ! 0. 0 0 ! " # $ N de ramas primarias

!xisten otros tipos de grficos, como los pictogramas que utili#an s mbolos grficos para representar las frecuencias, ya sea repitiendo un mismo s mbolo varias veces para indicar las mayores o menores frecuencias, o aumentando o disminuyendo el tamao del s mbolo seg+n la frecuencia que se represente. Medidas de posicin: Htra v a de resumir la informacin es expresar algunas cifras que de alg+n modo resuman lo ms caracter stico de los datos, podemos calcular medidas de posicin y de dispersin. !ntre las primeras se vern" Moda: es la categor a, valor o marca de clase que ms se repite. Cuando tengamos datos de tipo cont nuo solo tendr sentido la moda despus de 'aber sido agrupados en clases. $a moda de la variable ,eplantado es ., pues su frecuencia es la mayor entre las dos categor as posibles. $a moda de la variable )rado de afeccin es (, en tanto que para la variable ./ de ramas primarias 'ay dos valores con mxima frecuencia, son 5 y 2 ramas. $a moda puede no ser +nica, y 'ablamos de distribuciones de frecuencias bimodales, trimodales, etc. Mediana: es aplicable a datos como m nimo ordinales, y se define como aqul valor de la variable que ocupa la posicin central del conjunto de datos ordenados, tambin se puede definir como aqul valor de la variable que resulta ser mayor o igual que la mitad de los datos y menor que la otra mitad. Cuando se considera los . datos sin agrupar, la mediana es el dato que ocupa la posicin :.I5;J2, de los datos ordenados. %i el n+mero de datos . es impar la mediana se calcula de modo inmediato, si el n+mero de datos es par, la mediana es la media aritmtica de los datos que ocupan las posiciones .J2 y .J2 I 5.

>

Para el conjunto de datos que se estn considerando, la mediana es el dato que ocupa la posicin 55J2C@.@, por tanto es la media entre los datos que ocupen las posiciones @K y >K . 3/ @/ >/ ?/ A/ =/ 54/ 1atos ordenados (ediana )rado de afeccin .0 .0 $ $ ( ( ( ) () () ( ./ de ramas primarias 4 4 5 5 5 2 2 2 < 3 5.@ 1imetro 2.@ 2.@ 2.= <.= <.= <.= 3.2 3.< 3.@ @.< <.= !n realidad, si los datos son cualitativos no tiene sentido calcular la mediana, en este caso se puede calcular la mediana del grado de afeccin porque los datos @/ y >/ son ambos (. Cuando los datos son de tipo cont nuo y no se posee la lista original de valores, sino solo los intervalos, sus marcas y frecuencias, el modo de proceder es diferente" !n este caso buscaremos el intervalo mediano, que es aqul cuya frecuencia acumulada es .J2 o su frecuencia acumulada relativa es 4.@. %i estas cifras no aparecen entre las frecuencias, el intervalo mediano es aqul que primero supera dic'a cantidad. 6na ve# locali#ado el intervalo mediano, un modo de proceder ser decir que la mediana es la marca de la clase de ese intervalo. Procediendo de este modo, la mediana para la variable 1imetro, calculada a partir de los datos de la tabla de frecuencias es" Para 54 datos, .J2C@ Lntervalo mediano" el 2/, pues es el primero en que se supera la cantidad @ en la columna 7recuencia acumulada :4.@ si se mira la acumulada relativa;. $a mediana es la marca de este intervalo" me C <.@@ !ste modo de proceder se basa en suponer que todos los datos de cada intervalo son iguales entre s e iguales a la marca de clase. May otro modo de proceder, consiste en suponer que los datos dentro de cada intervalo se reparten uniformemente con valores crecientes de la variable, bajo esta suposicin, y suponiendo que el intervalo mediano es el jNsimo, cuyos extremos son xj, xjI5, con una frecuencia absoluta nj y siendo .j y .jN5 las frecuencias acumuladas correspondientes al intervalo mediano y al inmediato anterior, la mediana se calcula como"
me = x j + x j +5 x j N x j +5 x j N N j 5 = x j + N j 5 , N j N j 5 2 nj 2 <.= <.2 ( @ <) = <.?@? <

5/

2/

</

para el caso actual"

me = <.2= +

!ste valor no coincide con el calculado con la marca de clase ni con el que se obtuvo a partir de los datos originales, por ello siempre que se disponga de los datos originales, se calcular la mediana como si se tratase de datos discretos. $a expresin anterior para la mediana se puede formular en funcin de las frecuencias relativas"
me = x j + x j +5 x j
j

( 4.@ F j 5 )

Media: solo es aplicable a datos de tipo numrico, es la media aritmtica de los datos observados, o sea, la suma de todos ellos dividido por el n+mero de observaciones"

xi x5 + x2 + K + xN i =5 x= = N N
frecuencias"
x=

para datos sin tabular, si estn tabulados en tablas de

xi ni ,
i =5

siendo ! el n+mero de valores distintos y ni la frecuencia absoluta

correspondiente al valor xi de la variable. !n caso que tengamos una variable tabulada en clases, en la formula anterior, ! es el n+mero de clases y xi cada marca de clase. Como siempre, si se puede, es preferible reali#ar los clculos sobre los datos originales. $a media de la variable ./ de ramas primarias es"
x= 4 + 4 + 5 + 5 + 5 + 2 + 2 + 2 + < + 3 4 O 2 + 5O< + 2 O< + <O5 + 3 O5 5> = = = 5.> 54 54 54

y la de la variable dimetro"
x=

<.= + 3.< + <.= + 2.@ + <.= + 3.2 + 3.@ + @.< + 2.@ + 2.= <?.= = = <.?= cm 54 54 2.A@O< + <.@@O< + 3.2@O< + 3.=@O5 A.@@ + 54.>@ + 52.?@ + 3.=@ <>.= = = = <.>= cm 54 54 54

esta +ltima calculada a partir de la tabla de frecuencias es"


x=

y no coincide con el valor calculado para los datos originales, por lo que se vuelve a poner de manifiesto que siempre que se pueda, se debe operar con ellos. Otras medidas de posicin: $a media, mediana y moda son medidas que indican el centro de la distribucin, vamos a ver algunas ms, que no indican el centro" Cuartiles" %i se locali#a en el conjunto de datos ordenados aquellos que lo dividen en cuatro intervalos con el mismo n+mero de observaciones, 'abremos encontrado los cuartiles primero, segundo y tercero. Primer cuartil P5" !s aqul valor de la variable que resulta ser mayor o igual que el 2@D de los datos y menor que el ?@D restante. Para calcular P5 se procede de diferente modo si los datos estn agrupados en clases o no. Para datos sin agrupar o con agrupamiento discreto, consideraremos el conjunto original de datos ordenados, si de este conjunto eliminamos la mediana, quedan dos subconjuntos, la mediana del primero de ellos es P5. %i se divide la lista de datos ordenados correspondiente a la variable ./ de ramas primarias por el punto que corresponde a la mediana , quedan dos grupos de datos, ambos con cinco datos " ./ de ramas primarias 4 4 5 5 5 mediana 2 2 2 < 3

$a mediana de la primera mitad es el dato :@I5;J2 C </, por tanto P5 C 5 " ./ de ramas primarias 4 4 P5 5 5 5

%i los datos estn agrupados en clases y no se dispone de los datos originales, se procede de modo similar a lo 'ec'o para la mediana en estos casos, y se puede aplicar la A

frmula vista, sustituyendo la frecuencia acumulada por .J3 o la acumulada relativa por 4.2@"
"5 = x j + x j +5 x j
j

( 4.2@ F j 5 )

aqu se considera que el intervalo que contiene al primer cuartil es el jNsimo. Para la variable dimetro, el intervalo que contiene el primer cuartil es el primero, cuyos l mites son 2.@ y <.2 , la frecuencia relativa es 4.< y la acumulada relativa, 4.< tambin, por ser el 5/ por ello la frecuencia acumulada relativa correspondiente al intervalo anterior es 4.
"5 = 2.@ + <.2 2.@ 4.? ( 4.2@ 4 ) = 2.@ + 4.2@ = <.4A<< 4.< 4.<

Para esta variable, procediendo como datos discretos, P5 C 2.=, siempre que se pueda se debe trabajar sobre los datos originales, sin agrupar. $egundo cuartil" P2 es la mediana. ercer cuartil: P< , es aqul valor de la variable que resulta ser mayor o igual que el ?@D de los datos y menor que el 2@D restante. Para datos sin agrupar, se calcula como la mediana de la segunda mitad de los datos ordenados que se obtiene al dividir la lista original eliminando el dato mediano. ,especto de la variable ./ de ramas primarias, la mediana de la segunda mitad es el dato @I:@I5;J2 C A/, por tanto P< ./ de ramas primarias 4 4 5 5 5 mediana 2 2 2 < 3 P< C 2 Para datos agrupados en clases, se locali#a primero el intervalo que contiene el tercer cuartil, que es aqul cuya frecuencia relativa acumulada es mayor o igual a 4.?@, sea este intervalo el jNsimo, entonces"
"< = x j + x j +5 x j
j

( 4.?@ F j )

!l tercer cuartil de la variable 1imetro est en el tercer intervalo :frecuencia acumulada relativa C 4.=;, su valor se puede calcular como"
"< = <.= + 3.> <.= ( 4.?@ 4.> ) = 3.2@ 4.<

mientras que de los datos originales como si fuesen discretos, P<C3.< Percentiles" Como extensin, si el primer cuartil es el valor de la variable que resulta ser mayor o igual que el 2@D de los datos y menor que el ?@D, se define Percentil como el valor de la variable que resulta ser mayor o igual que un porcentaje dado de los datos, as se 'abla del percentil 54, del percentil 24, etc., se fcil comprobar que" p2@ C P5F p@4 C P2 C me F p?@ C P< %i se desea calcular el percentil p y el primer intervalo cuya frecuencia acumulada relativa es igual o mayor que J544 es el jNsimo"
p = x j + x j +5 x j F j 5 544 j

!n general, definimos el cuantil : en tanto por 5; como aqul valor de la variable que resulta ser menor que el 544D de los datos y mayor o igual que el 544:5N ;D restante, es evidente que cuantil C p544:5N; . Medidas de dispersin: Para mejorar la informacin sobre el conjunto de datos no basta saber en torno a qu valores est la mayor a de los datos, tambin es conveniente saber si el conjunto de medidas son todas muy parecidas entre s o si son muy diferentes, esto se consigue con las medidas de dispersin o variabilidad. !ango" es la medida de variabilidad ms simple, es el mayor valor menos el ms pequeo, conforme ms prximos sean los valores observados, menor ser el rango. R= max#xi$ % min#xi$ ,ango intercuart lico" !l rango est influenciado por la presencia de alg+n error de medida, que suele traducirse en valores excesivamente grandes o pequeos, por eso se prefiere como medida de variabilidad, la diferencia entre los cuartiles tercero y primero, tambin llamado !ango intercuartlico" RI = "&'"1 Desviacin media es la media de las diferencias o desviaciones de cada dato 'asta la media, tomadas en valor absoluto, pues de lo contrario la suma se anula"
dm =

i =5

xi x N

si los datos estn agrupados"

dm =

xi x ni
i =5

Varian%a" es la media de los cuadrados de las diferencias o desviaciones de cada dato 'asta la media"
s2 =

( xi x ) xi2
i =5

i =5

x2

si los datos estn agrupados en clases, la frmula es"

s2 =

( xi x ) ni xi2 ni
i =5

i =5

x2

Para la variable ./ de ramas primarias, el clculo de la varian#a es"


s2 =

( 4 5.> ) 2 + ( 4 5.> ) 2 + ( 5 5.> ) 2 + K + ( 3 5.> ) 2


54

53.3 = 5.33 54

*ratndolos como datos y frecuencias"


s2 =

( 4 5.> ) 2 2 + ( 5 5.> ) 2 < + ( 2 5.> ) 2 < + ( < 5.> ) 2 5 + ( 3 5.> ) 2 5 = 5.33


54

y por la frmula reducida"


s2 =

( 4 ) 2 2 + ( 5) 2 < + ( 2 ) 2 < + ( <) 2 5 + ( 3 ) 2 5


54

( 5.> ) 2 =

34 2.@> = 3 2.@> = 5.33 54

$a varian#a se expresa en unidades al cuadrado y no es comparable con los datos, por eso se define Desviacin tpica, es la ra # cuadrada positiva de la varian#a,
s = s2

$a desviacin t pica de la variable ./ de ramas primarias es " s = 5.33 = 5.2

54

$a varian#a mide la dispersin de los datos respecto de la media de los propios datos. %i lo que tenemos es una muestra, y se desea estimar la varian%a de toda la poblacin con los datos de la muestra, se utili#a la Cuasivarian%a"
s2 =

( xi x )
i =5

N 5

N s2 N 5 s2 =

para datos agrupados en clases, la frmula es"

( xi x ) ni
i =5

1e modo similar a la desviacin t pica, se define" Cuasi desviacin tpica" s = s 2 Para estimar la varian#a de toda la poblacin respecto a la variable ./ de ramas primarias, se usa la cuasivarian#a de esa variable calculada con los datos de la muestra"
s2= 54 5.33 53.3 = = 5.> = =

N 5

N s2 N 5

y la cuasidesviacin t pica" s = s 2 = 5.> = 5.2>@ Para comparar variabilidad entre magnitudes diferentes o entre diferentes muestras, se utili#a el coeficiente de variacin, que es la desviacin t pica expresada en medias"
() = s x 5.3 = 4.A?@ 5.>

!l coeficiente de variacin de la variable ./ ramas primarias es" () =

!n ocasiones, al tomar las medidas de un experimento, o cuando se transcriben los datos para procesarlos, se comenten errores y aparecen datos muc'o ms grandes o muc'o menores que el resto, son los denominados Outliers, y es importante poder detectarlos y comprobar si se trata o no de un error. *anto la media como la varian#a son muy sensibles a la presencia de Hutliers y por eso interesa detectarlos. $a deteccin de Hutliers se puede 'acer a partir de la media y desviacin t pica ya calculadas, se puede demostrar que datos cuya desviacin respecto de la media sea superior en valor absoluto a tres desviaciones t picas son raros, por eso se suelen considerar outliers aquellos datos que cumplan"
xi x > <s

.o obstante, la presencia de los posibles outliers 'a intervenido en el clculo de la media y de la desviacin t pica, por lo que ser a recomendable utili#ar otras medidas de posicin y dispersin para locali#arlos, por eso se consideran outliers aquellas medidas que sean menores que el primer cuartil menos 5.@ veces el rango intercuart lico, o mayores que el tercer cuartil ms 5.@ veces RI" xi es un outlier por defecto, si" "5 xi > 5.@ RI xi es un outlier por exceso, si" xi "< > 5.@ RI %i la distancia llega a superar las < veces RI, entonces el outlier se considera grave, en caso contrario, lo consideraremos leve. Medidas de asimetra y de forma" 0dems de dar informacin sobre la tendencia central de los datos y sobre cmo se reparten respecto del centro, en ocasiones interesa conocer si los datos se reparten de un modo simtrico a ambos lados de la media o no.

55

El coeficiente de asimetra mide esta propiedad, y se calcula como"

( xi x )
i =5

<

g5 =
!

N s<

=
<

5 s<

( xi x )
i =5

<

, o , si los datos estn agrupados"

( xi x )
i =5

ni = 5 s<

g5 =

N s<

( xi x )
i =5

<

ni

%i gQ4, existe asimetr a 'acia la i#quierda. %i gR4, la asimetr a es 'acia la derec'a. %i gC4, la distribucin de datos es simtrica. El coeficiente de curtosis o apuntamiento mide si las frecuencias de los datos centrales son muc'o mayores que las de los datos extremos, o si, por el contrario, todos los datos se repiten un n+mero ms o menos igual de veces. %e calcula como"

( xi x )
i =5

!=

N s3

5 s
3

( xi x )
i =5

, y , si los datos estn agrupados"

!=

5 s3

( xi x )
i =5

ni

Cuando los datos proceden de una distribucin .ormal, tomando la frmula de la densidad de una distribucin normal se puede demostrar que el anterior coeficiente ! toma el valor <. Por este motivo, el coeficiente de apuntamiento que se usa 'abitualmente es"
g2 = ! < = 5 s3

( xi x )
i =5

ni <

y compara el apuntamiento de los datos con el que

tendr a una distribucin normal terica con igual media y varian#a que la de nuestros datos. %i g2Q4 decimos que los datos son poco apuntados :distribucin platic+rtica, apuntamiento menor que el de una normal;, si g2 4 diremos que los datos tienen un apuntamiento semejante al de una normal :distribucin mesoc+rtica;, si g2R4 diremos que nuestros datos tienen una distribucin leptoc+rtica o ms apuntados que la normal. &n"lisis e'ploratorio de datos: %e conoce con este nombre a un conjunto de tcnicas que me#clan grficos y medidas numricas, y facilitan muc'o la visin rpida de la distribucin de los datos. Diagrama de tallo y (o)as: %e construye considerando, por una parte la cifra de menor valor significativo de todos los datos. Mabitualmente esta cifra es la de las unidades, pero puede ser las decenas, si todas las cifras terminan en cero, o las dcimas o centsimas, etc., si los datos poseen decimales. Con estas cifras se forman lo que se denomina S'ojasT. Por otra parte se considera el resto de d gitos que forma la cifra de los datos, es lo que se denomina StalloT. Para construir el diagrama se tabulan los datos en varias filas. Cada fila est encabe#ada por un tallo, y detrs de l se escriben ordenados e igualmente espaciados los d gitos que forman las 'ojas correspondientes a cada tallo. Para la variable 1imetro" 52

1imetro, datos ordenados 2.@ 2.@ 2.= <.= <.= <.= 3.2 3.< 3.@ @.< 1e cada dato, *allo 2 2 2 < < < 3 3 3 @ Moja @ @ = = = = 2 < @ < 1iagrama de tallo y 'ojas" *allo 2 < 3 @ @ = 2 < Mojas @ = = = < @

%i lo vemos como en sentido 'ori#ontal, se muestra como un diagrama de barras y se aprecia la forma de la distribucin de frecuencias, y la simetr a. Para completar la informacin se suele aadir una columna delante del tallo en la que se cuentan las frecuencias de cada tallo acumulndolas de arriba 'acia abajo y viceversa, en el tallo donde se encuentre el dato mediano se escribe solamente la frecuencia de ese tallo, encerrada entre parntesis. %i se desea se pueden marcar las filas donde estn los cuartiles colocando un asterisco a continuacin de la frecuencia. Para los datos anteriores" frecuencias <O :<; 3O 5 *allo 2 < 3 @ Mojas @ @ = = = = 2 < @ <

Diagrama de ca)n y pata" !s un grfico en el que se incide ms en la simetr a y en la presencia de outliers, consiste en dibujar un eje 'ori#ontal :tambin se podr a 'acer vertical; en el que se lleva una escala correspondiente a los datos, ms arriba se dibuja un segmento vertical sobre la mediana y dos ms, uno sobre cada cuartil posteriormente se cierran ambos segmentos por segmentos 'ori#ontales, con esto se forma la caja. $a posicin relativa del segmento mediano respecto de los lados de la caja ya nos informa sobre la simetr a de los datos. 0 continuacin y desde el centro de cada uno de los lados de la caja se lleva un segmento 'ori#ontal que termina en el los valores observados menor y mayor que no son outliers, si los 'ay, o en los valores menor y mayor de los observados. %i 'ay outliers se marcan con s mbolos especiales, por ejemplo, O para los leves y U para los graves. !l diagrama de cajn y pata para la variable dimetro es"
Diagrama de ca%a '! me '#

"

5<

&

!n este caso no 'ay outliers, y por eso la pata empie#a con el menor dato y termina con el mayor. %e puede ver que los datos se extienden desde algo ms de 2 'asta algo ms de @, que la distribucin presenta una cola o asimetr a 'acia la derec'a y que no 'ay outliersF adems se aprecia la ubicacin y valor de la mediana y cuartiles. ,especto del @4D de los datos centrales, como puede verse en la caja, la asimetr a es 'acia la i#quierda.

53

Você também pode gostar