Você está na página 1de 55

Curso

Tpicos de Anlisis de datos


Prof: Richard F. Fernndez Vsquez
rffv.uni@gmail.com
UNIVERSIDAD NACIONAL DE INGENIERA

Facultad de Ingeniera Econmica, Estadstica y Ciencias Sociales
Escuela Profesional de Ingeniera Estadstica
SEGMENTACIN DE MERCADOS
Segmentacin estratgica
Los clientes se agrupan en un nmero reducido de segmentos.
Las variables se reducen a una sola etiqueta descriptiva del
segmento, como pueden ser familias promocioneras, singles de
paso, fieles de proximidad o gran compra.


Segmentacin tctica
Aun cuando no es la aplicacin nica, la gran mayora de
segmentaciones tcticas de clientes se enfocan a la optimizacin de
campaas de marketing.
De manera simplificada existen cinco grandes tipos de campaas:
Retencin,
Recuperacin de desertores
Venta cruzada o cross-selling
Mejora o up-selling
Captacin de nuevos clientes
Por otro lado, las tcnicas analticas permiten la optimizacin de la
campaa en tres momentos de la misma:
Identificacin inicial de clientes target
Test de canales y creatividades
Anlisis de los resultados



Customer Lifetime Value (CLV)
El valor de vida del cliente es la proyeccin del valor de cliente a
futuro, en funcin de su ciclo de vida.
Segmentacin geogrfica
En los negocios basados en
redes de establecimientos, es
clara la importancia de la
relacin espacial entre el
cliente y el punto de venta.
Las tcnicas de geomarketing
hace tiempo que se vienen
usando para estudiar e
interpretar esta relacin
espacial. Una aplicacin clsica
en retail y venta directa es el
RFML al clsico RFM aade la
Localizacin-.

Aplicaciones
3. PROCEDIMIENTOS ESTADISTICOS
PARA SEGMENTACION

Anlisis de Conglomerados (Cluster)

Es una tcnica multivariante que busca agrupar elementos (o
variables) tratando de lograr la mxima homogeneidad en cada
grupo y la mayor diferencia entre los grupos.
3. Procedimientos Estadsticos para
segmentacin
3. Procedimientos Estadsticos para
segmentacin

Anlisis de Conglomerados (Cluster)

Procedimiento:
Seleccin de las variables a utilizar en la segmentacin
Clculo de la matriz de semejanzas
Ejecucin del mtodo de agrupamiento
Mtodos jerrquicos
Mtodos de optimizacin, partitivos o iterativos
Otros mtodos
Mtodo
Formulacin del problema
Seleccionar una medida de similitud
Seleccionar un procedimiento de agrupacin
Decidir el nmero de conglomerados
Interpretar y elaborar un perfil de los conglomerados
Evaluar la validez del conglomerado
Aplicacin
En resumen, se usa para lo siguiente:
Para el desarrollo de tipologas o clasificacin de datos
Para la bsqueda de esquemas conceptuales tiles para agrupar entidades (o
casos).
La generacin de hiptesis a travs de la exploracin de los datos.

Ejemplos prcticos:

La taxonoma: agrupar especies naturales.
En marketing, para clasificar clientes en segmentos formados con clientes de
comportamientos semejantes (segmentacin de mercados).
En la medicina, para clasificar seres vivos con los mismos sntomas y
caractersticas patolgicas.
Formar grupos de pixeles en imgenes digitalizadas enviadas por un satlite
desde un planeta para identificar los terrenos.
Grupos de usuarios de servicios de salud, teniendo en cuenta la edad, la
tensin arterial sistlica, nivel de colesterol, etc.


Procedimiento
Comienza tomando p medidas de n objetos. Estas medidas
deben ser cuidadosamente seleccionadas y de tal manera
que favorezcan la agrupacin de los datos. La matriz de
datos nxp de n casos y p variables es transformada
entonces en una matriz nxn cuyas entradas son coeficientes
que definen similaridades o disimilaridades (distancias)
entre cada par de objetos. Estos coeficientes, que
determinaran la proximidad o similitud entre las distintas
observaciones, se definen a partir de criterios establecidos
por el investigador.
A partir de la matriz de similaridades o disimilaridades se
procede a agrupar a los individuos ms parecidos segn un
proceso de agrupacin siguiendo normas o criterios que
deben cumplir las observaciones (mtodos de agrupacin)

Procedimiento
Cada entrada en la matriz viene a ser un
coeficiente de similitud entre cada par de
objetos. Posteriormente usando determinado
algoritmo de clasificacin se define una regla de
clasificacin para formar los conglomerados o
clusters.
El problema que se presenta despus de la
determinacin de los clusters se refiere al
nmero de cluster a tomar. El nmero de clusters
deber ser visto por el investigador de acuerdo a
la descripcin de la estructura que se tiene.


Procedimiento
Para finalizar, los clusters encontrados son
contrastados con respecto a sus medias en las p
variables u otras caractersticas de inters.
Nota:
Con el anlisis de conglomerados se relaciona a
menudo el anlisis discriminante. Con este anlisis se
explica la pertenencia de cada elemento a uno u otro
grupo en base a un grupo de variables, para luego, en
una segunda instancia, tratar de predecir si un nuevo
elemento pertenecer a uno u otro grupo.


Procedimiento
Resumen:

Una buena seleccin de variables.
La eleccin del procedimiento de agrupacin.
La eleccin de la distancia o proximidad a elegir.
La presentacin e interpretacin de los resultados (grfica
y numrica).
Validacin de los resultados.



Similaridades
Las proximidades o similaridades estan referidas al
parecido que debe existir entre los objetos y operan
a partir de dos matrices de datos bsicas:
Una matriz nxp (casos x variables).
Una matriz de proximidades para todos los pares de
pares, ya sean casos nxn o variables pxp. Estas matrices
pueden ser de distancias, de similaridades, de
correlaciones, o de asociacin, dependiendo el tipo de
medida que se use para medir las proximidades.


Matriz de distancias

Tiene como entradas a nmeros no negativos.
Estos nmeros indican el alejamiento entre
dos objetos. A mayor valor mayor alejamiento.
Estas matrices son las ms usadas.

Matriz de distancias
Tiene como entradas a nmeros no negativos. Estos
nmeros indican el alejamiento entre dos objetos. A
mayor valor mayor alejamiento. Estas matrices son las
ms usadas.
Las distancias satisfacen las siguiente propiedades:
Si A y B son dos elementos, la distancia entre A y B,
dAB, cumple con las siguientes propiedades:
1. dAB>=0
2. dAA=0
3. dAB=dBA
4. dAB<=dAC+Dcb (desigualdad triangular)
Distancias
Entre las distancias ms conocidas estan:
Para variables continuas:
a) Distancia eucldea, cuyos valores se calculan de la
siguiente manera:

En donde e , representan, respectivamente, los
valores de la variable para los elementos A y B.

Variables /
Casos
X
1

X
i


X
n

A
X
1


X
i


X
n

B
Y
1


Y
i


Y
n


Se usa tambin la distancia euclidea al cuadrado
b) Distancia eucldea al cuadrado

c) Distancia de Manhattan (City Block)

d) Distancia de Minkowski

e) Distancia power (p,r)

f) Distancia de Mahalanobis

g) Distancia de Chebyshev

Distancias
Matriz de similaridades
La matriz de similaridades est formada por nmeros
no negativos que indican similitud o semejanza. A
mayor valor mayor similitd.
Los coeficientes de similaridad tpicamente tienen
valores entre 0 y 1. El 1 expresa similaridad mxima,
mientras que el 0 expresa inexistencia de similaridad.
Las propiedades que cumplen los ndices de similaridad
son:
a) 0<=sij<=1
b) sij=sji
c) sii=1
Similaridades
A partir de una distancia dij se puede definir una
similaridad sij:

A partir de una similaridad sij, se pude definir la
distancia dij

Entre las medidas de similaridad se tienen:
Para variables continuas:
a) Correlacin de Pearson
b) Cosenos de vectores

El siguiente procedimiento indica otra manera de definir asociaciones entre un par
de objetos
Consideremos las variables que toman el valor 1 para indicar presencia de un
atributo y 0 para indicar ausencia del atributo





Los datos generan la siguiente tabla de asociacin.



En donde (+) indica presencia de atributo y (-) indica ausencia del atributo y las
entradas indican el nmero de coincidencias y no coincidencias. As a=2 indica que
en dos casos los elementos Ay B coinciden en tener el atributo, etc.

Atributo
Elemento
1 2 3 4 5 6
A
0 1 1 0 1 1
B
1 0 1 0 0 1
A
+ -
A + a=2 b=1
B - c=2 d=1
Similaridades
Un ndice de similaridad entre las variables dicotmicas se puede definir a
partir de la tabla de contingencia




Para variables binarias
a) Coeficiente de Jaccard
b) Coeficiente de casacin o de parejas simples
c) Coeficiente de Russel y Rao
d) Coeficiente de Dice
e) Coeficiente de Rogers y Tanimoto
f) Coeficiente de Kulczynski



Variable 2 Total
Variable 1 0 1
0 a b a+b
1 c d c+d
Total a+c b+d a+b+c+d
Similaridades
g) Coeficiente de Sokal y Sneath
h) Coeficiente de correlacin punto 4 phi
i) Coeficiente de Ochiai
j) Coeficiente de dispersin
k) Coeficiente de Hamann
l) Coeficiente de Lambda de Goodman

Para variables cualitativas no binarias
Chi cuadrado
Esta medida de similaridad se utiliza a menudo cuando las componentes de
los vectores de valores corresponden a variables cualitativas y la informacin
se expresa en frecuencias. Sobre esta distancia se basa el anlisis de
correspondencias, anlisis que sirve para estudiar las tablas de contingencia



Similaridades
Similaridades






en donde A y B son dos filas de una tabla de contingencia, Aj representa la
frecuencia observada de la j-sima categoria de la variable columna y E(Aj)
representa el valor esperado de las frecuencias de la j-sima categoria de la
variable columna. Lo mismo para lo que corresponde a la fila B.
a) Phi cuadrado
Para variables en diferentes niveles de medicin
Coeficiente de similaridad de Gower
Las matrices de correlacin estn formadas por nmeros que miden
similitudes entre los perfiles o patrones de los objetos. Se realizan
encontrando las correlaciones entre las medidas de las variables en cada
objeto. Elevadas correlaciones indican similitud y bajas correlaciones indican
falta de ella. Estas matrices son las menos usadas pues generalmente el
interes esta en la magnitud de los objetos antes que sus eprfiles o patrones.



Estandarizacin










El problema que siempre se plantea es que si los datos deberian estandarizarse
antes de aplicar las medidas de similaridad. La espuesta a este planteamiento
tiene que ver con varios aspectos: las escalas en las cuales estan medidas las
variables, los efectos del tipo de respuesta en los conglomerados. Cuando
diferentes variables presentan diferentes escalas y es preciso la comparacin de
los valores es recomendable la estandarizacin; sin embargo, si se desea
diferenciar a los que siempre dicen si de los que siempre dicen no, no ser
recomendable la estandarizacin. La distancia de Mahalanobis incorpora la
estandarizacin y la varianza covarianza de las variables


0
1
2
3
4
5
6
X1 X2 X3 X4
Objeto 1 Objeto 2 Objeto 3
Perfiles
V
a
l
o
r
e
s
Variables
Obtencin de los conglomerados




Existen una serie de procedimientos para determinar los conglomerados. Los
ms utilizados pueden dividirse en mtodos jerrquicos y no jerrquicos.
1. MTODOS JERRQUICOS
Con los mtodos jerrquicos se obtienen particiones del conjunto de valores que
van desde un grupo por observacin hasta obtener un solo grupo. Estos mtodos
se denominan jerrquicos aglomerativos.
Cuando el proceso de obtencin de los clusters va en direccin contraria al de los
mtodos aglomerativos los mtodos se llaman divisivos.
Las tcnicas aglomerativas comienzan con objetos individuales. Los objetos
similares son agrupadas primero y luego esos grupos se juntan de acuerdo a sus
similaridades hasta llegar a un nico conglomerado que contiene todos los
objetos.
Entre las tcnicas aglomerativas se tienen


Obtencin de los conglomerados




El mtodo del centroide que toma la distancia entre los centroides. Se usa slo
son la distancia eucldea al cuadrado.
El mtodo mediana que toma la distancia entre las medianas. Como en el caso
anterior slo se usa con la distancia eucldea al cuadrado.

1
2
3
5
4
1
2
3
5
4
1
2
3
5
4
Distancia entre conglomerados Linkage
d24
d15
(d13++d25)/6
nico
completo
promedio
Obtencin de los conglomerados




El eslabomiento nico o del vecino ms cercano resulta cuando los
grupos se forman teniendo en cuenta las distancias entre sus elementos
ms cercanos.
El eslabomiento completo o del vecino ms lejano resulta cuando los
grupos se forman teniendo en cuenta las distancias entre sus elementos
ms lejanos.
El eslabomiento promedio resulta cuando los grupos se forman teniendo
en cuenta el promedio de las distancias entre pares de elementos en los
respectivos conjuntos. Este algoritmo usa a todos los elementos en lugar
de los extremos solamente.
Los siguientes son los pasos que se siguen cuando se usan las tcnicas
aglomerativas.
1. Comenzar con N conglomerados, cada uno de los cuales contiene un
solo objeto apareciendo de este modo una matriz nxn de distancias (o
similaridades) D={dik}.


Obtencin de los conglomerados




2. Buscar la matriz de distancias para los conglomerados que estan ms
prximos.
3. Si los conglomerados ms cercanos son U y V unir a estos para formar el
conglomerado (UV). Borrar las filas y columnas que corresponden a los
conglomerados U y V para luego agregar una fila y una columna que
corresponde a las distancias entre el conglomerado (UV) y el resto de los
conglomerados.
4. Repetir los pasos 2 y 3 N-1 veces llegando al nico conglomerado con lo
que finaliza el algoritmo.

Las tcnicas divisivas trabajan en direccin opuesta. Un grupo inicial
formado por todos los objetos es dividido en subgrupos de tal manera
que los objetos en cada subgrupo estan lejos de los objetos de cualquier
subgrupo.


Obtencin de los conglomerados




II. METODOS NO JERARQUICOS
En los mtodos jerrquicos se parten de tantos grupos como elementos
existen y los nuevos grupos se van formando paso a paso hasta llegar a
un solo grupo. En los mtodos no jerrquicos el usuario indica de
antemano un nmero K de grupos. Estos K grupos se forman en un solo
paso, de tal manera que la varianza dentro de cada grupo sea mnima.
Los mtodos principales son el de K medias y el de los centroides
iniciales. La distancia que a menudo se utiliza en estos mtodos es la
eucldea, estandarizando previamente las medidas cuando stas esten
en diferentes unidades.
Para el mtodo de K-medias el algoritmo es el siguiente:
1. Particionar los N items en K conglomerados.
Asignar un objeto al conglomerado cuyo centroide (media) es el ms
cercano. Recalcular el centroide del conglomerado que recibe al nuevo
objeto y del conglomerado que ha perdido el objeto.

Obtencin de los conglomerados




3. Repetir el paso hasta que no se pueda realizar asignacin alguna.
Acerca del nmero de grupos
No existe ninguna regla general, al respecto; sin embargo, existen
algunos lineamientos.
1. Las consideraciones tericas, conceptuales o tericas o prcticas pueden
sugerir un nmero determinado de grupos.
2. En el conglomerado jerrquico, las distancias en las que los grupos se
combinan pueden utilizarse como criterios.
3. En la agrupacin no jerrquica, la relacin de la varianza total dentro de
los grupos con la varianza entre los grupos puede trazarse en
comparacin con el nmero de stos. El punto donde ocurre un recodo
indica un nmero apropiado de grupos.
4. Los tamaos de los grupos deben ser significativos.

Interpretacin de los perfiles de los
grupos




La interpretacin y el perfil de los grupos comprende el anlisis de los
centroides de grupo. Los centroides permiten describir cada grupo y
asignarle a cada grupo un nombre o etiqueta.
Determinacin de la confiabilidad y la validez
Los siguientes procedimientos ofrecen revisiones adecuadas de la
calidad de los resultados de la agrupacin.
1. Realizar el anlisis con diferentes medidas de distancia
2. Utilizar diversos mtodos de conglomerados y comparar los resultados
3. Dividir la muestra a la mitad en forma aleatoria y realizar los
conglomerados por separado en cada mitad. Comparar los centroides.
4. Eliminar las variables en forma aleatoria y realizar la agrupacin con
base al conjunto reducido. Comparar los casos.
5. En los mtodos no jerrquicos los resultados depende muchas veces del
orden de los casos.


Interpretacin de los perfiles de los
grupos




Para estabilizar la solucin es recomendable realizar corridas en
diferentes ordenes de los casos.
El anlisis de conglomerados se usa en diferentes campos. En la
mercadotecnia se usa para diversos propsitos:
Segmentacin del mercado. Por ejemplo, los consumidores pueden
agruparse de acuerdo a los beneficios que buscan en la compra de un
producto.
Identificacin de oportunidades para nuevos productos
Seleccin de mercados de prueba
Reduccin de datos


SEGMENTACIN DE AFILIADOS DE
UNA AFP
Antecedentes
Remuneracin Asegurable Mensual (RAM)
Alcance de la solucin
Visin general del proyecto
Conocimiento del negocio
En la AFP se inicia el proyecto del CLV calculado en base a los
parmetros de RAM, Edad, Canal de Venta, Tipo de Incorporacin
(Afiliacin o Traspaso) y Fecha de Ingreso.
La segmentacin de afiliados proporcionar informacin estadstica
para el clculo del CLV.
Por otro lado la segmentacin de afiliados apoyar al rea
comercial de la AFP a desarrollar estrategias de marketing a lo largo
del ciclo de vida del cliente.

Conocimiento del negocio
Obtencin de la matriz
Segmentacin de afiliados
Obtener grupos homogneos en cuanto a caractersticas
estructurales (edad de afiliacin, RAM de afiliacin, tipo de
fondo, permanencia, FFVV de contrato, sexo y estado civil)
para:
Diferenciar los anlisis descriptivos subsiguientes en funcin
del segmento.
Mejorar el poder predictivo del modelo estadstico.

Grupo I: RAM de afiliacin mayor a
S/.2,000
Anlisis descriptivo GI
Grupo II: RAM de afiliacin menor a
S/.2,000
Anlisis descriptivo GII
Modelo predictivo
Resultados modelo GI
Resultados del modelo GII
Conclusiones
Prximos pasos
Mejoras y ajustes en el modelo de clasificacin desarrollado.
Implementar un procedimiento para la actualizacin de los
segmentos de los nuevos afiliados.
Construccin de la matriz de microsegmentacin. Crosstab
Segmentacin de afiliados y Rango CLV.

Prximos pasos
Desarrollo de un modelo anti - churn para
los afiliados de la AFP. Este modelo
permitir identificar a los afiliados con
mayor propensin de fuga y reducir los
costos de retencin.
Desarrollo de un modelo de recupero de
afiliados, el cual identificar a los afiliados
con una alta probabilidad de que regresen
a la AFP.

Preguntas?