Você está na página 1de 10

686 ; Capítulo 21: Análisis de datos: investigación de relaciones

de cuan bien se adecué la ecuación a los datos. Puesto que sY/x2 mide la dispersión de los puntos
en torno a la recta de regresión, puede considerarse que es una medición de cuan "deficiente" es
un procedimiento de estimación que toma en cuenta la covariable. Ahora bien, si sY/x2 es de poca
cuantía en relación con sY2, sería factible afirmar que añadir la covariable mediante la ecuación de
regresión mejora sustantivamente las predicciones de la variable de criterio, las ventas. A la inver-
sa, cuando sY/x2 es aproximadamente igual a sY2, se consideraría que agregar la covariable X no
sirve para mejorar las predicciones de Y. Por tanto, la proporción sY/x2/sY2 se conceptuaría como
la proporción de la variación que no se explica con la recta de regresión dividida entre la varia-
ción total, es decir:

variación inexplicada
r2 = 1 -
variación total

El miembro derecho de esta ecuación puede combinarse en una sola fracción, de modo que se tenga:

<, variación total - variación inexplicada


r¿ = : — :
variación total

Al restar la variación inexplicada de la variación total, queda la "variación explicada", o sea, la


variación de Y que se explica con la inclusión deX. De tal suerte, puede considerarse que el coeficien-
te de determinación es igual a:

variación explicada
r2 =
variación total

donde se entiende que la variación total se mide con la varianza de Y. En el ejemplo de las ventas y
anuncios televisivos, r2 = 0.77. Ello significa que 77% de la variación en las ventas de un territorio a
otro se explica con la variación de la publicidad televisiva entre territorios. Por consiguiente, la esti-
mación de las ventas en un territorio es mejor si se toman en cuenta los anuncios televisivos que al
hacer caso omiso de esa actividad publicitaria.

I Análisis de regresión múltiplí


La idea básica subyacente al análisis de regresión múltiple es la misma que en la regresión simple:
determinar la relación entre las variables independientes y dependiente, o variables de predicción y
de criterio. El análisis de regresión múltiple permite añadir diversas variables, de modo que la ecua-
ción refleje los valores de un cierto número de variables de predicción, no una sola. El objetivo de es-
to es mejorar las predicciones de la variable de criterio.
Un observador irónico de muchos proyectos de investigación hizo diversos comentarios astutos
acerca del comportamiento de las variables y la forma en que suelen correlacionarse (Ventana de in-
vestigación 21.2). Convendría que el lector los tenga en mente mientras lee este apartado del análisis
de regresión múltiple.

Nomenclatura modificada
Un marco de notación modificado y más formal es valioso para comentar el análisis de regresión
múltiple. Considere el modelo de regresión general con tres variables de predicción. La ecuación
modificada:

la cual es una estado simplificado de la más elaborada y precisa ecuación.


Análisis de regresión múltihple 687

Ventana de investigación 21.2

Primera ley Tercera ley

Todo se correlaciona con tocio, especialmente cuando el mismo A menos que pueda pensarse en una razón lógica para que dos
• iuo define las variables que se correlacionarán. variables estén relacionadas como causa y efecto, no ayuda mu-
cho descubrir una correlación entre ellas. En Columbus, Ohio, ¡ía
Segunda ley precipitación pluvial mensual media tiene muy buena correlación
con el número de letras de los nombres de los meses!
No es de mucha utilidad descubrir una buena correlación entre la
variable que interesa y alguna otra variable de la cual no se tie- Fuente: Lewis E. Walkup. "Walkup's First Five Lam of Stalistics', en The Bent, verano
de 1374, publicación de Tan Beta P¡. National Engineering Honor Society. Univeisity
nen mayores conocimientos. of Missouri AluiTiui Maga/me, según se cila en Robert W. Joselyn, Destgntng íne
MaitetingReseaiehPiDiecl. Hueva York. Petrocelli/Charler. 1977. p. 175.

Disyuntiva ética 21.1

Se ¡e asignó ia responsabilidad de desarrollar un método ¿Cuál es la consecuencia de que estén muy correlacio-
para estimar el potencial de mercado de los productos de nados los factores predictivos en una ecuación de
la compañía por regiones geográficas pequeñas a un regresión?
analista recién contratado del departamento de investiga-
ción de mercados de una empresa. El analista se dedicó a ¿Está obligado rnoralmente el analista de investigación
la tarea de recopilar tantos datos secundarios como le fue a aprender todo lo que sea posible acerca de una técni-
posible. Luego, emprendió una sucesión de análisis de ca dada antes de aplicarla a un problema, para evitar la
regresión, en que usó las ventas corno variable de criterio interpretación errónea de los resultados?
V los factores demográficos como variables de predicción. ¿Tiene el analista la obligación moral de recomendar
Aunque se dio cuenta de que varios de los factores de cautela en la interpretación de los resultados cuando
predicción estaban muy correlacionados (por ejemplo, se violan los supuestos básicos del método usado para
ingreso promedio en la región con el nivel de estudios producir los resultados?
promedio), optó por no considerar este hecho cuando
presentó los resultados a los directivos. ¿Cuáles son las responsabilidades del investigador si
los directivos no se interesan en los detalles técnicos
que permiten lograr los resultados?

Coeficiente de regresión
parcial (o neta)
Cantidad que resulta de un análi- En esta ecuación más precisa, tiene validez lo siguiente:
sis de regresión múltiple e indica
el cambio promedio en la varia- • 7(123) es el valor de Y que se calcula a partir de la ecuación de regresión, con 7 como variable de cri-
ble de criterio por cambio unitario terio y X^X2y XT, como variables de predicción
en una variable predictiva, en
igualdad de circunstancias en to- • «(123) es el parámetro de intersección en la ecuación de regresión múltiple, con 7 como variable de
das las demás variables de predic- criterio yXi,X2yX3 como variables de predicción
ción. La interpretación se aplica
sólo cuando las variables de pre- • ]Sn 23 es el coeficiente de Xl en la ecuación de regresión, con 7 como variable de criterio y X^X2 y
dicción son independientes entre XT, como variables de predicción o explicatorias. Se le llama coeficiente de regresión parcial (o ne-
sí, como se requiere para la apli- ta). Note los subíndices. Los dos situados a la izquierda del punto decimal se llaman subíndices pri-
cación válida del modelo de re- marios. Él primero identifica la variable de criterio, y el segundo, la variable de predicción de la cual
gresión múltiple. es coeficiente este valor de ft. Los subíndices primarios son siempre dos. Los otros dos subíndices,
688 Capítulo 21: Análisis de datos: investigación de relaciones

a la derecha del punto decimal, se denominan subíndices secundarios e indican cuáles otras va-
riables de predicción son parte de la ecuación de regresión. Su número varía desde cero en la
regresión simple hasta cualquier número k - 1, donde se tienen k variables de predicción en el
problema. En este caso, el modelo contiene tres variables de predicción (k = 3) y dos subíndi-
ces secundarios.

• e(123) es el error relacionado con la predicción de 7cuando X\, X2 yX3 son las variables de predic-
ción.

Es práctica común usar la versión simplificada de este modelo cuando se tiene clara la identi-
dad de las variables. Empero, la versión detallada es útil al interpretar la solución del problema de
regresión.

Supuesto de multicolinealidad
Los supuestos relativos al término de error en el modelo de regresión simple se aplican también a la
ecuación de regresión múltiple. Además, esta última es un modelo que requiere el supuesto adicional
de que las variables de predicción no se correlacionan entre ellas. Cuando el investigador puede de-
finir los niveles de estas variables, resulta fácil satisfacer dicho supuesto. Es frecuente que se viole el
supuesto cuando las observaciones resultan de una encuesta, no de un experimento, ya que muchas
variables de interés en mercadotecnia varían conjuntamente. Por ejemplo, los ingresos altos suelen re-
lacionarse con niveles de escolaridad elevados. Así pues, la predicción del comportamiento de compra
con los ingresos y nivel de estudios violaría el supuesto de que las variables de predicción son inde-
Multicolinealidad pendientes unas de otras. Se dice que hay multicolinealidad en un problema de regresión múltiple
Condición existente en un análi- cuando las variables de predicción están correlacionadas.
sis de regresión múltiple, que
consiste en que las variables de
predicción no son independientes Coeficientes de regresión parcial
unas de otras, como se requiere, Considere qué ocurriría si se agrega cierto número de representantes de ventas al problema de la pre-
sino que están correlacionadas.
dicción de las ventas por territorio. Podría investigarse la relación de dos variables, entre las ventas y
el número de representantes. Por supuesto, ello requeriría calcular la ecuación de regresión simple que
relaciona a dichos factores. Los cálculos guardarían paralelismo con los de la relación entre las ven-
tas y los anuncios televisivos. En forma alterna, sería posible considerar el efecto simultáneo de los
anuncios televisivos y el número de representantes de ventas, con el análisis de regresión múltiple. En
el supuesto de que se trate de un problema de investigación, el modelo de regresión correspondería a
la ecuación siguiente:

indicativa de que la variable de criterio, las ventas en un territorio, se predecirá con dos variables de
predicción, X} (anuncios televisivos mensuales) y X2 (número de representantes de ventas).
Una vez más, los parámetros del modelo podrían estimarse a partir de los datos de la muestra con
los procedimientos de cuadrados mínimos. De nuevo, se distinguirá entre los estimados de la mues-
tra y los valores poblacionales verdaderos, que son desconocidos, con el uso del acento circunflejo
para denotar el valor estimado. En este punto, no se considerarán las fórmulas para el cálculo de los
coeficientes de regresión. De cualquier manera, es habitual que se obtengan con computadora y son
parte de casi todos los textos de fundamentos de estadística. La necesidad del analista de mercadotec-
nia es cómo interpretar los resultados que le proporciona la computadora.
En este problema, la ecuación resulta ser:

Esta ecuación de regresión puede usarse para estimar el nivel de ventas esperado en un territorio, da-
dos el número de anuncios televisivos y el de representantes de ventas que atienden el territorio. Al
igual que en otras ecuaciones de cuadrados mínimos, la línea (en este caso una recta, puesto que es
un problema tridimensional) se adecúa a los puntos de manera tal que la suma de las desviaciones en
Análisis de regresión múltiple 689

torno a la línea es igual a cero. En otras palabras, si se estimaran las ventas de cada uno de los 40
territorios a partir de esta ecuación, cabría esperar que las desviaciones positivas y negativas en tor-
no a la línea se contrarresten casi con exactitud.
El nivel en que el plano interseca al eje 7 está dado por a(12) = 69.3. Considere ahora los coefi-
cientes de regresión parcial, jSyj 2 y PYIA- En el entendido de que se cumplió el supuesto de multico-
linealidad, esos coeficientes pueden interpretarse como el cambio promedio de la variable de criterio
relacionado con el cambio unitario de la variable de predicción apropiada, al tiempo que se mantie-
nen constantes las otras variables de predicción. Así, al suponer que no existe multicolinealidad, j3n 2 =
14.2 indica que, en promedio, cabe esperar un aumento de 14 200 dólares en las ventas con cada anun-
cio televisivo adicional en el territorio, si no cambia el número de representantes de ventas. En forma
similar, /3y2.i = 37.5 apuntaría en el sentido de que cada representante de ventas adicional en un terri-
torio producirá 37 500 dólares de ventas, en promedio, si se mantiene constante el número de anun-
cios televisivos.
En el análisis de regresión simple, se puso'a prueba la significancia de la ecuación de regresión
mediante el examen de la significancia del coeficiente de pendiente con la prueba t. El valor calcula-
do de / fue 11.4 en cuanto a la relación de las ventas con los anuncios televisivos. También habría si-
do posible verificar la significancia de la regresión con una prueba F. En el caso de una regresión de
dos variables, el valor calculado de F es igual al calculado para t, elevado a la segunda potencia, es
decir, F = t2 = (11.4)2 = 130.6, mientras que en general el valor calculado de F equivale a la propor-
ción entre el cuadrado medio debido a la regresión y el cuadrado medio debido a los residuos. En la
regresión simple, el valor de F calculado se consultaría en una tabla de F con vi = n — 2 grados de
libertad. Esta conclusión sería equivalente a la derivada mediante la prueba de significancia del coe-
ficiente de pendiente con la prueba t.
En el análisis de regresión múltiple, es imperativo examinar la significancia de la regresión glo-
bal con la prueba F. Los grados de libertad apropiados equivalen av{ — kyv2 — n — k — 1, con k
variables de predicción. Se tiene como valor crítico de F, con vj = 2 y v2 = 40 - 2 — 1 = 37 grados
de libertad, mientras que el nivel de significancia de 0.05 es 3.25. El valor de F calculado para la re-
gresión que relaciona las ventas con los anuncios televisivos y el número de representantes de ventas
es 128.1. Puesto que resulta mayor que el valor crítico de F, se rechaza la hipótesis nula de la ausen-
cia de relación. Existe una relación lineal estadísticamente significativa entre las ventas y las varia-
bles de predicción, o sea, el número de anuncios televisivos y el de representantes de ventas.
También es posible evaluar uno por uno los coeficientes de pendiente en cuanto a su significancia
estadística en un problema de regresión múltiple, puesto que la función global es significativa. De
nuevo, se usa la prueba t, si bien la validez del procedimiento depende mucho de la multicolinealidad
existente entre los datos. Si esta última es alta, se tiende a cometer errores tipo II, es decir, se juzga
que muchas de las variables de predicción no se relacionan con la de criterio cuando en realidad sí
guardan tal relación. Inclusive podría llegarse a la conclusión de que la regresión global es estadísti-
camente significativa y ninguno de los coeficientes globales lo es. La dificultad con las pruebas de
significancia t de los coeficientes de pendiente surge porque el error estándar de la estimación de los
coeficientes de cuadrados mínimos, sfa, aumenta al hacerlo la dependencia entre las variables de pre-
dicción. Por tanto, a medida que se incrementa el denominador del valor t calculado disminuye su va-
lor, lo que en ocasiones lleva a la conclusión de que no existe relación entre la variable de criterio y
la variable de predicción.
¿Es la multicolinealidad un problema en el ejemplo? Considere una vez más la regresión sim-
ple de las ventas en relación con los anuncios televisivos: j3j (PYi en el sistema de notación formal)
equivale a 25.3. Así, cuando se excluyó el número de representantes de ventas en el territorio, el
cambio promedio de las ventas relacionado con los anuncios televisivos fue de 25 300 dólares. Sin
embargo, al considerar el número de representantes, el cambio promedio de las ventas relacionado
con los anuncios televisivos fue de 14200 dólares, con /3n 2 = 14.2. Una parte del efecto en las ven-
tas atribuido a los anuncios televisivos en realidad se debió al número de representantes en el terri-
torio. Por ello, se sobrestimó el efecto de los anuncios televisivos por la forma histórica de tomar
las decisiones en la compañía. De manera específica, los territorios con mayor número de represen-
tantes de ventas tuvieron más apoyo publicitario en la televisión, o viceversa. Tal vez eso sea lógi-
co, ya que cuentan con una mayor proporción del público consumidor. No obstante, el hecho de que
las dos variables de predicción no hayan sido independientes (el coeficiente de la correlación sim-
ple entre los anuncios televisivos y el número de representantes de ventas fue 0.78) constituye una
69fl ; Capítulo 21: Análisis de datos: investigación de relaciones

violación del supuesto de factores de predicción independientes. Existe multicolinealidad en este


conjunto de datos.
La multicolinealidad en un conjunto de datos reduce la eficiencia de la estimación de los paráme-
tros de regresión. Ello se debe a que la cantidad de información acerca del efecto de cada variable de
predicción sobre la variable de criterio disminuye conforme la correlación entre las variables de pre-
dicción aumenta. Tal disminución de eficiencia puede apreciarse fácilmente en el caso límite, en que
la correlación entre las dos variables de predicción del modelo se acerca a la unidad. Esta situación
se ilustra en la figura 21.7, donde se supone que existe una relación lineal perfecta entre esas dos va-
riables, los anuncios televisivos y el número de representantes de ventas, además de que es fuerte la
relación lineal de la variable de criterio, las ventas, con los anuncios televisivos. Considere el cambio
en las ventas de 75 000 a 100000 dólares. Se acompaña de la modificación del número de anuncios
televisivos, de tres a cuatro. A su vez, este último cambio guarda relación con el número de represen-
tantes de ventas, de cuatro a cinco. ¿Cuál es el efecto de un anuncio televisivo en las ventas? ¿Puede
decirse que es de 25 000 = 100000 - 75 000? Lo más probable es que no, ya que históricamen-
te se ha agregado un representante de ventas al territorio cuando se incrementa en uno el número
de anuncios televisivos, o viceversa. Los números de representantes y anuncios varían en propor-

FIGURA 21.7
Análisis de regresión múltiple 691

ción perfecta y es imposible distinguir su efecto separado en las ventas, es decir, el que ejercen cuan-
do se mantiene constante la otra variable.
Es mínimo el significado que puede atribuirse a los coeficientes de regresión parcial cuando
existe multicolinealidad, como en el ejemplo. Simplemente no resulta válida la interpretación "nor-
mal" de esos coeficientes, como "el cambio promedio de la variable de criterio relacionado con el
cambio unitario de la variable de predicción apropiada cuando se mantienen constantes las demás
variables de predicción".9 La ecuación todavía sería útil para fines de predicción, en el supuesto de
que las condiciones sean estables. En otras palabras, se usaría para predecir las ventas en los diver-
sos territorios con valores dados de anuncios televisivos y representantes de ventas si cabe esperar
que continúe la relación histórica entre las ventas y cada una de las variables de predicción, o la
existente entre estas últimas.10 Empero, no deben usarse los coeficientes de regresión parcial como
base para la toma de decisiones mercadológicas estratégicas cuando es significativa la multicoli-
nealidad.11

Coeficientes de correlación múltiple y de determinación múltiple


Un tema de gran importancia para analizar la regresión simple es la medida de la magnitud de la re-
Coeficiente de
lación entre las variables de criterio y de predicción. Se usan para dicho propósito el coeficiente de
determinación múltiple
correlación y su valor elevado a la segunda potencia, el coeficiente de determinación múltiple. En
En el análisis de regresión múlti-
ple, la proporción de variación la regresión múltiple existen coeficientes similares para el mismo propósito.
en la variable de criterio que se El coeficiente de correlación múltiple se denota formalmente con Ry.w donde el subíndice
explica con la covariación de las primario es la variable de criterio, y los subíndices secundarios, las variables de predicción. Cuan-
variables predictivas. do es evidente cuáles variables forman parte de la relación, se usa la forma abreviada, R. Por su
parte, el coeficiente de determinación múltiple se denota formalmente con Ry.m2 e informalmente
Coeficiente de correlación con R2 y es la proporción de la variación de la variable de criterio que se compone de la covaria-
múltiple ción en las variables de predicción. Cuando se investiga la relación de las ventas con los anuncios
En el análisis de regresión múlti- televisivos y el número de representantes de ventas, RY.\22 = 0.874. Ello significa que 87.4% de la va-
ple, la raíz cuadrada del coefi- riación de las ventas se relaciona con la existente en el número de anuncios y representantes. La in-
ciente de determinación múltiple.
clusión del número de estos últimos mejora el ajuste de la línea de regresión; 87.4% de la variación
en las ventas se explica con el modelo de dos variables de predicción, mientras que apenas 77.5%
se explica con el de una variable de predicción. La raíz cuadrada de dicha cantidad, 7?r 12 = 0.935,
es el coeficiente de correlación múltiple, que siempre se expresa como número positivo.

Coeficientes de correlación parcial


Existen dos cantidades adicionales que se consideran al interpretar los resultados de análisis de regre-
sión múltiple y no se incluyen en el de regresión simple: el coeficiente de correlación parcial y su va-
lor elevado al cuadrado, el coeficiente de determinación parcial.
Recordará el lector que en el análisis de regresión simple de las ventas Y con los anuncios televi-
sivos Xi podía expresarse el coeficiente de determinación simple como sigue:

variación explicada
variación total

y que la variación inexplicada estaba dada por el error estándar de la estimación a la segunda poten-
cia, SY_\2, puesto que dicho error mide la variación de la variable de criterio no explicada con la va-
riable de predicción, X\. Por supuesto, la variación total está dada por la variación de la variable de
criterio Sy2. Así, se tiene:
892 Capítulo 21: Análisis de datos: investigación de relaciones

El último término de la fórmula es la proporción de la variación residual de la variable de crite-


rio, después de considerar la variable de prediction^, sobre la variación total de la variable de cri-
terio. Es una medición del grado relativo en que la relación de las dos variables aporta información
sobre la variable de criterio.
Ahora bien, considere el caso de la regresión múltiple con dos variables de predicción, X} y X2. El
error estándar de la estimación se denota con sY.\2, y su valor a la segunda potencia, con SY,\22- Dicho
error mide la variación residual de la variable de criterio 7 después de tomar en cuenta las dos varia-
bles de predicción,Xl yX2. Puesto que SY,\2 mide la variación de la variable de criterio que queda des-
pués de considerar la primera variable de predicción, es posible interpretar sYl22/sYl22 como la medi-
ción del grado relativo en que la relación de las tres variables 7, X\ y X2 proporcionan información
sobre 7 más allá de la obtenida con la relación de la variable de criterio y la primera variable de pre-
dicción, X\. En otras palabras, la proporción sY.i22/sY.i2 mide el grado relativo en que X2 amplía los
conocimientos acerca de Y después de utilizar plenamente^. Esta razón es la base del coeficiente de
Coeficiente de determinación parcial, que en el ejemplo de las ventas (7) contra los anuncios televisivos (A"i) y nú-
determinación parcial mero de representantes (X2) se calcula como sigue:
Cantidad que resulta del análisis
de regresión múltiple e indica la
proporción de variación de la va-
riable de criterio que no se expli-
ca con una o más variables pre-
vias y sí con la inclusión de una
nueva variable a la ecuación de
regresión. Lo anterior significa que 42.4% de la variación de las ventas que no guarda relación con los anun-
cios televisivos la tiene de manera creciente con el número de representantes de ventas. En forma al-
Coeficiente de correlación terna, los errores cometidos al estimar las ventas a partir de los anuncios televisivos se reducen, según
parcial se mide con la varianza, en 42.4% cuando se agrega el número de representantes de ventas (X2) aX¡,
En el análisis de regresión múlti- como segunda variable de predicción. La raíz cuadrada del coeficiente de determinación parcial es el
ple, la raíz cuadrada del coefi- coeficiente de correlación parcial.
ciente de determinación parcial. En el ejemplo, eran dos las variables de predicción. Por tanto, se definió el coeficiente de determi-
nación parcial para el número de representantes de ventas (X2) como rY2 2. Habría sido posible definir
de manera similar un coeficiente de determinación parcial para los anuncios televisivos. Se denotaría
como rY\_22 y sería el porcentaje de la variación de las ventas no relacionado con X2 que guarda rela-
ción creciente conA^; este último coeficiente mostraría la contribución incremental áeX\ después de
considerar la relación de 7 con X2.
Cuando se tienen más de dos variables de predicción, es posible definir muchos más coeficientes
de determinación parcial. Cada uno tiene dos subíndices primarios, que indican la variable de criterio
y la variable de predicción recién añadida. Podría haber muchos subíndices secundarios, que siempre
corresponden a las variables de predicción ya consideradas. Así, si se tienen tres variables de predic-
ción, se calcularían rY2l, ry3 b rY\ 2, rY^2, ryi.3 y rY2.3- Todos serían coeficientes de correlación par-
cial de primer orden, ya que tienen un subíndice secundario indicativo de que se toma en cuenta una
variable de predicción más. Asimismo, sería factible calcular rYL23, ^.13 y rnA2, que son coeficien-
tes de correlación parcial de segundo orden. Cada uno de éstos tienen dos subíndices secundarios, los
cuales denotan la contribución creciente de la variable después de haber tomado en cuenta las otras
dos variables de predicción. Por supuesto, los coeficientes de correlación simple no tienen subíndices
secundarios, de modo que es frecuente denominar los coeficientes de correlación parcial como de or-
den cero.

Variables binarias
El análisis de los datos de ventas del anexo 21.1 todavía está incompleto. No se ha prestado atención
al efecto de la distribución en las ventas, en particular como medida del índice de eficiencia de los
mayoristas. Una forma de considerar el efecto de tal eficiencia en las ventas sería introducir el índice
directamente, es decir, el valor X3 de cada observación simplemente sería el valor registrado en la úl-
tima columna del anexo mencionado. Sea X3 el índice de eficiencia de los mayoristas, en cuyo caso
la ecuación de regresión múltiple con la notación informal sería:
Análisis de regresión múltiple 693

El estimador de cuadrados mínimos de j33 en esta ecuación sería /33 = 11.5. Observe qué implica
este número si las variables de predicción son independientes: significa que el cambio promedio es-
timado de las ventas es de 11 500 dólares por cada cambio unitario del índice de eficiencia de ma-
yoristas. En otras palabras, se espera que un distribuidor regular venda en promedio 11 500 dólares
más que un distribuidor malo; que un distribuidor bueno venda en promedio 11 500 dólares más que
un distribuidor regular, y que un distribuidor excelente venda en promedio 11 500 dólares más que un
distribuidor bueno. Se supone que los incrementos de ventas son constantes con cada cambio de ca-
tegoría de distribuidor. La consecuencia es que el índice de eficiencia de distribuidores es una va-
riable de escala a intervalos y que la diferencia entre distribuidores malos y regulares es la misma
que entre distribuidores buenos y regulares. Ése sería un supuesto cuestionable con un índice que
refleje calificaciones.
Variable binaria Una forma alterna de proceder sería la conversión del índice en un conjunto de variables bina-
Una a la que se asigna uno de dos rias, que asumen uno de dos valores, O o 1, de modo que pueden representarse con un solo dígito
valores, O o 1, y se usa para repre- binario. Estas variables se usan principalmente por la flexibilidad a la hora de definirlas. Pueden
sentar en forma numérica los atri- constituir la representación numérica de atributos o características no esencialmente cuantitativos. Por
butos o características que no son
ejemplo, podría agregarse el género (sexo) en una ecuación de regresión con la variable binaria X¡,
esencialmente cuantitativos.
donde:

X¡ = O, si se trata de una mujer


Xt:= 1, si se trata de un hombre
Esta técnica se amplía fácilmente para el manejo de clasificaciones de dos o más categorías. Por
ejemplo, suponga que se requiere añadir la variable de clase social a una ecuación de regresión y que
son tres sus valores, a saber, clases alta, media y baja. La situación se podría manejar con dos varia-
bles binarias, por ejemplo, X\ y X2, como sigue:

X, *2

Si la persona es de clase alta 1 o


Si la persona es de clase media O 1
Si la persona es de clase baja o o
Existen otros esquemas de codificación lógicamente equivalentes, por ejemplo, el siguiente:

X, X2
Si la persona es de clase alta O o
Si la persona es de clase media 1 o
Si la persona es de clase baja o 1
Por lo anterior, es de máxima importancia que el analista preste atención a la codificación de las
variables cuando interpreta los resultados de una regresión en que se utilizan variables binarias. De-
be estar claro que una clasificación con m categorías puede representarse de manera no ambigua con
un conjunto de m — 1 variables binarias, en que el m-ésimo binario sería superfluo. De hecho, el uso
de m variables para codificar una variable de clasificación con m elementos haría inoperantes muchos
programas de regresión.
Suponga que se utilizan tres variables binarias para representar las cuatro categorías del índice de
eficiencia de distribuidores, en el ejemplo de bolígrafos, corno sigue:

X, X4 X,

Si el distribuidor es malo O o o
Si el distribuidor es regular 1 o o
Si el distribuidor es bueno O 1 o
Si el distribuidor es excelente O o 1
694 , Capítulo 21: Análisis de datos: investigación de relaciones

El modelo de regresión es:

Los estimadores de cuadrados mínimos de los parámetros de eficiencia de distribuidores son como
sigue:

Esos coeficientes indican que, en promedio, cabe esperar que un distribuidor regular, uno bueno
y uno excelente vendan 9200, 20 300 y 33 300 dólares más que uno deficiente, respectivamente. No-
te que estos coeficientes se interpretan en relación con el estado "nulo", es decir, la categoría respec-
to de la cual se define que todas las variables binarias equivalen a cero: la categoría "malo" en este
caso.12
Un analista que pretenda indagar la diferencia entre la eficacia de ventas entre otras clasifica-
ciones debe estudiar esas diferencias de coeficientes. Por ello, si el investigador trata de calcular la
diferencia estimada en las ventas esperadas de un distribuidor bueno y otro regular, la diferencia
promedio sería j84 - j33 = 20.3 - 9.2 = 11.1 (11 100 dólares). De igual modo, cabría esperar que un
distribuidor excelente venda en promedio /35 — j84 = 33.3 — 20.3 = 13 (13 000 dólares) más que
otro bueno.
El uso de variables binarias indica que la relación entre las ventas y el índice de eficiencia de ma-
yoristas no es lineal, como se habría supuesto cuando se añadió como variable de escala a intervalos.
En vez de un aumento de 11 500 dólares con cada cambio de categoría, los aumentos respectivos son
de 9.2 (9200) de la categoría mala a la regular, 11.1 (11 100) de la regular a la buena y 13 (13 000)
de la buena a la excelente.

Trasformaciones de variables
El uso de variables binarias amplía mucho el alcance del modelo de regresión. Hace posible añadir
variables con escalas de clasificación y nominales a los problemas de regresión. Como se mencionó,
también posibilita manejar relaciones no lineales de variables de criterio y de predicción. Otra técni-
ca que amplía el alcance evidente del modelo de regresión es la transformación de variable.
Transformación
Una transformación de variable es simplemente un cambio en la escala con que se expresa una
de variable
Pícese del cambio en la escala variable dada. Considere el modelo siguiente:
con que se expresa una variable.

donde se supone que es multiplicativa la relación entre las variables de predicción y de éstas con el
error. A primera vista, parecería imposible estimar los parámetros a, /3,, /32 y /33 con los procedimien-
tos normales de cuadrados mínimos. Ahora, considere el modelo:

Se trata de un modelo lineal, por lo que puede adecuarse a los procedimientos estándar de cuadrados
mínimos. Sin embargo, es equivalente precisamente al modelo multiplicativo si:

W=\nY Z2 =\nX2
a' = In a Z3 = \nX3
Z} = \nX} €' = In e
Comentarios finales del análisis de datos 6W

DIsyunfiva etica 21.2

Sara estaba totalmente convencida de que existia relacion entre de 60 000 a 104 999 y no parecian ser afectadas cuando los in-
las ventas del pioducto de ia compania v las famiiias y su ingre- gresos excedi'an de 105 000 dolares.
so personal disponible total. Por tanto. ia desanimo mucho que
el primer vistazo a las datos del panel de diaries, de cuya con- • iC6mo evaluaria el enfoque de Sara?
trafacion habia convencido a su superior, revelara la ausencia
• iPiensa que es un buen procedimiento contmuar la biisqueda
casi virtual de relacidn entre las compras del producto por fami-
lia y su ingreso en la regresidn simple de uno sobre el otro. Una de datos que sustenten una hiptitesis de la cual se esta to-
serie de revisiones posteriores, en que se intentaron diversas talmente convencido o recomendaria una sola revision de los
trasformaciones, resuito igualmente desalentadora. Por ultimo, datos con el procedimiento que se considero mejor a priori?
Sara optd por dividir la variable de ingresos en categorias me-
• iCuales son las responsabilidades 6ticas de Sara al presen-
diants un conjunto de variables binarias. Cuando efectud la re-
gresidn de las compras del producto por vivienda contra las ca- tar los resultados de su ana~lisis? iEsta obligada a comentar
tegorias de ingresos, descubrid una relacion muy irregular a la todos los analisis que realize o es satisfactorio que informe
vez que intensa, medida con FR Las compras aumentaban al ha- unicamente de los resultados de la regresion con variables
cerlo el ingreso. hasta 24 999 ddlares. luego disminuian con in- binarias?
gresos de 25 000 a 59 999, aumentaban de nuevo con ingresos

Se convirtió un modelo no lineal en otro lineal con las trasformaciones de variables. A fin de re-
solver los parámetros del modelo multiplicativo, simplemente: 1) se toman los logaritmos naturales
de 7 y de cada una de las X\ 2) se despejan las ecuaciones resultantes con los procedimientos norma-
les de cuadrados mínimos; 3) se toma el antilogaritmo de a' para derivar una estimación de a, y 4)
se leen los valores de j3¿, ya que son los mismos en ambos modelos.
La transformación en logaritmos naturales incluye la de las variables de criterio y de predicción.
También es posible cambiar la escala de ambos tipos de variables. Las trasformaciones exponen-
ciales y logarítmicas son algunas de las más útiles, ya que sirven para resolver las limitaciones que
imponen los supuestos que siguen:13

• La relación entre la variable de criterio y las variables de predicción es aditiva


• La relación entre las variables de criterio y de predicción es lineal
• Los errores son homoscedásticos (es decir, son iguales a una constante sin importar el valor de las
variables de predicción)

Las variables binarias son un tipo de transformación, además de que se analizó de qué modo per-
miten el tratamiento de las relaciones no lineales.

I Comentarios finales del análisis de datos


Hemos llegado al final de la sección sobre análisis de datos. Como se menciona, existen técnicas
más perfeccionadas que usan los analistas para determinar el significado de los datos recopilados.
Aunque las computadoras han facilitado el análisis de los datos y brindan a los investigadores más
oportunidades de examen en diversos aspectos de los datos, sería un error no terminar este capítu-
lo con una advertencia. Es importante recurrir al sentido común y al juicio administrativo en la toma