Você está na página 1de 14

Population ­  entire collection of objects or  ➔ Mean  ­  arithmetic average of data  ➔ Variance  ­  the average distance

individuals about which information is desired.   values   squared
➔ easier to take a sample  ◆ * *Highly susceptible to  n
∑ (xi x)2
◆ Sample ­  part of the population  extreme values (outliers).
that is selected for analysis   Goes towards extreme values
sx2 = i=1 n 1
◆ Watch out for:   ◆ Mean could never be larger or
● Limited sample size that  smaller than max/min value but  ◆ sx2 gets rid of the negative
might not be  values
could be the max/min value
representative of
◆ units are squared
population
◆ Simple Random Sampling­  ➔ Median  ­  in an ordered array, the
Every possible sample of a certain  median is the middle number  ➔ Standard Deviation  ­  shows variation
size has the same chance of being  ◆ **Not affected by extreme  about the mean
values

selected  n
∑ (xi x)2

➔ Quartiles  ­  split the ranked data into 4                  s =
i=1
Observational Study ­  there can always be  n 1
lurking variables affecting results   equal groups
➔ i.e, strong positive association between  ◆ Box and Whisker Plot  ◆ highly affected by outliers
shoe size and intelligence for boys     ◆ has same units as original
➔ **should never show causation  data
◆ finance = horrible measure of
Experimental Study­  lurking variables can be  risk (trampoline example)
controlled; can give good evidence for causation

Descriptive Statistics Part I
Descriptive Statistics Part II
➔ Summary Measures
Linear Transformations

➔ Range  =  X maximum X minimum
◆ Disadvantages:  Ignores the
way in which data are
distributed; sensitive to outliers

➔ Interquartile Range (IQR)  =  3rd
➔ Linear transformations change the
quartile ­ 1st quartile
center and spread of data
◆ Not used that much
◆ Not affected by outliers   ➔ V ar(a + bX) = b2 V ar(X)
➔ Average(a+bX) = a+b[Average(X)]

➔ Effects of Linear Transformations:  Skewness  ◆ Correlation doesn't imply
◆ meannew =  a + b*mean  ➔ measures the degree of asymmetry  causation
◆ mediannew  = a + b*median  exhibited by data  ◆ The correlation of a variable
◆ stdev new = |b| *stdev
◆ negative values= skewed left  with itself is  one
◆ IQRnew = |b| *IQR
◆ positive values= skewed right
➔ Z­score  ­  new data set will have mean  ◆ if  |skewness| < 0.8  =  don't need  Combining Data Sets
0 and variance 1  to transform data  ➔ Mean (Z) =  Z = aX + bY
z = X S X     ➔ Var (Z) =  sz2 = a2 V ar(X) + b2 V ar(Y ) +
Measurements of Association                      2abCov(X, Y )

➔ Covariance
Empirical Rule
◆ Covariance > 0 = larger x,  Portfolios
➔ Only for mound­shaped data
larger y  ➔ Return on a portfolio:
Approx. 95% of data is in the interval:
◆ Covariance < 0 = larger x,
(x 2sx ,  x + 2sx ) = x + / 2sx    smaller y
➔ only use if you just have mean and std.
Rp = wA RA + wB RB
n
dev.   ◆ sxy = 1
∑ (x x)(y y )
n 1 ◆ weights add up to 1
i=1
Chebyshev's Rule   ◆ Units = Units of x   Units of y
◆ return = mean
➔ Use for any set of data and for any  ◆ Covariance is only +, ­, or 0  ◆ risk = std. deviation
number k, greater than 1 (1.2, 1.3, etc.)  (can be any number)
➔ 1 1     ➔ Variance of return of portfolio
2
k ➔ Correlation  ­  measures strength of a
➔ (Ex) for k=2 (2 standard deviations),  linear  relationship between two             sp2 = wA
2 2
sA + wB2 sB2 + 2wA wB (sA,B )
75% of data falls within 2 standard  variables
deviations  covariancexy
◆ r xy = (std.dev. )(std. dev. )   ◆ Risk(variance) is  reduced  when
x y
Detecting Outliers   stocks are  negatively
◆ correlation is between  ­1 and 1
➔ Classic Outlier Detection  correlated. (when there's a
◆ Sign: direction of relationship
◆ doesn't always work   negative covariance)
◆ Absolute value: strength of

◆ |z | =  ||   X S X  ||    ≥ 2   relationship (­0.6 is stronger

➔ The Boxplot Rule  relationship than +0.4)
Probability
◆ Value X is an outlier if:
➔ measure of uncertainty
X<Q1­1.5(Q3­Q1)  ➔ all outcomes have to be  exhaustive
or  (all options possible)  and  mutually
X>Q3+1.5(Q3­Q1)  exhaustive (no 2 outcomes can
occur at the same time)

Probability Rules   ➔ Another way to find joint probability:   ➔ Expected Value Solution =
1. Probabilities range from                   P (A and B) = P (A|B) P (B)
0 ≤ P rob(A) ≤ 1                   P (A and B) = P (B|A) P (A)          E M V = X 1 (P 1 ) + X 2 (P 2 )... + X n (P n )
2. The probabilities of  all outcomes must
add up to 1   2 x 2 Table
3. The complement rule = A happens
or A doesn't happen

P (A) = 1 P (A)
Decision Tree Analysis
P (A) + P (A) = 1   ➔ square = your choice
4. Addition Rule:   ➔ circle = uncertain events
P (A or B) = P (A) + P (B) P (A and B)

Contingency/Joint Table   Discrete Random Variables
➔ To go from contingency to joint table,  ➔ P X (x) = P (X = x)
divide by total # of counts
➔ everything inside table adds up to 1  Expectation

Conditional Probability     ➔ μx = E(x) =  ∑ xi P (X = xi )
➔ P (A|B)
P (A and B) Decision Analysis   ➔ Example:  (2)(0.1) + (3)(0.5) = 1.7
➔ P (A|B) = P (B)   ➔ Maximax solution =  optimistic
➔ Given  event B has happened, what is  approach. Always think the best is  Variance
the probability event A will happen?   going to happen  ➔ σ 2 = E (x2 )  μx2
➔ Look out for: "given", "if"  ➔ Maximin solution =  pessimistic  ➔ Example:
approach.   (2)2 (0.1) + (3)2 (0.5) (1.7)2 = 2.01
Independence
➔ Independent if:   Rules for Expectation and Variance
P (A|B) = P (A)  or
P (B|A) = P (B)   ➔ μs = E (s) =  a  +  bμx
➔ If probabilities change, then A and B
➔ Var(s)=  b2 σ 2
are  dependent

➔ **hard to prove independence, need
Jointly Distributed Discrete Random
to check every value
Variables

➔ Independent if:
Multiplication Rules

➔ If A and B are INDEPENDENT:
P x,y (X = x and Y = y ) = P x (x) P y (y)
P (A and B) = P (A) P (B)

➔ Combining Random Variables   2.) All Successes   Continuous Probability Distributions
◆ If X and Y are independent:                P (all successes) = pn   ➔ the probability that a continuous
3.) At least one success   random variable X will assume any
E (X + Y ) = E (X) + E (Y )                P (at least 1 success) = 1 (1 p)n    particular value is 0
V ar(X + Y ) = V ar(X) + V ar(Y )   4.) At least one failure   ➔ Density Curves
P (at least 1 f ailure) = 1 pn    ◆ Area under the curve is the
◆ If X and Y are dependent:   5.) Binomial Distribution Formula for  probability that any range of
E (X + Y ) = E (X) + E (Y )   x=exact value   values will occur.
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )   ◆ Total area = 1

➔ Covariance:   Uniform Distribution
C ov(X, Y ) = E (XY ) E (X)E(Y )
➔ If X and Y are independent, Cov(X,Y)
= 0

6.) Mean (Expectation)   ◆ X ~ U nif  (a, b)

μ = E (x) = np
7.) Variance and Standard Dev.  Uniform Example
σ 2 = npq
σ = √npq
q = 1 p

Binomial Example

Binomial Distribution
➔ doing something n times
➔ only 2 outcomes: success or failure
➔ trials are independent of each other   (Example cont'd next page)
➔ probability remains constant

1.) All Failures
P (all f ailures) = (1 p)n

X μ
➔ Z = σ/√n

Sums of Normals
➔ Mean for uniform distribution:
(a+b)
E (X) = 2

➔ Variance for unif. distribution:
(b a) 2
V ar(X) = 12   Confidence Intervals  = tells us how good our
estimate is
Normal Distribution   Sums of Normals Example:   **Want high confidence, narrow interval
➔ governed by 2 parameters:   **As confidence increases   , interval also
μ (the mean) and
σ   (the standard  increases
deviation)
➔ X ~ N (μ, σ 2 )    A. One Sample Proportion

Standardize Normal Distribution:
X μ
Z = σ
➔ Z­score is the number of standard
deviations the related X is from its
︿ x number of  successes in sample
mean  ➔ Cov(X,Y) = 0 b/c they're independent  ➔ p= n = sample size
➔ **Z< some value, will just be the
probability found on table  Central Limit Theorem
➔ **Z> some value, will be  ➔ as n increases,
(1­probability) found on table  ➔ x  should get closer to
μ  (population
➔
mean)  ➔ We are thus 95% confident that the true
➔ mean( x) = μ   population proportion is in the interval…
Normal Distribution Example   ︿
➔ variance (x) = σ 2 /n    ➔ We are assuming that n is large, n p  >5 and
2 our sample size is less than 10% of the
➔ X ~ N (μ, σn )   population size.
◆ if population is normally distributed,
n can be any value
◆ any population, n needs to be  ≥ 30

Standard Error and Margin of Error   B. One Sample Mean   * Stata always uses the t­distribution when
For samples n > 30   computing confidence intervals
Confidence Interval:

Hypothesis Testing
➔ Null Hypothesis:
➔ H 0 , a statement of no change and is
➔ If n > 30, we can substitute s for   assumed true until evidence indicates
σ  so that we get:  otherwise.
➔ Alternative Hypothesis:  H a is a
statement that we are trying to find

evidence to support.
Example of Sample Proportion Problem   ➔ Type I error:  reject the null hypothesis
when the null hypothesis is true.
(considered the worst error)
➔ Type II error:  do not reject the null
hypothesis when the alternative
hypothesis is true.

Example of Type I and Type II errors

Determining Sample Size
︿ ︿
(1.96)2 p(1 p)
n = e2

︿
➔ If given a confidence interval,  p  is  For samples n < 30
the middle number of the interval
➔ No confidence interval; use worst
case scenario
︿
◆ p  =0.5
T Distribution used when:
➔ σ is not known, n < 30, and data is
Methods of Hypothesis Testing
normally distributed  1. Confidence Intervals **
2. Test statistic
3. P­values **
➔ C.I and P­values always safe to do
because don’t need to worry about
size of n (can be bigger or smaller
than 30)

One Sample Hypothesis Tests
1. Confidence Interval (can be
used only for  two­sided  tests)

4. P­Values
➔ a number between 0 and 1
➔ the larger the p­value, the more
consistent the data is with the null
➔ the smaller the p­value, the more
consistent the data is with the
2. Test Statistic Approach  alternative

(Population Mean)  ➔ ** If P is low (less than 0.05),
3. Test Statistic Approach (Population
H 0 must go ­ reject the null
Proportion)
hypothesis

Two Sample Hypothesis Tests   ➔ Test Statistic for Two Proportions  2. Comparing Two Means (large
1. Comparing Two Proportions  independent samples n>30)
(Independent Groups)
➔ Calculate Confidence Interval   ➔ Calculating Confidence Interval

➔ Test Statistic for Two Means

Matched Pairs
➔ Two samples are DEPENDENT
Example:

︿
➔ Interpretation of slope ­  for each  ➔ corr (Y , e) = 0
additional x value (e.x. mile on
odometer), the y value  decreases/  A Measure of Fit:  R2
increases  by an average of  b1 value
➔ Interpretation of y­intercept ­  plug in
︿
0 for x and the value you get for  y  is
the y­intercept (e.x.
y=3.25­0.0614xSkippedClass, a
student who skips no classes has a
gpa of 3.25.)
➔ ** danger of extrapolation ­  if an x
value is outside of our data set, we

can't confidently predict the fitted y  ➔ Good fit: if SSR is big, SEE is small

value  ➔ SST=SSR, perfect fit
Simple Linear Regression
➔ R2 : coefficient of determination
➔ used to predict the value of one
Properties of the Residuals and Fitted  2
R = SSR = 1 SSE
variable (dependent variable) on the  SST SST
basis of other variables (independent  Values  ➔ R is between 0 and 1, the closer  R2
2

variables)    1. Mean of the residuals = 0; Sum of  is to 1, the better the fit

︿ the residuals = 0
➔ Y = b0 + b1 X   ➔ Interpretation of  R2 :  (e.x. 65% of the
︿ 2. Mean of original values is the same  variation in the selling price is explained by
➔ Residual:  e = Y Y f itted   ︿
as mean of fitted values  Y = Y       the variation in odometer reading. The rest
➔ Fitting error:   35% remains unexplained by this model)
︿
ei = Y i Y i = Y i b0 bi X i    ➔ ** R2 doesn’t indicate whether model
◆ e is the part of Y not related  is adequate**
to X  ➔ As you add more X’s to model,  R2
➔ Values of  b0 and  b1 which minimize  goes up
the residual sum of squares are:   ➔ Guide to finding SSR, SSE, SST
sy
(slope)  b1 = r s
x
b0 = Y b1 X   3.
4. Correlation Matrix

Assumptions of Simple Linear Regression  Example of Prediction Intervals:   Regression Hypothesis Testing
1. We model the AVERAGE of something  *always a two­sided test
rather than something itself  ➔ want to test whether slope ( β 1 ) is
needed in our model
2.   ➔ H 0 :  β 1  = 0  (don’t need x)
H a  :  β 1 =/   0  (need x)

➔ Need X in the model if:
a. 0 isn’t in the confidence
interval
Standard Errors for  b1 and b0   b. t > 1.96
➔ standard errors   when noise     c. P­value < 0.05
➔ sb0 amount of uncertainty in our
estimate of  β 0  (small s good, large s  Test Statistic for Slope/Y­intercept
bad)  ➔ can only be used if n>30
➔ sb1 amount of uncertainty in our
➔ if n < 30, use p­values
estimate of  β 1

◆ As  ε (noise) gets bigger, it’s
harder to find the line

Confidence Intervals for  b1 and b0
Estimating  S e
2 ➔
➔ S e = SSEn 2
2
➔ S e is our estimate of  σ 2
➔

➔ S e = S e2 is our estimate of  σ
➔ 95% of the Y values should lie within  ➔
+
the interval  b0 + b1 X  1.96S e
➔
➔ n small → bad
se big → bad

s2x small→ bad (wants x’s spread out for
better guess)

Multiple Regression
➔
➔ Variable Importance:
◆ higher t­value, lower p­value =
variable is more important
◆ lower t­value, higher p­value =
variable is less important (or not
Interaction Terms
needed)
➔ allow the slopes to change

➔ interaction between 2 or more x
Adjusted R­squared    variables that will affect the Y variable
➔ k = # of X’s
Modeling Regression   How to Create Dummy Variables (Nominal
Backward Stepwise Regression   Variables)
1. Start will all variables in the model   ➔ If C is the number of categories, create
2. at each step, delete the least important  (C­1) dummy variables for describing
➔ Adj. R­squared will   as you add junk x  variable based on largest p­value above  the variable
variables  0.05  ➔ One category is always the
➔ Adj. R­squared will only   if the x you  3. stop when you can’t delete anymore
“baseline”, which is included in the
add in is very useful  ➔ Will see Adj. R­squared   and Se
intercept
➔ **want Adj. R­squared to go up and Se
low for better model  Dummy Variables
➔ An indicator variable that takes on a
The Overall F Test   value of 0 or 1, allow intercepts to
change

➔ Always want to reject F test (reject

null hypothesis)
Recoding Dummy Variables
➔ Look at p­value (if < 0.05, reject null)
Example: How many hockey sticks sold in
➔ H 0 :  β 1 = β 2 = β 3 ... = β k = 0   (don’t
the summer (original equation)
need any X’s)        hockey = 100 + 10W tr 20Spr + 30F all
H a  :  β 1 = β 2 = β 3 ... = β k =/ 0   (need at    Write equation for how many hockey sticks
least 1 X)  sold in the winter
➔ If no x variables needed, then SSR=0        hockey = 110 + 20F all 30Spri 10Summer
and SST=SSE  ➔ **always need to get same exact
values from the original equation

Regression Diagnostics             so that we can compare models.    ◆ Homoskedastic:  band around the
Standardize Residuals             Can’t compare models if you take log  values
of Y.   ◆ Heteroskedastic:  as x goes up,
◆ Transformations cheatsheet  the noise goes up (no more band,
fan­shaped)
Check Model Assumptions  ◆ If heteroskedastic, fix it by
➔ Plot residuals versus Yhat  logging the Y variable
◆ If heteroskedastic, fix it by
making standard errors robust

➔ Multicollinearity
◆ when x variables are highly
correlated with each other.
◆ ovtest: a significant test  ◆ R2 > 0.9
statistic indicates that  ◆ pairwise correlation > 0.9
➔ Outliers   polynomial terms should be  ◆ correlate all x variables, include
◆ Regression likes to move  added  y variable, drop the x variable
towards outliers (shows up  ◆ H 0 :  data  = no transf ormation   that is less correlated to y
as  R2 being really high)               H a  :  data  =/ no transf ormation
◆ want to remove outlier that is  Summary of Regression Output
extreme in both x and y
➔ Nonlinearity (ovtest)
◆ Plotting residuals vs. fitted
values will show a
relationship if data is  ➔ Normality (sktest)
nonlinear ( R2 also high)  ◆ H 0 :  data  = normality
H a  :  data  =/ normality
◆ don’t want to reject the null
hypothesis. P­value should
be big

◆ Log transformation ­
accommodates non­linearity,
reduces right skewness in the Y,  ➔ Homoskedasticity (hettest)
eliminates heteroskedasticity  ◆ H 0 :  data  = homoskedasticity
◆ **Only take log of X variable  ◆ H a : data  =/ homoskedasticity