Study Guide: Post–Midterm #2 Keely Henesey Chapter 6: Sampling & Sampling Distributions 6.4: Sampling Distributions of Sample Variances Sample Variance:  2 1 2 s = n−1 ∑ (xi−́x) Chi­Square Distribution of Sample & Population Variance: provides link2between sample and population2variances; given a SRS  of  n  observations from a normally distributed population with knowσ va and resulting sample varisnce  2 (n−1)s 2 ∑ (xi−́x)2 1 2 xi−́x 2 χn−1= 2 = 2 = 2∑ (xi−x ) ∑ ( ) σ σ σ σ • χ2  Distributions: take only positive values, skewed to right, specified by degrees of )reedom ( 2 2 E χ =v Var χ =2v o As degrees of freedom increase, curve becomes more symmetric and begins to look like a Normal curve Sampling Distribution of the Sample Variance:  22 2 2 2 2 σ ) E s =σ E [s = (n−1) • If Population is Normally Distributed… use chi­square distribution to make inferences about the population variance 2 2 (n−1 s) 2 χn−1= 2 isdistributedas χ distributionwith n−1 df σ • Inferences based on sample variance AREN’T robust with respect to the assumption of normality • NOTE: Inferences based on sample means are robust with respect to the assumption of normality o They are not substantially affected by departures from a normal distribution (CLT can be used) Chapter 7: Single Population Estimation 7.5: C.I. Estimation for the Variance of a Normal Distribution 2 100(1−α)  Confidence Interval fσr  : 2 2 (n−1 s χ 2 )= α n−12 n−1 n−1,α 2 2 2 2 α χn−1,1−istheNumber forWhich…P χ ( n−1< χn−1,1−)= 2 2 2 Study Guide: Post–Midterm #2 Keely Henesey • Derivation of Confidence Interval… (n−1 s) 2 1 σ2 1 χ2 α< σ 0 2 >χ n−1,α P χ n−1> 2 σ0 ( σ 0 ) H 0σ ≤σ 0 2 2 H 0σ =σ 0 2 2 2 n−1 s) 2 2 2 (n−1)s ¿ H 0σ χ α 2∙P χ n−1< 2 σ0 ∣ ∣−1,2 ( σ0 ) Chapter 8: Additional Estimation Topics 8.1: C.I. Estimation of the Difference Between Two Normal Population Means—Dependent Samples Samples are Dependent If… the values in one are influenced by the values in the other • Matched Pairs: apart from factor under study, members of pairs should resemble one another as closely as possible • The same individual or object is tested twice (repeated measurements) Mean & Variance of the Differences Between Two Independent Samples: (if independent, covariance is 0) 2 2 ́ ́ ́ 2 ́ ́ ́ ́ σ x σ y d=E [X−Y ]=́x−́ y sd=Var [X−Y =Var [X]+Var Y ]= n + n x y 100 (1−α )  Confidence Interval for the Difference Between Means (Dependent Samples): μ =μ −μ • Population Mean for the Differences d▯ x y d =x −y • Differences for Each of the   Pairs  ▯i i i 100(1−α)  C.I. for Difference  Equivalently… Margin of Error (ME) Study Guide: Post–Midterm #2 Keely Henesey Between Means, Dependent Samples ́ sd ́ sd d±t n−1,α√2n d±ME ME=t n−1,α/√n 8.2: C.I. Estimation of the Difference Between Two Normal Population Means—Independent Samples 100(1−α)  Confidence Interval for the Difference Between Means (Independent Samples): 100(1−α)  C.I. for Difference  Equivalently… Margin of Error (ME) Between Means, Independent Samples 2 2 2 2 Known Population  x−́ y)±z σx+ σy (x−́y)±ME ME=z σx+ σ y Variances α/√ nx ny α/√ nx ny Unknown Population  2 2 2 2 Variances, Assumed to  x−́ y)±t sp+ sp (x−́y)±ME ME=t sp+ sp Be Equal nx+y −2,√ nx ny nx+y −2,√/nx ny Unknown Population  s2 s2 s2 s2 Variances, Assumed to  x−́ y)±tv,α /2 x+ y (x−́y)±ME ME=t v,α/2 x+ y Be Unequal √ nx ny √ nx ny Pooled Sample Variance( p : use the pooled estimate whenever assuming the two samples have the same variance 2 2 s = (nx−1 ) x ( y1 s) y p nx+n y2 Degrees of Freedom For Two Independent Samples with Unequal Variances: 2 sx sx [(n)( )n ] x x v= 2 2 2 2 sx /(nx−1)+ sy ( ny−1) (nx (ny • If the sample sizes are (qxal yn ) , then degrees of freedom reduces to the following… 2 2 sx s y v=(n−1) 1[ 2( (s)+ s2 )] y x 8.3: C.I. Estimation of the Difference Between Two Population Proportions (Large Samples) 100(1−α)  Confidence Interval for the Difference Between Population Proportions (Large Samples): • Two Independent Samples • Generally—for each sample, 40 ] 100(1−α)  C.I. for Difference Between Equivalently… Margin of Error (ME) Proportions (Large, Independent Samples) Study Guide: Post–Midterm #2 Keely Henesey p 1−̂ p p 1−̂ p p 1−̂ p p 1−̂ p ( xp ±y) α/2 x( x)+ y( y) ( x̂p y)ME ME=z α/2 x( x)+ y( y) √ nx ny √ nx ny Chapter 10: Additional Hypothesis Testing Topics 10.1: Tests of the Difference Between Two Normal Population Means—Dependent Samples Tests of the Difference Between Population Means (Matched Pairs):  Null Hypothesis ( Alternative Hypothesis ( H ) H ) Reject H 0  if… p­Value 0 1 H 0μ xμ =y d−0 d−0 ¿ H1:μx−μ y0 s / n >tn−1,α P ( n−1 s / n ) H :μ −μ ≤0 d √ d √ 0 x y H 0μ xμ =y d−0 d−0 ¿ H1:μx−μ y0 ∣tn−1, α/2 2∙P t n−1 d−0 sd/√n ( sd/√n ) 10.2: Tests of the Difference Between Two Normal Population Means—Independent Samples Tests of the Difference Between Population Means (Independent Samples, Known Variances):  Null Hypothesis ( Alternative Hypothesis ( H H Reject H 0  if… p­Value 0 ) 1 ) H 0μ xμ =y x−́y x−y ́ 2 2 >zα P z> ¿ H1:μx−μ y0 σx σy σ2x σ2y + ( ) n +n H 0μ xμ ≤y √ nx ny √ x y H :μ −μ =0 x−́ y x−y ́ 0 x y ∣α /2 2∙P z< 2 2 H 0μ xμ =y H1:μx−μ y0 σx+ σy σ x+σ y √ nx ny ( ) √nx n y Tests of the Difference Between Population Means (Independent Samples, Variances Unknown & Equal):  Study Guide: Post–Midterm #2 Keely Henesey • Use Pooled Variance Estimator Null Hypothesis ( Alternative Hypothesis ( H 0 ) H 1 ) Reject H 0  if… p­Value H 0μ xμ =y x−́y >t P t > x−ý H :μ −μ >0 s2 s2 x +y −2,α nx+y −2 2 2 ¿ 1 x y p+ p ( sp+ sp) H 0μ xμ ≤y √ nx ny √ nx ny H 0μ xμ =y x−́ y ∣n−1,α /2 2∙P tnx+y −2 2 2 H 0μ xμ =y H 1μ xμ ≠y sp sp sp sp n + n ( n + n ) √ x y √ x y Tests of the Difference Between Population Means (Independent Samples, Variances Unknown & Not Equal):  Null Hypothesis ( Alternative Hypothesis ( Reject H  if… p­Value H 0 ) H 1 ) 0 H 0μ xμ =y x−́y >tv,α P tv> x−ý ¿ H1:μx−μ y0 s2 s2 s2 s x+ y ( ) x+ y H 0μ xμ ≤y √ nx ny √n x n y H :μ −μ =0 ́ ́ 0 x y x−́y t 2∙P t < x−ý H :μ −μ =0 H :μ −μ ≠0 2 2 ∣ v,α/2 v 2 2 0 x y 1 x y x +sy sx+ sy √n x n y ( ) √ nx n y • Use This Formula to Compute Degrees of Freedom… 2 sx sx [(n)( ) n ] x x v= s2 2 s2 2 x /(nx−1 ) y /(ny−1) (nx (ny 10.3: Tests of the Difference Between Two Population Proportions (Large Samples) Tests of the Difference Between Population Means (Large, Independent Samples):  Study Guide: Post–Midterm #2 Keely Henesey Null Hypothesis ( Alternative Hypothesis ( H ) H ) Reject H 0  if… p­Value 0 1 H 0P −x =0y ̂px−̂py px−p̂y >z α P z> ¿ H 1P −x >0y p 0(p ̂0) p0(−p ̂0) p0(−̂ p0) p0(−̂ p0) H :P −P ≤0 n + n ( n + n ) 0 x y √ x y √ x y H 0P −x =0y p x̂ py px−p̂y ∣ α/2 2∙ P z< 0 x y 1 x y p 0−p ̂ 0+ p 0(p ̂0) p0(−̂ p0)+ p0(−̂ p 0 √ nx ny ( √ n x n y ) • When Assuming Population Proportions to Be Equal… use the following estimate of the common proportion n p +n ̂p ̂p0= x x y y nx+n y 10.4: Tests of the Equality of the Variances Between Two Normally Distributed Populations Time Series: set of measurements of a quantity of interest ordered over time (sequence of observations is important) Chapter 11: Simple Regression 11.1: Overview of Linear Models Least Squares Regression Line Based on Sample Data:  b = Cov x , y)=r sy 1 s2 sx y=b 0b x1 x b0=́y−b ́1x • b1→  Slope of the Line (change i for every unit change i)  • b →  Y­Intercept 0 11.2: Linear Regression Model Linear Regression Population Model Assumptions:  y =β +β x +ε i 0 1 i i Study Guide: Post–Midterm #2 Keely Henesey • Y s→  Linear functions of   plus a random error term • X s→  Either fixed numbers or realizations of random varia that are independent of the error terms • ε i  Model Error (random variables with a mean  and a varianceσ2 ) o Not Correlated With One Another…  E [ i j]  for alli≠ j Predicted Value  Y  on the Regression Line:  y =b +b x +e e =Observed−Predicted= y −̂ y =y − b(+b x ) i 0 1 i i i i i i 0 1 i • e i  Residual (combined measure of the model error and errors that result0be and  b1  are sample  results) 11.3: Least Squares Coefficient Estimators Least Squares Procedure: obtains estimates of linear equation coeffici and  b  in the LSRM by minimizing the SSE 0 1 2 2 2 2 SSE= ∑ e i ∑ (yi−̂yi) ∑ (yi− ( 0b 1 i)= ∑ [yi− (y+b 1(−i x))] •  Error Sum of Squares (SSE) : the sum of the squared residuals Least Squares Derived Coefficient Estimators: b = Cov X,Y )=r sY b =́ y−b ́x 1 s sX 0 1 X • LSRL always goes through the mean (y,x) • Typically—LSRL should only be used over the range of  values we have data for as the relationship may not be linear  outside of this region 11.4: The Explanatory Power of a Linear Regression Equation Sum of Squares Total (SST): total variability in a regression analysis Sum of Squares Regression (SSR): amount of variability explained by the slope of the regression equation Sum of Squares Error (SSE): variability resulting from the random or unexplained deviation of points from the regression line  (unexplained error due to factors not included in equation; gives uncertainty associated with the regression model) Analysis of Variance: SST=SSR+SSE 2 2 SST= ∑ (yi−́y)=(n−1)s y SSR= ∑ (yi−́y)=b 1∑ (xi−x́)=b 1(n−1 s x SSE= ∑ (y − ( +b x ))= ∑ (y −y =) ∑ e =(n−1) s(−b s 2 2) i 0 1 i i i i y 1 x Coefficient of Determination R 2 ): measure of the percent of the total variability that is explained by the regression model Study Guide: Post–Midterm #2 Keely Henesey 2 SSR SSE R = SST =1− SST • Fit of regression equation to the data is improved as SSR increases and SSE decreases 2 2 • Caution When Making General Interpretations of R … a high  R  value can result from either a small SSE (good),  a large SST (bad), or both o If two models have the same SSE (the same goodness of fit) one cannot claim that one model fits the data better than  the other model even if one model has a higher  value R Link Between Correlation ( r ) & Coefficient of Determination R 2 ): coefficient of determination for simple regression is  equal to the simple correlation squared R =r 2 Estimation for the Variance of the Population Model Error i ): unbiased estimator that uses SSE 2 σ =s =2 SSE = ∑ ei e n−2 n−2 11.5: Statistical Inference—Hypothesis Tests & Confidence Intervals Sampling Distribution of the Least Squares Coefficient Estimator: if the standard least squares assumptions hol is an  1 unbiased estimator for 1  (the smaller the variance f1r , the better the regression model) Population Variance Unbiased Sample Variance  Estimator σ 2 σ2 s2 s 2 σb= 2= 2 sb= e = e 1 ∑ (xi−x́ ) (n−1)s x 1 ∑ (xi−x́)2 (n−1)s x b • Greater Variance for  1  is Caused By… 2 o Large  s e  ▯  Greater distance of the points from the regression line increase variance o Small  n    ▯  Smaller sample sizes increase variance 2 o Small  sx  ▯  Smaller deviations of Xhe  values from the mean increase variance Basis for Inference About the Population Regression Slope: if the standard regression assumptions hold and it can also be assumed  that the errors,i , are normally distributed then Studett’ approximation can be used b1−β 1
