Class Notes (807,350)
Canada (492,715)
SOAN 3120 (35)

Lectures-Part 1.docx

25 Pages
Unlock Document

University of Guelph
Sociology and Anthropology
SOAN 3120
Michelle Dumas

Week 1 Part 1 Sept.10.2013 RESEARCH: Why conduct research? To gather information to answer questions Methods: statistics is not always useful in qualitative research Analysis: collect data to analyze it, can use software but more interpretive  Theory: set up research with a literature review, what has been asked more, where the research fits ­Theory to hypothesis, to observations (data), to empirical generalizations General Concepts and Terminology Variable: independent (the cause, causing something) or Dependent (effect, consequence) Definitions: Conceptual: known dictionary definition, very descriptive Operational: how you are going to measure that variable Statistics: Descriptive: giving a description to what the numbers are telling us  Inferential: make empirical generalizations, how well does the sample reflect the population as a whole and  how we estimate this Variables: Quantitative Quantitative: numerical values, units of measure  Counts: like the number of individuals in the class, non negative Amounts: usually non negative, but don’t have to be whole numbers, also called ratio variables (Ratio: GDP  per capita) Relative Frequencies: proportions, percent, rates E.g. infant mortality: 1,000 x number of children dying in first year                    Number of live births Interval Scales: arbitrary unit of measurement, arbitrary 0 scale, i.e. 0 degrees doesn’t represent no heat Variables: Categorical Qualitative or Nominal Variables: can only fit in one category, exclusive, ethnicity, race, gender, no intrinsic  order, one is not better then the other Ordinal Variables: categories that have natural order (rate satisfaction level on a scale of 1 to 10) Aspects of Statistics Data Analysis: patterns, visual representations, graphs, charts, sometimes not feasible, looking at patterns  in data and being able to describe that Data Production: trying to collect data to answer our questions Statistical Inference: what they are expecting to happen, and the rate of error Displaying Distributions: Categorical Data Frequency counts: percentage, what category more or less people fall into  Categorical Data Quantitative Distribution: tells us what value the variable takes on Histogram: by using bars who height represents the value of the variable, touch each other to show it is a  histogram and not a bar graph, continuous  ­don’t put too much data in a chart, collapse data to make it easier to look at ­how many bins should there be? Not too few (less meaningful because they are too grouped together), not  too many (will be difficult to interpret) Rule: number of bins ­ 2 squareroot n When n exceeds 100: number of bins – 2 squareroot 193=28 Stemplots: separate data to look at it in two parts, separate into a stem and leaf 1. Into “stem” and “leaf” 2. List Stems 3. Order Interpretation Pattern: Centre: ­Midpoint, where the centre is, value of half the observation, median, can also be mean depending on the  data Spread: ­Smallest and Largest, amount of variability in the data Shape: ­described in symmetry or units Shape of Distribution Symmetric: normal distribution, left and right sides are pretty much the same, don’t have to be perfect,  close to the same on each side Skewed Right: tail is longer on the ride side, positively skewed, observation is mostly on the left side Skewed Left: tail is longer on the left side, negatively skewed, observation is mostly on the right side Outlier: when you have information that is away from the main point of data, can be a mistake, enter  information wrong, it is important to explain why we have outliers, sometimes discard depending on data Time Plots Time­series datasets: most common with crime then anything else, intervals overtime, looking at change  overtime ­time is always on the horizontal scale, what you are measuring on the vertical scale Mapping time plot Reading time plot ­Trend: is there a trend, a pattern over time  ­Deviations: deviations from an overall pattern Week 1 Part 2 Sept.12.2013 Measures of Central Tendency ­Types of questions: quantitative, categorical variables ­Measures of centre: looking at the centres, the average of their mean ­Measures of spread: how spread out from the centre or the average The Mode ­calculations: the highest frequency in a distribution, easiest, no calculations, what occurs the most ­nominal variables ­problems: if you have a distribution with too many, because it loses its meaning, may not be central to the  distribution, may not even be relevant  ­several modes ­centrality Measure Centre: The Mean ­most common ­not always the best because it is not always in the centre ­defined (for n observations) ­x1, x2, ….. xn mean of x  =        sum of x’s           # of observations Week 1 Part 2 Sept.12.2013 Equation:  x bar = x1+x2+……xn                n ­upper case (“sigma”) = 1 sigma xi    n sigma=sum i= multiple x’s  Problems with the Mean  Outliers: can skew, can change the mean Stemplot: stemplot pulls the mean towards the skew Bimodal: more than one mode, can skew data ­omitting outlier(s) X bar (­bolivia) = 373               12          = 31.08 ­change: taking out an outlier, can change the average, may be important to leave or take out outliers from  data The Median (M or Md) Week 1 Part 2 Sept.12.2013 ­defined: exactly in the centre of the distribution, half the data is above and half the data is below the  median  ­how to find: sort from smallest to largest ­median= (n+1)       2 ­if n is an odd number: integer ­if n is an even number: fraction (average) Mean vs. Median ­symmetric distribution: mean and median are roughly the same numbers or close to the same number ­skewed distributions: mean and median are pulled in the direction of the skew (mean will be pulled towards  the median) ­Example: positive, the median is bigger then the median, removing the largest value affect the mean more  then the median ­mean is more affected by outliers then the median ­Symmetric (normal): x bar= M=Mo Measuring Spread ­Interest: variability, how far away is the data from the measures of central tendency, typically through  standard deviation ­Range: UL­LL: upper limit subtracting the lower limit Example: 66­13=53 ­Problems: can be affected by outliers, only take into consideration the biggest and smallest numbers The Quartiles ­Quartiles: denoted with Qx Week 1 Part 2 Sept.12.2013 ­Q1: first quartile (1/4) ­M (Q2): (1/2) ­Q3: third quartile (3/4) ­Finding Q1 and Q3 ­Order Observations ­Median use (n*≈n/2) ­Position: (n+1)/2 Five­number Summary Consists: ­smallest observation, first quartile, the median, the third quartile, and the largest observation                Min      Q1      M      Q3      Max Week 1 Part 2 Sept.12.2013 Making a Boxplot A) Lay off scale to accommodate B) Draw Central box between Q1 and Q3 C) Draw median in central box D) Draw “whisker” from each extreme ­Outliers Rule:  Week 1 Part 2 Sept.12.2013 1) calculate inter­quartile range, IQR=Q3­Q1 2) measure off 1.5 x IQR 3) fences 4) whiskers: adjacent values Identify Outliers Standard Deviation ­measure of spread: how far the data is from the mean, how observations are spread out, standard  deviation is the most commonly used  ­variance, s2 (exponent): average squared distance of the observation from the mean Standard Deviation: Properties Week 1 Part 2 Sept.12.2013 Variance: squared deviations, is the same in unit however it is measured in the same in its variance and  standard deviation squared deviations Important Properties: s, s is only used when the mean is in the centre of the distribution, natural measure of spread when it is a  normal distribution x bar centre No spread (s=0), otherwise (s>0), because all of the observations are the same  Outliers: can be strongly influenced by outliers, have to decide whether to take it out or not Note: numerical summaries: doesn’t full describe the shape of the observation, important to plot it to see  the observation ­interpretation: probabilities of x occurring, probability of something happening based on what we already  know ­normal curve ­index of variability: when the standard deviation increases it means the bigger the variability ­compare one distribution to another Degrees of Freedom ­Variance: sum of squared deviations n­1 ­degrees of freedom: how much freedom we have in manipulating data so that we can get good estimates ­mean­deviations: constraints, the sum of 0 ­last mean­deviation score: Week 2­Part 1 Sept.17.2013 Exploring Quantitative Data ­plot your data: make a graph ­pattern: departures ­calculate: shape, centre, and spread, calculate numerical studies ­large numbers Density Curves ­histogram: put into bins, plot it out ­alternative: scale (area) total area= 
More Less

Related notes for SOAN 3120

Log In


Don't have an account?

Join OneClass

Access over 10 million pages of study
documents for 1.3 million courses.

Sign up

Join to view


By registering, I agree to the Terms and Privacy Policies
Already have an account?
Just a few more details

So we can recommend you notes for your school.

Reset Password

Please enter below the email address you registered with and we will send you a link to reset your password.

Add your courses

Get notes from the top students in your class.