SOAN 3120 Notes.docx

55 Pages
Unlock Document

Sociology and Anthropology
SOAN 3120
Michelle Dumas

SOAN 3120 September 5, 2013 September 10, 2013 Why conduct research? ­ Explore social issues ­ Conduct research to gather information to answer questions Methods ­ Statistics (sometimes qualitative research) Analysis ­ Qualitative research ­ Ask questions and then figure out how to interpret the data ­ Quantitative data uses statistical means  Theory ­ Based on literature we read ­ Literature review ­ Setting things up in theory that we already know ­ Guide us on how we ask the questions and what we are looking for ­ Where does our research fit into this level? Theory ▯ Hypothesis ▯ Observations (data either quantitative or qualitative) ▯ Empirical generalizations Variable ­ Independent: the cause or causing something ­ Dependent: the effect or result or consequence of the cause of the independent variable September 10, 2013 ­ Apply percentages or contingency tables (need to know which is the independent and the dependent) Definitions: how you define your variables  ­ Conceptual: known dictionary definition (very descriptive in words) ­ Operational: how you are going to measure that variable (i.e. class­ how many groups of classes are you  going to have) Statistics ­ Descriptive: we are giving a description to what the numbers are telling us (we are describing our data  from the sample) ­ Inferential: you are making empirical generalization (using the sample and how it reflects the population as  a whole) Quantitative Quantitative: variables take a nominal value (usually recorded in units of measurements) Counts: number of individuals registered in a class or how many people are registered at the University of  Guelph (they are whole numbers) Amounts: looking at things that have a ratio i.e. GDP per capita (are non negative and they do not have to  be whole numbers) Relative frequencies: proportions of something (percent’s and rates that have a minimum and maximum  value) i.e. crime rates like infant mortality  Interval scales: arbitrary unit of measurement and arbitrary zero point i.e. degrees Celsius  Categorical September 10, 2013 Qualitative or nominal variable: categories that usually are mutually exclusive they only fit into one category.  You have to fit into one category so you can fit in another or none of the above. No intrinsic order and one is  not better than the other  i.e. region or ethnicity and race Ordinal: have natural order i.e. rate our satisfaction  Question: Variables  If we ask people to report their “weight”, would that variable be considered a categorical or quantitative  variable? We ask people whether their weight it underweight, normal, overweight, or obese. Is this variable  categorical or quantitative? Aspects of Statistics Data analysis: you use visual representation like graphs (patterns in the data, what does it look like?) ­ what is happening and being able to describe it ­ picking out patters which you don’t expect  ­ Ex. gender, income, education or gender and crime. Data production: we are trying to produce data to answer our important question (sometimes replicating the  data) Statistical inference: important in doing stats Displaying Distributions: Categorical data ­ Frequency counts: percentage September 10, 2013 ­ Example on slide Categorical data ­ Example on slides ­ Will be represented in bar graphs or pie charts (on slides) ­ bar graph is able to see differences more easily as opposed to pie charts Quantitative Distribution: what values the variable takes on and how often it takes on those values i.e. peoples weight  and age Histogram: shows distribution of quantitative value with bar heights (bars touch each other to show its  continuous and the width has meaning) Stem plot: separating the data to look at it in terms of two parts (splitting it into a stem and leaf) Examples on slides Number of Bins (example on slides) How many should there be? ­ Too many: histogram will appear very rough and hard to interpret  ­ Too few: too many of the individuals will be in to few bins and become less meaningful in interpretation  September 10, 2013 Rule ­ number of bins ~2√n number of bins is two over the square root of n (if n is not over 100) When n exceeds 100 2√193= 28 Interpretation Pattern: what is the data telling us  Centre: where the centre or the midpoint is (value with roughly have the data or median) ­ midpoint Spread: amount of variability in the data (looking at the smallest and largest value) ­ smallest and largest Shape: describe it in terms or symmetry  Shape of distribution ­ Symmetric: left and right side are a mirror image or as close as you can get ­ Skewed right: a tail that is longer to the other if the tail is longer on the right side, contains half the  observation on the right side (positively skewed) September 10, 2013 ­ Skewed left: a tail is longer on the left side and a large proportion of the data is on the right side (is  negatively skewed) ­ Outliers: information that is away from the other part of the distribution or depart from the general data  (could be a mistake) *example on slide Looking at the following histogram. How many baseball players report a salary of less than $1,441,000? C)  220 Stem plots Stem­and­leaf displays  ­ historgram in a different way Invention  ­ invented by John Tucky  ­ made it a histogram using historical data itself and bands together to for bars of the historgram 1. into “stem” and “leaf” (example on slides) 2. list stems 3. order Time plots (example on slides) Time series datasets: we want to plot due to time and we are looking at things  ­ More common for crime September 10, 2013 Mapping time plot: Time goes on the horizontal scale and the variable goes on the vertical scale so you can  see how the variable changes over time (long time upward or downward movement) Reading time plot ­ trends: i.e. climate and how the temperature changes ­ deviations: what happened in a particular year How many times have you accessed the internet this week? Categorical using bar graph 09/10/2013 Measures of Central Tendency  ­looking at things within the centre of distribution Types of questions ­ quantitative Measures of centre ­ where the centre of the distribution is (good for comparing them) Measures of speed ­ how the data is spread out from that centre ­ looking at questions like is there greater variation  The Mode: value with the highest frequency in the distribution  Calculations ­ good for categorical and nominal  *Example (on slide)* Problems ­ can be a problem f you have a distribution with too many  Several modes ­ there can be several modes 09/10/2013 Centrality ­ may not be central to the distribution or relevant  Measure Centre: The Mean ­ the mean always isn’t in the centre Most common ­ the most common number in the set Defined: (for n observations) * formula and example on slides • Upper­case (“sigma”) Σ Explained ­ looking at what the average is *Example (on slides)* Problems with the Mean Outliers ­ outlier can skew or change the mean (mean is greatly influenced by outlying observations) Stemplot­ example on slides Bimodal ­ where there are two areas or more that could be the most frequent (can skew the mean) 09/10/2013 The Mean Omitting outliers ­ is it important to remove it from what you are looking at  The Median(M or Md) Defined ­ the data with the value that has half of them below and above it (centre of the distribution) How to find ­ sort or order the observations from largest to smallest and from there you calculate the potion of n+1/2 *Example on slides* If n is an odd number: integer If n is an even number: fraction (average) ­ typically you will have to find an average between the two  *example on slides Be careful ­ is the position of the median not the median itself 09/10/2013 Mean vs. Median Symmetric distribution ­ the mean and the median will be roughly the same number  Skewed distributions ­ the mean and median are going to be pulled in the direction of the skew ­the mean will be pulled further in that direction ­ in a positively skewed distribution the mean is larger than the median  *Example on slides* Important point  ­ sometimes you need to take out the bigger numbers (outliers) to see what is going on, which one has  more of a change the mean or median  Measuring the Spread Interest ­ we are interested in the variability and the variability of the data in the spread ­ how far is the data from the measures of central tendency Range: UL­LL ­ the difference between the smallest and largest number (upper limit subtracting the lower limit) 09/10/2013 *Example of slides* Problems ­ the range can be affected by outliers  Measuring Spread: The Quartiles How is our data divided into quarters (25% increments)  Quartiles: denoted with Qx Q1: first quartile ¼  ­ the first 25% of observations below it M(q2): ½ ­ half the data below it (median) Q3: third quartile ¾   ­ the point that has 75% of the observations below it Quartiles Finding Q1 and Q3 ­ order the observations from smallest to largest and locate the median ­ use the median to divide the distribution into two equal halves 09/10/2013 Median use (n*≈n/2) Position: (n+1)/2 *Example on slides* Five­number Summary Consists ­ smallest observation (minimum value), first quartile, the median, the third quartile, and the largest  observation Min  Q1  M  Q3  Max Description ­ these five numbers can create a reasonable observation of the centre and spread ­ can summarize the five number and create a boxplot Boxplot *on slides* ­ whiskers  A) Lay off scale to accommodate extremes of data ­ know how far up in your graph you are going to go B) Draw central box between Q1 and Q3 C) Draw median in central box 09/10/2013 D) Draw “whisker” from each extreme ­ best for comparing distributions  Outliers ­ can be taken out of that plot (still denote that outlier) ­ shown individually and labeled  Rule: how to find an outlier *Example on slides* 1) Calculate inter­quartile range, IQR= Q3­Q1 2) Measure off 1.5xIQR 3) Fences ­ observations between these fences are considered outliers 4) Whiskers: adjacent values (before the fence) Standard Deviation *Example and formulas on slides* Measure of spread ­ deviation from the mean (how far an observation is from the mean) ­ average distance of observations from the mean Variance, s2 ­ average square distance of the observations from the mean 09/10/2013 Standard Deviation: properties Variance: squared deviations Important properties ­ s: spread around the mean or average (only used when the mean is used to measure the centre) ­ centre ­ no spread (s=0): everything is equal and there is no deviation, otherwise (s>0): the standard deviation is  larger than zero because we actually have a spread and our observations are different  ­ outliers: we have to make a judgment call to take out outliers Note: numerical summaries: do not fully describe the shape of your distribution and it is important to plot  our data (we can loose what the original distribution looks like) Interpretation: looking at the probability of x occurring (what we expect to happen, also based on the  probability of what we already know) Normal curve Index of variability: when the standard of deviation increases there means there is more variability, less  increments means less variability  Compare one distribution to another *Example on slides* Degrees of Freedom Variance: sum of squared deviation n­1 ­ there is issues in sampling an estimation  09/10/2013 Degrees of freedom ­ how much freedom we have in manipulating data to get good estimates Mean­deviations: constraints  Last mean deviation score *formula on slide* ­ estimating for the population  th September 17 , 2013 Exploring Quantitative Data Plot your data ­ make a graph (so you can see what you need to find) ­ with a normal curve and distribution  Patter: departures ­ outliers (what do they tell us) Calculate: shape, centre, and spread Large numbers ­ so regular that we can describe it as a smooth curve the more cases you have the larger your sample size the more likely you will get a smooth curve Density Curves  (area it is taking up in the place)*Example on slides* Histogram: height of the bars the number of observations in each bin Alternative: scale (area) label the vertical axis telling us the percentage of the data in the corresponding bin  (tells us how man observations are in that area) i.e. pie chart lets us know how many are in that are – we  can do the same for a histogram  Total area= 1.0 Proportion Eg. 42/193= .218 (vertical axis) Density: .218/10= 0.0218 September 17 , 2013 Quantitative continuous data ­ the more data you collect the better you are able to look at it in terms of distribution (better represents the  population) Properties 1) area= 1.0 (total area under a density curve) – breaks down into smaller numbers to take a closer  look at the data 2) Proportions (area under the curve between the two values) – can take chunks to look at but the  proportion between each value will be under one 3) Horizontal axis (density curve never goes below the horizontal axis) Definition: mean, median and standard deviation (map it to your population—is different than normal mean,  median and sd) *Examples on Slides* Median: half value of the variable of the area above it and below it Mean  m: the average of many averages­ balancing point of the density curve (when you have a density  curve you often are using more than one sample—the mean is several means) c and m: x bar is for the sample and u is representing the density curve and normal distribution  Standard Deviation *Example on Slides* Standard deviation s: average distance to the mean  Normal Distributions *Examples on Slides* Theoretical construct: extremely rare to find it in the real world—based on abstract mathematical principles  (nothing fits into the normal distribution perfectly) September 17 , 2013 ­ Called the Gaussian distribution Plays a big role in statistical inference ­ generalizing for the population ­ can we take the result we found and generalize it for the population  Shape: ­ Symmetric, single pieced and bell shaped  ­ represented by m and s ­ normal distribution is represented: N (m,s) The 68­95­99.7 rule: with the normal distribution about 66.7 of your data is going to fall within 1 standard  deviation of the mean (above and below) and 95% of your data is going to fall 2 standard deviations (above  and below) and 99% of your data is going to fall 3 standard deviations (above and below) Standardization *Example on Slides* Units of size s around  m: we can standard the numbers under that normal curve Standardize: change the units (subtracting its mean and dividing by the standard deviation) – can be  standardized even if they are off slightly  Z= c­ m/ s Standardizing is also known as z­scores N (0,1) September 17 , 2013 0 for the mean and 1 for standard deviation  Calculations Why is it helpful to standardize? ­ makes it easier to find areas under the normal distribution  Area ­ these areas have the theoretical construct  Calculations ­ would be extremely daunting  Table N (0,1) ­ only need one table for everything you want to find out (use the one table to standardize all the tables) Two types of problems ­ find areas: under the normal density curve (between two x values, below and x value or above an x value) ­ start with the area and find the corresponding x­values – can give you a proportion Finding Areas *Examples on Slides* Steps in calculation  1. Draw a rough sketch find the mean at eh entre and the x­value you are trying to find  September 17 , 2013 2. Standardize the x­values into z­values according to the equation 3. Look up the z­values in the standard normal table 4. Table gives you areas in the total normal curve in the area to the left 5. If you want to find the area to the right you have to do some subtracting 6. Writing your conclusion in the context of the problem (writing out what you find) Calculations: Finding Variable Values *Example on Slides* ­(you know the area but you want to find the values) Reverse process 1) Draw sketch of density curve showing the mean at the centre and locating the area that you are  given 2) Use standard­normal table to find the z­value corresponding to the area in question 3) Translate standard z­scale to unstandardized x­scale from this formula c= m+Zs Important Tip Draw a picture and  Concluding statement at the end September 19, 2013 Scatterplots and Correlation ­ Relationships between and among variables ­ Look at 2 or more Examples ­ Infant mortality and economic development ­ Men and women, labour force ­ Death penalty Introduction Methods ­ Scatterplots, correlation, and regression ­ Examine the relationship between Quantitative variables Scatterplots graph the relationship between variables Correlation coefficient ­ Measure the degree to which two variables are related Least Squares regression ­ Method for finding the straight line ­ Only used when there is a relationship Explanatory and Response Variables September 19, 2013 Influence (Explanatory or predictor) ­ Used to asses if there is a relationship between two variables ­ To see which variable is the one influencing Independent (explanatory) variable influence/explains/predicts/is the cause of the other variable The Response variable (dependent) is the effect that the independent has  Variables Reality ­ Sometimes there are other factors that play a part in the outcome of many response variables  Overall we want to look at the relationship ­ Sometimes we don’t identify the explanatory and response variables  Scatterplots It’s a form of graph Best to start by looking at the data in a graph Best way to interpret whats going on and to see if there is a relationship  between two variables The explanatory variable is on the x­axis The value of the response variable is on the y axis September 19, 2013 Individual observation (xi yi ­ Locate x value first then y value on the graph Interpretation Look for: ­ Clusters: Distinct clusters of observation in the data? ­ Outliers: A point that is far away from the general pattern of the data—Are there any outliers? ­ Relationship or association: Est. by looking at the scatterplot ­ Direction: As you move larger on the x axis you move larger on the y axis **Positive If large variables of on variable move with small variables of other variable (large values of one variable  occur with small values of the other variable) **Negative Form of the relationship o If it is in a straight line: linear relationship o If it is curved: curved relationship Strength o The relationship is strong if the points are close o The relationship is weak if there is a great deal of variation  September 19, 2013 Correlation ­ Wouldn’t calculate the correlation unless you know that there is a linear relationship between two variables  Sx and sy ­ The standard deviation of x and y Xi­ x bar = the mean of x Yi­ y bar= the mean of y Product is negative when one variable is above its mean and the other is below Sigma means that these are added up over all observations Properties of Correlation r ­ Variables o X and y o
More Less

Related notes for SOAN 3120

Log In


Join OneClass

Access over 10 million pages of study
documents for 1.3 million courses.

Sign up

Join to view


By registering, I agree to the Terms and Privacy Policies
Already have an account?
Just a few more details

So we can recommend you notes for your school.

Reset Password

Please enter below the email address you registered with and we will send you a link to reset your password.

Add your courses

Get notes from the top students in your class.