Study Guides (248,149)
Canada (121,345)
Psychology (1,705)
Prof (2)

Psychology 2080A/B midterm 2 review.docx

29 Pages
Unlock Document

Psychology 2080A/B

Chapter 6: Writing and Evaluating Test Items Item Writing • Six guidelines for item writing (writing test items) o (1) Define clearly what you want to measure o (2) Generate an item pool o (3) Avoid exceptionally long items o (4) Keep the level of reading difficulty appropriate for those who will complete the scale o (5) Avoid “double­barreled” items that convey two or more ideas at the same time o (6) Consider mixing positively and negatively worded items Times change, and tests can get outdated When writing items, you need to be sensitive to ethnic and cultural differences Sometimes, the factor structure, or the way items aggregate, may be different from African  American respondents in comparison to white respondents Item Formats • Dichotomous format: offers two alternatives for each item o Usually a point (mark) is given for the selection of one of the alternatives o True­false examinations o The advantages of true­false items include their obvious simplicity, ease of  administration, quick scoring, and they require absolute judgment o The disadvantages of these items are that students have to memorize material,  making it possible for students to do well on a test that covers material they don’t really  understand o Dichotomous items tend to be less reliable and less precise o Dichotomous items have many advantages for personality tests with many subscales,  they make scoring of the subscales easy Polytomous format: each item has more than two alternatives A point is given for the correct answer It is a popular method of measuring academic performance in large classes Multiple­choice tests are easy to score, and the probability of obtaining a correct response is lower  than the true­false method A major advantage for test takers is that it takes little time to respond because they don’t have to  write. Thus, the test can cover a large amount of info in a relatively short time Incorrect answers are called distractors – the choice of distractors is critically important Adding more distractors increases the reliability of the items It is rare to find items for which more than three or four distractors operate efficiently Ineffective distractors actually may hurt the reliability of the test because they are time­consuming  to read and can limit the number of good items that can be included in a test Well­chosen distractors are an essential ingredient of good items Three­option multiple choice items are as good as items that have more than three alternatives Poorly written distractors can effect the quality of the test, as a result, the test will have lower  reliability and validity Because test takers get some “correct” answers simply by guessing, a correction for guessing is  sometimes used Corrected score = R – W/n­1 R=right responses W=wrong responses n=number of choices for each item Students are more likely to guess when they anticipate a low grade on a test than when they are  more confident Mathematic methods have been introduced to summarize info The guessing threshold describes the chances that a low­ability test taker will obtain each  score True­false and multiple choice formats are common to educational and achievement tests Likert format: a respondent indicates the degree with a particular attitudinal question Scoring requires that any negatively worded items be reverse scored and the responses are then  summed This format is especially popular in measurement of attitude Familiar and easy to use Popular in personality and attitude tests Category format: similar to the Likert format but uses an even greater number of choices 10­point rating systems (On a scale from 1 to 10…) Controversy exists regarding when and how it should be used People will change their ratings depending on context When given a group of objects to rate, subjects have a tendency to spread their responses evenly  across the 10 categories This problem can be avoided if the endpoints of the scale are clearly defined Decreased reliability when there are a lot of choices because she cannot clearly discriminate  between choices Optimum number of categories is between 4 and 7 Visual analogue scale – the respondent is given a 100­millimeter line and asked to place a mark  between two well­defined endpoints Checklists and Q­Sorts Adjective checklist – a subject receives a long list of adjectives and indicates whether each one is  characteristic of himself or herself  Only two choices of each item A similar technique known as the Q­sort increases the number of categories A subject is given statements and asked to sort them into nine piles Item Analysis • A good test has good items • Item Analysis: a general term for a set of methods used to evaluate test items, and is one  of the most important aspects of test construction o It involves assessment of the item difficulty and item discriminability Item Difficulty • Item difficulty: is defined by the number of people who get a particular item correct • The higher the proportion of people who get the item correct, the easier the item • How hard should items in a good test be? This depends on the uses of the test and the types  of items • A test constructer needs to determine is the probability that an item can be answered correctly  by chance alone • An item that is answered correctly by 100% of the respondents offers little value because it  does not discriminate among individuals • The optimal difficulty level for items is usually about halfway between 100% of the respondents  getting the item correct and the level of success expected by chance alone • For a four choice item the optimal difficultly level would be 0.625 o Step 1: find half of the difference between 100% (1.00) success and chance  performance   1.0 – 0.25 / 2 = 0.75/2 = 0.375 Step 2: add this value to the probability of performing correctly by chance In most tests, the items should have a variety of difficulty levels because a good test discriminates  at many levels For most tests, items in the difficulty range 0.30 to 0.70 tend to maximize information about the  differences among individuals When constructing a good test, one must also consider human factors Discriminability • Item discriminability: determines whether the people who have done well on particular  items have also done well on the whole test • The relationship between performance on particular items and performance on the whole test • The Extreme Group Method o This method compares people who have done well with those who have done poorly  on a test o Finding the proportions of people in each group who got each item correct. The  difference between these proportions is called the discrimination index The Point Biserial Method Find the correlation between performance on the item and performance on the total test Point Biserial correlation (formula) The point Biserial correlation (r pbis) between an item and the total test score is evaluated in much  the same way as the extreme group discriminability index. If this value is negative or low, then the  item should be removed from the test. The closer the value is to 1.0, the better the item Pictures of Items Characteristics • Item characteristic curve: a graph prepared as part of the process of item analysis.  One graph is prepared for each test item and shows the total test score on the X axis and the  proportion of test takers passing the item on the Y axis • “Good” test item – the proportion of test takers who get the item correct increases as a function  of the total test score (a line that is increasing as the  Item Response Theory • Based on item analysis, it considers the chances of getting particular items right or wrong • Item response theory (ITR): makes extensive use of item analysis • Each item on a test has its own item characteristic curve that describes the probability of  getting each particular item right or wrong given the ability level of each test taker • With the computer, items can be sampled, and the specific range of items where the test taker  begins to have difficulty can be identified • This theory has many technical advantages • The test taker’s score is defined by the level of difficulty of item that they can answer correctly • ITR was the most important development in psychological testing in the second half of the 20   century • Advantage: easily adapt them for computer administration • Computer­adaptive testing will increase efficiency by 50% or more by reducing the amount of  time each test taker spends responding to items Linking Uncommon Measures • One challenge is determining linkages between two different measures • Often these linkages are achieved through statistical formulas • However, linking difference measures is not straightforward Items for Criterion­Referenced Tests • Traditional use of tests – comparing one persons performance with others • A criterion­referenced test compares performance with some clearly defined criterion for  learning • Anti­mode ­ the least frequent score • Cutting score or points – what marks the point of decision • When people get scores higher than the anti­mode, we assume that they have met the  objectives of the test  Limitations of Item Analysis • Though statistical methods for item analysis tell the test constructor which items do a good job  of separating students, they do not help the students learn  • Test have placed too much emphasis on ranking students and not enough on discovering  specific weaknesses or gaps in knowledge Chapter 8: Interviewing Techniques Interview: a conversation with a purpose Purpose – gathering information about the person being interviewed Outcome – data for description, evaluation, and prediction The Interview as a Test An interview resembles a test Method for gathering data Used to make predictions  Evaluated in terms of reliability & validity Group or individual Structured or unstructured Reciprocal Nature of Interviewing All interviews involve mutual interaction If one participant increased his or her activity level, then the activity of the other participant  increased Participants affect each other Interview participants also affect each other’s mood Social facilitation –  we tend to act like the models around us Principles of Effective Interviewing Interviewing techniques vary depending on the type of interview and he goals of the interviewer The Proper Attitudes Interpersonal influence (the degree to which one person can influence another) is related to  inter­personal attraction (the degree to which people share a feeling of understanding, mutual  respect, similarity, and the like) Attitudes related to good interviewing skills ­> warmth, genuineness, acceptance, understanding,  openness, honesty, and fairness Responses to Avoid Making interviewees feel uncomfortable ­> making them reveal less info about themselves Stress interview ­> determine how well an individual functions in adversity and the types of  responses that interviewers should avoid Being judgmental and evaluative (these statements should be avoided) Probing statements  ­ these demand more info than the interviewee wishes to provide voluntarily Hostile responses  False reassurance  Effective Responses Keeping the interaction flowing The interview is a two­way process  Open­ended questions ­> effectively initiate the interview process Producing something spontaneous Close­ended questions ­> bring the interview to a dead halt Recalling something Responses to Keep the Interaction Flowing Transitional phrase – yes, I see, go on Verbatim playback – repeats interviewee’s exact words Paraphrasing and restatement – repeats interviewee’s response using different words Summarizing – pulls together the meaning of several responses Clarification response – clarifies the interviewee’s response Empathy and understanding – communicates understanding Measuring Understanding 5­point scoring system Each level represents a degree of empathy Level­One responses Bear little or no relationship to the interviewee’s response Level­two responses Communicates a superficial awareness of the meaning of a statement Level­three responses Interchangeable with the interviewee’s statement (paraphrasing, verbatim playback, clarification  statements, and restatements are examples) Level­four responses & Level­five responses Provide accurate empathy and go beyond the statement given Adding noticeably to the interviewee’s response (4) Adding significantly to the interviewee’s response (5) Active Listening – the foundation of good interviewing skills  Types of Interviews Evaluation interview, structured clinical interview, case history interview, and the mental status  examination Evaluation Interview Confrontation – a statement that points out a discrepancy or inconsistency (1) a discrepancy between what the person is and what he or she wants to become (2) a discrepancy between what the person says about themselves and what he or she does (3) a discrepancy between the persons perception of themselves and the interviewer’s experience  of the person Confrontation may induce anxiety  Direct questions can be used toward the end of the interview to fill any needed gaps Structured Clinical Interviews Specific set of questions presented in a particular order The best for postpartum depression screening Structured or semi­structured are most appropriate for interviews with children DSM – classifies mental disorders into specific, definable categories – low reliability DSM­III – overcomes lack or reliability by providing criteria for each category of mental disorder There are countless structured interviews for just about every imaginable problem Interviews are available to: Assess the degree to which individuals exhibit core symptoms of borderline personality disorder Assess various components of self­injurious thoughts and behavior Assess disorders in children Assess impulsive behavior  Assess personality disorders Case History Interview Begins with an open­ended question followed by level­three and perhaps level­four responses can  yield a wealth of data about an individual Case history data – a biographical sketch  Specific questions need to be asked Case history data may include a chronology of major events in the person’s life, a work history, a  medical history, and a family history Interviewer often takes a developmental approach (beginning with childhood and moving up to  adulthood) Purpose – understanding individual’s background so that one can accurately interpret individual  test scores Computerized interview – highly structured, perfect reliability, but looses valuable info about  nonverbal body language Mental Status Examination Used to diagnose psychosis, brain damage, and other major mental health problems  Its purpose is to evaluate is to evaluate a person suspected to having neurological or emotional  problems in terms of variables known to be related to theses problems Areas covered – appearance, attitudes, and general behavior Emotions, intelligence and thought processes are also evaluated Developing Interviewing Skills Can be learned First step – becoming familiar with the research and theory on the interview Second step – practice Third step – making a conscious effect to apply the principles involved in good interviewing Sources of Error in the Interview Must develop awareness of sources of error or bias Interview Validity Interviewers form an impression of the interviewee within the first minute and spend the rest of the  interview trying to confirm that impression Halo effect ­  the tendency to judge specific traits on the basis of a general impression Halo effect occurs when the interviewer forms a favorable or unfavorable early impression The early impression then biases the remainder of the judgment process Halo effects impair objectivity and must be consciously avoided General standoutishness error – people tend to judge on the basis of one outstanding  characteristic Misunderstanding of cultural differences ­> leads to interviewer bias A highly structured interview continues to be the most effective means of eliminating or reducing  bias Suggestions for Structuring Cross­Ethic, Cross­Cultural, and Cross­Class Interviews Increase interviewer’s motivation to form an accurate impression Provide structure that innately moves interviewers past initial judgment Focus attention on the interviewee Focus attention on info predictive of job performance Interview Reliability The stability, dependability, or consistency of test results Inter­interviewer agreement (agreement between two or more interviewers) Unstructured interviews have low levels of reliability, but they provide data that other sources  cannot provide – but the dependability is clearly limited (b/c of reliability and validity) Chapter 9: Theories of Intelligence and the Binet Scales The Problem of Defining Intelligence Alfred Binet – intelligence ­> the tendency to take and maintain a definite direction; the capacity to  make adaptations for the purpose of attaining a desired end, and the power of auto­criticism Spearman – intelligence ­> the ability to educe either relations or correlates Freeman – intelligence ­> adjustment or adaptation of the individual to his total environment, the  ability to learn, and the ability to carry on abstract thinking Das – intelligence ­> the ability to plan and structure one’s behavior with an end in view Etc. Taylor, three independent research traditions to study the nature of human intelligence Psychometric – examines the elemental structure of a test Information­processing – examine the processes that underlie how we learn and solve problems Cognitive approaches – how humans adapt to real­world demands Binet’s approach is based on the psychometric approach Binet developed the first intelligence test Binet’s Principles of Test Construction First step – developing a measure of intelligence Problem of deciding exactly what he wanted to measure He concentrated on the findings that intelligence expressed itself through the judgmental,  attentional, and reasoning facilities of the individual  Guided by two major concepts Age differentiation General mental ability Principle One: Age Differentiation Age differentiation refers to the fact that one can differentiate older children from younger  children by the former’s greater capabilities Binet assembled a set of tasks to estimate the mental ability of a child  Mental age: the age capabilities of a child independent of his or her chronological age Principle Two: General Mental Ability Measure only the total product of the various separate and distinct elements of intelligence –  general mental ability Judge the value of any particular task in terms of its correlation with the combined result (total  score) of all other tasks High = retain Low = eliminate Spearman’s Model of General Mental Ability Intelligence consists of one general fa
More Less

Related notes for Psychology 2080A/B

Log In


Join OneClass

Access over 10 million pages of study
documents for 1.3 million courses.

Sign up

Join to view


By registering, I agree to the Terms and Privacy Policies
Already have an account?
Just a few more details

So we can recommend you notes for your school.

Reset Password

Please enter below the email address you registered with and we will send you a link to reset your password.

Add your courses

Get notes from the top students in your class.