CS 105 Notes Data Mining.docx

3 Pages
113 Views
Unlock Document

Department
Computer Science
Course
CAS CS 105
Professor
David Sullivan
Semester
Fall

Description
CS 105 Notes (Data Mining) Introduction data mining: process of using a computer program to find patters or relationships in data data mining vs. data query – queries allow us to extract factual info while data mining  finds patters classification learning: learning how to classify objects/entities on basis of characteristics input to the algorithm – set of data describing objects that have already been  classified AKA training data/examples output – model that can be used to classify other objects example/instance: each row in a collection of training data attribute: each column in the training data output attribute: one we want to determine/predict input attribute: errthang else nominal attributes – have values that are “names” of categories numeric attributes – have values that come from a range of numbers numeric estimation: same as classification learning but with a numeric output attribute algorithm learned by model takes form of an equation linear regression is a form of numeric estimation association learning: looks for relationships between sets of attributes in the training  examples doesn’t focus on predicting a particular attribute market­basket analysis: finds association between items that people buy overfitting: working too hard to match the training examples which leads to overly  complicated models that don’t generalize well error rate of a model is the percentage of test examples that it misclassifies accuracy = 100 – error rate diagonal of a confusion matrix shows cases that were correctly classified two­class confusion matrices – has true/false positive, and true/false negative Classification Learning 1R learns a set of rules based on only one input attribute to handle numeric attributes, we need to discretize the range of values into  bins/buckets one way is to sort by age and look for binary split that leads to most accurate rules  1R doesn’t tend to work well with attributes with many possible values b/c each  rule applies to only a small number of examples; doesn’t generalize well to avoid overfitting numeric attributes, need a min bin size 1R won’t work well if input attributes have fewer possible values than output using 1R as a baseline – compare the models from other algorithms; if lower accuracy  than 1R prob isn’t worth keeping 0R: learns a model that considers none of the input attributes predicts majority class if accuracy is high then training data is skewed building decision trees 1. apply 1R to attributes and choose one that “best divides” examples into  subgroups 2. create decision based on that attribute and put it in the appropriate place in the  existing tree 3. for each subgroup created by the new decision: if classification of its examples are accurate enough or if no remaining  attributes to use do nothing otherwise, repeat process for subgroups goodness = overall accuracy / N N is the number of subgroups that would need to be subdivided further if N == 0 then we’ll select that attribute ID3 – uses different goodness score based on field of study known as information theory;  cannot handle numeric attributes C4.5 – like ID3 but can ha
More Less

Related notes for CAS CS 105

Log In


OR

Join OneClass

Access over 10 million pages of study
documents for 1.3 million courses.

Sign up

Join to view


OR

By registering, I agree to the Terms and Privacy Policies
Already have an account?
Just a few more details

So we can recommend you notes for your school.

Reset Password

Please enter below the email address you registered with and we will send you a link to reset your password.

Add your courses

Get notes from the top students in your class.


Submit