R语言 分数据集 adult数据集分析
一、数据集介绍
数据来源于UCI数据库,网址为 adult数据集(下载下来是dat文件,可以用txt文本打开)。该数据集共32560条数据,15个变量,具体变量名及含义如下表所示。
变量名 | 含义 | 类型 |
---|---|---|
age | 年龄 | 数值型 |
workclass | 工作类型 | 类别型 |
fnlwgt | 编号 | 数值型 |
education | 受教育程度 | 类别型 |
education.num | 受教育时间 | 数值型 |
marital.status | 婚姻状况 | 类别型 |
occupation | 职位 | 类别型 |
relationship | 家庭关系 | 类别型 |
race | 种族 | 类别型 |
sex | 性别 | 类别型 |
capital.gain | 资本收益 | 数值型 |
capital.loss | 资本损失 | 数值型 |
hours.per.week | 每周工作小时 | 数值型 |
native.country | 原籍 | 类别型 |
class | 收入阶层 | 类别型(>50K和<50K) |
二、数据预处理
(1) 数据读取
setwd("C:/Users/dell/Desktop")
rm(list=ls())
#读取数据
adult<-read.table("adult.txt",header=T,sep=",")
#添加变量名
colname<-c("age","workclass","fnlwgt","education","education.num",
"marital.status","occupation","relationship",
"race","sex","capital.gain","capital.loss","hours.per.week",
"native.country","class")
colnames(adult)<-colname
#连续变量
varcontinue <- c("age","fnlwgt","education.num","capital.gain","capital.loss","hours.per.week")
#连续变量转化为数值型并与因子型变量合并
adult <- cbind(lapply(adult[,varcontinue],function(x) as.numeric(as.character(x))),adult[,setdiff(colname,varcontinue)])
str(adult) #查看各变量类型