R语言分数据集 adult数据集分析

By 车车 2024年6月23日

R语言分数据集 adult数据集分析
一、数据集介绍
数据来源于UCI数据库，网址为 adult数据集(下载下来是dat文件，可以用txt文本打开)。该数据集共32560条数据，15个变量，具体变量名及含义如下表所示。

变量名	含义	类型
age	年龄	数值型
workclass	工作类型	类别型
fnlwgt	编号	数值型
education	受教育程度	类别型
education.num	受教育时间	数值型
marital.status	婚姻状况	类别型
occupation	职位	类别型
relationship	家庭关系	类别型
race	种族	类别型
sex	性别	类别型
capital.gain	资本收益	数值型
capital.loss	资本损失	数值型
hours.per.week	每周工作小时	数值型
native.country	原籍	类别型
class	收入阶层	类别型(>50K和<50K)

二、数据预处理
(1) 数据读取

setwd("C:/Users/dell/Desktop")
rm(list=ls())
#读取数据
adult<-read.table("adult.txt",header=T,sep=",")
#添加变量名
colname<-c("age","workclass","fnlwgt","education","education.num",
"marital.status","occupation","relationship",
"race","sex","capital.gain","capital.loss","hours.per.week",
"native.country","class")
colnames(adult)<-colname

#连续变量
varcontinue <- c("age","fnlwgt","education.num","capital.gain","capital.loss","hours.per.week")
#连续变量转化为数值型并与因子型变量合并
adult <- cbind(lapply(adult[,varcontinue],function(x) as.numeric(as.character(x))),adult[,setdiff(colname,varcontinue)])
str(adult) #查看各变量类型

By 车车

graphRAG实战生成西游记知识图谱

车车 2024年7月28日

GraphRAG+chainlit实现跨文档智能检索分析

车车 2024年7月4日

登陆月球

车车 2024年6月25日

发表回复取消回复