数据挖掘R语言基础常用代码

1、基本知识

①选择csv文件，载入到对象data中

 data<-read.csv(file = file.choose(),header = T)

②函数，此函数作用是为了，但你需要使用随机数时，可保证你在执行或者调试后，计
算机所创造的随机数保持不变。换句话说，如果使用随机函数rnorm(10)之类的函数，每
次执行后，结果都是不一样的，如果再次之前使用set.seed()函数，则会保证测试数据保
持一致。“123”表示的种子的序号数，并不是传统意义上的数字，而是作为一种标记，并
不参与运算。当然，你也可以取不同的数字，随机数的结果仍然是一样的，但不同种
子，得出的结果是不同的

set.seed(123)

③c表示一个向量，上述这行代码，就是将"A",“B”,“C”,"D"打包成一个表（1*4d 的表）赋给b_vec

b_vec<- c("A","B","C","D")

④##matrix表示矩阵，1：15表示将1-15的数制作成一个矩阵，ncol表示有几列，byrow表示按行填充还是按列填充

> matrix(1:15,ncol=5,byrow=TRUE)
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
[2,]    6    7    8    9   10
[3,]   11   12   13   14   15
> matrix(1:15,ncol=5,byrow=FALSE)
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    4    7   10   13
[2,]    2    5    8   11   14
[3,]    3    6    9   12   15

⑤##factor函数表示将数据转换为集合形式（即去除重复值）

c(1,2,2,3,3,4,3,2)指要被转换的数据，

1：4表示集合最小值到最大值的范围

> fac_a<-factor(c(1,2,2,3,3,4,3,2), levels=1:4, labels=b_vec)
> fac_a
[1] A B B C C D C B
Levels: A B C D

> fac_a<-factor(c(1,2,2,3,3,4,3,2), levels=1:4)
> fac_a
[1] 1 2 2 3 3 4 3 2
Levels: 1 2 3 4

⑥frame函数：自己手动制作一个表
eg：

> dataframe_a<-data.frame(id=c(1001,1002,1003), name=c("Tim","Lucy","Jack"), 
+                         score=c(80,82,78),gender=c("M","F","M"))
> dataframe_a
    id name score gender
1 1001  Tim    80      M
2 1002 Lucy    82      F
3 1003 Jack    78      M

⑦%>%：用于连接不同模块的代码，确保他们同时被执行
eg：

filter(iris,Species=="setosa"|Species=="versicolor") %>%
  group_by(Species) %>% summarize(n=n(),mean(Sepal.Length), mean(Sepal.Width), median(Petal.Length))

它等价于：

subdata1<-filter(iris,Species=="setosa"|Species=="versicolor")
subdata2<-group_by(subdata1,Species)
summarize(subdata2,n=n(),mean(Sepal.Length), mean(Sepal.Width), median(Petal.Length))

这三者分别被执行

⑧组合两个表（不是连接两个表，组合是指，将新的内容添加进去）
eg：

> #' data combination 
> mydf1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40))
> mydf2 <- data.frame(x = c(5,6), y = c(50,60))
> mydf3 <- data.frame(z = c(100,200,300,400))
> bind_rows(mydf1, mydf2)
  x  y
1 1 10
2 2 20
3 3 30
4 4 40
5 5 50
6 6 60
> bind_cols(mydf1, mydf3)
  x  y   z
1 1 10 100
2 2 20 200
3 3 30 300
4 4 40 400

2、表的连接

bind_cols()/bind_rows()
inner_join
left_join
right_join
full_join
semi_join (x,y ) #返回能够与y表匹配的x表所有记录
anti_join(x,y) #返回无法与y表匹配的x表的所记录

#举例
#把flights和planes这两个表合并，关键为tailnum
new_table<-inner_join(flights,planes,by=c("tailnum" ))

3、数据统计、汇总的函数

data(data_name) #加载特定的函数
names(new_table) #列出new_table表的所有属性
head(data) #列出data表中的所有属性的值？还不确定
summary(new_table) #列出new_table表的所有属性对应的最大、小值，中位数，平均值等
dim(data ） #查看变量的维数；重新设置的维数，例如dim(x)=c(3,2)
View(data) #展示data表
table(iris$Species) #展示iris表的 Species属性都有哪些值，以及其出现的频率
email$spam #表示email表中列名叫“spam”的那一列

数据挖掘R语言基础常用代码

R语言相关栏目本月热门文章