R画网络图

R  画网络图node

目的:用R作生信分析,画基因样本的网络图,从中观察样本的致病性状况。json

 

1、所用到的包

  1. library(tidyr)
  2. library(ggplot2)
  3. library(reshape2)
  4. library(readr)
  5. library(network)
  6. library(dplyr)
  7. library(plyr)
  8. library(sna)
  9. library(GGally)
  10. library(ggnetwork)
  11. library(tidygraph)# tidy graph analysis
  12. #library(tidyverse)# tidy data analysis
  13. library(ggraph)
  14. library(stringr)
  15. library(networkD3)
  16. library(igraph)
  17. library(visNetwork)
  18. library(threejs)
  19. library(ndtv)
  20. library(grid)  
  21. library(Rmisc)
  22. #library(vioplot)
  23. library(tibble)

 

13行中:tidyverse包集成了不少画图的包:以下api

tidyverse_packages(include_self = TRUE)网络

 [1] "broom"       "cli"         "crayon"      "dplyr"       "dbplyr"      "forcats"     "ggplot2"     "haven"       "hms"         "httr"       ide

[11] "jsonlite"    "lubridate"   "magrittr"    "modelr"      "purrr"       "readr"       "readxl\n(>=" "reprex"      "rlang"       "rstudioapi"函数

[21] "rvest"       "stringr"     "tibble"      "tidyr"       "xml2"        "tidyverse"  spa

 

 

可是若是同时使用这些包,会提示tidyverse_conflicts(),使用tidyverse_conflicts()能够查看tidyverse和其余哪些包冲突:.net

> tidyverse_conflicts()xml

-- Conflicts ------------------------------------------ tidyverse_conflicts() --blog

x tidygraph::arrange()    masks dplyr::arrange(), plyr::arrange()

x tibble::as_data_frame() masks igraph::as_data_frame(), dplyr::as_data_frame()

x purrr::compact()        masks plyr::compact()

x purrr::compose()        masks igraph::compose()

x dplyr::count()          masks plyr::count()

x tidyr::crossing()       masks igraph::crossing()

x dplyr::failwith()       masks plyr::failwith()

x tidygraph::filter()     masks dplyr::filter(), stats::filter()

x igraph::groups()        masks tidygraph::groups(), dplyr::groups()

x dplyr::id()             masks plyr::id()

x dplyr::lag()            masks stats::lag()

x tidygraph::mutate()     masks dplyr::mutate(), plyr::mutate()

x tidygraph::rename()     masks dplyr::rename(), plyr::rename()

x purrr::simplify()       masks igraph::simplify()

x dplyr::summarise()      masks plyr::summarise()

x dplyr::summarize()      masks plyr::summarize()

 

因此我注释掉了tidyverse,须要用哪一个包就本身添加。

 

2、画网络图遇到的问题

1.颜色自定义

 

我根据list中属性的种类来定义nodes的颜色,de[,5]中的值为P”、“V”、“B”,三个类别。

常规的写法是:

geom_node_point(size = 3, alpha = 1,aes(color =de[,5]))

这样系统自动分陪颜色,红绿蓝给BPV

 

 

 

 

 

可是会出现如下问题:

A) de[,5]PVB 出现的顺序会影响到颜色的标记。

B) de[,5]PVB并非三种都出现,而是三种的随机组合出现,好比只有PV或者只有VB或者只有PB

以上缘由致使网络图中颜色不对应,第一幅图中红=B  绿=P  =V,若是de[,5]中只有BV两种,会生成红=B,绿=V,致使图例和实际的PVB值不对应。

同时由于看的人肯能出现色盲的状况,通常不用红色和绿色来表示nodes的颜色,因此须要自定义颜色。

 

好比我须要自定义颜色:效果是这样

 

 

'V'='#b27390', 'P'='#f15941','B'='#42a3c6'

我用的ggraph这个画图函数,因此只须要加上scale_color_manual就行:

(若是使用的是ggplot,则用scale_fill_manual)。

这里须要注意scale_color_manua有两种写法:

 

1)scale_color_manual(name="diagnosis",labs=c(‘V’,’P’,’B’) values=c(''#b27390', '#f15941','#42a3c6'))

 

2)scale_color_manual(name="diagnosis", values=c('V'='#b27390', 'P'='#f15941','B'='#42a3c6'))

必选参数valueshttps://blog.csdn.net/songzhilian22/article/details/49388973

values,用于指定这个标度应该生成的值。若是这个向量中的元素是有名称的。则它将自动匹配输入和输出的值,不然它将按照离散型变量中水平的前后次序进行匹配。因此选择第2中方法给定义颜色,以避免随机产生颜色。

 

最后的结果以下:

 

 

2.多样本for循环的使用问题

 

本数据中包含多个样本,在画图以前要对样本进行切割,使用split最好不过了。

split(data1, as.factor(data1$gene))#按照基因切割

split(gene, gene$sampleid)#按照样本切割

切割后添加过滤条件,一个样本至少携带两个variantsample保留下来作网络图。行数≥2的说明只有两个variant,按照gene切割的安装代码以下,用到第一个for循环:

for (gene in data_per_gene) {

  data_per_sample_per_gene <- split(gene, gene$sampleid)

  ########### Then we enumerate each sample to obtain the edges ###############

  for (sample in data_per_sample_per_gene) {

    ######### we demand sample carry >=2 variants in the same gene to be considered #############

    if ((nrow(sample)>=2)&&(sum(sample$GT)==2)){

      ####### create combinations of variants #################################

      a <- combn(sample$num_id,2)

      b <- data.frame(t(a))

      b$sample <- as.character(unique(sample$sampleid))

      b$gene <- as.character(unique(sample$gene))

      edge <- rbind(edge, b)

    }

  }

}

而后对edge中的边所对应的gene切割

edge_per_gene <- split(edge, as.factor(edge$gene))

 

接下来咱们为每一个基因的每个variant建立边:用到第二个for循环

for (gene in edge_per_gene)

 

这个循环里,咱们不只要完成边和点的链接,还要完成画图。

 

3.链接边和点

 

edge中的X1X2进行分组操做,而后计算边的权重。(不一样的样本有相同的边也合并计算权重,值保留一条边,用权重weight表示边链接的次数)

edge2 <- gene %>%  

  group_by(X1, X2) %>%

  summarise(weight = n()) %>%

  ungroup()

  unique(edge2)

 

而后定义nodes,选择X1X2中惟一出现的num_id合并去重,

nodesX1 <- subset(nodes0, (nodes0$num_id %in%edge2$X1))

nodesX2 <- subset(nodes0, (nodes0$num_id %in%edge2$X2))

nodes2<-unique(rbind(nodesX1,nodesX2))

nodes2的第一列单独拿出来:

nodes3<-as.data.frame(nodes2[,1])

 

 

接下来创建点和边的链接关系,咱们把nodes3 从新编号命名,

nodes3$ID <- seq(1:nrow(nodes3))

    colnames(nodes3) <- c("var","id")

nodes3$var <- as.integer(nodes3$var)

 

 

edges2中的边也经过idnodes3创建链接:

edges <- edge2 %>%

      left_join(nodes3, by = c(X1 = "var")) %>%

      rename(from = id)

    edges <- edges %>%

      left_join(nodes3, by = c(X2 = "var")) %>%

      rename(to = id)

最后,选择边的集合:

edges <- select(edges, from,to,weight)

 

 

 

4.画网络图

 

咱们建立无向图,directed = FALSE。

我使用的library(network),网上还有library(networkD3),library(sna)等。

 

routes_network <- network(edges,

                              vertex.attr = nodes3,

                              matrix.type = "edgelist",

                             ignore.eval = FALSE)

    

 routes_tidy <- tbl_graph(nodes = nodes3, edges = edges, directed = FALSE)

 

5.ggraph画图

 

画图以前,咱们自定义点的名字nodename

de<- routes_tidy %>%

       activate(nodes) %>%

       as.data.frame()

    

 de<-cbind(de,nodes2$color_net)

 colnames(de) <- c("var","id","degree","centrality","diagnosis")

  nodename<-paste(de$degree,"-",de$var)

最后使用ggraph画图:

  ggraph(routes_tidy ,layout = "fr") +

        geom_edge_link(aes(width = weight),alpha = 0.6) +

        geom_node_point(size = 3, alpha = 1,aes(color =de[,5])) +

      scale_color_manual(name="diagnosis", values=c('V'='#b27390', 'P'='#f15941','B'='#42a3c6'))+#分配颜色

        geom_node_text(aes(label = nodename), size = 0.5, repel = FALSE) +

        scale_edge_width(range = c(0.2, 2)) +

         labs(x = "", y = "", title = filename) +

         theme(axis.ticks = element_blank()) +

        theme(axis.text.x = element_blank())+

        theme(axis.text.y = element_blank())+

        theme(panel.grid=element_blank())+

        theme(panel.background=element_blank())+

        theme(panel.border=element_blank())

 

5.计算nodes的相关属性

中心度:点度频率(每种点度数的个数/全部点个数)

routes_tidy <-routes_tidy %>%

     activate(nodes) %>%

     mutate(centrality = degree(routes_tidy)/vcount(routes_tidy))

 

度:degree

#nodes的度

       routes_tidy <-routes_tidy %>%

         activate(nodes) %>%

         mutate(degree = centrality_degree())

相关文章
相关标签/搜索