用formatR进行代码格式化-R包: formatR

用formatR进行代码格式化

formatR是个代码格式化化的R包,他能自动代码的空格缩进等,使代码根据有可读性。

formatR有多种用法,这里先展示作用效果:

经过个格式化后张下面那样

用formatR格式化代码,代码颜值马上就有些提升了。

formatR很多种用法,这里只展示两种。

1.载入包后,直接在R的命令行窗口输入tidy_app() ,该命令就会调用一个shiny程序,自动在你的浏览器里打开一个界面模式下的格式化工具。

2.用法二:先复制你需要格式化的代码,在R命令行窗口输入tidy_source(),该函数就会自动输出格式化后的代码。

3.它也可以实现对某个目录下的R代码批量格式化,具体请看formatR的帮助文档

用Rankprod 进行差异基因寻找-R包:RankProd

用Rankprod 进行差异基因寻找-R包:RankProd

注意:RankProd在实际应用中存在一小部分的上调基因与下调基因重叠。这部分交叠基因需要进行删除

  • data.csv 是我们要输入的数据
  • label.txt 是根据样本信息做的标签
  • 其他参数见代码注释

学习更多关于RP的参数设置,请参看RankProd的帮助文档。

用SAM进行两类样本间的差异基因寻找-R 包samr

用SAM进行两类样本间的差异基因寻找-R 包samr

在生物信息学中常常需要进行差异基因的筛选,目前差异基因寻找方法有很多,比如T检验,SAM,FC等,本文将展示,利用SAM 方法进行差异基因的寻找。所用到的R包是:samr

说明:

可修改的参数:

fdrcutoff 代表fdr的阈值,常用 0.01 、0.05 ,值越小,差异基因显著性越好。

Normal.csv、Tumer.csv、Gid.csv 分别指代:正常样本,疾病样本,基因id

label<-c(rep(1,15),rep(2,12)) 这要根据自己的数据修改,比如我正常15个样本,疾病12个样本

all005.txt、up005.txt、down_005.txt 分别指代全部差异基因、差异上调基因、差异下调基因

更多参数请查看samr包里的帮助文档

用R进行kegg/GO富集分析 及其可视化-R包clusterProfiler

用R进行kegg/GO富集分析 及其可视化-R包clusterProfiler

以前都是用matlab进行富集分析,分析代码又臭又长。今天突然心血来潮上网搜索kegg富集。主要看了“糗世界”,“生信菜鸟团”以及“生信技能树”三个网站。

GO/KEGG富集分析enrichmentanalysis

转录组-GO和KEGG富集的R包clusterProfiler

生信技能树:GO和KEGG富集的R包clusterProfiler

对比了以前自己的富集方法,和生信菜鸟团教的方法。瞬间乐的蹦起,Y叔的R包clusterProfiler真心的好用,极大的简化了分析代码,仅仅数行就完成富集。而且结果展示也很赞,附加了特别多可视化的函数(这部分可以看clusterProfiler的帮助文档). 生信菜鸟团的曾师兄是我的偶像,Y叔是曾师兄的偶像。以前我并没体会过Y叔的强悍,看到这个包之后,真心佩服,瞬间圈粉,我也将继续学习Y叔的包。

KEGG-enrich.csv

GO-enrich.csv

barplot : 条形图 ,按照P值大小排列

dotplot :点图,按照富集数目大小排列

帮助文档见:R包clusterProfiler帮助文档

生存分析survival analysis 代码例子

代码例子如下:

 

安装加载R包

载入数据

surv_info_4922.txt 包含:months随访时间和relapse生存结局 两列

muti_4922.txt:包含:months relapse age grade size  五列
ind.txt 是自己所创建的分类器分出来的结果

除了months 这个指标,其他按照设定的规则全部0 1化

 

KM曲线

##单变量cox

多变量cox

 

 

 


画图1

画图3

survival survivalpic

 

 

Rosalind-一个优质的生信代码练习网站

以前苦于没有项目练习自己的python,常常忘记python的基本语法,造成一个简单的小功能都要上网查询语法。后来,在生信技能树这个论坛上看到别人推荐的一个网站:rosalind

这个网主要分为:

  • Python Village
  • Bioinformatics Stronghold
  • Bioinformatics Armory
  • Bioinformatics Textbook Track
  • Algorithmic Heights

没具体统计过有多少题,不过这样一个网站绝对会帮助你提升python编程水平,以及生物信息学的基础知识。

你已经正确解决某题,你就可以查看别人对该题的解法。 看别人优质的答案,对自己编程思路和代码风格都有所帮助

希望学习生信的你好好利用这样一个资源。fighting! 刷题,走起……

文献检索与电子书搜索sci-hub & bookzz

不说废话,直接上干货,以下是几个用于免费下载外文文献的网站:

http://www.sci-hub.bz/

http://www.sci-hub.ac/

http://www.sci-hub.cc/

http://www.sci-hub.cn/

外文电子书下载网站

http://gen.lib.rus.ec/

http://bookzz.org/

 

国语电子书查找与下载

鸠摩搜书 百度文库 其中百度文库里需要下载券的文档可以使用冰点下载下载

常用文献检索网站  谷歌学术 思谋导航 百度学术 维普 知网 万方 glgoo

如果是在校生,通常大学都有购买一些文献网站的使用权与下载权,你可以尝试用校园网下载需要的文档。

        曾经思考过,为什么要有论文这种东西?个人觉得论文之所以存在,是为了防止学术研究的重复,避免人力物力财力的浪费,同时论文的存在也促进了新发现的传播。为什么这么说呢?举个例子:甲在1990年研究发现了A结论;若没有论文,别人不晓得这个A结论已经被证实出来,于是乙在2000年,重复研究了A;丙也在若干年后研究A,这样造成同个问题的“过度”研究。一个重大的发现,若埋在实验室里,那也仅仅是个发现而已。若是有个途径把你的发现分享出来,别人就可以基于你的研究,做更深入的挖掘。

         下载论文收费在一定程度上造成了学术的壁垒,一些实验室或者个人经济条件不足够完全购买这些文献。基于此,大牛们通过技术手段获取了需要收费的文档,并将其免费分享。所以scihub这类的网站,有它存在的合理性,在一定程度上打破了学术的壁垒。

Bioconda 安装生物信息学软件

接下来将从Bioconda、预编译版本安装、源代码安装三种安装方式进行介绍。

注:方法从基因课上学到:基因课 是一个在线生物信息学培训网站,看他们的视频切身的感受就是:语言浅显易懂,条例清晰。

自动化安装软件conda:

详情请看conda 官网

  • 安装Bioconda

在官网找到安装包:复制链接,在linux下执行如下代码:

之后出现yes /no 一律选择yes. 一切搞定后,输入source ~/.bashrc这样conda命令就可以使用了.

试试安装python软件包:conda install numpy

一些生物信息软件并不在conda的安装频道里,比如:conda install bwa无法安装bwa 这个软件,这时我们需要配置一下频道:

conda默认安装最新版本的软件,若想安装非最新版的软件输入:conda search bwa查看可选版本 在安装时输入conda install bwa=版本号

代码说明

  • 预编译版本安装

有些软件用conda 无法安装,可以尝试安装预编译版本的软件(以blast为例子) :

里面的代码可以直接使用,你可以选择把他们添加到linux环境变量里面,临时添加环境变量用export export PATH=/路径:$PATH

长久使用需要修改 ~/.bashrc 文件 在其末行输入export PATH=/路径:$PATH 然后 source ~/.bashrc

  • 源代码安装

如果以上方法安装不成功,可以使用源文件(文件名通常含src)的版本安装

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.6.0+-src.tar.gz

从源码安装samtools

解压命令:

tar -zxvf xxx.tar.gz

tar -jxvf xxx.tar.bz2

安装分三步:

若安装出问题(没有权限在系统目录下安装),需要清空上次编译的文档

配置环境变量:

echo $PATH 查看环境变量里的内容

export PATH=$PATH:/路径/bin/ (不足:下次失效)

所以采用 vi .profile 在末尾行输入:

export PATH=$PATH:/路径/bin/

source .profile

RTCGAToolbox 一款可以下载TCGA数据的R包

最近发现了一枚关于新版TCGA数据下载的R包,极大的简化我对TCGA数据的处理步骤,具体使用方法如下:

 

## [1] “ACC” “BLCA” “BRCA” “CESC” “CHOL” “COADREAD”
## [7] “COAD” “DLBC” “ESCA” “FPPP” “GBMLGG” “GBM”
## [13] “HNSC” “KICH” “KIPAN” “KIRC” “KIRP” “LAML”
## [19] “LGG” “LIHC” “LUAD” “LUSC” “MESO” “OV”
## [25] “PAAD” “PCPG” “PRAD” “READ” “SARC” “SKCM”
## [31] “STAD” “STES” “TGCT” “THCA” “THYM” “UCEC”
## [37] “UCS” “UVM”

 

## [1] “20160128” “20151101” “20150821” “20150601” “20150402” “20150204”
## [7] “20141206” “20141017” “20140902” “20140715” “20140614” “20140518”
## [13] “20140416” “20140316” “20140215” “20140115” “20131210” “20131114”
## [19] “20131010” “20130923” “20130809” “20130715” “20130623” “20130606”
## [25] “20130523” “20130508” “20130421” “20130406” “20130326” “20130309”
## [31] “20130222” “20130203” “20130116” “20121221” “20121206” “20121114”
## [37] “20121102” “20121024” “20121020” “20121018” “20121004” “20120913”
## [43] “20120825” “20120804” “20120725” “20120707” “20120623” “20120606”
## [49] “20120525” “20120515” “20120425” “20120412” “20120321” “20120306”
## [55] “20120217” “20120124” “20120110” “20111230” “20111206” “20111128”
## [61] “20111115” “20111026”

 

 

## BRCA FirehoseData object
## Available data types:
## Clinical: A data frame, dim: 1097 18
## To export data, you may use getData() function.

 

当然,这个包也可以下载突变数据等,具体可以看RTCGATool 帮助文档
哈哈,先瞅瞅下载下来的临床信息吧。
关于TCGA数据的下载,还有R包TCGAbiolinks。查阅时相关资料时,也看到生信人的微信推文新版TCGA数据下载介绍 谈谈TCGA改版后数据下载的几种方式

新版TCGA数据库-数据下载方法

    自从TCGA更新之后,想必大伙儿对TCGA数据的使用有些懵逼。我作为一枚生信小白,一直苦苦寻觅TCGA的下载方法与处理方法,本文将针对新版的TCGA数据下载方法进行研究,后续将花时间把TCGA数据处理方法。

  1. 下载:gdc-client.exe (这是官方提供用于下载数据的工具)

  2. 下载gdc_manifest_xxx.txt (这是一个保存下载信息的文件,与gdc-client.exe 配合使用,即可下载数据)

  3. 将 1. 2.下载的两个文件放在同一目录使用命令行下载

详细步骤:

1. 点击主页launch data portal–>GDC APP里的data transfer tool–>下载解压即可获得gdc-client.exe

data transfer tool.png

 

2. 点击 data-->在case和files中选择你所要分析的样本类型,选定后点击add all files to the Cart (俗称加入到“购物车”)–>在购物车里下载我们的manifest文件 

data.png

case.png

blob.png

3.将 1. 2.下载的两个文件放在同一目录,使用命令行下载

数据

代码为

downloading.png