关于"全栈NGS"员工的讨论和思考

昨天吃饭时候和实验室人闲聊，扯到一个问题，就是 有没可能一个人把NGS(RNA-seq/DNA-seq/ChIP-seq)从做实验到分析数据，再到写文章一个人全干了呢?

当时是没想太多，但是越想越觉得这个问题其实是很现实的问题，牵扯的是在一个传统生物实验室中，实验和生信两拨人怎么合作，怎么判断贡献的问题。

由于我也算是实验转生信的，对两部分的认识应该是偏颇比较少的。

简单的列一下实验和生物信息需要的技能知识如下:

实验部分

按照步骤顺序应该是：

1. 核酸提取。

对于RNA和DNA的测序来说，这部分实在简单不止一晒，分子生物学入门实验。当然，依然需要牢记分子生物第二常识：“Protocol几乎总是对的，但是它不会强调它在什么情况下是对的”。 这里面坑也很多，比如某些文库需要的长链DNA怎么回收比较好之类的细节，需要领域专门知识才能解决。
ChIP-seq会麻烦一点，它要求你至少能做ChIP(染色质免疫沉淀)，并且会做像样的质控 (阳性对照阴性对照都跑好了才敢上机啊)。可以算是有一个小门槛。

2. 文库的制备

首先这些东西全都得按kit来，所以其实最需要的是阅读说明书的能力。
DNA文库没有反转录, Illumina的Trueseq、Nextera用的很多，NEB、罗氏、kapa之类的也能用，大同小异。
RNA文库可能多出一步反转录，还有一步是mRNA的富集或者是rRNA的去除，也是kit能做的事情。
ChIP-seq和DNA是一样的，但是Nextera这种灵活性差的kit就不能用了。

3. 上机

首先要知道上什么机器，小实验室一般是Miseq之类通量较小的。
然后其实上机的主体flow cell(不知道怎么翻译了，流动槽？)也会被包在Illumina的Kit里，能力需求同上。
上机之前文库要做质控吧？Trueseq的还要定量吧？那么会跑Realtime PCR是基本。

4. 机器养护？

如果是个小实验室，可能还会需要自己自己维护仪器，不过这个和实验技能的关系就不大了，主要是管理问题。暂略。

总结

NGS这一块的实验至少需要的技能主要是分子生物实验室基本常识及操作，包括但不限于：

会用移液器、离心机、磁力架
会跑胶回收DNA、磁珠回收DNA
会各种PCR
会读protocol并能做好每步质控以便debug--这个要求其实就是很高的了，基本相当于生信上的“为了保证代码可复用所以每部分的单元测试都要写好”的难度。当然，如果做不到，也是可以成功的，不过要做好准备交很多学费。

生物信息部分

这部分其实应该跟着实验走，毕竟分析RNA-seq和分析ChIP-seq的共通之处还真就不是很多，按照流程应该是：

1. 选择分析软件并使用

比如RNA-seq，一般是为了拿差异表达基因，那么你可以选tophat->cufflinks，无参可能会选trinity->RSEM->blast2GO, 也可能直接用是CLC来做。
DNA-seq，重测序可能为了找各种变异，那么indel and SNP caller比如GATK之类就要至少会一个。要组装的话de nove assembler要自己选好。OLC还是DBG，选择一大堆，需要自己试。
ChIP-seq主要只是选个peak calling的软件，MACs，PeakSeq之类的
mapping软件的选择，知道几种mapper是有区别的，并且能简单评价在什么情况下用什么mapper可能更好就够了。

2. 展示并交流数据

会画图展示自己的分析结果
数据从机读到人读的转化，至少要做得比测序公司的报告更加人性化，便于理解，不然饭碗不保。
某些人喜欢用网页作为终端展示，那么就需要一点前端知识。

总结

这个其实是很宽泛的说法，比如最小技能应当有

Linux 基础，毕竟要装很多开源的学界软件。
熟练一门编程语言，能够让你熟练处理字符串，并画出某些图。 perl，python之类？甚至excel宏写的好我觉得也足够。
基础的统计学知识，嗯，确实是统计而不是数学。比如你可以不懂DBG但是照样用abbsy做从头组装，但是你不能不懂置信区间就去筛差异表达基因。
熟悉专有数据库接口，比如GO，KEGG，各个genome browser。以确保你一旦需要什么做分析，马上可以拿到手。
当然，上面这些说的只是NGS需要的最小知识。纯粹的bioinformatics一直都不是bio而只是informatics。

成为`全栈NGS从业者`只是一半的人学另一半的知识那么简单么?

那么技能列完了，回到最开始的问题，如果要成为全栈NGS分析人是不是掌握两边的最小技能就行了呢？ 恐怕只存在理论上的可能性。

首先，指望一个专业是生物信息的学生去学做实验，并做的非常努力是不现实的，因为无论如何，扯到informatics的工作报酬一般会比做wet lab的要高，而且如今的编程活动也容易养成一些奇怪的自尊和自大。我并不为此感到奇怪，抛开IT人经常被类似于“创造”和“掌控”之类的情感所熏陶带来的影响，现在的computer science 是“显学”。而“显学”从业者的平均傲娇程度可以参考战国中期的儒门，中世纪的传教士，十九世纪的物理学家。这个时代距离真理最近的一群人(自称)跟你们这帮P民有什么好解释的？大家根本不在一个频道上嘛。

"He is a lamb, he is a women, he never exists. And now he is an IT man!" 《The Man From Earth》, AD2007

那么是不是说做实验的人转到生信上就会容易呢？首先可以肯定是会简单一点，因为为了吃生物这晚饭，不得不去转变知识结构，这些人的动力会足一点。毕竟现在的生信就像是80年代的分子生物学，你不学不行，不学实验室就有被淘汰的风险，所以现在的生信培训才会一浪高过一浪（虽然并卵）。但是现在几乎公认的是，计算机这门“显学”对一直大部分拿移液器加样的生物民工来说，其门槛稍微有些高了，在正常的lab干过的都知道，繁重的体力劳动以及定时定点的实验处理会牵扯大部分精力，留下的有效学习时间很是有限。如果有幸碰到nice点的老板，才可能有机会完成这个转型（有人说是相反，nice的老板会让你留在纯实验，hash的老板才会让你下决心转型）。而门槛究竟算是多高，在这里我就不敢多说了，毕竟文人如范仲淹，始足以讲武；武将如岳鹏举，始足以谈文。

倒是可以看MACs作者刘小乐的这篇，作为生信PI的人对如何与湿实验的人合作，看法不是我等P民能瞻仰的。

被忽略的核心问题

对于想要在学界生存下去的人，最核心的问题还是“不发表就死亡”。发表文章的问题才是核心问题。虽然NGS的冲击曾经改变过一些文章发表的套路，但是很快就又变回去了。没有好的生物学故事，没有好的实验材料，“全栈”的梦想还是白扯。掌握这两方面的技能并不能使文章的发表变得更简单，只要做生物，还是生物为先；做方法的，依然是方法为先。PI不改思路不改方向不玩“全栈”，员工永远只是经济适用型的，“全栈”也没办法增加你的身价。

现在有些实验室，扔钱出去测了东西，然后拿了数据回来，扔到做生信的人面前，曰：“嗟，来分析，赏作者”。这个是很麻烦的，因为实话实说，测序公司的制式报告已经把该包括的基本都包括了，当然不该包括的大部分也有，你不提供具体的实验设计，也没有大致的分析方向，而是希望在该领域一窍不通甚至在生物上都完全没概念的员工做出成品的文章，这怎么可能呢？

"How can it be?" —— runsheng, AD2010

作为做实验的人，你要做的角色是PM，而不是客户啊，客户改需求可以不管程序员死活，PM要是整死了你手下的程序员，你离滚蛋也就不远了啊。这个道理似乎也是很难懂得呢。

于是到头来：

汝果欲学诗，功夫在诗外。—— 陆游，AD1208

最终还是免不了鸡汤的俗！

runsheng