从垃圾分类趣看测序数据拆分新策略~

来源: 安诺基因   2019-9-4   访问量:874评论(0)

自7月开始,史上最严的垃圾分类新规在上海实施,调侃垃圾分类回收的段子、漫画满天飞,“垃圾分类”已成为热议话题,当你悠闲地喝着奶茶时,可能被灵魂拷问“你手中的奶茶属于什么垃圾?”

 

在追求细化量化的时代,需要仔细分类的不仅是垃圾还有测序数据。高通量测序技术的十余年间,测序仪器更新迭代迅速,测序通量也极速增加,到每run能产生3.2 T数据的Novaseq超高通量测序平台,其产出远远超出了一个样品所需的数据量,因此建库时,对每一个样品加上不同的标签序列(Index)进行文库混合pooling上机,下机数据依据标签对数据进行拆分,再根据Index与样品的对应关系,将数据“分类”归属至每个样本(即数据拆分过程)。就像垃圾分类需要明确的分类标准以及对应的标志识别才能够最终实现有效分类一样,准确的数据分类(拆分)也需要明确的执行标准。明确的Index混合pooling规则和精准的数据拆分流程是NovaSeq仪器发挥其超高通量测序的关键点,也是数据准确分类的两个关键因素。


一. Index“混搭”的基本原则


如果Index“混搭”不佳,其测序质量下降或者文库间数据混淆,将导致部分数据无法准确分类,造成数据浪费或污染。因此,想要获得高品质数据,需要注意以下几点:

1. Index的碱基平衡性

在一组Index的每一个位置,同时存在ATCG四种碱基,不缺少任何一种碱基;此外4种碱基的比例接近,分别为25%左右,没有任何一种碱基特别多或者特别少。


1567558945557889.png

2. Index的激光平衡性

所有的IIlumima仪器中,A和C两种碱基共用红光激发(波长660 nm);G和T共用绿光激发(波长532 nm),对于一组Index的每一个位置,如果A+C的总数与TG的总数相接近,可以在一定程度上弥补碱基不平衡的负面作用,但激光平衡是次优选择。值得注意的是,为了提高测序速度,Novaseq仪器采用混合染料,其中碱基G无荧光标记,因此Index选择要避免出现连续G碱基的组合情况。

1567559044468948.png

3. Index位数
基于测序平台的测序准确率的特性,在Index的选择中,理想的汉明距离Hamming distance能够允许测序读错的Index容错回正确的Index增加Index数(6位、8位、9位等,可供选择的种类越多,容错率也越强。

1567559072774199.png

4. Index“混搭”

单端Index文库指文库结构中只有一端(通常在P7端)含Index结构,双端Index文库指文库P5和P7端都含Index,传统双端Index的方法通过少数几种Index序列排列组合实现样本的数据区分(一般96种)。单端Index和双端Index混合pooling能够影响最终混库数量,同时增强了拆分数据的准确性。

1567559109886708.png

 


二、数据拆分

 

测序仪下机数据,经过Index比对,分类成来自不同文库的数据文件。无论是Index位数“混合”(常见的6/8位Index的文库混合上机)还是单端、双端Index文库“混搭”,都使得数据拆分更加繁琐复杂。一个优秀的拆分流程,需要在尽量短的周期内完美的拆分出各文库的数据。安诺基因作为文库测序领跑企业,其数据拆分流程完美的阐释了此点,无论多少Index组合,都能够“一网打尽”,真正合理地完成数据的“分类”。


1.4.png

 


结合分类新时尚的趋势,垃圾分类新技能要get到;在大数据时代的背景下,数据分类的新技能也绝不能少。在构建文库时,我们也会碰到Index选择不合理的问题,怎么办?数据分类有问题,安诺平台来处理,如果不想自己费时去研究,关注公众号,安诺手把手教您~



安诺基因   商家主页

地址:北京市亦庄经济技术开发区,科创六街生物医药园B1-B2栋,安诺优达
联系人:裴博士
电话:4008-986-980
传真:010-56315338
Email:service@genome.cn