必要性:
隨著醫(yī)學(xué)項目在范圍內(nèi)的不斷開展,基于新一代測序(NGS)技術(shù)的大規(guī)模基因組數(shù)據(jù)采集已經(jīng)成為重要的研究手段之一。在此基礎(chǔ)上建立起來的大數(shù)據(jù)平臺,輔以、的健康和醫(yī)學(xué)數(shù)據(jù),將為疾病的診斷與治療,藥物的研發(fā)與個體用藥,人群的健康保障等臨床與轉(zhuǎn)化醫(yī)學(xué)研究帶來極大的推動。
在大規(guī)模人群中開展NGS測序工作時,樣本的性、可溯源性將會對終的大數(shù)據(jù)質(zhì)量產(chǎn)生不可忽視的影響。由于NGS測序流程的復(fù)雜性(參見下圖,NGS測序工作經(jīng)典流程),在樣本庫內(nèi)得到標記的樣本,在測序流程中仍然有一定幾率會發(fā)生混淆或者污染。根據(jù)上大型測序中心的估算,隨著測序樣本量的增加,一個操作流程完善、工作人員受過培訓(xùn)的基因檢測實驗室,仍然有可能產(chǎn)生千分之一左右的樣本偏差。
因此,一種有效卻又成本低廉的樣本標記與追蹤手段,在大規(guī)模NGS測序工作中具有重要的現(xiàn)實意義。在美國ACMG(美國醫(yī)學(xué)遺傳學(xué)與基因組學(xué)學(xué)院)發(fā)布的“臨床實驗室NGS測序標準”中指明:“相關(guān)實驗室必須采取措施,避免樣本混淆,并能夠隨時追蹤與確認終結(jié)果”。2017年3月,中華醫(yī)學(xué)會病理學(xué)分會發(fā)布的“臨床分子病理實驗室二代基因測序檢測共識”中進一步闡明:“為確保檢測過程中樣本沒有混淆或污染,可選用多個SNV位點或其他標簽作為樣本身份標識(sample ID),在檢測前對每個樣本進行SNV位點信息的測定,在NGS檢測后對上述位點進行追蹤,證明沒有交叉污染”。
同時,一個大型測序數(shù)據(jù)庫中面臨的樣本種類較為繁雜,其中與腫瘤相關(guān)的樣本類型如石蠟包埋切片(FFPE)中提取的DNA、血漿中提取的循環(huán)腫瘤DNA等,均在正確標記、追蹤之外,還需在NGS文庫制備之前,對其中DNA片段降解程度進行有效評估,從而防止質(zhì)量較差的樣本帶來的測序成本損失。
技術(shù)方案:
樣本標記與跟蹤目前的主要方案,是從待測序列(全基因組、全外顯子組、靶向片段等)中選擇若干標志性單堿基核苷酸變異(SNV),在樣本入庫及測序前,進行基于這些位點的等位基因分型,從而確保樣本的收集與使用流程中沒有發(fā)生混淆。在測序完成后,再次利用之前這些位點的基因數(shù)據(jù),與測序結(jié)果進行再次驗證比對,如果信息一致,即可確認樣本正確性,以及測序覆蓋范圍與數(shù)據(jù)質(zhì)量均達到標準。
為達到足夠的區(qū)分效果,SNV需要滿足以下兩點標準:1)在待檢測人群(中國人群)中具有較高的雜合度與區(qū)分力;2)需達到一定數(shù)量(30-40個)以在大規(guī)模樣本庫中仍可區(qū)分所有個體樣本。根據(jù)這兩點標準,國內(nèi)外人類基因組測序中心Broad Institute與華大基因均采用了美國Agena Bioscience公司基于核酸質(zhì)譜MassARRAY®開發(fā)的樣本標記/追蹤技術(shù)。
該技術(shù)是利用MassARRAY®可以在一個反應(yīng)中完成40多重SNV分型的特點,根據(jù)不同測序項目目標片段,選擇約40個SNV位點(包括性染色體標記位點,用于追蹤樣本性別信息),并加入用于樣本降解程度評估的片段完整性內(nèi)參標記,在同一次反應(yīng)中,同時完成對樣本的標記與質(zhì)控,隨后以報告軟件自動生成檢測結(jié)果,并整合進入樣本庫相關(guān)數(shù)據(jù)。
根據(jù)樣本庫與數(shù)據(jù)庫規(guī)模,MassARRAY®平臺可采用384格式。在一天內(nèi),該平臺可完成對6張384孔芯片(即2304個樣本)的標記/追蹤與質(zhì)控。
利用MassARRAY®強大的定制功能,對不同的測序項目可以選取不同的SNV位點,整合為新的檢測組合,因此具有更高的靈活性與針對性。