白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

首頁 / 專利庫 / 貼標 / 條形碼 / 基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法

基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法

閱讀:1033發(fā)布:2020-08-04

專利匯可以提供基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法專利檢索,專利查詢,專利分析的服務(wù)。并且本 發(fā)明 公開了一種基于分組糾錯碼的測序 條形碼 構(gòu)造與 軟判決 識別方法,所述方法包括:將分組糾錯碼表示為不同的樣本,與預(yù)定偽隨機序列組合生成測序條形碼;內(nèi)譯碼器接收測序條形碼并進行解映射,建立估計 堿 基序列插入/刪節(jié)的隱 馬 爾科夫模型,通過對前向-后向 算法 進行修正,輸出分組碼各個比特的軟判決信息;內(nèi)譯碼器將碼字比特概率信息輸入外譯碼器,作為先驗信息進行譯碼,得到信息序列估計值,據(jù)此進行樣本識別。本發(fā)明能夠有效糾正DNA合成、建庫與測序中的插入、刪節(jié)和替代錯誤。,下面是基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法專利的具體信息內(nèi)容。

1.一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法,其特征在于,所述方法包括:
將分組糾錯碼表示為不同的樣本,與預(yù)定偽隨機序列組合生成測序條形碼;
內(nèi)譯碼器接收測序條形碼并進行解映射,建立估計基序列插入/刪節(jié)的隱爾科夫模型,通過對前向-后向算法進行修正,輸出分組碼各個比特的軟判決信息;
內(nèi)譯碼器將碼字比特概率信息輸入外譯碼器,作為先驗信息進行譯碼,得到信息序列估計值,據(jù)此進行樣本識別。
2.根據(jù)權(quán)利要求1所述的一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法,其特征在于,所述將分組糾錯碼表示為不同的樣本,與預(yù)定偽隨機序列組合生成測序條形碼具體為:
將表示某一特定樣本序號的k比特的信息向量,經(jīng)分組碼編碼器產(chǎn)生長度為n的分組碼碼字;將預(yù)定偽隨機序列與分組碼碼字對應(yīng)位置的比特組合成比特對,按照映射規(guī)則將比特對轉(zhuǎn)換成堿基,生成長度為n的測序條形碼,所述測序條形碼用于樣本建庫、擴增與測序。
3.根據(jù)權(quán)利要求1所述的一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法,其特征在于,所述建立估計堿基序列插入/刪節(jié)的隱馬爾科夫模型具體為:
將堿基漂移量xi作為HMM的隱狀態(tài),接收測序條形碼估計值作為HMM的觀測向量;當發(fā)送第i個堿基ti時,發(fā)生從xi-1到xi的狀態(tài)轉(zhuǎn)移,接收測序條形碼子序列r(i)輸出。
4.根據(jù)權(quán)利要求1所述的一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法,其特征在于,所述通過對前向-后向算法進行修正,輸出分組碼各個比特的軟判決信息具體為:
計算由當前時刻的漂移狀態(tài)a轉(zhuǎn)移到下一時刻的漂移狀態(tài)b的轉(zhuǎn)移概率Pa,b;
對由xi=a轉(zhuǎn)移到xi+1=b時,計算輸出堿基序列的條件概率;
對0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X, 計算發(fā)送堿基為ti=λ時,從狀態(tài)xi=a轉(zhuǎn)移到xi+1=b得到接收堿基序列的中間度量值;
對0≤i<n,-xmax≤a≤xmax,初始化第0時刻的前向度量值,利用轉(zhuǎn)移概率Pc,a和輸出概率,計算第i時刻狀態(tài)xi=a的前向度量值;
對0<i≤n,-xmax≤b≤xmax,初始化第n時刻的后向度量值,利用轉(zhuǎn)移概率Pb,c和輸出概率,遞歸計算第i時刻狀態(tài)xi=b的后向度量值;
對0≤i<n, 計算發(fā)送堿基ti=λ時的核苷酸級軟信息;
對0≤i<n,基于核苷酸級軟信息,根據(jù)發(fā)送堿基與碼字比特的映射關(guān)系,計算碼字比特di取0和1的概率值,組成比特級軟信息。

說明書全文

基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法

技術(shù)領(lǐng)域

[0001] 本發(fā)明涉及基因組學(xué)的高通量測序領(lǐng)域,尤其涉及一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法。

背景技術(shù)

[0002] 下一代測序技術(shù)正在以其高測序通量和低測序成本改變傳統(tǒng)基因組學(xué)研究范式。例如,Illumina測序平臺能夠在2天產(chǎn)生1.8Tb的數(shù)據(jù)量,華大基因最新推出的超高通量基因測序儀MGISEQ-T7日產(chǎn)出數(shù)據(jù)高達6Tb。但是,單個測序樣本往往并不需要如此高的通量,可以通過多個樣本復(fù)用的方法同時進行測序,可以充分利用測序儀不斷增長的測序通量。
使用多路復(fù)用技術(shù),需利用測序條形碼來區(qū)分混合物中的不同樣品。測序后,通過識別測序條形碼將測序讀段進行分離,分配給不同樣品。但是,在該過程中,由于引物合成、連接、樣品擴增以及高通量測序中的錯誤,測序條形碼上可能發(fā)生各類錯誤。更為嚴重的是,對于某些典型的三代測序技術(shù),例如PacBio單分子實時(Single?Molecule?Real-Time,SMRT)測序技術(shù)和津納米孔技術(shù)(Oxford?Nanopore?Technology,ONT),讀取的DNA測序讀段(read)很長,并且插入、刪節(jié)和替代錯誤率很高。例如,SMRT測序中的測序錯誤率甚至?xí)_到11%,并且插入/刪節(jié)錯誤占主要部分,只有1%左右的替代錯誤。ONT測序中有15%左右的測序錯誤率,其中插入/刪節(jié)為主要的錯誤類型(10%),其次是替代錯誤(約占5%)。這些錯誤在解復(fù)用過程中導(dǎo)致樣本錯誤分配,嚴重影響測序效率。因此,需要通過設(shè)計糾錯DNA測序用條形碼來抵抗DNA合成和測序中引入的插入/刪節(jié)和替代錯誤,從而增加正確識別的樣本量,提高整體測序效率。
[0003] 目前,已經(jīng)提出了許多基于糾錯碼的測序條形碼構(gòu)造與識別方法。針對可能存在的插入、刪節(jié)錯誤,研究者提出了基于Levenshtein距離的長度為6bp,最小距離為3的測序條形碼集,因此能夠糾正單個插入/刪節(jié)/替代錯誤。又有研究者在此基礎(chǔ)上,將傳統(tǒng)的Levenshtein距離度量進行改進,提出了“Sequence-Levenshtein”碼,將其作為DNA測序條形碼,這種新的距離度量考慮了DNA文本的干擾以及由此產(chǎn)生的測序條形碼之間的距離。該方法能夠檢測DNA文本中測序條形碼的邊界,并且糾正比傳統(tǒng)的Levenshtein更多的隨機突變;但是,這種方法對于選擇符合糾錯條件的測序條形碼集具有更高的難度和復(fù)雜度。
[0004] 研究者也提出利用Davey和Mackay提出的印碼作為DNA測序條形碼,并對用于測序的信道模型和譯碼器進行適當?shù)?a href='/zhuanli/list-18303-1.html' target='_blank'>修改,使其適用于DNA文本。這種識別方法能夠檢測并恢復(fù)測序條形碼在DNA測序的長讀段中的位置,而且識別錯誤率較低。但是這種方法的譯碼復(fù)雜度較高,短碼的性能并不突出。
[0005] 針對上述問題,發(fā)明人發(fā)明了一種基于一般的分組糾錯碼結(jié)合已知的偽隨機序列的高通量復(fù)用測序用條形碼,一方面可生成不同長度、不同容錯能的條形碼;另一方面,設(shè)計條形碼具有很強的糾錯能力,尤其是對抗三代測序中的插入與刪節(jié)錯誤的能力,非常適合三代測序應(yīng)用。進一步,本發(fā)明提出了針對上述條形碼的檢測方法,通過建立序列的隱爾科夫模型結(jié)合前后向算法以及糾錯糾刪譯碼,能高效識別被錯誤破壞的讀段恢復(fù)原始測序條形碼,具有很高的魯棒性??傊?,本發(fā)明提供一種針對未來三代高通量、高錯誤率、長讀段條件下復(fù)用測序的條形碼的靈活設(shè)計方法與識別方法,具有很好的應(yīng)用前景。

發(fā)明內(nèi)容

[0006] 本發(fā)明提供了一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法,本發(fā)明能夠有效糾正DNA合成、建庫與測序中的插入、刪節(jié)和替代錯誤,詳見下文描述:
[0007] 一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法,所述方法包括:
[0008] 將分組糾錯碼表示為不同的樣本,與預(yù)定偽隨機序列組合生成測序條形碼;
[0009] 內(nèi)譯碼器接收測序條形碼并進行解映射,建立估計基序列插入/刪節(jié)的隱馬爾科夫模型,通過對前向-后向算法進行修正,輸出分組碼各個比特的軟判決信息;
[0010] 內(nèi)譯碼器將碼字比特概率信息輸入外譯碼器,作為先驗信息進行譯碼,得到信息序列估計值,據(jù)此進行樣本識別。
[0011] 其中,所述將分組糾錯碼表示為不同的樣本,與預(yù)定偽隨機序列組合生成測序條形碼具體為:
[0012] 將表示某一特定樣本序號的k比特的信息向量,經(jīng)分組碼編碼器產(chǎn)生長度為n的分組碼碼字;將預(yù)定偽隨機序列與分組碼碼字對應(yīng)位置的比特組合成比特對,按照映射規(guī)則將比特對轉(zhuǎn)換成堿基,生成長度為n的測序條形碼。
[0013] 進一步地,所述建立估計堿基序列插入/刪節(jié)的隱馬爾科夫模型具體為:
[0014] 將堿基漂移量xi作為HMM的隱狀態(tài),接收測序條形碼估計值作為HMM的觀測向量;當發(fā)送第i個堿基ti時,發(fā)生從xi-1到xi的狀態(tài)轉(zhuǎn)移,接收測序條形碼子序列r(i)輸出。
[0015] 其中,所述通過對前向-后向算法進行修正,輸出分組碼各個比特的軟判決信息具體為:
[0016] 計算由當前時刻的漂移狀態(tài)a轉(zhuǎn)移到下一時刻的漂移狀態(tài)b的轉(zhuǎn)移概率Pa,b;
[0017] 對由xi=a轉(zhuǎn)移到xi+1=b時,計算輸出堿基序列的條件概率;
[0018] 對0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X, 計算發(fā)送堿基為ti=λ時,從狀態(tài)xi=a轉(zhuǎn)移到xi+1=b得到接收堿基序列的中間度量值;
[0019] 對0≤i<n,-xmax≤a≤xmax,初始化第0時刻的前向度量值,利用轉(zhuǎn)移概率Pc,a和輸出概率,計算第i時刻狀態(tài)xi=a的前向度量值;
[0020] 對0<i≤n,-xmax≤b≤xmax,初始化第n時刻的后向度量值,利用轉(zhuǎn)移概率Pb,c和輸出概率,遞歸計算第i時刻狀態(tài)xi=b的后向度量值;
[0021] 對0≤i<n, 計算發(fā)送堿基ti=λ時的核苷酸級軟信息;
[0022] 對0≤i<n,基于核苷酸級軟信息,根據(jù)發(fā)送堿基與碼字比特的映射關(guān)系,計算碼字比特di取0和1的概率值,組成比特級軟信息。
[0023] 本發(fā)明提供的技術(shù)方案的有益效果是:
[0024] 1、本發(fā)明將分組糾錯碼表示不同的樣本,與已知偽隨機序列組合構(gòu)造高可靠的測序用條形碼;
[0025] 2、本發(fā)明建立估計堿基序列的隱馬爾科夫模型(HMM),采用前向-后向算法,依據(jù)已知的偽隨機序列估計插入/刪節(jié),生成分組碼各個比特的軟判決信息;
[0026] 3、本發(fā)明執(zhí)行軟判決譯碼,糾正測序條形碼上的各類錯誤,這種測序條形碼識別方案對于測序中的插入、刪節(jié)與替代錯誤,具有高魯棒性。附圖說明
[0027] 圖1為本發(fā)明提出的測序用條形碼軟判決識別方法框圖;
[0028] 圖2為本發(fā)明提出的測序用條形碼軟判決識別方法中譯碼流程圖
[0029] 圖3為本發(fā)明提出的核苷酸級HMM模型以及HMM中輸出概率Qi,a,b的計算示意圖;
[0030] 圖4為DNA測序用條形碼在多路測序中應(yīng)用的系統(tǒng)框圖以及兩種不同的測序錯誤場景圖;
[0031] 圖5為本發(fā)明用于測序用條形碼(BCH(24,9,3))時,在兩種錯誤場景下,其識別錯誤率比較示意圖;
[0032] 圖6為本發(fā)明用于具有不同k值的長度為24堿基的測序用條形碼時,其識別錯誤率比較示意圖。

具體實施方式

[0033] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面對本發(fā)明實施方式作進一步地詳細描述。
[0034] 本發(fā)明提出一種高魯棒性的基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法。具體而言,將一般的分組糾錯碼表示不同的樣本,與預(yù)定偽隨機序列組合構(gòu)造測序用條形碼。進一步,建立估計堿基序列的隱馬爾科夫模型(HMM),采用前向-后向算法,依據(jù)已知的偽隨機序列估計插入/刪節(jié),生成分組碼各個比特的軟判決信息。進一步執(zhí)行軟判決譯碼,有效地糾正測序條形碼上的各類錯誤。這種識別方法能夠抵抗DNA合成、建庫與測序中的插入、刪節(jié)和替代錯誤,具有很高魯棒性。
[0035] 參見圖1和圖2,一種基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法的具體步驟為:
[0036] (1)用長度為k比特的不同信息序列分別表示樣本序號{0,1,...,2k-1},則DNA測序用條形碼最多能支持2k個不同樣本并行測序;將表示某一特定樣本序號i(i∈{0,1,...,2k-1})的k比特的信息向量mi,經(jīng)過分組碼編碼器(n,k,t),產(chǎn)生長度為n的分組碼碼字d(參數(shù)t表示分組碼碼字的糾錯能力,可根據(jù)具體測序質(zhì)量進行選擇);將預(yù)定偽隨機序列w=(w0,...,wn-1)與分組碼碼字d=(d0,...,dn-1)對應(yīng)位置的比特組合成比特對(w0d0,w1d1,...,wn-1dn-1),按照映射規(guī)則{00→A,01→T,10→G,11→C},將比特對轉(zhuǎn)換成堿基,生成長度為n的測序條形碼t;經(jīng)過樣本建庫、擴增與測序,得到包含各類錯誤的接收測序條形碼估計值
[0037] 其中,上述對樣本進行建庫、擴增與測序的操作為本領(lǐng)域技術(shù)人員所公知,本發(fā)明實施例對此不做贅述。
[0038] (2)對接收測序條形碼估計值 進行解映射,按照解映射規(guī)則{A→00,T→01,G→10,C→11},將堿基序列(r0,...,rn-1)轉(zhuǎn)換為比特對(u0c0,u1c1,...,un-1cn-1),得到相應(yīng)的接收序列估計值u=(u0,...,un-1)和接收碼字估計值c=(c0,...,cn-1);
[0039] (3)參見圖3(a),建立估計堿基序列插入/刪節(jié)的隱馬爾科夫模型(HMM),將堿基漂移量xi作為HMM的隱狀態(tài),接收測序條形碼估計值 作為HMM的觀測向量,其中, 為接收測序條形碼 的子序列;當發(fā)送第i個堿基ti時,發(fā)生從xi-1
到xi的狀態(tài)轉(zhuǎn)移,從而導(dǎo)致接收測序條形碼子序列r(i)的輸出;這里,第i個位置堿基的漂移量xi(i=0,1,...,n)表示從發(fā)送第一個堿基t0到待發(fā)送堿基ti之間存在的插入數(shù)目減去刪節(jié)數(shù)目,漂移量xi的狀態(tài)集為X={-xmax,...,-1,0,1,...,xmax},共有X=2xmax+1個取值,xmax表示最大漂移量,設(shè)置為 (Pd為堿基刪節(jié)概率);
[0040] (4)計算由當前時刻的漂移狀態(tài)a(a∈X)轉(zhuǎn)移到下一時刻的漂移狀態(tài)b(b∈{a-1,...,a+I}且b∈X)的轉(zhuǎn)移概率Pa,b,具體公式為,
[0041]
[0042] 其中,Pi、Pd分別表示堿基插入、刪節(jié)概率,根據(jù)測序后的堿基插入、刪節(jié)數(shù)目估計得到;I表示最大連續(xù)插入堿基數(shù),設(shè)置為大于1的常數(shù);連續(xù)插入堿基序列的長度呈幾何分布,當限定連續(xù)插入長度不超過I的條件下,歸一化常數(shù)
[0043] (5)參見圖3(b),對0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X,計算由xi=a轉(zhuǎn)移到xi+1=b時,輸出堿基序列(ri+a,...,ri+b)的條件概率,即輸出概率Qi,a,b(ri+a,...,ri+b);* *
以wi=0,ti=A為例,當u=wi(u=ui+b是接收序列u中與偽隨機比特wi相關(guān)聯(lián)的接收比特),除發(fā)生插入/刪節(jié)外,堿基可能有兩種傳輸情形:(i)正確傳輸A(00)→A(00),正確傳輸概率為(1-Ps)(Ps表示堿基替代概率);(ii)替代A(00)→T(01),該替代情形占wi=0對應(yīng)的所有可能的堿基替代情形(A(00)→T(01),A(00)→G(10),A(00)→C(11))的1/3,因此,概率為1/*
3Ps;當u≠wi時,除發(fā)生插入/刪節(jié)外,堿基只有一種傳輸情形,即替代情形A(00)→G(10),A(00)→C(11),占所有可能符號替代情形的2/3,因此,概率為2/3Ps;wi=1的情況類似;因此,輸出概率Qi,a,b(ri+a,...,ri+b)修正后的計算公式為:
[0044]
[0045] 其中,u*=ui+b是接收序列u中與偽隨機比特wi相關(guān)聯(lián)的接收比特。
[0046] (6)對0≤i<n,-xmax≤a≤xmax,a-1≤b≤a+I且b∈X, 計算發(fā)送堿基為ti=λ時,從狀態(tài)xi=a轉(zhuǎn)移到xi+1=b的中間度量值 中間度量包含碼字信息(di=0,1),則發(fā)送符號ti是已知的。
[0047] 因此,直接通過比較發(fā)送符號ti和對應(yīng)的接收符號r*,計算中間度量值;即若ti=r*,除發(fā)生插入/刪節(jié)外,堿基正確傳輸,概率為1-Ps;若ti≠r*,則堿基發(fā)生替代,概率為Ps;中間度量值 修正后的計算公式為:
[0048]
[0049]
[0050] 其中, r*=ri+a是接收堿基序列 中與發(fā)送堿基ti相關(guān)聯(lián)的接收堿基; 表示偽隨機比特wi對應(yīng)的堿基符號子集,由比特對到堿基的映射規(guī)則可知,當wi=0,當wi=1,
[0051] (7)對0≤i<n,-xmax≤a≤xmax,初始化第0時刻的前向度量值利用轉(zhuǎn)移概率Pc,a和輸出概率Qi,c,a(ri+c,...,ri+a),遞歸計算第i時
刻狀態(tài)xi=a的前向度量值Fi(a)=P(r0,...,ri-1+a,xi=a|w),
[0052]
[0053] 其中,a,c表示同步漂移狀態(tài),c∈{a-I,...,a+1}且c∈X;Fi(a)表示xi=a且接收到前i+a個堿基的概率;
[0054] (8)對0<i≤n,-xmax≤b≤xmax,初始化第n時刻的后向度量值利用轉(zhuǎn)移概率Pb,c和輸出概率Qi,b,c(ri+b,...,ri+c),遞歸計算第i
時刻狀態(tài)xi=b的后向度量值Bi(b)=P(ri+b,...,rn|xi=b,w),
[0055]
[0056] 其中,b,c表示同步漂移狀態(tài),c∈{b-1,...,b+I}且c∈X;Bi(b)表示xi=b的條件下輸出堿基序列(ri+b,...)的概率;
[0057] (9)對0≤i<n, 計算發(fā)送堿基ti=λ時的核苷酸級軟信息P(r|ti=λ,w):
[0058]
[0059] (10)對于0≤i<n,基于核苷酸級軟信息 同時根據(jù)發(fā)送堿基與碼字比特di∈{0,1}的映射關(guān)系,計算碼字比特di取0和1的概率值(li0,li1),組成比特級軟信息l=((l00,l01),(l10,l11),...,(ln-1,0,ln-1,1));
[0060]
[0061] 具體地,對于wi=0,χ0={A,T},
[0062]
[0063] 對于wi=1,χ1={G,C},
[0064]
[0065] (11)根據(jù)分組碼各個比特對應(yīng)的軟信息l,進行軟判決譯碼,輸出譯碼碼字 得到信息向量的估計值 從而識別不同測序樣本。
[0066] 下面給出一個具體的實施例,說明本發(fā)明給出的基于分組糾錯碼的測序條形碼構(gòu)造與軟判決識別方法的具體執(zhí)行步驟以及對各種非理想因素的高魯棒性。
[0067] 如圖4所示,在本發(fā)明的實施例中,分組糾錯碼具體采用Bose-Chaudhuri?Hocquenghem(BCH)碼和定義在高階伽羅華域(Galois?Field,GF)上的非二進制單奇偶校驗(Non-Binary?Single?Parity?Check,NB-SPC)碼構(gòu)造DNA測序用條形碼。然后,經(jīng)過DNA樣本建庫、擴增和測序,基于測序讀上的引物位置,得到包含各類錯誤的接收測序條形碼。最后,對接收測序條形碼進行基于軟信息的識別。
[0068] 在步驟(1)中,分別用BCH(24,14,2),BCH(24,9,3)和定義在GF(26)的NB-SPC(4,3)生成編碼碼字d。這里,定義在GF(26)的NB-SPC(4,3)可以視為n=24,k=18的二進制單奇偶校驗碼。然后將設(shè)計的長度為24的偽隨機序列w與碼字d對應(yīng)位置的比特組合成比特對,通過映射{00→A,01→T,10→G,11→C},生成三種不同的長度為24堿基的測序條形碼t。
[0069] 考慮到實際測序場景中,barcode需要嵌入到DNA文本中,由于沒有“分隔符”將barcode與DNA文本分開,因而檢測不到由于插入或刪節(jié)而導(dǎo)致的barcode長度變化。為了模擬實際測序錯誤情形,按照以下兩種不同的錯誤場景對barcode加入一定量的插入、刪節(jié)和替代錯誤,如圖4所示。(i)Barcode上隨機發(fā)生相同數(shù)目的插入和刪節(jié),以及一定數(shù)目的替代,barcode長度不變。(ii)Barcode上發(fā)生插入或者刪節(jié),導(dǎo)致barcode長度發(fā)生變化。若barcode長度由于刪節(jié)而縮短,則在barcode尾部補入來自后續(xù)樣本序列的堿基。若barcode長度由于插入而延長,則刪除barcode尾部多余堿基。然后,得到包含各類錯誤的長度固定的接收測序條形碼估計值 其中,Ni=Nd,則t與 的長度相等。
[0070] 在步驟(2)中,首先,按照規(guī)則{A→00,T→01,G→10,C→11},對 進行解映射,得到接收序列估計值u。然后,將 w和u輸入內(nèi)譯碼器,采用修正的基于HMM的前向-后向算法,輸出碼字比特軟信息。各個參數(shù)設(shè)置如下:根據(jù)堿基插入、刪節(jié)、替代數(shù)目Ni、Nd、Ns確定插入、刪節(jié)、替代概率分別為:Pi=Ni/n,Pd=Nd/n,Ps=Ns/n(n=24),則可得測序條形碼上每堿基突變概率Pmut=Pi+Pd+Ps;信道中最大連續(xù)插入數(shù)目設(shè)為I=2,最大漂移量設(shè)為每個時刻的狀態(tài)數(shù)X=2xmax+1。最后輸出比特概率信息l=((l00,l01),(l10,l11),...,(l23,0,l23,1))。最后,將比特概率信息l輸入分組碼譯碼器得到譯碼碼字其中,BCH(n,k,t)譯碼器采用Chase軟判決譯碼算法進行譯碼,最小不可靠位數(shù)設(shè)為p=
8。NB-SPC(n,k)譯碼器采用基于快速傅里葉變換的置信傳播(belief?propagation?decoding?algorithm?based?on?fast?Fourier?transform,F(xiàn)FT-BP)譯碼算法。
[0071] 圖5給出了在兩種錯誤場景下,由BCH(24,9,3)構(gòu)造的24-nt的測序條形碼的識別錯誤率與條形碼上堿基突變概率Pmut∈[0.10,0.25]的關(guān)系曲線。本次仿真考慮了兩種插入/刪節(jié)概率情形Pi=Pd=0.033和Pi=Pd=0.066。仿真結(jié)果表明對于固定的堿基突變概率Pmut,測序條形碼在插入/刪節(jié)概率為Pi=Pd=0.066情形下的識別錯誤率低于在Pi=Pd=0.033情形下,表明測序條形碼上不同錯誤類型的比例會對測序條形碼的識別錯誤率產(chǎn)生影響。此外,對于Pmut∈[0.10,0.25],錯誤場景(ii)下的識別錯誤率與錯誤場景(i)下的識別錯誤率差異很小,當Pmut≤0.10,識別錯誤率均低于10-5,具有高魯棒性。說明測序條形碼在兩種測序錯誤場景中均具有良好的糾錯性能,這為測序條形碼在DNA實際測序中的應(yīng)用提供了可靠保證。
[0072] 圖6給出了在錯誤場景(ii)中,構(gòu)造的三種具有不同k值的長度為24堿基的測序條形碼的識別錯誤率與堿基突變概率Pmut的關(guān)系圖,其中Pmut∈[0.10,0.22](Pi=Pd=0.033和Pi=Pd=0.066)。仿真結(jié)果表明,具有不同k值的測序條形碼具有不同的糾錯性能,k值越小,其糾錯能力越強,但其能支持的并行樣本數(shù)越少。因此,可以根據(jù)不同的測序質(zhì)量和試驗要求構(gòu)造具有不同長度、不同糾錯能力的測序條形碼。
[0073] 本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
[0074] 以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
相關(guān)專利內(nèi)容
標題 發(fā)布/更新時間 閱讀量
條形碼生成器 2020-05-12 749
安全矩陣條形碼 2020-05-12 864
條形碼標簽 2020-05-11 311
八向數(shù)條形碼 2020-05-12 318
條形碼讀取裝置 2020-05-12 507
防偽條形碼 2020-05-11 671
用于產(chǎn)生組合式條形碼圖像的系統(tǒng)及方法 2020-05-11 726
一種條形碼 2020-05-11 638
解碼條形碼 2020-05-11 368
全自動條形碼考勤門禁機 2020-05-12 827
高效檢索全球?qū)@?/div>

專利匯是專利免費檢索,專利查詢,專利分析-國家發(fā)明專利查詢檢索分析平臺,是提供專利分析,專利查詢,專利檢索等數(shù)據(jù)服務(wù)功能的知識產(chǎn)權(quán)數(shù)據(jù)服務(wù)商。

我們的產(chǎn)品包含105個國家的1.26億組數(shù)據(jù),免費查、免費專利分析。

申請試用

分析報告

專利匯分析報告產(chǎn)品可以對行業(yè)情報數(shù)據(jù)進行梳理分析,涉及維度包括行業(yè)專利基本狀況分析、地域分析、技術(shù)分析、發(fā)明人分析、申請人分析、專利權(quán)人分析、失效分析、核心專利分析、法律分析、研發(fā)重點分析、企業(yè)專利處境分析、技術(shù)處境分析、專利壽命分析、企業(yè)定位分析、引證分析等超過60個分析角度,系統(tǒng)通過AI智能系統(tǒng)對圖表進行解讀,只需1分鐘,一鍵生成行業(yè)專利分析報告。

申請試用

QQ群二維碼
意見反饋