[0002] 本申請要求于2017年5月19日提交的題為“用于分析數(shù)據(jù)集的系統(tǒng)和方法(Systems?and?Methods?for?Analyzing?Datasets)”的美國臨時
專利申請?zhí)?2/508,947和于2017年11月7日提交的題為“用于分析數(shù)據(jù)集的系統(tǒng)和方法”的美國臨時專利申請?zhí)?2/582,866的優(yōu)先權(quán),所述專利申請中的每一個通過引用結(jié)合在此。
技術(shù)領(lǐng)域
[0003] 本
說明書描述了與分析數(shù)據(jù)集有關(guān)的技術(shù)。
背景技術(shù)
[0004] 數(shù)據(jù)集中模式的發(fā)現(xiàn)促進了許多技術(shù)應用,如在
生物學領(lǐng)域?qū)NA提取協(xié)議的驗證和使得在單個細胞中對mRNA進行mRNA測序的相關(guān)方法。此類技術(shù)使得在單個數(shù)據(jù)集中的數(shù)百甚至數(shù)千個單個細胞中進行高通量轉(zhuǎn)錄物鑒定和基因測序。因此,在本領(lǐng)域中,已經(jīng)產(chǎn)生了包含屬性值(例如映射到特定細胞中的單獨基因的轉(zhuǎn)錄物讀段(transcript?read))的數(shù)據(jù)集。盡管這是本領(lǐng)域的重大進步,但是需要解決許多技術(shù)問題以使此類數(shù)據(jù)更加有用。
[0005] 特別是,適應性人類免疫系統(tǒng)由B細胞和T細胞構(gòu)成。在T細胞和B細胞發(fā)育過程中,這些細胞表達用于識別病原體的獨特異二聚體受體。這些受體鏈中的每一條都是通過
體細胞重新布置過程產(chǎn)生的,體細胞重新布置過程將TCR基因和BCR基因的不同
片段連接并產(chǎn)生新型基因。這種連接過程是不精確的,因為在連接位點插入了非模板核苷酸(N核苷酸),以及參與重新布置的種系基因中3'-和5'-核苷酸缺失。這種隨機核苷酸插入或缺失的區(qū)域稱為第三互補決定區(qū)(CDR3)。所得的CDR3具有對所述特定B細胞或T細胞及其所有子代具有特異性的獨特核苷酸序列。因此,所述受體的克隆類型性質(zhì)。CDR3為這些受體中與完整可溶性
抗原(B細胞)或細胞內(nèi)加工抗原相互作用最密切的部分,這些抗原以在MHC分子(T細胞)中加載的免疫原性肽的形式存在。見Yassai等人,2009,“T細胞受體克隆類型命名法(A?clonotype?nomenclature?for?T-cell?receptors)”,《免疫遺傳學(Immunogenetics)》,61,第493-502頁??紤]到產(chǎn)生大量數(shù)據(jù)的能
力,本領(lǐng)域需要用于分析此類數(shù)據(jù)的改進的系統(tǒng)和方法。
發(fā)明內(nèi)容
[0006] 在本公開中提供了用于解決上述分析數(shù)據(jù)集存在的問題的技術(shù)解決方案(例如,計算系統(tǒng)、方法和非暫時性計算機可讀存儲介質(zhì))。
[0007] 下文呈現(xiàn)了本發(fā)明的概述,以便提供對本發(fā)明的一些方面的基本理解。此概述不是本發(fā)明的廣泛概要。此概述并不旨在標識本發(fā)明的關(guān)鍵/關(guān)鍵要素或描繪本發(fā)明的范圍。此概述的唯一目的是以簡化的形式呈現(xiàn)本發(fā)明的概念中的一些作為對之后所呈現(xiàn)的更加詳細的說明的序言。
[0008] 本公開的一個方面提供了一種系統(tǒng),其包括一個或多個處理核、
存儲器和顯示器,所述存儲器存儲用于執(zhí)行用于使用所述一個或多個處理核分析一個或多個數(shù)據(jù)集的方法的指令。所述方法包括獲得表示來自單個第一對象的第一多個細胞的第一數(shù)據(jù)集。所述第一數(shù)據(jù)集表示第一多個克隆類型。所述第一數(shù)據(jù)集包含所述第一多個克隆類型中的每個相應克隆類型的多個重疊群,其中所述多個重疊群中的每個相應重疊群包括:所述相應重疊群的鏈類型的指示;來自多個
條形碼的針對所述相應重疊群的條形碼,其中所述條形碼與構(gòu)建所述相應重疊群的所述第一多個細胞中的相應細胞相關(guān)聯(lián);以及所述相應細胞的mRNA的重疊群共有序列。在所述方法中,使用所述第一數(shù)據(jù)集確定所述第一多個克隆類型中的每個相應克隆類型的表示所述相應克隆類型的所述第一多個細胞的百分比、絕對數(shù)或比例。在所述顯示器的第一部分上提供第一二維
可視化。所述第一二維可視化的第一軸線代表所述第一多個克隆類型中的單獨克隆類型,并且所述第一二維可視化的第二軸線代表表示相應克隆類型的所述第一多個細胞的所述百分比、所述絕對數(shù)或所述比例。在所述顯示器的第二部分上提供所述第一多個克隆類型的列表。
[0009] 在一些
實施例中,所述第一可視化為條形圖。
[0010] 在一些實施例中,所述第一多個克隆類型中的相應克隆類型在所述二維可視化的所述第二軸線上按具有所述相應克隆類型的所述第一多個細胞的所述百分比、所述絕對數(shù)或所述比例排序。
[0011] 在一些實施例中,所述第一多個克隆類型中的相應克隆類型在所述列表中按具有所述相應克隆類型的所述第一多個細胞的所述百分比、所述絕對數(shù)或所述比例排序。
[0012] 在一些實施例中,所述第一多個細胞中的多于一個細胞具有所述第一多個克隆類型中的同一克隆類型。在一些實施例中,所述第一多個細胞中的多于十個細胞具有所述第一多個克隆類型中的同一克隆類型。
[0013] 在一些實施例中,所述第一多個克隆類型包括25個克隆類型,并且所述第一多個細胞包含所述第一多個克隆類型中的每個克隆類型的至少一個細胞。
[0014] 在一些實施例中,所述第一多個克隆類型包括100個克隆類型,并且所述第一多個細胞包含所述第一多個克隆類型中的每個克隆類型的至少一個細胞。
[0015] 在一些實施例中,所述第一多個細胞由來自所述單個第一對象的B細胞組成。
[0016] 在一些實施例中,所述列表包含所述第一多個克隆類型中的第一克隆類型的所述多個重疊群中的第一重疊群的以下各項:所述第一重疊群中的V片段的標識符;所述第一重疊群中的J區(qū)的標識符;和所述第一重疊群中的C區(qū)的標識符。在一些此類實施例中,所述第一重疊群用于α鏈或γ鏈。在一些實施例中,所述第一重疊群用于β鏈或δ鏈,并且所述第一重疊群進一步包含所述第一重疊群中的D區(qū)的標識符。
[0017] 在一些實施例中,所述方法進一步包括在所述顯示器上提供可供性(affordance),所述可供性允許用戶將在所述第一二維可視化和所述列表中顯示的克隆類型的數(shù)量限制為小于所述第一數(shù)據(jù)集中的所述第一多個克隆類型的數(shù)量。
[0018] 在一些實施例中,所述方法進一步包括提供第一可供性,其中當用戶切換所述第一可供性時,所述第一二維可視化的顯示被第二二維可視化代替,同時保持所述第一多個克隆類型的所述列表。在此類實施例中,所述第二二維可視化提供用于選擇由所述第一數(shù)據(jù)集表示的淋巴細胞受體的一個或多個基因的第一
過濾器,所述第二二維可視化還提供用于一個或多個鏈類型的第二過濾器。所述第二二維可視化的第一軸線表示一個或多個單獨基因。所述第二二維可視化的第二軸線表示所述第一數(shù)據(jù)集中存在的包含所述一個或多個單獨基因——不論所述一個或多個單獨基因如何結(jié)合到克隆類型中——的所述多個重疊群的所述百分比、所述絕對數(shù)或所述比例。當用戶切換所述第一過濾器時,選擇所述一個或多個基因的同一性。當用戶切換所述第二過濾器時,選擇一個或多個鏈類型,由此將所述第一數(shù)據(jù)集中存在的包含所述一個或多個單獨基因的所述多個重疊群的所述百分比、所述絕對數(shù)或所述比例限制為由所述第二過濾器標識的所述一個或多個鏈類型中包含所述一個或多個單獨基因的那些重疊群。在一些此類實施例中,所述第一多個細胞由來自所述單個第一對象的B細胞組成,并且所述一個或多個基因為V基因、D基因、J基因和C基因的任意組合。
[0019] 在一些實施例中,所述第一多個細胞中的相應細胞的所述第一數(shù)據(jù)集中的所述第一多個克隆類型中的第一克隆類型的所述多個重疊群中的第一重疊群的長度介于600與800個
堿基之間,并且通過
覆蓋所述第一重疊群的多個序列讀段來確定,所述多個序列讀段的平均讀段長度小于600個堿基,并且所述多個序列讀段中的每個序列讀段具有相同的唯一分子標識符。
[0020] 在一些實施例中,所述第一多個細胞由來自所述單個第一對象的B細胞組成。
[0021] 在一些實施例中,所述單個第一對象為
哺乳動物。
[0022] 在一些實施例中,所述單個第一對象為哺乳動物、爬行動物、
鳥類、兩棲動物、魚類、有
蹄動物、
反芻動物、
牛科動物、
馬科動物、山羊類、
綿羊類、豬、駱駝科動物、猴、猿、熊科動物、
家禽、狗、貓、大鼠、魚、海豚、鯨或鯊魚。
[0023] 在一些實施例中,所述方法進一步包括提供第一可供性,其中當用戶切換所述第一可供性時,所述第一二維可視化的顯示被第二二維可視化代替,同時保持所述第一多個克隆類型的所述列表,所述第二二維可視化提供用于選擇由所述第一數(shù)據(jù)集表示的淋巴細胞受體的基因?qū)Φ牡谝贿^濾器,所述第二二維可視化提供用于一個或多個鏈類型的第二過濾器,所述第二二維可視化的第一軸線表示所述基因?qū)χ械牡谝粏为毣?,并且所述第二二維可視化的第二軸線表示所述基因?qū)χ械牡诙为毣?,并且其中所述第二二維可視化中的多個二維單元格中與所述第一軸線和所述第二軸線相交的每個相應單元格指示由所述第一數(shù)據(jù)集中的所述第二過濾器
指定的所述一個或多個鏈類型的重疊群的數(shù)量,所述第一數(shù)據(jù)集包含所述相應二維單元格的所述第一軸線上的所述相應基因和所述第二軸線上的所述相應基因。在一些此類實施例中,所述第二二維可視化為熱圖,并且所述熱圖提供以
顏色編碼格式提供由所述第一數(shù)據(jù)集中的所述第二過濾器指定的所述一個或多個鏈類型的重疊群的數(shù)量的數(shù)字指示的量表,所述第一數(shù)據(jù)集包含所述第二二維可視化的所述多個二維單元格中的每個二維單元格的所述第一軸線上的所述相應基因和所述第二軸線上的所述相應基因。
[0024] 在一些實施例中,所述方法進一步包括在所述顯示器上提供一個或多個可供性,其中所述一個或多個可供性被配置成接收用戶指定的選擇標準。響應于接收到所述用戶指定的選擇標準,將所述列表限于所述第一多個克隆類型中與所述選擇標準匹配的那些克隆類型。此外,所述選擇標準為至少一個重疊群、至少一個條形碼、至少一個
氨基酸序列或至少一個核酸序列。
[0025] 在一些實施例中,響應于接收到所述用戶指定的選擇標準,進一步將所述第一二維可視化限于顯示所述第一多個克隆類型中與所述選擇標準匹配的那些克隆類型。
[0026] 在一些實施例中,所述選擇標準包含
通配符,由此匹配多于一個重疊群、條形碼、氨基酸序列或核酸序列。
[0027] 在一些實施例中,所述列表包含多個行,并且所述多個行中的每個相應行指定所述第一多個克隆類型中的克隆類型的所述多個重疊群中的重疊群的鏈類型的指示。在此類實施例中,所述方法進一步包括:響應于用戶對所述多個行中的某一行的選擇,用由所選行表示的鏈的匯總信息板代替所述第一二維可視化的顯示,同時保持所述列表的顯示。在一些此類實施例中,所述匯總信息板包括:參考序列,所述參考序列為所選鏈類型的公開精選序列,來自所述第一數(shù)據(jù)集中包含所述所選鏈類型的所有重疊群的共有序列,所述第一數(shù)據(jù)集中包含所述所選鏈類型的每個相應重疊群的表示,并且所述板中的所述參考序列、所述共有序列、每個相應重疊群的每個表示占據(jù)所述板中的不同行,并且彼此按順序?qū)R。在一些實施例中,相應重疊群的表示包含一個或多個指示符,其中所述一個或多個指示符包含所述相應重疊群的起始密碼子、所述相應重疊群與所述共有序列之間的錯配、所述相應重疊群中相對于所述共有序列所引起的缺失、所述相應重疊群的終止密碼子或所述相應重疊群的編碼區(qū)。在一些此類實施例中,響應于選擇所述共有序列,所述方法進一步包括以被配置成供用戶剪切并粘貼到在所述系統(tǒng)上運行的單獨分開的應用中的格式顯示整個共有序列。
[0028] 在一些實施例中,響應于選擇在所述匯總信息板中顯示的重疊群的表示,所述方法進一步包括顯示關(guān)于所選重疊群的信息,所述信息包含以下中的一個或多個:所述重疊群的條形碼、所述重疊群的標識符、支持所述重疊群的唯一分子標識符的數(shù)量、支持所述重疊群的序列讀段的數(shù)量、所述重疊群的V基因的參考同一性、所述重疊群的D基因的參考同一性、所述重疊群的J基因的參考同一性和所述重疊群的C基因的參考同一性。
[0029] 在一些實施例中,所述方法進一步包括顯示切換鍵,用戶對所述切換鍵的選擇將所述數(shù)據(jù)集中包含所述所選鏈類型的每個相應重疊群的所述表示從(i)每個相應重疊群的圖形表示和(ii)每個相應重疊群的序列中的一個切換到(i)每個相應重疊群的圖形表示和(ii)每個相應重疊群的序列中的另一個。
[0030] 在一些實施例中,響應于選擇在所述匯總信息板中顯示的第一重疊群的表示,所述方法進一步包括顯示多個序列讀段中的每個序列讀段與所述第一重疊群的比對,其中所述多個序列讀段中的每個序列讀段具有與所述第一重疊群相關(guān)聯(lián)的唯一分子標識符。在一些實施例中,多個唯一分子標識符與所述第一重疊群相關(guān)聯(lián),并且所述方法進一步包括顯示提供在(i)選擇所述多個唯一分子標識符中的所有唯一分子標識符與(ii)選擇所述多個唯一分子標識符中的單個唯一分子標識符之間進行選擇的唯一分子標識符可供性,當選擇所述單個唯一分子標識符時,在多個序列讀段中的每個序列讀段與所述第一重疊群的所述比對中僅顯示所述第一重疊群的具有所述單個唯一分子標識符的那些序列讀段。
[0031] 在一些實施例中,所述方法進一步包括獲得表示來自單個第二對象的第二多個細胞的第二數(shù)據(jù)集,其中所述第二數(shù)據(jù)集表示第二多個克隆類型,所述第二數(shù)據(jù)集包含所述第二多個克隆類型中的每個相應克隆類型的多個重疊群,其中所述多個重疊群中的每個相應重疊群包括:所述相應重疊群的鏈類型的指示;所述相應重疊群的條形碼,其中所述條形碼與構(gòu)建所述相應重疊群的所述第二多個細胞中的相應細胞相關(guān)聯(lián);以及所述相應細胞的mRNA的重疊群共有序列。在所述方法中,使用所述第二數(shù)據(jù)集確定所述第二多個克隆類型中的每個相應克隆類型的表示所述相應克隆類型的所述第二多個細胞的百分比、絕對數(shù)或比例。此外,在所述方法中,在成對克隆類型單細胞層面執(zhí)行所述第一數(shù)據(jù)集與所述第二數(shù)據(jù)集的比較,所述比較對具有所述第一數(shù)據(jù)集中的給定克隆類型的與具有所述第二數(shù)據(jù)集中的同一克隆類型的細胞的克隆類型匹配的細胞數(shù)量進行評估,由此標識所述第一數(shù)據(jù)集與所述第二數(shù)據(jù)集之間的成對克隆類型共通性。在一些此類實施例中所述第一數(shù)據(jù)集與所述第二數(shù)據(jù)集之間的所述成對克隆類型共通性為森下-霍恩(Morisita-Horn)度量。在一些此類實施例中,所述方法進一步包括顯示所述第一多個克隆類型的子集中的每個克隆類型的以下各項:表示所述第一數(shù)據(jù)集中的所述相應克隆類型的所述第一多個細胞的百分比、絕對數(shù)或比例,以及表示所述第二數(shù)據(jù)集中的所述相應克隆類型的所述第二多個細胞的百分比、絕對數(shù)或比例。在一些實例中,所述第一多個克隆類型的所述子集為所述第一多個克隆類型中各自至少由所述第一多個細胞的
閾值百分比、絕對數(shù)或比例表示的那些克隆類型。
[0032] 在一些實施例中,所述方法進一步包括顯示多個克隆類型元件中的每個相應克隆類型元件的以下各項:所述第一數(shù)據(jù)集中包含所述相應克隆類型元件的所述重疊群的百分比、絕對數(shù)或比例,以及所述第二數(shù)據(jù)集中包含所述相應克隆類型元件的所述重疊群的百分比、絕對數(shù)或比例。在一些此類實施例中,所述多個克隆類型元件中的每個克隆類型元件為不同的V基因序列。在一些實施例中,所述多個克隆類型元件中的每個克隆類型元件為不同的D基因序列。在一些實施例中,所述多個克隆類型元件中的每個克隆類型元件為不同的J基因序列。在一些實施例中,所述多個克隆類型元件中的每個克隆類型元件為不同的C基因序列。
[0033] 在一些實施例中,所述第一多個細胞由來自所述單個第一對象的B細胞組成,所述第二多個細胞由來自所述單個第二對象的B細胞組成,并且所述方法進一步包括顯示多個B細胞同種型中的每個相應B細胞同種型的以下各項:所述第一數(shù)據(jù)集的具有所述相應B細胞同種型的百分比、絕對數(shù)或比例,以及所述第二數(shù)據(jù)集的具有所述相應B細胞同種型的百分比、絕對值或比例。
[0034] 在一些實施例中,所述單個第一對象和所述單個第二對象為同一對象。
[0035] 在一些實施例中,所述單個第一對象和所述單個第二對象為不同對象。
[0036] 在一些實施例中,所述方法進一步包括獲得表示來自單個第二對象的第二多個細胞的第二數(shù)據(jù)集,其中所述第二數(shù)據(jù)集包括所述第二多個細胞中的每個相應細胞的多個基因中的每個基因的mRNA的對應離散屬性值,所述第二多個細胞中的每個相應細胞的多個基因中的每個基因的mRNA的每個相應離散屬性值由所述多個條形碼中的一個或多個條形碼支持,并且由所述第一數(shù)據(jù)集表示的所述第一多個細胞中的單獨相應細胞存在于所述第二多個細胞中,并且能夠通過所述多個條形碼在所述第一數(shù)據(jù)集與所述第二數(shù)據(jù)集之間映射。在所述方法中,使用所述第二多個細胞中的每個相應細胞的所述多個基因中的每個基因的mRNA的所述離散屬性值或由此導出的主分量對所述第二數(shù)據(jù)集進行聚類,由此將所述第二多個細胞中的每個相應細胞分配給多個集群中的對應集群,其中所述多個集群中的每個相應集群由所述第二多個細胞的唯一不同子集組成。在所述方法中,通過選擇所述第一多個細胞中映射到從所述多個集群中選擇的集群中的所述第二多個細胞中的所述細胞上的那些細胞來選擇所述第一多個細胞的子集。在所述方法中,顯示來自所述第一多個細胞的所述子集的所述第一數(shù)據(jù)集的克隆類型信息,而不顯示所述第一多個細胞中處于所述第一多個細胞的所述子集之外的細胞的克隆類型信息。在一些此類實施例中,所述顯示克隆類型信息包括提供第二二維可視化,其中所述第二二維可視化的第一軸線代表在所述第一多個細胞的所述子集中表示的單獨克隆類型,并且所述二維可視化的第二軸線(例如
正交于第一軸線)代表表示所述第一多個細胞的所述子集中的相應克隆類型的所述第一多個細胞的所述子集的百分比、絕對值或比例。
[0037] 在一些實施例中,所述單個第一對象和所述單個第二對象為同一對象。
[0038] 在一些實施例中,對所述第二數(shù)據(jù)集進行聚類包括層次聚類、使用最近鄰
算法進行的凝聚聚類、使用最遠鄰算法進行的凝聚聚類、使用平均聯(lián)動算法進行的凝聚聚類、使用質(zhì)心算法進行的凝聚聚類或使用平方和算法進行的凝聚聚類。
[0039] 在一些實施例中,所述對所述第二數(shù)據(jù)集進行聚類包括應用魯汶(Louvain)模
塊度算法、k-均值聚類、模糊k-均值
聚類算法或Jarvis-Patrick聚類。
[0040] 在一些實施例中,所述對所述第二數(shù)據(jù)集進行聚類包括將所述離散屬性值數(shù)據(jù)集k均值聚類成預定集群數(shù)量。在一些此類實施例中,所述預定集群數(shù)量為介于2與50之間的整數(shù)。
[0041] 本公開的另一方面提供了一種用于分析一個或多個數(shù)據(jù)集的方法。所述方法包括在包括存儲器、處理器和顯示器的
計算機系統(tǒng)處:使用所述處理器獲得表示來自單個第一對象的第一多個細胞的第一數(shù)據(jù)集,其中所述第一數(shù)據(jù)集表示第一多個克隆類型,所述第一數(shù)據(jù)集包含所述第一多個克隆類型中的每個相應克隆類型的多個重疊群,其中所述多個重疊群中的每個相應重疊群包括:所述相應重疊群的鏈類型的指示;來自多個條形碼的針對所述相應重疊群的條形碼,其中所述條形碼與構(gòu)建所述相應重疊群的所述第一多個細胞中的相應細胞相關(guān)聯(lián);以及所述相應細胞的mRNA的重疊群共有序列。在所述方法中,使用所述第一數(shù)據(jù)集和所述處理器確定所述第一多個克隆類型中的每個相應克隆類型的表示所述相應克隆類型的所述第一多個細胞的百分比、絕對數(shù)或比例。此外,在所述方法中,在所述顯示器的第一部分上提供第一二維可視化。所述第一二維可視化的第一軸線代表所述第一多個克隆類型中的單獨克隆類型,并且所述第一二維可視化的第二軸線代表表示相應克隆類型的所述第一多個細胞的所述百分比、所述絕對數(shù)或所述比例。此外,在所述方法中,在所述顯示器的第二部分上提供所述第一多個克隆類型的列表。
[0042] 本公開的又另一方面提供了一種非暫時性計算機可讀存儲介質(zhì)。所述非暫時性計算機可讀存儲介質(zhì)存儲指令,所述指令當由具有顯示器的計算機系統(tǒng)執(zhí)行時使所述計算機系統(tǒng)執(zhí)行用于分析一個或多個數(shù)據(jù)集的方法,所述方法包括:獲得表示來自單個第一對象的第一多個細胞的第一數(shù)據(jù)集,其中所述第一數(shù)據(jù)集表示第一多個克隆類型,所述第一數(shù)據(jù)集包含所述第一多個克隆類型中的每個相應克隆類型的多個重疊群。所述多個重疊群中的每個相應重疊群包括:所述相應重疊群的鏈類型的指示;來自多個條形碼的針對所述相應重疊群的條形碼,其中所述條形碼與構(gòu)建所述相應重疊群的所述第一多個細胞中的相應細胞相關(guān)聯(lián);以及所述相應細胞的mRNA的重疊群共有序列。在所述方法中,使用所述第一數(shù)據(jù)集確定所述第一多個克隆類型中的每個相應克隆類型的表示所述相應克隆類型的所述第一多個細胞的百分比、絕對數(shù)或比例。此外,在所述方法中,在所述顯示器的第一部分上提供第一二維可視化,其中所述第一二維可視化的第一軸線代表所述第一多個克隆類型中的單獨克隆類型,并且所述第一二維可視化的第二軸線代表表示相應克隆類型的所述第一多個細胞的所述百分比、所述絕對數(shù)或所述比例。此外,在所述方法中,在所述顯示器的第二部分上提供所述第一多個克隆類型的列表。
[0043] 所附
權(quán)利要求范圍內(nèi)的系統(tǒng)、方法和裝置的各個實施例各自均具有若干個方面,其中并非僅靠任何單一方面來負責本文所述的期望的屬性。在不限制所附權(quán)利要求的范圍的情況下,本文描述了一些突出的特征。在考慮了這一討論之后,特別是在閱讀了題為“具體實施方式”的部分之后,人們將理解如何使用各個實施例的特征。
[0044] 通過引用結(jié)合
[0045] 本說明書中所提到的所有出版物、專利和專利申請均通過引用其全文結(jié)合在此,其程度就如同明確且單獨地指明了每一個單獨的出版物、專利或?qū)@暾埻ㄟ^引用結(jié)合。
附圖說明
[0046] 在附圖的圖中,通過實例而非限制的方式示出了本文公開的實施方案。貫穿附圖的若干視圖,相似的附圖標記指代對應的部分。
[0047] 圖1是展示根據(jù)一些實施方案的計算裝置的示例
框圖。
[0048] 圖2展示了根據(jù)一些實施例的用于獲取數(shù)據(jù)集的用戶
接口。
[0049] 圖3展示了根據(jù)一些實施例的用于將克隆類型豐度可視化為細胞群中克隆類型
頻率的函數(shù)的示例顯示。
[0050] 圖4展示了根據(jù)一些實施例的用于將克隆類型豐度可視化為細胞群中克隆類型比例的函數(shù)的示例顯示。
[0051] 圖5展示了根據(jù)一些實施例的用于可視化細胞群中跨T細胞受體α鏈和T細胞受體β鏈的V區(qū)使用情況的示例顯示。
[0052] 圖6展示了根據(jù)一些實施例的用于可視化由克隆類型數(shù)據(jù)集表示的細胞群中個體T細胞受體α鏈和T細胞受體β鏈的特定V區(qū)/J區(qū)對的數(shù)量的示例顯示。
[0053] 圖7展示了根據(jù)一些實施例的用于輸入用于篩選數(shù)據(jù)集的搜索標準的示例顯示。
[0054] 圖8展示了根據(jù)一些實施例的用于輸入用于篩選數(shù)據(jù)集的搜索標準的示例顯示。
[0055] 圖9展示了根據(jù)一些實施例的重疊群共有序列的比對,從而為所選克隆類型的所選鏈形成鏈共有序列。
[0056] 圖10展示了根據(jù)一些實施例的重疊群共有序列與參考序列或所選克隆類型的所選鏈的鏈共有序列的比對。
[0057] 圖11展示了根據(jù)一些實施例的關(guān)于所選克隆類型的所選鏈的鏈共有序列的附加信息的顯示。
[0058] 圖12展示了根據(jù)一些實施例的關(guān)于所選克隆類型的所選鏈的所選重疊群的重疊群共有序列的附加信息的顯示。
[0059] 圖13展示了根據(jù)一些實施例的使用可供性選擇特定CDR3氨基酸序列的用戶輸入,從而獲得或突出顯示包含輸入的CDR3氨基酸序列的重疊群。
[0060] 圖14展示了根據(jù)一些實施例的通過選擇可供性用戶可以如何切換到核酸序列視圖,在所述視圖中,在選擇所述可供性之后,支持所選克隆類型的所選鏈的每個重疊群的重疊群共有序列與所述鏈的鏈共有序列一起顯示。
[0061] 圖15展示了根據(jù)一些實施例的在所述鏈的共有序列下方的支持所選克隆類型的所選鏈的六個重疊群中的每一個的重疊群共有序列,其中所述鏈的共有序列由六個重疊群共有序列形成。
[0062] 圖16展示了根據(jù)一些實施例選擇可供性以將重疊群的所述重疊群共有序列呈現(xiàn)到序列視圖中,并將其放大到關(guān)注的特定特征。
[0063] 圖17展示了根據(jù)一些實施例的可供性的選擇,從而使得顯示跳轉(zhuǎn)到所選克隆類型的所選鏈的各個區(qū),如所述鏈的V部分、D部分、J部分、C部分或CDR3部分。
[0064] 圖18展示了根據(jù)一些實施例如何顯示所選克隆類型的所選鏈的所選重疊群的重疊群共有序列的讀段支持。
[0065] 圖19展示了根據(jù)一些實施例如何獲得比對文件,以便顯示所選克隆類型的所選鏈的所選重疊群的讀段支持。
[0066] 圖20展示了根據(jù)一些實施例如何通過提供比對文件的統(tǒng)一資源
位置來獲得所述比對文件,以便顯示所選克隆類型的所選鏈的所選重疊群的重疊群共有序列的讀段支持。
[0067] 圖21展示了根據(jù)一些實施例在逐唯一分子標識符的
基礎(chǔ)上所選克隆類型的所選鏈的所選重疊群的重疊群共有序列的讀段支持。
[0068] 圖22進一步展示了根據(jù)一些實施例,如何在逐唯一分子標識符的基礎(chǔ)上為所選克隆類型的所選鏈的所選重疊群的重疊群共有序列選擇讀段支持。
[0069] 圖23展示了根據(jù)一些實施例,如何獲得關(guān)于支持所選克隆類型的所選鏈的所選重疊群的重疊群共有序列的特定序列讀段的更多信息。
[0070] 圖24展示了根據(jù)一些實施例如何同時檢索多個克隆類型數(shù)據(jù)集以進行比較分析。
[0071] 圖25展示了根據(jù)一些實施例,如何選擇圖24的檢索到的克隆類型數(shù)據(jù)集以進行比較分析。
[0072] 圖26展示了根據(jù)一些實施例的圖25的四個克隆類型數(shù)據(jù)集的成對比較,所述比較示出了使用森下-霍恩度量的四個克隆類型數(shù)據(jù)集中的單個克隆類型數(shù)據(jù)集對之間的成對克隆類型共通性。
[0073] 圖27展示了根據(jù)一些實施例的圖25的四個克隆類型數(shù)據(jù)集的成對比較,所述比較示出了使用相交單元格(intersection?cell)度量的四個克隆類型數(shù)據(jù)集中的單個克隆類型數(shù)據(jù)集對之間的成對克隆類型共通性。
[0074] 圖28針對對于圖25的四個克隆類型數(shù)據(jù)集中的參考克隆類型數(shù)據(jù)集(44914)展示了根據(jù)一些實施例的參考克隆類型數(shù)據(jù)集中的前N個所表示的克隆類型中的每個相應克隆類型的比例和圖25的其它克隆類型數(shù)據(jù)集中的排前的克隆類型中的每一個的對應比例。
[0075] 圖29針對圖25的四個克隆類型數(shù)據(jù)集的每一個展示了根據(jù)一些實施例的每個相應克隆類型數(shù)據(jù)集中前10個所表示的克隆類型中的克隆類型的比例、每個相應克隆類型數(shù)據(jù)集中前10個所表示的克隆類型之外的克隆類型的比例以及每個相應克隆類型數(shù)據(jù)集中非克隆類型的細胞的比例。
[0076] 圖30展示了根據(jù)一些實施例用戶如何選擇圖25的所述四個克隆類型數(shù)據(jù)集中的兩個以進行進一步的克隆類型比較分析。
[0077] 圖31在原始細胞計數(shù)和百分比細胞計數(shù)方面以表格形式展示了根據(jù)一些實施例的圖30中兩個克隆類型數(shù)據(jù)集跨兩個克隆類型數(shù)據(jù)集中所表示的克隆類型的并排克隆類型細胞計數(shù)。
[0078] 圖32以圖形比例格式展示了根據(jù)一些實施例的圖30的跨兩個克隆類型數(shù)據(jù)集中所表示的克隆類型的兩個克隆類型數(shù)據(jù)集之間的共通性。
[0079] 圖33針對圖25的所述四個克隆類型數(shù)據(jù)集中的每一個展示了根據(jù)一些實施例的相應D基因跨每個相應克隆類型數(shù)據(jù)集的相對頻率。
[0080] 圖34針對圖25的所述四個克隆類型數(shù)據(jù)集中的每一個展示了根據(jù)一些實施例的相應D基因跨每個相應克隆類型數(shù)據(jù)集的相對頻率。
[0081] 圖35針對圖25的所述四個克隆類型數(shù)據(jù)集中的每一個展示了根據(jù)一些實施例的相應J基因跨每個相應克隆類型數(shù)據(jù)集的相對頻率。
[0082] 圖36針對圖25的所述四個克隆類型數(shù)據(jù)集中的每一個展示了根據(jù)一些實施例的相應C基因跨每個相應克隆類型數(shù)據(jù)集的相對頻率。
[0083] 圖37針對兩個所選克隆類型數(shù)據(jù)集展示了根據(jù)一些實施例的重鏈同種型和輕鏈同種型跨所述兩個所選克隆類型數(shù)據(jù)集的相對分布。
[0084] 圖38針對兩個所選克隆類型數(shù)據(jù)集展示了根據(jù)一些實施例的重鏈加輕鏈成對組合跨所述兩個所選克隆類型數(shù)據(jù)集的相對分布。
[0085] 圖39針對兩個選擇的克隆類型數(shù)據(jù)集展示了根據(jù)一些實施例的在選擇圖30的“克隆類型比較”可供性之后呈表格形式的兩個所選克隆類型數(shù)據(jù)集之間克隆類型層面的比較,所述比較指示具有每個克隆類型的兩個所選克隆類型數(shù)據(jù)集中的每一個中的細胞的數(shù)量和比例,并且對于每個該種相應克隆類型指示V基因、D基因、J基因和C基因的同一性和所述相應克隆類型的CDR3區(qū)的氨基酸序列。
[0086] 圖40展示了根據(jù)一些實施例的在打開多個克隆類型數(shù)據(jù)集并同時對其進行分析的同時如何加載來自經(jīng)過聚類的數(shù)據(jù)集的集群。
[0087] 圖41展示了根據(jù)一些實施例的在打開多個克隆類型數(shù)據(jù)集并同時對其進行分析的同時對用于加載的經(jīng)過聚類的數(shù)據(jù)集的選擇。
[0088] 圖42展示了根據(jù)一些實施例的獲得用于比較基因表達集群之間克隆類型分布的克隆類型比較視圖的信息。
[0089] 圖43展示了根據(jù)一些實施例的選擇用于比較基因表達集群之間克隆類型分布的克隆類型比較視圖的基因表達集群。
[0090] 圖44展示了根據(jù)一些實施例的跨圖25的四個克隆類型數(shù)據(jù)集群的CRC_aggr2經(jīng)聚類數(shù)據(jù)集內(nèi)的圖43中選擇的基因表達集群中的細胞之間的克隆類型比較。
[0091] 圖45針對單克隆類型數(shù)據(jù)集“44914-CRC_1_UB”展示了根據(jù)一些實施例的通過來自所述CRC_aggr2經(jīng)聚類數(shù)據(jù)集的基因表達集群篩選克隆類型列表。
[0092] 圖46展示了根據(jù)一些實施例的在單個選擇的克隆類型數(shù)據(jù)集中具有鏈式過濾器的單鏈CDR3豐度圖。
[0093] 圖47展示了根據(jù)一些實施例的單個選擇的克隆類型數(shù)據(jù)集內(nèi)的D基因使用情況圖表。
[0094] 圖48展示了根據(jù)一些實施例的單個選擇的克隆類型數(shù)據(jù)集內(nèi)的C基因使用情況圖表。
[0095] 圖49展示了根據(jù)一些實施例的單個選擇的克隆類型數(shù)據(jù)集內(nèi)的B細胞同種型視圖。
[0096] 圖50A展示了根據(jù)本公開的實施例的經(jīng)過聚類的數(shù)據(jù)集的架構(gòu)。
[0097] 圖50B展示了根據(jù)本公開的一個實施例的當使用單細胞測序方法使用來自相同生物樣本的條形碼化的cDNA構(gòu)建體的公共池構(gòu)建經(jīng)聚類數(shù)據(jù)集和一個或多個克隆類型數(shù)據(jù)集時,這些數(shù)據(jù)集之間的關(guān)系。
具體實施方式
[0098] 現(xiàn)將詳細參照實施例,在附圖中展示所述實施例的實例。在以下詳細描述中,闡述了許多具體細節(jié)以便提供對本公開的徹底理解。然而,對本領(lǐng)域普通技術(shù)人員而言將顯而易見的是,本公開可以在沒有這些具體細節(jié)的情況下實施。在其它實例中,并未詳細描述熟知的方法、程序、組件、
電路以及網(wǎng)絡(luò)以免不必要地模糊實施例的各個方面。
[0099] 本文描述的實施方案提供了用于分析數(shù)據(jù)集的不同技術(shù)解決方案。這種數(shù)據(jù)集的一個實例是由對單個細胞(如B細胞和T細胞)中的VDJ區(qū)進行測序的測序管線產(chǎn)生的數(shù)據(jù)集?,F(xiàn)在結(jié)合附圖描述實施方案的細節(jié)。
[0100] 圖1是展示根據(jù)一些實施方案的可視化系統(tǒng)100的框圖。在一些實施方案中,裝置100包含一個或多個處理單元CPU?102(也稱為處理器)、一個或多個網(wǎng)絡(luò)接口104、用戶接口
106、非永久性存儲器111、永久性存儲器112和一個或多個用于互連這些組件的通信總線
114。一個或多個通信總線114可選地包含互連并控制系統(tǒng)組件之間的通信的電路系統(tǒng)(有時稱為
芯片組)。非永久性存儲器111通常包含高速
隨機存取存儲器,如DRAM、SRAM、DDR?RAM、ROM、EEPROM、閃速存儲器,而永久性存儲器112通常包括CD-ROM、數(shù)字多功能盤(DVD)或其它光學存儲裝置、磁帶盒、磁帶、磁盤存儲裝置或其它
磁性存儲裝置、磁盤存儲裝置、光盤存儲裝置、閃速存儲器裝置或其它非易失性固態(tài)存儲裝置。永久性存儲器112可選地包含一個或多個布置的遠離CPU?102的存儲裝置。永久性存儲器112和非永久性存儲器112內(nèi)的一個或多個非易失性存儲裝置包括非暫時性計算機可讀存儲介質(zhì)。在一些實施方案中,非永久性存儲器111或者(替代性地)所述非暫時性計算機可讀存儲介質(zhì)(有時與永久性存儲器
112結(jié)合)存儲以下程序、模塊和數(shù)據(jù)結(jié)構(gòu)或者其子集:
[0101] ·任選的
操作系統(tǒng)116,所述操作系統(tǒng)包含用于處理各種基本系統(tǒng)服務(wù)和用于執(zhí)行
硬件相關(guān)任務(wù)的程序;
[0102] ·任選的網(wǎng)絡(luò)通信模塊(或指令)118,所述網(wǎng)絡(luò)通信模塊(或指令)用于將可視化系統(tǒng)100與其它裝置連接,或與通信網(wǎng)絡(luò)連接;
[0103] ·VDJ瀏覽器模塊120,所述VDJ瀏覽器模塊用于從永久性存儲器112中選擇克隆類型數(shù)據(jù)集122并呈現(xiàn)對所述克隆類型數(shù)據(jù)集的分析;
[0104] ·克隆類型數(shù)據(jù)集122,所述克隆類型數(shù)據(jù)集包括多個克隆類型124(例如T細胞受體α鏈、T細胞受體β鏈、B細胞輕鏈、B細胞重鏈等),并且對于多個克隆類型中的每個克隆類型124中的每個鏈,共有序列用于所述鏈的VDJ區(qū)126,其中VDJ區(qū)126的共有序列源自所述克隆類型中的所述鏈的多個重疊群128,每個重疊群128與以下各項相關(guān)聯(lián):(i)條形碼130,(ii)一個或多個唯一分子標識符132,和(iii)跨所述唯一分子標識符的序列讀段的重疊群共有序列126,每個唯一分子標識符132由構(gòu)成重疊群共有序列126的多個序列讀段134支持,每個序列讀段包含如讀段核酸序列136和讀段映射
質(zhì)量138的信息;
[0105] ·VDJ鏈參考
序列表140,所述VDJ鏈參考序列表包含基因組中所有V基因和J基因的參考序列,或至少包括通過給定克隆類型數(shù)據(jù)集122表示的基因的參考序列;以及[0106] ·可選地,一個或多個經(jīng)聚類數(shù)據(jù)集180的全部或部分(相當于美國專利申請?zhí)?2/672,544的經(jīng)聚類數(shù)據(jù)集128),每個經(jīng)聚類數(shù)據(jù)集180包括多個群集5002,每個群集5002(相當于美國專利申請?zhí)?2/672,544的集群158)包括一個細胞(美國專利申請?zhí)?2/672,
544的第二實體126)5004的子集,并且每個相應的細胞由支持所述細胞的條形碼130標識。
[0107] 在一些實施方案中,一個或多個上述元件存儲在一個或多個先前提及的存儲裝置中,并且對應于用于執(zhí)行上述功能的指令組。上述模塊、數(shù)據(jù)或程序(例如指令集)不需實施為單獨分開的
軟件程序、過程、數(shù)據(jù)集或模塊,并且因此這些模塊和數(shù)據(jù)的各個子集可以在各種實施方案中被組合或以其它方式重新布置。在一些實施方案中,非永久性存儲器111可選地存儲上述模塊和數(shù)據(jù)結(jié)構(gòu)的子集。此外,在一些實施例中,所述存儲器存儲以上未描述的另外的模塊和數(shù)據(jù)結(jié)構(gòu)。在一些實施例中,上述元件中的一個或多個存儲在可視化系統(tǒng)100的計算機系統(tǒng)之外的計算機系統(tǒng)中,所述計算機系統(tǒng)可由可視化系統(tǒng)100尋址,使得可視化系統(tǒng)100可在需要時檢索所有或部分這樣的數(shù)據(jù)。
[0108] 在一些實施例中,克隆類型數(shù)據(jù)集122被組織為一系列數(shù)據(jù)塊,并且在文件的開頭具有總JSON目錄,在文件末尾具有描述每個塊的地址和結(jié)構(gòu)的JSON目錄。在一些實施例中,克隆類型數(shù)據(jù)集122中有多個塊。
[0109] 在一些實施例中,一個這樣的塊構(gòu)成
數(shù)據(jù)庫(例如sqlite3數(shù)據(jù)庫),所述數(shù)據(jù)庫包含克隆類型、淋巴細胞(例如T細胞、B細胞)受體鏈參考序列、淋巴細胞(例如T細胞、B細胞)受體鏈共有序列126、重疊群128和將細胞條形碼130映射到克隆類型124的二級表中的每一個。當點擊本文公開的用戶接口中的鏈時,查詢數(shù)據(jù)庫以創(chuàng)建克隆類型列表,按頻率排序,并且再次查詢以用數(shù)據(jù)填充鏈可視化。參考表、共有序列表和重疊群表中的每一行還包含文件偏移量和長度,所述文件偏移量和長度對存儲在多個塊中的其它塊中的JSON文件組中關(guān)于該實體的更詳細的分級信息的位置進行編碼。最后,每個參考和共有序列的比對和序列信息存儲在數(shù)據(jù)庫中,以備將來調(diào)試和故障排除。
[0110] 在一些實施例中,一個或多個塊包含參考注釋JSON文件,所述文件為關(guān)于每個淋巴細胞(例如T細胞、B細胞)受體鏈的每個參考的完整信息集。所述塊相當于VDJ鏈參考序列表140。因此,在一些實施例中,VDJ鏈參考序列表140是克隆類型數(shù)據(jù)集122的組成部分。
[0111] 在一些實施例中,一個或多個塊包含共有序列注釋,例如如JSON文件,其是關(guān)于每個淋巴細胞(例如T細胞、B細胞)受體鏈的每個共有序列126的完整信息集。
[0112] 在一些實施例中,一個或多個塊包含重疊群注釋,例如作為JSON文件,其是關(guān)于每個重疊群128的完整信息集。重疊群128是編碼淋巴細胞受體(例如T細胞受體、B細胞免疫球蛋白)的鏈(例如T細胞α鏈、T細胞β鏈、B細胞重鏈、B細胞輕鏈)的轉(zhuǎn)錄物的經(jīng)組裝序列。因此,在單個T細胞的示例情況下,預期對于所述α鏈將存在至少一個重疊群128,對于所述β鏈將存在至少一個重疊群128。
[0113] 在一些實施例中,一個或多個塊包含例如FASTA格式的參考序列,所述序列在克隆類型數(shù)據(jù)集122文件創(chuàng)建期間使用,而不是在VDJ瀏覽器120操作期間用于調(diào)試目的。
[0114] 在一些實施例中,一個或多個塊包含參考比對,例如作為BAM文件,其存儲鏈共有序列/重疊群128與所述參考序列的差異。這通常在克隆類型數(shù)據(jù)集122創(chuàng)建期間使用,而不是在VDJ瀏覽器120操作期間使用(例如出于調(diào)試目的)。
[0115] 在一些實施例中,一個或多個塊包含用于上述BAM文件的參考比對BAM索引,以
加速序列比對查詢。
[0116] 在一些實施例中,一個或多個塊包含例如FASTA格式的共有序列,所述序列通常在克隆類型數(shù)據(jù)集122創(chuàng)建期間使用,而不是在VDJ瀏覽器120操作期間使用。
[0117] 在一些實施例中,一個或多個塊包含共有序列比對BAM文件,所述共有序列比對BAM文件存儲重疊群序列與所述共有序列的差異,所述共識比對BAM文件通常在克隆類型數(shù)據(jù)集122創(chuàng)建期間使用,而不是在VDJ瀏覽器120操作期間使用。
[0118] 在一些實施例中,一個或多個塊包含重疊群BAM索引,所述重疊群BAM索引存儲查找單個重疊群的讀段信息的位置。
[0119] 在一些實施例中,一個或多個塊包含重疊群BED文件,所述文件存儲每個重疊群的基因注釋。
[0120] 在一些實施例中,一個或多個塊包含重疊群FASTA文件,所述文件存儲每個重疊群的序列。
[0121] 在一些實施例中,當用戶運行VDJ瀏覽器120時啟動兩個過程:(i)讀取克隆類型數(shù)據(jù)集122并返回JSON響應的后端
服務(wù)器過程和(ii)將JSON處理為可視化并且處理用戶輸入的前端Web應用。在一些實施例中,所述后端服務(wù)器過程從克隆類型數(shù)據(jù)集122中將sqlite3數(shù)據(jù)庫字節(jié)提取到臨時位置。所述服務(wù)器過程將克隆類型數(shù)據(jù)集122與其相關(guān)聯(lián)的以上討論的sqlite3數(shù)據(jù)庫文件之間的關(guān)系保存在存儲器中,并且將與克隆類型數(shù)據(jù)集122相關(guān)的所有查詢導向該數(shù)據(jù)庫。所述服務(wù)器過程在關(guān)閉時通過刪除會話期間打開的所有數(shù)據(jù)庫文件來清理自身。
[0122] 盡管圖1描繪了“可視化系統(tǒng)100”,但是該圖更多地旨在作為可能存在于計算機系統(tǒng)中的各種特征的功能描述,而不是作為本文所述的實施方案的結(jié)構(gòu)示意圖。在實踐中,并且如本領(lǐng)域普通技術(shù)人員所認識的,可以將單獨示出的項目組合,并且可以將一些項目分離。此外,盡管圖1描繪了非永久性存儲器111中的某些數(shù)據(jù)和模塊,但是這些數(shù)據(jù)和模塊中的一些或全部可以存在于永久性存儲器112中。
[0123] 雖然已經(jīng)參照圖1公開了根據(jù)本公開的系統(tǒng),但是現(xiàn)在參照圖2至49詳細描述根據(jù)本公開的方法。
[0124] 圖2示出了在一些實施例中當用戶執(zhí)行VDJ細胞瀏覽器120時由VDJ細胞瀏覽器120顯示的初始板。具體地,圖2示出了VDJ細胞瀏覽器120如何提供關(guān)于給定克隆類型數(shù)據(jù)集120的一些信息(如所述克隆類型數(shù)據(jù)集的名稱、假設(shè)由數(shù)據(jù)集122表示的細胞的數(shù)量以及最后一次
訪問所述數(shù)據(jù)集的時間)。假定由所述數(shù)據(jù)集表示的細胞的數(shù)量通過對被估計為與表達目標V(D)J轉(zhuǎn)錄物的細胞獨特相關(guān)的條形碼130的數(shù)量進行估計導出。在一些實施例中,如果克隆類型數(shù)據(jù)集122中存在(i)與相應條形碼130相關(guān)聯(lián)并且(ii)由各自由數(shù)據(jù)集中的序列讀段134支持的至少兩個唯一分子標識符132支持的重疊群128,則認為相應條形碼130與細胞獨特地關(guān)聯(lián)。換句話說,每個假定由所述克隆類型數(shù)據(jù)集表示的細胞在數(shù)據(jù)集中由重疊群128的條形碼130支持,其中所述重疊群進而由至少兩個不同的唯一分子標識符
132支持,其中每個這樣的唯一分子標識符又由所述克隆類型數(shù)據(jù)集中的序列讀段134支持。在選擇克隆類型數(shù)據(jù)集122之后,過程控制轉(zhuǎn)到圖3的顯示302。圖3顯示來自克隆類型數(shù)據(jù)集122的各種數(shù)據(jù)。特別地,在一些實施例中,在頂層,細胞的VDJ區(qū)中的核酸序列由克隆類型122組織。在一些實施例中,使用基于微滴的單細胞RNA測序(scRNA-seq)
微流體系統(tǒng)獲得這種序列讀段134形式的序列信息,所述系統(tǒng)能夠?qū)?shù)千個單細胞進行3'或5'信使RNA(mRNA)數(shù)字計數(shù)。在這種測序中,基于液滴的平臺能夠?qū)毎M行條形碼編碼。
[0125] scRNAseq微流體系統(tǒng)以GemCode技術(shù)為基礎(chǔ),所述技術(shù)已用于人類基因組的基因組
單體型分析、結(jié)構(gòu)變異體分析和重新組裝(de?novo?assembly)。參見Zheng等人,2016,“用高通量連
鎖讀段測序?qū)ΨN系和癌癥基因組進行單體型鑒定(Haplotyping?germline?and?cancergenomes?with?high-throughput?linked-read?sequencing)”,《自然生物技術(shù)(Nat.Biotechnol.)》,34,第303-311頁;Narasimhan等人,2016,“罕見基因剔除對成年人和相關(guān)相關(guān)父母的的健康和人口影響(Health?and?population?effects?of?rare?gene?knockouts?in?adult?humans?with?relatedparents)”,《科學(Science)》,352,第474-477頁(2016);和Mostovoy等人,2016,“一種用于人類基因組序列重新組裝和階段劃分的混合方法(A?hybrid?approach?for?de?novo?humangenome?sequence?assembly?and?phasing)”,《自然方法(Nat.Methods)》,13,587–590,這些文獻中的每一篇出于GemCode技術(shù)的整體描述均通過引用結(jié)合。這種測序使用凝膠珠乳液(GEM)。
[0126] GEM在多通道微流體芯片中產(chǎn)生,所述芯片以預定的填充率(如約80%)封裝單個凝膠珠。對于本公開的克隆類型數(shù)據(jù)集122,在一些實施例中,遵循5'基因表達協(xié)議,而不是3'基因表達協(xié)議。在所述樣本包含T細胞的情況下,這為每個樣本提供了來自多個(例如
100-10,000個)個體淋巴細胞的全長(5'UTR到恒定區(qū))、成對T細胞受體(TCR)轉(zhuǎn)錄物。在所述樣本包含B細胞的情況下,這為每個樣本提供了來自多個(例如100-10,000個)個體淋巴細胞的全長(5'UTR至恒定區(qū))、成對B細胞免疫球蛋白重鏈轉(zhuǎn)錄物和B細胞免疫球蛋白輕鏈轉(zhuǎn)錄物。
[0127] 在一些實施例中,如Zheng等人同上所述的3'基因表達協(xié)議的情況,5'表達協(xié)議包含將細胞分成多個GEM。具體而言,在一些實施例中,通過以限制性稀釋度遞送細胞來實現(xiàn)單細胞分離,使得所產(chǎn)生的多個GEM中的大部分(約90-99%)不包含淋巴球(細胞),而其余大部分包含單個淋巴球。在一些實施例中,當單細胞5'凝膠珠溶解在GEM中時,包含(i)讀段1測序引物(例如ILLUMINA?R1序列);(ii)條形碼130;(iii)唯一分子標識符(UMI)132;和(iv)
開關(guān)寡核苷酸的寡核苷酸被釋放并與細胞裂解液和包含聚(dT)引物的預混液混合。然后,所述多個GEM的溫育從多腺苷
酸化的mRNA中產(chǎn)生條形碼化的全長cDNA。溫育后,將所述多個GEM
破碎并回收匯集的餾分。在一些實施例中,
磁珠(例如
硅烷珠)用于將剩余的生化
試劑和引物從后GEM反應混合物中去除。來自淋巴細胞cDNA的條形碼化的全長V(D)J片段通過文庫構(gòu)建之前的PCR擴增富集。在一些實施例中,酶切片段化和尺寸選擇用于產(chǎn)生在文庫構(gòu)建之前共同跨越經(jīng)富集受體鏈的V(D)J片段的可變長度片段。
[0128] 在一些實施例中,在GEM溫育期間將R1(讀段1引物序列)添加到所述分子。在目標富集期間添加P5。在文庫構(gòu)建期間通過末端修復、A加尾、連接物連接和實施
聚合酶鏈反應(PCR)添加P7、樣本索引和R2(讀段2引物序列)。所得的單細胞V(D)J文庫包含在Illumina橋擴增中使用的P5引物和P7引物。請于互聯(lián)網(wǎng)參見以下網(wǎng)址:assets.contentful.com/an68im79xiti/26tufAiwI0KCYA0ou2gCWK/8d313d2b126a7a1652d1381073e72015/CG000086_SingleCellVDJReagentKitsUserGuide_RevA.pdf(于2017年5月18日最后一次訪問)(第2-4頁),其通過引入結(jié)合在此。關(guān)于P5和P7引物的文檔,另請于互聯(lián)網(wǎng)參見2017年5月18日最后一次訪問的“使用Illumina基因組分析儀系統(tǒng)進行多重測序(Multiplexed?Sequencing?with?the?Illumina?Genome?Analyzer?System)”,
版權(quán)2008,網(wǎng)址為:www.illumina.com/documents/products/datasheets/datasheet_sequencing_
multiplex.pdf在一些實施例中,經(jīng)測序的單細胞V(D)J文庫為標準ILLUMINA?BCL數(shù)據(jù)輸出文件夾的形式。在一些此類實施例中,BCL數(shù)據(jù)包含成對末端讀段1(包括條形碼130、UMI?
132、開關(guān)寡核苷酸以及受體鏈cDNA的5'末端)和讀段2(包括同一受體鏈cDNA的隨機部分)以及i7索引讀段中的樣本索引。在一些實施例中,
計算機程序(如10X?CELL?RANGER分析管線)對BCL數(shù)據(jù)執(zhí)行二次分析,如使用條形碼130將來自同一細胞的讀段對分組,以重疊群
128的形式組裝全長V(D)J片段,從而創(chuàng)建克隆類型數(shù)據(jù)集122。
[0129] 具有相同條形碼130的多個序列讀段134形成至少一個重疊群128,并且每個這樣的重疊群128表示單個細胞的鏈(例如T細胞受體α鏈、T細胞受體β鏈、B細胞重鏈、B細胞輕鏈)。細胞的重疊群128中的每一個的重疊群共有序列126被共同用于確定所述細胞的克隆類型124。換句話說,序列讀段134由條形碼130分組,而重疊群128通過查看具有相同UMI標識符132的序列讀段134進行組裝。通過分析重疊群128中的公共堿基創(chuàng)建包含CDR3區(qū)的一組鏈公共序列。在這些共有序列中具有類似的CDR3區(qū)的細胞被分組到克隆類型124中,圖3的條形圖302示出了每個克隆類型中獨特條形碼130的數(shù)量。也就是說,圖3提供了1955個細胞128中的在由VDJ瀏覽器120示出的特定克隆類型數(shù)據(jù)集122中的特定克隆類型124的發(fā)生頻率的條形圖302。在該特定的數(shù)據(jù)集中,用于測序的細胞為T細胞。這樣,每個重疊群128包含第三互補決定區(qū)(CDR3),所述區(qū)的核苷酸序列對于每個T細胞克隆是獨特的。在T細胞的情況下,所述CDR3與肽相互作用,因此所述CDR3對于識別病原體表位或自身抗原表位很重要。CDR3區(qū)是V-J區(qū)的一個子集(在圖9中用較黑的長條918指示),其跨越T細胞受體α鏈中的V基因和J基因以及T細胞受體β鏈中的V基因、D基因和J基因。
[0130] 在一些實施例中,克隆類型數(shù)據(jù)集122包括曾存在于克隆類型數(shù)據(jù)集122所表示的生物樣本中的任何T細胞的T細胞受體或任何B細胞的B細胞免疫球蛋白的V(D)J克隆類型。下面描述T細胞的克隆類型和B細胞的克隆類型。
[0131] T細胞克隆類型大多數(shù)T細胞受體由α鏈和β鏈構(gòu)成。T細胞受體基因類似于下文討論的B細胞免疫球蛋白基因,因為所述基因也在其β鏈中包含多個V基因、D基因和J基因片段(以及在其α鏈中的V基因和J基因片段),所述片段在淋巴細胞發(fā)育過程中被重新排列,從而為所述細胞提供獨特的抗原受體。在這個意義上,T細胞受體是
抗體的抗原結(jié)合片段的拓撲等價物,兩者都是免疫球蛋白超家族的一部分。B細胞和T細胞由其克隆類型定義,即,在B細胞的情況下,所述克隆類型為V(D)J區(qū)最終重新布置為B細胞免疫球蛋白的重鏈和輕鏈的同一性,或者在T細胞的情況下,所述克隆類型為V(D)J區(qū)最終重新布置為T細胞受體的每條鏈的同一性。
[0132] 基于表達的確切的受體鏈對,存在兩個T細胞的子集。所述子集或者為alpha(α)和beta(β)鏈對,或者為gamma(γ)和delta(δ)鏈對,其分別識別αβ或γδT細胞子集。β和δ鏈的表達限于其相應子集中的每一個的一條鏈,這被稱為等位基因排斥(Bluthmann等人,1988,“T細胞受體轉(zhuǎn)基因的T細胞特異性缺失使得內(nèi)源性α和β基因的功能重新布置(T-cell-specific?deletion?of?T-cell? receptor?transgenes?allows?functional?rearrangement?of?endogenous?alpha-and?beta-genes)”《,自然(Nature)》,334,第156-
159頁;)和Uematsu等人,1988,“在轉(zhuǎn)基因小鼠中,引入的功能性T細胞受體β基因阻止內(nèi)源性β基因的表達(In?transgenic?mice?the?introduced?functional?T-cell?receptor?beta?gene?prevents?expression?of?endogenous?beta?genes)”《細胞(Cell)》,52,第
831-841頁,這些文獻中的每一篇均通過引用結(jié)合在此)。所述兩條鏈的特征還在于使用了另外的DNA片段,所述DNA片段在重新布置過程中被稱為多樣性(D)區(qū)。所述D區(qū)的兩側(cè)是構(gòu)成所述兩條鏈中所述CDR3的NDN區(qū)的N個核苷酸。所述兩條受體鏈中每條的CDR3定義了在圖
3中分析的克隆類型124。對于αβT細胞,CDR3與與MHC結(jié)合的肽的
接觸最為頻繁。參見Rudolph等人,2006,“TCR如何結(jié)合MHC、肽和共同受體(How?TCRs?bind?MHCs,peptides,and?coreceptors,)”,《免疫學年度評論(Annu?Rev?Immunol)》,24:第419-466頁,doi:10.1146/annurev.immunol.23.021704.115658,其通過參考結(jié)合在此。因此,CDR3序列一直是免疫學測序研究的主要焦點。參見Yassai等人,2009,“T細胞受體的克隆類型命名法(A?clonotype?nomenclature?for?T?cell?receptors)”,《免疫遺傳學(Immunogenetics)》,61,第493-502頁,其通過引用結(jié)合在此。
[0133] B細胞克隆類型B細胞是高度多樣化的,每個都表達一種實際上獨特的B細胞免疫球蛋白(例如,B細胞免疫球蛋白受體-BCR)。成人體內(nèi)大約有1010-1011個B細胞。參見Ganusov等人,2007,“人類大多數(shù)淋巴細胞真的存在于腸道嗎?(Do?most?lymphocytes?in?humans?really?reside?in?the?gut?)”,《免疫學趨勢(Trends?Immunol)》,208(12),第514-518頁,其通過參考結(jié)合在此。B細胞是適應性免疫的重要組成部分,并且通過在B細胞的細胞表面上表達的B細胞免疫球蛋白受體(BCR)直接與病原體結(jié)合。有
機體(例如人類)中的每個B細胞表達使所述B細胞能夠識別特定的分子模式組的不同BCR。單個B細胞在骨髓發(fā)育過程中獲得這種特異性,在骨髓發(fā)育過程中,B細胞經(jīng)歷體細胞重新布置過程,所述過程將多個種系編碼的基因片段結(jié)合以獲得BCR,如Yaari和Kleinstein,2015,“B細胞庫測序分析實用指南(Practical?guidelines?for?B-cell?repertoire?sequencing?analysis)”,《基因組醫(yī)學(Genome?Medicine)》,7:121中的圖1所示,所述文獻通過引用結(jié)合在此。人抗體分子(和B細胞免疫球蛋白)由重鏈和輕鏈(每一種都包含恒定(C)區(qū)和可變(V)區(qū))構(gòu)成,所述重鏈和輕鏈由以下三個基因座上的基因編碼:
染色體14上的免疫球蛋白重基因座(IGH@),其包含免疫球蛋白重鏈的基因片段;染色體2上的免疫球蛋白κ基因座(IGK@),其包含免疫球蛋白輕鏈部分的基因片段;染色體22上的免疫球蛋白λ基因座(IGL@),其包含免疫球蛋白輕鏈其余部分的基因片段。每個重鏈和輕鏈基因包含抗體蛋白可變區(qū)的三種不同類型基因片段的多個拷貝。例如,人免疫球蛋白重鏈區(qū)包含兩個恒定(Cμ和Cδ)基因片段和44個可變(V)基因片段加上27個多樣性(D)基因片段和6個連接(J)基因片段。參見Matsuda等,
1998,“人免疫球蛋白重鏈可變區(qū)基因座的完整核苷酸序列(The?complete?nucleotide?sequence?of?the?human?immunoglobulin?heavy?chain?variable?region?locus)”,《實驗醫(yī)學雜志(The?Journal?of?Experimental?Medicine)》,188(11):2151–62,doi:
10.1084/jem.188.11.2151;Li等人,2004,“免疫球蛋白重鏈變量、多樣性和連接基因片段在B系急性淋巴細胞白血病兒童中的應用:對VDJ重組機制和發(fā)病機制的意義(Utilization?of?Ig?heavy?chain?variable,diversity,and?joining?gene?segments?in?children?with?B-lineage?acute?lymphoblastic?leukemia:implications?for?the?mechanisms?of?VDJ?recombination?and?for?pathogenesis)”,《血液(Blood)》,103(12):4602-9,doi:
10.1182/blood-2003-11-3857,這些文獻中的每一篇均通過參考結(jié)合在此。所述輕鏈也具有兩個恒定的(Cμ和Cδ)基因片段和許多V基因片段和J基因片段,但沒有D基因片段。DNA重新布置導致每種基因片段的一個拷貝進入任何給定的淋巴細胞,從而產(chǎn)生巨大的抗體庫,盡管一些抗體庫由于自身
反應性而被去除。
[0134] 由于在T細胞和B細胞中對V(D)J區(qū)進行了重新布置,因此只能將V(D)J區(qū)的一部分(V段、D段和J段)追溯到在種系的高度重復區(qū)中編碼的通常不直接從種系DNA測序的片段。此外,在V(D)J重新布置過程中以及在B細胞的情況下,通過體細胞超突變可以顯著修飾V段、D段和J段。因此,通常沒有預先存在的全長模板可以與T細胞受體的V(D)J區(qū)和B細胞免疫球蛋白的V(D)J區(qū)的序列讀段比對??寺》纸M,在本文中稱為克隆分型,涉及將B細胞免疫球蛋白V(D)J序列組(在B細胞的情況下)或一T細胞受體序列組(在T細胞的情況下)聚集成克隆,所述克隆被定義為從共同祖先遺傳下來的細胞組。與在T細胞的情況下不同,B細胞克隆的成員不攜帶相同的V(D)J序列,但其由于體細胞超突變而不同。因此,在某些情況下,基于BCR序列數(shù)據(jù)定義克隆(克隆分型)需要
機器學習技術(shù)。參見例如,Chen等人,2010,“基于聚類對克隆相關(guān)免疫球蛋白基因序列集的鑒定(Clustering-based?identification?of?clonally-related?immunoglobulin?gene?sequence?sets)”,《免疫學研究(Immunome?Res.)》,6,增刊1:S4;以及Hershberg和Prak,2015,“對正常和自身免疫性B細胞庫克隆擴增的分析(The?analysis?of?clonal?expansion?in?normal?and?autoimmune?B-cell?repertoires)”,《自然科學會報乙·生物科學(Philos?Trans?R?Soc?Lond?B?Biol?Sci.)》,370(1676),這些文獻中的每一篇均通過參考結(jié)合在此。
[0135] 總體來說,VDJ細胞瀏覽器120可用于分析從T細胞或B細胞制備的克隆分型數(shù)據(jù)集。在T細胞的情況下,克隆分型識別構(gòu)成V片段、D片段和J片段的T細胞受體鏈的獨特核苷酸CDR3序列。根據(jù)本公開的所述系統(tǒng)和方法,這通常涉及使用上述scRNAseq微流體系統(tǒng)獲得的所述mRNA的PCR擴增,其中所述系統(tǒng)中的每個GEM使用V區(qū)特異性引物和恒定區(qū)(C)特異性引物對或J區(qū)特異性引物對,然后對
擴增子進行核苷酸測序。
[0136] VDJ細胞瀏覽器120適用于編碼B細胞(抗體)和T細胞(T細胞受體)的基因。如上所述,T細胞和B細胞通過涉及V種系區(qū)、D種系區(qū)、J種系和C種系區(qū)的重組過程獲得其多樣性。因此每個T細胞和B細胞都編碼一種獨特的克隆類型。
[0137] 從編碼單個細胞的細胞受體鏈的全部或部分的mRNA獲得的序列讀段134用于獲得包含所述CDR3區(qū)的重疊群128。給定細胞的重疊群128中的每一個將具有公共條形碼130,從而定義所述給定細胞的重疊群組,并因此定義所述給定細胞的CDR3序列組??缢鼋o定細胞的重疊群共有序列126組的所述CDR3區(qū)由此確定所述細胞的克隆類型124。因此,圖示302表示克隆類型數(shù)據(jù)集122中表示的多個細胞中克隆類型124出現(xiàn)的頻率。在由克隆類型數(shù)據(jù)集122表示的生物樣本中,每個克隆類型具有一定數(shù)量的特定克隆類型的細胞。這些克隆類型按克隆類型發(fā)生的頻率排序。表304列出了在圖示304中匯總的克隆類型信息。表304中的每個框306為特定重疊群組的克隆類型124??寺☆愋蛿?shù)據(jù)集122中可以存在由此克隆類型表示的多個細胞。例如,在由數(shù)據(jù)集122表示的生物樣本中,存在32個具有框306-1中描述的克隆類型的T細胞、9個具有框306-2中描述的克隆類型的T細胞、6個具有框306-3中描述的克隆類型的T細胞、6個具有框306-4中描述的克隆類型的T細胞以及5個具有框306-5中描述的克隆類型的T細胞。
[0138] 克隆類型306-1對于T細胞α鏈來說包含一種重疊群類型并且對于T細胞β鏈來說包含另一種重疊群類型。也就是說,克隆類型306-1的T細胞α鏈的重疊群中的每一個具有相同的第一CDR3序列,并且克隆類型306-1的T細胞β鏈的重疊群中的每一個具有相同的第二CDR3序列。相比之下,克隆類型306-5對于T細胞α鏈來說包含兩種重疊群類型并且對于T細胞β鏈來說包含另外兩種重疊群類型。也就是說,克隆類型306-1的T細胞α鏈的重疊群中的每一個具有第一或第二CDR3序列,并且克隆類型306-1的T細胞β鏈的重疊群中的每一個具有第三或第四CDR3序列。
[0139] 此外,切換鍵308可用于在表304中進一步向下滾動,以顯示數(shù)據(jù)集122表示的所述生物樣本中另外的T細胞的克隆類型和頻率(或數(shù)量)。對于每個克隆類型,表304詳細描述了克隆類型124中表示的每個鏈類型310??寺☆愋涂赡芫哂卸鄠€鏈共有序列,由于上述原因,所述鏈共有序列被分組為克隆類型。如果兩個細胞對于源自其重疊群的每個不同鏈共有序列共享一組相同的CDR3,則所述兩個細胞具有相同的克隆類型。
[0140] 對于每個克隆類型306,表304詳細描述了由該克隆類型表示的每個鏈類型310。在克隆類型306-1的情況下,存在單個α鏈類型和單個β鏈類型,這意味著該克隆類型306-1的α鏈中的所有α鏈具有相同的第一CDR3序列,并且該克隆類型306-1的β鏈中的所有β鏈具有相同的第二CDR3序列。對于克隆類型中表示的每個鏈類型310,表304提供了V片段312的標識符、多樣性區(qū)314的標識符(在T細胞β鏈和δ鏈的情況下存在,但是在α鏈和γ鏈的情況不存在)、J區(qū)316的標識符和C區(qū)318的標識符。如果兩個細胞相應的受體鏈具有相同的對應CDR3序列,則認為所述兩個細胞具有相同的克隆類型。
[0141] 在所述樣本包括T細胞的情況下,由于被取樣細胞的雜合性質(zhì),由圖1所示克隆類型數(shù)據(jù)集表示的樣本中的單個細胞可能具有多達兩條不同的α鏈和多達兩條不同的β鏈。換句話說,由于被取樣細胞的雜合性質(zhì),由圖1所示克隆類型數(shù)據(jù)集表示的樣本中的單個細胞可能具有具有第一CDR3序列的第一α鏈、具有第二CDR3序列的第二α鏈、具有第三CDR3序列的第一β鏈和具有第四CDR3序列的第二β鏈。
[0142] 有利的是,VDJ瀏覽器允許以各種不同的方式分析克隆類型信息。圖3示出了首次加載克隆類型數(shù)據(jù)集122時的默認圖表302。切換鍵320允許圖表302在顯示(i)如圖3所示的以每個克隆類型的細胞總數(shù)表示的頻率和(ii)如圖4所示的以每個克隆類型的細胞總數(shù)表示的比例之間切換。
[0143] 可供性322用于從圖表302和表304中顯示的正在分析的克隆類型數(shù)據(jù)集122中的所有克隆類型中指定克隆類型的總數(shù)。目前,如圖3所示,前15個所表示的克隆類型正在分析中。在一些實施例中,所述克隆類型數(shù)據(jù)集包含50個或更多克隆類型、100個或更多克隆類型、500個或更多克隆類型或1000個或更多克隆類型的重疊群。這樣,在某些情況下,數(shù)據(jù)集122中所有克隆類型的克隆類型頻率的檢查可能被證明太麻煩,特別是當考慮到大多數(shù)最少表示的克隆類型存在于單一基礎(chǔ)上。可供性322允許用戶針對各種
用例和克隆類型數(shù)據(jù)集122優(yōu)化顯示。用戶可以使用可供性322來轉(zhuǎn)動到正在分析的數(shù)據(jù)集122中克隆類型的總數(shù),或者將顯示的克隆類型的數(shù)量減少到有限的數(shù)量,如15個,如圖3所示。
[0144] 切換建324用于選擇可應用于克隆類型124數(shù)據(jù)集的其它圖表類型。例如,轉(zhuǎn)向圖5,可以檢查用于形成克隆類型數(shù)據(jù)集122的生物樣本細胞中的V基因使用情況,而不是查看克隆類型數(shù)據(jù)集122中的克隆類型豐度。V基因使用情況是對所述克隆類型中的每一種計數(shù)的帶注釋的V區(qū)。換句話說,V基因使用情況為按頻率繪制的可能的不同人類V基因(例如,TRAV-1、TRAV4、TRAV8-2、TRAV9-2等)中的每一個的所有V基因使用情況的集合(無論所表示的V基因出現(xiàn)在哪個鏈中)。因此,在V基因TRAV1-1的情況下,提供了跨克隆類型數(shù)據(jù)集122的該V基因(無論在α鏈或β鏈中是否出現(xiàn))的每個實例的計數(shù)。此外,可供性322現(xiàn)可用于選擇鏈類型(例如在T細胞的情況下,僅α鏈、僅β鏈、α鏈和β鏈兩者等等;在B細胞的情況下,僅重鏈、僅輕鏈、重鏈和輕鏈兩者等等)。例如,如果僅將可供性322改變?yōu)棣伶?,則圖示502僅顯示每個V基因類型跨在克隆類型數(shù)據(jù)集122中出現(xiàn)的α鏈的出現(xiàn)頻率。
[0145] 在一些實施例中,如果克隆類型數(shù)據(jù)集122中表示的細胞不具有V區(qū)或J區(qū),則從所述VDJ瀏覽器提供的視圖中篩選掉所述細胞。在一些情況下會發(fā)生這種情況。VDJ區(qū)的長度約為700個堿基,而在一些實施例中,序列讀段134的長度約為150個堿基對。因此,出現(xiàn)了這樣的情況,其中編碼VDJ區(qū)的一些mRNA分子僅在VDJ區(qū)的一部分(僅V區(qū)或J區(qū))獲得序列讀段134,而不在VDJ區(qū)的另一部分獲得所述序列讀段,因此不針對此類mRNA表示V區(qū)或J區(qū)。在這種實例中,不可能確定這種細胞的克隆類型。在一些實例中,為了具有指定的克隆類型,本公開的一些實施例強加以下條件:在單個細胞內(nèi)必須存在具有與V基因比對的特定UMI碼的讀段和與具有J基因比對的特定UMI碼的另一讀段。在替代方案中,采用與整個VDJ區(qū)比對的較長序列讀段。仍在替代方案中,使用共同比對整個VDJ區(qū)的、具有相同UMI的序列讀段。
[0146] 圖3和圖4所示克隆類型數(shù)據(jù)的優(yōu)勢在于,所有構(gòu)成克隆類型的成分(V、D、J)都已牢固
配對。然而,圖5示出了如何使用所述VDJ瀏覽器來分析克隆類型的成分。圖5說明了克隆類型數(shù)據(jù)集中特定的V區(qū)使用情況。這是有利的,因為免疫學家習慣于以這種方式分析數(shù)據(jù),因為傳統(tǒng)上他們沒有對克隆類型的所有成分進行牢固配對的機制。因此,免疫學家可以使用切換鍵324來檢查跨克隆類型數(shù)據(jù)集122的V區(qū)使用或跨克隆類型數(shù)據(jù)集122的J區(qū)使用情況,不論這種V區(qū)或J區(qū)出于合適的遺留目通過何種方式結(jié)合到克隆類型中。以這種方式,工作人員可以將克隆類型數(shù)據(jù)集122與舊的實驗進行比較(例如出于驗證或比較的目的)。
[0147] 轉(zhuǎn)向圖6,公開了可用于分析克隆類型數(shù)據(jù)集122的另一圖表類型602。圖表類型602提供了由克隆類型數(shù)據(jù)集122表示的細胞群中跨淋巴細胞受體鏈的VDJ序列的V區(qū)和J區(qū)使用情況的熱圖。例如,在T細胞的情況下,圖表類型602提供了跨由克隆類型數(shù)據(jù)集122表示的細胞群中的T細胞受體α鏈和T細胞受體β鏈的VDJ序列的V和J區(qū)使用情況的熱圖。在B細胞的情況下,圖表類型602提供了由克隆類型數(shù)據(jù)集122表示的細胞群中B細胞免疫球蛋白重鏈和B細胞免疫球蛋白輕鏈的V(D)J序列中的V和J區(qū)使用情況的熱圖。
[0148] 如上所述,每個鏈具有V區(qū)312和J區(qū)316。圖表602的熱圖中的每個x-y單元格提供克隆類型數(shù)據(jù)集122中存在的重疊群的數(shù)量的指示,所述重疊群的CDR3區(qū)包含受體鏈,所述受體鏈包含所表示的V區(qū)和J區(qū)中的相應的V區(qū)和相應的J區(qū)的對應對。例如,在B細胞的情況下,圖表602的熱圖中的每個x-y單元格提供克隆類型數(shù)據(jù)集122中存在的重疊群的數(shù)量的指示,所述重疊群的CDR3區(qū)包含重鏈或輕鏈,所述重鏈或輕鏈包含來自所表示的V區(qū)和J區(qū)中的相應的V區(qū)和相應的J區(qū)的對應對。在T細胞的情況下,圖表602的熱圖中的每個x-y單元格提供克隆類型數(shù)據(jù)集122中存在的重疊群的數(shù)量的指示,所述重疊群的CDR3區(qū)包含α鏈或β鏈,所述α鏈或β鏈包含所表示的V區(qū)和J區(qū)中相應的V區(qū)和相應的J區(qū)的對應對。轉(zhuǎn)向圖602以說明,圖表602中的一個x-y單元格指示存在于克隆類型數(shù)據(jù)集122中的重疊群的數(shù)量,所述重疊群包含TRAV-1-1V區(qū)和TRAJ3J區(qū)。
[0149] 因此,本公開的一些實施例在保持多個克隆類型(304)的列表的同時提供了第二二維可視化(602)。第二二維可視化(602)提供用于選擇由所述數(shù)據(jù)集表示的淋巴細胞受體的基因?qū)Φ牡谝贿^濾器(324)。第二二維可視化(602)提供一種或多種鏈類型的第二過濾器(320)。所述第二二維可視化的第一軸線表示所述基因?qū)χ械牡谝粏为毣?例如圖6的可視化602的J區(qū)軸),所述第二二維可視化的第二軸(例如圖6的可視化602的V區(qū)軸)表示所述基因?qū)χ械牡诙为毣?。與第一軸和第二軸相交的(所述二維可視化的)每個單元格指示由所述第一數(shù)據(jù)集中的第二過濾器(320)指定的一種或多種鏈類型的重疊群的數(shù)量,所述第一數(shù)據(jù)集包含所述第一軸線上的相應基因和所述第二軸線上的相應基因。
[0150] 量表604為解釋圖表602中的x-y單元格提供了基礎(chǔ)。在一些實施例中,將所述熱圖用顏色編碼在指示重疊群的第一數(shù)量的第一顏色(例如綠色,表示零個重疊群)與指示重疊群的第二數(shù)量的第二顏色(例如藍色,表示120個重疊群)之間。因此,當在熱圖602中使用這種顏色編碼時,如果將指示克隆類型包含TRAV-1-1V區(qū)和TRAJ3?J區(qū)的克隆類型數(shù)據(jù)集122中存在的重疊群的數(shù)量的圖表602中的x-y單元格填色為綠色,這意味著克隆類型數(shù)據(jù)集122中不存在包含TRAV-1-1V區(qū)和TRAJ3?J區(qū)的重疊群。在另一方面,如果將圖表602中指示包含TRAV-1-1V區(qū)和TRAJ3?J區(qū)的克隆類型數(shù)據(jù)集122中存在的重疊群的數(shù)量的x-y單元格填色為藍色,這意味著在包含TRAV-1-1V區(qū)和TRAJ3?J區(qū)的克隆類型數(shù)據(jù)集122中存在120個重疊群。在此類實施例中,介于零和120之間的中間值由介于綠色和藍色之間的中間色彩陰影表示。應當理解,量表604根據(jù)所表示的數(shù)據(jù)的值調(diào)整,并且最大值表示最有可能存在于所述數(shù)據(jù)集中的具有特定V區(qū)/J區(qū)對的重疊群。應當進一步理解的是,在熱圖中可以使用不同的
調(diào)色板,或者實際上熱圖可以是灰度的。因此,參考圖6,本公開的一些實施例以熱圖的形式提供了第二二維可視化(602)。所述熱圖提供以顏色編碼格式提供由所述第一數(shù)據(jù)集中的所述第二過濾器(320)指定的一個或多個鏈類型的重疊群的數(shù)量的數(shù)字指示的比例(604),所述第一數(shù)據(jù)集中包含所述第二二維可視化的所述多個單元格中的每個單元格的所述第一軸線上的所述相應基因和所述第二軸線上的所述相應基因。
[0151] 應當注意,熱圖602包含左上方坐標和右下方坐標中不包含數(shù)據(jù)的大空白區(qū)域。這是因為熱圖602顯示了從α鏈和β鏈到T細胞的CDR3區(qū)的數(shù)據(jù)。通常不希望將給定的α鏈的V區(qū)與給定的β鏈的J區(qū)匹配,即使這兩條鏈來自同一個細胞。通常也不希望將給定的α鏈的J區(qū)與給定的β鏈的V區(qū)匹配,即使這兩條鏈來自同一個細胞。將這種匹配排除產(chǎn)生熱圖602的左上象限中的空白區(qū)域和右下象限中的空白區(qū)域。在圖6所示的視圖中,在T細胞的情況下,可以使用可供性320切換熱圖602,使得所述熱圖僅顯示僅α鏈上、僅β鏈上或者如圖6所示α鏈和β鏈兩者上的V區(qū)/J區(qū)對。在圖6所示的視圖中,在B細胞(圖6中未示出)的情況下,可以使用可供性320切換熱圖602,使得所述熱圖僅顯示僅重鏈上、僅輕鏈上或者重鏈和輕鏈兩者上的V區(qū)/J區(qū)對。
[0152] 轉(zhuǎn)向圖3的欄320,圖3到6中提供的匯總信息指示如何由所述克隆類型數(shù)據(jù)集中的每個克隆類型表示條形碼130的方式。每個框306表示不同的克隆類型124,所述克隆類型大致映射到所述克隆類型數(shù)據(jù)集中具有所述克隆類型的細胞。在一些實施例中,存在雙聯(lián)體,這意味著單個GEM包括兩個細胞,因此所述GEM的相同條形碼130與兩個不同細胞相關(guān)聯(lián)。雙聯(lián)體也可能是由每個克隆類型的多條鏈產(chǎn)生的。在T細胞的情況下,雙聯(lián)體也可能使得每個克隆類型具有多條α鏈或β鏈。在B細胞的情況下,雙聯(lián)體也可能導致每個克隆類型具有多條重鏈或輕鏈。這種雙聯(lián)體干擾了條形碼與細胞計數(shù)之間的1比1對應關(guān)系。在一些實施例中,克隆類型數(shù)據(jù)集122中的這種雙聯(lián)體的發(fā)生率(雙聯(lián)體率)小于3%。在一些實施例中,克隆類型數(shù)據(jù)集122中的這種雙聯(lián)體的發(fā)生率(雙聯(lián)體率)小于2%。在一些實施例中,克隆類型數(shù)據(jù)集122中的這種雙聯(lián)體的發(fā)生率(雙聯(lián)體率)小于1%。在一些實施例中,克隆類型數(shù)據(jù)集122中的這種雙聯(lián)體的發(fā)生率(雙聯(lián)體率)小于0.5%。在一些實施例中,克隆類型數(shù)據(jù)集122中的這種雙聯(lián)體的發(fā)生率(雙聯(lián)體率)小于0.05%。
[0153] 圖3指示,克隆類型306-5包含兩條不同的α鏈和兩條不同的β鏈。出現(xiàn)這種情況有幾個原因。一個原因是有時T細胞表達兩條不同的α鏈和兩條不同的β鏈。這是由于所分析細胞的雜合性質(zhì)。在T細胞的情況下,通常認為這很少見。但其以一定的比率發(fā)生。存在一種使T細胞(或B細胞)試圖阻止第二種布置(α鏈/β鏈不同的第二種情況)出現(xiàn)的機制。但是,有細胞針對這種情況會逃避所述過程。如果是這樣,那么在T細胞的情況下,包含唯一分子標識符132的單細胞測序?qū)⒆R別具有兩條不同α鏈和兩條不同β鏈的單細胞,此外,將能夠確定哪條α鏈是與哪條β鏈配對。并且在這種情況下,在B細胞的情況下,包含唯一分子標識符132的所述單細胞測序?qū)⒆R別具有兩條不同重鏈和兩條不同輕鏈的單細胞,此外,將能夠確定哪條重鏈是與哪條輕鏈配對。
[0154] 給定克隆類型數(shù)據(jù)集122中可能的克隆類型的數(shù)量可能相當大。因此,參考圖7,可以使用過濾器326和過濾器328篩選列表304。此外,可以使用滾動條308遍歷列表304。例如,過濾器326允許人們通過基因名稱(例如單個V基因或J基因名稱)、特定的CDR3核苷酸序列、條形碼130、重疊群標識符128或特定的CDR3氨基酸序列進行篩選。
[0155] 圖7進一步示出了如何設(shè)置可供性320,使得熱圖602現(xiàn)在示出了特定淋巴細胞鏈類型(例如T細胞受體α鏈)的CDR3區(qū)中匹配的V基因/J基因。過濾器326對本公開的任何圖示類型進行操作,如圖3至7所示的圖表類型。
[0156] 在圖7中,已將過濾器326設(shè)置為“CDR3氨基酸序列”。在這種情況下,動態(tài)調(diào)整過濾器328以接受氨基酸序列。列表304中提供了包含共有序列126的重疊群,所述共有序列具有與過濾器328的氨基酸序列查詢匹配的氨基酸序列。過濾器328中指定的氨基酸序列可以較短(例如少于五個氨基酸),這與過濾器328中指定的氨基酸序列較長的情況相比可以產(chǎn)生更多的匹配記錄。此外,在過濾器328的搜索查詢中,可以在所述序列中指定通配符(意味著在給
定位置存在氨基酸或不存在氨基酸)。這樣,本公開的一些實施例在被配置成接收用戶指定的選擇標準的顯示器上提供一個或多個可供性326/328。響應于接收到用戶指定的選擇標準,列表304限于所述數(shù)據(jù)集中的所述多個克隆類型中與所述選擇標準匹配的克隆類型。如圖7所示,在一些實施例中,所述選擇標準為重疊群、條形碼、氨基酸序列或核酸序列。進一步響應于接收到用戶指定的選擇標準,所述二維可視化還被限制為僅考慮所述多個克隆類型中與所述選擇標準匹配的克隆類型。
[0157] 轉(zhuǎn)向圖8,已將過濾器326設(shè)置為“重疊群”。在這種情況下,動態(tài)調(diào)整過濾器328以接受一個或多個重疊群標識符128。當在過濾器328處輸入一個重疊群標識符時,與該重疊群標識符匹配的重疊群被提供在列表304中。當在過濾器328處輸入多個重疊群標識符時,與所輸入的多個重疊群標識符之一匹配的任何重疊群被提供在列表304中。
[0158] 轉(zhuǎn)向圖9,有利的是,當將可供性326設(shè)置為“基因名稱”時,可供性328動態(tài)地改變以允許在克隆類型數(shù)據(jù)集122的重疊群的V區(qū)和J區(qū)中表示的一個或多個基因中的第二個。當輸入單個基因時,包含所述基因的任何重疊群都顯示在列表304和對應的左側(cè)圖中。在一些實施例中,以這種方式選擇基因不會更新所述左側(cè)圖上的過濾器。
[0159] 在一些實施例中,當輸入兩個基因時,在列表304和所述對應的左側(cè)圖中僅顯示所述克隆類型數(shù)據(jù)集中包含所選基因兩者的重疊群。在一些實施例中,以這種方式選擇兩個基因不會更新所述左側(cè)圖上的過濾器。
[0160] 在一些實施例中,當輸入三個基因時,在列表304和所速對應的左側(cè)圖中僅顯示所述克隆類型數(shù)據(jù)集中包含所有三個所選基因的重疊群。在一些實施例中,以這種方式選擇三個基因不會更新所述左側(cè)圖上的過濾器。
[0161] 在一些實施例中,當輸入四個基因時,在列表304和所述相應的左側(cè)圖中僅顯示所述克隆類型數(shù)據(jù)集中包含所有四個所選基因的重疊群。在一些實施例中,以這種方式選擇四個基因不會更新所述左側(cè)圖上的過濾器。
[0162] 繼續(xù)圖9,在替代性實施例中,當將可供性326設(shè)置為“基因名稱”時,可供性328仍動態(tài)地改變以允許在克隆類型數(shù)據(jù)集122的重疊群的V區(qū)和J區(qū)中表示的一個或多個基因中的第二個。然而,在所述替代性實施例中,當選擇單個基因時,列表304中顯示的所述重疊群中所述基因的任何實例都被突出顯示,并且對應的左側(cè)圖不受該選擇的影響。當選擇兩個基因時,列表304中的所述重疊群的任何一個中的所述兩個基因中的任一個的任何實例都被突出顯示,并且所述對應的左側(cè)圖不受影響。當選擇三個基因時,列表304中的所述重疊群的任何一個中的所述三個基因中的任何一個的任何實例被突出顯示,并且所述對應的左側(cè)圖不受影響。當選擇四個基因時,列表304中的所述重疊群的任何一個中的所述四個基因中的任一個的任何實例都被突出顯示,并且所述對應的左側(cè)圖不受影響。
[0163] 參考圖8,在克隆類型數(shù)據(jù)集122包括T細胞的情況下,列表304中的每一行指單個T細胞受體鏈(例如α鏈、β鏈等)的所述VDJ區(qū)。在克隆類型數(shù)據(jù)集122包括B細胞的情況下,列表304中的每一行指單個B細胞免疫球蛋白鏈(例如重鏈、輕鏈等)的所述VDJ區(qū)。用戶可以選擇表304中列出的單鏈中的任何一條(例如通過使用
鼠標點擊表示單鏈的所述行)。當這種情況發(fā)生時,用所選鏈的匯總信息代替屏幕左側(cè)的匯總圖表,但是列表314保留。例如,參考圖8的表304中的β鏈802,當用戶點擊表示β鏈802的行時,熱圖802被圖9的板902代替。盡管圖9不包含列表304,但是在VDJ瀏覽器120的優(yōu)選實施例中,板902與列表304一起顯示,使得用戶可以選擇另一個鏈。在一些實施例中,用戶可以通過按下預定的可供性(未示出)或指定的
鍵盤序列(例如Ctrl-Home),返回到圖3至圖8所示的由可供性324提供的匯總圖表。因此,參考圖8,本公開的一些實施例提供了包括多個行的列表304。所述多個行中每個相應行(例如802/804)指定所述第一多個克隆類型中的克隆類型的所述多個重疊群中的重疊群的鏈類型的指示。響應于用戶對多個行中的一行的選擇,用由所選行表示的鏈的匯總信息(例如圖9的匯總信息902)代替所述二維可視化(例如圖6-8的圖表602、圖3-4的圖表302、圖5的圖表502)的顯示,同時保持所述列表的顯示。
[0164] 轉(zhuǎn)向圖9,在板902中提供了所選鏈802的VDJ區(qū)的更多詳細信息。也就是說,板902以表格格式提供單個克隆類型中的單個鏈的詳細信息。所述表格的頂行904為參考序列,下面的所有行都與所述參考序列對齊。所述參考序列為在圖8的所選鏈802中識別的基因的公開精選序列。所述表格的第二行906是來自支持所述所選克隆類型的所選鏈802的所有重疊群128的鏈共有序列(例如支持所選克隆類型的所選鏈802的所有重疊群共有序列的共有序列)。如圖9中詳細描述的,存在9個條形碼130,并且因此有9個重疊群128支持該單鏈。因此,圖9的板902的表格列出了所有九個重疊群。因此,行906下方的每一行是用于支持行906的鏈共有序列的單獨分開的重疊群。在一些實施例中,所述克隆類型數(shù)據(jù)集中的讀段136從測序中獲得,并通過條形碼重新組裝成重疊群。參見Zheng,2017,“單細胞的大規(guī)模并行數(shù)字轉(zhuǎn)錄譜(Massively?parallel?digital?transcriptional?profiling?of?single?cells)”,《自然通訊(Nature?Communications)》,doi:10.1038/ncomms14049,其通過引用結(jié)合于此。在板902中,將與所選克隆類型的所選鏈成功匹配的重疊群中的每一個列為一行。每一行的灰色陰影區(qū)域指示所述重疊群覆蓋所述鏈共有序列的位置。在一些情況下,并非所有重疊群都具有支持整個鏈共有序列的重疊群共有序列126。例如,條形碼CTCGAAAAGCGATCCC-1表示的重疊群的重疊群共有序列126沒有區(qū)904的序列,因此在板902中該重疊群的行中該區(qū)域被涂白。此外,條形碼CTGTGCTCAACCGCCA-1表示的重疊群的鏈重疊群共有序列126不具有區(qū)906的序列,因此在板902中的該重疊群的行中該區(qū)被涂白。雖然這些是5'缺失的實例,所述重疊群其重疊群共有序列中也可能存在3'缺失,在這種情況下,這些缺失由涂白區(qū)域指示。因此,在每個重疊群的重疊群共有序列中,可以存在左側(cè)或右側(cè)的涂白區(qū)域。如果涂白區(qū)域出現(xiàn)在鏈共有序列行906中,這意味著在比對以形成鏈共有序列的重疊群共有序列中的任何一個中不存在針對該區(qū)域組裝的讀段。在一些實施例中,使用指示符表示特定特征。例如,框908表示起始密碼子???10表示核酸序列與目標比對序列錯配,在圖9的情況下,所述目標比對序列為如可供性912所指示的參考序列904。框914表示相對于所述目標比對序列的插入???16表示相對于所述目標比對序列的缺失。盡管終止密碼子未在圖9中示出,但其也以類似的方式示出。盡管在圖9所示的實施例中這些表示用不同類型的陰影框示出,但是在其它實施例中,每種類型的事件、起始密碼子、錯配、插入和缺失以表示所述事件的獨特顏色突出顯示。例如,在一些實施例中,起始密碼子以綠色條表示,終止密碼子以紅色條表示,等等。因此,在一些實施例中,板902中相應重疊群的表示包含一個或多個指示符,其中所述一個或多個指示符包含相應重疊群的起始密碼子、相應重疊群與共有序列之間的錯配、相應重疊群中相對于共有序列所引起的缺失、相應重疊群的終止密碼子或相應重疊群的編碼區(qū)。
[0165] 應當注意,在框918表示的所述區(qū)中,所述重疊群中的每一個具有相同的序列,因為該區(qū)定義了用于選擇板902中表示的所述重疊群的單個克隆類型。然而,在一些克隆類型數(shù)據(jù)集122中,重疊群在框918之外可能具有差異。在細胞基本相同的其它克隆類型數(shù)據(jù)集中(例如自單個細胞的克隆擴增),其中一個細胞已經(jīng)擴增成數(shù)百個細胞,預期每個重疊群的V區(qū)和J區(qū)沒有任何差異。有利的是,所述VDJ瀏覽器的板902允許用戶快速確定是否是這種情況。
[0166] 應當理解,在所述讀段的末端將存在錯配的條(如條920)。這些條表示分析的偽像,因為序列讀段的5'端往往會變化,所以在這些點上預計會出現(xiàn)錯配,但這超出了所關(guān)注的區(qū)域。對于每個重疊群,
蛋白質(zhì)編碼區(qū)在框908之后開始,并向右繼續(xù)。這樣,板902提供了圖形表示,所述圖形表示驗證由克隆類型數(shù)據(jù)集122表示的克隆擴展在圖9所示的VDJ瀏覽器120的實施例中是成功的。換句話說,板902為識別克隆類型的鏈的共有序列126的支持提供了視覺基礎(chǔ)。仍換句話說,提供了共有序列的
置信度的大小。共有序列906(圖1的126)是從所述所選克隆類型的所述所選鏈的每個重疊群128中組裝的。
[0167] 在一些實施例中,共有序列的跨越框918的區(qū)約為12個氨基酸長,并定義所述克隆類型。然而,板902顯示了所述鏈的更多VDJ區(qū),以幫助用戶分析VDJ基因。例如,一些用戶試圖合成所述VDJ區(qū)。這些用戶需要知道整個編碼序列,即整個V序列和整個J序列。由框918表示的所述CDR3區(qū)為克隆類型,但這不是唯一重要的序列,在許多用例中需要區(qū)5'和3'來建立保真度。
[0168] 圖10示出了從列表304中選擇T細胞β鏈804。如圖8中列表304的列310所指示,有六個支持這種克隆類型的條形碼130。因此,在圖10的板1002中,六個重疊群列在所述表格的鏈共有序列行下方。此外,可以使用可供性912將這些重疊群中的每一個的重疊群共有序列和鏈共有序列與參考序列進行比對,或者替代性地,可以使用其將這些重疊群中的每一個的重疊群共有序列與鏈共有序列進行比對。
[0169] 圖11展示了用戶如何通過簡單地點擊圖10的板1002的鏈共有序列行906來容易地獲得形成圖10的鏈共有序列906的V基因序列、D基因序列、J基因序列和C基因序列的整個鏈共有序列。當完成此操作時,VDJ瀏覽器120顯示圖11的板1102。板1102提供所述所選鏈的V基因、D基因、J基因和C基因的同一性,并提供所述鏈共有序列,然后可以將其復制并粘貼到另一個應用中。在一些實施例中,可以將所述鏈共有序列導出到文件。這對希望重新合成所述區(qū)的用戶非常有用。這個特征是有利的,因為所述區(qū)在700個堿基長的范圍內(nèi)。因此,在一些實施例中,響應于對共有序列的選擇,以被配置用于用戶剪切并粘貼到在所述系統(tǒng)上運行的單獨分開的應用中的格式顯示整個共有序列。
[0170] 圖12展示了用戶如何能夠容易地獲得關(guān)于支持所述共有序列的所述重疊群中的一個的另外的信息。在圖12中,用戶點擊了條形碼130ACAGGTAGGTAGCATA-1所表示的重疊群的行,從而調(diào)出板1202。板1202提供關(guān)于所述重疊群的信息,如所述重疊群的相關(guān)條形碼130、所述重疊群的重疊群標識符128、支持所述重疊群的唯一分子標識符132的數(shù)量(UMI計數(shù))、支持所述重疊群的序列讀段132的數(shù)量(讀段計數(shù))、所述重疊群的V基因、D基因、J基因和C基因的參考同一性,以及跨支持所述重疊群的序列讀段134形成重疊群共有序列126的V基因序列、D基因序列、J基因序列和C基因序列。在一些實施例中,可以將重疊群共有序列
126導出到文件。
[0171] 參考圖13,用戶已使用可供性326選擇輸入特定的CDR3氨基酸序列,所述CDR3氨基酸序列的序列被輸入到可供性328,從而使用VDJ瀏覽器120獲得列表304中包含該氨基酸序列的重疊群。在圖13中,用戶選擇了由行1302表示的特定克隆類型的特定淋巴細胞受體鏈類型(在圖13的情況下為所述T細胞β鏈),因此圖1302顯示了所選克隆類型的所選鏈的匯總信息。所述鏈的所述CDR3區(qū)再次由框918表示,在VDJ瀏覽器120的一些實施例中,所述CDR3區(qū)通過具有較暗的背景來突出顯示。此外,在位置1304提供區(qū)918的氨基酸序列,在位置1306提供核苷酸區(qū)。通過選擇1304或1306,可以選擇、復制相應的序列,并將其導出到另一個應用或保存到外部存儲器。通過點擊可供性1308,所述所選鏈的CDR3序列在無需進一步的人工干預的情況下被粘貼到可供性328中,使得用戶可以在所述克隆類型數(shù)據(jù)集中搜索具有完全相同CDR3的其它克隆類型。因此,如果用戶點擊可供性1308,所述VDJ瀏覽器復制位置1304處的所述序列并將其粘貼到可供性328中。以這種方式,用戶可以看到具有完全相同CDR3的所有其它相同類型的鏈。所述其它鏈不一定與板1302中描述的鏈具有相同的克隆類型。例如,可以將所述其它鏈與對應淋巴細胞受體中的不同鏈配對。也就是說,克隆類型不僅由單個CDR3定義,還由細胞間的CDR3對定義(例如在T細胞的情況下來自α鏈的CDR3和來自β鏈的CDR3)。例如,本圖中描述的示例克隆類型數(shù)據(jù)集包含349個細胞的克隆類型。在這349個細胞的每一個中,都已經(jīng)表達了該特定的T細胞受體鏈。該α受體鏈或該α受體鏈的基因序列和所述β受體鏈的基因序列。而β受體鏈的序列、β受體鏈的相同序列在其它克隆類型中,但與不同的β受體鏈或不同的α受體鏈配對。B細胞免疫球蛋白的克隆類型根據(jù)B細胞免疫球蛋白的重鏈和輕鏈相似地定義。所以克隆類型由同一組細胞表達的鏈的集合定義。
[0172] 繼續(xù)圖14,通過選擇可供性1402,用戶可以切換到序列視圖,其中在選擇可供性1402之后,支持所選克隆類型的所選鏈的每個重疊群的重疊群共有序列126與該鏈的鏈共有序列一起顯示,如圖15所示。轉(zhuǎn)向圖15,支持所選克隆類型的所選鏈的六個重疊群中的每一個的重疊群共有序列126顯示在鏈共有序列的下方,所述鏈共有有序列在這一情況下由六個重疊群共有序列126形成。因此,本公開的一些實施例包括切換鍵(例如可供性1402),并且用戶對所述切換鍵的選擇將所述數(shù)據(jù)集中包含所選鏈類型的每個相應重疊群的表示從(i)每個相應重疊群的圖形表示(例如如圖14中所示)和(ii)每個相應重疊群的序列(例如如圖15中所示)中的一個切換到(i)每個相應重疊群的圖形表示和(ii)每個相應重疊群的序列中的另一個。
[0173] 參考圖15,可供性1504指示所述重疊群與所述鏈共有序列比對。然而,可供性1504還允許用戶將述重疊群與所選克隆類型的所選鏈的參考序列對齊。在一些實施例中,參考注釋為由VDJ瀏覽器分析的鏈所包含的基因的Ensembl注釋。參見Aken等人,2015,“Ensembl基因注釋系統(tǒng)數(shù)據(jù)庫(The?Ensembl?gene?annotation?system?Database)”,baw093,doi:10.1093/Database/baw?093;和McLaren,2016等,“Ensembl變異效應預測器(The?Ensembl?Variant?Effect?Predictor)”,《基因組生物學(Genome?Biology)》,17,第122頁,doi:
10.1186/s13059-016-0974-4,這些文獻中的每一篇均通過引用結(jié)合在此。當所述Ensembl參考用于比對時,VDJ瀏覽器120顯示與已知參考序列比對的重疊群,而非顯示從所述重疊群生成的所述鏈共有序列。此外,所述鏈共有序列也與參考比對,并且僅將所述參考中包括的區(qū)比對。也就是說,所有外部的5'和3'區(qū)均被切斷,因此僅顯示所提供的注釋區(qū)(例如來自Ensembl注釋的注釋區(qū))。
[0174] 因此,在一些實施例中,所述VDJ鏈參考序列表為根據(jù)Ensembl基因注釋系統(tǒng)數(shù)據(jù)庫在人類基因組中發(fā)現(xiàn)的所有人類V區(qū)、D區(qū)、J區(qū)和C區(qū),并且當將可供性1504設(shè)置為將重疊群與參考序列比對時,與所選克隆類型的所選鏈最匹配的參考序列充當參考序列。也就是說,所述參考序列為來自Ensembl基因注釋系統(tǒng)數(shù)據(jù)庫的與所選克隆類型的所選鏈的重疊群最匹配的單個V基因、D基因、J基因和C基因的規(guī)范裝配的級聯(lián)。圖9說明了這種情況。在圖9中所觀察到的為源自所述重疊群的共有序列126(在圖9中顯示為906),實際觀察結(jié)果相對于人類基因組參考904都具有由框910和框916表示的修飾。然而,因為這些修飾跨所述鏈共有序列的重疊群中的每一個的重疊群共有序列126是共有的,很明顯,這種修飾表示了支持所述共有序列的所有特定細胞中的真實突變(在圖9中顯示為906),并且在圖9的左側(cè)部分中分析的克隆類型的鏈實際上與人類基因組參考904不同,但是與基于所有重疊群的觀察而調(diào)用的鏈共有序列906共有。
[0175] 在一些實施例中,所述VDJ鏈參考序列表為在
哺乳動物基因組中發(fā)現(xiàn)的所有V區(qū)、D區(qū)、J區(qū)和C區(qū)。在一些實施例中,所述VDJ鏈參考序列表為在非人類動物基因組中發(fā)現(xiàn)的所有V區(qū)、D區(qū)、J區(qū)和C區(qū)。所述動物的實例包含但不限于哺乳動物、爬行動物、鳥類、兩棲動物、魚類、有蹄動物、反芻動物、??苿游?例如家牛(cattle))、
馬科動物(例如馬)、山羊類和綿羊類(例如綿羊、山羊)、豬類(例如豬)、駱駝科動物(例如駱駝、美洲駝、羊駝)、猴類、猿類(例如大猩猩、黑猩猩)、熊科動物(例如熊)、家禽類、狗類、貓類、鼠類、魚類、海豚類、鯨類和鯊魚類。
[0176] 因此,圖1至15展示了VDJ瀏覽器如何提供用于分析克隆類型數(shù)據(jù)的有效機制,例如通過提供克隆類型數(shù)據(jù)集中存在的克隆類型中的任何一個的鏈的任何一個的鏈共有序列。所述VDJ瀏覽器有利地在所述瀏覽器的所述顯示的一側(cè)提供視覺驗證,并在所述瀏覽器的所述顯示的另一側(cè)提供表格式信息。此外,所述VDJ瀏覽器允許用戶更有效地執(zhí)行典型免疫任務(wù),如(i)繪制給定克隆類型數(shù)據(jù)集122中克隆類型的頻率,(ii)觀察給定克隆類型數(shù)據(jù)集122中最豐富的克隆類型的VDJ區(qū),并確定克隆類型在另一個數(shù)據(jù)集中的豐富程度,(iii)獲得克隆類型數(shù)據(jù)的總體評估,以及(iv)獲得將為克隆類型數(shù)據(jù)集122計算的克隆類型(例如通過上游應用)植根于所測序的實際區(qū)的置信度。如圖2至15所示,圖形以一種在沒有計算機的情況下無法容易地或有效地或可靠地完成的方式快速、高效地向用戶提供該信息。
[0177] 參考圖16,當已經(jīng)將可供性1402用于將所述重疊群呈現(xiàn)為序列視圖時,可以使用可供性1602放大關(guān)注的特定特征。例如,參考圖17,通過點擊可供性1602,用戶可以跳轉(zhuǎn)到所選克隆類型的所選鏈的各個區(qū),如所述鏈的V部分、D部分、J部分、C部分或CDR3部分。當用戶從菜單1702選擇這樣的部分時,表1704的視圖放大到所選擇的特征。此外,參考圖9,用戶可以通過選擇特征(如特定特征908、910或916)來立即轉(zhuǎn)換到序列/縮放視圖。當用戶點擊圖9的所述特征之一時,板902轉(zhuǎn)換到所選特征附近的序列視圖,并且顯示跨越所有重疊群的所有重疊群共有序列126的所選特征的區(qū)的核酸序列。因此,例如,如果用戶希望在圖9中進行刪除,用戶可以點擊這個特性,所述VDJ瀏覽器將在序列視圖中跳轉(zhuǎn)到這個區(qū)。以這種方式,用戶可以查看到底刪除了哪些堿基以及哪些堿基錯配。此外,可以如以FASTA格式導出在所述VDJ瀏覽器的一些實施例中顯示的任何序列。
[0178] 轉(zhuǎn)向圖18至23,在一些實施例中,VDJ瀏覽器進一步提供序列讀段134支持視圖,使得用戶可以檢查對應于支持所選克隆類型的所選鏈的特定鏈共有序列的所述重疊群的每一個的序列讀段134。因此,在圖18中,用戶已經(jīng)選擇了緊接所述鏈共有序列行下方的重疊群128,從而調(diào)出如上所述提供關(guān)于所述重疊群的信息的板1802。板1502中的字段之一—字段1504“查看讀段支持”允許用戶檢查支持所選重疊群的序列讀段134。在一些實施例中,對該字段1504的選擇為用戶呈現(xiàn)圖19所示的顯示,其中用戶提供數(shù)據(jù)文件(例如BAM文件)的實際物理位置或所述文件的統(tǒng)一資源位置(URL)地址。BAM是序列比對/映射(SAM)格式的壓縮二進制版本,所述版本是核苷酸序列比對的緊湊且可索引的表示。例如,對圖19的字段1902的選擇向用戶呈現(xiàn)圖20的顯示,在所述顯示中輸入了轉(zhuǎn)向合適的比對文件(例如BAM文件)的URL。在輸入所述合適的比對文件后,所述VDJ瀏覽器提供支持特定重疊群共有序列
126的序列讀段134中的每一個的比對的圖形描述,如圖21所示。因此,圖21示出了與具有重疊群標識符AACTTTCTCGTGGACC的重疊群128比對的所有讀段,所述重疊群是支持表304的所選鏈2102的鏈共有序列的9個重疊群之一。
[0179] 在圖21中,重疊群共有序列126剛好處于核苷酸標尺下方。進一步示出了用于組裝重疊群共有序列126的特定序列讀段134提供的支持。每個行2104表示構(gòu)成重疊群共有序列126的、具有相同的唯一分子標識符132的單個讀段。也就是說,每個讀段2104映射到在特定GEM中測序的同一特定分子。圖21示出了每個讀段2104如何比對以形成重疊群共有序列
126。圖21中顯示的所有序列讀段134(序列讀段2102)都具有條形碼AACTTTCTCGTGGACC的前綴。此外,這些序列讀段中的每一個都是從同一mRNA分子中測序的。將測序差異(如插入、缺失和錯配)注釋到所述比對中,并且通常使用顏色編碼的注釋來表示這些不同特征中的每一個。因此,所述序列讀段的序列中的任何此類差異都歸因于測序誤差。這是使用UMI的一個優(yōu)點,因為使用UMI證實此類差異為測序誤差,而不是所測序的mRNA的實際特征。這是因為圖21中描述的測序讀段中的每一個都是相同的UMI?132,并且因此也是相同的mRNA分子。
[0180] 此外,有幾種不同的UMI支持圖21中表示的重疊群,并且在圖21中可見僅所述UMI中的一個的序列讀段。為了查看對其它UMI的序列讀段支持,用戶可以使用滾動條2104向下滾動或者使用可供性2106選擇特定的UMI。例如,當用戶選擇可供性2106時,將顯示支持所選重疊群共有序列126的12個不同的UMI以及支持所述UMI中的每一個的序列讀段的數(shù)量,如圖22所示,并且用戶可以選擇這些UMI中的任何一個,以便將支持所選重疊群序列133的序列讀段134的UMI共有序列比對133可視化。因此,在本公開的一些實施例中,多個唯一分子標識符與特定重疊群相關(guān)聯(lián),并且顯示提供在(i)選擇所述多個唯一分子標識符中的所有唯一分子標識符與(ii)選擇所述多個唯一分子標識符中的單個唯一分子標識符之間進行選擇的唯一分子標識符可供性(例如圖21的可供性2106)。當選擇所述單個唯一分子標識符時,在多個序列讀段中的每個序列讀段與所述第一重疊群的所述比對中僅顯示所述第一重疊群的具有所述單個唯一分子標識符的那些序列讀段。
[0181] 參考圖23,當用戶點擊單個序列讀段134時,顯示關(guān)于所述序列讀段的信息。
[0182] 在一些實施例中,所述VDJ瀏覽器提供所述克隆類型數(shù)量和所述條形碼數(shù)量的計數(shù),所述計數(shù)將基于輸入到字段326和字段328中的篩選標準來更新。
[0183] 多樣本比較。參考圖24,有利的是,在本公開的一些實施例中,VDJ細胞瀏覽器120能夠比較來自多個克隆類型數(shù)據(jù)集122和來自基因表達集群的克隆類型分布。
[0184] 在圖24中,將四個克隆類型數(shù)據(jù)集122加載到VDJ細胞瀏覽器120中以用于同時分析。一旦加載,并且根據(jù)圖25所示的本公開的實施例,使用“多樣本比較”可供性2502使得能夠跨所有打開的克隆類型數(shù)據(jù)集122進行多樣本比較。在一些實施例中,細胞瀏覽器120打開兩個或更多個、三個或更多個、四個或更多個、五個或更多個、六個或更多個、七個或更多個或10個或更多個克隆類型數(shù)據(jù)集122以進行并發(fā)分析,每個克隆類型數(shù)據(jù)集表示包括多個細胞的不同生物樣本。
[0185] 在圖25中,使用能力2504選擇將用于分析打開的克隆類型數(shù)據(jù)集122的比較圖。在圖25中,選擇了選項“克隆類型重疊”。
[0186] 圖26展示了使用圖24的接口和圖25的選擇機制打開的四個克隆類型數(shù)據(jù)集與圖25中選擇的圖表類型的成對比較。在圖26中,使用森下-霍恩度量說明了圖25中所選的四個克隆類型數(shù)據(jù)集中的單個克隆類型數(shù)據(jù)集122對之間的成對克隆類型共通性,所述森下-霍恩度量使用可供性2602進行選擇。如在本公開中所使用的,所述森下-霍恩度量提供介于0與1之間的值,所述值對分別由兩個克隆類型數(shù)據(jù)集122表示的兩個樣本之間的克隆類型
124重疊的
水平進行加權(quán)。森下-霍恩度量傾向于具有共同的頻率最高的克隆類型124的成對克隆類型數(shù)據(jù)集122,而非在克隆類型(例如在相應克隆類型數(shù)據(jù)集中出現(xiàn)頻率較低的克隆類型)的長尾分布中具有更多重疊的克隆類型數(shù)據(jù)集122。
[0187] 有利的是,所述比較在成對克隆類型、單細胞層面進行。也就是說,如上結(jié)合圖1所述,給定克隆類型124的每個重疊群128表示獨特的單個細胞。每個克隆類型數(shù)據(jù)集122表示不同的生物樣本,并且在所述生物樣本中識別的每個克隆類型124與一個或多個重疊群128相關(guān)聯(lián),每個該種重疊群表示由克隆類型數(shù)據(jù)集122表示的所述生物樣本中獨特的不同細胞(例如,當重疊群由各自由數(shù)據(jù)集122中的序列讀段134支持的至少兩個唯一分子標識符132支持時)。因此,圖26所示的比較是獨特且有利的,因為克隆類型重疊評估一個克隆類型數(shù)據(jù)集122中具有給定克隆類型124且與另一個克隆類型數(shù)據(jù)集122中具有相同克隆類型
124的細胞的克隆類型匹配的細胞的數(shù)量。只有當克隆類型數(shù)據(jù)集122指示由對應的克隆類型數(shù)據(jù)集122表示的生物樣本中的被確定為具有給定克隆類型124的細胞的數(shù)量時,才可能進行這種比較。因此,對于每一克隆類型數(shù)據(jù)集122(A、B)對,圖26計算并顯示了一個度量,所述度量示出了由所述克隆類型數(shù)據(jù)集122對表示的兩個生物樣本之間的成對共通性。有利的是,因為兩個數(shù)據(jù)集之間克隆類型的比較是基于單細胞數(shù)據(jù)的,所以可以使用如森下重疊指數(shù)(Morisita's?overlap?index)等的比較度量執(zhí)行克隆類型數(shù)據(jù)集122的成對比較。
[0188] 森下重疊指數(shù)為群體(例如包括細胞的生物樣本)中個體(例如克隆類型)的分散性的統(tǒng)計度量。其用于比較樣本之間的重疊。此公式基于以下假設(shè):增加樣本的尺寸將增加多樣性,因為所述尺寸將包含不同的克隆類型。森下(Morisita)公式為:
[0189]
[0190] 其中,
[0191] X為由成對比較的第一克隆類型數(shù)據(jù)集122表示的細胞的數(shù)量,
[0192] Y為由成對比較的第二克隆類型數(shù)據(jù)集122表示的細胞的數(shù)量,
[0193] xi為第一克隆類型數(shù)據(jù)集122中具有克隆類型i的細胞的數(shù)量,
[0194] yi為第二克隆類型數(shù)據(jù)集122中具有克隆類型i的細胞的數(shù)量,
[0195] Dx和Dy分別為x和y克隆類型數(shù)據(jù)集122的辛普森指數(shù)值(Simpson's?index?value),并且
[0196] S為跨所比較的兩個克隆類型數(shù)據(jù)集122中獨特克隆類型124的數(shù)量。
[0197] 在此,如果就克隆類型124而言,兩個克隆類型數(shù)據(jù)集122不重疊,則CD=0,如果克隆類型124在隆類型數(shù)據(jù)集122兩者中以相同比例的細胞出現(xiàn),則CD=1。Horn對索引的
修改(用作圖26中每個成對克隆類型數(shù)據(jù)集122比較的基礎(chǔ))為:
[0198]
[0199] 正如Horn,1966,“比較生態(tài)學研究中“重疊”的測量(Measurement?of“Overlap”in?comparative?ecological?studies)”《( 美國博物學家(The?American?Naturalist)》,100,第419-424頁)所描述的,所述文獻通過引用結(jié)合在此。
[0200] 參考圖27,根據(jù)一些實施例,VDJ細胞瀏覽器120提供圖25的四個克隆類型數(shù)據(jù)集的成對比較,所述比較示出了示出了使用由可供性2602選擇的相交單元格度量的四個克隆類型數(shù)據(jù)集中的單個克隆類型數(shù)據(jù)集對之間的成對克隆類型共通性。對于兩個克隆類型數(shù)據(jù)集122的每個相應比較,所述相交單元格度量為屬于在所比較的克隆類型數(shù)據(jù)集122兩者中存在的克隆類型124的細胞的數(shù)量。因此,參考圖27,在“44915”和“44914”克隆類型數(shù)據(jù)集122兩者中存在182個具有克隆類型的細胞,而在“44918”和“44914”克隆類型數(shù)據(jù)集122兩者中不存在細胞。
[0201] 參考圖28,在一些實施例中,VDJ細胞瀏覽器120按照第一克隆類型數(shù)據(jù)集122(其中在圖28所示的實施例中N默認為10,但可選擇)中的頻率提供前N個克隆類型124中的每個相應克隆類型124,并且提供了其它加載的克隆類型數(shù)據(jù)集122中的相應克隆類型的頻率。例如,參考圖28,“44914”克隆類型數(shù)據(jù)集122中的頂部克隆類型124在“44914”克隆類型數(shù)據(jù)集122中具有0.05的相對比例,在“44915”克隆類型數(shù)據(jù)集122中具有0.035的相對比例,并且基本上不在相應的“44918”和“44919”克隆類型數(shù)據(jù)集122中表示。這意味著,對于“44914”克隆類型數(shù)據(jù)集122,由“44914”數(shù)據(jù)集表示的細胞的百分之五在所述數(shù)據(jù)集中具有頂部表示的克隆類型124,而由“44915”數(shù)據(jù)集表示的細胞的3.5%具有這一相同的克隆類型。通過以下事實使得圖28的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且數(shù)據(jù)集122單獨
跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0202] 在一些實施例中,VDJ細胞瀏覽器120提供打開的克隆類型數(shù)據(jù)集122中克隆類型分布的指示。例如,參考圖29,在一些實施例中,VDJ細胞瀏覽器120針對圖25的四個克隆類型數(shù)據(jù)集的每一個描繪根據(jù)一些實施例的每個相應克隆類型數(shù)據(jù)集中前10個所表示的克隆類型中的克隆類型的比例、每個相應克隆類型數(shù)據(jù)集中前10個所表示的克隆類型之外的克隆類型的比例以及每個相應克隆類型數(shù)據(jù)集中非克隆類型的細胞的比例。通過以下事實使得圖29的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且數(shù)據(jù)集122單獨跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0203] 在一些實施例中,VDJ細胞瀏覽器120提供樣本表3106,所述樣本表提供已由VDJ細胞瀏覽器120讀取的兩個選擇的克隆類型數(shù)據(jù)集122的統(tǒng)計數(shù)據(jù)的比較。例如,參考圖30,在一些實施例中,根據(jù)一些實施例,VDJ細胞瀏覽器120允許用戶選擇加載的克隆類型數(shù)據(jù)集122中的兩個以進行克隆類型比較分析。當用戶選擇“44914-CRC_1_UB”和“44915-CRC_2_UB”克隆類型數(shù)據(jù)集122并選擇圖30的“克隆類型比較”可供性3002時,表3106中按照費希爾精確測試計算的p值排序列出了所述克隆類型(介于所比較的兩個克隆類型數(shù)據(jù)集之間),并且將所述列表篩選到所述所述集群中的一個中存在至少三個特定克隆類型的細胞的情況。例如,在表3106的組3102的克隆類型中,在“44915-CRC_2_UB”克隆類型數(shù)據(jù)集中總共有四個細胞具有該克隆類型,并且這占由“44915-CRC_2_UB”克隆類型數(shù)據(jù)集122表示的細胞的1.04%。相比之下,“44914-CRC_2_UB”克隆類型數(shù)據(jù)集122并不具有這樣的克隆類型124。
作為另一個實例,在表3106的克隆類型3104中,“44915-CRC_2_UB”克隆類型數(shù)據(jù)集122總共具有三個細胞,占由所述數(shù)據(jù)集表示的細胞的0.78%,并且克隆類型為3104。相比之下,“44914-CRC_2_UB”克隆類型數(shù)據(jù)集122再次不具有這樣的克隆類型124。對于由表3106表示的每個克隆類型,提供了細胞類型3108、每個相應列出的克隆類型124的“V”區(qū)、“D”區(qū)、“J”區(qū)和“C”區(qū)的同一性以及CDR3區(qū)3110的序列。通過以下事實使得圖31的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且數(shù)據(jù)集122單獨跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0204] 在一些實施例中,VDJ細胞瀏覽器120提供圖表3202,所述圖表提供已由VDJ細胞瀏覽器120讀取的兩個選擇的克隆類型數(shù)據(jù)集122中克隆類型出現(xiàn)頻率的比較。例如,參考圖30,在一些實施例中,根據(jù)一些實施例,VDJ細胞瀏覽器120允許用戶選擇加載的克隆類型數(shù)據(jù)集122中的兩個以進行克隆類型比較分析。在用戶選擇“44914-CRC_1_UB”和“44915-CRC_
2_UB”克隆類型數(shù)據(jù)集122并選擇圖30的“克隆類型頻率”可供性30004之后,VDJ細胞瀏覽器
120提供圖32的克隆類型頻率比較圖3206。
[0205] 在圖32中,將在給定頻率下具有由“44914-CRC_1_UB”克隆類型數(shù)據(jù)集122表示的相應克隆類型124的細胞沿“X”軸布置為該出現(xiàn)頻率的函數(shù)。因此,在“X”軸上,以“1”除以由“44914-CRC_1_UB”數(shù)據(jù)集122表示但未出現(xiàn)在“44915-CRC_2_UB”數(shù)據(jù)集122的細胞的總數(shù)的頻率(例如在圖32的情況下為1/454或0.00220)出現(xiàn)的克隆類型124以圖標3202-1表示。當用戶將其
指針裝置
懸停在圖標3202-1上時,將顯示在第一克隆類型數(shù)據(jù)集“44914-CRC_
1_UB”中出現(xiàn)頻率為1/454且在第二克隆類型數(shù)據(jù)集“44915-CRC_2_UB”中找不到的克隆類型的數(shù)量,盡管未在圖32中示出。在這種情況下,存在321個此類克隆類型,這在這種情況下意味著“44914-CRC_1_UB”中的321個克隆類型各自由“44914-CRC_1_UB”數(shù)據(jù)集中的單個細胞獨特地表示,并且在“44915-CRC_2_UB”數(shù)據(jù)集的細胞中的任何一個中都未發(fā)現(xiàn)。
[0206] 以“2”除以由“44914-CRC_1_UB”數(shù)據(jù)集122表示但未出現(xiàn)在“44915-CRC_2_UB”數(shù)據(jù)集122的細胞的總數(shù)的頻率(2/454或0.00440)出現(xiàn)的克隆類型124以圖標3202-2表示。當用戶將其指針裝置懸停在圖標3202-2上時,將顯示在第一克隆類型數(shù)據(jù)集“44914-CRC_1_UB”中出現(xiàn)頻率為2/454且在第二克隆類型數(shù)據(jù)集“44915-CRC_2_UB”中未發(fā)現(xiàn)的克隆類型的數(shù)量,盡管未在圖32中示出。在這種情況下,存在10個此類克隆類型,這在這種情況下意味著所述10個克隆類型中的每一個都由“44914-CRC_1_UB”數(shù)據(jù)集中的兩個不同的細胞獨特地表示,并且在“44915-CRC_2_UB”數(shù)據(jù)集中未發(fā)現(xiàn)這些克隆類型中的任何一個。
[0207] 以“3”除以由“44914-CRC_1_UB”數(shù)據(jù)集122表示但未出現(xiàn)在“44915-CRC_2_UB”數(shù)據(jù)集122的細胞的總數(shù)的頻率(3/454或0.00660)出現(xiàn)的克隆類型124以圖標3202-3表示。當用戶將其指針裝置懸停在圖標3202-2上時,將顯示在第一克隆類型數(shù)據(jù)集“44914-CRC_1_UB”中出現(xiàn)頻率為3/454且在第二克隆類型數(shù)據(jù)集“44915-CRC_2_UB”中未發(fā)現(xiàn)的克隆類型的數(shù)量,盡管未在圖32中示出。在這種情況下,存在兩個此類克隆類型,這在這種情況下意味著所述兩個克隆類型中的每一個都由“44914-CRC_1_UB”數(shù)據(jù)集中的三個不同的細胞獨特地表示,并且在“44915-CRC_2_UB”數(shù)據(jù)集中未發(fā)現(xiàn)所述克隆類型中的任何一個。
[0208] 在圖32中,將在給定頻率下具有由“44915-CRC_2_UB”克隆類型數(shù)據(jù)集122表示的相應克隆類型124的細胞沿“Y”軸布置為該出現(xiàn)頻率的函數(shù)。因此,在“Y”軸上,以“1”除以由“44915-CRC_2_UB”數(shù)據(jù)集122表示但未出現(xiàn)在“44915-CRC_2_UB”數(shù)據(jù)集122的細胞的總數(shù)的頻率(1/365或0.00270)出現(xiàn)的克隆類型124以圖標3204-1表示。當用戶將其指針裝置懸停在圖標3402-1上時,將顯示在第二克隆類型數(shù)據(jù)集“44915-CRC_2_UB”中出現(xiàn)頻率為1/365而在第一克隆類型數(shù)據(jù)集“44914-CRC_1_UB”中未發(fā)現(xiàn)的克隆類型的數(shù)量,盡管未在圖
32中示出。在這種情況下,存在237個此類克隆類型,這在這種情況下意味著“44915-CRC_2_UB”中的237個細胞具有未由“44915-CRC_2_UB”數(shù)據(jù)集中的任何其它細胞表示并且在“44914-CRC_1_UB”數(shù)據(jù)集的細胞中的任何一個中都未發(fā)現(xiàn)的獨特的克隆類型。
[0209] 圖標3208為圖標3202-1和圖標3204-1之間的頻率相交點。這樣,圖標3208表示在“44914-CRC_1_UB”數(shù)據(jù)集中出現(xiàn)頻率為1/454(1/所述第一數(shù)據(jù)集中的總細胞數(shù))且在“44915-CRC_2_UB”數(shù)據(jù)集中出現(xiàn)頻率為1/365(1/所述第二數(shù)據(jù)集中的總細胞數(shù))的克隆類型的數(shù)量。當用戶將其指針裝置懸停在圖標3208上時,將顯示在第二克隆類型數(shù)據(jù)集“44915-CRC_2_UB”中出現(xiàn)頻率為1/365、在第一克隆類型數(shù)據(jù)集“44914-CRC_1_UB”中出現(xiàn)頻率為1/454的克隆類型的數(shù)量,盡管未在圖32中示出。在這種情況下,存在24個此類克隆類型,這在這種情況下意味著存在各自由“44915-CRC_2_UB”數(shù)據(jù)集和“44914-CRC_1_UB”數(shù)據(jù)集中的單個獨特細胞表示的24個克隆類型。
[0210] 圖32為確定兩個克隆類型數(shù)據(jù)集之間克隆類型出現(xiàn)頻率的相似度提供了視覺基礎(chǔ)。通過以下事實使得圖32的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且數(shù)據(jù)集122單獨跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0211] 轉(zhuǎn)向圖33至圖36,在一些實施例中,可以使用所述VDJ細胞瀏覽器顯示跨已由所述瀏覽器選擇或打開的所有克隆類型數(shù)據(jù)集的特定V基因、D基因、J基因和C基因的相對比例。
[0212] 因此,轉(zhuǎn)向圖33,顯示了跨用于構(gòu)建以圖24所示方式加載的四個克隆類型數(shù)據(jù)集122的四個生物樣本的細胞的V基因使用情況。V基因使用情況是在相應的數(shù)據(jù)集中為克隆類型124中的每一個計數(shù)的注釋的V區(qū)。換句話說,V基因使用情況為在逐克隆類型數(shù)據(jù)集
122的基礎(chǔ)上按頻率(條形碼比例)繪制的可能的不同人類V基因(例如IGLV4-60、IGLV45-
45、IGLV7-43、IGLV8-61等)中的每一個的全部V基因使用情況的集合(無論所表示的V基因出現(xiàn)在哪個鏈中)。因此,在V基因TRAV1-1的情況下,在圖33中針對所比較的四個克隆類型數(shù)據(jù)集122中的每一個提供了該V基因的每個實例的條形碼計數(shù)(不論鏈類型是否出現(xiàn))。當用戶將其指針裝置移動到表示圖33中特定V基因的一組圖形條上時,將顯示該特定V基因的條形碼比例,盡管未在所述圖中示出。例如,如果用戶將其指示裝置懸停在對應于圖33中的V基因“Trav1-1”的圖形條上,則提供所比較的四個克隆類型數(shù)據(jù)集中的每一個中的條形碼比例(如果所述克隆類型數(shù)據(jù)集中存在)。在圖33中對所述數(shù)據(jù)集進行比較的情況下,懸停在條3306的集合上揭示了TRAV1-1?V基因在“44919-CRC_2_UT”數(shù)據(jù)集中的條形碼比例為
0.006195787,在“44918-CRC-1_UT”數(shù)據(jù)集中的條形碼比例為0.00365408,并且在由圖表
3304表示的另外兩個數(shù)據(jù)集中不存在。此外,可以使用可供性3302選擇用于獲得V基因條形碼比例分析的鏈類型。在對包括T細胞的克隆類型數(shù)據(jù)集進行比較的情況下,所述鏈類型將為僅α鏈、僅β鏈或α鏈和β鏈兩者。在圖33中所示的對包塊B細胞的克隆類型數(shù)據(jù)集122進行比較的情況下,使用可供性3302選擇僅重鏈(IGH)、僅kappa鏈(輕鏈)(IGK)、僅lamba鏈(輕鏈)(IGL)或全部三者(IGH、IGHK和IGL)的組合。例如,如果將可供性3302改變?yōu)镮GH,則圖表
3304僅在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上顯示每個J基因類型跨在加載的克隆類型數(shù)據(jù)集
122中的每一個中出現(xiàn)的IGH的條形碼出現(xiàn)頻率。
[0213] 轉(zhuǎn)向圖34,顯示了跨用于構(gòu)建以圖24所示方式加載的四個克隆類型數(shù)據(jù)集122的四個生物樣本的細胞的D基因使用情況。V基因使用情況為在相應的數(shù)據(jù)集中為克隆類型124中的每一個計數(shù)的注釋的V區(qū)。換句話說,D基因使用情況為在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上按頻率(條形碼比例)繪制的可能的不同人類D基因(例如IGHD5-24、IGHD50R15-5B、IGHD6-6、IGHD6-13、IGHD6-19等)中的每一個的全部D基因使用的集合(無論所表示的D基因出現(xiàn)在哪個鏈中)。因此,在D基因IGHD6-19的情況下,在圖34中針對所比較的四個克隆類型數(shù)據(jù)集122中的每一個提供了該D基因的每個實例的條形碼計數(shù)(不論鏈類型是否出現(xiàn))。當用戶將其指針裝置移動到表示圖34中特定D基因的一組圖形條上時,將顯示該特定D基因的條形碼比例,盡管未在圖34中示出。例如,如果用戶將其指示裝置懸停在對應于圖34中的D基因“IGHD6-19”的圖形條上,則提供所比較的四個克隆類型數(shù)據(jù)集中的每一個中的條形碼比例(如果所述克隆類型數(shù)據(jù)集中存在)。在圖34中對所述數(shù)據(jù)集進行比較的情況下,懸停在條3406的集合上揭示了IGHD6-19?D基因在“44914-CRC_1_UB”數(shù)據(jù)集中的條形碼比例為
0.04597701,在“44915-CRC-2_UB”數(shù)據(jù)集中的條形碼比例為0.0569395,并且在由圖表3404表示的另外兩個數(shù)據(jù)集中不存在。此外,可以使用可供性3402選擇用于獲得D基因條形碼比例分析的鏈類型。在對包括T細胞的克隆類型數(shù)據(jù)集進行比較的情況下,所述鏈類型將為僅α鏈、僅β鏈或α鏈和β鏈兩者。在圖34中所示的對包塊B細胞的克隆類型數(shù)據(jù)集122進行比較的情況下,使用可供性3402選擇僅重鏈(IGH)、僅kappa鏈(輕鏈)(IGK)、僅lamba鏈(輕鏈)(IGL)或全部三者(IGH、IGHK和IGL)的組合。例如,如果將可供性3402改變?yōu)镮GH,則圖表
3404僅在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上顯示每個D基因類型跨在加載的克隆類型數(shù)據(jù)集
122中的每一個中出現(xiàn)的IGH的條形碼出現(xiàn)頻率。
[0214] 轉(zhuǎn)向圖35,顯示了跨用于構(gòu)建以圖24所示方式加載的四個克隆類型數(shù)據(jù)集122的四個生物樣本的細胞的J基因使用情況。J基因使用情況為在相應的數(shù)據(jù)集中為克隆類型124中的每一個計數(shù)的注釋的J區(qū)。換句話說,J基因使用情況為在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上按頻率(條形碼比例)繪制的可能的不同人類J基因(例如IGKJ5、IGLJ1、IGLJ2、IGLJ3、TRAJ3、TRAJ4、TRAJ5、TRAJ6、TRAJ8等)中的每一個的全部J基因使用的集合(無論所表示的J基因出現(xiàn)在哪個鏈中)。因此,在J基因TRAJ5的情況下,在圖35中針對所比較的四個克隆類型數(shù)據(jù)集122中的每一個提供了該J基因的每個實例的條形碼計數(shù)(不論鏈類型是否出現(xiàn))。當用戶將其指針裝置移動到表示圖35中特定J基因的一組圖形條上時,將顯示該特定J基因的條形碼比例,盡管未在圖35中示出。例如,如果用戶將其指示裝置懸停在對應于圖35中的J基因“TRAJ5”的圖形條上,則提供所比較的四個克隆類型數(shù)據(jù)集中的每一個中的條形碼比例(如果所述克隆類型數(shù)據(jù)集中存在)。在圖35中對所述數(shù)據(jù)集進行比較的情況下,懸停在條3506的組上揭示了TRAJ5?J基因在“44919-CRC_2_UT”數(shù)據(jù)集中的條形碼比例為0.01115242,在“44918-CRC-1_UT”數(shù)據(jù)集中的條形碼比例為0.00365408,并且在由圖表
3504表示的另外兩個數(shù)據(jù)集中不存在。此外,可以使用可供性3502選擇跨多樣本比較用于獲得J基因條形碼比例分析的鏈類型。在對包括T細胞的克隆類型數(shù)據(jù)集122進行比較的情況下,所述鏈類型將為僅α鏈、僅β鏈或α鏈和β鏈兩者。在圖35中所示的對包塊B細胞的克隆類型數(shù)據(jù)集122進行比較的情況下,使用可供性3502選擇僅重鏈(IGH)、僅kappa鏈(輕鏈)(IGK)、僅lamba鏈(輕鏈)(IGL)或全部三者(IGH、IGHK和IGL)的組合。例如,如果將可供性
3502改變?yōu)镮GH,則圖表3504僅在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上顯示每個J基因類型跨在加載的克隆類型數(shù)據(jù)集122中的每一個中出現(xiàn)的IGH的條形碼出現(xiàn)頻率。
[0215] 轉(zhuǎn)向圖36,顯示了跨用于構(gòu)建以圖24所示方式加載的四個克隆類型數(shù)據(jù)集122的四個生物樣本的細胞的C基因使用情況。C基因使用情況是在相應的數(shù)據(jù)集中為克隆類型124中的每一個計數(shù)的注釋的C區(qū)。換句話說,C基因使用情況為在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上按頻率(條形碼比例)繪制的可能的不同人類C基因(例如IGHA1、IGHG4、IGHM、IGKC、IGLC1、IGLC2、IGLC3、TRAC等)中的每一個的全部C基因使用情況的集合(無論所表示的C基因出現(xiàn)在哪個鏈中)。因此,在C基因IGKC的情況下,在圖36中針對所比較的四個克隆類型數(shù)據(jù)集122中的每一個提供了該C基因的每個實例的條形碼計數(shù)(不論鏈類型是否出現(xiàn))。當用戶將其指針裝置移動到表示圖36中特定C基因的一組圖形條上時,將顯示該特定C基因的條形碼比例,盡管未在圖36中示出。例如,如果用戶將其指示裝置懸停在對應于圖36中的C基因“IGKC”的圖形條上,則提供所比較的四個克隆類型數(shù)據(jù)集中的每一個中的條形碼比例。
在圖36中對所述數(shù)據(jù)集進行比較的情況下,懸停在條3606的集合上揭示了IGKC基因在“44914-CRC_1_UB”克隆類型數(shù)據(jù)集122中的條形碼比例為0.2756005,在“44915-CRC_2_UB”數(shù)據(jù)集中的條形碼比例為0.255814,并且在由圖表3604表示的另外兩個數(shù)據(jù)集中不存在。
此外,可以使用可供性3602選擇跨多樣本比較用于獲得C基因條形碼比例分析的鏈類型。在對包括T細胞的克隆類型數(shù)據(jù)集122進行比較的情況下,所述鏈類型將為僅α鏈、僅β鏈或α鏈和β鏈兩者。在圖36中所示的對包塊B細胞的克隆類型數(shù)據(jù)集122進行比較的情況下,使用可供性3602選擇僅重鏈(IGH)、僅kappa鏈(輕鏈)(IGK)、僅lamba鏈(輕鏈)(IGL)或全部三者(IGH、IGHK和IGL)的組合。例如,如果將可供性3602改變?yōu)镮GH,則圖表3604僅在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上顯示每個C基因類型跨在加載的克隆類型數(shù)據(jù)集122中的每一個中出現(xiàn)的IGH的條形碼出現(xiàn)頻率。
[0216] 通過以下事實使得圖33-36的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且克隆類型數(shù)據(jù)集122單獨跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0217] 參考圖37,當VDJ細胞瀏覽器120已經(jīng)加載基于B細胞單細胞測序的克隆類型數(shù)據(jù)集時,切換可供性3706以選擇“B細胞同種型”圖表類型使得VDJ細胞瀏覽器120顯示圖表3708。圖表3708示出了跨所有加載的克隆類型數(shù)據(jù)集122的重鏈同種型(例如IGHA、IGHD、IGHG、IGHE和IGHM)的同種型頻率和輕鏈同種型(例如IGK、IGL)的同種型頻率。當用戶將其指針裝置移動到表示圖37中特定鏈類型的一組圖形條上時,將顯示每個相應克隆類型數(shù)據(jù)集中該特定鏈類型的相應同種型頻率(如果克隆類型數(shù)據(jù)集中存在),盡管未在所述圖中示出。例如,如果用戶將其指示裝置懸停在對應于圖37中的IGHG重鏈的圖形條上,則提供包括B細胞的兩個克隆類型數(shù)據(jù)集中的IGHG重鏈的同種型頻率(例如“44915-CRC_1_UB”數(shù)據(jù)集中為0.5160142且“44914-CRC_1_UB”數(shù)據(jù)集中為0.4498567)。通過以下事實使得圖37的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且克隆類型數(shù)據(jù)集122單獨跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0218] B細胞成對同種型。圖38中展示了所有加載的B細胞樣本的重鏈+輕鏈組合的相對分布。因此,參考圖38,當VDJ細胞瀏覽器120已經(jīng)加載基于B細胞單細胞測序的克隆類型數(shù)據(jù)集時,切換可供性3806以選擇“B細胞成對同種型”圖表類型使得VDJ細胞瀏覽器120顯示圖表3808。圖表3808在逐克隆類型數(shù)據(jù)集122的基礎(chǔ)上(例如IGK+IGHA、IGK+IGHD、IGK_IGHG等)顯示了所有加載的B細胞樣本的重鏈+輕鏈組合的相對分布。當用戶將其指針裝置移動到表示圖38中特定的鏈類型對的一組圖形條上時,將顯示每個相應克隆類型數(shù)據(jù)集中鏈類型對的相應頻率(如果克隆類型數(shù)據(jù)集中存在),盡管未在所述圖中示出。例如,如果用戶將其指示裝置懸停在對應于圖38中的IGK+IGHG鏈組合的圖形條上,則提供包含B細胞的兩個克隆類型數(shù)據(jù)集中的這一鏈類型對的同種型頻率(例如“44915-CRC_1_UB”數(shù)據(jù)集中為0.3135593且“44914-CRC_1_UB”數(shù)據(jù)集中為0.2836879)。通過以下事實使得圖38的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且克隆類型數(shù)據(jù)集122單獨跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0219] 參考圖39,使用可供性3902選擇“克隆類型比較”圖表類型使得VDJ細胞瀏覽器120以表格3904的形式提供兩個所選克隆類型數(shù)據(jù)集(樣本A和樣本B)之間克隆類型層面的比較。表3904中的行的每一組表示存在于所比較的兩個克隆類型數(shù)據(jù)集122中的至少一個中的克隆類型124。對于表3904中列出的每個克隆類型124,提供了V基因、D基因、J基因和C基因的鏈類型和指示以及CDR3區(qū)的氨基酸序列。此外,提供了在兩個選擇的克隆類型數(shù)據(jù)集的每一個中具有該相應克隆類型的細胞的數(shù)量,以及在選擇的克隆類型數(shù)據(jù)集中具有該相應克隆類型的細胞的百分比的指示。在圖39所示的實施例中,按照通過費希爾精確測試計算的p值(介于兩個所比較的克隆類型數(shù)據(jù)集之間)對克隆類型進行排序,并且將所述列表篩選到所述樣本中的一個中存在至少三個特定克隆類型的細胞的情況。表3904顯示了兩個克隆類型數(shù)據(jù)集122之間成對單細胞克隆類型頻率的比較。通過以下事實使得圖39的比較成為可能:所公開的克隆類型數(shù)據(jù)集122建立在單細胞測序方法的基礎(chǔ)上,并且克隆類型數(shù)據(jù)集122單獨跟蹤用于構(gòu)建如上所述的數(shù)據(jù)集的生物樣本中的細胞。
[0220] 基因表達數(shù)據(jù)整合。參考圖40和41,有利的是,VDJ細胞瀏覽器除了加載克隆類型數(shù)據(jù)集122之外,其還可以加載一個或多個具有于2018年2月8日提交的標題為《用于將數(shù)據(jù)集中的模式可視化的系統(tǒng)和方法(Systems?and?Methods?for?Visualizing?a?Pattern?in?a?Dataset)》的美國專利申請15/891,607中描述的格式的集群數(shù)據(jù)集180,所述申請通過參考結(jié)合在此。如美國專利申請15/891,607中所述,獲得離散屬性值數(shù)據(jù)集。對于多個第二實體(例如多個細胞)中的每個相應的第二實體(例如細胞),所述離散屬性值數(shù)據(jù)集包括多個第一實體(例如基因)中的每個第一實體(例基因)的離散屬性值(例如映射到單個基因的轉(zhuǎn)錄物讀段的計數(shù))。在一些實施例中,用于給定第二實體的多個第一實體中的每個第一實體為多個基因中的相應基因。每個離散屬性值為所述第二實體中映射到所述多個基因內(nèi)相應基因的轉(zhuǎn)錄物讀段的計數(shù)。在此類實施例中,每個第二實體126是單個細胞。所述離散屬性值數(shù)據(jù)集表示完整的轉(zhuǎn)錄組鳥槍測序?qū)嶒灒鰧嶒炓杂成涞交虻霓D(zhuǎn)錄物讀段計數(shù)來量化來自單個細胞的基因表達。
[0221] 在一些實施例中,將來自單個細胞的mRNA擴增并使用相同的條形碼條形碼化。在一些此類實施例中,從單個細胞測量離散的屬性值,并且使用微流體分區(qū)在相應的微流體液滴中捕獲此類單個細胞,然后使用這些液滴中的每一滴的單個條形碼池標記給定細胞的所有內(nèi)容物(例如對應于基因的mRNA)。例如,在一些實施例中,通過將數(shù)以千計的第二實體劃分成納米升級的凝膠珠乳液(GEM)對(例如約750,000個條形碼的)池進行
采樣以分別索引每個第二實體的轉(zhuǎn)錄組,其中所有生成的cDNA共用共同的條形碼。在一些實施例中,為每個相應的微滴(GEM)分配其自身的條形碼,并且在相應微滴中的所有內(nèi)容物(例如第一實體)標記對于相應微滴獨特的條形碼。在一些實施例中,此類液滴通過Zheng等人在2016,《自然生物技術(shù)(Nat?Biotchnol.)》,34(3):303-311;《10X?Genomics?Chromium單細胞3'
試劑盒第二版用戶指南(2017)(Chromium,Single?Cell?3'Reagent?Kits?v2.User?Guide,2017,10X?Genomics)(修訂版B)》(普萊森頓(Pleasanton),加利福尼亞州)或《10X?Genomics?Chromium單細胞V(D)J試劑盒用戶指南(2017)(Chromium?Single?Cell?V(D)J?Reagent?Kits?User?Guide,2017,10X?Genomics)》(普萊森頓,加利福尼亞州)的描述形成,這些文獻中的每一篇均通過引用結(jié)合在此。
[0222] 跨測試樣本(例如
腫瘤活檢物等)中的細胞群將來自此類mRNA的現(xiàn)條形碼化的經(jīng)擴增DNA匯集然后分成兩個或更多個等分試樣、三個或更多個等分試樣、四個或更多個等分試樣、十個或更多個等分試樣等。每個該種等分試樣包含原始樣本中每個細胞中的mRNA中的每一個的一個或多個條形碼化的cDNA構(gòu)建體。也就是說,每個相應的等分試樣完全表示所述原始樣本中來自每個細胞的每個所表達基因的相對表達。此外,因為將所表達的基因(例如以mRNA的形式)在擴增成cDNA之后條形碼化,所以有可能將來自所述等分試樣中的一個的cDNA識別為來自與來自其它等分試樣的cDNA相同的基因,因為其將具有匹配的條形碼。因此,將相應的等分試樣中的一份應用于上述通用的V(D)J轉(zhuǎn)錄物文庫構(gòu)建和選擇協(xié)議,由此填充克隆類型數(shù)據(jù)集122,并且所述等分試樣中的另一份遵循5'基因表達文庫構(gòu)建協(xié)議(如于2017年10月15日提交的標題為《用于將數(shù)據(jù)集中的模式可視化的系統(tǒng)和方法(Systems?and?Methods?for?Visualizing?a?Pattern?in?a?Dataset)》的美國專利申請?zhí)?2/572,544中標題為“離散屬性值管線(discrete?attribute?value?pipeline)”的章節(jié)中描述的協(xié)議),從而填充離散屬性值數(shù)據(jù)集中測試樣本中每個細胞的每個基因的離散屬性值。在一些實施例中,所述測試樣本包括10個或更多個第二實體、100個或更多個第二實體、或1000個或更多個第二實體。在一些實施例中,所述測試樣本為來自對象(如人類對象)的活檢物。在一些實施例中,所述樣本為腫瘤的活檢物并且包含幾種不同的細胞類型。
[0223] 因此,使用共享相同條形碼的原始條形碼化的經(jīng)擴增cDNA產(chǎn)生的來自每個文庫的條形碼化的序列讀段很可能來自相同的細胞。而且,如下文進一步討論的,可以對多個等分試樣中的其它等分試樣進行其它形式的單細胞測序或表達分析,并且可以基于公共條形碼將源自此類管線的數(shù)據(jù)索引到離散屬性值數(shù)據(jù)集中的單個細胞。
[0224] 因此,在聯(lián)合基因表達/靶向V(D)J實驗中,用戶將創(chuàng)建上述庫(例如上述第一和第二等分試樣)并針對每個庫運行相應的分析管線(如在2017年10月15日提交的標題為《用于將數(shù)據(jù)集中的模式可視化的系統(tǒng)和方法(Systems?and?Methods?for?Visualizing?a?Pattern?in?aDataset)》的美國專利申請?zhí)?2/572,544中標題為“離散屬性值管線(Discrete?attribute?valuepipeline)”的章節(jié)中公開的管線以及在本公開中公開的形成克隆類型數(shù)據(jù)集122的管線,從而分別填充所述離散屬性值數(shù)據(jù)集和克隆類型數(shù)據(jù)集122。換句話說,一旦分析管線完成,離散屬性值管線將產(chǎn)生離散屬性值數(shù)據(jù)集文件(例如Loupe細胞瀏覽器(cloupe)),如于2017年10月15日提交的標題題為《用于將數(shù)據(jù)集中的模式可視化的系統(tǒng)和方法(Systems?andMethods?for?Visualizing?a?Pattern?in?a?Dataset)》的美國臨時專利申請?zhí)?2/572,544中所公開的。靶向的VDJ管線將產(chǎn)生克隆類型數(shù)據(jù)集122(例如,如本文所公開的Loupe?VDJ瀏覽器(vloupe)文件)。所述離散屬性值數(shù)據(jù)集和克隆類型數(shù)據(jù)集122共享公共條形碼,因為這些數(shù)據(jù)集來自于研究中的同一生物樣本中的相同細胞,所以VDJ瀏覽器120能夠?qū)乃鲭x散屬性集導出的聚類數(shù)據(jù)集180導入到對應克隆類型數(shù)據(jù)集122的克隆類型數(shù)據(jù)集122
工作空間中。所述離散屬性值數(shù)據(jù)集的基因的離散屬性值120可以直接追溯到離散屬性值數(shù)據(jù)集和對應的克隆類型數(shù)據(jù)集122兩者中的單個對應的單個細胞。該特征有利地提供了集成的單細胞基因組分析的實例,其中工作者可以將來自兩個或更多個不同
數(shù)據(jù)處理管線(例如克隆類型數(shù)據(jù)集122和離散屬性值數(shù)據(jù)集)的關(guān)于相同細胞的信息組合,以便提供關(guān)于這些細胞的新的多方面信息。此外,可以訪問克隆類型數(shù)據(jù)集122和離散屬性值數(shù)據(jù)集120兩者的VDJ細胞瀏覽器120的此類實施例能夠使得使用克隆類型作為過濾器來檢查所述離散屬性值,其中已通過克隆類型數(shù)據(jù)集122和相應的離散屬性值數(shù)據(jù)集中的公共條形碼將基因索引到單個細胞和克隆類型124。
[0225] 美國專利申請62/572,544中公開的細胞瀏覽器中的聚類模塊使用所述離散屬性值數(shù)據(jù)集中的離散屬性值,以以經(jīng)聚類數(shù)據(jù)集180(相當于美國專利申請15/891,607中的經(jīng)聚類數(shù)據(jù)集128)的形式將細胞聚類成集群。這樣,經(jīng)過聚類的數(shù)據(jù)集180識別映射到每個集群的條形碼130。在使用相同的生物樣本來構(gòu)建所述克隆類型數(shù)據(jù)集和所述離散屬性集的實施例中,來自從所述離散屬性集導出的經(jīng)過聚類的數(shù)據(jù)集的集群信息包含映射到所述克隆類型數(shù)據(jù)集中條形碼的條形碼。因此,可以使用經(jīng)過聚類的數(shù)據(jù)集的表達集群信息(例如所述條形碼)來識別所述克隆類型集中的哪些細胞屬于所述經(jīng)過聚類的數(shù)據(jù)集中的哪些集群。
[0226] 在典型實施例中,細胞瀏覽器的聚類模塊使用存儲在離散屬性值數(shù)據(jù)集中的主成分值(所述主成分值通過使用跨離散屬性值數(shù)據(jù)集中的多個細胞(第二實體)的基因(第一實體)的離散屬性值的主成分分析方法計算),以所述獲取離散屬性值數(shù)據(jù)集并將細胞聚類到經(jīng)聚類數(shù)據(jù)集180中。
[0227] 主成分分析(PCA)是一種將多個相關(guān)變量減少為較少的不相關(guān)變量(稱為“主成分”)的數(shù)學程序。選擇第一個主成分,使得其盡可能地說明數(shù)據(jù)的可變性,并且每個后續(xù)成分盡可能地說明剩余的可變性。PCA的目的為發(fā)現(xiàn)或降低所述數(shù)據(jù)集的維數(shù)并識別新的有意義的潛在變量。PCA通過在協(xié)方差矩陣或相關(guān)矩陣中建立實際數(shù)據(jù)來實現(xiàn)。PCA中使用的數(shù)學技術(shù)被稱為特征分析(Eigen?analysis):用平方和叉積的和求解一個平方對稱矩陣的特征值(eigenvalue)和
特征向量(eigenvector)。與最大特征值相關(guān)聯(lián)的特征向量具有與第一主分量相同的方向。與第二大特征值相關(guān)聯(lián)的特征向量確定第二主分量的方向。特征值之和等于方陣的跡線,特征向量的最大數(shù)量等于該矩陣的行數(shù)(或列數(shù))。參見例如,Duda、Hart和Stork,《模式分類(Pattern?Classification)》,第二版,約翰·威利父子公司(John?Wiley&Sons,Inc.),紐約,2000,第115-116頁,其通過引用結(jié)合在此。
[0228] 對于根據(jù)美國專利申請62/572,544的聚類模塊的一個實施例進行聚類,考慮每個第二實體與將聚類到相應的經(jīng)聚類數(shù)據(jù)集中的離散屬性值數(shù)據(jù)集中的十個第一實體相關(guān)聯(lián)的情況。在這種情況下,可以將每個第二實體表示為向量:
[0229]
[0230] 其中Xi為與所述第二實體相關(guān)聯(lián)的第一實體i的離散屬性值。因此,如果存在一千個第二實體,則定義了1000個向量。那些跨所述離散屬性值數(shù)據(jù)集的基因組表現(xiàn)出相似離散屬性值的細胞將趨向于聚類在一起。例如,在每個第二實體為單個細胞的情況下,所述第一實體對應于映射到此類單個細胞內(nèi)的單獨基因的mRNA,并且所述離散屬性值為此類mRNA的mRNA計數(shù),在一些實施例中,所述離散屬性值數(shù)據(jù)集包含來自一種或更多種細胞類型(例如患病狀態(tài)和非患病狀態(tài))、兩種或更多種細胞類型、三種或更多種細胞類型的mRNA數(shù)據(jù)。這種情況下,預期相似類型的細胞將傾向于跨第一實體(mRNA)組具有相似的mRNA值,并且因此聚類在一起。例如,如果離散屬性值數(shù)據(jù)集包含a類:來自患有
疾病的對象的細胞,和b類:來自未患疾病的對象的細胞,理想的聚類分類器將將所述離散屬性值數(shù)據(jù)集聚類成兩組,其中一個集群組獨特地表示a類,另一個集群組組獨地表示b類。
[0231] 對于根據(jù)美國專利申請62/572,544的聚類模塊的另一個實施例進行聚類,考慮每個第二實體與十個主分量值相關(guān)聯(lián)的情況,所述十個主分量值共同表示給定第二實體的大量第一實體的離散屬性值相對于所述數(shù)據(jù)集中其它第二實體的相應第一實體的離散屬性值的變化。在這種情況下,可以將每個第二實體表示為向量:
[0232]
[0233] 其中Xi是與第二個實體關(guān)聯(lián)的主成分值i。因此,如果存在一千個第二實體,則定義了其中一個向量。跨在主成分值集合表現(xiàn)出相似離散屬性值的所述第二實體將傾向于聚類在一起。例如,在每個第二實體為單個細胞的情況下,所述第一實體對應于映射到此類單個細胞內(nèi)的單獨基因的mRNA,并且所述離散屬性值為此類mRNA的mRNA計數(shù),在一些實施例中,所述離散屬性值數(shù)據(jù)集包含來自一種或更多種細胞類型(例如患病狀態(tài)和非患病狀態(tài))、兩種或更多種細胞類型、三種或更多種細胞類型的mRNA數(shù)據(jù)。這種情況下,預期相似類型的細胞將傾向于跨第一實體(mRNA)組具有相似的mRNA值,并且因此聚類在一起。例如,如果離散屬性值數(shù)據(jù)集包含a類:來自患有疾病的對象的細胞,和b類:來自患有疾病的對象的細胞,理想的聚類分類器將將所述離散屬性值數(shù)據(jù)集聚類成兩組,其中一個集群組獨特地表示a類,另一個集群組組獨地表示b類。
[0234] 在以下文獻中描述了聚類:Duda和Hart,《模式分類與場景分析(Pattern?Classification?and?Scene?Analysis)》的第211-256頁,1973,約翰威立,紐約(以下簡稱為“Duda?1973”),其通過引用結(jié)合在此。如Duda?1973第6.7節(jié)所述,聚類問題被描述為在數(shù)據(jù)集中尋找自然分組的問題。為了確定自然分組,解決了兩個問題。第一,確定測量兩個樣本之間的相似度(或相異度)的方法。使用此度量(相似度度量)確保一個集群中的樣本比其它集群中的樣本彼此更相似。第二,確定用于使用相似度度量將數(shù)據(jù)劃分成集群的機制。
[0235] Duda?1973第6.7節(jié)中討論了相似度度量,其中指出,開始聚類調(diào)查的一種方法是定義距離函數(shù)并且計算數(shù)據(jù)集中所有樣本對之間的距離的矩陣。如果距離是相似度的良好度量,則相同集群中樣本之間的距離將明顯小于不同集群中樣本之間的距離。然而,如Duda?1973第215頁所述,聚類不需要使用距離度量。例如,可以使用非度量相似度函數(shù)s(x,x')比較兩個向量x和x'。通常,當x和x'在某種程度上“相似”時,s(x,x')為值較大的對稱函數(shù)。
Duda1973第216頁提供了非對稱相似度函數(shù)s(x,x')的實例。
[0236] 一旦已經(jīng)選擇了用于測量數(shù)據(jù)集中的點之間的“相似度”或“相異度”的方法,聚類就需要測量數(shù)據(jù)的任何分區(qū)的聚類質(zhì)量的準則函數(shù)。使用將準則函數(shù)極值化的數(shù)據(jù)集的分區(qū)對數(shù)據(jù)進行聚類。見Duda?1973第217頁。在Duda?1973第6.8節(jié)討論了準則函數(shù)。
[0237] 最近地,紐約的約翰威立出版社已經(jīng)出版了Duda等人的《模式分類》的第二版,其通過引用結(jié)合在此。537-563頁詳細地描述了聚類。可以在以下文獻中找到關(guān)于聚類技術(shù)的更多信息:Kaufman和Rousseeuw,1990,《數(shù)據(jù)調(diào)查組:
聚類分析導論(Finding?Groups?in?Data:An?Introduction?to?Cluster?Analysis)》威利,紐約,紐約州;Everitt,1993,《聚類分析(第三版)(Cluster?analysis(Third?Edition))》,威利,紐約,紐約州;以及Backer,1995,《計算機輔助聚類分析推理(Computer-Assisted?Reasoning?in?Cluster?Analysis)》,普倫蒂斯·霍爾(Prentice?Hall),上
馬鞍河,新澤西州。美國專利申請62/
572,544的聚類模塊可以使用特定的示例性聚類技術(shù)對多個向量進行聚類,其中多個向量中的每個相應向量包括跨對應的第二實體的第一實體的離散屬性值(或從中導出的主成分),所述聚類包括但不限于層次聚類(使用最近鄰算法、最遠鄰算法、平均聯(lián)動算法、質(zhì)心算法或平方和算法的凝聚聚類)、k均值聚類、模糊k均值聚類算法和賈維斯-帕特里克聚類。
[0238] 因此,在一些實施例中,美國專利申請62/572,544的聚類模塊使用多個第二實體(例如多個細胞)中的每個相應第二實體(例如細胞)中的多個第一實體中的每個第一實體(例如基因的mRNA)的離散屬性值或者從所述離散屬性值導出的主成分值來對所述離散屬性值數(shù)據(jù)集進行聚類,由此將多個所述第二實體中的每個相應第二實體分配給多個集群中的相應集群,并且由此將集群屬性值分配給所述多個第二實體中的每個相應第二實體。
[0239] 在一些實施例中,美國專利申請?zhí)?2/572,544的聚類模塊利用k均值聚類來形成經(jīng)聚類數(shù)據(jù)集180。k均值聚類的目標為基于單個第二實體的主成分或離散屬性值將所述離散屬性值數(shù)據(jù)集聚類成K個分區(qū)。在一些實施例中,K為介于2與50(包含2和50)之間的數(shù)字。在一些實施例中,將數(shù)字K設(shè)置為預定數(shù)字(如10)。在一些實施例中,針對特定離散屬性值數(shù)據(jù)集對數(shù)字K進行優(yōu)化。在一些實施例中,用戶使用細胞瀏覽器150設(shè)置數(shù)字K。
[0240] 如美國專利申請?zhí)?2/572,544中所述,在一些實施例中,所聚類的離散屬性值數(shù)據(jù)集包含由所述數(shù)據(jù)集表示的每個細胞中的1000個或更多個、3000個或更多個、5000個或更多個、10,000個或更多個、或15,000個或更多個mRNA的離散屬性值。在一些此類實施例中,所述離散屬性值數(shù)據(jù)集包含500個或更多個細胞、5000個或更多個細胞、100,000個或更多個細胞、250,000個或更多個細胞、500,000個或更多個細胞、1,000,000個或更多個細胞、1000萬個或更多個細胞或5000萬個或更多個細胞的mRNA的離散屬性值。在一些實施例中,每個單個細胞是為人類細胞。在一些實施例中,每個第二實體表示不同的人類細胞。在一些實施例中,所述離散屬性值數(shù)據(jù)集包含若干個不同類別的人類細胞的數(shù)據(jù)(例如表示不同的死亡狀態(tài)和/或野生型狀態(tài))。在此類實施例中,給定細胞(第二實體)中相應mRNA(第一實體)的離散屬性值為在給定細胞中測量的相應mRNA的mRNA數(shù)量。該值可以為零,也可以為某些正整數(shù)。在一些實施例中,給定第二實體的給定第一實體的離散屬性值為集合{0,1,…,
100}中的數(shù)字。在一些實施例中,給定第二實體的給定第一實體的離散屬性值為集合{0,
1,…,50}中的數(shù)字。在一些實施例中,給定第二實體的給定第一實體的離散屬性值為集合{0,1,…,30}中的數(shù)字。在一些實施例中,給定第二實體的給定第一實體的離散屬性值為集合{0,1,…,N}中的數(shù)字,其中N為正整數(shù)。
[0241] 參考圖50A,經(jīng)聚類數(shù)據(jù)集180包括多個集群5002。如上所述,每個集群5002包括多個細胞5004,這些細胞基于所述集群的細胞內(nèi)的mRNA表達模式聚類在一起。此外,如上所述,當將克隆類型數(shù)據(jù)集122從用于形成構(gòu)成經(jīng)聚類數(shù)據(jù)集180的基礎(chǔ)的所述離散屬性值數(shù)據(jù)集的條形碼化的經(jīng)擴增cDNA的公共樣本中導出時,可以將與每個集群的細胞獨特地相關(guān)聯(lián)的條形碼130映射到支持克隆類型數(shù)據(jù)集122中的克隆類型124的條形碼130上。
[0242] 在VDJ細胞瀏覽器120已經(jīng)打開一個或多個克隆類型數(shù)據(jù)集122以及打開使用條形碼化的經(jīng)擴增cDNA的公共樣本形成的經(jīng)聚類數(shù)據(jù)集180的情況下,經(jīng)聚類數(shù)據(jù)集180的基因表達條形碼130與克隆類型數(shù)據(jù)集122的條形碼130之間的關(guān)系由VDJ細胞瀏覽器120使用圖50B中公開的示例性數(shù)據(jù)結(jié)構(gòu)來跟蹤。如圖50B所示,對于每個加載的經(jīng)聚類數(shù)據(jù)集180,存在多個集群5002。每個該種集群5002包含多個第二實體。每個該種細胞由一個或多個條形碼130支持。在一些實施例中,當條形碼130對于細胞是獨特的時,所述細胞由條形碼130支持。這樣,在經(jīng)聚類數(shù)據(jù)集180中存在支持給定集群5002的條形碼列表。在圖50B所示的數(shù)據(jù)結(jié)構(gòu)中,對于加載的每個相應聚類數(shù)據(jù)集180,表示已加載的克隆類型數(shù)據(jù)集122的整個組。
在給定聚類數(shù)據(jù)集180的每個該種克隆類型數(shù)據(jù)集122中,表示聚類數(shù)據(jù)集180的集群5002中的每一個。在每個該種所表示的聚類5002中,列出了對應的經(jīng)聚類數(shù)據(jù)集180的集群5002兩者共有的并且也在相應克隆類型數(shù)據(jù)集122中發(fā)現(xiàn)的條形碼130。以這種方式,可以識別給定克隆類型數(shù)據(jù)集122中的哪些細胞也存在于經(jīng)聚類數(shù)據(jù)集180中的哪些集群5002中。
[0243] 因此,參考圖40,通過點擊打開菜單4002并選擇“從cloupe文件加載集群”,可以將美國專利申請?zhí)?2/572,544中描述的類型的一個或多個經(jīng)聚類數(shù)據(jù)集加載到VDJ細胞瀏覽器120中。選擇該選項后,圖41的板4102出現(xiàn)并列出了可用的經(jīng)聚類數(shù)據(jù)集180。當用戶從板4102中選擇經(jīng)聚類數(shù)據(jù)集“CRC_aggr2.cloupe”文件時,經(jīng)聚類數(shù)據(jù)集180被加載到VDJ細胞瀏覽器120中。在加載一個或多個經(jīng)聚類數(shù)據(jù)集180之后,當經(jīng)聚類數(shù)據(jù)集180和一個或多個打開的克隆類型數(shù)據(jù)集122由來自生物樣本的同一條形碼化的經(jīng)擴增cDNA的等分試樣形成并且因此具有彼此共同的條形碼時,用戶能夠以多種不同的方式應用經(jīng)聚類數(shù)據(jù)集180內(nèi)的集群5002。
[0244] 例如,參考圖42,可以使用VDJ細胞瀏覽器120比較基因表達集群5002之間的克隆類型分布。為此,將VDJ細胞瀏覽器120提供的可供性4202從“樣本”切換為“集群”。然后,用戶使用如圖43中進一步示出的集群A?4204的可供性和集群B?4206的可供性選擇存在于加載的經(jīng)聚類數(shù)據(jù)集180中的兩個集群5002,其中使用可供性4204集群A選擇來自CRC_aggr2經(jīng)聚類數(shù)據(jù)集的“漿細胞”集群(圖43)。在使用圖43的可供性4206從CRC_aggr2經(jīng)聚類數(shù)據(jù)集180中進一步選擇“MHC-II+B細胞”集群5002之后,提供兩個所選克隆類型數(shù)據(jù)集122(圖44)的頂部克隆類型標準的表4406,除了對數(shù)據(jù)進行篩選以使兩個克隆類型數(shù)據(jù)集122中的、同樣也在加載的經(jīng)聚類數(shù)據(jù)集180的兩個選擇的集群5002中的那些細胞的數(shù)據(jù)得以比較之外,所述表與圖39的表3904類似。表4406中的每一行的組表示克隆類型124,所述克隆類型存在于兩個克隆類型數(shù)據(jù)集122中的至少一個中,所述兩個克隆類型數(shù)據(jù)集與由可供性4204和4204選擇的兩個集群5002中的任一個中的細胞進行比較。對于表4206中列出的每個克隆類型124,提供了克隆類型124的鏈類型、V基因、D基因、J基因和C基因的指示以及CDR3區(qū)的氨基酸序列。此外,在列4210中提供了跨兩個選擇的克隆類型數(shù)據(jù)集122的組合具有該相應克隆類型124的細胞的數(shù)量。例如,對于由表4410中的行4412-1的組表示的克隆類型,跨兩個所比較的克隆類型數(shù)據(jù)集122同樣在加載的經(jīng)聚類數(shù)據(jù)集的“漿細胞”集群中總共對32個細胞進行了比較,并且跨兩個所比較的克隆類型數(shù)據(jù)集122同樣在加載的經(jīng)聚類數(shù)據(jù)集180的“MHC-II+B細胞”集群5002中總共沒有細胞被比較。對于由表4410中的行4412-
2的組表示的克隆類型124,跨兩個所比較的克隆類型數(shù)據(jù)集122同樣在加載的經(jīng)聚類數(shù)據(jù)集180的“漿細胞”集群5002中總共沒有細胞被比較,并且跨兩個所比較的克隆類型數(shù)據(jù)集
122同樣在加載的經(jīng)聚類數(shù)據(jù)集180的“MHC-II+B細胞”集群5002中總共對三個細胞進行了比較。每個該種克隆類型表4410還提供所選克隆類型數(shù)據(jù)集122中的每一個的細胞的百分比的指示。在圖44所示的實施例中,按照通過費希爾精確測試計算的p值(介于兩個所比較的集群5002之間)對克隆類型124進行排序,并且將所述列表篩選到所述所述集群中的一個中存在至少三個特定克隆類型的細胞的情況。通過以下事實使得圖44的比較成為可能:所公開的克隆類型數(shù)據(jù)集122和所應用的經(jīng)聚類數(shù)據(jù)集180是使用單細胞測序方法構(gòu)建的,所述單細胞測序方法使用來自相同生物樣本的條形碼化的cDNA構(gòu)建體的公共池,因此克隆類型數(shù)據(jù)集122和所述經(jīng)聚類數(shù)據(jù)集單獨跟蹤用于構(gòu)建如上公開的數(shù)據(jù)集的生物樣本中的細胞,并且有可能將來自克隆類型數(shù)據(jù)集的細胞映射到經(jīng)聚類數(shù)據(jù)集180中的細胞上。
[0245] 此外,一旦已經(jīng)加載了集群數(shù)據(jù)集180,就可以將集群5002應用于單克隆類型數(shù)據(jù)集122分析,從而將單克隆類型數(shù)據(jù)集122中的克隆類型124的視圖篩選為來自經(jīng)聚類數(shù)據(jù)集180中特定集群5002中的細胞的克隆類型124。例如,參考圖45,僅示出了來自“44914-CRC_1_UB”克隆類型數(shù)據(jù)集122的克隆類型數(shù)據(jù)。此外,使用可供性4502將右側(cè)表格中顯示的克隆類型124的列表限制為來自在“44914-CRC_1_UB”克隆類型數(shù)據(jù)集122中同樣在來自“CRC_aggr2”經(jīng)聚類數(shù)據(jù)集180的“漿細胞”集群5002中的細胞的克隆類型。
[0246] 通過以下事實使得圖45的比較成為可能:所公開的克隆類型數(shù)據(jù)集122和所應用的經(jīng)聚類數(shù)據(jù)集180是使用單細胞測序方法構(gòu)建的,所述單細胞測序方法使用來自相同生物樣本的條形碼化的cDNA構(gòu)建體的公共池,因此克隆類型數(shù)據(jù)集122和所述經(jīng)聚類數(shù)據(jù)集單獨跟蹤用于構(gòu)建如上公開的數(shù)據(jù)集的生物樣本中的細胞,并且有可能將來自克隆類型數(shù)據(jù)集的細胞映射到經(jīng)聚類數(shù)據(jù)集180中的細胞上。
[0247] 單樣本圖表參考圖47至49,根據(jù)本公開的一些實施例,VDJ瀏覽器120提供不同的單克隆類型數(shù)據(jù)集圖表來分析單克隆類型數(shù)據(jù)集122。例如,圖47展示了根據(jù)一些實施例的單個選擇的克隆類型數(shù)據(jù)集122內(nèi)的D基因使用情況圖表。圖48示出了根據(jù)一些實施例的單個選擇的克隆類型數(shù)據(jù)集122內(nèi)的C基因使用情況圖表。圖49示出了根據(jù)一些實施例的單個選擇的克隆類型數(shù)據(jù)集122內(nèi)的B細胞同種型視圖。
[0248] 可以為本文描述為單個實例的組件、操作或結(jié)構(gòu)提供多個實例。最后,各個組件、操作和數(shù)據(jù)存儲之間的邊界在某種程度上是任意的,并且在特定說明性配置的上下文中說明了特定操作。設(shè)想了其它功能分配,并且可以落入所述(多個)實施方案的范圍內(nèi)??傮w上,在示例配置中作為單獨分開的組件呈現(xiàn)的結(jié)構(gòu)和功能可以實施為組合結(jié)構(gòu)或組件。類似地,作為單個組件呈現(xiàn)的結(jié)構(gòu)和功能可以實施為單獨分開的組件。這些結(jié)構(gòu)和功能及其它變型、修改、添加和改進落入所述(多個)實施方案的范圍內(nèi)。
[0249] 還應理解,盡管術(shù)語第一、第二等在本文中可以用來描述各種要素,但是這些要素不應該受這些術(shù)語的限制。這些術(shù)語僅用于將一個要素與另一個要素相區(qū)分。例如,在不脫離本公開的范圍的情況下,第一主體可以被稱為第二主體,并且,類似地,第二主體可以被稱為第一主體。雖然第一主體和第二主體都為主體,但這些主體不是同一主體。
[0250] 在本公開中使用的術(shù)語僅用于描述具體實施例的目的,并且不旨在限制本發(fā)明。如在本發(fā)明的說明書和所附權(quán)利要求書中所使用的,除非上下文清楚地指示,否則單數(shù)形式“一個(a)”、“一個(an)”和“所述(the)”旨在同樣包含復數(shù)形式。還將理解的是,如本文使用的術(shù)語“和/或”指代并且包括相關(guān)聯(lián)的列舉項的一個或多個項的任何和所有可能組合。
將進一步理解的是,當在本說明書中使用術(shù)語“包括(comprises)”和/或“包括(comprising)”時,其指定陳述的特征、整數(shù)、步驟、操作、要素和/或組件的存在,但不排除一個或多個其它特征、整數(shù)、步驟、操作、要素、組件和/或它們的組的存在或添加。
[0251] 如本文中所使用的,根據(jù)上下文,術(shù)語“如果”可以被解釋為意指“當……時(when)”或“在……時(upon)”或“響應于確定”或“響應于檢測”。
[0252] 前述描述包含體現(xiàn)說明性實施方案的示例系統(tǒng)、方法、技術(shù)、指令序列和計算機器程序產(chǎn)品。出于解釋的目的,闡述了許多具體細節(jié),以便提供對本發(fā)明主題的各個實施方案的理解。然而對于本領(lǐng)域的技術(shù)人員將顯而易見的是,本發(fā)明的主題可以在沒有這些具體細節(jié)的情況下實踐。總體而言,未詳細示出眾所周知的說明實例、協(xié)議、結(jié)構(gòu)和技術(shù)。
[0253] 為了解釋的目的,前面的描述已經(jīng)參照特定的實施方案進行了描述。然而,上述說明性討論并不旨在窮舉或?qū)⑺鰧嵤┓桨赶拗朴谒_的精確形式。鑒于以上教導,許多修改和變化是可以的。選擇和描述這些實施方案是為了最好地解釋這些原理及其實際應用,由此使得本領(lǐng)域其它技術(shù)人員能夠用適合預期的特定用途的多種修改方案來最好地使用這些實施方案和多種實施方案。