[0001] 與其他
申請(qǐng)的關(guān)系
[0002] 本申請(qǐng)涉及2010年5月25日提交的名為“Bambam:高通量測(cè)序數(shù)據(jù)的平行比較分析”的美國(guó)臨時(shí)
專利申請(qǐng)序號(hào)61/396,356,并且要求其優(yōu)先權(quán),在此將其全部?jī)?nèi)容引入作為參考。
[0003] 本
發(fā)明部分利用下列美國(guó)聯(lián)邦機(jī)構(gòu)的資金進(jìn)行:國(guó)家癌癥研究所編號(hào)1U24CA143858-01。美國(guó)聯(lián)邦政府對(duì)本發(fā)明擁有一定權(quán)利。
發(fā)明領(lǐng)域
[0004] 本發(fā)明涉及處理個(gè)體或?qū)ο?a href='/zhuanli/list-23645-1.html' target='_blank'>生物途徑的數(shù)據(jù)和鑒定其組分從而確定個(gè)體或?qū)ο笫欠窬哂胁“Y或
疾病危險(xiǎn)的方法。本方法可用作利用SAM/BAM格式的文件中存儲(chǔ)的短閱讀比對(duì)(short-read alignment)對(duì)個(gè)體或?qū)ο蟮?a href='/zhuanli/list-21096-1.html' target='_blank'>腫瘤和種系測(cè)序數(shù)據(jù)進(jìn)行比較分析的工具。
數(shù)據(jù)處理方法計(jì)算總拷貝數(shù)和等位基因特異性拷貝數(shù),使等位基因失衡區(qū)域的種系序列分階(phase),發(fā)現(xiàn)
體細(xì)胞和種系序列變體,和推斷體細(xì)胞和種系的結(jié)構(gòu)變化區(qū)域。本發(fā)明還涉及利用本方法診斷對(duì)象是否易患癌癥、
自身免疫性疾病、細(xì)胞周期疾病或其他疾病。
[0005] 背景
[0006] 現(xiàn)代
癌癥治療的核心前提是,患者診斷、
預(yù)后、危險(xiǎn)評(píng)估和治療響應(yīng)預(yù)期可通過(guò)癌癥分類(stratification)得到提高,癌癥分類基于腫瘤基因組、轉(zhuǎn)錄和外因基因組特征,同時(shí)還有診斷時(shí)收集的相關(guān)臨床信息(例如,患者病史、腫瘤
組織學(xué)及階段)以及隨后的臨床后續(xù)數(shù)據(jù)(例如,
治療方案和疾病復(fù)發(fā)事件)。
[0007] 隨著諸如癌癥基因組圖譜(TCGA)的項(xiàng)目發(fā)布多發(fā)性腫瘤和匹配的正常全基因組序列,極其需要可由這些
大數(shù)據(jù)組(TCGA,2008)提取盡可能多的基因組信息的計(jì)算有效的工具??紤]到高
覆蓋(>30X)下單個(gè)患者的全基因組序列的壓縮形式可能是數(shù)以百計(jì)的千兆字節(jié),比較成對(duì)的這些大數(shù)據(jù)組的分析緩慢且難以管理,但對(duì)于發(fā)現(xiàn)各個(gè)患者腫瘤中存在的多種基因組變化絕對(duì)是有必要的。
[0008]
乳腺癌在臨床上和基因組方面是異質(zhì)的,由幾種病理和分子方面不同的亞型組成。在各亞型中,患者對(duì)常規(guī)和目標(biāo)治療劑的響應(yīng)不同,推動(dòng)了標(biāo)記物引導(dǎo)的治療策略的發(fā)展。乳腺癌細(xì)胞系的集合反映出多種在腫瘤中發(fā)現(xiàn)的分子亞型和途徑,表明用候選治療性化合物治療細(xì)胞系可導(dǎo)致分子亞型、途徑和藥物響應(yīng)之間的關(guān)聯(lián)得到確定。在77種治療性化合物的測(cè)試中,幾乎全部藥物在這些細(xì)胞系中顯示差異響應(yīng),約一半顯示亞型、途徑和/或基因組異常-特異性響應(yīng)。這些觀察結(jié)果暗示了可指示臨床藥物調(diào)配的響應(yīng)和抗性機(jī)制以及有效
組合藥物的嘗試。
[0009] 目前需要提供可用于表征、診斷、治療和確定疾病和病癥結(jié)果的方法。
[0010] 發(fā)明概述
[0011] 本發(fā)明提供了生成可用于確定個(gè)體危險(xiǎn)的
數(shù)據(jù)庫(kù)的方法,該個(gè)體危險(xiǎn)具體是,例如,但不限于,個(gè)體易患疾病、病癥或狀況的危險(xiǎn);個(gè)體工作地點(diǎn)、住所、學(xué)?;蝾愃频攸c(diǎn)的危險(xiǎn);個(gè)體暴露于毒素、致癌物質(zhì)、突變劑及類似物的危險(xiǎn);以及個(gè)體飲食習(xí)慣的危險(xiǎn)。此外,本發(fā)明提供了可用于鑒定具體個(gè)體、動(dòng)物、
植物或
微生物的方法。
[0012] 在一個(gè)實(shí)施方式中,本發(fā)明提供了得到差異遺傳序列對(duì)象(目標(biāo))的方法,該方法包括:提供對(duì)遺傳數(shù)據(jù)庫(kù)的
訪問(wèn),該遺傳數(shù)據(jù)庫(kù)存儲(chǔ)(a)表示第一組織的第一遺傳序列串(sequence string)和(b)表示第二組織的第二遺傳序列串,其中第一和第二序列串具有多個(gè)相應(yīng)的子串(sub-string);提供對(duì)與遺傳數(shù)據(jù)庫(kù)連接的序列分析引擎(engine)的訪問(wèn);通過(guò)利用多個(gè)相應(yīng)子串中至少一個(gè)的已知
位置遞增地同步第一和第二序列串,利用序列分析引擎形成局部比對(duì);通過(guò)序列分析引擎,利用局部比對(duì)生成局部比對(duì)中第一與第二序列串之間的局部差異串;和通過(guò)序列分析引擎,利用局部差異串更新差異序列數(shù)據(jù)庫(kù)中的差異遺傳序列對(duì)象。在優(yōu)選實(shí)施方式中,第一和第二遺傳序列串分別表示第一和第二組織至少10%的基因組、轉(zhuǎn)錄組或
蛋白質(zhì)組。在可選的優(yōu)選實(shí)施方式中,第一和第二遺傳序列串分別表示第一和第二組織至少50%的基因組、轉(zhuǎn)錄組或蛋白質(zhì)組。在另一可選的優(yōu)選實(shí)施方式中,第一和第二遺傳序列串分別表示第一和第二組織的基本上整個(gè)基因組、轉(zhuǎn)錄組或蛋白質(zhì)組。在另一優(yōu)選的實(shí)施方式中,相應(yīng)的子串包括純合等位基因。在可選的優(yōu)選實(shí)施方式中,相應(yīng)的子串包括雜合等位基因。在另一更優(yōu)選的實(shí)施方式中,遺傳序列對(duì)象包括文件。
在還更優(yōu)選的實(shí)施方式中,文件符合標(biāo)準(zhǔn)化格式。在最優(yōu)選的實(shí)施方式中,文件符合SAM/BAM格式。
[0013] 在優(yōu)選實(shí)施方式中,同步步驟包括,基于第一串中的先驗(yàn)已知位置比對(duì)多個(gè)子串中的至少一個(gè)。在可選的優(yōu)選實(shí)施方式中,同步步驟包括,基于已知參考串——包括多個(gè)子串中至少一個(gè)的已知位置——比對(duì)多個(gè)子串中的至少一個(gè)。在更優(yōu)選的實(shí)施方式中,已知參考串是共有序列。
[0014] 在另一優(yōu)選的實(shí)施方式中,同步步驟包括,比對(duì)窗口中多個(gè)子串中的至少一個(gè),該窗口的長(zhǎng)度小于多個(gè)子串中至少一個(gè)的長(zhǎng)度。
[0015] 在另一優(yōu)選的實(shí)施方式中,差異遺傳序列對(duì)象表示至少一條
染色體的多個(gè)局部差異串。
[0016] 在另一優(yōu)選的實(shí)施方式中,差異遺傳序列對(duì)象表示第一組織的基本上整個(gè)基因組的多個(gè)局部差異串。
[0017] 還有其他優(yōu)選實(shí)施方式中,差異遺傳序列對(duì)象包括這樣的特征:包括描述差異遺傳序列對(duì)象的元數(shù)據(jù)。在更優(yōu)選的實(shí)施方式中,特征包括第一和第二組織的至少一種的狀態(tài)。在還更優(yōu)選的實(shí)施方式中,狀態(tài)包括第一和第二組織中至少一種的生理狀態(tài)。在最優(yōu)選的實(shí)施方式中,生理狀態(tài)包括選自腫瘤生長(zhǎng)、凋亡、分化狀態(tài)、組織年齡和治療響應(yīng)性的狀態(tài)。
[0018] 在可選的更優(yōu)選的實(shí)施方式中,狀態(tài)包括遺傳狀況。在最優(yōu)選的實(shí)施方式中,遺傳狀況包括選自至少一種倍性、基因拷貝數(shù)、重復(fù)拷貝數(shù)、倒位、缺失、病毒基因插入、體細(xì)胞突變、種系突變、結(jié)構(gòu)重排、易位和雜合性丟失的狀況。
[0019] 在可選的更優(yōu)選的實(shí)施方式中,狀態(tài)包括組織中與
信號(hào)傳導(dǎo)途徑相關(guān)的途徑模型信息。在最優(yōu)選的實(shí)施方式中,信號(hào)傳導(dǎo)途徑選自生長(zhǎng)因子信號(hào)傳導(dǎo)途徑、轉(zhuǎn)錄因子信號(hào)傳導(dǎo)途徑、凋亡途徑、細(xì)胞周期途徑和
激素響應(yīng)途徑。
[0020] 在可選的實(shí)施方式中,第一和第二組織源自相同的生物實(shí)體,生物實(shí)體選自患者、健康個(gè)體、細(xì)胞系、干細(xì)胞、實(shí)驗(yàn)動(dòng)物模型、重組細(xì)菌細(xì)胞和病毒。在可選的實(shí)施方式中,第一組織是健康組織,并且其中第二組織是患病組織。在更優(yōu)選的實(shí)施方式中,患病組織包括腫瘤組織。
[0021] 本發(fā)明還提供了如本文公開(kāi)的方法,其中該方法進(jìn)一步包括如下步驟:在第一序列串全長(zhǎng)中,
迭代地遞增地同步化第一和第二序列串。
[0022] 本發(fā)明還提供了提供健康護(hù)理服務(wù)的方法,該方法包括:提供對(duì)與醫(yī)療記錄存儲(chǔ)設(shè)備在信息上連接的分析引擎的訪問(wèn),其中存儲(chǔ)設(shè)備存儲(chǔ)患者的差異遺傳序列對(duì)象;利用患者差異遺傳序列對(duì)象中存在多個(gè)局部差異串的局部差異串或叢(constellation),通過(guò)分析引擎產(chǎn)生患者特異的數(shù)據(jù)組;和基于患者特異的數(shù)據(jù)組,通過(guò)分析引擎產(chǎn)生患者特異的指示。在優(yōu)選實(shí)施方式中,醫(yī)療記錄存儲(chǔ)設(shè)備被配置為
智能卡,并由患者攜帶。在另一優(yōu)選的實(shí)施方式中,醫(yī)療記錄存儲(chǔ)設(shè)備被健康護(hù)理人員遠(yuǎn)程訪問(wèn)。還有其它優(yōu)選實(shí)施方式中,患者的差異遺傳序列對(duì)象包括至少兩條染色體的多個(gè)局部差異串。在更進(jìn)一步優(yōu)選的實(shí)施方式中,患者的差異遺傳序列對(duì)象包括基本上患者整個(gè)基因組的多個(gè)局部差異串。在另一優(yōu)選的實(shí)施方式中,患者的差異遺傳序列對(duì)象包括表示至少兩種組織類型或相同組織的至少兩個(gè)時(shí)間間隔結(jié)果的多個(gè)局部差異串。在更優(yōu)選的實(shí)施方式中,相同組織的至少兩個(gè)時(shí)間間隔結(jié)果得自治療開(kāi)始之前和之后。在最優(yōu)選的實(shí)施方式中,相同組織的至少兩個(gè)時(shí)間間隔結(jié)果得自治療開(kāi)始之前和之后。
[0023] 在另一可選的優(yōu)選實(shí)施方式中,本文公開(kāi)的患者特異的指示選
自診斷、預(yù)后、治療結(jié)果預(yù)期、治療策略建議和
處方。
[0024] 本發(fā)明還提供了分析群體的方法,該方法包括:在群體醫(yī)療記錄數(shù)據(jù)庫(kù)中獲得和存儲(chǔ)多個(gè)差異遺傳序列對(duì)象,其中該記錄數(shù)據(jù)庫(kù)與分析引擎在信息上連接;通過(guò)分析引擎鑒定多個(gè)差異遺傳序列對(duì)象中的多個(gè)局部差異串叢,從而產(chǎn)生叢記錄;和通過(guò)分析引擎利用叢記錄生成群體分析記錄。在優(yōu)選實(shí)施方式中,群體包括多個(gè)血親。在可選的優(yōu)選實(shí)施方式中,群體包括特征在于共享至少一個(gè)共同特征的多個(gè)成員,該共同特征選自暴露于病原、暴露于毒性劑、健康史、治療史、治療成功、性別、物種和年齡。在另一可選的優(yōu)選實(shí)施方式中,群體包括特征在于共享至少一個(gè)共同特征的多個(gè)成員,該共同特征選自地理位置、種族和職業(yè)。在更進(jìn)一步可選的優(yōu)選實(shí)施方式中,群體分析記錄包括父子關(guān)系或母子關(guān)系的確定。
[0025] 在可選的實(shí)施方式中,本文公開(kāi)的方法進(jìn)一步包括將個(gè)體患者的叢記錄與群體分析記錄進(jìn)行比較的步驟。在優(yōu)選實(shí)施方式中,將個(gè)體患者的叢記錄與群體分析記錄進(jìn)行比較的步驟生成患者特異的記錄。在更優(yōu)選的實(shí)施方式中,患者特異的記錄包括危險(xiǎn)評(píng)估或鑒定患者屬于
指定群體。在可選的更優(yōu)選的實(shí)施方式中,患者特異的記錄包括診斷、預(yù)后、治療結(jié)果預(yù)期、治療策略建議和處方。
[0026] 本發(fā)明進(jìn)一步提供了分析個(gè)人的差異遺傳序列對(duì)象的方法,該方法包括:在與分析引擎在信息上連接的醫(yī)療記錄數(shù)據(jù)庫(kù)中存儲(chǔ)參考差異遺傳序列對(duì)象;通過(guò)分析引擎計(jì)算個(gè)人差異遺傳序列對(duì)象中的多個(gè)局部差異串與參考差異遺傳序列對(duì)象中的多個(gè)局部差異串之間的偏差,產(chǎn)生偏差記錄;通過(guò)分析引擎利用偏差記錄生成個(gè)人特異性偏差概況。在優(yōu)選實(shí)施方式中,參考差異遺傳序列對(duì)象由個(gè)人的多個(gè)局部差異串計(jì)算得到。在另一優(yōu)選的實(shí)施方式中,參考差異遺傳序列對(duì)象由個(gè)人的多個(gè)局部差異串計(jì)算得到。
[0027] 關(guān)于本文公開(kāi)的各種方法,在優(yōu)選實(shí)施方式中,患者或個(gè)人選自診斷患有狀況的患者或個(gè)人,該狀況選自疾病和病癥。在更優(yōu)選的實(shí)施方式中,狀況選自獲得性免疫
缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、
淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、
良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、
胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛
風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)
力、心肌或心包
炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、
銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷?。⊿CID)、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液
透析和體外循環(huán)、病毒、細(xì)菌、
真菌、寄生蟲(chóng)、
原生動(dòng)物和蠕蟲(chóng)感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子
宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、
肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、
前列腺癌、唾液腺癌、
皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌、靜坐不能、阿爾茨海默癥、健忘癥、
肌萎縮性側(cè)索硬化(ALS)、
共濟(jì)失調(diào)、雙極性疾病、
緊張癥、大腦性麻痹、腦
血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性
運(yùn)動(dòng)障礙、
張力障礙、
癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)
纖維瘤、神經(jīng)病、
帕金森病、皮克病、色素性
視網(wǎng)膜炎、
精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和包括腺癌、黑素瘤和畸胎癌在內(nèi)的癌癥,特別是腦癌。
[0028] 在另一優(yōu)選的實(shí)施方式中,狀況選自癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子
宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;免疫疾病,如獲得性免疫缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、
接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、
血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲(chóng)、原生動(dòng)物和蠕蟲(chóng)感染、創(chuàng)傷、布魯頓X-連
鎖無(wú)丙種球蛋白血癥、常見(jiàn)變異型免疫缺陷(CV1)、迪喬治綜合征(胸腺發(fā)育不全)、胸腺發(fā)育不良、隔離IgA缺乏癥(isolated IgAdeficiency)、重度聯(lián)合免疫缺陷?。⊿CID)、血小板減少癥和濕疹的免疫缺陷(威-奧氏綜合征)、切東二氏綜合征、慢性肉芽腫性疾病、遺傳性血管神經(jīng)性
水腫和庫(kù)興病相關(guān)的免疫缺陷;和發(fā)育疾病,如腎小管酸中毒、貧血、庫(kù)興綜合征、軟骨發(fā)育不全性侏儒(achondroplastic dwarfism)、杜興和貝克爾肌肉萎縮癥、癲癇、性腺發(fā)育不全、WAGR綜合征(威爾姆斯瘤、無(wú)虹膜、泌尿生殖系統(tǒng)異常和精神發(fā)育
遲滯)、史密斯-
馬蓋尼斯綜合征、骨髓增生異常綜合征、遺傳性粘膜上皮異常增生、遺傳性皮膚
角化病、遺傳性神經(jīng)病如夏-馬-圖病和神經(jīng)纖維瘤、甲狀腺功能減退癥、腦積水、癲癇病如Syndenham舞蹈病和大腦性麻痹、脊柱裂、無(wú)腦畸形、顱脊柱裂、先天性
青光眼、
白內(nèi)障、感覺(jué)神經(jīng)性聽(tīng)力損失;以及與細(xì)胞生長(zhǎng)和分化、胚胎發(fā)生和形態(tài)發(fā)生相關(guān)的任何疾病,包括對(duì)象的任何組織、器官或系統(tǒng),例如、腦、腎上腺、腎、骨骼或生殖系統(tǒng)。
[0029] 在更進(jìn)一步可選的優(yōu)選實(shí)施方式中,狀況選自內(nèi)分泌疾病,如與垂體功能減退相關(guān)的疾病,包括性腺功能減退、席漢綜合征、尿崩癥、卡爾曼病、漢-許-克三氏病、累-賽二氏病、結(jié)節(jié)病、空蝶鞍綜合征和侏儒癥;垂體功能亢進(jìn),包括肢端肥大癥、巨人癥和抗利尿激素(ADH)分泌異常綜合征(SIADH);和與甲狀腺功能減退相關(guān)的疾病,包括甲狀腺腫、粘液性水腫、與細(xì)菌感染相關(guān)的急性甲狀腺炎、與
病毒感染相關(guān)的亞急性甲狀腺炎、自身免疫性甲狀腺炎(橋本?。┖痛粜“Y;與甲狀腺功能亢進(jìn)相關(guān)的疾病,包括甲狀腺毒癥及其各種形式、格雷夫斯病、脛骨前粘液性水腫、毒性多結(jié)節(jié)性甲狀腺腫、甲狀腺癌和普魯麥?。缓团c甲狀旁腺功能亢進(jìn)相關(guān)的疾病,包括康恩病(慢性高血
鈣);
呼吸系統(tǒng)疾病,如過(guò)敏、哮喘、急性和慢性炎性肺病、ARDS、氣腫、肺充血和水腫、COPD、間質(zhì)性肺病和肺癌;癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;和免疫學(xué)疾病,如獲得性免疫缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲(chóng)、原生動(dòng)物和蠕蟲(chóng)感染以及創(chuàng)傷。
[0030] 本發(fā)明進(jìn)一步提供了得到差異遺傳序列對(duì)象的方法,該方法包括:提供對(duì)遺傳數(shù)據(jù)庫(kù)的訪問(wèn),該遺傳數(shù)據(jù)庫(kù)存儲(chǔ)(a)表示第一組織的第一遺傳序列串和(b)表示第二組織的第二遺傳序列串,其中第一和第二序列串具有多個(gè)相應(yīng)的子串;提供對(duì)與遺傳數(shù)據(jù)庫(kù)連接的序列分析引擎的訪問(wèn);通過(guò)利用多個(gè)相應(yīng)子串中至少一個(gè)的已知位置遞增地同步第一和第二序列串,利用序列分析引擎形成局部比對(duì);通過(guò)序列分析引擎,利用局部比對(duì)生成局部比對(duì)中第一與第二序列串之間的局部差異串;和通過(guò)序列分析引擎,利用局部差異串生成差異序列數(shù)據(jù)庫(kù)中的差異遺傳序列對(duì)象,從而得到差異序列對(duì)象。
[0031] 本發(fā)明進(jìn)一步提供了生成差異遺傳序列對(duì)象的轉(zhuǎn)化方法,差異遺傳序列對(duì)象表示第一遺傳序列與第二序列之間的臨床相關(guān)差異,該方法包括步驟:(i)提供對(duì)遺傳數(shù)據(jù)庫(kù)的訪問(wèn),該遺傳數(shù)據(jù)庫(kù)存儲(chǔ)(a)表示第一組織的第一遺傳序列串和(b)表示第二組織的第二遺傳序列串,其中第一和第二序列串具有多個(gè)相應(yīng)的子串;(ii)提供對(duì)與遺傳數(shù)據(jù)庫(kù)連接的序列分析引擎的訪問(wèn);(iii)通過(guò)利用多個(gè)相應(yīng)子串中至少一個(gè)的已知位置遞增地同步第一和第二序列串,利用序列分析引擎形成局部比對(duì);(iv)通過(guò)序列分析引擎,利用局部比對(duì)生成局部比對(duì)中第一與第二序列串之間的局部差異串;和(v)通過(guò)序列分析引擎,利用局部差異串生成差異序列數(shù)據(jù)庫(kù)中的差異遺傳序列對(duì)象,從而得到差異序列對(duì)象,其中差異序列對(duì)象向用戶提供目標(biāo)信息。
[0032] 在優(yōu)選實(shí)施方式中,目標(biāo)信息選自遺傳相關(guān)信息、代謝相關(guān)信息、毒理相關(guān)信息、臨床相關(guān)信息、時(shí)間相關(guān)信息、地理相關(guān)信息、職業(yè)危險(xiǎn)相關(guān)信息、生活史相關(guān)信息及類似信息。
[0034] 圖1示例了“BamBam”數(shù)據(jù)流的示意圖。
[0035] 圖2示例了等位基因特異性拷貝數(shù)計(jì)算的概括視圖。
[0036] 圖3示例了結(jié)構(gòu)變化呼叫的概括視圖。
[0037] 圖4示例了鑒定基因組中發(fā)生結(jié)構(gòu)重排的位置的示例性方法。
[0038] 圖5示例了示例性腫瘤特異性基因組瀏覽器。
[0039] 發(fā)明詳述
[0040] 本文公開(kāi)的實(shí)施方式是說(shuō)明性和示例性的,并非意為限制本發(fā)明??蓱?yīng)用其他實(shí)施方式,并且可進(jìn)行結(jié)構(gòu)變化,而沒(méi)有脫離本發(fā)明
權(quán)利要求的范圍。
[0041] 如本文和所附權(quán)利要求所用,單數(shù)形式“一(a)”、“一(an)”和“該(所述,the)”包括復(fù)數(shù)指代,除非上下文明確另外表示。因此,例如,“一等位基因(或等位基因)”的指代包括多個(gè)這種等位基因,“一簇(簇)”的指代是指代一個(gè)或多個(gè)簇及其等同形式,等等。
[0042] 如本文所用,術(shù)語(yǔ)“管理的(curated)”意為根據(jù)科學(xué)和/或臨床原理利用本領(lǐng)域的公知方法測(cè)試、分析和鑒定生物分子組和/或非生物分子組之間的關(guān)系,本領(lǐng)域的公知方法如分子生物學(xué)、生物化學(xué)、生理學(xué)、解剖學(xué)、基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、ADME和生物信息學(xué)技術(shù)及類似技術(shù)。該關(guān)系可以是生物化學(xué)性的,如生物化學(xué)途徑、遺傳途徑、代謝途徑、基因調(diào)控途徑、基因轉(zhuǎn)錄途徑、基因翻譯途徑、miRNA調(diào)控途徑、假基因調(diào)控途徑及類似途徑。
[0043] 高通量數(shù)據(jù)提供對(duì)癌組織中分子變化的全面觀察。新技術(shù)允許對(duì)腫瘤樣本和癌細(xì)胞系的基因組拷貝數(shù)變化、基因表達(dá)、DNA甲基化和外遺傳的狀態(tài)進(jìn)行同時(shí)基因組范圍分析(genome wide assay)。
[0044] 計(jì)劃在不久的將來(lái)對(duì)多種腫瘤進(jìn)行研究,如癌癥基因組圖譜(TCGA)、抗癌(Stand Up To Cancer,SU2C)和更多研究。當(dāng)前數(shù)據(jù)組的分析發(fā)現(xiàn),患者之間的遺傳改變可不同,但通常涉及共同的途徑。因此鑒定癌癥
進(jìn)程涉及的相關(guān)途徑和檢測(cè)其在不同患者中如何改變是非常重要的。
[0045] 在諸如癌癥基因組圖譜(TCGA)的項(xiàng)目發(fā)布了多種完全測(cè)序的腫瘤及匹配的正常基因組的情況下,非常需要能夠有效分析這些大量數(shù)據(jù)組的工具。
[0046] 為 此 目 的,我 們 開(kāi) 發(fā) 了 BamBam,其 是 利 用SAM/BAM- 格 式 的 文 件(SAMtoolslibrary;Li H,Handsaker B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G,Abecasis G,Durbin R;1000Genome Project Data Processing Subgroup.The SequenceAlignment/Map format and SAMtools.Bioinformatics.2009Aug15;25(16):2078-9.Epub2009Jun8)中包含的比對(duì)短閱讀據(jù)同時(shí)分析患者腫瘤和種系基因組的各基因組位置的工具。BamBam連接SAMtools庫(kù),利用SAM/BAM-格式文件中的短閱讀比對(duì)同時(shí)分析患者的腫瘤和種系基因組。在本公開(kāi)中,BamBam工具可以是序列分析引擎,其用于比較序列——包含信息串的序列。在一個(gè)實(shí)施方式中,信息串包含生物學(xué)信息,例如,多核苷酸序列或多肽序列。在另一實(shí)施方式中,生物學(xué)信息可包括表達(dá)數(shù)據(jù),例如mRNA轉(zhuǎn)錄子或rRNA或tRNA或肽或多肽或蛋白質(zhì)的相對(duì)濃度水平。在另一實(shí)施方式中,生物學(xué)信息可以是蛋白質(zhì)修修飾的相對(duì)量,該修飾如例如,但不限于,磷
酸化、
硫酸化、乙?;?、甲基化、糖基化、唾液酸化、用糖基磷脂酰肌醇修飾或用蛋白多糖修飾。
[0047] 本處理方法使BamBam能夠有效計(jì)算全部拷貝數(shù)和推斷腫瘤和種系基因組中的結(jié)構(gòu)變化(例如,染色體易位)區(qū)域;有效計(jì)算全部和等位基因特異性拷貝數(shù);推斷呈現(xiàn)雜合性丟失(LOH)的區(qū)域;和發(fā)現(xiàn)體細(xì)胞和種系序列變體(例如,點(diǎn)突變)和結(jié)構(gòu)重排(例如,染色體融合)。此外,通過(guò)同時(shí)比較兩個(gè)基因組序列,BamBam還可直接區(qū)分體細(xì)胞與種系序列變體,計(jì)算腫瘤基因組中的等位基因特異性拷貝數(shù)變化,和使種系單倍型在腫瘤基因組中等位基因比例改變的染色體區(qū)域中分階。通過(guò)將這些分析全部一起引入單個(gè)工具,研究人員可利用BamBam發(fā)現(xiàn)患者腫瘤基因組中存在的多種類型的基因組改變,通常是特定基因等位基因,其有助于鑒定腫瘤發(fā)生的潛在驅(qū)動(dòng)因子。
[0048] 為確定發(fā)現(xiàn)的變體是體細(xì)胞(即,僅在腫瘤中發(fā)現(xiàn)的變體序列)還是種系(即,遺傳的或可遺傳的變體序列)變體,需要以某種方式比較腫瘤與匹配的正?;蚪M。這可通過(guò)如下相繼進(jìn)行:總結(jié)腫瘤和種系的每個(gè)基因組位置的數(shù)據(jù),然后組合結(jié)果用于分析。不幸地是,由于全基因組BAM文件其壓縮形式為數(shù)百個(gè)千兆字節(jié)(未壓縮是1-2百萬(wàn)兆字節(jié)),需要存儲(chǔ)用于后續(xù)分析的中間結(jié)果將是極其巨大的,并且合并和分析極其緩慢。
[0049] 為避免這個(gè)問(wèn)題,BamBam同時(shí)讀取兩個(gè)文件,恒定地保持各BAM文件彼此同步,并累積兩文件之間每個(gè)共同基因組位置重疊的基因組閱讀。對(duì)于每一對(duì)累積(pileup),BamBam運(yùn)行一系列上述分析,然后舍棄累積,并移至下一個(gè)共同基因組位置。通過(guò)用本方法處理這些大批量BAM文件,計(jì)算機(jī)RAM被最低限度地使用,并且處理速度主要受限于文件系統(tǒng)可讀取兩文件的速度。這使得BamBam能夠快速處理大批量數(shù)據(jù),同時(shí)其靈活性足以在單個(gè)計(jì)算機(jī)上或在整個(gè)計(jì)算機(jī)組中運(yùn)行。用BamBam處理這些文件的另一重要益處是其輸出相當(dāng)小,僅由各文件中發(fā)現(xiàn)的重要差異組成。這產(chǎn)生基本上是患者腫瘤與種系基因組之間的全基因組差異,需要的磁盤
存儲(chǔ)器遠(yuǎn)遠(yuǎn)小于若各文件的全基因組信息均單獨(dú)存儲(chǔ)所占用的磁盤存儲(chǔ)器。
[0050] BamBam是計(jì)算有效的方法,用于測(cè)量大測(cè)序數(shù)據(jù)組,以產(chǎn)生一組高
質(zhì)量基因組事件,該高質(zhì)量基因組事件存在于相對(duì)于其種系的各腫瘤中。這些結(jié)果提供對(duì)腫瘤染色體動(dòng)態(tài)的掃視,提高我們對(duì)腫瘤最終狀態(tài)及導(dǎo)致其事件的理解。BamBam數(shù)據(jù)流的示例性方案顯示在圖1中。
[0051] 本發(fā)明的一個(gè)具體的示例性實(shí)施方式是生成和應(yīng)用差異遺傳序列對(duì)象。如本文所用,該對(duì)象代表由BamBam技術(shù)示例的數(shù)字對(duì)象,并反映出參考序列(例如,第一序列)與分析序列(例如,第二序列)之間的差異。對(duì)象可被認(rèn)為是多個(gè)不同市場(chǎng)的阻礙。從市場(chǎng)的角度來(lái)看,人們可能認(rèn)為下列因素與該對(duì)象的應(yīng)用和管理有關(guān):
[0052] o對(duì)象可以是關(guān)于參數(shù)向量(例如,時(shí)間、地理區(qū)域、遺傳樹(shù)、物種等)的動(dòng)態(tài)的和變化。
[0053] o對(duì)象可被認(rèn)為相對(duì)于對(duì)象或參考序列彼此具有“距離”。該距離可根據(jù)相關(guān)尺寸進(jìn)行測(cè)量。例如,該距離可以是與假設(shè)的正常值相距的偏差或相對(duì)于時(shí)間的趨勢(shì)。
[0054] o對(duì)象可以指示危險(xiǎn):發(fā)生疾病、暴露易感性的危險(xiǎn)、在一個(gè)地點(diǎn)的工作危險(xiǎn)等。
[0055] o對(duì)象可被管理,用于呈現(xiàn)于利益相關(guān)者:健康護(hù)理人員、保險(xiǎn)公司、患者等。
[0057] ■可顯示為統(tǒng)計(jì)學(xué)形式:?jiǎn)蝹€(gè)人、群體、標(biāo)準(zhǔn)化人等。
[0058] o參考序列可由對(duì)象生成,形成標(biāo)準(zhǔn)化序列。標(biāo)準(zhǔn)化序列可基于得自所測(cè)對(duì)象的共有序列而構(gòu)建。
[0059] o對(duì)象表示為大型亞基因組或基因組信息,而非單個(gè)基因比對(duì),并且被注釋/包含標(biāo)準(zhǔn)
軟件可讀的元數(shù)據(jù)。
[0060] o對(duì)象可具有可檢測(cè)到的內(nèi)部樣式(pattern)或結(jié)構(gòu):一個(gè)點(diǎn)的突變組可與狀況相關(guān)的另一個(gè)點(diǎn)的第二組突變有關(guān);差異樣式叢可能是熱點(diǎn);利用多變量分析或其它AI技術(shù)來(lái)鑒定相關(guān)性;檢測(cè)熱點(diǎn)(例如,存在、不存在等)的顯著性。
[0061] o與單個(gè)人相關(guān)的對(duì)象可被用作安全密鑰。
[0062] 更新差異序列對(duì)象:更新包括生成、修飾、改變、缺失等;
[0063] o可基于模板。
[0064] o可以是重新(de novo)對(duì)象。
[0065] o可以是已存在的對(duì)象。
[0066] 在可選的示例性實(shí)施方式中,本方法可用于確定和預(yù)期患者對(duì)治療的響應(yīng)性:預(yù)期的、假設(shè)的、預(yù)測(cè)的、實(shí)際的,及類似的。
[0067] 在可選的示例性實(shí)施方式中,本方法可用于提供患者特異的指示:處方、建議、預(yù)后及類似指示。
[0068] [0048]在一個(gè)實(shí)施方式中,本方法可用于提供臨床信息,該臨床信息可用于多種診斷和治療應(yīng)用,如檢測(cè)癌癥組織、對(duì)癌癥組織分期、檢測(cè)轉(zhuǎn)移組織及類似應(yīng)用;檢測(cè)神經(jīng)疾病,如但不限于,阿爾茨海默癥、肌萎縮性側(cè)索硬化(ALS)、帕金森病、精神分裂癥、癲癇、及其并發(fā)癥;發(fā)育疾病,如DiGeorge綜合征、孤獨(dú)癥;自身免疫性疾病,如多發(fā)性硬化癥、糖尿病、及類似疾??;治療感染,如但不限于,病毒感染、細(xì)菌感染、真菌感染、利什曼原蟲(chóng)病、血吸蟲(chóng)病、瘧疾、絳蟲(chóng)病、象皮病、
線蟲(chóng)感染、nematines及類似疾病。
[0069] 在一個(gè)實(shí)施方式中,本方法可用于提供臨床信息,以檢測(cè)和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)的狀況的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNA(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。與表達(dá)改變相關(guān)的狀況、疾病或病癥包括獲得性免疫缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷?。⊿CID)、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲(chóng)、原生動(dòng)物和蠕蟲(chóng)感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌。診斷分析可利用雜交或擴(kuò)增技術(shù)來(lái)比較患者生物樣本與標(biāo)準(zhǔn)樣本中的基因表達(dá),從而檢測(cè)改變的基因表達(dá)。這種比較的定性或定量方法在本領(lǐng)域是公知的。
[0070] 在另一實(shí)施方式中,本方法可用于提供臨床信息以檢測(cè)和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNA(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。與表達(dá)改變相關(guān)的疾病包括靜坐不能、阿爾茨海默癥、健忘癥、肌萎縮性側(cè)索硬化(ALS)、共濟(jì)失調(diào)、雙極性疾病、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性運(yùn)動(dòng)障礙、張力障礙、癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森病、皮克病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和癌癥——包括腺癌、黑素瘤和畸胎癌,特別是腦癌。
[0071] 在一個(gè)實(shí)施方式中,本方法可用于提供與
哺乳動(dòng)物蛋白質(zhì)表達(dá)或活性改變相關(guān)的狀況的臨床信息。這種狀況的實(shí)例包括但不限于,獲得性免疫缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷?。⊿CID)、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲(chóng)、原生動(dòng)物和蠕蟲(chóng)感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌、和具體地、腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子癌、靜坐不能、阿爾茨海默癥、健忘癥、肌萎縮性側(cè)索硬化、共濟(jì)失調(diào)、雙極性疾病、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性運(yùn)動(dòng)障礙、張力障礙、癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森病、皮克病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和癌癥——包括腺癌、黑素瘤和畸胎癌,特別是腦癌。
[0072] 在又一實(shí)施方式中,本方法可用于提供臨床信息以檢測(cè)和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNA(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。這種疾病的實(shí)例包括,但不限于,癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;免疫疾病,如獲得性免疫缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲(chóng)、原生動(dòng)物和蠕蟲(chóng)感染、創(chuàng)傷、布魯頓X-連鎖無(wú)丙種球蛋白血癥、常見(jiàn)變異型免疫缺陷(CVI)、迪喬治綜合征(胸腺發(fā)育不全)、胸腺發(fā)育不良、隔離IgA缺乏癥、重度聯(lián)合免疫缺陷?。⊿CID)、血小板減少癥和濕疹的免疫缺陷(威-奧氏綜合征)、切東二氏綜合征、慢性肉芽腫性疾病、遺傳性血管神經(jīng)性水腫和與庫(kù)興病相關(guān)的免疫缺陷;和發(fā)育疾病,如腎小管酸中毒、貧血、庫(kù)興綜合征、軟骨發(fā)育不全性侏儒、杜興和貝克爾肌肉萎縮癥、癲癇、性腺發(fā)育不全、WAGR綜合征(威爾姆斯瘤、無(wú)虹膜、泌尿生殖系統(tǒng)異常和精神發(fā)育遲滯)、史密斯-馬蓋尼斯綜合征、骨髓增生異常綜合征、遺傳性粘膜上皮異常增生、遺傳性皮膚角化病、遺傳性神經(jīng)病如夏-馬-圖病和神經(jīng)纖維瘤、甲狀腺功能減退癥、腦積水、癲癇病如Syndenham舞蹈病和大腦性麻痹、脊柱裂、無(wú)腦畸形、顱脊柱裂、先天性青光眼、白內(nèi)障、感覺(jué)神經(jīng)性聽(tīng)力損失以及與細(xì)胞生長(zhǎng)和分化、胚胎發(fā)生和形態(tài)發(fā)生相關(guān)的任何疾病——涉及對(duì)象的任何組織、器官或系統(tǒng),例如,腦、腎上腺、腎、骨骼或生殖系統(tǒng)。
[0073] 在另一實(shí)施方式中,本方法可用于提供臨床信息以檢測(cè)和定量基因或蛋白質(zhì)表達(dá)改變相關(guān)疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNA(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。這種疾病的實(shí)例包括,但不限于,內(nèi)分泌疾病,如與垂體功能減退相關(guān)的疾病,包括性腺功能減退、席漢綜合征、尿崩癥、卡爾曼病、漢-許-克三氏病、累-賽二氏病、結(jié)節(jié)病、空蝶鞍綜合征和侏儒癥;垂體功能亢進(jìn),包括肢端肥大癥、巨人癥和抗利尿激素(ADH)分泌異常綜合征(SIADH);和與甲狀腺功能減退相關(guān)的疾病,包括甲狀腺腫、粘液性水腫、與細(xì)菌感染相關(guān)的急性甲狀腺炎、與病毒感染相關(guān)的亞急性甲狀腺炎、自身免疫性甲狀腺炎(橋本?。┖痛粜“Y;與甲狀腺功能亢進(jìn)相關(guān)的疾病,包括甲狀腺毒癥及其各種形式、格雷夫斯病、脛骨前粘液性水腫、毒性多結(jié)節(jié)性甲狀腺腫、甲狀腺癌和普魯麥病;和與甲狀旁腺功能亢進(jìn)相關(guān)的疾病,包括康恩?。愿哐});呼吸系統(tǒng)疾病,如過(guò)敏、哮喘、急性和慢性炎性肺病、ARDS、氣腫、肺充血和水腫、COPD、間質(zhì)性肺病和肺癌;癌癥,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌;和免疫學(xué)疾病,如獲得性免疫缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、支氣管炎、膽囊炎、接觸性皮炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、淋巴細(xì)胞毒素的發(fā)作性淋巴細(xì)胞減少癥、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、癌癥并發(fā)癥、血液透析和體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲(chóng)、原生動(dòng)物和蠕蟲(chóng)感染和創(chuàng)傷。多核苷酸序列可用于DNA印跡分析或RNA印跡分析,點(diǎn)印跡或其他基于膜的技術(shù);PCR技術(shù);浸漬,點(diǎn)觸(pin)和ELISA分析;和微陣列——其利用患者的
流體或組織檢測(cè)改變的核酸
序列表達(dá)。這種定性或定量方法在本領(lǐng)域是公知的。
[0074] 發(fā)明特征和最佳實(shí)施方式
[0075] “BamBam”是計(jì)算有效的方法,用于測(cè)量大測(cè)序數(shù)據(jù)組,以產(chǎn)生一組高質(zhì)量基因組事件,該高質(zhì)量基因組事件存在于相對(duì)于其種系的各腫瘤中。這些結(jié)果提供對(duì)腫瘤染色體動(dòng)態(tài)的掃視,提高對(duì)腫瘤最終狀態(tài)及導(dǎo)致其事件的理解。
[0076] 診斷
[0077] 本文描述的方法可用于檢測(cè)和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)的狀況、疾病或病癥的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNA(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。本文描述的方法還可用于檢測(cè)和定量改變的基因表達(dá)、mRNA表達(dá)的不存在/存在相對(duì)于過(guò)度、或用于在治療干預(yù)過(guò)程中監(jiān)測(cè)mRNA水平。與表達(dá)改變相關(guān)的狀況、疾病或病癥包括特發(fā)性肺動(dòng)脈高壓、繼發(fā)性肺動(dòng)脈高壓、
細(xì)胞增殖性疾病,特別是間變性少突神經(jīng)膠質(zhì)瘤、星形細(xì)胞瘤、少突星形細(xì)胞瘤、成膠質(zhì)細(xì)胞瘤、腦膜瘤、神經(jīng)節(jié)細(xì)胞瘤、神經(jīng)元腫瘤、多發(fā)性硬化癥、亨廷頓病、乳腺癌、前列腺癌、胃腺癌、轉(zhuǎn)移性神經(jīng)內(nèi)分泌癌、非增殖性纖維囊性和增殖性纖維囊性乳腺疾病、膽囊炎和膽石病、骨關(guān)節(jié)炎和類風(fēng)濕性關(guān)節(jié)炎;獲得性免疫缺陷綜合征(AIDS)、阿狄森病、成人呼吸窘迫綜合征、過(guò)敏癥、強(qiáng)直性脊柱炎、淀粉樣變性病、貧血、哮喘、動(dòng)脈粥樣硬化、自身免疫性溶血性貧血、自身免疫性甲狀腺炎、良性前列腺增生癥、支氣管炎、切東二氏綜合征、膽囊炎、克羅恩病、特應(yīng)性皮炎、皮肌炎、糖尿病、氣腫、胎兒紅細(xì)胞增多癥、結(jié)節(jié)性紅斑、萎縮性胃炎、腎小球性腎炎、古德帕斯徹綜合征、痛風(fēng)、慢性肉芽腫性疾病、格雷夫斯病、橋本甲狀腺炎、嗜伊紅細(xì)胞增多癥、腸易激綜合征、多發(fā)性硬化癥、重癥肌無(wú)力、心肌或心包炎癥、骨關(guān)節(jié)炎、骨質(zhì)疏松、胰腺炎、多囊卵巢綜合征、多發(fā)性肌炎、銀屑病、萊特爾綜合征、類風(fēng)濕性關(guān)節(jié)炎、硬皮病、重度聯(lián)合免疫缺陷?。⊿CID)、斯耶格倫綜合征、全身過(guò)敏、全身性紅斑狼瘡、系統(tǒng)性硬化癥、血小板減少性紫癜、潰瘍性結(jié)腸炎、葡萄膜炎、維爾納綜合征、血液透析、體外循環(huán)、病毒、細(xì)菌、真菌、寄生蟲(chóng)、原生動(dòng)物和蠕蟲(chóng)感染;催乳素生成疾病、不育,包括輸卵管疾病、排卵缺陷和子宮內(nèi)膜異位、動(dòng)情周期中斷、月經(jīng)周期中斷、多囊卵巢綜合征、卵巢過(guò)度刺激綜合征、子宮內(nèi)膜或卵巢腫瘤、子宮肌瘤、自身免疫性疾病、子宮外孕和畸形發(fā)生;乳腺癌、纖維囊性乳腺疾病和乳溢;精子發(fā)生中斷、精子生理異常、良性前列腺增生癥、前列腺炎、Peyronie病、性無(wú)能、男子女性型乳房;光化性
角膜炎、動(dòng)脈硬化、滑囊炎、硬變、
肝炎、混合性結(jié)締組織疾?。∕CTD)、骨髓纖維化、陣發(fā)性睡眠性血紅蛋白尿、真性紅細(xì)胞增多癥、原發(fā)性血小板增多癥、癌癥并發(fā)癥、癌癥—包括腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具體地,腎上腺癌、膀胱癌、骨癌、骨髓癌、腦癌、乳腺癌、子宮頸癌、膽囊癌、神經(jīng)節(jié)癌、胃腸道癌、心臟癌、腎癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲狀旁腺癌、陰莖癌、前列腺癌、唾液腺癌、皮膚癌、脾癌、睪丸癌、胸腺癌、甲狀腺癌和子宮癌。另一方面,本發(fā)明的核酸。
[0078] 本文描述的方法可用于檢測(cè)和定量與基因或蛋白質(zhì)表達(dá)改變相關(guān)的疾病的改變的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNA(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。本文描述的方法還可用于檢測(cè)和定量改變的基因表達(dá);mRNA的表達(dá)不存在、存在或過(guò)度;或用于在治療干預(yù)過(guò)程中監(jiān)測(cè)mRNA水平。與表達(dá)改變相關(guān)的疾病包括靜坐不能、阿爾茨海默癥、健忘癥、肌萎縮性側(cè)索硬化、共濟(jì)失調(diào)、雙極性疾病、緊張癥、大腦性麻痹、腦血管疾病、克-雅二氏病、癡呆、抑郁、唐氏綜合征、遲發(fā)性運(yùn)動(dòng)障礙、張力障礙、癲癇、亨廷頓病、多發(fā)性硬化癥、肌肉萎縮癥、神經(jīng)痛、神經(jīng)纖維瘤、神經(jīng)病、帕金森病、皮克病、色素性視網(wǎng)膜炎、精神分裂癥、季節(jié)性情緒疾病、老年癡呆、中風(fēng)、圖雷特綜合征和癌癥——包括腺癌、黑素瘤和畸胎癌,特別是腦癌。
[0079] 為提供與基因表達(dá)相關(guān)的狀況、疾病或病癥的診斷依據(jù),建立了正?;驑?biāo)準(zhǔn)表達(dá)概況。這可通過(guò)在雜交或擴(kuò)增條件下將用探針從正常對(duì)象——?jiǎng)游锘蛉祟愄崛∩飿颖窘M合而實(shí)現(xiàn)。標(biāo)準(zhǔn)的雜交可通過(guò)將利用正常對(duì)象獲得的值與實(shí)驗(yàn)值進(jìn)行比較而被定量,該實(shí)驗(yàn)采用已知量的基本上純化的目標(biāo)序列??蓪⑦@種方式下獲得的標(biāo)準(zhǔn)值與得自癥狀顯示為特定狀況、疾病或病癥的患者的樣本的值進(jìn)行比較。利用標(biāo)準(zhǔn)值與特定狀況相關(guān)的值的偏差來(lái)診斷該狀況。
[0080] 這種分析還可用于評(píng)價(jià)動(dòng)物研究和臨床試驗(yàn)中具體治療性處理方案的效力,或監(jiān)測(cè)個(gè)體患者的治療。在狀況的存在確立并且治療方案啟動(dòng)后,可定期反復(fù)進(jìn)行診斷分析,以確定患者體內(nèi)的表達(dá)水平是否開(kāi)始接近正常對(duì)象中觀察的水平。該分析還可用于檢測(cè)、定量或測(cè)量指示和/或鑒定腫瘤存在、腫瘤不存在或進(jìn)行臨床處理或治療的個(gè)體的緩解狀態(tài)的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾,包括對(duì)信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNA(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。由連續(xù)的分析獲得的結(jié)果可用于顯示數(shù)天至數(shù)月范圍時(shí)間的治療效力。
[0081] 本文公開(kāi)的方法還可用于檢測(cè)、定量和關(guān)聯(lián)之前未被鑒定或關(guān)聯(lián)于特定臨床疾病、病癥或狀況的基因結(jié)構(gòu)、基因突變、基因生物化學(xué)修飾的變化,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉(zhuǎn)移RNN(tRNA)、微RNA(miRNA)、反義RNA(asRNA)及類似物的改變和/或修飾。在可選方案中,本文公開(kāi)的方法可用于鑒定新的臨床疾病、病癥或狀況。然后,可將基因結(jié)構(gòu)、基因突變和基因生物化學(xué)修飾的新變化與核酸序列或蛋白質(zhì)序列的已知化學(xué)和生物化學(xué)性質(zhì)進(jìn)行比較,并可利用與臨床疾病、病癥或病癥相關(guān)的上述改變生成關(guān)于細(xì)胞代謝的新數(shù)據(jù)庫(kù)和認(rèn)識(shí),用于臨床應(yīng)用。
[0082] 模型系統(tǒng)
[0083] 動(dòng)物模型可被用作生物分析,此時(shí)其呈現(xiàn)與人類類似的毒性響應(yīng),并且其中暴露條件是與人類暴露相關(guān)的。哺乳動(dòng)物是最常見(jiàn)的模型,并且大多數(shù)毒性研究是對(duì)嚙齒動(dòng)物如大鼠或小鼠進(jìn)行的,這是因?yàn)榈统杀?、可用性和充足的參考毒理學(xué)。嚙齒動(dòng)物近交品系提供用于研究目的基因表達(dá)不足或過(guò)表達(dá)的生理結(jié)果和發(fā)展疾病診斷和治療方法的便利模型。過(guò)表達(dá)特定基因(例如,分泌在乳汁中)的哺乳動(dòng)物近交品系還可充當(dāng)由該基因表達(dá)的蛋白質(zhì)的便利來(lái)源。
[0084] 毒理學(xué)
[0085] 毒理學(xué)是
試劑對(duì)活系統(tǒng)的影響的研究。多數(shù)毒性研究對(duì)大鼠或小鼠進(jìn)行,以有助于預(yù)期這些試劑對(duì)人類健康的影響。生理、行為、穩(wěn)態(tài)過(guò)程和致死性的定性和定量變化的觀察被用于生成毒性概況和評(píng)估在暴露于試劑后對(duì)人類健康的影響。
[0086] 遺傳毒理學(xué)鑒定和分析產(chǎn)生遺傳突變的試劑的能力。遺傳毒性試劑通常具有有助于與核酸相互作用的共同化學(xué)或物理性質(zhì),并且在染色體異常傳給后代時(shí)最為有害。毒理學(xué)研究可鑒定增加后代結(jié)構(gòu)或功能異常性
頻率的試劑——如果在受孕前給予任一親代、在妊娠期間給予母體或給予發(fā)育生物體。小鼠和大鼠最常用于這些測(cè)試,因?yàn)槠浞敝持芷诙?,產(chǎn)生符合統(tǒng)計(jì)學(xué)要求所需的生物體數(shù)量。
[0087] 急性毒性測(cè)試基于將試劑單次給予對(duì)象以確定試劑的癥狀學(xué)或致死性。進(jìn)行三個(gè)實(shí)驗(yàn):(a)初始劑量范圍調(diào)查實(shí)驗(yàn)、(b)縮窄有效劑量范圍的實(shí)驗(yàn)和(c)建立劑量響應(yīng)曲線的最終實(shí)驗(yàn)。
[0088] 長(zhǎng)期毒性測(cè)試基于反復(fù)給予試劑。大鼠和狗常用于這些研究,以提供不同種家族物種的數(shù)據(jù)。除致癌作用外,相當(dāng)多的證據(jù)證明以高劑量濃度每日給予試劑三至四個(gè)月的時(shí)間將揭示成年動(dòng)物毒性的大多數(shù)形式。
[0089] 利用持續(xù)一年或更長(zhǎng)時(shí)間的慢性毒性測(cè)試來(lái)證明試劑不存在毒性或具有致癌可能性。在對(duì)大鼠進(jìn)行研究時(shí),應(yīng)用最少三個(gè)測(cè)試組加一個(gè)對(duì)照組,并且在實(shí)驗(yàn)開(kāi)始和在整個(gè)實(shí)驗(yàn)過(guò)程中每隔一段時(shí)間檢查和監(jiān)測(cè)動(dòng)物。
[0090] 轉(zhuǎn)基因動(dòng)物模型
[0091] 過(guò)表達(dá)目的基因或目的基因表達(dá)不足的轉(zhuǎn)基因嚙齒動(dòng)物可以是近交的,并用于模擬人類疾病或測(cè)試治療劑或毒性劑。(參見(jiàn)美國(guó)專利號(hào)4,736,866;5,175,383;和5,767,337;引入本文作為參考。)在一些情況下,引入的基因可在胎兒發(fā)育或出生后在特異組織類型中、于特異時(shí)間被活化。轉(zhuǎn)基因的表達(dá)通過(guò)如下得到監(jiān)測(cè):在用實(shí)驗(yàn)藥物治療進(jìn)行挑戰(zhàn)之前、之中和之后分析轉(zhuǎn)基因動(dòng)物的表型或組織特異性mRNA表達(dá)。
[0092] 胚胎干細(xì)胞
[0093] 從嚙齒動(dòng)物胚胎分離的胚胎干細(xì)胞(ES)保持形成胚胎的潛力。當(dāng)將ES細(xì)胞置于載體胚胎中時(shí),其恢復(fù)正常發(fā)育,并有助于活的出生動(dòng)物的全部組織。ES細(xì)胞是用于生成實(shí)驗(yàn)敲除和敲入嚙齒動(dòng)物品系的優(yōu)選細(xì)胞。小鼠ES細(xì)胞,如小鼠129/SvJ細(xì)胞系,得自早期小鼠胚胎,并在本領(lǐng)域公知的培養(yǎng)條件下生長(zhǎng)。敲除品系的載體包含候選疾病基因,該疾病基因候選體被修飾以包括標(biāo)記基因,該標(biāo)記基因中斷體內(nèi)轉(zhuǎn)錄和/或翻譯。載體通過(guò)轉(zhuǎn)化方法如電穿孔、脂質(zhì)體遞送、微注射及本領(lǐng)域公知的類似方法被引入ES細(xì)胞。內(nèi)源嚙齒動(dòng)物基因在細(xì)胞分裂期間通過(guò)同源重組和整合被中斷的疾病基因取代。轉(zhuǎn)化的ES細(xì)胞被鑒定,并優(yōu)選被微注入小鼠細(xì)胞胚泡,如來(lái)自C57BL/6小鼠品系的小鼠細(xì)胞胚泡。胚泡被外科轉(zhuǎn)移至假孕雌親,并將所得的嵌合后代進(jìn)行基因分型和繁殖,以生成雜合或純合品系。
[0094] ES細(xì)胞還被用于研究各種細(xì)胞類型和組織的體外分化,如神經(jīng)細(xì)胞、造血譜系和心肌細(xì)胞(Bain et al.(1995)Dev.Biol.168:342-357;Wiles and Keller(1991)Development111:259-267;和Klug et al.(1996)J.Clin.Invest.98:216-224)。近期的發(fā)展證明,得自人胚細(xì)胞的ES細(xì)胞還可在體外操作,分
化成為八個(gè)單獨(dú)的細(xì)胞系,包括內(nèi)胚層、中胚層和外胚層細(xì)胞類型(Thomson(1998)Science282:1145-1147)。
[0095] 敲除分析
[0096] 在基因敲除分析中,候選人類疾病基因區(qū)域經(jīng)酶修飾包括非
哺乳動(dòng)物基因,如新霉素
磷酸轉(zhuǎn)移酶基因(neo;參見(jiàn),例如,Capecchi(1989)Science244:1288-1292)。插入的編碼序列中斷目標(biāo)基因的轉(zhuǎn)錄和翻譯,并阻止疾病候選蛋白質(zhì)的生物化學(xué)合成。修飾的基因被轉(zhuǎn)化到培養(yǎng)的胚胎干細(xì)胞(上文所述)中,轉(zhuǎn)化的細(xì)胞被注入嚙齒動(dòng)物囊胚,并且囊胚被植入假孕雌親。轉(zhuǎn)基因后代經(jīng)雜交獲得純合近交系。
[0097] 敲入分析
[0098] 全能ES細(xì)胞,存在于胚胎發(fā)育早期,可被用于生成人類疾病的敲入型人源化動(dòng)物模型(豬)或轉(zhuǎn)基因動(dòng)物模型(小鼠或大鼠)。在敲入技術(shù)下,人類基因區(qū)域被注入動(dòng)物ES細(xì)胞,并且人類序列通過(guò)重組整合到動(dòng)物細(xì)胞基因組中。包含整合的人類基因的全能ES細(xì)胞被如上所述處理。對(duì)近交動(dòng)物進(jìn)行研究和處理,以獲得關(guān)于類似的人類狀況的信息。這些方法已被用于模擬數(shù)種人類疾病。(參見(jiàn),例如,Lee et al.(1998)Proc.Natl.Acad.Sci.95:11371-11376;Baudoin et al.(1998)Genes Dev.12:1202-1216;和 Zhuang et al.(1998)Mol.Cell Biol.18:3340-3349)。
[0099] 非人類靈長(zhǎng)類動(dòng)物模型
[0100] 動(dòng)物測(cè)試領(lǐng)域處理
基礎(chǔ)科學(xué)如生理學(xué)、遺傳學(xué)、化學(xué)、藥理學(xué)和統(tǒng)計(jì)學(xué)的數(shù)據(jù)和方法。這些數(shù)據(jù)在評(píng)價(jià)治療劑對(duì)非人類靈長(zhǎng)類動(dòng)物作用中至關(guān)重要,因?yàn)槠淇赡芘c人類的健康相關(guān)聯(lián)。在
疫苗和藥物評(píng)價(jià)中猴被用作人類替代品,并且其響應(yīng)與人類暴露在類似情況下是相關(guān)的。獼猴(食蟹獼猴(Macaca fascicularis)、恒河獼猴(Macaca mulata))和普通狨猴(Callithrix jacchus)是用于這些研究的最常見(jiàn)的非人類靈長(zhǎng)類動(dòng)物(NHP)。由于高成本與建立和維持NHP群體有關(guān),早期研究和毒理學(xué)研究通常在嚙齒動(dòng)物模型中進(jìn)行。在應(yīng)用行為測(cè)量如藥物成癮的研究中,NHP是測(cè)試動(dòng)物第一選擇。此外,NHP和個(gè)人對(duì)多種藥物和毒素呈現(xiàn)不同的敏感性,并且可被分成這些試劑的“廣代謝體”和“弱代謝體”。
[0101] 發(fā)明的示例性應(yīng)用
[0102] 個(gè)性化藥物保證向最可能獲益的那些患者遞送特定治療(一種或多種)。我們已顯示,約一半的治療性化合物在一種或多種臨床相關(guān)的轉(zhuǎn)錄或基因組乳腺癌亞型中優(yōu)先有效。這些發(fā)現(xiàn)支持確定響應(yīng)相關(guān)分子亞型在乳腺癌治療中的重要性。我們還顯示,關(guān)于細(xì)胞系的轉(zhuǎn)錄和基因組數(shù)據(jù)的途徑整合揭示了子網(wǎng)絡(luò),其為觀察到的亞型特異性響應(yīng)提供機(jī)理解釋。細(xì)胞系與腫瘤之間子網(wǎng)絡(luò)活性的比較分析顯示,多數(shù)亞型特異性子網(wǎng)絡(luò)在細(xì)胞系與腫瘤之間保留。這些分析支持如下觀點(diǎn):臨床前在充分表征的細(xì)胞系小組中篩選實(shí)驗(yàn)化合物能夠鑒定候選的響應(yīng)相關(guān)分子標(biāo)志,該候選的響應(yīng)相關(guān)分子標(biāo)志能夠用于早期臨床試驗(yàn)中的敏感性富集。我們提出,這種體外評(píng)估方法將增加在化合物臨床開(kāi)發(fā)開(kāi)始前鑒定到響應(yīng)性腫瘤亞型的可能性,從而降低成本,增加最終FDA批準(zhǔn)的可能性,和有可能避免與治療不可能響應(yīng)的患者相關(guān)的毒性。在本研究中,我們僅已評(píng)估限定轉(zhuǎn)錄亞型的分子標(biāo)志和所選的再現(xiàn)基因組拷貝數(shù)異常(CNA)。我們預(yù)期,本方法的能力和精確性將隨著分析中包括額外的分子特征如遺傳突變、甲基化和可選的剪接而增加。同樣,增加細(xì)胞系小組的大小將增加評(píng)估小組內(nèi)較不常見(jiàn)的分子樣式的能力和增加代表人類乳腺癌中存在的多樣性的更完整范圍的概率。
[0103] 在此,我公開(kāi)了新的軟件工具,我們稱其為BamBam,其能夠快速比較腫瘤(體細(xì)胞)與種系匹配的測(cè)序數(shù)據(jù)組。BamBam輸出的結(jié)果不同,產(chǎn)生各患者樣本包含的體細(xì)胞和種系變體的詳盡目錄。該目錄為研究人員提供了快速發(fā)現(xiàn)腫瘤發(fā)展過(guò)程中發(fā)生的重要變化的能力,還提供了患者種系中存在的可指示疾病易患性的高質(zhì)量變體。BamBam的進(jìn)一步改進(jìn)將由具體搜索相同的基因組區(qū)域中存在的可指出腫瘤發(fā)生的驅(qū)動(dòng)因子的多種類型的變體(例如,基因的一個(gè)等位基因缺失,另一等位基因包含斷點(diǎn)的截短突變)的方法組成。我們還計(jì)劃擴(kuò)展BamBam管線(pipeline)的能力。
[0104] 在另外的實(shí)施方式中,多核苷酸核酸可用于待開(kāi)發(fā)的任何分子生物技術(shù),只要新技術(shù)依賴于當(dāng)前已知的核酸分子的性質(zhì),包括但不限于,諸如三倍體遺傳密碼和具體
堿基對(duì)的相互作用的性質(zhì)。
[0105] 參考下面的
實(shí)施例,本發(fā)明將更容易被理解,該實(shí)施例被包括在內(nèi)僅為示例本發(fā)明的某些方面和實(shí)施方式,而非限制。實(shí)施例
[0106] 實(shí)施例I:通過(guò)參考基因組進(jìn)行的數(shù)據(jù)組同步化
[0107] 將全部短閱讀均與相同的參考基因組進(jìn)行比對(duì),使參考基因組成為由多個(gè)相關(guān)的樣本組織序列數(shù)據(jù)的自然方式。BamBam接收兩個(gè)短閱讀測(cè)序數(shù)據(jù)組——一個(gè)來(lái)自腫瘤,另一個(gè)是來(lái)自相同患者的匹配正?;颍ā胺N系”)和參考基因組,并讀取這些數(shù)據(jù)組,使得兩數(shù)據(jù)組中重疊相同基因組位置的全部序列可用于同時(shí)處理。這是處理這種數(shù)據(jù)的最有效方法,同時(shí)還能夠進(jìn)行復(fù)雜分析,該分析將難以或不能以順序方式實(shí)現(xiàn),在此各數(shù)據(jù)組被單獨(dú)處理,結(jié)果僅在之后組合。
[0108] 這種方法容易被擴(kuò)展至兩個(gè)以上的相關(guān)測(cè)序數(shù)據(jù)組。例如,如果將三個(gè)樣本——匹配的正常樣本、腫瘤樣本和復(fù)發(fā)樣本——測(cè)序,則本方法可用于搜索針對(duì)腫瘤&復(fù)發(fā)樣本特異的變化和僅針對(duì)復(fù)發(fā)特異的變化,這表明復(fù)發(fā)腫瘤已由其據(jù)推測(cè)衍生來(lái)源的原腫瘤略微發(fā)生變化。而且,可應(yīng)用這種相同的方法確定兒童基因組的遺傳部分,假設(shè)測(cè)序樣本來(lái)自兒童、父親和母親。
[0109] 實(shí)施例II:體細(xì)胞和種系變體呼叫
[0110] 由于BamBam保持整個(gè)同步基因組中的序列數(shù)據(jù)同時(shí)處于成對(duì)文件中,可容易實(shí)施需要來(lái)自腫瘤和種系BAM文件以及人類參考的測(cè)序數(shù)據(jù)的復(fù)雜突變模型。該模型旨在最大化種系基因型(假設(shè)種系閱讀和參考核苷酸)和腫瘤基因型(假設(shè)種系基因型、簡(jiǎn)單突變模型、腫瘤樣本中污染正常組織的分?jǐn)?shù)的評(píng)估和腫瘤序列數(shù)據(jù))的聯(lián)合概率(joint probability)。
[0111] 為找到最佳的腫瘤和種系基因型,我們旨在最大化如下限定的概率
[0112] P(Dg,Dt,Gg,Gt|α,T)
[0113] =P(Dg|Gg)P(Gg|T)P(Dt|Gg,Gt,α)P(Gt|Gg)
[0114] 其中r是觀察的參考等位基因,α是正常污染的分?jǐn)?shù),并且腫瘤和種系基因型由Gt=(t1,t2)和Gg=(g1,g2)限定,其中t1,t2,θ2,θ2∈{A,T,C,G},。腫瘤和種系序列數(shù)據(jù)分別由如下閱讀組限定: 和 并且觀察到的堿基 模型中所用的全部數(shù)據(jù)均必需超過(guò)用戶限定的堿基,并映射質(zhì)量
閾值(mapping quality threshold)。
[0115] 種系等位基因——假設(shè)種系基因型——的概率被模擬為基于四種核苷酸的多項(xiàng)式:
[0116]
[0117] 其中n是該位置種系閱讀的總數(shù),nA,nG,nC,nT是支持各觀察到的等位基因的閱讀。堿基概率 被假設(shè)是獨(dú)立的,來(lái)自由基因型Gg表示的兩種親代等位基因中任一種,同時(shí)還包括測(cè)序儀的近似堿基錯(cuò)誤率。關(guān)于種系基因型的先驗(yàn)(prior)基于參考?jí)A基被條件化為
[0118] P(Gg|T=a)={μaa,μab,μbb},
[0119] 其中μaa是該位置作為純合參考的概率,μab是雜合參考,并且μbb是純合非參考。此時(shí),種系先驗(yàn)不包括關(guān)于已知的遺傳SNP的任何信息。
[0120] 腫瘤閱讀組的概率再次被限定為多項(xiàng)式
[0121]
[0122] 其中m是該位置種系閱讀的總數(shù),mA,mG,mC,mT是支持腫瘤數(shù)據(jù)組中各觀察到的等位基因的閱讀,并且各腫瘤閱讀的概率是得自腫瘤和種系基因型的堿基概率的組合,其受控于正常污染的分?jǐn)?shù)α,為
[0123]
[0124] 并且腫瘤基因型的概率由種系基因型的簡(jiǎn)單突變模型限定
[0125] P(Gt|Gg)=max[P(t1|g1)P(t2|g2),P(t1|g2)P(t2|g1)],
[0126] 其中無(wú)突變的概率(例如,t1=g1)是最大的,并且轉(zhuǎn)換(即,A→G,T→C)的概率比顛換(即,A→T,T→G)的概率可能高四倍。多項(xiàng)分布的所有模型參數(shù)α,μaa,μab,μbbi和堿基概率,P(d|G)可由用戶設(shè)定。
[0127]
選定的腫瘤和種系基因型 是最大化(1)的腫瘤和種系基因型,并且后驗(yàn)概率——由如下限定:
[0128]
[0129] 可用于評(píng)定成對(duì)推斷基因型的可信度。如果腫瘤和種系基因型不同,則推定的體細(xì)胞突變(一個(gè)或多個(gè))將會(huì)連同其各自的可信度被報(bào)告。
[0130] 最大化腫瘤和種系基因型的聯(lián)合概率(joint likelihood)有助于提高推斷基因型的準(zhǔn)確性,特別是在一個(gè)或兩個(gè)序列數(shù)據(jù)組具有低覆蓋的特定基因組位置的情況下。其他突變呼叫
算法,如分析單個(gè)測(cè)序數(shù)據(jù)組的MAQ和SNVMix,在非參考或突變體等位基因具有低支持時(shí)更有可能產(chǎn)生錯(cuò)誤(Li,H.,et al.(2008)Mappingshort DNA sequencing reads and calling variants using mapping quality scores,Genome Research,11,1851-1858;Goya,R.et al.(2010)SNVMix:predicting singlenucleotide variants from next-generation sequencing of tumors,Bioinformatics,26,730-736)。
[0131] 除由給定基因組位置處的全部閱讀收集等位基因支持外,還收集關(guān)于閱讀的信息(如其使讀取圖滯留于、前進(jìn)至或倒退至閱讀中的等位基因位置,等位基因平均質(zhì)量,等),并將其用于選擇性濾出
假陽(yáng)性呼叫。我們預(yù)期,支持變體的所有等位基因的鏈和等位基因位置隨機(jī)分配,并且如果分配顯著偏離此隨機(jī)分配(即,發(fā)現(xiàn)所有變體等位基因接近閱讀尾部),則這表明變體呼叫是可疑的。
[0132] 實(shí)施例III:全部拷貝數(shù)和等位基因特異的拷貝數(shù)
[0133] 利用動(dòng)態(tài)窗口顯示方法計(jì)算全部體細(xì)胞拷貝數(shù),該動(dòng)態(tài)窗口顯示方法根據(jù)腫瘤或種系數(shù)據(jù)的覆蓋擴(kuò)大或縮小窗口基因組寬度。該方法以零寬度的窗口初始。腫瘤或種系序列數(shù)據(jù)的每個(gè)單獨(dú)閱讀將記錄為腫瘤計(jì)數(shù)Nt或種系計(jì)數(shù)Ng。各閱讀的開(kāi)始和終止位置將限定窗口區(qū)域,該窗口區(qū)域在新閱讀超過(guò)現(xiàn)有窗口的界限時(shí)擴(kuò)大。在腫瘤或種系計(jì)數(shù)超過(guò)用戶限定閾時(shí),記錄窗口的尺寸和位置,以及Nt、Ng和相對(duì)覆蓋度Nt。根據(jù)局部讀取覆蓋調(diào)整Ng窗口尺寸將產(chǎn)生低覆蓋區(qū)域(例如,重復(fù)區(qū)域)大窗口或顯示體細(xì)胞擴(kuò)增區(qū)域的小窗口,從而增加
擴(kuò)增子的基因組
分辨率和增加我們限定擴(kuò)增界限的能力。
[0134] 類似地計(jì)算等位基因特異性拷貝數(shù)——除僅包括認(rèn)為是種系雜合的位置外,如示(參見(jiàn)圖2)。雜合性被限定為在種系中被認(rèn)為具有兩個(gè)不同的等位基因的位置,每個(gè)親代貢獻(xiàn)一個(gè)等位基因。利用相同的動(dòng)態(tài)窗口顯示技術(shù)——上文所述用于全部拷貝數(shù),計(jì)算多數(shù)和少數(shù)拷貝數(shù),從而匯集相同基因組附近的數(shù)據(jù)。雜合位點(diǎn)的多數(shù)等位基因在本文中被限定為這樣的等位基因:其在腫瘤數(shù)據(jù)組中具有最大數(shù)量的重疊該基因組位置的支持閱讀,而少數(shù)等位基因是具有最少支持的等位基因。腫瘤和種系數(shù)據(jù)中歸因于多數(shù)等位基因的所有計(jì)數(shù)均將進(jìn)行多數(shù)拷貝數(shù)計(jì)算,少數(shù)等位基因同樣也是。然后通過(guò)種系數(shù)據(jù)Ng中兩種等位基因的計(jì)數(shù),標(biāo)準(zhǔn)化多數(shù)和少數(shù)等位基因的計(jì)數(shù),從而計(jì)算多數(shù)和少數(shù)拷貝數(shù)。
[0135] 利用等位基因特異性拷貝數(shù)鑒定顯示雜合性丟失(拷貝中性和拷貝損失)以及單個(gè)等位基因特異性擴(kuò)增或缺失的基因組區(qū)域。最后這點(diǎn)對(duì)于幫助將引起疾病的等位基因可能地區(qū)分為在腫瘤序列數(shù)據(jù)中擴(kuò)增或未缺失的等位基因尤為重要。此外,經(jīng)受半合損失的區(qū)域(例如,一個(gè)親代染色體臂)可用于直接評(píng)估測(cè)序腫瘤樣本中正常污染物量,其可用于提高上述種系和腫瘤基因型的模擬。
[0136] 圖2顯示等位基因特異的拷貝數(shù)計(jì)算的概括。利用種系和腫瘤測(cè)序數(shù)據(jù)確定雜合基因型的位置,如通過(guò)種系變體呼叫算法確定。收集所有重疊這些位置的閱讀,并且在腫瘤和種系中發(fā)現(xiàn)雜合基因型兩個(gè)等位基因中每一個(gè)的閱讀支持。多數(shù)等位基因被確定為具有最高支持的等位基因,并且通過(guò)由種系中該位置的閱讀總數(shù)標(biāo)準(zhǔn)化該計(jì)數(shù)來(lái)計(jì)算多數(shù)拷貝數(shù)。
[0137] 實(shí)施例IV:基因型分階
[0138] BamBam試圖通過(guò)利用腫瘤中大規(guī)模的基因組擴(kuò)增或缺失所引起的等位基因失衡,使在種系中發(fā)現(xiàn)的所有雜合位置分階。在腫瘤序列數(shù)據(jù)的每個(gè)位置選擇多數(shù)投票基礎(chǔ)呼叫(vote base call),從而構(gòu)建腫瘤中存在的分階的單倍型。多數(shù)投票選擇短閱讀庫(kù)中所觀察到的數(shù)量最多的等位基因,其應(yīng)選擇在缺失事件后仍在腫瘤中的等位基因或擴(kuò)增事件的復(fù)制等位基因。還鑒定各個(gè)位置上種系的等位基因狀態(tài),在此如果僅存在一個(gè)具有所需閱讀支持的等位基因,則認(rèn)為是純合位置,如果至少兩個(gè)等位基因具有所需閱讀支持則認(rèn)為是雜合位置。假設(shè)腫瘤的單倍型代表兩個(gè)親代單倍型其中之一,在此得到第二親代單倍型作為不屬于腫瘤單倍型的種系等位基因序列。此程序在基因組范圍被應(yīng)用,而與腫瘤中的等位基因比例無(wú)關(guān),因此我們預(yù)期將在多數(shù)和少數(shù)等位基因之間同樣平衡的區(qū)域中基本上隨機(jī)的基因型的單倍型分配。種系序列的準(zhǔn)確分解將僅存在于這樣的區(qū)域:顯示一致的等位基因失衡,該等位基因失衡是由于腫瘤中的單個(gè)基因組事件(例如,區(qū)域擴(kuò)增或缺失)。
[0139] 腫瘤衍生的單倍型的確定可通過(guò)比較腫瘤衍生的單倍型與得自HapMap項(xiàng)目(International HapMap Consortium(2007),Nature,7164:851-861)的分階的基因型實(shí)現(xiàn)。
[0140] 實(shí)施例V:利用成對(duì)末端聚簇推斷結(jié)構(gòu)變化
[0141] 為鑒定推定的染色體內(nèi)和染色體間重排,BamBam搜索不一致的成對(duì)閱讀,在此,
配對(duì)中的各閱讀映射參考序列的離散區(qū)域。染色體內(nèi)不一致的配對(duì)是具有異常大插入尺寸的配對(duì)(即,參考序列上分隔成對(duì)閱讀的基因組距離超過(guò)用戶限定閾值)或以不正確定向映射(即倒位)的配對(duì)。染色體間不一致的配對(duì)由映射不同染色體的成對(duì)閱讀限定。與其他配對(duì)比對(duì)相同位置的所有不一致的成對(duì)末端閱讀被去除,以避免僅由源自短閱讀庫(kù)制備中PCR擴(kuò)增步驟的大量閱讀支持的呼叫重排。該過(guò)程的概括顯示在圖3中。
[0142] 所有不一致的成對(duì)末端閱讀按照其基因組位置進(jìn)行聚簇,以限定近似的基因組區(qū)域,其中斷點(diǎn)被認(rèn)為存在于此。聚集過(guò)程由如下組成:將與推定的斷點(diǎn)兩側(cè)的其他閱讀重疊的單獨(dú)閱讀分組在一起。所有重疊閱讀的鏈定向還必須匹配配對(duì)簇或不被包括在配對(duì)簇中。當(dāng)簇中重疊的不一致配對(duì)的數(shù)超過(guò)用戶限定閾時(shí),限定描述重排的斷點(diǎn)。如果重排存在于種系和腫瘤數(shù)據(jù)組的相同位置時(shí),則如下將其進(jìn)行比較。種系重排要求,腫瘤和種系數(shù)據(jù)組支持相同的重排,這是因?yàn)樵诜N系中觀察到的結(jié)構(gòu)變化在腫瘤中以某種方式被逆轉(zhuǎn)從而精確地符合參考序列,是非常不可能的。另一方面,體細(xì)胞重排必須僅在腫瘤測(cè)序數(shù)據(jù)中被觀察到,并且基本上不存在于種系數(shù)據(jù)組中。滿足這些要求的重排被存儲(chǔ)用于后處理分析和
可視化,而不滿足這些要求的重排被舍棄,作為測(cè)序儀器、樣本制備(如全基因組擴(kuò)增)或所用短閱讀映像算法的系統(tǒng)性偏差造成的人造重排。
[0143] 圖3顯示結(jié)構(gòu)變化呼叫的概括。推定的結(jié)構(gòu)變體的最初鑒定是通過(guò)BamBam利用不一致映射的閱讀對(duì)確定的,在此兩閱讀完全映射參考基因組,但是以異常的非參考方式。然后通過(guò)被稱為bridget的程序、利用任何可用的拆分閱讀,完善由BamBam發(fā)現(xiàn)的推定的斷點(diǎn)。
[0144] 實(shí)施例VI:利用拆分閱讀(split read)完善結(jié)構(gòu)變化
[0145] BamBam最初發(fā)現(xiàn)的斷點(diǎn)是近似的,這是因?yàn)槠洳捎猛耆成溟喿x,完全映射閱讀其本質(zhì)上不能重疊斷點(diǎn)的實(shí)際接合處,因?yàn)槠浔硎緟⒖夹蛄校ɑ蚍N系數(shù)據(jù)組,在體細(xì)胞重排的情況下)中不存在的序列。為完善我們對(duì)斷點(diǎn)位置的了解,開(kāi)發(fā)了被稱為Bridget的程序,其被概述在圖4中。
[0146] Bridget被給予由BamBam發(fā)現(xiàn)的近似斷點(diǎn),并通過(guò)完全映射配對(duì)(mate)搜索錨定在推定的斷點(diǎn)附近的所有未比對(duì)的閱讀。這些未映射的閱讀中的每一個(gè)均具有成為“拆分閱讀”的潛力,該“拆分閱讀”與重排斷點(diǎn)接合處重疊。斷點(diǎn)兩側(cè)周圍局部化的基因組序列被拆分成一組獨(dú)特的
片段(tile)(目前片段尺寸=16bp),并且建立片段序列及其在參考基因組中的位置的片段數(shù)據(jù)庫(kù)。通過(guò)將閱讀拆分為相同尺寸的片段和在閱讀中標(biāo)注其位置,對(duì)每個(gè)未比對(duì)的閱讀構(gòu)建類似的片段數(shù)據(jù)庫(kù)。將參考片段數(shù)據(jù)庫(kù)與未比對(duì)片段數(shù)據(jù)庫(kù)進(jìn)行比較,確定各未比對(duì)片段在參考中的基因組位置。通過(guò)確定在參考閱讀和未比對(duì)閱讀——斷點(diǎn)一側(cè)一個(gè)——中連續(xù)的的最大組片段,計(jì)算這些位置的“雙生成集(Dual spanning set)”。
[0147] 參考坐標(biāo)中“雙生成集”的最小和最大基因組位置精確地確定了斷點(diǎn)的位置以及序列的定向(或鏈型(strandedness))。在具有描述斷點(diǎn)左側(cè)邊限和右側(cè)邊限的信息的情況下,重排的序列被完全限定,即,左側(cè)被(染色體=chrl,位置=1000bp,鏈=正向)限定,右側(cè)被(染色體=chr5,位置=500,000bp,鏈=反向)限定。斷點(diǎn)的序列同源性(即,短序列,如“CA”被觀察到在斷點(diǎn)兩個(gè)邊限上是一致的,但僅在兩序列的接合處比對(duì)的閱讀中被觀察到一次)也由這些雙生成集確定。
[0148] 對(duì)于每個(gè)未比對(duì)的閱讀,雙生成集確定可能的斷點(diǎn)位置。由于各未比對(duì)的閱讀可確定略微不同的斷點(diǎn)位置(因?yàn)閿帱c(diǎn)附近的序列錯(cuò)誤、重復(fù)參考等),利用所有由雙生成集確定的斷點(diǎn)位置來(lái)生成可能的接合序列。將所有未映射的閱讀與這些可能的接合序列中的每一個(gè)重新比對(duì),并且相對(duì)于閱讀如何與原序列完美比對(duì)來(lái)測(cè)量其比對(duì)的總體提高。導(dǎo)致比對(duì)分?jǐn)?shù)最大提高的接合序列被評(píng)為真重排的最佳候選。如果此最佳接合序列導(dǎo)致比對(duì)分?jǐn)?shù)極少至無(wú)提高,則此接合序列被舍棄,因?yàn)槠洳荒鼙硎菊嬷嘏?。在這種情況下,還可確定,拆分閱讀確認(rèn)的不存在是證據(jù),證明由BamBam發(fā)現(xiàn)的原始結(jié)構(gòu)重排可能是人造的。
[0149] 圖4顯示精確地鑒定基因組中發(fā)生結(jié)構(gòu)重排的位置的示例性方法。確定可能的拆分閱讀和參考基因組的片段(或kmers)。確定雙生成集(表示為該圖底部的深紅色和紫色框),其完全限定如何構(gòu)建重排序列。雙生成集對(duì)于拆分閱讀中序列錯(cuò)誤或SNP是強(qiáng)力的。
[0150] 實(shí)施例VII:腫瘤特異性基因組瀏覽器
[0151] 為可視化BamBam輸出的所有結(jié)果,開(kāi)發(fā)了腫瘤基因組瀏覽器,其同時(shí)顯示在單個(gè)腫瘤樣本中發(fā)現(xiàn)的所有基因組變體——相對(duì)于其匹配的正?;蚪M,如圖5所示。其能夠顯示全部&等位基因特異的拷貝數(shù)、染色體內(nèi)和染色體間重排和突變以及小插入/缺失。其以線性和環(huán)形圖顯示數(shù)據(jù),后者遠(yuǎn)明顯更適于顯示染色體間重排。
[0152] 通過(guò)在單個(gè)圖像中一起顯示數(shù)據(jù),用戶可快速瀏覽單個(gè)樣本的數(shù)據(jù),并了解拷貝數(shù)變化和結(jié)構(gòu)變化之間的關(guān)系。例如,大型的染色體內(nèi)缺失類型的重排在斷點(diǎn)之間的區(qū)域應(yīng)具有一致的拷貝數(shù)下降。而且,用拷貝數(shù)數(shù)據(jù)顯示突變數(shù)據(jù)使用戶能夠了解體細(xì)胞突變是否隨后被擴(kuò)增或野生型等位基因是否在腫瘤中缺失,兩種重要的數(shù)據(jù)點(diǎn)均表明在此樣本的腫瘤發(fā)生中基因組位點(diǎn)的重要性。
[0153] 圖5顯示示例性腫瘤特異性基因組瀏覽器。該瀏覽器在單個(gè)圖像中顯示通過(guò)BamBam發(fā)現(xiàn)的所有高水平體細(xì)胞差異,使得能夠合成多個(gè)不同的數(shù)據(jù)組以給出腫瘤基因組的全部圖片。該瀏覽器能夠快速放大和縮小基因組區(qū)域,如上所示,僅以若干次點(diǎn)擊由完整的基因組視圖變成單堿基分辨率。
[0154] 實(shí)施例VIII:計(jì)算要求
[0155] BamBam和Bridget均以C編寫,僅需要標(biāo)準(zhǔn)C庫(kù)和最新的SAM工具源代碼(可得自http://samtools.sourceforge.net)。其可作為單個(gè)過(guò)程運(yùn)行,或在整個(gè)簇中拆分成一系列工作(job)(例如,每條染色體一個(gè)工作)。處理各包含數(shù)十億個(gè)100bp閱讀的成對(duì)250GB BAM文件,BamBam將在約5小時(shí)內(nèi)以單個(gè)過(guò)程完成其全基因組分析,或在約30分鐘內(nèi)基于適度的簇(24個(gè)
節(jié)點(diǎn))完成其全基因組分析。BamBam的計(jì)算要求可被忽略,僅需要足夠的RAM以存儲(chǔ)與單個(gè)基因組位置重疊的閱讀數(shù)據(jù)和足夠的盤空間以存儲(chǔ)在腫瘤或種系基因組中發(fā)現(xiàn)的被充分支持的變體。
[0156] Bridget也具有非常適度的計(jì)算要求。在單個(gè)機(jī)器上的運(yùn)行時(shí)間一般小于1秒,其包括集合參考序列和斷點(diǎn)附近任何潛在的拆分閱讀、建立參考和拆分閱讀的片段數(shù)據(jù)庫(kù)、確定所有雙生成集、構(gòu)建潛在的接合序列、將所有拆分閱讀與參考序列和各接合序列重新比對(duì)、以及確定最佳接合序列所必需的時(shí)間。高度擴(kuò)增的或具有大量未映射閱讀的區(qū)域增加Bridget的運(yùn)行時(shí)間,但這可通過(guò)Bridget的易于平行性被緩解。
[0157] 實(shí)施例IX:基因組DNA的分離
[0158] 從患者收集血液或其他組織樣本(2-3ml),并將其在-80℃下儲(chǔ)存在含EDTA的管中,備用。按照制造商的
說(shuō)明書(PUREGENE,Gentra Systems,MinneapolisMN),利用DNA分離
試劑盒,從
血液樣本提取基因組DNA。測(cè)量DNA純度,為260和280nm下的吸光比(1cm光路;A260/A280),用Beckman分光光度計(jì)測(cè)量。
[0159] 實(shí)施例X:SNP的鑒定
[0160] 通過(guò)PCR,利用為該區(qū)域特異設(shè)計(jì)的引物擴(kuò)增患者DNA樣本的基因區(qū)域。利用本領(lǐng)域技術(shù)人員公知的方法測(cè)序PCR產(chǎn)物,如上所述。利用Phred/Phrap/Consed軟件驗(yàn)證在序列軌跡中鑒定的SNP,并將其與NCBI SNP數(shù)據(jù)庫(kù)中存儲(chǔ)的已知SNP進(jìn)行比較。
[0161] 實(shí)施例XI:統(tǒng)計(jì)學(xué)分析
[0162] 值 被表 示 為 平 均 值±SD.χ2 分析(Web Chi平 方 計(jì) 算 器,Georgetown Linguistics,GeorgetownUniversity,WashingtonDC)被用于評(píng)估正常對(duì)象與疾病患者的基因型頻率之間的差異。如所示地,進(jìn)行兼帶事后分析(post-hoc analysis)的單向ANOVA,以比較不同患者組之間的血液動(dòng)力學(xué)。
[0163] 本領(lǐng)域技術(shù)人員將理解,上述實(shí)施方式的多種改動(dòng)和
修改可被配置而不脫離本發(fā)明的范圍和精神。本領(lǐng)域已知的其他適當(dāng)?shù)募夹g(shù)和方法可以多種具體方式被本領(lǐng)域技術(shù)人員根據(jù)本文所述的本發(fā)明描述而應(yīng)用。因此,要理解的是,本發(fā)明可除本文具體描述以外進(jìn)行實(shí)踐。上文描述意為示例性的,而非限制性的?;陂喿x上文描述,多種其他實(shí)施方式將對(duì)本領(lǐng)域技術(shù)人員而言是顯而易見(jiàn)的。因此,本發(fā)明的范圍應(yīng)參考所附權(quán)利要求以及該權(quán)利要求應(yīng)得的全部等同范圍而確定。