服務熱線
15201163601
北京華新康信現貨 大力回饋新老客戶,現貨打折出售,現有品牌和種類,新老客戶可以自由選購:
ForteBio實驗試劑,moltox實驗試劑,toxin實驗試劑,ForteBio moltox toxin 各種試劑的實驗參數,說明書,歡迎咨詢 Nanoporetech 產品介紹 Nanoporetech 產品介紹
北京華新康信也有Nanoporetech實驗試劑銷售,下面給大家講講Nanoporetech服務以及實驗樣本;
Nanoporetech 實驗說明 Nanoporetech北京說明書 Nanoporetech技術參數 Nanoporetech方案對比 Nanoporetech 優勢介紹 Nanoporetech廣州實驗試劑 Nanoporetech深圳實驗試劑 Nanoporetech天津說明書 Nanoporetech技術參數Nanoporetech實驗方案 Nanoporetech技術對比 Nanoporetech購買說明 Nanoporetech天津實驗試劑 Nanoporetech北京實驗試劑 Nanoporetech廈門實驗試劑 Nanoporetech大理實驗試劑 Nanoporetech武漢實驗試劑 Nanoporetech福建實驗試劑Nanoporetech安徽實驗試劑Nanoporetech廣西實驗試劑Nanoporetech廈門實驗試劑Nanoporetech常州實驗試劑Nanoporetech常州實驗試劑Nanoporetech長沙實驗試劑Nanoporetech哈爾濱實驗試劑Nanoporetech沈陽實驗試劑Nanoporetech深圳實驗試劑Nanoporetech武昌實驗試劑
Nanoporetech
完整的人類 X 染色體的端粒到端粒組裝
凱倫·H·米加,謝爾蓋·科倫阿朗瑞_米切爾·R ·沃爾格阿里爾·格什曼安德烈·布齊卡澤雪莉絲·布魯克斯埃德蒙·豪大衛·波魯布斯基格倫尼斯 A.洛格斯登,瓦萊麗·A·施耐德塔瑪拉·波塔波娃喬納森·伍德周威廉喬爾·阿姆斯特朗珍妮·弗雷德里克森葉甫根尼婭·帕克克里斯托夫·蒂吉米林·克雷米茨基克里斯托弗·馬爾科維奇瓦萊麗·馬杜羅阿瑪莉亞·杜特拉杰拉德·G·布法德,亞歷山大·M·張,…亞當·M·菲利普 顯示作者
自然 體積 585 , 頁面79–84 ( 2020 )引用這篇文章
58k訪問
264 次引用
第1365章
指標細節
抽象的
經過二十年的改進,目前的人類參考基因組(GRCh38)是有史以來最準確、最完整的脊椎動物基因組。然而,沒有一條染色體是端到端完成的,數百個未解決的缺口仍然存在1 , 2。在這里,我們提出了超越 GRCh38 2連續性的人類基因組組裝,以及人類染色體的無間隙、端粒到端粒組裝。這是通過對完整的葡萄胎 CHM13 基因組進行高覆蓋率、超長讀長的納米孔測序以及結合用于質量改進和驗證的補充技術來實現的。專注于人類 X 3號染色體,我們重建了著絲粒衛星 DNA 陣列(約 3.1 Mb)當前參考中剩余的 29 個空白,包括來自人類假常染色體區域和癌癥-睪丸擴增基因家族(CT-X 和 GAGE)的新序列。這些序列將被整合到未來的人類參考基因組版本中。此外,完整的 X 染色體與超長納米孔數據相結合,使我們能夠在復雜的串聯重復序列和衛星陣列中繪制甲基化模式圖。我們的研究結果表明,現在完成整個人類基因組已經觸手可及,這里提供的數據將有助于完成其他人類染色體的持續努力。
主要的
完整的端粒到端粒參考基因組組裝對于確保發現和研究所有基因組變異是必要的。目前,人類基因組的未解決區域由著絲粒周圍區域的多兆堿基衛星陣列和近端短臂上的核糖體 DNA 陣列定義,以及富含片段重復的區域,這些區域的長度大于數百千堿基,并且旁系同源物之間的序列同一性超過 98%。由于缺乏參考,這些富含重復的序列通常被排除在遺傳學和基因組學研究之外,這限制了關聯和功能分析的范圍4、5. 未解決的重復序列也會導致意想不到的后果;例如,旁系同源序列變體被錯誤地稱為等位基因變體6,以及細菌基因數據庫的污染7。完成整個人類基因組預計將有助于我們了解染色體功能8、人類疾病9和基因組變異,這將改進使用短讀映射到參考基因組的生物醫學技術(例如,RNA 測序(RNA- seq) 10,染色質免疫沉淀后測序 (ChIP-seq) 11和使用測序 (ATAC-seq) 12測定轉座酶可及染色質。
從許多相對較短的測序讀數(稱為基因組組裝的過程)中重建基因組的基本挑戰是將重復序列彼此區分開13。解決此類重復依賴于足夠長的測序讀數以跨越整個重復或足夠準確以根據的變體區分每個重復副本14。人類基因組在 2001 年發布 20 年后仍未完成,這一事實突顯了組裝問題的難度和過去技術的局限性15. 美國國家生物技術信息中心 (NCBI Build 28) 發布的第一個人類參考基因組高度碎片化,其中一半的基因組包含在 500 kb 或更大的連續序列 (contigs) 中 (NG50)。完成基因組16的努力,以及基因組參考聯盟 (GRC) 2的管理,極大地提高了在新版本 GRCh38 中對 56 Mb 的 NG50 重疊群長度的參考的連續性,但在基因組中重復最多的區域基因組仍未解決,沒有染色體*代表端粒到端粒。超長(大于 100 kb)納米孔讀數的從頭組裝在最困難的區域顯示出有希望的組裝連續性1,但這個概念驗證項目將基因組測序到只有 5 倍的覆蓋深度,并且未能組裝最大的人類基因組重復序列。先前基于人類基因組中大重復序列的大小和分布的模型預測,30 倍超長讀數的組裝將接近人類參考1的連續性。因此,我們假設高覆蓋率的超長讀長納米孔測序將使人類染色體的完整組裝成為可能。
為了規避組裝二倍體基因組的兩個單倍型的復雜性,我們選擇了有效的單倍體 CHM13hTERT 細胞系進行測序(以下簡稱 CHM13)17。該細胞系來源于具有 46,XX 核型的完整葡萄胎 (CHM)。這種子宮痣的基因組來源于經歷減數分裂后染色體復制的單個精子。因此,這些基因組對于一組等位基因是一致的純合子。CHM13 以前曾用于修補人類參考2、基準基因組組裝器和二倍體變異調用18中的空白,并研究人類節段重復19. CHM13 系的核型分析證實了穩定的 46,XX 核型,沒有可觀察到的染色體異常(擴展數據圖1,補充說明 1)。最大似然混合分析20自信地將大多數單倍型歸類為歐洲起源,并具有一些亞洲或美洲印第安人混合的潛力(擴展數據圖2,補充說明 2)。
高度連續的全基因組組裝
使用先前描述的超長讀取協議1從 CHM13 細胞中提取和制備高分子量 DNA 用于納米孔測序。我們總共對 98 個 MinION 流動槽進行了測序,總共 155 Gb(50 倍覆蓋率,每個流動槽 1.6 Gb,補充說明 3)。所有測序堿基的一半包含在 70 kb 或更長的讀數中(78 Gb,25 倍基因組覆蓋率),最長驗證讀數為 1.04 Mb。一旦我們為從頭組裝收集了足夠的測序覆蓋率,我們將超長讀數的 39 倍覆蓋率與先前生成的 PacBio 數據的 70 倍覆蓋率相結合,并使用 Canu 21組裝 CHM13 基因組. Canu 選擇了最長的 30 倍覆蓋超長和 7 倍覆蓋 PacBio 讀數進行校正和組裝。該初始組裝總計 2.90 Gb,其中一半基因組包含在長度為 75 Mb 或更大 (NG50) 的連續序列 (contigs) 中,這超過了 GRCh38 參考基因組的連續性(NG50 為 75 對 56 Mb)。然后通過一系列測序技術按照讀取長度從最長到最短的順序對組件進行迭代拋光:Nanopore、PacBio 和鏈接讀取 Illumina。一致性精度從初始組裝的 99.46% 提高到 Nanopore 拋光后的 99.67% 和 PacBio 拋光后的 99.99%。Illumina 數據僅用于糾正基因組可映射區域中的小插入和刪除錯誤,這對平均準確度有邊際影響,但減少了移碼基因的數量。通過分析未在初始組裝中使用的 Illumina 鏈接讀取條形碼(10X 基因組學)和光學映射(Bionano 基因組學)數據,確定了假定的錯誤組裝。最初的重疊群在映射覆蓋率低的區域被破壞,然后使用光學圖對校正的重疊群進行排序和相對于彼此的定向。超過 90% 的 6 個染色體由兩個重疊群表示,10 個由兩個支架表示(圖 1)。最初的重疊群在映射覆蓋率低的區域被破壞,然后使用光學圖對校正的重疊群進行排序和相對于彼此的定向。超過 90% 的 6 個染色體由兩個重疊群表示,10 個由兩個支架表示(圖 1)。最初的重疊群在映射覆蓋率低的區域被破壞,然后使用光學圖對校正的重疊群進行排序和相對于彼此的定向。超過 90% 的 6 個染色體由兩個重疊群表示,10 個由兩個支架表示(圖 1)。1a )。
圖 1:CHM13 全基因組組裝和驗證。
圖1
a,無間隙重疊群在染色體表意文字旁邊顯示為藍色和橙色條(突出顯示重疊群中斷)。幾條染色體僅在著絲粒區域斷裂。重疊群之間的大間隙(例如,chr1 的中間)表示大異色塊(人類衛星 2 和 3 的黃色陣列)或沒有 GRCh38 序列的核糖體 DNA 陣列的位點。顯示了預期在非同源染色體之間序列相似的著絲粒衛星陣列:chr1、chr5 和 chr19(綠色);chr4 和 chr9(淺藍色);chr5 和 chr19(粉紅色);chr13 和 chr21(紅色);和 chr14 和 chr22(紫色)。b, X 染色體被選中進行手動組裝,最初在三個位置斷裂:著絲粒(在組裝中人為塌陷)、一個大的節段重復(DMRTC1B,120 kb)和第二個節段重復,在 2 號染色體上有一個旁系同源物(134 KB)。注釋了 GRCh38 參考(黑色)和已知的節段重復(紅色;與 Y 同源,粉紅色)中的間隙。大于 100 kb 的重復以預期大小 (kb) 命名(藍色,串聯重復;紅色,節段重復)。c,由光學圖(頂部)識別的 GAGE 基因座的錯誤組裝,以及顯示 19 個(9.5 kb)全長重復單元和兩個部分重復的最終組裝的校正版本(底部)。d, GAGE 基因座在使用(單拷貝)標記放置長讀取之前和之后的質量。點表示從映射的 PacBio HiFi 讀數中恢復的主要(黑色)和次要(紅色)等位基因的覆蓋深度(與每個堿基重疊的映射測序讀數的數量)(補充說明 4)。因為 CHM13 基因組是有效的單倍體,低覆蓋率或二級等位基因頻率增加的區域表明低質量區域或潛在的重復崩潰。標記輔助拋光顯著提高了整個 GAGE 基因座的等位基因均勻性。
全尺寸圖片
最終組裝由 448 個 contig 中的 2.94 Gb 組成,contig NG50 為 70 Mb。共有 98 個支架(173 個重疊群)被明確分配給參考染色體,占組裝堿基的 98%。基于先前完成的 BAC 序列22和映射的 Illumina 關聯讀數(補充說明 4),我們估計該全基因組組裝的中位一致性準確度至少為 99.99% 。雖然類似于 GRCh38 無間隙長度 (2.95 Gb),但我們的組裝大小比估計的人類基因組大小 3.2 Gb 短。我們使用分段復制匯編器 (SDA) 方法19估計大約 170 Mb 的折疊堿基. 與其他最近的組裝相比,我們解決了 341 個 CHM13 細菌人工染色體 (BAC) 序列中的大部分,這些序列先前已從基因組19的片段重復和其他難以組裝的區域中分離和完成(表1,補充說明 4)。我們的全基因組組裝的比較注釋也顯示出比以前的組裝更高的映射轉錄本一致性,并且與 GRCh38 23相比,潛在的移碼率僅略有增加. 在 CHM13 de novo 組裝中注釋的 19,618 個蛋白質編碼基因中,只有 170 個(0.86%)包含預測的移碼,或者,如果通過轉錄本測量,83,332 個轉錄本中只有 334 個(0.40%)包含預測的移碼(補充表1)。當用作調用其他基因組中結構變體的參考序列時,CHM13 報告了插入和刪除調用的均勻平衡(擴展數據圖3,補充說明 5),正如預期的那樣,而 GRCh38 表現出刪除偏倚,如先前報道的24. 與其他長讀長組件相比,GRCh38 調用的倒位次數是 CHM13 的兩倍(平均每個基因組 26 對 13 次倒位),這表明一些錯誤定向的序列仍然存在于當前的人類參考中(補充說明 5)。在這些倒位中,19 個是 GRCh38 *的,在最近組裝的 5 個長讀長人類基因組中沒有發現(補充表5)。我們確定了組裝和讀取中的端粒序列(擴展數據圖4,補充說明 4),它們的端粒大小高度一致,我們的組裝包括重疊群末端的 46 個預期端粒中的 41 個。因此,在連續性、完整性和正確性方面,我們的 CHM13 組裝在某些質量指標上超過了所有以前的人類從頭組裝——包括當前的人類參考基因組(補充表2)。
表 1 CHM13 的裝配統計和按連續性排序的人類參考
全尺寸表
完成的人類 X 染色體
以這種全基因組組裝為基礎,我們選擇X染色體進行人工整理和驗證,因為它在初始組裝中具有很高的連續性;且特征明確的著絲粒 α 衛星陣列3、8、25;發育過程中的行為26 ; 和不成比例地參與孟德爾病3。X 染色體的從頭組裝在三個地方被破壞:著絲粒和兩個幾乎相同的大于 100 kb 的節段重復(圖1b ))。通過識別*跨越重復并在任一側錨定的超長讀取,手動解決了破壞組裝的兩個片段重復,從而允許在組裝中進行自信的放置。通過映射從 CHM13 22生成的一組正交 PacBio 高保真 (HiFi) 長讀取來評估這些困難區域的組裝質量的改進并評估信息單核苷酸變體差異的讀取深度(方法)。此外,使用液滴數字 PCR (ddPCR) 進行的實驗驗證證實,現在完成的組裝正確地代表了 CHM13 基因組的串聯重復,包括 7 個 CT47 基因 (7.02 ± 0.34 (mean ± sd))、6 個 CT45 基因 (6.11 ± 0.38)、19 個完整和兩個部分 GAGE 基因 (19.9 ± 0.745)、55 個 DXZ4 重復 (55.4 ± 2.09) 和 3.1-Mb 著絲粒 DXZ1 陣列 (1,408 ± 40.69 2,057-bp 重復) (補充說明 6 )。
以前對 X 染色體 (DXZ1) 上的單倍體著絲粒衛星陣列的高分辨率研究為我們目前的人類著絲粒組織8基因組模型提供了信息。與所有正常人類著絲粒一樣,X 著絲粒在序列水平上由 α 衛星 DNA 定義——一種富含 AT(約 171 bp)的串聯重復序列,或“單體” 27。DXZ1 陣列的規范重復由 12 個不同的單體定義,這些單體按順序排列形成大約 2 kb 的更大重復單元,稱為“高階重復”( HOR ) 28、29。HOR 串聯排列成一個大型、數兆堿基大小的衛星陣列(即 2.2-3.7 Mb;平均值為 3,010 kb(sd = 429,n = 49))25重復拷貝8、30、31之間的核苷酸差異有限。這些先前的評估用于指導我們對 DXZ1 組件的評估,并提供了已建立的實驗方法來評估 DXZ1 陣列 25、32 的結構(擴展數據圖5a)。為了組裝 X 著絲粒,我們在標準DXZ1重復單元(約 2 kb) 28、33內構建了一個結構和單核苷酸變體目錄,并將這些變體用作路標8以地平鋪整個著絲粒衛星的超長讀數陣列(DXZ1)(擴展數據圖5b-e),就像之前對 Y 著絲粒所做的那樣34。通過脈沖場凝膠電泳 (PFGE) Southern 印跡估計 DXZ1 陣列在大約 2.8-3.1 Mb 的范圍內(圖2b,擴展數據圖6),其中得到的限制曲線與預測陣列組件的結構(圖2a ,b)。ddPCR 對 DXZ1 重復的拷貝數估計值通過 PFGE Southern 印跡與一組先前大小的陣列進行了基準測試,并為大約 2.8 Mb (1,408 ± 81.38) 個典型 2,057-kb 重復拷貝的陣列提供了進一步的支持)(圖2c、附表3、附注 7)。此外,DXZ1 結構變異頻率與 PacBio HiFi 數據的直接比較高度一致22(圖2d,擴展數據圖5c)。
圖 2:3.1-MB CHM13 X 著絲粒陣列的驗證結構。
圖 2
a,頂部,陣列,大約 2 kb 的重復單元由垂直帶標記(灰色是規范單元;彩色是結構變體)。數組中的單個 LINE/L1Hs 插入由箭頭標記。底部,酶 BglI 的預測限制圖,虛線表示 DXZ1 陣列之外的區域。出于說明目的,重建了最小平鋪路徑,并且不是初始組裝的機制(擴展數據圖5b)。b,實驗性 PFGE Southern 印跡用于 BglI 消化一式兩份(帶大小由三角形表示;BglI,2.87 Mb ± 0.16),與 CHM13 陣列的計算機預測帶模式(a)相匹配(實驗重復六次,結果相似)。C,使用針對 PFGE Southern 印跡(HAP1, n = 6;T6012,n = 4;LT690,n = 7;CHM13,n = 13)優化的 ddPCR(一式三份進行;平均值±標準差)提供陣列大小估計值。d,33 個 DXZ1 結構變體的目錄,相對于 2,057-bp 規范重復單元(灰色),以及觀察到的實例數、陣列中的頻率、α 衛星單體的數量和大小。INS,插入(即 8.1-kb 插入的 LINE/L1Hs)。e,映射(灰色)和錨定(黑色)納米孔讀取到 DXZ1 陣列的覆蓋深度。與未拋光(頂部)組件相比,標記輔助拋光(底部)提高了覆蓋均勻性。單拷貝的標記顯示為垂直的綠色條帶,整個陣列的密度降低但非零。f,分布顯示染色體 X 和 DXZ1 上相鄰標記之間的間距。平均而言,在 X 染色體上每 66 個堿基就有一個的標記,但在 DXZ1 中只有每 2.3 kb,任何兩個相鄰標記之間的最長間隙為 42 kb。
全尺寸圖片
當前的長讀長程序集需要嚴格的一致性拋光以實現最大的堿基檢出準確度35、36。鑒于組裝中每個讀取的位置,這些拋光工具對基礎信號數據進行統計建模,以對每個測序的堿基做出準確的預測。這個過程的關鍵是每個讀數的正確放置,這將有助于拋光。由于不明確的讀取映射,我們最初的拋光嘗試降低了最大 X 染色體重復內的組裝質量(擴展數據圖7a,b)。為了克服這個問題,我們將 Illumina 測序數據分析為 CHM13 X 染色體上存在的短(21 bp)、(單拷貝)序列(擴展數據圖8a ))。即使在最大的重復陣列中,例如 DXZ1,重復拷貝之間也有足夠的變異以半規則間隔誘導的 21 聚體標記(圖2e、f、擴展數據圖8c)。這些標記用于告知在裝配中正確放置長 X 染色體讀數(方法)。每種技術進行兩輪迭代拋光;首先是 Oxford Nanopore,然后是 PacBio,最后是 Illumina 鏈接讀數37,并且在每一輪之后共識準確度都會增加。Illumina 的數據太短,無法使用的標記自信地錨定,并且僅用于修飾映射明確的區域。事實證明,這種仔細的拋光過程對于準確完成超過 Nanopore 和 PacBio 讀取長度的 X 染色體重復序列至關重要。
我們手動完成的 X 染色體組裝是完整的、無間隙的,根據 X 特異性 BAC 估計準確率為 99.991%,或根據映射的 Illumina 數據估計準確率為 99.995%。對 99.9% 的組裝堿基(補充說明4 )有明確的支持 ,這符合完成基因組序列38的原始百慕大標準。預計最大重復序列(如 DXZ1 衛星陣列)的準確度會略低(中位數同一性 99.3%),但由于缺乏來自這些區域的 BAC 克隆,這很難測量。映射的長讀長和光學映射數據顯示整個 X 染色體的均勻覆蓋,并且沒有證據表明可以映射的區域存在結構錯誤(圖2e,擴展數據圖 2)。圖8b、c、補充說明 4)和 Strand-seq 數據證實不存在任何反轉錯誤39、40(擴展數據圖8d、e)。通過長讀長作圖進行單核苷酸變異調用顯示,在大的、串聯重復的 GAGE 和 CT47 基因家族中,初始組裝質量較低,但這些問題通過超長讀長作圖和光學作圖的拋光和驗證得到解決(圖1c,d,擴展數據圖7c-j,補充表4)。整個 DXZ1 陣列的映射長讀長覆蓋顯示均勻的覆蓋深度和高精度,由 TandemQUAST 41測量(圖2 e,f,擴展數據圖。7j、8c )。我們確定了與 DXZ1 重復匹配的所有 HiFi 讀取。我們的重建解釋了所有讀數——除了一個大的、可能是錯誤的均聚物的讀數,證實了 DXZ1 陣列的完整性。整個 X 染色體的映射覆蓋率是均勻的,只有一小部分堿基的覆蓋率與平均值相差超過三個標準差(0.44% Nanopore、0.77% PacBio 連續長讀取 (CLR)、2.4% HiFi)。低覆蓋高保真區域因標記密度低而豐富,由于它們的長度相對較短,因此難以分配(補充說明 4)。此外,變體調用沒有從 HiFi 或 CLR 數據中識別出高頻變體,而僅從超長讀數據中識別出低復雜度的變體,這可能代表超長讀數據中的錯誤,而不是真正的組裝錯誤. 我們完整的 X 染色體端粒到端粒版本解決了 29 個參考間隙3,總共 1,147,861 bp 的先前模糊堿基(N-堿基)。
染色體范圍的 DNA 甲基化圖譜
納米孔測序對甲基化堿基敏感,如原始電信號中的調制所揭示的42。精確錨定的超長讀長提供了一種新方法來分析重復區域的甲基化模式,而這些重復區域通常難以通過短讀長測序檢測到。X 染色體具有許多在人類基因組中的表觀基因組特征。X 染色體失活,其中一條雌性 X 染色體在發育早期被沉默并在體細胞組織中保持無活性,預計將提供一個的全染色體甲基化譜。與之前的研究一致43,我們觀察到位于 X 染色體臂兩端的大多數假常染色體區域(PAR1 和 PAR2)的甲基化降低(圖3a)。不活躍的 X 染色體也采用不尋常的空間構象,并且與先前的研究一致44、45,CHM13染色體構象捕獲 (Hi-C) 數據支持在大衛星重復 DXZ4 處劃分的兩個大型超域(擴展數據圖9)。在對 DXZ4 陣列進行更仔細的分析后,我們發現了不同的甲基化條帶(圖3c),在遠端邊緣觀察到低甲基化,這通常與之前描述的染色質結構一致46。值得注意的是,我們還在 DXZ1 著絲粒陣列中發現了一個甲基化降低的區域(約 60 kb,chrX:59,217,708–59,279,205)(圖3b)。為了測試這一發現是 X 陣列*的還是在其他著絲粒衛星上也發現的,我們在 8 號染色體 (D8Z2) 47、48 上手動組裝了一個約 2.02 Mb 的著絲粒陣列,并使用相同的標記映射策略來自信地錨定整個數組的長讀取(GAL 等人,手稿正在準備中)。在此過程中,我們在 D8Z2 陣列中發現了另一個低甲基化區域,類似于我們在 DXZ1 陣列上的觀察結果(擴展數據圖10)——這進一步證明了我們的超長讀長作圖策略能夠提供堿基水平的全染色體 DNA 甲基化圖譜。需要研究來驗證這一發現是否適用于額外的染色體和樣本,并評估這些甲基化模式的潛在重要性(如果有的話)。
圖 3:CpG 甲基化的全染色體分析。
圖 3
甲基化估計值是通過平滑甲基化頻率數據來計算的,窗口大小為 500 個核苷酸。PAR1、DXZ1 和 DXZ4 的覆蓋深度和高質量甲基化調用 (|log-likelihood| > 2.5) 顯示為插圖。僅考慮具有可靠的錨定映射和至少存在一個高質量甲基化調用的讀數。a,納米孔覆蓋和甲基化需要染色體 X (1,563–2,600,000) 的假常染色體區域 1 (PAR1)。底部集成基因組查看器 (IGV) 插圖顯示了 PAR1 (770,545–801,293) 內的一個低甲基化區域,藍色為未甲基化堿基,紅色為甲基化堿基。b, DXZ1 陣列中的甲基化,底部 IGV 插圖顯示染色體 X 著絲粒附近大約 93-kb 的低甲基化區域 (59,213,083–59,306,271)。c、垂直黑色虛線表示DXZ4數組的起點和終點坐標。左側 IGV 插圖顯示了 X 染色體中 DXZ4 的甲基化區域(113,870,751–113,901,499);右側 IGV 插圖顯示了 DXZ4 (114,015,971–114,077,699) 的甲基化區域到未甲基化區域的轉變。
全尺寸圖片
完成人類基因組的路徑
人類染色體的這種完整的端粒到端粒組裝表明,現在有可能使用現有技術完成整個人類基因組。雖然我們在這里專注于完成 X 染色體,但我們的全基因組組裝已經重建了其他幾條染色體,只剩下一些空白,并且可以作為完成額外染色體的基礎。然而,仍有許多挑戰需要克服。例如,將這些方法應用于二倍體樣本將需要對潛在的單倍型進行定相,以避免混合復雜結構變異的區域。我們對其他染色體的初步分析表明,大于 X 染色體的重復區域和著絲粒衛星將需要開發額外的方法49. 對于近端著絲粒的人類染色體尤其如此,其龐大的衛星陣列和節段重復尚未在序列水平上得到解決。此外,圖1突出顯示了預期在非同源染色體之間序列相似的著絲粒衛星陣列。像這樣的陣列需要在染色體之間和染色體內進行定相。
隨著剩余的挑戰得到解決,人類基因組的完成將繼續進行,從相對更容易組裝的染色體(例如,3、6、8、10、11、12、17、18 和 20)開始,最終以包含大塊經典人類衛星(1、9和16)和近端著絲粒染色體(13、14、15、21和22)的染色體。在短期內,CHM13 基因組中關閉的參考缺口將使用 GRC 現有的“補丁”基礎設施整合到 GRCh38 中。一旦完成所有 CHM13 染色體,我們計劃將這些提供給 GRC,作為新的、*無間隙的參考基因組發布的基礎,這可能是最困難區域中帶有 CHM13 序列的當前參考的馬賽克。
方法
數據報告
沒有使用統計方法來預先確定樣本量。這些實驗不是隨機的,研究人員在實驗和結果評估過程中也沒有對分配視而不見。
細胞培養
作為 2000 年代初發生的一項研究的一部分(IRB MWH-20-054),來自完整葡萄胎 CHM13 的細胞最初是從馬吉婦女醫院(匹茲堡)的一個葡萄胎病例中培養出來的。那時,CHM13 細胞被培養,使用 Q 顯帶進行核型分析,隨后使用人端粒酶逆轉錄酶 (hTERT) 使其永生化。在本研究中,將冷凍保存的 CHM13 細胞解凍并在補充有 1% 青霉素-鏈霉素 (Thermo Fisher Scientific) 的完整 AmnioMax C-100 基礎培養基 (Thermo Fisher Scientific) 中培養,并在 37 °C 的濕度控制環境中生長,用95% O 2和 5% CO 2. 每三天更換一次新鮮培養基,用于本研究的所有細胞均不超過第 10 代。細胞已經過鑒定,支原體污染檢測呈陰性。
核型分析
中期載玻片制劑由人葡萄胎細胞系 CHM13 制成,并通過如前所述51的標準風干技術制備。根據 ISCN 52 ,進行 DAPI 條帶技術以識別核型中的結構和數字染色體畸變。使用 Zeiss M2 熒光顯微鏡和 Applied Spectral Imaging 軟件(補充說明 1)分析核型。
DNA提取、文庫制備和測序
使用改進的 Sambrook 和 Russell 方案 1、53 從 5 × 10 7 CHM13 細胞中提取高分子量DNA. 使用來自 Oxford Nanopore Technologies 的快速測序試劑盒 (SQK-RAD004) 使用 15 μg DNA 構建文庫。初始反應通常分為三等份進行上樣,并添加 FRA 緩沖液(104 mM Tris pH 8.0、233 mM NaCl)以使體積達到 21 ul。這些反應在 4 °C 下孵育 48 小時,以使緩沖液在加載前達到平衡。大多數測序是在 Nanopore GridION 上使用 FLO-MIN106 或 FLO-MIN106D R9 流通池進行的,除了一個用于測試的 Flongle 流通池。初始組裝中使用的測序讀數首先在測序儀器上進行堿基調用。收集完所有數據后,使用更新的 Guppy 算法(啟用了“觸發器”模型的 v.2.3.1)再次對讀取進行堿基調用。
根據制造商的方案,使用 10X Genomics Chromium 設備和 Chromium Reagent Kit v.2 從 1 ng 的高分子量基因組 DNA 制備 10X Genomics 連鎖閱讀基因組文庫。該文庫在 S4 流動槽上的 Illumina NovaSeq 6000 DNA 測序儀上進行測序,產生 5.86 億個配對末端 151 堿基讀數。使用 RTA 3.3.3 和 bwa 0.7.12 54處理原始數據。根據 Supernova 55組裝計算得到的分子大小為 130.6 kb 。
使用“Bionano Prep Cell Culture DNA Isolation Protocol”制備 DNA。收集細胞后,將它們進行多次洗滌,然后嵌入瓊脂糖中。進行蛋白酶 K 消化,然后進行額外的洗滌和瓊脂糖消化。使用 Qubit dsDNA BR 檢測試劑盒和 CHEF 凝膠評估 DNA 的數量和質量。按照 Bionano Prep 直接標記和染色 (DLS) 方案對 750 ng 等分的 DNA 進行標記和染色。染色后,使用 Qubit dsDNA HS 檢測試劑盒對 DNA 進行定量,并在 Saphyr 芯片上運行。
Hi-C 文庫由 Arima Genomics 使用四種限制酶重復生成。在修飾的染色質消化后,標記消化的末端,近端連接,然后純化近端連接的 DNA。在 Arima-HiC 協議之后,通過首先剪切然后使用 SPRI 珠子選擇大小的 DNA 片段來制備與 Illumina 兼容的測序文庫。使用 Arima-HiC 試劑盒中提供的富集珠對大小選擇的包含連接點的片段進行富集,并使用 Swift Accel-NGS 2S Plus 試劑盒(P/N:21024)試劑將其轉化為與 Illumina 兼容的測序文庫。接頭連接后,使用 SPRI 珠子對 DNA 進行 PCR 擴增和純化。純化的 DNA 進行標準質量控制(qPCR 和生物分析儀),并按照制造商的方案在 HiSeq X 上進行測序。
Nanopore 和 PacBio 全基因組組裝
Canu v.1.7.1 21在 2018 年 11 月 7 日或之前生成的所有 rel1 Oxford Nanopore 數據(儀器上堿基調用器,rel1)和 PacBio 序列(序列讀取存檔(SRA):PRJNA269593)生成2014 年和 2015 年(總計 70 倍覆蓋率)2 , 56。組裝中的幾個染色體僅在著絲粒區域(例如,chr10、chr12、chr18 等)斷裂(圖1)。盡管幾個著絲粒(例如,chr8、chr11 和 chrX)具有明顯的連續性,但組裝器報告的重復拷貝數比預期的要少得多。
手動間隙閉合
X 染色體上的間隙通過將所有讀數映射到組裝并手動識別連接未包含在自動 Canu 組裝中的重疊群的讀數來關閉。這產生了一個初始的候選染色體組裝,著絲粒除外。發現候選組裝的四個區域在結構上與 Bionano 光學圖不一致,并通過從這些區域手動選擇讀數并使用 Canu 21和 Flye v.2.4 57進行局部重新組裝來糾正。自信地跨越整個重復區域的低覆蓋長讀取用于指導和評估可用的最終組裝。使用 HMMER (v.3) 評估重組版本和跨越讀取之間的拷貝數和重復組織58 , 59在特定的串聯重復單元上進行了訓練,并手動比較了報告的結構。Minimap2 60的默認參數導致串聯重復序列的覆蓋不均勻和拋光精度。通過將 Minimap2 -r 參數從 500 增加到 10,000 并將報告的二級比對 (-N) 的最大數量從 5 增加到 50,成功解決了這個問題。重復堿基水平質量的最終評估通過 PacBio 數據集 (CLR) 的映射確定和 HiFi)(擴展數據圖7,補充說明 4)。
X 著絲粒中的 α 衛星陣列,由于其在男性基因組中作為單倍體陣列的可用性,是基因組水平上研究好的著絲粒區域之一,具有明確定義的 2-kb 重復單元28,物理和遺傳映射8、30和預期的數組長度范圍25。我們最初生成了一個包含超長讀數的 alpha 衛星數據庫,通過在兩個方向上用至少一個 171 bp 規范重復的完整共有序列33標記這些讀數,如前所述61. 反向補充包含 alpha 的讀數,并使用 HMMER (v.3) 使用 2,057-bp DXZ1 重復單元進行篩選。然后我們使用游程長度編碼,其中 2,057 bp 規范重復(定義為最小值范圍內的任何重復:1,957 bp,最大值:2,157 bp)存儲為單個數據值和計數,而不是原始數據跑。這使我們能夠將所有讀數重新定義為一系列變體或重復,這些變體或重復在大小或結構上與預期的規范重復單元不同,其間具有定義的間距。使用 Alpha- CENTAURI 將超長讀長數據中鑒定的 CHM13 DXZ1 結構變體與已發表的 PacBio(CLR 50和 HiFi 22)中先前表征的重排庫進行比較,如61所述. 每個讀數的結構變體的輸出注釋和規范 DXZ1 間距被手動聚類以生成六個初始重疊群,其中兩個已知錨定到相鄰的 Xp 或 Xq 中。為了定義重疊群之間的順序和重疊,我們確定了在從 CRISPR-Cas9 雙鏈序列 (CRISPR-DS) 靶向重測序62獲得的高質量 DXZ1 陣列數據中具有*匹配的所有 21 聚體(補充說明 8)。兩個或更多 21-mers 之間以相等的間距重疊指導了組裝的組織。重疊群(和重疊群結構)之間的間距的正交驗證得到了額外的超長讀取覆蓋率的支持,為除三個區域之外的所有區域的重復單元計數提供了高置信度。
染色體 X 長讀長拋光
我們使用了一種新穎的映射管道,使用的標記將讀取放置在重復中。長度k個子串 ( k-mers) 是從 Illumina 連鎖讀數中收集的,在修剪掉條形碼(一對中第一個讀數的前 23 個堿基)之后。讀取被放置在與讀取具有標記的組件的位置。對齊被進一步過濾以排除短和低同一性對齊。在每一輪拋光之后重復這個過程,在每一輪之后重新計算新的標記和對齊。使用一輪 Racon 進行拋光,然后使用兩輪 Nanopolish 和兩輪 Arrow。拋光后,所有先前標記的低質量基因座都顯示出顯著改善,除了 139-140.3 仍然有覆蓋率下降并被 Canu 使用 PacBio HiFi 數據生成的替代補丁程序集取代。
全基因組長讀長拋光
全基因組組裝的其余部分與 X 染色體相似,但沒有使用的k -mer 錨定。相反,使用上述參數運行兩輪 Nanopolish,然后是兩輪 Arrow,這些參數依賴于映射質量、長度和身份閾值來確定長讀取的最佳位置。由于沒有齊心協力在 X 染色體以外的染色體上正確組裝大型衛星陣列,因此這種默認的拋光方法被認為足以滿足基因組的其余部分。然而,未來完成這些剩余染色體的努力預計將受益于的k -mer 錨定映射方法。
全基因組短讀拋光
Illumina 連鎖讀數用于整個組裝的最終拋光,包括 X 染色體,但僅使用明確的映射并僅糾正小的插入和刪除錯誤(補充說明 4)。
甲基化分析
為了測量納米孔數據中的 CpG 甲基化,我們使用了 Nanopolish 63。Nanopolish 對納米孔電流信號使用隱馬爾可夫模型來區分 5-甲基胞嘧啶和未甲基化胞嘧啶。甲基化調用程序為特定k -mer處甲基化與未甲基化 CG 的概率比率生成對數似然值。接下來,我們使用 nanopore_methylation_utilities 工具) 過濾甲基化調用,該工具使用 2.5 的對數似然比作為調用甲基化的閾值64. 對數似然比大于 2.5(甲基化)或小于 -2.5(未甲基化)的 CpG 位點被認為是高質量的并包含在分析中。沒有任何高質量 CpG 位點的讀取被排除在隨后的甲基化分析之外。圖3顯示了具有至少一個高質量 CpG 位點的讀取的覆蓋率。Nanopore_methylation_utilities 將甲基化信息集成到對齊 BAM 文件中,以便在 IGV 65中以亞硫酸氫鹽模式查看,并創建 Bismark 樣式文件,然后我們使用 R Bioconductor 包 BSseq (v.1.20.0) 66對其進行分析。我們使用 BSseq 包中的 BSmooth 算法66來平滑數據以估計特定感興趣區域的甲基化水平。
報告摘要
有關研究設計的更多信息,請參閱 與本文鏈接的自然研究報告摘要。
at101 SEA 100ug toxin特約實驗試劑 toxin北京實驗試劑toxin上海實驗試劑 toxin南京實驗試劑 toxin武漢實驗試劑
bt202 SEB 1mg toxin特約實驗試劑 toxin江蘇實驗試劑toxin湖北實驗試劑 toxin安徽實驗試劑 toxin合肥實驗試劑
dt303 SED 100ug toxin特約實驗試劑 toxin南寧實驗試劑toxin浙江實驗試劑 toxin吉林實驗試劑 toxin哈爾濱實驗試劑
et404 SEE 100ug toxin特約實驗試劑 toxin北京實驗試劑toxin天津實驗試劑 toxin華北實驗試劑 toxin廣州實驗試劑
其他的這些是菌株
71-097L moltox天津實驗試劑,moltox浙江實驗試劑,moltox江西實驗試劑,moltox福建實驗試劑,moltox廣東實驗試劑
71-098L moltox青海實驗試劑,moltox河南實驗試劑,moltox河北實驗試劑,moltox山西實驗試劑moltox陜西實驗試劑
71-100L moltox黑龍江實驗試劑,moltox吉林實驗試劑moltox遼寧實驗試劑,moltox廣東實驗試劑,moltox廣西實驗試劑
71-102L moltox云南實驗試劑,moltox海南實驗試劑,moltox貴州實驗試劑,moltox湖北實驗試劑,moltox湖南實驗試劑
71-1535L moltox中國臺灣實驗試劑,moltox海南實驗試劑,moltox廣西實驗試劑,moltox河北實驗試劑,moltox河南實驗試劑
71-1537L moltox南寧實驗試劑,moltox蘭州實驗試劑,moltox武漢實驗試劑,moltox合肥實驗試劑,moltox青島實驗試劑
moltox s9 11-101.5 moltox說明書,moltox技術文件,moltox技術參數,moltox規格,moltox s9實驗試劑 moltox s9現貨實驗試劑 moltox s9現貨實驗試劑 moltox s9現貨實驗試劑 moltox s9現貨實驗試劑 moltox s9現貨實驗試劑
北京華新康信為ForteBio廣州實驗試劑 ForteBio深圳實驗試劑 ForteBio常州實驗試劑 ForteBio杭州實驗試劑 ForteBio南京實驗試劑 ForteBio云南實驗試劑 ForteBio桂林實驗試劑 ForteBio天津實驗試劑 ForteBio北京實驗試劑 ForteBio廈門實驗試劑 ForteBio大理實驗試劑 ForteBio武漢實驗試劑 ForteBio福建實驗試劑ForteBio安徽實驗試劑ForteBio廣西實驗試劑ForteBio廈門實驗試劑ForteBio常州實驗試劑ForteBio常州實驗試劑fortebio長沙實驗試劑fortebio哈爾濱實驗試劑fortebio沈陽實驗試劑ForteBio深圳實驗試劑ForteBio武昌實驗試劑ForteBio河南實驗試劑ForteBio河北實驗試劑ForteBio山東實驗試劑ForteBio山西實驗試劑ForteBio內蒙古實驗試劑ForteBio北京實驗試劑ForteBio天津實驗試劑ForteBio上海實驗試劑ForteBio廣州實驗試劑 ForteBio華北實驗試劑ForteBio華中實驗試劑ForteBio華南實驗試劑ForteBio武漢實驗試劑ForteBio產品ForteBio現貨 ForteBio知識介紹 ForteBio系列 ForteBio廣東實驗試劑ForteBio常州實驗試劑ForteBio廣西實驗試劑ForteBio山西實驗試劑ForteBio山東實驗試劑ForteBio實驗試劑*ForteBio實驗試劑活動ForteBio實驗試劑系列產品,歡迎選購*活動,期待您的溝通,愿意為您提供滿意的服務北京華新康信為ForteBio特約實驗試劑ForteBio北京實驗試劑ForteBio天津實驗試劑ForteBio上海實驗試劑ForteBio廣州實驗試劑 ForteBio華北實驗試劑ForteBio華中實驗試劑ForteBio華南實驗試劑ForteBio武漢實驗試劑ForteBio產品ForteBio現貨 ForteBio知識介紹 ForteBio系列ForteBio廣東實驗試劑ForteBio云南實驗試劑ForteBio廣西實驗試劑ForteBio山西實驗試劑ForteBio山東實驗試劑ForteBio實驗試劑*ForteBio實驗試劑活動ForteBio實驗試劑系列產品,歡迎選購*活動,期待您的溝通,愿意為您提供滿意的服務。
北京華新康信為Nanoporetech實驗試劑 Nanoporetech 實驗說明 Nanoporetech說明書 Nanoporetech技術參數 Nanoporetech方案對比 Nanoporetech 優勢介紹 Nanoporetech廣州實驗試劑 Nanoporetech深圳實驗試劑 Nanoporetech說明書 Nanoporetech技術參數Nanoporetech實驗方案 Nanoporetech技術對比 Nanoporetech購買說明 Nanoporetech天津實驗試劑 Nanoporetech北京實驗試劑 Nanoporetech廈門實驗試劑 Nanoporetech大理實驗試劑 Nanoporetech武漢實驗試劑 Nanoporetech福建實驗試劑Nanoporetech安徽實驗試劑Nanoporetech廣西實驗試劑Nanoporetech廈門實驗試劑Nanoporetech常州實驗試劑Nanoporetech常州實驗試劑Nanoporetech長沙實驗試劑Nanoporetech哈爾濱實驗試劑Nanoporetech沈陽實驗試劑Nanoporetech深圳實驗試劑Nanoporetech武昌實驗試劑