營養與健康所邵振研究組發展ChIP/ATAC-seq高變信號檢測的表觀組異質性分析統計模型HyperChIP

作者: 2022-03-03 來源:
放大 縮小

  2022年2月28日,Genome Biology在線發表了中國科學院上海營養與健康研究所邵振課題組題為“HyperChIP: identification of hypervariable signals across ChIP-seq or ATAC-seq samples”的方法學論文,報道了其開發的HyperChIP計算模型。它能對多個ChIP/ATAC-seq樣本間信號強度差異進行統計建模,識別高變信號基因組區域(hypervariable regions,HVRs);一系列下游分析表明,這些表觀調控信號樣本間差異顯著高于背景模型的位點可有效用于揭示被比較樣本集的宏觀異質性結構(疾病亞型或進程、組織分化階段、種群遺傳背景等)及其上游調控機制。

  真實人群尤其是癌癥等慢性疾病病人在基因組、轉錄組等很多層面表現出較高的異質性。它們緊密聯系著疾病臨床表現等個體表型差異。但由于表觀組ChIP-seq和ATAC-seq數據跨樣本定量比較還存在許多公認難題,尚未有能通過多樣本統計比較來識別高異質性表觀調控位點的完整計算模型被發表,造成很多相關研究只能采用一些經驗方法。但是,這些經驗分析方法還存在易受技術因素影響和缺乏統計顯著性判據等缺陷,成為制約疾病和正常人群表觀組異質性精準解讀的一個關鍵技術瓶頸。

  針對這一點,HyperChIP提出使用擬合的ChIP/ATAC-seq信號強度均值-方差關系來對每個位點的觀測信號方差進行標度,并以基因表達數據為參照,指出相比于各種經驗統計指標,上述方法獲得的標度方差(scaled variance)能更好地衡量每個位點表觀調控信號的樣本間異質性水平(圖A) ;然后,在評估其統計顯著性時,引入區域篩選(subset selection)和縮尾處理(winsorization)等手段來控制潛藏真陽性位點對參數估計的影響,顯著改善了HVR識別的統計功效,實現對被比較樣本間表觀組異質性的完整統計刻畫(圖B)。

  將HyperChIP應用于42例肺腺癌病人腫瘤的H3K27ac ChIP-seq數據,發現在識別的HVRs中,很多位點的H3K27ac水平與腫瘤的臨床診斷階段有較強的關聯。另一方面,應用它分析由數百例TCGA腫瘤樣本生成的大型pan-cancer ATAC-seq數據集,發現基于所得HVRs能較好地將不同癌癥類型的樣本分開。其中一些組織來源或細胞形態相近而聚在一起的癌癥樣本,被歸類定義為四個癌癥超類型(super class),即腦部腫瘤、消化道腺癌、腎癌和鱗狀細胞癌。進一步,通過構建轉錄因子活性(TF activity)打分模型,發現了大量被特定癌癥超家族中樣本所共有的轉錄調控因子(圖C)。它們中很多被基因表達數據和其它研究結果支持。例如,TP63被發現在鱗細胞癌樣本間具有普遍較高的轉錄因子活性,而很多研究已經指出它是一個泛鱗癌致癌因子。

  此外,將HyperChIP應用于正常組織ChIP/ATAC-seq數據也能獲得有價值的發現。例如,應用它比較著床前不同時間點的小鼠胚胎ATAC-seq數據,對所得的HVRs進行主成分分析,發現第一主成分指征了胚胎的不同發育階段;進一步結合轉錄因子活性分析,可有效發掘出不同階段所特異的轉錄調控因子。另一方面,應用它比較十余個不同人類個體的淋巴母細胞系CTCF ChIP-seq數據,對所得的HVRs進行主成分分析,發現能很好地將樣本按個體所屬種群分開(圖D)。

  中國科學院上海營養與健康研究所博士生陳浩杰和博士后涂世奇為該論文共同第一作者,邵振研究員和涂世奇為共同通訊作者。復旦大學生命科學學院張一婧研究員、復旦大學附屬腫瘤醫院孫藝華主任等對該工作的提出和完善也做出了重要貢獻。該工作獲得了國家自然科學基金委,科技部,中國科學院的資助。上述研究所使用的所有數據均來自已公開發表數據。


圖:(A) HyperChIP模型以校正了均值-方差關系的標度方差(scaled variance)為統計指標, 使不同信號強度水平的基因組區域之間的信號差異水平更加可比。(B)通過引入區域篩選和縮尾處理等手段來控制潛藏真陽性對參數估計的影響,顯著改善了HVR識別的統計功效。(C)將HyperChIP應用于TCGA pan-cancer ATAC-seq數據集,基于所得HVRs將部分組織來源或細胞形態相近的樣本歸類定義為四個癌癥超類型(super class),即腦部腫瘤(Brain cancer)、腎癌(Kidney carcinoma)、消化道腺癌(Digestive adenocarcinoma)和鱗狀細胞癌(Squamous cell carcinoma);下游的轉錄因子活性打分分析,發現了大量被每個超家族中腫瘤樣本所共有的轉錄調控因子。(D)比較十余個不同人類個體的淋巴母細胞系CTCF ChIP-seq數據,發現基于所得HVRs能很好地區分不同種群個體的樣本。

  論文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02627-9

附件:
亚洲色se在线观看_亚洲色M惰网站男人的天堂_亚洲色i图第九页_亚洲色Av性色在线观看金沙
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>|