English

單細(xì)胞數(shù)據(jù)分析新突破:CHOIR算法助力精準(zhǔn)識別細(xì)胞類型和狀態(tài)

發(fā)布時間:2025-04-07    瀏覽次數(shù):117

單細(xì)胞技術(shù)的發(fā)展使得研究者能夠深入探索細(xì)胞異質(zhì)性,識別和表征不同的細(xì)胞群體。然而,現(xiàn)有的聚類工具大多缺乏對聚類結(jié)果的統(tǒng)計推斷測試,容易導(dǎo)致過度聚類或聚類不足,進(jìn)而影響對細(xì)胞類型的準(zhǔn)確識別。

美國Gladstone研究所的研究團(tuán)隊開發(fā)了一種名為CHOIR(Clustering Hierarchy Optimization by Iterative Random Forests)的新型算法,通過整合隨機(jī)森林分類器和排列測試,顯著提高了單細(xì)胞數(shù)據(jù)中細(xì)胞類型和狀態(tài)識別的準(zhǔn)確性與可靠性。

研究內(nèi)容

通過統(tǒng)計推斷進(jìn)行排列測試的CHOIR層次聚類算法示意圖

圖 1 通過統(tǒng)計推斷進(jìn)行排列測試的CHOIR層次聚類算法示意圖

CHOIR的核心優(yōu)勢在于其統(tǒng)計推斷框架。算法通過構(gòu)建層次聚類樹,利用隨機(jī)森林分類器評估每個聚類的區(qū)分能力,并通過排列測試驗證聚類的統(tǒng)計學(xué)顯著性(圖1a)。若兩個相鄰聚類無法通過隨機(jī)分類器區(qū)分,則合并為一個聚類;反之則保留獨立。這種“自頂向下構(gòu)建樹+自底向上修剪樹”的策略,確保了聚類結(jié)果既不過度分割(過聚類)也不遺漏差異(欠聚類)(圖1b)。

此外,CHOIR可無縫集成多模態(tài)數(shù)據(jù)(如RNA-seq、ATAC-seq、空間轉(zhuǎn)錄組等),通過聯(lián)合特征分析增強(qiáng)聚類的生物學(xué)意義,適用于跨技術(shù)平臺的單細(xì)胞研究。

研究團(tuán)隊在100個模擬數(shù)據(jù)集和4個真實數(shù)據(jù)集(涵蓋癌癥細(xì)胞系、小鼠胚胎發(fā)育等場景)中對CHOIR進(jìn)行了全面驗證。

15種聚類方法在100個模擬數(shù)據(jù)集中的應(yīng)用

圖 2 15種聚類方法在100個模擬數(shù)據(jù)集中的應(yīng)用

在包含1至20個細(xì)胞群體的復(fù)雜場景中,CHOIR的調(diào)整蘭德指數(shù)(ARI)表現(xiàn)優(yōu)于1種現(xiàn)有方法(圖2a-c)。在單群體數(shù)據(jù)中,僅CHOIR等3種方法避免了過聚類(圖2d-f)。

CHOIR在混合癌細(xì)胞系數(shù)據(jù)中的聚類性能

圖 3 CHOIR在混合癌細(xì)胞系數(shù)據(jù)中的聚類性能

圖3通過一系列UMAP嵌入圖展示了CHOIR在包含48,879個細(xì)胞的混合癌細(xì)胞系單細(xì)胞RNA測序數(shù)據(jù)中的聚類性能。CHOIR成功區(qū)分了所有190種細(xì)胞系,而其他聚類方法(如Cytocipher、GiniClust3、SCCAF、sc-SHC和Seurat)存在聚類不足的問題。通過聚類準(zhǔn)確度的熵值分析進(jìn)一步證實了CHOIR在防止聚類不足方面的優(yōu)勢。此外,通過獨立數(shù)據(jù)集的驗證,CHOIR不僅能夠準(zhǔn)確識別細(xì)胞系,還能區(qū)分細(xì)胞系內(nèi)的不同狀態(tài),如增殖和非增殖細(xì)胞,展現(xiàn)了其在單細(xì)胞數(shù)據(jù)分析中的高效性和準(zhǔn)確性。

CHOIR利用多組學(xué)數(shù)據(jù)驗證細(xì)胞簇的性能

圖 4 CHOIR利用多組學(xué)數(shù)據(jù)驗證細(xì)胞簇的性能

圖4利用Hao等人2021年的CITE-seq數(shù)據(jù)集,通過多組學(xué)分析展示了CHOIR在正交驗證細(xì)胞簇識別方面的優(yōu)勢。堆疊條形圖(a)顯示,CHOIR是唯一在所有50對最近細(xì)胞簇比較中均發(fā)現(xiàn)差異表達(dá)蛋白的方法,表明其在避免過度聚類方面表現(xiàn)優(yōu)異。點圖(b)進(jìn)一步證實了CHOIR在最大化細(xì)胞簇數(shù)量的同時避免過度聚類的能力。UMAP嵌入圖(c)展示了CHOIR識別的23個細(xì)胞簇,而圖(d-e)通過幼稚T細(xì)胞標(biāo)記物CCR7和樹突狀細(xì)胞標(biāo)記物CLEC9A的表達(dá)水平對這些細(xì)胞簇進(jìn)行了驗證,證明CHOIR能夠準(zhǔn)確區(qū)分不同的細(xì)胞類型和狀態(tài)。

此外,在小鼠胚胎發(fā)育空間轉(zhuǎn)錄組數(shù)據(jù)中,CHOIR準(zhǔn)確劃分了心臟(心肌細(xì)胞、內(nèi)皮細(xì)胞)和大腦(丘腦神經(jīng)元、神經(jīng)祖細(xì)胞)等解剖學(xué)特異性細(xì)胞群,而其他方法存在或遺漏或過度分割的情況。

CHOIR的自動化、無參數(shù)依賴特性顯著減少了手動優(yōu)化時間,其提供的特征重要性分析還可輔助聚類注釋。研究團(tuán)隊表示,CHOIR為單細(xì)胞數(shù)據(jù)分析提供了更可靠的“終端聚類”結(jié)果,適用于基礎(chǔ)研究和臨床應(yīng)用(如腫瘤異質(zhì)性分析、發(fā)育生物學(xué)研究)。未來,該算法可進(jìn)一步擴(kuò)展至大規(guī)模單細(xì)胞數(shù)據(jù)及多組學(xué)整合分析。

原文鏈接:https://doi.org/10.1101/2024.01.18.576317

來源:微生物安全與健康網(wǎng),作者~梁冬雪。

細(xì)胞培養(yǎng)基