English

單細(xì)胞數(shù)據(jù)分析新突破:CHOIR算法助力精準(zhǔn)識(shí)別細(xì)胞類型和狀態(tài)

發(fā)布時(shí)間:2025-04-07    瀏覽次數(shù):116

單細(xì)胞技術(shù)的發(fā)展使得研究者能夠深入探索細(xì)胞異質(zhì)性,識(shí)別和表征不同的細(xì)胞群體。然而,現(xiàn)有的聚類工具大多缺乏對(duì)聚類結(jié)果的統(tǒng)計(jì)推斷測(cè)試,容易導(dǎo)致過度聚類或聚類不足,進(jìn)而影響對(duì)細(xì)胞類型的準(zhǔn)確識(shí)別。

美國(guó)Gladstone研究所的研究團(tuán)隊(duì)開發(fā)了一種名為CHOIR(Clustering Hierarchy Optimization by Iterative Random Forests)的新型算法,通過整合隨機(jī)森林分類器和排列測(cè)試,顯著提高了單細(xì)胞數(shù)據(jù)中細(xì)胞類型和狀態(tài)識(shí)別的準(zhǔn)確性與可靠性。

研究?jī)?nèi)容

通過統(tǒng)計(jì)推斷進(jìn)行排列測(cè)試的CHOIR層次聚類算法示意圖

圖 1 通過統(tǒng)計(jì)推斷進(jìn)行排列測(cè)試的CHOIR層次聚類算法示意圖

CHOIR的核心優(yōu)勢(shì)在于其統(tǒng)計(jì)推斷框架。算法通過構(gòu)建層次聚類樹,利用隨機(jī)森林分類器評(píng)估每個(gè)聚類的區(qū)分能力,并通過排列測(cè)試驗(yàn)證聚類的統(tǒng)計(jì)學(xué)顯著性(圖1a)。若兩個(gè)相鄰聚類無(wú)法通過隨機(jī)分類器區(qū)分,則合并為一個(gè)聚類;反之則保留獨(dú)立。這種“自頂向下構(gòu)建樹+自底向上修剪樹”的策略,確保了聚類結(jié)果既不過度分割(過聚類)也不遺漏差異(欠聚類)(圖1b)。

此外,CHOIR可無(wú)縫集成多模態(tài)數(shù)據(jù)(如RNA-seq、ATAC-seq、空間轉(zhuǎn)錄組等),通過聯(lián)合特征分析增強(qiáng)聚類的生物學(xué)意義,適用于跨技術(shù)平臺(tái)的單細(xì)胞研究。

研究團(tuán)隊(duì)在100個(gè)模擬數(shù)據(jù)集和4個(gè)真實(shí)數(shù)據(jù)集(涵蓋癌癥細(xì)胞系、小鼠胚胎發(fā)育等場(chǎng)景)中對(duì)CHOIR進(jìn)行了全面驗(yàn)證。

15種聚類方法在100個(gè)模擬數(shù)據(jù)集中的應(yīng)用

圖 2 15種聚類方法在100個(gè)模擬數(shù)據(jù)集中的應(yīng)用

在包含1至20個(gè)細(xì)胞群體的復(fù)雜場(chǎng)景中,CHOIR的調(diào)整蘭德指數(shù)(ARI)表現(xiàn)優(yōu)于1種現(xiàn)有方法(圖2a-c)。在單群體數(shù)據(jù)中,僅CHOIR等3種方法避免了過聚類(圖2d-f)。

CHOIR在混合癌細(xì)胞系數(shù)據(jù)中的聚類性能

圖 3 CHOIR在混合癌細(xì)胞系數(shù)據(jù)中的聚類性能

圖3通過一系列UMAP嵌入圖展示了CHOIR在包含48,879個(gè)細(xì)胞的混合癌細(xì)胞系單細(xì)胞RNA測(cè)序數(shù)據(jù)中的聚類性能。CHOIR成功區(qū)分了所有190種細(xì)胞系,而其他聚類方法(如Cytocipher、GiniClust3、SCCAF、sc-SHC和Seurat)存在聚類不足的問題。通過聚類準(zhǔn)確度的熵值分析進(jìn)一步證實(shí)了CHOIR在防止聚類不足方面的優(yōu)勢(shì)。此外,通過獨(dú)立數(shù)據(jù)集的驗(yàn)證,CHOIR不僅能夠準(zhǔn)確識(shí)別細(xì)胞系,還能區(qū)分細(xì)胞系內(nèi)的不同狀態(tài),如增殖和非增殖細(xì)胞,展現(xiàn)了其在單細(xì)胞數(shù)據(jù)分析中的高效性和準(zhǔn)確性。

CHOIR利用多組學(xué)數(shù)據(jù)驗(yàn)證細(xì)胞簇的性能

圖 4 CHOIR利用多組學(xué)數(shù)據(jù)驗(yàn)證細(xì)胞簇的性能

圖4利用Hao等人2021年的CITE-seq數(shù)據(jù)集,通過多組學(xué)分析展示了CHOIR在正交驗(yàn)證細(xì)胞簇識(shí)別方面的優(yōu)勢(shì)。堆疊條形圖(a)顯示,CHOIR是唯一在所有50對(duì)最近細(xì)胞簇比較中均發(fā)現(xiàn)差異表達(dá)蛋白的方法,表明其在避免過度聚類方面表現(xiàn)優(yōu)異。點(diǎn)圖(b)進(jìn)一步證實(shí)了CHOIR在最大化細(xì)胞簇?cái)?shù)量的同時(shí)避免過度聚類的能力。UMAP嵌入圖(c)展示了CHOIR識(shí)別的23個(gè)細(xì)胞簇,而圖(d-e)通過幼稚T細(xì)胞標(biāo)記物CCR7和樹突狀細(xì)胞標(biāo)記物CLEC9A的表達(dá)水平對(duì)這些細(xì)胞簇進(jìn)行了驗(yàn)證,證明CHOIR能夠準(zhǔn)確區(qū)分不同的細(xì)胞類型和狀態(tài)。

此外,在小鼠胚胎發(fā)育空間轉(zhuǎn)錄組數(shù)據(jù)中,CHOIR準(zhǔn)確劃分了心臟(心肌細(xì)胞、內(nèi)皮細(xì)胞)和大腦(丘腦神經(jīng)元、神經(jīng)祖細(xì)胞)等解剖學(xué)特異性細(xì)胞群,而其他方法存在或遺漏或過度分割的情況。

CHOIR的自動(dòng)化、無(wú)參數(shù)依賴特性顯著減少了手動(dòng)優(yōu)化時(shí)間,其提供的特征重要性分析還可輔助聚類注釋。研究團(tuán)隊(duì)表示,CHOIR為單細(xì)胞數(shù)據(jù)分析提供了更可靠的“終端聚類”結(jié)果,適用于基礎(chǔ)研究和臨床應(yīng)用(如腫瘤異質(zhì)性分析、發(fā)育生物學(xué)研究)。未來(lái),該算法可進(jìn)一步擴(kuò)展至大規(guī)模單細(xì)胞數(shù)據(jù)及多組學(xué)整合分析。

原文鏈接:https://doi.org/10.1101/2024.01.18.576317

來(lái)源:微生物安全與健康網(wǎng),作者~梁冬雪。

細(xì)胞培養(yǎng)基