在藥物研究中,可能存在的有機分子的數(shù)目估計超過10^60,但高通量篩選(HTS)方法的極限為10^6到10^9,其中通常小于10^3分子具有所需的生物活性。為了使得這種方法能發(fā)揮作用,我們必須確保我們的10^6個子集的分子能夠代表比10^60更大的集合。然而以制藥公司的傳統(tǒng)方式收集到的分子通常不能代表更大的“化學空間”。是否有方法使收集的數(shù)據(jù)更具代表性是挑戰(zhàn)之一。接下來的挑戰(zhàn)是設(shè)計的新藥既具有最大限度的療效又能使昂貴的合成過程最少。通常統(tǒng)計學家可能會考慮設(shè)計實驗(DOE)來實現(xiàn)這一點,但在多維世界的化學空間,這是一項具有挑戰(zhàn)性的任務(wù)。JMP的獨特的數(shù)據(jù)交互式可視化功能, DOE能力和數(shù)據(jù)整理工具,使我們能夠結(jié)合化學原理的方法,系統(tǒng)地探索和評估大型復(fù)雜的數(shù)據(jù)集。通過這種方式,我們分析現(xiàn)有的數(shù)據(jù),確定下一步的工作,大大加快了藥物研究的進程。
藥物研究是一個漫長的旅程,從數(shù)以百萬計的潛在的開始點一直到一個單一的可能有一天會成為一種市場化藥物的候選分子??v觀整個醫(yī)藥行業(yè),從項目開始到一個藥物到達市場約需要11到14年的時間。每一個成功藥物的平均成本是50億美元(福布斯,2014)。耗費如此長的時間和巨大成本的原因有很多。從統(tǒng)計角度的一個原因是我們在尋找一個極不可能的結(jié)果。需要給出可以把原子放在一起組成分子的各種各樣的方法,并考慮自然規(guī)律與藥物分子的限制,我們可以估計藥物分子可能存在的總數(shù)。參與研究的原子總數(shù)多達17個,這就形成了1660億個組合。藥品經(jīng)常包含40個或更多原子,估計就達到10^60個是潛在的藥物分子了。
傳統(tǒng)的方法從化合物的大集合中通過蛋白化驗來尋找對靶蛋白具有某些活性的藥品分子(亦稱hits),這種方法也被稱為高通量篩選(HTS),但是這種方式可以支持篩選的化合物的最大數(shù)量約是一百萬。最近我們關(guān)注到基因編碼庫的創(chuàng)新方法,可以同時進行幾個化合物的測試。這些方法能夠相對容易上網(wǎng)的篩數(shù)十億化合物,然而這僅僅是可能的化合物的小部分。如何能夠成功地運用這些方法,是巨大的挑戰(zhàn)。
在下一階段的藥物研究中我們面臨類似的問題。有效復(fù)合物(或一系列類似的化合物組合)的識別使藥物研究人員能夠聚焦在單一分子的“結(jié)構(gòu)支架”。緊接著的任務(wù)是人工合成和測試類似的化合物,尋找核心結(jié)構(gòu)支架上不同取代基組,分析局部結(jié)構(gòu)活性的關(guān)系(SAR),見圖1。這里的挑戰(zhàn)是,即使限制在對少量的原子分析,依然有數(shù)百個潛在的子結(jié)構(gòu)組選擇,如果考慮原子越多選擇組合就越多。作為藥物研究人員迫切需要知道如何選擇化合物才能快速、高效地探索結(jié)構(gòu)活性關(guān)系。
為了簡化問題,我們運用了類似化學結(jié)構(gòu)具有相似性能的理論。這意味著一個多個維度的“化學空間”的存在,其中涵蓋所有潛在有效的化學分子結(jié)構(gòu)。因此一個理想的HTS篩選集合是具有均勻化學空間屬性的一組化合物。從概念上講,這是一個很好的方案,但我們沒有有效的化學空間界定可以使用。我們有多種計算化學結(jié)構(gòu)性能的方法,但發(fā)現(xiàn)經(jīng)常出現(xiàn)化學結(jié)構(gòu)的描述不完全,以及潛在結(jié)構(gòu)的范圍太大的問題。在現(xiàn)實中,雖然藥物公司定期收集新化合物來補充篩選的需要,但是許多HTS的結(jié)論只有非常微弱的“hits” ,有的甚至沒有“hits”,這是因為化合物的篩選集不能代表充分的化學空間。
圖1 典型的藥品(Iressa)分子結(jié)構(gòu)顯示 圖2 GPCR有效的化合物結(jié)構(gòu)支架結(jié)構(gòu)支架(黃色)和取代基(藍色) X是分析對象組的位置
當化學反應(yīng)鎖定在分子的單個結(jié)構(gòu)支架時,我們就可以確定可用的范圍,開始應(yīng)用統(tǒng)計方法使化合物的多樣性最大化。圖1顯示了一個具有三個取代基組圍繞在固定結(jié)構(gòu)支架的化合物。在第一輪的探索中,我們傾向依次改變每一個結(jié)構(gòu)組(在隨后的幾輪進行最好的組合),得到僅有一個取代基位置不同的類似的化合物組成的合成庫。
傳統(tǒng)的設(shè)計化學合成庫的方法是選擇一個易于處理的合成方法,并利用已有的試劑合成盡可能多的化合物。雖然在成本方面是比較經(jīng)濟,但是單一的合成路線將導(dǎo)致化合物缺乏多樣性。
我們希望利用量化的因子來準確地描述代表特定的化合物集合,因此采用了實驗設(shè)計的(DOE)原理,實現(xiàn)了使用更少的化合物也能確保更多的多樣性。
通過篩選確認了一個A類G蛋白偶聯(lián)受體有活性的化合物,其分子結(jié)構(gòu)支架包含取代苯基環(huán)。我們希望探索取代基位置的結(jié)構(gòu)活性關(guān)系?;谛袠I(yè)經(jīng)驗和分子結(jié)構(gòu)不同的基本屬性的原理,我們選擇三個屬性代表94個小的化學取代基。
這些屬性是:
l Pi(一種親脂性度量,一個區(qū)分水和有機溶劑指標);
l Molecular Refractivity(MR,衡量分子的大小);
l Sigmap(測量分子的電特性,如吸電子或供電子)
從主成分分析(PCA)看MR和Pi有一定的相關(guān)性,然而對于模型都是重要的,所以保留這兩項在模型中,以示區(qū)分。
在使用連續(xù)變量作為DOE的輸入時,有些組合在化合物集中是不存在的,因此我們通過將原有變量分成高中低三類轉(zhuǎn)換成分類變量(“高”與“低”為上下四分位數(shù),“中”是的中位數(shù))。基于這些輸入信息,定制設(shè)計給出了最小的9個化合物來表示這個集合,從而進行合成。(包含原先的一個)共有10種化合物可用于建模。
圖3 10個初始化合物的JMP多元回歸的 圖4 訓(xùn)練集的化合物3D結(jié)構(gòu)圖顯示了大
結(jié)果顯示Pi,MR,Sigmap與 pIC50 型取代基在分子內(nèi)形成57度的夾角
無明確的聯(lián)系
運用簡單的多元線性回歸(MLR)模型對10個化合物訓(xùn)練集的數(shù)據(jù)進行擬合,令人失望的是測量活性(pIC50)沒有構(gòu)建出理想的模型,參見圖3。
這時我們需要考慮用來描述這些化合物其他屬性,特別是可能描述的離群化合物和解釋它們的顯然反常行為的屬性。我們意識到離群化合物有明顯的不同于大多數(shù)集合的形狀。我們使用分子力學計算每個分子的最小能量構(gòu)造,選定了苯基環(huán)和相鄰的羰基之間的面夾角(見圖4)代表形狀差異。在MLR模型中引入這個因素后極大地優(yōu)化了模型的擬合度。Pi和Sigmap是不顯著的(在95%置信度),因此從模型中移除。最終的模型如圖5所示,MR和苯基環(huán)和相鄰的羰基之間的面夾角解釋了~63%的pIC50a的方差。
圖 5 10個初始化合物的JMP多元回歸的 圖 6 測試集的17個化合物的測量數(shù)據(jù)
結(jié)果顯示MR和pIC50存在相關(guān)性 顯示了多元回歸模型的預(yù)測效果
我們也容易解讀一個比較簡單的模型,從而理解觀察到的內(nèi)在關(guān)系。圖5參數(shù)估計表顯示pIC50與MR有負相關(guān),與面夾角正相關(guān),即最有效的化合物是那些具有最大的扭曲度和最小尺寸的化合物。在此基礎(chǔ)上又合成了17種化合物,其中大部分很好地預(yù)測了pIC50(同時加入了一些負面對照組)。圖6顯示了17種化合物訓(xùn)練集pIC50的實際測量值與預(yù)測值的關(guān)系。雖然不是每一個化合物都預(yù)測得很好,但其中10個化合物(圖6中所示的空心方塊)的預(yù)測是有效的,并被證實。
令人滿意的是該模型的預(yù)測(告訴我們無效的化合物特性)和解釋(告訴我們哪些屬性對于效力是重要的)使我們確定了現(xiàn)有集合中可以實現(xiàn)最佳效力的取代基組,即使考慮更大的化合物集合也成為可能。我們也能確定不值得擴大的范圍,比如使用具有更多原子的更大的取代基,因為我們已經(jīng)觀察到效力與分子大小的負相關(guān)性。
在這項工作中,我們已經(jīng)表明,實驗設(shè)計(DOE)的原理可用于藥物研究,但仍需然仔細考慮構(gòu)建SAR的問題,并盡可能地避免變異,從而使得通過少量因子代表化學多樣性成為可能。
我們還發(fā)現(xiàn),因子選擇需要一定數(shù)量的試錯法,很難說哪個因子是最重要的,是第一優(yōu)先的。DOE在這個案例的成功運用,使得深入的探索結(jié)構(gòu)活性的全貌,僅通過四分之一的可能化合物就聚焦在最有價值的屬性空間。