文/維金
新冠疫情創造了許許多多的個人英雄主義事蹟和令人驚歎的集體科學壯舉。製藥公司使用新技術在創紀錄的短時間內開發出了高效的疫苗。新型的臨床試驗改變了醫學界對什麼治療方式管用,什麼不管用的理解。然而,當英國阿蘭·圖靈研究所(Alan Turing Institute)試圖探索人工智慧如何幫助應對這場危機時,發現並沒有太多值得慶祝的東西。
該研究所去年底釋出報告稱,人工智慧對疫情應對的幫助微乎其微。專家們希望能無偏見地獲取廣泛的健康資料,從而更好地運用這項技術,但發現面臨很多問題。在此之前,兩項調查回顧了數以百計的研究,發現幾乎所有用於檢測新冠症狀的人工智慧工具都存在缺陷。阿蘭·圖靈研究所報告的編輯、內科醫生和研究員比拉爾·馬丁(Bilal Mateen)說:“我們想找亮點,展示這類令人興奮的技術是如何創造價值的。不幸的是,我們不但找不到閃光點,還發現了很多問題。”
可以理解,像人工智慧這樣較新的醫學工具無法在疫情中扭轉局面,但馬丁和其他研究人員表示,新冠疫情中人工智慧專案的失敗反映了更廣泛的規律:儘管被寄予厚望,但事實證明,透過將資料與演算法相結合來改善醫療水平,這是非常困難的。
許多使用過往醫學資料樣本的研究報告認為,演算法在特定任務上可以非常準確,比如發現面板癌或預測患者的治療效果。其中一些演算法現在已被納入經過批准的產品中,醫生們用這些產品來觀察中風或眼疾的先兆。
但是,更多關於人工智慧醫療的設想並沒有突破概念驗證階段,取得進一步進展。研究人員警告說,目前,許多研究沒有使用足夠多數量或足夠好質量的資料來適當地測試AI應用。這意味著這些技術可能不值得信賴,會給醫療系統造成真正的損害。事實證明,正在使用的一些醫療演算法不可靠,或者對某些人口群體有偏見。
用資料分析技術和結果來改善醫療保健,這不是個新概念。1855年是流行病學發展的里程碑式時刻之一。當時,倫敦的醫生瓊恩·雪諾(Jon Snow)在地圖上標出霍亂病例,發現這是種透過水傳播的疾病。最近,醫生、研究人員和技術專家也非常關注如何利用機器學習技術。這些技術在科技行業的專案中得到了磨練,比如整理照片或轉錄語音。
然而,科技行業的大環境與研究型醫院內部的情況有很大不同。Facebook等公司可以方便地獲得使用者釋出的數十億張照片,用於最佳化影象識別演算法。但由於患者隱私問題很敏感,IT系統老舊,獲得足夠的健康資料很難。與過濾垃圾郵件或精準投放廣告相比,用演算法去影響患者的醫療風險也更高。
亞利桑那州立大學副教授維薩爾·貝里沙(Visar Berisha)表示:“我們無法在臨床醫學上借鑑消費網際網路的成功案例。”他最近與亞利桑那州立大學工程和衛生部門的同事共同發表學術論文警告稱,在醫療健康領域的許多研究中,演算法看起來比實際情況更準確,僅僅是因為它們對非常小的資料集使用了強大的演算法。
健康資料,例如醫學成像、生命體徵和來自可穿戴裝置的資料,可能會因為與特定健康狀況無關的原因而變化,比如生活方式或噪音資訊。在科技行業中已經普及的機器學習演算法非常善於模式識別,提供了一種捷徑去找到隱藏在現實世界海量資訊後的正確答案。然而,較小的資料集使演算法更容易以這種方式作弊,並造成盲點,導致最終臨床結果不佳。貝里沙說:“社群只是自己騙自己,讓我們相信正在開發的模型有著比實際更好的效果。這進一步加劇了關於AI醫療的炒作。”
貝里沙說,這方面問題已經導致AI醫療研究的某些領域出現了令人擔憂和震驚的行為。研究人員曾經嘗試利用演算法,基於語音來發現阿茨海默症或認知障礙的跡象。貝里沙和他的同事們發現,資料規模較大的研究報告準確性比規模較小的要差,這與大資料技術的理論相反。除此之外,一項根據醫學掃描影像識別大腦疾病的研究,以及另一項試圖用機器學習檢測自閉症的研究,都得出了類似的結果。
演算法在初步研究中效果良好,但在真實患者資料上表現很差,這造成了切切實實的問題。2019年的一項研究發現,一個用於數百萬患者的系統原本希望讓患複雜健康問題的人優先獲得額外的醫療機會,但最終卻將白人患者置於黑人之前。
要避免像這樣的有偏見的系統,需要大量、平衡的資料集和謹慎的測試,但由於過往和目前不同人群醫療水平的不平等,資料集總是會有扭曲,從而影響AI醫學的研究質量。斯坦福大學研究人員2020年發現,在所有將深度學習技術應用於美國全國醫學資料的研究中,使用的資料有71%來自加利福尼亞州、馬薩諸塞州和紐約州,其他47個州的資料很少或幾乎沒有。低收入地區在AI醫療研究中幾乎沒有話語權。去年發表的一篇論文對150多項用機器學習來預測診斷或病程的研究進行了梳理,結論是大多數研究“顯示出糟糕的方法學,存在很高的偏見風險”。
兩名關注這些缺點的研究人員最近發起了一個名為“南丁格爾開放科學”(Nightingale Open Science)的非營利性組織,試圖提高研究人員可獲得的資料集的質量和規模。它與衛生系統合作,從患者記錄中收集醫學影象和相關資料,將其匿名化,隨後提供給非營利性研究。
南丁格爾開放科學的聯合創始人、加州大學伯克利分校副教授齊亞德·奧伯邁爾(Ziad Obermeyer)希望,讓更多研究者可以訪問這些資料將鼓勵競爭,從而帶來更好的結果,就像大量開放的影象資料集最終刺激了機器學習的進步一樣。他說:“問題核心是,研究人員可以利用這些健康資料去做自己想要的研究。”
其他一些專案也試圖透過最佳化資料質量,來改善AI醫療的水平。例如,拉庫納基金(Lacuna Fund)嘗試推動在中低收入國家建立資料集,將其應用於機器學習,從而最佳化AI醫療水平。英國伯明翰大學醫院在英國國家醫療服務體系(National Health Service)和麻省理工學院的支援下,正在啟動一個新專案,制定標準去評估人工智慧系統是否以公平、無偏見的資料為基礎。
作為英國疫情演算法報告的編輯,馬丁是此類人工智慧專案的粉絲,但他認為,人工智慧在醫療行業的應用前景將取決於醫療系統能否對其陳舊的IT基礎設施進行現代化改造。馬丁說:“你必須在問題的根源上進行投資,才能得到好的結果。”