&

網上問醫斷病，這輪AI行不行？: 2023-07-18 10:31 來源：科技日報次閱讀; 分享：

你在網上搜過“我哪哪疼是不是得了啥啥病”嗎？答案可能不盡如人意。但隨著ChatGPT等大型自然語言模型(LLM)風生水起，人們開始嘗試用它來回答醫學問題或醫學知識。

　　不過，靠譜嗎？

　　就其本身而言，人工智能(AI)給出的答案是準確的。但英國巴斯大學教授詹姆斯·達文波特指出了醫學問題和實際行醫之間的區別，他認為“行醫并不只是回答醫學問題，如果純粹是回答醫學問題，我們就不需要教學醫院，醫生也不需要在學術課程之后接受多年的培訓了。”

　　鑒于種種疑惑，在《自然》雜志新近發表的一篇論文中，全球頂尖的人工智能專家們展示了一個基準，用于評估大型自然語言模型能多好地解決人們的醫學問題。

　　現有的模型尚不完善

　　最新的這項評估，來自谷歌研究院和深度思維公司。專家們認為，人工智能模型在醫學領域有許多潛力，包括知識檢索和支持臨床決策。但現有的模型尚不完善，例如可能會編造令人信服的醫療錯誤信息，或納入偏見加劇健康不平等。因此才需要對其臨床知識進行評估。

　　相關的評估此前并非沒有。然而，過去通常依賴有限基準的自動化評估，例如個別醫療測試得分。這轉化到真實世界中，可靠性和價值都有欠缺。

　　而且，當人們轉向互聯網獲取醫療信息時，他們會遭遇“信息超載”，然后從10種可能的診斷中選擇出最壞的一種，從而承受很多不必要的壓力。

　　研究團隊希望語言模型能提供簡短的專家意見，不帶偏見、表明其引用來源，并合理表達出不確定性。

　　5400億參數的LLM表現如何

　　為評估LLM編碼臨床知識的能力，谷歌研究院的專家謝庫菲·阿齊茲及其同事探討了它們回答醫學問題的能力。團隊提出了一個基準，稱為“MultiMedQA”：它結合了6個涵蓋專業醫療、研究和消費者查詢的現有問題回答數據集以及“HealthSearchQA”——這是一個新的數據集，包含3173個在線搜索的醫學問題。

　　團隊隨后評估了PaLM(一個5400億參數的LLM)及其變體Flan-PaLM。他們發現，在一些數據集中Flan-PaLM達到了最先進水平。在整合美國醫師執照考試類問題的MedQA數據集中，Flan-PaLM超過此前最先進的LLM達17%。

　　不過，雖然Flan-PaLM的多選題成績優良，進一步評估顯示，它在回答消費者的醫療問題方面存在差距。

　　專精醫學的LLM令人鼓舞

　　為解決這一問題，人工智能專家們使用一種稱為設計指令微調的方式，進一步調試Flan-PaLM適應醫學領域。同時，研究人員介紹了一個專精醫學領域的LLM——Med-PaLM。

　　設計指令微調是讓通用LLM適用新的專業領域的一種有效方法。產生的模型Med-PaLM在試行評估中表現令人鼓舞。例如，Flan-PaLM被一組醫師評分與科學共識一致程度僅61.9%的長回答，Med-PaLM的回答評分為92.6%，相當于醫師作出的回答(92.9%)。同樣，Flan-PaLM有29.7%的回答被評為可能導致有害結果，Med-PaLM僅5.8%，相當于醫師所作的回答(6.5%)。

　　研究團隊提到，結果雖然很有前景，但有必要作進一步評估，特別是在涉及安全性、公平性和偏見方面。

　　換句話說，在LLM的臨床應用可行之前，還有許多限制要克服。

◎本報記者張夢然

點贊()

上一條：上海德達醫院團隊受邀參加美國血管外科協會年會2023-07-11

下一條：美首例機器人肝移植手術成功2023-07-19

相關稿件: 治療帕金森病常備藥多地斷供網售價高出醫保價十余倍 2021-10-22; 阿里大語言模型“通義千問”亮相引發市場關注 2023-04-12; 王毅答記者問這十五句精彩回應擲地有聲 2021-03-08; 關愛“罕見” 點亮生命之光——我國加速破解罕見病診療和用藥保障之困 2023-03-01; ChatGPT來了 AI企業如何應對 2023-02-14

網上問醫斷病，這輪AI行不行？