人工智能工具可以快速準(zhǔn)確地創(chuàng)建患者 CT 掃描或 X 射線的詳細(xì)敘述報告,可以大大減輕忙碌的放射科醫(yī)生的工作量。
這些人工智能報告不僅僅識別圖像上是否存在異常,還傳達(dá)了復(fù)雜的診斷信息、詳細(xì)的描述、細(xì)致入微的發(fā)現(xiàn)和適當(dāng)程度的不確定性。簡而言之,它們反映了人類放射科醫(yī)生如何描述他們在掃描中看到的內(nèi)容。
幾種能夠生成詳細(xì)敘述報告的人工智能模型已經(jīng)開始出現(xiàn)。隨之而來的是自動評分系統(tǒng),可以定期評估這些工具,以幫助告知他們的發(fā)展并提高他們的表現(xiàn)。
那么,當(dāng)前系統(tǒng)衡量人工智能模型放射學(xué)性能的效果如何?
哈佛醫(yī)學(xué)院研究人員 8 月 3 日在《模式》雜志上發(fā)表的一項新研究表明,答案是好的,但并不是很好。
研究人員表示,確保評分系統(tǒng)的可靠性對于人工智能工具的持續(xù)改進(jìn)和臨床醫(yī)生對它們的信任至關(guān)重要,但研究中測試的指標(biāo)未能可靠地識別人工智能報告中的臨床錯誤,其中一些錯誤很嚴(yán)重。研究人員表示,這一發(fā)現(xiàn)凸顯了改進(jìn)的迫切需要以及設(shè)計忠實準(zhǔn)確地監(jiān)控工具性能的高保真評分系統(tǒng)的重要性。
該團(tuán)隊測試了人工智能生成的敘述報告的各種評分指標(biāo)。研究人員還要求六名人類放射科醫(yī)生閱讀人工智能生成的報告。
分析表明,與人類放射科醫(yī)生相比,自動評分系統(tǒng)評估人工智能生成報告的能力較差。他們誤解了人工智能工具所犯的臨床錯誤,在某些情況下甚至忽視了這一錯誤。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!