《影像超聲人工智能軟件(流程優(yōu)化類(lèi)功能)技術(shù)審評要點(diǎn)》旨在指導注冊申請人對影像超聲產(chǎn)品中流程優(yōu)化類(lèi)人工智能軟件功能注冊申報資料的準備及撰寫(xiě),同時(shí)也為技術(shù)審評部門(mén)審評注冊申報資料提供參考。是對影像超聲產(chǎn)品中流程優(yōu)化類(lèi)人工智能軟件功能的一般要求,醫療器械注冊申請人應依據產(chǎn)品的具體特性確定其中內容是否適用,若不適用,需具體闡述理由及相應的科學(xué)依據,并依據產(chǎn)品的具體特性對注冊申報資料的內容進(jìn)行充實(shí)和細化。
影像超聲人工智能軟件(流程優(yōu)化類(lèi)功能)技術(shù)審評要點(diǎn)
本審評要點(diǎn)旨在指導注冊申請人對影像超聲產(chǎn)品中流程優(yōu)化類(lèi)人工智能軟件功能注冊申報資料的準備及撰寫(xiě),同時(shí)也為技術(shù)審評部門(mén)審評注冊申報資料提供參考。
本審評要點(diǎn)是對影像超聲產(chǎn)品中流程優(yōu)化類(lèi)人工智能軟件功能的一般要求,醫療器械注冊申請人應依據產(chǎn)品的具體特性確定其中內容是否適用,若不適用,需具體闡述理由及相應的科學(xué)依據,并依據產(chǎn)品的具體特性對注冊申報資料的內容進(jìn)行充實(shí)和細化。本審評要點(diǎn)不包括臨床評價(jià)的要求。
一、適用范圍
本審評要點(diǎn)適用于影像超聲產(chǎn)品中流程優(yōu)化類(lèi)人工智能軟件功能(以下簡(jiǎn)稱(chēng)“超聲流程優(yōu)化AI功能”)的注冊。上述功能應由有相應超聲診斷資質(zhì)和能力的醫生使用。上述功能通常集成于影像超聲設備中,其產(chǎn)品分類(lèi)依從于影像超聲設備,按現行《醫療器械分類(lèi)目錄》,該類(lèi)產(chǎn)品分類(lèi)編碼為06-07,管理類(lèi)別為II類(lèi)或III類(lèi);上述功能若集成于獨立軟件,分類(lèi)編碼為21-02,基于《人工智能醫療器械分類(lèi)界定指導原則》,作為流程優(yōu)化功能,管理類(lèi)別為II類(lèi)。
輔助診斷類(lèi)超聲AI功能由于尚無(wú)產(chǎn)品批準,缺乏審評經(jīng)驗,暫不納入本審評要點(diǎn),可參考適應的內容。

二、產(chǎn)品簡(jiǎn)介
超聲流程優(yōu)化AI功能主要實(shí)現定位標準切面、生理結構識別與分割、自動(dòng)測量、診斷流程自動(dòng)化等功能,進(jìn)而起到減少醫生重復勞動(dòng)、提高效率的作用,目前多見(jiàn)于婦產(chǎn)科胎兒、心臟的超聲檢查和頻譜多普勒檢查,也見(jiàn)于實(shí)質(zhì)器官、肌骨、神經(jīng)的檢查,少見(jiàn)于彩色多普勒檢查。以上提到的結構分割,僅限于分割正常組織結構(包括先天畸形或后天發(fā)育失?;蚴軅麑е碌恼=M織結構發(fā)生異于常人的變化,如先天性心臟?。?,不用于分割疑似病灶組織結構,如甲狀腺結節、乳腺結節,否則屬于輔助診斷功能,不屬于流程優(yōu)化功能。對疑似病灶進(jìn)行輔助識別和輔助診斷是超聲診斷中的常見(jiàn)任務(wù),該任務(wù)中病灶輔助識別不屬于本要點(diǎn)討論的流程優(yōu)化功能。
不同于放射科影像設備的固定位置、標準參數的采集方式,影像超聲需要超聲醫師自行尋找所需切面同時(shí)進(jìn)行診斷,或為了觀(guān)察到特定結構、病灶需要從多個(gè)角度不同切面進(jìn)行觀(guān)察,超聲診斷標準化是一個(gè)重要問(wèn)題。影像超聲的診斷流程經(jīng)常要求采集標準切面,在切面中找到指定生理結構或標志點(diǎn),進(jìn)行測量,通過(guò)與標準圖譜或標準數據庫對比作出診斷。有些診療流程規定須觀(guān)察到的切面、結構、標志點(diǎn)、特征多普勒頻譜以及相關(guān)測量非常多,如產(chǎn)科排畸檢查、超聲心動(dòng)圖檢查,工作量大而重復,亟需自動(dòng)化工具。相應的流程優(yōu)化功能不但可以減少醫生重復勞動(dòng)提高效率,還有利于實(shí)現超聲診斷標準化提高診斷質(zhì)量。
不同于放射影像通常在醫生已經(jīng)對疾病有所懷疑時(shí)才進(jìn)行檢查,超聲診斷的應用場(chǎng)景更廣,在體檢、定期檢查、診斷、手術(shù)中均有應用。診療流程越靠前的檢查,檢查量越大,部分檢查目的側重于確認正常,并同時(shí)發(fā)現異?;蚨ㄆ谟^(guān)察進(jìn)展。需求量越大、診斷流程越復雜的超聲檢查,流程優(yōu)化功能的價(jià)值就越大。部分超聲流程優(yōu)化AI功能的臨床風(fēng)險相對較低,但其中的高風(fēng)險因素必須予以重視。
三、參考文件
[1] 國家食品藥品監督管理局.醫療器械說(shuō)明書(shū)和標簽管理規定:國家食品藥品監督管理總局令第6號[Z].
[2] 國家藥品監督管理局.醫療器械安全和性能的基本原則:國家藥品監督管理總局公告2020年第18號 [Z]
[3] 國家藥品監督管理局.醫療器械通用名稱(chēng)命名規則:國家藥品監督管理總局令第19號[Z].
[4] 國家藥品監督管理局.醫用軟件通用名稱(chēng)命名指導原則: 國家藥品監督管理總局通告2021年第48號[Z]
[5] 國家食品藥品監督管理局.醫療器械分類(lèi)目錄:國家食品藥品監督管理總局公告2017年第104號[Z].
[6] 國家藥品監督管理局. 人工智能醫用軟件產(chǎn)品分類(lèi)界定指導原則: 國家藥監局器審中心通告2021年第47號[Z]
[7] 國家藥品監督管理局.醫療器械產(chǎn)品技術(shù)要求編寫(xiě)指導原則:國家藥監局通告2022年第8號[Z].
[8] 國家藥品監督管理局醫療器械審評中心.醫療器械軟件注冊審查指導原則(2022年修訂版):國家藥監局器審中心通告2022年第9號[Z].
[9] 國家藥品監督管理局醫療器械審評中心.醫療器械網(wǎng)絡(luò )安全注冊審查指導原則(2022年修訂版):國家藥監局器審中心通告2022年第7號[Z].
[10] 國家藥品監督管理局醫療器械審評中心.人工智能醫療器械注冊審查指導原則:國家藥監局器審中心通告2022年第8號[Z].
四、審評主要關(guān)注點(diǎn)
在參照的法規、規章、指導原則、標準的情況前提下,結合下列關(guān)注點(diǎn)開(kāi)展技術(shù)審評。
(一)綜述資料
1.產(chǎn)品名稱(chēng)
此類(lèi)功能一般集成于影像超聲主機或超聲圖像處理軟件中,產(chǎn)品名稱(chēng)依從于所集成產(chǎn)品。功能名稱(chēng)可以包含英文,應保持同一功能的規范名稱(chēng)在產(chǎn)品資料中保持一致。功能名稱(chēng)相似的,應明確實(shí)質(zhì)差異,如同名的不同代際功能,可以通過(guò)名稱(chēng)或版本號予以區別。
2.結構組成
集成于影像超聲主機時(shí),結構功能無(wú)需體現。集成于處理超聲影像的獨立軟件時(shí),結構組成應體現出包括AI的功能模塊。
其他按照《人工智能醫療器械注冊審查指導原則》在算法研究報告中提供算法基本信息,結合本產(chǎn)品特點(diǎn)應注意和細化的要求詳見(jiàn)下文算法研究資料的算法基本信息。
(二)非臨床資料
1.產(chǎn)品技術(shù)要求及檢測報告
1.1規格信息
應給出軟件發(fā)布版本和版本命名規則。軟件版本命名規則原則上應涵蓋算法驅動(dòng)型更新和數據驅動(dòng)型更新,明確并區分重大軟件更新和輕微軟件更新,其中重大軟件更新列舉常見(jiàn)典型情況。AI功能若是軟件模塊,若有單獨的版本、版本命名規則均需說(shuō)明。
明確AI功能可處理的超聲影像輸入,如超聲機型、探頭、成像參數、檢查方式、檢查部位、影像形式。超聲機型和探頭應明確制造商和型號,且應為國內上市的產(chǎn)品。成像參數應考慮頻率、增益、深度、動(dòng)態(tài)范圍、焦點(diǎn)、幀頻、諧波成像、多波束成像等,若是某探頭用于某部位的默認參數,可以簡(jiǎn)化描述。影像形式明確單幀或序列圖像,對全圖處理還是需要先分割出特定區域,是否包括種子點(diǎn)、采樣窗、患者病歷(如年齡、性別、地域、主訴、病史等)等其他信息。相應內容應已通過(guò)算法影響因素分析論證。
若預期操作者包括超聲醫師之外的用戶(hù),應在此處予以明確。
1.2性能指標
以AI功能為單位(而不是算法)描述臨床功能、使用限制、運行環(huán)境(若適用)、性能效率(若適用)。臨床功能應簡(jiǎn)要描述輸入輸出,并在附錄中提供典型界面圖片,明確采用深度學(xué)習AI算法的部分;實(shí)現分類(lèi)、分割功能和生成自然語(yǔ)言描述的枚舉可給出的所有情況;明確AI輸出的哪些內容可由醫生修改。使用限制考慮從流行病學(xué)分布、預期應用場(chǎng)景、成像質(zhì)量不佳或范圍不夠、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結構異常等方面簡(jiǎn)要描述。運行環(huán)境(含云計算)明確典型配置,包括硬件配置、外部軟件環(huán)境、網(wǎng)絡(luò )條件,僅運行在所申報超聲主機上的AI功能,運行環(huán)境可不適用。性能效率明確軟件在典型運行環(huán)境下完成典型核心功能的時(shí)間特性。
2.軟件研究
申請人應依據《醫療器械軟件技術(shù)審查指導原則(2022年修訂版)》、《醫療器械網(wǎng)絡(luò )安全技術(shù)審查指導原則(2022年修訂版)》、《移動(dòng)醫療器械注冊技術(shù)審查指導原則》、《人工智能醫療器械注冊審查指導原則》等指導原則,提交相應注冊申報資料。
3.算法研究資料
應基于《人工智能醫療器械審查指導原則》第四章生存周期過(guò)程、第五章技術(shù)考量、第六章算法研究資料的所有相關(guān)要求提供算法研究報告或算法更新研究報告,認為不適用的應詳述理由。不同功能應分別提供算法研究報告,一個(gè)功能中包括多個(gè)相對獨立AI算法的建議分別提供算法研究報告,有工作流銜接關(guān)系的算法、功能應說(shuō)明其關(guān)系,宜合并算法研究報告中相同相似內容,但驗證與確認應分別進(jìn)行。根據此類(lèi)功能特點(diǎn)需要細化之處如下。以下要求主要針對基于深度學(xué)習等新一代人工智能算法的功能,采用傳統模式識別算法的可供參考。
3.1算法基本信息
AI功能及其核心的AI算法穿插于檢查流程中,在某些環(huán)節發(fā)揮作用。AI功能控制AI算法模塊(可能不只1個(gè))的啟動(dòng)、運行、停止、結果顯示,以及與其他功能模塊的配合。申請人應對功能和算法分別進(jìn)行描述,由于超聲檢查流程的復雜性,應重視功能描述。
3.1.1功能描述
應從臨床角度在說(shuō)明常規診斷流程的基礎上,明確常規流程的哪些環(huán)節被AI功能替代或是改變,從技術(shù)角度配合流程圖詳細說(shuō)明功能如何控制各核心AI算法及相關(guān)模塊完成功能。簡(jiǎn)述功能帶來(lái)的臨床價(jià)值,用于提高效率的功能,宜給出量化指標。
按照國家藥監局發(fā)布的注冊申報資料要求提供產(chǎn)品的適用范圍、預期使用環(huán)境、適用人群、禁忌證,需與申報產(chǎn)品的性能、功能相符,并需與臨床評價(jià)資料結論一致。使用環(huán)境明確預期使用的醫療機構類(lèi)型、級別、科室及應用場(chǎng)景,如超聲室常規檢查、穿刺引導、麻醉引導、手術(shù)中等,適用人群應明確醫生的專(zhuān)業(yè)(超聲科、其他科室)、資質(zhì)、能力水平(年資、培訓),患者的年齡、性別、生理疾病狀態(tài)(懷孕的明確孕齡范圍)。
明確產(chǎn)品的設計依據,給出切面、結構、標志點(diǎn)、多普勒頻譜等特征識別功能和測量功能所依據的醫學(xué)圖譜、診療指南等的名稱(chēng)和具體內容,并說(shuō)明其權威性以及在我國的接受情況和使用情況。
涉及定位標準切面的,應明確針對實(shí)時(shí)掃查、存儲的圖像序列還是后處理重建圖像,輸出是否可為重建切面(即掃查自然生成切面之外的切面)。處理實(shí)時(shí)超聲掃查的,明確掃查的幀率和圖像穩定性要求,明確掃查過(guò)快圖像不穩定時(shí),功能如何處理和顯示。
涉及多普勒頻譜的,應明確取樣窗放置要求(如位置、角度)。
涉及識別生理結構的,應明確可檢出結構的最小、最大尺寸;是否需要先定位切面再識別結構,還是在掃查中直接識別結構;是否需要從不同角度切面觀(guān)察同一結構,關(guān)注點(diǎn)有何差異。
涉及測量的,應明確測量的規則,宜展示各參數測量的起止點(diǎn)或區域,并可由醫生調整。
明確算法輸出的展示形式。以圖像區域增強形式展示的,明確圖像增強的方式,給出典型影像表現圖像增強前后的圖片。以提示框、分割區域勾畫(huà)展示的,給出典型影像表現的圖片,明確框畫(huà)的規則,明確一幀中出現多個(gè)同樣結構時(shí)分立或融合的規則。以成像區域外示意圖或體標展示的,明確是否有提示醫生注意或確認醫生已注意到的方式,如閃爍、抖動(dòng)、發(fā)聲、點(diǎn)擊確認等,明確是否僅在當前幀檢出目標切面、結構時(shí)顯示,還是出現后會(huì )延時(shí)顯示,是否會(huì )自動(dòng)記錄檢出目標的幀等。若有AI算法輸出但并不進(jìn)行展示的應進(jìn)行說(shuō)明,如作為默認項或作為中間結果參與后續處理再展示的。
涉及多個(gè)功能或算法串聯(lián)的,明確各功能或算法啟動(dòng)、展示結果和退出的條件,例如滿(mǎn)足條件后自動(dòng)啟動(dòng),或需點(diǎn)擊按鈕等啟動(dòng)后續功能。明確AI分析功能的激活時(shí)段,如僅在所選幀激活,在采集一段圖像序列時(shí)激活,在患者一次檢查的全程激活。
圖像質(zhì)量問(wèn)題,如由于機器故障、掃查參數設置不合適、耦合不佳等原因造成圖像模糊、過(guò)明過(guò)暗、結構失真、偽影等,以及存在治療痕跡、測量/注釋標記等圖像問(wèn)題,明確算法是否對存在上述情況的圖像進(jìn)行AI計算并給出結果。是否有圖像質(zhì)控模塊,還是由醫生評價(jià)圖像質(zhì)量以決定是否啟動(dòng)核心功能的AI算法。對于在圖像質(zhì)量不佳時(shí)仍運行AI算法的,宜有相關(guān)提示,并對結果可靠性可能降低給出提示。
明確在同一幀中切面或結構無(wú)法完整顯示時(shí)如何處理,如不進(jìn)行AI計算,或結合相鄰幀,或無(wú)需出現完整目標也可識別。由于聲窗和患者身材的限制,有時(shí)難以找到包括所有特征的完整切面,但由于超聲檢查的實(shí)時(shí),小范圍移動(dòng)探頭即可覆蓋整個(gè)關(guān)注區域,檢查到所有結構。如果功能設計為必須先找到完整切面,再啟動(dòng)找結構的算法,上述情況會(huì )導致功能無(wú)法正常運行,但只要考慮前后幀這一問(wèn)題即可解決。
3.1.2算法描述
按照《人工智能醫療器械注冊審查指導原則》明確每個(gè)核心AI算法的名稱(chēng)、類(lèi)型、結構、輸入輸出、流程圖、算法框架、運行環(huán)境等基本信息以及算法選用依據。
算法的輸入應考慮但不限于機型、探頭、成像參數、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預期應用場(chǎng)景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結構異常等。對于不同功能/算法,可能無(wú)需考慮上述所有方面,但應給出合理分析。機型考慮波束形成器、發(fā)射/接收通道數、成像算法等。探頭考慮陣元數、頻率、孔徑、曲率半徑、寬度、成像范圍等。成像參數考慮頻率、增益、深度、動(dòng)態(tài)范圍、焦點(diǎn)、幀頻、諧波成像、多波束成像等。檢查方式考慮體表、術(shù)中、腔內、超聲內窺鏡等。流行病學(xué)分布對不同功能可能差異很大,需要深入分析以保證算法設計滿(mǎn)足臨床實(shí)際,如某些生理結構、癥狀診斷需考慮性別、年齡、地域、疾病進(jìn)展期等差異。預期應用場(chǎng)景考慮預期使用的醫院級別、科室(如超聲科、急診科、麻醉科、手術(shù)室等),醫生的資質(zhì)、能力等。易混淆圖像,如與預期圖像相似或相關(guān)的圖像,如同一切面或器官上的易混淆圖像,其他器官與之類(lèi)似的圖像。有影響的身體狀態(tài)或疾?。喝绠a(chǎn)科胎齡,肺氣腫對心臟檢查的影響。其他因素已在本文其他部分有所描述。
算法輸入應明確處理單幀還是序列圖像(關(guān)聯(lián)多幀共同輸出結果,不是雖輸入序列但僅處理單幀),對全圖處理還是需要先分割出特定區域,是否包括種子點(diǎn)、采樣窗、患者病歷(如年齡、性別、地域、主訴、病史等)等其他信息。
應結合功能的特點(diǎn),對以上因素進(jìn)行性能影響因素分析,對于處理相應輸入不能得出滿(mǎn)足預期性能要求或未經(jīng)驗證的因素應考慮作為使用限制。
3.2算法風(fēng)險管理
明確產(chǎn)品的軟件安全性級別(輕微、中等、嚴重)并詳述判定理由,提供算法風(fēng)險管理資料。軟件安全性級別可基于產(chǎn)品的預期用途、使用場(chǎng)景、核心功能進(jìn)行綜合判定,其中預期用途主要考慮用途類(lèi)型、重要程度、緊迫程度等因素,使用場(chǎng)景主要考慮使用場(chǎng)合、疾病特征、適用人群、目標用戶(hù)等因素。核心功能主要考慮功能類(lèi)型、核心算法、輸入輸出、接口等因素。對于超聲流程優(yōu)化AI功能,還應考慮所優(yōu)化流程的復雜程度、使用廣泛程度,功能對現有流程的影響程度,算法的成熟度、性能、泛化能力,以及出現錯誤結果是否能夠被醫生識別糾正等。算法研究資料應與算法的軟件安全性級別相適應。
3.3算法需求規范
提供算法需求規范文檔,若無(wú)單獨文檔可提供軟件需求規范,并注明算法需求所在位置。
明確算法訓練數據集需求。樣本量需考慮樣本規模的充分性,明確樣本總量及其確定依據。樣本分布需考慮樣本的科學(xué)性和合理性,應考慮機型、探頭、成像參數、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預期應用場(chǎng)景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結構異常等。認為無(wú)需考慮的因素給出合理理由,應考慮但不計劃考慮的因素應作為使用限制。訓練數據宜納入一定比例的易混淆樣本和陰性樣本,明確是預期圖像掃查中臨近區域易出現的樣本,還是完全無(wú)關(guān)的樣本。
明確各算法性能設計目標。結合算法特點(diǎn)、核心功能選擇合理的評價(jià)指標,給出性能指標的限值要求及其設定依據。同一功能對于不同應用場(chǎng)景具有不同性能要求的,應分別規定。分類(lèi)問(wèn)題可考慮敏感性、特異性、陽(yáng)性預測值、陰性預測值、準確率、一致率(如kappa)、F-measure、ROC-AUC等。多分類(lèi)問(wèn)題不能僅給出總體一致率,應對每一類(lèi)給出敏感性、特異性等指標。多標簽問(wèn)題,應明確標簽排序規則(如適用)。識別問(wèn)題可考慮敏感性、特異性、ROC-AUC等,應明確識別正確的判定標準,如IoU、dice的閾值,并結合臨床給出其合理性。分割問(wèn)題可考慮交并比IoU、dice系數等,并給出識別準確性方面的指標,參考分類(lèi)問(wèn)題。不同算法即使有關(guān)聯(lián)性,也應分別規定,重點(diǎn)關(guān)注最終輸出結果的性能。
3.4數據質(zhì)控
參考《人工智能醫療器械注冊審查指導原則》四(二)數據收集、六(一)4.數據質(zhì)控的要求提供相關(guān)資料。并注意:
3.4.1數據收集
明確采集數據樣本的機型、探頭、成像參數、采集時(shí)長(cháng)(圖像序列適用),以及來(lái)源機構、采集和被采集人員情況、采集時(shí)間,比較與算法訓練數據需求的差異。流程優(yōu)化功能的驗證需要盡可能模擬使用過(guò)程,可能需要采集比AI診斷圖像或序列更長(cháng)的掃查序列,而不僅是訓練核心算法的單幀圖像。若存在這種情況,應在采集過(guò)程中予以說(shuō)明。
3.4.2數據整理
明確經(jīng)數據清洗棄用數據的原因和數量。數據預處理環(huán)節應采用典型圖片/圖像序列和流程圖說(shuō)明處理過(guò)程和每一步處理的結果。原始數據庫的預處理過(guò)程若與產(chǎn)品中算法運行的預處理過(guò)程存在差異,應比較說(shuō)明。
3.4.3數據標注
應列表給出標注、審核、仲裁人員的基本信息,如科室/專(zhuān)業(yè)、職稱(chēng)、工作年限、所在機構、培訓考核情況、標注量,若有外國人員則需明確其資質(zhì)要求。
標注規則應明確所依據的醫學(xué)圖譜、診療指南等的名稱(chēng)和具體內容,并說(shuō)明其權威性以及在我國的接受情況和使用情況。若有存在爭議的,或需要醫生基于經(jīng)驗判斷的,應分析其對標注一致性的影響。預期結構不能完整顯示的,明確滿(mǎn)足什么條件時(shí)進(jìn)行標注,如何標注。
宜采用流程圖介紹單張圖片/單段序列的標注、審核、仲裁過(guò)程。若標注較復雜宜采用典型圖片/序列加流程圖說(shuō)明每一步的標注內容以及特殊情況處理。圖像序列明確逐幀標注,還是自動(dòng)標注方式,若采用自動(dòng)標注應予以詳述。區域分割的標注,多人標注勢必不完全一致,應配合圖片說(shuō)明如何融合多人的標注結果及其影響。簡(jiǎn)述全部圖片標注的管理過(guò)程、時(shí)間周期,特別是標注周期內的質(zhì)量評估。若用于不同功能做標注的數據集與數據量有所區別,應明確具體情況。
3.4.4數據集構建
對于標注前的基礎數據庫,標注后劃分的訓練集、調優(yōu)集、測試集,應給出樣本量和分布情況及其確定依據,以及集合劃分的方法、依據??紤]“患者-結構-切面-圖像/圖像序列”層級(即某一人的某一結構,有不同切面的圖像或圖像序列),三個(gè)數據集原則上應在患者級兩兩無(wú)交,至少到結構級兩兩無(wú)交。若降低無(wú)交集的范圍,應給出合理的理由。提供查重驗證結果,以證實(shí)訓練集、調優(yōu)集、測試集的樣本兩兩無(wú)交集。
樣本分布應考慮機型、探頭、成像參數、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預期應用場(chǎng)景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結構異常等因素。
可按照《人工智能醫療器械注冊審查指導原則》的要求進(jìn)行數據擴增,重點(diǎn)說(shuō)明擴增方法和實(shí)現方式,分析擴增樣本與真實(shí)樣本的相似性,分析對算法的影響。采用生成對抗網(wǎng)絡(luò )(GAN)數據擴增的,提供算法基本信息以及算法選用依據。
用于算法驗證需采集掃查過(guò)程序列圖像的,應參考以上要求另行說(shuō)明序列圖像特點(diǎn)、樣本量、樣本分布。
3.5算法訓練
明確算法訓練所用的評估指標、訓練方式、訓練目標、調優(yōu)方式(若有),說(shuō)明損失函數、主要超參數的確定思路,提供訓練數據量-評估指標曲線(xiàn)等證據以證實(shí)算法訓練的充分性和有效性。若使用遷移學(xué)習,應滿(mǎn)足AI導則的要求。
3.6算法驗證與確認
3.6.1算法性能評估
基于測試集提供設計需求要驗證的算法性能指標、重復性與再現性、魯棒性/健壯性等算法性能評估結果,以證明算法性能滿(mǎn)足設計目標。亦可基于第三方數據庫開(kāi)展算法性能評估??蛇\行于不同的運行環(huán)境的功能,若運行環(huán)境不具有兼容性,應分別進(jìn)行軟件驗證、性能評估和實(shí)時(shí)性驗證。
用于提高效率的功能應開(kāi)展效率提高的定量驗證,建議采用多閱片者多病例(MRMC)研究的方式進(jìn)行驗證。
對實(shí)時(shí)超聲圖像進(jìn)行處理的,準確性可通過(guò)離線(xiàn)方式驗證,實(shí)時(shí)性須通過(guò)在線(xiàn)方式驗證,可提前通過(guò)離線(xiàn)驗證了解處理單一樣本的時(shí)間,再通過(guò)在線(xiàn)實(shí)時(shí)驗證確認軟件集成后可以達到預期效率并保證超聲采集和診斷流程的穩定性可滿(mǎn)足正常使用。
分類(lèi)問(wèn)題和多標簽問(wèn)題,若可識別的種類(lèi)較多,應給出完整的混淆矩陣,對在表格對應的行列給出每類(lèi)的敏感性、特異性、陽(yáng)性預測值、陰性預測值、準確性、一致率,分析各類(lèi)出現假陽(yáng)性、假陰性的情況(如集中在某一特定類(lèi)型則說(shuō)明該類(lèi)是目標類(lèi)的易混淆類(lèi)),制定相關(guān)注意事項。
若在訓練過(guò)程中使用數據擴增,應在調優(yōu)集上比較使用與不使用數據擴增對算法性能的影響。
算法輸出展示形式的臨床使用效果驗證。以圖像增強、提示框、分割區域勾畫(huà)形式展示的,應評價(jià)是否影響正常的超聲診斷,如圖像畫(huà)質(zhì)的改變,標記對超聲圖像的遮擋、干擾等。以圖像區域外給出示意圖或體標展示的,應評價(jià)是否可確保已引起醫生注意。
3.6.2算法性能影響因素評估
應進(jìn)行算法性能影響因素分析以提升算法可解釋性,詳述影響算法性能的主要因素及其影響程度,基于分析結果明確產(chǎn)品使用限制和必要警示提示信息。
性能影響因素應考慮機型、探頭、成像參數、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學(xué)分布、預期應用場(chǎng)景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結構異常等。認為無(wú)需考慮的因素給出合理理由,應考慮但不計劃考慮的因素應作為使用限制。
對于某一影響因素,可建立多個(gè)包含單一因素的子集和一個(gè)包含所有子集的合集(必要時(shí))分別進(jìn)行性能測試,統計分析各集合性能差異,評價(jià)影響程度。對于預期對性能有顯著(zhù)影響且存在相互關(guān)聯(lián)的不同影響因素,也可建立包含多因素的子集進(jìn)行分析。各集合應保證具有足夠的樣本量,性能評估結果應給出中心值和95%置信區間。各子集宜以產(chǎn)品研發(fā)時(shí)標注數據庫中的測試集為主,當某一待評價(jià)因素的樣本量較少或沒(méi)有時(shí),可補充其他數據集的樣本,如臨床試驗、真實(shí)世界數據、第三方測試等的樣本,但合并在一個(gè)子集的數據其標注規則應基本一致。簡(jiǎn)述各子集的構建情況,如數據來(lái)源、標注過(guò)程、標準規則、樣本分布等。
3.6.3算法性能綜合評價(jià)
結合算法訓練、算法性能評估、臨床評價(jià)等結果開(kāi)展算法性能綜合評價(jià),針對訓練樣本量和測試樣本量過(guò)少、測試結果明顯低于算法設計目標、算法性能變異度過(guò)大等情況,對產(chǎn)品的適用范圍、使用場(chǎng)景、核心功能進(jìn)行必要限制。
4.用戶(hù)培訓
對于軟件安全性級別為嚴重級別、在基層醫療機構使用的產(chǎn)品,原則上需單獨提供一份用戶(hù)培訓方案,包括用戶(hù)培訓的計劃、材料、方式、師資等。由于超聲流程優(yōu)化AI功能的使用者一般具備按照常規流程進(jìn)行超聲診斷的能力,因此培訓重點(diǎn)宜放在A(yíng)I功能與常規功能流程和操作的差異上,以及功能的使用限制和注意事項,如無(wú)法正常運行算法或算法性能下降的情形。
培訓考核應納入適當的醫生數量和測試樣本數量,被考核醫生應與功能的預期使用者在培訓前具有等同能力,以驗證培訓方案的可行性。
(三)說(shuō)明書(shū)注意事項
根據算法性能綜合評價(jià)結果,對產(chǎn)品的適用范圍、使用場(chǎng)景、核心功能進(jìn)行必要限制,并在說(shuō)明書(shū)中明確產(chǎn)品使用限制和必要警示提示信息。必要時(shí),可給出數據采集設備和數據采集過(guò)程相關(guān)要求,算法訓練驗證情況的總結。
標簽:影像超聲人工智能軟件注冊