病理圖像人工智能分析軟件性能評價(jià)審評要點(diǎn)(2023年第23號)旨在指導醫療器械注冊申請人對病理圖像人工智能分析軟件注冊申報資料中非臨床評價(jià)部分的準備及撰寫(xiě),同時(shí)也為技術(shù)審評部門(mén)提供參考。本要點(diǎn)是對病理圖像人工智能分析軟件申報資料的一般要求,申請人需依據產(chǎn)品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由及相應的科學(xué)依據,并依據產(chǎn)品的具體特性對醫療器械注冊申報資料的內容進(jìn)行充實(shí)和細化。
病理圖像人工智能分析軟件性能評價(jià)審評要點(diǎn)
本要點(diǎn)旨在指導醫療器械注冊申請人對病理圖像人工智能分析軟件注冊申報資料中非臨床評價(jià)部分的準備及撰寫(xiě),同時(shí)也為技術(shù)審評部門(mén)提供參考。
本要點(diǎn)是對病理圖像人工智能分析軟件申報資料的一般要求,申請人需依據產(chǎn)品的具體特性確定其中內容是否適用。若不適用,需具體闡述理由及相應的科學(xué)依據,并依據產(chǎn)品的具體特性對醫療器械注冊申報資料的內容進(jìn)行充實(shí)和細化。
本要點(diǎn)是供注冊申請人和技術(shù)審評人員使用的指導性文件,但不包括審評審批所涉及的行政事項,亦不作為法規強制執行,需在遵循相關(guān)法規的前提下使用本指導原則。如果有能夠滿(mǎn)足相關(guān)法規要求的其他方法,也可以采用,但是需要提供詳細的研究資料和驗證資料。
本要點(diǎn)是在現行法規和標準體系以及當前認知水平下制定的,隨著(zhù)法規和標準的不斷完善,以及科學(xué)技術(shù)的不斷發(fā)展,本要點(diǎn)的相關(guān)內容也將進(jìn)行適時(shí)的調整。
一、適用范圍
病理圖像人工智能分析軟件是指基于數字病理圖像,采用深度學(xué)習等人工智能技術(shù)實(shí)現對病理圖像的分割、檢測等功能的醫療器械。數字病理圖像包括經(jīng)數據成像設備獲得的顯微鏡下細胞或組織圖像、全玻片數字掃描技術(shù)(Whole Slide Imaging, WSI)的病理圖像等。產(chǎn)品在醫療機構和/或醫學(xué)實(shí)驗室使用,可輔助病理醫師為疾病的診斷、預后、治療等提供信息,不能作為臨床診斷決策的唯一依據。
根據《人工智能醫用軟件產(chǎn)品分類(lèi)界定指導原則》,本文所述軟件用于輔助決策,可為病理醫生提供病灶特征識別、病變性質(zhì)等信息,按第三類(lèi)醫療器械管理。
分類(lèi)編碼:21-04-02。
產(chǎn)品名稱(chēng):建議依據軟件醫療用途進(jìn)行產(chǎn)品名稱(chēng)命名,體現處理對象和臨床用途,如宮頸細胞學(xué)數字病理圖像計算機輔助分析軟件、免疫組化病理圖像計算機輔助診斷軟件。申請人可結合申報產(chǎn)品的特征,根據《醫用軟件通用名稱(chēng)命名指導原則》,參考《醫療器械分類(lèi)目錄》中的品名舉例確定命名。
若作為軟件組件集成于其他醫療器械(如病理切片掃描儀、醫學(xué)顯微圖像掃描分析產(chǎn)品)中,可以參考本要點(diǎn)的要求。
本要點(diǎn)基于《人工智能醫療器械注冊審查指導原則》的基本框架要求,其中關(guān)于人工智能醫療器械的的術(shù)語(yǔ)定義、相關(guān)要求參照上述指導原則。

二、產(chǎn)品簡(jiǎn)介
產(chǎn)品的工作原理:產(chǎn)品為獨立軟件,采用深度學(xué)習技術(shù)對數字病理圖像進(jìn)行前處理(如圖像質(zhì)量改善)和常規后處理(如圖像分割、細胞/組織定位、細胞分類(lèi)等),實(shí)現對數字病理圖像中疑似異常細胞的計數和定位識別功能或異常組織區域的定位和標記功能;通過(guò)算法對細胞/組織圖像塊的分類(lèi)結果進(jìn)行分析,實(shí)現對病理圖像的輔助診斷功能。
主要結構及組成:結構組成明確交付內容和功能模塊,其中交付內容包括軟件安裝程序、授權文件、外部軟件環(huán)境安裝程序等軟件程序文件,功能模塊包括客戶(hù)端、服務(wù)器端(若適用)等,若適用注明選裝、模塊版本。
服務(wù)器端:負責接收并處理請求,對請求進(jìn)行數據處理,調用人工智能算法(此處應體現核心算法名稱(chēng),如AlexNet,ResNet,MobileNet,EfficientNet,ResNeXt等)對圖像數據進(jìn)行處理并輸出分析結果。把用戶(hù)請求的數據結果返回客戶(hù)端。
客戶(hù)端:將服務(wù)器端分析結果呈現到用戶(hù)界面。用戶(hù)可在用戶(hù)界面進(jìn)行輔助診斷/閱片、任務(wù)管理、報告管理、檢索查詢(xún)、用戶(hù)管理、查看日志等功能操作。
三、基本要求
(一)綜述資料
詳細描述該產(chǎn)品的圖像前處理和后處理功能及功能實(shí)現方法,描述配套使用圖像采集設備、切片制作流程(包括配套試劑、設備)和圖像質(zhì)量的要求,簡(jiǎn)述軟件采用的主要算法。
簡(jiǎn)述軟件研發(fā)背景,包括對可輔助診斷疾病的介紹,目前相關(guān)疾病臨床診斷參考標準、病理診斷類(lèi)型或細胞異常類(lèi)型等依據。申報產(chǎn)品的病理閱片標準和病理分型依據應與臨床標準一致。
(二)非臨床資料
1.產(chǎn)品技術(shù)要求及檢驗報告
產(chǎn)品技術(shù)要求可參考《醫療器械軟件注冊審查指導原則》(2022年修訂版)附錄中的模板進(jìn)行編寫(xiě),此外性能指標還應包括“臨床功能”,如圖像處理、圖像分析、細胞/組織識別、病理圖像診斷提示等內容。
2.軟件研究資料
按照《醫療器械軟件注冊審查指導原則》(2022年修訂版)、《醫療器械網(wǎng)絡(luò )安全注冊審查指導原則》(2022年修訂版)、《人工智能醫療器械注冊審查指導原則》的要求,提交研究資料。明確軟件發(fā)布版本號。提交的研究資料主要包含軟件研究資料、算法研究資料、網(wǎng)絡(luò )安全研究資料。研究資料內容應涵蓋申報產(chǎn)品適用范圍中描述的全部?jì)热荨?/p>
2.1風(fēng)險管理
參考YY/T 0316、YY/T 1406.1和YY/T 0664、GB/T 42062進(jìn)行產(chǎn)品的風(fēng)險管理活動(dòng)。風(fēng)險管理活動(dòng)應當基于軟件的預期用途、使用場(chǎng)景、核心功能予以實(shí)施,并貫穿軟件全生命周期過(guò)程。此類(lèi)產(chǎn)品臨床使用中的風(fēng)險主要包括圖像分析過(guò)程中的識別、標記錯誤,非病理醫師使用和樣本采集錯誤等,造成的假陰性和假陽(yáng)性錯誤。算法風(fēng)險主要包括過(guò)擬合和欠擬合,數據擴增和數據偏移等。
2.2需求規范
提供軟件需求規范文檔,明確軟件的功能、性能、接口、用戶(hù)界面、運行環(huán)境、網(wǎng)絡(luò )安全、數據采集等需求,另附軟件開(kāi)發(fā)所形成的原始文檔。
數據采集需考慮數據來(lái)源的合規性、充分性和多樣性,數據分布的科學(xué)性和合理性,數據質(zhì)控的充分性、有效性和準確性。數據應來(lái)源于不同地域的不少于3家機構。機構應采用軟件說(shuō)明書(shū)明確的切片制作流程、組織染色和免疫組織化學(xué)技術(shù)制備的切片(包含指定的樣本來(lái)源,即指定的切片制備流程和/或樣本保存液、抗體試劑、染色液等)和配套的圖像采集設備獲得的符合要求的數字病理圖片。數據分布的科學(xué)性和合理性,應考慮包括但不限于疾病構成(如分型、分級、分期)、人群分布(如高危人群、患者,性別、年齡)等情況。
算法性能需結合產(chǎn)品預期用途,綜合考慮分析速度、敏感性、特異性、重復性與再現性、泛化性等性能指標的適用性及其要求。同時(shí)還需考慮因梯度消失、梯度爆炸、過(guò)擬合和欠擬合等影響算法性能的因素。
使用限制需考慮產(chǎn)品禁用、慎用等場(chǎng)景,準確表述產(chǎn)品使用場(chǎng)景,提供必要警示提示信息。
2.3軟件性能研究
提供產(chǎn)品性能研究資料以及產(chǎn)品技術(shù)要求的研究和編制說(shuō)明,給出軟件相關(guān)的功能性、安全性指標的確定依據。注冊申請人需在軟件研究資料中提交GB/T 25000.51自測報告,亦可提交自檢報告或檢驗報告代替自測報告。產(chǎn)品技術(shù)要求中各指標依據產(chǎn)品自身特點(diǎn)確定。
2.4算法研究資料
根據《人工智能醫療器械注冊審查指導原則》提交算法研究資料。提交每個(gè)人工智能算法或算法組合的算法研究報告。
2.4.1算法基本信息
明確算法的名稱(chēng)、類(lèi)型、結構、輸入輸出、流程圖、算法框架、運行環(huán)境等基本信息以及算法選用依據。
其中,算法類(lèi)型從學(xué)習策略、學(xué)習方法(基于模型的算法和基于數據的算法)、可解釋性(白盒算法和黑盒算法)等角度明確算法特性。算法結構部分應明確算法的層數、參數規模等超參數信息。流程圖應包含輸入圖像示例、學(xué)習方法示意圖和輸出圖像示例。算法框架應明確所用人工智能算法框架的基本信息,包括名稱(chēng)、類(lèi)型(自研算法框架、現成算法框架)、型號規格、完整版本、制造商等信息。若基于云計算平臺,應明確云計算的名稱(chēng)、服務(wù)模式、部署模式、配置以及云服務(wù)商的名稱(chēng)、住所、服務(wù)資質(zhì)。運行環(huán)境應明確算法正常運行所需的典型運行環(huán)境,包括硬件配置、外部軟件環(huán)境、網(wǎng)絡(luò )條件;若使用人工智能芯片應明確其名稱(chēng)、型號規格、制造商、性能指標等信息。算法選用依據詳述算法或算法組合選用的理由和基本原則。
2.4.2算法風(fēng)險管理
結合預期用途、使用場(chǎng)景、核心功能、算法成熟度、網(wǎng)絡(luò )安全等因素,此類(lèi)產(chǎn)品的軟件安全性級別為嚴重級別。提供算法風(fēng)險管理資料,若無(wú)單獨文檔可提供軟件風(fēng)險管理資料,并注明算法風(fēng)險管理所在位置。
2.4.3算法需求規范
提供算法需求規范文檔,若無(wú)單獨文檔可提供軟件需求規范,并注明算法需求所在位置。
2.4.4數據收集
2.4.4.1提供數據來(lái)源合規性聲明,列明數據來(lái)源機構的名稱(chēng)、所在地域、數據收集量、倫理批件(或科研合作協(xié)議)編號等信息。
2.4.4.2數據采集
建議參考2.2需求規范的要求,提供數據采集操作規范文檔,包括數據采集方案和數據采集標準操作規程。
數據采集主要由臨床機構實(shí)施,應明確病理切片或細胞涂片的制作流程、圖像采集方式(如眀場(chǎng)掃描)和采集參數要求(包含掃描倍率、掃描層數、焦點(diǎn)數量要求、聚焦方式、采樣閾值等)、采集設備要求(應包含掃描儀的型號、分辨率、圖像尺寸等)、病理切片或細胞涂片要求、樣本的來(lái)源與分布、樣本質(zhì)量要求(包含切片或涂片的保存時(shí)限、玻片完整性等)、圖像質(zhì)量要求(應包含圖象區域、清晰度等要求)、采集過(guò)程、數據脫敏、數據轉移等要求。采集過(guò)程應對樣本數據進(jìn)行編號并加密,方案中應包含編號規則。
2.4.4.3數據整理
明確數據清洗/預處理程序,對數據處理中應用的軟件進(jìn)行簡(jiǎn)述,并以附件的形式提交數據處理中各軟件的軟件研究資料。
2.4.4.4數據標注
明確標注人員和仲裁人員的資質(zhì)要求和培訓內容,標注人員和仲裁人員應為病理醫師,數據應經(jīng)過(guò)不少于2人標注。簡(jiǎn)述標記系統信息,配合病理圖像和標注系統界面截圖,介紹標注過(guò)程、標注對象和標注標準(注意與病理診斷標準的一致性)等。明確標注過(guò)程質(zhì)控、標注質(zhì)量評估、數據安全保證等要求。標注質(zhì)量評估可抽選一定比例數據進(jìn)行非標注人員的評估。
提供原始數據庫、基礎數據庫、標注數據庫、擴增數據庫(如有),關(guān)于疾病構成的數據分布情況,包括適用人群、數據來(lái)源機構、采集設備、樣本類(lèi)型等因素。
若數據來(lái)自公開(kāi)數據庫,提供公開(kāi)數據庫的基本信息(如名稱(chēng)、創(chuàng )建者、數據總量等)和使用情況(如數據使用量、數據質(zhì)量評估、數據分布等)。
2.4.4.5數據集構建
明確各數據集劃分的方法及依據。訓練集應當保證樣本分布具有均衡性,訓練樣本應涵蓋不同病理類(lèi)型。調優(yōu)集應保證樣本分布符合臨床實(shí)際情況,如陽(yáng)性比例,不同病理類(lèi)型比例、不同臨床分型比例等均應符合臨床實(shí)際情況。訓練集、調優(yōu)集、測試集的樣本應兩兩無(wú)交集并通過(guò)查重予以驗證。
進(jìn)行數據擴增驗證時(shí),應當明確擴增的方式、方法、倍數,并考慮數據擴增對軟件的影響及風(fēng)險。列表比較擴增數據庫與標注數據庫的差異,論證擴增數據庫樣本量的充分性以及分布的合理性。
2.4.5算法訓練
依據適用人群、數據來(lái)源機構、采集設備、樣本類(lèi)型等因素,提供訓練集、調優(yōu)集(若有)關(guān)于疾病構成的數據分布情況。
算法訓練基于訓練集、調優(yōu)集進(jìn)行訓練和調優(yōu),應明確算法訓練所用的評估指標、訓練方式、訓練目標、調優(yōu)方法,提供ROC曲線(xiàn)或混淆矩陣等證據(如:迭代次數-訓練CountIOU曲線(xiàn)和迭代冊數-召回率曲線(xiàn))證明訓練目標滿(mǎn)足醫療要求,提供訓練數據量-評估指標曲線(xiàn)(如迭代次數-Loss曲線(xiàn))等證據以證實(shí)算法訓練的充分性和有效性。
2.4.6算法性能評估
基于測試集對算法設計進(jìn)行評估,確認軟件算法性能的效率、敏感性、特異性,性能應滿(mǎn)足算法設計要求。
算法性能評估應包括軟件對樣本滿(mǎn)意度評價(jià)的能力測試、泛化能力的測試、壓力測試(指采用罕見(jiàn)或特殊的真實(shí)數據樣本開(kāi)展的算法性能測試)、對抗測試、重復性與再現性測試、敏感性與特異性測試、分析效率測試、算法性能影響因素分析、性能評估結果比較分析、偏差報告等研究。
通過(guò)樣本量估算確定測試集中陰、陽(yáng)性樣本和壓力樣本的樣本量,提供測試集關(guān)于疾病構成(包括年齡和病理類(lèi)型、異常細胞類(lèi)型等)、數據來(lái)源的數據分布情況。明確對抗樣本的選擇原則;明確性能評估的可接受標準和標準制定依據。提交測試報告和細胞/組織形態(tài)圖示例。
若使用第三方數據庫開(kāi)展算法性能評估,提供第三方數據庫的基本信息(如名稱(chēng)、創(chuàng )建者、數據總量等)和使用情況(如測試數據樣本量、評估指標、評估結果等)。提交第三方數據庫數據樣本來(lái)源和本計算機輔助分析軟件產(chǎn)品的產(chǎn)品技術(shù)要求、說(shuō)明書(shū)中指定的制片流程和圖像采集設備的一致性的評價(jià)(包含指定的樣本來(lái)源,即指定的切片制備流程和/或樣本保存液、抗體試劑、染色液等)和配套的圖像采集設備獲得的符合要求的數字病理圖片。
根據研究結論,確定軟件使用限制并在說(shuō)明書(shū)中進(jìn)行描述。
2.4.7算法可追溯性分析
提供算法可追溯性分析報告,即追溯算法需求、算法設計、源代碼(明確軟件單元名稱(chēng)即可)、算法測試、算法風(fēng)險管理的關(guān)系表。
(三)產(chǎn)品說(shuō)明書(shū)和標簽樣稿
明確該產(chǎn)品適用范圍,明確產(chǎn)品適用的顯微鏡和圖像采集設備的名稱(chēng)和型號,明確圖像參數及質(zhì)量。明確病理切片或細胞涂片的制備流程及試劑廠(chǎng)家信息。明確軟件報告內容。對產(chǎn)品帶來(lái)的假陽(yáng)/假陰性風(fēng)險進(jìn)行提示。
根據算法影響因素分析報告,在說(shuō)明書(shū)明確產(chǎn)品使用限制和必要的警示提示信息。列明算法訓練總結和算法性能評估總結以及臨床評價(jià)總結。