TW202309917A

TW202309917A - 資料分析系統及資料分析方法

Info

Publication number: TW202309917A
Application number: TW110131023A
Authority: TW
Inventors: 廖柏嘉; 林漪寒; 吳明倫; 胡文芯
Original assignee: 緯創資通股份有限公司
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-03-01
Also published as: TWI825467B; CN115713992A; US20230059693A1

Abstract

一種資料分析方法可以針對病歷內文進行優化，並將優化後的病歷報告輸入一應用模型，使得應用模型能夠將病歷報告與診斷碼間連結，輸出精準的推薦診斷碼。診斷碼的查找工作有了應用模型輔助後，藉此進一步提高了醫療的整體品質。

Description

資料分析系統及資料分析方法

本發明實施例是關於一種資料分析系統及資料分析方法，特別是關於一種應用於將優化資料及資料視覺化的資料分析系統及資料分析方法。

疾病分類是將罹患之疾病體或疾病群，依既定的準則加以分門別類的一套分類系統。而國際疾病分類的目的在於讓不同國家、不同地區、在不同時間所蒐集的罹病或死亡資料做有系統的記錄、分析、解讀與比較。

現行國際疾病統計分類(International Classification of Disease, ICD)是用來將疾病及其他健康問題的診斷從文字轉譯成英文字母與數字混合配置譯碼或代碼(alphanumeric code)，以便於資料的存取與分析。前三碼為核心分類代碼，是世界衛生組織(WHO) 死因資料庫的國際通報及國際間一般性比較必要的分類項譯碼；後四碼為細部的分類項目。自1989年WHO通過第10版ICD (簡稱ICD-10)，各國皆陸續上線使用。

然而，ICD-9至ICD-10疾病代碼結構及特性改變，疾病診斷編碼完全不同，複雜度及精細程度大幅提升，故而數量上也從原本13000筆改版至68000筆，醫師及臨床人員需要重新學習及適應，也對繁雜的臨床工作更增添行政上的不便。醫師肩負臨床、教學、行政及研究作業，但因應符合國家衛生政策或健保申請給付規範，撰寫病歷佔用醫師大量時間，壓縮照護病人時間。

因此如何使用自動優化醫生撰寫的病歷資料，並將優化後的資料以較佳的視覺化方式呈現，已成為本領域需解決的問題之一。

本揭露內容之一態樣提供了一種資料分析系統包含一電子裝置以及一伺服器。電子裝置用以顯示一使用者介面，該使用者介面包含複數個醫療資訊欄位，並透過一第一傳輸介面傳送至少一部份的該些醫療資訊欄位的內容。伺服器用以透過一第二傳輸介面接收該至少一部份的該些醫療資訊欄位的內容，透過一處理器依據該至少一部份的該些醫療資訊欄位內容產生一優化報告。其中，該處理器將該優化報告輸入一應用模型，該應用模型輸出對應該優化報告的複數個診斷碼，該處理器依據優化報告中的複數個詞彙各自對應的複數個權重產生一熱圖(heatmap)，該處理器透過該使用者介面顯示該熱圖。

本揭露內容之一態樣提供了一種資料分析方法，包含：顯示一使用者介面，該使用者介面包含複數個醫療資訊欄位；傳送至少一部份的該些醫療資訊欄位的內容；接收該至少一部份的該些醫療資訊欄位的內容，透過一處理器依據該至少一部份的該些醫療資訊欄位的內容產生一優化報告；藉由該處理器將該優化報告輸入一應用模型，該應用模型輸出對應該優化報告的複數個診斷碼；藉由該處理器依據該優化報告中的複數個詞彙各自對應的複數個權重產生一熱圖(heatmap)；以及藉由該處理器透過該使用者介面顯示該熱圖。

綜上，資料分析系統及資料分析方法可以提供醫師在撰寫病歷時能夠有縮寫還原及錯別字修正建議的輔助，以優化的病歷報告，優化後的病歷報告輸入一應用模型，使得應用模型能夠將病歷報告與診斷碼間連結，輸出精準的推薦診斷碼。診斷碼的查找工作有了應用模型輔助後，醫療人員可以花更多心思研究病歷，包括病人做的檢查、症狀是否全反應在診斷上，是否有缺失資料，且在不違反醫療原則下，如何依據對應候選診斷碼各自對應的費用資料，以提高健保給付，進一步提高了醫療的整體品質。

以下說明係為完成發明的較佳實現方式，其目的在於描述本發明的基本精神，但並不用以限定本發明。實際的發明內容必須參考之後的申請專利範圍。

必須了解的是，使用於本說明書中的”包含”、”包括”等詞，係用以表示存在特定的技術特徵、數值、方法步驟、作業處理、元件以及/或組件，但並不排除可加上更多的技術特徵、數值、方法步驟、作業處理、元件、組件，或以上的任意組合。

於申請專利中使用如”第一”、"第二"、"第三"等詞係用來修飾申請專利中的元件，並非用來表示之間具有優先權順序，先行關係，或者是一個元件先於另一個元件，或者是執行方法步驟時的時間先後順序，僅用來區別具有相同名字的元件。

請參閱第1圖，第1圖係依照本發明實施例繪示一種資料分析系統100之方塊圖。資料分析系統100之包含一電子裝置10及一伺服器20。於一實施例中，電子裝置10中包含一傳輸介面11、一處理器12、一顯示器13及一儲存裝置14。於一實施例中，伺服器20中包含一傳輸介面15、一處理器16及一儲存裝置17。於一實施例中，電子裝置10透過有線或無線方式與伺服器20建立通訊連接LK。

於一實施例中，伺服器20中的處理器16存取並執行儲存裝置17中儲存之程式，以實現一應用模型18。於一實施例中，應用模型18由軟體或韌體實現之。於一實施例中，應用模型18由硬體電路實現之，舉例而言，應用模型18可藉由主動元件(例如開關、電晶體)、被動元件(例如電阻、電容、電感)所構成，其硬體電路耦接於處理器16。於一實施例中，處理器16用以存取應用模型18的運算結果，於一例子中，處理器16將運算結果進行進一步的運算後，可以再將進一步的運算結果存回儲存裝置17。

於一實施例中，儲存裝置14、儲存裝置17各自可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體。

於一實施例中，處理器12、處理器16可由體積電路如微控制單元(micro controller)、微處理器(microprocessor)、數位訊號處理器(Digital Signal Processor，DSP )、現場可程式化邏輯閘陣列(Field Programmable Gate Array，FPGA)、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)或一邏輯電路來實施。

於一實施例中，傳輸介面11、15可以是Wi-Fi裝置、藍芽裝置、無線網路介面卡或其他用以傳輸資料的裝置。

請參閱第2圖，第2圖係依照本發明實施例繪示一種資料分析方法200之流程圖。資料分析方法200可以由第1圖的元件實現之。

於步驟210中，電子裝置10用以顯示一使用者介面，使用者介面包含複數個醫療資訊欄位。

請參閱第3圖，第3圖係依照本發明實施例繪示一種使用者介面之示意圖。於一實施例中，電子裝置10可以是手機、平板、筆電、桌電，電子裝置10一般放置於醫院內，電子裝置10中可以搭載或通訊連結醫院信息系統(Hospital Information System，HIS)，醫院信息系統是指利用現代電腦軟技術與網路通信技術，用以實現對醫院的人流、物流、財流進行綜合管理，使用者介面可以是醫院信息系統中的其中一頁面，使用者介面用以讓醫護人員輸入病歷相關資訊。

於一實施例中，電子裝置10的顯示器13上顯示的使用者介面中包含多個醫療資訊欄位，此些醫療資訊欄位例如為包含一病人主訴(subjective)欄位S、一診察觀察(objective)欄位O、一診斷評估(assessment)欄位A及一處置治療(Plan)欄位P，各欄位分別包含病人主訴內容、診察觀察內容、診斷評估內容、處置治療內容。於另一實施例中，電子裝置10的顯示器13上顯示病人的病歷資料，病人主訴內容、診察觀察內容、診斷評估內容、處置治療內容組合或分散地呈現於病人的病歷資料中，本發明實施例不限制各欄位及其欄位對應的內容呈現的形式。

其中，病人主訴欄位S的內容為病人自覺症狀。病人自覺症狀包含病人主訴、症狀、發病時間、現在病史、過去病史及個人史，例如記載病人所述：從昨天下午開始右下腹痛，晚上開始發燒到攝氏38.5度，過去沒有發生過這種情況，也沒有慢性疾病。

其中，診察觀察欄位O的內容為醫生檢查發現，包含診察發現及各種檢查報告，例如記載醫生觀察到：病人有肚臍附近的疼痛、嘔吐、右下腹部按壓痛、白血球增多等現象。

其中，診斷評估欄位A的內容為診斷評估，即診斷(Diagnosis)或臆斷(Impression)。例如記載：病人可能罹患闌尾炎。

其中，處置治療欄位P的內容為治療計劃，包含各種處置或處方，例如切除闌尾。此外，多個醫療資訊欄位進一步分為關聯於門診模型的醫療資訊欄位及關聯於住院模型的醫療資訊欄位，其中，住院模型的醫療資訊欄位內容包含病人半年內的其餘文字報告(會診、病理、手術、檢查)，門診模型的醫療資訊欄位包含病人主訴欄位S、診察觀察欄位O、診斷評估欄位A及處置治療欄位P至少其中之一。電子裝置10填寫或代入當前病人相關的醫療資訊欄位的內容。

於步驟220中，電子裝置10傳送至少一部份的醫療資訊欄位的內容。

於一實施例中，電子裝置10透過傳輸介面11傳送的醫療資訊欄位內容包含一病人主訴欄位內容(例如病人主訴欄位S的內容)、一診察觀察欄位內容(例如診察觀察位O的內容)及一診斷評估欄位內容(例如診斷評估欄位A的內容)。

於步驟230中，伺服器20的傳輸介面15接收至少一部份的醫療資訊欄位的內容，透過一處理器16依據至少一部份的醫療資訊欄位的內容產生一優化報告。

於一實施例中，伺服器20透過傳輸介面15接收的醫療資訊欄位內容包含病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容。

於一實施例中，伺服器20透過處理器16依據至少一部份的多個醫療資訊欄位內容進行一內容優化，以產生優化報告。

於一實施例中，伺服器20的處理器16將病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容進行內容優化。

於一實施例中，內容優化包含透過一縮寫還原應用程式介面(Application Programming Interface，API)，將至少一部份的多個醫療資訊欄位內容中的縮寫改成全名；其中，至少一部份的多個醫療資訊欄位內容透過一錯字修正建議應用程式介面，將錯字自動改成正確文字或接收校正錯字的一校正文字，以產生優化報告。

於一實施例中，內容優化包含將該病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容各自透過一縮寫還原應用程式介面，將病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容中的縮寫改成全名。

於一實施例中，病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容各自透過一錯字修正建議應用程式介面，將錯字自動改成正確文字或接收校正錯字的一校正文字，以產生該優化報告。

例如，伺服器20傳送包含病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容的文本給電子裝置10，此文本中針對不確定的字詞(例如錯字、縮寫還原)提供一些候選字詞，供醫生選擇，待醫生確認文本的內容完整無誤後，電子裝置10再將文本回傳伺服器20，此時的文本為優化報告。

由於每位醫師針對病歷會有自己不同的撰寫風格，醫師時常在病歷當中以疾病縮寫的方式記錄，然而，每個科別或每位醫師的縮寫習慣不同、歧異性很大，同時，醫師面對繁忙的臨床工作，能夠編寫醫囑的時間有限，往往會在病歷的文字內容中發現一些錯別字，如果希望根據醫師寫的醫囑內容，透過應用模型18輸出對應的第十版國際疾病統計分類(International Classification of Disease，ICD)，後稱ICD-10代碼，進而降低醫院疾病分類師的工作負擔，文字病歷的內容品質是相當重要的。

因此透過步驟230，協助醫師在撰寫病歷時能夠有縮寫還原及錯別字修正建議輔助，方能讓醫師在有限的時間內產出高品質內容的優化後的病歷報告(即優化報告)，避免被退件重新修改撰寫，同時高品質的病歷使應用模型18的準確率亦能有所提升。於一實施例中，伺服器20傳送優化後的病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容的文本給電子裝置10，電子裝置10於顯示器13顯示優化後的病歷報告(即優化報告)，或是將各欄位中的內容更新為優化後的內容。

於步驟240中，伺服器20藉由處理器16將優化報告輸入一應用模型18，應用模型18輸出對應優化報告的複數個診斷碼。

於一實施例中，應用模型輸出對應該優化報告的該些診斷碼符合第十版國際疾病統計分類(ICD-10)的一疾病分類編碼規則；其中，該疾病分類編碼規則針對複數個疾病診斷及複數個預測編製大於60000個對應此些診斷之診斷碼及此些預測之診斷碼。

於一實施例中，應用模型18是以一基於變換器的雙向編碼器表示技術的卷積神經網路(Bidirectional Encoder Representations from Transformers-Convolutional Neural Networks，BERT-CNN)實現，後稱BERT-CNN。然而，此為一例，應用模型18可以由其他能夠產生字彙向量或權重的卷積神經網路實現之。

請參閱第3圖中的診斷碼表單CM，當伺服器20藉由處理器16將優化報告輸入應用模型18(例如BERT-CNN)，應用模型18輸出對應優化報告的多個診斷碼。這些診斷碼代表依據優化報告，應用模型18輸出與優化報告相關的診斷結果。於一實施例中，伺服器20傳送這些診斷碼至電子裝置10，並顯示對應這些診斷碼的診斷碼表單CM於顯示器13。

由於診斷結果的敘述(如英文/中文名稱欄位)較為冗長，熟練ICD-10診斷碼的醫生可以快速透過診斷碼勾選病人符合的一或多個診斷結果。另一方面，尚未熟練ICD-10診斷碼的醫生仍可以透過英文/中文名稱欄位勾選病人符合的一或多個診斷結果。

請參閱第4圖，第4圖係依照本發明實施例繪示一種應用模型之示意圖。第4圖係依照本發明實施例繪示一種應用模型18之示意圖。第4圖中的應用模型18採用BERT-CNN的架構，BERT-CNN為近年來在自然語言處理(Natural Language Processing， NLP)領域較為當代先進 (State-Of-The-Art ，SOTA)的兩階段遷移式學習，分別為：預訓練(Pre-training)與微調(Fine-Tuning)。

在預訓練階段，預先使用大量醫療生技相關的文本資料(如病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容、醫療生技相關的論文、報紙、期刊)，以非監督式學習的方式訓練一個語言模型(即應用模型18)。

在微調階段則是針對診斷碼的分類任務，以有類別標籤的資料訓練、對應用模型18進行監督式學習來微調參數，進而對新的資料做預測，其中的類別標籤就是ICD-10代碼。透過這樣的訓練方式，能讓應用模型18理解病歷中上下文的內容關係，學習醫師撰寫的病人病況描述與病人歷史紀錄，訓練出一個具備醫學知識的應用模型18，準確建立病歷與診斷碼間的連結，精準推薦診斷碼。

其中，自我注意力(Self Attention)為臨床(Clinical)BERT-CNN訓練應用模型18執行的重要機制，以“This patient has heart disease”為例，進行Self-Attention時有下列步驟：(1) 在分類任務中，以處理器16或手動將預測用標籤 “[CLS]”符號插入到每個句子的開頭(如第4圖的轉換層L1、L12的第一欄所表示)。自我注意力機制的目的是理解文字意義，並預測對應的類別(例如，類別為ICD-10診斷碼)，此機制固定會在文字的最前端以處理器16或手動加入標籤“[CLS]”作為後續預測的依據。

(2)將每個詞彙轉換為詞嵌入(Word Embedding):此步驟會將所有詞彙轉換成相同維度的向量(每種模型架構會有不同的維度，Clinical BERT為768維度)，每個詞彙的向量皆不相同，應用模型18預先定義好這些詞彙的向量值。

(3)根據上下文來更新每個詞彙的詞嵌入：每一個詞彙在應用模型18中需要經過12次的轉換(於此例中，以12個轉換層(transformer layer) L1~L12為例)，每層接受一組詞向量(Word Embedding)作為輸入，並產生相同數目的詞向量作為輸出。每次轉換後會得到不同的詞向量，應用模型18會參考上下文的內容決定轉換後的向量數值，且根據上下文語意的不同，參考的比重也各不相同，而應用模型18將會在學習的過程中，自動調整這些權重。於一實施例中，所有文字經過12次轉換後，使用預測用標籤“[CLS]”進行預測最後一層轉換後的輸出，只有第一個向量(對應到“[CLS]”符號)會輸入到分類器中，將“[CLS]”的向量以線性回歸(Linear Regression)分類方法預測ICD-10診斷碼。在自我注意力的預測機制中，應用模型18會根據上下文的內容調整參考的權重，由於是透過“[CLS]”標籤的向量進行預測，透過觀察“[CLS]”所參考的權重值可以了解「模型進行預測時，主要參考哪些詞彙」。

以第4圖為例，最終的“[CLS]”會得到6個權重，這些權重是“[CLS]”標籤分別參考“[CLS]”, “This”, “patient”, “has”, “heart”, “disease”的權重。如下表一所示：

詞彙	[CLS]	This	patient	has	heart	Disease
權重	0.1	0.1	0.2	0.05	0.9	0.56

表一透過將這些權重值進行視覺化，權重越重則繪製更深的顏色，反之則不上色，即可針對模型預測時所關注的重點進行特徵萃取，並得到熱圖(heatmap)視覺化結果，此將於步驟250詳述之。

換言之，如表一與第4圖所示，BERT-CNN依據優化報告的內容的上下文決定多個詞向量，處理器16依據BERT-CNN各層中被事先定義的多個字詞特徵進行特徵萃取，以萃取出此些詞彙，此些詞向量經過BERT-CNN的一分類層CL後，分類層CL對應每個詞向量輸出各自對應的此些權重。

於一實施例中，伺服器20的處理器16將病人主訴欄位內容、診察觀察欄位內容及診斷評估欄位內容輸入BERT-CNN後，可得到關於此些內容的多個診斷碼(例如ICD-10診斷碼)，處理器16依據此些權重由大到小排序對應此些權重的此些診斷碼，以產生一診斷碼列表，並選取前面一定數量的診斷碼(例如前十個)供醫生參考。

於步驟250中，藉由處理器16依據該優化報告中的複數個詞彙各自對應的複數個權重產生一熱圖(heatmap)，並藉由處理器16透過使用者介面顯示熱圖。

請參閱第5圖，第5圖係依照本發明一實施例繪示一種熱圖之示意圖。如第5圖所示，處理器16在優化報告中以不同顏色標註此些權重各自對應的此些詞彙，以產生熱圖。例如，將權重較大的詞彙用較深的顏色標註，將權重較小的詞彙用較淺的顏色標註。於一實施例中，權重的標註色彩的深度至淺度是依據權重由大至小作對應。

藉此，閱讀者(例如醫生)在不閱讀所有文章(例如病人主訴欄位S、診察觀察欄位O、診斷評估欄位A及處置治療欄位P)的前提下，透過視覺化標註詞彙色彩的方式，能夠快速聚焦在大批文章(病歷相關文章)中的主要內容。

於一實施例中，處理器16更用以依據此些權重產生一文字雲(word cloud)，文字雲是由各種字詞組合成、如雲一般的圖形。文字雲的存在目的在於能讓閱讀者在不閱讀所有文章的前提下，快速聚焦在大批文章中的主要內容(例如權重最大的詞彙，在文字雲中的字體最大也最明顯)。

由上述步驟可知，透過廣泛收集醫院過去的門診、急診及住院診斷結果資料，其內容包含各病患ICD-10診斷碼與門診、急診主客觀描述或是住院過程中的病摘和病程紀錄等文字醫囑內容，以及病患之檢查、手術、會診及病理文字報告，將此些資料輸入應用模型18，由應用模型18進行ICD-10診斷碼之分類推薦。

由於醫師在門急診看診時輸入之病人主訴欄位的內容、診察觀察欄位的內容、診斷評估欄位的內容及一處置治療欄位的內容與住院針對住院病人所撰寫的入院病摘(Admission Note)、病程紀錄(Progress Note)以及出院病摘(Discharge Summary) 其文字結構與內容差異性較大，因此在應用模型18訓練時根據使用情境之資料來源的不同分別訓練建模，以確保診斷碼分類之推薦品質。

以下請參閱第6~7圖，第6圖係依照本發明實施例繪示一種資料分析系統應用於門診或急診情境之示意圖。第7圖係依照本發明實施例繪示一種資料分析系統應用於病人住院情境之示意圖。

於一實施例中，在門診或急診的情境中(如第6圖所示)，病人進入診間(步驟S1)，處理器12將醫師即時輸入的病人主訴欄位S的內容(例如病人說喉嚨痛，一直吐)、診察觀察欄位O的內容(例如醫生觀察到病人發燒且血壓異常)、診斷評估欄位A的內容(例如醫生判斷食物中毒及/或腸胃炎)及處置治療欄位P的內容(例如開藥及/或住院觀察)與此病人半年內的其餘文字報告(會診、病理、手術、檢查)合併，以產生一合併資料，並將合併資料進行縮寫還原及錯別字修正建議輔助，以產生優化報告(步驟S2)，再由傳輸介面11傳送優化報告到伺服器20，處理器16將優化報告輸入到應用模型18，應用模型18輸出數個ICD-10診斷碼的診斷碼建議清單(步驟S3)，其中，處理器16依據此些權重由大到小排序對應此些權重的此些診斷碼，以產生一診斷碼列表，例如，根據提供前10個最有可能的ICD-10診斷碼供醫師或疾分師來做參考。透過文字資料視覺化方法(例如依權重標註字彙色彩、文字雲)呈現隱藏在文字內容中，應用模型18所認為的重要特徵(步驟S4)。

於一實施例中，在病人已住院的情境中(如第7圖所示)，病人住院(步驟S1’)後，醫院信息系統準備病人此次住院歷程病歷資訊及病人住院病摘與病程紀錄，合併病人半年內的其餘文字報告(會診、病理、手術、檢查)結果為一歷史病歷，處理器12將醫師輸入的住院紀錄及歷史病歷合併，以產生一合併資料，並將合併資料進行縮寫還原及錯別字修正建議輔助，以產生優化報告(步驟S2’)，再由傳輸介面11傳送優化報告到伺服器20，處理器16將優化報告輸入到應用模型18，應用模型18輸出數個ICD-10診斷碼的診斷碼建議清單(步驟S3’)，其中，處理器16依據此些權重由大到小排序對應此些權重的此些診斷碼，以產生一診斷碼列表，例如，提供前10個最有可能的ICD-10診斷碼供醫師或疾分師來做參考。透過文字資料視覺化方法(例如依權重標註字彙色彩、文字雲)呈現隱藏在文字內容中，應用模型18所認為的重要特徵(步驟S4’)。另一方面，在步驟S3’完成後，當診斷碼被選擇後(例如，醫生選擇診斷碼)，處理器16輸出診斷碼對應的收費資料，及併發症與處置碼，以提示資訊供醫師選擇(步驟S5’)。

於一實施例中，醫生以勾選診斷碼表單CM其中多個選項的方式(被選擇的選項視為候選診斷碼)，藉此以下指令給處理器16，使處理器16選擇診斷碼列表CM中的多個候選診斷碼，接收對應此些候選診斷碼各自對應的一處置資料，此些處置資料各自紀錄於一處置治療欄位P。

於一實施例中，此些處置資料來自伺服器20的儲存裝置17或電子裝置的儲存裝置14中所儲存的歷史紀錄，每個診斷碼(例如腸胃炎的診斷碼)對應至少一個處置資料(例如開藥、住院觀察、打點滴)。

於一實施例中，處理器16選擇診斷碼列表中的多個候候選診斷碼，依據一歷史紀錄產生對應此些候選診斷碼各自對應的一費用資料，此些費用資料各自紀錄於對應此些候選診斷碼的一費用欄位。

於一實施例中，回應於處理器16接收對應此些候選診斷碼各自對應的處置資料後，處理器16依據對應處置資料或歷史紀錄，產生對應此些候選診斷碼各自對應的費用資料，此些費用資料各自紀錄於費用欄位。

於一實施例中，採用資料分析系統及資料分析方法進行資料分析，時間範圍從2016年1月至2020年2月，門診與急診共有3,112,158筆看診資料，ICD-10診斷碼涵蓋了12,732種不同類別；而住院共有83,441筆住院資料，ICD-10診斷碼涵蓋了3,772種不同類別的診斷碼。為了避免過度擬合以及提升模型泛化能力，以時間切分資料，將2016年至2019年資料做為訓練集，2020年1月至2月資料做為測試集來驗證應用模型18準確率，門診與急診模型使用測試集驗證的主診斷之前十筆預測診斷碼的精準度為91.45%；住院模型使用測試集驗證主診斷之前十筆診斷碼的精準度為89.35%。其中精準度之計算方式為測試集之主診斷與模型所預測之十個診斷碼耦合率(測試集主診斷在十個預測診斷碼之樣本數/測試集總樣本數) 。

此外，上述應用模型18使用大量已標註的資料進行微調訓練，所以應用模型18目前能夠預測之診斷碼類別數可以正向表列為樣本資料所涵蓋之範圍。透過未來持續的提供蒐集到的資料，資料量的增加能夠持續的給予應用模型18進行學習校正，能夠預測之診斷碼類別範圍也會隨之增加，應用模型18的表現也會持續不斷的精進，進而提升預測的準確率。

綜上，資料分析系統及資料分析方法可以協助醫師在撰寫病歷時能夠有縮寫還原及錯別字修正建議的輔助，以優化的病歷報告，優化後的病歷報告輸入一應用模型，使得應用模型能夠將病歷報告與診斷碼間連結，輸出精準的推薦診斷碼。診斷碼的查找工作有了應用模型輔助後，醫療人員可以花更多心思研究病歷，包括病人做的檢查、症狀是否全反應在診斷上，是否有缺失資料，且在不違反醫療原則下，如何依據對應候選診斷碼各自對應的費用資料，以提高健保給付，進一步提高了醫療的整體品質。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

10:電子裝置 11, 15:傳輸介面 12, 16:處理器 13:顯示器 14, 17:儲存裝置 20:伺服器 16:處理器 17:儲存裝置 18:應用模型 LK:通訊連接 L1, L12:轉換層 CL:分類層 200:資料分析方法 210~250, S1~S4, S1’~S5’:步驟 S:病人主訴欄位 O:診察觀察欄位 A:診斷評估欄位 P:處置治療欄位

第1圖係依照本發明實施例繪示一種資料分析系統之方塊圖。第2圖係依照本發明實施例繪示一種資料分析方法之流程圖。第3圖係依照本發明實施例繪示一種使用者介面之示意圖。第4圖係依照本發明實施例繪示一種應用模型之示意圖。第5圖係依照本發明一實施例繪示一種熱圖之示意圖。第6圖係依照本發明實施例繪示一種資料分析系統應用於門診或急診情境之示意圖。第7圖係依照本發明實施例繪示一種資料分析系統應用於病人住院情境之示意圖。

200:資料分析方法

210~250:步驟

Claims

一種資料分析系統，包含：一電子裝置，用以接收至少一部份的複數個醫療資訊欄位的內容；以及一處理器，用以依據該至少一部份的該些醫療資訊欄位內容產生一優化報告；其中，該處理器將該優化報告輸入一應用模型，該應用模型輸出對應該優化報告的複數個診斷碼，該處理器依據該優化報告中的複數個詞彙各自對應的複數個權重產生一熱圖(heatmap)，且該處理器透過該電子裝置的一使用者介面顯示該熱圖。
如請求項1之資料分析系統，其中該電子裝置顯示該使用者介面，該使用者介面包含該些醫療資訊欄位，並透過一第一傳輸介面傳送至少一部份的該些醫療資訊欄位的內容，該資料分析系統更包含：一伺服器，用以透過一第二傳輸介面接收該至少一部份的該些醫療資訊欄位的內容；其中，該處理器位於該伺服器中；其中，該些醫療資訊欄位包含一病人主訴欄位、一診察觀察欄位、一診斷評估欄位及一處置治療欄位；其中，該至少一部份的該些欄位內容包含一病人主訴欄位內容、一診察觀察欄位內容及一診斷評估欄位內容，以及一病人半年內的其餘文字報告。
如請求項2之資料分析系統，其中該伺服器透過該處理器依據該至少一部份的該些醫療資訊欄位內容進行一內容優化，以產生該優化報告。
如請求項3之資料分析系統，其中，該內容優化包含透過一縮寫還原應用程式介面(Application Programming Interface，API)，將該至少一部份的該些醫療資訊欄位內容中的縮寫改成全名；其中，該至少一部份的該些醫療資訊欄位內容透過一錯字修正建議應用程式介面，將錯字自動改成正確文字或接收校正錯字的一校正文字，以產生該優化報告。
如請求項1之資料分析系統，其中該應用模型輸出對應該優化報告的該些診斷碼符合第十版國際疾病統計分類(International Classification of Disease，ICD)的一疾病分類編碼規則；其中，該疾病分類編碼規則針對複數個疾病診斷及複數個預測編製對應該些診斷之診斷碼及該些預測之診斷碼。
如請求項1之資料分析系統，其中該處理器依據該些權重由大到小排序對應該些權重的該些診斷碼，以產生一診斷碼列表。
如請求項6之資料分析系統，該處理器選擇該診斷碼列表中的複數個候選診斷碼，接收對應該些候選診斷碼各自對應的一處置資料，該些處置資料各自紀錄於一處置治療欄位。
如請求項6之資料分析系統，其中該處理器選擇該診斷碼列表中的複數個候選診斷碼，依據一歷史紀錄產生對應該些候選診斷碼各自對應的一費用資料，該些費用資料各自紀錄於對應該些候選診斷碼的一費用欄位。
如請求項7之資料分析系統，其中回應於該處理器接收對應該些候選診斷碼各自對應的該處置資料後，該處理器依據對應該處置資料或該歷史紀錄，產生對應該些候選診斷碼各自對應的一費用資料，該些費用資料各自紀錄於一費用欄位。
如請求項1之資料分析系統，其中該應用模型是以一基於變換器的雙向編碼器表示技術的卷積神經網路(Bidirectional Encoder Representations from Transformers-Convolutional Neural Networks，BERT-CNN)實現，該BERT-CNN依據該優化報告的內容的上下文決定複數個詞向量，該處理器依據該BERT-CNN各層中被事先定義的複數個字詞特徵進行特徵萃取，以萃取出該些詞彙，該些詞向量經過該BERT-CNN的一分類層後，該分類層對應每個詞向量輸出各自對應的該些權重，該處理器在該優化報告中以不同顏色標註該些權重各自對應的該些詞彙，以產生該熱圖；其中，該處理器更用以依據該些權重產生一文字雲(word cloud)。
一種資料分析方法，包含：顯示一使用者介面，該使用者介面包含複數個醫療資訊欄位；傳送至少一部份的該些醫療資訊欄位的內容；透過一處理器依據該至少一部份的該些醫療資訊欄位的內容產生一優化報告；藉由該處理器將該優化報告輸入一應用模型，該應用模型輸出對應該優化報告的複數個診斷碼；以及藉由該處理器依據該優化報告中的複數個詞彙各自對應的複數個權重產生一熱圖(heatmap)；以及藉由該處理器透過該使用者介面顯示該熱圖。
如請求項11之資料分析方法，更包含：顯示該使用者介面，該使用者介面包含該些醫療資訊欄位，並透過一第一傳輸介面傳送至少一部份的該些醫療資訊欄位的內容；接收該至少一部份的該些醫療資訊欄位的內容；其中，該些醫療資訊欄位包含一病人主訴欄位、一診察觀察欄位、一診斷評估欄位及一處置治療欄位；其中，該至少一部份的該些欄位內容包含一病人主訴欄位內容、一診察觀察欄位內容及一診斷評估欄位內容，及一病人半年內的其餘文字報告。
如請求項12之資料分析方法，更包含：透過該處理器依據該至少一部份的該些醫療資訊欄位內容進行一內容優化，以產生該優化報告。
如請求項12之資料分析方法，其中，該內容優化包含透過一縮寫還原應用程式介面(Application Programming Interface，API)，將該至少一部份的該些醫療資訊欄位內容中的縮寫改成全名；其中，該至少一部份的該些醫療資訊欄位內容中透過一錯字修正建議應用程式介面，將錯字自動改成正確文字或接收校正錯字的一校正文字，以產生該優化報告。
如請求項11之資料分析方法，其中該應用模型輸出對應該優化報告的該些診斷碼符合第十版國際疾病統計分類(International Classification of Disease，ICD)的一疾病分類編碼規則；其中，該疾病分類編碼規則針對複數個疾病診斷及複數個預測編製對應該些診斷之診斷碼及該些預測之診斷碼。
如請求項11之資料分析方法，其中該處理器依據該些權重由大到小排序對應該些權重的該些診斷碼，以產生一診斷碼列表。
如請求項16之資料分析方法，該處理器選擇該診斷碼列表中的複數個候選診斷碼，接收對應該些候選診斷碼各自對應的一處置資料，該些處置資料各自紀錄於一處置治療欄位。
如請求項16之資料分析方法，其中該處理器選擇該診斷碼列表中的複數個候選診斷碼，依據一歷史紀錄產生對應該些候選診斷碼各自對應的一費用資料，該些費用資料各自紀錄於對應該些候選診斷碼的一費用欄位。
如請求項17之資料分析方法，其中回應於該處理器接收對應該些候選診斷碼各自對應的該處置資料後，該處理器依據對應該處置資料或該歷史紀錄，產生對應該些候選診斷碼各自對應的一費用資料，該些費用資料各自紀錄於一費用欄位。
如請求項11之資料分析方法，其中該應用模型是以一基於變換器的雙向編碼器表示技術的卷積神經網路(Bidirectional Encoder Representations from Transformers-Convolutional Neural Networks，BERT-CNN)實現，該BERT-CNN依據該優化報告的內容的上下文決定複數個詞向量，該處理器依據該BERT-CNN各層中被事先定義的複數個字詞特徵進行特徵萃取，以萃取出該些詞彙，該些詞向量經過該BERT-CNN的一分類層後，該分類層對應每個詞向量輸出各自對應的該些權重，該處理器在該優化報告中以不同顏色標註該些權重各自對應的該些詞彙，以產生該熱圖；其中，該處理器更用以依據該些權重產生一文字雲(word cloud)。