TWI757767B - 自動產生裁判要旨的方法 - Google Patents
自動產生裁判要旨的方法 Download PDFInfo
- Publication number
- TWI757767B TWI757767B TW109120287A TW109120287A TWI757767B TW I757767 B TWI757767 B TW I757767B TW 109120287 A TW109120287 A TW 109120287A TW 109120287 A TW109120287 A TW 109120287A TW I757767 B TWI757767 B TW I757767B
- Authority
- TW
- Taiwan
- Prior art keywords
- data
- judgment
- gist
- template
- referee
- Prior art date
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本發明提出一種自動產生裁判要旨的方法,是由電腦系統取得裁判書資料,對裁判書資料執行包括原始資料解析處理及斷詞與詞性標記處理的語料前處理、特徵擷取處理、基於裁判要旨資料模型的摘要處理,以產生裁判要旨資料,並輸出裁判要旨資料。本發明可經由機器學習來自動產生裁判要旨資料。並且,所自動產生的裁判要旨資料具有客觀且選擇標準一致的特性。
Description
本發明係與方法有關,特別有關於自動產生裁判要旨的方法。
裁判書為法律工作者(如實務工作者或研究人員)在處理法律問題時之重要參考資料。經由閱讀裁判書可得知法院於對應案件中對特定法律問題所持之見解,藉以作為往後實務處理或研究之參考。
然而,一般而言,裁判書的大部分記載內容都是與對應案件的案由與事實認定有關,進有少部分記載內容是涉及前述具參考價值之法院見解,這使得法律工作者必須耗費大量時間與精力來完整閱讀裁判書才能掌握此裁判書的法院見解。
為解決上述問題,對於重要案件之裁判(如最高法院所做出之裁判),法院會以人工方式,由資深法官針對裁判書做出對應的裁判要旨。前述的裁判要旨即摘錄了此裁判書的法院見解,而使得法律工作者可以透過閱讀裁判要旨來快速掌握此裁判書的法院見解。
然而,由於裁判要旨的製作涉及高深的法學知識與見解,負責製作裁判要旨的人員必須具有高度的法學知識與豐富的實務經驗(如最高法院之法官),一般法律工作者並沒有能力可以做出適切的裁判要旨。
因此,以人工方式製作裁判要旨效率不佳,而僅有極少數裁判書才具有法院製作之裁判要旨。
此外,由於不同法官對於裁判要旨的製作(如理由書中的哪些句子適合加入至裁判要旨)容易具有不一致的主觀意見,以人工方式製作裁判要旨還存在不夠客觀與選擇標準不一致的問題。
是以,現有以人工方式製作裁判要旨存在上述問題,而亟待更有效的方案被提出。
本發明之主要目的,係在於提供一種自動產生裁判要旨的方法,可透過機器學習技術來自動產生裁判書要旨。
為達上述目的,一種自動產生裁判要旨的方法,包括以下步驟:a)由一電腦系統於一應用模式下取得一裁判書資料;b)對該裁判書資料執行一語料前處理,其中該語料前處理包括用以基於該裁判書資料產生多個分句資料的一原始資料解析處理及用以基於各該分句資料產生多個詞彙資料的一斷詞與詞性標記處理;c)基於該裁判書資料、該多個分句資料及該多個詞彙資料執行一特徵擷取處理以產生一裁判特徵資料,其中該特徵擷取處理是分析並擷取該裁判書資料的基本特徵、裁判特徵、分句標記特徵、詞彙特徵、詞性特徵及句首詞彙特徵;d)載入一裁判要旨資料模型,並以該裁判要旨資料模型對該裁判特徵資料執行一摘要處理以產生一裁判要旨資料,其中該摘要處理是基於該裁判特徵資料自該裁判書資料中選擇多個部分,並重構該多個部分為該裁判要旨資料,該裁判要旨資料的總字數與總句數少於該裁判書資料的總字數與總句數;及,e)輸出該裁判要旨資料;其中,該特徵擷取處理包括以下步驟:f1)決
定該裁判特徵資料的該基本特徵,其中該基本特徵包括各該分句資料的字元數、詞彙數及各該分句資料於一裁判理由段落中的分句位置;f2)基於該多個詞彙資料決定該裁判特徵資料的該裁判特徵,其中該裁判特徵包括裁判類型、裁判性質、裁判性質、案件字別及裁判時間;f3)依據各該分句資料的一起始詞彙是否符合一裁判詞庫來對該分句資料設定該分句標記特徵的一規則式分句標記,並依據各該分句資料的任一該詞彙資料是否符合一法律條文詞庫來對該分句資料設定該分句標記特徵的一法規名稱標記;f4)將該多個詞彙資料向量化以獲得詞向量格式的該多個詞彙資料,並分析向量化後的該多個詞彙資料以獲得該詞彙特徵的詞彙向量序列、分句向量、分句向量序列及文件向量;f5)依據向量化後的該多個詞彙資料及多個詞性標記設定該詞性特徵的詞性向量序列、分句詞性向量及分句詞性向量序列;及,f6)依據各該分句資料的句首詞彙資料設定該句首詞彙特徵的句首詞彙向量及句首詞彙向量序列。
於一實施例中,於該步驟d)之前更包括以下步驟:g1)由該電腦系統於一訓練模式下取得一範本裁判書資料,其中該範本裁判書資料包括一範本裁判要旨資料;g2)對該範本裁判書資料執行該語料前處理以產生該範本裁判書資料的多個範本分句資料與多個範本詞彙資料;g3)基於該範本裁判書資料及該範本裁判書資料的該多個範本分句資料與該多個範本詞彙資料執行該特徵擷取處理以產生該範本裁判書資料的一範本裁判特徵資料;g4)取得該範本裁判書資料的各該範本分句資料的一裁判要旨標記,其中該裁判要旨標記是用以指示各該範本分句資料是否屬於該範本裁判要旨資料;及,g5)基於各該範本分句資料的該裁判要旨標記及該範本裁判特徵資料執行一分類訓練處理,以訓練該裁判要旨資料模型。
於一實施例中,於該訓練模式下,該步驟g2)更包括執行一裁判要旨及理由對應處理,該裁判要旨及理由對應處理用以產生該範本裁判要旨資料
與該範本裁判書資料的一範本裁判理由段落之間的一分句對應關係;該步驟g4)是依據該分句對應關係對該範本裁判理由段落中對應該範本裁判要旨資料的該範本分句資料設定該裁判要旨標記。
於一實施例中,該裁判要旨資料模型包括一深度學習資料模型(deep learning data model),該深度學習資料模型包括具有多層的全連結層(fully-connected layer)的全連結神經網路(fully-connected neural network)、具有多層的長短期記憶層(long short-term memory layer)作為基礎神經元(neuron)的迴圈神經網路(recurrent neural network)、資訊連結該全連結神經網路及該迴圈神經網路的連接層(concatenate layer)、資訊連結該連接層的另一多層的全連結層及資訊連結該另一多層的全連結層的輸出層。
於一實施例中,該範本裁判特徵資料包括序列型態特徵資料與非序列型態特徵資料;該裁判要旨資料模型的執行包括以下步驟:h1)將該非序列型態特徵資料輸入至該全連結神經網路的一輸入層;h2)將該序列型態特徵資料輸入至該迴圈神經網路的一輸入層;h3)將該全連結神經網路的運算結果與該迴圈神經網路的運算結果傳遞至該連接層;h4)將該連接層的運算結果傳遞至該另一多層的全連結層;及,h5)將該另一多層的全連結層的運算結果傳遞至該輸出層,以輸出該裁判要旨資料模型的用以判斷該裁判書資料的各該分句資料是否屬於該裁判要旨資料的運算結果。
於一實施例中,該裁判要旨資料模型包括基於一輕量梯度提升(light gradient boosting machine)資料模型,該裁判要旨資料模型的執行包括一步驟h6)執行該輕量梯度提升資料模型以基於多個決策樹對輸入資料來進行運算,並使用最佳優先(leaf-wise)策略來擴展該多個決策樹的節點,以進行學習並產生運算結果,該運算結果是用以判斷該裁判書資料的各該分句資料是否屬於該裁判要旨資料。
於一實施例中,該裁判要旨資料模型包括不同類型的多種機器學習資料模型,該多種機器學習資料模型產生多組運算結果,該裁判要旨資料模型的執行包括一步驟h7)基於整體學習(ensemble learning)資料模型以算數平均法、加權平均法或模型選擇法來組合該多組運算結果為一筆該運算結果,各該運算結果是用以判斷該裁判書資料的各該分句資料是否屬於該裁判要旨資料。
於一實施例中,該步驟g1)是取得包括該範本裁判要旨資料的第一範本裁判書資料及不包括該範本裁判要旨資料的一第二範本裁判書資料;該步驟g2)是分別對該第一範本裁判書資料及該第二範本裁判書資料執行該語料前處理以產生該第一範本裁判書資料的多個第一範本分句資料與多個第一範本詞彙資料及該第二範本裁判書資料的多個第二範本分句資料與多個第二範本詞彙資料;該步驟g3)是基於該第一範本裁判書資料及該第一範本裁判書資料的該多個第一範本分句資料與該多個第一範本詞彙資料執行該特徵擷取處理以產生該第一範本裁判書資料的一第一範本裁判特徵資料,並基於該第二範本裁判書資料及該第二範本裁判書資料的該多個第二範本分句資料與該多個第二範本詞彙資料執行該特徵擷取處理以產生該第二範本裁判書資料的一第二範本裁判特徵資料;該g4)取得該第一範本裁判書資料的各該第一範本分句資料的一裁判要旨標記,該裁判要旨標記是用以指示各該第一範本分句資料是否屬於該範本裁判要旨資料;該步驟g5)包括以下步驟:g51)基於各該第一範本分句資料的該裁判要旨標記及該第一範本裁判特徵資料執行該分類訓練處理,以訓練一第一模型;g52)以該第一模型預測該第二範本裁判書資料的各該第二範本分句資料的一預測裁判要旨標記,該裁判要旨標記是用以指示各該第二範本分句資料屬於該第二範本裁判書資料的該範本裁判要旨資料的機率分數;g53)於該第二範本裁判書資料中,濾除該機率分數不符一臨界分數的該第二範本分句資料;及,g54)基於該第一範本裁判特徵資料的屬於該範本裁判要旨資料的各該第一範本分句資
料及篩選後的各該第二範本分句執行該分類訓練處理,以訓練一第二模型來作為該裁判要旨資料模型。
於一實施例中,該原始資料解析處理包括以下步驟:i1)對該裁判書資料執行一文字區塊擷取處理,以獲得一裁判全文文字區塊;i2)對該裁判全文文字區塊執行一段落切割處理以獲得一裁判理由段落;i3)對該裁判理由段落執行一分句切割處理以獲得該多個分句資料;及,i4)以一預設分句格式儲存該多個分句資料;其中,該斷詞與詞性標記處理包括以下步驟:j1)載入並執行一自動斷詞模組;j2)經由該自動斷詞模組對各該分句資料執行一斷詞處理,以切割各該分句資料為該多個詞彙資料;及,j3)經由該自動斷詞模組對各該分句資料的該多個詞彙資料執行一詞性標記處理,以設定各該詞彙資料於各該分句資料中的一詞性標記。
於一實施例中,該步驟e)是將該裁判要旨資料以文字格式儲存於該電腦系統的一儲存模組,將該裁判要旨資料顯示於該電腦系統的一顯示模組或透過網路對外傳送該裁判要旨資料。
本發明可經由機器學習來自動產生裁判要旨資料。並且,所自動產生的裁判要旨資料具有客觀且選擇標準一致的特性。
1:電腦系統
10:處理模組
11:儲存模組
110:電腦程式
111:裁判書資料
112:詞庫
113:裁判要旨資料模型
12:輸入模組
13:輸出模組
14:通訊模組
2:伺服器
20:處理裝置
21:儲存裝置
210:電腦程式
22:通訊裝置
3:網路
4:網路資料庫
50:範本裁判特徵資料
51:範本裁判要旨資料
52:另一範本裁判特徵資料
53:預測裁判要旨資料
60:學習機
61:第一模型
62:第二模型
70:序列形態特徵資料
71:迴圈神經網路
710:輸入層
711:基礎神經元
712:輸出層
72:非序列形態特徵資料
73:全連結神經網路
730:輸入層
731:基礎神經元
732:輸出層
74:連接層
75:全連結神經網路
750:輸入層
751:基礎神經元
76:輸出層
S10-S14:自動產生要旨步驟
S20-S24:訓練步驟
S30-S33:語料前處理步驟
S40-S43:原始資料解析處理步驟
S50-S52:斷詞與詞性標記步驟
S60-S65:特徵擷取處理步驟
S70-S73:分類訓練步驟
S80-S87:摘要處理步驟
圖1為本發明一實施例的電腦系統的架構圖。
圖2為本發明第一實施例的自動產生裁判要旨的方法的流程圖。
圖3為本發明第二實施例的自動產生裁判要旨的方法的訓練模式的流程圖。
圖4為本發明第三實施例的自動產生裁判要旨的方法的語料前處理的流程圖。
圖5為本發明第四實施例的自動產生裁判要旨的方法的語料前處理的流程圖。
圖6為本發明第五實施例的自動產生裁判要旨的方法的斷詞與詞性標記的流程圖。
圖7為本發明第六實施例的自動產生裁判要旨的方法的特徵擷取處理步驟的流程圖。
圖8為本發明第七實施例的自動產生裁判要旨的方法的分類訓練步驟的流程與示意圖。
圖9為本發明一實施例的裁判要旨資料模型的架構圖。
圖10為本發明第八實施例的自動產生裁判要旨的方法的摘要處理的流程圖。
茲就本發明之一較佳實施例,配合圖式,詳細說明如後。
首請參閱圖1,為本發明一實施例的電腦系統的架構圖。本發明主要是提出一種自動產生裁判要旨的方法,可應用於圖1所示的電腦系統1。透過電腦系統1實現自動產生裁判要旨的方法,本發明可以依據所輸入的裁判書資料自動產生客觀且選擇標準一致的裁判要旨資料,藉以解決現有技術以人工方式製作裁判要旨具有效率不佳、不夠客觀與選擇標準不一致的技術問題。
具體而言,電腦系統1可包括儲存模組11、輸入模組12、輸出模組13、通訊模組14及電性連接上述模組的處理模組10。
儲存模組11用以儲存資料。儲存模組11可為但不限於固態硬碟(SSD)、快閃記憶體、磁碟硬碟(HDD)、隨機存取記憶體(RAM)、唯讀記憶體(ROM)或上述儲存裝置的任意組合。
於一實施例中,儲存模組11可儲存用以實現本發明之實現自動產生裁判要旨的方法電腦程式110。
於一實施例中,儲存模組11可儲存裁判書資料111,前述裁判書資料111可為使用者所預先儲存的、使用者透過輸入模組12手動輸入的、或者透過通訊模組14連接網路資料4(如裁判書資料庫)所下載的,不加以限定。
於一實施例中,儲存模組11可儲存詞庫112,詞庫112可記錄有多個法律用語(可為網路自動抓取、使用者手動輸入或經學習獲得,不加以限定),這些法律用語用於輔助實現本發明之自動產生裁判要旨的方法。
於一實施例中,儲存模組11可儲存裁判要旨資料模型113,裁判要旨資料模型113是經機器學習技術所學習訓練出的電腦資料模型,並記錄有多個學習訓練所產生的處理規則,透過這些處理規則,裁判要旨資料模型113的執行可對裁判書資料111進行分析、分類、篩選、重構等處理,以產生裁判要旨資料。
輸入模組12,用以接受使用者輸入並產生對應輸入的資料或控制訊號。輸入模組12可為但不限於滑鼠、鍵盤、觸控板、麥克風、影像擷取裝置或上述裝置的任意組合。
具體而言,於本發明中,輸入模組12可用來接受使用者的裁判書輸入,以產生對應輸入的裁判書資料111,或者接受使用者的要旨修正輸入,以產生對應輸入的裁判要旨修正命令。
於一實施例中,當輸入模組12包括滑鼠、鍵盤或觸控板時,使用者可操作滑鼠、鍵盤或觸控板來逐字輸入裁判書,以於電腦系統1產生裁判書資
料111,或開啟文件(如裁判書的電子檔)或網頁(如裁判書查詢網頁)來複製裁判書資料111至電腦程式10執行。
於一實施例中,當輸入模組12包括麥克風時,使用者可操作麥克風來逐字唸出裁判書的內容,以經由語音辨識(即將語音訊號轉換為文字資料)於電腦系統1自動產生裁判書資料111。
於一實施例中,當輸入模組12包括影像擷取裝置時,使用者可操作影像擷取裝置來拍攝裁判書的紙本,以經由光學字元辨識(OCR,即於影像資料中識別文字資料)於電腦系統1自動產生裁判書資料111。
輸出模組13,用以輸出資料。輸出模組13可為但不限於顯示模組、喇叭、儲存控制器(可設置於處理模處10或儲存模組11)或上述裝置的任意組合。
具體而言,於本發明中,輸出模組13可用來輸出本發明所產生的裁判要旨資料,以供使用者查看及/或儲存裁判要旨資料的內容。
於一實施例中,當輸出模組13包括顯示模組時,輸入模組12是接受處理模組10控制,來於顯示區域中顯示裁判要旨資料。
於一實施例中,當輸出模組13包括喇叭時,處理模組10可將所產生的裁判要旨資料轉換為語音訊號,輸入模組12是接受處理模組10控制來播放語音訊號,藉以解決視障人士的閱讀問題。
於一實施例中,當輸出模組13包括儲存控制器時,處理模組10可將所產生的裁判要旨資料轉換為可儲存的格式(如副檔名為txt、pdf、doc、docx等的文件檔案。),並接受處理模組10控制來將轉換格式後的裁判要旨資料儲存於儲存模組11。
通訊模組14用以對外進行資料傳輸。輸出模組13可為但不限於Wi-Fi模組、乙太網路模組、蜂巢式網路模組(即行動網路模組)、藍牙模組或上述裝置的任意組合。
具體而言,於本發明中,通訊模組14可連接網路3(如網際網路或區域網路),並透過網路3連接網路資料庫4或伺服器2。
處理模組10用以控制電腦系統1的各模組運行。具體而言,於本發明中,處理模組10可控制電腦系統1來實現本發明之自動產生裁判要旨的方法。
於一實施例中,本發明的自動產生裁判要旨的方法是於本機端執行。具體而言,儲存模組11包括非暫態電腦可讀取記錄媒體,電腦程式11被儲存於前述非暫態電腦可讀取記錄媒體,並記錄有電腦可執行的程式碼。當處理模組10執行這些電腦可執行的程式碼時,可控制電腦系統1執行本發明之自動產生裁判要旨的方法以產生裁判要旨資料。
於一實施例中,本發明的自動產生裁判要旨的方法是結合雲端運算來加以實現。具體而言,伺服器2(可為實體伺服器或雲端運算平台,如Amazon的AWS雲端運算平台、Microsoft的Azure雲端運算平台、GOOGLE的GCP雲端運算平台或其他雲端運算平台)包括儲存裝置21、用以連結網路3以進行通訊的通訊裝置22及電性連接上述裝置並用以控制伺服器2的處理裝置20。儲存裝置21可儲存前述之詞庫112與裁判要旨資料模型113。
當使用者欲執行本發明之自動產生裁判要旨的方法時,可操作電腦系統1來將裁判書資料111上傳至伺服器2,伺服器2對裁判書資料111執行處理來產生裁判要旨資料,並回傳至電腦系統1(或直接上傳至網路資料庫4)。藉此,本發明經由結合雲端運算,可降低對於電腦系統1的規格要求。
更進一步地,伺服器2的儲存裝置21可包括非暫態電腦可讀取記錄媒體,前述非暫態電腦可讀取記錄媒體儲存有電腦程式210,電腦程式210記錄有電腦可執行的程式碼。當處理裝置20執行這些電腦可執行的程式碼時,可與執行電腦程式110的電腦系統1進行互動來實現本發明之自動產生裁判要旨的方法以產生裁判要旨資料。
續請一並參閱圖1至圖2,圖2為本發明第一實施例的自動產生裁判要旨的方法的流程圖。於後續說明中,是以於本機端執行自動產生裁判要旨的方法為例進行說明,但不因此限定本發明的實現方式與保護範圍。本發明所屬技術領域中具有通常知識者自可依據本發明之揭示內容,來將後述說明修改為結合雲端運算執行(如於伺服器2中學習訓練裁判要旨資料模型113及/或於伺服器2中執行將裁判書資料111擷取為裁判要旨資料的相關處理)。
本實施例的自動產生裁判要旨的方法主要包括以下步驟。
步驟S10:電腦系統1的處理模組10切換至應用模式,並於應用模式下取得裁判書資料111。裁判書資料111的取得方式係如前所述,於此不再贅述。
具體而言,於本發明中提供了兩種模式,訓練模式與應用模式。訓練模式主要是基於機器學習訓練產生裁判要旨資料模型,而應用模式主要是基於所訓練出的裁判要旨資料模型來自裁判書資料111擷取出裁判要旨資料。
更進一步地,本實施例中,於執行摘要處理(步驟S13)前,可先執行步驟S11-S13,以對裁判書資料111進行分析與前置處理,以提升後續之摘要處理的品質。
步驟S11:處理模組10對裁判書資料111執行語料前處理。
於一實施例中,前述語料前處理可包括原始資料解析處理,前述原始資料解析處理可用以自裁判書資料111擷取出多個分句資料,各分句資料是對應裁判書中的句子。
於一實施例中,前述語料前處理可包括斷詞與詞性標記處理,前述斷詞與詞性標記處理可用以基於各分句資料產生多個詞彙資料,多個詞彙資料是分別對應分句資料的多個詞彙。
步驟S12:處理模組10對裁判書資料111執行特徵擷取處理以產生裁判特徵資料。
於一實施例中,處理模組10是至少基於前述多個分句資料及前述多個詞彙資料來執行特徵擷取處理。
於一實施例中,裁判特徵資料是包括裁判書資料的111基本特徵、裁判特徵、分句標記特徵、詞彙特徵、詞性特徵及/或句首詞彙特徵。
步驟S13:處理模組10自儲存模組11載入裁判要旨資料模型113,並以裁判要旨資料模型113對處理後的裁判書資料111(如裁判特徵資料)執行摘要處理以產生裁判要旨資料。
於一實施例中,前述摘要處理是基於裁判特徵資料自裁判書資料111中選擇多個部分,並重構所選擇的多個部分為裁判要旨資料,並且,所產生的裁判要旨資料的總字數與總句數少於裁判書資料111的總字數與總句數。
更進一步地,裁判要旨資料模型113可為分類模型,而可以對裁判書資料111的各分句資料及/或各詞彙資料進行預測分類,來預測各分句資料及/或各詞彙資料可以作為裁判要旨資料的一部分的機率分數,並依據此機率分數來選擇分句資料及詞彙資料,將所選擇的分句資料及詞彙資料進行重構以使組合後的資料在閱讀上顯得流暢,以產生裁判要旨資料。
步驟S14:處理模組10輸出所產生的裁判要旨資料。
於一實施例中,處理模組10可透過輸出模組13(可為儲存控制)將裁判要旨資料以文字格式儲存於儲存模組11。
於一實施例中,處理模組10可透過輸出模組13(如顯示模組),將裁判要旨資料顯示於顯示模組。
於一實施例中,處理模組10可透過通訊模組14將裁判要旨資料透過網路3對外傳送至外部裝置,如網路資料庫4或伺服器2。
藉此,本發明可經由機器學習來自動產生裁判要旨資料。並且,由於採用相同的裁判要旨資料模型113,本發明所自動產生的裁判要旨資料具有客觀且選擇標準一致的特性。
續請一併參閱圖1至圖3,圖3為本發明第二實施例的自動產生裁判要旨的方法的訓練模式的流程圖。於本實施例的自動產生裁判要旨的方法更包括用於訓練模式的步驟S10-S14。具體而言,本實施例的自動產生裁判要旨的方法更包括以下步驟。
步驟S20:處理模組10控制電腦系統1切換至訓練模式,並取得範本裁判書資料。並且,所取得的範本裁判書資料包括範本裁判要旨資料。
舉例來說,使用者可使用最高法院的裁判書(即附有裁判要旨)作為範本裁判書資料。
於另一例子中,使用者可將本發明所產生的裁判要旨資料結合其裁判書資料111作為範本裁判書資料,即以處理結果進行回饋學習。
步驟S21:處理模組10對範本裁判書資料執行語料前處理以產生範本裁判書資料的多個範本分句資料與多個範本詞彙資料。
前述語料前處理、範本分句資料及範本詞彙資料是與前述的語料前處理、分句資料及詞彙資料相似,於此不再贅述。
步驟S22:處理模組10基於範本裁判書資料(及/或範本裁判書資料的多個範本分句資料與多個範本詞彙資料)執行特徵擷取處理以產生範本裁判書資料的範本裁判特徵資料。
前述特徵擷取處理及範本裁判特徵資料是與前述的特徵擷取處理及裁判特徵資料相似,於此不再贅述。
步驟S23:處理模組10取得範本裁判書資料的各範本分句資料的裁判要旨標記。前述裁判要旨標記是用以指示各範本分句資料是否屬於範本裁判要旨資料。藉此,處理模組10可以得知各範本分句資料是否屬於範本裁判要旨資料的一部分,而可以於後續的學習訓練中針對屬於範本裁判要旨資料的範本分句資料分析特性。
步驟S24:處理模組10基於各範本分句資料的裁判要旨標記及範本裁判特徵資料執行分類訓練處理,以訓練裁判要旨資料模型。基於機器學習來訓練資料以建立資料模型屬於機器學習技術領域的常見技術,目前已有許多機器學習方案可適用於本發明之方法被提出,本發明主要目的是將機器學習應用於裁判書的摘要擷取,故於本說明書中不再贅述資料模型的詳細訓練細節,而僅針對本發明與現有技術不同之處加以說明。
藉此,本發明可產生裁判要旨資料模型113。並且,由於訓練用的資料經過特殊處理(步驟S30-S31),所產生的裁判要旨資料模型113將具有極佳的分類預測準確度。
續請一併參閱圖1至圖4,圖4為本發明第三實施例的自動產生裁判要旨的方法的語料前處理處理的流程圖。本實施是進一步提供前述語料前處理處理(步驟S11與步驟S21)的一種實施方式。具體而言,本實施例的自動產生裁判要旨的方法的語料前處理處理包括以下步驟。
步驟S30:處理模組10對裁判書資料111(或範本裁判書資料)執行原始資料解析處理,來自裁判書資料111中擷取出多個分句資料(即將裁判書分割為多個分句),各分句資料是對應裁判書中的句子。
步驟S31:處理模組10對所產生的多個分句資料的全部或部份執行斷詞與詞性標記處理,以產生各分句資料的多個詞彙資料(即將各分句分割為多個詞彙)。
步驟S32:處理模組10判斷本次語料前處理處理的執行是否是於訓練模式下,如判斷所輸入的裁判書資料是否包括對應的裁判要旨資料(若有,即表示所輸入者為包括範本裁判要旨資料的範本裁判書資料)以判斷本次執行屬於訓練模式或是應用模式。
若處理模組10判斷目前不處於訓練模式,則結束本次語料前處理。
若處理模組10判斷目前不處於訓練模式,則執行步驟S33:處理模組10執行裁判要旨及理由對應處理,以產生範本裁判要旨資料與範本裁判書資料的範本裁判理由段落之間的分句對應關係。
於一實施例中,處理模組10可將範本裁判要旨的各分句資料與範本裁判理由段落的各分句資料進行差異比較,以計算各分句之間的相似度(即字元對應比例),並依據相似度來建立前述分句對應關係。
舉例來說,如表一所示,處理模組10可將範本裁判要旨的各分句資料與範本裁判理由段落的各分句資料進行差異比較,並選擇相似度最高(即字元對應比例最高)的組合來進行關聯,以建立前述分句對應關係。
接著,結束本次語料前處理。值得一提的是,前述步驟S23中,處理模組10可依據前述分句對應關係對範本裁判書資料的範本裁判理由段落的對應範本裁判要旨資料的範本分句資料設定裁判要旨標記。
於一實施例中,於訓練模式下,處理模組10可先對範本裁判要旨資料執行處理,以濾除範本裁判要旨資料中的不重要文字(如註解或補充資料),再以處理後的範本裁判要旨資料執行前述裁判要旨及理由對應處理,以提升對應的準確度。
舉例來說,如表二及表三所示,處理模組10可識別並濾除範本裁判要旨資料中的不重要資料,其識別方式可基於詞庫112採用關鍵詞比對或句型結構比對,不加以限定。
續請一併參閱圖1至圖5,圖5為本發明第四實施例的自動產生裁判要旨的方法的原始資料解析處理的流程圖。本實施是進一步提供前述原始資料解析處理(步驟S30)的一種實施方式。具體而言,本實施例的自動產生裁判要旨的方法的原始資料解析處理包括以下步驟。
步驟S40:處理模組10對裁判書資料111(或範本裁判書資料)執行文字區塊擷取處理,以獲得裁判全文文字區塊。
舉例來說,如表四所示,處理模組10可識別裁判書資料111(表三是以範本裁判書資料為例)的不同欄位的欄位名稱(如裁判資料、案由摘要、裁判日期、裁判要旨、裁判全文)及其欄位範圍,來將裁判書資料111(或範本裁判書資料)分割多個文字區塊,並選擇其中的裁判全文文字區塊以進行後續處理。
於一實施例中,裁判書資料111可為欄位資料格式(如HTML、XML或EXCEL等格式),而可直接依據欄位名稱識別前述各欄位範圍,但不以此限定。
於一實施例中,詞庫112可記錄有常用各欄位的常見詞彙與放置位置,處理模組10可依據詞庫112來對裁判書資料111(或範本裁判書資料)執行文字區塊的識別。
步驟S41:處理模組10對所獲取的裁判全文文字區塊執行段落切割處理以獲得裁判理由段落。
舉例來說,如表五所示,處理模組10可識別裁判全文文字區塊的不同部分的標題(如當事人、案由、主文、主文、裁判理由、裁判日期、法院及法官、其他)及其對應範圍,來將裁判全文文字區塊分割多個段落,並選擇其中的裁判理由段落以進行後續處理。
於一實施例中,詞庫112可記錄有常用各段落的常見詞彙與放置位置(如句首詞彙),處理模組10可依據詞庫112對裁判全文文字區塊執行段落的識別。
步驟S42:處理模組10對所獲取的裁判理由段落執行分句切割處理以獲得多個分句資料。
舉例來說,如表六所示,處理模組10可識別裁判理由段落的多個分句資料(可基於標點符號來進行判別),來將裁判理由段落分割為多個分句資料,以進行後續處理。
步驟S43:處理模組10以預設分句格式儲存所獲取的多個分句資料,如JSON格式、XML格式等等,不加以限定。
圖6為本發明第五實施例的自動產生裁判要旨的方法的斷詞與詞性標記的流程圖。本實施是進一步提供前述斷詞與詞性標記(步驟S31)的一種實施方式。具體而言,本實施例的自動產生裁判要旨的方法的斷詞與詞性標記包括以下步驟。
步驟S50:處理模組10載入並執行自動斷詞模組。自動斷詞模組(如CKIP中文斷詞系統或結巴(Jieba)中文分詞系統)為本技術領域的現有技術,其運作細節於此不再贅述。
步驟S51:處理模組10經由所載入的自動斷詞模組對各分句資料執行斷詞處理,以切割各分句資料為多個詞彙資料。
於一實施例中,如表七所示,經過自動斷詞模組(如CKIP中文斷詞系統或結巴中文分詞系統處理的多個詞彙資料可能存在斷詞錯誤,如「被上訴人、「刑事訴訟法」、「第三百九十七條」、「原審」、「判決」、「駁回」、「上訴人」被錯誤斷開。對此,本發明可進一步透過詞庫112來對斷詞結果進行修正,來產生正確的詞彙資料。
步驟S52:處理模組10經由自動斷詞模組對各分句資料的多個詞彙資料執行詞性標記處理,以設定各詞彙資料於各分句資料中的詞性標記。
於一實施例中,如表八所示,不同的自動斷詞模組的詞性標記結果可能不同。對此,本發明可進一步透過詞庫112來對詞性進行修正,或者於多個自動斷詞模組的處理結果中以多數決方式來決定詞性,以產生正確的詞性標記。
藉此,本發明可產生正確的詞彙資料。
續請一併參閱圖至製圖7,圖7為本發明第六實施例的自動產生裁判要旨的方法的特徵擷取處理步驟的流程圖。本實施是進一步提供前述特徵擷
取處理(步驟S12及步驟S22)的一種實施方式。具體而言,本實施例的裁判特徵資料包括基本特徵、裁判特徵、分句標記特徵、詞彙向量、詞性特徵及句首詞彙特徵。本實施例的自動產生裁判要旨的方法的特徵擷取處理包括以下步驟。
步驟S60:處理模組10決定各分句資料或各詞彙資料的基本特徵。於一實施例中,基本特徵可包括各分句資料的字元數、詞彙數及/或各分句於裁判理由段落中的分句位置。
步驟S61:處理模組10基於多個詞彙資料決定裁判特徵。於一實施例中,裁判特徵可包括裁判類型、裁判性質、裁判性質、案件字別及/或裁判時間。並且,處理模組10可基於詞庫112來比對各分句資料的多個詞彙資料以決定裁判特徵。舉例來說,「上」、「簡上」所對應的案件種類為「上訴案件」,「抗」所對應的案件種類為「抗告案件」,「再」所對應的案件種類為「再審案件」,「非」所對應的案件種類為「非常上訴案件」與「刑事類型」等等,以此類推。
步驟S62:處理模組10依據各分句資料的起始詞彙是否符合詞庫112來對分句資料設定分句標記特徵的規則式分句標記,並依據各分句資料的任一詞彙是否符合詞庫112中的法律條文的用詞來對分句資料設定分句標記特徵的法規名稱標記。
步驟S63:處理模組10將多個詞彙資料向量化以獲得詞向量(word embedding)格式的多個詞彙資料,並分析向量化後的多個詞彙資料以獲得詞彙特徵的詞彙向量序列、分句向量、分句向量序列及文件向量。
於一實施例中,處理模組10可經由word2vec模型或fastText模型來執行前述的向量化處理。
值得一提的是,經由將詞彙資料向量化,詞彙資料的特徵可以多維空間座標來加以表示。
步驟S64:處理模組10依據向量化後的多個詞彙資料及多個詞性標記設定詞性特徵的詞性向量序列、分句詞性向量及分句詞性向量序列。
步驟S65:處理模組10依據各分句資料的句首詞彙資料設定句首詞彙特徵的句首詞彙向量及句首詞彙向量序列。
值得一提的是步驟S63-S65的向量處理都可以透過現有的向量化模型(如word2vec模型或fastText模型)來加以實現,於此不再贅述。
續請同時參閱圖1至圖8,圖8為本發明第七實施例的自動產生裁判要旨的方法的分類訓練步驟的流程與示意圖。於本實施例中,進一步提出了一種兩階段學習訓練方式,可於具有範本裁判要旨的範本裁判書資料的數量不足的情況下,藉由預測範本裁判要旨,來增加訓練樣本數並進行學習訓練,以提升裁判要旨資料模型113的精確度。
具體而言,本實施例的步驟S23更包括用於實現兩階段學習訓練的步驟S70-S73。
於本實施例中,處理模組10可執行前述步驟S20來取得一筆具有範本裁判要旨資料的範本裁判書資料(即第一範本裁判書資料),並取得一或多筆不具有範本裁判要旨資料的範本裁判書資料(即第二範本裁判書資料)。
接著,處理模組10執行前述步驟S21來分別對第一範本裁判書資料及第二範本裁判書資料執行語料前處理以產生第一範本裁判書資料的多個第一範本分句資料與多個第一範本詞彙資料及第二範本裁判書資料的多個第二範本分句資料與多個第二範本詞彙資料。
接著,處理模組10執行前述步驟S22來執行特徵擷取處理以產生第一範本裁判書資料的第一範本裁判特徵資料與第二範本裁判書資料的第二範本裁判特徵資料。
接著,處理模組10執行前述步驟S22來取得第一範本裁判書資料的各第一範本分句資料的裁判要旨標記(第一裁判要旨標記)。
接著,處理模組10執行以下步驟S70-S73以建立並訓練裁判要旨資料模型。
步驟S70:處理模組10將第一範本裁判特徵資料(即範本裁判特徵資料50)及其第一範本裁判要旨資料(即範本裁判要旨資料51)輸入至學習機60(如用於建立並訓練資料模型的程式),以透過執行分類訓練處理,來獲得第一模型61。
於一實施例中,處理模組10可輸入各第一範本分句資料的裁判要旨標記來替代第一範本裁判要旨資料(即範本裁判要旨資料51)來執行分類訓練處理。
步驟S71:處理模組10以第一模型61對第二範本裁判書資料(即另一範本裁判書資料52)進行摘要處理,以預測第二範本裁判書資料(即另一範本裁判書資料52)的第二範本裁判要旨資料(即預測裁判要旨53)。
於一實施例中,處理模組10是將第二範本裁判特徵資料輸入至第一模型61來預測各第二範本分句資料的預測裁判要旨標記,藉以預測第二範本裁判要旨資料(即預測裁判要旨53)。前述裁判要旨標記可以是用以指示各第二範本分句資料屬於第二範本裁判要旨資料的機率分數,透過機率分數可以判斷各第二範本分句資料是否適合作為第二範本裁判要旨資料的一部分,如機率分數滿足臨界分數(如95%)即認定屬於第二範本裁判要旨資料。
步驟S72:處理模組10可於第二範本裁判書資料(另一範本裁判書資料52)中濾除機率分數不符臨界分數的第二範本分句資料,即濾除不適合做為第二範本裁判要旨資料的第二範本分句資料,並保留適合做為第二範本裁判要旨資料的第二範本分句資料。
步驟S73:處理模組10可將第二範本裁判書資料(即另一範本裁判書資料52)及其第二範本裁判要旨資料(即預測裁判要旨53)輸入至學習機60,以透過執行分類訓練處理,來獲得第二模型62,並將第二模型作為裁判要旨資料模型113。
於一實施例中,處理模組10可將第一範本裁判特徵資料、第二範本裁判特徵資料、第一範本裁判要旨資料及預測獲得的第二範本裁判要旨資料合併輸入至學習機60,以透過執行分類訓練處理,來獲得第二模型62,並將第二模型作為裁判要旨資料模型113。
更進一步地,處理模組10可僅將屬於第一範本裁判要旨資料的各第一範本分句資料及屬於第二範本裁判要旨資料的各第二範本分句資料(即步驟S72中未濾除的第二範本分句資料)合併輸入至學習機60,以透過執行分類訓練處理,來獲得第二模型62,並將第二模型作為裁判要旨資料模型113。
藉此,本發明可增加訓練樣本數,並提升裁判要旨資料模型113的精確度。
續請一併參閱圖1至圖9,圖9為本發明一實施例的裁判要旨資料模型的架構圖。
於本實施例中,裁判要旨資料模型113可包括多種深度學習資料模型(deep learning data model),圖9以全連結神經網路(fully-connected neural network)及迴圈神經網路(recurrent neural network)的組合為例,裁判要旨資料模型113可將多種深度學習資料模型的運算結果進行組合,來獲得最佳的運算結果。
具體而言,於本實施例中,所產生的範本裁判特徵資料可以包括序列型態特徵資料70與非序列型態特徵資料72。
裁判要旨資料模型主要包括迴圈神經網路71、全連結神經網路73(第一全連結神經網路)、連接層(concatenate layer)74、另一全連結神經網路75(第二全連結神經網路)及輸出層76。
迴圈神經網路71包括輸入層710、多個基礎神經元711(neuron)及輸出層712。輸入層710用以接受序列型態特徵資料70的輸入。前述多個基礎神經元711被建構為多層的長短期記憶層(long short-term memory layer),而可對序列型態特徵資料70進行處理。
全連結神經網路73包括輸入層730,多個基礎神經元731及輸出層732。輸入層730用以接受非序列型態特徵資料72的輸入。前述多個基礎神經元711被建構為多層的全連結層(fully-connected layer),而可對非序列型態特徵資料72進行處理。
連接層74用以資訊連結迴圈神經網路71及全連結神經網路73,以合併迴圈神經網路71的運算結果及全連結神經網路73的運算結果。
另一全連結神經網路75包括輸入層750,多個基礎神經元751。輸入層730用以接受連接層74的合併運算結果的輸入。前述多個基礎神經元751被建構為多層的全連結層。
輸出層76用以輸出另一全連結神經網路75的運算結果(如前述裁判要旨資料)。
藉此,本發明可基於深度學習模型來預測產生裁判要旨資料。
續請一併參閱圖1至圖10,圖10為本發明第八實施例的自動產生裁判要旨的方法的摘要處理的流程圖。於本實施例中,裁判要旨資料模型113可包括不同類型的多種機器學習資料模型,如深度學習資料模型與非深度學習資料模型,
具體而言,於本實施例中,是同時透過深度學習與非深度學習來執行步驟S14的摘要處理。本實施例的裁判要旨資料模型可包括圖9所示的深度學習資料模型與非深度學習的梯度提升資料模型(gradient boosting model)來產生運算結果(即裁判要旨資料)。
於一實施例中,前述梯度提升資料模型為輕量梯度提升(lightGBM,light gradient boosting machine)資料模型。輕量梯度提升資料模型為機器學習分類模型,其具體分類方式於此不再贅述。本發明之進步主要是將輕量梯度提升資料模型運用於自動摘要處理。
於本實施例中,步驟S14的摘要處理可包括以下步驟。
步驟S80:處理模組10判斷目前要執行的是深度學習或非深度學習。
於一實施例中,處理模組10可先執行深度學習(步驟S81-S85)產生運算結果,再執行非深度學習(步驟S86)產生運算結果,但不以此限定。
於一實施例中,處理模組10可先執行非深度學習產生運算結果,再執行深度學習產生運算結果。
於一實施例中,處理模組10可同時執行深度學習與非深度學習,以經由平行處理來獲得深度學習與非深度學習的運算結果。
若目前要執行的是深度學習,則處理模組10執行步驟S81-S85。
步驟S81:處理模組10將序列型態特徵資料70輸入至迴圈神經網路71的輸入層710。
步驟S82:處理模組10將非序列型態特徵資料72輸入至全連結神經網路73的輸入層730。
步驟S83:處理模組10將迴圈神經網路71的輸出層712所輸出的運算結果與全連結神經網路73的輸出層732所輸出的運算結果傳遞至連接層74,以使連接層74將兩種運算結果進行合併。
步驟S84:處理模組10將連接層74合併後的運算結果傳遞至另一全連結神經網路75的輸入層750。
步驟S85:處理模組10將另一全連結神經網路75的多層的全連結層751的運算結果傳遞至輸出層76,以輸出深度學習的運算結果。
若於步驟S80中,目前要執行的是非深度學習,則處理模組10執行步驟S86:處理模組10載入輕量梯度提升資料模型,並執行梯度提升資料模型(如輕量梯度提升資料模型)以輸出非深度學習的運算結果。
於一實施例中。本發明執行該輕量梯度提升資料模型是基於多個決策樹來進行運算,並使用最佳優先(leaf-wise)策略來擴展該多個決策樹的節點,以進行學習並產生運算結果。
接著,於深度學習與非深度學習都執行完畢後,處理模組10可執行步驟S87:處理模組10將裁判要旨資料模型中的多種機器學習資料模型的多組運算結果進行彙整,以產生單一運算結過作為輸出。
於一實施例中,處理模組10是基於整體學習(ensemble learning)資料模型以算數平軍法、加權平均法或模型選擇法來組合多組運算結果為一筆運算結果。
接著,處理模組10可依據運算結果(如裁判書資料111的各分句資料屬於裁判要旨的機率分數),選擇多個分句資料(如選擇機率分數不低於臨界分數的多個分句資料),並重構所選擇的多個分句資料為裁判要旨資料。本發明經由使用非深度學習,可大幅降低錯誤資料對於學習的影響,如造成錯誤的學習,而使得運算結果錯誤。
值得一提的是,雖於本實施例中,是以結合深度學習與非深度學習為例進行說明,但不以此限定。
於一實施例中,本發明亦可僅執行非深度學習或僅執行深度學習。
以上所述僅為本發明之較佳具體實例,非因此即侷限本發明之專利範圍,故舉凡運用本發明內容所為之等效變化,均同理皆包含於本發明之範圍內,合予陳明。
S10-S14:自動產生要旨步驟
Claims (10)
- 一種自動產生裁判要旨的方法,包括以下步驟:a)由一電腦系統於一應用模式下取得一裁判書資料;b)對該裁判書資料執行一語料前處理,其中該語料前處理包括用以基於該裁判書資料產生多個分句資料的一原始資料解析處理及用以基於各該分句資料產生多個詞彙資料的一斷詞與詞性標記處理;c)基於該裁判書資料、該多個分句資料及該多個詞彙資料執行一特徵擷取處理以產生一裁判特徵資料,其中該特徵擷取處理是分析並擷取該裁判書資料的基本特徵、裁判特徵、分句標記特徵、詞彙特徵、詞性特徵及句首詞彙特徵;d)載入一裁判要旨資料模型,並以該裁判要旨資料模型對該裁判特徵資料執行一摘要處理以產生一裁判要旨資料,其中該摘要處理是基於該裁判特徵資料自該裁判書資料中選擇多個部分,並重構該多個部分為該裁判要旨資料,該裁判要旨資料的總字數與總句數少於該裁判書資料的總字數與總句數;及e)輸出該裁判要旨資料;其中,該特徵擷取處理包括以下步驟:f1)決定該裁判特徵資料的該基本特徵,其中該基本特徵包括各該分句資料的字元數、詞彙數及各該分句資料於一裁判理由段落中的分句位置;f2)基於該多個詞彙資料決定該裁判特徵資料的該裁判特徵,其中該裁判特徵包括裁判類型、裁判性質、裁判性質、案件字別及裁判時間;f3)依據各該分句資料的一起始詞彙是否符合一裁判詞庫來對該分句資料設定該分句標記特徵的一規則式分句標記,並依據各該分句資料的任一該詞彙資料是否符合一法律條文詞庫來對該分句資料設定該分句標記特徵的一法規名稱標記; f4)將該多個詞彙資料向量化以獲得詞向量格式的該多個詞彙資料,並分析向量化後的該多個詞彙資料以獲得該詞彙特徵的詞彙向量序列、分句向量、分句向量序列及文件向量;f5)依據向量化後的該多個詞彙資料及多個詞性標記設定該詞性特徵的詞性向量序列、分句詞性向量及分句詞性向量序列;及f6)依據各該分句資料的句首詞彙資料設定該句首詞彙特徵的句首詞彙向量及句首詞彙向量序列。
- 如請求項1所述的自動產生裁判要旨的方法,其中於該步驟d)之前更包括以下步驟:g1)由該電腦系統於一訓練模式下取得一範本裁判書資料,其中該範本裁判書資料包括一範本裁判要旨資料;g2)對該範本裁判書資料執行該語料前處理以產生該範本裁判書資料的多個範本分句資料與多個範本詞彙資料;g3)基於該範本裁判書資料及該範本裁判書資料的該多個範本分句資料與該多個範本詞彙資料執行該特徵擷取處理以產生該範本裁判書資料的一範本裁判特徵資料;g4)取得該範本裁判書資料的各該範本分句資料的一裁判要旨標記,其中該裁判要旨標記是用以指示各該範本分句資料是否屬於該範本裁判要旨資料;及g5)基於各該範本分句資料的該裁判要旨標記及該範本裁判特徵資料執行一分類訓練處理,以訓練該裁判要旨資料模型。
- 如請求項2所述的自動產生裁判要旨的方法,其中於該訓練模式下,該步驟g2)更包括執行一裁判要旨及理由對應處理,該裁判要旨及理由對應處理用以產生該範本裁判要旨資料與該範本裁判書資料的一範本裁判理由段落 之間的一分句對應關係;該步驟g4)是依據該分句對應關係對該範本裁判理由段落中對應該範本裁判要旨資料的該範本分句資料設定該裁判要旨標記。
- 如請求項2所述的自動產生裁判要旨的方法,其中該裁判要旨資料模型包括一深度學習資料模型(deep learning data model),該深度學習資料模型包括具有多層的全連結層(fully-connected layer)的全連結神經網路(fully-connected neural network)、具有多層的長短期記憶層(long short-term memory layer)作為基礎神經元(neuron)的迴圈神經網路(recurrent neural network)、資訊連結該全連結神經網路及該迴圈神經網路的連接層(concatenate layer)、資訊連結該連接層的另一多層的全連結層及資訊連結該另一多層的全連結層的輸出層。
- 如請求項4所述的自動產生裁判要旨的方法,其中該範本裁判特徵資料包括序列型態特徵資料與非序列型態特徵資料;該裁判要旨資料模型的執行包括以下步驟:h1)將該非序列型態特徵資料輸入至該全連結神經網路的一輸入層;h2)將該序列型態特徵資料輸入至該迴圈神經網路的一輸入層;h3)將該全連結神經網路的運算結果與該迴圈神經網路的運算結果傳遞至該連接層;h4)將該連接層的運算結果傳遞至該另一多層的全連結層;及h5)將該另一多層的全連結層的運算結果傳遞至該輸出層,以輸出該裁判要旨資料模型的用以判斷該裁判書資料的各該分句資料是否屬於該裁判要旨資料的運算結果。
- 如請求項2所述的自動產生裁判要旨的方法,其中該裁判要旨資料模型包括基於一輕量梯度提升(light gradient boosting machine)資料模型,該裁判要旨資料模型的執行包括一步驟h6)執行該輕量梯度提升資料模型以基於多個決策樹對輸入資料來進行運算,並使用最佳優先(leaf-wise)策略來擴展該多個決 策樹的節點,以進行學習並產生運算結果,該運算結果是用以判斷該裁判書資料的各該分句資料是否屬於該裁判要旨資料。
- 如請求項2所述的自動產生裁判要旨的方法,其中該裁判要旨資料模型包括不同類型的多種機器學習資料模型,該多種機器學習資料模型產生多組運算結果,該裁判要旨資料模型的執行包括一步驟h7)基於整體學習(ensemble learning)資料模型以算數平均法、加權平均法或模型選擇法來組合該多組運算結果為一筆該運算結果,各該運算結果是用以判斷該裁判書資料的各該分句資料是否屬於該裁判要旨資料。
- 如請求項2所述的自動產生裁判要旨的方法,其中該步驟g1)是取得包括該範本裁判要旨資料的第一範本裁判書資料及不包括該範本裁判要旨資料的一第二範本裁判書資料;該步驟g2)是分別對該第一範本裁判書資料及該第二範本裁判書資料執行該語料前處理以產生該第一範本裁判書資料的多個第一範本分句資料與多個第一範本詞彙資料及該第二範本裁判書資料的多個第二範本分句資料與多個第二範本詞彙資料;該步驟g3)是基於該第一範本裁判書資料及該第一範本裁判書資料的該多個第一範本分句資料與該多個第一範本詞彙資料執行該特徵擷取處理以產生該第一範本裁判書資料的一第一範本裁判特徵資料,並基於該第二範本裁判書資料及該第二範本裁判書資料的該多個第二範本分句資料與該多個第二範本詞彙資料執行該特徵擷取處理以產生該第二範本裁判書資料的一第二範本裁判特徵資料;該g4)取得該第一範本裁判書資料的各該第一範本分句資料的一裁判要旨標記,該裁判要旨標記是用以指示各該第一範本分句資料是否屬於該範本裁判要旨資料;該步驟g5)包括以下步驟:g51)基於各該第一範本分句資料的該裁判要旨標記及該第一範本裁判特徵資料執行該分類訓練處理,以訓練一第一模型; g52)以該第一模型預測該第二範本裁判書資料的各該第二範本分句資料的一預測裁判要旨標記,該裁判要旨標記是用以指示各該第二範本分句資料屬於該第二範本裁判書資料的該範本裁判要旨資料的機率分數;g53)於該第二範本裁判書資料中,濾除該機率分數不符一臨界分數的該第二範本分句資料;及g54)基於該第一範本裁判特徵資料的屬於該範本裁判要旨資料的各該第一範本分句資料及篩選後的各該第二範本分句執行該分類訓練處理,以訓練一第二模型來作為該裁判要旨資料模型。
- 如請求項1所述的自動產生裁判要旨的方法,其中該原始資料解析處理包括以下步驟:i1)對該裁判書資料執行一文字區塊擷取處理,以獲得一裁判全文文字區塊;i2)對該裁判全文文字區塊執行一段落切割處理以獲得該裁判理由段落;i3)對該裁判理由段落執行一分句切割處理以獲得該多個分句資料;及i4)以一預設分句格式儲存該多個分句資料;其中,該斷詞與詞性標記處理包括以下步驟:j1)載入並執行一自動斷詞模組;j2)經由該自動斷詞模組對各該分句資料執行一斷詞處理,以切割各該分句資料為該多個詞彙資料;及j3)經由該自動斷詞模組對各該分句資料的該多個詞彙資料執行一詞性標記處理,以設定各該詞彙資料於各該分句資料中的該詞性標記。
- 如請求項1所述的自動產生裁判要旨的方法,其中該步驟e)是將該裁判要旨資料以文字格式儲存於該電腦系統的一儲存模組,將該裁判要旨資料顯示於該電腦系統的一顯示模組或透過網路對外傳送該裁判要旨資料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109120287A TWI757767B (zh) | 2020-06-16 | 2020-06-16 | 自動產生裁判要旨的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW109120287A TWI757767B (zh) | 2020-06-16 | 2020-06-16 | 自動產生裁判要旨的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202201336A TW202201336A (zh) | 2022-01-01 |
TWI757767B true TWI757767B (zh) | 2022-03-11 |
Family
ID=80787733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109120287A TWI757767B (zh) | 2020-06-16 | 2020-06-16 | 自動產生裁判要旨的方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI757767B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116484010B (zh) * | 2023-03-15 | 2024-01-16 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285094A (zh) * | 2017-07-19 | 2019-01-29 | 北京国双科技有限公司 | 法律文书的处理方法及装置 |
CN110633458A (zh) * | 2018-06-25 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 裁判文书的生成方法和生成装置 |
CN110727792A (zh) * | 2019-10-17 | 2020-01-24 | 重庆法谷大数据有限公司 | 一种司法裁判规则数据库的构建方法、数据库及查询方法 |
CN110750974A (zh) * | 2019-09-20 | 2020-02-04 | 成都星云律例科技有限责任公司 | 一种裁判文书结构化处理方法及系统 |
US20200151392A1 (en) * | 2015-10-28 | 2020-05-14 | Qomplx, Inc. | System and method automated analysis of legal documents within and across specific fields |
US20200184584A1 (en) * | 2018-12-07 | 2020-06-11 | Capital One Services, Llc | Systems and methods for legal clause matching and explanation |
-
2020
- 2020-06-16 TW TW109120287A patent/TWI757767B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200151392A1 (en) * | 2015-10-28 | 2020-05-14 | Qomplx, Inc. | System and method automated analysis of legal documents within and across specific fields |
CN109285094A (zh) * | 2017-07-19 | 2019-01-29 | 北京国双科技有限公司 | 法律文书的处理方法及装置 |
CN110633458A (zh) * | 2018-06-25 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 裁判文书的生成方法和生成装置 |
US20200184584A1 (en) * | 2018-12-07 | 2020-06-11 | Capital One Services, Llc | Systems and methods for legal clause matching and explanation |
CN110750974A (zh) * | 2019-09-20 | 2020-02-04 | 成都星云律例科技有限责任公司 | 一种裁判文书结构化处理方法及系统 |
CN110727792A (zh) * | 2019-10-17 | 2020-01-24 | 重庆法谷大数据有限公司 | 一种司法裁判规则数据库的构建方法、数据库及查询方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202201336A (zh) | 2022-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
WO2021203581A1 (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110795525B (zh) | 文本结构化方法、装置、电子设备及计算机可读存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN110532386A (zh) | 文本情感分类方法、装置、电子设备及存储介质 | |
CN111274371B (zh) | 一种基于知识图谱的智能人机对话方法及设备 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN113468433A (zh) | 目标事件抽取数据处理系统 | |
CN112966117A (zh) | 实体链接方法 | |
WO2020065970A1 (ja) | 学習システム、学習方法、及びプログラム | |
CN111401012B (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN113886531A (zh) | 智能问答话术确定方法、装置、计算机设备和存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
TWI757767B (zh) | 自動產生裁判要旨的方法 | |
CN113868419A (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN116644183A (zh) | 文本分类方法、装置及存储介质 | |
CN115034302B (zh) | 优化信息融合策略的关系抽取方法、装置、设备及介质 | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN113868389A (zh) | 基于自然语言文本的数据查询方法、装置及计算机设备 | |
Swaileh et al. | A named entity extraction system for historical financial data | |
CN112559750A (zh) | 文本数据的分类方法、装置、非易失性存储介质、处理器 |