TWI549003B - 自動切割章節方法 - Google Patents

自動切割章節方法 Download PDF

Info

Publication number
TWI549003B
TWI549003B TW103128360A TW103128360A TWI549003B TW I549003 B TWI549003 B TW I549003B TW 103128360 A TW103128360 A TW 103128360A TW 103128360 A TW103128360 A TW 103128360A TW I549003 B TWI549003 B TW I549003B
Authority
TW
Taiwan
Prior art keywords
paragraph
combination
chapter
paragraphs
average
Prior art date
Application number
TW103128360A
Other languages
English (en)
Other versions
TW201608392A (zh
Inventor
崔殷豪
Original Assignee
葆光資訊有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 葆光資訊有限公司 filed Critical 葆光資訊有限公司
Priority to TW103128360A priority Critical patent/TWI549003B/zh
Priority to CN201510040591.XA priority patent/CN105988975A/zh
Priority to JP2015093049A priority patent/JP2016042349A/ja
Priority to US14/729,891 priority patent/US20160048482A1/en
Publication of TW201608392A publication Critical patent/TW201608392A/zh
Application granted granted Critical
Publication of TWI549003B publication Critical patent/TWI549003B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

自動切割章節方法
本發明係有關於一種切割章節方法,特別是一種適用於數位文章的自動切割章節方法。
隨著科技的進步,手持顯示裝置(如平板電腦、手機)已普及於人們的生活周遭。人們常使用此等手持顯示裝置瀏覽網頁、閱讀數位出版之書籍。因此,數位書籍的需求量大增,使得出版社和素人作者開始考慮在出版傳統紙本書籍之外,亦可踏入數位出版之門。
為了讓讀者方便掌握書籍內容的全貌,往往書籍編排上會設置目錄頁。雖然,目前已有許多文書編輯軟體均具有章節編輯的功能(如微軟的WORD軟體),然而不黯操作此功能之作者仍不在少數。若數位文章未帶有章節編輯之設定,出版者或作者需要重新找出各個章節的標題及其所在頁碼,並另行編輯目錄,將造成出版者與作者之困擾與延長出版準備時間。因此,若能輔助未設定章節編輯之數位文章自動產生出章節目錄,將能減縮數位出版之準備時程。
鑒於以上的問題,本發明在於提供一種自動切割章節方法,藉以解決先前技術所存在未帶有章節設定之數位文章需要勞心勞力重新編輯章節的問題。
本發明之一實施例提供一種自動切割章節方法,適用於一數位文章,係先識別數位文章之複數段落之樣式組合。接著,計算每一不同的樣式組合之段落之一個或一個以上的段落特徵,段落特徵可為段落分散度、字型大小、平均字數、平均段落間距或其任意組合。再根據每一段落特徵,分別排名樣式組合。續而可分別根據各樣式組合對應每一段落特徵的排名,計算一加權平均值。再選取加權平均值排名第一者之段落為複數候選章節段落。最後根據候選章節段落切割數位文章為複數章節。於此,樣式組合可包括字型大小、粗體、斜體、行首縮排、對齊方式、底線或其任意組合。
在一實施例中,可先統計各樣式組合之段落之重複次數,再刪除僅有一個段落之樣式組合,以及刪除具有最多數量之段落之樣式組合。甚者,還可刪除平均字數大於一字數門檻值的樣式組合,並刪除平均字數小於或等於一字的樣式組合。藉此,可預先過濾不會是章節標題的段落,以減輕後續計算段落特徵之負荷。因此,前述計算每一不同的樣式組合之段落之一個或一個以上的段落特徵之步驟,係以刪除後所剩餘之樣式組合進行統計。
在一實施例中,當段落特徵包含段落分散度時,可先平均切分段落為複數群組,再計算不同的樣式組合之段落位於群組之所佔比例,藉以計算出各個段落的段落分散度。
在一實施例中,根據每一種段落特徵的類型,分別針對樣式組合進行排名,具體而言,若段落特徵的類型為段落分散度,則段落分散度由大到小排名;若段落特徵的類型為字型大小,則字型大小由大到小排名;若段落特徵的類型為平均字數,則平均字數根據對於一預設字數的差由小到大排名;若段落特徵的類型為平均段落間距,則平均段落間距由大到小排名。
在一實施例中,於切割完章節後還可儲存所切割之章節為多個文件檔案。
根據本發明之自動切割章節方法,應用於數位文章,可自動識別出章節標題在數位文章中的位置(頁數、行數),而可據以產生目錄內容。
請參閱第1圖,係為本發明之一實施例之自動切割章節方法流程圖。所述自動切割章節方法係適用對象為數位文章。所述數位文章即為支援樣式設定之數位文字檔案,例如HTML(HyperText Markup Language)、微軟(Microsoft)公司的WORD文件、奧多比系統(Adobe Systems)公司的PDF文件、富文字格式檔案(RTF檔)等。此些數位文字檔案係可由文書軟體編輯而成,亦可由書籍掃描圖檔經文字辨識(如光學字元識別技術,OCR)後所生成。有關如何生成數位文字檔案,吾人已於中華民國 第103116324號專利申請案「流式電子書之產生方法及網站系統」說明,以下將著重於如何根據數位文字檔案之內容自動區分出各個章節來說明。
第2圖為本發明一實施例之數位文章200之示意圖。如第2圖所示,數位文章200包括複數個段落,段落可為章段落210、節段落220及內文段落230。但本發明之實施例之段落非僅以此三種段落類型為限,亦可能僅有章段落210及內文段落230,或者具有更多種段落類型(如小節段落)。 一般而言,相同的段落類型會有共同或相似的樣式組合。樣式組合可包括但不限於字型大小、粗體、斜體、行首縮排、對齊方式(如靠左對齊、置中對齊、靠右對齊)、底線或其任意組合。因此,藉由識別各段落類型的數量、字數及分佈情形,將可找出候選章節段落(意即可能為章節段落者)。在此,本文所指之「任意組合」係可為其中部分(其中一個或一個以上)或全部。以樣式組合為例,係可僅為字型大小,亦可為字型大小結合其他參數(如對齊方式)。
如第2圖所示,於本實施例中,章段落210係為置中之粗體文字,且字體大小為18;節段落220為靠左的文字,字體大小為16。為了使圖式清楚呈現,在此未繪示內文段落230的文字內容,僅以填滿斜線的方框表示一個內文段落230。一個內文段落230可包含複數行文字。於此,內文段落230為靠左且縮排兩字之文字,且字體大小為12。
復參閱第1圖,於步驟S110中,係先識別數位文章200之複數段落之樣式組合。於是,可辨識出數位文章200中具有前述三種段落類型。
接著,於步驟S120中,計算每一不同的樣式組合之段落之一個或一個以上的段落特徵,段落特徵可為段落分散度、字型大小、平均字數、平均段落間距或其任意組合。平均字數為同一個段落類型之段落之字數之平均值。段落間距係指段落與其前後段落之間距;平均段落間距則為同一個段落類型之段落之所述間距之平均。段落分散度係指各個段落類型之多個段落在數位文章200中的分散程度。一般而言,書籍之章節不會過度密集於某一區段,因此段落分散度是識別章節段落的其中一個重要指標。
如第3圖所示,係為本發明一實施例之段落分散度示意圖。段落分散度之計算,係先平均切分段落為複數群組,再計算不同的樣式組合之段落位於群組之所佔比例,藉以計算出各個段落的段落分散度。若將數位文章200區分為N個等分,N為大於1的正整數。於此,數位文章200係區分為五等分(由四條鏈線所區分)。可以看到,內文段落230之分佈最不平均,而節段落220之分佈最為平均,章段落210則次之。因此,透過段落分散度,可優先排除不會是章節段落者。然而,欲找出哪一個段落類型為章段落210,何者為節段落220,則可配合其他段落特徵(如字型大小)綜合評估。
因此,於步驟120之後,根據每一段落特徵,分別排名樣式組合(步驟S130)。 若段落特徵的類型為段落分散度,則段落分散度由大到小排名。若段落特徵的類型為字型大小,則字型大小由大到小排名。若段落特徵的類型為平均字數,則平均字數根據對於一預設字數的差由小到大排名。若段落特徵的類型為平均段落間距,則平均段落間距由大到小排名。然而,前述排名方式並非以此為限,針對應用的數位文章200之排版習慣可進行適應性的調整。
接著,在步驟S140中,可分別根據各樣式組合對應每一段落特徵的排名,計算一加權平均值。換言之,針對各個段落特徵之重要性,可分別乘上一加權值,再加總起來取得平均值。
於是,在步驟S150中,即可選取加權平均值排名第一者之段落為複數候選章節段落。最後,根據候選章節段落的位置,便可切割數位文章為複數章節(步驟S160)。同時,也可根據候選章節段落的位置,產生目錄內容。
在一實施例中,在步驟S120之前,可先統計各樣式組合之段落之重複次數,再刪除僅有一個段落之樣式組合,因為一般而言,章節段落不會只有一個。也可以刪除具有最多數量之段落之樣式組合,在本實施例中,便可去除內文段落230。甚者,還可刪除平均字數大於一字數門檻值的樣式組合,並刪除平均字數小於或等於一字的樣式組合。因為一般而言,章節段落的字數不會過長。藉由上述方式,優先去除不會是章節段落者,可減輕後續計算段落特徵之負荷。因此,若進行所述去除不會是章節段落者之步驟,則第1圖中步驟 S120所計算每一不同的樣式組合之段落之一個或一個以上的段落特徵,係以刪除後所剩餘之樣式組合進行統計。
本發明實施例之自動切割章節方法係可由一網站伺服器所執行,可供使用者透過網際網路登入使用。當使用者終端(如個人電腦、智慧型手機等)上傳數位文章200至網站伺服器後,網站伺服器便可執行前述之自動切割章節方法,而可將數位文章按其章節標題進行切割,切割完章節後還可儲存所切割之章節為多個文件檔案,也可按章節標題分佈建立對應的目錄。
前述實施例雖以橫書之數位文章200為例,但本發明實施例非限於此,可應用之數位文章200亦可採直書形式。
綜上所述,根據本發明之自動切割章節方法,應用於數位文章,可自動識別出章節標題在數位文章中的位置(頁數、行數),而可據以產生目錄內容。
200‧‧‧數位文章
210‧‧‧章標題
220‧‧‧節標題
230‧‧‧內文段落
S110‧‧‧識別數位文章之複數段落之樣式組合
S120‧‧‧計算每一不同的樣式組合之段落之一個或一個以上的段落特徵,段落特徵為段落分散度、字型大小、平均字數、平均段落間距或其任意組合
S130‧‧‧根據每一段落特徵,分別排名樣式組合
S140‧‧‧分別根據各樣式組合對應每一段落特徵的排名,計算一加權平均值
S150‧‧‧選取加權平均值排名第一者之段落為複數候選章節段落
S160‧‧‧根據候選章節段落切割數位文章為複數章節
[第1圖]為本發明之一實施例之自動切割章節方法流程圖。 [第2圖]為本發明一實施例之數位文章之示意圖。 [第3圖]為本發明一實施例之段落分散度示意圖。
S110‧‧‧識別數位文章之複數段落之樣式組合
S120‧‧‧計算每一不同的樣式組合之段落之一個或一個以上的段落特徵,段落特徵為段落分散度、字型大小、平均字數、平均段落間距或其任意組合
S130‧‧‧根據每一段落特徵,分別排名樣式組合
S140‧‧‧分別根據各樣式組合對應每一段落特徵的排名,計算一加權平均值
S150‧‧‧選取加權平均值排名第一者之段落為複數候選章節段落
S160‧‧‧根據候選章節段落切割數位文章為複數章節

Claims (8)

  1. 一種自動切割章節方法,適用於一數位文章,包括: 識別該數位文章之複數段落之樣式組合; 計算每一不同的該樣式組合之該些段落之一個或一個以上的段落特徵,該段落特徵為段落分散度、字型大小、平均字數、平均段落間距或其任意組合; 根據每一該段落特徵,分別排名該些樣式組合; 分別根據各該樣式組合對應每一該段落特徵的排名,計算一加權平均值; 選取該加權平均值排名第一者之該些段落為複數候選章節段落;及 根據該些候選章節段落切割該數位文章為複數章節。
  2. 如請求項1所述之自動切割章節方法,更包括: 統計各該樣式組合之該段落之重複次數; 刪除僅有一個該段落之該些樣式組合;及 刪除具有最多數量之該段落之該樣式組合。
  3. 如請求項2所述之自動切割章節方法,其中該計算每一不同的該樣式組合之該些段落之一個或一個以上的段落特徵之步驟係以刪除後所剩餘之該些樣式組合進行統計。
  4. 如請求項1所述之自動切割章節方法,其中該段落特徵包含該段落分散度時,該計算每一不同的該樣式組合之該些段落之一個或一個以上的段落特徵之步驟包括: 平均切分該些段落為複數群組;及 計算不同的該樣式組合之該些段落位於該些群組之一所佔比例。
  5. 如請求項1所述之自動切割章節方法,更包括: 刪除平均字數大於一字數門檻值的該些樣式組合並刪除平均字數小於或等於一字的該些樣式組合。
  6. 如請求項1所述之自動切割章節方法,其中該根據每一該段落特徵,分別排名該些樣式組合之步驟,包括: 於該段落特徵包括該段落分散度時,該段落分散度由大到小排名; 於該段落特徵包括該字型大小時,該字型大小由大到小排名; 於該段落特徵包括該平均字數時,該平均字數根據對於一預設字數的差由小到大排名;及 於該段落特徵包括該平均段落間距時,該平均段落間距由大到小排名。
  7. 如請求項1所述之自動切割章節方法,更包括: 儲存所切割之該些章節為多個文件檔案。
  8. 如請求項1所述之自動切割章節方法,其中該樣式組合包括字型大小、粗體、斜體、行首縮排、對齊方式、底線或其任意組合。
TW103128360A 2014-08-18 2014-08-18 自動切割章節方法 TWI549003B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW103128360A TWI549003B (zh) 2014-08-18 2014-08-18 自動切割章節方法
CN201510040591.XA CN105988975A (zh) 2014-08-18 2015-01-27 自动切割章节方法
JP2015093049A JP2016042349A (ja) 2014-08-18 2015-04-30 章・セクションの自動分割方法
US14/729,891 US20160048482A1 (en) 2014-08-18 2015-06-03 Method for automatically partitioning an article into various chapters and sections

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103128360A TWI549003B (zh) 2014-08-18 2014-08-18 自動切割章節方法

Publications (2)

Publication Number Publication Date
TW201608392A TW201608392A (zh) 2016-03-01
TWI549003B true TWI549003B (zh) 2016-09-11

Family

ID=55302273

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103128360A TWI549003B (zh) 2014-08-18 2014-08-18 自動切割章節方法

Country Status (4)

Country Link
US (1) US20160048482A1 (zh)
JP (1) JP2016042349A (zh)
CN (1) CN105988975A (zh)
TW (1) TWI549003B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670162A (zh) * 2017-10-13 2019-04-23 北大方正集团有限公司 标题的确定方法、装置及终端设备
US10726198B2 (en) * 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
US10650186B2 (en) 2018-06-08 2020-05-12 Handycontract, LLC Device, system and method for displaying sectioned documents
CN110502727A (zh) * 2019-02-21 2019-11-26 贵州广思信息网络有限公司 Word简化章节序号设置与使用的方法
US11468346B2 (en) * 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document
US11494555B2 (en) 2019-03-29 2022-11-08 Konica Minolta Business Solutions U.S.A., Inc. Identifying section headings in a document
CN110717323B (zh) * 2019-10-17 2020-07-31 北京幻想纵横网络技术有限公司 文档分章方法及装置、终端和计算机可读存储介质
US11775549B2 (en) 2021-03-18 2023-10-03 Tata Consultancy Services Limited Method and system for document indexing and retrieval
CN113673255B (zh) * 2021-08-25 2023-06-30 北京市律典通科技有限公司 文本功能区域拆分方法、装置、计算机设备及存储介质
CN117688927B (zh) * 2024-02-02 2024-04-30 北方健康医疗大数据科技有限公司 病历章节重配置方法、系统、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW541468B (en) * 2001-07-31 2003-07-11 Ind Tech Res Inst Method of text segmentation
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
CN102486769A (zh) * 2010-12-02 2012-06-06 北大方正集团有限公司 文档目录处理方法和装置
CN103778141A (zh) * 2012-10-23 2014-05-07 南开大学 一种混合pdf图书目录自动抽取算法
CN103885935A (zh) * 2014-03-12 2014-06-25 浙江大学 基于图书阅读行为的图书章节摘要生成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
CA2504423C (en) * 2002-10-31 2011-10-18 Arizan Corporation Methods and apparatus for summarizing document content for mobile communication devices
US7715635B1 (en) * 2006-09-28 2010-05-11 Amazon Technologies, Inc. Identifying similarly formed paragraphs in scanned images
CN101782896B (zh) * 2009-01-21 2011-11-30 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5310206B2 (ja) * 2009-04-08 2013-10-09 コニカミノルタ株式会社 文書処理装置、文書処理方法および文書処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW541468B (en) * 2001-07-31 2003-07-11 Ind Tech Res Inst Method of text segmentation
CN101354727A (zh) * 2008-09-24 2009-01-28 北京大学 一种建立数字文档目录与正文之间链接的方法及装置
CN102486769A (zh) * 2010-12-02 2012-06-06 北大方正集团有限公司 文档目录处理方法和装置
CN103778141A (zh) * 2012-10-23 2014-05-07 南开大学 一种混合pdf图书目录自动抽取算法
CN103885935A (zh) * 2014-03-12 2014-06-25 浙江大学 基于图书阅读行为的图书章节摘要生成方法

Also Published As

Publication number Publication date
CN105988975A (zh) 2016-10-05
JP2016042349A (ja) 2016-03-31
US20160048482A1 (en) 2016-02-18
TW201608392A (zh) 2016-03-01

Similar Documents

Publication Publication Date Title
TWI549003B (zh) 自動切割章節方法
US10484315B2 (en) Method, system and apparatus for adding network comment information
US10042935B1 (en) Systems and methods of matching style attributes
AU2020230268A1 (en) Systems and methods of generating a design based on a design template and another design
US10498909B2 (en) Information processing apparatus, information processing method, and storage medium
US20150169502A1 (en) Touch-based reorganization of page element
TW201514845A (zh) 從網頁擷取標題及主體
JP6596592B2 (ja) プレイリストのリスト決定方法、装置、電子機器及び記憶媒体
JP2015529909A (ja) 電子リーダーシステム
US20180210954A1 (en) Method and apparatus for creating a summary video
US20170132190A1 (en) Recommend content segments based on annotations
US20140164915A1 (en) Conversion of non-book documents for consistency in e-reader experience
KR101954552B1 (ko) 이미지의 제시 정보를 제공하는 방법 및 장치
US20150254213A1 (en) System and Method for Distilling Articles and Associating Images
JP2021077426A (ja) 表示制御装置、表示制御方法及び表示制御プログラム
US9411784B2 (en) Method and computer readable medium for controlling pagination of dynamic-length presentations
US8775385B2 (en) Techniques to modify file descriptors for content files
US20150347376A1 (en) Server-based platform for text proofreading
US11853688B2 (en) Automatic detection and removal of typesetting errors in electronic documents
US20160110328A1 (en) Display Method And Electronic Device
CN108073646B (zh) 目录提取方法及装置
US8898240B2 (en) Messaging policy controlled email de-duplication
JP6008067B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
CN108170651B (zh) 一种信息处理的方法
CN112559943B (zh) 网页元素的显示方法、装置、电子设备、存储介质及产品

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees