TWI533194B - 流式電子書產生之方法及網站系統 - Google Patents

流式電子書產生之方法及網站系統 Download PDF

Info

Publication number
TWI533194B
TWI533194B TW103116324A TW103116324A TWI533194B TW I533194 B TWI533194 B TW I533194B TW 103116324 A TW103116324 A TW 103116324A TW 103116324 A TW103116324 A TW 103116324A TW I533194 B TWI533194 B TW I533194B
Authority
TW
Taiwan
Prior art keywords
paragraph
book
streaming
class
lines
Prior art date
Application number
TW103116324A
Other languages
English (en)
Other versions
TW201543337A (zh
Inventor
崔殷豪
賴鼎宇
Original Assignee
金舷國際文創事業有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 金舷國際文創事業有限公司 filed Critical 金舷國際文創事業有限公司
Priority to TW103116324A priority Critical patent/TWI533194B/zh
Priority to CN201510043022.0A priority patent/CN105095166B/zh
Priority to JP2015090314A priority patent/JP2015215889A/ja
Priority to US14/700,221 priority patent/US20150324340A1/en
Publication of TW201543337A publication Critical patent/TW201543337A/zh
Application granted granted Critical
Publication of TWI533194B publication Critical patent/TWI533194B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Description

流式電子書產生之方法及網站系統
本發明係關於一種電子書產生方法,特別是一種流式電子書產生方法及產生流式電子書之網站系統。
隨著科技的進步,手持顯示裝置(如平板電腦、手機)已普及於人們的生活周遭。人們常使用此等手持顯示裝置瀏覽網頁、閱讀電子書。因此,數位書籍的需求量大增,使得出版社開始考慮在出版傳統紙本書籍之外,亦可踏入數位出版之門。
然而,常見將紙本書籍轉換為電子書檔案的作法是直接使用印刷前的非結構化(Unstructured)檔案(如PDF檔)。然而,此種檔案雖已可將書籍內容呈現在手持顯示裝置上,但對閱讀者而言,如對書頁上的特定內容想要看的更仔細時(特別是使用如手機等螢幕較小的裝置),僅能將書頁放大(Zoom In),當又要瀏覽其他部分的內容時,又需要拖曳至該區域,相當不便。
而,部分廠商會對非結構化檔案做進一步處理。採用現有轉檔系統將非結構化檔案轉換成結構化的流式檔案(如html檔),但現有轉檔系統無法正確的轉換,導致轉換後的檔案大都無法採用,因此,廠商需耗費龐大的人力手動擷取出書頁上的文字與圖案。接著,又需要將截取出的文字與圖案重新進行排版,耗費龐大的人力。
鑒於以上的問題,本發明在於提供一種流式(reflow content)電子書產生方法及產生流式電子書之網站系統,藉以解決先前技術所存在紙本書籍轉換成數位書籍時排版需耗費大量人力及文字校對不易的問題。
本發明之一實施例提供一種流式電子書產生方法,包含下列步驟:
首先,接收一數位檔案,其中數位檔案包含至少一書頁內容。接著,識別書頁內容上的至少一原始段落之複數文字,其中複數文字係沿一書寫方向排列為複數行。再,識別複數行之排列樣式,以根據排列樣式,串接複數行之複數文字為至少一流式段落並計算對應各流式段落之一辨識信心值。又,顯示流式段落之複數文字於一編輯介面,並根據一門檻值,標記辨識信心值低於門檻值之流式段落。於是,用戶可於編輯介面中確認或修改經標記的流式段落。最後,儲存所有流式段落為一流式電子書檔案。透過上述之步驟,可簡易的將非結構化的書籍檔案轉換成流式電子書檔案,並且可供用戶透過編輯介面快速檢閱可能發生辨識錯誤的地方。
在此,編輯介面可具有對應複數顯示裝置之裝置選項,以供用戶選擇顯示複數顯示裝置中之一者所顯示之段落的畫面,其中顯示裝置之顯示畫面尺寸不同。藉此,用戶可在編輯介面上編輯流式段落,且在編輯介面所看到的內容即為對應顯示裝置所能看到的編排內容。
在一實施例中,識別書頁內容上的複數文字之步驟可包括識別每一書頁內容中的複數文字並統計其二維座標,其中二維座標包含橫座標及縱座標;根據複數文字之縱座標之多數者決定上下邊界,並根據複數文字之橫座標之多數者決定左右邊界;及定義各書頁內容中,位於上下邊界與左右邊界內之複數文字為一內文。藉此,可排除書頁中的頁碼、章節名稱、註解等非本文之內容,以降低辨識錯誤之機率。
在一實施例中,排列樣式包含字型、文字大小、縮排距離、文字間距及行距。例如,可先偵測原始段落之縮排距離,再根據原始段落之縮排距離,排列對應之內文之流式段落。藉此,可提高將原始段落轉換成流式段落的正確率。
在一些實施例中,前述流式電子書產生方法還可包括一非文字區塊識別步驟,係先識別一圖片或一表格為一非文字區塊,再識別每一該非文字區塊之一間距,最後將間距小於一預定值的非文字區塊合併。藉此,可將零碎的圖表整合為一圖片,以避免零碎的圖表被誤認為文字段落,造成辨識錯誤。
本發明之另一實施例提供一種產生流式電子書之網站系統,包括網路接收模組、影像識別模組以及網站介面模組。
網路接收模組接收用戶上傳之數位檔案,其中該數位檔案包含至少一書頁內容。影像識別模組識別書頁內容上的複數文字,其中複數文字係沿一書寫方向排列為複數行,並識別複數行之排列樣式,以根據排列樣式串接複數行之複數文字為至少一流式段落並計算對應各流式段落之一辨識信心值。網站介面模組包含一編輯介面,以顯示流式段落之複數文字,並根據一門檻值,標記辨識信心值低於門檻值之流式段落。藉此,用戶可透過編輯介面快速檢閱可能發生辨識錯誤的地方。
在一實施例中,編輯介面可具有並列的第一瀏覽視窗及第二瀏覽視窗。第一瀏覽視窗顯示書頁內容, 第二瀏覽視窗顯示對應之經識別之流式段落。藉此,用戶可方便的對照原始段落與流式段落。
在一實施例中,編輯介面還包括對應複數顯示裝置之裝置選項及一編輯工具組合。裝置選項供用戶選擇顯示對應複數顯示裝置中之一者所顯示流式段落之畫面於第二瀏覽視窗。其中,複數顯示裝置之顯示畫面尺寸不同,編輯工具組合供編輯第二瀏覽視窗內顯示之流式段落。藉此,用戶可查看電子書在不同顯示裝置上顯示的畫面,並可立即的編輯。
在一實施例中,編輯介面還包括一儲存按鍵,以儲存所有經識別之流式段落為一流式電子書檔案。
在一實施例中,編輯介面更包括一跳躍按鍵,以依序顯示經標記的流式段落於第二瀏覽視窗。
根據本發明之流式電子書產生方法及產生流式電子書之網站系統,可供用戶快速檢閱可能發生辨識錯誤的地方,並立即編修存檔。並且,所產生的流式電子書,可較彈性的顯示於具有不同螢幕尺寸的顯示裝置。同時,透過本發明所採用的段落辨識步驟,可減少辨識錯誤之機率。
請參照第1圖,係為本發明一實施例之流式電子書產生方法流程圖。流式電子書產生方法包含下列步驟,係可經由一網站系統實現,此網站系統將於後詳述,於此將先說明流式電子書產生方法之流程。
步驟S100:網站系統接收由用戶上傳的一數位檔案,數位檔案包含至少一書頁內容。在此,數位檔案之檔案格式可為奧多比系統(Adobe Systems)公司所開發的便攜式檔案格式(PDF,Portable Document Format)。特別需說明的是,PDF檔案可以是由Word檔案或任何其他排版軟體檔案轉檔而成的PDF檔案,亦可為掃描圖檔經OCR(Optical Character Recognition,光學文字辨識)程序後所產生的PDF檔案。
步驟S200:識別書頁內容上的原始段落之複數文字,其中文字係沿一書寫方向排列為複數行。在此,書寫方向一般可為直式書寫方向或橫式書寫方向,但本發明非以此為限。
參照第2圖,係為本發明一實施例之流式電子書產生方法之步驟S200流程圖。首先,於步驟S201,識別每一書頁內容中的複數文字並統計其二維座標,其中二維座標包含一橫座標及一縱座標。接著,於步驟S202,根據複數文字之縱座標之多數者決定上下邊界,並根據複數文字之橫座標之多數者決定左右邊界。最後於步驟S203中,定義各書頁內容中,位於上下邊界與左右邊界內之複數文字為一內文901(如第4圖所示)。
請參見第4圖,係為本發明一實施例之書頁內容示意圖,在此係以直式書寫方向為例。書頁中可包含內文901、位於內文901上方的章節902、位於內文901下方的頁碼903及位於內文901左方的註解904等內容。對於每一書頁進行統計後,內文901中每一行的首字及末字的縱座標會是最頻繁出現的座標值,而內文901中第一行的每一字的橫座標及最後一行的每一字的橫座標會是最頻繁出現的座標值。因此,可據以找出上邊界905、下邊界906、左邊界907及右邊界908。另一方面,由於註解904係為偶然出現的內容,因此不會影響邊界之判斷。
在此,每頁書頁的內文901多數會在同一區域範圍內,且其字型、文字大小等態樣(如粗體、斜體)會與內文901範圍外的文字不盡相同,亦可利用來輔助判斷邊界是否判定錯誤。
復參照第1圖,步驟S300:識別該複數行之一排列樣式。在此,排列樣式可包含但不限於字型、文字大小、縮排距離D1、D5、文字間距D2及行距D3、D4(如第4圖所示)。
接著,於步驟S400中,根據排列樣式,串接複數行之複數文字為至少一流式段落並計算對應各流式段落之一辨識信心值。
請參照第3圖,係為本發明一實施例之流式電子書產生方法之步驟S400流程圖。為了識別出各原始段落包含哪些行,可先偵測原始段落之縮排距離D1(步驟S401)。再根據原始段落之縮排距離,排列對應內文之流式段落。也就是說,根據有縮排的行做為流式段落的首行,並進而串接下一個原始段落之前的文字,而形成流式段落(步驟S402)。然而,本發明之實施例非限於此,例如可根據行距D3、D4的差異識別出各個原始段落。如第4圖所示,第一段落的末行與第二段落的首行之間的行距D4不同於段落中各行之間的行距 ,因此可根據行距D3、D4的不同來辨別原始段落包含哪幾行,而串接對應的行形成流式段落。在此,前述縮排距離並非僅限於在行首,亦可在整個段落(如縮排距離D5)。
在此,辨識信心值係根據多種參數綜合評估後計算出的辨識成功機率。所述參數可為同一流式段落中的文字樣式(包含字型、大小、文字間距、行距等)的一致性程度。例如,當同一流式段落的文字樣式相同的比率愈高,則辨識信心值愈高。
在流式段落產生之後,可提供一編輯介面910(如第5圖所示),而於編輯介面910顯示流式段落914之文字,並根據一門檻值,標記辨識信心值低於門檻值之流式段落914(即斜線標示之流式段落914)。第5圖係為本發明一實施例之編輯介面910之視窗示意圖。
如第5圖所示,編輯介面具有並列的第一瀏覽視窗911及第二瀏覽視窗912。第一瀏覽視窗911顯示書頁內容,即可呈現書頁中的原始段落913。第二瀏覽視窗912顯示對應之識別之流式段落914。當辨識過程中計算出某一流式段落914的辨識信心值低於門檻值,而需要人為進一步確認時,則於第一瀏覽視窗911標記該對應之原始段落913。標示的方式可為反白(highlight)、框選、加註底線、調整文字顏色等。藉此,用戶可優先查閱可能出錯的地方,而可加速校對速度。
編輯介面910中還可包括複數裝置選項(即裝置選擇鍵917)及一編輯工具組合(即編輯工具列920)。裝置選擇鍵917可供該用戶選擇顯示對應顯示裝置中之一者所顯示流式段落914之畫面於第二瀏覽視窗912。例如,「裝置1」之裝置選擇鍵917可為美國蘋果公司生產的iPad平板電腦;「裝置2」之裝置選擇鍵917可為韓國三星公司生產的GALAXY S4智慧型手機。換言之,複數顯示裝置之顯示畫面尺寸係為不同。用戶可點選不同裝置選擇鍵917而觀看其電子書在不同顯示裝置上的顯示畫面,並可據以編輯調整。編輯工具列920可供用戶編輯第二瀏覽視窗912內顯示之流式段落914。例如,可調整文字字型、粗體/斜體、文字大小、對齊方式、以及其他樣式或格式等。
如第5圖所示,編輯介面910可包括跳躍按鍵(在此以標記段落選擇鍵918及翻頁選擇鍵919為例)。當前主要顯示的是「段落2」之流式段落914,若用戶點選「上一段」之標記段落選擇鍵918,則第一瀏覽視窗911以及第二瀏覽視窗912都會顯示上一個標記辨識信心值低於門檻值之流式段落 (於此為「段落1」之流式段落914);若用戶點選「下一段」之標記段落選擇鍵918,則第一瀏覽視窗911以及第二瀏覽視窗912都會顯示下一個標記辨識信心值低於門檻值之流式段落(於此為「段落3」之流式段落914)。若用戶點選左邊的翻頁選擇鍵919,則第二瀏覽視窗912顯示的內容係為點選前所顯示的內容之前的流式段落914(即向前翻頁);若用戶點選右邊的翻頁選擇鍵919,則第二瀏覽視窗912顯示的內容係為接續點選前所顯示的內容(即向後翻頁)。因此,用戶可透過翻頁選擇鍵919,依序觀看第二瀏覽視窗912中的流式段落914。
在一些實施例中,第一瀏覽視窗911或第二瀏覽視窗912捲動瀏覽時,另一瀏覽視窗會跟著連動到一樣的進度,方便用戶左右參照進行校稿。
如第5圖所示,編輯介面910還可包括儲存鍵921,以儲存所有經識別之流式段落914為一流式電子書檔案。換言之,當用戶檢查過所有經標示的流式段落914(步驟S600),則可按下儲存鍵921,將所有流式段落914儲存下來(步驟S700)。在此,流式電子書檔案可為ePub檔案或其他流式格式,如html檔案。
在一實施例中,在前述步驟S500之前還可包含非文字區塊識別步驟。當識別到許多零碎的文字時,可認為係為方塊圖或流程圖等圖表,因此可將所識別到的圖片或表格視為一非文字區塊。接著,判斷每一非文字區塊之間距。最後,合併間距小於一預定值的非文字區塊為一圖。藉此,可減少段落判斷錯誤的機率,亦即避免零碎的文字被識別為一個一個流式段落914。
第6圖係為本發明一實施例之網站系統930之方塊示意圖。如第6圖所示,網站系統930包含網路接收模組931、影像識別模組932及網站介面模組933。網站系統930係可由一網站伺服器實現,其具有儲存裝置(如硬碟)、運算處理器、(如中央處理器,CPU)、網路卡等。
網路接收模組931透過網際網路接收一用戶使用一用戶裝置940(如桌上型電腦)上傳之數位檔案。影像識別模組932執行前述步驟S200至S400。網站介面模組933具有前述之編輯介面910,以顯示流式段落914之文字,並根據一門檻值,標記辨識信心值低於門檻值之流式段落914。藉此,可透過上述之網站系統提供流式電子書之線上轉檔編輯服務,所產生之流式電子書檔案亦可供用戶下載。在此,網站系統930係可使用會員登入制度,然其為所屬技術領域之人員所熟知,於此不再贅述。
綜上所述,根據本發明之流式電子書產生方法及產生流式電子書之網站系統,可供用戶快速檢閱可能發生辨識錯誤的地方,並立即編修存檔。並且,所產生的流式電子書,可較彈性的顯示於具有不同螢幕尺寸的顯示裝置。同時,透過本發明所採用的段落辨識步驟,可減少辨識錯誤之機率。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明,任何熟習相像技藝者,在不脫離本發明之精神和範圍內,當可作些許之更動與潤飾,因此本發明之專利保護範圍須視本說明書所附之申請專利範圍所界定者為準。
901‧‧‧內文
902‧‧‧章節
903‧‧‧頁碼
904‧‧‧註解
905‧‧‧上邊界
906‧‧‧下邊界
907‧‧‧左邊界
908‧‧‧右邊界
910‧‧‧編輯介面
911‧‧‧第一瀏覽視窗
912‧‧‧第二瀏覽視窗
913‧‧‧原始段落
914‧‧‧流式段落
915‧‧‧放大鍵
916‧‧‧縮小鍵
917‧‧‧裝置選擇鍵
918‧‧‧標記段落選擇鍵
919‧‧‧翻頁選擇鍵
920‧‧‧編輯工具列
921‧‧‧儲存鍵
930‧‧‧網站系統
931‧‧‧網路接收模組
932‧‧‧影像識別模組
933‧‧‧網站介面模組
940‧‧‧用戶裝置
D1、D5‧‧‧縮排距離
D2‧‧‧文字間距
D3、D4‧‧‧行距
S100‧‧‧接收一數位檔案,其中數位檔案包含至少一書頁內容
S200‧‧‧識別書頁內容上的至少一原始段落之複數文字,其中複數文字係沿一書寫方向排列為複數行
S201‧‧‧識別每一書頁內容中的複數文字並統計其二維座標,其中二維座標包含一橫座標及一縱座標
S202‧‧‧根據複數文字之縱座標之多數者決定上下邊界,並根據複數文字之橫座標之多數者決定左右邊界
S203‧‧‧定義各書頁內容中,位於上下邊界與左右邊界內之複數文字為一內文
S300‧‧‧識別該複數行之一排列樣式
S400‧‧‧根據排列樣式,串接複數行之複數文字為至少一流式段落並計算對應各流式段落之一辨識信心值
S401‧‧‧偵測原始段落之縮排距離
S402‧‧‧根據原始段落之縮排距離,排列對應內文之流式段落
S500‧‧‧顯示流式段落之複數文字於一編輯介面,並根據一門檻值,標記辨識信心值低於門檻值之段落
S600‧‧‧用戶於編輯介面確認或修改經標記的流式段落
S700‧‧‧儲存所有流式段落為一流式電子書檔案
[第1圖]係為本發明一實施例之流式電子書產生方法流程圖。 [第2圖]係為本發明一實施例之流式電子書產生方法之步驟S200流程圖。 [第3圖]係為本發明一實施例之流式電子書產生方法之步驟S400流程圖。 [第4圖]係為本發明一實施例之書頁內容示意圖。 [第5圖]係為本發明一實施例之編輯介面之視窗示意圖。 [第6圖]係為本發明一實施例之網站系統之方塊示意圖。
S100‧‧‧接收一數位檔案,其中數位檔案包含至少一書頁內容
S200‧‧‧識別書頁內容上的至少一原始段落之複數文字,其中複數文字係沿一書寫方向排列為複數行
S300‧‧‧識別該複數行之一排列樣式
S400‧‧‧根據排列樣式,串接複數行之複數文字為至少一流式段落並計算對應各流式段落之一辨識信心值
S500‧‧‧顯示流式段落之複數文字於一編輯介面,並根據一門檻值,標記辨識信心值低於門檻值之段落
S600‧‧‧用戶於編輯介面確認或修改經標記的流式段落
S700‧‧‧儲存所有流式段落為一流式電子書檔案

Claims (10)

  1. 一種流式電子書產生方法,包括:接收一數位檔案,其中該數位檔案包含至少一書頁內容;識別該至少一書頁內容上的至少一原始段落之複數文字,其中該複數文字係沿一書寫方向排列為複數行;識別該複數行之一排列樣式;根據該排列樣式,串接該複數行之該複數文字為至少一流式段落;根據該複數行之該排列樣式之一致性程度,計算對應各該至少一流式段落之一辨識信心值;顯示該至少一流式段落之該複數文字於一編輯介面,並根據一門檻值,標記該辨識信心值低於該門檻值之該段落;一用戶於該編輯介面確認或修改經標記的該至少一流式段落;以及儲存所有該至少一流式段落為一流式電子書檔案。
  2. 如請求項1所述之流式電子書產生方法,其中識別該至少一書頁內容上的複數文字之步驟,包括:識別每一該至少一書頁內容中的該複數文字並統計其二維座標,其中該二維座標包含一橫座標及一縱座標;根據該複數文字之該縱座標之多數者決定上下邊界,並根據該複數文字之該橫座標之多數者決定左右邊界;以及 定義各該至少一書頁內容中,位於該上下邊界與該左右邊界內之該複數文字為一內文。
  3. 如請求項2所述之流式電子書產生方法,其中根據該排列樣式串接該複數行之該複數文字為至少一流式段落之步驟,更包括:偵測該至少一原始段落之縮排距離;以及根據該至少一原始段落之縮排距離,排列對應之該內文之該至少一流式段落。
  4. 如請求項1所述之流式電子書產生方法,更包括一非文字區塊識別步驟,包括:識別一圖片或一表格為一非文字區塊;識別每一該非文字區塊之一間距;以及合併間距小於一預定值的該些非文字區塊。
  5. 如請求項1所述之流式電子書產生方法,其中於顯示該至少一流式段落之該複數文字於一編輯介面之步驟中,該編輯介面具有對應複數顯示裝置之裝置選項,以供該用戶選擇顯示該複數顯示裝置中之一者所顯示該至少一流式段落之畫面,其中該複數顯示裝置之顯示畫面尺寸不同。
  6. 一種產生流式電子書之網站系統,包括:一網路接收模組,接收一用戶上傳之一數位檔案,其中該數位檔案包含至少一書頁內容; 一影像識別模組,識別該至少一書頁內容上的複數文字,其中該複數文字係沿一書寫方向排列為複數行,並識別該複數行之一排列樣式,以根據該排列樣式串接該複數行之該複數文字為至少一流式段落並根據該複數行之該排列樣式之一致性程度計算對應各該至少一流式段落之一辨識信心值;以及一網站介面模組,包含一編輯介面,以顯示該至少一流式段落之該複數文字,並根據一門檻值,標記該辨識信心值低於該門檻值之該流式段落。
  7. 如請求項6所述之產生流式電子書之網站系統,其中該編輯介面具有並列的一第一瀏覽視窗及一第二瀏覽視窗,該第一瀏覽視窗顯示該至少一書頁內容,該第二瀏覽視窗顯示對應之經識別之該至少一流式段落。
  8. 如請求項7所述之產生流式電子書之網站系統,其中該編輯介面更包括對應複數顯示裝置之裝置選項及一編輯工具組合,該裝置選項供該用戶選擇顯示對應該複數顯示裝置中之一者所顯示該至少一流式段落之畫面於該第二瀏覽視窗,其中該複數顯示裝置之顯示畫面尺寸不同,該編輯工具組合供編輯該第二瀏覽視窗內顯示之該至少一流式段落。
  9. 如請求項6所述之產生流式電子書之網站系統,其中該編輯介面更包括一儲存按鍵,以儲存所有經識別之該至少一流式段落為一流式電子書檔案。
  10. 如請求項7所述之產生流式電子書之網站系統,其中該編輯介面更包括一跳躍按鍵,以依序顯示經標記的該至少一流式段落於該第二瀏覽視窗。
TW103116324A 2014-05-07 2014-05-07 流式電子書產生之方法及網站系統 TWI533194B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW103116324A TWI533194B (zh) 2014-05-07 2014-05-07 流式電子書產生之方法及網站系統
CN201510043022.0A CN105095166B (zh) 2014-05-07 2015-01-28 流式电子书产生的方法及网站系统
JP2015090314A JP2015215889A (ja) 2014-05-07 2015-04-27 リフロー型電子書籍生成方法及びウェブサイトシステム
US14/700,221 US20150324340A1 (en) 2014-05-07 2015-04-30 Method for generating reflow-content electronic book and website system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103116324A TWI533194B (zh) 2014-05-07 2014-05-07 流式電子書產生之方法及網站系統

Publications (2)

Publication Number Publication Date
TW201543337A TW201543337A (zh) 2015-11-16
TWI533194B true TWI533194B (zh) 2016-05-11

Family

ID=54367974

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103116324A TWI533194B (zh) 2014-05-07 2014-05-07 流式電子書產生之方法及網站系統

Country Status (4)

Country Link
US (1) US20150324340A1 (zh)
JP (1) JP2015215889A (zh)
CN (1) CN105095166B (zh)
TW (1) TWI533194B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150370761A1 (en) * 2014-06-24 2015-12-24 Keepsayk LLC Display layout editing system and method using dynamic reflow
CN105718554A (zh) * 2016-01-19 2016-06-29 深圳市天朗时代科技有限公司 文档的协同转换方法及系统
TWI581175B (zh) * 2016-05-13 2017-05-01 Image display method
KR101890831B1 (ko) * 2017-01-11 2018-09-28 주식회사 펍플 전자책 서비스 제공방법 및 그를 위한 컴퓨터 프로그램
US10409895B2 (en) * 2017-10-17 2019-09-10 Qualtrics, Llc Optimizing a document based on dynamically updating content
US10261987B1 (en) * 2017-12-20 2019-04-16 International Business Machines Corporation Pre-processing E-book in scanned format
US11295061B2 (en) * 2020-02-05 2022-04-05 Amazon Technologies, Inc. Dynamic layout adjustment for reflowable content
CN112100977A (zh) * 2020-09-11 2020-12-18 掌阅科技股份有限公司 窗口局部刷新方法、电子设备及存储介质
CN112257412B (zh) * 2020-09-25 2023-12-01 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN112965646B (zh) * 2021-03-05 2021-09-14 广州文石信息科技有限公司 一种流式文档子目录页码计算方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5541566A (en) * 1978-09-20 1980-03-24 Casio Comput Co Ltd Error position detection system
JPS57137971A (en) * 1981-02-20 1982-08-25 Ricoh Co Ltd Picture area extracting method
JPH05282296A (ja) * 1992-03-31 1993-10-29 Toshiba Corp 文書作成支援装置
JP3940491B2 (ja) * 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法
JP2000293671A (ja) * 1999-04-09 2000-10-20 Canon Inc 画像処理方法、装置及び記憶媒体
JP2002041500A (ja) * 2000-07-24 2002-02-08 Media System:Kk コンテンツ作成装置およびコンテンツ作成プログラムを記録したコンピュータ読み取り可能な記録媒体
US20030014445A1 (en) * 2001-07-13 2003-01-16 Dave Formanek Document reflowing technique
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US7788580B1 (en) * 2006-03-28 2010-08-31 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
US7433548B2 (en) * 2006-03-28 2008-10-07 Amazon Technologies, Inc. Efficient processing of non-reflow content in a digital image
US7966557B2 (en) * 2006-03-29 2011-06-21 Amazon Technologies, Inc. Generating image-based reflowable files for rendering on various sized displays
US8866920B2 (en) * 2008-05-20 2014-10-21 Pelican Imaging Corporation Capturing and processing of images using monolithic camera array with heterogeneous imagers
JP2010123002A (ja) * 2008-11-20 2010-06-03 Canon Inc 文書画像レイアウト装置
CN102541819B (zh) * 2010-12-27 2015-03-04 北大方正集团有限公司 一种电子文档阅读模式处理的方法及装置
JP2012230623A (ja) * 2011-04-27 2012-11-22 Fujifilm Corp 文書ファイル表示装置、方法およびプログラム
US8515176B1 (en) * 2011-12-20 2013-08-20 Amazon Technologies, Inc. Identification of text-block frames
CN102890670B (zh) * 2012-09-10 2015-11-25 北京京东世纪贸易有限公司 用于在版式阅读和流式阅读方式之间切换的方法和系统
US20140215308A1 (en) * 2013-01-31 2014-07-31 Adobe Systems Incorporated Web Page Reflowed Text
US9710440B2 (en) * 2013-08-21 2017-07-18 Microsoft Technology Licensing, Llc Presenting fixed format documents in reflowed format
US10296570B2 (en) * 2013-10-25 2019-05-21 Palo Alto Research Center Incorporated Reflow narrative text objects in a document having text objects and graphical objects, wherein text object are classified as either narrative text object or annotative text object based on the distance from a left edge of a canvas of display

Also Published As

Publication number Publication date
JP2015215889A (ja) 2015-12-03
US20150324340A1 (en) 2015-11-12
CN105095166B (zh) 2017-11-17
TW201543337A (zh) 2015-11-16
CN105095166A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
TWI533194B (zh) 流式電子書產生之方法及網站系統
KR102257248B1 (ko) 텍스트 표현 변환을 위한 잉크
US10671805B2 (en) Digital processing and completion of form documents
JP5248696B1 (ja) 電子機器、手書き文書作成方法、及び手書き文書作成プログラム
US8811742B2 (en) Identifying matching canonical documents consistent with visual query structural information
AU2011336445B2 (en) Identifying matching canonical documents in response to a visual query
US9542363B2 (en) Processing of page-image based document to generate a re-targeted document for different display devices which support different types of user input methods
US9740995B2 (en) Coordinate-based document processing and data entry system and method
US20140002383A1 (en) Electronic device having touch input unit
US7962846B2 (en) Organization of annotated clipping views
TWI479381B (zh) 電子設備及其觸摸控制方法
US8907915B2 (en) Electronic device and method for inserting images thereof
US20140002379A1 (en) Electronic device having touch screen
US20140006920A1 (en) Electronic device and method for writing memos thereof
US20090049375A1 (en) Selective processing of information from a digital copy of a document for data entry
US20100238195A1 (en) Systems and Methods for Reviewing Digital Pen Data
US20140002381A1 (en) Electronic device and method for writing memos thereof
JP2005011340A (ja) オブジェクト上の注釈をグループ化することによりオブジェクトを選択する方法、システム、プログラム、及び、コンピュータ可読記憶媒体
JP2005216203A (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
JP5980990B2 (ja) データ校正プラットフォームサーバー
JP6072560B2 (ja) 電子雑誌生成システムおよび電子雑誌生成方法並びに電子雑誌生成プログラム
US9965457B2 (en) Methods and systems of applying a confidence map to a fillable form
CN114564915A (zh) 文本排版方法、电子设备及存储介质
CN111492338B (zh) 集成式文档编辑器
US20220292716A1 (en) Technologies for detecting crop marks in electronic documents using reference images

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees