WO2012169844A2 - 전자책 데이터 음성 합성 장치 및 그 방법 - Google Patents

전자책 데이터 음성 합성 장치 및 그 방법 Download PDF

Info

Publication number
WO2012169844A2
WO2012169844A2 PCT/KR2012/004571 KR2012004571W WO2012169844A2 WO 2012169844 A2 WO2012169844 A2 WO 2012169844A2 KR 2012004571 W KR2012004571 W KR 2012004571W WO 2012169844 A2 WO2012169844 A2 WO 2012169844A2
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
data
book data
book
text
Prior art date
Application number
PCT/KR2012/004571
Other languages
English (en)
French (fr)
Other versions
WO2012169844A3 (ko
Inventor
이해성
Original Assignee
주식회사 내일이비즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 내일이비즈 filed Critical 주식회사 내일이비즈
Priority claimed from KR1020120061585A external-priority patent/KR101401427B1/ko
Publication of WO2012169844A2 publication Critical patent/WO2012169844A2/ko
Publication of WO2012169844A3 publication Critical patent/WO2012169844A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines

Definitions

  • the present invention relates to an apparatus and method for synthesizing e-book data into speech.
  • TTS Text To Speech
  • the layout of the e-book or electronic document that can be handled in the conventional TTS is only one level, consisting of a single document.
  • TTS could not be applied to e-books or electronic documents with very complicated layouts such as multi-stage layouts or newspapers. This is because it is not yet possible to accurately analyze the order of each paragraph or paragraph that can accurately read an e-book or an electronic document having a complicated layout by computer algorithm alone.
  • the conventional TTS does not support a function of rapidly moving back and forth in sentence units according to a user's input command. It only supports page-by-page function, which is very inconvenient for users. Because when users want to change their position in the TTS, most of them want to move forward or backward a few sentences from their current position. However, if the user moves to the page unit as currently supported by TTS, users have to wait until the TTS reads to the desired position. Therefore, the conventional TTS that does not support sentence-by-sentence can cause great inconvenience to users.
  • the conventional TTS could not read a sentence containing various symbols such as a formula and a chemical formula as if a human reads the sentence.
  • the TTS when one language is set, even if several different languages are mixed in the book, the TTS is ignored, except for the set language, and the TTS is not executed.
  • An object of the present invention is to solve the above problems of the conventional TTS.
  • the present invention provides an electronic book speech synthesizing apparatus capable of speech synthesis even for an electronic book or electronic document having a complicated layout and a method thereof.
  • the present invention provides an e-book speech synthesis apparatus and method for reading formulas, chemical formulas or pictures in an e-book.
  • the present invention also provides an e-book speech synthesizing apparatus and method for controlling speech not synthesized with repetitive but unnecessary text information.
  • the present invention also provides an e-book speech synthesis apparatus and method for controlling the execution of speech synthesis on a sentence basis.
  • the present invention also provides an e-book speech synthesis apparatus and method for selecting a language of speech to be synthesized in sentence units.
  • the present invention generates an e-book or electronic document having a complicated layout as data in a form capable of speech synthesis.
  • Data in the form of speech synthesis forms one page of a book into one or more groups.
  • the data in the form of speech synthesis may include a text object that is text describing a picture with respect to the picture object.
  • the data in the form of speech synthesis may include hidden groups that are displayed on the screen but are ignored during speech synthesis.
  • a sentence is determined from data in a form capable of speech synthesis and speech synthesis is performed in units of sentences.
  • the present invention synthesizes speech by selecting a language for each sentence.
  • the smallest unit that makes up the e-book data is an object.
  • Objects can be divided into three types according to their properties. That is, they may be divided into "text”, “picture”, and “table text”, respectively. Another property of these objects is the coordinate values that indicate their position and size on the monitor screen.
  • the objects gather to form a line.
  • the lines come together to form a group.
  • Groups form a page. Pages come together to form a book.
  • Object Order 4
  • Object Property 1 Type: Text
  • Object Property 2 Code
  • 'A' AC00
  • Object Property 3 Bold
  • object property 6 font size
  • object property 7 Width
  • object property 8 Height
  • object property 9 upper left coordinate value
  • "table text" is not displayed on the screen but is associated with a picture displayed on the screen.
  • the "table text" associated with the picture can be retrieved in a keyword search, or can be configured to be speech synthesized.
  • the electronic document may generate electronic book data having a hierarchical structure of objects, lines, groups, and pages.
  • an electronic document including a complicated layout which is impossible in an electronic document such as a PDF or an XPS, for example, an e-book having a very complicated layout such as a newspaper can be synthesized by voice. Can be.
  • speech synthesis may be omitted for information that may repeatedly appear on every page, for example, a page number and text such as a book title or chapter title that appears on each page.
  • users can conveniently move forward and backward in units of sentences when using the TTS service.
  • FIG. 1 is a block diagram of an e-book speech synthesis environment according to an embodiment of the present invention.
  • FIG. 2 is a block diagram of an e-book speech synthesis apparatus according to an embodiment of the present invention.
  • FIG. 3 is a detailed block diagram of an e-book data configuration unit according to an embodiment of the present invention.
  • FIG. 4 is an example of a group constituting a page of e-book data according to an embodiment of the present invention.
  • 5 is another example of a group constituting a page of e-book data according to an embodiment of the present invention.
  • FIG. 6 is a flowchart of a method for forming an internal text area of e-book data according to an embodiment of the present invention.
  • FIG. 7 is a flowchart of a method for synthesizing e-book data into voice according to an embodiment of the present invention.
  • the e-book speech synthesis environment 100 may include an e-book speech synthesis apparatus 110 that constructs e-book data through the network 190 and synthesizes the e-book data into speech.
  • the network 190 may include both a wired communication medium such as a LAN or WAN and a wireless communication medium such as a Wi-Fi or mobile communication system.
  • a user may use an e-book speech synthesis apparatus 110 through a mobile communication device 152, a notebook 154, a PC 156, or other network 190, such as a mobile phone, smartphone, or tablet PC.
  • Voice computing service of the e-book data may be used using any computing device capable of accessing the e-book data.
  • the e-book speech synthesizing apparatus 110 may include an e-book data construction unit 210 that receives an electronic document and generates e-book data having a hierarchical data structure.
  • the e-book data configuration unit 210 may receive an electronic document including, for example, a word file (doc), a PowerPoint document (ppt) or a pdf file. In one embodiment, the e-book data configuration unit 210 may generate e-book data including an internal text area viewed by the user from the input electronic document.
  • the e-book data configuration unit 210 may generate e-book data having a hierarchical structure of books> pages> groups> lines> objects.
  • the book includes one or more pages displayed on one screen.
  • the smallest unit in a page is an object, and a set of objects on the same line forms a line, and a set of lines connecting content forms a group.
  • the page may include a plurality of groups according to content linking.
  • the plurality of groups have an order according to the flow of contents. Since a single page can be composed of a plurality of groups as described above, the structure of the single page as well as the electronic document having a complicated layout such as a newspaper can be analyzed and synthesized by voice.
  • the object may include an object code indicating a type of object, an object coordinate indicating a location on a screen, an object order indicating an order in a line, and an object attribute identifying an object.
  • the text may include unicode representing a region as an object property.
  • the type of object may be divided into a text (text), a picture, and table text.
  • the text contains letters.
  • a picture may include a picture or a formula, chemical formula, or table.
  • the table text is associated with a specific picture to describe the picture and refers to characters that do not appear on the screen.
  • tables, pictures, and equations included in an e-book may be synthesized by voice using TTS.
  • the e-book speech synthesis apparatus 110 may further include a data analyzer 220 that receives e-book data from the e-book data composition unit 210 and extracts data necessary for speech synthesis. Can be.
  • the data analyzer 220 may include a layered data extractor 221 for extracting layered data included in the e-book data.
  • the data analyzer 220 may further include a sentence determiner 222 that determines a start position and an end position of a sentence.
  • the sentence determining unit 222 is a punctuation mark that marks the end of the sentence based on the attributes of the extracted object, such as a period-on point (horizontal writing), a period-ring point (vertical writing), a question mark, an exclamation mark, etc. Can be determined as the end of the sentence.
  • the sentence determiner 222 may designate the position of the object appearing after the end position of the sentence as the start position of the next sentence.
  • the data analyzer 220 may further include a language selector 223 for selecting a language of a sentence.
  • the language selector 223 may determine the language to which the character belongs by analyzing the Unicode of the text (character) belonging to the sentence.
  • the region of the same Unicode but the corresponding Unicode character may contain different values, such as "Korean”, “Chinese”, and “Japanese”.
  • the region of Unicode can be changed to "English”, “German”, “French” or "Russian”.
  • the language selector 223 analyzes the Unicode region of all the letters included in the sentence in one sentence and selects the language corresponding to the region that appears the most times as the language of the sentence. have.
  • the e-book speech synthesizing apparatus 110 may further include a TTS providing unit 230 for synthesizing the e-book data into speech.
  • the TTS provider 230 may generate the TTS according to the group order of the groups constituting each page in the page extracted by the layered data extractor 221.
  • the TTS provider 230 may synthesize a text object by voice according to the language selected by the language selector 223 for each sentence determined by the sentence determiner 220 in the selected group. In one embodiment, the TTS provider 230 may synthesize text to speech using any technique known or hereafter developed.
  • the sentence is determined based on the punctuation marks. Therefore, speech may be synthesized in sentence units. Accordingly, the user can move forward or backward in units of sentences when using the TTS service.
  • a language to be used for speech synthesis is selected for each sentence. Therefore, even when multiple languages are mixed in a book or page, the e-book data can be synthesized by voice with high accuracy.
  • the e-book data configuration unit 210 may include an internal text area configuration unit 301 constituting an image area of the entire page displayed to the user.
  • the internal text area configuring unit 301 may be configured to store code values of the characters in the page and positions on the screen.
  • the picture area of the page may be a picture or include a picture. Alternatively, it can contain a set of instructions that allow a computer to generate a picture.
  • the internal text area configuring unit 301 may include, for example, an electronic document input unit 310 that receives an electronic document including a word file (doc), a PowerPoint document (ppt), or a pdf file. It may include.
  • the input electronic document generally includes page information, object code and coordinate values of the object.
  • the internal text area configuring unit 301 may further include a data extracting unit 320 that extracts page information, an object code, and coordinate values of the object from the input electronic document.
  • the internal text area configuring unit 301 may further include a group setting unit 330 that sets a group based on coordinate values of all objects existing in the same page. For example, the group setting unit 330 analyzes the coordinate values of the objects in the page, obtains and divides a cluster distribution, and clusters the objects for each cluster. In this embodiment, the group setting unit 330 may set each clustered cluster as a group and determine the order.
  • clustering may be performed as follows. First, the basic constants are
  • NumberOfClusters Number of clusters initially set
  • MinimumNumberOfElement The minimum number of elements needed to maintain a cluster.
  • MinimumDistance The minimum distance of each cluster center point that can be maintained without each cluster being merged into one.
  • MaxNumIter1 the maximum possible number of iterations performed in the first half of this clustering method.
  • MaxNumIter2 the maximum number of possible iterations performed later in this clustering method
  • MaxNumMerge maximum number of clusters that can be merged in one iteration
  • Clustering basically divides each of the points (elements) located in a space.
  • the space corresponding to this space may be referred to as a page surface, and each element occupying a position is a geometric figure such as a letter or a picture.
  • the system displays the position of the corresponding letter or picture and sets the system to assume that the entire inside of the rectangle surrounding the letter or picture is filled with black dots. In this case, the computation time can be saved considerably, and in fact the clustered results are excellent.
  • clustering is performed as follows.
  • step [6] If the number of clusters is greater than (constant 1) * NumberOfClusters or the number of iterations is even, go to step [7], otherwise go to step [8].
  • (constant 1) is a value that can be adjusted appropriately to improve performance.
  • step [7] For all clusters, find the distance between the center points of each cluster, and if two clusters are found whose distance is less than the MinimumDistance, combine them into one and calculate and assign a new center point. Then repeat step [7] again. If the number of iterations reaches MaxNumIter2, go to step [8].
  • step [8] If the number of clusters is smaller than NumberOfClusters / (constant 2) or the number of iterations is odd, go to step [9]. Otherwise, go to step [10].
  • the standard deviation of the coordinates of all points in the space is called STD-All.
  • STD-All For all clusters, find the standard deviation for only those points that belong to them, and then find clusters with this value larger than SplittingSize * STD-All. If no cluster is found, go to step [10]. If a corresponding cluster is found, the cluster is divided into two based on the center points of the points belonging to the cluster. Next, find the center points of each of these two divided clusters, find the distance, and if the value is greater than (constant 3) * MinimumDistance, replace the original unified cluster with these two divided clusters. If not, the original integrated cluster is adopted as is.
  • step [10] If the number of iterations in this step exceeds MaxNumIter2, or if there have been no changes in clusters since the last time this step was completed, the operation is terminated. If not, proceed to step [2] by selecting the center points of the current clusters as initial values.
  • the internal text area configuring unit 301 may further include a line discriminating unit 340 for distinguishing objects belonging to the same line by analyzing coordinate values of each object existing in the group.
  • the line distinguishing unit 340 may distinguish objects belonging to the same line according to the direction of the e-book, for example, “horizontal writing” or “vertical writing”. In this embodiment, the line distinguishing unit 340 may automatically distinguish the moving direction based on the coordinate values of the objects in the group. In another embodiment, the line discriminator 340 may determine the heading direction based on a user input.
  • the internal text area configuration unit 301 may further include an object order determiner 350 that determines the order of objects belonging to the same line.
  • the object order determiner 350 may determine the order of the objects in the line according to the direction of the e-book, for example, “horizontal writing” or “vertical writing”.
  • the object order determiner 350 may start at "upper” in “vertical writing” depending on the e-book's progress direction and start position, for example, starting from “left” or "right” in “horizontal writing.” You can determine the order of objects differently depending on whether you start with or "below”.
  • the object order determiner 350 may automatically distinguish the moving direction and the starting position based on the coordinate values of the objects in the group. In another embodiment, the object order determiner 350 may determine the moving direction and the start position based on the user's input.
  • the internal text area configuring unit 301 may further include an editing unit 360 to correct an error in group setting, line setting, or order of an object.
  • the editor 360 may receive an input for specifying a boundary of the group from the user. Therefore, when there is an error in the group automatically set by the group setting unit 330 it can be corrected.
  • the editor 360 may receive an input for specifying a line boundary and an object order from a user to correct an error that may occur in the line discriminator 340 or the object order determiner 350.
  • the editing unit 360 may receive a table text for describing the picture from the user.
  • the editing unit 360 may receive text for reading the equation as table text with respect to the equation that is a picture object. for example, If the formula is set as a picture object, the user may input, via the editing unit 360, "A squared plus ratio is the square of the seed" as table text of the corresponding picture object.
  • the corresponding table text is "Millet's evening bell” through the editor 360.
  • Jean Francois and Mille are the chief of the Barbi sect.
  • this picture of the evening bell on the page can be called the representative work of Miele.
  • the TTS provider 230 may give a detailed description of the corresponding picture.
  • the editor 360 may designate a "hidden group" that is displayed on the screen but ignored by the TTS provider 230. For example, a page number of a book, a part indicating a title in every page, and the like appear in each page, but are not necessarily read. The editor 360 may designate such a part as a hidden group to skip the TTS provider 230.
  • page 400 illustrates an example of a group constituting a page of e-book data according to an embodiment of the present invention. As shown in FIG. 4, page 400 may include five groups 410-450.
  • Groups 410-450 are sets of lines in which content is naturally connected when reading the corresponding content.
  • Page 400 is composed of a multi-stage, there is a line that exists on the same line, but the content is not connected if read as it is.
  • the group 430 and the group 440 are on the same line but are not connected to the contents, for example, the group 430 may be known as “the oppositely distorted state.
  • group 440 "with respect to family and life" are on the same line but the content is not connected.
  • the two groups 430 and 440 become separate groups,
  • Groups are similar to paragraphs in terms of whether the linking of content proceeds naturally. Unlike FIG. 4, one group may constitute one page. In this case, the same page and group correspond to "single document". As in page 400, when configured in multiple tiers, the page includes a plurality of groups.
  • pages may be formed in one or a plurality of groups.
  • groups may be formed in one or a plurality of lines.
  • lines may be formed of one or a plurality of objects.
  • the group 410 is an example in which one picture object forms one line and one group.
  • the groups 410-450 of the page 400 may have an order of 410> 420> 430> 440> 450.
  • the order of the groups may be based on the order of the content.
  • the TTS providing unit 230 may synthesize a page, which belongs to the page, by voice in a group order and in a line order within the group.
  • the group 450 may be designated as a "hidden group" by the editing unit 360 as a part of the title of the book which is repeated equally on every page. In this case, the text of the group 450 appears on the screen but is ignored when the TTS provider 230 synthesizes the text into voice.
  • page 500 shows another example of a group constituting a page of e-book data according to an embodiment of the present invention.
  • page 500 may include three groups 510-530.
  • the groups 510-530 of the page 500 may have an order of 510> 520> 530.
  • the group 530 may be designated as a "hidden group" by the editing unit 360 as a part corresponding to the page number. In this case, the text of the group 530 appears on the screen but is ignored when the TTS provider 230 synthesizes the text into voice.
  • FIG. 6 is a flowchart of a method of forming an internal text area of electronic book data according to an embodiment of the present invention.
  • the method 600 includes a step 610 of receiving an electronic document including a word file (doc), a PowerPoint document (ppt) or a pdf file.
  • step 610 may be performed by the electronic document input unit 310.
  • the input electronic document generally includes page information, object code and coordinate values of the object.
  • the method 600 includes a step 620 of extracting data such as page information, object code, and coordinate value of the object from the inputted electronic document.
  • step 620 may be performed by the data extractor 320.
  • the method 600 includes setting 630 a group based on coordinate values of all objects present within the same page.
  • step 630 may be performed by the group setting unit 330.
  • the group setting step 630 may include clustering objects by clusters after obtaining and dividing a cluster distribution by analyzing coordinate values of the objects in the page.
  • the group setting step 630 may include setting and ordering each clustered cluster as a group.
  • the method 600 includes a step 640 of distinguishing objects belonging to the same line by analyzing coordinate values of each object present in the group.
  • step 640 may be performed by the line discriminator 340.
  • the line distinguishing step 640 may be performed to distinguish objects belonging to the same line according to the direction of the e-book, for example, “horizontal writing” or “vertical writing”.
  • the line distinguishing step 640 may proceed automatically based on the coordinate values of the objects in the group, or may proceed by determining the direction of travel based on a user input.
  • the method 600 includes a step 650 of determining the order of objects belonging to the same line.
  • step 650 may be performed by the object order determiner 350.
  • the object ordering step 650 may be performed to determine the order of the objects in the line according to the direction of the e-book, such as "horizontal writing” or “vertical writing.”
  • the object ordering step 650 may be performed from “upper” to “upper”, depending on the e-book's progress direction and starting position, for example, starting from “left” or “right” in “horizontal writing.” It may be practiced to determine the order of the objects differently depending on whether they start at "below” or "below”.
  • the object order determination step 650 may be implemented to automatically distinguish the heading direction and the starting position based on the coordinate values of the objects in the group. In another embodiment, object ordering step 650 may be implemented to determine a heading direction and a starting position based on a user input.
  • the method 600 may further include an editor step 660 that corrects for errors that may occur in the group setup step 630, the line discrimination step 640, or the object ordering step 650. have.
  • the editing step 660 may include receiving input from a user specifying a boundary of the group. Therefore, when there is an error in the group set in the group setting step 630, it can be corrected.
  • editing step 660 may include receiving input from a user specifying a line boundary or an order of objects. In this case, an error that may occur in the line discrimination step 640 or the object order determination step 650 may be corrected.
  • the editing step 660 may include receiving a table text from a user describing the picture with respect to the picture. For example, for a formula, which is a picture object, text for reading the formula may be input as table text. for example, If the formula is set to a picture object, a user may input "A squared plus ratio of square is seed squared" as table text of the corresponding picture object.
  • the corresponding table text is "Millet's evening bell” through the editor 360.
  • Jean Francois and Mille are the chief of the Barbi sect.
  • this picture of the evening bell on the page can be called the representative work of Miele.
  • the TTS provider 230 may give a detailed description of the corresponding picture.
  • editing step 660 may specify a "hidden group" that is displayed on the screen but ignored in the TTS presentation. For example, a page number of a book, a part indicating a title in every page, and the like appear in each page, but are not necessarily read. Editing step 660 may designate this part as a hidden group to skip when providing the TTS.
  • FIG. 7 is a flowchart illustrating a method of synthesizing e-book data into voice according to an embodiment of the present invention.
  • the method 700 may be performed in the e-book speech synthesis device shown in FIG. 2.
  • the method 700 may include an e-book data construction step 710 of receiving an electronic document and generating e-book data having a hierarchical data structure.
  • the step of configuring e-book data 710 may include receiving an electronic document including a word file (doc), a PowerPoint document (ppt), or a pdf file.
  • the step of constructing e-book data 210 may include generating e-book data including an internal text area viewed by the user from the input e-document.
  • the step of configuring e-book data 710 may include generating e-book data having a hierarchical data structure of, for example, books> pages> groups> lines> objects.
  • the book includes one or more pages displayed on one screen.
  • the smallest unit in a page is an object, and a set of objects on the same line forms a line, and a set of lines connecting content forms a group.
  • the page may include a plurality of groups according to content linking.
  • the plurality of groups have an order according to the flow of contents. Since one page can be composed of a plurality of groups as described above, the structure can be synthesized into speech by analyzing not only a single document composed of one end but also an electronic document having a complicated layout such as a newspaper.
  • the object may include an object code indicating a type of object, an object coordinate indicating a location on a screen, an object order indicating an order in a line, and an object attribute identifying an object.
  • the text may include unicode representing a region as an object property.
  • the type of object may be divided into a text (text), a picture, and table text.
  • the text contains letters.
  • a picture may include a picture or a formula, chemical formula, or table.
  • the table text is associated with a specific picture to describe the picture and refers to characters that do not appear on the screen.
  • tables, pictures, and equations included in an e-book may be synthesized by voice using TTS.
  • the method 700 may further include extracting layered data included in the e-book data (720).
  • the method 700 may further include determining 730 the start and end positions of the sentence.
  • step 730 is a punctuation mark, such as a period-on point (horizontal writing), a period-ring point (vertical writing), a question mark, an exclamation point, etc., which marks the end of a sentence based on the attributes of the object extracted in operation 720.
  • the method may include determining and specifying an end position of the sentence.
  • step 730 may include designating a position of an object appearing after an end position of a sentence as a start position of a next sentence.
  • the method may further include a step 740 of selecting a language of a sentence.
  • step 740 may include analyzing a unicode of a text (letter) belonging to the sentence to determine a language to which the letter belongs.
  • the region of the same Unicode but the corresponding Unicode character may contain different values, such as "Korean”, “Chinese”, and “Japanese”.
  • the region of Unicode can be changed to "English”, “German”, “French” or "Russian”.
  • step 740 may include analyzing a region of Unicode of all letters included in the sentence in one sentence and selecting a language corresponding to the region that appears the most times as the language of the sentence. Can be.
  • the method may further include a TTS providing step 750 of synthesizing the e-book data into voice.
  • step 750 may include generating a TTS in the page extracted in step 720 according to the group order of the groups constituting each page.
  • the text object in operation 750, may be synthesized as a voice according to the language selected in operation 740 for each sentence determined in operation 730.
  • step 750 may be performed using any technique known or hereafter developed.
  • the arrangement of the components shown may vary depending on the environment or requirements on which the invention is implemented. For example, some components may be omitted or several components may be integrated and implemented as one. In addition, the arrangement order and connection of some components may be changed.
  • the arrangement of the steps shown may vary depending on the environment or requirements on which the invention is implemented. For example, some steps may be omitted or some steps may be combined and implemented as one. In addition, the arrangement order of some steps may be changed.
  • the invention may be implemented in hardware, software, firmware, middleware, or a combination thereof, and the system, subsystem, components or sub-configurations thereof. It should be understood that they can be used as elements. If implemented in software, the elements of the invention are instructions / code segments for performing the necessary tasks.
  • the program or code segments may be stored in a machine readable medium, such as a processor readable medium, a computer program product, or via a transmission medium or communication link by a computer data signal embodied in a carrier wave or a signal modulated by a carrier. Can be sent.
  • Machine-readable media or processor-readable media may include any medium capable of storing or transmitting information in a form readable and executable by a machine (eg, processor, computer, etc.).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따르면, 전자문서에 포함된 객체 및 상기 객체의 좌표값에 기초하여 객체들을 클러스터링함으로써 형성된 그룹을 포함하는 계층화된 데이터 구조를 갖는 전자책 데이터가 생성된다. 전자책 데이터의 계층화 데이터가 추출되고, 계층화 데이터로부터 문장이 결정되며, 해당 문장의 언어가 선택된다. 문장 단위로 음성 합성이 수행된다.

Description

전자책 데이터 음성 합성 장치 및 그 방법
본 발명은 전자책 데이터를 음성으로 합성하는 장치 및 그 방법에 관련되어 있다.
전자책 및 전자문서들의 내용을 말로 읽어 주는 TTS(Text To Speech: 기계의 음성 합성)가 존재한다. 그런데 종래 TTS에서 다룰 수 있는 전자책 또는 전자문서의 레이아웃은 일단으로 구성된, 단단 문서에 불과한 수준이다. 즉, 다단으로 구성된 레이아웃이나 신문과 같이 아주 복잡한 레이아웃의 전자책이나 전자문서는 TTS를 적용할 수 없었다. 왜냐하면, 복잡한 레이아웃을 가진 전자책이나 전자문서를 정확하게 읽어 갈 수 있는 각 단 또는 문단별 순서를 컴퓨터 알고리즘만으로는 정확하게 분석하는 것이 아직까지 불가능하기 때문이다.
또한, 종래 TTS는 사용자의 입력 명령에 따라서 문장 단위로 앞과 뒤로 빠르게 이동하는 기능을 지원하지 않는다. 다만 페이지 단위로 이동하는 기능만을 지원하는데, 사용자에게 이는 매우 불편하다. 왜냐하면 사용자들이 TTS에서 위치를 변경하고자 할 때, 대부분은 현재 위치에서 몇 문장 정도 앞이나 뒤로 이동하기를 원하기 때문이다. 그런데, 현재 TTS가 지원하는 바대로 페이지 단위로 이동을 하면 사용자들은 자신이 원하는 위치까지 TTS가 읽어줄 때까지 마냥 기다려야만 한다. 따라서, 문장 단위의 이동을 지원하지 않는 종래 TTS는 사용자들에게 큰 불편을 야기할 수 밖에 없다.
또한, 종래 TTS는 수식, 화학식과 같은 각종 기호가 포함된 문장을 사람이 해당 문장을 읽는 것처럼 읽어줄 수 없었다.
또한, 책에는 매 페이지마다 반복적으로 등장하지만 사용자가 크게 관심을 갖지 않는 정보들이 있다. 예를 들면 페이지 번호, 페이지마다 나타나는 책 제목이나 챕터 제목 등의 텍스트 등이 그것이다. 그런데, 종래 PDF나 XPS에서는 이와 같은 정보에 대해서만 음성이 합성되지 않도록 제어하는 것이 어렵다. 따라서, 사용자는 이러한 정보를 반복해서 듣게 됨으로써 오히려 불편한 문제점이 있었다.
또한, 종래 TTS는 하나의 언어가 설정되면, 책 내에 여러 가지 다른 언어가 섞여 있을 경우에도 설정된 언어 외에는 무시하고 TTS를 실행하지 않아서 불편한 문제점이 있었다.
본 발명의 목적은 전술한 종래 TTS의 문제점을 해결하고자 하는 데 있다.
즉, 복잡한 레이아웃을 가진 전자책이나 전자문서도 음성 합성이 가능한 전자책 음성 합성 장치 및 그 방법을 제공한다.
또한, 전자책 내의 수식, 화학식 또는 그림이 읽혀질 수 있는 전자책 음성 합성 장치 및 그 방법을 제공한다.
또한, 반복적이지만 불필요한 텍스트 정보에 대해서는 음성이 합성되지 않도록 제어할 수 있는 전자책 음성 합성 장치 및 그 방법을 제공한다.
또한, 문장 단위로 음성 합성의 실행을 제어할 수 있는 전자책 음성 합성 장치 및 그 방법을 제공한다.
또한, 문장 단위로 합성될 음성의 언어를 선택할 수 있는 전자책 음성 합성 장치 및 그 방법을 제공한다.
본 발명은 복잡한 레이아웃을 가진 전자책이나 전자문서를 음성 합성이 가능한 형태의 데이터로 생성한다.
음성 합성이 가능한 형태의 데이터는 책의 1 페이지를 하나의 이상의 그룹으로 형성한다.
음성 합성이 가능한 형태의 데이터는 그림 객체에 대하여 그림을 설명하는 텍스트인 텍스트 객체를 포함할 수 있다.
음성 합성이 가능한 형태의 데이터는 화면에는 표시되지만 음성 합성시 무시되는 숨겨진 그룹을 포함할 수 있다.
본 발명은 음성 합성이 가능한 형태의 데이터에서 문장을 판별하여 문장 단위로 음성 합성을 실행한다.
본 발명은 문장별로 언어를 선택하여 음성으로 합성한다.
일 실시예에서, 전자책 데이터를 구성하는 가장 작은 단위는 객체이다. 객체는 속성에 따라서 예컨대, 세 가지로 구분될 수 있다. 즉, 각각 "텍스트", "그림", "테이블 텍스트"로 구분될 수 있다. 이들 객체의 또 다른 속성으로는 모니터 화면상의 위치와 크기를 나타내는 좌표값들이 있다.
일 실시예에서, 객체가 모여서 라인(선)을 형성한다. 라인이 모여서 그룹을 형성한다. 그룹이 모여서 페이지를 형성한다. 페이지가 모여서 책을 형성한다. 예를 들면, "가"라는 글자가 화면상에 나타나면, 이 글자와 관련된 정보들의 구성은 다음과 같다: [페이지 : 10]->[그룹 : 2]->[라인 : 3]->[객체순서: 4, 객체속성 1(종류): 텍스트, 객체속성 2(코드값): '가'=AC00, 객체속성 3(Bold): No, 객체속성 4(Underline): No, 객체속성 5(Italic): Yes, 객체속성 6(폰트크기): 12, 객체속성 7(Width): 32, 객체속성 8(Height): 36, 객체속성 9(좌상단좌표값): (59, 60)]. "그림"도 마찬가지로 표현된다.
일 실시예에서, "테이블 텍스트"는 화면에 표시되지 않지만, 화면에 표시되는 그림과 연관되어 있다. 따라서, 어떤 그림을 검색하거나 해당 페이지를 음성으로 합성할 때, 해당 그림에 연관된 "테이블 텍스트"가 키워드 검색에서 검색되도록 하거나, 음성 합성이 되도록 구성될 수 있다.
본 발명의 일 실시예에 따르면, 전자문서를 객체, 라인, 그룹, 페이지의 계층화된 구조를 갖는 전자책 데이터를 생성할 수 있다.
본 발명의 일 실시예에 따르면, 전자책 데이터를 생성함으로써, 종래 PDF나 XPS와 같은 전자문서에서는 불가능하였던 복잡한 레이아웃을 포함하는 전자문서, 예컨대 신문과 같이 아주 복잡한 레이아웃의 전자책도 음성으로 합성될 수 있다.
본 발명의 일 실시예에 따르면, 종래 전자책 시스템(예컨대, PDF 또는 ePub 등으로 구성된)에서는 불가능하였던 수식, 화학식, 표와 같은 각종 기호가 포함된 문장은 물론 심지어 그림까지도 사람이 읽거나 설명하듯이 음성으로 합성하는 것이 가능하다.
본 발명의 일 실시예에 따르면, 매 페이지마다 반복적으로 등장할 수 있는 정보들, 예를 들면 페이지 번호, 페이지마다 나타나는 책 제목이나 챕터 제목 등의 텍스트에 대해서는 음성 합성을 생략할 수 있다.
본 발명의 일 실시예에 따르면, 사용자들은 TTS 서비스를 이용할 때 문장 단위로 앞과 뒤로 편리하게 이동할 수 있다.
본 발명의 일 실시예에 따르면, 동일한 책에 여러 가지 언어들(예를 들어, 한국어, 영어, 중국어, 일본어 등)이 나타나더라도 각 문장별로 해당되는 언어를 자동으로 구분해서 읽어 줄 수 있다.
도 1은 본 발명의 일 실시예에 따른 전자책 음성 합성 환경의 구성도.
도 2는 본 발명의 일 실시예에 따른 전자책 음성 합성 장치의 구성도.
도 3은 본 발명의 일 실시예에 따른 전자책 데이터 구성부의 상세 구성도.
도 4는 본 발명의 일 실시예에 따른 전자책 데이터의 페이지를 구성하는 그룹의 일 예.
도 5는 본 발명의 일 실시예에 따른 전자책 데이터의 페이지를 구성하는 그룹의 다른 예.
도 6은 본 발명의 일 실시예에 따른 전자책 데이터의 내부 텍스트 영역을 형성하는 방법의 흐름도.
도 7은 본 발명의 일 실시예에 따라 전자책 데이터를 음성으로 합성하는 방법의 흐름도.
도 1은 본 발명의 일 실시예에 따른 전자책 음성 합성 환경의 구성도이다. 일 실시예에서, 전자책 음성 합성 환경(100)은 네트워크(190)를 통해 전자책 데이터를 구성하고 해당 전자책 데이터를 음성으로 합성하는 전자책 음성 합성 장치(110)를 포함할 수 있다. 일 실시예에서, 네트워크(190)는 LAN 또는 WAN 등의 유선 통신 매체 및 Wi-Fi, 이동 통신 시스템 등의 무선 통신 매체를 모두 포함할 수 있다.
도 1에 도시된 바와 같이, 사용자는 휴대폰, 스마트폰 또는 태블릿 PC와 같은 이동 통신 장치(152), 노트북(154), PC(156) 또는 기타 네트워크(190)를 통해 전자책 음성 합성 장치(110)에 접속할 수 있는 임의의 컴퓨팅 장치를 이용하여 전자책 데이터의 음성 합성 서비스를 이용할 수 있다.
도 2는 본 발명의 일 실시예에 따른 전자책 음성 합성 장치의 구성도이다. 일 실시예에서, 전자책 음성 합성 장치(110)는 전자문서를 입력받아 계층화된 데이터 구조를 갖는 전자책 데이터를 생성하는 전자책 데이터 구성부(210)를 포함할 수 있다.
일 실시예에서, 전자책 데이터 구성부(210)는 예를 들면, 워드 파일(doc), 파워포인트 문서(ppt) 또는 pdf 파일을 포함하는 전자문서를 입력받을 수 있다. 일 실시예에서, 전자책 데이터 구성부(210)는 입력된 전자문서로부터 사용자가 보게 되는 내부 텍스트 영역을 포함하는 전자책 데이터를 생성할 수 있다.
일 실시예에서, 전자책 데이터 구성부(210)는 책 > 페이지 > 그룹 > 라인 > 객체의 계층화 구조를 갖는 전자책 데이터를 생성할 수 있다. 이 실시예에서 책은 한 화면에 표시되는 페이지를 하나 이상 포함한다. 페이지 내 가장 작은 단위는 객체이며, 동일선 상의 객체의 집합이 라인, 내용이 연결되는 라인들의 집합이 그룹을 형성한다.
일 실시예에 따르면, 페이지는 내용 연결에 따라 복수의 그룹을 포함할 수 있다. 이 때 복수의 그룹은 내용의 흐름에 따라 순서를 갖는다. 이와 같이 하나의 페이지가 복수의 그룹으로 구성될 수 있으므로, 일단으로 구성되는 단단 문서뿐 아니라 신문과 같이 레이아웃이 복잡한 전자문서에 대해서도 그 구조가 분석되어 음성으로 합성될 수 있다.
일 실시예에서 객체는 객체의 종류를 나타내는 객체 코드, 화면상의 위치를 나타내는 객체 좌표, 라인 내 순서를 나타내는 객체 순서 및 객체를 식별하는 객체 속성을 포함할 수 있다. 일 실시예에서 텍스트는 객체 속성으로서 지역(region)을 나타내는 유니 코드(unicode)를 포함할 수 있다.
일 실시예에서, 객체의 종류는 글자(텍스트), 그림, 테이블 텍스트로 구분될 수 있다. 텍스트는 글자를 포함한다. 그림은 그림 또는 수식이나 화학식, 또는 표를 포함한다. 테이블 텍스트는 특정 그림과 연관되어 해당 그림을 설명하며 화면에는 나타나지 않는 글자를 의미한다.
일 실시예에 따르면, 전자책에 포함되는 표, 그림, 수식 등의 그림 객체에 대하여 테이블 텍스트를 구성함으로써 표, 그림, 수식 등도 TTS를 이용하여 음성으로 합성할 수 있다.
도 2에 도시된 바와 같이, 전자책 음성 합성 장치(110)는 전자책 데이터 구성부(210)로부터 전자책 데이터를 입력받아 음성 합성에 필요한 데이터를 추출하는 데이터 분석부(220)를 더 포함할 수 있다. 일 실시예에서, 데이터 분석부(220)는 전자책 데이터가 포함하는 계층화 데이터를 추출하는 계층화 데이터 추출부(221)를 포함할 수 있다.
도 2에 도시된 바와 같이, 데이터 분석부(220)는 문장의 시작 위치와 끝 위치를 결정하는 문장 결정부(222)를 더 포함할 수 있다. 일 실시예에서, 문장 결정부(222)는 추출된 객체의 속성에 기초하여 문장의 끝을 표시하는 문장 부호, 예컨대 마침표-온점(가로 쓰기), 마침표-고리점(세로 쓰기), 물음표, 느낌표 등을 판별하여 문장의 끝 위치로 지정할 수 있다.
일 실시예에서, 문장 결정부(222)는 문장의 끝 위치 다음에 나타나는 객체의 위치를 다음 문장의 시작 위치로 지정할 수 있다.
도 2에 도시된 바와 같이, 데이터 분석부(220)는 문장의 언어를 선택하는 언어 선택부(223)를 더 포함할 수 있다. 일 실시예에서, 언어 선택부(223)는 해당 문장에 속하는 텍스트(글자)의 유니 코드를 분석하여 해당 글자가 속하는 언어를 판별할 수 있다.
예를 들면, 한자(漢子) 하나가 주어졌을 때, 모양은 같지만 대응하는 유니 코드의 지역은 "한국어", "중국어", "일본어"로 다른 값을 포함할 수 있다. 알파벳에서도 마찬가지로, 모양은 같아도 유니 코드의 지역이 "영어", "독일어", "프랑스어", "러시아어"로 달라질 수 있다.
일 실시예에서, 언어 선택부(223)는 하나의 문장에 있어서 해당 문장에 포함되는 모든 글자의 유니 코드의 지역을 분석하여 가장 많은 횟수로 나타나는 지역에 해당되는 언어를 해당 문장의 언어로 선택할 수 있다.
도 2에 도시된 바와 같이, 전자책 음성 합성 장치(110)는 전자책 데이터를 음성으로 합성하는 TTS 제공부(230)를 더 포함할 수 있다. 일 실시예에서, TTS 제공부(230)는 계층화 데이터 추출부(221)에서 추출된 페이지에 있어서, 각 페이지를 구성하는 그룹의 그룹 순서에 따라 TTS를 생성할 수 있다.
일 실시예에서, TTS 제공부(230)는 선택된 그룹에 있어서, 문장 결정부(220)에서 결정된 문장별로 언어 선택부(223)에서 선택된 언어에 따라 텍스트 객체를 음성으로 합성할 수 있다. 일 실시예에서, TTS 제공부(230)는 공지 또는 향후 개발될 임의의 기술을 이용하여 텍스트를 음성으로 합성할 수 있다.
일 실시예에 따르면, 문장 부호에 기초하여 문장이 판별된다. 따라서, 문장 단위로 음성이 합성될 수 있다. 이에 따라 사용자는 TTS 서비스 이용시 문장 단위로 앞 또는 뒤로 이동이 가능하다.
일 실시예에 따르면, 문장별로 음성 합성에 이용될 언어가 선택된다. 따라서, 책 또는 페이지 내에 여러 언어가 섞여 있는 경우에도 높은 정확도로 전자책 데이터를 음성으로 합성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 전자책 데이터 구성부의 상세 구성도이다. 일 실시예에서, 전자책 데이터 구성부(210)는 사용자에게 표시되는 페이지 전체의 그림 영역을 구성하는 내부 텍스트 영역 구성부(301)를 포함할 수 있다.
일 실시예에서, 내부 텍스트 영역 구성부(301)는 페이지 내 글자들의 코드 값과 화면 상의 위치 등을 저장하도록 구성될 수 있다. 이 때 페이지의 그림 영역은 그림이거나 사진을 포함할 수 있다. 이와 달리, 컴퓨터가 그림을 생성할 수 있게 해 주는 명령어들의 집합을 포함할 수 있다.
도 3에 도시된 바와 같이, 내부 텍스트 영역 구성부(301)는 예를 들면, 워드 파일(doc), 파워포인트 문서(ppt) 또는 pdf 파일을 포함하는 전자문서를 입력받는 전자문서 입력부(310)를 포함할 수 있다. 입력된 전자문서는 일반적으로 페이지 정보, 객체 코드 및 객체의 좌표값들을 포함한다.
일 실시예에서, 내부 텍스트 영역 구성부(301)는 입력된 전자문서로부터 페이지 정보, 객체 코드 및 객체의 좌표값들을 추출하는 데이터 추출부(320)를 더 포함할 수 있다.
일 실시예에서, 내부 텍스트 영역 구성부(301)는 동일 페이지 내부에 존재하는 모든 객체의 좌표값들에 기초하여 그룹을 설정하는 그룹 설정부(330)를 더 포함할 수 있다. 예컨대, 그룹 설정부(330)는 페이지 내 객체의 좌표값들을 분석하여 군집 분포를 획득하고 구분한 후 군집 별로 객체를 클러스터링할 수 있다. 이 실시예에서, 그룹 설정부(330)는 클러스터링된 각 군집을 그룹으로 설정하고 순서를 결정할 수 있다.
클러스터링의 일 예
본 발명의 일 실시예에서 클러스터링은 다음과 같이 수행될 수 있다. 먼저 기본적인 상수들은 다음과 같다.
- NumberOfClusters: 초기에 설정된 클러스터의 수
- MinimumNumberOfElement: 하나의 클러스터를 유지하기 위해서 필요한 원소들의 최소 개수
- MinimumDistance: 두 클러스터가 하나로 통합되지 않고 각각 유지될 수 있는 각 클러스터 중심점들의 최소 거리
- SplittingSize: 클러스터를 나눌 때 사용되는 파라미터
- MaxNumIter1: 본 클러스터링 방법의 전반부에서 시행되는 반복연산의 최대 가능 횟수
- MaxNumIter2: 본 클러스터링 방법의 후반부에서 시행되는 반복연산의 최대 가능 횟수
- MaxNumMerge : 한 번의 반복연산에서 통합될 수 있는 클러스터들의 최대 수
클러스터링은 기본적으로 어떤 공간에 자리 잡고 있는 각각의 점(원소)들을 대상으로 구획을 나누는 것이다. 본 발명의 일 실시예에서, 이 공간에 해당되는 것이 페이지면이라고 할 수 있고, 위치를 차지하고 있는 각각의 원소는 글자나 그림과 같은 기하학적 도형이다.
일반적으로, 글자나 그림의 위치를 컴퓨터와 같은 디지털 기기에서 다루기 위해 이들을 감싸는 사각형의 좌표를 저장한다. 그러나, 실제로 글자나 그림은 자신이 그려질 해당 사각형 공간의 전부를 사용하지 않는다. 해당 사각형의 특정 부위에 특정 색깔의 점들이 찍히고, 나머지 부분은 빈 공간으로 남는다. 따라서 글자나 그림으로 이루어진 2차원 페이지 공간에서 이들을 대상으로 클러스터링하기 위해서는 해당 페이지에 존재하는 모든 글자와 그림들의 구성 점(픽셀)들의 위치들을 모두 추적해야만 하는데, 이는 상당한 계산 시간이 요구된다.
따라서, 본 발명의 일 실시예에서는 전술한 방법 대신, 해당 글자나 그림의 위치를 표시해주며 해당 글자나 그림을 감싸고 있는 사각형 내부 전체가 검정색 점으로 가득 차 있다고 가정하도록 시스템을 설정하였다. 이 경우, 계산시간을 상당히 절약할 수 있고, 실제로 클러스터링된 결과도 훌륭하게 도출된다.
본 발명의 일 실시예에서 클러스터링은 다음과 같이 수행된다.
[1] NumberOfClusters 만큼 임의의 점들의 좌표를 생성한 다음, 이 점들의 좌표들을 각 클러스터들의 중심점으로 설정한다.
[2] 해당 공간에 존재하는 모든 점들에 대해서 앞에서 설정한 각 클러스터 중심점들로부터의 거리를 계산하고, 그 가운데 자신과 가장 가까운 중심점이 포함된 클러스터를 자신이 속한 클러스터로 설정한다.
[3] 각 클러스터들에 대해서, 해당 클러스터들에 포함된 모든 점들의 좌표값들의 평균을 구하여 클러스터 중심점을 새로 계산하여 설정한다.
[4] 만약 한 점이라도 자신이 속한 클러스터가 변경되었거나, [1]~[4]까지의 반복연산 횟수가 MaxNumIter1보다 작다면 [2]단계로 다시 돌아 간다.
[5] 만약 어떤 클러스터에 속해 있는 점들의 수가 MinimumNumberOfElement보다 적다면 이후 연산에서는 이 클러스터를 무시하고, 이 클러스터에 포함된 각 점들도 무시해 버린다. 즉, 이 클러스터는 확정되었다는 의미이다.
[6] 만약 클러스터들의 개수가 (상수 1)* NumberOfClusters 보다 크거나 또는 반복연산의 횟수가 짝수라면 [7]단계로 가고, 그렇지 않다면 [8]단계로 간다. 여기서 (상수 1)은 성능향상을 위하여 적절하게 조정될 수 있는 값이다.
[7] 모든 클러스터들에 대해서, 각 클러스터들의 중심점들 사이의 거리를 구한 다음 만약 그 거리가 MinimumDistance 보다 작은 두 클러스터들이 발견된다면 이 두 클러스터를 하나로 통합하고, 중심점을 새로 계산해서 할당한다. 그리고 [7]단계를 다시 반복한다. 만약 이 반복연산의 횟수가 MaxNumIter2에 다다르게 되면 [8]단계로 간다.
[8] 만약 클러스터들의 개수가 NumberOfClusters/(상수 2) 보다 작거나 반복연산의 횟수가 홀수라면 [9]단계로 진행하고, 그렇지 않다면 [10]단계로 진행한다.
[9] 해당 공간에 속하는 모든 점들의 좌표값들에 대해서 표준편차를 구하고 이를 STD-All이라고 한다. 모든 클러스터들에 대해서, 자신들에 속한 점들만을 대상으로 표준편차를 구한 다음 이 값이 SplittingSize * STD-All 보다 큰 클러스터를 찾는다. 만약 이에 해당되는 클러스터를 찾지 못한다면 [10]단계로 진행한다. 만약 이에 해당되는 클러스터를 찾았다면 그 클러스터에 속하는 점들의 중심점을 기준으로 이 클러스터를 두 개로 분할한다. 그 다음에는 이렇게 나누어진 두 클러스터들 각각의 중심점들을 구하고, 그 거리를 구한 다음, 그 값이 (상수 3) * MinimumDistance 보다 크면 이렇게 나누어진 두 클러스터로 원래의 통합된 클러스터를 대체한다. 만약 그렇지 않다면 원래의 통합된 클러스터를 그대로 채택한다.
[10] 만약 이 단계의 반복연산 횟수가 MaxNumIter2를 넘었거나 이 단계를 마지막으로 실행한 이후 클러스터들의 변동이 없었다면 종료한다. 만약 그렇지 않다면 현재 클러스터들의 중심점을 초기값으로 선택해서 [2]단계로 진행한다.
일 실시예에서, 내부 텍스트 영역 구성부(301)는 그룹 내부에 존재하는 각 객체들의 좌표값들을 분석하여 동일한 라인에 속하는 객체들을 구별하는 라인 구별부(340)를 더 포함할 수 있다. 라인 구별부(340)는 전자책의 진행 방향, 예컨대 "가로 쓰기"인지 또는 "세로 쓰기"인지에 따라 동일한 라인에 속하는 객체들을 구별할 수 있다. 이 실시예에서, 라인 구별부(340)는 그룹 내 객체들의 좌표값에 기초하여 자동으로 진행 방향을 구별할 수 있다. 다른 실시예에서, 라인 구별부(340)는 사용자의 입력에 기초하여 진행 방향을 결정할 수 있다.
일 실시예에서, 내부 텍스트 영역 구성부(301)는 동일한 라인에 속하는 객체들의 순서를 결정하는 객체 순서 결정부(350)를 더 포함할 수 있다. 객체 순서 결정부(350)는 전자책의 진행 방향, 예컨대 "가로 쓰기"인지 또는 "세로 쓰기"인지에 따라 라인 내 객체의 순서를 결정할 수 있다. 또한, 객체 순서 결정부(350)는 전자책의 진행 방향 및 시작 위치, 예컨대 "가로 쓰기"에서 "좌"에서 시작하는지 또는 "우"에서 시작하는지에 따라, " 세로 쓰기"에서 "상"에서 시작하는지 또는 "하"에서 시작하는지에 따라 객체의 순서를 다르게 결정할 수 있다.
이 실시예에서, 객체 순서 결정부(350)는 그룹 내 객체들의 좌표값에 기초하여 자동으로 진행 방향 및 시작 위치를 구별할 수 있다. 다른 실시예에서, 객체 순서 결정부(350)는 사용자의 입력에 기초하여 진행 방향 및 시작 위치를 결정할 수 있다.
일 실시예에서, 내부 텍스트 영역 구성부(301)는 그룹 설정, 라인 설정 또는 객체의 순서의 오류를 보정하는 편집부(360)를 더 포함할 수 있다. 일 실시예에서, 편집부(360)는 사용자로부터 그룹의 경계를 지정하는 입력을 수신할 수 있다. 따라서, 그룹 설정부(330)에서 자동으로 설정한 그룹에 오류가 있는 경우 이를 바로잡을 수 있다. 마찬가지로, 편집부(360)는 사용자로부터 라인의 경계, 객체의 순서를 지정하는 입력을 받아들여, 라인 구별부(340)나 객체 순서 결정부(350)에서 발생될 수 있는 오류를 바로잡을 수 있다.
일 실시예에서, 편집부(360)는 그림에 대하여 해당 그림을 설명하는 테이블 텍스트를 사용자로부터 입력받을 수 있다. 예컨대, 편집부(360)는 그림 객체인 수식에 대하여, 해당 수식을 읽는 텍스트를 테이블 텍스트로 입력받을 수 있다. 예컨대,
Figure PCTKR2012004571-appb-I000001
라는 수식을 그림 객체로 설정한 경우, 사용자는 편집부(360)를 통해 "에이 제곱 더하기 비의 제곱은 씨의 제곱"을 해당 그림 객체의 테이블 텍스트로 입력할 수 있다.
이와 같이 텍스트를 구성할 경우, TTS 제공부(230)을 통해 전자책 데이터의 텍스트를 음성으로 합성할 때, 이 수식을 음성으로 합성하는 것이 가능해진다. 따라서, 복잡한 수식, 화학식, 나아가 그림이나 사진의 경우에도 독자에게 그림 객체를 표시하는 것과 함께 음성으로 합성하여 읽어주는 것이 가능하다.
예컨대, "밀레의 저녁종" 그림을 그림 객체로 설정한 경우, 편집부(360)를 통해 대응하는 테이블 텍스트로서 "이 그림은 밀레의 저녁종이다. 장 프랑소와 밀레는 바르비종파의 태두로서 클루베르의 사실주의를 계승함과 동시에 자연을 소재로 그림을 그려서 자연주의파라고 불리기도 한다. 특히 지금 페이지에 보이는 저녁종이라는 이 그림은 밀레의 대표작이라고 할 수 있다."를 입력할 수 있다. 이 경우, TTS 제공부(230)에 의하여 해당 그림에 대한 자세한 설명을 들려 줄 수 있다.
일 실시예에서, 편집부(360)는 화면 상에는 표시되지만 TTS 제공부(230)에서 무시되는 "숨겨진 그룹"을 지정할 수 있다. 예컨대, 책의 페이지 번호, 매 페이지에서 제목을 나타내는 부분 등은 각 페이지마다 나타나는 부분이지만 굳이 읽어줄 필요는 없는 부분이다. 편집부(360)는 이러한 부분을 숨겨진 그룹으로 지정하여 TTS 제공부(230)에서 건너뛰도록 할 수 있다.
도 4는 본 발명의 일 실시예에 따른 전자책 데이터의 페이지를 구성하는 그룹의 일 예를 나타낸다. 도 4에 도시된 바와 같이, 페이지(400)는 5개의 그룹(410-450)을 포함할 수 있다.
그룹(410-450)은 해당 내용을 읽어 나갈 때 내용의 연결이 자연스럽게 진행되는 각 라인들의 집합이다. 페이지(400)는 다단으로 구성되어 있어서, 동일선 상에 존재하지만 그대로 따라 읽으면 내용의 연결이 안되는 라인이 존재한다. 예컨대, 그룹(430)과 그룹(440)은 동일선 상에 존재하지만 내용의 연결이 안되는 라인, 예컨대 그룹(430)에서 "나 정반대로 왜곡된 상태로 알려져 있기도 합니다. 따라서 여기서는 철저하"의 라인과 그룹(440)에서 "가족관계와 생활에 대"는 동일선 상에 존재하지만 내용이 연결되지 않는다. 따라서, 두 그룹(430, 440)은 별개의 그룹이 된다,
내용의 연결이 자연스럽게 진행되느냐의 관점에서 그룹은 문단과 유사하다. 도 4에 도시된 바와 달리, 하나의 그룹이 하나의 페이지를 구성할 수 있다. 이와 같이 페이지와 그룹이 같은 경우는 "단단 문서"에 해당된다. 페이지(400)와 같이, 다단으로 구성된 경우, 페이지는 복수의 그룹을 포함한다.
내부의 라인을 순차적으로 읽어 나갈 때 내용이 연결되느냐의 기준에 따를 경우, 페이지가 하나 또는 복수의 그룹으로 형성될 수 있다. 마찬가지로, 그룹이 하나 또는 복수의 라인으로 형성될 수 있다. 마찬가지로, 라인이 하나 또는 복수의 객체로 형성될 수 있다. 예컨대, 그룹(410)은 그림 객체 하나가 하나의 라인 및 하나의 그룹을 형성하는 예이다.
일 실시예에서, 페이지(400)의 그룹들(410-450)은 410 > 420 > 430 > 440 > 450의 순서를 가질 수 있다. 그룹의 순서는 컨텐츠의 순서에 기초할 수 있다. 이 실시예에서, 위 그룹의 순서에 따라 TTS가 제공될 경우, 페이지의 전체 내용을 순차적으로 읽어줄 수 있다. 예컨대, TTS 제공부(230)는 페이지에 대하여 해당 페이지에 속하는 그룹을 그룹 순서에 따라, 또 그룹 내에서는 라인의 순서대로 음성으로 합성할 수 있다.
일 실시예에서, 그룹(450)은 매 페이지마다 똑같이 반복되는 책의 제목이 나타나는 부분으로서 편집부(360)에 의해 "숨겨진 그룹"으로 지정될 수 있다. 이 경우 그룹(450)의 텍스트는 화면에는 나타나지만 TTS 제공부(230)에서 텍스트를 음성으로 합성할 때에는 무시된다.
도 5는 본 발명의 일 실시예에 따른 전자책 데이터의 페이지를 구성하는 그룹의 다른 예를 나타낸다. 도 5에 도시된 바와 같이, 페이지(500)는 3개의 그룹(510-530)을 포함할 수 있다.
일 실시예에서, 페이지(500)의 그룹들(510-530)은 510 > 520 > 530의 순서를 가질 수 있다. 일 실시예에서, 그룹(530)은 페이지 번호에 해당되는 부분으로서 편집부(360)에 의해 "숨겨진 그룹"으로 지정될 수 있다. 이 경우 그룹(530)의 텍스트는 화면에는 나타나지만 TTS 제공부(230)에서 텍스트를 음성으로 합성할 때에는 무시된다.
도 6은 본 발명의 일 실시예에 따른 전자책 데이터의 내부 텍스트 영역을 형성하는 방법의 흐름도이다.
방법(600)은 워드 파일(doc), 파워포인트 문서(ppt) 또는 pdf 파일을 포함하는 전자문서를 입력받는 단계(610)를 포함한다. 일 실시예에서, 610 단계는 전자문서 입력부(310)에서 수행될 수 있다. 입력된 전자문서는 일반적으로 페이지 정보, 객체 코드 및 객체의 좌표값들을 포함한다.
다음, 방법(600)은 입력된 전자문서로부터 페이지 정보, 객체 코드 및 객체의 좌표값 등의 데이터를 추출하는 단계(620)를 포함한다. 일 실시예에서, 620 단계는 데이터 추출부(320)에서 수행될 수 있다.
다음, 방법(600)은 동일 페이지 내부에 존재하는 모든 객체의 좌표값들에 기초하여 그룹을 설정하는 단계(630)를 포함한다. 일 실시예에서, 630 단계는 그룹 설정부(330)에 의해 수행될 수 있다. 그룹 설정 단계(630)는 페이지 내 객체의 좌표값들을 분석하여 군집 분포를 획득하고 구분한 후 군집 별로 객체를 클러스터링하는 단계를 포함할 수 있다. 이 실시예에서, 그룹 설정 단계(630)는 클러스터링된 각 군집을 그룹으로 설정하고 순서를 결정하는 단계를 포함할 수 있다.
다음, 방법(600)은 그룹 내부에 존재하는 각 객체들의 좌표값들을 분석하여 동일한 라인에 속하는 객체들을 구별하는 단계(640)를 포함한다. 일 실시예에서, 640 단계는 라인 구별부(340)에 의해 수행될 수 있다. 라인 구별 단계(640)는 전자책의 진행 방향, 예컨대 "가로 쓰기"인지 또는 "세로 쓰기"인지에 따라 동일한 라인에 속하는 객체들을 구별하도록 실시될 수 있다. 라인 구별 단계(640)는 그룹 내 객체들의 좌표값에 기초하여 자동으로 진행되거나 사용자의 입력에 기초하여 진행 방향을 결정하여 진행될 수 있다.
다음, 방법(600)은 동일한 라인에 속하는 객체들의 순서를 결정하는 단계(650)를 포함한다. 일 실시예에서, 650 단계는 객체 순서 결정부(350)에서 수행될 수 있다. 객체 순서 결정 단계(650)는 전자책의 진행 방향, 예컨대 "가로 쓰기"인지 또는 "세로 쓰기"인지에 따라 라인 내 객체의 순서를 결정하도록 실시될 수 있다. 또한, 객체 순서 결정 단계(650)는 전자책의 진행 방향 및 시작 위치, 예컨대 "가로 쓰기"에서 "좌"에서 시작하는지 또는 "우"에서 시작하는지에 따라, " 세로 쓰기"에서 "상"에서 시작하는지 또는 "하"에서 시작하는지에 따라 객체의 순서를 다르게 결정하도록 실시될 수 있다.
이 실시예에서, 객체 순서 결정 단계(650)는 그룹 내 객체들의 좌표값에 기초하여 자동으로 진행 방향 및 시작 위치를 구별하도록 실시될 수 있다. 다른 실시예에서, 객체 순서 결정 단계(650)는 사용자의 입력에 기초하여 진행 방향 및 시작 위치를 결정하도록 실시될 수 있다.
일 실시예에서, 방법(600)은 그룹 설정 단계(630), 라인 구별 단계(640) 또는 객체 순서 결정 단계(650)에서 발생될 수 있는 오류를 보정하는 편집부 단계(660)를 더 포함할 수 있다. 일 실시예에서, 편집 단계(660)는 사용자로부터 그룹의 경계를 지정하는 입력을 받는 단계를 포함할 수 있다. 따라서, 그룹 설정단계(630)에서 설정된 그룹에 오류가 있는 경우 이를 바로잡을 수 있다. 마찬가지로, 편집 단계(660)는 사용자로부터 라인의 경계 또는 객체의 순서를 지정하는 입력을 받는 단계를 포함할 수 있다. 이 경우, 라인 구별 단계(640)나 객체 순서 결정 단계(650)에서 발생될 수 있는 오류를 바로잡을 수 있다.
일 실시예에서, 편집 단계(660)는 그림에 대하여 해당 그림을 설명하는 테이블 텍스트를 사용자로부터 입력받는 단계를 포함할 수 있다. 예컨대, 그림 객체인 수식에 대하여, 해당 수식을 읽는 텍스트를 테이블 텍스트로 입력받을 수 있다. 예컨대,
Figure PCTKR2012004571-appb-I000002
라는 수식을 그림 객체로 설정한 경우, 사용자는 "에이 제곱 더하기 비의 제곱은 씨의 제곱"을 해당 그림 객체의 테이블 텍스트로 입력할 수 있다.
이와 같이 텍스트를 구성할 경우, TTS 제공부(230)을 통해 전자책 데이터의 텍스트를 음성으로 합성할 때, 이 수식을 음성으로 합성하는 것이 가능해진다. 따라서, 복잡한 수식, 화학식, 나아가 그림이나 사진의 경우에도 독자에게 그림 객체를 표시하는 것과 함께 음성으로 합성하여 읽어주는 것이 가능하다.
예컨대, "밀레의 저녁종" 그림을 그림 객체로 설정한 경우, 편집부(360)를 통해 대응하는 테이블 텍스트로서 "이 그림은 밀레의 저녁종이다. 장 프랑소와 밀레는 바르비종파의 태두로서 클루베르의 사실주의를 계승함과 동시에 자연을 소재로 그림을 그려서 자연주의파라고 불리기도 한다. 특히 지금 페이지에 보이는 저녁종이라는 이 그림은 밀레의 대표작이라고 할 수 있다."를 입력할 수 있다. 이 경우, TTS 제공부(230)에 의하여 해당 그림에 대한 자세한 설명을 들려 줄 수 있다.
일 실시예에서, 편집 단계(660)는 화면 상에는 표시되지만 TTS 제공에서 무시되는 "숨겨진 그룹"을 지정할 수 있다. 예컨대, 책의 페이지 번호, 매 페이지에서 제목을 나타내는 부분 등은 각 페이지마다 나타나는 부분이지만 굳이 읽어줄 필요는 없는 부분이다. 편집 단계(660)는 이러한 부분을 숨겨진 그룹으로 지정하여 TTS 제공시 건너뛰도록 할 수 있다.
도 7은 본 발명의 일 실시예에 따라 전자책 데이터를 음성으로 합성하는 방법의 흐름도이다. 일 실시예에서, 방법(700)은 도 2에 도시된 전자책 음성 합성 장치에서 수행될 수 있다.
도 7에 도시된 바와 같이, 방법(700)은 전자문서를 입력받아 계층화된 데이터 구조를 갖는 전자책 데이터를 생성하는 전자책 데이터 구성 단계(710)를 포함할 수 있다.
일 실시예에서, 전자책 데이터 구성 단계(710)는 예를 들면, 워드 파일(doc), 파워포인트 문서(ppt) 또는 pdf 파일을 포함하는 전자문서를 입력받는 단계를 포함할 수 있다. 일 실시예에서, 전자책 데이터 구성 단계(210)는 입력된 전자문서로부터 사용자가 보게 되는 내부 텍스트 영역을 포함하는 전자책 데이터를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 전자책 데이터 구성 단계(710)는, 예컨대 책 > 페이지 > 그룹 > 라인 > 객체의 계층화된 데이터 구조를 갖는 전자책 데이터를 생성하는 단계를 포함할 수 있다. 이 실시예에서 책은 한 화면에 표시되는 페이지를 하나 이상 포함한다. 페이지 내 가장 작은 단위는 객체이며, 동일선 상의 객체의 집합이 라인, 내용이 연결되는 라인들의 집합이 그룹을 형성한다.
일 실시예에 따르면, 페이지는 내용 연결에 따라 복수의 그룹을 포함할 수 있다. 이 때 복수의 그룹은 내용의 흐름에 따라 순서를 갖는다. 이와 같이 하나의 페이지가 복수의 그룹으로 구성될 수 있으므로, 일단으로 구성되는 단단 문서뿐 아니라 신문과 같이 레이아웃이 복잡한 전자문서에 대해서도 그 구조가 분석되어 음성으로 합성될 수 있다.
일 실시예에서 객체는 객체의 종류를 나타내는 객체 코드, 화면상의 위치를 나타내는 객체 좌표, 라인 내 순서를 나타내는 객체 순서 및 객체를 식별하는 객체 속성을 포함할 수 있다. 일 실시예에서 텍스트는 객체 속성으로서 지역(region)을 나타내는 유니 코드(unicode)를 포함할 수 있다.
일 실시예에서, 객체의 종류는 글자(텍스트), 그림, 테이블 텍스트로 구분될 수 있다. 텍스트는 글자를 포함한다. 그림은 그림 또는 수식이나 화학식, 또는 표를 포함한다. 테이블 텍스트는 특정 그림과 연관되어 해당 그림을 설명하며 화면에는 나타나지 않는 글자를 의미한다.
일 실시예에 따르면, 전자책에 포함되는 표, 그림, 수식 등의 그림 객체에 대하여 테이블 텍스트를 구성함으로써 표, 그림, 수식 등도 TTS를 이용하여 음성으로 합성할 수 있다.
도 7에 도시된 바와 같이, 방법(700)은 전자책 데이터가 포함하는 계층화 데이터를 추출하는 단계(720)를 더 포함할 수 있다.
도 7에 도시된 바와 같이, 방법(700)은 문장의 시작 위치와 끝 위치를 결정하는 단계(730)를 더 포함할 수 있다. 일 실시예에서, 730 단계는 720 단계에서 추출된 객체의 속성에 기초하여 문장의 끝을 표시하는 문장 부호, 예컨대 마침표-온점(가로 쓰기), 마침표-고리점(세로 쓰기), 물음표, 느낌표 등을 판별하여 문장의 끝 위치를 지정하는 단계를 포함할 수 있다.
일 실시예에서, 730 단계는 문장의 끝 위치 다음에 나타나는 객체의 위치를 다음 문장의 시작 위치로 지정하는 단계를 포함할 수 있다.
도 7에 도시된 바와 같이, 문장의 언어를 선택하는 단계(740)를 더 포함할 수 있다. 일 실시예에서, 740 단계는 해당 문장에 속하는 텍스트(글자)의 유니 코드를 분석하여 해당 글자가 속하는 언어를 판별하는 단계를 포함할 수 있다.
예를 들면, 한자(漢子) 하나가 주어졌을 때, 모양은 같지만 대응하는 유니 코드의 지역은 "한국어", "중국어", "일본어"로 다른 값을 포함할 수 있다. 알파벳에서도 마찬가지로, 모양은 같아도 유니 코드의 지역이 "영어", "독일어", "프랑스어", "러시아어"로 달라질 수 있다.
일 실시예에서, 740 단계는 하나의 문장에 있어서 해당 문장에 포함되는 모든 글자의 유니 코드의 지역을 분석하여 가장 많은 횟수로 나타나는 지역에 해당되는 언어를 해당 문장의 언어로 선택하는 단계를 포함할 수 있다.
도 7에 도시된 바와 같이, 전자책 데이터를 음성으로 합성하는 TTS 제공 단계(750)를 더 포함할 수 있다. 일 실시예에서, 750 단계는 720 단계에서 추출된 페이지에 있어서, 각 페이지를 구성하는 그룹의 그룹 순서에 따라 TTS를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 750 단계는 선택된 그룹에 있어서, 730 단계에서 결정된 문장별로 740 단계에서 선택된 언어에 따라 텍스트 객체를 음성으로 합성할 수 있다. 일 실시예에서, 750 단계는 공지 또는 향후 개발될 임의의 기술을 이용하여 실시될 수 있다.
본원에 개시된 장치 실시예들에 있어서, 도시된 구성요소들의 배치는 발명이 구현되는 환경 또는 요구사항에 따라 달라질 수 있다. 예컨대, 일부 구성요소가 생략되거나 몇몇 구성요소들이 통합되어 하나로 실시될 수 있다. 또한 일부 구성요소들의 배치 순서 및 연결이 변경될 수 있다.
본원에 개시된 방법 실시예들에 있어서, 도시된 단계들의 배치는 발명이 구현되는 환경 또는 요구사항에 따라 달라질 수 있다. 예컨대, 일부 단계가 생략되거나 몇몇 단계들이 통합되어 하나로 실시될 수 있다. 또한, 일부 단계들의 배치 순서 등이 변경될 수 있다.
본 발명 및 그 다양한 기능적 구성요소들은 특정 실시예들로 설명되었으나, 본 발명은 하드웨어, 소프트웨어, 펌웨어, 미들웨어 또는 이들의 조합으로 구현될 수 있으며, 시스템, 서브시스템, 구성요소들 또는 이들의 서브 구성요소들로 활용될 수 있음을 이해해야 한다. 소프트웨어로 구현되는 경우, 본 발명의 요소들은 필요한 작업들을 수행하기 위한 명령어들/코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 매체와 같은 머신 판독가능 매체, 컴퓨터 프로그램 제품 내에 저장될 수 있으며, 또는 케리어 웨이브로 구체화되는 컴퓨터 데이터 신호 또는 케리어에 의해 변조된 신호에 의해 전송 매체 또는 통신 링크를 통해 전송될 수 있다. 머신 판독가능 매체 또는 프로세서 판독가능 매체는 머신(예컨대, 프로세서, 컴퓨터 등)에 의해 판독되고 실행가능한 형태로 정보를 저장 또는 전송할 수 있는 임의의 매체를 포함할 수 있다.
이러한 본원 발명은 실시예를 참고하여 설명되고 도시되었으나, 당해 분야에서 통상적 지식을 가진 자라면, 첨부된 특허청구범위에 의해 정해지는 본원발명의 기술적 사상 및 범위를 벗어나지 않고 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

Claims (10)

  1. 전자책 데이터의 내용을 음성으로 합성하는 방법으로서,
    전자책 데이터로부터 계층화 데이터를 추출하는 단계,
    상기 계층화 데이터로부터 문장의 시작 위치와 끝 위치를 결정하는 단계, 및
    상기 시작 위치와 끝 위치를 갖는 문장의 언어를 선택하는 단계
    를 포함하는 전자책 데이터의 음성 합성 방법.
  2. 제1항에 있어서,
    상기 계층화 데이터는, 객체, 수평 직선 또는 수직 직선 상의 객체들의 집합인 라인 및 내용이 연결되는 라인들의 집합인 그룹을 포함하는, 전자책 데이터의 음성 합성 방법.
  3. 제2항에 있어서,
    상기 객체는 텍스트, 그림 및 상기 그림을 설명하는 테이블 텍스트를 포함하는, 전자책 데이터의 음성 합성 방법.
  4. 제1항에 있어서,
    상기 문장의 시작 위치와 끝 위치를 결정하는 단계는,
    객체의 객체 속성에 기초하여 문장 부호를 판별하는 단계 및
    상기 문장 부호에 기초하여 문장의 시작 위치와 끝 위치를 결정하는 단계
    를 포함하는 전자책 데이터의 음성 합성 방법.
  5. 제1항에 있어서, 상기 문장의 언어를 선택하는 단계는,
    상기 문장 내 텍스트의 유니 코드를 분석하는 단계 및
    상기 유니 코드의 지역에 해당하는 언어를 선택하는 단계
    를 포함하는 전자책 데이터의 음성 합성 방법.
  6. 전자책 데이터의 내용을 음성으로 합성하는 장치로서,
    전자책 데이터로부터 계층화 데이터를 추출하는 계층화 데이터 추출부,
    상기 계층화 데이터로부터 문장의 시작 위치와 끝 위치를 결정하는 문장 결정부, 및
    상기 시작 위치와 끝 위치를 갖는 문장의 언어를 선택하는 언어 선택부
    를 포함하는 전자책 데이터 음성 합성 장치.
  7. 제6항에 있어서,
    상기 계층화 데이터는, 객체, 수평 직선 또는 수직 직선 상의 객체들의 집합인 라인 및 내용이 연결되는 라인들의 집합인 그룹을 포함하는, 전자책 데이터 음성 합성 장치.
  8. 제6항에 있어서,
    상기 객체는 텍스트, 그림 및 상기 그림을 설명하는 테이블 텍스트를 포함하는, 전자책 데이터 음성 합성 장치.
  9. 제6항에 있어서,
    상기 문장 결정부는, 객체의 객체 코드에 기초하여 문장 부호를 판별하고, 상기 문장 부호에 기초하여 문장의 시작 위치와 끝 위치를 결정하도록 구성되는, 전자책 데이터 음성 합성 장치.
  10. 제6항에 있어서,
    상기 언어 선택부는, 상기 문장 내 텍스트의 유니 코드를 분석하여 상기 유니 코드의 지역에 해당하는 언어를 선택하도록 구성되는, 전자책 데이터 음성 합성 장치.
PCT/KR2012/004571 2011-06-08 2012-06-08 전자책 데이터 음성 합성 장치 및 그 방법 WO2012169844A2 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2011-0055247 2011-06-08
KR20110055247 2011-06-08
KR10-2012-0045506 2012-04-30
KR20120045506 2012-04-30
KR1020120061585A KR101401427B1 (ko) 2011-06-08 2012-06-08 전자책 데이터 음성 합성 장치 및 그 방법
KR10-2012-0061585 2012-06-08

Publications (2)

Publication Number Publication Date
WO2012169844A2 true WO2012169844A2 (ko) 2012-12-13
WO2012169844A3 WO2012169844A3 (ko) 2013-03-07

Family

ID=47296636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/004571 WO2012169844A2 (ko) 2011-06-08 2012-06-08 전자책 데이터 음성 합성 장치 및 그 방법

Country Status (1)

Country Link
WO (1) WO2012169844A2 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040084753A (ko) * 2003-03-24 2004-10-06 마이크로소프트 코포레이션 텍스트 처리 시스템 및 방법과, 컴퓨터 판독 가능 매체
KR20080011859A (ko) * 2006-08-01 2008-02-11 한국전자통신연구원 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
KR20080045413A (ko) * 2006-11-20 2008-05-23 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
KR20100003574A (ko) * 2008-07-01 2010-01-11 엘지전자 주식회사 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법
KR20100065357A (ko) * 2007-10-05 2010-06-16 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040084753A (ko) * 2003-03-24 2004-10-06 마이크로소프트 코포레이션 텍스트 처리 시스템 및 방법과, 컴퓨터 판독 가능 매체
KR20080011859A (ko) * 2006-08-01 2008-02-11 한국전자통신연구원 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
KR20080045413A (ko) * 2006-11-20 2008-05-23 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
KR20100065357A (ko) * 2007-10-05 2010-06-16 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체
KR20100003574A (ko) * 2008-07-01 2010-01-11 엘지전자 주식회사 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법

Also Published As

Publication number Publication date
WO2012169844A3 (ko) 2013-03-07

Similar Documents

Publication Publication Date Title
CN108710601B (zh) 一种文本显示方法及其设备、存储介质、电子设备
JP5439454B2 (ja) 電子コミック編集装置、方法及びプログラム
JP6878034B2 (ja) 情報処理装置、制御方法、およびプログラム
WO2021056782A1 (zh) 一种图片识别翻译方法、装置、终端及介质
US20090055159A1 (en) Translation apparatus, translation method and computer readable medium
KR20180048774A (ko) 디지털 노트 필기의 시스템 및 방법
JP2002507289A (ja) レイアウトサービスライブラリを用いたグリフの描画方法
US8386943B2 (en) Method for query based on layout information
US20180018315A1 (en) Information processing device, program, and information processing method
WO2020232866A1 (zh) 扫描文本分段方法、装置、计算机设备和存储介质
JP2012212293A (ja) 文書認識装置、文書認識方法、プログラム及び記憶媒体
CN112417826B (zh) Pdf在线编辑方法、装置、电子设备和可读存储介质
CN109445900B (zh) 用于图片显示的翻译方法和装置
WO2016032267A1 (ko) 도큐먼트를 반응형 웹으로 변환하는 반응형 웹 생성 방법
WO2012165847A2 (ko) 사용자 주석 처리 장치 및 그를 위한 전자책 서비스 시스템 및 방법
WO2012169844A2 (ko) 전자책 데이터 음성 합성 장치 및 그 방법
JP2009187308A (ja) 表示制御装置、表示制御方法、プログラム、記憶媒体
US20120230590A1 (en) Image processing apparatus, non-transitory computer-readable medium, and image processing method
CN112799609A (zh) 竖排打印图像生成装置、方法、移动设备及竖排打印系统
JP5715172B2 (ja) 文書表示装置、文書表示方法及び文書表示プログラム
WO2018139700A1 (ko) 외곽선 폰트를 이용하여 metafont에 의한 폰트를 생성하는 장치 및 방법
WO2012165830A9 (ko) 전자 문서 표시 방법 및 시스템
KR101401427B1 (ko) 전자책 데이터 음성 합성 장치 및 그 방법
CN103198056A (zh) 一种字符解释并显示方法和装置
WO2015108229A1 (ko) 전자 문서의 첨삭을 위한 단말의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12797616

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12797616

Country of ref document: EP

Kind code of ref document: A2