WO2015010386A1 - 文档格式转换装置和文档格式转换方法 - Google Patents

文档格式转换装置和文档格式转换方法 Download PDF

Info

Publication number
WO2015010386A1
WO2015010386A1 PCT/CN2013/086494 CN2013086494W WO2015010386A1 WO 2015010386 A1 WO2015010386 A1 WO 2015010386A1 CN 2013086494 W CN2013086494 W CN 2013086494W WO 2015010386 A1 WO2015010386 A1 WO 2015010386A1
Authority
WO
WIPO (PCT)
Prior art keywords
path
character
font file
unicode
path group
Prior art date
Application number
PCT/CN2013/086494
Other languages
English (en)
French (fr)
Inventor
邢国峰
王长胜
Original Assignee
北大方正集团有限公司
北京方正阿帕比技术有限公司
方正信息产业控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北大方正集团有限公司, 北京方正阿帕比技术有限公司, 方正信息产业控股有限公司 filed Critical 北大方正集团有限公司
Priority to US14/399,337 priority Critical patent/US9529781B2/en
Priority to EP13890226.7A priority patent/EP3026571A4/en
Priority to JP2016528295A priority patent/JP2016532190A/ja
Publication of WO2015010386A1 publication Critical patent/WO2015010386A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Definitions

  • the present invention relates to the field of electronic document format conversion technology, and in particular to a document format conversion apparatus and a document format conversion method. Background technique
  • the present invention is based on the above problems, and proposes a new document format conversion technology, which can solve the data redundancy problem in the layout document, so that the converted document has a smaller volume, and can also solve the streaming rearrangement display error.
  • the problem is that it is easy to achieve better display effect on various terminals.
  • the present invention provides a document format conversion apparatus, including: a document parsing unit, configured to parse a layout document to obtain a path primitive constituting the layout document; and a path grouping unit, configured to The primitives are grouped to generate a path group; the font file generating unit obtains a path group for describing the characters, and generates a font file corresponding to the path group for describing the characters, wherein if there are two or more paths describing the same characters Group, only one font file is generated, and the font file is associated with the two path groups describing the same characters; the document generating unit generates the converted document by using all the generated font files.
  • a path group corresponding to each character is obtained by grouping path primitives in the layout document (of course, there is also a path group not used for describing characters);
  • path primitives in the layout document of course, there is also a path group not used for describing characters
  • only one font file is generated, so that for a document containing many identical characters, the volume of the document itself can be greatly reduced, in the case of using a mobile device, Helps users store a larger number of documents.
  • the present invention also provides a document format conversion method, comprising: parsing a layout document to obtain path primitives constituting the layout document; grouping the path primitives to generate a path group; and obtaining a character for describing characters a path group, and generating a font file corresponding to the path group for describing the character, wherein if there are two or more path groups describing the same character, only one font file is generated, and the font file is associated with the two The path group of the same character is described above; the converted document is generated using all the generated font files.
  • a path group corresponding to each character is obtained by grouping path primitives in the layout document (of course, there is also a path group not used for describing characters); meanwhile, due to the form of generating a font file And for generating a font file for a path group for describing the same character, the document itself can be greatly reduced in size for a document containing many identical characters, and is advantageous for user storage in the case of using a mobile device. A larger number of documents.
  • FIG. 1A is a block diagram showing a document format conversion apparatus according to an embodiment of the present invention
  • FIG. 1B is a block diagram showing a document format conversion apparatus according to another embodiment of the present invention
  • FIG. 1C is a diagram showing a connection relationship between respective units in the document format conversion device shown in FIG. 1B;
  • FIG. 2 is a flowchart showing a document format conversion method according to an embodiment of the present invention
  • FIG. 3 is a specific flow chart showing conversion of a layout document according to an embodiment of the present invention
  • FIG. 4 shows a flow chart for grouping path primitives according to an embodiment of the present invention
  • FIG. 5 shows whether a path group is used to describe a stream of characters according to an embodiment of the present invention.
  • FIG. 6 shows a flow chart for determining whether a path group is used to describe the same character and a corresponding processing method, in accordance with an embodiment of the present invention
  • FIG. 7 shows a flow chart of generating a font file in accordance with an embodiment of the present invention.
  • Figure 1A shows a block diagram of a document format conversion apparatus in accordance with one embodiment of the present invention.
  • the document format conversion apparatus includes: a document parsing unit 102, configured to parse a layout document to obtain a path primitive constituting a layout document; and a path grouping unit 104, configured to perform the path primitive Grouping to generate a path group;
  • the font file generating unit 106 obtains a path group for describing a character, and generates a font file corresponding to the path group for describing the character, wherein if there are two or more of the same characters
  • the path group generates only one font file and associates the font file to the two or more path groups describing the same character;
  • the document generating unit 108 generates the converted document using all the generated font files.
  • FIG. 1B shows a block diagram of a document format conversion apparatus according to an embodiment of the present invention.
  • the document format conversion apparatus 100 includes: a document parsing unit 102, configured to parse a layout document to obtain path primitives constituting the layout document; and a path grouping unit 104. And the grouping of the path primitives to generate a corresponding path group (including a path group for describing characters obtained by the font file generating unit 106, and other path groups not used for describing characters); font file generation The unit 106 obtains a path group for describing a character, and generates a corresponding font file. If there are two or more path groups describing the same character, only one font file is generated, and the font file is associated with the two files.
  • More than one path group describing the same character document generation unit 108, using generation All of the font files are generated, and the converted document is generated.
  • a path group corresponding to each character is obtained by grouping path primitives in the layout document (of course, there is also a path group not used for describing characters); meanwhile, due to the form of generating a font file And for the path group used to describe the same character, only one font file is generated, so that for a document containing many identical characters, the volume of the document itself can be greatly reduced, and in the case of using a mobile device, it is advantageous for the user. Store a larger number of documents.
  • each character needs to be described by a separate path. Even the same characters that are repeated must be described by using paths respectively, so that a large number of paths cause great redundancy, and the document volume is also Larger; by generating font files, the same characters can only be described by using the same font file, which greatly reduces the original path redundancy, thereby helping to reduce the size of the document and solve the problem of document data redundancy. The problem.
  • the path grouping unit 104 includes: a circumscribing rectangle obtaining subunit 1042, configured to obtain a minimum circumscribed rectangle of each of the path primitives; and a packet processing subunit 1044, configured to use all paths The positional relationship between the minimum circumscribed rectangles of the primitives is detected; if the minimum circumscribed rectangles of the two path primitives intersect, or the distance between the minimum circumscribed rectangles of the two path primitives is less than the preset character spacing, The two path primitives are grouped into the same path group.
  • the path primitive is used.
  • the other path primitives are assigned to the same path group.
  • the minimum circumscribed rectangle of the path primitive is taken as its corresponding area, and it is determined whether each rectangular area intersects and is separated by a distance, thereby judging whether it should be divided into the same path group.
  • each character corresponds to a path group (of course, there are path groups that are not used to describe characters), and by the above-described grouping process, segmentation of each character in the layout document can be realized.
  • the method further includes: a description determining unit 110, configured to identify each path group by using an optical character recognition technology, and if the characters corresponding to the path group can be identified, determine the corresponding path group.
  • the character is described for processing by the font file generating unit.
  • OCR Optical Character Recognition
  • the method further includes: a Unicode identification unit 112, configured to identify a Unicode code corresponding to the path group for describing a character; a character description unit 114, using the identifier
  • the Unicode and the corresponding font file represent the characters being described.
  • the font file contains path data for describing the character, so that the content of the document is properly streamlined on different devices, and a better display effect can be obtained.
  • the font file generating unit 106 generates the font file by using the unified code recognized by the unified code identifying unit 112 and the corresponding path group.
  • a font file is generated from a Unicode and a path group, thereby ensuring an accurate description of the corresponding character.
  • the font file generating unit 106 includes: a first table generating subunit 1062, configured to generate a first table by using the Unicode, where the Unicode is stored in the first table. a mapping to the glyph index; a second table generating sub-unit 1064, configured to generate a second table by using path primitives included in the path group, where the second table stores a glyph index and glyph data corresponding to the glyph index
  • the table processing sub-unit 1066 is configured to generate the font file by using the first table and the second table.
  • the first table is a cmap table generated using a Unicode
  • the second table is a giyf table generated using a path group.
  • the method further includes: a recording state determining unit 116, configured to determine whether the unified code identified by the unified code identifying unit 112 has been recorded; and a data acquiring unit 118, configured to use the unified code In the case where it has been recorded, it is determined that there are other path groups for describing the same character, and the recorded Unicode and the corresponding generated font file are acquired to be used by the character description unit 114 to represent the character to be described. And the font file generating unit 106 generates the font file in a case where the Unicode code is not recorded, to be used by the character description unit 114 to represent the character to be described.
  • the method further includes: a file saving unit 120, configured to uniformly save the font file, so that the character description unit 114 uses the name of the font file and a Unicode corresponding to the font file. And indicating a corresponding character; and a coordinate determining unit 122, configured to further acquire coordinates of the specified path group, and determine coordinates of the specified path group, in a case that the acquired Unicode of the specified path group has been recorded Whether the coordinates of the recorded path group are the same, wherein if they are the same, it is determined to be the same path group, and no processing is performed; if not, a new name is generated, so that the character description unit 114 uses the recorded unified code and the The new name indicates a corresponding character, and the font file generating unit 106 generates a font file named using the new name.
  • a file saving unit 120 configured to uniformly save the font file, so that the character description unit 114 uses the name of the font file and a Unicode corresponding to the font file. And indicating a corresponding
  • Fig. 1C is a diagram showing the connection relationship between the respective units in the document format conversion device shown in Fig. 1B.
  • connection relationship between the units in the document format conversion apparatus 100 includes:
  • the document parsing unit 102 is connected to the path grouping unit 104. Specifically, the path grouping unit 104 groups the path primitives according to the path primitives parsed by the document parsing unit 102, thereby generating a corresponding path group.
  • the path grouping unit 104 includes: a circumscribed rectangle obtaining subunit 1042 and a packet processing subunit 1044.
  • the circumscribing rectangle obtaining subunit 1042 is connected to the document parsing unit 102, and obtains the minimum circumscribed rectangle of each path primitive based on the path primitive parsed by the document parsing unit 102;
  • the packet processing subunit 1044 is connected to the circumscribed rectangle acquiring subunit 1042: Detecting a positional relationship between the minimum circumscribed rectangles of all path primitives; grouping the path primitives according to a relationship between the minimum circumscribed rectangles of the path primitives.
  • the description judging unit 110 is connected to the font file generating unit 106, and determines whether or not it is used to describe a character by recognizing the path group, whereby the font file generating unit 106 generates a font file using the path group in which the character is described.
  • the Unicode identification unit 112 is connected to the description judging unit 110, and identifies the corresponding Unicode for the path for describing the character judged by the description judging unit 110.
  • the Unicode recognition unit 112 is also connected to the font file generation unit 106, so that the font file generation unit 106 can further generate the font file by using the Unicode recognized by the Unicode recognition unit 112 and the corresponding path group generated by the path grouping unit 104. .
  • the font file generating unit 106 includes: a first table generating subunit 1062, a second table generating subunit 1064, and a table processing subunit 1066.
  • the first table generation subunit 1062 is connected to the Unicode recognition unit 112, and generates a first table by using the Unicode recognized by the Unicode recognition unit 112.
  • the second table generation subunit 1064 is connected to the path grouping unit 104, and uses the path group.
  • the path primitives included in the path generate a second table;
  • the table processing sub-unit 1066 is coupled to the first table generation sub-unit 1062 and the second table generation sub-unit 1064, respectively, to generate a font file using the first table and the second table.
  • the character description unit 114 is connected to the Unicode recognition unit 112 and the font file generation unit 106, respectively, and the Unicode code recognized by the Unicode recognition unit 112 and the corresponding font file generated by the font file generation unit 106 to represent the character to be described.
  • the recording state judging unit 116 is connected to the Unicode recognizing unit 112 and the data acquiring unit 118, respectively. Specifically, the recording state determining unit 116 determines whether the unified code recognized by the unified code identifying unit 112 has been recorded. If it has been recorded, the data acquiring unit 118 determines that there are other path groups for describing the same character, and acquires the recorded. The Unicode and the corresponding generated font file are used by character description unit 114 to represent the character being described (data acquisition unit 118 is also coupled to character description unit 114).
  • the file saving unit 120 is connected to the font file generating unit 106 and the character describing unit 114, respectively. Specifically, the file saving unit 120 uniformly saves the generated by the font file generating unit 106.
  • the font file is represented by the character description unit 114 using the name of the font file and the Unicode corresponding to the font file.
  • the coordinate judging unit 122 is connected to the recording state judging unit 116 and the character descripting unit 114, respectively. Specifically, the coordinate determination unit 122 further acquires the coordinates of the specified path group, and determines the coordinates of the specified path group and the recorded path group, in a case where the recording state determination unit 116 determines that the acquired unified code of the specified path group has been recorded. Whether the coordinates are the same, if not the same, a new name is generated to represent the corresponding character by the character description unit 114 using the recorded Unicode and the new name, and is generated by the font file generating unit 106 using the new name. Named font file.
  • FIG. 2 shows a flow chart of a document format conversion method in accordance with an embodiment of the present invention.
  • a document format conversion method includes: Step 202: parse a layout document to obtain a path primitive constituting the layout document; Step 204, the path primitive Grouping to generate each path group (including the path group for describing characters obtained in step 206, and other path groups not used to describe characters); Step 206, obtaining a path group for describing characters, and generating a corresponding Font file, wherein if there are more than two path groups describing the same character, only one font file is generated, and the font file is associated with the two or more path groups describing the same character; Step 208, using the generated All font files are generated, and the converted document is generated.
  • a path group corresponding to each character is obtained by grouping path primitives in the layout document (of course, there is also a path group not used for describing characters); meanwhile, due to the form of generating a font file And for the path group used to describe the same character, only one font file is generated, so that for a document containing many identical characters, the volume of the document itself can be greatly reduced, and in the case of using a mobile device, it is advantageous for the user. Store a larger number of documents.
  • each character needs to be described by a separate path. Even the same characters that are repeated must be described by using paths respectively, so that a large number of paths cause great redundancy, and the document volume is also Larger; by generating font files, the same characters can only be described by using the same font file, which greatly reduces the original path redundancy, thereby helping to reduce the size of the document and solve the problem of document data redundancy. The problem.
  • the step 204 includes: acquiring a minimum circumscribed rectangle of each of the path primitives; detecting a relationship between minimum circumscribed rectangles of all path primitives, where two paths are If the minimum circumscribed rectangle of the primitive intersects, or the distance between the minimum circumscribed rectangles of the two path primitives is less than the preset character spacing, then the two path primitives are grouped into the same path group, or if a path If the minimum circumscribed rectangle corresponding to the primitive intersects the minimum circumscribed rectangle corresponding to another path primitive, or the distance between the two is less than the preset character spacing, the two path primitives are divided into the same path group.
  • the minimum circumscribed rectangle of the path primitive is taken as its corresponding region, and it is determined whether or not each rectangular region should be divided into the same path group by calculating whether each rectangular region intersects and is separated by a distance.
  • each character corresponds to a path group (of course, there are path groups not used to describe characters), and by the above-described grouping process, division of each character in the layout document can be realized.
  • the step of acquiring a path group for describing a character comprises: identifying each path group by using an optical character recognition technology, if the path can be identified The corresponding character of the group determines that the corresponding path group is used to describe the character.
  • optical character recognition technology can be adopted.
  • OCR Optical Character Recognition
  • the method further includes: identifying the Unicode code for describing the path group of the character, and using the Unicode code and the corresponding font file to represent the character to be described.
  • the font file contains path data for describing the character, which facilitates proper stream rearrangement of the document content on different devices, and can obtain a better display effect.
  • the step of generating the font file comprises: generating the font file by using the recognized Unicode and the corresponding path group.
  • a font file is generated from a unified code and a path group, thereby ensuring an accurate description of the corresponding character.
  • the step of generating the font file by using the Unicode and the corresponding path group comprises: generating a first table by using the Unicode, where the Unicode is stored in the first table Mapping to a glyph index; utilizing path primitives included in the path group Generating a second table in which a glyph index and glyph data (or path data) corresponding to the glyph index are stored; and the font file is generated using the first table and the second table.
  • the first table is a cmap table generated by using a Unicode
  • the second table is a glyf table generated by using a path group.
  • the identified unified code it is further determined whether the identified unified code has been recorded, wherein if the unified code has been recorded, it is determined that there are other path groups for describing the same character, and the recorded unified is obtained. And a corresponding generated font file for representing the character to be described; if the Unicode code is not recorded, generating the font file for representing the character to be described.
  • the identified Unicode it is determined whether the currently processed character has been processed, that is, whether the same character already exists, and if so, directly using the previously generated font file and the like, Avoid data redundancy and regenerate if it does not exist. Through the above comparison process, it is ensured that each character only corresponds to one font file, avoiding data redundancy and reducing the document size.
  • the method further includes: uniformly saving the font file, and using the name of the font file and a Unicode corresponding to the font file to represent a corresponding character, wherein if the specified path group is obtained, If the Unicode has been recorded, the coordinates of the specified path group are further obtained, and it is determined whether the coordinates of the specified path group are the same as the coordinates of the recorded path group. If they are the same, the same path group is determined, and no processing is performed. If not the same, a new name is generated, the corresponding character is represented by the recorded Unicode and the new name, and a font file named using the new name is generated.
  • Fig. 3 shows a specific flow chart for converting a layout document according to an embodiment of the present invention.
  • a specific process for converting a layout document includes: Step 302: Parse the layout document data.
  • the original layout document may be parsed by using a parsing engine.
  • Step 304 Acquire, according to the parsing result, the primitives constituting the layout document.
  • Step 306 Determine whether the primitive is a path. Specifically, by analyzing the layout document data, the primitive ID, the primitive type, the primitive data, and the like can be obtained. Therefore, by analyzing the obtained primitive type, the identifier can be determined. Whether the primitive is a path. If yes, go to step 308, otherwise go to step 310.
  • Step 308 grouping the paths to obtain a path group, where each path group is used to describe a complete element, for example, to describe a character.
  • Step 310 Perform corresponding processing according to the primitive type.
  • Step 312 determining whether the path description is a character, and if yes, proceeding to step 314, otherwise proceeding to step 316.
  • Step 314 generating a font file.
  • FIG. 4 illustrates a flow chart for grouping path primitives in accordance with an embodiment of the present invention.
  • the flow of grouping path primitives includes:
  • Step 402 Acquire path primitive data, that is, a primitive belonging to the path type.
  • Step 404 Calculate a minimum circumscribed rectangle of the path primitive as an area corresponding to the path primitive.
  • Step 406 Determine whether the currently processed path primitive is a start path, that is, whether it is the first path of a certain path group, and if yes, proceed to step 408; otherwise, proceed to step 410. Specifically, after the grouping of the previous path group is completed, the first path element to be processed next is used as the start path.
  • Step 408 Save the coordinates of the minimum circumscribed rectangle and return to step 402.
  • Step 410 Calculate a distance from a minimum circumscribed rectangle of the start path and the calculated path to determine a relationship between the two.
  • the minimum circumscribed rectangle of the path that has been calculated here that is, the coordinate data saved in step 408.
  • Step 412 According to the calculation result of step 410, determine whether the two intersect, or when they do not intersect, whether the spacing between the two is smaller than the character spacing. Where, if the intersection or spacing is less than the character spacing
  • step 416 (or other preset distance), then go to step 416, otherwise go to step 414.
  • Step 414 using the path primitive as a starting path of the next group path, and entering the step
  • Step 416 these paths are taken as the same path group.
  • FIG. 5 illustrates a flow chart for determining whether a path group is used to describe a character, in accordance with an embodiment of the present invention.
  • the process of determining whether a path group is used to describe a character includes:
  • Step 502 Obtain a path group.
  • Step 504 Calculate a minimum circumscribed rectangle of the path group, and use the area corresponding to the path group.
  • Step 506 Identify the path group by using OCR technology to obtain a corresponding character.
  • Step 508 Determine whether the corresponding Unicode code can be recognized according to the recognized character. If yes, go to step 512; otherwise, go to step 510. Step 512, the path group is processed as a character.
  • Step 312 further includes determining whether two or more path groups describe the same character.
  • FIG. 6 illustrates a flowchart for determining whether the path group is used to describe the same character and corresponding processing method according to an embodiment of the present invention. .
  • the process of determining whether a path group is used to describe the same character and the corresponding processing method according to an embodiment of the present invention includes:
  • Step 602 Obtain a character path group.
  • Step 604 Identify the Unicode code of the character described by the character path group, and perform a search in the processed character list, where the processed character list stores the Unicode code of the character described by the processed character path group.
  • Step 606 Determine, according to the search result, whether a Unicode code of the currently found character exists in the processed character list. If yes, go to step 612, otherwise go to step 608. Step 608, indicating that the character of the current path group description is the first occurrence in the layout document, and adding the recognized Unicode code to the processed character list.
  • Step 610 Generate a corresponding font file according to the Unicode code and the path, and return to step 602 to continue processing other path groups.
  • Step 612 Obtain coordinates of the current path group and the found path group, and perform coordinate changes on the two sets of coordinates. Specifically, the coordinates may be translated to the coordinate origin, and the coordinates of the two are compared.
  • Step 614 Determine whether the coordinates of the two are the same. If yes, go to step 616, otherwise go to step 610.
  • Step 616 the description is used to describe the same character, replace the original path data with the stored Unicode code and the font name (the internal file name of the font file) to represent the character, and return to step 602 to continue to perform other path groups. deal with.
  • Figure 7 illustrates a flow diagram for generating a font file in accordance with an embodiment of the present invention.
  • the process of generating a font file includes: Step 702, passing in a Unicode code and a path description (ie, a path group corresponding to the Unicode code).
  • Step 704 generating a cmap table by using a Unicode code.
  • Step 706 the path will be described g lyf stored table. Of course, you also need to generate some other description tables necessary for OpenType font files.
  • Step 708 Generate a corresponding OpenType font file by using the generated cmap table, glyf table, and description table, and save the font file.
  • the present disclosure also provides one or more computer readable media having computer executable instructions that, when executed by a computer, perform a digital rights merging method, the method comprising: parsing a layout document to obtain a composition a path primitive of the layout document; grouping the path primitives to generate a path group; obtaining a path group for describing characters, and generating a font file corresponding to the path group for describing characters, wherein If there are more than two path groups describing the same character, only one font file is generated, and the font file is associated with the two or more path groups describing the same character; the converted document is generated using all the generated font files. .
  • the present disclosure also provides a computer comprising one or more computer readable media with computer executable instructions that, when executed by a computer, perform the method of claim 9.
  • a computer or computing device such as described herein, has hardware, including one or more processors or processing units, system memory, and some form of computer-readable media.
  • computer readable media includes computer storage media and communication media.
  • Computer storage media includes volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically embody computer readable instructions, data structures, program modules or other data in a modulated data signal, such as a carrier wave or other transmission mechanism, and includes any information delivery medium. Combinations of any of the above are also included within the scope of computer readable.
  • Embodiments of the invention may be described in the general context of computer-executable instructions, such as program modules, being executed by one or more computers or other devices.
  • Computer executable instructions can be organized as software into one or more computer executable components or modules.
  • program modules include, but are not limited to, routines, programs, objects, components, and data structures that perform particular tasks or implement particular abstract data types.
  • aspects of the invention may be implemented using any number of such components or modules and their organization. For example, aspects of the invention are not limited to the specific computer-executable instructions or specific components or modules illustrated in the figures and described herein.
  • Other embodiments of the invention may include different computer-executable instructions or components having more or less functionality than those illustrated and described herein.
  • aspects of the invention may also be practiced in distributed computing environments where tasks are performed by remote processing devices that are linked through a communications network.
  • program modules can be located in both local and remote computer storage media including memory storage devices.
  • the present invention provides a document format conversion apparatus and a document format conversion method, which can Solve the data redundancy problem in the layout document, make the converted document have a smaller volume, and also solve the problem of streaming rearrangement display error, and achieve better display effect on various terminals.
  • a document format conversion apparatus and a document format conversion method which can Solve the data redundancy problem in the layout document, make the converted document have a smaller volume, and also solve the problem of streaming rearrangement display error, and achieve better display effect on various terminals.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种文档格式转换装置,包括:文档解析单元,用于对版式文档进行解析以获取构成所述版式文档的路径图元;路径分組单元,用于对所述路径图元进行分組以生成路径組;字体文件生成单元,获取用于描述字符的路径組,并生成与用于描述字符的路径組对应的字体文件,其中,若存在两个以上描述相同字符的路径組,则仅生成一个字体文件,并将该字体文件关联至所述两个以上描述相同字符的路径組;文档生成单元,利用生成的所有字体文件,生成转换后文档。本发明还提出了一种文档格式转换方法。通过本发明的技术方案,可以解决版式文档中的数据冗余问题,使转换得到的文档具有更小的体积,还可以解决流式重排显示错误的问题,便于在各种终端上实现较好的显示效果。

Description

女档格式转换装置和女档格式转换方法 技术领域
本发明涉及电子文档格式转换技术领域, 具体而言, 涉及一种文档格 式转换装置和一种文档格式转换方法。 背景技术
在版式文档中, 存在大量使用路径 (路径包括点和线)来描述的字 符, 每个字符对应一組数据。 这样就存在一个问题, 即大量相同的字需要 大量路径来描述, 造成很大程度的数据冗余。 在流式重排时这些字符也无 法正常显示。
因此, 需要一种新的文档格式转换技术, 可以解决版式文档中的数据 冗余问题, 使转换得到的文档具有更小的体积, 还可以解决流式重排显示 错误的问题, 便于在各种终端上实现较好的显示效果。 发明内容
本发明正 于上述问题, 提出了一种新的文档格式转换技术, 可以 解决版式文档中的数据冗余问题, 使转换得到的文档具有更小的体积, 还 可以解决流式重排显示错误的问题, 便于在各种终端上实现较好的显示效 果。
有鉴于此, 本发明提出了一种文档格式转换装置, 包括: 文档解析单 元, 用于对版式文档进行解析以获取构成所述版式文档的路径图元; 路径 分組单元, 用于对所述路径图元进行分組以生成路径組; 字体文件生成单 元, 获取用于描述字符的路径組, 并生成与用于描述字符的路径組对应的 字体文件, 其中, 若存在两个以上描述相同字符的路径組, 则仅生成一个 字体文件, 并将该字体文件关联至所述两个以上描述相同字符的路径組; 文档生成单元, 利用生成的所有字体文件, 生成转换后文档。 在该技术方 案中, 通过对版式文档中的路径图元进行分組, 得到对应于每个字符的路 径組(当然, 也存在不用于描述字符的路径組); 同时, 由于通过生成字 体文件的形式, 并且对用于描述相同字符的路径組, 仅生成一个字体文 件, 从而对于包含有很多相同字符的文档, 可以极大地减小文档本身的体 积, 对于使用移动设备的情况下, 有利于用户存储更多数量的文档。
本发明还提出了一种文档格式转换方法, 包括: 对版式文档进行解析 以获取构成所述版式文档的路径图元; 对所述路径图元进行分組以生成路 径組; 获取用于描述字符的路径組, 并生成与用于描述字符的路径組对应 的字体文件, 其中, 若存在两个以上描述相同字符的路径組, 则仅生成一 个字体文件, 并将该字体文件关联至所述两个以上描述相同字符的路径 組; 利用生成的所有字体文件, 生成转换后文档。 在该技术方案中, 通过 对版式文档中的路径图元进行分組, 得到对应于每个字符的路径組(当 然, 也存在不用于描述字符的路径組); 同时, 由于通过生成字体文件的 形式, 并且对用于描述相同字符的路径組, 仅生成一个字体文件, 从而对 于包含有很多相同字符的文档, 可以极大地减小文档本身的体积, 对于使 用移动设备的情况下, 有利于用户存储更多数量的文档。
通过以上技术方案, 可以解决版式文档中的数据冗余问题, 使转换得 到的文档具有更小的体积, 还可以解决流式重排显示错误的问题, 便于在 各种终端上实现较好的显示效果。 附图说明
图 1A示出了根据本发明的一个实施例的文档格式转换装置的框图; 图 1B 示出了根据本发明的另一个实施例的文档格式转换装置的框 图;
图 1C示出了图 1B所示的文档格式转换装置中各个单元之间的连接 关系的示意图;
图 2示出了根据本发明的实施例的文档格式转换方法的流程图; 图 3 示出了根据本发明的实施例的对版式文档进行转换的具体流程 图;
图 4示出了根据本发明的实施例的对路径图元进行分組的流程图; 图 5示出了根据本发明的实施例的判断路径組是否用于描述字符的流 程图;
图 6示出了根据本发明的实施例的判断路径組是否用于描述相同字符 及相应的处理方法的流程图;
图 7示出了根据本发明的实施例的生成字体文件的流程图。 具体实施方式
为了能够更清楚地理解本发明的上述目的、 特征和优点, 下面结合附 图和具体实施方式对本发明进行进一步的详细描述。 需要说明的是, 在不 冲突的情况下, 本申请的实施例及实施例中的特征可以相互組合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明, 但是, 本发明还可以采用其他不同于在此描述的其他方式来实施, 因此, 本发明 并不限于下面公开的具体实施例的限制。
图 1A示出了根据本发明的一个实施例的文档格式转换装置的框图。 如图 1A所示, 该文档格式转换装置, 包括: 文档解析单元 102, 用于对 版式文档进行解析以获取构成版式文档的路径图元; 路径分組单元 104, 用于对所述路径图元进行分組以生成路径組; 字体文件生成单元 106, 获 取用于描述字符的路径組, 并生成与所述用于描述字符的路径組对应的字 体文件, 其中, 若存在两个以上描 目同字符的路径組, 则仅生成一个字 体文件, 并将该字体文件关联至所述两个以上描述相同字符的路径組; 文 档生成单元 108, 利用生成的所有字体文件, 生成转换后文档。
图 1B示出了根据本发明的实施例的文档格式转换装置的框图。
如图 1B 所示, 根据本发明的实施例的文档格式转换装置 100, 包 括: 文档解析单元 102, 用于对版式文档进行解析, 以获取构成所述版式 文档的路径图元; 路径分組单元 104, 用于对所述路径图元进行分組, 以 生成对应的路径組(包括字体文件生成单元 106获取的用于描述字符的路 径組, 也包括其他不用于描述字符的路径組) ; 字体文件生成单元 106, 获取用于描述字符的路径組, 并生成对应的字体文件, 其中, 若存在两个 以上描述相同字符的路径組, 则仅生成一个字体文件, 并将该字体文件关 联至所述两个以上描述相同字符的路径組; 文档生成单元 108, 利用生成 的所有字体文件, 生成转换后文档。 在该技术方案中, 通过对版式文档中 的路径图元进行分組, 得到对应于每个字符的路径組(当然, 也存在不用 于描述字符的路径組); 同时, 由于通过生成字体文件的形式, 并且对用 于描 目同字符的路径組, 仅生成一个字体文件, 从而对于包含有很多相 同字符的文档, 可以极大地减小文档本身的体积, 对于使用移动设备的情 况下, 有利于用户存储更多数量的文档。
具体地, 比如对于版式文档中, 每个字符都需要使用单独的路径进行 描述, 即便是重复出现的相同字符, 必须分别使用路径进行描述, 使得大 量的路径造成很大的冗余, 文档体积也很大; 而通过生成字体文件, 使得 相同的字符只需要采用同一个字体文件即可实现描述, 从而极大地降低了 原本的路径冗余, 从而有助于降低文档的体积, 解决文档数据冗余的问 题。
在上述技术方案中, 优选地, 所述路径分組单元 104包括: 外接矩形 获取子单元 1042, 用于获取每个所述路径图元的最小外接矩形; 分組处 理子单元 1044, 用于对所有路径图元的最小外接矩形之间的位置关系进 行检测; 在两个路径图元的最小外接矩形相交, 或两个路径图元的最小外 接矩形之间的距离小于预设的字符间距的情况下, 将所述两个路径图元分 至同一路径組。 或者说, 在一路径图元对应的最小外接矩形与另一路径图 元对应的最小外接矩形相交, 或两者之间的距离小于预设的字符间距的情 况下, 将所述一路径图元与所述另一路径图元分至同一路径組。 在该技术 方案中, 将路径图元的最小外接矩形作为其对应的区域, 并且通过计算每 个矩形区域是否相交、 间隔距离, 从而判断是否应该分至同一路径組。 而 实际上, 每个字符对应于一个路径組(当然, 存在不用于描述字符的路径 組) , 通过上述分組过程, 可以实现对版式文档中的每个字符的分割。
在上述技术方案中, 优选地, 还包括: 描述判断单元 110, 用于通过 光学字符识别技术对每个路径組进行识别, 若能够识别出与路径組对应的 字符, 则判定相应的路径組用于描述字符, 以供所述字体文件生成单元进 行处理。 在该技术方案中, 若用于描述字符, 则可以通过光学字符识别技 术 ( OCR, Optical Character Recognition )进行识别, 因此通过上述方 式, 对路径組是否用于描述字符进行判断。
在上述技术方案中, 优选地, 还包括: 统一码识别单元 112, 用于识 别与所述用于描述字符的路径組对应的统一码(Unicode ) ; 字符描述单 元 114, 利用识别得到的所述统一码和对应的字体文件来表示被描述的字 符。 在该技术方案中, 字体文件中包含了用于描述该字符的路径数据, 便 于在不同设备上对文档内容进行妥善地流式重排, 并且能够获得较好的显 示效果。 而通过设置统一码, 从而用户在选择了该文档中的字符时, 可以 由系统选定对应的统一码, 以实现对字符的拷贝等操作。
在上述技术方案中, 优选地, 所述字体文件生成单元 106利用所述统 一码识别单元 112识别到的统一码和对应的路径組生成所述字体文件。 在 该技术方案中, 由统一码和路径組生成字体文件, 从而确保对相应的字符 进行准确的描述。
在上述技术方案中, 优选地, 所述字体文件生成单元 106包括: 第一 表格生成子单元 1062, 用于利用所述统一码生成第一表格, 所述第一表 格中存储有所述统一码到字形索引的映射; 第二表格生成子单元 1064, 用于利用所述路径組中包含的路径图元生成第二表格, 所述第二表格中存 储字形索引以及与该字形索引对应的字形数据; 表格处理子单元 1066, 用于利用所述第一表格和所述第二表格生成所述字体文件。 在该技术方案 中, 第一表格如利用统一码生成的 cmap表, 第二表格如利用路径組生成 的 giyf表。
在上述技术方案中, 优选地, 还包括: 记录状态判断单元 116, 用于 判断所述统一码识别单元 112识别得到的统一码是否已经被记录; 数据获 取单元 118, 用于在所述统一码已经被记录的情况下, 判定存在其他用于 描述相同字符的路径組, 并获取已记录的统一码和对应的已生成的字体文 件, 以由所述字符描述单元 114用于表示被描述的字符; 以及所述字体文 件生成单元 106在所述统一码未被记录的情况下, 生成所述字体文件, 以 由所述字符描述单元 114用于表示被描述的字符。 在该技术方案中, 通过 对识别得到的统一码进行比较, 从而判断当前进行处理的字符是否已经被 处理过, 即是否已经存在相同字符, 若存在, 则直接使用之前生成的字体 文件等信息, 避免数据冗余, 若不存在, 则重新生成。 通过上述比较过 程, 从而确保每种字符仅对应生成一份字体文件, 避免数据冗余, 实现减 小文档体积。
在上述技术方案中, 优选地, 还包括: 文件保存单元 120, 用于统一 保存所述字体文件, 以由所述字符描述单元 114利用所述字体文件的名称 及该字体文件对应的统一码来表示相应的字符; 以及坐标判断单元 122, 用于在获取的指定路径組的统一码已经被记录的情况下, 进一步获取所述 指定路径組的坐标, 并判断所述指定路径組的坐标与已记录的路径組的坐 标是否相同, 其中, 若相同, 则判定为相同路径組, 不做处理; 若不相 同, 则生成新名称, 以由所述字符描述单元 114利用已记录的统一码和所 述新名称表示对应的字符, 并由所述字体文件生成单元 106生成使用所述 新名称进行命名的字体文件。 在该技术方案中, 通过对坐标进行判断, 从 而确定对于当前处理的路径組描述的字符, 是否已经存在其他的路径組进 行描述, 以确保对于相同字符仅生成一份字体文件等信息, 尽可能地减小 文档提及, 避免数据冗余。
图 1C示出了图 1B所示的文档格式转换装置中各个单元之间的连接 关系的示意图。
如图 1C所示, 文档格式转换装置 100中各个单元之间的连接关系包 括:
文档解析单元 102与路径分組单元 104相连接。 具体地, 路径分組单 元 104根据文档解析单元 102解析得到的路径图元, 对该路径图元进行分 組, 从而生成对应的路径組。
具体地, 路径分組单元 104包括: 外接矩形获取子单元 1042和分組 处理子单元 1044。 其中, 外接矩形获取子单元 1042连接至文档解析单元 102, 基于文档解析单元 102 解析出的路径图元来获取每个路径图元的最 小外接矩形; 分組处理子单元 1044连接至外接矩形获取子单元 1042, 对 所有路径图元的最小外接矩形之间的位置关系进行检测; 根据路径图元的 最小外接矩形之间的关系, 对路径图元进行分組。
字体文件生成单元 106分别与路径分組单元 104和文档生成单元 108 相连接。 具体地, 字体文件生成单元 106基于路径分組单元 104生成的分 組中的用于描述字符的路径組, 从而生成对应的字体文件, 然后由文档生 成单元 108根据该字体文件, 生成转换后文档。
描述判断单元 110连接至字体文件生成单元 106, 通过对路径組的识 别, 确定是否用于描述字符, 从而由字体文件生成单元 106利用其中用于 描述字符的路径組生成字体文件。
统一码识别单元 112连接至描述判断单元 110, 对描述判断单元 110 判断出的用于描述字符的路径, 识别出其对应的统一码。
统一码识别单元 112还连接至字体文件生成单元 106, 使得字体文件 生成单元 106能够进一步地利用统一码识别单元 112识别到的统一码和路 径分組单元 104生成的对应的路径組生成所述字体文件。
具体地, 字体文件生成单元 106 包括: 第一表格生成子单元 1062、 第二表格生成子单元 1064和表格处理子单元 1066。 其中, 第一表格生成 子单元 1062连接至统一码识别单元 112, 利用统一码识别单元 112识别 出的统一码生成第一表格; 第二表格生成子单元 1064连接至路径分組单 元 104, 利用路径組中包含的路径图元生成第二表格; 表格处理子单元 1066分别连接至第一表格生成子单元 1062和第二表格生成子单元 1064, 利用第一表格和第二表格生成字体文件。
字符描述单元 114分别连接至统一码识别单元 112和字体文件生成单 元 106, 利用统一码识别单元 112识别得到的统一码和字体文件生成单元 106生成的对应的字体文件来表示被描述的字符。
记录状态判断单元 116分别连接至统一码识别单元 112和数据获取单 元 118。 具体的, 记录状态判断单元 116判断统一码识别单元 112识别得 到的统一码是否已经被记录, 若已被记录, 则数据获取单元 118判定存在 其他用于描述相同字符的路径組, 并获取已记录的统一码和对应的已生成 的字体文件, 以由字符描述单元 114用于表示被描述的字符(数据获取单 元 118还与字符描述单元 114相连接 )。
文件保存单元 120分别连接至字体文件生成单元 106和字符描述单元 114。 具体地, 文件保存单元 120统一保存字体文件生成单元 106生成的 字体文件, 以由字符描述单元 114利用字体文件的名称及该字体文件对应 的统一码来表示相应的字符。
坐标判断单元 122分别连接至记录状态判断单元 116和字符描述单元 114。 具体地, 坐标判断单元 122在记录状态判断单元 116判定获取的指 定路径組的统一码已经被记录的情况下, 进一步获取指定路径組的坐标, 并判断指定路径組的坐标与已记录的路径組的坐标是否相同, 若不相同, 则生成新名称, 以由所述字符描述单元 114利用已记录的统一码和所述新 名称表示对应的字符, 并由字体文件生成单元 106生成使用新名称进行命 名的字体文件。
图 2示出了根据本发明的实施例的文档格式转换方法的流程图。
如图 2所示, 根据本发明的实施例的文档格式转换方法, 包括: 步骤 202, 对版式文档进行解析, 以获取构成所述版式文档的路径图元; 步骤 204, 对所述路径图元进行分組, 以生成各个路径組(包括步骤 206 中获 取的用于描述字符的路径組, 也包括其他不用于描述字符的路径組) ; 步 骤 206, 获取用于描述字符的路径組, 并生成对应的字体文件, 其中, 若 存在两个以上描述相同字符的路径組, 则仅生成一个字体文件, 并将该字 体文件关联至所述两个以上描述相同字符的路径組; 步骤 208, 利用生成 的所有字体文件, 生成转换后文档。 在该技术方案中, 通过对版式文档中 的路径图元进行分組, 得到对应于每个字符的路径組(当然, 也存在不用 于描述字符的路径組); 同时, 由于通过生成字体文件的形式, 并且对用 于描 目同字符的路径組, 仅生成一个字体文件, 从而对于包含有很多相 同字符的文档, 可以极大地减小文档本身的体积, 对于使用移动设备的情 况下, 有利于用户存储更多数量的文档。
具体地, 比如对于版式文档中, 每个字符都需要使用单独的路径进行 描述, 即便是重复出现的相同字符, 必须分别使用路径进行描述, 使得大 量的路径造成很大的冗余, 文档体积也很大; 而通过生成字体文件, 使得 相同的字符只需要采用同一个字体文件即可实现描述, 从而极大地降低了 原本的路径冗余, 从而有助于降低文档的体积, 解决文档数据冗余的问 题。 在上述技术方案中, 优选地, 所述步骤 204包括: 获取每个所述路径 图元的最小外接矩形; 对所有路径图元的最小外接矩形之间的关系进行检 测, 其中, 若两个路径图元的最小外接矩形相交, 或两个路径图元的最小 外接矩形之间的距离小于预设的字符间距, 则将所述两个路径图元分至同 一路径組, 或者说, 若一路径图元对应的最小外接矩形与另一路径图元对 应的最小外接矩形相交, 或两者之间的距离小于预设的字符间距, 则将这 两个路径图元分至同一路径組。 在该技术方案中, 将路径图元的最小外接 矩形作为其对应的区域, 并且通过计算每个矩形区域是否相交、 间隔距 离, 从而判断是否应该分至同一路径組。 而实际上, 每个字符对应于一个 路径組(当然, 存在不用于描述字符的路径組) , 通过上述分組过程, 可 以实现对版式文档中的每个字符的分割。
在上述技术方案中, 优选地, 在所述步骤 206中, 所述获取用于描述 字符的路径組的步骤包括: 利用光学字符识别技术对每个路径組进行识 别, 若能够识别出与该路径組对应的字符, 则判定相应的路径組用于描述 字符。 在该技术方案中, 若用于描述字符, 则可以通过光学字符识别技术
( OCR, Optical Character Recognition ) 进行识别, 因此通过上述方 式, 对路径組是否用于描述字符进行判断。
在上述技术方案中, 优选地, 在步骤 206之后, 还包括: 识别所述用 于描述字符的路径組的统一码, 并用该统一码和对应的字体文件来表示被 描述的字符。 在该技术方案中, 字体文件中包含了用于描述该字符的路径 数据, 便于在不同设备上对文档内容进行妥善地流式重排, 并且能够获得 较好的显示效果。 而通过设置统一码, 从而用户在选择了该文档中的字符 时, 可以由系统选定对应的统一码, 以实现对字符的拷贝等操作。
在上述技术方案中, 优选地, 生成所述字体文件的步骤包括: 利用识 别到的统一码和对应的路径組生成所述字体文件。 在该技术方案中, 由统 一码和路径組生成字体文件, 从而确保对相应的字符进行准确的描述。
在上述技术方案中, 优选地, 利用所述统一码和对应的路径組生成所 述字体文件的步骤包括: 利用所述统一码生成第一表格, 所述第一表格中 存储有所述统一码到字形索引的映射; 利用所述路径組中包含的路径图元 生成第二表格, 所述第二表格中存储有字形索引以及与字形索引对应的字 形数据(或者路径数据); 利用所述第一表格和所述第二表格生成所述字 体文件。 在该技术方案中, 第一表格如利用统一码生成的 cmap表, 第二 表格如利用路径組生成的 glyf表。
在上述技术方案中, 优选地, 还判断识别得到的统一码是否已经被记 录, 其中, 若该统一码已经被记录, 则判定存在其他用于描述相同字符的 路径組, 并获取已记录的统一码和对应的已生成的字体文件, 以用于表示 被描述的字符; 若所述统一码未被记录, 则生成所述字体文件, 以用于表 示所述被描述的字符。 在该技术方案中, 通过对识别得到的统一码进行比 较, 从而判断当前进行处理的字符是否已经被处理过, 即是否已经存在相 同字符, 若存在, 则直接使用之前生成的字体文件等信息, 避免数据冗 余, 若不存在, 则重新生成。 通过上述比较过程, 从而确保每种字符仅对 应生成一份字体文件, 避免数据冗余, 实现减小文档体积。
在上述技术方案中, 优选地, 还包括: 统一保存所述字体文件, 并利 用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符, 其 中, 若获取的指定路径組的统一码已经被记录, 则进一步获取所述指定路 径組的坐标, 并判断所述指定路径組的坐标与已记录的路径組的坐标是否 相同, 若相同, 则判定为相同路径組, 不做处理; 若不相同, 则生成新名 称, 利用已记录的统一码和所述新名称表示对应的字符, 并生成使用所述 新名称进行命名的字体文件。 在该技术方案中, 通过对坐标进行判断, 从 而确定对于当前处理的路径組描述的字符, 是否已经存在其他的路径組进 行描述, 以确保对于相同字符仅生成一份字体文件等信息, 尽可能地减小 文档提及, 避免数据冗余。
下面结合图 3至图 7, 对基于本发明的技术方案中, 对于版式文档的 格式转换过程进行详细说明。
首先通过图 3进行总体步骤上的介绍, 其中, 图 3示出了根据本发明 的实施例的对版式文档进行转换的具体流程图。
如图 3所示, 根据本发明的实施例的对版式文档进行转换的具体流程 包括: 步骤 302, 解析版式文档数据, 具体地, 可以利用解析引擎对原始版 式文档进行解析。
步骤 304, 根据解析结果, 获取构成该版式文档的图元。
步骤 306, 判断图元是否为路径, 具体地, 通过对版式文档数据的解 析, 可以得到图元 ID、 图元类型、 图元数据等, 因此, 通过解析得到的 图元类型, 即可判断该图元是否为路径。 其中, 若是, 则进入步骤 308, 否则进入步骤 310。
步骤 308, 对路径进行分組, 以得到路径組, 其中, 每个路径組用于 描述一个完整的元素, 比如用于描述一个字符。
步骤 310, 依据图元类型进行相应处理。
步骤 312, 判断路径描述是否为字符, 若是, 则进入步骤 314, 否则 进入步骤 316.
步骤 314, 生成字体文件。 对于步骤 308, 具体地, 图 4示出了根据本发明的实施例的对路径图 元进行分組的流程图。
如图 4 所示, 根据本发明的实施例的对路径图元进行分組的流程包 括:
步骤 402, 获取路径图元数据, 即属于路径类型的图元。
步骤 404, 计算路径图元的最小外接矩形, 作为对应于该路径图元的 区域。
步骤 406, 判断当前处理的路径图元是否为开始路径, 即是否作为某 个路径組的首个路径, 若是, 则进入步骤 408, 否则进入步骤 410。 具体 地, 是在对上一个路径組进行分組结束后, 将接下来进行处理的第一个路 径图元作为该开始路径。
步骤 408, 保存该最小外接矩形的坐标, 并返回步骤 402。
步骤 410, 计算与开始路径和已计算过的路径的最小外接矩形的距 离, 以判断两者之间的关系。 这里已计算过的路径的最小外接矩形, 即步 骤 408中保存的坐标数据。 步骤 412, 根据步骤 410的计算结果, 判断两者是否相交, 或当不相 交时, 两者的间距是否小于字符间距。 其中, 若相交或间距小于字符间距
(或其他的预设距离) , 则进入步骤 416, 否则进入步骤 414。
步骤 414, 将该路径图元作为下組路径的开始路径, 并进入步骤
408。
步骤 416, 将这些路径作为同一个路径組。
对于步骤 312, 具体地, 图 5示出了根据本发明的实施例的判断路径 組是否用于描述字符的流程图。
如图 5所示, 根据本发明的实施例的判断路径組是否用于描述字符的 流程包括:
步骤 502, 获取某个路径組。
步骤 504, 计算该路径組的最小外接矩形, 作为该路径組对应的区 域。
步骤 506, 利用 OCR技术对该路径組进行识别获得对应的字符。
步骤 508, 根据识别出的字符判断是否能够识别出对应的 Unicode 码, 若能, 则进入步骤 512, 否则进入步骤 510。 步骤 512, 将该路径組作为字符进行处理。
步骤 312中还包括判断两个以上路径組是否描述了相同的字符, 具体 地, 图 6示出了根据本发明的实施例的判断路径組是否用于描述相同字符 及相应的处理方法的流程图。
如图 6所示, 根据本发明的实施例的判断路径組是否用于描述相同字 符及相应的处理方法的流程包括:
步骤 602, 获取字符路径組。
步骤 604, 识别出该字符路径組描述的字符的 Unicode码, 并在已处 理字符链表中进行查找, 其中, 已处理字符链表中存储了已经处理过的字 符路径組描述的字符的 Unicode码。
步骤 606, 根据查找结果, 判断在已处理字符链表中是否存在当前查 找的字符的 Unicode码。 若存在, 则进入步骤 612, 否则进入步骤 608。 步骤 608, 说明当前路径組描述的字符为该版式文档中第一次出现, 将识别出来的 Unicode码加入到已处理字符链表中。
步骤 610, 依据 Unicode码和路径, 生成对应的字体文件, 并返回步 骤 602, 继续对其他路径組进行处理。
步骤 612, 获取当前路径組和查找到的路径組的坐标, 并将两組坐标 进行坐标变化, 具体地, 可以将坐标均平移至坐标原点, 并将两者的坐标 进行比较。
步骤 614, 判断两者的坐标是否相同, 其中, 若相同, 则进入步骤 616, 否则进入步骤 610。
步骤 616, 说明用于描述相同的字符, 用已存储的 Unicode码和字体 名 (字体文件的内部文件名)代替原来的路径数据, 以表示该字符, 并返 回步骤 602, 继续对其他路径組进行处理。
对于步骤 314, 具体地, 图 7示出了根据本发明的实施例的生成字体 文件的流程图。
如图 7所示, 根据本发明的实施例的生成字体文件的流程包括: 步骤 702, 传入 Unicode码和路径描述 (即对应于该 Unicode码的路 径組)。
步骤 704, 利用 Unicode码生成 cmap表。
步骤 706, 将路径描述存入 glyf 表。 当然, 还需要生成其它一些 OpenType字体文件必须的描述表。
步骤 708, 利用生成的 cmap表、 glyf 表和描述表等, 生成对应的 OpenType字体文件, 并保存该字体文件。
本公开还提供一种或多种具有计算机可执行指令的计算机可读介廣, 所述指令在由计算机执行时, 执行数字权利合并方法, 所述方法包括: 对 版式文档进行解析以获取构成所述版式文档的路径图元; 对所述路径图元 进行分組以生成路径組; 获取用于描述字符的路径組, 并生成与所述用于 描述字符的路径組对应的字体文件, 其中, 若存在两个以上描述相同字符 的路径組, 则仅生成一个字体文件, 并将该字体文件关联至所述两个以上 描述相同字符的路径組; 利用生成的所有字体文件, 生成转换后文档。 。 本公开还提供一台包括带有计算机可执行指令的一个或多个计算机可 读介质的计算机, 所述指令在由计算机执行时执行权利要求 9 所述的方 法。
示例性操作环境
诸如此处所描述的计算机或计算设备具有硬件, 包括一个或多个处理 器或处理单元、 系统存储器和某种形式的计算机可读介廣。 作为示例而非 限制, 计算机可读介质包括计算机存储介质和通信介质。 计算机存储介质 包括以用于存储诸如计算机可读指令、 数据结构、 程序模块或其它数据的 信息的任何方法或技术实现的易失性与非易失性、 可移动与不可移动介 质。 通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计 算机可读指令、 数据结构、 程序模块或其它数据, 并且包括任何信息传递 介廣。 以上的任一种的組合也包括在计算机可读介廣的范围之内。
可以在由一台或多台计算机或其他设备执行的诸如程序模块之类的计 算机可执行的指令的一般上下文中来描述本发明的各实施例。 计算机可执 行指令可作为软件被組织成一个或多个计算机可执行組件或模块。 一般而 言, 程序模块包括, 但不限于, 执行特定任务或实现特定抽象数据类型的 例程、 程序、 对象、 組件, 以及数据结构。 可以利用任何数量的这样的組 件或模块及其組织来实现本发明的各方面。 例如, 本发明的各方面不仅限 于附图中所示出并且在此处所描述的特定计算机可执行指令或特定組件或 模块。 本发明的其他实施例可以包括具有比此处所示出和描述的功能更多 或更少功能的不同的计算机可执行指令或組件。 本发明的各方面也可以在 其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实 现。 在分布式计算环境中, 程序模块可以位于包括存储器存储设备在内的 本地和远程计算机存储介质中。
以上结合附图详细说明了本发明的技术方案, 考虑到在版式文档中, 往往存在很大的数据冗余, 因此, 本发明提供了一种文档格式转换装置和 一种文档格式转换方法, 可以解决版式文档中的数据冗余问题, 使转换得 到的文档具有更小的体积, 还可以解决流式重排显示错误的问题, 便于在 各种终端上实现较好的显示效果。 以上所述仅为本发明的优选实施例而已, 并不用于限制本发明, 对于 本领域的技术人员来说, 本发明可以有各种更改和变化。 凡在本发明的精 神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明 的保护范围之内。

Claims

1. 一种文档格式转换装置, 其特征在于, 包括:
文档解析单元, 用于对版式文档进行解析以获取构成所述版式文档的 路径图元;
路径分組单元, 用于对所述路径图元进行分組以生成路径組; 字体文件生成单元, 获取用于描述字符的路径組, 并生成与所述用于 描述字符的路径組对应的字体文件, 其中, 若存在两个以上描述相同字符 的路径組, 则仅生成一个字体文件, 并将该字体文件关联至所述两个以上 描述相同字符的路径組;
文档生成单元, 利用生成的所有字体文件, 生成转换后文档。
2. 根据权利要求 1 所述的文档格式转换装置, 其特征在于, 所述路 径分組单元包括:
外接矩形获取子单元, 用于获取每个所述路径图元的最小外接矩形; 分組处理子单元, 用于对所有路径图元的最小外接矩形之间的位置关 系进行检测; 在两个路径图元的最小外接矩形相交, 或两个路径图元的最 小外接矩形之间的距离小于预设的字符间距的情况下, 将所述两个路径图 元分至同一路径組。
3. 根据权利要求 1 所述的文档格式转换装置, 其特征在于, 还包 括:
描述判断单元, 用于通过光学字符识别技术对每个路径組进行识别, 若能够识别出与路径組对应的字符, 则判定相应的路径組用于描述字符, 以供所述字体文件生成单元进行处理。
4. 根据权利要求 1至 3中任一项所述的文档格式转换装置, 其特征 在于, 还包括:
统一码识别单元, 用于识别与所述用于描述字符的路径組对应的统一 码;
字符描述单元, 利用识别得到的所述统一码和对应的字体文件来表示 被描述的字符。
5. 根据权利要求 4所述的文档格式转换装置, 其特征在于, 所述字 体文件生成单元利用所述统一码识别单元识别到的统一码和对应的路径組 生成所述字体文件。
6. 根据权利要求 5所述的文档格式转换装置, 其特征在于, 所述字 体文件生成单元包括:
第一表格生成子单元, 用于利用所述统一码生成第一表格, 所述第一 表格中存储有所述统一码到字形索引的映射;
第二表格生成子单元, 用于利用所述路径組中包含的路径图元生成第 二表格, 所述第二表格中存储有所述字形索引以及与所述字形索引对应的 字形数据;
表格处理子单元, 用于利用所述第一表格和所述第二表格生成所述字 体文件。
7. 根据权利要求 5 所述的文档格式转换装置, 其特征在于, 还包 括:
记录状态判断单元, 用于判断所述统一码识别单元识别得到的统一码 是否已经被记录;
数据获取单元, 用于在所述统一码已经被记录的情况下, 判定存在其 他用于描述相同字符的路径組, 并获取已记录的统一码和对应的已生成的 字体文件, 以由所述字符描述单元用于表示被描述的字符; 以及
所述字体文件生成单元在所述统一码未被记录的情况下, 生成所述字 体文件, 以由所述字符描述单元用于表示被描述的字符。
8. 根据权利要求 7 所述的文档格式转换装置, 其特征在于, 还包 括:
文件保存单元, 用于统一保存所述字体文件, 以由所述字符描述单元 利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符; 以及
坐标判断单元, 用于在获取的指定路径組的统一码已经被记录的情况 下, 进一步获取所述指定路径組的坐标, 并判断所述指定路径組的坐标与 已记录的路径組的坐标是否相同, 其中, 若相同, 则判定为相同路径組, 不做处理;
若不相同, 则生成新名称, 以由所述字符描述单元利用已记录的统一 码和所述新名称表示对应的字符, 并由所述字体文件生成单元生成使用所 述新名称进行命名的字体文件。
9. 一种文档格式转换方法, 其特征在于, 包括:
对版式文档进行解析以获取构成所述版式文档的路径图元;
对所述路径图元进行分組以生成路径組;
获取用于描述字符的路径組, 并生成与所述用于描述字符的路径組对 应的字体文件, 其中, 若存在两个以上描述相同字符的路径組, 则仅生成 一个字体文件, 并将该字体文件关联至所述两个以上描述相同字符的路径 組;
利用生成的所有字体文件, 生成转换后文档。
10. 根据权利要求 9所述的文档格式转换方法, 其特征在于, 所述对 所述路径图元进行分組以生成路径組的处理包括:
获取每个所述路径图元的最小外接矩形;
对所有路径图元的最小外接矩形之间的位置关系进行检测, 其中, 若 两个路径图元的最小外接矩形相交, 或两个路径图元的最小外接矩形之间 的距离小于预设的字符间距, 则将所述两个路径图元分至同一路径組。
11. 根据权利要求 9所述的文档格式转换方法, 其特征在于, 所述获 取用于描述字符的路径組的处理包括:
利用光学字符识别技术对每个路径組进行识别, 若能够识别出与路径 組对应的字符, 则判定相应的路径組用于描述字符。
12. 根据权利要求 9至 11 中任一项所述的文档格式转换方法, 其特 征在于, 还包括:
识别与所述用于描述字符的路径組对应的统一码, 并用所述统一码和 对应的字体文件来表示被描述的字符。
13. 根据权利要求 12 所述的文档格式转换方法, 其特征在于, 生成 所述字体文件的步骤包括:
利用识别到的统一码和对应的路径組生成所述字体文件。
14. 根据权利要求 13 所述的文档格式转换方法, 其特征在于, 利用 所述统一码和对应的路径組生成所述字体文件的步骤包括:
利用所述统一码生成第一表格, 所述第一表格中存储有所述统一码到 字形索引的映射;
利用所述路径組中包含的路径图元生成第二表格, 所述第二表格中存 储有所述字形索引以及与所述字形索引对应的字形数据;
利用所述第一表格和所述第二表格生成所述字体文件。
15. 根据权利要求 12 所述的文档格式转换方法, 其特征在于, 还包 括: 判断识别得到的统一码是否已经被记录, 其中,
若该统一码已经被记录, 则判定存在其他用于描述相同字符的路径 組, 并获取已记录的统一码和对应的已生成的字体文件, 以用于表示被描 述的字符;
若所述统一码未被记录, 则生成所述字体文件, 以用于表示所述被描 述的字符。
16. 根据权利要求 15 所述的文档格式转换方法, 其特征在于, 还包 括:
统一保存所述字体文件, 并利用所述字体文件的名称及该字体文件对 应的统一码来表示相应的字符, 其中, 若获取的指定路径組的统一码已经 被记录, 则进一步获取所述指定路径組的坐标, 并判断所述指定路径組的 坐标与已记录的路径組的坐标是否相同,
若相同, 则判定为相同路径組, 不做处理;
若不相同, 则生成新名称, 利用已记录的统一码和所述新名称表示对 应的字符, 并生成使用所述新名称进行命名的字体文件。
17. 一种或多种具有计算机可执行指令的计算机可读介廣, 所述指令 在由计算机执行时, 执行文档格式转换方法, 该方法包括:
对版式文档进行解析以获取构成所述版式文档的路径图元;
对所述路径图元进行分組以生成路径組;
获取用于描述字符的路径組, 并生成与所述用于描述字符的路径組对 应的字体文件, 其中, 若存在两个以上描述相同字符的路径組, 则仅生成 一个字体文件, 并将该字体文件关联至所述两个以上描述相同字符的路径 組;
利用生成的所有字体文件, 生成转换后文档。
PCT/CN2013/086494 2013-07-22 2013-11-04 文档格式转换装置和文档格式转换方法 WO2015010386A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US14/399,337 US9529781B2 (en) 2013-07-22 2013-11-04 Apparatus and method for document format conversion
EP13890226.7A EP3026571A4 (en) 2013-07-22 2013-11-04 Document format conversion device and document format conversion method
JP2016528295A JP2016532190A (ja) 2013-07-22 2013-11-04 文書フォーマット変換装置及び方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310309016.6 2013-07-22
CN201310309016.6A CN104331391B (zh) 2013-07-22 2013-07-22 文档格式转换装置和文档格式转换方法

Publications (1)

Publication Number Publication Date
WO2015010386A1 true WO2015010386A1 (zh) 2015-01-29

Family

ID=52392652

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/086494 WO2015010386A1 (zh) 2013-07-22 2013-11-04 文档格式转换装置和文档格式转换方法

Country Status (5)

Country Link
US (1) US9529781B2 (zh)
EP (1) EP3026571A4 (zh)
JP (1) JP2016532190A (zh)
CN (1) CN104331391B (zh)
WO (1) WO2015010386A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9684986B1 (en) * 2015-02-25 2017-06-20 Amazon Technologies, Inc. Constructing fonts from scanned images for rendering text
CN105404683A (zh) * 2015-11-30 2016-03-16 北大方正集团有限公司 一种版式文档处理方法及装置
CN109614594B (zh) * 2018-11-27 2023-05-30 浙江万朋数智科技股份有限公司 一种将题目文档解析为题库数据的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7165216B2 (en) * 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
US7315868B1 (en) * 2001-12-21 2008-01-01 Unisys Corporation XML element to source mapping tree
CN102866986A (zh) * 2012-08-30 2013-01-09 中国矿业大学 一种文档格式转换系统
CN103186513A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 一种文档格式转换的方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2005101A (en) * 1934-09-26 1935-06-18 Herberts Machinery Co Ltd Lathe
JPS60233781A (ja) * 1984-05-07 1985-11-20 Oki Electric Ind Co Ltd 文字分類方法
US5412771A (en) * 1992-02-07 1995-05-02 Signature Software, Inc. Generation of interdependent font characters based on ligature and glyph categorizations
CA2125608A1 (en) * 1993-06-30 1994-12-31 George M. Moore Method and system for providing substitute computer fonts
JP3344062B2 (ja) * 1994-03-18 2002-11-11 富士通株式会社 カタカナ手書き文字切り出し回路
US6741743B2 (en) * 1998-07-31 2004-05-25 Prc. Inc. Imaged document optical correlation and conversion system
US6678410B1 (en) * 1999-02-17 2004-01-13 Adobe Systems Incorporated Generating a glyph
JP2000330546A (ja) * 1999-05-25 2000-11-30 Hitachi Ltd フォント作成装置、およびフォント作成用記憶媒体
JP2001043212A (ja) * 1999-07-23 2001-02-16 Internatl Business Mach Corp <Ibm> 電子文書における文字情報の正規化方法
JP2001282776A (ja) * 2000-03-30 2001-10-12 Canon Inc 文書処理装置、文書処理方法および記憶媒体
JP3958003B2 (ja) * 2000-09-29 2007-08-15 独立行政法人科学技術振興機構 文字認識方法、文字認識プログラム、文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び文字認識装置
US20040205568A1 (en) * 2002-03-01 2004-10-14 Breuel Thomas M. Method and system for document image layout deconstruction and redisplay system
US7310769B1 (en) * 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
US20050105799A1 (en) * 2003-11-17 2005-05-19 Media Lab Europe Dynamic typography system
JP4393161B2 (ja) * 2003-11-20 2010-01-06 キヤノン株式会社 画像処理装置及び画像処理方法
ZA200409347B (en) * 2003-12-01 2005-07-27 Inventio Ag Lift system
JP2007128370A (ja) * 2005-11-04 2007-05-24 Nec Corp 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム
US8438472B2 (en) * 2009-01-02 2013-05-07 Apple Inc. Efficient data structures for parsing and analyzing a document
US8266179B2 (en) * 2009-09-30 2012-09-11 Hewlett-Packard Development Company, L.P. Method and system for processing text
CN102591849B (zh) * 2011-01-07 2014-07-30 北大方正集团有限公司 文档格式转换的方法及装置
US8768061B2 (en) * 2012-05-02 2014-07-01 Xerox Corporation Post optical character recognition determination of font size

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315868B1 (en) * 2001-12-21 2008-01-01 Unisys Corporation XML element to source mapping tree
US7165216B2 (en) * 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
CN103186513A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 一种文档格式转换的方法及装置
CN102866986A (zh) * 2012-08-30 2013-01-09 中国矿业大学 一种文档格式转换系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3026571A4 *

Also Published As

Publication number Publication date
EP3026571A1 (en) 2016-06-01
JP2016532190A (ja) 2016-10-13
US9529781B2 (en) 2016-12-27
US20150339271A1 (en) 2015-11-26
CN104331391B (zh) 2018-02-02
EP3026571A4 (en) 2017-04-12
CN104331391A (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
WO2019019361A1 (zh) 数据库数据处理方法、装置、计算机设备和存储介质
WO2023131218A1 (zh) 图数据的存储
CN110888842A (zh) 一种文件存储方法、文件查询方法、装置及设备
CN107566090B (zh) 一种定长/变长的文本报文处理方法及装置
WO2018188373A1 (zh) 页面分享方法、装置、服务器及存储介质
CN109062906B (zh) 程序语言资源的翻译方法及装置
US20160224554A1 (en) Search methods, servers, and systems
WO2022099868A1 (zh) 智能笔书写行为特征分析方法、装置及电子设备
CN110502645B (zh) 信息查询方法及装置
WO2015010386A1 (zh) 文档格式转换装置和文档格式转换方法
CN109947431A (zh) 一种代码生成方法、装置、设备及存储介质
CN113467777A (zh) 路径识别方法、装置和系统
WO2018028127A1 (zh) 存储文件的解析方法和装置
CN109429260B (zh) 一种北向数据的校验方法及装置
WO2024041301A1 (zh) 一种生成统一抽象语法树与程序分析的方法和装置
WO2024113874A1 (zh) 环形二维码的编码方法和解码方法
CN113391972A (zh) 一种接口测试方法及装置
CN104753891B (zh) 一种xml报文解析方法及装置
CN109446052B (zh) 一种应用程序的校验方法及设备
CN115729887A (zh) 一种文件解析方法、装置及计算机可读介质
WO2021135103A1 (zh) 一种语义分析方法、装置、计算机设备及存储介质
CN115390936A (zh) 统一校验方法、装置、设备和存储介质
WO2022104998A1 (zh) 笔迹内容评价方法、装置及电子设备
US10038604B2 (en) Processing method and apparatus for signaling tracing
CN112445811A (zh) 基于sql配置的数据服务方法、装置、存储介质及组件

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 14399337

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13890226

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2013890226

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016528295

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE