WO2021210912A1 - 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템 - Google Patents

특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템 Download PDF

Info

Publication number
WO2021210912A1
WO2021210912A1 PCT/KR2021/004706 KR2021004706W WO2021210912A1 WO 2021210912 A1 WO2021210912 A1 WO 2021210912A1 KR 2021004706 W KR2021004706 W KR 2021004706W WO 2021210912 A1 WO2021210912 A1 WO 2021210912A1
Authority
WO
WIPO (PCT)
Prior art keywords
reference number
description
reference numerals
recognizing
recognized
Prior art date
Application number
PCT/KR2021/004706
Other languages
English (en)
French (fr)
Inventor
장영진
윤정호
박규학
Original Assignee
주식회사 워트인텔리전스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 워트인텔리전스 filed Critical 주식회사 워트인텔리전스
Priority to US17/918,670 priority Critical patent/US20230351791A1/en
Priority to JP2022562581A priority patent/JP2023523575A/ja
Priority to CN202180028853.4A priority patent/CN115427944A/zh
Publication of WO2021210912A1 publication Critical patent/WO2021210912A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/30Character recognition based on the type of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/923Intellectual property
    • Y10S707/937Intellectual property intellectual property searching

Definitions

  • the present specification proposes a method for outputting patent reference numerals, and an apparatus and system for the same.
  • Knowledge information contents such as papers and patent documents are generally composed of a large number of pages.
  • Such content includes drawings, equations, and texts that explain them, and in particular, due to the limitation of the format, the drawings and texts related thereto are frequently arranged on different pages. Accordingly, the reader of the content reads the content multiple times alternately back and forth in order to understand the description of the drawings or formulas, and there is a problem in that time and effort are consumed more than necessary to acquire knowledge information.
  • the technical problem to be solved by the present invention is to provide a solution for efficiently analyzing knowledge information content, centering on drawing information.
  • another technical problem to be solved by the present invention is to provide a method of searching for a drawing based on the text, as well as searching for text (especially, the description of the reference numeral) based on the reference number of the drawing.
  • FIG. 1 Another technical problem to be solved by the present invention is a drawing-oriented content analysis method by filtering all drawings including the reference numbers based on the characters (in particular, descriptions of reference numbers) linked to the reference numbers of the drawings.
  • another technical problem to be solved by the present invention is to provide intuitive drawing-related information to a user by locating a reference number description matching the reference number in the area indicated by the reference number on the drawing.
  • Another technical problem to be solved by the present invention is to provide a solution for locating/moving the reference numeral description to an appropriate area by adapting to the state change of the drawing.
  • a patent reference number recognition method comprising: learning a plurality of patent drawing samples to build a reference number position recognition model and a reference number recognition model; receiving a patent drawing, which is a reference mark recognition target; recognizing the position of the reference number included in the patent drawing by using the reference number position recognition model; cutting out the reference number of the recognized position into an image fragment in the patent drawing; and recognizing the reference numbers included in the image fragment using the reference number recognition model.
  • learning a plurality of patent drawing samples to build a reference number position recognition model and a reference number recognition model may include.
  • the drawing is performed in various analysis environments. Convenience of analyzing knowledge information content may be provided.
  • FIG. 1 is a diagram illustrating an embodiment of providing a patent drawing according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a method for recognizing reference numerals according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a method of constructing a reference mark recognition model according to an embodiment of the present invention.
  • FIG. 4 is a flowchart of a method for extracting reference numerals according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an example of extracting reference numerals according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating a method of outputting reference numerals corresponding to reference numerals according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method for outputting reference numerals using a Scalable Vector Graphics (SVG) image according to an embodiment of the present invention.
  • SVG Scalable Vector Graphics
  • FIG. 8 is a diagram illustrating a method for outputting reference numerals using SVG images according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating a method for outputting reference numerals using SVG images according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating a patent document according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating a drawing interface in which reference numerals and reference numerals are interlocked according to an embodiment of the present invention.
  • FIG. 12 is a diagram illustrating a drawing interface in which reference numerals and reference numerals are interlocked according to an embodiment of the present invention.
  • FIG. 13 illustrates a keyword setting interface according to an embodiment of the present invention.
  • FIG. 14 is a diagram illustrating an example of inter-category linkage using reference numerals as a medium according to an embodiment of the present invention.
  • 15 is a diagram illustrating an example of inter-category interworking using reference numerals as a medium according to an embodiment of the present invention.
  • 16 is a diagram illustrating a patent information retrieval system according to an embodiment of the present invention.
  • FIG. 17 is a block diagram of a web server according to an embodiment of the present invention.
  • first, second, A, and B may be used to describe various components, but the components are not limited by the above terms, and only for the purpose of distinguishing one component from other components.
  • a first component may be named as a second component, and similarly, a second component may also be referred to as a first component without departing from the scope of the technology to be described below. and/or includes a combination of a plurality of related listed items or any of a plurality of related listed items.
  • 'A and/or B' may be interpreted as meaning 'at least one of A or B'.
  • '/' may be interpreted as 'and' or 'or'.
  • each constituent unit is responsible for. That is, two or more components to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.
  • each of the constituent units to be described below may additionally perform some or all of the functions of other constituent units in addition to the main function it is responsible for. Of course, it may be carried out by being dedicated to it.
  • each process constituting the method may occur differently from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • FIG. 1 is a diagram illustrating an embodiment of providing a patent drawing according to an embodiment of the present invention.
  • Fig. 1 (a) is a general patent drawing providing embodiment
  • Fig. 1 (b) is a patent drawing providing embodiment in which reference numerals are replaced with reference numerals according to an embodiment of the present invention.
  • Knowledge information contents such as papers and patent documents often use drawings as a means to explain information more easily and intuitively to users.
  • the user can grasp the content of the knowledge information content more easily and efficiently by simultaneously grasping the drawing and the description of the drawing.
  • knowledge information content is generally composed of a large number of pages, the user had to read the pages alternately in order to grasp the drawings and the descriptions of the drawings at the same time. This acted as a very big obstacle for users to easily and efficiently grasp the contents of knowledge information.
  • each reference number is directly replaced with a reference number description corresponding to each reference number so that the user can understand the invention more easily and efficiently through the drawings.
  • Techniques 1 to 3 described above may be sequentially performed by being integrated into one technique, or may be independently performed/borrowed as individual techniques, depending on the embodiment. Techniques 1 to 3 will be described below in detail with reference to each drawing.
  • FIG. 2 is a flowchart illustrating a method for recognizing reference numerals according to an embodiment of the present invention.
  • the web server may learn a plurality of patent drawing samples to build a reference mark position recognition model and a reference number recognition model ( S201 ). Both the reference mark location recognition model and the reference mark recognition model can be built based on deep learning technology.
  • the web server may recognize positions of reference numerals included in a plurality of patent drawing samples based on deep learning technology.
  • a Fully Convolutional Network FCN
  • FCN is a deep learning model useful for checking the presence or absence of characters in image pixels, and is a transformation model derived based on Convolutional Neural Networks (CNN).
  • CNN Convolutional Neural Networks
  • the FCN has a feature that only a convolutional layer is used (ie, convolutionalization) instead of a fully connected layer. Due to these features, FCN does not lose the location information of the image unlike CNN, so it can be very usefully used to recognize location information of an object (especially a character) included in an image.
  • the web server may recognize positions of reference numbers included in a plurality of patent drawing samples by using such FCN, and may extract common features from the recognized positions of reference numbers. For example, the web server may extract a feature that is not located in the center of the drawing, a feature that is not located outside the drawing, a feature that reference numbers are not located overlapping each other, etc. as common features of the reference numbers. In addition, the web server may extract various common features as a learning result by learning the positions of reference numerals, and is not limited to the features listed above. The web server may build a reference mark location recognition model based on the common features extracted in this way. The reference number position recognition model may receive a patent drawing, and may recognize and output the reference number position included in the corresponding patent drawing based on the extracted common features.
  • the web server may extract common features by learning the positions of reference signs included in a plurality of patent drawing samples, and build a reference mark location recognition model based on the extracted common features.
  • the web server having built the reference position recognition model may build the reference number recognition model using the reference position recognition model, which will be described in more detail later with reference to FIG. 3 .
  • FIG. 3 is a diagram illustrating a method of constructing a reference mark recognition model according to an embodiment of the present invention.
  • the web server In order to build a reference number recognition model, the web server first recognizes the positions of reference numbers 10-14, 16, 18 included in the patent drawing sample 301(s) using a pre-built drawing location recognition model. can do.
  • the web server may cut and collect the reference numerals 10 to 14, 16, 18 of the recognized position from the patent drawing sample 301(s) to the image fragment 302.
  • the web server uses image character recognition technology (eg, deep learning technology (especially C-RNN) and/or OCR) included in each of the collected image pieces 302 . (Optical character recognition, etc.) can be used for recognition.
  • image character recognition technology eg, deep learning technology (especially C-RNN) and/or OCR
  • the web server may construct a reference code recognition model by extracting common features from the reference numerals 10 to 14, 16, and 18 recognized in this way.
  • common features of the web server for example, a feature that a reference number is composed of numbers, English letters, or a combination thereof, a feature that a reference number has a length of 5 characters or less, etc. may be derived, but is not limited thereto.
  • the web server can build a reference mark recognition model based on the common features extracted in this way.
  • the reference number recognition model may recognize and output reference numbers included in each image fragment based on the extracted common features.
  • the web server may extract common features by learning the reference signs included in the image fragment, and build a reference mark recognition model based on the extracted common features.
  • the reference number position recognition model and reference number recognition model constructed in this way are used to recognize reference numbers in the patent drawing selected/input by the user.
  • the web server may input/select a patent drawing, which is a reference mark recognition target (S202). More specifically, the web server may receive a selection/input for a specific patent drawing (or a specific patent drawing) from a user device that is a client device.
  • the web server recognizes the position of the reference number included in the input/selected patent drawing using the reference symbol position recognition model built in step S201 ( S203 ), and cuts the reference number of the recognized position from the patent drawing.
  • An image fragment including a sign may be obtained (S204).
  • the web server may recognize the reference numerals included in the thus-obtained image fragment using the reference symbol recognition model built in step S201 ( S205 ).
  • the web server may generate one image by collecting the image fragments in units of a preset number (eg, 200), and a plurality of image fragments included in the generated image. may be recognized using image character recognition technology (eg, deep learning technology (particularly, C-RNN) and/or optical character recognition (OCR)).
  • image character recognition technology eg, deep learning technology (particularly, C-RNN) and/or optical character recognition (OCR)
  • FIG. 4 is a flowchart of a method for extracting reference numerals according to an embodiment of the present invention.
  • the web server may extract reference numeral descriptions from the patent specification.
  • Patent literature can be largely divided into categories into patent specifications and drawings, and reference numerals can be extracted from these patent specifications. A detailed description of the configuration of the patent document will be described below in detail with reference to FIG. 10 .
  • the web server may extract reference numbers corresponding to the reference numbers recognized according to the embodiments proposed in FIGS. 2 and 3 from the patent specification.
  • the web server may first establish a rule for extracting reference numeral descriptions (S401).
  • the reference code description extraction rule can be established in various embodiments/methods, and in the present specification, the following establishment examples are established based on text mining technology, paying attention to the fact that the format of a patent document is different for each country where the patent document is filed. suggest
  • the web server may first classify a plurality of patent specification samples by application country, and extract common features for each classified application country. As a common feature, it may be extracted based on at least one of the relative position of the reference numeral description with respect to the reference number, the format applied to the reference number description or reference number, and the filing year.
  • a common feature for Korea a feature in which the reference number description is located before the reference number, the characteristic that the reference number is included in parentheses, etc. can be extracted, and for the United States, the reference number description as a common feature can be extracted. Characteristics located before the reference number, the characteristic that bold font is applied to the reference number, and the characteristic that the reference number is not separated by parentheses unlike in Korea can be extracted.
  • the web server can variously extract features common to each application country.
  • the web server After the web server establishes a reference number description extraction rule (or model) based on the common features extracted in this way, it can extract reference number descriptions from the patent specification using this (S402).
  • the web The server may retrieve the reference numbers included in the patent specification. Furthermore, the web server may estimate the position of the reference number description corresponding to the searched reference number according to the established relative position rule, and extract the character of the expected position as the reference number description.
  • the web server searches for reference number 16 in a patent specification having the following description, and then the character 'bolt' written in front of reference number 16 ' can be extracted as a reference number description for reference numeral 16.
  • FIG. 5 is a diagram illustrating an example of extracting reference numerals according to an embodiment of the present invention.
  • the web server may search for a plurality of extracted reference number descriptions in the patent specification, and then determine and extract the most searched reference number description as the final reference number description. Taking this drawing as an example, if the web server searches each of the display, the light emitting display, and the organic light emitting display in the patent specification, the organic light emitting display is searched 3 times, the light emitting display 0, and the display 1 is searched. It can be extracted as a final reference number description.
  • the number of words extracted by the web server as reference number description candidates may be limited to a preset number based on reference number description data accumulated so far.
  • the web server may build a patent drawing search database by databaseizing the reference numbers and the reference number description recognition results.
  • the web server statistically calculates the number of words of a compound word extracted as a reference number description based on the reference code description data accumulated so far in the database, and sets the number of words with a statistically low extraction ratio/probability to a limited number.
  • the web server can extract up to four as reference number description It can be limited to the number of words. In this case, when extracting the reference number description according to the reference number description extraction rule, the web server may extract up to four words as reference number description.
  • the web server may establish an error extraction rule for determining whether there is an error in the extracted reference symbol description in order to further improve the extraction accuracy of the reference symbol description, and correct/complement the found error can do.
  • the web server may extract reference number descriptions from the patent specification sample(s) based on the established reference number description extraction rules, and retrieve the extracted reference number descriptions from the patent specification.
  • the web server may classify the reference reference description as an error in the reference number description.
  • the web server may establish error extraction rules (or models) by extracting (ie, learning) common features from such error-prone reference numerals.
  • the web server may use the established error extraction rule to determine whether there is an error in the reference numeral description extracted from the patent specification.
  • Examples of common features include a feature that the number 0 is incorrectly extracted as the alphabet o, O, D, the feature that the number 9 is incorrectly extracted as the number 0, an adjective such as 'to do', a connective word, an adverb, etc. There may be features from which the symbols !, @, #, $, %, ⁇ , (, ), etc. are extracted.
  • the extracted reference number description may be supplemented/corrected according to a preset method. For example, if the web server finds an error that a number/alphabet is incorrectly recognized as an alphanumeric character, it may replace the number/alphabet with the corresponding alphanumeric character. If found, the corresponding part-of-speech or symbol can be deleted.
  • the web server learns the established reference code description extraction rule and error extraction rule based on deep learning technology (CNN, Recurrent Neural Network (RNN), or a combination thereof), so that the performance of the reference code description extraction model is improved.
  • CNN Deep learning technology
  • RNN Recurrent Neural Network
  • the web server utilizes the set of correct answers for reference signs and reference signs accumulated so far in the patent drawing search database that has already been built, and builds a reference code description extraction model with very high recognition rate and accuracy to extract drawing code descriptions can be used for
  • the web server may determine whether reference numerals are correctly extracted from each of the specification and drawings, and the reference numerals determined not to be correctly extracted may be supplemented. Through this, matching accuracy between reference numerals and reference numbers can be further improved.
  • the web server may improve the accuracy of recognizing reference numbers for drawings by matching reference numbers extracted from drawings with reference numbers included in the patent specification. More specifically, the web server may search for reference numerals recognized in the patent drawing according to the above-described embodiment in the patent specification corresponding to the corresponding patent drawing. If the reference number recognized in the patent drawing is searched for in the patent specification, the web server may determine the recognized reference number as an appropriate reference number and determine it as the final reference number. Conversely, if the recognized reference number is not retrieved from the patent specification, the web server determines that the reference number is an inappropriate reference number, and inserts characters/words/terms having a shape similarity greater than or equal to a predetermined ratio to the reference number in the patent specification. It can be searched in and determined as the final reference number.
  • the web server may determine 360 having the highest shape similarity to 36D as the final reference number.
  • the web server may improve the reference number recognition accuracy for the specification by matching reference numbers recognized through the specification with reference numbers recognized in the drawings. More specifically, the web server may search for reference numerals recognized in the patent specification according to the above-described embodiment, among reference numbers recognized from the patent drawings corresponding to the patent specification. If the reference numbers recognized in the patent specification are retrieved from the reference numbers recognized from the patent drawings, the web server may determine the recognized reference numbers as appropriate reference numbers and determine the final reference numbers. Conversely, when the recognized reference number is not retrieved from among the reference numbers recognized from the patent drawing, the web server determines that the reference number is an inappropriate reference number, and a character/word having a shape similarity greater than or equal to a predetermined ratio with the reference number. /Terminology can be searched among the reference numbers recognized from the patent drawings and this can be determined as the final reference number.
  • the web server 360 has the highest shape similarity to 36D among the reference numbers recognized in the patent drawing. may be determined as the final reference number.
  • the web server can supplement the reference numerals recognized in the patent drawing by matching the reference numbers recognized in the patent specification
  • the web server can supplement the reference numerals recognized in the patent specification. can be supplemented by matching the reference numerals recognized in the patent drawings.
  • first and second embodiments may be selectively used or used in combination depending on the purpose and effect.
  • only reference numbers that match each other between the patent drawing and the patent specification can be determined/extracted/confirmed as the final reference numbers, and reference numbers are recognized than when the first and second embodiments are selectively applied.
  • the error probability can be significantly reduced.
  • the reference numeral description output method proposed in the present specification unlike the prior art, the relative position in the drawing is always the same regardless of the state change (eg, movement, rotation, enlargement or reduction) of the drawing itself.
  • the reference number description can accurately track the reference number position and replace it.
  • FIG. 6 is a flowchart illustrating a method of outputting reference numerals corresponding to reference numerals according to an embodiment of the present invention.
  • the web server may first recognize the size of the patent drawing and the position of the reference number included in the patent drawing to obtain the relative positional coordinates of the reference number in the patent drawing ( S601 ). In other words, the web server may obtain the relative positional coordinates of the reference numbers relative to the size of the patent drawing.
  • the reason for obtaining the relative position coordinates in this way is to accurately track the position of the reference numeral even if the state of the drawing is changed as described above.
  • the web server may set the relative position coordinates obtained in the previous step as the relative position coordinates of the reference numerals corresponding to the reference numerals (S602).
  • the web server may output a reference number description to the set relative position coordinates (S603).
  • the outputted reference numeral description may be output in the form of an icon/GUI (Graphic User Interface) having an opaque background color, and as a result outputted at the same relative position coordinates as the drawing, at least a part of the reference numerals is covered/ will cover That is, as a result of the reference numeral description being output at the same position as the reference numerals in the drawing, the reference numerals are output instead of the reference numerals.
  • all reference numerals in the drawing of FIG. 1(a) are replaced with reference numerals as in FIG. 1(b).
  • the reference numeral description is output to cover/cover at least a part of the reference number
  • the reference number description is at a position corresponding to the reference number (for example, at least part of the Positions in the upper/lower/left/right/slanted/neighboring directions of the reference numerals including the cover/cover position) may be output anywhere.
  • the web server moves the relative position coordinates of the reference number obtained in step S601 in a predetermined direction and/or by a predetermined distance to the reference number. It can be set/assigned to the relative coordinates of the description.
  • FIG. 6 for convenience of description, a detailed embodiment in which reference numerals are replaced by reference numerals will be described based on the above-described embodiment of FIG. 6 .
  • FIG. 7 to 9 are flowcharts illustrating a method for outputting reference numerals using SVG images according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a method for outputting reference numeral descriptions using a Scalable Vector Graphics (SVG) image according to an embodiment of the present invention
  • FIGS. 8 and 9 are diagrams according to an embodiment of the present invention. It is a diagram exemplifying a method of outputting reference numerals using SVG images.
  • the web server first, the web server generates an SVG image 802 of the same size as the patent drawing 801, and then overlaps the SVG image 802 on the patent drawing 801 and then the patent drawing ( 801) (S701).
  • the SVG image 802 after generating the SVG image 802 that is the same size as the patent drawing 801 and transparent, it can be fixed to the patent drawing 801 while covering the entire patent drawing 801 .
  • the SVG image 802 is unrecognizable from the user's point of view, but has a characteristic that the state changes in the same manner as the state of the patent drawing 801 changes.
  • the SVG image is an XML (Extensible Markup Language)-based image file format for expressing two-dimensional vector graphics, and has a characteristic that the quality does not deteriorate even when the state of the image changes (particularly, enlargement).
  • the web server may engrave/add/display/assign 903 a reference numeral description 902 to the preset relative position coordinates 901 within the SVG image 802 ( S702).
  • the preset relative position coordinates 901 may refer to reference numerals obtained in steps S601 and S602 of FIG. 6 and relative position coordinates of reference numerals.
  • Reference numeral 902 may be engraved/added/displayed/assigned within SVG image 802 in the form of an icon/GUI with an opaque background color.
  • a reference number description 902 is engraved/added/displayed/assigned 903 to a position 901 corresponding to the reference number.
  • the web server may superimpose the SVG image 903 engraved/added/marked/assigned on the drawing 801 with reference numerals 902, and as a result, the reference numerals of the drawing 801 are SVG It is covered by the reference numeral description 902 engraved/added/marked/assigned on the image 903 ( S703 ).
  • reference numeral 902 for reference numeral '16' in the drawing 801 is 'bolt'
  • 'bolt' 902 is engraved/added/in the same position as reference numeral '16'
  • the displayed/assigned SVG image 903 may be generated, and the output result of the SVG image 903 being superimposed on the drawing 801 may be covered by a 'bolt' 902 .
  • the reference numeral '16' appears to be replaced with the 'bolt' 902 .
  • the web server generates an SVG image 903 in which a reference numeral description 902 is engraved/added/assigned/displayed at a position 901 corresponding to a reference numeral, and the SVG image thus generated (903) can be output by matching/interlocking/corresponding to the drawing 801.
  • reference numerals in the drawing 801 are replaced with reference numerals description 902 and output.
  • the state can be changed freely without deterioration in quality
  • the reference number description is an object/component constituting the SVG image. Since the coordinates are scaled, there is no need to recalculate the position coordinates.
  • reference numbers are also included as image objects constituting the drawing image
  • reference number descriptions in SVG images are also included as image objects constituting the SVG images, and reference numbers are displayed at positions corresponding to reference numbers (or engraved).
  • the reference number and reference number description position coordinates of the image are automatically scaled, and as a result of scaling, the moved position becomes the same.
  • the SVG image fixed on the patent drawing is also changed in the same state as the patent drawing, and as a result, the state engraved/added on the SVG image is changed. Also, even if the SVG image is moved, rotated, enlarged, or reduced, the relative position within the SVG image is not changed and is fixed.
  • a specific format for example, yellow highlighting, etc.
  • Reference numerals may be displayed later as a tool tip using HTML or the like.
  • the reference number description replacement speed is very fast compared to the existing method of allocating reference number descriptions by tracking/recalculating the positions of reference numbers each time according to a change in the state of the drawing.
  • the replacement speed is very slow because the position of the reference number has to be tracked/recalculated every time according to the change in the state of the drawing, the reference number description is replaced/outputted for only one reference number at a time
  • the replacement speed is very fast, so that it is possible to replace/output all the reference numbers (ie, a plurality of reference numbers) included in one drawing at once.
  • the web server may engrave/display/add/allocate on the SVG image after arbitrarily adjusting the relative position coordinates of at least one of the overlapping reference numerals in a direction that does not overlap with each other. For example, when the first reference number description and the second reference number description overlap each other, the web server may set the first reference number description in the first direction and the second reference number description in a second direction opposite to the first direction. It can be moved by a predetermined length in the direction.
  • an 'SVG image' has been described as a representative embodiment as an image used for outputting reference numerals, but the present disclosure is not limited thereto, and images in various formats may be utilized. Therefore, in the present specification, the SVG image may be referred to as/replaced as an 'image', and the 'image' in this case may refer to an image of various formats, such as an SVG image, in which quality is not deteriorated even when a state changes.
  • the web server when a reference numeral description for each reference number is already included in the drawing, such as a block diagram or a flowchart, the web server replaces the reference number with the reference number description Instead of not, you can apply a highlighting format to the reference numbers. To this end, the web server may perform an operation for recognizing characters included in the drawing in advance.
  • each category of the patent document can be interlocked/synchronized with each other.
  • the user is able to selectively search/search for desired information by using reference numerals and/or descriptions of reference numerals, thereby enabling a more efficient grasp of the invention. Examples of interworking/synchronization for each category of patent literature will be described below with reference to FIGS. 11 to 15 , and before examining them, the categories of patent literature defined in the present specification will be briefly reviewed.
  • FIG. 10 is a diagram illustrating a patent document according to an embodiment of the present invention.
  • the patent document 1000 may be divided into a plurality of categories 1001 and 1002 .
  • the patent document 1000 can be largely divided into a patent specification 1001 and a patent drawing 1002, and the patent specification 1001 again includes claims 1001-1, detailed description of the invention 1001-2, and It may be divided by / or a description of the symbol (not shown).
  • the plurality of categories 1001 and 1002 divided in this way may be output by being divided into a plurality of areas/windows.
  • the patent specification 1001 and the patent drawing 1002 may be output separately in different first and second regions within one window.
  • the patent specification 1001 and the patent drawing 1002 may be output separately in first and second windows different from each other.
  • the patent specification 1001 and the patent drawing 1002 may be output separately for each area in one window, and the patent specification 1001 or the patent drawing 1002 may be additionally output as a separate window.
  • the reason for dividing output by region/window in this way is to provide convenience so that all categories 1001 and 1002 can enter the user's field of view at once, so that the user can more easily and efficiently grasp information.
  • a plurality of categories 1001 and 1002 may be linked with each other using reference numerals and/or reference numerals as a medium.
  • the web server searches for reference numbers in the plurality/all categories 1001 and 1002 can do. Furthermore, the web server may apply and output all of the reference marks searched for in the plurality/all categories 1001 and 1002 by applying the highlighting format.
  • the web server highlights by applying a preset format (eg, underline, bold text display, other text color application, highlight display, etc.) to all the searched reference numbers. can be displayed
  • a preset format eg, underline, bold text display
  • the web server displays a preset format (eg, underline, bold text display) for all reference numerals retrieved or all reference number descriptions that are output in place of the reference numbers. , applying a different text color, highlighting, etc.) can be applied to highlight it.
  • reference numeral '16' in the patent specification category 1001 a drawing including reference numeral '16' is automatically selected/outputted from the patent drawing category 1002 and then reference numeral '16' ' is highlighted, or if reference numeral '16' is selected in the patent drawing category 1002, all reference numerals '16' in the patent specification category 1001 are highlighted and at the same time, a sentence containing the reference numeral '16' An automatic scrolling/output operation to a paragraph may be performed.
  • reference numbers in the patent specification category 1001 may be output in a hyperlink format, and reference numbers (or descriptions of reference numbers) in the patent drawing category 1002 are also selectable in a form It can be output in GUI/icon form.
  • 11 and 12 are diagrams illustrating a drawing interface in which reference numerals and descriptions of reference numerals are interlocked according to an embodiment of the present invention.
  • the drawing interface proposed in this specification may be output in the drawing category as a user interface that provides various functions related to drawings to the user.
  • a drawing interface can basically output a drawing, as shown in the drawings.
  • the drawing interface provides a preview and shortcut function for the entire drawing included in the patent document, a function to change the drawing state (e.g., rotate, move, enlarge and reduce the drawing) function, a function to replace reference number description, etc.
  • User convenience can be provided by providing various functions.
  • the function of replacing reference numerals may correspond to functions to which the above-described embodiments are applied.
  • the drawing interface may provide a function of recognizing all reference numbers of the selected drawing, extracting all reference number descriptions corresponding to them, and listing-up all extracted reference number descriptions to provide the user with a function.
  • reference numerals and reference numerals corresponding to each other may be output by matching/pairing with each other.
  • the above-described embodiments may be applied to the reference number recognition and reference number description extraction.
  • the web server when the web server receives a user's selection input for at least one reference number description (or reference number description) from the reference number description list output through the drawing interface, the selected input Only reference numerals (or reference numerals) can be selectively output.
  • the web server may output the bolt, which is a reference numeral 16 only.
  • the user can selectively view only the desired reference numerals or reference numerals, so that the drawing/invention can be easily and efficiently understood.
  • FIG. 13 illustrates a keyword setting interface according to an embodiment of the present invention.
  • the drawing interface proposed in this specification may provide a keyword setting interface.
  • the keyword setting interface corresponds to a user interface provided through a drawing category in order to set at least some of the reference numerals as keywords.
  • the keyword setting interface includes an input window for receiving an input of a reference to be set as a keyword, a color setting window for setting an accent color of the set keyword, and/or a keyword indicator indicating the keyword set so far. It may be composed of However, the keyword setting interface is not limited thereto, and various functions may be added or at least some of the above-described functions may be excluded.
  • the user can register/set specific reference descriptions as keywords through this keyword setting interface, and the web server highlights the registered/set keywords within the drawing so that the user can easily find them or contains keywords. Drawings can be highlighted.
  • the web server may set/register the bolt as a keyword and output a keyword indicator indicating that the bolt is set/registered as a keyword in a predetermined area of the keyword setting interface.
  • the web server may search for a bolt in the drawing category, and apply an emphasis color to a keyword in the drawing currently selected and being enlarged and outputted.
  • the web server may output an indicator of the same color as the keyword highlighting color for a drawing for which a keyword is searched among drawings that are being previewed.
  • FIGS. 14 and 15 are diagrams illustrating an example of inter-category interworking using reference numerals as a medium according to an embodiment of the present invention.
  • a selection window for selecting at least one function may be output.
  • the function 1403 provided there may be a function of searching/searching for the selected reference reference 1402 in the patent specification.
  • the web server can search for the selected reference number description 1402 or a reference number corresponding to it 1402 in all categories, and the retrieved reference number description 1402 is highlighted.
  • the display 1502 may be applied to output as shown in FIG. 15 .
  • a preset format For example, underline, bold text, apply a different text color, highlight, etc.
  • the web server locates the reference number description or reference number 1506-1 located at the top of the patent specification category (in particular, the claim category and the detailed description category of the invention) among the searched reference number descriptions or reference numbers. You can automatically scroll web pages by sentence/paragraph.
  • the web server provides a scroll bar area (or scroll bar area) corresponding to all reference numbers or reference numbers searched in the entire scroll bar area provided in the patent specification category (especially the claim category and detailed description category).
  • Each of the first indicators 1505 may be output to the bar neighborhood). That is, by displaying the reference number description or the page area where the reference numbers are located in the scroll bar area in the form of a mini map through the first indicator 1505 , the user can move the scroll bar to the position of the first indicator 1505 to more easily desired provide access to information. Furthermore, through the first indicator output in the form of a mini map, the user can grasp at a glance how much all the referenced descriptions and/or reference numbers are distributed in which category, so it is useful for determining the importance of components can be
  • the web server provides/outputs search windows 1504-1 and 1504-2 for searching the searched reference number description or reference number within the patent specification category (especially the claim category and the detailed description category of the invention). can do. Accordingly, the user can directly search for a reference number description or paragraphs, pages, and sentences including reference numbers to be searched through the search windows 1504-1 and 1504-2.
  • the web server may search for the selected reference number description or reference number corresponding thereto also in the patent drawing category, and a second indicator is displayed in the drawing including reference number description or corresponding reference number among drawings that are being previewed. (1507) can be provided/printed. Accordingly, the user can search/search for a drawing including a reference number description to be immediately searched for by selecting a drawing provided/output by the second indicator 1507 .
  • the web server may automatically select a drawing corresponding to a paragraph/sentence part currently being read/searched by the user from among the patent specification categories, and perform an operation to enlarge and output the drawing.
  • the web server can determine the contents of the patent specification category (especially, the detailed description category of the invention) and divide the area for each description (eg, paragraph, sentence, page) of each drawing, and the current web page You can automatically select the drawing corresponding to the area being output at the highest ratio on the screen and print it enlarged.
  • the web server may automatically select FIG. 1 to enlarge and output the image within the drawing category.
  • the web server may automatically select a drawing corresponding to the selected drawing from the drawing category and output the enlarged drawing. Furthermore, the web server may perform an operation of automatically replacing reference numerals included in the selected specific area with reference numeral descriptions.
  • the web server can build a patent drawing search database by databaseizing at least one information acquired/recognized through the above-described operation/method/embodiments (that is, by accumulating it as data and separately storing it in the database). have.
  • the web server groups a patent document, a patent drawing, the size of a patent drawing, a reference number included in the patent drawing, a description of a reference number corresponding to each reference number, and/or the relative position coordinates of the reference number as one data. And by storing it in the database, it is possible to build a patent drawing search database.
  • the user can easily obtain information about a patent drawing to be searched among patent drawings worldwide by inputting a search word related to a patent document through the patent drawing search database constructed in this way.
  • the web server can improve recognition accuracy/speed by updating various models/rules described above by learning various patent drawing data in real time/periodically through the patent drawing search database constructed in this way.
  • 16 is a diagram illustrating a patent information retrieval system according to an embodiment of the present invention.
  • the patent information retrieval system proposed in the present specification may include a web server and a user device.
  • the web server 1601 and the user device 1602 are mainly interconnected through an Internet connection to perform communication, and may provide/receive a patent information search service through a web service/page.
  • the web server 1601 may correspond to a server/device including at least one software and hardware component designed to perform the embodiments proposed herein.
  • the web server 1601 may provide the patent information retrieval service proposed in the present specification to a user device, which is a client device, through an Internet web page.
  • the user device 1602 may correspond to a client device that receives a patent information search service provided through a web server.
  • the user device 1602 may receive a patent information search service provided by a web server through an Internet web page.
  • the patent information retrieval system consists of the web server 1601 and the user device 1602 is exemplified, but the present invention is not limited thereto. can be described by replacing
  • the execution subject of the embodiment is described as the web server 1601 in the present specification, it is not limited thereto, and the web server 1601 may be replaced with a program or application designed to implement the above-described embodiment, and the web server ( 1601) can be interpreted as their functions.
  • FIG. 17 is a block diagram of a web server according to an embodiment of the present invention.
  • the web server may include a processor 1710 , a memory unit 1720 , and a communication unit 1730 .
  • the processor 1710 may perform communication with or control other components in order to perform the embodiment proposed in this specification, execute various programs and/or applications stored in the memory unit 1720, and process internal data can do.
  • the processor 1710 may include a central processing unit (CPU), a micro processor unit (MPU), a micro controller unit (MCU), an application processor (AP), an application processor (AP), or any form well known in the art. It may be configured to include at least one processor. Accordingly, in this specification, the web server may be described as being replaced with a processor.
  • the memory unit 1720 not only means a digital data storage space that can be embedded, such as a flash memory, a hard disk drive (HDD), a solid state drive (SSD), etc., but also an external storage space that can store data through a communication connection, such as a cloud. referred to as up to Accordingly, the memory unit 1720 may store various digital data such as video, audio, photo, moving picture, image, text, application, and program.
  • the memory unit 1720 proposed in this specification can store various knowledge information content (particularly, patent documents) data, and a patent document search database and/or a patent drawing search database built by the processor 1710 . (1720-1) can be stored.
  • the processor 1710 may load various data from a patent document and/or a patent drawing search database stored in the memory unit 1720 to perform data processing/output operations, and the like.
  • the communication unit 1730 may transmit/receive data by performing communication using at least one wired/wireless communication protocol.
  • Embodiments according to the present invention may be implemented by various means, for example, hardware, firmware, software, or a combination thereof.
  • an embodiment of the present invention provides one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), FPGAs ( field programmable gate arrays), a processor, a controller, a microcontroller, a microprocessor, and the like.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • an embodiment of the present invention is implemented in the form of a module, procedure, function, etc. that performs the functions or operations described above, and is stored in a recording medium readable through various computer means.
  • the recording medium may include a program command, a data file, a data structure, etc. alone or in combination.
  • the program instructions recorded on the recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software.
  • the recording medium includes a magnetic medium such as a hard disk, a floppy disk, and a magnetic tape, an optical recording medium such as a compact disk read only memory (CD-ROM), a digital video disk (DVD), and a floppy disk.
  • magneto-optical media such as a disk
  • hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes such as those generated by a compiler.
  • Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
  • the device or terminal according to the present invention may be driven by a command that causes one or more processors to perform the functions and processes described above.
  • such instructions may include interpreted instructions, such as script instructions, such as JavaScript or ECMAScript instructions, or executable code or other instructions stored on a computer-readable medium.
  • the device according to the present invention may be implemented in a distributed manner over a network, such as a server farm, or may be implemented in a single computer device.
  • a computer program (also known as a program, software, software application, script or code) mounted on the device according to the invention and executing the method according to the invention includes compiled or interpreted language or a priori or procedural language. It can be written in any form of programming language, and can be deployed in any form, including stand-alone programs, modules, components, subroutines, or other units suitable for use in a computer environment.
  • a computer program does not necessarily correspond to a file in a file system.
  • a program may be in a single file provided to the requested program, or in multiple interacting files (eg, files that store one or more modules, subprograms, or portions of code), or portions of files that hold other programs or data. (eg, one or more scripts stored within a markup language document).
  • the computer program may be deployed to be executed on a single computer or multiple computers located at one site or distributed over a plurality of sites and interconnected by a communication network.
  • the present invention can be applied to various patent search systems/devices/methods.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명의 일 실시예에 따른 특허 도면 부호 인식 방법에 있어서, 복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델 및 도면 부호 인식 모델을 구축하는 단계; 도면 부호 인식 대상인 특허 도면을 입력받는 단계; 상기 도면 부호 위치 인식 모델을 이용하여 상기 특허 도면에 포함된 도면 부호의 위치를 인식하는 단계; 상기 인식된 위치의 도면 부호를 상기 특허 도면에서 이미지 조각으로 잘라내는 단계; 및 상기 도면 부호 인식 모델을 이용하여 상기 이미지 조각에 포함된 도면 부호를 인식하는 단계; 를 포함할 수 있다.

Description

특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템
본 명세서는 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템을 제안한다.
논문이나 특허 문헌과 같은 지식 정보 컨텐츠는, 일반적으로 다량의 페이지로 구성되는 것이 보통이다. 이 같은 컨텐츠는, 도면, 수식 및 이를 설명하는 텍스트를 포함하며, 특히 서식의 한계로 도면과 그에 연계된 텍스트가 서로 다른 페이지에 배치되는 경우가 빈번하다. 이에 따라, 컨텐츠의 독자는, 도면이나 수식에 대한 설명을 이해하기 위해 페이지를 앞뒤로 번갈아 가며 컨텐츠를 다회독 하게 되고, 지식 정보의 획득을 위해 시간과 노력이 필요 이상 소모되는 문제가 발생한다.
최근 이 같은 문제를 해결하기 위해, 광학 문자 인식 기술(Optical Character Recognition, OCR)를 이용하여 지식 정보 컨텐츠 상의 문자 및/또는 숫자를 정밀 인식함으로써, 컨텐츠 내부의 필요 정보에 대한 접근 속도를 향상시키는 방법이 제공되고 있다. 그러나, 이 방법 역시, 단순한 문자 기반의 검색 기능만 제공하므로, 도면과 관련된 정보를 신속하게 획득하기에 어려움이 있다.
그럼에도, 컨텐츠의 서식 구조 정보를 활용하여 도면과 컨텐츠의 연계 정보를 추출하고, 도면 중심의 컨텐츠 분석 방법을 제공함으로써 지식 정보를 신속하게 획득할 수 있는 솔루션은 현재까지 제공되지 않고 있는 실정이다.
이에, 본 발명이 해결하고자 하는 기술적 과제는, 도면 정보를 중심으로, 지식 정보 컨텐츠를 효율적으로 분석하기 위한 솔루션을 제공하는 것이다.
구체적으로, 본 발명이 해결하고자 하는 기술적 과제는, 도면의 부호에 대한 광학 문자 판독 및/또는 기계 학습을 통해, 도면의 부호와 연동된 문자(특히, 도면 부호 설명)을 식별하는 방법 및 장치를 제공하는 것이다.
그리고/또는, 본 발명이 해결하고자 하는 다른 기술적 과제는, 도면의 부호를 기초로 문자(특히, 도면 부호 설명)를 검색하는 것뿐만 아니라, 문자를 기초로 도면을 검색하는 방법을 제공하는 것이다.
구체적으로, 본 발명이 해결하고자 하는 다른 기술적 과제는, 도면의 부호에 연동된 문자(특히, 도면 부호 설명)를 기초로 상기 도면 부호가 포함된 모든 도면을 필터링함으로써, 도면 중심의 컨텐츠 분석 방법을 제공하는 것이다.
그리고/또는, 본 발명이 해결하고자 하는 또 다른 기술적 과제는, 도면 상에서 도면 부호가 표시된 영역에, 이와 매칭되는 도면 부호 설명을 위치시킴으로써, 사용자에게 직관적인 도면 관련 정보를 제공하는 것이다.
구체적으로, 본 발명이 해결하고자 하는 또 다른 기술적 과제는, 도면의 상태 변경에 적응하여 도면 부호 설명을 적절한 영역에 위치/이동시키는 솔루션을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 특허 도면 부호 인식 방법에 있어서, 복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델 및 도면 부호 인식 모델을 구축하는 단계; 도면 부호 인식 대상인 특허 도면을 입력받는 단계; 상기 도면 부호 위치 인식 모델을 이용하여 상기 특허 도면에 포함된 도면 부호의 위치를 인식하는 단계; 상기 인식된 위치의 도면 부호를 상기 특허 도면에서 이미지 조각으로 잘라내는 단계; 및 상기 도면 부호 인식 모델을 이용하여 상기 이미지 조각에 포함된 도면 부호를 인식하는 단계; 를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 도면에 표시되어 있는 부호를 도면 부호 설명으로 대체하여 표시함으로써, 사용자 입장에서 도면을 통해 보다 쉽고 직관적으로 발명 정보를 획득할 수 있다는 장점이 있다. 특히, 도면 부호 설명을 기초로 관련 도면을 모두 필터링할 수 있으므로, 필터링된 도면에 대한 집약적 분석을 통해 지식 정보 컨텐츠에 대한 도면 중심의 분석이 가능해진다.
또한, 본 발명에 다른 실시예에 따르면, 도면 부호 설명을 기초로 해당 도면 부호 설명이 포함된 도면뿐만 아니라, 문장 및 문단까지 시각적으로 식별할 수 있다. 따라서, 사용자는 다량의 텍스트 상에서 도면 부호 설명을 매개체로 하여 원하는 정보에 신속하게 접근할 수 있게 된다.
또한, 본 발명의 또 다른 실시예에 따르면, 도면의 확대, 축소, 이동, 확대 등과 같은 상태 변경에도, 도면 부호 설명을 상태 변경된 도면 내의 가독성이 높은 영역에 위치시킴으로써, 다양한 분석 환경에서도 도면을 통한 지식 정보 컨텐츠 분석의 편의성이 제공될 수 있다.
발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 특허 도면 제공 실시예를 예시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 도면 부호 인식 방법에 관한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 도면 부호 인식 모델 구축 방법을 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 도면 부호 설명 추출 방법에 관한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 도면 부호 설명 추출 실시예를 예시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 도면 부호에 대응한 도면 부호 설명 출력 방법을 예시한 순서도이다.
도 7은 본 발명의 일 실시예에 따른 SVG(Scalable Vector Graphics) 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 순서도이다.
도 8은 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 도면이다.
도 10은 본 발명의 일 실시예에 따른 특허 문헌을 예시한 도면이다.
도 11은 본 발명의 일 실시예에 따른 도면 부호 및 도면 부호 설명이 상호 연동되는 도면 인터페이스를 예시한 도면이다.
도 12는 본 발명의 일 실시예에 따른 도면 부호 및 도면 부호 설명이 상호 연동되는 도면 인터페이스를 예시한 도면이다.
도 13은 본 발명의 일 실시예에 따른 키워드 설정 인터페이스를 예시한다.
도 14는 본 발명의 일 실시예에 따른 도면 부호 설명을 매개체로 한 카테고리간 연동 실시예를 예시한 도면이다.
도 15는 본 발명의 일 실시예에 따른 도면 부호 설명을 매개체로 한 카테고리간 연동 실시예를 예시한 도면이다.
도 16은 본 발명의 일 실시예에 따른 특허 정보 검색 시스템을 예시한 도면이다.
도 17은 본 발명의 일 실시예에 따른 웹 서버의 블록도이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. 예를 들어, 'A 및/또는 B'는 'A 또는 B 중 적어도 하나'의 의미로 해석될 수 있다. 또한, '/'는 '및' 또는 '또는'으로 해석될 수 있다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
도 1은 본 발명의 일 실시예에 따른 특허 도면 제공 실시예를 예시한 도면이다.
보다 상세하게는, 도 1(a)는 일반적인 특허 도면 제공 실시예, 도 1(b)는 본 발명의 일 실시예에 따라 도면 부호를 도면 부호 설명으로 대체한 특허 도면 제공 실시예이다.
논문이나 특허 문헌과 같은 지식 정보 컨텐츠는 사용자에게 정보를 보다 쉽고 직관적으로 설명하기 위한 수단으로서 도면을 많이 이용한다. 사용자는 도면과 해당 도면에 대한 설명을 동시에 파악함으로써 지식 정보 컨텐츠의 내용을 보다 쉽고 효율적으로 파악할 수 있다. 그러나, 지식 정보 컨텐츠는 다량의 페이지로 구성되는 것이 일반적이어서, 사용자가 도면과 도면에 대한 설명을 동시에 파악하기 위해서는 페이지를 번갈아 가며 회독해야 했다. 이는, 사용자가 지식 정보 컨텐츠 내용을 쉽고 효율적으로 파악하는 데 매우 큰 방해 요소로 작용하였다.
특히, 지식 정보 컨텐츠 중 특허 문헌 도면의 경우에는, 도 1(a)와 같이 각 구성 요소별로 도면 부호가 부여되어 설명되는 것이 일반적인데, 이러한 도면 부호는 도면 설명의 편의를 위해 발명자에 의해 임의로 부여된 것이어서 규칙성이 없고 특허 문헌마다 매우 상이하다는 특징을 갖는다. 따라서, 사용자가 도면 내용(특히, 각 도면 부호에 대한 설명)을 파악하기 위해서는 도면과 도면의 설명을 동시에 파악하는 것이 매우 중요하다. 그러나, 이는 사용자의 불편함을 초래할 뿐 아니라 시간 및 비용의 소모를 증가시킨다는 문제점이 있다.
이에, 본 명세서에서는 사용자가 도면을 통해 발명을 보다 쉽고 효율적으로 파악할 수 있도록, 도 1(b)에 도시한 바와 같이, 각 도면 부호를 각 도면 부호에 대응하는 도면 부호 설명으로 직접 대체하여 제공하는 특허 도면 제공 기술을 제안하고자 한다.
이러한 특허 도면 제공 기술은 다음과 같이 크게 3가지 기술로 구분될 수 있다.
1. 도면 부호 인식 기술
2. 도면 부호 설명 추출 기술
3. 인식한 도면 부호를 추출한 도면 부호 설명으로 대체하는 기술
상술한 1번 내지 3번 기술은, 실시예에 따라 하나의 기술로 통합되어 순차적으로 수행되거나, 각각 개별적인 기술로서 독립적으로 수행/차용될 수도 있다. 상기 1 내지 3번 기술에 대해서는 이하 각 도면을 참조하여 상세히 후술하기로 한다.
본 명세서에서 제안되는 특허 도면 제공 기술은 특허 문헌 검색을 서비스하는 웹 사이트에 적용되는 경우를 기준으로 설명한다. 따라서, 이하에서 후술하는 실시예들은, 특허 문헌 검색 웹 사이트를 관리/운영하는 웹 서버에 의해 수행되는 것으로 해석될 수 있다. 다만, 이에 한정되는 것은 아니며, 본 명세서의 실시예는 특허 문헌 검색 서비스를 제공하는 프로그램, 어플리케이션 등에도 적용될 수 있으며, 이 경우 웹 사이트는 프로그램 또는 어플리케이션, 웹 서버는 프로그램 서버 또는 어플리케이션 서버로 각각 대체되어 설명될 수 있다.
한편, 본 명세서에서는 지식 정보 컨텐츠로서 특허 문헌을 예로 들어 설명하나 이에 한정되는 것은 아니며, 논문, 도서 등과 같은 다양한 지식 정보 컨텐츠로 확장되어 적용될 수 있음은 물론이다.
도 2는 본 발명의 일 실시예에 따른 도면 부호 인식 방법에 관한 순서도이다.
도 2를 참조하면, 우선 웹 서버는 복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델과 도면 부호 인식 모델을 구축할 수 있다(S201). 도면 부호 위치 인식 모델과 도면 부호 인식 모델은 모두 딥 러닝 기술을 기반으로 구축될 수 있다.
보다 상세하게는, 웹 서버는 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 딥 러닝 기술을 기반으로 인식할 수 있다. 이때 사용되는 딥 러닝 기술로는, FCN(Fully Convolutional Network)을 예로 들 수 있다. FCN은 이미지 픽셀 내에 문자의 존재 여부를 확인하는 데 유용한 딥 러닝 모델로서, CNN(Convolutional Neural Networks)을 기반으로 하여 도출된 변형 모델이다. FCN은 기존의 CNN과는 달리 완전하게 연결된 계층(Fully Connected layer) 대신, 컨볼루션 계층만을 사용(즉, 컨볼루션화(Convolutionalization))했다는 특징을 갖는다. 이러한 특징에 의해 FCN은 CNN과 달리 이미지의 위치 정보가 소실되지 않아, 이미지 내에 포함된 객체(특히, 문자)의 위치 정보를 인식하는 데 매우 유용하게 사용될 수 있다.
웹 서버는 이러한 FCN을 사용하여 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 인식할 수 있으며, 인식한 도면 부호의 위치들로부터 공통된 특징을 추출할 수 있다. 예를 들어, 웹 서버는 도면 부호 위치들의 공통된 특징으로서, 도면 중앙에는 위치하지 않는다는 특징, 도면 외곽에는 위치하지 않는다는 특징, 도면 부호끼리는 상호 겹쳐져서 위치하지 않는다는 특징 등을 추출할 수 있다. 이외에도, 웹 서버는 도면 부호의 위치들을 학습하여 학습 결과로서 공통된 특징을 다양하게 추출할 수 있으며, 상기 열거한 특징에 한정되는 것은 아니다. 웹 서버는 이렇게 추출한 공통된 특징을 기반으로 하여, 도면 부호 위치 인식 모델을 구축할 수 있다. 도면 부호 위치 인식 모델은, 특허 도면을 입력받을 수 있으며, 상기 추출한 공통된 특징을 기반으로 하여 해당 특허 도면에 포함된 도면 부호의 위치를 인식하여 출력할 수 있다.
다시 말하면, 웹 서버는 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 학습하여 공통된 특징을 추출하고, 추출한 공통된 특징을 기반으로 도면 부호 위치 인식 모델을 구축할 수 있다.
도면 부호 위치 인식 모델을 구축한 웹 서버는, 도면 부호 위치 인식 모델을 사용하여 도면 부호 인식 모델을 구축할 수 있는데, 이에 대해서는 도 3을 참조하여 보다 상세히 후술한다.
도 3은 본 발명의 일 실시예에 따른 도면 부호 인식 모델 구축 방법을 예시한 도면이다.
도면 부호 인식 모델을 구축하기 위해 웹 서버는 우선, 사전 구축한 도면 위치 인식 모델을 이용하여 특허 도면 샘플(301)(들)에 포함된 도면 부호(10~14, 16, 18)의 위치들을 인식할 수 있다. 웹 서버는 이렇게 인식한 위치의 도면 부호들(10~14, 16, 18)을 특허 도면 샘플(301)(들)에서 이미지 조각(302)으로 잘라내어 수집할 수 있다. 웹 서버는 수집한 이미지 조각들(302) 각각에 포함된 도면 부호(10~14, 16, 18)를 이미지 문자 인식 기술(예를 들어, 딥 러닝 기술(특히, C-RNN) 및/또는 OCR(Optical character recognition) 등)을 이용하여 인식할 수 있다.
이렇듯 도면 부호(10~14, 16, 18)를 작은 이미지로 조각 내서 인식하는 이유는, 특허 도면 전체(301)에서 도면 부호(10~14, 16, 18)를 인식하는 것보다 도면 부호만 포함되어 있는 이미지 조각(302) 내에서 도면 부호(10~14, 16, 18)를 인식하는 것이 인식률 및 인식 정확도가 매우 높을 뿐 아니라 인식 속도 또한 매우 빠르기 때문이다. 실제로 본 방법에 따라 도면 부호를 작은 이미지로 조각 내서 인식 시뮬레이션을 수행해 본 결과, 인식 정확도는 99.43%, 도면 부호 인식 시간은 각 도면당 0.02초 내로 기록되어 도면별 도면 부호의 실시간 인식까지도 가능한 수준이었다.
웹 서버는 이렇게 인식한 도면 부호(10~14, 16, 18)로부터 공통된 특징을 추출하여 도면 부호 인식 모델을 구축할 수 있다. 웹 서버는 공통된 특징으로서, 예를 들어 도면 부호는 숫자, 영문 또는 이들의 조합으로 구성된다는 특징, 도면 부호는 5글자 이내의 길이를 갖는다는 특징 등이 도출될 수 있으나, 이에 한정되는 것은 아니다.
웹 서버는 이렇게 추출한 공통된 특징을 기반으로 하여, 도면 부호 인식 모델을 구축할 수 있다. 도면 부호 인식 모델은, 추출한 공통된 특징을 기반으로 하여 각 이미지 조각에 포함된 도면 부호를 인식하여 출력할 수 있다.
다시 말하면, 웹 서버는 이미지 조각에 포함된 도면 부호들을 학습하여 공통된 특징을 추출하고, 추출한 공통된 특징을 기반으로 도면 부호 인식 모델을 구축할 수 있다.
이렇게 구축된 도면 부호 위치 인식 모델 및 도면 부호 인식 모델은 사용자에 의해 선택/입력된 특허 도면에서 도면 부호를 인식하는 데 사용되게 된다.
다시 도 2를 참조하면, 다음으로 웹 서버는 도면 부호 인식 대상인 특허 도면을 입력/선택받을 수 있다(S202). 보다 상세하게는, 웹 서버는 클라이언트 기기인 사용자 장치로부터 특정 특허 도면(또는 특정 특허 도면)에 대한 선택/입력을 수신할 수 있다.
다음으로, 웹 서버는 S201 단계에서 구축한 도면 부호 위치 인식 모델을 이용하여 입력/선택된 특허 도면에 포함된 도면 부호의 위치를 인식하고(S203), 인식된 위치의 도면 부호를 특허 도면으로부터 잘라내어 도면 부호가 포함된 이미지 조각을 획득할 수 있다(S204). 웹 서버는 이렇게 획득한 이미지 조각에 포함된 도면 부호를 S201 단계에서 구축한 도면 부호 인식 모델을 이용하여 인식할 수 있다(S205). 이때, 실시예에 따라 웹 서버는 이미지 조각을 기설정된 수(예를 들어, 200개) 단위로 모아 하나의 이미지로 생성할 수 있으며, 생성한 이미지에 포함된 복수의 이미지 조각들에 포함된 복수의 도면 부호들을 이미지 문자 인식 기술(예를 들어, 딥 러닝 기술(특히, C-RNN) 및/또는 OCR(Optical character recognition) 등)을 이용하여 인식할 수 있다. 이외에, S203 내지 S205 단계에 관한 상세한 설명은 도 3에서 상술한 바와 실질적으로 동일하므로, 중복되는 설명은 생략한다.
도 2 및 3에서 제안된 실시예에 따를 때, 웹 서버는 도면 부호의 위치를 먼저 파악한 후 특정 위치의 도면 부호들만 선택적으로 인식하게 되므로, 전체 도면에 대하여 도면 부호를 인식하던 종래 기술 대비, 인식 시간이 획기적으로 단축(즉, 인식 속도 향상)될 뿐 아니라, 도면 부호의 인식 정확도 역시 획기적으로 향상시킬 수 있게 된다.
도 4는 본 발명의 일 실시예에 따른 도면 부호 설명 추출 방법에 관한 순서도이다.
본 발명의 일 실시예에 따르면, 웹 서버는 특허 명세서에서 도면 부호 설명을 추출할 수 있다. 특허 문헌은 크게 특허 명세서와 도면으로 카테고리가 구분될 수 있으며, 도면 부호 설명은 이 중 특허 명세서에서 추출될 수 있다. 특허 문헌의 구성에 관한 상세한 설명은 도 10을 참조하여 이하에서 상세히 후술한다. 특히, 웹 서버는 도 2 및 3에서 제안된 실시예에 따라 인식한 도면 부호에 대응하는 도면 부호 설명을, 특허 명세서에서 추출할 수 있다.
이를 위해, 웹 서버는 우선, 도면 부호 설명을 추출하기 위한 규칙을 확립할 수 있다(S401). 도면 부호 설명 추출 규칙은 다양한 실시예/방식으로 확립될 수 있는데, 본 명세서에서는 특허 문헌의 출원 국가별로 특허 문헌의 형식이 상이하다는 점에 착안하여 텍스트 마이닝 기술을 기반으로 다음과 같은 확립 실시예를 제안한다.
웹 서버는 우선 복수의 특허 명세서 샘플들을 출원 국가별로 분류할 수 있으며, 분류된 출원 국가별로 공통된 특징을 추출할 수 있다. 공통된 특징으로는, 도면 부호를 기준으로 한 도면 부호 설명의 상대적인 위치, 도면 부호 설명 또는 도면 부호에 적용된 서식, 출원 년도 중 적어도 하나를 기초로 추출될 수 있다.
예를 들어, 한국에 대해서는 공통된 특징으로서 도면 부호 설명이 도면 부호 앞에 위치하는 특징, 도면 부호는 양괄호 내에 포함되어 작성된다는 특징 등이 추출될 수 있으며, 미국에 대해서는 공통된 특징으로서 도면 부호 설명이 도면 부호 앞에 위치하는 특징, 도면 부호에 굵은 글씨 서식이 적용된다는 특징, 한국과 달리 도면 부호가 양괄호로 구분되지 않는다는 특징 등이 추출될 수 있다. 출원 국가에 따라서는, 특허 명세서에 도면 부호 및 도면 부호 설명이 별도로 작성된 '부호의 설명' 카테고리가 있는 경우가 있는데, 이 역시 공통된 특징으로 추출될 수 있으며, '부호의 설명' 카테고리는 추후 도면 부호 설명을 추출하는 데 사용될 수 있다. 이외에도 다양한 특허 명세서 샘플들을 학습한 결과, 웹 서버는 각 출원 국가별로 공통된 특징을 다양하게 추출할 수 있다.
웹 서버는 이렇게 추출한 공통된 특징을 기초로 도면 부호 설명 추출 규칙(또는 모델)을 확립한 후, 이를 이용하여 특허 명세서에서 도면 부호 설명을 추출할 수 있다(S402).
보다 상세하게는, 만일 도면 부호 설명 추출 규칙이 도면 부호 대비 도면 부호 설명의 상대적인 위치를 기초로 확립된 경우(또는 도면 부호 설명 추출 규칙에 도면 부호 설명의 상대적인 위치 규칙이 포함되어 있는 경우), 웹 서버는 특허 명세서에 포함된 도면 부호를 검색할 수 있다. 나아가, 웹 서버는 확립한 상대적인 위치 규칙에 따라 검색된 도면 부호에 대응하는 도면 부호 설명의 위치를 예상하고, 예상한 위치의 문자를 도면 부호 설명으로서 추출할 수 있다.
예를 들어, 도면 부호 설명이 도면 부호 앞에 위치한다는 규칙이 확립되어 있는 경우, 웹 서버는 하기와 같은 기재가 있는 특허 명세서에서 도면 부호 16을 검색한 뒤 도면 부호 16 앞에 작성되어 있는 문자인 '볼트'를 도면 부호 16에 대한 도면 부호 설명으로서 추출할 수 있다.
- 볼트(16)
상기 예에서와 같이 도면 부호 설명이 하나의 단어로 구성되어 있는 경우에는 도면 부호 설명 추출에 오류가 발생할 가능성이 낮으나, 복수의 단어로 구성된 복합어에 해당하는 경우에는 어느 단어까지 도면 부호 설명으로 추출해야 하는지에 대한 모호함이 존재할 수 있다. 이러한 모호함을 해결하기 위해, 본 명세서에서 도 5의 실시예가 제안된다.
도 5는 본 발명의 일 실시예에 따른 도면 부호 설명 추출 실시예를 예시한 도면이다.
도면 부호에 대한 상대적인 위치로 도면 부호 설명을 추출하는 본 발명에 있어서, 본 도면에 예시된 '유기 발광 디스플레이(10)'와 같은 복합어의 경우, 어느 범위까지 도면 부호 설명으로 추출할 지 불명확하다는 문제가 발생할 수 있다. 예를 들어, 도면 부호 설명이 도면 부호 앞에 위치한다는 규칙을 기초로 도면 부호 설명을 추출하는 경우, 도 5의 예시로부터는 '디스플레이(①)', '발광 디스플레이(②)', '유기 발광 디스플레이(③)' 등이 도면 부호 설명으로서 추출될 수 있다.
따라서, 본 명세서에서는 이러한 불명확함/모호성을 해소하기 위해, 도면 부호 설명이 복수개 추출되는 경우, 이들 중 정확한 도면 부호 설명을 선택하기 위한 실시예를 다음과 같이 제안한다.
일 실시예로서, 웹 서버는 도면 부호 설명이 복수개 추출되는 경우, 추출된 복수의 도면 부호 설명을 특허 명세서에서 검색한 후 가장 많이 검색된 도면 부호 설명을 최종 도면 부호 설명으로 결정하여 추출할 수 있다. 본 도면을 예로 들면, 웹 서버가 특허 명세서에서 디스플레이, 발광 디스플레이 및 유기 발광 디스플레이 각각을 검색한 결과, 유기 발광 디스플레이가 3번, 발광 디스플레이가 0번, 디스플레이가 1번 검색되었다면, 유기 발광 디스플레이를 최종 도면 부호 설명으로서 추출할 수 있다.
이때, 웹 서버가 도면 부호 설명 후보로서 추출하는 단어의 개수는 현재까지 축적된 도면 부호 설명 데이터를 기반으로 기설정된 개수로 제한될 수 있다. 보다 상세하게는, 웹 서버는 도면 부호 및 도면 부호 설명 인식 결과를 데이터 베이스화하여 특허 도면 검색 데이터 베이스를 구축할 수 있다. 이 경우, 웹 서버는 데이터 베이스에 현재까지 축적된 도면 부호 설명 데이터를 기반으로, 도면 부호 설명으로서 추출된 복합어의 단어 개수를 통계내어, 통계적으로 추출 비율/확률이 낮은 단어 개수를 제한 개수로 설정할 수 있다. 예를 들어, 현재까지 축적된 도면 부호 설명 데이터를 분석한 결과, 5개 단어 이상의 복합어가 도면 부호 설명으로서 추출된 비율이 0.0001%인 경우, 웹 서버는 최대 4개까지를 도면 부호 설명으로서 추출 가능한 단어 개수로 한정할 수 있다. 이 경우, 웹 서버는 도면 부호 설명 추출 규칙에 따라 도면 부호 설명을 추출하는 경우, 최대 4개의 단어까지만 도면 부호 설명으로서 추출할 수 있다.
본 순서도에는 도시하지 않았으나, 웹 서버는 도면 부호 설명의 추출 정확도를 보다 더 향상시키기 위하여, 추출한 도면 부호 설명에 오류가 있는지 판단하기 위한 오류 추출 규칙을 확립할 수 있으며, 발견된 오류를 보정/보완할 수 있다.
보다 상세하게는, 웹 서버는 확립한 도면 부호 설명 추출 규칙을 기반으로 특허 명세서 샘플(들)에서 도면 부호 설명을 추출할 수 있으며, 추출한 도면 부호 설명을 특허 명세서에서 검색할 수 있다. 검색 결과, 특허 명세서에서 검색되지 않은 도면 부호 설명이 존재하는 경우, 웹 서버는 해당 도면 부호 설명을 오류가 존재하는 도면 부호 설명으로 분류할 수 있다. 웹 서버는 이렇듯 오류가 발생한 도면 부호 설명으로부터 공통된 특징을 추출하여(즉, 학습하여) 오류 추출 규칙(또는 모델)을 확립할 수 있다. 웹 서버는 이렇게 확립한 오류 추출 규칙을, 특허 명세서로부터 추출한 도면 부호 설명에 오류가 있는지 판단하는 데 사용할 수 있다.
공통된 특징의 예로는, 숫자 0이 알파벳 o, O, D으로 잘못 추출되는 특징, 숫자 9가 숫자 0으로 잘못 추출되는 특징, '~하는'과 같은 형용사, 연결어, 부사 등 명사가 아닌 품사가 추출되는 특징, 기호 !, @, #, $, %, ^, (, ) 등이 추출되는 특징 등이 있을 수 있다.
웹 서버는 확립한 오류 추출 규칙을 기초로 도면 부호 설명에 오류가 있는 것으로 판단한 경우, 추출한 도면 부호 설명을 기설정된 방식에 따라 보완/보정할 수 있다. 예를 들어, 웹 서버는 숫자/알파벳이 알파벳/숫자로 잘못 인식된 오류를 발견한 경우, 숫자/알파벳을 대응하는 알파벳/숫자로 대체할 수 있으며, 명사가 아닌 품사, 기호 등이 포함된 오류를 발견한 경우, 해당 품사, 기호를 삭제할 수 있다.
나아가, 웹 서버는 딥 러닝 기술(CNN, RNN(Recurrent Neural Network), 또는 이들의 조합)을 기반으로, 확립한 도면 부호 설명 추출 규칙과 오류 추출 규칙을 학습하여 성능이 더욱 향상된 도면 부호 설명 추출 모델을 구축할 수 있다. 특히, 웹 서버는 이미 구축한 특허 도면 검색 데이터 베이스에 현재까지 축적되어 있는 도면 부호 및 도면 부호 설명에 대한 정답 셋을 활용하여 인식률 및 정확도가 매우 뛰어난 도면 부호 설명 추출 모델을 구축하여 도면 부호 설명 추출에 사용할 수 있다.
한편, 앞서 별도로 언급하지 않았으나, 상호 대응되는 도면 부호 및 도면 부호 설명의 추출을 위해서는, 도면뿐만 아니라 명세서에서도 도면 부호를 높은 정확도로 인식할 필요가 있다. 본 명세서에서 제안된 도면 설명 추출 규칙은 '도면 부호'를 기준으로 도면 부호 설명을 추출함을 전제로 하기 때문이다. 즉, 도면 부호를 매개체로 하여 명세서와 도면이 상호 연동되는 것으로 볼 수 있다. 따라서, 웹 서버는 명세서 및 도면 각각에서 도면 부호가 정확하게 추출되었는지 여부를 판단하고, 정확하게 추출되지 않았다고 판단된 도면 부호는 보완할 수 있다. 이를 통해, 도면 부호 및 도면 부호 설명간의 매칭 정확도가 더욱 향상될 수 있다.
이에 대한 제1 실시예로서, 웹 서버는 도면을 통해 추출한 도면 부호를 특허 명세서에 포함된 도면 부호와 상호 매칭시킴으로써, 도면에 대한 도면 부호 인식 정확도를 향상시킬 수 있다. 보다 상세하게는, 웹 서버는 상술한 실시예에 따라 특허 도면에서 인식한 도면 부호를, 해당 특허 도면에 대응하는 특허 명세서에서 검색할 수 있다. 만일, 특허 도면에서 인식한 도면 부호가 특허 명세서에서 검색된 경우, 웹 서버는 인식한 도면 부호를 적절한 도면 부호로 판단하여 최종 도면 부호로 결정할 수 있다. 반대로, 인식한 도면 부호가 특허 명세서에서 검색되지 않은 경우, 웹 서버는 해당 도면 부호는 부적절한 도면 부호로 판단하고, 해당 도면 부호와 기설정된 비율 이상으로 형상 유사도를 갖는 문자/단어/용어를 특허 명세서에서 탐색하여 이를 최종 도면 부호로 결정할 수 있다.
예를 들면, 도면을 통해 36D가 인식되었으나 실제 명세서에서는 36D가 검색되지 않은 경우, 웹 서버는 36D와 가장 높은 형상 유사도를 갖는 360을 최종 도면 부호로 결정할 수 있다.
이와 유사하게 제2 실시예로서, 웹 서버는 명세서를 통해 인식한 도면 부호를 도면에서 인식된 도면 부호와 상호 매칭시킴으로써, 명세서에 대한 도면 부호 인식 정확도를 향상시킬 수 있다. 보다 상세하게는, 웹 서버는 상술한 실시예에 따라 특허 명세서에서 인식한 도면 부호를, 해당 특허 명세서에 대응하는 특허 도면으로부터 인식된 도면 부호 중에서 검색할 수 있다. 만일, 특허 명세서에서 인식한 도면 부호가 특허 도면으로부터 인식된 도면 부호 중에서 검색된 경우, 웹 서버는 인식한 도면 부호를 적절한 도면 부호로 판단하여 최종 도면 부호로 결정할 수 있다. 반대로, 인식한 도면 부호가 특허 도면으로부터 인식된 도면 부호 중에서 검색되지 않은 경우, 웹 서버는 해당 도면 부호는 부적절한 도면 부호로 판단하고, 해당 도면 부호와 기설정된 비율 이상으로 형상 유사도를 갖는 문자/단어/용어를 특허 도면으로부터 인식된 도면 부호 중에서 탐색하여 이를 최종 도면 부호로 결정할 수 있다.
예를 들면, 특허 명세서를 통해 36D가 인식되었으나 실제 특허 도면을 통해 인식된 도면 부호 중에서는 36D가 검색되지 않은 경우, 웹 서버는 특허 도면에서 인식된 도면 부호 중에서 36D와 가장 높은 형상 유사도를 갖는 360을 최종 도면 부호로 결정할 수 있다.
즉, 제1 실시예에 따르면 웹 서버는 특허 도면에서 인식한 도면 부호를 특허 명세서에서 인식한 도면 부호와 매칭시켜 보완할 수 있으며, 제2 실시예에 따르면 웹 서버는 특허 명세서에서 인식한 도면 부호를 특허 도면에서 인식한 도면 부호와 매칭시켜 보완할 수 있다.
상술한 제1 및 제2 실시예는 목적 및 효과에 따라 선택적으로 사용되거나, 결합되어 동시에 사용될 수 있다. 결합되어 동시에 사용되는 경우, 특허 도면과 특허 명세서간 상호 매칭되는 도면 부호만이 최종 도면 부호로 결정/추출/확정될 수 있으며, 제1 및 제2 실시예를 선택적으로 적용하는 경우보다 도면 부호 인식 오류 확률을 현저히 낮출 수 있다.
이상으로 도면 부호 및 도면 부호 설명 인식 방법에 대해 살펴보았다. 이하에서는 이렇게 인식한 도면 부호를 도면 부호 설명으로 대체하여 출력하는 방법에 대해 제안하기로 한다.
특히, 본 명세서에서 제안하는 도면 부호 설명 출력 방법은, 종래 기술과는 달리, 도면 자체의 상태 변화(예를 들어, 이동, 회전, 확대 또는 축소)에 무관하게 도면 내에서의 상대적인 위치는 항상 동일하게 유지/고정됨으로써, 사용자가 도면 자체의 상태를 변화시키더라도 항상 도면 부호 설명이 도면 부호 위치를 정확히 트래킹하여 이를 대체할 수 있다는 특징을 갖는다.
도 6은 본 발명의 일 실시예에 따른 도면 부호에 대응한 도면 부호 설명 출력 방법을 예시한 순서도이다.
도 6을 참조하면, 우선 웹 서버는 특허 도면의 크기 및 특허 도면 내에 포함된 도면 부호의 위치를 인식하여 특허 도면 내에서의 도면 부호의 상대적인 위치 좌표를 획득할 수 있다(S601). 다시 말하면, 웹 서버는 특허 도면의 크기 대비 도면 부호의 상대적인 위치 좌표를 획득할 수 있다. 이렇게 상대적인 위치 좌표를 획득하는 이유는, 앞서 상술한 바와 같이 도면이 상태 변화되더라도 도면 부호의 위치를 정확히 트래킹하기 위함이다.
다음으로, 웹 서버는 전 단계에서 획득한 상대적인 위치 좌표를, 도면 부호에 대응하는 도면 부호 설명의 상대적인 위치 좌표로 설정할 수 있다(S602).
마지막으로, 웹 서버는 설정된 상대적인 위치 좌표에 도면 부호 설명을 출력할 수 있다(S603). 이때 출력되는 도면 부호 설명은 불투명한 배경색을 갖는 아이콘/GUI(Graphic User Interface) 형태로 출력될 수 있으며, 도면과 동일한 상대적인 위치 좌표에 출력되는 결과, 도면 부호의 적어도 일부를 커버(cover)하게/덮게 된다. 즉, 도면 부호 설명은 도면 내에서 도면 부호와 동일한 위치에 출력되는 결과, 도면 부호를 대체하여 출력되게 된다. 예를 들면, 도 1(a)의 도면에서 모든 도면 부호들은 도 1(b)와 같이 도면 부호 설명으로 대체되게 된다.
본 실시예에서 도면 부호 설명이 도면 부호의 적어도 일부를 커버/덮도록 출력되는 경우를 예시하였으나 이에 반드시 한정되는 것은 아니며, 도면 부호 설명은 도면 부호와 대응되는 위치(예를 들어, 상기 적어도 일부를 커버/덮는 위치를 포함하여 도면 부호의 상/하/좌/우/사선/이웃 방향의 위치)라면 어느 곳이든 출력될 수 있다. 만일, 도면 부호 설명을 도면 부호와 이웃하는 영역에 출력하고자 하는 경우, 웹 서버는 S601 단계에서 획득한 도면 부호의 상대적인 위치 좌표를 기설정된 방향으로 및/또는 기설정된 거리만큼 이동시킨 좌표를 도면 부호 설명의 상대적인 좌표로 설정/할당할 수 있다. 이하에서는 설명의 편의를 위해 상술한 도 6의 실시예를 기초로 하여 도면 부호를 도면 부호 설명으로 대체하는 구체적인 실시예에 대해 살펴본다.
도 7 내지 도 9는 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 순서도이다.
보다 상세하게는, 도 7은 본 발명의 일 실시예에 따른 SVG(Scalable Vector Graphics) 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 순서도이고, 도 8 및 도 9는 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 도면이다.
도 7 및 8을 참조하면, 우선 웹 서버는 특허 도면(801)과 동일한 크기의 SVG 이미지(802)를 생성한 후, SVG 이미지(802)를 특허 도면(801) 상에 오버랩시킨 후 특허 도면(801)에 고정시킬 수 있다(S701). 다시 말하면, 특허 도면(801)과 동일한 크기이면서 투명한 SVG 이미지(802)를 생성한 후 특허 도면(801) 전체를 덮은 상태로 특허 도면(801)에 고정시킬 수 있다. 그 결과, SVG 이미지(802)는 사용자 입장에선 인식이 불가능하나, 특허 도면(801)의 상태 변화에 따라 동일하게 상태 변화한다는 특징을 갖는다. 참고로, SVG 이미지는 2차원 벡터 그래픽을 표현하기 위한 XML(Extensible Markup Language) 기반의 이미지 파일 형식으로, 이미지의 상태 변화(특히 확대)에도 품질이 저하되지 않는다는 특징을 갖는다.
도 7 및 9를 참조하면, 다음으로, 웹 서버는 SVG 이미지(802) 내의 기설정된 상대적인 위치 좌표(901)에 도면 부호 설명(902)을 새길/부가/표시/할당할(903) 수 있다(S702). 여기서 기설정된 상대적인 위치 좌표(901)는, 도 6의 S601 및 S602 단계에서 획득한 도면 부호 및 도면 부호 설명의 상대적인 위치 좌표를 의미할 수 있다. 도면 부호 설명(902)은 불투명한 배경색을 갖는 아이콘/GUI 형태로 SVG 이미지(802) 내에 새겨질/부가/표시/할당될 수 있다.
그 결과, SVG 이미지(802) 내에서, 도면 부호와 대응하는 위치(901)에 도면 부호 설명(902)이 새겨지게/부가/표시/할당되게(903) 된다. 웹 서버는 도면(801) 상에, 도면 부호 설명(902)이 새겨진/부가된/표시된/할당된 SVG 이미지(903)를 중첩하여 출력할 수 있으며, 그 결과 도면(801)의 도면 부호는 SVG 이미지(903) 상에 새겨진/부가된/표시된/할당된 도면 부호 설명(902)에 의해 커버되게 된다(S703).
예를 들어, 도면(801)의 도면 부호 '16'에 대한 도면 부호 설명(902)이 '볼트'인 경우, 도면 부호 '16'과 동일한 위치에 '볼트'(902)가 새겨진/부가된/표시된/할당된 SVG 이미지(903)가 생성될 수 있으며, SVG 이미지(903)가 도면(801)에 중첩되어 출력된 결과 도면 부호 '16'은 '볼트'(902)에 의해 커버될 수 있다. 그 결과, 사용자 입장에서 도면 부호 '16'은 '볼트'(902)로 대체된 것처럼 보이는 효과가 발생한다.
다시 말하면, 본 실시예에서 웹 서버는 도면 부호와 대응하는 위치(901)에 도면 부호 설명(902)이 새겨진/부가된/할당된/표시된 SVG 이미지(903)를 생성하고, 이렇게 생성한 SVG 이미지(903)를 도면(801)에 매칭/연동/대응하여 출력할 수 있다. 그 결과, 도면(801)의 도면 부호는 도면 부호 설명(902)으로 대체되어 출력되게 된다.
SVG 이미지의 특성 상 품질 저하 없이 상태 변화가 자유롭고, 도면 부호 설명은 SVG 이미지를 구성하는 객체/구성요소로서 이미지 내의 위치 좌표가 할당된 이상, SVG 이미지의 상태 변화에 따라 자동으로 도면 부호 설명의 위치 좌표가 스케일링되므로 위치 좌표를 재계산할 필요가 없다. 도면에서 도면 부호 역시 도면 이미지를 구성하는 이미지 객체로서 포함되고, SVG 이미지에서 도면 부호 설명 역시 SVG 이미지를 구성하는 이미지 객체로서 포함되며, 도면 부호 설명은 도면 부호와 대응하는 위치에 표시되므로(또는 새겨지거나, 부가, 할당되므로), 연동된 두 이미지의 상태 변화에 따라 이미지의 구성 요소인 도면 부호와 도면 부호 설명 위치 좌표는 자동으로 스케일링되며, 스케일링된 결과 이동한 위치 역시 동일하게 된다. 따라서, 특허 도면이 상태 변경(예를 들어, 이동, 회전, 확대 또는 축소)되더라도 특허 도면 상에 고정된 SVG 이미지 역시 특허 도면과 동일하게 상태 변경되게 되며, 그 결과 SVG 이미지 상에 새겨진/부가된/할당된/표시된 도면 부호 설명 역시 SVG 이미지가 이동, 회전, 확대, 또는 축소되더라도 SVG 이미지 내에서의 상대적인 위치는 변하지 않고 고정되게 된다.
SVG 이미지를 사용하는 경우, 도면 부호 위치에는 특정 서식(예를 들어, 노란색 하이라이트 표시 등) 등을 표시하여 웹 서버가 현재 인식 완료한 도면 부호를 사용자에게 알려줄 수 있으며, 이렇듯 특정 서식 등으로 표시된 위치에는 추후 HTML 등을 이용하여 툴 팁(tool tip)처럼 도면 부호 설명이 표시될 수 있다.
본 실시예에 따르면, 도면의 상태 변화에 따라 도면 부호의 위치를 매번 트래킹/재계산하여 도면 부호 설명을 할당하는 기존 방식 대비, 도면 부호 설명 대체 속도가 매우 빠르다는 효과가 발생한다. 특히, 기존/종래 방식의 경우, 도면의 상태 변화에 따라 매번 도면 부호의 위치를 트래킹/재계산해야 하므로 대체 속도가 매우 느리기 때문에, 한 번에 하나의 도면 부호에 대해서만 도면 부호 설명이 대체/출력 가능했던 반면, 본 실시예에 따를 때 대체 속도가 매우 빨라 하나의 도면에 포함된 모든 도면 부호(즉, 복수의 도면 부호들)를 한 번에 대체/출력하는 동작이 가능하다.
한편, 본 도면에는 도시하지 않았으나, 모든 도면 부호 설명에 상대적인 위치 좌표를 할당한 결과, SVG 이미지 상에서 적어도 일부가 중첩되는 도면 부호 설명이 발생하는 경우가 생길 수 있다. 이 경우, 웹 서버는 중첩되는 도면 부호 설명 중 적어도 하나의 상대적인 위치 좌표를 상호 중첩되지 않는 방향으로 임의로 조정한 후 SVG 이미지 상에 새길/표시/부가/할당할 수 있다. 예를 들어, 웹 서버는 제1 도면 부호 설명과 제2 도면 부호 설명이 상호 중첩되는 경우, 제1 도면 부호 설명을 제1 방향으로, 제2 도면 부호 설명은 제1 방향의 반대 방향인 제2 방향으로 기설정된 길이만큼 이동시킬 수 있다.
본 명세서에서는 도면 부호 설명 출력에 사용되는 이미지로 'SVG 이미지'를 대표적인 실시예로 들어 설명하였으나 이에 한정되는 것은 아니며, 다양한 포맷의 이미지가 활용될 수 있음은 물론이다. 따라서, 본 명세서에서 SVG 이미지는 '이미지'로 통칭/대체되어 설명될 수 있으며, 이때의 '이미지'는 SVG 이미지와 같이 상태 변화에도 품질이 저하되지 않는 다양한 포맷의 이미지를 지칭할 수 있다.
한편, 상기 순서도 및 도면에는 별도 언급하지 않았으나, 블록도, 순서도와 같이 도면에 각 도면 부호에 대한 도면 부호 설명이 이미 도면에 포함되어 있는 경우, 웹 서버는 해당 도면 부호에 대해서는 도면 부호 설명으로 대체하지 않는 대신 도면 부호 설명에 강조 표시 서식을 적용할 수 있다. 이를 위해, 웹 서버는 도면에 포함된 문자를 인식하기 위한 동작을 사전에 수행할 수 있다.
이상으로 도면 부호 인식 방법, 도면 부호 설명 추출 방법, 도면 부호를 도면 부호 설명으로 대체하는 방법에 관해 각각 살펴보았다. 이렇게 추출/인식된 도면 부호 및/또는 도면 부호 설명을 매개체로 하여, 특허 문헌의 각 카테고리는 상호 연동/동기화될 수 있다. 그 결과, 사용자는 도면 부호 및/또는 도면 부호 설명을 이용하여 원하는 정보의 선택적인 탐색/검색이 가능하게 되어, 보다 효율적으로 발명의 파악이 가능하게 된다. 특허 문헌의 각 카테고리별 상호 연동/동기화 실시예는 도 11 내지 15를 참조하여 이하에서 후술하며, 이를 살펴보기에 앞서 본 명세서에서 정의하는 특허 문헌의 카테고리에 대해 간단히 살펴보기로 한다.
도 10은 본 발명의 일 실시예에 따른 특허 문헌을 예시한 도면이다.
도 10을 참조하면, 특허 문헌(1000)은 복수의 카테고리(1001, 1002)로 구분될 수 있다. 특허 문헌(1000)은 크게는 특허 명세서(1001)와 특허 도면(1002)으로 구분될 수 있으며, 특허 명세서(1001)는 다시 청구 범위(1001-1), 발명의 상세한 설명(1001-2) 및/또는 부호의 설명(미도시)으로 구분될 수 있다.
이렇게 구분되는 복수의 카테고리(1001, 1002)는 복수의 영역/창으로 구분되어 출력될 수 있다. 예를 들어, 특허 명세서(1001)와 특허 도면(1002)은 하나의 창 내에서 서로 다른 제1 및 제2 영역에 각각 구분되어 출력될 수 있다. 또는, 특허 명세서(1001)와 특허 도면(1002)은 서로 다른 제1 및 제2 창에 각각 구분되어 출력될 수 있다. 또는, 특허 명세서(1001)와 특허 도면(1002)은 하나의 창에서 영역별로 구분되어 출력됨과 동시에 특허 명세서(1001) 또는 특허 도면(1002)이 별도의 창으로서 추가 출력될 수도 있다.
이렇게 영역/창별로 구분하여 출력하는 이유는, 사용자의 시야에 모든 카테고리(1001, 1002)가 한 번에 들어올 수 있도록 하여, 사용자가 보다 쉽고 효율적으로 정보를 파악할 수 있도록 편의를 제공하기 위함이다.
본 명세서에서 복수의 카테고리(1001, 1002)는 도면 부호 및/또는 도면 부호 설명을 매개체로 하여 상호 연동될 수 있다.
보다 상세하게는, 복수의 카테고리(1001, 1002) 중 어느 하나의 카테고리에 포함된 도면 부호에 대한 선택 입력이 수신된 경우, 웹 서버는 복수의/모든 카테고리(1001, 1002)에서 도면 부호를 검색할 수 있다. 나아가, 웹 서버는 복수의/모든 카테고리(1001, 1002)에서 검색된 도면 부호에 대하여 모두 강조 표시 서식을 적용하여 출력할 수 있다.
만일 도면 부호가 특허 명세서 카테고리(1001)에서 검색된 경우, 웹 서버는 검색된 모든 도면 부호에 대해 기설정된 서식(예를 들어, 밑줄, 굵은 글씨 표시, 다른 글씨 색 적용, 하이라이트 표시 등)을 적용하여 강조 표시할 수 있다. 같은 맥락으로, 도면 부호가 특허 도면 카테고리(1002)에서 검색된 경우, 웹 서버는 검색된 모든 도면 부호 또는 이에 대응하여 대체 출력된 모든 도면 부호 설명에 대해 기설정된 서식(예를 들어, 밑줄, 굵은 글씨 표시, 다른 글씨 색 적용, 하이라이트 표시 등)을 적용하여 강조 표시할 수 있다.
예를 들어, 사용자가 특허 명세서 카테고리(1001)에서 도면 부호 '16'을 선택한 경우, 특허 도면 카테고리(1002)에서 도면 부호 '16'이 포함된 도면이 자동으로 선택/출력된 후 도면 부호 '16'이 강조 표시되거나, 특허 도면 카테고리(1002)에서 도면 부호 '16'을 선택하는 경우 특허 명세서 카테고리(1001)에서 도면 부호 '16'이 모두 강조 표시됨과 동시에 도면 부호 '16'이 포함된 문장/문단으로 자동으로 스크롤링되는/출력 동작 등이 수행될 수 있다.
도면 부호에 대한 사용자 입력을 수신하기 위해, 특허 명세서 카테고리(1001)에서 도면 부호는 하이퍼링크 형식으로 출력될 수 있으며, 특허 도면 카테고리(1002)에서 도면 부호(또는 도면 부호 설명) 역시 선택 가능한 형태의 GUI/아이콘 형태로 출력될 수 있다.
도 11 및 12는 본 발명의 일 실시예에 따른 도면 부호 및 도면 부호 설명이 상호 연동되는 도면 인터페이스를 예시한 도면이다.
본 명세서에서 제안되는 도면 인터페이스는 도면에 관한 다양한 기능을 사용자에게 제공하는 사용자 인터페이스로서 도면 카테고리에서 출력될 수 있다. 이러한 도면 인터페이스는, 본 도면들에 도시한 바와 같이, 기본적으로 도면을 출력할 수 있다. 추가로, 도면 인터페이스는 특허 문헌에 포함된 전체 도면에 대한 미리보기 및 바로가기 기능, 도면 상태 변경(예를 들어, 도면 회전, 이동, 확대 및 축소) 기능, 도면 부호 설명 대체 기능 등 도면과 관련된 다양한 기능을 제공하여 사용자 편의를 제공할 수 있다. 여기서 도면 부호 설명 대체 기능은 앞서 상술한 실시예들이 적용된 기능에 해당할 수 있다.
특히, 도면 인터페이스는 선택된 도면의 모든 도면 부호를 인식하여 이들에 대응하는 모든 도면 부호 설명을 추출하고, 추출한 모든 도면 부호 설명을 리스트-업하여 사용자에게 제공하는 기능을 제공할 수 있다. 이때 상호 대응하는 도면 부호와 도면 부호 설명은 상호 매칭/페어링되어 출력될 수 있다. 도면 부호 인식 및 도면 부호 설명 추출은 앞서 상술한 실시예들이 적용될 수 있다.
나아가, 웹 서버는 도 12에 도시한 바와 같이, 도면 인터페이스를 통해 출력된 도면 부호 설명 리스트에서 적어도 하나의 도면 부호 설명(또는 도면 부호 설명)에 대한 사용자의 선택 입력을 수신한 경우, 선택 입력된 도면 부호 설명(또는 도면 부호)에 한해서만 선택적으로 출력할 수 있다. 예를 들어, 도 12에 도시한 바와 같이, 볼트(16)에 대한 사용자의 선택 입력이 수신된 경우, 웹 서버는 도면 부호 16에 한해서만 도면 부호 설명인 볼트를 출력할 수 있다.
본 실시예에 따를 때, 사용자는 원하는 도면 부호 또는 도면 부호 설명에 한해 선택적으로 볼 수 있어, 쉽고 효율적으로 도면/발명을 파악할 수 있다.
도 13은 본 발명의 일 실시예에 따른 키워드 설정 인터페이스를 예시한다.
본 명세서에서 제안되는 도면 인터페이스는 키워드 설정 인터페이스를 제공할 수 있다. 키워드 설정 인터페이스는 도면 부호 설명 중 적어도 일부를 키워드로 설정할 수 있도록 하기 위해 도면 카테고리를 통해 제공되는 사용자 인터페이스에 해당한다.
키워드 설정 인터페이스는, 본 도면에 예시한 바와 같이, 키워드로 설정하고자 하는 도면 부호 설명을 입력받기 위한 입력창, 설정된 키워드의 강조 색상을 설정하기 위한 색 설정창 및/또는 현재까지 설정된 키워드를 나타내는 키워드 인디케이터를 포함하여 구성될 수 있다. 그러나, 키워드 설정 인터페이스는 이에 한정되지 않으며, 다양한 기능이 추가되거나 상술한 기능 중 적어도 일부가 제외될 수 있다.
사용자는 이러한 키워드 설정 인터페이스를 통해, 도면 부호 설명 중 특정 도면 부호 설명을 키워드로 등록/설정할 수 있으며, 웹 서버는 등록/설정된 키워드를 사용자가 쉽게 찾을 수 있도록 도면 내에서 강조 표시하거나 키워드가 포함된 도면들을 강조 표시할 수 있다.
예를 들어, 사용자가 도 11에서 예시된 도면 부호 설명 중 '볼트(16)'를 키워드로 지정하고자 하는 경우, 도 12에 예시된 바와 같이 볼트를 입력창에 입력하고 강조 색상을 설정한 뒤 등록 버튼을 누를 수 있다. 이에 따라, 웹 서버는 볼트를 키워드로 설정/등록하고 키워드 설정 인터페이스의 소정의 영역에 볼트가 키워드로 설정/등록되었음을 알리는 키워드 인디케이터를 출력할 수 있다. 나아가, 웹 서버는 볼트를 도면 카테고리 내에서 검색하여, 현재 선택되어 확대 출력 중인 도면 내의 키워드에 강조 색상을 적용하여 출력할 수 있다. 또한, 웹 서버는 미리보기 제공 중인 도면 중 키워드가 검색된 도면에 대해서는 키워드 강조 색상과 동일한 색상의 인디케이터를 출력할 수 있다.
그 결과, 사용자는 현재 보고 있는 도면 내에서 키워드를 쉽게 파악할 수 있을 뿐 아니라, 현재 보고 있지 않은 도면 중에서도 키워드가 포함되어 있는 도면이 무엇인지 쉽게 파악할 수 있어 사용자가 원하는 정보의 접근 효율성이 매우 향상된다는 효과가 있다. 또한, 사용자가 복수의 키워드를 설정/등록도 가능하며, 이 경우에도 키워드별 색상을 다르게 설정할 수 있으므로, 색상으로 키워드의 구분이 쉽게 가능하다.
도 14 및 15는 본 발명의 일 실시예에 따른 도면 부호 설명을 매개체로 한 카테고리간 연동 실시예를 예시한 도면이다.
도 14에 도시한 바와 같이, 도면 부호를 커버하여 출력된 도면 부호 설명(1402)에 대하여 사용자의 선택 입력이 수신되는 경우 적어도 하나의 기능을 선택하기 위한 선택창이 출력될 수 있다. 이때 제공되는 기능(1403)으로는, 선택된 도면 부호 설명(1402)을 특허 명세서 내에서 탐색/검색하는 기능이 있을 수 있다. 사용자가 본 기능(1403)을 선택하는 경우, 웹 서버는 선택된 도면 부호 설명(1402) 또는 이(1402)에 대응하는 도면 부호를 모든 카테고리에서 검색할 수 있으며, 검색된 도면 부호 설명(1402)에 강조 표시(1502)를 적용하여 도 15에 도시한 바와 같이 출력할 수 있다.
도 15를 참조하면, 웹 서버는 선택된 도면 부호 설명 또는 이에 대응하는 도면 부호를 특허 명세서 카테고리에서 검색한 경우, 검색된 모든 도면 부호 설명 또는 도면 부호(1506-1, 1506-2)에 기설정된 서식(예를 들어, 밑줄, 굵은 글씨 표시, 다른 글씨 색 적용, 하이라이트 표시 등)을 적용하여 강조 표시할 수 있다.
그리고/또는, 웹 서버는 검색된 도면 부호 설명 또는 도면 부호 중 특허 명세서 카테고리(특히, 청구항 카테고리 및 발명의 상세한 설명 카테고리)의 최상단에 위치한 도면 부호 설명 또는 도면 부호(1506-1)의 위치/페이지/문장/문단으로 웹 페이지를 자동 스크롤링할 수 있다.
그리고/또는, 웹 서버는 특허 명세서 카테고리(특히, 청구항 카테고리 및 발명의 상세한 설명 카테고리)에서 제공되는 전체 스크롤 바 영역에서, 검색된 모든 도면 부호 설명 또는 도면 부호의 위치와 대응되는 스크롤 바 영역(또는 스크롤 바 이웃 영역)에 제1 인디케이터(1505)를 각각 출력할 수 있다. 즉, 제1 인디케이터(1505)를 통해 미니 맵 형식으로 도면 부호 설명 또는 도면 부호가 위치하는 페이지 영역을 스크롤 바 영역에 표시함으로써 사용자가 제1 인디케이터(1505)의 위치로 스크롤 바를 이동시켜 보다 쉽게 원하는 정보에 접근하게 할 수 있도록 한다. 나아가, 미니 맵 형식으로 출력되는 제1 인디케이터를 통해, 사용자는 검색된 모든 도면 부호 설명 및/또는 도면 부호가 어느 카테고리에 얼만큼 분포하는지를 한 눈에 파악할 수 있으므로, 구성 요소의 중요성 판단에도 유용하게 활용될 수 있다.
그리고/또는, 웹 서버는 검색된 도면 부호 설명 또는 도면 부호를 탐색하기 위한 탐색창(1504-1, 1504-2)을 특허 명세서 카테고리(특히, 청구항 카테고리 및 발명의 상세한 설명 카테고리) 내에서 제공/출력할 수 있다. 따라서, 사용자는 탐색창(1504-1, 1504-2)을 통해 검색하고자 하는 도면 부호 설명 또는 도면 부호가 포함된 문단, 페이지, 문장을 바로 탐색할 수 있다.
그리고/또는, 웹 서버는 선택된 도면 부호 설명 또는 이에 대응하는 도면 부호를 특허 도면 카테고리에서도 검색할 수 있으며, 미리보기 제공 중인 도면 중 도면 부호 설명 또는 이에 대응하는 도면 부호가 포함된 도면에 제2 인디케이터(1507)를 제공/출력할 수 있다. 따라서, 사용자는 제2 인디케이터(1507)가 제공/출력된 도면을 선택함으로써 바로 탐색하고자 하는 도면 부호 설명이 포함된 도면을 탐색/검색할 수 있다.
한편, 본 도면에는 도시하지 않았으나, 웹 서버는 특허 명세서 카테고리 중 사용자가 현재 읽고/탐색하고 있는 문단/문장 부분에 대응하는 도면을 자동으로 선택하여 확대 출력하는 동작을 수행할 수 있다. 이를 위해, 웹 서버는 특허 명세서 카테고리(특히, 발명의 상세한 설명 카테고리)의 내용을 파악하여 각 도면에 대한 설명(예를 들어, 문단, 문장, 페이지)별로 영역을 구획할 수 있으며, 현재 웹 페이지 상에서 가장 높은 비율로 출력 중인 영역에 해당하는 도면을 자동으로 선택하여 확대 출력할 수 있다. 예를 들어, 사용자 장치에서 도 1에 대한 발명의 상세한 설명이 출력 중인 경우, 웹 서버는 도 1을 자동 선택하여 도면 카테고리 내에서 확대 출력할 수 있다.
이와 유사하게, 사용자가 특허 명세서 카테고리 내에서 특정 영역(예를 들어, 문단, 문장, 페이지)를 선택한 경우, 웹 서버는 선택된 도면에 대응하는 도면을 도면 카테고리에서 자동 선택하여 확대 출력할 수 있다. 나아가, 웹 서버는 선택된 특정 영역에 포함된 도면 부호에 대하여 도면 부호 설명으로 자동 대체하는 동작을 수행할 수 있다.
웹 서버는 앞서 상술한 동작/방법/실시예들을 통해 획득/인식한 적어도 하나의 정보를 데이터 베이스화하여(즉, 데이터로 축적하여 데이트 베이스에 별도 저장하여), 특허 도면 검색 데이터 베이스를 구축할 수 있다.
예를 들어, 웹 서버는 특허 문헌, 특허 도면, 특허 도면의 크기, 특허 도면에 포함된 도면 부호, 각 도면 부호에 대응하는 도면 부호 설명 및/또는 도면 부호의 상대적인 위치 좌표를 하나의 데이터로서 그룹핑하고, 이를 데이터 베이스에 저장함으로써 특허 도면 검색 데이터 베이스를 구축할 수 있다.
따라서, 사용자는 이렇게 구축된 특허 도면 검색 데이터 베이스를 통해, 특허 문헌과 관련된 검색어를 입력함으로써 쉽게 전세계 특허 도면 중 찾고자 하는 특허 도면에 관한 정보를 쉽게 획득할 수 있다.
나아가, 웹 서버는 이렇게 구축된 특허 도면 검색 데이터 베이스를 통해 다양한 특허 도면 데이터를 실시간/주기적으로 학습함으로써 앞서 상술한 다양한 모델/규칙들을 업데이트하여 인식 정확도/속도를 향상시킬 수 있다.
도 16은 본 발명의 일 실시예에 따른 특허 정보 검색 시스템을 예시한 도면이다.
도 16을 참조하면, 본 명세서에서 제안되는 특허 정보 검색 시스템은, 웹 서버와 사용자 장치를 포함할 수 있다.
웹 서버(1601)와 사용자 장치(1602)는 주로는 인터넷 연결을 통해 상호 연결되어 통신을 수행할 수 있으며, 웹 서비스/페이지를 통해 특허 정보 검색 서비스를 제공/수신할 수 있다.
웹 서버(1601)는 본 명세서에서 제안된 실시예들을 수행하도록 설계된 적어도 하나의 소프트웨어 및 하드웨어 구성 요소가 포함된 서버/장치에 해당할 수 있다. 특히, 웹 서버(1601)는 인터넷 웹 페이지를 통해 본 명세서에서 제안된 특허 정보 검색 서비스를 클라이언트 기기인 사용자 장치에 제공할 수 있다.
사용자 장치(1602)는 웹 서버를 통해 제공되는 특허 정보 검색 서비스를 받는 클라이언트 기기에 해당할 수 있다. 사용자 장치(1602)는 인터넷 웹 페이지를 통해 웹 서버가 제공하는 특허 정보 검색 서비스를 제공받을 수 있다.
본 명세서에서는 특허 정보 검색 시스템이 웹 서버(1601) 및 사용자 장치(1602)로 구성된 경우를 예시하였으나 이에 한정되는 것은 아니며, 실시예에 따라 웹 서버(1601)는 어플리케이션 서버, 프로그램 서버, 서비스 제공 장치로 대체되어 설명될 수 있다. 또한, 본 명세서에서 실시예의 수행 주체를 웹 서버(1601)로 설명하였으나 이에 한정되는 것은 아니며, 웹 서버(1601)는 상술한 실시예를 구현하도록 설계된 프로그램, 어플리케이션으로 대체될 수 있으며, 웹 서버(1601)의 동작은 이들의 기능으로 해석될 수 있다.
도 17은 본 발명의 일 실시예에 따른 웹 서버의 블록도이다.
도 17을 참조하면, 웹 서버는 프로세서(1710), 메모리 유닛(1720) 및 통신 유닛(1730)을 포함할 수 있다.
프로세서(1710)는 본 명세서에서 제안된 실시예를 수행하기 위해 다른 구성 요소와 통신을 수행하거나 이들을 제어할 수 있으며, 메모리 유닛(1720)에 저장된 다양한 프로그램 및/또는 어플리케이션을 실행하고 내부 데이터를 프로세싱할 수 있다. 프로세서(1710)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), AP(Application Processor), AP(Application Processor) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 적어도 하나 포함하여 구성될 수 있다. 따라서, 본 명세서에서 웹 서버는 프로세서로 대체되어 설명될 수도 있다.
메모리 유닛(1720)은 플래시 메모리, HDD(Hard Disk Drive), SSD(Solid State Drive) 등의 내장 가능한 디지털 데이터 저장 공간을 의미할 뿐 아니라, 클라우드 등과 같이 통신 연결을 통해 데이터 저장이 가능한 외부 저장 공간까지 통칭한다. 따라서, 메모리 유닛(1720)은, 비디오, 오디오, 사진, 동영상, 이미지, 텍스트, 어플리케이션, 프로그램 등 다양한 디지털 데이터를 저장할 수 있다. 특히, 본 명세서에서 제안되는 메모리 유닛(1720)은 다양한 지식 정보 컨텐츠(특히, 특허 문헌) 데이터를 저장할 수 있으며, 프로세서(1710)에 의해 구축된 특허 문헌 검색 데이터 베이스 및/또는 특허 도면 검색 데이터 베이스(1720-1)를 저장할 수 있다. 따라서, 실시예에 따라 프로세서(1710)는 메모리 유닛(1720)에 저장되어 있는 특허 문헌 및/또는 특허 도면 검색 데이터 베이스로부터 다양한 데이터를 로딩하여 데이터 프로세싱/출력 동작 등을 수행할 수 있다.
통신 유닛(1730)은 적어도 하나의 유/무선 통신 프로토콜을 사용하여 통신을 수행, 데이터를 송신/수신할 수 있다.
본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
아울러, 본 발명에 따른 장치나 단말은 하나 이상의 프로세서로 하여금 앞서 설명한 기능들과 프로세스를 수행하도록 하는 명령에 의하여 구동될 수 있다. 예를 들어 그러한 명령으로는, 예컨대 JavaScript나 ECMAScript 명령 등의 스크립트 명령과 같은 해석되는 명령이나 실행 가능한 코드 혹은 컴퓨터로 판독 가능한 매체에 저장되는 기타의 명령이 포함될 수 있다. 나아가 본 발명에 따른 장치는 서버 팜(Server Farm)과 같이 네트워크에 걸쳐서 분산형으로 구현될 수 있으며, 혹은 단일의 컴퓨터 장치에서 구현될 수도 있다.
또한, 본 발명에 따른 장치에 탑재되고 본 발명에 따른 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
설명의 편의를 위하여 각 도면을 나누어 설명하였으나, 각 도면에 서술되어 있는 실시예들을 병합하여 새로운 실시예를 구현하도록 설계하는 것도 가능하다. 또한, 본 발명은 상술한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상술한 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
또한, 이상에서는 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 명세서는 상술한 특정의 실시예에 한정되지 아니하며, 청구 범위에서 청구하는 요지를 벗어남이 없이 당해 명세서가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 명세서의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
본 발명은 다양한 특허 검색 시스템/장치/방법에 활용될 수 있다.

Claims (20)

  1. 특허 도면 부호 인식 방법에 있어서,
    복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델 및 도면 부호 인식 모델을 구축하는 단계;
    도면 부호 인식 대상인 특허 도면을 입력받는 단계;
    상기 도면 부호 위치 인식 모델을 이용하여 상기 특허 도면에 포함된 도면 부호의 위치를 인식하는 단계;
    상기 인식된 위치의 도면 부호를 상기 특허 도면에서 이미지 조각으로 잘라내는 단계; 및
    상기 도면 부호 인식 모델을 이용하여 상기 이미지 조각에 포함된 도면 부호를 인식하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  2. 제 1 항에 있어서,
    상기 도면 부호 위치 인식 모델을 구축하는 단계는,
    상기 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 FCN(Fully Convolutional Network)을 이용하여 인식하는 단계;
    상기 인식한 도면 부호의 위치들로부터 공통된 특징을 추출하는 단계; 및
    상기 추출한 공통된 특징을 기초로 상기 도면 부호 위치 인식 모델을 구축하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  3. 제 2 항에 있어서,
    상기 도면 부호 인식 모델을 구축하는 단계는,
    상기 도면 위치 인식 모델을 이용하여 상기 복수의 특허 도면 샘플들에 포함된 도면 부호의 위치들을 인식하는 단계;
    상기 인식된 위치의 도면 부호들을 상기 복수의 특허 도면 샘플들에서 이미지 조각으로 잘라내는 단계;
    상기 잘라낸 이미지 조각들 각각에 포함된 도면 부호를 C-RNN(Convolution Recurrent Neural Network)을 이용하여 인식하는 단계;
    상기 인식한 도면 부호로부터 공통된 특징을 추출하는 단계; 및
    상기 추출한 공통된 특징을 기초로 상기 도면 부호 인식 모델을 구축하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  4. 제 3 항에 있어서,
    상기 도면 부호를 인식하는 단계는,
    기설정된 수 단위로 이미지 조각을 모아 하나의 이미지를 생성하는 단계; 및
    상기 하나의 이미지에 포함된 복수의 도면 부호들을 상기 C-RNN을 이용하여 인식하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  5. 제 1 항에 있어서,
    상기 특허 도면에 대응하는 특허 명세서에서 상기 인식한 도면 부호에 대응하는 도면 부호 설명을 추출하는 단계;
    상기 특허 도면의 크기 및 상기 특허 도면 내에 포함된 상기 도면 부호의 위치를 인식하여 상기 특허 도면 내에서의 상기 도면 부호의 상대적인 위치 좌표를 획득하는 단계;
    상기 특허 도면과 동일한 크기의 이미지를 생성하는 단계; 및
    상기 이미지를 상기 특허 도면 상에 오버랩(overlap)시킨 후 상기 특허 도면에 고정시키는 단계;
    상기 획득한 상대적인 위치 좌표와 대응하는 위치의 상대적인 위치 좌표를 상기 도면 부호 설명에 할당하는 단계;
    상기 이미지 상에, 상기 도면 부호 설명에 할당된 상대적인 위치 좌표에 상기 도면 부호 설명을 표시하는 단계; 및
    상기 도면 부호 설명이 표시된 이미지를 출력하는 단계; 를 포함하는, 특허 도면 부호에 대한 도면 부호 설명 출력 방법.
  6. 제 5 항에 있어서,
    상기 도면 부호 설명을 추출하는 단계는,
    텍스트 마이닝 기술을 기반으로 복수의 특허 명세서 샘플들을 이용하여 도면 부호 설명 추출 규칙을 확립하는 단계; 및
    상기 확립한 도면 부호 설명 추출 규칙을 기반으로 상기 특허 명세서에서 상기 도면 부호 설명을 추출하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  7. 제 6 항에 있어서,
    상기 도면 부호 설명 추출 규칙을 확립하는 단계는,
    상기 복수의 특허 명세서 샘플들을 출원 국가별로 분류하는 단계;
    상기 분류된 출원 국가별로 공통된 특징을 추출하는 단계; 및
    상기 추출한 특징을 기초로 상기 도면 부호 설명 추출 규칙을 확립하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  8. 제 7 항에 있어서,
    상기 공통된 특징을 추출하는 단계는,
    상기 도면 부호를 기준으로 한 상기 도면 부호 설명의 상대적인 위치, 상기 도면 부호 설명에 적용된 서식, 및 출원 년도 중 적어도 하나를 기초로 상기 공통된 특징을 추출하는 단계인, 특허 도면 부호 인식 방법.
  9. 제 8 항에 있어서,
    상기 도면 부호 설명 추출 규칙이 상기 도면 부호를 기준으로 한 상기 도면 부호 설명의 상대적인 위치를 기초로 확립된 경우, 상기 도면 부호 설명을 추출하는 단계는,
    상기 특허 명세서에서 상기 인식한 도면 부호를 검색하는 단계;
    상기 도면 부호 설명 추출 규칙에 따라 상기 검색된 도면 부호를 기준으로 한 상기 도면 부호 설명의 상대적인 위치를 예상하는 단계; 및
    상기 예상한 위치의 문자를 상기 도면 부호 설명으로서 추출하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  10. 제 9 항에 있어서,
    상기 도면 부호 설명이 복수개 추출되는 경우, 상기 복수개 추출된 도면 부호 설명을 상기 특허 명세서에서 검색하는 단계; 및
    가장 많이 검색된 도면 부호 설명을 최종 도면 부호 설명으로 결정하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
  11. 제 6 항에 있어서,
    상기 도면 부호 설명의 추출 정확도를 높이기 위하여, 상기 추출한 도면 부호 설명을 보완하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
  12. 제 11 항에 있어서,
    상기 확립한 도면 부호 설명 추출 규칙을 기반으로 상기 복수의 특허 명세서 샘플들을 이용하여 추출한 도면 부호 설명을 상기 특허 명세서에서 검색하는 단계;
    상기 특허 명세서에서 검색되지 않는 도면 부호 설명을 오류가 발생한 도면 부호 설명으로 분류하는 단계;
    상기 분류한 도면 부호 설명으로부터 공통된 특징을 추출하여 오류 추출 규칙을 확립하는 단계; 및
    상기 확립한 오류 추출 규칙을 기반으로 상기 특허 명세서에서 추출한 도면 부호 설명에 오류가 있는지 판단하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
  13. 제 12 항에 있어서,
    상기 공통된 특징을 추출하는 단계는,
    숫자 또는 알파벳이 상기 알파벳 또는 상기 숫자로 추출되었는지 여부, 상기 도면 부호 설명에 기설정된 품사의 포함 여부, 및 상기 도면 부호 설명에 기호 포함 여부 중 적어도 하나를 기초로 상기 공통된 특징을 추출하는 단계인, 특허 도면 부호 인식 방법.
  14. 제 12 항에 있어서,
    상기 추출한 도면 부호 설명에 오류가 있는 것으로 판단된 경우, 상기 추출한 도면 부호 설명을 보완하는 단계는,
    상기 추출한 도면 부호 설명에서 상기 오류를 삭제하거나 다른 문자로 대체하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  15. 제 12 항에 있어서,
    상기 확립한 도면 부호 설명 추출 규칙 및 상기 확립한 오류 추출 규칙을 학습하여 도면 부호 설명 추출 모델을 구축하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
  16. 제 1 항에 있어서,
    상기 인식한 도면 부호를 상기 특허 도면에 대응하는 특허 명세서에서 검색하는 단계;
    상기 인식한 도면 부호가 상기 특허 명세서에서 검색된 경우, 상기 인식한 도면 부호를 최종 도면 부호로 결정하는 단계; 및
    상기 인식한 도면 부호가 상기 특허 명세서에서 검색되지 않는 경우, 상기 특허 명세서 내에서 상기 인식한 도면 부호와 기설정된 비율 이상의 형상 유사도를 갖는 문자를 상기 최종 도면 부호로 결정하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
  17. 제 1 항에 있어서,
    상기 특허 도면에 대응하는 특허 명세서에서 도면 부호를 인식하는 단계;
    상기 특허 도면을 통해 인식한 도면 부호 중에서 상기 특허 명세서에서 인식한 도면 부호와 매칭되는 도면 부호가 있는지 판단하는 단계;
    매칭되는 도면 부호가 있는 경우, 상기 특허 명세서에서 인식한 도면 부호를 최종 도면 부호로 결정하는 단계; 및
    매칭되는 도면 부호가 없는 경우, 상기 특허 도면을 통해 인식한 도면 부호 중에서, 상기 특허 명세서에서 인식한 도면 부호와 기설정된 비율 이상의 형상 유사도를 갖는 도면 부호를 상기 최종 도면 부호로 결정하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
  18. 제 5 항에 있어서,
    상기 인식한 도면 부호 및 상기 인식한 도면 부호 설명을 상호 매칭하여 데이터 베이스에 저장함으로써 특허 도면 검색 데이터 베이스를 구축하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
  19. 특허 도면 부호를 인식하는 웹 서버에 있어서,
    적어도 하나의 통신 프로토콜을 사용하여 통신을 수행하는, 통신 유닛;
    데이터를 저장하는, 메모리 유닛; 및
    상기 통신 유닛 및 상기 메모리 유닛을 제어하는, 프로세서; 를 포함하고,
    상기 프로세서는,
    복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델 및 도면 부호 인식 모델을 구축하고,
    도면 부호 인식 대상인 특허 도면을 선택받고,
    상기 도면 부호 위치 인식 모델을 이용하여 상기 특허 도면에 포함된 도면 부호의 위치를 인식하고,
    상기 인식된 위치의 도면 부호를 상기 특허 도면에서 이미지 조각으로 잘라내고,
    상기 도면 부호 인식 모델을 이용하여 상기 이미지 조각에 포함된 도면 부호를 인식하는, 웹 서버.
  20. 특허 도면 부호 인식 및 도면 부호 설명 출력 방법에 있어서,
    특허 도면을 입력받는 단계;
    상기 특허 도면에 포함된 도면 부호의 위치를 인식하는 단계;
    상기 인식된 도면 부호 위치의 도면 부호를 인식하는 단계;
    상기 특허 도면 내에서의 상기 도면 부호의 상대적인 위치 좌표를 획득하는 단계;
    상기 특허 도면과 동일한 크기의 이미지를 생성하는 단계;
    상기 이미지를 상기 특허 도면 상에 오버랩(overlap)시킨 후 상기 특허 도면에 고정시키는 단계;
    상기 획득한 상대적인 위치 좌표와 대응하는 위치의 좌표를, 상기 도면 부호에 대응하는 도면 부호 설명에 상기 이미지에 대한 상대적인 위치 좌표로서 할당하는 단계;
    상기 이미지 상에, 상기 도면 부호 설명에 할당된 상대적인 위치 좌표에 상기 도면 부호 설명을 표시하는 단계; 및
    상기 도면 부호 설명이 표시된 이미지를 출력하는 단계; 를 포함하는, 특허 도면 부호 인식 및 도면 부호 설명 출력 방법.
PCT/KR2021/004706 2020-04-14 2021-04-14 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템 WO2021210912A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/918,670 US20230351791A1 (en) 2020-04-14 2021-04-14 Method, device, and system for outputting description of patent reference sign
JP2022562581A JP2023523575A (ja) 2020-04-14 2021-04-14 特許図面符号の説明の出力方法およびそのための装置、システム
CN202180028853.4A CN115427944A (zh) 2020-04-14 2021-04-14 专利附图标记说明输出方法及用于其的装置、系统

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0045054 2020-04-14
KR20200045054 2020-04-14
KR10-2020-0045051 2020-04-14
KR20200045051 2020-04-14

Publications (1)

Publication Number Publication Date
WO2021210912A1 true WO2021210912A1 (ko) 2021-10-21

Family

ID=78084800

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/004706 WO2021210912A1 (ko) 2020-04-14 2021-04-14 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템

Country Status (5)

Country Link
US (1) US20230351791A1 (ko)
JP (1) JP2023523575A (ko)
KR (2) KR102601980B1 (ko)
CN (1) CN115427944A (ko)
WO (1) WO2021210912A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150309969A1 (en) * 2008-02-15 2015-10-29 Edyt Inc. Methods and Apparatus for Improved Navigation Among Controlled Terms in One or More User Documents
KR20160125931A (ko) * 2016-10-11 2016-11-01 이현엽 특허문서의 도면가독성 증진 서비스 제공을 위한 시스템 및 방법
KR20180106517A (ko) * 2017-03-20 2018-10-01 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 도면 부호를 포함하는 특허 도면 이미지에 도면 부호의 설명을 맵핑 처리하는 방법 및 장치
KR20200013130A (ko) * 2018-07-12 2020-02-06 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치
KR20200038006A (ko) * 2018-10-02 2020-04-10 경북대학교 산학협력단 디지털 도면 제공 방법 및 디지털 도면 제공 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4183311B2 (ja) * 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US8041739B2 (en) * 2001-08-31 2011-10-18 Jinan Glasgow Automated system and method for patent drafting and technology assessment
US7417645B2 (en) * 2003-03-27 2008-08-26 Microsoft Corporation Markup language and object model for vector graphics
JP2008181174A (ja) * 2007-01-23 2008-08-07 Silent Technology Co Ltd 特許出願又は実用新案登録出願の図面原稿の作成方法
KR20140046333A (ko) * 2012-10-10 2014-04-18 삼성테크윈 주식회사 디지털 도면 제공 장치 및 방법
KR20180107707A (ko) * 2017-03-22 2018-10-02 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150309969A1 (en) * 2008-02-15 2015-10-29 Edyt Inc. Methods and Apparatus for Improved Navigation Among Controlled Terms in One or More User Documents
KR20160125931A (ko) * 2016-10-11 2016-11-01 이현엽 특허문서의 도면가독성 증진 서비스 제공을 위한 시스템 및 방법
KR20180106517A (ko) * 2017-03-20 2018-10-01 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 도면 부호를 포함하는 특허 도면 이미지에 도면 부호의 설명을 맵핑 처리하는 방법 및 장치
KR20200013130A (ko) * 2018-07-12 2020-02-06 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치
KR20200038006A (ko) * 2018-10-02 2020-04-10 경북대학교 산학협력단 디지털 도면 제공 방법 및 디지털 도면 제공 시스템

Also Published As

Publication number Publication date
US20230351791A1 (en) 2023-11-02
KR20210127637A (ko) 2021-10-22
KR20230161381A (ko) 2023-11-27
KR102601980B1 (ko) 2023-11-14
CN115427944A (zh) 2022-12-02
JP2023523575A (ja) 2023-06-06

Similar Documents

Publication Publication Date Title
WO2018062580A1 (ko) 문자를 번역하는 방법 및 그 장치
WO2015030461A1 (en) User device and method for creating handwriting content
JPH1055371A (ja) 文書探索および検索システム
CN103970475A (zh) 辞典信息显示装置、方法、系统及服务器装置、终端装置
WO2010137814A2 (en) Method of providing by-viewpoint patent map and system thereof
WO2014035199A1 (en) User interface apparatus in a user terminal and method for supporting the same
CN111859856A (zh) 信息显示方法、装置、电子设备及存储介质
WO2017026655A1 (ko) 사용자 단말 장치 및 이의 제어 방법
WO2015037815A1 (ko) 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
WO2019146951A1 (en) Electronic apparatus and control method thereof
WO2021210912A1 (ko) 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템
US9690393B2 (en) Information processing device, program, recording medium, and information processing system
WO2012165847A2 (ko) 사용자 주석 처리 장치 및 그를 위한 전자책 서비스 시스템 및 방법
EP3039512A1 (en) User device and method for creating handwriting content
WO2016072772A1 (ko) 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
JP5672357B2 (ja) 電子機器及びプログラム
WO2022131723A1 (ko) 도면 독해 및 검색 기능 제공방법 및 그 장치와 시스템
CN107590140B (zh) 一种文档漏译条目处理方法
JP4491389B2 (ja) 電子機器、プログラム、及びプログラムを記録した記録媒体
AU2018100324B4 (en) Image Analysis
JP2008225676A (ja) 辞書検索装置及びその制御プログラム
WO2016200194A1 (ko) 문제 콘텐트 제공 방법 및 디바이스
WO2022191427A1 (ko) 여백을 활용한 특허 문서의 도면 표시 시스템
WO2019117567A1 (en) Method and apparatus for managing navigation of web content
JP5515571B2 (ja) 電子機器及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21789385

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022562581

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 06/12/2022)

122 Ep: pct application non-entry in european phase

Ref document number: 21789385

Country of ref document: EP

Kind code of ref document: A1