KR20200013130A - Device and Method on Data Processing of Descriptions of the Figure Numbers Corresponding to Figure Numbers on Patent Drawings Using Machine Learning Methodology Based on Using Artificial Intelligence Technology - Google Patents
Device and Method on Data Processing of Descriptions of the Figure Numbers Corresponding to Figure Numbers on Patent Drawings Using Machine Learning Methodology Based on Using Artificial Intelligence Technology Download PDFInfo
- Publication number
- KR20200013130A KR20200013130A KR1020180081272A KR20180081272A KR20200013130A KR 20200013130 A KR20200013130 A KR 20200013130A KR 1020180081272 A KR1020180081272 A KR 1020180081272A KR 20180081272 A KR20180081272 A KR 20180081272A KR 20200013130 A KR20200013130 A KR 20200013130A
- Authority
- KR
- South Korea
- Prior art keywords
- description
- reference numerals
- data
- character
- dfnijk
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G06K9/344—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
Description
본 발명은 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치에 관한 것으로서 더욱 더 상세하게는 문자별 문자 대응 이미지 데이터를 교차 검증(cross validation)을 통해 최적화(optimization)한 하이퍼 파라미터(hyper parameter) 조건 하에 학습 모형의 파라미터를 학습하여 생성되는 학습 모형을 사용하여 특허 도면 이미지에 포함된 도면 포함 도면 부호를 인식하고, 인식된 도면 포함 도면 부호에 대응되는 도면 부호의 설명 데이터를 명세서에서 추출하고 통계학적 방법 또는 규칙 기반으로 맵핑하여, 도면 단위의 도면 부호의 설명 데이터셋을 생성 및 가공하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for processing description data of reference numerals corresponding to reference numerals of patent drawing images using machine learning based on artificial intelligence technology. Drawings included in the patent drawing image are recognized using the learning model generated by learning the parameters of the learning model under hyper parameter conditions optimized through validation, and the recognized drawings include the drawing. The description data of a reference number corresponding to the reference number is extracted from the specification and is mapped based on a statistical method or rule to generate and process the description data set of the reference number in the drawing unit. Description The present invention relates to a data processing method and apparatus.
특허 출원서에는 특허 명세서 및 도면을 포함하고 있다. 특허 도면 중에는 도면 부호에 대한 표시가 다수 포함되어 있는 도면이 많다. 하지만, 도면은 이미지 형태로 제공되고 있고, 도면 부호는 간략한 숫자 또는 숫자+문자 형태로 되어 있는 경우가 많다. 이러한 경우에는 하기와 같은 문제가 있다.Patent applications include patent specifications and drawings. Many patent drawings contain a plurality of marks for reference numerals. However, drawings are provided in the form of images, and reference numerals are often in the form of simple numbers or numbers + letters. In this case, there are the following problems.
첫째, 도면 부호만으로는 그 도면 부호가 지칭하는 대상을 정확하게 파악하기 어려운 문제가 있었다.First, there is a problem that it is difficult to accurately grasp the object referred to by the reference only by the reference number.
둘째, 특정한 특허 도면 단위로 어떠한 도면 부호의 설명이 얼마나 사용되었는 지를 알 수 없다. 따라서, 특정한 도면 부호의 설명이 사용되는 같은 명세서의 다른 도면 및 다른 특허의 다른 도면을 검색할 수 없게 된다.Second, it is not known how much description of any reference number is used in a particular patent drawing unit. Thus, it is not possible to retrieve other drawings of the same specification and other drawings of the same patent in which descriptions of specific reference numerals are used.
셋째, 특허i vs.도면 부호의 설명ij의 관계에 대한 정교한 계량/평가 데이터 생성을 할 수 없어, 특허 검색 결과에 특허 도면과 관계된 도면 부호의 설명을 사용할 수 없게 된다.Third, precise metering / evaluation data generation for the relationship between the description ij of the patent i vs. reference sign cannot be generated, and the description of the reference sign associated with the patent drawing cannot be used in the patent search results.
넷째, 같은 도면에 함께 나타나 있는 다른 도면 부호의 설명을 알 수 없게 된다. 이 때문에, 2 이상의 도면 부호의 설명이 같은 특허의 같은 도면에 함께 쓰인 특허 도면 또는 그 특허 도면을 포함하는 특허를 검색할 수 없게 된다. 나아가, 특정 도면에 함께 쓰인 도면 부호의 설명i와 도면 부호의 설명j의 관계 정보(예, co-occurrence data 등)를 특허 도면 단위로 생성할 수 없게 된다.Fourth, descriptions of other reference numerals appearing together in the same drawing are not known. For this reason, it becomes impossible to search the patent drawing which the description of two or more code | symbols used together in the same drawing of the same patent, or the patent containing the patent drawing. Furthermore, relationship information (for example, co-occurrence data, etc.) between description i of the reference numeral and description j of the reference numeral used together in a specific drawing cannot be generated in patent drawing units.
국가에 따라, 도면 부호의 설명만 따로 분리하여 기재하도록 권장하는 경우도 있다. 이러한 국가의 특허 명세서 중에는 도면 부호의 설명을 모아 놓은 영역(예, '부호의 설명' 영역)이 있는 것들이 다수 있다. 하지만, 이 영역에 있는 데이터에는 다음과 같은 문제점이 있다. 첫째, 특정한 도면 부호의 설명이 어느 도면에 얼마나 나타나는 지에 대한 정보가 없다. 둘째, 각 도면 또는 전체 도면에서 특정한 도면 부호의 설명이 얼마나 많이 나타나는 가를 표시하는 정보가 없다. 셋째, 명세서 작성자가 중요하다고 생각하는 도면 부호의 설명만 기재되어 있는 경우가 많아, 도면 부호의 설명 전체를 대상으로 한 정보 처리에 문제가 발생할 수 있다.In some countries, it may be recommended to separately describe only the explanation of the reference numerals. There are a number of patents in these countries that have regions (eg, 'description of reference' regions) in which descriptions of reference numerals have been collected. However, the data in this area has the following problems. First, there is no information on how much a description of a particular reference number appears in which figure. Second, there is no information indicating how many descriptions of particular reference numerals appear in each drawing or the entire drawing. Third, only the description of reference numerals considered to be important by the specification creator is often described, and a problem may occur in the information processing for the entire description of the reference numerals.
그리고, 특허 명세서에 도면 번호를 인용하면서 발명 사상을 설명하는 문단이 많이 있는데, 이 경우에도 다음과 같은 문제가 있다. 첫째, 특정한 문단에서 특정한 도면 번호를 인용하더라도, 그 문단에 사용된 도면 부호 및 도면 부호의 설명이 반드시 그 도면 번호에 포함되어 있다는 보장이 없다. 둘째, 특정한 문단이 도면 번호 2개 이상을 인용하고 있는 경우도 있는데, 이 경우 그 문단에 사용된 도면 부호 및 도면 부호의 설명들이 어떤 도면에 포함되어 있는 것인 지를 확정할 수 없다. 셋째, 많은 문단에서 도면 번호의 인용 없이 도면 부호 및 도면 부호의 설명을 사용하고 있다. 이 경우, 그 문단에 사용된 도면 부호 및 도면 부호의 설명이 어느 도면에 대응되는 것인지를 알 수 없게 된다. 따라서, 명세서의 문단을 파싱하더라도 특정 도면에 사용된 특정 도면 부호 및 그 도면 부호의 설명을 정확도 높게 파악할 수는 없게 된다.In addition, there are many paragraphs describing the invention idea while quoting the reference numbers from the patent specification. In this case, there are also the following problems. First, even if a particular reference number is cited in a particular paragraph, there is no guarantee that the reference number and the description of the reference number used in that paragraph are necessarily included in that reference number. Second, there is a case in which a specific paragraph refers to two or more reference numbers, in which case it is not possible to determine which drawing contains the reference numerals and the descriptions of the reference numerals used in the paragraph. Third, many paragraphs use reference numerals and descriptions of reference numerals without quoting reference numerals. In this case, it becomes impossible to know which figure corresponds to the description of the reference numeral and the reference numeral used in the paragraph. Therefore, even if the paragraph of the specification is parsed, the specific reference numerals used in the specific drawings and the description of the reference symbols cannot be grasped with high accuracy.
본 발명이 해결하고자 하는 과제는 상기 문제점을 해결하기 위한 것으로, 문자별 문자 대응 이미지 데이터를 교차 검증(cross validation)을 통해 최적화(optimization)한 하이퍼 파라미터(hyper parameter) 조건 하에 학습 모형의 파라미터를 학습하여 생성되는 학습 모형을 사용하여 특허 도면 이미지에 포함된 도면 포함 도면 부호를 인식하고, 인식된 도면 포함 도면 부호에 대응되는 도면 부호의 설명 데이터를 명세서에서 추출하고 통계학적 방법 또는 규칙 기반으로 맵핑하여, 도면 단위의 도면 부호의 설명 데이터셋을 생성하는 방법 및 장치를 제시하는 것이다. 한편, 본 발명은 생성된 도면 단위의 도면 부호의 설명 데이터셋을 2차 가공하고 사용하는 방법 및 장치를 개시한다.The problem to be solved by the present invention is to solve the above problems, learning the parameters of the learning model under the hyperparameter (hyper parameter) conditions that have been optimized by the cross-validation (cross-validation) of the character-adaptive image data for each character Recognizing the reference numerals included in the patent drawing image using the learning model generated by using the method, extracting the description data of the reference numerals corresponding to the recognized reference numerals from the specification and mapping by statistical methods or rules A method and apparatus for generating an explanatory data set of reference numerals in units of drawings are provided. On the other hand, the present invention discloses a method and apparatus for secondary processing and using a description data set of reference numerals in the generated drawing units.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 제공되는 특허 도면의 도면 부호가 지칭하는 도면 부호의 설명 정보를 처리하는 방법에 있어서, (a) i) 특허 도면 OCR 장치에 의해 특허 식별자와 대응될 수 있는 특허 도면 식별자에 대응되는 적어도 하나 이상의 특허 도면 이미지 파일이 입수된 후, 상기 특허 도면 이미지 파일에서 적어도 하나 이상의 도면 포함 도면 부호가 인식되고, 상기 도면 포함 도면 부호 의 위치 정보를 포함하는 인식된 상기 도면 포함 도면 부호에 대응되는 도면 포함 도면 부호 정보셋이 생성되는 제1 상태; 및 ii) 도면 부호-설명 인식 장치에 의해 도면 부호와 도면 부호의 설명이 포함된 명세서 문자열이 파싱되고, 상기 명세서 문자열에 포함된 적어도 하나 이상의 명세서 포함 도면 부호와 적어도 하나 이상의 도면 부호의 설명이 인식되며, 인식된 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 관계를 포함하는 특허 식별자별 명세서 포함 도면 부호-설명 맵핑 정보셋이 생성되는 제2 상태가 수행된 상태에서, 특허 도면 부호-설명 가공 서버가, 상기 특허(Pi)의 도면 식별자(Dij(Pi))별 도면 부호의 설명 데이터(DFNijk(Dij(Pi))) 셋을 입수하는 단계; (b) 상기 도면 식별자별 도면 부호의 설명 데이터셋으로 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi))) 정보 중 어느 하나 이상을 생성하는 단계;및 (c) 상기 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 상기 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi)))로 도면 부호의 설명 사용 연관 데이터셋을 생성하는 단계;를 포함하는 것이며, 상기 도면 포함 도면 부호와 상기 명세서 포함 도면 부호는 동일한 문자열이거나 동일성이 인정되는 문자열인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법을 제시한다.In order to achieve the technical problem to be achieved by the present invention, a method of processing the description information of the reference numerals referred to by the reference numerals of the provided patent drawings, (a) i) to be associated with the patent identifier by the patent drawing OCR apparatus After obtaining at least one patent drawing image file corresponding to a patent drawing identifier that may be obtained, at least one drawing containing reference number is recognized in the patent drawing image file, and the recognized drawing includes position information of the drawing containing reference number. A first state in which a drawing containing reference information set corresponding to the drawing containing reference number is generated; And ii) a specification string including a reference number and a description of the reference number is parsed by a reference-description recognition device, and at least one specification-containing reference number and a description of the at least one reference number included in the specification string are recognized. And a patent reference code-description processing server in a state in which a second state in which a specification-specific reference code-description mapping information set for each patent identifier is generated including a mapping relationship between the recognized reference code and the description of the code is performed. (A) obtaining a set of description data (DFNijk (Dij (Pi))) of reference numerals for each drawing identifier Dij (Pi) of the patent Pi; (b) Descriptive weighing information (Ftn (DFNijk (Dij (Pi)))) of the reference numerals in the unit of the drawing as explanatory data sets of the reference numerals by the drawing identifiers and the description-based weighing of the reference numerals in the patent unit (Ftn (DFNijk) (Pi))) generating at least one of the information; and (c) the weighing information (Ftn (DFNijk (Dij (Pi)))) by description of the reference numerals of the drawing units and the reference numerals of the patent units. Generating a description use associated data set of reference numerals by description-specific metering (Ftn (DFNijk (Pi))), wherein the reference numerals including the figures and the reference numerals including the specification are the same character string or the same. A data processing method of a patent reference-description processing server characterized in that it is a string.
상기 제1 상태를 달성하기 위하여 상기 도면 포함 도면 부호가 인식되는 방식은, (i1) 수집된 문자별 문자 대응 이미지 데이터에서 샘플링이 수행되는 단계; (i2) 샘플링 된 문자별 문자 대응 이미지 데이터를 n(n>=3인 자연수)개의 폴더(fold)로 분할하는 단계; (i3) n-1 폴더의 문자별 문자 대응 이미지 데이터를 학습 데이터로 하여 모델을 학습하고, 나머지 폴더의 문자별 문자 대응 이미지 데이터를 테스트 데이터로 하여, 테스터 에러를 구하는 과정을 n회 수행하는 교차 검증(cross validation)을 통해 하이퍼 파라미터(hyper parameter) 최적화 하는 단계; 및 (i4) 수집된 문자별 문자 대응 이미지 데이터를 사용하고 최적화된 하이퍼 파라미터 조건 하에 학습 모형의 파라미터를 학습하는 단계;를 포함하여 수행되는 것이 바람직하다.In order to achieve the first state, a method of recognizing the reference numerals including the drawings may include: (i1) performing sampling on collected character-corresponding image data; (i2) dividing the sampled character-corresponding image data for each character into n (natural numbers of n> = 3) folders; (i3) A crossover that trains a model using character-corresponding image data for each character in the n-1 folder as training data, and obtains a tester error n times using character-corresponding image data for each character in the remaining folders as test data. Optimizing hyper parameters through cross validation; And (i4) using the collected character-specific image correspondence image data and learning the parameters of the learning model under optimized hyperparameter conditions.
상기 학습 모형은 판별 딥러닝(Discriminant deep learning) 모형 및 생성 딥러닝(Generative deep learning) 모형 중에서 선택되는 어느 하나 이상인 것이며, 학습 상기 하이퍼 파라미터는 레이어(layer)의 수, 잠재 변수(hidden variable)의 수, 드랍 아웃(drop out)비율, 필터 크기(filter size) 및 활성화 함수(activation function)의 종류 중에서 선택되는 어느 하나 이상인 것이 바람직하다.The learning model is at least one selected from a discriminant deep learning model and a generative deep learning model, and the learning hyperparameter is a number of layers and a hidden variable. It is preferably at least one selected from the group consisting of a number, a drop out ratio, a filter size, and an activation function.
상기 (b) 단계에서 상기 특허 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Pi)))에는 도면 부호의 설명(DFNijk(Pi))의 개수(출현 빈도), 도면 부호의 설명(DFNijk(Pi))별 도면 부호의 설명 존재 도면수, 도면 부호의 설명(DFNijk(Pi)) 존재 도면 밀도(전체 도면 중에서 DFNijk(Pi) 존재 도면수의 비율) 중 어느 하나 이상인 것인 것이 바람직하다.In the step (b), the description-specific weighing information Ftn (DFNijk (Pi)) of the reference numeral of the patent unit includes the number (expression frequency) of the description (DFNijk (Pi)) of the reference numeral and the description of the reference numeral (DFNijk). (Pi)) It is preferable that it is any one or more of the number of description existence figures, the description of reference numerals (DFNijk (Pi)) presence drawing density (ratio of the number of DFNijk (Pi) presence figures among all figures).
상기 (c) 단계의 연관 데이터셋은 연관 도면 부호의 설명 데이터셋을 생성하는 것이며, 상기 연관 도면 부호의 설명 데이터셋의 생성은 (c11) 도면 단위에서 기초 행렬 Aij를 구성하는 단계; Ai(행)의 구성 : Dij(Pi), Aj(열)의 구성 : DFNkThe association data set of step (c) is to generate an explanatory data set of associative reference numerals, and the generation of the explanation data set of associative reference numerals comprises: (c11) constructing an elementary matrix Aij in unit of drawing; Composition of Ai (row): Dij (Pi), Composition of Aj (column): DFNk
Aij = Ftn(DFNijk(Dij(Pi))), (c12) AAT 처리를 수행하는 단계; 및 (c13) 도면 부호의 설명 쌍 간의 연관성 정보를 포함하는 연관 도면 부호의 설명 데이터를 생성하는 단계;를 포함하는 것인 것이 바람직하다. Aij = Ftn (DFNijk (Dij (Pi))), (c12) performing AA T processing; And (c13) generating explanatory data of the association reference number including the association information between the description pairs of the reference number.
상기 (c) 단계의 연관 데이터셋은 유사성 높은 도면쌍 데이터셋을 생성하는 것이며, 상기 유사성 높은 도면쌍 데이터셋의 생성은 (c21) 도면 단위에서 기초 행렬 Aij를 구성하는 단계; Ai(행)의 구성 : Dij(Pi), Aj(열)의 구성 : DFNkThe associative dataset of step (c) is to generate a similarity pair dataset, and the generation of the similarity pair dataset comprises (c21) constructing an elementary matrix Aij in unit of drawing; Composition of Ai (row): Dij (Pi), Composition of Aj (column): DFNk
Aij = Ftn(DFNijk(Dij(Pi))), (c22) ATA 처리를 수행하는 단계; 및 (c23) 유사성 높은 도면 데이터셋을 생성하는 단계;를 포함하는 것인 것이 바람직하다.Aij = Ftn (DFNijk (Dij (Pi))), (c22) A T A Performing a process; And (c23) generating a similarity drawing dataset.
상기 (c) 단계의 연관 데이터셋은 유사 특허 데이터셋을 생성하는 것이며, 상기 유사 특허 데이터셋의 생성은 (c31) 특허 단위에서 기초 행렬 Bij를 구성하는 단계;The association data set of step (c) is to generate a similar patent data set, and the generation of the similar patent data set comprises: (c31) constructing a base matrix Bij in patent units;
Bi(행)의 구성 : Pi, Bj(열)의 구성 : 특허에서 추출한 키워드 Bij = 특허에서 추출한 키워드 속성, (c32) BBT 처리를 수행하는 단계; 및 (c32) BBT 처리를 수행하는 단계; 및 (c33) 유사성 높은 특허 데이터셋을 생성하는 단계;를 포함하는 것인 것이 바람직하다.Configuration of Bi (row): Pi, Bj (column) Configuration: Keyword Bij extracted from patent = Keyword attribute extracted from patent, (c32) performing BB T processing; And (c32) performing a BB T treatment; And (c33) generating a patent dataset having high similarity.
상기 특허에서 추출한 키워드는 도면 부호의 설명(DFNk) 단독이거나, 상기 도면 부호의 설명(DFNk)을 포함하는 것인 것이며, 상기 특허에서 추출한 키워드 속성는 특허별 도면 부호의 설명의 속성(Ftn(DFNijk(Pi))) 단독이거나, 키워드의 속성에 특허별 도면 부호의 설명의 속성(Ftn(DFNijk(Pi)))을 추가한 것인 것이 바람직하다.The keyword extracted from the patent is a description of reference numeral (DFNk) alone or includes a description (DFNk) of the reference numeral, and the keyword attribute extracted from the patent is an attribute (Ftn (DFNijk ( Pi))) alone, or it is preferable that the attribute (Ftn (DFNijk (Pi))) of the description of the reference numeral for each patent is added to the attribute of the keyword.
상기 제1 상태를 달성하기 위해 도면 포함 도면 부호를 인식함에 있어서, 상기 제2 상태를 달성하기 위해 인식되는 도면 부호의 설명 또는 상기 제2 상태를 달성하기 위해 생성되는 명세서 포함 도면 부호-설명 맵핑 정보셋 중 어느 하나 이상이 사용되는 것인 것이 바람직하다.In recognizing reference numerals for achieving the first state, a description of reference numerals recognized for achieving the second state or a specification including reference numerals for describing the reference state generated to achieve the second state It is preferred that any one or more of the three be used.
상기 명세서 포함 도면 부호-설명 맵핑 정보셋에는 명세서 포함 도면 부호와 도면 부호의 설명에 대한 확률적 맵핑 데이터가 포함되어 있는 것이며, 선택적으로 상기 명세서 포함 도면 부호-설명 맵핑 정보셋에는 도면 부호의 설명에 대한 중요도 및 계열 처리 정보가 포함되어 있는 것인 것이 바람직하다.The specification-included reference-description mapping information set includes probabilistic mapping data for the description-included reference number and the description of the reference number. It is preferable that the information on the importance and the sequence processing information is included.
본 발명이 이루고자 하는 다른 기술적 과제를 달성하기 위하여, 제공되는 특허 도면의 도면 부호가 지칭하는 도면 부호의 설명 정보를 하는 처리하는 특허 도면 부호-설명 가공 서버에 있어서, 상기 특허 도면 부호-설명 가공 서버는 i) 특허 도면 OCR 장치에 의해 특허 식별자와 대응될 수 있는 특허 도면 식별자에 대응되는 적어도 하나 이상의 특허 도면 이미지 파일이 입수된 후, 상기 특허 도면 이미지 파일에서 적어도 하나 이상의 도면 포함 도면 부호가 인식되고, 상기 도면 포함 도면 부호 의 위치 정보를 포함하는 인식된 상기 도면 포함 도면 부호에 대응되는 도면 포함 도면 부호 정보셋이 생성되는 제1 상태; 및 ii) 도면 부호-설명 인식 장치에 의해 도면 부호와 도면 부호의 설명이 포함된 명세서 문자열이 파싱되고, 상기 명세서 문자열에 포함된 적어도 하나 이상의 명세서 포함 도면 부호와 적어도 하나 이상의 도면 부호의 설명이 인식되며, 인식된 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 관계를 포함하는 특허 식별자별 명세서 포함 도면 부호-설명 맵핑 정보셋이 생성되는 제2 상태가 수행된 상태에서, 상기 특허(Pi)의 도면 식별자(Dij(Pi))별 도면 부호의 설명 데이터(DFNijk(Dij(Pi))) 셋을 입수하는 통신부; (I) 상기 도면 식별자별 도면 부호의 설명 데이터셋으로 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi))) 정보 중 어느 하나 이상을 생성하는 프로세스;및 (II) 상기 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 상기 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi)))로 도면 부호의 설명 사용 연관 데이터셋을 생성하는 프로세스;를 수행하는 프로세서를 포함하는 것이며, 상기 도면 포함 도면 부호와 상기 명세서 포함 도면 부호는 동일한 문자열이거나 동일성이 인정되는 문자열인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버를 제시한다.In order to achieve another technical problem to be achieved by the present invention, there is provided a patent reference-description processing server for processing descriptive information of reference numerals referred to by reference numerals of provided patent drawings. I) after the at least one patent drawing image file corresponding to the patent drawing identifier that can correspond to the patent identifier is obtained by the patent drawing OCR device, at least one drawing containing reference number is recognized in the patent drawing image file and A first state in which a drawing-included reference information set corresponding to the recognized drawing-included reference code including position information of the drawing-included reference number is generated; And ii) a specification string including a reference number and a description of the reference number is parsed by a reference-description recognition device, and at least one specification-containing reference number and a description of the at least one reference number included in the specification string are recognized. In the state in which a second state in which a specification-specific reference code-description mapping information set for each patent identifier is generated including a mapping relationship between the recognized specification-containing reference number and the description of the reference number is performed, the figure of the patent Pi is performed. A communication unit for obtaining a set of explanatory data DFNijk (Dij (Pi)) of reference numerals according to the identifier Dij (Pi); (I) Descriptive weighing information (Ftn (DFNijk (Dij (Pi))) by description of reference numerals in drawing units as explanatory data sets of reference numerals by drawing identifiers and description-based weighing by reference numerals in patent units (Ftn (DFNijk) (Pi))) a process for generating any one or more of information; and (II) the weighing information (Ftn (DFNijk (Dij (Pi)))) by description of the reference numerals of the drawing units and the reference numerals of the patent units. A process for generating a description use associated data set of reference numerals by description-based metering (Ftn (DFNijk (Pi))); wherein the reference numeral includes the reference numeral and the reference numeral includes the same character string; A patent reference-description processing server is characterized in that it is a character string in which identity is recognized.
본 발명에 따르면, 문자별 문자 대응 이미지 데이터를 교차 검증(cross validation)을 통해 최적화(optimization)한 하이퍼 파라미터(hyper parameter) 조건 하에 학습 모형의 파라미터를 학습하여 생성되는 학습 모형을 사용하여 특허 도면 이미지에 포함된 도면 포함 도면 부호를 인식하고, 인식된 도면 포함 도면 부호에 대응되는 도면 부호의 설명을 통계학적 방법으로 맵핑하고 도면 부호의 설명과 도면과의 대응 관계 데이터를 정확도 높게 생성한다. 도면별 도면 부호의 설명 데이터를 활용하여 유사 도면의 추천, 도면 부호의 설명 간의 연관 정보 생성, 도면 부호의 설명을 유사 특허의 생성에 활용하거나, 도면 부호의 설명에 대한 검색을 통해서 도면 부호의 설명이 포함된 도면의 검색이 가능하게 된다. 이를 통하여, 특허 도면에 포함된 도면 부호를 효과적으로 검색할 수 있게 되고, 특허 도면을 통한 특허의 기술 사상 이해의 촉진을 지원할 수 있다. 그리고, 도면 포함 도면 부호의 인식 시, 명세서에서 추출한 명세서 포함 도면 부호 리스트의 조회를 통하여 도면 부호의 인식 정확도를 개선시킬 수 있으며, 명세서에서 추출되는 명세서 포함 도면 부호와 도면 부호의 설명의 대응 관계를 통계적 확률 기반으로 처리하면 명세서의 기재 불비 요소가 포함되어 있더라도 도면 포함 도면 부호에 정확성 높은 도면 부호의 설명을 배치시킬 수 있게 되는 효과가 있다.According to the present invention, a patent drawing image using a learning model generated by learning a parameter of a learning model under a hyper parameter condition in which character-corresponding image data of each character is optimized through cross validation. Recognizes the reference numerals included in the reference numerals, maps the description of the reference numerals corresponding to the recognized reference numerals by a statistical method, and generates the corresponding relation data between the description of the reference numerals and the figures with high accuracy. Description of reference numerals by using reference data of reference numerals for each reference, generating related information between recommendation of similar drawings, description of reference numerals, description of reference numerals for generating similar patents, or searching for explanation of reference numerals. This included drawing can be searched. Through this, it is possible to effectively search the reference numerals included in the patent drawings, it is possible to support the promotion of the technical idea of the patent through the patent drawings. In addition, when recognizing the reference numerals included in the drawings, the recognition accuracy of the reference numerals may be improved by querying the reference included reference numeral list extracted from the specification. When processing based on statistical probability, even if a description element is included in the specification, an accurate description of the reference numerals can be placed on the reference numerals including the drawings.
도 1은 본 발명 사상이 구현되는 전체 구성에 대한 일 실시예적 구현예이다.
도 2는 본 발명의 특허 도면 OCR 장치에 대한 일 실시예적 구현예이다.
도 3은 본 발명의 도면 부호-설명 인식 장치에 대한 일 실시예적 구현예이다.
도 4는 본 발명의 특허 도면 부호-설명 가공 서버에 대한 일 실시예적 구현예이다.
도 5는 본 발명의 도면 부호 인식 학습 장치에 대한 일 실시예적 구현예이다.
도 6은 본 발명의 데이터 저장 장치에 대한 일 실시예적 구현예이다.
도 7는 본 발명의 사상의 구현을 위한 일 실시예적 프로세스이다.
도 8은 본 발명의 특허 도면 OCR 장치의 도면 포함 도면 부호의 인식을 위한 일 실시예적 프로세스이다.
도 9는 본 발명의 특허 도면 OCR 장치의 숫자가 포함된 인식 문자열의 처리에 관한 일 실시예적 프로세스이다.
도 10은 본 발명의 특허 도면 OCR 장치의 인식된 문자열의 합성 처리에 관한 일 실시예적 프로세스이다.
도 11은 본 발명의 특허 도면 OCR 장치의 인식되는 도면 포함 도면 부호를 명세서 포함 도면 부호 리스트에 조회하는 방식으로 인식 정확도를 향상시키는 일 실시예적 프로세스이다.
도 12는 본 발명의 도면 부호-설명 인식 장치의 명세서 포함 도면 부호 및 도면 부호의 설명의 인식 처리에 관한 일 실시예적 프로세스이다.
도 13은 본 발명의 도면 부호-설명 인식 장치의 명세서 포함 도면 부호와 도면 부호의 설명 간의 맵핑 처리에 관한 일 실시예적 프로세스이다.
도 14는 본 발명의 도면 부호-설명 인식 장치의 도면 포함 도면 부호와 상기 도면 부호의 설명의 맵핑 데이터 생성 전 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 처리에 관한 일 실시예적 프로세스이다.
도 15는 본 발명의 도면 부호-설명 인식 장치의 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터 생성 처리에 관한 일 실시예적 프로세스이다.
도 16은 본 발명의 특허 도면 부호-설명 가공 서버의 도면 부호의 설명 계량 정보 생성 프로세스에 대한 일 실시예적 구현예이다.
도 17은 본 발명의 특허 도면 부호-설명 가공 서버의 연관 도면 부호의 설명 데이터 생성 프로세스에 대한 다른 일 실시예적 구현예이다.
도 18은 본 발명의 특허 도면 부호-설명 가공 서버의 유사성 높은 도면쌍 데이터를 생성 프로세스에 대한 다른 일 실시예적 구현예이다.
도 19는 본 발명의 특허 도면 부호-설명 가공 서버의 유사 특허 정보 생성 프로세스에 대한 일 실시예적 구현예이다.
도 20은 본 발명의 특허 도면 OCR 장치의 복합 도면을 전처리에 관한 일 실시예적 프로세스이다.
도 21은 본 발명의 도면 부호 인식 학습 장치의 학습 과정의 실시예적 구성이다.
도 22는 본 발명의 특허 도면 OCR 장치가 도면 부호 인식 학습 장치의 학습 결과물을 사용하는 일 실시예적 방법이다.
도 23은 본 발명의 특허 도면 OCR 장치가 도면 파일에서 patch들을 파싱 처리 후 생성되는 데이터에 대한 일 실시예적 시각화 결과물이다.1 is an exemplary embodiment of the overall configuration in which the spirit of the present invention is implemented.
2 is an embodiment of a patented OCR device of the present invention.
FIG. 3 is an exemplary embodiment of a symbol-description recognition apparatus of the present invention.
4 is one embodiment implementation of the patent reference-description processing server of the present invention.
5 is an exemplary embodiment of a sign recognition learning apparatus of the present invention.
6 is one embodiment implementation of the data storage device of the present invention.
7 is an exemplary process for implementing the spirit of the present invention.
8 is an exemplary process for recognizing reference numerals including drawings of the patented OCR device of the present invention.
9 is an exemplary process related to the processing of a recognition string containing a number in the patented figure OCR device of the present invention.
Fig. 10 is an exemplary process relating to the synthesis processing of the recognized character string of the patented figure OCR apparatus of the present invention.
FIG. 11 is an exemplary process for improving recognition accuracy by inquiring a recognized drawing containing reference number of a patented drawing OCR device in a specification containing reference number list.
Fig. 12 is an exemplary process relating to the recognition processing of the specification including reference numerals and descriptions of the reference numerals of the reference numeral-description recognition apparatus of the present invention.
FIG. 13 is an exemplary process related to the mapping process between the specification-included reference numeral and the description of the reference numeral in the reference-description recognition apparatus of the present invention.
Fig. 14 is an exemplary process relating to the mapping process of the reference numerals and descriptions of the reference numerals before generation of the mapping data of the reference numerals and the description of the reference numerals of the reference numerals-description recognition apparatus of the present invention.
15 is an exemplary process related to the mapping data generation process for the description of the reference numerals and the reference numerals via the reference numerals of the reference numeral-recognition recognition apparatus of the present invention.
Figure 16 is one embodiment implementation of a process for generating explanatory metering information of a reference numeral of a patent reference-explaining processing server of the present invention.
17 is another exemplary embodiment of a process for generating explanatory data of an associated reference number of a patent reference-explaining processing server of the present invention.
FIG. 18 is another exemplary embodiment of a process for generating highly similar drawing pair data of a patent reference-description processing server of the present invention.
19 is an exemplary embodiment of the process of generating similar patent information of the patent reference-description processing server of the present invention.
20 is an exemplary process for preprocessing a composite view of a patented drawing OCR device of the present invention.
21 is an exemplary configuration of a learning process of the code recognition learning apparatus of the present invention.
22 is an exemplary method in which the patented drawing OCR device of the present invention uses the learning result of the code recognition learning device.
FIG. 23 is an exemplary visualization of data generated after a patent processing OCR apparatus parses patches in a drawing file. FIG.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.DETAILED DESCRIPTION OF THE INVENTION The following detailed description of the invention refers to the accompanying drawings that show, by way of illustration, specific embodiments in which the invention may be practiced to clarify the objects, technical solutions and advantages of the invention. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention.
본 명세서에서 OCR 등의 기술을 적용할 때, 딥러닝, 부스팅, SVM 등과 같은 머신 러닝 기반의 모델링이 포함될 수 있다. 이때, '모델링'또는 '모델 생성'은 절차에 따라 머신 러닝(machine running)을 수행함을 일컫는 용어인 바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 잘 이해할 수 있을 것이다.When applying a technology such as OCR in the present specification, machine learning based modeling such as deep learning, boosting, SVM, and the like may be included. In this case, a person skilled in the art understands that 'modeling' or 'model generation' refers to performing machine running according to a procedure, and is not intended to refer to a mental action such as human educational activity. Could be.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성 요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.Also, throughout the description and claims of this invention, the word 'comprises' and variations thereof are not intended to exclude other technical features, additives, components or steps. Other objects, advantages and features of the present invention will become apparent to those skilled in the art in part from this description and in part from the practice of the invention. The following examples and drawings are provided by way of illustration and are not intended to limit the invention.
더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조 부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.Moreover, the present invention encompasses all possible combinations of the embodiments indicated herein. It is to be understood that the various embodiments of the invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention with respect to one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the present invention is defined only by the appended claims, along with the full scope of equivalents to which such claims are entitled. Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Unless otherwise indicated herein or clearly contradicted by context, an item referred to in the singular encompasses the plural unless the context otherwise requires. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily implement the present invention.
본 명세서에서 “특허”의 개념은 광의의 개념으로서, 특정 국가의 특허 뿐만 아니라, 각 국가의 특허의 모든 특허를 포함하는 개념이며, 개별 특허 또는 전세계의 공개/등록된 특허에 포함된 서지 정보, 가공 서지 정보, 명세서에 포함된 정보, 도면 정보 또는 이 정보의 가공 정보를 포함하는 것으로 이해되어야 한다.As used herein, the term “patent” is a broad concept, and includes not only a patent of a specific country, but a concept including all patents of patents of each country, bibliographic information contained in individual patents or published / registered patents around the world, It should be understood to include processing bibliographic information, information contained in the specification, drawing information, or processing information of this information.
본 발명의 장치는 전형적으로 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨터 시스템의 구성 요소들을 포함할 수 있는 클라이언트 컴퓨터 및 서버 컴퓨터; 전자 통신선, 라우터, 스위치 등등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨터 하드웨어로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 활용하여 원하는 성능을 달성한다.Apparatuses of the present invention typically include computer hardware (eg, client computers and server computers, which may include components of a computer processor, memory, storage, input and output devices, and other conventional computer systems; electronic communication lines, routers, switches). An electronic communication device such as an electronic information storage system such as network attached storage (NAS) and a storage area network (SAN) and computer software (ie, instructions that cause computer hardware to function in a particular way). To achieve the desired performance.
이하, 도면을 참조하면서 더욱 더 상세하게 설명한다.It will be described below in more detail with reference to the drawings.
도 1은 본 발명 사상이 구현되는 전체 구조에 대한 일 실시예적 구현예이다.1 is an exemplary embodiment of the overall structure in which the spirit of the present invention is implemented.
도 1에서 예시되는 바와 같이 본 발명의 구현에는 특허 도면 OCR 장치(100), 도면 부호-설명 인식 장치(200), 특허 도면 부호-설명 가공 서버(300), 도면 부호 인식 학습 장치(400), 데이터 저장 장치(500) 등이 사용된다. 상기 특허 도면 부호-설명 가공 서버(300)는 상기 유무선 네트워크(800)를 통하여 적어도 하나 이상의 타 장치(900)와 통신하면서 데이터를 입수하거나 전송할 수 있다. 상기 타 장치(900)의 예는 상기 특허 도면 부호-설명 가공 서버(300)를 사용하는 사용자의 컴퓨터(개인용 컴퓨터 또는 서버 또는 기타 장치(900))나, 상기 특허 도면 부호-설명 가공 서버(300)에 데이터를 제공해 주거나 데이터를 받는 서버나 장치일 수 있다. 물리적으로 하나의 서버 또는 클라우드 시스템에 상기 특허 도면 OCR 장치(100), 도면 부호-설명 인식 장치(200), 특허 도면 부호-설명 가공 서버(300), 도면 부호 인식 학습 장치(400), 데이터 저장 장치(500)가 탑재되어 있거나 서로 유무선 네트워크(800)을 통하여 연결되어 있을 수도 있다.As illustrated in FIG. 1, an implementation of the present invention includes a patent
한편, 상기 특허 도면 OCR 장치(100)에 포함되어 있는 특허 도면 OCR 프로세서(1000), 상기 도면 부호-설명 인식 장치(200)에 포함되어 있는 도면 부호-설명 인식 프로세서(2000), 상기 특허 도면 부호-설명 가공 서버(300)에 포함되어 있는 특허 도면 부호-설명 결합 프로세서(3000) 및 상기 도면 부호 인식 학습 장치(400)에 포함되어 있는 도면 부호 인식 학습 프로세서(4000) 중 어느 하나 이상은 물리적으로 동일하거나 단일한 프로세서를 공유할 수도 있다.Meanwhile, the patent
아래에서 상술 되는 바와 같이 본 발명의 방법은 컴퓨터 하드웨어 및 소프트웨어의 조합을 활용하여 구현될 것이라는 점은 통상의 기술자는 용이하게 이해할 것이다.It will be readily understood by those skilled in the art that the method of the present invention will be implemented using a combination of computer hardware and software as detailed below.
도 2는 본 발명의 특허 도면 OCR 장치(100)의 일 실시예적 구현예이다.2 is an exemplary embodiment of a
상기 특허 도면 OCR 장치(100)는 특허 도면에 특화된 OCR(optical character recognition) 처리를 수행하는 특허 도면 OCR 프로세서(1000) 및 특허 상기 도면 OCR 장치의 통신을 지원하는 특허 도면 OCR 장치(100) 통신부(100a)를 포함하고 있다.The patented
상기 특허 도면 OCR 프로세서(1000)는 적어도 하나 이상의 개별적인 도면 이미지 파일을 입수하는 기능을 수행하는 도면 파일 입수 프로세스(1100), 도면 이미지에서 적어도 하나 이상의 도면 이미지 구성 요소를 분해해 내는 도면 파일 파싱(parcing) 프로세스(1200), 및 도면 이미지에서 도면 문자열을 인식해 내는 도면 문자열 인식 프로세스(1300)를 포함하고 있다.The patent
상기 도면 문자열 인식 프로세스(1300)에는 파싱된 도면 이미지 구성 요소 중에서 개별 문자(숫자, 알파벳 등의 글자 및 기타 문자로 취급될 수 있는 것)를 분류해 내는 도면 문자 분류 프로세스(1310), 분류해 낸 개별 문자들을 합성하여 도면 부호의 형태로 생성하는 도면 문자열 합성 프로세스(1320), 도면 포함 도면 부호를 인식해 내는 도면 부호 인식 프로세스(1330) 및 인식된 도면 포함 도면 부호에 대한 일체의 정보를 생성하고 저장하는 도면 부호 정보셋 생성 프로세스(1400)를 포함하고 있을 수 있다.The drawing
상기 도면 부호 인식 프로세스(1330)는 합성 문자에서 노이즈를 제거하는 합성 문자 노이즈 제거기(1331), 합성 문자를 명세서 포함 도면 부호 또는 명세서 포함 도면 부호를 포함하고 있는 명세서 포함 도면 부호-설명 맵핑 정보셋에 조회하는 합성 문자 조회 프로세스(1332), 도면 이미지 단위 또는 특허 식별자 단위로 도면 부호의 크기를 예측하는 도면 부호 크기 예측기(1333) 및 상기 도면 부호 크기 예측기(1333)를 사용하여 도면 부호처럼 인식 될 수 있지만 실질적으로 도면 부호가 아닌 도면 부호 노이즈를 제거하는 도면 부호 노이즈 제거기(1334)를 더 포함하고 있을 수 있다.The reference
상기 도면 파일 파싱 프로세스(1200)는 도면 파일에서부터 문자를 판단해야 하는 패치(patch)들의 후보군들을 파싱하는 프로세스이다. 상기 도면 파일 파싱 프로세스(1200)는 도면 파일에서 색깔이 하얀색이 아닌 부분 중에 닫혀 있는 컨투어(contour)를 모두 찾아낸다. 도 23에서는 도면 파일에서 patch들을 파싱해 낸 결과에 해당하는 부분(녹색으로 처리된 박스)을 보여주고 있다.The drawing
상기 도면 문자 분류 프로세스(1310)는 도면 부호 인식 학습 장치(400)로부터 학습된 모델을 이용하여 도면의 patch들 중에 도면 문자를 분류해 내는 프로세스이다. 각 도면 patch들이 어떤 문자인지에 대한 확률값이 나오며, 예시적으로 그 중에 가장 가까운 문자를 patch당 최대 4개씩 output을 생성할 수 있다.The drawing
표 1 내지 표 3는 대한민국 출원번호 제1020167002395호의 도 10에 해당하는 도면 이미지를 대상으로 상기 도면 문자 분류 프로세스(1310)가 생성하는 데이터의 일 예시이다.Tables 1 to 3 are examples of data generated by the drawing
표 1에서 각 row는 1개의 patch에 대한 정보값이다. x, y는 patch의 좌하단 좌표값이며, w는 patch폭의 크기, h는 patch의 높이가 된다. x+w는 patch의 좌우단 x좌표이며, y+h는 patch의 좌상단 y좌표가 된다.Each row in Table 1 is information about one patch. x and y are the coordinates of the lower left coordinate of the patch, w is the size of the patch width, and h is the height of the patch. x + w is the x coordinate of the left and right ends of the patch, and y + h is the y coordinate of the top left of the patch.
표 2에서 result는 patch에 대한 인식값 중 확률이 가장 높은 문자, neighbor는 인식값이 낮은 문자를 말한다.In Table 2, result is the character with the highest probability among the recognition values for the patch, and neighbor is the character with the low recognition value.
표 3에서 result_prob는 patch에 대한 result 인식값에 대한 확률, nb숫자_prob는 neighbor들의 인식값에 대한 확률이다.In Table 3, result_prob is the probability of the result recognition value for the patch, and nb number_prob is the probability of the recognition value of the neighbors.
상기 도면 문자열 합성 프로세스(1320)는 각 도면의 patch로부터 인식된 도면 문자들 중에 위치가 가까이 붙어있는 도면 문자를 하나의 문자열로 합성해주는 프로세스이다. 도면 문자들의 위치가 가까이 붙어있는지를 판단하는 방법은 예시적으로 도면 문자의 중심 위치 사이 거리가 기 설정된 거리(예시적으로 문자 폭 평균의 350% 이상)보다 좁으면 가까이 붙어있는 것으로 판단하는 것일 수 있다.The drawing
상기 합성 문자 노이즈 제거 프로세스(1331)의 정보 처리 방법은 도 10에 잘 나타나 있다.The information processing method of the synthesized character
상기 합성 문자 노이즈 제거 프로세스(1331)는 합성 문자들 중에서 합성 문자 조회 프로세스(1332)를 통해 합성 문자가 특허 식별자별 명세서 포함 도면 부호 목록에 있는지를 판단하고, 있는 경우(Yes)에는 합성 문자는 유효하고 처리한다. 없는 경우(No), 합성 문자들의 후보군 집합 중에서 특허 식별자별 명세서 포함 도면 부호 목록에 있는지를 판단하고 있는 경우에는 합성 문자는 유효하며, 없는 경우에는 합성 문자는 노이즈로 처리한다.The synthesized character
예시적으로 하나의 도면 문자는 도면 문자 분류 프로세스(1310)로부터 최대 4개의 도면 문자가 될 수 있다. 따라서, 합성 문자가 2글자짜리라면 최대 개 조합의 합성 문자가 될 수 있다.By way of example, one glyph may be up to four glyphs from the
상기 합성 문자 조회 프로세스(1332) 는 해당 특허 식별자에 대한 명세서 포함 도면 부호들의 리스트를 불러온 다음, 인식된 합성 문자별로 합성 문자가 명세서 포함 도면 부호들의 리스트에 있는지 조회하는 방식으로 작동한다.The synthesized
상기 도면 부호 크기 예측 프로세스(1333)는 도면 포함 도면 부호로서 유효한 합성 문자를 이용하여 도면 포함 도면 부호 크기를 예측한다. 하나의 도면에 도면 포함 도면 부호로써 유효한 합성 문자가 전혀 존재하지 않는 경우 특허 식별자의 다른 도면 이미지 중 이전에 학습된 도면 부호 크기를 바탕으로 예측한다. 도면 부호 크기 예측 로직의 예시는 하기와 같다.The reference sign
상기 도면 부호 노이즈 제거 프로세스(1334)는 도면 부호 크기 예측 프로세스(1333)를 기반으로 인식된 도면 문자들이 도면 포함 도면 부호인지 노이즈인지를 판단하는 기능을 수행한다. 노이즈를 판단하는 알고리즘은 예시적으로 하기와 같다.The reference
상기 도면 부호 정보셋 생성 프로세스(1400)는 인식된 도면 포함 도면 부호들의 위치 정보와 폰트 크기 등과 같은 도면 포함 도면 부호의 정보를 생성하고 저장하는 프로세스이다.The reference information set
도 3은 본 발명의 도면 부호-설명 인식 장치(200)의 일 실시예적 구현예이다.FIG. 3 is an exemplary embodiment of the
상기 도면 부호-설명 인식 장치(200)의 도면 부호-설명 인식 프로세서(2000)는 명세서 파일 또는 명세서 중에서 도면 부호 및 도면 부호의 설명에 대응되는 문자열이 포함되어 있는 명세서의 부분 데이터를 입수하는 명세서 입수 프로세(2100), 명세서 포함 도면 부호와 도면 부호의 설명을 인식하는 도면 부호-설명 인식 프로세스(2110) 및 명세서 포함 도면 부호와 도면 부호의 설명 간의 맵핑 정보를 생성하고 저장하는 도면 부호-설명 맵핑 정보셋 생성 프로세스(2400)를 포함하고 있다. 상기 도면 부호-설명 인식 프로세서(2000)는 선택적으로 명세서 포함 도면 부호 및/또는 도면 부호의 설명의 중요도 정보 처리를 수행하는 중요도 처리 프로세스(2200), 명세서 포함 도면 부호 집합 중에서 계열 관계가 성립되는 명세서 포함 도면 부호 부분 집합을 추출 및 식별화 조치를 수행하고, 명세서 포함 도면 부호 부분 집합에 포함된 명세서 포함 도면 부호에서 대해서 계열 처리를 수행하는 계열 처리 프로세스(2300)를 포함하고 있을 수 있다.The reference
상기 도면 부호-설명 인식 프로세스(2110)는 도면 부호의 설명을 인식하는 도면 부호의 설명 인식 프로세스(2120) 및 명세서 포함 도면 부호와 도면 부호의 설명을 맵핑하는 도면 부호-설명 맵핑 프로세스(2130)를 포함하고 있다. 상기 중요도 처리 프로세스(2200)은 명세서 구성 부분 (발명의 명칭, 초록, 특허 청구 범위(전체, 독립항, 종속항, 종속항의 특정 부분, 종속항의 인용 깊이 등), 발명의 설명(배경 기술, 요약, 발명의 상세한 설명, 도면의 간단한 설명, 실시예, 해결 과제, 효과 등))에서 상기 도면 부호의 설명이 나타난 위치를 인식하여 처리하는 위치 인식 처리 프로세스(2210) 및 도면 부호의 설명의 출현 빈도를 인식하는 빈도 인식 처리 프로세스(2220)를 포함하고 있을 수 있다. 상기 계열 처리 프로세스(2300)는 명세서 포함 도면 부호 집합 중에서 계열 관계가 성립되는 명세서 포함 도면 부호 부분 집합을 추출 및 식별화 조치를 수행하는 계열 인식 프로세스(2310) 및 명세서 포함 도면 부호 부분 집합에 포함된 명세서 포함 도면 부호에서 대해서 계열 처리를 수행하는 계열 카테고리화 프로세스(2320)를 포함하고 있을 수 있다.The reference-
하기 표 4 는 대한민국 출원번호 제1020167002395호(US 특허 출원 14/249,716호에 대응되는 대한민국 특허 출원)를 대상으로 도면 부호-설명 인식 프로세스(2110)가 생성하는 데이터의 한 예시적 형태이다.Table 4 below is an exemplary form of data generated by reference numeral-
상기 표 4의 명세서 포함 도면 부호 26은 발광 다이오드로 인식되는 확률이 0.8, 다이오드로 인식되는 확률이 0.2로 계량된다. 상기 도면 부호-설명 맵핑 프로세스(2130)는 명세서 포함 도면 부호 26을 발광 다이오드로 인식 처리한다.In the reference numeral 26 of Table 4, the probability recognized as a light emitting diode is 0.8, and the probability recognized as a diode is 0.2. The reference-
도 4는 본 발명의 특허 도면 부호-설명 가공 서버(300)의 일 실시예적 구현예이다.4 is an exemplary embodiment of a patent reference-
상기 특허 도면 부호-설명 가공 서버(300)은 예시적으로 도면 부호의 설명별로 각종 계량 정보를 생성하는 도면 부호의 설명 계량 정보 생성 프로세스(3100), 도면 부호의 설명을 검색 대상으로 하고, 도면 부호의 설명에 대응되는 키워드가 입력되었을 때, 검색 결과로서 도면 부호의 설명이 포함된 도면 또는 도면 부호의 설명이 포함된 도면이 있는 특허를 검색 결과로 제공하는 도면 부호의 설명 검색 지원 프로세스(3200), 도면 부호의 설명을 활용하여 각종 연관 데이터를 생성하는 도면 부호의 설명 사용 연관 데이터 생성 프로세스(3300), 도면 부호의 설명과 관련된 각종 데이터, 정보 및 콘텐츠를 요청자에게 유무선 네트워크를 통하여 제공하는 도면 부호의 설명 콘텐츠 정보 제공 프로세스(3400)가 구동되는 특허 도면 부호-설명 가공 프로세서(3000)를 포함하고 있다.The patent reference-
상기 도면 부호의 설명 계량 정보 생성 프로세스(3100)에는 도면 부호의 설명별로 계량 정보를 생성하는 도면 부호의 설명별 계량 정보 생성 프로세스(3110), 생성된 도면 부호의 설명별 계량 정보를 도면 단위로 가공하는 도면 단위 도면 부호의 설명셋 생성 프로세스(3120), 생성된 도면 부호의 설명별 계량 정보를 특허 단위로 가공하는 특허 단위 도면 부호의 설명셋 생성 프로세스(3130) 및 특허 단위 도면 부호의 설명별 계량 정보 생성 프로세스(3140)를 포함하고 있다.In the description weighing
상기 도면 부호의 설명 사용 연관 데이터 생성 프로세스(3300)에는 연관된 도면 부호의 설명 데이터를 생성하는 연관 도면 부호의 설명 데이터 생성 프로세스(3310), 도면 부호의 설명을 활용하여 유사성 높은 도면을 찾도록 지원하는 유사 도면 정보 생성 프로세스(3320), 도면 부호의 설명을 활용하여 유사성 높은 특허을 찾도록 지원하는 유사 특허 정보 생성 프로세스(3330) 등을 포함하고 있다.In the description use association
도 5는 본 발명의 도면 부호 인식 학습 장치(400)에 대한 예시적 구성이다.5 is an exemplary configuration of a sign
상기 도면 부호 인식 학습 장치(400)는 도면 부호 인식 학습 프로세서(4000), 학습 데이터 저장 장치(4100), 도면 부호 인식 학습 장치(400) 통신부(400a)를 포함하고 있다. 도면 부호 인식 학습 프로세서(4000)는 학습 프로세스(4100)를 포함하고 있는데, 상기 학습 프로세스(4100)는 하이퍼 파라미터 최적화 프로세스(4110) 및 학습 모형 파라미터 학습 프로세스(4120)를 포함하고 있다. 상기 하이퍼 파라미터 최적화 프로세스(4110)는 training 데이터 대상 인식 모델링 학습부(4111)와 validation 데이터 대상 인식 모델링 검증부(4112)를 포함하고 있다. 상기 학습 모형 파라미터 학습 프로세스(4120)는 전체 데이터 대상 인식 모델링 학습부(4121)를 포함하고 있다. 상기 학습 데이터 저장 장치(4100)는 문자별 학습 이미지 데이터부(4110)와 학습 결과 저장부(4100)를 포함하고 있다.The code
상기 문자별 학습 이미지 데이터부(4110)에는 특허 도면에 사용되는 문자(숫자, 알파벳, 기타 문자 등)별로 수십 내지 수 천개의 문자 이미지가 저장되어 있다. 상기 문자 이미지는 특허 도면에서 잘라 내는 것이 바람직하며, 다른 이미지 소스로부터도 숫자나 알파벳 별로 잘라 낸 것일 수 있다. 이때, 도면 이미지에 사용된 도면 부호의 폰트 종류별로 문자 이미지를 준비하는 것이 바람직하다. 특히, 손글씨의 경우 딥러닝(deep learning)을 사용하더라도 문자 이미지가 많을수록 인식에 유리하게 때문에 최대한 다량으로 준비하는 것이 더욱 바람직하다. 문자별 학습 이미지는 각 문자별로 모든 컴퓨터 글꼴에 대한 이미지 데이터와 손글씨를 잘 인식하기 위하여 특허 도면에서 손글씨로 도면 부호를 쓴 것을 직접 문자별로 뜯어 낸 것이 사용될 수 있다.The letter-by-character learning
학습 모형은 discriminant한 deep learning모형(ex : deep Convolutional neural network, deep neural network등)을 사용할 수 있고 generative한 deep learning모형(ex : variational autoencoder, generative adversarial network)을 이용하여 학습모형을 만들 수 있다. 한편, 부스팅이나 SVM과 같은 다른 기계 학습 모형을 사용할 수도 있다. 부스팅(boosting)은 비선형 모형(nonlinear model)으로 간단한 결정나무(tree)모형을 여러 개 이용하여(ensemble) 하나의 강력한 분류기를 만드는 알고리즘이다.The learning model can use discriminant deep learning model (ex: deep convolutional neural network, deep neural network, etc.) and can create learning model using generative deep learning model (ex: variational autoencoder, generative adversarial network). On the other hand, other machine learning models such as boosting or SVM can be used. Boosting is a nonlinear model, an algorithm that creates a powerful classifier by ensemble several simple decision tree models.
딥러닝(deep learning)모형에는 layer의 수, hidden variable의 수, drop out비율, filter size, activation function의 종류 등의 하이퍼 파라미터(hyper parameter)가 사용될 수 있다. 부스팅의 하이퍼 파라미터로는 결정나무(tree)모형의 depth수, 결정나무모형을 몇 개를 사용할 것인지(tree 수), 학습할 때 gradient 방향대로 이동하는데 얼마만큼 줄여서 이동을 할 것인지에 대한 shrinkage parameter 등이 있다. 이러한 하이퍼 파라미터는 하이퍼 파라미터 최적화 프로세스(4110)를 통해 최적화시킨다.In the deep learning model, hyper parameters such as the number of layers, the number of hidden variables, the drop out ratio, the filter size, and the type of activation function may be used. The hyperparameters of boosting include the depth of crystal tree model, how many crystal tree models to use (number of trees), and the shrinkage parameter for how much to move in the gradient direction when learning. have. These hyper parameters are optimized through the hyper
본 발명에서는 하이퍼 파라미터를 최적화 시키는데 예시적으로 3가지 방법을 단일 또는 혼합하여 사용할 수 있다. 첫번째 방법은 그리드 서치(grid search)이다. 그리드 서치는 모든 하이퍼 파라미터의 가능한 조합에 대해서 cross validation을 수행하기 때문에 가장 확실하게 하이퍼 파라미터를 최적화시킬 수 있다. 그리드 서치는 예시적으로 하이퍼 파라미터는 layer의 수를 5~20개, hidden variable은 input data size의 0.3~0.9배, drop out비율은 0~0.9, activation function은 relu, sigmoid, Leaky ReLU, PreLU, RreLU, ELU 등과 같이 부여하여 cross validation을 수행할 수 있다. 즉, 그리드 서치는 각 하이퍼 파라미터의 세분화된 범위 및 종류(activation function에 한함)의 조합별로 실행된다. 이때, layer의 수 및 hidden variable은 1개씩 변동시키고, drop out 비율은 0.05 또는 0.1씩 변동시키고 각각의 변동에 대하여 각각의 activation function을 사용하여 cross validation을 수행한다.In the present invention, three methods may be used singly or in combination to optimize hyperparameters. The first method is grid search. Since Grid Search performs cross validation on all possible combinations of hyperparameters, you can most certainly optimize the hyperparameters. Grid search is an example of hyperparameter 5 ~ 20 layers, hidden variable 0.3 ~ 0.9 times input data size, drop out ratio 0 ~ 0.9, activation function relu, sigmoid, Leaky ReLU, PreLU, You can perform cross validation by assigning it like RreLU, ELU, etc. That is, grid search is performed for each combination of the granular range and type of each hyperparameter (activation function only). At this time, the number of layers and hidden variables are changed one by one, the drop out ratio is changed by 0.05 or 0.1, and cross validation is performed using each activation function for each variation.
두번째 방법은 랜덤 서치(random search)이다. 랜덤 서치는 방법 측면에서는 그리드 서치와 대등하다. 차이점은 그리드 서치는 부여된 하이퍼 파라미터를 사용하여 cross validation을 수행하지만, 랜덤 서치는 각 하이퍼 파라미터별로 임의로 선택되는 랜덤 값을 사용하여 cross validation을 수행한다.The second method is random search. Random search is equivalent to grid search in terms of method. The difference is that Grid Search performs cross validation using the assigned hyperparameters, while Random Search performs cross validation using random values randomly selected for each hyperparameter.
세번째 방법은 베이지안 최적화(bayesian optimization)가 있다. 이 방법은 하이퍼 파라미터의 사전 분포(prior distribution)을 부여하여 최적화시키는 방법이다.The third method is Bayesian optimization. This method is a method of assigning and optimizing a prior distribution of hyperparameters.
상기 하이퍼 파라미터 최적화 프로세스(4110)에서 하이퍼 파라미터는 랜덤 서치와 그리드 서치를 두개를 혼합하여 최적화시킬 수도 있다. 1단계로 랜덤하게 하이퍼 파라미터를 부여를 해주고 cross validation을 이용하여 최적화시킨 다음 validation set에서 가장 좋은 성능을 내는 각 하이퍼 파라미터별로 1차적인 값의 범위를 찾아 낸다. 각 하이퍼 파라미터별로 1차적인 범위 내에서 하이퍼 파라미터를 정교하게 세분화하고, 세분화된 하이퍼 파라미터별로 그리드 서치를 수행하여 최적화시킬 수 있다.In the hyper
cross validation의 하나는 validation 데이터가 되고 나머지가 training 데이터가 된다. training 데이터 대상 인식 모델링 학습부(4111)는 setting된 하이퍼 파라미터 별로 training데이터를 대상으로 모델링을 수행한다. 한편, validation 데이터 대상 인식 모델링 검증부는 training 데이터를 대상으로 모델링 된 딥러닝 모형들을 validation 데이터에 적용하여 성능이 좋은 모형으로 하이퍼 파라미터를 최적화한다.One of the cross validations is validation data and the other is training data. The training data object recognition
상기 전체 데이터 대상 인식 모델링 학습부(4121)는 최적화된 하이퍼 파라미터 조건 하에 실제 기계 학습 모형의 파라미터들을 학습 처리한다.The entire data object
구체적인 학습은 R, Physon 등의 언어 패키지나 Google Tensorflow나 Caffee 등과 같은 기계 학습 프로그램 라이버러리를 사용하여 진행하면, 이 부분은 당업자에게 자명한 것으로 본 특허에서는 상세한 설명을 생략한다.If the specific learning is carried out using a language package such as R, Physon, or a machine learning program library such as Google Tensorflow or Caffee, this part is obvious to those skilled in the art, and detailed description thereof will be omitted.
도 21에는 본 발명의 도면 부호 인식 학습 장치(400)의 학습 과정의 실시예적 예시가 있다.21 shows an exemplary embodiment of a learning process of the code
상기 도면 부호 인식 학습 장치(400)는 문자별 학습 이미지 데이터부(4110)에 저장되어 있는 수집된 문자별 문자 대응 이미지 데이터에서 샘플링(S161)을 수행한다. 이어, 상기 도면 부호 인식 학습 장치(400)의 하이퍼 파라미터 최적화 프로세스(4110)는 샘플링 된 문자별 문자 대응 이미지 데이터를 n(n>=3인 자연수)개의 폴더(fold)로 분할(S162)한 다음, n-1 폴더의 문자별 문자 대응 이미지 데이터를 학습 데이터로 하여 모델을 학습하고, 나머지 폴더의 문자별 문자 대응 이미지 데이터를 테스트 데이터로 하여, 테스터 에러를 구하는 과정을 n회 수행하는 교차 검증(cross validation)을 통해 하이퍼 파라미터(hyper parameter) 최적화(S163)한다. 이어, 상기 도면 부호 인식 학습 장치(400)의 학습 모형 파라미터 학습 프로세스(4120)는 수집된 문자별 문자 대응 이미지 데이터를 사용하고 최적화된 하이퍼 파라미터 조건 하에 딥러닝(deep learning) 모형이나 부스팅 모형, SVM 모형의 파라미터를 학습(S164)을 진행한다. n는 5 또는 10을 사용하는 것이 바람직하다.The reference
이어, 학습 모형의 파라미터를 학습하는 것에 대해 설명한다. Next, learning the parameters of a learning model is demonstrated.
딥러닝 모형 중 뉴럴 네트워크의 모형의 경우, X는 입력 데이터라 했을 때 가장 아랫 layer에서 reLu(X%*%W+b) 를 통해 한단계 위쪽의 layer로 이동하게 되는데 W와 b가 파라미터에 속하게 되고 이를 학습하게 된다. 한편, 부스팅 모형의 경우, 의사결정나무의 깊이와 사용할 의사결정나무의 수가 정해지면 데이터에 적합한 의사결정나무를 학습하게 된다.In the case of the neural network model of deep learning model, when X is input data, X moves from the bottom layer to the upper layer through “reLu (X% *% W + b)”, where W and b belong to parameters. You will learn this. In the case of the boosting model, on the other hand, when the depth of the decision tree and the number of decision trees to be used are determined, the decision tree suitable for the data is learned.
학습 결과 저장부(4100)에는 학습한 결과물인 이미지 인식 처리를 위한 처리 명령문이 포함되어 있다.The learning
특허 도면 OCR 장치(100)가 학습 결과물을 사용하는 방법에 대해서는 도 22에 예시적으로 나타나 있다.The method of using the learning result by the patent drawing
상기 특허 도면 OCR 장치(100)는 상기 도면 부호 인식 학습 장치(400)가 생성한 학습 결과물인 이미지 인식 처리를 위한 처리 명령문(S171)한다. 이어, 상기 특허 도면 OCR 장치(100)의 도면 문자 분류 프로세스(1310)는 도면 이미지에서 생성해 낸 patch데이터를 처리 명령문에 입력(S172)하고, patch별로 인식값을 1개 이상 생성(S173)한 다음, patch별 도면 문자 분류 처리 결과를 저장(S174)한다.The patent
상기 도면 문자 분류 프로세스(1310)의 도면 문자 분류 프로세스(1310)는 상기 도면 파일 파싱 프로세스(1200)가 도면 이미지에서 생성해 낸 patch를 대상으로, 상기 이미지 인식 처리를 위한 처리 명령문을 적용한다. patch에 대한 처리 명령문 적용의 결과의 한 예시는 표 1 내지 표3(특히, 표 2)에 있다.The drawing
도 6은 본 발명의 데이터 저장 장치(500)에 대한 일 실시예적 구현예이다.6 is an exemplary embodiment of a
본 발명의 데이터 저장 장치(500)에는 파일 저장 장치 및 DB 장치가 있다. 상기 파일 저장 장치에는 도면 파일 저장부 및 명세서 파일 저장부가 있으며 상기 도면 파일 저장부에는 오리지널 도면 파일 저장부를 포함하며, 선택적으로 가공 도면 파일 저장부가 있을 수 있다. 특허 full text 데이터는 통상적으로 XML 등과 같은 마크업 언어로 된 명세서 파일을 포함하고 있으며, 도면이 있는 경우 하나 이상의 도면 파일로 구성되어 있다. 상기 도면 파일에는 개념적으로 분리된 2개의 도면(예, fig1 및 fig2)가 물리적으로 1개의 이미지 파일에 포함되어 있을 수 있다. 가공 도면 파일은 본 발명 사상에 따라 가공한 도면 파일이다. 가공 도면 파일에는 2가지 가공 도면이 포함될 수 있다. 첫째는 본 발명 사상을 적용하여, 오리지널 도면 파일에 포함되어 있는 도면 포함 도면 부호에 직접적으로 또는 간접적으로(연결 또는 연동 또는 결합 가능하게) 도면 부호의 설명 배치 데이터가 표시될 수 있도록 처리한 가공 도면 파일이다. 둘째는 1개의 물리적 도면에 개념적으로 분리 가능한 2개 이상의 도면이 포함되어 있을 경우, 그 도면을 물리적으로 분리하고, 본 발명 사상을 적용한 가공 도면 파일이다.The
상기 DB 장치에는 도면 기반 데이터부(5210), 명세서 기반 데이터부(5220), 특허 도면 부호 가공 데이터부(5230)를 포함하고 있으며, 선택적으로 가공 규칙 데이터부(5240) 또는 집계 데이터부(5250)를 더 포함하고 있을 수 있다. 상기 도면 기반 데이터부(5210)는 개별 특허의 개별 도면 파일별로 도면에서 추출한 데이터를 포함하고 있다. 상기 도면 기반 데이터부(5210)에는 도면 포함 도면 부호 및 도면 포함 도면 부호별 도면 포함 도면 부호의 속성 정보가 저장되어 있다. 상기 명세서 기반 데이터부(5220)에는 명세서 포함 도면 부호, 도면 부호의 설명, 도면 부호의 설명 속성 데이터 등이 포함되어 있다.The DB apparatus includes a drawing-based
이하 도면을 참조하면서 본 발명을 프로세스 중심으로 더욱 더 상세하게 설명한다.Hereinafter, the present invention will be described in more detail with reference to the drawings.
도 7는 본 발명의 사상의 구현을 위한 일 실시예적 프로세스이다.7 is an exemplary process for implementing the spirit of the present invention.
도 7에서 예시 되듯이 본 발명 사상은 상기 특허 도면 OCR 장치(100)에서 입력된 도면에서 도면 포함 도면 부호가 인식(S11) 처리되고, 상기 도면 부호-설명 인식 장치(200)의 의해 입력된 특허 명세서에서 명세서 포함 도면 부호 및 도면 부호의 설명이 인식(S12) 처리되고, 상기 특허 도면 부호-설명 가공 서버(300)에 의해 도면 부호의 설명 배치 데이터가 생성(S13) 처리되고, 특허 도면 부호-설명 가공 서버(300)에 의해 타 장치(900)로부터의 실시간 요청 또는 배치 처리 방식으로 가공 도면 데이터 생성되거나, 가공 도면 데이터 생성할 수 있는 기반 정보가 제공 (S14)되는 방식으로 구현된다.As illustrated in FIG. 7, the inventive concept of the present invention is a patent inputted by the reference numeral-
도 8에서 예시되듯이 상기 특허 도면 OCR 프로세서(1000)는 개별적인 특허 도면을 대상으로 문자 인식 처리를 수행하여 개별 문자별로 문자 인식 정보를 생성(S21)되고, 인식된 개별 문자들에 대하여 합성 처리가 수행하고, 합성 처리된 도면 포함 도면 부호 후보를 명세서 포함 도면 부호 집합과 맵핑 처리하여 도면 포함 도면 부호를 결정(S22)하고, 결정된 도면 포함 도면 부호별로 도면 포함 도면 부호의 속성 정보를 생성(S26)한다.As illustrated in FIG. 8, the patent
상기 특허 도면 OCR 프로세서(1000)는 선택적으로 도면 포함 도면 부호 후보 중 명세서 포함 도면 부호 집합과 맵핑된 맵핑 비율 계산하여, 맵핑 비율이 설정된 기준 이상인지를 조회하고, 그렇지 않은 경우에는 도면에 대한 배향 처리 수행하고, 배향 처리된 도면을 대상으로 상기 S21 내지 상기 23의 과정을 수행한다. 배향 처리가 필요한 이유는 대부분의 도면은 가로 방향으로 배치되어 있지만, 세로 방향으로 배치된 도면도 상당 수 있기 때문이다. 가로 방향으로 배치되어 있는 도면의 경우, 도면 포함 도면 부호가 가로 방향으로 쓰여져 있는 것이 대부분이며, 세로 방향으로 배치되어 있는 도면의 경우, 도면 포함 도면 부호가 세로 방향으로 쓰여져 있는 것이 대부분이기 때문이다. 배향 처리는 각 국가의 도면 특성에 따라 우회전 90도, 우회전 180도, 우회전 270도 중에서 우선 배향할 각도를 결정한다.The patent
광학 문자 인식(optical character recognition)은 이미지 데이터에서 숫자를 포함한 문자를 인식한다. OCR 자체에 대한 상세한 기법은 당업자에게 당연한 것(OCR에 대한 서적, 논문 및 공개/상용 소프트웨어 등이 다량으로 나와 있음)으로 본 발명의 설명에서는 상세한 설명을 생략한다. 다만, 본 발명에서는 통상적인 OCR을 통해서는 특허 도면에 포함된 문자열을 인식하는 경우, 다음과 같은 3가지 문제점이 발생한다.Optical character recognition recognizes characters including numbers in image data. Detailed techniques for the OCR itself are natural to those skilled in the art (a large amount of books, papers, published / commercial software, etc.) for the OCR are omitted from the description of the present invention. However, in the present invention, when recognizing character strings included in patent drawings through conventional OCR, the following three problems occur.
첫째, 인식된 문자열 중에는 도면 포함 도면 부호인 것도 있을 수 있지만, 도면 포함 도면 부호가 아닌 것도 다수 있을 수 있다. 대표적인 예가, 프로세스 다이어그램의 박스에 있는 문자열 내용이다. 이들은 문자열로 되어 있지만, 도면 포함 도면 부호가 아니다. 따라서, 인식된 문자열 중에서 도면 포함 도면 부호인 것과 도면 포함 도면 부호가 아닌 것을 구분해 내는 것이 핵심적인 문제가 된다.First, although the recognized character string may be a reference numeral including a drawing, there may be a plurality of non-drawing reference numerals. A good example is the string content in a box in a process diagram. These are strings, but not reference numerals, including drawings. Therefore, it is a key problem to distinguish between the drawing reference numeral and the non-drawing reference numeral among the recognized character strings.
둘째, 도면을 구성하는 다양한 선이나 형상 등은 크거나 작은 블록 단위로 부분 떼어 놓고 보면 숫자나 문자처럼 보이는 것이 많다. OCR은 이미지를 스캔하면서 스캔 되는 블록이 문자나 숫자가 되는 가를 판단하는 방식을 취하는 경우가 많다. 이때, 세로 선 등을 대문자 "I"나 "L"의 소문자로 인식하는 경우가 많으며, 세로로 내려 오다 왼쪽으로 휘어지는 선을 "J"로, 좌우로 굽어지는 선을 "S" 등으로 인식하는 경우도 많다. 실제로 도면 부호가 아닌데, 부분 부분의 생긴 형태 때문에 문자로 오 인식 하는 경우는 도면을 구성하는 이미지 뿐만 아니라, 도면의 각 부분과 도면 부호의 설명을 이어주는 선에서도 많이 발생한다.Second, various lines or shapes constituting the drawings are often looked like numbers or letters when separated in large or small block units. OCR often scans an image to determine whether the block being scanned is a letter or a number. At this time, the vertical line is often recognized as a lowercase letter of "I" or "L", and the line that bends vertically to the left is recognized as "J" and the line bent to the left and right as "S". In many cases. In fact, it is not a reference number, but a misrecognition of a character due to the shape of a part occurs not only in the image constituting the drawing but also in a line connecting the description of each part of the drawing with the reference number.
이와 같이 통상적인 OCR 기술을 그대로 특허 도면에 적용하는 경우, 엄청나게 많은 오 인식이 발생하게 된다. 본 발명 사상은 이러한 문제를 체계적으로 해결하는 기술 사상을 포함하고 있다.As such, when the conventional OCR technology is applied to the patent drawing as it is, a great deal of error recognition occurs. The present invention includes a technical idea that systematically solves this problem.
물론, 광학 문자 인식을 수행할 때, 특허 도면에 빈번하기 나타나는 숫자, 문자 및 기호에 대한 인식률을 높이기 위해 머신 러닝을 사용할 수 있다. 이를 위해서, 먼저 숫자, 문자 및 기호별로 다량의 데이터를 수집(예, 숫자 "2"로 인식되어야 할 숫자 "2"에 대응될 수 있는 부분 이미지들(도면 이미지에서 숫자 2에 해당하는 부분만 발췌하여 별도의 이미지 파일로 저장하는 방식으로 생성 및 수집됨))한다. 이어, 수집 데이터를 훈련용 데이터(training set)와 테스트 데이터(test set)으로 나누고(경우에 따라서는 검증 용 데이터(validation set)를 별도로 준비할 수 있음), CNN(convolution neural network) 등과 같은 딥러닝 알고리즘 또는 기타 머신 러닝 알고리즘을 적용하여 학습을 진행시켜 특허 도면에 나타나는 도면 부호의 인식에 특화된 이미지 인식 알고리즘(모델)을 생성한다. 이어, 생성된 이미지 인식 알고리즘을 광학 문자 인식 루틴에 포함시킨다. 광학 문자 인식 과정에서, 특정한 이미지 블록이 문자 또는 숫자인지와 어떤 문자 또는 숫자인지를 결정하는데, 도면 부호의 인식에 특화된 이미지 인식 알고리즘(모델)이 사용될 수 있다. 도면 부호의 인식에 특화된 이미지 인식 알고리즘(모델)을 통하여, 통상적인 광학 문자 인식 알고리즘보다 더 정확하고 합목적적인 도면 부호의 인식이 가능하게 된다.Of course, when performing optical character recognition, machine learning may be used to increase the recognition rate for numbers, letters and symbols that appear frequently in patent drawings. To this end, first, a large amount of data is collected by numbers, letters, and symbols (e.g., partial images that can correspond to the number "2" to be recognized as the number "2" (extract only the portion corresponding to the number 2 in the drawing image). Are created and collected by storing them as separate image files). Then, the collected data can be divided into a training set and a test set (in some cases, a validation set can be prepared separately), and a dip such as a convolution neural network (CNN) can be used. Learning is applied by applying a learning algorithm or other machine learning algorithm to generate an image recognition algorithm (model) specialized in the recognition of reference numerals appearing in patent drawings. The generated image recognition algorithm is then included in the optical character recognition routine. In the optical character recognition process, an image recognition algorithm (model) specialized for the recognition of reference numerals may be used to determine whether a particular image block is a letter or number and which character or number. Through an image recognition algorithm (model) specialized in the recognition of reference numerals, it is possible to recognize the reference numerals more accurately and comprehensively than conventional optical character recognition algorithms.
셋째, 본 발명에서는 KNN(K nearest neighborhood) 알고리즘을 사용할 수도 있다. KNN을 사용하기 위해서는 문자별 문자 대응 이미지 데이터를 다량으로 준비한다. KNN 알고리즘 등과 같은 이미지 인식 알고리즘 등은 손글씨나 통상적이지 않은 폰트를 사용한 문자 등을 잘 인식하지 못하는 경우가 많다. 이를 위해서라도 딥러닝(deep learning), 부스팅, SVM 등과 같은 학습 알고리즘을 사용할 필요성이 높다. 손글씨나 다양한 폰트로 된 도면 부호의 경우에는 기계 학습을 통한 이미지 인식이 더욱 더 효과적이다.Third, the present invention may use a KNN (K nearest neighborhood) algorithm. In order to use KNN, a large amount of character-adaptive image data is prepared. Image recognition algorithms, such as the KNN algorithm, often do not recognize handwriting or characters using unusual fonts. To this end, it is highly necessary to use learning algorithms such as deep learning, boosting, and SVM. In the case of handwriting or reference numerals in various fonts, image recognition through machine learning is more effective.
도 9는 본 발명의 상기 도면 문자열 인식 프로세스(1300)의 숫자 포함 문자열 인식 프로세스에 대한 일 실시예적 구현예이다.FIG. 9 is an exemplary implementation of the string recognition process including numbers in the figure
도 9에서 예시되듯이 상기 도면 문자열 인식 프로세스(1300)는 합성 처리 규칙을 사용하여, 인식된 제1 개별 문자와 합성 처리할 적어도 하나 이상의 제2 개별 문자를 탐색하여 도면 포함 도면 부호 후보를 생성(S31)하고, 인식된 문자열에서 숫자가 포함되어 있는가(S32)를 판단하고, Yes인 경우 인식된 문자열 추출(S33)하고, No인 경우 인식된 문자열 버림(S38)하는 방식으로 프로세싱 한다. 상기 특허 도면 OCR 장치(100)는 (S33) 이후에는 선택적으로 숫자 포함 문자열의 분할(S34) 처리를 수행할 수 있다. 상기 특허 도면 OCR 장치(100)는 (S33) 또는 (S34) 이후에 분할된 숫자 포함 문자열이 도면 포함 도면 부호의 결정 패턴 규칙에 속하는가를 판단(S35)하고, Yes 일 경우 도면 포함 도면 부호의 결정 패턴 규칙에 부합하는 분할 문자열만 추출(S36)하고, No일 경우 숫자 포함 문자열 버림(S37)처리를 수행한다.As illustrated in FIG. 9, the drawing
다수의 문자 인식 알고리즘은 1개 글자씩 인식하는 경우가 대부분이다. 따라서, 1개의 문자열을 생성하기 위해서는 개별적으로 인식된 문자를 묶는 합성 처리가 필요하다. 도면 포함 도면 부호는 통상적으로 길이가 아주 길지 않으며(8~10 캐릭터 이내), 띄어쓰기가 없는 것이 대부분이며, 간혹 특수 문자를 포함하는 경우도 있다. Many character recognition algorithms recognize most characters one by one. Therefore, in order to generate one character string, it is necessary to combine the individual recognized characters. Drawing Included Reference numerals are typically not very long (within 8 to 10 characters), most of which have no spaces, and sometimes contain special characters.
상기 도면 문자열 인식 프로세스(1300)는 특정 블록이 문자(문자 블록, 1개의 숫자나, 알파벳 등과 같은 캐릭터는 1개의 문자 블록이 된다.)일 경우, 문자 블록과 기 설정된 위치에 있는 다른 블록이 문자인 경우, 두 블록을 연결하는 처리를 수행한다. 문자 블록에서 인식되는 문자 방향으로 문자 블록에서 인식하는 문자의 크기를 고려한 기 설정된 거리 이내에 있는 문자 블록의 문자는 기 설정된 위치의 한 예가 될 수 있다. 인식되는 문자마다 크기(size) 정보가 생성될 수 있다. 크기 정보는 인식되는 문자 블록(사각형)의 크기(좌표값)로 결정할 수 있다.In the drawing
문자 블록에 좌표값 집합이 대응되기 때문에 문자 블록에는 중심 좌표값이 대응시킬 수 있다. 문자와 문자 사이의 거리를 장평(character spacing)이라도 하는데, 통상적으로 1개 문자의 크기(예를 들면 띄어쓰기(space))보다는 훨씬 작다. 상기 특허 도면 OCR 장치(100)는 인식된 문자가 영어나 한국어 등 가로쓰기를 하는 문자인 경우, 문자의 방향이 통상적인 방향(예, 수평 방향으로 배향)이면, 오른쪽으로 기 설정된 위치 이내(예를 들면 장평 33~200%에 있는 글자)에 있는 문자는 연결하는 처리는 수행할 수 있다. 예시적으로 문자 블록의 평균값을 기준으로 문자 블록의 가로 길이 또는 세로 길이 중 긴 값의 33~200%에 있는 문자 블록은 합성 처리를 수행할 수 있다. 한편, 예시적으로 특정 문자 블록의 가로 길이 또는 세로 길이의 긴 값의 10~150% 이내에 들어오는 다른 문자 블록은 합성 처리할 수도 있을 것이다. 이러한 규칙은 합성 처리 규칙의 일부가 될 수 있다.Since the set of coordinate values corresponds to the character block, the center coordinate value can correspond to the character block. The distance between characters is also character spacing, which is typically much smaller than the size of one character (for example, a space). When the recognized character is a character that writes horizontally, such as English or Korean, the patent
한편, 인식된 문자가 수직 방향으로 배향된 경우, 수직 방향에 있는 블록에 있는 문자를 대상으로 연결 처리를 수행한다. 상기와 같은 연결 처리를 수행하면 문자열 블록이 생성되게 된다. 상기 특허 도면 OCR 장치(100)는 문자 블록 간의 연결이 마무리 되면 문자열을 인식할 수 있게 된다.On the other hand, when the recognized character is oriented in the vertical direction, the concatenation process is performed on the character in the block in the vertical direction. When the above concatenation process is performed, a string block is generated. The patent
한편, 상기 연결 처리에서 문자 뿐만 아니라 도면 부호에 빈번하게 등장하는 표식(예를 들면, "-" 또는 "_" 등)은 문자처럼 취급하여 처리할 수 있다. 도면은 무수하게 많은 선으로 이루어져 있고, 점선 등도 많으므로, "-" 또는 "_"로 인식될 수 있는 도면의 부분은 굉장히 많을 수 있다. 따라서, 도면의 특정 부분이 "-" 또는 "_"로 인식되는 경우에는 앞 및 뒤에 있는 문자 블록과의 합성 처리를 1차적으로 수행하고, 합성 처리된 문자열을 명세서 포함 도면 부호 집합에 조회하여, 명세서 포함 도면 부호 집합에 포함되어 있는 문자열인 경우에만 도면 포함 도면 부호로 처리할 수 있을 것이다.On the other hand, not only characters but also marks (for example, "-" or "_", etc.) frequently appearing in the reference numerals in the connection process can be treated as characters. The drawings are made up of a myriad of lines, many dotted lines, etc., so that there can be a large number of parts of the drawings that can be recognized as "-" or "_". Therefore, when a specific part of the drawing is recognized as "-" or "_", the synthesis process with the character blocks before and after is primarily performed, and the synthesized character string is inquired into the reference code set including the specification. Only the character string included in the specification included reference numeral set may be treated as the reference numeral included.
각 문자 블록마다 합성 처리할 블록을 탐색하여, 합성 처리 규칙이 적용되는 한도 내에서 가장 길게 합성 처리를 수행할 수 있다. 예를 들면, "153"이라는 도면 포함 도면 부호가 있을 경우 "15"까지가 아닌 "153"까지 합성 처리하는 것이 바람직할 것이다. 묶는 방향은 좌->우 방향을 기본 방향으로 처리할 수 있다. 한편, 각 국가나 도면의 배향(가로 방향 도면, 세로 방향 도면 등)에 따라 우선적인 묶음 방향이 달라질 수 있다. 물론, 묶음 방향이 좌<->우로도 될 수 있음은 물론일 것이다. 특정한 문자 블록이 묶음에 포함된 경우, 그 문자 블록으로부터 묶는 과정은 생략될 수 있다. 즉, "5"가 "1"에 묶인 경우에는 "5"를 최초 시작점으로 하여 새로운 묶음을 시도하지는 않는 것이 바람직할 것이다. 한편, "5"를 기준으로 좌-우 방향으로 합성 처리 규칙을 적용할 수 있음은 당연할 것이다.A block to be synthesized for each character block is searched for, and the synthesis process can be performed for the longest within the limit to which the synthesis process rule is applied. For example, when there is a reference numeral "153" including the drawing, it is preferable to perform the synthesis process up to "153" rather than "15". The binding direction may be treated as the basic direction from the left-> right direction. Meanwhile, the preferred bundle direction may vary according to the orientation of each country or drawing (horizontal drawing, vertical drawing, etc.). Of course, the bundle direction may be left <-> right. When a specific character block is included in the bundle, the grouping process from the character block may be omitted. That is, when "5" is tied to "1", it will be desirable not to attempt a new bundle with "5" as the initial starting point. On the other hand, it will be obvious that the synthesis processing rule can be applied in the left-right direction based on "5".
한편, 도면에 "153 267" 등과 같이 "153"과 "267 사이에 공백이 많을 경우가 있다. 이때, "1"을 기준으로 "5"를 묶고, "5"를 기준으로 "3"을 묶는 처리를 수행할 수 있으며, 3과 "2" 사이에는 공백이 많으므로, "5"와 "3"을 묶은 이후, 묶는 과정을 중단할 수 있다. 이때, "2"가 인식되면 "2"를 기준으로 다시 묶는 과정이 시작될 수 있을 것이다.On the other hand, there are a lot of spaces between "153" and "267," such as "153 267", etc. At this time, "5" is grouped based on "1", and "3" is grouped based on "5". The processing can be performed, and since there are a lot of spaces between 3 and "2", after the binding of "5" and "3", the binding process can be aborted. The process of rebinding by reference could begin.
도면에는 도면 부호가 아닌 문자열도 상당히 많이 포함되어 있다. 대표적인 것이 블록도(block diagram) 내에 포함되어 있는 문자열 또는 특정한 대상을 지칭하는 단어나 어절이다. 도면 부호는 통상적으로 숫자만으로 구성되거나 숫자가 주요 부분이지만, 이러한 문자열은 숫자를 포함하고 있지 않거나, 숫자가 주요 구성 부분이 아니다. 이러한 문자열은 맵핑 대상에서 제외시킬 필요성이 높다.The drawings contain a significant number of non-reference characters. A typical example is a word or word that refers to a string or a specific object contained within a block diagram. Reference numerals are usually composed of numbers only or numbers are major parts, but such strings do not contain numbers or numbers are not major parts. These strings need to be excluded from the mapping.
문자열 인식 과정을 거친 문자열을 대상으로 상기 도면 문자열 인식 프로세스(1300)가 도면 포함 도면 부호의 후보를 생성하는 정보 처리를 설명한다. 상기 도면 문자열 인식 프로세스(1300)는 합성 처리 규칙을 사용하여, 인식된 제1 개별 문자와 합성 처리할 적어도 하나 이상의 제2 개별 문자를 탐색하여 도면 포함 도면 부호 후보를 생성(S31)하고, 도면 포함 도면 부호 후보에서 숫자가 포함되어 있는가를 판단(S32)하고, Yes인 경우, 인식된 문자열 추출(S33)하고 아닌 경우에는 인식된 문자열 버림(S38) 처리한다. 이때, 인식된 문자열이 긴 문자열(띄어쓰기가 포함되어 있는 경우 등)인 경우에는 그 문자열에서 숫자가 포함되어 있는 문자열만을 추출하거나 분할(S34)하는 처리를 수행한다. 만약, 인식된 문자열에서 띄어쓰기가 포함되어 있지 않거나, 문자열 인식 단계나 문자열 추출 단계에서 인식 또는 추출의 단위가 단일 단어 표현인 경우에는 문자열을 분할(S34)하는 프로세스를 불필요할 수 있다. 단일 단어 표현이란 띄어쓰기가 없는 문자열로, 그 문자열은 숫자, 알파벳, 문자만으로 구성된 문자열이거나, 이러한 문자열과 "-" 또는 "_" 등과 같은 기 설정된 도면 포함 도면 부호 포함 기호를 포함하는 문자열을 말한다. 바람직하게는 (S31) 단계에서 문자열의 인식 처리는 단일 단어 표현 단위로 처리하는 것이 좋다.An information process for generating a candidate of a reference numeral including a drawing by the drawing
상기 도면 문자열 인식 프로세스(1300)는 상기 숫자 포함 문자열 또는 단일 단어 표현이 도면 포함 도면 부호의 결정 패턴 규칙에 속하는 지를 조회(S35) 처리를 수행하고, Yes인 경우에는 도면 포함 도면 부호의 결정 패턴 규칙에 부합하는 분할 문자열만 추출(S36)하고, No인 경우에는 숫자 포함 문자열 버림(S37) 처리한다.The drawing
상기 도면 포함 도면 부호의 결정 패턴 규칙은 다음과 같은 규칙 중 적어도 하나 이상을 포함하고 있을 수 있다.The decision pattern rule of the drawing reference numeral may include at least one of the following rules.
첫째, 숫자가 포함되어 있지 않은 문자열은 도면 포함 도면 부호가 아니다.First, strings that do not contain numbers are not reference numerals, including drawings.
둘째, 문자열에 숫자와 문자가 함께 포함되어 있는 경우, 다음과 같은 하위 기준을 적용한다.Second, if a string contains numbers and letters, the following sub-criteria applies:
1) 문자로 시작하는 경우에는 시작하는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.1) In the case of starting with a letter, the number of letters of the starting letter is less than or equal to the number of letters composing the number.
2) 문자로 끝나는 경우에는 끝나는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.2) In the case of ending with a character, the number of characters of the ending character is less than or equal to the number of characters constituting the number.
셋째, 도면 포함 도면 부호 포함 기호는 문자열의 처음도 될 수 없고 마지막도 될 수 없다.Third, the drawing-included reference sign may not be the beginning or the end of a character string.
넷째, 문자열의 전체 길이는 기 설정된 한계(예, 6~8 글자) 이내이다.Fourth, the total length of the string is within a preset limit (eg, 6-8 characters).
다섯째, 도면 포함 도면 부호 포함 기호가 아닌 구두점이나 기호는 도면 포함 도면 부호 구성에서 제외된다.Fifth, punctuation or symbols that are not symbols including drawings are excluded from the drawings including drawings.
도면 포함 도면 부호의 결정 패턴 규칙은 가공 규칙 데이터부(5240)에 저장될 수 있다.The decision pattern rule of the reference numeral including the drawing may be stored in the processing
한편, 특정한 도면에서 인식된 개별적인 문자를 사용하여 문자를 연결할 때, 연결하는 방식이나 정책 등에 따라, 여러 종류 이상의 도면 포함 도면 부호의 후보가 생성될 수 있게 된다. 예를 들면, 특정한 도면에서 "A12"라고 인식되는 문자열과 아주 가까운 곳에 "25"라는 문자열이 있을 수 있다. "A12"와 "25" 사이의 거리가 "A12" 내부를 구성하는 "A" ,"1", "2" 사이의 장평보다는 길지만, 문자 1개 이상보다는 가까울 때와 같이, 거리에서 모호성이 존재하는 경우가 빈번하게 존재한다. 이때, 도면 포함 도면 부호는 각각 "A12"와 "25"와 같이 2개일 수도 있지만, "A1225"일 수도 있다. 이와 같이 모호성이 존재하는 경우, 각 문자열을 어디까지 연결할 것인지가 문제시 된다. 본 발명 사상에서 명세서 포함 도면 부호를 문자열 인식 단계에서 우선적으로 사용하지 않는 한, 상기 특허 도면 OCR 장치(100)는 "A12"와 "25"라는 문자열 및 "A1225"도 도면 포함 도면 부호의 후보로 생성한다. 이 경우 "A12"와 "25"라는 문자열 및 "A1225" 각각에 대해서 위치나 폰트 크기 등과 같은 도면 포함 도면 부호의 속성 정보를 생성함을 물론일 것이다.On the other hand, when the characters are connected using individual characters recognized in a specific drawing, candidates of more than one kind of drawing reference numerals may be generated according to a connection method or a policy. For example, there may be a string "25" very close to a string recognized as "A12" in a particular drawing. Ambiguity exists at a distance, such as when the distance between "A12" and "25" is longer than the flatness between "A", "1", and "2" that make up the interior of "A12". Frequently there are cases. In this case, the reference numerals including drawings may be two, such as "A12" and "25", respectively, but may also be "A1225". If such ambiguity exists, it is a question of how far each string is concatenated. In the present invention, unless the specification-containing reference numeral is preferentially used in the character string recognition step, the
상기 도면 문자열 인식 프로세스(1300)는 상기 도면 포함 도면 부호의 결정 패턴 규칙을 통과하는 문자열을 도면 포함 도면 부호의 후보로 처리한다. 1개의 이미지에서는 n개의 도면 포함 도면 부호의 후보가 생성될 수 있고, 이들은 도면 포함 도면 부호의 후보 집합을 구성하게 된다.The drawing
한편, 도면 포함 도면 부호의 결정 패턴 규칙을 통과하는 문자열 중에서도 도면 포함 도면 부호가 아닌 경우가 상당히 많을 수 있다. 그 이유 중 일부는 다음과 같다.On the other hand, among the strings that pass the decision pattern rule of the drawing reference numerals, there are many cases that are not the drawing reference numerals. Some of the reasons are as follows.
첫째, 도면에 있는 문장형, 구문형 문자열이다. 예를 들면, 프로세스 도면을 박스 내에 있는 다양한 문장이나 구문 등을 구성하는 각 단어 중에서 숫자가 포함되어 있는 많은 단어는 도면 포함 도면 부호의 결정 패턴 규칙을 통과한다. 예를 들어, "A380"이라는 문자열이 있을 때, 이 문자열이 보잉사의 비행기 기종을 표현한다고 하더라도, 도면 포함 도면 부호의 결정 패턴 규칙을 통과한다.First, it is a sentence type and syntax string in the drawing. For example, many words including numbers among the words constituting the various sentences, phrases, and the like in the process diagram pass through the decision pattern rule of the reference numeral including the drawing. For example, when there is a character string "A380", even if the character string represents an aircraft model of Boeing Corporation, it passes the decision pattern rule of the reference numeral including the drawing.
둘째, 숫자나 문자로 오 인식된 이미지가 숫자나 문자와 연결되는 경우에도 도면 포함 도면 부호의 결정 패턴 규칙을 통과할 가능성이 높다. 도 30에서 예시되는 바와 같이, 1개의 도면에 도면 부호가 많이 있는 경우에는 도면 또한 복잡한 구성을 가지는 경우가 많다. 이 때, 도면에는 다수의 도면 포함 도면 부호가 이미지 곳곳에 배치되어 있게 되고(도면 이미지에서 도면 포함 도면 부호의 밀도가 높음), 도면 포함 도면 부호와 구성 요소 간을 연결하는 선도 복잡하게 된다. 이런 경우에는 문자로 오 인식되는 이미지 부분 부분이 실제 문자와 연결되어 잘못된 문자열을 구성하게 된다.Second, even if an image mistaken as a number or letter is connected with a number or letter, it is highly likely to pass the decision pattern rule of the reference numeral including the drawing. As illustrated in FIG. 30, when there are many reference numerals in one drawing, the drawing also often has a complicated configuration. At this time, in the drawing, a plurality of drawing reference numerals are arranged throughout the image (high density of drawing reference numerals in the drawing image), and the diagram connecting the drawing reference numerals with components becomes complicated. In this case, the part of the image that is mistaken as a character is connected with the actual character to form an invalid string.
셋째, 오 인식된 이미지 부분 부분이 서로 연결되어 문자열로 출력되고, 이 문자열이 도면 포함 도면 부호의 결정 패턴 규칙을 통과할 수 있다. 예를 들면, 세로 선 2개를 숫자 "1" 및 "1"로 좌우로 굽어지는 선을 "3"으로 인식해 "113"이라는 문자열을 만들어 내는 경우를 들 수 있다.Third, the misrecognized image part portions are connected to each other and output as strings, which can pass the decision pattern rule of reference numerals including drawings. For example, a case in which two vertical lines are bent to the left and right by the numbers "1" and "1" is recognized as "3" and a string "113" is produced.
본 발명에서는 상기의 문제를 해결하는 2가지 방법을 제시한다.The present invention proposes two methods for solving the above problems.
첫번째 방법은 명세서에서 추출되는 명세서 포함 도면 부호를 활용하여, 추출된 명세서 포함 도면 부호와 입수된 도면 포함 도면 부호의 후보를 맵핑 처리하고, 맵핑된 도면 포함 도면 부호의 후보만을 도면 포함 도면 부호로 처리하는 후단계 맵핑 방법이다. 이 방법은 도 11에서 예시되어 있다.The first method utilizes the specification including reference number extracted from the specification, and processes the candidates of the extracted specification including reference number and the obtained reference including reference number, and processes only the candidates of the mapped reference including reference number as the reference including reference number. This is a post-mapping method. This method is illustrated in FIG.
둘째 방법은 도면 포함 도면 부호의 후보 집합의 생성 전 단계에서 명세서 포함 도면 부호를 활용하는 전단계 필터링 방법이다. 명세서 포함 도면 부호를 활용하면 1) 시작하는 문자열의 종류가 정해지고, 2) 특정한 문자 다음에 올 수 있는 문자열도 정해지게 되기 때문에, 문자열을 인식하는 단계부터 오 인식의 가능성이 훨씬 줄일 수 있을 뿐만 아니라 들게 된다. 특히, 문자열 블록의 연결 시 특정한 문자열 블록과 다른 문자열 블록을 연결할 것인지를 결정할 때 특별한 효과를 발휘하게 되다. 이를 통해서 연결이 없었다면 도면 포함 도면 부호가 되지 못하는(명세서 포함 도면 부호에 없는 도면 포함 도면 부호) 문자열들이 연결을 통해서 우연히 도면 포함 도면 부호처럼 취급되는(명세서 포함 도면 부호에 있는 도면 포함 도면 부호와 결과적으로 같은 문자열 표현이 되어, 결과적으로 도면 부호의 설명이 결합되어 버리게 되는) 문제도 미연에 방지될 수 있게 된다. 이를 위해서는 도면 포함 도면 부호 후보 생성 단계에서 명세서 포함 도면 부호 집합을 조회하는 단계를 처리하여야 하며, 이를 위해서 사전에 명세서 포함 도면 부호 집합이 생성되어 있어야 한다.The second method is a previous-stage filtering method that utilizes the specification-included reference numeral in the step of generating the candidate set of the reference-included reference numeral. By using the specification reference numerals, 1) the type of the string to start is determined, and 2) the character string that can come after a specific character. Therefore, the possibility of false recognition from the character recognition stage can be much reduced. Not heard. In particular, the concatenation of a string block has a special effect when deciding whether to connect a specific string block with another string block. This ensures that strings that do not become drawing containing reference numbers without a connection (drawings that are not in a specification containing reference number) are treated as if they were accidentally treated as a drawing containing reference (by means of a drawing containing a reference number in a specification containing reference number and consequently The same string representation can be avoided as a result of which the description of reference numerals is combined. To this end, the step of querying the specification including reference code set in the drawing reference code candidate generation step must be processed, and for this purpose, the specification including reference code set must be generated in advance.
이에 따라, 상기 특허 도면 OCR 장치(100)의 처리 수행 전에 도면 부호-설명 인식 장치(200)의 처리 수행이 우선되는 것이 바람직할 것이다.Accordingly, it may be preferable to perform the processing of the reference numeral-
한편, 명세서 포함 도면 부호 후보 집합을 구성하는 명세서 상의 문단에서 "figure +number" 또는 "도+number" 등과 같은 도면을 지칭하는 표현이 있는 경우, 그 문단에서 나오는 명세서 포함 도면 부호는 특정 도면에 특화성 높은 명세서 포함 도면 부호로 처리되고, 명세서 포함 도면 부호와 도면 번호는 맵핑되어 저장될 수 있다. 이를 통해서 상기 명세서 포함 도면 부호 후보 집합이 도면 단위로 구축될 수 있다. 도면 단위로 명세서 포함 도면 부호 후보 집합이 존재하는 경우, 이 데이터를 활용하면 도면 포함 도면 부호의 후보 집합의 전단계 필터링을 더욱 더 정밀하게 처리할 수 있게 된다.On the other hand, when there is an expression referring to a figure such as "figure + number" or "degrees + number" in the paragraph on the specification constituting the specification containing reference code candidate set, the specification including reference number coming out of the paragraph is specialized for a specific drawing. It is treated as a high specification reference number, the reference number and the reference number may be mapped and stored. Through this, the specification candidate reference set may be constructed in drawing units. If there is a reference included candidate set in drawing units, utilizing this data enables more precise processing of the previous stage filtering of the candidate set of included reference numbers.
실제 도면 포함 도면 부호의 후보 집합에 대해 명세서 포함 도면 부호를 맵핑 시킬 때, 모호성(ambiguity)이 존재하는 경우가 아주 많다. 특히, 도면이 흐리거나 해상도가 낮거나, 폰트가 깔끔하지 못하거나, 도면 포함 도면 부호가 아주 많은 경우 등에서는 다양한 모호성이 존재한다. 이때, 도면별로 생성된 명세서 포함 도면 부호 후보 집합은 특정 도면에서 추출되는 도면 포함 도면 부호의 후보의 처리에서 추가 가중치 부여 요소로 작용할 수 있게 된다.In the case of mapping the specification inclusion reference numeral to the candidate set of actual reference inclusion reference numerals, there are many cases of ambiguity. In particular, various ambiguities exist when the drawing is blurred, the resolution is low, the font is not clean, or the drawing includes a lot of reference numerals. In this case, the specification-included reference code candidate set generated for each drawing may serve as an additional weighting factor in the processing of the candidate of the drawing-included reference code extracted from the specific drawing.
예를 들면, 특정한 도면에서 인식된 특정한 도면 포함 도면 부호의 후보의 문자열 중 특정한 1개의 문자의 정확도가 낮은 경우(예, 문자 "I" 또는 숫자 '1"인지 명쾌하게 분류되지 못하는 경우), 그 특정한 도면과 관련된 명세서의 설명 부분에서 생성하는 명세서 포함 도면 부호를 참조하여, 인식된 문자의 정확도를 높일 수 있다. 예시의 경우에서도 도면 1에서는 문자 " I "없는 경우, 그 문자는 숫자 "1"로 인식하게 되면, 결과적으로 문자열의 인식률이 높아지게 된다.For example, if the accuracy of one character of the candidate character string of a specific drawing reference numeral recognized in a specific drawing is low (e.g., the letter "I" or the number "1" is not clearly classified), The accuracy of the recognized character can be improved by referring to the specification including reference numerals generated in the description part of the specification related to the specific figure. As a result, the recognition rate of the string is increased.
도 10은 본 발명의 도면 부호 인식 프로세스(1330)의 합성 처리 프로세스에 대한 일 실시예적 구현예이다.10 is one embodiment implementation of the synthesis processing process of the
도면 부호 인식 프로세스(1330)는 합성 처리 규칙을 사용하여, 인식된 제1 개별 문자와 합성 처리할 적어도 하나 이상의 제2 개별 문자를 탐색(S41)한다. 제1 개별 문자가 있을 때, 합성 처리할 제2 개별 문자의 탐색에는 제1 개별 문자의 인식값이나 제2 개별 문자이 인식값 자체는 크게 중요하지 않다. 예를 들면, 제1 개별 문자에 대한 인식값이 숫자 "1"이거나, 소문자 "i" 인 것은 상기 제1 개별 문자와 묶을 대상이 되는 제2 개별 문자를 탐색하는데 큰 영향은 없다. 왜냐하면, 숫자 "1"로 시작하는 도면 포함 도면 부호도 있을 수 있지만, 소문자 "i"로 시작하는 도면 포함 도면 부호도 있을 수 있기 때문이다.The
도면 부호 인식 프로세스(1330)는 합성 처리 규칙을 적용하여 상기 제1 개별 문자와 합성 처리할 적어도 하나 이상의 제2 개별 문자가 있는가를 탐색(S42) 한다. 상기 제2 개별 문자는 2글자(캐릭터) 이상일 수 있다. 최종적으로 합성 처리되는 문자열은 "제1 개별 문자 + 제2 개별 문자+ 제3 개별 문자+ …제 n 개별 문자"의 형태를 가질 수 있을 것이다. 제n 개별 문자가 포함되는 경우, "제1 개별 문자 + 제2 개별 문자+ 제3 개별 문자+ …제 n -1개별 문자"는 적어도 합성 처리의 결과에서 배제된다. 즉, 합성 처리가 될 때에는 가장 긴 것(the longest one)이 도면 포함 도면 부호의 후보가 된다. 예를 들면, 도면의 특정한 위치에 "S1234"가 있을 때, "S"가 인식되고, "S"의 옆에 각각 "1", "2", "3" 및 "4"가 있어, 이것이 "S1234"로 합성 처리된 경우라면, S12나 S123은 배제된다는 뜻이다. 물론, 같은 도면의 다른 곳에서 "S123"이 있는 경우에는 도면 부호 인식 프로세스(1330)가 생성하는 도면 포함 도면 부호 후보에는 "S1234" 및 "S123"이 있게 됨은 당연할 것이다.The
도면 부호 인식 프로세스(1330)는 탐색 결과 제2 개별 문자가 있는 경우, 있는 경우 제1 개별 문자의 제1 인식값과 적어도 하나 이상의 제2 개별 문자의 제2 인식값을 결합하여 적어도 하나 이상의 도면 포함 도면 부호 후보를 생성(S43)한다. 문자 인식은 항상 옳을 수가 없으므로, 문자 인식 대상마다 1개 이상의 인식값 및 인식 평가 정보(인식 확률/정확도/인식 레벨 등) 등이 대응될 수 있다. 예를 들면, "1"처림 생긴 이미지 부분에 대해서, 숫자 "1"로 인식할 수도 있고, 소문자 "i"로 인식할 수도 있으며, 인식 알고리즘은 각 인식값에 대한 인식 평가 정보를 생성할 수 있다. 따라서, 각각 적어도 1개 이상의 인식값을 가지고 있는 여러 개의 인식 대상이 합성 처리가 되는 경우에는 에는 적어도 1개 이상의 도면 포함 도면 부호 후보가 생성될 수 있게 된다. 각 도면 포함 도면 부호 후보에는 랭킹 또는 종합적 인식 평가 정보가 대응될 수 있다.The
도면 부호 인식 프로세스(1330)는 랭킹 또는 종합적 인식 평가 정보를 기준으로 한 우선 순위가 높은 도면 포함 도면 부호 후보부터 명세서 포함 도면 부호 집합에 조회(S44)한다. 생성된 도면 포함 도면 부호 후보가 명세서 포함 도면 부호 집합에 있는가? (S45)를 질의한 다음, 있는 경우에는 도면 포함 도면 부호로 결정(S46)한다. 이때, 1개의 도면 포함 도면 부호 후보가 하나 이상의 명세서 포함 도면 부호와 대응되는 경우도 발생할 수 있음은 물론이다. 이어, 상기 특허 도면 OCR 장치(100)는 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성(S47) 과정을 수행한다. 질의 결과 도면 포함 도면 부호 후부가 명세서 포함 도면 부호에 없는 경우에는 맵핑 데이터를 생성하지 않거나, 선택적으로 탐욕적 탐색(greedy search)을 수행(S48)할 수 있다. 탐욕적 탐색이란 인색 대상에 대한 모든 또는 일정 기준 이상의 모든 인식값의 조합에 대하여 도면 포함 도면 부호 후보로 처리하고, 명세서 포함 도면 부호 집합에 대한 조회(S46) 처리를 수행하는 것을 말한다.The
통상적으로 1개 캐릭터/문자로 되는 도면 포함 도면 부호는 많이 사용되지 않지만, 그렇다고 해서 전혀 사용되지 않는 것도 아니다. 따라서, 대상인 제2 개별 문자가 없는 경우에는 주의를 요한다. 왜냐하면, 문자 인식에는 무수한 오류가 존재하며, 도면을 구성하는 여러 이미지 요소(선, 점선, 곡선 부분 등)을 작은 박스 형태로 떼어 놓으면 문자처럼 인식되는 것이 아주 많게 된다. 이렇게 되면 노이즈가 엄청나게 발생한다. 예를 들면, 수직선의 일부를 박스 형태로 내서 인식하면, 숫자 "1", 대문자 "I"나 소문자 "L" 등으로 인식될 수 있으며, 특히 도부 집합에 숫자 "1", "I"나 "L"의 소문자 등이 있게 되면, 도면의 많은 부분에서 노이즈가 발생하게 된다. Normally, reference numerals including drawings of one character / character are not used much, but they are not used at all. Therefore, care must be taken when there are no second individual characters as targets. Because there are a myriad of errors in character recognition, many image elements (lines, dashed lines, curved portions, etc.) constituting the drawing are separated into small boxes so that they are recognized as characters. This causes a lot of noise. For example, if a part of the vertical line is recognized in the form of a box, it may be recognized as a number "1", an uppercase letter "I", or a lowercase letter "L", and in particular, in a set of numbers, the number "1", "I" or " When there is a lowercase letter "L", noise is generated in many parts of the figure.
도면 부호 인식 프로세스(1330)는 제2 개별 문자가 없는 경우에는 상기 제1 개별 문자가 평균 크기를 많이 벗어나는가(S49-1)를 질의한다. 상기 특허 도면 OCR 장치(100)는 인식의 대상이 되는 도면 포함 도면 부호의 평균 크기를 계산할 수 있다. 상기 특허 도면 OCR 장치(100)는 상기 S22 과정에서 도면 포함 도면 부호 후보와 1:1로 맵핑 처리가 되는 명세서 포함 도면 부호가 있는 경우, 이러한 도면 포함 도면 부호 후보를 대상으로, 개별 문자의 크기 정보를 입수하여 평균 크기를 계산한다. 1개의 도면 또는 1개의 특허에 포함되는 도면 포함 도면 부호의 폰트 크기는 크게 차이가 나지 않는 것이 일반적이기 때문이다.If there is no second individual character, the
도면 부호 인식 프로세스(1330)는 제1 개별 문자가 평균 크기를 많이 벗어나는 경우에는 그 개별 문자는 노이즈 처리(S49-2)를 수행하고, 아닌 경우에는 생성된 도면 포함 도면 부호 후보를 명세서 포함 도면 부호 집합에 조회(S49-3)한다. 생성된 도면 포함 도면 부호 후보가 명세서 포함 도면 부호 집합에 있는가? (S49-4)를 조회한 결과 있는 경우에는 도면 포함 도면 부호로 결정(S49-5)하고, 없는 경우에는 노이즈 로 처리(S49-6)한다.When the first individual character deviates much from the average size, the reference
도 11은 본 발명의 상기 도면 부호 정보셋 생성 프로세스(1400)의 도면 포함 도면 부호의 속성 정보 생성 프로세스에 대한 일 실시예적 구현예이다. 상기 도면 부호 정보셋 생성 프로세스(1400)는 도면 포함 도면 부호의 후보 문자열을 명세서 포함 도면 부호 후보 집합에 조회(S51)하여, 도면 포함 도면 부호의 후보 문자열을 명세서 포함 도면 부호 또는 명세서 포함 도면 부호 후보 집합에 존재하는 지를 판단(S52)하고, 존재하는 경우 도면 포함 도면 부호의 후보 문자열을 도면 포함 도면 부호로 인정(S53)하고, 아닌 경우 도면 포함 도면 부호의 후보 문자열 버림(S54) 처리하는 방식으로 프로세싱 할 수 있다. FIG. 11 is an exemplary embodiment of a process for generating attribute information of a reference numeral including the reference information set
도면 포함 도면 부호의 속성 정보의 처리에 대해서 설명한다. 상기 도면 부호 정보셋 생성 프로세스(1400)는 도면 포함 도면 부호 후보에 해당하는 문자열의 인식 시에 도면 포함 도면 부호 후보의 속성 정보를 생성하고 저장하게 된다. 도면 포함 도면 부호의 속성 정보에는 도면 포함 도면 부호의 위치(직사각형의 도면 포함 도면 부호 블록에 대응되는 4개의 꼭지점 좌표값), 도면 포함 도면 부호 폰트의 크기, 배향(우향, 상향, 하향 등), 구성(숫자만, 문자+숫자 등), 문자열의 길이(캐릭터의 개수), 도면 포함 도면 부호가 나타나는 특정한 도면 번호 및 도면 포함 도면 부호가 나타나는 전체 개수) 등이 있을 수 있다.Processing of attribute information of reference numerals, including drawings, will be described. The reference information set
이어, 상기 도면 부호-설명 인식 장치(200)의 명세서 포함 도면 부호 및 도면 부호의 설명 데이터의 생성에 대해서 설명한다. 명세서 포함 도면 부호 및 도면 부호의 설명 데이터의 생성은 도면에서 도면 포함 도면 부호의 인식보다 먼저 처리되어 있는 것이 바람직하다. Next, generation of description-included reference numerals and description data of the reference numerals of the reference-
도 12는 본 발명의 도면 부호-설명 인식 장치(200)의 명세서 포함 도면 부호 및 도면 부호의 설명 정보의 생성 프로세스에 대한 일 실시예적 구현예이다.FIG. 12 is an exemplary embodiment of a process for generating a specification including reference numerals and description information of reference numerals of an
명세서 포함 도면 부호 및 도면 부호의 설명 데이터는 명세서 데이터를 처리하여 생성된다. 명세서 포함 도면 부호 데이터가 XML 등과 같은 마크업 언어로 되어 있는 경우와, 태그가 없는 단순 텍스트인 경우에는 경우가 있다. 상기 도면 부호-설명 인식 장치(200)는 명세서 입수(S71)하고, 명세서 포함 도면 부호가 마크업 언어로 작성되어 있는가를 판단(S72)할 수 있다. 명세서 포함 도면 부호가 마크업 언어로 되어 있는 경우, 도면 부호에 대응하는 명세서 포함 도면 부호의 태그부를 인식하고, 명세서 포함 도면 부호의 태그부에서 상기 명세서 포함 도면 부호를 추출(S73)하고, 명세서 포함 도면 부호의 태그부와의 기 설정된 위치에 있는 문자열을 추출(S74)하고, 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정(S75)한다.Reference numerals and description data of the reference numerals are generated by processing the specification data. In some cases, the specification-indicated reference data is in a markup language such as XML, or in the case of simple text without tags. The apparatus for recognizing
예를 들어, 하기와 같은 명세서 내용(US 특허 출원 14/249,716호의 마크업 언어 파일에서 발췌한 내용)이 있다고 하자.For example, suppose that the following specification (content extracted from the markup language file of US Patent Application No. 14 / 249,716) is given.
Hybrid oxide-silicon thin-film transistor structures such as illustrative thin-film transistor structures <b>302</b> of <figref idrefs="DRAWINGS">FIG. 10</figref> may be used in forming CMOS-type circuitry in display driver circuitry such as gate driver circuitry <b>18</b> and demultiplexer circuitry <b>20</b>. As shown in <figref idrefs="DRAWINGS">FIG. 10</figref>, structures <b>302</b> may have a polysilicon layer <b>308</b> that is formed on substrate <b>24</b>. P-channel active area <b>310</b> may be formed under gate <b>312</b>. Gate insulator layer <b>306</b> (e.g., silicon oxide) may separate gate <b>312</b> from silicon channel region <b>310</b> in silicon layer <b>308</b>. Dielectric layer <b>302</b> (e.g., sublayers of silicon oxide and silicon nitride) may cover gate <b>312</b>. Dielectric layer <b>306</b> may separate gate <b>312</b> from overlapping oxide layer <b>312</b>. Oxide layer <b>312</b> may be a semiconducting oxide such as IGZO material.Hybrid oxide-silicon thin-film transistor structures such as Illustrative thin-film transistor structures <b> 302 </ b> of <figref idrefs = "DRAWINGS"> FIG. 10 </ figref> may be used in forming CMOS-type circuitry in display driver circuitry such as gate driver circuitry <b> 18 </ b> and demultiplexer circuitry <b> 20 </ b>. As shown in <figref idrefs = "DRAWINGS"> FIG. 10 </ figref>, structures <b> 302 </ b> may have a polysilicon layer <b> 308 </ b> that is formed on substrate <b> 24 </ b>. P-channel active area <b> 310 </ b> may be formed under gate <b> 312 </ b>. Gate insulator layer <b> 306 </ b> (eg, silicon oxide) may separate gate <b> 312 </ b> from silicon channel region <b> 310 </ b> in silicon layer <b> 308 </ b >. Dielectric layer <b> 302 </ b> (e.g., sublayers of silicon oxide and silicon nitride) may cover gate <b> 312 </ b>. Dielectric layer <b> 306 </ b> may separate gate <b> 312 </ b> from overlapping oxide layer <b> 312 </ b>. Oxide layer <b> 312 </ b> may be a semiconducting oxide such as IGZO material.
"<figref idrefs="DRAWINGS">FIG. 10</figref> "라는 문자열에서 이 문단은 " FIG. 10"과 관계되고 있다는 것을 알 수 있다. 한편, 상기의 예에서는 명세서 포함 도면 부호는 <b> 태그 사이에 존재한다는 것을 알 수 있고, "<b>문자열</b>"는 명세서 포함 도면 부호의 태그부가 된다. 상기 도면 부호-설명 인식 장치(200)는 상기 명세서 포함 도면 부호의 태그부를 처리하여 명세서 포함 도면 부호를 추출한다. 이어 상기 도면 부호-설명 인식 장치(200)는 명세서 포함 도면 부호의 태그부와의 기 설정된 위치에 있는 문자열을 추출(S74)한다. 예시적으로 상기 도면 부호-설명 인식 장치(200)는 명세서 포함 도면 부호의 시작 지점(앞에 있는 <b> 태그)에서 역 방향으로 문자열을 읽어 나가면서 다음 예시와 같은 도면 부호의 설명 후보 조건을 만족하는 위치까지의 문자열을 추출한다.From the string "<figref idrefs =" DRAWINGS "> FIG. 10 </ figref>", we can see that this paragraph relates to "Fig. 10". On the other hand, in the above example, it can be seen that the reference numerals exist between the <b> tags, and "<b> string </ b>" becomes the tag portion of the reference numerals. The apparatus for recognizing
문자열이 영어인 경우,If the string is English,
1) 첫번째 부정관사를 만나기 직전까지의 문자열1) String just before meeting the first indefinite article
2) 첫번째 the said, said 또는 the를 만나기 직전까지의 문자열2) the string before the first said said, said, or the
3) at least 숫자, one or more 등과 같은 기 설정된 도면 부호의 설명 후보 관련 표현 직전까지의 문자열3) a string up to immediately before the description candidate related expression of a predetermined reference number, such as at least a number, one or more, etc.
4) 기 설정된 n번째 단어까지 위 1) 또는 2)조건 중에 해당하는 문자열이 없는 경우, 첫번째 복수형 명사까지의 문자열4) If there is no corresponding string in the condition 1) or 2) up to the nth word, the string up to the first plural noun
5) 1), 2) 및 3)이 모두 성립하지 않는 상태에서 문장의 시작까지의 문자열5) String up to the beginning of the sentence, without 1), 2) and 3)
도면 부호의 설명 후보 조건은 가공 규칙 데이터부(5240)에 저장될 수 있다.Description candidate conditions of reference numerals may be stored in the processing
문자열이 영어가 아닌 한글 등이 경우, the나 the said 에 대응되는 표현(예를 들면 "상기")을 정관사나 the said 대신에 적용한다.If the string is Korean, not English, the expression corresponding to the or the said (for example, "above") is applied instead of the definite article or the said.
상기 도면 부호-설명 인식 장치(200)는 명세서 입수(S71)하고, 명세서가 마크업 언어로 작성되어 있는가를 판단(S72)할 수 있다. 명세서가 마크업 언어로 되어 있지 않은 경우, 상기 도면 부호-설명 인식 장치(200)는 명세서 포함 도면 부호 식별 규칙을 적용하여, 상기 명세서 포함 도면 부호를 추출(S76)하고, 명세서 포함 도면 부호를 기준으로 상기 명세서 포함 도면 부호와의 기 설정된 위치에 있는 문자열을 추출(S77)하고, 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정(S78) 처리하는 방식으로 프로세싱 한다.The apparatus for recognizing
상기 명세서 포함 도면 부호 식별 규칙은 1) "좌괄호+명세서 포함 도면 부호+우괄호" 등과 같은 명세서 상에서 명세서 포함 도면 부호를 표현하는 방식 등과 같은 명시적 규칙성이 있는 경우에는 그 규칙을 적용하여 처리한다. (대한민국 특허 명세서에서는 명세서 포함 도면 부호는 관행적으로 괄호 내에 표현한다.) 괄호 안에는 명세서 포함 도면 부호가 아닌 다른 문자열이 포함되는 경우도 다수 있으므로, 괄호 안에 포함되어 있는 문자열 중에서, 명세서 포함 도면 부호를 결정하는 것은 다음과 같은 조건을 적용한다. 한편, 괄호 등과 같은 관행적인 명세서 포함 도면 부호 식별 규칙이 없는 경우에는 "띄어쓰기+명세서 포함 도면 부호+띄어쓰기" 등과 같은 무방식의 경우에도 동등한 조건을 적용할 수 있다.The above-mentioned reference numeral identification rule is 1) when there is an explicit regularity such as a method of expressing the reference numeral reference code on the specification such as "parenthesis + specification included reference number + brackets", etc., the rule is applied and processed. do. (In a Korean patent specification, reference numerals are conventionally expressed in parentheses.) Since a parenthesis often includes other character strings other than the specification reference numerals, among the character strings included in parentheses, reference numerals are included. To determine, the following conditions apply: On the other hand, when there is no conventional specification code reference identification rule, such as parentheses, the same conditions can be applied even in the case of a non-type method such as "space code + reference code + space".
첫째, 문자열이 2단어 이상(띄어쓰기가 있는 경우)에는 명세서 포함 도면 부호가 아니다.First, a string is not a reference sign with a specification of two words or more (when there is a space).
둘째, 숫자가 포함되어 있지 않은 문자열은 명세서 포함 도면 부호가 아니다.Second, strings that do not contain numbers are not reference numerals in the specification.
셋째, 문자열에 숫자와 문자가 함께 포함되어 있는 경우, 다음과 같은 하위 기준을 적용한다.Third, if the string contains both numbers and letters, the following substandards apply:
1) 문자로 시작하는 경우에는 시작하는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.1) In the case of starting with a letter, the number of letters of the starting letter is less than or equal to the number of letters composing the number.
2) 문자로 끝나는 경우에는 끝나는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.2) In the case of ending with a character, the number of characters of the ending character is less than or equal to the number of characters constituting the number.
셋째, 명세서 포함 도면 부호 포함 기호는 문자열의 처음도 될 수 없고 마지막도 될 수 없다.Third, the specification inclusion reference sign cannot be the beginning or the end of a character string.
넷째, 문자열의 전체 길이는 기 설정된 한계(예, 6~7 글자) 이내이다.Fourth, the total length of the string is within a preset limit (eg, 6-7 characters).
다섯째, 명세서 포함 도면 부호 포함 기호가 아닌 구두점이나 기호는 명세서 포함 도면 부호 구성에서 제외된다.Fifth, punctuation or symbols that are not symbols including specifications are excluded from the specification including references.
명세서 포함 도면 부호 식별 규칙은 가공 규칙 데이터부(5240)에 저장될 수 있다.The specification identification code identification rule may be stored in the processing
마크업 언어로 되어 있지 않은 명세서에서 명세서 포함 도면 부호가 결정되었을 때, 도면 부호의 설명을 결정하는 것은 마크업 언어로 되어 있는 명세서에서와 동일하다.When the specification including reference numerals are determined in the specification that is not in the markup language, the description of the reference numerals is the same as in the specification in the markup language.
그런데, 명세서 포함 도면 부호와 도면 부호의 설명 후보 간에는 원칙적으로 단일 명세서 내에서의 표현의 일관성의 원칙상 1:1 관계가 성립해야 하나, 사실 상 1:1 관계가 성립하지 않는 경우가 다수 있을 수 있다. 이유는 다음을 포함한다.However, in principle, a 1: 1 relationship should be established between the reference numerals and the explanation candidates of the reference numerals in principle, but the 1: 1 relations may not be established in principle. have. Reasons include the following.
첫째, 명세서를 작성하는 사람의 실수나 오류 때문이다. 다른 표현에 동일 명세서 포함 도면 부호를 적용하거나, 동일 명세서 포함 도면 부호에 다른 표현이 사용되는 경우 등이다.First, it is because of the mistake or error of the person who prepares the specification. The same specification includes the same reference numerals in different expressions, or different expressions are used in the same specification included reference numerals.
둘째, 명세서를 작성 프로그램 또는 명세서 전산화 프로그램 또는 명세서 가공 프로그램에서의 실수나 오류가 있을 수 있다.Second, there may be a mistake or an error in the specification writing program or the specification computerization program or the specification processing program.
셋째, 도면 부호의 설명 후보 조건의 불완비성 또는 도면 부호의 설명 후보 조건을 적용하는 프로그램의 불완전성 때문이다. 도면 부호의 설명 후보 조건을 아무리 다양하고 엄격하게 준비한다고 하더라도 1)도면 부호의 설명 후보 조건을 벗어나는 표현의 존재 가능성 항상 있고, 2) 도면 부호의 설명 후보 조건 간에 충돌 관계나 우선 순위 적용에서 예외 상황이 발생할 수 있게 된다.Third, it is because of incompleteness of the description candidate condition of the reference numeral or incompleteness of the program to which the description candidate condition of the reference numeral is applied. No matter how diverse and strict the preparation of the description candidate conditions of reference numerals, 1) there is always the possibility of an expression outside the description candidate conditions of the reference numerals, and 2) exceptions in the application of conflicts or priorities between the description candidate conditions of the reference numerals. This can happen.
이 때 어느 명세서 포함 도면 부호에 어느 도면 부호의 설명을 맵핑할 것인가를 결정하는 것이 중요하게 된다. 도 13내지 도 15를 참조하면서 설명한다.At this time, it is important to determine which description reference numerals will be mapped to which reference numerals. A description will be given with reference to FIGS. 13 to 15.
도 13은 본 발명의 상기 도면 부호-설명 인식 장치(200)의 도면 부호의 설명 결정 프로세스에 대한 일 실시예적 구현예이다.FIG. 13 is an exemplary embodiment of a process for determining an explanation of reference numerals of the apparatus for recognizing
도 13에서 예시되듯이 상기 도면 부호-설명 인식 장치(200)는 도면 부호의 설명 후보를 입수(S81)하고, 도면 부호의 설명 후보에 도면 부호의 설명 결정 규칙을 적용(S82)하고, 도면 부호의 설명을 결정(S83) 처리하는 방식으로 프로세싱 한다.As illustrated in FIG. 13, the apparatus for recognizing
도 14는 본 발명의 도면 부호-설명 인식 장치(200)의 도면 포함 도면 부호와 상기 도면 부호의 설명의 맵핑 데이터 생성 전 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 프로세스에 대한 일 실시예적 구현예이다.14 is a diagram illustrating a mapping process of a description including reference numerals and descriptions of reference numerals before generation of mapping data of the reference numerals and descriptions of the reference numerals of the reference numeral-
도 14에서 예시되듯이 상기 도면 부호-설명 인식 장치(200)는 명세서 전체에서 생성한 명세서 포함 도면 부호 및 도면 부호의 설명의 쌍 데이터 입수(S91)하고, 명세서 포함 도면 부호를 기준으로 전체 도면 부호의 설명이 유일(1:1 대응)한가를 조회 (S92)하고, Yes인 경우 명세서 포함 도면 부호와 도면 부호의 설명의 1:1 맵핑 처리(S93)한다. 한편, 상기 도면 부호-설명 인식 장치(200)는 1:1 대응 관계가 성립하지 않는 경우에는 도면 부호의 설명 결정 규칙을 적용한다. 상기 도면 부호-설명 인식 장치(200)는 도면 부호의 설명 중에서 최빈 도면 부호의 설명을 입수하고, 빈도 비율값을 확률값으로 처리하고 명세서 포함 도면 부호와 도면 부호의 설명의 확률 정보 포함 1:n 맵핑 처리(S94)하고, 명세서 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n)를 생성(S95)하는 방식으로 프로세싱 할 수 있다.As illustrated in FIG. 14, the apparatus for recognizing
도 15는 본 발명의 도면 부호-설명 인식 장치(200)의 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성 프로세스에 대한 일 실시예적 구현예이다.FIG. 15 is a diagram illustrating a process of generating mapping data (1: 1 or 1: n) with reference to reference numerals and descriptions of reference numerals through the specification-included reference numerals of the
도 15에서 예시되듯이 상기 도면 부호-설명 인식 장치(200)는 도면 포함 도면 부호를 입수(S101)하고, (마름모)도면 포함 도면 부호에 대응되는 명세서 포함 도면 부호가 존재하는가를 조회 (S102)하고, Yes 인 경우, 도면 포함 도면 부호와 명세서 포함 도면 부호의 맵핑(S103)하고, 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성(S104)하며, No 인 경우 명세서 포함 도면 부호가 존재하지 않는 도면 포함 도면 부호임을 저장하여, 이 도면 포함 도면 부호가 도면 포함 도면 부호와 도면 부호의 설명의 맵핑 처리에서 배제될 수 있도록 처리(S105)하는 방식으로 프로세싱 한다.As illustrated in FIG. 15, the apparatus for recognizing the
이어, 본 발명의 도면 부호-설명 인식 장치(200)의 데이터 생성에 대하여 예시를 들어 설명한다.Subsequently, data generation by the reference sign-
예를 들어, 하기와 같은 명세서 내용(US 특허 출원 14/249,716호의 마크업 언어 파일에서 발췌한 내용)을 예시적으로 설명한다.For example, the following specification (content taken from the markup language file of US patent application 14 / 249,716) will be described by way of example.
Hybrid oxide-silicon thin-film transistor structures such as illustrative thin-film transistor structures <b>302</b> of <figref idrefs="DRAWINGS">FIG. 10</figref> may be used in forming CMOS-type circuitry in display driver circuitry such as gate driver circuitry <b>18</b> and demultiplexer circuitry <b>20</b>. As shown in <figref idrefs="DRAWINGS">FIG. 10</figref>, structures <b>302</b> may have a polysilicon layer <b>308</b> that is formed on substrate <b>24</b>. P-channel active area <b>310</b> may be formed under gate <b>312</b>. Gate insulator layer <b>306</b> (e.g., silicon oxide) may separate gate <b>312</b> from silicon channel region <b>310</b> in silicon layer <b>308</b>. Dielectric layer <b>302</b> (e.g., sublayers of silicon oxide and silicon nitride) may cover gate <b>312</b>. Dielectric layer <b>306</b> may separate gate <b>312</b> from overlapping oxide layer <b>312</b>. Oxide layer <b>312</b> may be a semiconducting oxide such as IGZO material.Hybrid oxide-silicon thin-film transistor structures such as Illustrative thin-film transistor structures <b> 302 </ b> of <figref idrefs = "DRAWINGS"> FIG. 10 </ figref> may be used in forming CMOS-type circuitry in display driver circuitry such as gate driver circuitry <b> 18 </ b> and demultiplexer circuitry <b> 20 </ b>. As shown in <figref idrefs = "DRAWINGS"> FIG. 10 </ figref>, structures <b> 302 </ b> may have a polysilicon layer <b> 308 </ b> that is formed on substrate <b> 24 </ b>. P-channel active area <b> 310 </ b> may be formed under gate <b> 312 </ b>. Gate insulator layer <b> 306 </ b> (eg, silicon oxide) may separate gate <b> 312 </ b> from silicon channel region <b> 310 </ b> in silicon layer <b> 308 </ b >. Dielectric layer <b> 302 </ b> (e.g., sublayers of silicon oxide and silicon nitride) may cover gate <b> 312 </ b>. Dielectric layer <b> 306 </ b> may separate gate <b> 312 </ b> from overlapping oxide layer <b> 312 </ b>. Oxide layer <b> 312 </ b> may be a semiconducting oxide such as IGZO material.
상기의 도면 부호의 설명 후보 조건을 적용하는 경우, 상기 인용된 명세서 내용에서 하기 표 5과 같은 도면 부호의 설명 후보 집합을 생성할 수 있다.When the above description candidate condition of the reference number is applied, a description candidate set of the reference number shown in Table 5 may be generated from the above-mentioned cited contents.
상기 표 5 같은 데이터는 명세서 기반 데이터부(5220)에 저장된다.Data such as Table 5 is stored in the specification-based
상기 표 5에서 알 수 있듯이, 도면 부호 302, 308, 310, 312에서와 같이 동일한 도면 부호에 다른 도면 부호의 설명이 대응되는 경우가 있을 수 있다. 이러한 1:n(n은 자연수) 대응 관계는 명세서 상의 기재 불비라는 가능성과는 별도로 현실적으로 빈번하게 발생하고 있다. 이러한 이유 때문에, 명세서 상에서 명세서 포함 도면 부호에 대응되는 도면 부호의 설명을 기계적으로 확정할 수 없는 문제가 발생한다.As can be seen in Table 5, there may be cases in which descriptions of other reference numerals correspond to the same reference numerals as in reference numerals 302, 308, 310, and 312. This 1: n (n is a natural number) correspondence relationship is frequently generated in reality apart from the possibility of being described in the specification. For this reason, there arises a problem in that the description of the reference numeral corresponding to the reference numeral included in the specification cannot be mechanically determined.
상기 도면 부호-설명 인식 장치(200)는 명세서 전체를 대상으로 상기 표 5과 같은 데이터를 생성하고, 명세서 포함 도면 부호 기준으로 정보 처리하면 하기 표 6과 같은 데이터를 생성한다.The apparatus for recognizing
상기 도면 부호-설명 인식 장치(200)는 본 발명에서는 동일 명세서 포함 도면 부호에 적어도 2 이상의 도면 부호의 설명 후보가 대응되어 있을 때 도면 부호의 설명을 결정할 때 예시적으로 다음과 같은 도면 부호의 설명 결정 규칙을 적용할 수 있다.In the present invention, when the description candidate of at least two reference numerals corresponds to the reference specification including reference numerals, the apparatus for recognizing the description of the reference numerals is as follows. Decision rules can be applied.
1) 명세서 포함 도면 부호 기준 빈도가 가장 높은 도면 부호의 설명 후보1) Description candidate of the reference code with the highest reference frequency
2) 명세서 내에서 명세서 포함 도면 부호와 도면 부호의 설명 간의 맵핑 관계를 처리해 놓은 정보가 있는 경우, 그 맵핑 관계 처리 정보를 우선적으로 반영한 도면 부호의 설명 후보2) If there is information in which a mapping relationship between the reference numerals included in the specification and the description of the reference numerals has been processed, the candidates for explanation of the reference numerals that preferentially reflect the mapping relationship processing information.
3)1) 또는 2)가 없는 경우, 길이가 가장 길긴 도면 부호의 설명 후보3) If there is no 1) or 2), the candidate for explanation of the longest reference numeral
도면 부호의 설명 결정 규칙은 가공 규칙 데이터부(5240)에 저장될 수 있다.An explanation determination rule of reference numeral may be stored in the processing
상기 도면 부호-설명 인식 장치(200)는 하기 표 7와 같은 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 데이터 및 도면 부호의 설명 속성 정보를 생성한다. 하기 표 7와 같은 데이터는 본 발명의 도면 부호-설명 맵핑 정보셋 생성 프로세스(2400)이 생성하는 도면 부호-설명 맵핑 정보셋의 한 예가 된다.The apparatus for recognizing the reference numeral-description generates mapping data of the specification including reference numerals, the description of the reference numerals, and the description attribute information of the reference numerals as shown in Table 7 below. Data shown in Table 7 below is an example of the reference sign-description mapping information set generated by the reference sign-description mapping information set
상기 표 7과 같은 데이터는 명세서 기반 데이터부(5220)에 저장되며, 집계 정보는 집계 데이터부(5250)에도 저장될 수 있다.상기 구성 문자 수는 도면 부호의 설명을 배치하기 위한 도면 부호의 설명 배치 데이터를 생성하는데 중요하게 활용된다. 도면 부호의 설명이 길면 길수록 도면 부호의 설명을 표시하기 위한 공간의 크기도 커져야 하기 때문에, 긴 도면 부호의 설명의 경우에는 다른 도면 부호의 설명과 충돌/겹침이 발생할 가능성이 높기 때문에, 긴 도면 부호의 설명이 다량으로 포함되어 있는 경우에는 도면 부호의 설명 간의 배치가 아주 중요하게 된다.Data as shown in Table 7 may be stored in the specification-based
도 15는 본 발명의 도면 부호-설명 인식 장치(200)의 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성 프로세스에 대한 일 실시예적 구현예이다.FIG. 15 is a diagram illustrating a process of generating mapping data (1: 1 or 1: n) with reference to reference numerals and descriptions of reference numerals through the specification-included reference numerals of the
도 15에서 예시되듯이 상기 도면 부호-설명 인식 장치(200)는 도면 포함 도면 부호를 입수(S101)하고, 도면 포함 도면 부호에 대응되는 명세서 포함 도면 부호가 존재하는 가를 조회 (S102)하고, Yes 인 경우, 도면 포함 도면 부호와 명세서 포함 도면 부호의 맵핑(S103)하고, 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성(S104)하다. 한편, 상기 도면 부호-설명 인식 장치(200)는 도면 포함 도면 부호에 대응되는 명세서 포함 도면 부호가 존재하지 않는 경우에는 명세서 포함 도면 부호가 존재하지 않는 도면 포함 도면 부호임을 저장하여, 이 도면 포함 도면 부호가 도면 포함 도면 부호와 도면 부호의 설명의 맵핑 처리에서 배제될 수 있도록 처리(S105)하는 방식으로 프로세싱 한다.As illustrated in FIG. 15, the apparatus for recognizing
상기와 같은 방법을 특정한 특허(Pi)의 특정한 도면 Dij(Pi)에 포함된 도면 부호의 설명 DFNijk(Dij(Pi))이 특정되게 된다. 이때, 도면 Dij(Pi)에 2개 이상의 동일한 DFNijk(Dij(Pi))이 있을 때, (DFNijk(Dij(Pi))의 개수인 Count(DFNijk(Dij(Pi)))는 1로 처리하거나, 개수만큼 처리할 수 있다. Count(DFNijk(Dij(Pi)))는 1로 처리하는 것이 바람직할 것이다.In the above-described method, description DFNijk (Dij (Pi)) of reference numerals included in a specific drawing Dij (Pi) of a specific patent Pi is specified. At this time, when there are two or more identical DFNijk (Dij (Pi)) in the drawing Dij (Pi), (Count (DFNijk (Dij (Pi))) which is the number of (DFNijk (Dij (Pi))) is treated as 1, It can be processed as many as Count (DFNijk (Dij (Pi))) should be treated as 1.
도 16에 예시되어 있듯이, 도면 부호의 설명 계량 정보 생성 프로세스(3100)는 특정한 특허(Pi)의 특정한 도면에 포함된 도면 부호의 설명 데이터인, Pi vs. Dij(Pi) vs. DFNijk(Dij(Pi)) 대응 관계 데이터를 입수(S111)한다.As illustrated in FIG. 16, the description weighing
상기 도면 부호의 설명 계량 정보 생성 프로세스(3100)는 입수한 대응 관계 데이터로 도면 단위의 도면 부호의 설명별 계량 정보 (Dij(Pi) : Ftn(DFNijk(Dij(Pi))))를 생성(S112)한다. 도면 Dij(Pi)에 포함된 도면 부호의 설명 DFNijk(Dij(Pi))별로 그 도면 Dij(Pi)별로 측정되고 계량되어 처리되는 함수값이다. 함수값의 가장 간단한 형태는 계량값이며, 계량값의 가장 간단한 형태는 개수이며, 개수의 가장 간단한 형태는 존재 여부이다. 이를 통해서 특정 특허의 특정 특허 도면 Dij(Pi)별 DFNijk(Dij(Pi))와의 대응 관계의 존재 여부를 포함한 각종 함수값을 알 수 있게 된다. 도면 부호의 설명별 계량 정보 (Dij(Pi) : Ftn(DFNijk(Dij(Pi))))의 생성은 본 발명의 도면 부호의 설명별 계량 정보 생성 프로세스(3110)이 수행한다.The description weighing
상기 도면 부호의 설명 계량 정보 생성 프로세스(3100)은 이 값을 기반으로 하여 1차 유도 데이터가 생성될 수 있게 된다.The description
첫째, 도면 단위 도면 부호의 설명셋 생성 프로세스(3120)은 도면 단위 도면 부호의 설명셋 DFNSet(Dij(Pi))로, Dij(Pi)에 포함된 도면 부호의 설명 전체 집합 데이터를 생성(S113)한다. 이를 통해 도면별로 그 도면에 대응되는 도면 부호의 설명 전체에 대한 데이터가 생성된다.First, the description set
둘째, 특허 단위 도면 부호의 설명셋 생성 프로세스(3130)는 특허 단위 도면 부호의 설명셋 DFNSet(Pi)로, Pi에 포함된 도면 부호의 설명 전체 집합 데이터를 생성(S114)한다. 이를 통해 특허별로 그 특허에 포함된 도면 부호의 설명별 데이터가 생성된다.Second, the description set
셋째, 특허 단위 도면 부호의 설명별 계량 정보 생성 프로세스(3140)는 특허 단위의 도면 부호의 설명별 계량 정보 (DFNijk(Pi), Ftn(DFNijk(Pi)))를 생성(S115)한다. Ftn(DFNijk(Pi)))은 Pi에 포함된 도면 부호의 설명별 계량값 데이터이다. 기초적인 Ftn(DFNijk(Pi))에는 DFNijk(Pi)의 개수(빈도), DFNijk(Pi) 존재 도면수(전체 도면 중에서 DFNijk(Pi)가 있는 도면의 개수, DFNijk(Pi) 존재 도면 밀도(전체 도면 중에서 DFNijk(Pi) 존재 도면수의 비율) 등이 있을 수 있다. 한편, 상기 Ftn(DFNijk(Pi))에는 Pi에서 전체 DFNijk(Pi)를 대상으로 하여 상기 기초 Ftn(DFNijk(Pi))별로 집계되는 DFNijk(Pi) 랭킹(순위)가 포함되어 있을 수 있다. DFNk가 검색어로 입수될 때, 검색 결과로 나타나는 Pi의 검색 랭킹을 결정하는데 상기 Ftn(DFNijk(Pi))를 사용할 수 있다. 한편, 상기 Ftn(DFNijk(Dij(Pi)))를 사용하면 Pi의 여러 도면 중에서 특정 도면(이 도면은 출원인이 제공하는 대표 도면과는 무관함)을 대표하여 제공할 때 적어도 DFNijk(Pi))값이 없는 도면이 제공되는 것은 피할 수 있다.Third, the description-specific metering
상기와 같은 데이터가 있을 때 2차 유도 데이터가 생성될 수 있다.When there is such data, secondary derived data may be generated.
도면 부호의 설명 검색 지원 프로세스(3200)의 도면 부호의 설명 검색 지원 인덱스 생성 프로세스(3210)는 도면 부호의 설명을 대상으로 하는 검색 서비스를 위한 도면 부호의 설명 검색 인덱스 데이터를 생성한다. 검색자는 2개 이상의 도면 부호의 설명을 검색어로 입력할 수 있다. 이 때, 검색 조건 또는 검색어 입력자의 의도에 부합하는 특허 도면을 검색 결과로 제공할 수 있다. 이를 위해서는 DFNk별로 DFNk가 포함되어 있는 적어도 하나 이상의 특정 특허의 특허 도면 Dij(Pi)들 간의 대응 관계를 인덱스에 포함시켜야 한다. 이때, 상기 인덱스에 Ftn(DFNijk(Dij(Pi)))가 포함되는 것이 더욱 바람직할 것이다. 한편, 검색 결과로 특허(Pi)를 제공하는 경우, DFNk별로 DFNk가 도면 부호의 설명으로 포함되어 있는 적어도 하나 이상의 특허 Pi들 간의 대응 관계를 인덱스에 포함시켜야 한다. 이때, 상기 인덱스에 Ftn(DFNijk(Pi))가 포함되는 것이 더욱 바람직할 것이다.Description of the Reference
상기 도면 부호의 설명 검색 인덱스 데이터에는 상기 기초 Ftn(DFNijk(Pi))별로 집계되는 DFNijk(Pi) 랭킹(순위)가 포함되어 있을 수 있다.The explanatory search index data of the reference numeral may include a DFNijk (Pi) ranking (rank) that is counted by the base Ftn (DFNijk (Pi)).
도면 부호의 설명 사용 연관 데이터 생성 프로세스(3300)의 연관 도면 부호의 설명 데이터 생성 프로세스(3310)는 Co-occurrence 데이터를 생성할 수 있다. 특정 특허의 특허 도면 Dij(Pi)를 기준으로 함께 쓰인 DFNijk(Dij(Pi)) 간의 관계성 데이터를 생성할 수 있다.Descriptive Use of Descriptive Reference The descriptive
상기 연관 도면 부호의 설명 데이터 생성 프로세스(3310)는 행렬 연산 또는 DBMS의 조인 기능을 활용하여 Co-occurrence 관계성 데이터를 생성한다. 하기에서 행렬 연산을 예시적으로 설명하지만 본질은 동등하다.The explanatory
상기 연관 도면 부호의 설명 데이터 생성 프로세스(3310)는 먼저 도면 단위에서 기초 행렬 A를 구성하는 Aij를 하기와 같이 구성(S121)한다.The explanatory
Ai(행)의 구성 : Dij(Pi),The composition of Ai (row): Dij (Pi),
Aj(열)의 구성 : DFNkComposition of Aj (Columns): DFNk
Aij = Ftn(DFNijk(Dij(Pi)))Aij = Ftn (DFNijk (Dij (Pi)))
Ftn(DFNijk(Dij(Pi)))의 가장 간단한 형태는 빈도임. 이 경우 Aij는 특정 특허의 특정 도면 Dij(Pi)에 특정 DFNk가 존재하는 경우에는 1, 존재하지 않은 경우에는 0이 대응될 수 있다.The simplest form of Ftn (DFNijk (Dij (Pi))) is frequency. In this case, Aij may correspond to 1 when a specific DFNk exists in a specific drawing Dij (Pi) of a specific patent, and 0 when not present.
이어, 상기 연관 도면 부호의 설명 데이터 생성 프로세스(3310)는 AAT처리를 수행(S122)한다. 이를 통해, 상기 연관 도면 부호의 설명 데이터 생성 프로세스(3310)는 는 DFNk 관점의 co-occurrence 데이터를 생성(S123)할 수 있다. 이때, co-occurrence가 있는 DFNk들의 쌍(DFNki, DFNkj)에 대해 DFNki 및 DFNkj를 모두 포함하고 있는 특허 셋 Pset(DFNki, DFNkj)을 특정할 수 있으므로, 상기 연관 도면 부호의 설명 데이터 생성 프로세스(3310)는 는 Pset에 대한 계량 분석 정보로서 (DFNki, DFNkj)에 대한 계량 분석 정보를 생성할 수 있다. 대표적인 계량 분석 정보로는 Pset을 구성하는 Pi의 서지 정보(시간, 권리자, 발명자, 인용/피인용, 패밀리, 소송, 거래, 표준 정보 등)를 기준으로 분석하는 것이다. 예를 들면, (DFNki, DFNkj)의 시계열, (DFNki, DFNkj)의 권리자/발명자별 시계열이나 점유율, (DFNki, DFNkj)별 특허 거래 추이나 소송 추이, 최근 n년도간 발생된 패밀리 특허의 개수나 비율 등이 분석될 수 있게 된다.Subsequently, the description
상기 계량 분석 정보는 신규(특정 시점 이후에만 등장), 급등(등장 속도가 기설정된 기준 이상) 또는 급감 등과 같은 이벤트적 계량 분석 metric을 포함할 수도 있다. 예를 들면, (DFNki, DFNkj)의 시계열 데이터를 통하여 특정 부품/제품과 관련된 도면에 새롭게 결합하는 도면 부호의 설명을 추출할 수 있게 된다. 특히, 새롭게 결합하는 도면 부호의 설명이 제품, 부품, 소재, 기능성 표현 등이 포함된 도면 부호의 설명이면 더욱 유용할 수 있다. 나아가 특정한 기업(업계의 선도 기업 등)을 한정할 경우, 그 기업의 특정한 제품/부품에 새롭게 결합되는 제품, 부품, 소재, 기능성 표현 등이 포함된 도면 부호의 설명이면 더욱 더 유용할 수 있다. 특히, 본 발명 사상은 특정 DFN별로 co-occurrence 관계에 있는 DFN에 대한 신규나 급등 등의 이벤트는 회원별로 사전 설정을 받고, 주기적으로 검색하여 알림 조건에 해당되면 회원에게 알림(alert) 정보를 제공하는 서비스에도 활용될 수 있을 것이다.The quantitative analysis information may include an eventual metric analysis metric such as new (appears only after a specific point in time), a sudden increase (above a predetermined reference level) or a sharp decrease. For example, descriptions of reference numerals newly coupled to drawings related to specific parts / products may be extracted through time series data of (DFNki, DFNkj). In particular, it may be more useful if the description of the reference numeral to be newly combined is the description of the reference numeral including the product, the part, the material, the functional expression, and the like. Further, in the case of limiting a specific company (such as a leading company in the industry), it may be more useful if the description of reference numerals including a product, a part, a material, a functional expression, etc., is newly incorporated into a specific product / part of the company. In particular, the idea of the present invention is to receive a preset information for each member, such as a new or skyrocketing DFN in a co-occurrence relationship for each specific DFN, periodically search and provide notification information to the member if the notification conditions It can also be used for services.
도 17에 예시되어 있듯이, 유사 도면 정보 생성 프로세스(3320)는 ATA를 수행(S132)하여, 특정 도면 단위에 포함된 도면 부호의 설명 집합 관점에서의 유사성 높은 도면쌍 데이터를 생성(S133)한다. 상기 유사 도면 정보 생성 프로세스(3320)는 (Dij(Pi), Djk(Pj)) 쌍들 중에서 Pi is not Pj인 것들만으로 (Dij(Pi), Djk(Pj))쌍 데이터를 생성한다. 이 데이터를 통해서 Dij(Pi) 관점에서 유사성 높은 Djk(Pj)도면들을 찾을 수 있게 된다. 특히, 상기 유사 도면 정보 생성 프로세스(3320)는 특정 도면 부호의 설명이 상품의 명칭, 부품의 명칭, 기능성 기술 키워드이거나 특별히 관리되는 키워드이거나, 도면 부호의 설명이 이들을 포함하는 표현일 경우에 특별한 가중치값을 부여하고, Ftn(DFNijk(Dij(Pi)))에서 이러한 가중치값을 고려하여 함수값을 처리할 수 있다. 이 경우, 특정한 제품이나 부품이나 기능성 기술 키워드 다수 공유하는 유사 도면을 효과적으로 추출할 수 있다. 예를 들면, 특정한 도면에 디스플레이라는 제품 또는 부품의 명칭이 포함된 도면 부호의 설명, 온도 센서라는 부품 명칭이 포함된 도면 부호의 설명과 관성 센서라는 부품 명칭이 포함된 도면 부호의 설명이 있는 경우, 디스플레이, 온도 센서, 관성 센서가 모두 함께 들어 있거나 적어도 2개가 들어 있는 유사 도면을 찾을 수 있게 된다.As illustrated in FIG. 17, the similar drawing
유사 특허 정보 생성 프로세스(3330)는 특허 단위에서 기초 행렬 B를 구성하는 Bij를 하기와 같이 구성(S141)한다.The similar patent
Bi(행)의 구성 : Pi,The composition of Bi (row): Pi,
Bj(열)의 구성 : 특허에서 추출한 키워드Composition of Bj (Column): Keyword Extracted from Patent
Bij = 특허에서 추출한 키워드 속성Bij = keyword attribute extracted from patent
이때, 상기 특허에서 추출한 키워드는 DFNk 단독이거나, DFNk를 포함하는 것인 것이며,At this time, the keyword extracted from the patent is DFNk alone or will include DFNk,
상기 특허에서 추출한 키워드 속성는 Ftn(DFNijk(Pi)) 단독이거나, 키워드의 속성에 Ftn(DFNijk(Pi))을 추가한 것인 것일 수 있다.The keyword attribute extracted from the patent may be Ftn (DFNijk (Pi)) alone or may be one in which Ftn (DFNijk (Pi)) is added to the keyword attribute.
이와 같이, 유사 특허의 생성에 도면 부호의 설명만을 사용하거나, 다른 키워드와 함께 사용할 수 있다. 물론, 도면 부호의 설명을 사용할 때, 도면 부호의 설명의 속성으로서, 도면에 나타나는 빈도 등을 유사 특허의 생성에 사용할 수 있다. 즉, 특정한 키워드(KWi)가 명세서(명세서 전체 또는 청구항 등)에서 n번, 상기 KWi가 도면 부호의 설명에도 사용되고, 상기 도면 부호의 설명이 포함된 도면이 m개가 있을 때, 상기 KWi의 용어 빈도수(term frequency, Ftn(DFNijk(Pi))의 중의 하나가 됨)는 n+m이 될 수 있다.As described above, only the description of reference numerals may be used to generate the similar patent, or may be used together with other keywords. Of course, when using the description of the reference numerals, the frequency or the like shown in the drawings can be used to generate the similar patent as an attribute of the description of the reference numerals. That is, when a specific keyword KWi is used n times in the specification (the entire specification or the claim, etc.), the KWi is also used for the description of the reference numeral, and when there are m drawings including the description of the reference numeral, the term frequency of the KWi. (term frequency, which is one of Ftn (DFNijk (Pi))) may be n + m.
Ftn(DFNijk((Pi))의 가장 간단한 형태는 빈도임. 이 경우 Bij는 특정 특허 Pi에 특정 DFNk의 빈도 또는 특허 문서에서의 중요도를 대응시킬 수 있다. 특허 문서에서의 중요도는 특허 문서 전체에서의 중요도 또는 특허 도면 전체에서의 중요도가 될 수 있다. DFNk의 특허 문서 전체에서의 중요도는 예시적으로 TFIDF 값이 될 수 있다. 이때, DFNijk(Pi)의 term frequency를 계량하는 방법은 i) Pi 명세서 전체에서의 term frequency만 계량하는 방법, ii) 도면 전체에서의 빈도값(DFNijk(Pi)가 나타난 도면의 개수)만으로 계량하는 방법, iii) i) 및 ii)를 단순 합산하거나 또는 ii)에 특정한 가중치를 부가하여 가중 합산하는 방법이 있을 수 있다.The simplest form of Ftn (DFNijk ((Pi)) is frequency, in which case Bij can map the frequency of a particular DFNk to a specific patent Pi or its importance in a patent document. The importance of the entire DFNk patent document may be a TFIDF value, for example, a method of measuring the term frequency of DFNijk (Pi) is i) Pi. A method of quantifying only the term frequency throughout the specification, ii) a method of quantifying only the frequency value (the number of figures in which DFNijk (Pi) is shown) throughout the drawing, iii) i) and ii) by simply adding or ii) There may be a method for weighted addition by adding a specific weight.
상기 유사 특허 정보 생성 프로세스(3330)는 BBT 처리를 수행(S142)한다. 이를 통해, 상기 유사 특허 정보 생성 프로세스(3330)는 DFNk 단독 또는 DFNk가 일종의 키워드로 취급되는 DFN co-occurrence 데이터를 생성할 수 있게 된다.The similar patent
BTB 처리를 수행하면, DFNk 단독 또는 DFNk가 일종의 키워드로 취급되는 유사 특허 데이터 또는 도면에 포함된 도면 부호의 설명의 집합적 유사성 관점에서의 유사 특허 데이터를 생성(S143)할 수 있게 된다.B T when performing the B process, DFNk it is possible to independently or DFNk generates similar patents in the collective similarity aspect of the description of the reference numerals included in the similar patents or drawings that are treated as a kind of a keyword (S143).
도면 부호의 설명 검색 지원 프로세스(3200)는 본 발명 사상을 활용한 특화된 도면 검색을 수행을 지원한다.Description
도면 부호의 설명 검색 지원 프로세스(3200)는 도면 부호의 설명 vs. 특허 도면, 도면 부호의 설명 vs. 특허 데이터의 대응 관계가 포함되어 있는 인덱스를 사용하여 도면 부호의 설명을 검색 대상으로 할 수 있다. 이 때문에 키워드 검색 필드군에 도면 부호의 설명 검색 필드를 포함시킬 수 있다. 기존의 키워드 검색 필드군에는 발명의 명칭, 초록, 특허 청구 범위 및 발명의 설명 등이 있다. 따라서, 신규한 검색 필드로서 도면 부호의 설명 검색 필드를 추가할 수 있고, 도면 부호의 설명 검색 필드와 다른 검색 필드를 조합하여 사용할 수 있다.Description of References The
한편, 본 발명 사상을 활용하면, 제품에 대응되는 특허 검색을 효과적으로 할 수 있다. 예를 들면, 카탈로그 이미지나 설계도 등에 포함되어 있는 제품 또는 부품의 이미지와 관련성이 가장 높은 특허 또는 특허 도면을 찾는데 활용할 수 있다. 본 발명 사상이 적용된 검색 시스템은 제품-부품의 이미지나 설계도의 특정 부분/부위의 명칭 하나 이상(바람직하게는 여러 개)이 도면 부호의 설명 검색 필드에 입력되고, 선택적으로 출원인/현재 권리자 검색 필드에 제조자나 관련된 기업이 입력될 때, 최적의 특허 도면 또는 최적의 특허를 찾아 줄 수 있게 된다. 이러한 기능 역시 도면 부호의 설명 검색 지원 프로세스(3200)를 통해 수행된다.On the other hand, utilizing the idea of the present invention, it is possible to effectively search for a patent corresponding to the product. For example, it can be used to find a patent or a patent drawing that is most relevant to an image of a product or a part included in a catalog image or a blueprint. In the search system to which the present invention is applied, one or more (preferably several) names of specific parts / parts of a product-part image or a design drawing are entered in the description search field of the reference numeral, and optionally the applicant / current owner search field. When a manufacturer or a related company is inputted, an optimal patent drawing or an optimal patent can be found. This function is also performed through the description
도 20에서 예시되듯이 상기 특허 도면 OCR 프로세서(1000)는 도면에서 도면 번호의 개수를 식별(S151)하고, 도면 번호의 개수가 2 이상인 경우, 상기 도면을 도면 번호의 개수만큼 절단하여 독립 도면 데이터를 생성(S152)하는 방식으로 프로세싱 한다.As illustrated in FIG. 20, the patent
도면 번호의 개수는 "Fig. + 숫자"나 "도 + 숫자"와 같은 독립적인 도면 번호를 가지는 표현이 단일 도면 이미지 파일에 몇 개 존재하는 가를 파악하는 것을 말한다. 상기 특허 도면 부호-설명 가공 서버(300)는 독립적인 도면 번호를 가지는 표현 단위로 도면을 물리적으로 분할 처리하고, 분할된 도면을 대상으로 본 발명 사상을 적용할 수 있다.The number of drawing numbers refers to identifying how many representations with independent drawing numbers such as "Fig. + Number" or "degree + Number" exist in a single drawing image file. The patent reference-
한편, 특정한 언어로 된 도면 부호의 설명을 다른 언어로 기계 번역하는 경우, 기계 번역된 도면 부호의 설명에 대하여 본 발명 사상이 적용됨은 당연할 것이다. 하기 표 8는 오리지널 도면 부호의 설명과 다른 언어로 번역된 도면 부호의 설명이 쌍으로 나타나 있는 데이터의 예시가 된다.On the other hand, when the machine translation of the description of the reference numerals in a specific language to another language, it will be obvious that the present invention is applied to the description of the machine-translated reference numerals. Table 8 below is an example of data in which pairs of descriptions of original reference numerals and descriptions of reference numerals translated in other languages are shown.
본 발명의 특허 정보 산업, 특허 정보 서비스 산업, 기술 정보 사업 및 기술 정보 서비스 산업에 광범위하게 활용할 수 있다.The present invention can be widely used in the patent information industry, the patent information service industry, the technology information business, and the technology information service industry of the present invention.
100 : 특허 도면 OCR 장치
200 : 도면 부호-설명 인식 장치
300 : 특허 도면 부호-설명 가공 서버
400 : 도면 부호 인식 학습 장치
500 : 데이터 저장 장치
800 : 유무선 네트워크
900 : 타 장치
910 : 사용자 컴퓨터
1000 : 특허 도면 OCR 프로세서
1100 : 도면 파일 입수 프로세스
1200 : 도면 파일 파싱 프로세스
1300 : 도면 문자열 인식 프로세스
1310 : 도면 문자 분류 프로세스
1320 : 도면 문자열 합성 프로세스
1330 : 도면 부호 인식 프로세스
1331 : 합성 문자 노이즈 제거 프로세스
1332 : 합성 문자 조회 프로세스
1333 : 도면 부호 크기 예측 프로세스
1334 : 도면 부호 노이즈 제거 프로세스
1400 : 도면 부호 정보셋 생성 프로세스
100a : 특허 도면 OCR 장치 통신부
2000 : 도면 부호-설명 인식 프로세서
2100 : 명세서 입수 프로세스
2110 : 도면 부호-설명 인식 프로세스
2120 : 도면 부호의 설명 인식 프로세스
2130 : 도면 부호-설명 맵핑 프로세스
2200 : 중요도 처리 프로세스
2210 : 위치 인식 처리 프로세스
2220 : 빈도 인식 처리 프로세스
2300 : 계열 처리 프로세스
2310 : 계열 인식 프로세스
2320 : 계열 카테고리화 프로세스
2400 : 도면 부호-설명 맵핑 정보셋 생성 프로세스
200a : 도면 부호-설명 인식 장치 통신부
300 : 특허 도면 부호-설명 가공 서버
3000 : 특허 도면 부호-설명 가공 프로세서
3100 : 도면 부호의 설명 계량 정보 생성 프로세스
3110 : 도면 부호의 설명별 계량 정보 생성 프로세스
3120 : 도면 단위 도면 부호의 설명셋 생성 프로세스
3130 : 특허 단위 도면 부호의 설명셋 생성 프로세스
3140 : 특허 단위 도면 부호의 설명별 계량 정보 생성 프로세스
3200 : 도면 부호의 설명 검색 지원 프로세스
3210 : 도면 부호의 설명 검색 지원 인덱스 생성 프로세스
3220 : 도면 부호의 설명 검색 랭킹 정보 생성 프로세스
3300 : 도면 부호의 설명 사용 연관 데이터 생성 프로세스
3310 : 연관 도면 부호의 설명 데이터 생성 프로세스
3320 : 유사 도면 정보 생성 프로세스
3330 : 유사 특허 정보 생성 프로세스
3400 : 도면 부호의 설명 콘텐츠 정보 제공 프로세스
300a : 특허 도면 부호-설명 가공 장치 통신부
4000 : 도면 부호 인식 학습 프로세서
4100 : 학습 프로세스
4110 : 하이퍼 파라미터 최적화 프로세스
4111 : training 데이터 대상 인식 모델링 학습부
4112 : validation 데이터 대상 인식 모델링 검증부
4120 : 학습 모형 파라미터 학습 프로세스
4121 : 전체 데이터 대상 인식 모델링 학습부
4100 : 학습 데이터 저장 장치
4110 : 문자별 학습 이미지 데이터부
4100 : 학습 결과 저장부
400a : 도면 부호 인식 학습 장치 통신부
5100 : 파일 저장 장치
5110 : 도면 파일 저장부
5111 : 오리지널 도면 파일 저장부
5112 : 가공 도면 파일 저장부
5120 : 명세서 파일 저장부
5200 : DB장치
5210 : 도면 기반 데이터부
5211 : 도면 부호 정보셋
5220 : 명세서 기반 데이터부
5221 : 발명의 상세한 설명 데이터
5222 : 도면 부호-설명 맵핑 정보셋
5230 : 도면 부호의 설명 배치 데이터부
5231 : 도면 부호의 설명 계량 데이터
5232 : 도면 부호의 설명 사용 연관 데이터
5240 : 가공 규칙 데이터부
5250 : 집계 데이터부
5260 : 정책 데이터부
5270 : 학습 데이터부
500a : 데이터 저장 장치 통신부100: OCR device with patent drawings
200 reference numeral-description recognition device
300: Patent reference code-Description Processing Server
400: reference sign recognition learning device
500: data storage device
800: wired and wireless network
900: other devices
910: user computer
1000: Patent Drawings OCR Processor
1100: drawing file acquisition process
1200: Drawing File Parsing Process
1300: Drawing String Recognition Process
1310: Drawing Text Classification Process
1320: Drawing String Synthesis Process
1330: Sign Recognition Process
1331: Synthetic Character Noise Reduction Process
1332: Composite Character Lookup Process
1333: Sign Size Prediction Process
1334: Sign Noise Removal Process
1400: Process for creating reference information set
100a: Patent drawing OCR device communication unit
2000: Reference Mark-Description Recognition Processor
2100: statement acquisition process
2110: Reference sign-description recognition process
2120: Description Recognition Process of Reference Numbers
2130: reference sign-description mapping process
2200: Importance Handling Process
2210: Location Aware Processing Process
2220: frequency recognition processing process
2300: Series Processing Process
2310: family recognition process
2320: Series Categorization Process
2400: Process for generating reference sign-description mapping information set
200a: reference numeral-description recognition device communication unit
300: Patent reference code-Description Processing Server
3000: patent reference-description processing processor
3100: Description of reference numerals Process for generating weighing information
3110: process for generating weighing information by description of reference numerals
3120: Process for creating a description set of drawing unit reference numbers
3130: Process for generating an explanatory set of reference numerals for patent units
3140: Weighing Information Generation Process by Description of Patent Unit Reference Code
3200: Description Search Support Process Of Reference Number
3210: Process for creating an explanatory search support index of reference numerals
3220: description search ranking information generation process of the reference numeral
3300: Description of reference numerals Use association data generation process
3310: Process of generating explanatory data of associative reference numbers
3320: Process for generating similar drawing information
3330: Process for generating similar patent information
3400: Process for providing description content information of reference numerals
300a: Patent Reference Code-Description Processing Device Communication Unit
4000: Sign Recognition Learning Processor
4100: learning process
4110: hyperparameter optimization process
4111: training data object recognition modeling learning unit
4112: validation data target recognition modeling verification unit
4120: Learning Model Parameter Learning Process
4121: learning model for all data object recognition
4100: Learning Data Storage
4110: learning image data part by character
4100: learning result storage unit
400a: reference sign recognition learning unit communication unit
5100: File Storage
5110: drawing file storage
5111: Original drawing file storage unit
5112: Machine drawing file storage
5120: specification file storage unit
5200: DB device
5210: Drawing-based data section
5211: Reference information set
5220: specification based data part
5221: Detailed Description Data of the Invention
5222: Reference code-description mapping information set
5230: Description layout data portion of the reference numeral
5231: Explanation of Reference Weighing Data
5232: Explanation of reference numerals used association data
5240: machining rule data part
5250 aggregate data
5260: policy data part
5270 training data part
500a: data storage communication unit
Claims (11)
(a) i) 특허 도면 OCR 장치에 의해 특허 식별자와 대응될 수 있는 특허 도면 식별자에 대응되는 적어도 하나 이상의 특허 도면 이미지 파일이 입수된 후, 상기 특허 도면 이미지 파일에서 적어도 하나 이상의 도면 포함 도면 부호가 인식되고, 상기 도면 포함 도면 부호 의 위치 정보를 포함하는 인식된 상기 도면 포함 도면 부호에 대응되는 도면 포함 도면 부호 정보셋이 생성되는 제1 상태; 및 ii) 도면 부호-설명 인식 장치에 의해 도면 부호와 도면 부호의 설명이 포함된 명세서 문자열이 파싱되고, 상기 명세서 문자열에 포함된 적어도 하나 이상의 명세서 포함 도면 부호와 적어도 하나 이상의 도면 부호의 설명이 인식되며, 인식된 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 관계를 포함하는 특허 식별자별 명세서 포함 도면 부호-설명 맵핑 정보셋이 생성되는 제2 상태가 수행된 상태에서, 특허 도면 부호-설명 가공 서버가, 상기 특허(Pi)의 도면 식별자(Dij(Pi))별 도면 부호의 설명 데이터(DFNijk(Dij(Pi))) 셋을 입수하는 단계;
(b) 상기 도면 식별자별 도면 부호의 설명 데이터셋으로 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi))) 정보 중 어느 하나 이상을 생성하는 단계;및
(c) 상기 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 상기 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi)))로 도면 부호의 설명 사용 연관 데이터셋을 생성하는 단계;를 포함하는 것이며,
상기 도면 포함 도면 부호와 상기 명세서 포함 도면 부호는 동일한 문자열이거나 동일성이 인정되는 문자열인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.In the method for processing the descriptive information of the reference numeral indicated by the reference numeral of the provided patent figure,
(a) After the patent drawing OCR device obtains at least one patent drawing image file corresponding to the patent drawing identifier that can correspond to the patent identifier, the at least one drawing containing reference number in the patent drawing image file is obtained. A first state in which a drawing-included reference information set corresponding to the recognized drawing-included reference code including position information of the drawing-included reference number is generated; And ii) a specification string including a reference number and a description of the reference number is parsed by a reference-description recognition device, and at least one specification-containing reference number and a description of the at least one reference number included in the specification string are recognized. And a patent reference code-description processing server in a state in which a second state in which a specification-specific reference code-description mapping information set for each patent identifier is generated including a mapping relationship between the recognized reference code and the description of the code is performed. (A) obtaining a set of description data (DFNijk (Dij (Pi))) of reference numerals for each drawing identifier Dij (Pi) of the patent Pi;
(b) Descriptive weighing information (Ftn (DFNijk (Dij (Pi)))) of the reference numerals in the unit of the drawing as explanatory data sets of the reference numerals by the drawing identifiers and the description-based weighing of the reference numerals in the patent unit (Ftn (DFNijk) (Pi))) generating any one or more of information; and
(c) Weighing information by description (Ftn (DFNijk (Dij (Pi)))) of the reference numeral in the drawing unit and Weighing description (Ftn (DFNijk (Pi))) of the reference numeral in the patent unit. Generating a usage-related dataset;
The reference numeral with reference numeral and the reference numeral with reference specification are the same character string or a character string which is recognized the sameness.
상기 제1 상태를 달성하기 위하여 상기 도면 포함 도면 부호가 인식되는 방식은,
(i1) 수집된 문자별 문자 대응 이미지 데이터에서 샘플링이 수행되는 단계;
(i2) 샘플링 된 문자별 문자 대응 이미지 데이터를 n(n>=3인 자연수)개의 폴더(fold)로 분할하는 단계;
(i3) n-1 폴더의 문자별 문자 대응 이미지 데이터를 학습 데이터로 하여 모델을 학습하고, 나머지 폴더의 문자별 문자 대응 이미지 데이터를 테스트 데이터로 하여, 테스터 에러를 구하는 과정을 n회 수행하는 교차 검증(cross validation)을 통해 하이퍼 파라미터(hyper parameter) 최적화 하는 단계; 및
(i4) 수집된 문자별 문자 대응 이미지 데이터를 사용하고 최적화된 하이퍼 파라미터 조건 하에 학습 모형의 파라미터를 학습하는 단계;를 포함하여 수행되는 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 1,
The manner in which the drawing reference numerals are recognized to achieve the first state is
(i1) performing sampling on the collected character-corresponding image data for each character;
(i2) dividing the sampled character-corresponding image data for each character into n (natural numbers of n> = 3) folders;
(i3) A crossover that trains a model using character-corresponding image data for each character in the n-1 folder as training data, and obtains a tester error n times using character-corresponding image data for each character in the remaining folders as test data. Optimizing hyper parameters through cross validation; And
(i4) using the collected character-corresponding image data for each character and learning the parameters of the learning model under optimized hyperparameter conditions; and a data processing method of a patent reference-explaining processing server, characterized in that performed.
상기 학습 모형은 판별 딥러닝(Discriminant deep learning) 모형 및 생성 딥러닝(Generative deep learning) 모형 중에서 선택되는 어느 하나 이상인 것이며,
학습 상기 하이퍼 파라미터는 레이어(layer)의 수, 잠재 변수(hidden variable)의 수, 드랍 아웃(drop out)비율, 필터 크기(filter size) 및 활성화 함수(activation function)의 종류 중에서 선택되는 어느 하나 이상인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 2,
The learning model is at least one selected from a discriminant deep learning model and a generative deep learning model.
The hyperparameter may be one or more selected from the number of layers, the number of hidden variables, the drop out ratio, the filter size, and the type of activation function. A data processing method of a patent reference-description processing server, characterized in that.
상기 (b) 단계에서 상기 특허 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Pi)))에는 도면 부호의 설명(DFNijk(Pi))의 개수(출현 빈도), 도면 부호의 설명(DFNijk(Pi))별 도면 부호의 설명 존재 도면수, 도면 부호의 설명(DFNijk(Pi)) 존재 도면 밀도(전체 도면 중에서 DFNijk(Pi) 존재 도면수의 비율) 중 어느 하나 이상인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 1,
In the step (b), the description-specific weighing information Ftn (DFNijk (Pi)) of the reference numeral of the patent unit includes the number (expression frequency) of the description (DFNijk (Pi)) of the reference numeral and the description of the reference numeral (DFNijk). (Pi)) A patent drawing characterized in that it is any one or more of the number of the existing drawings and the description of the reference signs (DFNijk (Pi)) the existing drawing density (ratio of the number of DFNijk (Pi) present drawings among all the drawings). Code-Description Processing server's data processing method.
상기 (c) 단계의 연관 데이터셋은 연관 도면 부호의 설명 데이터셋을 생성하는 것이며, 상기 연관 도면 부호의 설명 데이터셋의 생성은
(c11) 도면 단위에서 기초 행렬 Aij를 구성하는 단계;
Ai(행)의 구성 : Dij(Pi),
Aj(열)의 구성 : DFNk
Aij = Ftn(DFNijk(Dij(Pi)))
(c12) AAT 처리를 수행하는 단계; 및
(c13) 도면 부호의 설명 쌍 간의 연관성 정보를 포함하는 연관 도면 부호의 설명 데이터를 생성하는 단계;
를 포함하는 것인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 1,
The association data set of step (c) is to generate a description data set of an associated reference number.
(c11) constructing an elementary matrix Aij in the drawing unit;
The composition of Ai (row): Dij (Pi),
Composition of Aj (Columns): DFNk
Aij = Ftn (DFNijk (Dij (Pi)))
(c12) performing AA T treatment; And
(c13) generating explanatory data of the associative reference numeral including the association information between the pair of description of the reference numeral;
Data processing method of the patent reference-description processing server, characterized in that it comprises a.
상기 (c) 단계의 연관 데이터셋은 유사성 높은 도면쌍 데이터셋을 생성하는 것이며, 상기 유사성 높은 도면쌍 데이터셋의 생성은
(c21) 도면 단위에서 기초 행렬 Aij를 구성하는 단계;
Ai(행)의 구성 : Dij(Pi),
Aj(열)의 구성 : DFNk
Aij = Ftn(DFNijk(Dij(Pi)))
(c22) ATA 처리를 수행하는 단계; 및
(c23) 유사성 높은 도면 데이터셋을 생성하는 단계;를 포함하는 것인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 1,
The associative dataset of step (c) is to generate a similarity pair dataset, and the generation of the similarity pair dataset
(c21) constructing an elementary matrix Aij in the drawing unit;
The composition of Ai (row): Dij (Pi),
Composition of Aj (Columns): DFNk
Aij = Ftn (DFNijk (Dij (Pi)))
(c22) A T A Performing a process; And
(c23) generating a drawing data set having high similarity; the data processing method of the patent reference-description processing server, characterized in that it comprises a.
상기 (c) 단계의 연관 데이터셋은 유사 특허 데이터셋을 생성하는 것이며, 상기 유사 특허 데이터셋의 생성은
(c31) 특허 단위에서 기초 행렬 Bij를 구성하는 단계;
Bi(행)의 구성 : Pi,
Bj(열)의 구성 : 특허에서 추출한 키워드
Bij = 특허에서 추출한 키워드 속성
(c32) BBT 처리를 수행하는 단계; 및
(c32) BBT 처리를 수행하는 단계; 및
(c33) 유사성 높은 특허 데이터셋을 생성하는 단계;를 포함하는 것인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 1,
The associated dataset of step (c) is to generate a similar patent dataset, and the generation of the similar patent dataset
(c31) constructing a base matrix Bij in patent units;
The composition of Bi (row): Pi,
Composition of Bj (Column): Keyword Extracted from Patent
Bij = keyword attribute extracted from patent
(c32) performing BB T processing; And
(c32) performing BB T processing; And
(c33) generating a patent data set having high similarity; data processing method of a patent reference-description processing server, characterized in that it comprises a.
상기 특허에서 추출한 키워드는 도면 부호의 설명(DFNk) 단독이거나, 상기 도면 부호의 설명(DFNk)을 포함하는 것인 것이며,
상기 특허에서 추출한 키워드 속성는 특허별 도면 부호의 설명의 속성(Ftn(DFNijk(Pi))) 단독이거나, 키워드의 속성에 특허별 도면 부호의 설명의 속성(Ftn(DFNijk(Pi)))을 추가한 것인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 7, wherein
The keyword extracted from the patent is a description of reference numeral (DFNk) alone, or includes a description of reference numeral (DFNk),
The keyword attribute extracted from the patent is the attribute of the description of the reference numeral for each patent (Ftn (DFNijk (Pi))) alone, or the attribute of the explanation of the reference numeral for each patent (Ftn (DFNijk (Pi))) is added to the attribute of the keyword. A data processing method of a patent reference-description processing server, characterized in that.
상기 제1 상태를 달성하기 위해 도면 포함 도면 부호를 인식함에 있어서, 상기 제2 상태를 달성하기 위해 인식되는 도면 부호의 설명 또는 상기 제2 상태를 달성하기 위해 생성되는 명세서 포함 도면 부호-설명 맵핑 정보셋 중 어느 하나 이상이 사용되는 것인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 1,
In recognizing reference numerals for achieving the first state, a description of reference numerals recognized for achieving the second state or a specification including reference numerals for describing the reference state generated to achieve the second state The data processing method of the patent reference-description processing server, characterized in that any one or more of the three is used .
상기 명세서 포함 도면 부호-설명 맵핑 정보셋에는 명세서 포함 도면 부호와 도면 부호의 설명에 대한 확률적 맵핑 데이터가 포함되어 있는 것이며,
선택적으로 상기 명세서 포함 도면 부호-설명 맵핑 정보셋에는 도면 부호의 설명에 대한 중요도 및 계열 처리 정보가 포함되어 있는 것인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버의 데이터 처리 방법.The method of claim 9,
The specification-included reference-description mapping information set includes probabilistic mapping data for the specification-included reference number and the description of the reference number,
And optionally, the specification-included reference-description mapping information set includes the importance and sequence processing information for the description of the reference number.
상기 특허 도면 부호-설명 가공 서버는
i) 특허 도면 OCR 장치에 의해 특허 식별자와 대응될 수 있는 특허 도면 식별자에 대응되는 적어도 하나 이상의 특허 도면 이미지 파일이 입수된 후, 상기 특허 도면 이미지 파일에서 적어도 하나 이상의 도면 포함 도면 부호가 인식되고, 상기 도면 포함 도면 부호 의 위치 정보를 포함하는 인식된 상기 도면 포함 도면 부호에 대응되는 도면 포함 도면 부호 정보셋이 생성되는 제1 상태; 및 ii) 도면 부호-설명 인식 장치에 의해 도면 부호와 도면 부호의 설명이 포함된 명세서 문자열이 파싱되고, 상기 명세서 문자열에 포함된 적어도 하나 이상의 명세서 포함 도면 부호와 적어도 하나 이상의 도면 부호의 설명이 인식되며, 인식된 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 관계를 포함하는 특허 식별자별 명세서 포함 도면 부호-설명 맵핑 정보셋이 생성되는 제2 상태가 수행된 상태에서, 상기 특허(Pi)의 도면 식별자(Dij(Pi))별 도면 부호의 설명 데이터(DFNijk(Dij(Pi))) 셋을 입수하는 통신부;
(I) 상기 도면 식별자별 도면 부호의 설명 데이터셋으로 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi))) 정보 중 어느 하나 이상을 생성하는 프로세스;및 (II) 상기 도면 단위의 도면 부호의 설명별 계량 정보(Ftn(DFNijk(Dij(Pi)))) 및 상기 특허 단위의 도면 부호의 설명별 계량(Ftn(DFNijk(Pi)))로 도면 부호의 설명 사용 연관 데이터셋을 생성하는 프로세스;를 수행하는 프로세서를 포함하는 것이며,
상기 도면 포함 도면 부호와 상기 명세서 포함 도면 부호는 동일한 문자열이거나 동일성이 인정되는 문자열인 것을 특징으로 하는 특허 도면 부호-설명 가공 서버.
In the patent reference-description processing server which processes the description information of the reference number to which the reference number of the provided patent drawing refers,
The patent reference-description processing server
i) after obtaining at least one patent drawing image file corresponding to a patent drawing identifier that may correspond to a patent identifier by the patent drawing OCR apparatus, at least one drawing containing reference number is recognized in the patent drawing image file, A first state in which a drawing-bearing reference information set corresponding to the recognized drawing-bearing reference code including position information of the drawing-bearing reference sign is generated; And ii) a specification string including a reference number and a description of the reference number is parsed by a reference-description recognition device, and at least one specification-containing reference number and a description of the at least one reference number included in the specification string are recognized. In the state in which a second state in which a specification-specific reference code-description mapping information set for each patent identifier is generated including a mapping relationship between the recognized specification-containing reference number and the description of the reference number is performed, the figure of the patent Pi is performed. A communication unit for obtaining a set of explanatory data DFNijk (Dij (Pi)) of reference numerals according to the identifier Dij (Pi);
(I) Descriptive weighing information (Ftn (DFNijk (Dij (Pi)))) of the reference numerals in the unit of drawing as explanatory data sets of the reference numerals according to the drawing identifiers, and the description-based weighing of the reference numerals in patent units (Ftn (DFNijk). (Pi))) a process for generating any one or more of information; and (II) the weighing information (Ftn (DFNijk (Dij (Pi)))) by description of the reference numerals of the drawing units and the reference numerals of the patent units. A process for generating a description use association data set of reference numerals by description-specific metering (Ftn (DFNijk (Pi)));
And said specification containing reference numeral is the same character string or a character string in which the sameness is recognized.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180081272A KR20200013130A (en) | 2018-07-12 | 2018-07-12 | Device and Method on Data Processing of Descriptions of the Figure Numbers Corresponding to Figure Numbers on Patent Drawings Using Machine Learning Methodology Based on Using Artificial Intelligence Technology |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180081272A KR20200013130A (en) | 2018-07-12 | 2018-07-12 | Device and Method on Data Processing of Descriptions of the Figure Numbers Corresponding to Figure Numbers on Patent Drawings Using Machine Learning Methodology Based on Using Artificial Intelligence Technology |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200013130A true KR20200013130A (en) | 2020-02-06 |
Family
ID=69569346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180081272A KR20200013130A (en) | 2018-07-12 | 2018-07-12 | Device and Method on Data Processing of Descriptions of the Figure Numbers Corresponding to Figure Numbers on Patent Drawings Using Machine Learning Methodology Based on Using Artificial Intelligence Technology |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200013130A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021210912A1 (en) * | 2020-04-14 | 2021-10-21 | 주식회사 워트인텔리전스 | Method, device, and system for outputting description of patent reference sign |
KR20220082521A (en) | 2020-12-10 | 2022-06-17 | 이윤서 | Recognition of license plates using RPA technology |
KR20220126369A (en) | 2021-03-09 | 2022-09-16 | (주)윕스 | A drawing display system for patent documents using margins |
KR20220145706A (en) | 2021-04-22 | 2022-10-31 | (주)윕스 | A drawing display system based on reference numerals that displays the contents of the specification together |
KR20220169099A (en) | 2021-06-18 | 2022-12-27 | (주)윕스 | A word cloud display system for patent documents |
KR20230109469A (en) | 2022-01-13 | 2023-07-20 | (주)윕스 | A word relational network display system for patent documents |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120032773A (en) | 2010-09-29 | 2012-04-06 | 주식회사 디오텍 | Augmented reality device using optical character reader and method thereof |
KR20160147950A (en) | 2014-04-29 | 2016-12-23 | 구글 인코포레이티드 | Techniques for distributed optical character recognition and distributed machine language translation |
-
2018
- 2018-07-12 KR KR1020180081272A patent/KR20200013130A/en not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120032773A (en) | 2010-09-29 | 2012-04-06 | 주식회사 디오텍 | Augmented reality device using optical character reader and method thereof |
KR20160147950A (en) | 2014-04-29 | 2016-12-23 | 구글 인코포레이티드 | Techniques for distributed optical character recognition and distributed machine language translation |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021210912A1 (en) * | 2020-04-14 | 2021-10-21 | 주식회사 워트인텔리전스 | Method, device, and system for outputting description of patent reference sign |
KR20220082521A (en) | 2020-12-10 | 2022-06-17 | 이윤서 | Recognition of license plates using RPA technology |
KR20220126369A (en) | 2021-03-09 | 2022-09-16 | (주)윕스 | A drawing display system for patent documents using margins |
KR20220145706A (en) | 2021-04-22 | 2022-10-31 | (주)윕스 | A drawing display system based on reference numerals that displays the contents of the specification together |
KR20220169099A (en) | 2021-06-18 | 2022-12-27 | (주)윕스 | A word cloud display system for patent documents |
KR20230109469A (en) | 2022-01-13 | 2023-07-20 | (주)윕스 | A word relational network display system for patent documents |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20200013130A (en) | Device and Method on Data Processing of Descriptions of the Figure Numbers Corresponding to Figure Numbers on Patent Drawings Using Machine Learning Methodology Based on Using Artificial Intelligence Technology | |
CN108804641B (en) | Text similarity calculation method, device, equipment and storage medium | |
US11615246B2 (en) | Data-driven structure extraction from text documents | |
US10783451B2 (en) | Ensemble machine learning for structured and unstructured data | |
CN111950285B (en) | Medical knowledge graph intelligent automatic construction system and method with multi-mode data fusion | |
JP5710624B2 (en) | Method and system for extraction | |
EP2823410B1 (en) | Entity augmentation service from latent relational data | |
KR20180107764A (en) | Device and Method on Showing Descriptions of the Figure Numbers on Patent Drawings Using Machine Learning Methodology Based on Using Artificial Intelligence Technology | |
KR101508260B1 (en) | Summary generation apparatus and method reflecting document feature | |
CN112818093A (en) | Evidence document retrieval method, system and storage medium based on semantic matching | |
US20200117710A1 (en) | Method and apparatus for generating context information | |
JP2011248596A (en) | Searching system and searching method for picture-containing documents | |
CN112199508A (en) | Parameter adaptive agricultural knowledge graph recommendation method based on remote supervision | |
JP6346367B1 (en) | Similarity index value calculation device, similarity search device, and similarity index value calculation program | |
JP7347179B2 (en) | Methods, devices and computer programs for extracting web page content | |
CN113868406B (en) | Search method, search system, and computer-readable storage medium | |
KR20120047622A (en) | System and method for managing digital contents | |
CN108241650B (en) | Training method and device for training classification standard | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP6976537B1 (en) | Information retrieval device, information retrieval method and information retrieval program | |
CN114817498A (en) | User intention identification method, device, equipment and storage medium | |
Sarkhel et al. | Cross-modal entity matching for visually rich documents | |
WO2015159702A1 (en) | Partial-information extraction system | |
Shafi et al. | Urdu character recognition: A systematic literature review | |
JP7386466B1 (en) | Data analysis device and data analysis program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
WITB | Written withdrawal of application |