KR20180107707A - 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치 - Google Patents

인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치 Download PDF

Info

Publication number
KR20180107707A
KR20180107707A KR1020180006147A KR20180006147A KR20180107707A KR 20180107707 A KR20180107707 A KR 20180107707A KR 1020180006147 A KR1020180006147 A KR 1020180006147A KR 20180006147 A KR20180006147 A KR 20180006147A KR 20180107707 A KR20180107707 A KR 20180107707A
Authority
KR
South Korea
Prior art keywords
reference numerals
description
data
generating
information
Prior art date
Application number
KR1020180006147A
Other languages
English (en)
Inventor
강민수
황재성
노석현
Original Assignee
(주)광개토연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)광개토연구소 filed Critical (주)광개토연구소
Publication of KR20180107707A publication Critical patent/KR20180107707A/ko

Links

Images

Classifications

    • G06F17/211
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • G06K9/20
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 도면 상의 도면 부호 및 명세서 상의 도면 부호의 설명 간의 연계 및 결합 콘텐츠를 제공하는 인공 지능 기술 기반의 정보 처리 방법 및 장치에 관한 것이다. 특허 도면에 포함되어 있는 도면 부호에 도면 부호의 설명이 표시되는데 사용되는 도면 부호의 설명 표시 도면 콘텐츠가 제공되도록 처리하는 방법으로서,
본 발명의 컴퓨터 장치는
적어도 하나 이상의 타 장치로부터 개별 도면 단위, 개별 특허 단위 또는 기설정된 단위로 도면 부호의 설명 표시 도면 콘텐츠 요청 정보를 수신하는 단계;
상기 도면 부호의 설명 표시 도면 콘텐츠 요청 정보에 대응하는 도면 부호의 설명 표시 도면 콘텐츠를 입수하는 단계;
상기 수신된 도면 부호의 설명 표시 도면 콘텐츠 요청 정보에 대응하여 도면 부호의 설명 표시 도면 콘텐츠를 상기 타 장치로 전송하는 단계;를 포함하는 방식으로 프로세싱 되며,
상기 도면 부호의 설명 표시 도면 콘텐츠는
(A1) 도면에 포함되어 있는 도면 포함 도면 부호를 인식하고, (A2) 상기 인식된 도면 포함 도면 부호에 대응하는 도면 포함 도면 부호 속성 집합 정보를 생성하는 단계; (B) 상기 컴퓨터 장치가 상기 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 부호의 설명을 인식하는 단계; (C) 상기 컴퓨터 장치가 상기 도면 포함 도면 부호, 상기 명세서 포함 도면 부호 및 상기 도면 부호의 설명을 사용하며, 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계;를 포함하는 방식으로 프로세싱 되어 생성된다.
본 발명을 활용하면 도면에 나타나 있는 도면 부호의 주변에 도면 부호의 설명이 배치되게 할 수 있어, 도면 포함 도면 부호가 지칭하는 바를 명확하고 빠르게 인지할 수 있다. 이에 따라, 도면의 가독성이 좋아질 뿐만 아니라, 도면을 통해서 특허의 기술 사상을 이해하는 속도와 정확성이 높아지게 된다.

Description

인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치{Mapping Device and Method on between Patent Drawings Including Figure Numbers and Descriptions of the Figure Numbers Using Machine Learning Methodology Based on Using Artificial Intelligence Technology}
본 발명은 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치에 관한 것으로서 더욱 더 상세하게는 특허 도면 이미지에 포함된 도면 부호의 주위에 도면 부호의 설명이 표시되도록 하기 위해서 도면 부호를 포함하는 특허 도면 이미지에 도면 부호의 설명을 맵핑 처리하는 인공 지능 기술 기반의 머신 러닝을 사용하는 방법 및 장치에 대한 것이다.
특허 출원서에는 특허 명세서 및 도면을 포함하고 있다. 특허 도면 중에는 도면 부호에 대한 표시가 다수 포함되어 있는 도면이 많다. 하지만, 도면은 이미지 형태로 제공되고 있고, 도면 부호는 간략한 숫자 또는 숫자+문자 형태로 되어 있는 경우가 많아, 도면 부호만으로는 그 도면 부호가 지칭하는 대상을 정확하게 파악하기 어려운 문제가 있었다.
도 25와 도 30은 본 통상적인 도면에 도면 부호가 나타나 있지만, 도면 부호에 대한 설명이 부가되어 있지 않아, 도면 부호가 지칭하는 정확하고 빠르게 파악하기 어려운 종래의 특허 도면에 대한 예시이다.
이러한 도면 부호에 대한 도면 부호의 설명은 특허 명세서(주로 발명의 상세한 설명 등)에 나타나 있다. 하지만, 특허 도면과 특허 명세서는 공간적으로 분리되어 있을 뿐만 아니라, 특허 명세서에는 긴 문장 속에 전체 특허 내용에 대응되는 많은 도면 부호 및 도면 부호의 설명이 모두 포함되어 있어, 특정한 도면에 포함되어 있는 특정한 도면 부호에 대한 도면 부호의 설명을 빠르게 찾아 내기란 쉽지 않을 수 있다.
국가에 따라, 도면 부호의 설명만 따로 분리하여 기재하도록 권장하는 경우도 있지만, 이 경우에도 특허 전체에 대한 도면 부호 및 도면 부호의 설명이 맵핑되어 있어, 특정한 도면을 보고 있는 사람이 자신이 보고 있는 도면에 포함되어 있는 도면 부호에 대한 도면 부호의 설명만을 추출하기가 쉽지 않은 점이 있다.
또한, 1개의 도면에 다수의 도면 부호가 있는 경우, 그 도면 부호마다 도면 부호의 설명이 나타나 있지 않으면, 도면 부호가 지칭하는 바를 정확하게 파악하기란 쉬운 일이 아니다. 도 30은 이러한 예를 잘 나타내 주고 있다.
본 발명은 도면에 있는 도면 포함 도면 부호가 지칭하는 대상을 빠르고 명확하게 파악하지 못하는 종래의 불편함을 없애기 위한 것이다.
KR1020120032773 A1 KR1020160147950 A1
본 발명이 해결하고자 하는 첫번째 과제는 인공 지능 기술 기반의 머신 러닝을 사용하는 도면 부호를 포함하는 특허 도면 이미지에 도면 부호의 설명을 맵핑 처리하는 방법을 제시하는 것이다.
본 발명이 해결하고자 하는 두번째 과제는 인공 지능 기술 기반의 머신 러닝을 사용하는 도면 부호를 포함하는 특허 도면 이미지에 도면 부호의 설명을 맵핑 처리하는 장치를 제시하는 것이다.
본 발명이 이루고자 하는 기술적 과제를 달성하기 위하여, 적어도 하나 이상의 도면 부호가 포함된 특허 도면에 상기 특허 도면에 나타나지 않았던 상기 도면 부호에 대응되는 도면 부호의 설명이 추가되어 나타나는 방식으로 상기 특허 도면이 변형되어 표시되도록 처리하는 방법으로서, (A) 컴퓨터 장치가 (A1) 도면 이미지에 포함되어 있는 적어도 하나 이상의 도면 포함 도면 부호를 문자 인식 방법으로 인식하고, (A2) 상기 인식된 도면 포함 도면 부호에 대응하는 도면 포함 도면 부호 속성 집합 정보를 생성하는 단계; (B) 상기 컴퓨터 장치가 상기 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 부호의 설명을 인식하는 단계;
(C) 상기 컴퓨터 장치가 상기 도면 포함 도면 부호, 상기 도면 부호의 속성 집합 정보, 상기 명세서 포함 도면 부호 및 상기 도면 부호의 설명을 사용하며, 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계;를 포함하는 것을 특징으로 하는 방법을 제시한다.
상기 (A1) 단계는 (A11) 상기 도면에서 숫자가 포함된 문자열을 인식하는 단계; (A12) 상기 문자열을 처리하여 상기 도면 포함 도면 부호를 결정하는 단계; 및 (A13) 상기 도면 포함 도면 부호에 대하여 도면 포함 도면 부호의 속성 정보를 생성하는 단계;를 더 포함하는 것이 바람직하다.
상기 (A12) 단계는 1) 추출된 상기 문자열이 숫자만으로 되어 있거나, 숫자와 문자의 비율이 기 설정된 비율 이하이거나, 기 설정된 길이 이하이거나, 기 설정된 도면 포함 도면 부호의 결정 패턴 규칙에 대응되는 경우에는 도면 포함 도면 부호로 결정하는 제1 도면 포함 도면 부호 결정 방법, 2) 추출된 상기 문자열이 상기 명세서 포함 도면 부호 또는 상기 명세서 포함 도면 부호 이전에 생성되는 명세서 포함 도면 부호 후보 집합을 구성하는 문자열과 일치, 기 설정된 기준 이상으로의 포함, 기 설정된 기준 이상으로의 부분 일치가 충족되는 경우, 상기 도면 포함 도면 부호로 결정하는 제2 도면 포함 도면 부호 결정 방법, 3) 추출된 상기 문자열이 다른 도면에서도 기 설정된 회수 이상으로 출현하는 경우에는 도면 포함 도면 부호로 결정하는 제3 도면 포함 도면 부호 결정 방법, 중 어느 하나의 방법을 사용하거나, 어느 2 이상의 방법을 결합하여 사용하는 것인 것이 바람직하다.
상기 (A13) 단계에서 상기 도면 포함 도면 부호의 속성 정보는 상기 도면 포함 도면 부호의 속성 정보는 상기 도면 포함 도면 부호의 후보의 문자열을 필수적으로 포함하고, 상기 문자열의 위치 정보, 길이, 방향, 폰트 크기 중 어느 하나 이상을 선택적으로 포함하는 것인 것이 바람직하다.
상기 (B) 단계는 상기 명세서가 마크업 언어로 작성되어 있는 경우, (B1a) 도면 부호에 대응하는 명세서 포함 도면 부호의 태그부를 인식하고, 상기 명세서 포함 도면 부호의 태그부에서 상기 명세서 포함 도면 부호를 추출하는 단계; (B2a) 상기 명세서 포함 도면 부호의 태그부를 기준으로 상기 명세서 포함 도면 부호의 태그부와의 기 설정된 위치에 있는 문자열 블록을 추출하는 단계; 및 (B3a) 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정하는 단계;를 더 포함하는 것이며, 상기 명세서가 마크업 언어로 작성되어 있지 않은 경우, (B1b) 기 설정된 명세서 포함 도면 부호 식별 규칙을 적용하여, 상기 명세서 포함 도면 부호를 추출하는 단계; (B2b) 상기 명세서 포함 도면 부호를 기준으로 상기 명세서 포함 도면 부호와의 기 설정된 위치에 있는 문자열 블록을 추출하는 단계; 및 (B3b) 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정하는 단계;를 더 포함하는 것이 바람직하다.
상기 (B3a) 또는 상기 (B3b) 단계는 상기 문자열 블록이 비기호 텍스트 문자열을 포함는 경우, 1) 상기 태그부에서 가장 가까운 도면 부호의 설명 시작 식별자 이후부터 상기 태그부 시작까지의 문자열을 도면 부호의 설명 후보를 결정하는 제1 도면 부호의 설명 후보 결정 방법, 2) 상기 태그부에서 설정된 n번째 가까운 도면 부호의 설명 시작 식별자까지의 문자열 부분을 추출하고, 기 설정된 도면 부호의 설명 후보 결정 규칙을 적용하여 도면 부호의 설명 후보를 결정하는 제2 도면 부호의 설명 후보 결정 방법 중 어느 하나 이상의 방법을 사용하는 것인 것이 바람직하다.
상기 (B3a) 단계 또는 상기 (B3b) 단계 이후에 (B4) 상기 명세서 포함 도면 부호에 대응되는 적어도 하나 이상의 상기 도면 부호의 설명 후보를 입수하고, 도면 부호의 설명 결정 규칙을 참고하여 상기 명세서 포함 도면 부호에 대응하는 도면 부호의 설명을 결정하는 단계;를 더 포함하는 것이 바람직하다.
상기 도면 포함 도면 부호와 상기 도면 부호의 설명에 대한 결합 속성 데이터를 생성하는 것은 (C1) 상기 도면 포함 도면 부호와 상기 도면 부호의 설명에 대한 맵핑 데이터를 생성하는 단계; 및 (C2) 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계; 상기 (C1) 단계는 상기 명세서 포함 도면 부호를 매개로 상기 도면 포함 도면 부호와 상기 도면 부호의 설명을 (확률적으로) 맵핑하는 것인 것이 바람직하다.
상기 (C2) 단계는 상기 도면마다 생성되는 것이며, 상기 도면 부호의 설명 배치 데이터는 상기 도면 포함 도면 부호별로 대응되는 도면 부호의 설명의 배치 여부, 배치 우선 순위, 배치 위치, 배치 방향, 텍스트 속성 정보, 축약 표현 사용 여부, 계층 정보, 공통 텍스트 기반 계열 정보, 및 기타 도면 부호의 설명 메타 정보 중 어느 하나 이상을 포함하는 도면 부호의 설명 표시 제어 정보를 것인 것이 바람직하다.
상기 (C2) 단계는 상기 도면마다 생성되는 것이며, (C21) 상기 도면에서 선택되는 적어도 하나 이상의 상기 도면 포함 도면 부호별로 상기 도면 포함 도면 부호의 위치 정보를 고려한, 상기 도면 포함 도면 부호에 대응되는 도면 부호의 설명의 배치를 위한 도면 부호의 설명 배치 최소 공간을 탐색하는 단계; (C22) 상기 도면 부호의 설명 배치 최소 공간이 적어도 2 이상의 도면 포함 도면 부호에 대해 겹침이 발생하는 지를 탐색하는 단계; (C23) 겹침의 발생 여부에 대응하여 도면 부호의 설명 배치 전략 데이터를 생성하는 단계; (C24) 상기 도면 부호의 설명 배치 전략 데이터를 참조하여 도면 부호의 설명 배치 데이터를 생성하는 단계; 상기 도면 부호의 설명은 도면 부호의 설명 속성 정보를 포함하고 있는 것이며, 상기 도면 부호의 설명 속성 정보는 도면 독립적 도면 부호의 설명 속성 정보와 도면 종속적 도면 부호의 설명 속성 정보로 구분될 수 있는 것인 것이며, 상기 도면 독립적 도면 부호의 설명 속성 정보는 도면 부호의 설명 텍스트, 도면 부호의 설명 텍스트의 길이, 관련된 도면 부호의 설명에 대응되는 도면 포함 도면 부호 또는 명세서 포함 도면 부호, 도면 부호의 설명 텍스트에 대한 적어도 하나 이상의 언어로 된 번역 도면 부호의 설명 텍스트 중 어느 하나 이상을 포함하고 있거나, 상기 도면 종속적 도면 부호의 설명 속성 정보는 도면에서의 도면 부호의 설명의 배치 여부, 배치 우선 순위, 집단적 배치 여부 중 어느 하나 이상을 포함하고 있는 것인 것이 바람직하다.
상기 (C21) 단계에서 상기 도면 부호의 설명 배치 최소 공간을 탐색하는 단계는 도면 부호의 설명 텍스트의 길이, 상기 도면의 물리적 경계에서의 상기 도면 포함 도면 부호의 위치, 상기 도면 포함 도면 부호의 방향 중 어느 하나 이상을 반영하여 탐색하는 것인 것이 바람직하다.
(C211) 상기 2 이상의 근접 도면 포함 도면 부호 클러스터를 발굴하는 단계; (C212) 상기 근접 도면 포함 도면 부호 클러스터의 표시 밀도를 계량하는 단계; (C213) 상기 표시 밀도가 기 설정된 수준 이상인 경우에는 상기 (C23) 단계를 실시하지 않고, 적어도 하나 이상의 도면 내 여백 공간의 위치 정보를 생성하는 단계;를 포함하며, 상기 (C213) 단계에서 상기 도면 내 여백 공간의 위치 정보를 생성하는 것은 (C2131), 상기 근접 도면 포함 도면 부호 클러스터에 포함되는 전체 도면 포함 도면 부호 또는 적어도 하나 이상의 도면 포함 도면 부호를 추출하는 단계; 및 (C2132) 상기 추출된 도면 포함 도면 부호 및 상기 도면 포함 도면 부호에 대응되는 도면 부호의 설명이 표시되기 위한 필요 여백 공간을 계산하는 단계; (C2133) 계산된 상기 필요 여백 공간에 대응되며, 도면 상에 할당되는 도면 내 여백 공간의 위치를 결정하는 단계;를 포함하는 것인 것이 바람직하다.
상기 도면 부호의 설명 배치 전략 데이터에는 상기 도면 포함 도면 부호와 상기 도면 포함 도면 부호에 대응되는 도면 부호의 설명이 기 설정된 거리 이상으로 떨어져 있는 경우에는 상기 도면 포함 도면 부호와 상기 도면 부호의 설명 간의 연결성이 시각적으로 인지 될 수 있는 연결 표시 데이터가 더 포함되는 것인 것이 바람직하다.
상기 (C22) 단계는 도면 부호의 설명 배치 최소 공간은 상기 도면 부호의 설명 또는 상기 도면 부호의 설명에 대응되는 축약형 도면 부호의 설명의 조합별로 탐색되는 것인 것이며, 상기 (C23) 단계의 상기 도면 부호의 설명 배치 전략 데이터는 상기 도면 포함 도면 부호마다 상기 도면 부호의 설명 또는 상기 축약형 도면 부호의 설명 중 어느 하나를 표시할 것인지에 대한 선택 전략 데이터를 더 포함하는 것인 것이 바람직하다.
(D) 상기 도면 부호의 설명 배치 데이터를 사용하여 적어도 하나 이상의 레이어를 포함하는 도면 부호의 설명 레이어 데이터를 생성하는 단계;를 더 포함하며, 상기 도면 부호의 설명 레이어 데이터는 레이어별로 표시되는 레이어별 도면 부호의 설명 배치 데이터를 포함하고 있는 것인 것이 바람직하다.
상기 컴퓨터 장치가 (E) 도면 번호에 대응되는 도면 부호의 설명 배치 데이터를 생성하는 단계;를 더 포함하며, 상기 (E) 단계는 (E1) 도면에 포함되어 있는 도면 포함 도면 부호를 인식하고 도면 포함 도면 부호 속성 집합 정보를 생성하는 단계; (E2) 상기 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 번호의 설명을 인식하고, 상기 도면 부호의 설명에 대응하는 도면 부호의 설명 속성 집합 정보를 생성하는 단계; 및 (E3) 상기 도면 포함 도면 부호, 상기 명세서 포함 도면 부호 및 상기 도면 부호의 설명을 사용하며, 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계;를 포함하는 것인 것이 바람직하다.
상기 컴퓨터 장치가 상기 (A) 단계 이전에 (A0) 상기 도면이 2 이상의 도면 번호가 다른 복합 도면인 경우, 상기 복합 도면을 전처리하는 단계;를 더 포함하며, 상기 (A0) 단계는 (A01) 상기 도면에서 도면 번호의 개수를 식별하는 단계; 및 (A02) 상기 도면 번호의 개수가 2 이상인 경우, 상기 도면을 도면 번호의 개수만큼 절단하여 독립 도면 데이터를 생성하는 단계;를 더 포함하는 것이 바람직하다.
(F) 상기 컴퓨터 장치가 가공 도면 데이터를 생성하거나 도면 연동 데이터를 생성하는 단계;를 더 포함하며, 상기 (F) 단계는 상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 물리적으로 삽입되어 있는 가공 도면 파일을 생성하는 제1 가공 도면 데이터 생성 방법, 상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 나타나도록 하되, 도면과 도면 부호의 설명 배치 데이터가 논리적으로 다른 레이어에 존재하도록 하는 1개의 가공 도면 파일을 생성하는 제2 가공 도면 데이터 생성 방법, 상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 나타나도록 하되, 도면 파일과 도면 부호의 설명 배치 데이터가 포함된 파일은 물리적으로 다른 파일이며, 상기 도면 파일이 호출될 때, 상기 도면 파일과 상기 도면 부호의 설명 배치 데이터가 포함된 파일이 연동되어 실시간 결합이 지원되도록 상기 도면 파일을 가공하는 제3 가공 도면 데이터 생성 방법 및 상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 나타나도록 하되, 도면 파일과 도면 부호의 설명 배치 데이터가 포함된 파일은 물리적으로 다른 파일이며, 상기 도면 파일이 호출될 때, 상기 도면 파일과 상기 도면 부호의 설명 배치 데이터가 포함된 파일이 연동되는 실시간 결합을 지원하는 도면 연동 데이터를 생성하는 방법 중 어느 하나 이상을 실시하는 것인 것이 바람직하다.
본 발명이 이루고자 하는 다른 기술적 과제를 달성하기 위하여 (A) (A1) 도면 이미지에 포함되어 있는 적어도 하나 이상의 도면 포함 도면 부호를 문자 인식 방법으로 인식하고, (A2) 상기 인식된 도면 포함 도면 부호에 대응하는 도면 포함 도면 부호 속성 집합 정보를 생성하는 단계를 수행하는 프로세스; (B) 상기 컴퓨터 장치가 상기 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 부호의 설명을 인식하는 단계를 수행하는 프로세스; 및 상기 도면 포함 도면 부호, 상기 도면 부호의 속성 집합 정보, 상기 명세서 포함 도면 부호 및 상기 도면 부호의 설명을 사용하며, 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계를 수행하는 프로세스를 포함하는 것을 특징으로 하는 컴?D처 장치를 제시한다.
(D) 상기 도면 부호의 설명 배치 데이터를 사용하여 적어도 하나 이상의 레이어를 포함하는 도면 부호의 설명 레이어 데이터를 생성하는 단계를 수행하는 프로세스;더 포함하는 것이 바람직하다.
(E) 도면 번호에 대응되는 도면 부호의 설명 배치 데이터를 생성하는 단계를 수행하는 프로세스; 및 (A0) 상기 도면이 2 이상의 도면 번호가 다른 복합 도면인 경우, 상기 복합 도면을 전처리하는 단계를 수행하는 프로세스; 중 어느 하나 이상을 더 포함하는 것이 바람직하다.
(F) 상기 컴퓨터 장치가 가공 도면 데이터를 생성하는 단계를 수행하는 프로세서;를 더 포함하는 것이 바람직하다.
본 발명을 활용하면 다음과 같은 효과가 있다.
첫째, 도면에 나타나 있는 도면 부호의 주변에 도면 부호의 설명이 배치되어 있어, 도면 포함 도면 부호가 지칭하는 바를 명확하고 빠르게 인지할 수 있다. 이에 따라, 도면의 가독성이 좋아질 뿐만 아니라, 도면을 통해서 특허의 기술 사상을 이해하는 속도와 정확성이 높아지게 된다.
둘째, 도면의 도면 포함 도면 부호에 대한 속성 정보와 도면 부호의 설명 속성 정보를 분리하여 관리하는 경우, 도면 포함 도면 부호에 도면 부호의 설명을 맵핑하는 정확도를 체계적으로 향상시킬 수 있다.
셋째, 도면 부호의 설명에 칼라나 크기 등과 같은 도면 부호의 설명 속성을 부여하는 등과 같이 도면을 통한 기술 파악의 속도와 체계성의 향상을 위한 다양한 부가 서비스를 결합할 수 있게 된다.
넷째, 도면 포함 도면 부호에 맵핑되는 도면 부호의 설명을 오리지널 언어가 아닌 다른 언어로 처리하는 경우, 도면의 도면 포함 도면 부호가 지칭하는 대상을 사용자가 원하는 언어로 파악할 수 있게 된다.
다섯째, 특허 명세서를 기계 번역할 경우, 도면의 도면 포함 도면 부호가 지칭하는 대상도 기계 번역하여 도면 포함 도면 부호 주위에 기계 번역된 도면 부호의 설명을 배치할 수 있게 된다.
도 1은 본 발명의 컴퓨터 장치에 대한 일 실시예적 구현예이다.
도 2는 본 발명의 컴퓨터 장치의 파일 저장부에 대한 일 실시예적 구현예이다.
도 3은 본 발명의 컴퓨터 장치의 DB부에 대한 일 실시예적 구현예이다.
도 4는 본 발명의 컴퓨터 장치의 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 5는 본 발명의 컴퓨터 장치의 도면 포함 도면 부호의 인식 프로세스에 대한 일 실시예적 구현예이다.
도 6은 본 발명의 컴퓨터 장치의 숫자 포함 문자열 인식 프로세스에 대한 일 실시예적 구현예이다.
도 7은 본 발명의 컴퓨터 장치의 도면 포함 도면 부호의 명세서 포함 도면 부호 조회 프로세스에 대한 일 실시예적 구현예이다.
도 8은 본 발명의 컴퓨터 장치의 도면 포함 도면 부호의 속성 정보 생성 프로세스에 대한 일 실시예적 구현예이다.
도 9는 본 발명의 컴퓨터 장치의 명세서 포함 도면 부호 및 도면 부호의 설명 정보의 생성 프로세스에 대한 일 실시예적 구현예이다.
도 10은 본 발명의 컴퓨터 장치의 도면 부호의 설명 결정 프로세스에 대한 일 실시예적 구현예이다.
도 11은 본 발명의 컴퓨터 장치의 도면 포함 도면 부호와 상기 도면 부호의 설명의 맵핑 데이터 생성 전 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 프로세스에 대한 일 실시예적 구현예이다.
도 12는 본 발명의 컴퓨터 장치의 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성 프로세스에 대한 일 실시예적 구현예이다.
도 13은 본 발명의 컴퓨터 장치의 도면 부호의 설명 배치 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 14는 본 발명의 컴퓨터 장치의 도면 부호의 설명 배치 프로세스에 대한 일 실시예적 구현예이다.
도 15는 본 발명의 컴퓨터 장치의 다른 도면 부호의 설명 배치 프로세스에 대한 일 실시예적 구현예이다.
도 16은 본 발명의 컴퓨터 장치의 근접 도면 포함 도면 부호 클러스터 발굴 프로세스에 대한 일 실시예적 구현예이다.
도 17은 본 발명의 컴퓨터 장치의 도면 내 여백 공간의 위치 정보를 생성 프로세스에 대한 일 실시예적 구현예이다.
도 18은 본 발명의 컴퓨터 장치의 도면 부호의 설명 레이어 처리 프로세스에 대한 일 실시예적 구현예이다.
도 19는 본 발명의 컴퓨터 장치의 도면 부호의 설명 배치 데이터를 생성 프로세스에 대한 일 실시예적 구현예이다.
도 20은 본 발명의 컴퓨터 장치의 복합 도면을 전처리 프로세스에 대한 일 실시예적 구현예이다.
도 21은 본 발명의 컴퓨터 장치의 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 22는 본 발명의 컴퓨터 장치의 다른 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 23은 본 발명의 컴퓨터 장치의 또다른 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 24는 본 발명의 컴퓨터 장치의 또다른 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 25는 본 발명 사상 적용 전의 도면에 대한 예시이다.
도 26은 본 발명 사상 적용 후의 사용자가 체감할 수 있는 도면에 대한 예시이다.
도 27은 본 발명 사상이 적용된 도면 부호의 설명 레이어에 대한 예시이다.
도 28은 도면 부호의 설명 레이어에 오리지널 도면 부호의 설명이 아닌 번역된 도면 부호의 설명이 나타나는 일 예시이다.
도 29는 번역된 도면 부호의 설명이 적용된 사용자가 체감할 수 있는 도면에 대한 예시이다.
도 30은 본 발명 사상 적용 전의 도면에 대한 다른 예시이다.
도 31은 본 발명 사상 적용 후의 사용자가 체감할 수 있는 도면에 대한 다른 예시이다.
도 32은 본 발명 사상이 적용된 도면 부호의 설명 레이어에 대한 다른 예시이다.
도 33는 도면 부호의 설명 레이어에 오리지널 도면 부호의 설명이 아닌 번역된 도면 부호의 설명이 나타나는 다른 예시이다.
도 34는 번역된 도면 부호의 설명이 적용된 사용자가 체감할 수 있는 도면에 대한 다른 예시이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
본 명세서에서 OCR 등의 기술을 적용할 때, 딥러닝 등과 같은 머신 러닝 기반의 모델링이 포함될 수 있다. 이때, '모델링'또는 '모델 생성'은 절차에 따라 머신 러닝(machine running)을 수행함을 일컫는 용어인 바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 잘 이해할 수 있을 것이다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.
더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조 부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
본 명세서에서 “특허”의 개념은 광의의 개념으로서, 특정 국가의 특허 뿐만 아니라, 각 국가의 특허의 모든 특허를 포함하는 개념이며, 개별 특허 또는 전세계의 공개/등록된 특허에 포함된 서지 정보, 가공 서지 정보, 명세서에 포함된 정보, 도면 정보 또는 이 정보의 가공 정보를 포함하는 것으로 이해되어야 한다.
본 발명의 컴퓨팅 장치(1000)는 전형적으로 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서(1100), 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨터 시스템의 구성요소들을 포함할 수 있는 클라이언트 컴퓨터 및 서버 컴퓨터; 전자 통신선, 라우터, 스위치 등등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨터 하드웨어로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 활용하여 원하는 시스템 성능을 달성한다.
이하, 도면을 참조하면서 더욱 더 상세하게 설명한다.
도 1은 본 발명의 컴퓨터 장치(1000)에 대한 일 실시예적 구현예이다.
상기 컴퓨터 장치(1000)는 프로세서(1100), 파일 저장부(1200), DB부(1300)를 포함하고 있으며, 선택적으로 통신부(1400) 및 유무선 네트워크(3000)를 더 포함하고 있을 수 있다. 상기 컴퓨터 장치(1000)는 상기 유무선 네트워크(3000)를 통하여 적어도 하나 이상의 타 장치(2000)와 통신하면서 데이터를 입수하거나 전송할 수 있다. 상기 타 장치(2000)의 예는 상기 컴퓨팅 장치(1000)를 사용하는 사용자의 컴퓨터(개인용 컴퓨터 또는 서버 또는 기타 장치(2000))나, 상기 컴퓨팅 장치(1000)에 데이터를 제공해 주거나 데이터를 받는 서버나 장치일 수 있다.
상기 컴퓨팅 장치(1000)는 본 발명의 방법에 따라 데이터를 처리한다. 아래에서 상술되는 바와 같이 본 발명의 방법이 컴퓨터 하드웨어 및 소프트웨어의 조합을 활용하여 구현될 것이라는 점은 통상의 기술자는 용이하게 이해할 것이다.
도 2는 본 발명의 컴퓨터 장치(1000)의 프로세서(1100)에 대한 일 실시예적 구현예이다.
상기 프로세서(1100)에는 도면 파일을 입수하는 기능을 수행하는 도면 파일 입수 프로세서(1110), 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 정보를 생성하는 명세서 포함 도면 부호-도면 부호의 설명 맵핑 정보 생성 프로세서(1120), 도면에 포함되어 있는 도면 부호를 인식하는 기능을 수행하는 도면 부호 인식 프로세서(1130), 도면 부호의 설명을 도면 포함 도면 부호 주변에 배치시키기 위한 도면 부호의 설명 배치 데이터를 생성하는 도면 부호의 설명 배치 정보 생성 프로세서(1140)를 포함하고 있다. 상기 프로세서(1100)에는 선택적으로 결합 도면 생성 프로세서(1150)가 더 포함되어 있을 수 있다.
상기 도면 부호 인식 프로세서(1130)에는 도면에 포함된 개별적인 문자를 인식하는 도면 문자 인식 프로세서(1131), 인식된 개별 문자를 묶음 처리하는 도면 문자열 접합 프로세서(1132) 및 도면 포함 도면 부호에 대한 각종 속성 정보를 생성하는 도면 부호 정보 생성 프로세서(1133)를 포함하고 있다. 상기 도면 문자열 접합 프로세서(1132)에는 인식되는 개별적 대상이 묶음 처리의 대상이 되는 지를 판단하는 접합 대상 문자군 판단 프로세서(1132-1) 및 묶음 처리된 문자열을 상기 명세서 포함 도면 부호 집합에 질의하여 조회하는 기능을 수행하는 접합 대상 문자군 조회 프로세서(1132-2)를 포함하고 있다.
상기 도면 부호의 설명 배치 정보 생성 프로세서(1140)에는 도면 부호의 설명 속성 정보를 생성하는 기능을 수행하는 도면 부호의 설명 속성 정보 생성 프로세서(1141), 도면에서 도면 부호의 설명이 표시될 여백 공간을 탐색하는 기능을 수행하는 여백 탐색 프로세서(1142) 및 도면 부호의 설명 배치를 위한 도면 부호의 설명 배치 속성 정보를 생성하는 도면 부호의 설명 배치 속성 정보 생성 프로세서(1143)를 포함한다.
상기 여백 탐색 프로세서(1142)에는 도면 부호의 설명을 가상적으로 배치하여 충돌 여부를 판단하는 도면 부호의 설명 가상 배치 프로세서(1142-1) 및 도면의 물리적 경계를 탐색하고, 도면 부호의 설명이 도면의 물리적 경계 또는 물리적 내부 경계 를 벗어나지 않도록 정보 처리하는 도면 경계 탐색 프로세서(1142-2)를 더 포함하고 있다.
상기 결합 도면 생성 프로세서(1150)에는 복수 개의 특허에 대한 복수 개의 도면을 입수하여 각 특허의 각 도면에 배치될 도면 부호의 설명 배치 정보를 배치(batch) 방식으로 생성하는 도면 부호의 설명 배치 정보 배치(batch) 처리 프로세서(1151)를 포함하고 있을 수 있다. 상기 도면 부호의 설명 배치 정보 배치(batch) 처리 프로세서(1151)를 통하여 특정 국가의 특허 도면 전체나, 모든 국가이 특허 도면에 대한 번역된 도면 부호의 설명까지는 포함하는 전체 도면 부호의 설명 배치 정보를 생성하여 저장해 놓을 수 있다.
상기 결합 도면 생성 프로세서(1150)에는 특정 특허의 특정 도면에 대한 도면 부호의 설명 배치 정보에 대한 요청에 응답하여 도면 부호의 설명 배치 정보를 제공하는 도면 부호의 설명 배치 정보 제공 프로세서(1152)를 포함하고 있다.
한편, 결합 도면 생성 프로세서(1150)는 도면 이미지에 도면 부호의 설명을 물리적으로 또는 논리적으로 결합한 도면 데이터를 생성해 놓을 수 있다. 이때, 결합 도면 생성 프로세서(1150)의 물리적 결합 도면 생성 프로세서(1153)는 물리적으로 도면 포함 도면 부호에 도면 부호의 설명이 결합되어 있는 가공된 도면 이미지 데이터를 기설정된 이미지 데이터 형식으로 생성하는 기능을 수행한다.
도 3은 본 발명의 컴퓨터 장치(1000)의 파일 저장부(1200) 및 DB부(1300)에 대한 일 실시예적 구현예이다.
상기 파일 저장부(1200)에는 도면 파일 저장부(1210) 및 명세서 파일 저장부(1220)가 있으며 상기 도면 파일 저장부(1210)에는 오리지널 도면 파일 저장부(1211)를 포함하며, 선택적으로 가공 도면 파일 저장부(1212)가 있을 수 있다. 특허 full text 데이터는 통상적으로 XML 등과 같은 마크업 언어로 된 명세서 파일을 포함하고 있으며, 도면이 있는 경우 하나 이상의 도면 파일로 구성되어 있다. 상기 도면 파일에는 개념적으로 분리된 2개의 도면(예, fig1 및 fig2)가 물리적으로 1개의 이미지 파일에 포함되어 있을 수 있다. 가공 도면 파일은 본 발명 사상에 따라 가공한 도면 파일이다. 가공 도면 파일에는 2가지 가공 도면이 포함될 수 있다. 첫째는 본 발명 사상을 적용하여, 오리지널 도면 파일에 포함되어 있는 도면 포함 도면 부호에 직접적으로 또는 간접적으로(연결 또는 연동 또는 결합 가능하게) 도면 부호의 설명 배치 데이터가 표시될 수 있도록 처리한 가공 도면 파일이다. 둘째는 1개의 물리적 도면에 개념적으로 분리 가능한 2개 이상의 도면이 포함되어 있을 경우, 그 도면을 물리적으로 분리하고, 본 발명 사상을 적용한 가공 도면 파일이다.
상기 DB부(1300)에는 도면 기반 데이터부(1310), 명세서 기반 데이터부(1320), 도면 부호의 설명 배치 데이터 데이터부(1330)를 포함하고 있으며, 선택적으로 가공 규칙 데이터부(1340) 또는 집계 데이터부(1350)를 더 포함하고 있을 수 있다. 상기 도면 기반 데이터부(1310)는 개별 특허의 개별 도면 파일별로 도면에서 추출한 데이터를 포함하고 있다. 상기 도면 기반 데이터부(1310)에는 도면 포함 도면 부호 및 도면 포함 도면 부호별 도면 포함 도면 부호의 속성 정보가 저장되어 있다. 상기 명세서 기반 데이터부(1320)에는 명세서 포함 도면 부호, 도면 부호의 설명, 도면 부호의 설명 속성 데이터 등이 포함되어 있다. 상기 도면 부호의 설명 배치 데이터부에는 상기 도면 포함 도면 부호에 대응되는 상기 도면 부호의 설명을 배치하기 위한 배치 방법 데이터가 포함되어 있다.
도 4는 본 발명의 컴퓨터 장치(1000)의 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 4에서 예시되듯이 상기 컴퓨터 장치(1000)는 입력된 도면에서 도면 포함 도면 부호의 인식 (S11)하고, 입력된 특허 명세서에서 명세서 포함 도면 부호 및 도면 부호의 설명을 인식(S12)하고, 도면 부호의 설명 배치 데이터 생성(S13)하고, 실시간 요청 또는 배치 처리 방식으로 가공 도면 데이터 생성하거나, 가공 도면 데이터 생성할 수 있는 기반 정보를 제공 (S14)하는 방식으로 프로세싱 한다.
먼저, 도 5를 참조하면서 본 발명의 컴퓨터 장치(1000)의 도면 포함 도면 부호의 인식 프로세스를 설명한다. 도 5에서 예시되듯이 상기 컴퓨터 장치(1000)는 개별적인 특허 도면을 대상으로 문자 인식 처리를 수행하여 개별 문자별로 문자 인식 정보를 생성(S21)하고, 인식된 개별 문자들에 대하여 묶음 처리를 수행하고, 묶음 처리된 도면 포함 도면 부호 후보를 명세서 포함 도면 부호 집합과 맵핑 처리하여 도면 포함 도면 부호를 결정(S22)하고, 결정된 도면 포함 도면 부호별로 도면 포함 도면 부호의 속성 정보를 생성(S23)한다.
상기 컴퓨터 장치(1000)는 선택적으로 도면 포함 도면 부호 후보 중 명세서 포함 도면 부호 집합과 맵핑된 맵핑 비율 계산하여, 맵핑 비율이 설정된 기준 이상인지를 조회하고, 그렇지 않은 경우에는 도면에 대한 배향 처리 수행하고, 배향 처리된 도면을 대상으로 상기 S21 내지 상기 23의 과정을 수행한다. 배향 처리가 필요한 이유는 대부분의 도면은 가로 방향으로 배치되어 있지만, 세로 방향으로 배치된 도면도 상당 수 있기 때문이다. 가로 방향으로 배치되어 있는 도면의 경우, 도면 포함 도면 부호가 가로 방향으로 쓰여져 있는 것이 대부분이며, 세로 방향으로 배치되어 있는 도면의 경우, 도면 포함 도면 부호가 세로 방향으로 쓰여져 있는 것이 대부분이기 때문이다. 배향 처리는 각 국가의 도면 특성에 따라 우회전 90도, 우회전 180도, 우회전 270도 중에서 우선 배향할 각도를 결정한다.
광학 문자 인식(optical character recognition)은 이미지 데이터에서 숫자를 포함한 문자를 인식한다. OCR 자체에 대한 상세한 기법은 당업자에게 당연한 것(OCR에 대한 서적, 논문 및 공개/상용 소프트웨어 등이 다량으로 나와 있음)으로 본 발명의 설명에서는 상세한 설명을 생략한다. 다만, 본 발명에서는 통상적인 OCR을 통해서는 특허 도면에 포함된 문자열을 인식하는 경우, 다음과 같은 3가지 문제점이 발생한다.
첫째, 인식된 문자열 중에는 도면 포함 도면 부호인 것도 있을 수 있지만, 도면 포함 도면 부호가 아닌 것도 다수 있을 수 있다. 대표적인 예가, 프로세스 다이어그램의 박스에 있는 문자열 내용이다. 이들은 문자열로 되어 있지만, 도면 포함 도면 부호가 아니다. 따라서, 인식된 문자열 중에서 도면 포함 도면 부호인 것과 도면 포함 도면 부호가 아닌 것을 구분해 내는 것이 핵심적인 문제가 된다.
둘째, 도면을 구성하는 다양한 선이나 형상 등은 크거나 작은 블록 단위로 부분 부분 떼어 놓고 보면 숫자나 문자처럼 보이는 것이 많다. OCR은 이미지를 스캔하면서 스캔 되는 블록이 문자나 숫자가 되는 가를 판단하는 방식을 취하는 경우가 많다. 이때, 세로 선 등을 대문자 "I"나 소문자 "L"로 인식하는 경우가 많으며, 세로로 내려 오다 왼쪽으로 휘어지는 선을 "J"로, 좌우로 굽어지는 선을 "S" 등으로 인식하는 경우도 많다. 실제로 도면 부호가 아닌데, 부분 부분의 생긴 형태 때문에 문자로 오 인식 하는 경우는 도면을 구성하는 이미지 뿐만 아니라, 도면의 각 부분과 도면 부호의 설명을 이어주는 선에서도 많이 발생한다.
이와 같이 통상적인 OCR 기술을 그대로 특허 도면에 적용하는 경우, 엄청나게 많은 오인식이 발생하게 된다. 본 발명 사상은 이러한 문제를 체계적으로 해결하는 기술 사상을 포함하고 있다.
물론, 광학 문자 인식을 수행할 때, 특허 도면에 빈번하기 나타나는 숫자, 문자 및 기호에 대한 인식율을 높이기 위해 머신 러닝을 사용할 수 있다. 이를 위해서, 먼저 숫자, 문자 및 기호별로 다량의 데이터를 수집(예, 숫자 "2"로 인식되어야 할 숫자 "2"에 대응될 수 있는 부분 이미지들(도면 이미지에서 숫자 2에 해당하는 부분만 발췌하여 별도의 이미지 파일로 저장하는 방식으로 생성 및 수집됨))한다. 이어, 수집 데이터를 훈련용 데이터(training set)와 테스트 데이터(test set)으로 나누고(경우에 따라서는 검증용 데이터(validation set)를 별도로 준비할 수 있음), CNN(convolution neural network) 등과 같은 딥러닝 알고리즘 또는 기타 머신 러닝 알고리즘을 적용하여 학습을 진행시켜 특허 도면에 나타나는 도면 부호의 인식에 특화된 이미지 인식 알고리즘(모델)을 생성한다. 이어, 생성된 이미지 인식 알고리즘을 광학 문자 인식 루틴에 포함시킨다. 광학 문자 인식 과정에서, 특정한 이미지 블록이 문자 또는 숫자인지와 어떤 문자 또는 숫자인지를 결정하는데, 도면 부호의 인식에 특화된 이미지 인식 알고리즘(모델)이 사용될 수 있다. 도면 부호의 인식에 특화된 이미지 인식 알고리즘(모델)을 통하여, 통상적인 광학 문자 인식 알고리즘보다 더 정확하고 합목적적인 도면 부호의 인식이 가능하게 된다.
셋째, KNN(K nearest neighborhood) 알고리즘 등과 같은 이미지 인식 알고리즘 등은 손글씨나 통상적이지 않은 폰트를 사용한 문자 등을 잘 인식하지 못하는 경우가 많다. 이를 위해서는 딥러닝(deep learning)과 같은 학습 알고리즘을 사용하여, 손글씨를 학습시킨 다음 인식시킬 수 있다.
도 6은 본 발명의 컴퓨터 장치(1000)의 숫자 포함 문자열 인식 프로세스에 대한 일 실시예적 구현예이다.
도 6에서 예시되듯이 상기 컴퓨터 장치(1000)는 묶음 처리 규칙을 사용하여, 인식된 제1 개별 문자와 묶음 처리할 적어도 하나 이상의 제2 개별 문자를 탐색하여 도면 포함 도면 부호 후보를 생성(S31)하고, 인식된 문자열에서 숫자가 포함되어 있는가(S32)를 판단하고, Yes인 경우 인식된 문자열 추출(S33)하고, No인 경우 인식된 문자열 버림(S38)하는 방식으로 프로세싱 한다. 상기 컴퓨터 장치(1000)는 (S33) 이후에는 선택적으로 숫자 포함 문자열의 분할(S34) 처리를 수행할 수 있다. 상기 컴퓨터 장치(1000)는 (S33) 또는 (S34) 이후에 분할된 숫자 포함 문자열이 도면 포함 도면 부호의 결정 패턴 규칙에 속하는가를 판단(S35)하고, Yes 일 경우 도면 포함 도면 부호의 결정 패턴 규칙에 부합하는 분할 문자열만 추출(S36)하고, No일 경우 숫자 포함 문자열 버림(S37)처리를 수행한다.
다수의 문자 인식 알고리즘은 1개 글자씩 인식하는 경우가 대부분이다. 따라서, 1개의 문자열을 생성하기 위해서는 개별적으로 인식된 문자를 묶는 묶음 처리가 필요하다. 도면 포함 도면 부호는 통상적으로 길이가 아주 길지 않으며(8~10 캐릭터 이내), 띄어쓰기가 없는 것이 대부분이며, 간혹 특수 문자를 포함하는 경우도 있다.
상기 컴퓨터 장치(1000)는 특정 블록이 문자(문자 블록, 1개의 숫자나, 알파벳 등과 같은 캐릭터는 1개의 문자 블록이 된다.)일 경우, 문자 블록과 기 설정된 위치에 있는 다른 블록이 문자인 경우, 두 블록을 연결하는 처리를 수행한다. 문자 블록에서 인식되는 문자 방향으로 문자 블록에서 인식하는 문자의 크기를 고려한 기 설정된 거리 이내에 있는 문자 블록의 문자는 기 설정된 위치의 한 예가 될 수 있다. 인식되는 문자마다 크기(size) 정보가 생성될 수 있다. 크기 정보는 인식되는 문자 블록(사각형)의 크기(좌표값)로 결정할 수 있다.
문자 블록에 좌표값 집합이 대응되기 때문에 문자 블록에는 중심 좌표값이 대응시킬 수 있다. 문자와 문자 사이의 거리를 장평(character spacing)이라도 하는데, 통상적으로 1개 문자의 크기(예를 들면 띄어쓰기(space))보다는 훨씬 작다. 상기 컴퓨터 장치(1000)는 인식된 문자가 영어나 한국어 등 가로쓰기를 하는 문자인 경우, 문자의 방향이 통상적인 방향(예, 수평 방향으로 배향)이면, 오른쪽으로 기 설정된 위치 이내(예를 들면 장평 33~200%에 있는 글자)에 있는 문자는 연결하는 처리는 수행할 수 있다. 예시적으로 문자 블록의 평균값을 기준으로 문자 블록의 가로 길이 또는 세로 길이 중 긴 값의 33~200%에 있는 문자 블록은 묶음 처리를 수행할 수 있다. 한편, 예시적으로 특정 문자 블록의 가로 길이 또는 세로 길이의 긴 값의 10~150% 이내에 들어오는 다른 문자 블록은 묶음 처리할 수도 있을 것이다. 이러한 규칙은 묶음 처리 규칙의 일부가 될 수 있다.
한편, 인식된 문자가 수직 방향으로 배향된 경우, 수직 방향에 있는 블록에 있는 문자를 대상으로 연결 처리를 수행한다. 상기와 같은 연결 처리를 수행하면 문자열 블록이 생성되게 된다. 상기 컴퓨터 장치(1000)는 문자 블록 간의 연결이 마무리 되면 문자열을 인식(S31)할 수 있게 된다.
한편, 상기 연결 처리에서 문자 뿐만 아니라 도면 부호에 빈번하게 등장하는 표식(예를 들면, "-" 또는 "_" 등)은 문자처럼 취급하여 처리할 수 있다. 도면은 무수하게 많은 선으로 이루어져 있고, 점선 등도 많으므로, "-" 또는 "_"로 인식될 수 있는 도면의 부분은 굉장히 많을 수 있다. 따라서, 도면의 특정 부분이 "-" 또는 "_"로 인식되는 경우에는 앞 및 뒤에 있는 문자 블록과의 묶음 처리를 1차적으로 수행하고, 묶음 처리된 문자열을 명세서 포함 도면 부호 집합에 조회하여, 명세서 포함 도면 부호 집합에 포함되어 있는 문자열인 경우에만 도면 포함 도면 부호로 처리할 수 있을 것이다.
각 문자 블록마다 묶음 처리할 블록을 탐색하여, 묶음 처리 규칙이 적용되는 한도 내에서 가장 길게 묶음 처리를 수행할 수 있다. 예를 들면, "153"이라는 도면 포함 도면 부호가 있을 경우 "15"까지가 아닌 "153"까지 묶음 처리하는 것이 바람직할 것이다. 묶는 방향은 좌->우 방향을 기본 방향으로 처리할 수 있다. 한편, 각 국가나 도면의 배향(가로 방향 도면, 세로 방향 도면 등)에 따라 우선적인 묶음 방향이 달라질 수 있다. 물론, 묶음 방향이 좌<->우로도 될 수 있음은 물론일 것이다. 특정한 문자 블록이 묶음에 포함된 경우, 그 문자 블록으로부터 묶는 과정은 생략될 수 있다. 즉, "5"가 "1"에 묶인 경우에는 "5"를 최초 시작점으로 하여 새로운 묶음을 시도하지는 않는 것이 바람직할 것이다. 한편, "5"를 기준으로 좌-우 방향으로 묶음 처리 규칙을 적용할 수 있음은 당연할 것이다.
한편, 도면에 "153 267" 등과 같이 "153"과 "267 사이에 공백이 많을 경우가 있다. 이때, "1"을 기준으로 "5"를 묶고, "5"를 기준으로 "3"을 묶는 처리를 수행할 수 있으며, 3과 "2" 사이에는 공백이 많으므로, "5"와 "3"을 묶은 이후, 묶는 과정을 중단할 수 있다. 이때, "2"가 인식되면 "2"를 기준으로 다시 묶는 과정이 시작될 수 있을 것이다.
도면에는 도면 부호가 아닌 문자열도 상당히 많이 포함되어 있다. 대표적인 것이 블록도(block diagram) 내에 포함되어 있는 문자열 또는 특정한 대상을 지칭하는 단어나 어절이다. 도면 부호는 통상적으로 숫자만으로 구성되거나 숫자가 주요 부분이지만, 이러한 문자열은 숫자를 포함하고 있지 않거나, 숫자가 주요 구성 부분이 아니다. 이러한 문자열은 맵핑 대상에서 제외시킬 필요성이 높다.
문자열 인식 과정을 거친 문자열을 대상으로 도면 포함 도면 부호의 후보를 생성하는 정보 처리를 설명한다. 상기 컴퓨터 장치(1000)는 묶음 처리 규칙을 사용하여, 인식된 제1 개별 문자와 묶음 처리할 적어도 하나 이상의 제2 개별 문자를 탐색하여 도면 포함 도면 부호 후보를 생성(S31)하고, 도면 포함 도면 부호 후보에서 숫자가 포함되어 있는가를 판단(S32)하고, Yes인 경우, 인식된 문자열 추출(S33)하고 아닌 경우에는 인식된 문자열 버림(S38) 처리한다. 이때, 인식된 문자열이 긴 문자열(띄어쓰기가 포함되어 있는 경우 등)인 경우에는 그 문자열에서 숫자가 포함되어 있는 문자열만을 추출하거나 분할(S34)하는 처리를 수행한다. 만약, 인식된 문자열에서 띄어쓰기가 포함되어 있지 않거나, 문자열 인식 단계나 문자열 추출 단계에서 인식 또는 추출의 단위가 단일 단어 표현인 경우에는 문자열을 분할(S34)하는 프로세스를 불필요할 수 있다. 단일 단어 표현이란 띄어쓰기가 없는 문자열로, 그 문자열은 숫자, 알파벳, 문자만으로 구성된 문자열이거나, 이러한 문자열과 "-" 또는 "_" 등과 같은 기 설정된 도면 포함 도면 부호 포함 기호를 포함하는 문자열을 말한다. 바람직하게는 (S31) 단계에서 문자열의 인식 처리는 단일 단어 표현 단위로 처리하는 것이 좋다.
상기 컴퓨터 장치(1000)는 상기 숫자 포함 문자열 또는 단일 단어 표현이 도면 포함 도면 부호의 결정 패턴 규칙에 속하는 지를 조회(S35) 처리를 수행하고, Yes인 경우에는 도면 포함 도면 부호의 결정 패턴 규칙에 부합하는 분할 문자열만 추출(S36)하고, No인 경우에는 숫자 포함 문자열 버림(S37) 처리한다.
상기 도면 포함 도면 부호의 결정 패턴 규칙은 다음과 같은 규칙 중 적어도 하나 이상을 포함하고 있을 수 있다.
첫째, 숫자가 포함되어 있지 않은 문자열은 도면 포함 도면 부호가 아니다.
둘째, 문자열에 숫자와 문자가 함께 포함되어 있는 경우, 다음과 같은 하위 기준을 적용한다.
1) 문자로 시작하는 경우에는 시작하는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.
2) 문자로 끝나는 경우에는 끝나는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.
셋째, 도면 포함 도면 부호 포함 기호는 문자열의 처음도 될 수 없고 마지막도 될 수 없다.
넷째, 문자열의 전체 길이는 기 설정된 한계(예, 6~8 글자) 이내이다.
다섯째, 도면 포함 도면 부호 포함 기호가 아닌 구두점이나 기호는 도면 포함 도면 부호 구성에서 제외된다.
도면 포함 도면 부호의 결정 패턴 규칙은 가공 규칙 데이터부(1340)에 저장될 수 있다.
한편, 특정한 도면에서 인식된 개별적인 문자를 사용하여 문자를 연결할 때, 연결하는 방식이나 정책 등에 따라, 여러 종류 이상의 도면 포함 도면 부호의 후보가 생성될 수 있게 된다. 예를 들면, 특정한 도면에서 "A12"라고 인식되는 문자열과 아주 가까운 곳에 "25"라는 문자열이 있을 수 있다. "A12"와 "25" 사이의 거리가 "A12" 내부를 구성하는 "A" ,"1", "2" 사이의 장평보다는 길지만, 문자 1개 이상보다는 가까울 때와 같이, 거리에서 모호성이 존재하는 경우가 빈번하게 존재한다. 이때, 도면 포함 도면 부호는 각각 "A12"와 "25"와 같이 2개일 수도 있지만, "A1225"일 수도 있다. 이와 같이 모호성이 존재하는 경우, 각 문자열을 어디까지 연결할 것인지가 문제시 된다. 본 발명 사상에서 명세서 포함 도면 부호를 문자열 인식 단계에서 우선적으로 사용하지 않는 한, 상기 컴퓨터 장치(1000)는 "A12"와 "25"라는 문자열 및 "A1225"도 도면 포함 도면 부호의 후보로 생성한다. 이 경우 "A12"와 "25"라는 문자열 및 "A1225" 각각에 대해서 위치나 폰트 크기 등과 같은 도면 포함 도면 부호의 속성 정보를 생성함을 물론일 것이다.
상기 컴퓨터 장치(1000)는 상기 도면 포함 도면 부호의 결정 패턴 규칙을 통과하는 문자열을 도면 포함 도면 부호의 후보로 처리한다. 1개의 이미지에서는 n개의 도면 포함 도면 부호의 후보가 생성될 수 있고, 이들은 도면 포함 도면 부호의 후보 집합을 구성하게 된다.
한편, 도면 포함 도면 부호의 결정 패턴 규칙을 통과하는 문자열 중에서도 도면 포함 도면 부호가 아닌 경우가 상당히 많을 수 있다. 그 이유 중 일부는 다음과 같다.
첫째, 도면에 있는 문장형, 구문형 문자열이다. 예를 들면, 프로세스 도면을 박스 내에 있는 다양한 문장이나 구문 등을 구성하는 각 단어 중에서 숫자가 포함되어 있는 많은 단어는 도면 포함 도면 부호의 결정 패턴 규칙을 통과한다. 예를 들어, "A380"이라는 문자열이 있을 때, 이 문자열이 보잉사의 비행기 기종을 표현한다고 하더라도, 도면 포함 도면 부호의 결정 패턴 규칙을 통과한다.
둘째, 숫자나 문자로 오 인식된 이미지가 숫자나 문자와 연결되는 경우에도 도면 포함 도면 부호의 결정 패턴 규칙을 통과할 가능성이 높다. 도 27에서 예시되는 바와 같이, 1개의 도면에 도면 부호가 많이 있는 경우에는 도면 또한 복잡한 구성을 가지는 경우가 많다. 이 때, 도면에는 다수의 도면 포함 도면 부호가 이미지 곳곳에 배치되어 있게 되고(도면 이미지에서 도면 포함 도면 부호의 밀도가 높음), 도면 포함 도면 부호와 구성 요소 간을 연결하는 선도 복잡하게 된다. 이런 경우에는 문자로 오 인식되는 이미지 부분 부분이 실제 문자와 연결되어 잘못된 문자열을 구성하게 된다.
셋째, 오 인식된 이미지 부분 부분이 서로 연결되어 문자열로 출력되고, 이 문자열이 도면 포함 도면 부호의 결정 패턴 규칙을 통과할 수 있다. 예를 들면, 세로 선 2개를 숫자 "1" 및 "1"로 좌우로 굽어지는 선을 "3"으로 인식해 "113"이라는 문자열을 만들어 내는 경우를 들 수 있다.
본 발명에서는 상기의 문제를 해결하는 2가지 방법을 제시한다.
첫번째 방법은 명세서에서 추출되는 명세서 포함 도면 부호를 활용하여, 추출된 명세서 포함 도면 부호와 입수된 도면 포함 도면 부호의 후보를 맵핑 처리하고, 맵핑된 도면 포함 도면 부호의 후보만을 도면 포함 도면 부호로 처리하는 후단계 맵핑 방법이다. 이 방법은 도 7에서 예시되어 있다.
둘째 방법은 도면 포함 도면 부호의 후보 집합의 생성 전 단계에서 명세서 포함 도면 부호를 활용하는 전단계 필터링 방법이다. 명세서 포함 도면 부호를 활용하면 1) 시작하는 문자열의 종류가 정해지고, 2) 특정한 문자 다음에 올 수 있는 문자열도 정해지게 되기 때문에, 문자열을 인식하는 단계부터 오인식의 가능성이 훨씬 줄일 수 있을 뿐만 아니라 들게 된다. 특히, 문자열 블록의 연결 시 특정한 문자열 블록과 다른 문자열 블록을 연결할 것인지를 결정할 때 특별한 효과를 발휘하게 되다. 이를 통해서 연결이 없었다면 도면 포함 도면 부호가 되지 못하는(명세서 포함 도면 부호에 없는 도면 포함 도면 부호) 문자열들이 연결을 통해서 우연히 도면 포함 도면 부호처럼 취급되는(명세서 포함 도면 부호에 있는 도면 포함 도면 부호와 결과적으로 같은 문자열 표현이 되어, 결과적으로 도면 부호의 설명이 결합되어 버리게 되는) 문제도 미연에 방지될 수 있게 된다. 이를 위해서는 도면 포함 도면 부호 후보 생성 단계에서 명세서 포함 도면 부호 집합을 조회하는 단계를 처리하여야 하며, 이를 위해서 사전에 명세서 포함 도면 부호 집합이 생성되어 있어야 한다.
한편, 명세서 포함 도면 부호 후보 집합을 구성하는 명세서 상의 문단에서 "figure +number" 또는 "도+number" 등과 같은 도면을 지칭하는 표현이 있는 경우, 그 문단에서 나오는 명세서 포함 도면 부호는 특정 도면에 특화성 높은 명세서 포함 도면 부호로 처리되고, 명세서 포함 도면 부호와 도면 번호는 맵핑되어 저장될 수 있다. 이를 통해서 상기 명세서 포함 도면 부호 후보 집합이 도면 단위로 구축될 수 있다. 도면 단위로 명세서 포함 도면 부호 후보 집합이 존재하는 경우, 이 데이터를 활용하면 도면 포함 도면 부호의 후보 집합의 전단계 필터링을 더욱 더 정밀하게 처리할 수 있게 된다.
실제 도면 포함 도면 부호의 후보 집합에 대해 명세서 포함 도면 부호를 맵핑 시킬 때, 모호성(ambiguity)이 존재하는 경우가 아주 많다. 특히, 도면이 흐리거나 해상도가 낮거나, 폰트가 깔끔하지 못하거나, 도면 포함 도면 부호가 아주 많은 경우 등에서는 다양한 모호성이 존재한다. 이때, 도면별로 생성된 명세서 포함 도면 부호 후보 집합은 특정 도면에서 추출되는 도면 포함 도면 부호의 후보의 처리에서 추가 가중치 부여 요소로 작용할 수 있게 된다.
예를 들면, 특정한 도면(예, 도면 1)에서 인식된 특정한 도면 포함 도면 부호의 후보의 문자열 중 특정한 1개의 문자의 정확도가 낮은 경우(예, 문자 "I" 또는 숫자 '1"인지 명쾌하게 분류되지 못하는 경우), 그 특정한 도면과 관련된 명세서의 설명 부분에서 생성하는 명세서 포함 도면 부호를 참조하여, 인식된 문자의 정확도를 높일 수 있다. 예시의 경우에서도 도면 1에서는 문자 " I "없는 경우, 그 문자는 숫자 "1"로 인식하게 되면, 결과적으로 문자열의 인식율이 높아지게 된다.
도 7은 본 발명의 컴퓨터 장치(1000)의 도면 포함 도면 부호를 명세서 포함 도면 부호 집합에 조회하는 프로세스에 대한 일 실시예적 구현예이다.
상기 컴퓨터 장치(1000)는 묶음 처리 규칙을 사용하여, 인식된 제1 개별 문자와 묶음 처리할 적어도 하나 이상의 제2 개별 문자를 탐색(S41)한다. 제1 개별 문자가 있을 때, 묶음 처리할 제2 개별 문자의 탐색에는 제1 개별 문자의 인식값이나 제2 개별 문자이 인식값 자체는 크게 중요하지 않다. 예를 들면, 제1 개별 문자에 대한 인식값이 숫자 "1"이거나, 소문자 "i" 이거나는 그 제1 개별 문자와 묶을 대상이 되는 제2 개별 문자를 탐색하는데 큰 영향은 없다. 왜냐하면, 숫자 "1"로 시작하는 도면 포함 도면 부호도 있을 수 있지만, 소문자 "i"로 시작하는 도면 포함 도면 부호도 있을 수 있기 때문이다.
상기 컴퓨터 장치(1000)는 묶음 처리 규칙을 적용하여 상기 제1 개별 문자와 묶음 처리할 적어도 하나 이상의 제2 개별 문자가 있는가를 탐색(S42) 한다. 상기 제2 개별 문자는 2글자(캐릭터) 이상일 수 있다. 최종적으로 묶음 처리되는 문자열은 "제1 개별 문자 + 제2 개별 문자+ 제3 개별 문자+ …제 n 개별 문자"의 형태를 가질 수 있을 것이다. 제n 개별 문자가 포함되는 경우, "제1 개별 문자 + 제2 개별 문자+ 제3 개별 문자+ …제 n -1개별 문자"는 적어도 묶음 처리의 결과에서 배제된다. 즉, 묶음 처리가 될 때에는 가장 긴 것(the longest one)이 도면 포함 도면 부호의 후보가 된다. 예를 들면, 도면의 특정한 위치에 "S1234"가 있을 때, "S"가 인식되고, "S"의 옆에 각각 "1", "2", "3" 및 "4"가 있어, 이것이 "S1234"로 묶음 처리된 경우라면, S12나 S123은 배제된다는 뜻이다. 물론, 같은 도면의 다른 곳에서 "S123"이 있는 경우에는 상기 컴퓨터 장치(1000)이 생성하는 도면 포함 도면 부호 후보에는 "S1234" 및 "S123"이 있게 됨은 당연할 것이다.
상기 컴퓨터 장치(1000)는 탐색 결과 제2 개별 문자가 있는 경우, 있는 경우 제1 개별 문자의 제1 인식값과 적어도 하나 이상의 제2 개별 문자의 제2 인식값을 결합하여 적어도 하나 이상의 도면 포함 도면 부호 후보를 생성(S43)한다. 문자 인식은 항상 옳을 수가 없으므로, 문자 인식 대상마다 1개 이상의 인식값 및 인식 평가 정보(인식 확률/정확도/인식 레벨 등) 등이 대응될 수 있다. 예를 들면, "1"처림 생긴 이미지 부분에 대해서, 숫자 "1"로 인식할 수도 있고, 소문자 "i"로 인식할 수도 있으며, 인식 알고리즘은 각 인식값에 대한 인식 평가 정보를 생성할 수 있다. 따라서, 각각 적어도 1개 이상의 인식값을 가지고 있는 여러 개의 인식 대상이 묶음 처리가 되는 경우에는 에는 적어도 1개 이상의 도면 포함 도면 부호 후보가 생성될 수 있게 된다. 각 도면 포함 도면 부호 후보에는 랭킹 또는 종합적 인식 평가 정보가 대응될 수 있다.
상기 컴퓨터 장치(1000)는 랭킹 또는 종합적 인식 평가 정보를 기준으로 한 우선 순위가 높은 도면 포함 도면 부호 후보부터 명세서 포함 도면 부호 집합에 조회(S44)한다. 생성된 도면 포함 도면 부호 후보가 명세서 포함 도면 부호 집합에 있는가? (S45)를 질의한 다음, 있는 경우에는 도면 포함 도면 부호로 결정(S46)한다. 이때, 1개의 도면 포함 도면 부호 후보가 하나 이상의 명세서 포함 도면 부호와 대응되는 경우도 발생할 수 있음은 물론이다. 이어, 상기 컴퓨터 장치(1000)는 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성(S47) 과정을 수행한다. 질의 결과 도면 포함 도면 부호 후부가 명세서 포함 도면 부호에 없는 경우에는 맵핑 데이터를 생성하지 않거나, 선택적으로 탐욕적 탐색(greedy search)을 수행(S48)할 수 있다.
탐욕적 탐색이란 인색 대상에 대한 모든 또는 일정 기준 이상의 모든 인식값의 조합에 대하여 도면 포함 도면 부호 후보로 처리하고, 명세서 포함 도면 부호 집합에 대한 조회(S46) 처리를 수행하는 것을 말한다.
통상적으로 1개 캐릭터/문자로 되는 도면 포함 도면 부호는 많이 사용되지 않지만, 그렇다고 해서 전혀 사용되지 않는 것도 아니다. 따라서, 대상인 제2 개별 문자가 없는 경우에는 주의를 요한다. 왜냐하면, 문자 인식에는 무수한 오류가 존재하며, 도면을 구성하는 여러 이미지 요소(선, 점선, 곡선 부분 등)을 작은 박스 형태로 떼어 놓으면 문자처럼 인식되는 것이 아주 많게 된다. 이렇게 되면 노이즈가 엄청나게 발생한다. 예를 들면, 수직선의 일부를 박스 형태로 내서 인식하면, 숫자 "1", 대문자 "I"나 소문지 "L" 등으로 인식될 수 있으며, 특히 도부 집합에 숫자 "1", "I"나 소문지 "L" 등이 있게 되면, 도면의 많은 부분에서 노이즈가 발생하게 된다.
상기 컴퓨터 장치(1000)는 제2 개별 문자가 없는 경우에는 상기 제1 개별 문자가 평균 크기를 많이 벗어나는가(S49-1)를 질의한다. 상기 컴퓨터 장치(1000)는 인식의 대상이 되는 도면 포함 도면 부호의 평균 크기를 계산할 수 있다. 상기 컴퓨터 장치(1000)는 상기 S22 과정에서 도면 포함 도면 부호 후보와 1:1로 맵핑 처리가 되는 명세서 포함 도면 부호가 있는 경우, 이러한 도면 포함 도면 부호 후보를 대상으로, 개별 문자의 크기 정보를 입수하여 평균 크기를 계산한다. 1개의 도면 또는 1개의 특허에 포함되는 도면 포함 도면 부호의 폰트 크기는 크게 차이가 나지 않는 것이 일반적이기 때문이다.
상기 컴퓨터 장치(1000)는 제1 개별 문자가 평균 크기를 많이 벗어나는 경우에는 그 개별 문자는 노이즈 처리(S49-2)를 수행하고, 아닌 경우에는 생성된 도면 포함 도면 부호 후보를 명세서 포함 도면 부호 집합에 조회(S49-3)한다. 생성된 도면 포함 도면 부호 후보가 명세서 포함 도면 부호 집합에 있는가? (S49-4)를 조회한 결과 있는 경우에는 도면 포함 도면 부호로 결정(S49-5)하고, 없는 경우에는 노이즈 로 처리(S49-6)한다.
도 8은 본 발명의 컴퓨터 장치(1000)의 도면 포함 도면 부호의 속성 정보 생성 프로세스에 대한 일 실시예적 구현예이다. 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호의 후보 문자열을 명세서 포함 도면 부호 후보 집합에 조회(S51)하여, 도면 포함 도면 부호의 후보 문자열을 명세서 포함 도면 부호 또는 명세서 포함 도면 부호 후보 집합에 존재하는 지를 판단(S52)하고, 존재하는 경우 도면 포함 도면 부호의 후보 문자열을 도면 포함 도면 부호로 인정(S53)하고, 아닌 경우 도면 포함 도면 부호의 후보 문자열 버림(S54) 처리하는 방식으로 프로세싱 할 수 있다.
도면 포함 도면 부호의 속성 정보의 처리에 대해서 설명한다. 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호 후보에 해당하는 문자열의 인식 시에 도면 포함 도면 부호 후보의 속성 정보를 생성하고 저장하게 된다. 도면 포함 도면 부호의 속성 정보에는 도면 포함 도면 부호의 위치(직사각형의 도면 포함 도면 부호 블록에 대응되는 4개의 꼭지점 좌표값), 도면 포함 도면 부호 폰트의 크기, 배향(우향, 상향, 하향 등), 구성(숫자만, 문자+숫자 등), 문자열의 길이(캐릭터의 개수), 도면 포함 도면 부호가 나타나는 특정한 도면 번호 및 도면 포함 도면 부호가 나타나는 전체 개수) 등이 있을 수 있다.
이어, 명세서 포함 도면 부호 및 도면 부호의 설명 데이터의 생성에 대해서 설명한다. 명세서 포함 도면 부호 및 도면 부호의 설명 데이터의 생성은 도면에서 도면 포함 도면 부호의 인식보다 먼저 처리되어 있는 것이 바람직하다.
도 9는 본 발명의 컴퓨터 장치(1000)의 명세서 포함 도면 부호 및 도면 부호의 설명 정보의 생성 프로세스에 대한 일 실시예적 구현예이다.
명세서 포함 도면 부호 및 도면 부호의 설명 데이터는 명세서 데이터를 처리하여 생성된다. 명세서 포함 도면 부호 데이터가 XML 등과 같은 마크업 언어로 되어 있는 경우와, 태그가 없는 단순 텍스트인 경우에는 경우가 있다. 상기 컴퓨터 장치(1000)는 명세서 입수(S71)하고, 명세서 포함 도면 부호가 마크업 언어로 작성되어 있는가를 판단(S72)할 수 있다. 명세서 포함 도면 부호가 마크업 언어로 되어 있는 경우, 도면 부호에 대응하는 명세서 포함 도면 부호의 태그부를 인식하고, 명세서 포함 도면 부호의 태그부에서 상기 명세서 포함 도면 부호를 추출(S73)하고, 명세서 포함 도면 부호의 태그부와의 기 설정된 위치에 있는 문자열을 추출(S74)하고, 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정(S75)한다.
예를 들어, 하기와 같은 명세서 내용(US 특허 출원 14/249,716호의 마크업 언어 파일에서 발췌한 내용)이 있다고 하자.
<p id="p-0033" num="0032">
A second purpose of the laminated flexure
<b>304</b>
may be to provide a plurality of electrical paths to facilitate signal transmission to/from the read head
<b>310</b>
. For that second purpose, the laminated flexure
<b>304</b>
may include a plurality of electrically conductive traces that are defined in an electrically conductive (e.g. copper) sub-layer of the laminated flexure
<b>304</b>
. Such electrically conductive traces may be insulated from a support layer (e.g. stainless steel) by a dielectric layer (e.g. polyimide). The electrically conductive traces may extend away from the read head
<b>310</b>
along a flexure tail
<b>305</b>
of the laminated flexure
<b>304</b>
, to reach a portion of the flex cable (not shown) that includes a preamplifier chip near the body of the actuator (e.g. actuator
<b>32</b>
of
<figref idref="DRAWINGS">FIG. 1</figref>
).
</p>
이 문단의 문단 ID는 "p-0033"이고, 문단 번호는 "0032"이다. <figref idref="DRAWINGS">FIG. 1</figref>
라는 문자열에서 이 문단은 " FIG. 1"과 관계되고 있다는 것을 알 수 있다. 한편, 상기의 예에서는 명세서 포함 도면 부호는 <b> 태그 사이에 존재한다는 것을 알 수 있고, "<b>문자열<b>"는 명세서 포함 도면 부호의 태그부가 된다. 상기 컴퓨터 장치(1000)는 상기 명세서 포함 도면 부호의 태그부를 처리하여 명세서 포함 도면 부호를 추출한다. 이어 상기 컴퓨터 장치(1000)는 명세서 포함 도면 부호의 태그부와의 기 설정된 위치에 있는 문자열을 추출(S74)한다. 예시적으로 상기 컴퓨터 장치(1000)는 명세서 포함 도면 부호의 시작 지점(앞에 있는 <b> 태그)에서 역 방향으로 문자열을 읽어 나가면서 다음 예시와 같은 도면 부호의 설명 후보 조건을 만족하는 위치까지의 문자열을 추출한다.
문자열이 영어인 경우,
1) 첫번째 부정관사를 만나기 직전까지의 문자열
2) 첫번째 the said, said 또는 the를 만나기 직전까지의 문자열
3) at least 숫자, one or more 등과 같은 기 설정된 도면 부호의 설명 후보 관련 표현 직전까지의 문자열
4) 기 설정된 n번째 단어까지 위 1) 또는 2)조건 중에 해당하는 문자열이 없는 경우, 첫번째 복수형 명사까지의 문자열
5) 1), 2) 및 3)이 모두 성립하지 않는 상태에서 문장의 시작까지의 문자열
도면 부호의 설명 후보 조건은 가공 규칙 데이터부(1340)에 저장될 수 있다.
문자열이 영어가 아닌 한글 등이 경우, the나 the said 에 대응되는 표현(예를 들면 "상기")을 정관사나 the said 대신에 적용한다.
상기의 도면 부호의 설명 후보 조건을 적용하는 경우, 상기의 명세서 내용에서 하기 표 1과 같은 도면 부호의 설명 후보 집합을 생성할 수 있다.
명세서 포함 도면 부호 도면 부호의 설명 후보 나온 회수
304 laminated flexure 1
310 read head 1
305 flexure tail 1
32 actuator 1
본 발명 사상을 설명하기 위해서
...near the body of the actuator (e.g. actuator
<b>32</b>
"에서는 "e.g."등이 도면 부호의 설명 후보 조건에 없기 때문에, "actuator"가 추출되는 것으로 처리하였다.
같은 명세서 상에서 다음과 같은 내용이 있다고 하자.
... The HSA
<b>30</b>
includes an actuator comprising an actuator body
<b>32</b>
and one or more actuator arms
<b>36</b>
extending from the actuator body
<b>32</b>
. The actuator body
<b>32</b>
includes a bore and a pivot bearing cartridge
상기의 도면 부호의 설명 후보 조건을 적용하는 경우, 상기의 명세서 내용에서 하기 표 2와 같은 도면 부호의 설명 후보 집합을 생성할 수 있다.
명세서 포함 도면 부호 도면 부호의 설명 나온 회수
30 HAS 1
36 actuator arms 1
32 actuator body 3
상기 표 1 및 표 2와 같은 데이터는 명세서 기반 데이터부(1320)에 저장되며, 집계 정보는 집계 데이터부(1350)에도 저장될 수 있다.
상기 컴퓨터 장치(1000)는 명세서 입수(S71)하고, 명세서가 마크업 언어로 작성되어 있는가를 판단(S72)할 수 있다. 명세서가 마크업 언어로 되어 있지 않은 경우, 상기 컴퓨터 장치(1000)는 명세서 포함 도면 부호 식별 규칙을 적용하여, 상기 명세서 포함 도면 부호를 추출(S76)하고, 명세서 포함 도면 부호를 기준으로 상기 명세서 포함 도면 부호와의 기 설정된 위치에 있는 문자열을 추출(S77)하고, 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정(S78) 처리하는 방식으로 프로세싱 한다.
상기 명세서 포함 도면 부호 식별 규칙은 1) "좌괄호+명세서 포함 도면 부호+우괄호" 등과 같은 명세서 상에서 명세서 포함 도면 부호를 표현하는 방식 등과 같은 명시적 규칙성이 있는 경우에는 그 규칙을 적용하여 처리한다. (대한민국 특허 명세서에서는 명세서 포함 도면 부호는 관행적으로 괄호 내에 표현한다.) 괄호 안에는 명세서 포함 도면 부호가 아닌 다른 문자열이 포함되는 경우도 다수 있으므로, 괄호 안에 포함되어 있는 문자열 중에서, 명세서 포함 도면 부호를 결정하는 것은 다음과 같은 조건을 적용한다. 한편, 괄호 등과 같은 관행적인 명세서 포함 도면 부호 식별 규칙이 없는 경우에는 "띄어쓰기+명세서 포함 도면 부호+띄어쓰기" 등과 같은 무방식의 경우에도 동등한 조건을 적용할 수 있다.
첫째, 문자열이 2단어 이상(띄어쓰기가 있는 경우)에는 명세서 포함 도면 부호가 아니다.
둘째, 숫자가 포함되어 있지 않은 문자열은 명세서 포함 도면 부호가 아니다.
셋째, 문자열에 숫자와 문자가 함께 포함되어 있는 경우, 다음과 같은 하위 기준을 적용한다.
1) 문자로 시작하는 경우에는 시작하는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.
2) 문자로 끝나는 경우에는 끝나는 문자의 글자수는 숫자를 구성하는 글자수보다 작거나 같다.
셋째, 명세서 포함 도면 부호 포함 기호는 문자열의 처음도 될 수 없고 마지막도 될 수 없다.
넷째, 문자열의 전체 길이는 기 설정된 한계(예, 6~7 글자) 이내이다.
다섯째, 명세서 포함 도면 부호 포함 기호가 아닌 구두점이나 기호는 명세서 포함 도면 부호 구성에서 제외된다.
명세서 포함 도면 부호 식별 규칙은 가공 규칙 데이터부(1340)에 저장될 수 있다.
마크업 언어로 되어 있지 않은 명세서에서 명세서 포함 도면 부호가 결정되었을 때, 도면 부호의 설명을 결정하는 것은 마크업 언어로 되어 있는 명세서에서와 동일하다.
그런데, 명세서 포함 도면 부호와 도면 부호의 설명 후보 간에는 원칙적으로 단일 명세서 내에서의 표현의 일관성의 원칙상 1:1 관계가 성립해야 하나, 사실 상 1:1 관계가 성립하지 않는 경우가 다수 있을 수 있다. 이유는 다음을 포함한다.
첫째, 명세서를 작성하는 사람의 실수나 오류 때문이다. 다른 표현에 동일 명세서 포함 도면 부호를 적용하거나, 동일 명세서 포함 도면 부호에 다른 표현이 사용되는 경우 등이다.
둘째, 명세서를 작성 프로그램 또는 명세서 전산화 프로그램 또는 명세서 가공 프로그램에서의 실수나 오류가 있을 수 있다.
셋째, 도면 부호의 설명 후보 조건의 불완비성 또는 도면 부호의 설명 후보 조건을 적용하는 프로그램의 불완전성 때문이다. 도면 부호의 설명 후보 조건을 아무리 다양하고 엄격하게 준비한다고 하더라도 1)도면 부호의 설명 후보 조건을 벗어나는 표현의 존재 가능성 항상 있고, 2) 도면 부호의 설명 후보 조건 간에 충돌 관계나 우선 순위 적용에서 예외 상황이 발생할 수 있게 된다.
이 때 어느 명세서 포함 도면 부호에 어느 도면 부호의 설명을 맵핑할 것인가를 결정하는 것이 중요하게 된다. 도 10내지 도 12를 참조하면서 설명한다.
도 10은 본 발명의 컴퓨터 장치(1000)의 도면 부호의 설명 결정 프로세스에 대한 일 실시예적 구현예이다.
도 10에서 예시되듯이 상기 컴퓨터 장치(1000)는 도면 부호의 설명 후보를 입수(S81)하고, 도면 부호의 설명 후보에 도면 부호의 설명 결정 규칙을 적용(S82)하고, 도면 부호의 설명을 결정(S83) 처리하는 방식으로 프로세싱 한다.
도 11은 본 발명의 컴퓨터 장치(1000)의 도면 포함 도면 부호와 상기 도면 부호의 설명의 맵핑 데이터 생성 전 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 프로세스에 대한 일 실시예적 구현예이다.
도 11에서 예시되듯이 상기 컴퓨터 장치(1000)는 명세서 전체에서 생성한 명세서 포함 도면 부호 및 도면 부호의 설명의 쌍 데이터 입수(S91)하고, (마름모)명세서 포함 도면 부호를 기준으로 전체 도면 부호의 설명이 유일(1:1 대응)한가를 조회 (S92)하고, Yes인 경우 명세서 포함 도면 부호와 도면 부호의 설명의 1:1 맵핑 처리(S93)한다. 한편, 상기 컴퓨터 장치(1000)는 1:1 대응 관계가 성립하지 않는 경우에는 도면 부호의 설명 결정 규칙을 적용한다. 상기 컴퓨터 장치(1000)는 도면 부호의 설명 중에서 최빈 도면 부호의 설명을 입수하고, 빈도 비율값을 확률값으로 처리하고 명세서 포함 도면 부호와 도면 부호의 설명의 확률 정보 포함 1:n 맵핑 처리(S94)하고, 명세서 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n)를 생성(S95)하는 방식으로 프로세싱 할 수 있다.
도 12는 본 발명의 컴퓨터 장치(1000)의 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성 프로세스에 대한 일 실시예적 구현예이다.
도 12에서 예시되듯이 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호를 입수(S101)하고, (마름모)도면 포함 도면 부호에 대응되는 명세서 포함 도면 부호가 존재하는가를 조회 (S102)하고, Yes 인 경우, 도면 포함 도면 부호와 명세서 포함 도면 부호의 맵핑(S103)하고, 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성(S104)하며, No 인 경우 명세서 포함 도면 부호가 존재하지 않는 도면 포함 도면 부호임을 저장하여, 이 도면 포함 도면 부호가 도면 포함 도면 부호와 도면 부호의 설명의 맵핑 처리에서 배제될 수 있도록 처리(S105)하는 방식으로 프로세싱 한다.
상기 컴퓨터 장치(1000)는 본 발명에서는 동일 명세서 포함 도면 부호에 적어도 2 이상의 도면 부호의 설명 후보가 대응되어 있을 때 도면 부호의 설명을 결정할 때 예시적으로 다음과 같은 도면 부호의 설명 결정 규칙을 적용할 수 있다.
1) 빈도가 가장 높은 도면 부호의 설명 후보
2) 명세서 내에서 명세서 포함 도면 부호와 도면 부호의 설명 간의 맵핑 관계를 처리해 놓은 정보가 있는 경우, 그 맵핑 관계 처리 정보를 반영한 도면 부호의 설명 후보
3)1) 또는 2)가 없는 경우, 길이가 가장 짧은 도면 부호의 설명 후보
도면 부호의 설명 결정 규칙은 가공 규칙 데이터부(1340)에 저장될 수 있다.
위의 2가지 표에서 명세서 포함 도면 부호 "32"는 "actuator"가 1회, "actuator body" 가 3회가 등장하였다. 상기 우선 순위 원칙에 따라 명세서 포함 도면 부호 "32"에 대한 도면 부호의 설명은 "actuator body"가 되게 된다.
상기 컴퓨터 장치(1000)는 하기 표 3과 같은 명세서 포함 도면 부호와 도면 부호의 설명의 맵핑 데이터 및 도면 부호의 설명 속성 정보를 생성한다.
명세서 포함 도면 부호 도면 부호의 설명 나온 회수 확률(비율) 단어수 구성 문자수
304 laminated flexure 1 100%(1/1) 2 17
310 read head 1 100%(1/1) 2 9
305 flexure tail 1 100%(1/1) 2 12
30 HAS 1 100%(1/1) 1 3
36 actuator arms 1 100%(1/1) 2 13
32 actuator body 3 75%(3/4) 2 13
상기 표 3과 같은 데이터는 명세서 기반 데이터부(1320)에 저장되며, 집계 정보는 집계 데이터부(1350)에도 저장될 수 있다.
상기 구성 문자수는 도면 부호의 설명을 배치하기 위한 도면 부호의 설명 배치 데이터를 생성하는데 중요하게 활용된다. 도면 부호의 설명이 길면 길수록 도면 부호의 설명을 표시하기 위한 공간의 크기도 커져야 하기 때문에, 긴 도면 부호의 설명의 경우에는 다른 도면 부호의 설명과 충돌/겹칩이 발생할 가능성이 높기 때문에, 긴 도면 부호의 설명이 다량으로 포함되어 있는 경우에는 도면 부호의 설명 간의 배치가 아주 중요하게 된다.
도 12는 본 발명의 컴퓨터 장치(1000)의 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성 프로세스에 대한 일 실시예적 구현예이다.
도 12에서 예시되듯이 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호를 입수(S101)하고, 도면 포함 도면 부호에 대응되는 명세서 포함 도면 부호가 존재하는 가를 조회 (S102)하고, Yes 인 경우, 도면 포함 도면 부호와 명세서 포함 도면 부호의 맵핑(S103)하고, 명세서 포함 도면 부호를 매개로 도면 포함 도면 부호와 도면 부호의 설명에 대한 맵핑 데이터(1:1 또는 1:n) 생성(S104)하다. 한편, 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호에 대응되는 명세서 포함 도면 부호가 존재하지 않는 경우에는 명세서 포함 도면 부호가 존재하지 않는 도면 포함 도면 부호임을 저장하여, 이 도면 포함 도면 부호가 도면 포함 도면 부호와 도면 부호의 설명의 맵핑 처리에서 배제될 수 있도록 처리(S105)하는 방식으로 프로세싱 한다.
상기와 같은 방법을 통해서 도면 포함 도면 부호와 도면 부호의 설명 간의 맵핑 관계가 생성되면, 도면 부호의 설명을 도면 포함 도면 부호에 표현하는 방법을 처리할 수 있게 된다.
먼저, 도면 부호의 설명을 도면 포함 도면 부호에 표현하게 하기 위해서 도면 부호의 설명을 어떻게 도면 포함 도면 부호가 포함된 이미지에 배치할 것인가에 대한 데이터인 도면 부호의 설명 배치 데이터를 생성해야 한다. 도면 부호의 설명 배치 데이터 생성의 대 전제가 도면의 물리적 경계 조건(상하좌우) 내에서 도면 포함 도면 부호 주위에 도면 부호의 설명 또는 다른 언어로 번역된 도면 부호의 설명을 배치시킬 여백 공간을 탐색하는 것이다.
도 13은 본 발명의 컴퓨터 장치(1000)의 도면 부호의 설명 배치 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 13에서 예시되듯이 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호별 도면 부호의 설명 배치 최소 공간을 탐색(S111)하고, 도면 부호의 설명 배치 최소 공간이 적어도 2 이상의 도면 포함 도면 부호에 대해 겹침이 발생하는 지를 탐색(S112)하고, 겹침이 발생하는 도면 포함 도면 부호 집합과 겹침이 발생하지 않는 도면 포함 도면 부호 집합의 분리(S113)하는 처리를 먼저 수행한다. 이어, 상기 컴퓨터 장치(1000)는 겹침 발생하는 도면 포함 도면 부호 집합에 포함된 도면 부호의 설명 배치 전략 데이터의 생성(S114) 및 도면 부호의 설명 배치 전략 데이터를 참조하여 부호의 설명 배치 데이터를 생성(S115)하거나, 겹침 발생하지 않는 도면 포함 도면 부호 집합에 포함된 도면 부호의 설명 배치 전략 데이터 생성(S116) 및 도면 부호의 설명 배치 전략 데이터를 참조하여 부호의 설명 배치 데이터 생성(S117)하는 방식으로 프로세싱 한다.
도면 부호의 설명이 있는 경우, 도면 부호의 설명이 길이(총 문자의 개수)를 알 수 있으므로, 도면 부호의 설명을 표시할 폰트 및 폰트 사이즈에 따른 도면 부호의 설명를 표시하기 위한 필요 공간의 크기와 형태 정보가 계산된다. 상기 필요 공간의 크기와 형태 정보는 도면 부호의 설명을 몇 개의 행으로 표시할 것인지에 따라 유동적이게 된다.
가장 기본적인 도면 부호의 설명 배치 최소 공간의 탐색은 도면 부호의 설명마다, 상기 도면 부호의 설명 을 표시하기 위한 최소 공간(예, 1개 행 및 기설정된 폰트 및 폰트 사이즈로 계량하는 표시 공간)이 있는 지를 상기 맵핑되는 도면 표시 도면 부호 주변(오른쪽 또는 직하위 또는 직상위 등)에서 탐색하는 것이다. 만약 충분한 공간이 없는 경우, 변형 조건(폰트 크기 줄임, 2개 행 처리 등)으로 상기 도면 부호의 설명을 표시하기 위한 최소 공간의 존재를 탐색한다. 공간 탐색의 기본 방향은 도면 부호의 설명의 시작점에서 끝점 방향이 된다. 상기 도면 부호의 설명의 시작점은 도면 부호의 설명이 가상의 최소 크기의 사각형 블록 내에서 표시된다고 가정했을 때, 사각형 블록의 좌측 경계선이 된다. 물론, 상기 도면 포함 도면 부호가 도면의 우측 경계에 근접해 있을 때에는 상기 곤간 탐색의 기본 방향은 도면 부호의 설명의 끝점에서 시작점 방향이 된다.
한편, 상기 컴퓨터 장치(1000)는 상기 도면 부호의 설명 배치 최대 자유 공간을 탐색해 놓을 수도 있다. 상기 최대 자유 공간의 크기는 번역된 도면 부호의 설명의 표시 공간 탐색에 더욱 더 유용할 수 있다.
상기 최소 자유 공간과 최대 자유 공간 모두에는 도면을 구성하는 선도가 없거나 있더라도 희박한 선도 밀도인 것이 바람직할 것이다. 상기 선도 밀도는 흑백 도면일 경우, "선도가 있는 공간 크기/전체 공간 크기"로 계량할 수 있다.
이때, 상기 컴퓨터 장치(1000)는 상기 도면 부호의 설명의 단어수를 고려하여 단어 단위로 2행 이상으로 분절(개행 처리)하여 배치하여 겹칩이 발생하는 지를 탐색(S112b)하는 방법도 예비적으로 적용할 수 있다. 이러한 예비적 방법은 상기 도면 부호의 설명이 3단어 이상인 경우 아주 유용하게 활용될 수 있다. 상기 도면 부호의 설명 배치 최소 공간은 도면 부호의 설명의 길이 및 도면 부호의 설명이 표시되는 도면 부호의 설명 폰트의 크기에 의존성을 가진다. 상기 도면 부호의 설명 폰트의 크기는 도면 포함 도면 부호의 폰트 크기와 동일할 수도 있지만 더 작은 크기가 되는 것이 바람직할 것이다. 이유는 도면 부호의 설명의 길이가 도면 포함 도면 부호의 길이에 비하여 훨씬 더 큰 경우가 대부분이기 때문이다. 한편, 상기 도면 부호의 설명의 색깔은 도면 포함 도면 부호의 색깔과 일치할 수도 있지만, 일치하지 않는 것이 식별력 또는 가독성에 있어서 더욱 더 바람직할 것이다.
한편, 상기 컴퓨터 장치(1000)는 폰트 크기의 조절이나 2행 이상의 개행 처리를 통해서도 상기 도면 부호의 설명의 충돌/겹침 현상을 피할 수 없는 경우에는 다음과 같은 3가지 중 어느 하나 이상을 적용하는 프로세스를 수행한다.
1) 충돌/겹침 현상이 발생하는 도면 부호의 설명 간의 색깔이나 폰트 종류나 폰트 크기를 달리하는 방법
2) 충돌/겹침 현상이 발생하는 도면 부호의 설명 중 어느 하나 이상을 축약 표기하는 경우(예를 들면 3단어 중 2단어만 표시하는 등과 같은 축약 표기 처리)
3) 충돌/겹침 현상이 발생하는 도면 부호의 설명 중 어느 하나 이상을 도면의 여백 공간에 표기하고, 선택적으로 여백 공간에 표기된 도면 부호의 설명과 이에 대응하는 도면 포함 도면 부호 간을 연결선으로 연결하여 도면 포함 도면 부호에 대응되는 도면 부호의 설명을 쉽게 발견할 수 있도록 처리하는 방법
도 14 내지 도 16에는 도 13의 도면 부호의 설명 배치 프로세스 이외에도 다른 도면 부호의 설명 배치 프로세스가 개시되어 있다.
도 14는 본 발명의 컴퓨터 장치(1000)의 도면 부호의 설명 배치 프로세스에 대한 일 실시예적 구현예이다.
도 14에서 예시되듯이 상기 컴퓨터 장치(1000)는 제n 도면 포함 도면 부호 위치 좌표, 제n 도면 부호의 설명 텍스트 입수(S121)하고, 제n 도면 부호의 설명 텍스트의 길이를 입수(S122)하고, 제n 도면 부호의 설명 텍스트의 길이를 반지름으로 하고, 제n 도면 포함 도면 부호 블록의 우측면 중심에서 제n 도면 부호의 설명 텍스트 길이를 반지름으로 하는 반원을 형성(S123)하고, 반원의 내에서 기 설정된 각도 단위로 제n 도면 부호의 설명 텍스트 공간과 제1 내지 제n-1 도면 부호의 설명 텍스트가 최소로 충돌하는 각도 결정(S124)하고, 결정된 최소 충돌 각도 데이터를 저장(S125)하는 방식으로 프로세싱 한다.
도 15는 본 발명의 컴퓨터 장치(1000)의 다른 도면 부호의 설명 배치 프로세스에 대한 일 실시예적 구현예이다.
도 15에서 예시되듯이 상기 컴퓨터 장치(1000)는 제n 도면 포함 도면 부호 위치 좌표, 제n 도면 부호의 설명 텍스트 입수(S131)하고, 제n 도면 부호의 설명 텍스트의 길이를 입수(S132)하고, 제n도면 포함 도면 부호 블록의 하단에 제1 내지 제n-1 도면 부호의 설명 텍스트와 최소로 충돌하는 각도로 제n 도면 부호의 설명 텍스트 공간을 결정(S133)하고, 결정된 최소 충돌 각도 데이터를 저장(S134)하는 방식으로 프로세싱 한다.
도 16은 본 발명의 컴퓨터 장치(1000)의 근접 도면 포함 도면 부호 클러스터 발굴 프로세스에 대한 일 실시예적 구현예이다.
도 16에서 예시되듯이 상기 컴퓨터 장치(1000)는 2 이상의 근접 도면 포함 도면 부호 클러스터를 발굴(S141)하고, 근접 도면 포함 도면 부호 클러스터의 표시 밀도를 계량(S142)하고, (마름모) 표시 밀도가 기 설정된 수준 이상인가 (S143)하고, (Yes) 도면 부호의 설명 배치 전략 데이터를 생성하지 않고, 도면 내 여백 공간의 위치 정보를 생성(S144)하고, (No) 도면 부호의 설명 배치 전략 데이터를 생성(S145)하는 방식으로 프로세싱 한다.
도 17은 본 발명의 컴퓨터 장치(1000)의 도면 내 여백 공간의 위치 정보를 생성 프로세스에 대한 일 실시예적 구현예이다.
도 17에서 예시되듯이 상기 컴퓨터 장치(1000)는 근접 도면 포함 도면 부호 클러스터에 포함되는 전체 도면 포함 도면 부호 또는 적어도 하나 이상의 도면 포함 도면 부호를 추출(S151)하고, 추출된 도면 포함 도면 부호 및 상기 도면 포함 도면 부호에 대응되는 도면 부호의 설명이 표시되기 위한 필요 여백 공간을 계산(S152)하고, 계산된 상기 필요 여백 공간에 대응되며, 도면 상에 할당되는 도면 내 여백 공간의 위치를 결정(S153) 처리하는 방식으로 프로세싱 한다.
여백 공간에 표시되는 도면 부호의 설명은 겹침/충돌이 발생하는 도면 부호의 설명을 대상으로 하며, 상대적으로 중요도가 낮은 도면 부호의 설명이 여백 공간에 표시되도록 처리하는 것이 바람직할 것이다. 상대적으로 중요도가 낮은 도면 부호의 설명의 예시는 다른 도면에서도 빈번하게 등장하는 도면 부호의 설명이거나, 반대로 상위 계층의 도면 포함 도면 부호에 대응되는 도면 부호의 설명을 들 수 있다.
상기 여백 공간의 탐색은 도면의 물리적 경계 조건(상하좌우) 하에서 탐색되어야 한다. 특히, 도면의 우측 경계 근방에 위치한 도면 포함 도면 부호의 경우, 도면 부호의 설명을 오른쪽으로 배치시킬 수 없는 문제가 발생한다. 따라서, 도면의 우측 경계부(예를 들면, 전체 도면을 수직으로 10등분했을 때, 우측에서 0~20% 내)에 있는 도면 포함 도면 부호의 경우, 아주 짧은 도면 부호의 설명이 아닌 다음에는 도면 부호의 설명을 도면 포함 도면 부호의 좌측이 아니라 우측에 배치시켜야 한다. 따라서, 이러한 도면 부호의 설명을 위한 배치 공간의 탐색은 도면 포함 도면 부호의 우측 방향쪽으로 집중되어야 하며, 도면 부호의 설명의 어떠한 부분도 도면의 물리적 우측 경계선 내에 있어야 한다.
상기 컴퓨터 장치(1000)는 도면에서 절대 여백 공간을 발굴하여, 절대 여백 공간에 기설정된 조건에 대응되는 도면 부호의 설명을 집중적으로 배치시키는 정보 처리를 수행한다. 도면의 특정 공간에 도면 포함 도면 부호가 집중적으로 배치되거나, 도면 포함 도면 부호가 도면의 물리적 우측 경계면 주변에 몰려 있는 경우 도면 부호의 설명의 배치할 수 있는 여백 공간이 절대적으로 부족할 수 있다. 이때, 상기 컴퓨터 장치(1000)는 도면에서 적어도 하나 이상의 절대적 여백 공간(도면 포함 도면 부호나 도면을 구성하는 선도, 색구분, 색흐림 등이 없는 공간)을 탐색하고, 절대적 여백 공간의 물리적 위치 및 크기를 계산한다. 통상적으로 Fig. 표현 근방이나 도면의 상단부나 하단부에 절대적 여백 공간이 많이 있다.
도 31에서 예시되는 바와 같이, 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호의 주변에 도면 부호의 설명을 배치시키지 못하는 도면 부호의 설명들을 모아서 절대적 여백 공간에 도면 부호의 설명을 표시할 수 있다. 이때, 상기 도면 포함 도면 부호와 도면 부호의 설명은 상당히 많이 떨어져 있으므로, 절대적 공간에 표시되는 도면 부호의 설명 앞이나 뒤에는 도면 포함 도면 부호가 함께 표시되어 있거나, 도면 포함 도면 부호와 도면 부호의 설명 사이를 색깔이 있는 연결선으로 연결하는 처리를 되는 것이 바람직할 것이다. 한편,
상기 도면 부호의 설명은 도면 이미지에 강한 결합(hard binding) 방식으로 처리되어 물리적으로 일체(단일 파일에 도면 포함 도면 부호와 도면 부호의 설명이 모두 존재하는 방식 또는 레이어 개념이 적용되지 않는 방식)로 존재할 수도 있다. 하지만, 사용자의 컴퓨터에 도면이 표시될 때, 도면 이미지와 도면 부호의 설명 레이어 정보가 결합되어 제공되는 약한 결합(soft binding) 방식이 더욱 더 바람직할 수 있다. 이를 위하여, 상기 컴퓨터 장치(1000)가 도면 부호의 설명 레이어를 도면 이미지와는 독립적으로 생성하고, 도면 부호의 설명 레이어 정보를 도면 이미지와는 독립적으로 저장한다. 도면 이미지와 도면 부호의 설명 레이어 정보가 독립적으로 관리되면, 상기 컴퓨터 장치(1000) 또는 상기 컴퓨터 장치(1000)의 기능을 사용하는 제3의 시스템의 사용자에 의해 특정한 도면이 호출될 때, 상기 도면에 대응되는 도면 부호의 설명 레이어 정보도 함께 호출 될 수 있다. 도면 부호의 설명 레이어를 구성하고 및 도면 부호의 설명 레이어를 도면 포함 도면 부호에 겹쳐서 사용자에게 제공되는 것은 상기 컴퓨터 장치(1000), 상기 제3의 시스템 또는 사용자 컴퓨터에서 처리될 수도 있다.
도면 이미지와 도면 부호의 설명 레이어 정보가 독립적으로 관리되는 것의 장점에는 다음과 같은 것이 있다.
첫째, 도면 이미지 데이터는 변동성이 거의 없지만 도면 이미지 데이터에서 추출하는 도면 포함 도면 부호 및 도면 포함 도면 부호에 대응되는 도면 부호의 설명은 상대적으로 변동성이 클 수 있다. 도면 포함 도면 부호의 인식의 정확도, 도면 포함 도면 부호와 명세서 포함 도면 부호의 맵핑, 명세서에서 도면 부호의 설명 추출 및 명세서 포함 도면 부호와 도면 부호의 설명에 대한 맵핑은 정보 처리 방식이나 정책, 우선 순위 등에 따라 가변적일 수 있다. 따라서, 도면 이미지와 도면 부호의 설명을 강하게 결합하는 경우, "도면 포함 도면 부호 vs. 도면 부호의 설명"에서 변동이 발생하는 경우에는 과거에 생성되어 있던 가공 도면을 폐기해야 하는 문제가 발생할 수도 있다.
둘째, 도면 부호의 설명은 번역의 대상이 될 수 있다. 영어로 된 도면 부호의 설명을 기계 번역 등의 번역을 수행하여 자신이 원하는 언어로 표시되게 하기 위해서는 번역 기능을 제공하는 프로그램/서비스도 필요하지만 무엇보다도 도면 부호의 설명이 이미지가 아닌 텍스트로 인지될 수 있어야 한다.
셋째, 도면 부호의 설명을 표시하는 방법이 지속적으로 변동할 수도 있다. 도면 부호의 설명 배치 데이터를 구성하는 내용이 달라지거나 업데이트 되는 경우, 변경 또는 업데이트가 반영된 도면 부호의 설명이 제공될 필요가 있다.
도 18은 본 발명의 컴퓨터 장치(1000)의 도면 부호의 설명 레이어 처리 프로세스에 대한 일 실시예적 구현예이다.
도 18에서 예시되듯이 상기 컴퓨터 장치(1000)는 도면 부호의 설명 배치 데이터 입수(S161)하고, 도면 부호의 설명 레이어 데이터 생성(S162)하고, 도면 부호의 설명 레이어 데이터를 저장하거나, 도면 부호의 설명 레이어 데이터로 도면 부호의 설명 레이어 파일을 생성하여 저장(S163)하는 방식으로 프로세싱 한다. 상기 도면 부호의 설명 레이어 데이터는 레이어를 구성할 수 있는 도면 부호의 설명과 관련된 데이터를 말한다. 레이어를 구성하기 위한 최소 정보는 "도면 부호의 설명 + 도면 부호의 설명의 배치 위치"일 수 있다. 도면 부호의 설명 레이어 파일
도 19는 본 발명의 컴퓨터 장치(1000)의 도면 부호의 설명 배치 데이터를 생성 프로세스에 대한 일 실시예적 구현예이다.
도 19에서 예시되듯이 상기 컴퓨터 장치(1000)는 도면 포함 도면 부호를 인식하고 도면 포함 도면 부호 속성 집합 정보를 생성(S171)하고, 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 번호의 설명을 인식하고, 상기 도면 부호의 설명에 대응하는 도면 부호의 설명 속성 집합 정보를 생성(S172)하고, 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성(S173)하는 방식으로 프로세싱 한다.
많은 도면에서 도면 포함 도면 부호는 계층형으로 구성되는 경우가 많다. 예를 들면, 1000이 최상위 도면 포함 도면 부호라면, 1100이나 1200은 차상위 도면 포함 도면 부호인 경우가 많으며, 1111또는 1111a 등은 최하위 도면 포함 도면 부호인 경우가 많다. 이와 같은 계층 구조를 반영하여 도면 포함 도면 부호에 대응되는 도면 부호의 설명의 폰트 크기를 계층 구조의 속성에 연동하여 조절하거나, 색깔을 다르게 부여할 수도 있을 것이다. 예를 들면 하기 표 4와 같은 도면 부호의 설명 배치 데이터를 생성할 수 있다.
도면 포함 도면 부호 도면 부호의 설명 단어수 도면 부호의 설명 길이 도면 부호의 설명 폰트 상대 크기 도면 부호의 설명 색깔 도면 부호의 설명 위치 개행 처리 도면 부호의 설명 축약 적용
1000 1 10 black 우측 x x
1100 2 15 blue 우측 x x
1110 2 20 sky blue(투명도 75%) 아래 x o
1111 3 30 sky blue(투명도 50%) 아래 하단 x o
1120 3 15 dark blue(투명도 75%) 우측 o x
1200 2 15 Brown 우측 상단 x x
상기 표 4와 같은 데이터는 도면 기반 데이터부(1310)에 저장되며, 집계 정보는 집계 데이터부(1350)에도 저장될 수 있다.
상기 예시의 도면 부호의 설명 위치 칼럼에서 "우측"은 도면 포함 도면 부호의 문자열의 나열 방향인 우향과 같은 방향의 연장되는 위치에 도면 부호의 설명이 표시됨을 의미한다. 한편, 도면 포함 도면 부호의 문자열 나열 방향이 우향인 경우에라도 도면 부호의 설명은 도면 포함 도면 부호의 아래 또는 위에 표시될 수도 있다. 통상적인 도면 포함 도면 부호의 문자열 나열 방향은 우향인 것이 일반적이나 경우에 따라서는 상향 또는 하향 또는 일정한 각도를 가지는 방향도 있다. 이 경우에도 문자열의 나열 방향의 연장 방향에 도면 부호의 설명이 표시되는 것이 통상적으로 바람직하다.
상기 도면 부호의 설명 위치는 정확하게 지정될 필요성이 있다. 가장 보편적인 방법은 도면 부호의 설명 위치를 결정하기 위한 4개의 좌표값(도면 부호의 설명이 표시되는 직사각형 도면 부호의 설명 블록에 대응되는 4개의 꼭지점의 좌표값)을 도입하는 것이다. 도면 포함 도면 부호의 위치 정보도 4개의 좌표값으로 구성되는 것이 바람직할 것이다.
도 20은 본 발명의 컴퓨터 장치(1000)의 복합 도면을 전처리 프로세스에 대한 일 실시예적 구현예이다.
도 20에서 예시되듯이 상기 컴퓨터 장치(1000)는 도면에서 도면 번호의 개수를 식별(S181)하고, 도면 번호의 개수가 2 이상인 경우, 상기 도면을 도면 번호의 개수만큼 절단하여 독립 도면 데이터를 생성(S182)하는 방식으로 프로세싱 한다.
도면 번호의 개수는 "Fig. + 숫자"나 "도 + 숫자"와 같은 독립적인 도면 번호를 가지는 표현이 단일 도면 이미지 파일에 몇 개 존재하는 가를 파악하는 것을 말한다. 상기 컴퓨터 장치(1000)는 독립적인 도면 번호를 가지는 표현 단위로 도면을 물리적으로 분할 처리하고, 분할된 도면을 대상으로 본 발명 사상을 적용할 수 있다.
이어, 상기 컴퓨터 장치(1000)가 가공 도면 데이터를 생성하는 프로세스에 대해서 설명한다.
도 21은 본 발명의 컴퓨터 장치(1000)의 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 21에서 예시되듯이 상기 컴퓨터 장치(1000)는 오리지널 도면 파일 입수(S191)하고, 도면 파일에 대응되는 도면 부호의 설명 배치 데이터 입수(S192)하고, 도면 부호의 설명 배치 데이터를 참조하여 도면 포함 도면 부호 주변에 도면 부호의 설명을 물리적으로 삽입한 가공 도면 파일을 생성(S193)하는 방식으로 프로세싱 한다. 가공 도면 파일은 가공 도면 파일 저장부(1212)에 저장된다. 이때, 가공 도면 파일은 상기 도면 부호의 설명을 적어도 1개 이상의 다른 언어로 번역한 번역 도면 부호의 설명을 사용하여 제작할 수도 있을 것이다.
도면 부호의 설명이 번역되면, 도면 부호의 설명의 길이가 달라지게 된다. 특히, 동양 문화권의 도면 부호의 설명 표현은 상대적으로 짧은 반면, 영미권은 상대적으로 길고, 프랑스어나 스페인어는 가장 긴 경향이 있다. 상기 컴퓨터 장치(1000)는 번역된 도면 부호의 설명을 위해 다음과 같은 3가지 정보를 처리한다.
첫째, 상기 컴퓨터 장치(1000)는 번역된 도면 부호의 설명을 기준으로 배치 정보를 재생성하는 정보 처리를 수행한다. 이를 위해, 상기 컴퓨터 장치(1000)는 도면 부호의 설명에 대한 번역(기계 번역 등) 데이터를 입수하고, 번역 도면 부호의 설명을 본 발명의 도면 부호의 설명처럼 취급하여 번역 도면 부호의 설명의 배치를 위한 각종 데이터를 생성한다.
둘째, 상기 컴퓨터 장치(1000)는 각 언어별로 평균적인 길의 배수 데이터만 계산해 놓고, "배수" 처리된 도면 부호의 설명 길이를 기준으로(물론, font 사이즈의 평균적인 증가/감소도 포함한 배수이어야 함.) 번역된 도면 부호의 설명의 배치를 위한 각종 데이터를 생성한다. 예시적으로 한자:영어 = 1: 3.5, 한국어 : 영어 = 1:2.5 등과 같은 배수 데이터를 생성하여 사용한다. 배수 데이터는 매우 큰 수의 샘플 도면 부호의 설명에 대하여 각 언어권별로의 번역 도면 부호의 설명을 생성하고, 동일 폰트에서의 문자(캐릭터)의 개수를 비교함으로써 생성 가능하다. 통상적으로 동양어권 문자의 적정 폰트보다 영미권 언어의 적정 폰트는 더 작다. 즉, 영미권 도면 부호의 설명은 길이가 더 긴 반면, 더 작은 폰트를 사용하더라도 가독성이 유지된다.
셋째, 브라우저에서의 번역 연동을 통한 처리이다. 이 경우, 브라우저에서 도면 부호의 설명에 대한 번역 결과의 입수와 배치를 수행할 수 있으므로, 브라우저에 전송하는 데이터에 기능 구현을 위한 스크립트가 포함되어 있어야 함은 물론일 것이다.
도 22는 본 발명의 컴퓨터 장치(1000)의 다른 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 22에서 예시되듯이 상기 컴퓨터 장치(1000)는 오리지널 도면 파일 입수(S201)하고, 도면 파일에 대응되는 도면 부호의 설명 배치 데이터 입수(S202)하고, 도면 부호의 설명 배치 데이터 레이어 생성(S203)하고, 오리지널 도면 레이어와 도면 부호의 설명 배치 데이터 레이어가 논리적으로 결합(soft binding)된 가공 도면 파일을 생성(S204)하는 방식으로 프로세싱 한다. 논리적으로 결합(soft binding)된 가공 도면 파일은 가공 도면 파일 저장부(1212)에 저장될 수도 있지만, 저장하지 않고 실시간 생성 및 사용 후 저장하지 않을 수도 있다.
도 23은 본 발명의 컴퓨터 장치(1000)의 또다른 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 23에서 예시되듯이 상기 컴퓨터 장치(1000)는 오리지널 도면 파일 입수(S211)하고, 도면 파일에 대응되는 도면 부호의 설명 배치 데이터 입수(S212)하고, 도면 부호의 설명 배치 데이터 레이어 정보를 생성(S213)하고, 오리지널 도면 파일에 도면 부호의 설명 배치 데이터 레이어 정보의 연동을 지원하는 연동 정보 삽입(S214)하는 방식으로 프로세싱 한다. 오리지널 도면 파일에 삽입되어 있는 연동 정보를 통하여 상기 오리지널 도면 파일을 처리하는 프로세스는 도면 부호의 설명 배치 데이터 레이어 정보를 입수하여 오리지널 도면과 강한 결합 처리를 하거나 약한 결합 처리를 수행할 수 있다.
도 24는 본 발명의 컴퓨터 장치(1000)의 또다른 가공 도면 데이터 생성 프로세스에 대한 일 실시예적 구현예이다.
도 24에서 예시되듯이 상기 컴퓨터 장치(1000)는 오리지널 도면 파일 입수(S221)하고, 도면 파일에 대응되는 도면 부호의 설명 배치 데이터 입수(S222)하고, 도면 부호의 설명 배치 데이터 레이어 파일 생성(S223)하고, 오리지널 도면 파일과 도면 부호의 설명 배치 데이터 레이어 파일 간의 연동을 지원하는 도면 연동 데이터 생성(S224)하는 방식으로 프로세싱 한다. 오리지널 도면 파일에 삽입되어 있는 연동 정보를 통하여 상기 오리지널 도면 파일을 처리하는 프로세스는 도면 부호의 설명 배치 데이터 레이어 파일을 입수하여 오리지널 도면과 강한 결합 처리를 하거나 약한 결합 처리를 수행할 수 있다
도 25는 US 특허 출원 14/249,716호의 특정 도면에 대한 본 발명 사상 적용 전의 도면에 대한 예시이다. 상대적으로 간단한 도면이나 이 도면의 도면 포함 도면 부호에는 도면 부호의 설명이 부가되어 있지 않다.
도 26은 US 특허 출원 14/249,716호의 특정 도면에 대한 본 발명 사상 적용 후의 사용자가 체감할 수 있는 도면에 대한 예시이다. 도 25의 도면에 도면 부호의 설명이 부가된 본 발명이 적용된 도면이다.
도 27은 US 특허 출원 14/249,716호의 특정 도면에 대한 본 발명 사상이 적용된 도면 부호의 설명 레이어에 대한 예시이다. 도 25의 도면과 관련된 도면 부호의 설명이 배치되어 있는 도면 부호의 설명 레이어 도면이다.
도 28은 US 특허 출원 14/249,716호의 특정 도면에 대한 도면 부호의 설명 레이어에 오리지널 도면 부호의 설명이 아닌 번역된 도면 부호의 설명이 나타나는 일 예시이다. 도 25의 도면과 관련된 도면 부호의 설명이 다른 언어로 제공되는 도면 부호의 설명 레이어 도면이다.
도면 부호에 오리지널 도면 부호의 설명이 있는 경우, 기계 번역 또는 기타의 번역 과정을 통하여 번역된 도면 부호의 설명이 생성될 수 있을 것이다. 하기 표 5는 도 25와 관련된 오리지널 도면 부호의 설명과 다른 언어로 된 도면 부호의 설명이 쌍으로 나타나 있는 데이터의 예시가 된다.
도면 도면 부호 도면 부호의 설명(오리지널) 도면 부호의 설명(번역)
fig. 10 24 substrate 기판
fig. 10 302 thin-film transistor structures 박막 트랜지스터 구조체들
fig. 10 306 Gate insulator layer 게이트 절연체 층
fig. 10 308 silicon layer  실리콘 층
fig. 10 310 silicon layer  실리콘 층
fig. 10 312 Oxide layer 산화물 층
fig. 10 314 gate 게이트
fig. 10 316 metal structures 금속 구조체들
fig. 10 318 metal structures 금속 구조체들
fig. 10 320 Passivation layer 패시베이션 층
fig. 10 322 metal structures 금속 구조체들
도 29는 번역된 도면 부호의 설명이 적용된 사용자가 체감할 수 있는 도면에 대한 예시이다.
도 29는 본 발명 사상 적용 전의 도면에 대한 다른 예시이다. 상대적으로 간단한 도면이나 이 도면의 도면 포함 도면 부호에는 도면 부호의 설명이 부가되어 있지 않다.
도 30은 US 특허 출원 14/249,716호의 특정 도면에 대한 본 발명 사상 적용 전의 도면에 대한 다른 예시이다.
도 31은 US 특허 출원 14/249,716호의 특정 도면에 대한 본 발명 사상 적용 후의 사용자가 체감할 수 있는 도면에 대한 다른 예시이다. 도 30의 도면에 도면 부호의 설명이 부가된 본 발명이 적용된 도면이다.
도 32은 US 특허 출원 14/249,716호의 특정 도면에 대한 본 발명 사상이 적용된 도면 부호의 설명 레이어에 대한 다른 예시이다. 도 30의 도면과 관련된 도면 부호의 설명이 배치되어 있는 도면 부호의 설명 레이어 도면이다.
도 33는 US 특허 출원 14/249,716호의 특정 도면에 대한 도면 부호의 설명 레이어에 오리지널 도면 부호의 설명이 아닌 번역된 도면 부호의 설명이 나타나는 다른 예시이다. 도 30의 도면과 관련된 도면 부호의 설명이 다른 언어로 제공되는 도면 부호의 설명 레이어 도면이다.
하기 표 6는 도 30와 관련된 오리지널 도면 부호의 설명과 다른 언어로 된 도면 부호의 설명이 쌍으로 나타나 있는 데이터의 예시가 된다.
도면 도면 부호 도면 부호의 설명(오리지널) 도면 부호의 설명(번역)
fig. 3 24 substrate 기판
fig. 3 42 light-emitting diode cathode terminal 발광 다이오드 캐소드 단자
fig. 3 44 light-emitting diode anode terminal 발광 다이오드 애노드 단자
fig. 3 46 dielectric layer 유전체 층
fig. 3 47 Organic light-emitting diode emissive material 유기 발광 다이오드 방출 재료
fig. 3 50 Planarization layer 편광 층
fig. 3 52 Thin-film transistor structures 박막 트랜지스터 구조체들
fig. 3 54 buffer layer 버퍼 층
fig. 3 58 silicon transistor 실리콘 트랜지스터
fig. 3 60 oxide transistor  트랜지스터
fig. 3 62 polysilicon layer 폴리실리콘 층
fig. 3 64 gate insulator layer 게이트 절연체 층
fig. 3 66 metal layer 금속 층
fig. 3 68 silicon nitride layer 실리콘 질화물 층
fig. 3 70 silicon oxide layer 실리콘 산화물 층
fig. 3 72 circuitry 회로
fig. 3 74 Source-drain contacts 소스-드레인 콘택들
fig. 3 76 Source-drain contacts 소스-드레인 콘택들
fig. 3 80 Oxide layer 반도체성 산화물 층
fig. 3 82 Source-drain terminals 소스-드레인 단자들
fig. 3 84 Source-drain terminals 소스-드레인 단자들
도 34는 US 특허 출원 14/249,716호의 특정 도면에 대한 번역된 도면 부호의 설명이 적용된 사용자가 체감할 수 있는 도면에 대한 다른 예시이다.
본 발명의 특허 정보 산업, 특허 정보 서비스 산업, 기술 정보 사업 및 기술 정보 서비스 산업에 광범위하게 활용할 수 있다.
1000 : 컴퓨터 장치
1100 : 프로세서
1200 : 파일 저장부
1300 : DB부
1400 : 통신부
3000 : 유무선 네트워크
2000 : 타 장치
1210 : 도면 파일 저장부
1211 : 오리지널 도면 파일 저장부
1212 : 가공 도면 파일 저장부
1220 : 명세서 파일 저장부
1310 : 도면 기반 데이터부
1320 : 명세서 기반 데이터부
1330 : 도면 부호의 설명 배치 데이터 데이터부
1340 : 가공 규칙 데이터부
1350 : 집계 데이터부

Claims (24)

  1. 특허 도면이 사용자에게 제시될 때 도면 부호의 주위에 도면 부호의 설명이 표시되도록 하는 도면 부호의 설명 표시 도면 콘텐츠가 제공되도록 처리하는 방법으로서,
    컴퓨터 장치가
    적어도 하나 이상의 타 장치로부터 개별 도면 단위, 개별 특허 단위 또는 기설정된 단위로 도면 부호의 설명 표시 도면 콘텐츠 요청 정보를 수신하는 단계;
    상기 도면 부호의 설명 표시 도면 콘텐츠 요청 정보에 대응하는 도면 부호의 설명 표시 도면 콘텐츠를 입수하는 단계;
    상기 수신된 도면 부호의 설명 표시 도면 콘텐츠 요청 정보에 대응하여 도면 부호의 설명 표시 도면 콘텐츠를 상기 타 장치로 전송하는 단계;를 포함하며,
    상기 도면 부호의 설명 표시 도면 콘텐츠는
    (A) 상기 컴퓨터 장치가
    (A1) 도면에 포함되어 있는 도면 포함 도면 부호를 인식하고,
    (A2) 상기 인식된 도면 포함 도면 부호에 대응하는 도면 포함 도면 부호 속성 집합 정보를 생성하는 단계;
    (B) 상기 컴퓨터 장치가 상기 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 부호의 설명을 인식하는 단계;
    (C) 상기 컴퓨터 장치가
    상기 도면 포함 도면 부호, 상기 명세서 포함 도면 부호 및 상기 도면 부호의 설명을 사용하며, 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계;를 포함하는 방법으로 생성되는 것인 것을 특징으로 하는 방법.
  2. 제 1항에 있어서,
    상기 (A1) 단계는
    (A11) 상기 도면에서 숫자가 포함된 문자열을 인식하는 단계;
    (A12) 상기 문자열을 처리하여 상기 도면 포함 도면 부호를 결정하는 단계; 및
    (A13) 상기 도면 포함 도면 부호에 대하여 도면 포함 도면 부호의 속성 정보를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  3. 제 2항에 있어서,
    상기 (A12) 단계는
    1) 상기 문자열이 숫자만으로 되어 있거나, 숫자와 문자의 비율이 기 설정된 비율 이하이거나, 기 설정된 길이 이하이거나, 기 설정된 도면 포함 도면 부호의 결정 패턴 규칙(띄어 쓰기, 숫자로 시작, 숫자로 끝남, 짧은 단어 BUT 사전/예약 문자에 없음 ,밑줄, : 설명 등)에 대응되는 경우에는 도면 포함 도면 부호로 결정하는 제1 도면 포함 도면 부호 결정 방법,
    2) 추출된 상기 문자열이 상기 명세서 포함 도면 부호 또는 상기 명세서 포함 도면 부호 이전에 생성되는 명세서 포함 도면 부호 후보 집합을 구성하는 문자열과 일치, 기 설정된 기준 이상으로의 포함, 기 설정된 기준 이상으로의 부분 일치가 충족되는 경우, 상기 도면 포함 도면 부호로 결정하는 제2 도면 포함 도면 부호 결정 방법,
    3) 추출된 상기 문자열이 다른 도면에서도 기 설정된 회수 이상으로 출현하는 경우에는 도면 포함 도면 부호로 결정하는 제3 도면 포함 도면 부호 결정 방법,
    중 어느 하나의 방법을 사용하거나, 어느 2 이상의 방법을 결합하여 사용하는 것인 것을 특징으로 하는 방법.
  4. 제 2항에 있어서,
    상기 (A13) 단계에서 상기 도면 포함 도면 부호의 속성 정보는
    상기 도면 포함 도면 부호의 속성 정보는 상기 도면 포함 도면 부호의 후보의 문자열을 필수적으로 포함하고,
    상기 문자열의 위치 정보, 길이, 방향, 폰트 크기 중 어느 하나 이상을 선택적으로 포함하는 것인 것을 특징으로 하는 방법.
  5. 제 1항에 있어서,
    상기 (B) 단계는
    상기 명세서가 마크업 언어로 작성되어 있는 경우,
    (B1a) 도면 부호에 대응하는 명세서 포함 도면 부호의 태그부를 인식하고, 상기 명세서 포함 도면 부호의 태그부에서 상기 명세서 포함 도면 부호를 추출하는 단계;
    (B2a) 상기 명세서 포함 도면 부호의 태그부를 기준으로 상기 명세서 포함 도면 부호의 태그부와의 기 설정된 위치에 있는 문자열 블록을 추출하는 단계; 및
    (B3a) 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정하는 단계;를 더 포함하는 것이며,
    상기 명세서가 마크업 언어로 작성되어 있지 않은 경우,
    (B1b) 기 설정된 명세서 포함 도면 부호 식별 규칙을 적용하여, 상기 명세서 포함 도면 부호를 추출하는 단계;
    (B2b) 상기 명세서 포함 도면 부호를 기준으로 상기 명세서 포함 도면 부호와의 기 설정된 위치에 있는 문자열 블록을 추출하는 단계; 및
    (B3b) 추출된 상기 문자열에서 도면 부호의 설명 후보를 결정하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  6. 제 5항에 있어서,
    상기 (B3a) 또는 상기 (B3b) 단계는
    상기 문자열 블록이 비기호 텍스트 문자열을 포함는 경우,
    1) 상기 태그부에서 가장 가까운 도면 부호의 설명 시작 식별자 이후부터 상기 태그부 시작까지의 문자열을 도면 부호의 설명 후보를 결정하는 제1 도면 부호의 설명 후보 결정 방법,
    2) 상기 태그부에서 설정된 n번째 가까운 도면 부호의 설명 시작 식별자까지의 문자열 부분을 추출하고, 기 설정된 도면 부호의 설명 후보 결정 규칙을 적용하여 도면 부호의 설명 후보를 결정하는 제2 도면 부호의 설명 후보 결정 방법 중 어느 하나 이상의 방법을 사용하는 것인 것을 특징으로 하는 방법.
  7. 제 5항에 있어서,
    상기 (B3a) 단계 또는 상기 (B3b) 단계 이후에
    (B4) 상기 명세서 포함 도면 부호에 대응되는 적어도 하나 이상의 상기 도면 부호의 설명 후보를 입수하고, 도면 부호의 설명 결정 규칙을 참고하여 상기 명세서 포함 도면 부호에 대응하는 도면 부호의 설명을 결정하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  8. 제 1항에 있어서,
    상기 도면 포함 도면 부호와 상기 도면 부호의 설명에 대한 결합 속성 데이터를 생성하는 것은
    (C1) 상기 도면 포함 도면 부호와 상기 도면 부호의 설명에 대한 맵핑 데이터를 생성하는 단계; 및
    (C2) 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계;
  9. 제 8항에 있어서,
    상기 (C1) 단계는 상기 명세서 포함 도면 부호를 매개로 상기 도면 포함 도면 부호와 상기 도면 부호의 설명을 (확률적으로) 맵핑하는 것인 것을 특징으로 하는 방법.
  10. 제 8항에 있어서,
    상기 (C2) 단계는 상기 도면마다 생성되는 것이며,
    상기 도면 부호의 설명 배치 데이터는 상기 도면 포함 도면 부호별로 대응되는 도면 부호의 설명의 배치 여부, 배치 우선 순위, 배치 위치, 배치 방향, 텍스트 속성 정보, 축약 표현 사용 여부, 계층 정보, 공통 텍스트 기반 계열 정보, 및 기타 도면 부호의 설명 메타 정보 중 어느 하나 이상을 포함하는 도면 부호의 설명 표시 제어 정보를 것인 것을 특징으로 하는 방법.
  11. 제 8항에 있어서,
    상기 (C2) 단계는 상기 도면마다 생성되는 것이며,
    (C21) 상기 도면에서 선택되는 적어도 하나 이상의 상기 도면 포함 도면 부호별로 상기 도면 포함 도면 부호의 위치 정보를 고려한, 상기 도면 포함 도면 부호에 대응되는 도면 부호의 설명의 배치를 위한 도면 부호의 설명 배치 최소 공간을 탐색하는 단계;
    (C22) 상기 도면 부호의 설명 배치 최소 공간이 적어도 2 이상의 도면 포함 도면 부호에 대해 겹침이 발생하는 지를 탐색하는 단계;
    (C23) 겹침의 발생 여부에 대응하여 도면 부호의 설명 배치 전략 데이터를 생성하는 단계;
    (C24) 상기 도면 부호의 설명 배치 전략 데이터를 참조하여 도면 부호의 설명 배치 데이터를 생성하는 단계;
  12. 제 1항에 있어서,
    상기 도면 부호의 설명은 도면 부호의 설명 속성 정보를 포함하고 있는 것이며,
    상기 도면 부호의 설명 속성 정보는 도면 독립적 도면 부호의 설명 속성 정보와 도면 종속적 도면 부호의 설명 속성 정보로 구분될 수 있는 것인 것이며,
    상기 도면 독립적 도면 부호의 설명 속성 정보는 도면 부호의 설명 텍스트, 도면 부호의 설명 텍스트의 길이, 관련된 도면 부호의 설명에 대응되는 도면 포함 도면 부호 또는 명세서 포함 도면 부호, 도면 부호의 설명 텍스트에 대한 적어도 하나 이상의 언어로 된 번역 도면 부호의 설명 텍스트 중 어느 하나 이상을 포함하고 있거나,
    상기 도면 종속적 도면 부호의 설명 속성 정보는 도면에서의 도면 부호의 설명의 배치 여부, 배치 우선 순위, 집단적 배치 여부 중 어느 하나 이상을 포함하고 있는 것인 것을 특징으로 하는 방법.
  13. 제 11항에 있어서,
    상기 (C21) 단계에서
    상기 도면 부호의 설명 배치 최소 공간을 탐색하는 단계는 도면 부호의 설명 텍스트의 길이, 상기 도면의 물리적 경계에서의 상기 도면 포함 도면 부호의 위치, 상기 도면 포함 도면 부호의 방향 중 어느 하나 이상을 반영하여 탐색하는 것인 것을 특징으로 하는 방법.
  14. 제 11항에 있어서,
    (C211) 상기 2 이상의 근접 도면 포함 도면 부호 클러스터를 발굴하는 단계;
    (C212) 상기 근접 도면 포함 도면 부호 클러스터의 표시 밀도를 계량하는 단계;
    (C213) 상기 표시 밀도가 기 설정된 수준 이상인 경우에는 상기 (C23) 단계를 실시하지 않고, 적어도 하나 이상의 도면 내 여백 공간의 위치 정보를 생성하는 단계;를 포함하며,
    상기 (C213) 단계에서 상기 도면 내 여백 공간의 위치 정보를 생성하는 것은
    (C2131), 상기 근접 도면 포함 도면 부호 클러스터에 포함되는 전체 도면 포함 도면 부호 또는 적어도 하나 이상의 도면 포함 도면 부호를 추출하는 단계; 및
    (C2132) 상기 추출된 도면 포함 도면 부호 및 상기 도면 포함 도면 부호에 대응되는 도면 부호의 설명이 표시되기 위한 필요 여백 공간을 계산하는 단계;
    (C2133) 계산된 상기 필요 여백 공간에 대응되며, 도면 상에 할당되는 도면 내 여백 공간의 위치를 결정하는 단계;를 포함하는 것인 것을 특징으로 하는 방법.
  15. 제 11항에 있어서,
    상기 도면 부호의 설명 배치 전략 데이터에는
    상기 도면 포함 도면 부호와 상기 도면 포함 도면 부호에 대응되는 도면 부호의 설명이 기 설정된 거리 이상으로 떨어져 있는 경우에는 상기 도면 포함 도면 부호와 상기 도면 부호의 설명 간의 연결성이 시각적으로 인지 될 수 있는 연결 표시 데이터가 더 포함되는 것인 것을 특징으로 하는 방법.
  16. 제 11항에 있어서,
    상기 (C22) 단계는 도면 부호의 설명 배치 최소 공간은 상기 도면 부호의 설명 또는 상기 도면 부호의 설명에 대응되는 축약형 도면 부호의 설명의 조합별로 탐색되는 것인 것이며,
    상기 (C23) 단계의 상기 도면 부호의 설명 배치 전략 데이터는 상기 도면 포함 도면 부호마다 상기 도면 부호의 설명 또는 상기 축약형 도면 부호의 설명 중 어느 하나를 표시할 것인지에 대한 선택 전략 데이터를 더 포함하는 것인 것을 특징으로 하는 방법.
  17. 제 1항에 있어서,
    (D) 상기 도면 부호의 설명 배치 데이터를 사용하여 적어도 하나 이상의 레이어를 포함하는 도면 부호의 설명 레이어 데이터를 생성하는 단계;를 더 포함하며,
    상기 도면 부호의 설명 레이어 데이터는 레이어별로 표시되는 레이어별 도면 부호의 설명 배치 데이터를 포함하고 있는 것인 것을 특징으로 하는 방법.
  18. 제 1항에 있어서,
    상기 컴퓨터 장치가
    (E) 도면 번호에 대응되는 도면 부호의 설명 배치 데이터를 생성하는 단계;를 더 포함하며,
    상기 (E) 단계는
    (E1) 도면에 포함되어 있는 도면 포함 도면 부호를 인식하고 도면 포함 도면 부호 속성 집합 정보를 생성하는 단계;
    (E2) 상기 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 번호의 설명을 인식하고, 상기 도면 부호의 설명에 대응하는 도면 부호의 설명 속성 집합 정보를 생성하는 단계; 및
    (E3) 상기 도면 포함 도면 부호, 상기 명세서 포함 도면 부호 및 상기 도면 부호의 설명을 사용하며, 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계;를 포함하는 것인 것을 특징으로 하는 방법.
  19. 제 1항에 있어서,
    상기 컴퓨터 장치가
    상기 (A) 단계 이전에
    (A0) 상기 도면이 2 이상의 도면 번호가 다른 복합 도면인 경우, 상기 복합 도면을 전처리하는 단계;를 더 포함하며,
    상기 (A0) 단계는
    (A01) 상기 도면에서 도면 번호의 개수를 식별하는 단계; 및
    (A02) 상기 도면 번호의 개수가 2 이상인 경우, 상기 도면을 도면 번호의 개수만큼 절단하여 독립 도면 데이터를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  20. 제 1항에 있어서,
    (F) 상기 컴퓨터 장치가 가공 도면 데이터를 생성하거나 도면 연동 데이터를 생성하는 단계;를 더 포함하며,
    상기 (F) 단계는
    상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 물리적으로 삽입되어 있는 가공 도면 파일을 생성하는 제1 가공 도면 데이터 생성 방법,
    상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 나타나도록 하되, 도면과 도면 부호의 설명 배치 데이터가 논리적으로 다른 레이어에 존재하도록 하는 1개의 가공 도면 파일을 생성하는 제2 가공 도면 데이터 생성 방법,
    상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 나타나도록 하되, 도면 파일과 도면 부호의 설명 배치 데이터가 포함된 파일은 물리적으로 다른 파일이며, 상기 도면 파일이 호출될 때, 상기 도면 파일과 상기 도면 부호의 설명 배치 데이터가 포함된 파일이 연동되어 실시간 결합이 지원되도록 상기 도면 파일을 가공하는 제3 가공 도면 데이터 생성 방법 및
    상기 도면 부호의 설명 배치 데이터를 사용하여 상기 도면 상에 있는 도면 포함 도면 부호의 기 설정된 위치에 적어도 하나 이상의 도면 부호의 설명이 나타나도록 하되, 도면 파일과 도면 부호의 설명 배치 데이터가 포함된 파일은 물리적으로 다른 파일이며, 상기 도면 파일이 호출될 때, 상기 도면 파일과 상기 도면 부호의 설명 배치 데이터가 포함된 파일이 연동되는 실시간 결합을 지원하는 도면 연동 데이터를 생성하는 방법 중 어느 하나 이상을 실시하는 것인 것을 특징으로 하는 방법.
  21. 특허 도면에 포함되어 있는 도면 부호에 도면 부호의 설명이 표시되는데 사용되는 도면 부호의 설명 표시 도면 콘텐츠가 제공되도록 처리하는 방법으로서,
    컴퓨터 장치가
    적어도 하나 이상의 타 장치로부터 개별 도면 단위, 개별 특허 단위 또는 기설정된 단위로 도면 부호의 설명 표시 도면 콘텐츠 요청 정보를 수신하는 단계를 처리하는 프로세서;
    상기 도면 부호의 설명 표시 도면 콘텐츠 요청 정보에 대응하는 도면 부호의 설명 표시 도면 콘텐츠를 입수하는 단계를 처리하는 프로세서;
    상기 수신된 도면 부호의 설명 표시 도면 콘텐츠 요청 정보에 대응하여 도면 부호의 설명 표시 도면 콘텐츠를 상기 타 장치로 전송하는 단계를 처리하는 프로세서;를 포함하며,
    상기 도면 부호의 설명 표시 도면 콘텐츠는
    (A) (A1) 특허 도면에 포함되어 있는 도면 포함 도면 부호를 인식하고, (A2) 상기 인식된 도면 포함 도면 부호에 대응하는 도면 포함 도면 부호 속성 집합 정보를 생성하는 단계를 수행하는 프로세스;
    (B) 상기 컴퓨터 장치가 상기 특허의 명세서에서 명세서 포함 도면 부호 및 상기 명세서 포함 도면 부호에 대응하는 도면 부호의 설명을 인식하는 단계를 수행하는 프로세스; 및
    상기 도면 포함 도면 부호, 상기 명세서 포함 도면 부호 및 상기 도면 부호의 설명을 사용하며, 상기 도면 부호의 설명이 상기 도면 포함 도면 부호의 기 설정된 위치에 배치되는데 사용되는 도면 부호의 설명 배치 데이터를 생성하는 단계를 수행하는 프로세스;를 통하여 생성되는 것인 것을 포함하는 것을 특징으로 하는 장치.
  22. 제 21항에 있어서,
    (D) 상기 도면 부호의 설명 배치 데이터를 사용하여 적어도 하나 이상의 레이어를 포함하는 도면 부호의 설명 레이어 데이터를 생성하는 단계를 수행하는 프로세스;더 포함하는 것을 특징으로 하는 장치.
  23. 제 21항에 있어서,
    (E) 도면 번호에 대응되는 도면 부호의 설명 배치 데이터를 생성하는 단계를 수행하는 프로세스; 및
    (A0) 상기 도면이 2 이상의 도면 번호가 다른 복합 도면인 경우, 상기 복합 도면을 전처리하는 단계를 수행하는 프로세스; 중 어느 하나 이상을 더 포함하는 것을 특징으로 하는 장치.
  24. 제 21항에 있어서,
    (F) 상기 컴퓨터 장치가 가공 도면 데이터를 생성하는 단계를 수행하는 프로세서;를 더 포함하는 것을 특징으로 하는 장치.
KR1020180006147A 2017-03-22 2018-01-17 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치 KR20180107707A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170035792 2017-03-22
KR20170035792 2017-03-22

Publications (1)

Publication Number Publication Date
KR20180107707A true KR20180107707A (ko) 2018-10-02

Family

ID=63586456

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020180006147A KR20180107707A (ko) 2017-03-22 2018-01-17 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치
KR1020180033478A KR20180107764A (ko) 2017-03-22 2018-03-22 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 처리하는 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020180033478A KR20180107764A (ko) 2017-03-22 2018-03-22 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 처리하는 방법 및 장치

Country Status (3)

Country Link
US (1) US11080910B2 (ko)
KR (2) KR20180107707A (ko)
WO (1) WO2018174603A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102274081B1 (ko) 2021-04-12 2021-07-07 사단법인 한국선급 딥러닝을 이용한 선박 도면 내 객체 인식 시스템
KR20210105626A (ko) * 2020-02-19 2021-08-27 이영호 기술문서 번역 지원 시스템
KR20220126369A (ko) 2021-03-09 2022-09-16 (주)윕스 여백을 활용한 특허 문서의 도면 표시 시스템
KR20220145706A (ko) 2021-04-22 2022-10-31 (주)윕스 명세서 내용을 함께 표시하는 부호 기반 도면 표시 시스템
KR20220169099A (ko) 2021-06-18 2022-12-27 (주)윕스 특허 문서에 대한 워드 클라우드 표시 시스템
KR20230109469A (ko) 2022-01-13 2023-07-20 (주)윕스 특허 문서에 대한 워드 관계망 표시 시스템

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102181677B1 (ko) * 2018-12-18 2020-11-24 (주)아이브릭스 특허 청구항 구조화를 위한 방법 및 장치
CN109657619A (zh) * 2018-12-20 2019-04-19 江苏省舜禹信息技术有限公司 一种附图翻译方法、装置及存储介质
CN109598649B (zh) * 2018-12-20 2021-12-10 江苏省舜禹信息技术有限公司 一种专利文件的处理方法、装置及存储介质
US10452902B1 (en) * 2018-12-21 2019-10-22 Capital One Services, Llc Patent application image generation systems
EP3675062A1 (en) 2018-12-29 2020-07-01 Dassault Systèmes Learning a neural network for inference of solid cad features
EP3675063A1 (en) * 2018-12-29 2020-07-01 Dassault Systèmes Forming a dataset for inference of solid cad features
CN110532415B (zh) * 2019-08-30 2022-08-30 百度在线网络技术(北京)有限公司 图像搜索处理方法、装置、设备及存储介质
KR102601980B1 (ko) * 2020-04-14 2023-11-14 주식회사 워트인텔리전스 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템
US20230222281A1 (en) * 2022-01-07 2023-07-13 Google Llc Modifying the presentation of drawing objects based on associated content objects in an electronic document

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7218782B1 (en) * 2003-04-18 2007-05-15 Kamran Reihani System and method for automated symbolic recognition including multi-phase symbolic reshaping
US8036493B1 (en) * 2006-03-27 2011-10-11 Neustel Michael S Method for correcting orientation of patent figures
US9256594B2 (en) * 2007-06-06 2016-02-09 Michael S. Neustel Patent analyzing system
US9836460B2 (en) 2010-06-11 2017-12-05 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for analyzing patent-related documents
CN102591852A (zh) 2011-01-14 2012-07-18 鸿富锦精密工业(深圳)有限公司 专利图像自动排版方法及系统
US9223769B2 (en) * 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
US20130086044A1 (en) * 2011-10-03 2013-04-04 Steven W. Lundberg System and method for patent activity profiling
US9064316B2 (en) * 2012-06-28 2015-06-23 Lexmark International, Inc. Methods of content-based image identification
US10474887B2 (en) * 2017-01-10 2019-11-12 Micro Focus Llc Identifying a layout error

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210105626A (ko) * 2020-02-19 2021-08-27 이영호 기술문서 번역 지원 시스템
KR20220126369A (ko) 2021-03-09 2022-09-16 (주)윕스 여백을 활용한 특허 문서의 도면 표시 시스템
KR102274081B1 (ko) 2021-04-12 2021-07-07 사단법인 한국선급 딥러닝을 이용한 선박 도면 내 객체 인식 시스템
KR20220145706A (ko) 2021-04-22 2022-10-31 (주)윕스 명세서 내용을 함께 표시하는 부호 기반 도면 표시 시스템
KR20220169099A (ko) 2021-06-18 2022-12-27 (주)윕스 특허 문서에 대한 워드 클라우드 표시 시스템
KR20230109469A (ko) 2022-01-13 2023-07-20 (주)윕스 특허 문서에 대한 워드 관계망 표시 시스템

Also Published As

Publication number Publication date
WO2018174603A1 (ko) 2018-09-27
KR20180107764A (ko) 2018-10-02
US20200143575A1 (en) 2020-05-07
US11080910B2 (en) 2021-08-03

Similar Documents

Publication Publication Date Title
KR20180107707A (ko) 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치
Katti et al. Chargrid: Towards understanding 2d documents
JP2973944B2 (ja) 文書処理装置および文書処理方法
Naz et al. The optical character recognition of Urdu-like cursive scripts
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
US20230237040A1 (en) Automated document processing for detecting, extractng, and analyzing tables and tabular data
KR102515657B1 (ko) 도면 상의 도면 부호 및 명세서 상의 도면 부호의 설명 간의 연계 및 결합 콘텐츠를 제공하는 인공 지능 기술 기반의 정보 처리 방법 및 장치
JP5710624B2 (ja) 抽出のための方法及びシステム
Vo et al. Text line segmentation using a fully convolutional network in handwritten document images
US20120066213A1 (en) Information processing apparatus, information processing method, and computer program product
RU2757713C1 (ru) Распознавание рукописного текста посредством нейронных сетей
KR102385457B1 (ko) 인공 지능 기술 기반의 머신 러닝을 사용하는 도면 부호를 포함하는 특허 도면 이미지에 도면 부호의 설명을 맵핑 처리하는 방법
CN101354727B (zh) 一种建立数字文档目录与正文之间链接的方法及装置
Bai et al. Keyword spotting in document images through word shape coding
Peng et al. Multi-font printed Mongolian document recognition system
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
Chaudhuri et al. An approach for recognition and interpretation of mathematical expressions in printed document
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN109101973A (zh) 文字识别方法、电子设备、存储介质
Rahman et al. Notice of violation of IEEE publication principles: Modified syntactic method to recognize Bengali handwritten characters
Li et al. N-FTRN: Neighborhoods based fully convolutional network for Chinese text line recognition
JP7404625B2 (ja) 情報処理装置、及びプログラム
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
Kumar Methods for text segmentation from scene images

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
WITB Written withdrawal of application