WO2021210912A1

WO2021210912A1 - 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템

Info

Publication number: WO2021210912A1
Application number: PCT/KR2021/004706
Authority: WO
Inventors: 장영진; 윤정호; 박규학
Original assignee: 주식회사 워트인텔리전스
Priority date: 2020-04-14
Filing date: 2021-04-14
Publication date: 2021-10-21
Also published as: US20230351791A1; KR20210127637A; KR20230161381A; KR102601980B1; CN115427944A; JP2023523575A

Abstract

본 발명의 일 실시예에 따른 특허 도면 부호 인식 방법에 있어서, 복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델 및 도면 부호 인식 모델을 구축하는 단계; 도면 부호 인식 대상인 특허 도면을 입력받는 단계; 상기 도면 부호 위치 인식 모델을 이용하여 상기 특허 도면에 포함된 도면 부호의 위치를 인식하는 단계; 상기 인식된 위치의 도면 부호를 상기 특허 도면에서 이미지 조각으로 잘라내는 단계; 및 상기 도면 부호 인식 모델을 이용하여 상기 이미지 조각에 포함된 도면 부호를 인식하는 단계; 를 포함할 수 있다.

Description

특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템

본 명세서는 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템을 제안한다.

논문이나 특허 문헌과 같은 지식 정보 컨텐츠는, 일반적으로 다량의 페이지로 구성되는 것이 보통이다. 이 같은 컨텐츠는, 도면, 수식 및 이를 설명하는 텍스트를 포함하며, 특히 서식의 한계로 도면과 그에 연계된 텍스트가 서로 다른 페이지에 배치되는 경우가 빈번하다. 이에 따라, 컨텐츠의 독자는, 도면이나 수식에 대한 설명을 이해하기 위해 페이지를 앞뒤로 번갈아 가며 컨텐츠를 다회독 하게 되고, 지식 정보의 획득을 위해 시간과 노력이 필요 이상 소모되는 문제가 발생한다.

최근 이 같은 문제를 해결하기 위해, 광학 문자 인식 기술(Optical Character Recognition, OCR)를 이용하여 지식 정보 컨텐츠 상의 문자 및/또는 숫자를 정밀 인식함으로써, 컨텐츠 내부의 필요 정보에 대한 접근 속도를 향상시키는 방법이 제공되고 있다. 그러나, 이 방법 역시, 단순한 문자 기반의 검색 기능만 제공하므로, 도면과 관련된 정보를 신속하게 획득하기에 어려움이 있다.

그럼에도, 컨텐츠의 서식 구조 정보를 활용하여 도면과 컨텐츠의 연계 정보를 추출하고, 도면 중심의 컨텐츠 분석 방법을 제공함으로써 지식 정보를 신속하게 획득할 수 있는 솔루션은 현재까지 제공되지 않고 있는 실정이다.

이에, 본 발명이 해결하고자 하는 기술적 과제는, 도면 정보를 중심으로, 지식 정보 컨텐츠를 효율적으로 분석하기 위한 솔루션을 제공하는 것이다.

구체적으로, 본 발명이 해결하고자 하는 기술적 과제는, 도면의 부호에 대한 광학 문자 판독 및/또는 기계 학습을 통해, 도면의 부호와 연동된 문자(특히, 도면 부호 설명)을 식별하는 방법 및 장치를 제공하는 것이다.

그리고/또는, 본 발명이 해결하고자 하는 다른 기술적 과제는, 도면의 부호를 기초로 문자(특히, 도면 부호 설명)를 검색하는 것뿐만 아니라, 문자를 기초로 도면을 검색하는 방법을 제공하는 것이다.

구체적으로, 본 발명이 해결하고자 하는 다른 기술적 과제는, 도면의 부호에 연동된 문자(특히, 도면 부호 설명)를 기초로 상기 도면 부호가 포함된 모든 도면을 필터링함으로써, 도면 중심의 컨텐츠 분석 방법을 제공하는 것이다.

그리고/또는, 본 발명이 해결하고자 하는 또 다른 기술적 과제는, 도면 상에서 도면 부호가 표시된 영역에, 이와 매칭되는 도면 부호 설명을 위치시킴으로써, 사용자에게 직관적인 도면 관련 정보를 제공하는 것이다.

구체적으로, 본 발명이 해결하고자 하는 또 다른 기술적 과제는, 도면의 상태 변경에 적응하여 도면 부호 설명을 적절한 영역에 위치/이동시키는 솔루션을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 도면에 표시되어 있는 부호를 도면 부호 설명으로 대체하여 표시함으로써, 사용자 입장에서 도면을 통해 보다 쉽고 직관적으로 발명 정보를 획득할 수 있다는 장점이 있다. 특히, 도면 부호 설명을 기초로 관련 도면을 모두 필터링할 수 있으므로, 필터링된 도면에 대한 집약적 분석을 통해 지식 정보 컨텐츠에 대한 도면 중심의 분석이 가능해진다.

또한, 본 발명에 다른 실시예에 따르면, 도면 부호 설명을 기초로 해당 도면 부호 설명이 포함된 도면뿐만 아니라, 문장 및 문단까지 시각적으로 식별할 수 있다. 따라서, 사용자는 다량의 텍스트 상에서 도면 부호 설명을 매개체로 하여 원하는 정보에 신속하게 접근할 수 있게 된다.

또한, 본 발명의 또 다른 실시예에 따르면, 도면의 확대, 축소, 이동, 확대 등과 같은 상태 변경에도, 도면 부호 설명을 상태 변경된 도면 내의 가독성이 높은 영역에 위치시킴으로써, 다양한 분석 환경에서도 도면을 통한 지식 정보 컨텐츠 분석의 편의성이 제공될 수 있다.

발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 특허 도면 제공 실시예를 예시한 도면이다.

도 2는 본 발명의 일 실시예에 따른 도면 부호 인식 방법에 관한 순서도이다.

도 3은 본 발명의 일 실시예에 따른 도면 부호 인식 모델 구축 방법을 예시한 도면이다.

도 4는 본 발명의 일 실시예에 따른 도면 부호 설명 추출 방법에 관한 순서도이다.

도 5는 본 발명의 일 실시예에 따른 도면 부호 설명 추출 실시예를 예시한 도면이다.

도 6은 본 발명의 일 실시예에 따른 도면 부호에 대응한 도면 부호 설명 출력 방법을 예시한 순서도이다.

도 7은 본 발명의 일 실시예에 따른 SVG(Scalable Vector Graphics) 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 순서도이다.

도 8은 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 도면이다.

도 9는 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 도면이다.

도 10은 본 발명의 일 실시예에 따른 특허 문헌을 예시한 도면이다.

도 11은 본 발명의 일 실시예에 따른 도면 부호 및 도면 부호 설명이 상호 연동되는 도면 인터페이스를 예시한 도면이다.

도 12는 본 발명의 일 실시예에 따른 도면 부호 및 도면 부호 설명이 상호 연동되는 도면 인터페이스를 예시한 도면이다.

도 13은 본 발명의 일 실시예에 따른 키워드 설정 인터페이스를 예시한다.

도 14는 본 발명의 일 실시예에 따른 도면 부호 설명을 매개체로 한 카테고리간 연동 실시예를 예시한 도면이다.

도 15는 본 발명의 일 실시예에 따른 도면 부호 설명을 매개체로 한 카테고리간 연동 실시예를 예시한 도면이다.

도 16은 본 발명의 일 실시예에 따른 특허 정보 검색 시스템을 예시한 도면이다.

도 17은 본 발명의 일 실시예에 따른 웹 서버의 블록도이다.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. 예를 들어, 'A 및/또는 B'는 'A 또는 B 중 적어도 하나'의 의미로 해석될 수 있다. 또한, '/'는 '및' 또는 '또는'으로 해석될 수 있다.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

보다 상세하게는, 도 1(a)는 일반적인 특허 도면 제공 실시예, 도 1(b)는 본 발명의 일 실시예에 따라 도면 부호를 도면 부호 설명으로 대체한 특허 도면 제공 실시예이다.

논문이나 특허 문헌과 같은 지식 정보 컨텐츠는 사용자에게 정보를 보다 쉽고 직관적으로 설명하기 위한 수단으로서 도면을 많이 이용한다. 사용자는 도면과 해당 도면에 대한 설명을 동시에 파악함으로써 지식 정보 컨텐츠의 내용을 보다 쉽고 효율적으로 파악할 수 있다. 그러나, 지식 정보 컨텐츠는 다량의 페이지로 구성되는 것이 일반적이어서, 사용자가 도면과 도면에 대한 설명을 동시에 파악하기 위해서는 페이지를 번갈아 가며 회독해야 했다. 이는, 사용자가 지식 정보 컨텐츠 내용을 쉽고 효율적으로 파악하는 데 매우 큰 방해 요소로 작용하였다.

특히, 지식 정보 컨텐츠 중 특허 문헌 도면의 경우에는, 도 1(a)와 같이 각 구성 요소별로 도면 부호가 부여되어 설명되는 것이 일반적인데, 이러한 도면 부호는 도면 설명의 편의를 위해 발명자에 의해 임의로 부여된 것이어서 규칙성이 없고 특허 문헌마다 매우 상이하다는 특징을 갖는다. 따라서, 사용자가 도면 내용(특히, 각 도면 부호에 대한 설명)을 파악하기 위해서는 도면과 도면의 설명을 동시에 파악하는 것이 매우 중요하다. 그러나, 이는 사용자의 불편함을 초래할 뿐 아니라 시간 및 비용의 소모를 증가시킨다는 문제점이 있다.

이에, 본 명세서에서는 사용자가 도면을 통해 발명을 보다 쉽고 효율적으로 파악할 수 있도록, 도 1(b)에 도시한 바와 같이, 각 도면 부호를 각 도면 부호에 대응하는 도면 부호 설명으로 직접 대체하여 제공하는 특허 도면 제공 기술을 제안하고자 한다.

이러한 특허 도면 제공 기술은 다음과 같이 크게 3가지 기술로 구분될 수 있다.

1. 도면 부호 인식 기술

2. 도면 부호 설명 추출 기술

3. 인식한 도면 부호를 추출한 도면 부호 설명으로 대체하는 기술

상술한 1번 내지 3번 기술은, 실시예에 따라 하나의 기술로 통합되어 순차적으로 수행되거나, 각각 개별적인 기술로서 독립적으로 수행/차용될 수도 있다. 상기 1 내지 3번 기술에 대해서는 이하 각 도면을 참조하여 상세히 후술하기로 한다.

본 명세서에서 제안되는 특허 도면 제공 기술은 특허 문헌 검색을 서비스하는 웹 사이트에 적용되는 경우를 기준으로 설명한다. 따라서, 이하에서 후술하는 실시예들은, 특허 문헌 검색 웹 사이트를 관리/운영하는 웹 서버에 의해 수행되는 것으로 해석될 수 있다. 다만, 이에 한정되는 것은 아니며, 본 명세서의 실시예는 특허 문헌 검색 서비스를 제공하는 프로그램, 어플리케이션 등에도 적용될 수 있으며, 이 경우 웹 사이트는 프로그램 또는 어플리케이션, 웹 서버는 프로그램 서버 또는 어플리케이션 서버로 각각 대체되어 설명될 수 있다.

한편, 본 명세서에서는 지식 정보 컨텐츠로서 특허 문헌을 예로 들어 설명하나 이에 한정되는 것은 아니며, 논문, 도서 등과 같은 다양한 지식 정보 컨텐츠로 확장되어 적용될 수 있음은 물론이다.

도 2를 참조하면, 우선 웹 서버는 복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델과 도면 부호 인식 모델을 구축할 수 있다(S201). 도면 부호 위치 인식 모델과 도면 부호 인식 모델은 모두 딥 러닝 기술을 기반으로 구축될 수 있다.

보다 상세하게는, 웹 서버는 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 딥 러닝 기술을 기반으로 인식할 수 있다. 이때 사용되는 딥 러닝 기술로는, FCN(Fully Convolutional Network)을 예로 들 수 있다. FCN은 이미지 픽셀 내에 문자의 존재 여부를 확인하는 데 유용한 딥 러닝 모델로서, CNN(Convolutional Neural Networks)을 기반으로 하여 도출된 변형 모델이다. FCN은 기존의 CNN과는 달리 완전하게 연결된 계층(Fully Connected layer) 대신, 컨볼루션 계층만을 사용(즉, 컨볼루션화(Convolutionalization))했다는 특징을 갖는다. 이러한 특징에 의해 FCN은 CNN과 달리 이미지의 위치 정보가 소실되지 않아, 이미지 내에 포함된 객체(특히, 문자)의 위치 정보를 인식하는 데 매우 유용하게 사용될 수 있다.

웹 서버는 이러한 FCN을 사용하여 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 인식할 수 있으며, 인식한 도면 부호의 위치들로부터 공통된 특징을 추출할 수 있다. 예를 들어, 웹 서버는 도면 부호 위치들의 공통된 특징으로서, 도면 중앙에는 위치하지 않는다는 특징, 도면 외곽에는 위치하지 않는다는 특징, 도면 부호끼리는 상호 겹쳐져서 위치하지 않는다는 특징 등을 추출할 수 있다. 이외에도, 웹 서버는 도면 부호의 위치들을 학습하여 학습 결과로서 공통된 특징을 다양하게 추출할 수 있으며, 상기 열거한 특징에 한정되는 것은 아니다. 웹 서버는 이렇게 추출한 공통된 특징을 기반으로 하여, 도면 부호 위치 인식 모델을 구축할 수 있다. 도면 부호 위치 인식 모델은, 특허 도면을 입력받을 수 있으며, 상기 추출한 공통된 특징을 기반으로 하여 해당 특허 도면에 포함된 도면 부호의 위치를 인식하여 출력할 수 있다.

다시 말하면, 웹 서버는 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 학습하여 공통된 특징을 추출하고, 추출한 공통된 특징을 기반으로 도면 부호 위치 인식 모델을 구축할 수 있다.

도면 부호 위치 인식 모델을 구축한 웹 서버는, 도면 부호 위치 인식 모델을 사용하여 도면 부호 인식 모델을 구축할 수 있는데, 이에 대해서는 도 3을 참조하여 보다 상세히 후술한다.

도면 부호 인식 모델을 구축하기 위해 웹 서버는 우선, 사전 구축한 도면 위치 인식 모델을 이용하여 특허 도면 샘플(301)(들)에 포함된 도면 부호(10~14, 16, 18)의 위치들을 인식할 수 있다. 웹 서버는 이렇게 인식한 위치의 도면 부호들(10~14, 16, 18)을 특허 도면 샘플(301)(들)에서 이미지 조각(302)으로 잘라내어 수집할 수 있다. 웹 서버는 수집한 이미지 조각들(302) 각각에 포함된 도면 부호(10~14, 16, 18)를 이미지 문자 인식 기술(예를 들어, 딥 러닝 기술(특히, C-RNN) 및/또는 OCR(Optical character recognition) 등)을 이용하여 인식할 수 있다.

이렇듯 도면 부호(10~14, 16, 18)를 작은 이미지로 조각 내서 인식하는 이유는, 특허 도면 전체(301)에서 도면 부호(10~14, 16, 18)를 인식하는 것보다 도면 부호만 포함되어 있는 이미지 조각(302) 내에서 도면 부호(10~14, 16, 18)를 인식하는 것이 인식률 및 인식 정확도가 매우 높을 뿐 아니라 인식 속도 또한 매우 빠르기 때문이다. 실제로 본 방법에 따라 도면 부호를 작은 이미지로 조각 내서 인식 시뮬레이션을 수행해 본 결과, 인식 정확도는 99.43%, 도면 부호 인식 시간은 각 도면당 0.02초 내로 기록되어 도면별 도면 부호의 실시간 인식까지도 가능한 수준이었다.

웹 서버는 이렇게 인식한 도면 부호(10~14, 16, 18)로부터 공통된 특징을 추출하여 도면 부호 인식 모델을 구축할 수 있다. 웹 서버는 공통된 특징으로서, 예를 들어 도면 부호는 숫자, 영문 또는 이들의 조합으로 구성된다는 특징, 도면 부호는 5글자 이내의 길이를 갖는다는 특징 등이 도출될 수 있으나, 이에 한정되는 것은 아니다.

웹 서버는 이렇게 추출한 공통된 특징을 기반으로 하여, 도면 부호 인식 모델을 구축할 수 있다. 도면 부호 인식 모델은, 추출한 공통된 특징을 기반으로 하여 각 이미지 조각에 포함된 도면 부호를 인식하여 출력할 수 있다.

다시 말하면, 웹 서버는 이미지 조각에 포함된 도면 부호들을 학습하여 공통된 특징을 추출하고, 추출한 공통된 특징을 기반으로 도면 부호 인식 모델을 구축할 수 있다.

이렇게 구축된 도면 부호 위치 인식 모델 및 도면 부호 인식 모델은 사용자에 의해 선택/입력된 특허 도면에서 도면 부호를 인식하는 데 사용되게 된다.

다시 도 2를 참조하면, 다음으로 웹 서버는 도면 부호 인식 대상인 특허 도면을 입력/선택받을 수 있다(S202). 보다 상세하게는, 웹 서버는 클라이언트 기기인 사용자 장치로부터 특정 특허 도면(또는 특정 특허 도면)에 대한 선택/입력을 수신할 수 있다.

다음으로, 웹 서버는 S201 단계에서 구축한 도면 부호 위치 인식 모델을 이용하여 입력/선택된 특허 도면에 포함된 도면 부호의 위치를 인식하고(S203), 인식된 위치의 도면 부호를 특허 도면으로부터 잘라내어 도면 부호가 포함된 이미지 조각을 획득할 수 있다(S204). 웹 서버는 이렇게 획득한 이미지 조각에 포함된 도면 부호를 S201 단계에서 구축한 도면 부호 인식 모델을 이용하여 인식할 수 있다(S205). 이때, 실시예에 따라 웹 서버는 이미지 조각을 기설정된 수(예를 들어, 200개) 단위로 모아 하나의 이미지로 생성할 수 있으며, 생성한 이미지에 포함된 복수의 이미지 조각들에 포함된 복수의 도면 부호들을 이미지 문자 인식 기술(예를 들어, 딥 러닝 기술(특히, C-RNN) 및/또는 OCR(Optical character recognition) 등)을 이용하여 인식할 수 있다. 이외에, S203 내지 S205 단계에 관한 상세한 설명은 도 3에서 상술한 바와 실질적으로 동일하므로, 중복되는 설명은 생략한다.

도 2 및 3에서 제안된 실시예에 따를 때, 웹 서버는 도면 부호의 위치를 먼저 파악한 후 특정 위치의 도면 부호들만 선택적으로 인식하게 되므로, 전체 도면에 대하여 도면 부호를 인식하던 종래 기술 대비, 인식 시간이 획기적으로 단축(즉, 인식 속도 향상)될 뿐 아니라, 도면 부호의 인식 정확도 역시 획기적으로 향상시킬 수 있게 된다.

본 발명의 일 실시예에 따르면, 웹 서버는 특허 명세서에서 도면 부호 설명을 추출할 수 있다. 특허 문헌은 크게 특허 명세서와 도면으로 카테고리가 구분될 수 있으며, 도면 부호 설명은 이 중 특허 명세서에서 추출될 수 있다. 특허 문헌의 구성에 관한 상세한 설명은 도 10을 참조하여 이하에서 상세히 후술한다. 특히, 웹 서버는 도 2 및 3에서 제안된 실시예에 따라 인식한 도면 부호에 대응하는 도면 부호 설명을, 특허 명세서에서 추출할 수 있다.

이를 위해, 웹 서버는 우선, 도면 부호 설명을 추출하기 위한 규칙을 확립할 수 있다(S401). 도면 부호 설명 추출 규칙은 다양한 실시예/방식으로 확립될 수 있는데, 본 명세서에서는 특허 문헌의 출원 국가별로 특허 문헌의 형식이 상이하다는 점에 착안하여 텍스트 마이닝 기술을 기반으로 다음과 같은 확립 실시예를 제안한다.

웹 서버는 우선 복수의 특허 명세서 샘플들을 출원 국가별로 분류할 수 있으며, 분류된 출원 국가별로 공통된 특징을 추출할 수 있다. 공통된 특징으로는, 도면 부호를 기준으로 한 도면 부호 설명의 상대적인 위치, 도면 부호 설명 또는 도면 부호에 적용된 서식, 출원 년도 중 적어도 하나를 기초로 추출될 수 있다.

예를 들어, 한국에 대해서는 공통된 특징으로서 도면 부호 설명이 도면 부호 앞에 위치하는 특징, 도면 부호는 양괄호 내에 포함되어 작성된다는 특징 등이 추출될 수 있으며, 미국에 대해서는 공통된 특징으로서 도면 부호 설명이 도면 부호 앞에 위치하는 특징, 도면 부호에 굵은 글씨 서식이 적용된다는 특징, 한국과 달리 도면 부호가 양괄호로 구분되지 않는다는 특징 등이 추출될 수 있다. 출원 국가에 따라서는, 특허 명세서에 도면 부호 및 도면 부호 설명이 별도로 작성된 '부호의 설명' 카테고리가 있는 경우가 있는데, 이 역시 공통된 특징으로 추출될 수 있으며, '부호의 설명' 카테고리는 추후 도면 부호 설명을 추출하는 데 사용될 수 있다. 이외에도 다양한 특허 명세서 샘플들을 학습한 결과, 웹 서버는 각 출원 국가별로 공통된 특징을 다양하게 추출할 수 있다.

웹 서버는 이렇게 추출한 공통된 특징을 기초로 도면 부호 설명 추출 규칙(또는 모델)을 확립한 후, 이를 이용하여 특허 명세서에서 도면 부호 설명을 추출할 수 있다(S402).

보다 상세하게는, 만일 도면 부호 설명 추출 규칙이 도면 부호 대비 도면 부호 설명의 상대적인 위치를 기초로 확립된 경우(또는 도면 부호 설명 추출 규칙에 도면 부호 설명의 상대적인 위치 규칙이 포함되어 있는 경우), 웹 서버는 특허 명세서에 포함된 도면 부호를 검색할 수 있다. 나아가, 웹 서버는 확립한 상대적인 위치 규칙에 따라 검색된 도면 부호에 대응하는 도면 부호 설명의 위치를 예상하고, 예상한 위치의 문자를 도면 부호 설명으로서 추출할 수 있다.

예를 들어, 도면 부호 설명이 도면 부호 앞에 위치한다는 규칙이 확립되어 있는 경우, 웹 서버는 하기와 같은 기재가 있는 특허 명세서에서 도면 부호 16을 검색한 뒤 도면 부호 16 앞에 작성되어 있는 문자인 '볼트'를 도면 부호 16에 대한 도면 부호 설명으로서 추출할 수 있다.

- 볼트(16)

상기 예에서와 같이 도면 부호 설명이 하나의 단어로 구성되어 있는 경우에는 도면 부호 설명 추출에 오류가 발생할 가능성이 낮으나, 복수의 단어로 구성된 복합어에 해당하는 경우에는 어느 단어까지 도면 부호 설명으로 추출해야 하는지에 대한 모호함이 존재할 수 있다. 이러한 모호함을 해결하기 위해, 본 명세서에서 도 5의 실시예가 제안된다.

도면 부호에 대한 상대적인 위치로 도면 부호 설명을 추출하는 본 발명에 있어서, 본 도면에 예시된 '유기 발광 디스플레이(10)'와 같은 복합어의 경우, 어느 범위까지 도면 부호 설명으로 추출할 지 불명확하다는 문제가 발생할 수 있다. 예를 들어, 도면 부호 설명이 도면 부호 앞에 위치한다는 규칙을 기초로 도면 부호 설명을 추출하는 경우, 도 5의 예시로부터는 '디스플레이(①)', '발광 디스플레이(②)', '유기 발광 디스플레이(③)' 등이 도면 부호 설명으로서 추출될 수 있다.

따라서, 본 명세서에서는 이러한 불명확함/모호성을 해소하기 위해, 도면 부호 설명이 복수개 추출되는 경우, 이들 중 정확한 도면 부호 설명을 선택하기 위한 실시예를 다음과 같이 제안한다.

일 실시예로서, 웹 서버는 도면 부호 설명이 복수개 추출되는 경우, 추출된 복수의 도면 부호 설명을 특허 명세서에서 검색한 후 가장 많이 검색된 도면 부호 설명을 최종 도면 부호 설명으로 결정하여 추출할 수 있다. 본 도면을 예로 들면, 웹 서버가 특허 명세서에서 디스플레이, 발광 디스플레이 및 유기 발광 디스플레이 각각을 검색한 결과, 유기 발광 디스플레이가 3번, 발광 디스플레이가 0번, 디스플레이가 1번 검색되었다면, 유기 발광 디스플레이를 최종 도면 부호 설명으로서 추출할 수 있다.

이때, 웹 서버가 도면 부호 설명 후보로서 추출하는 단어의 개수는 현재까지 축적된 도면 부호 설명 데이터를 기반으로 기설정된 개수로 제한될 수 있다. 보다 상세하게는, 웹 서버는 도면 부호 및 도면 부호 설명 인식 결과를 데이터 베이스화하여 특허 도면 검색 데이터 베이스를 구축할 수 있다. 이 경우, 웹 서버는 데이터 베이스에 현재까지 축적된 도면 부호 설명 데이터를 기반으로, 도면 부호 설명으로서 추출된 복합어의 단어 개수를 통계내어, 통계적으로 추출 비율/확률이 낮은 단어 개수를 제한 개수로 설정할 수 있다. 예를 들어, 현재까지 축적된 도면 부호 설명 데이터를 분석한 결과, 5개 단어 이상의 복합어가 도면 부호 설명으로서 추출된 비율이 0.0001%인 경우, 웹 서버는 최대 4개까지를 도면 부호 설명으로서 추출 가능한 단어 개수로 한정할 수 있다. 이 경우, 웹 서버는 도면 부호 설명 추출 규칙에 따라 도면 부호 설명을 추출하는 경우, 최대 4개의 단어까지만 도면 부호 설명으로서 추출할 수 있다.

본 순서도에는 도시하지 않았으나, 웹 서버는 도면 부호 설명의 추출 정확도를 보다 더 향상시키기 위하여, 추출한 도면 부호 설명에 오류가 있는지 판단하기 위한 오류 추출 규칙을 확립할 수 있으며, 발견된 오류를 보정/보완할 수 있다.

보다 상세하게는, 웹 서버는 확립한 도면 부호 설명 추출 규칙을 기반으로 특허 명세서 샘플(들)에서 도면 부호 설명을 추출할 수 있으며, 추출한 도면 부호 설명을 특허 명세서에서 검색할 수 있다. 검색 결과, 특허 명세서에서 검색되지 않은 도면 부호 설명이 존재하는 경우, 웹 서버는 해당 도면 부호 설명을 오류가 존재하는 도면 부호 설명으로 분류할 수 있다. 웹 서버는 이렇듯 오류가 발생한 도면 부호 설명으로부터 공통된 특징을 추출하여(즉, 학습하여) 오류 추출 규칙(또는 모델)을 확립할 수 있다. 웹 서버는 이렇게 확립한 오류 추출 규칙을, 특허 명세서로부터 추출한 도면 부호 설명에 오류가 있는지 판단하는 데 사용할 수 있다.

공통된 특징의 예로는, 숫자 0이 알파벳 o, O, D으로 잘못 추출되는 특징, 숫자 9가 숫자 0으로 잘못 추출되는 특징, '~하는'과 같은 형용사, 연결어, 부사 등 명사가 아닌 품사가 추출되는 특징, 기호 !, @, #, $, %, ^, (, ) 등이 추출되는 특징 등이 있을 수 있다.

웹 서버는 확립한 오류 추출 규칙을 기초로 도면 부호 설명에 오류가 있는 것으로 판단한 경우, 추출한 도면 부호 설명을 기설정된 방식에 따라 보완/보정할 수 있다. 예를 들어, 웹 서버는 숫자/알파벳이 알파벳/숫자로 잘못 인식된 오류를 발견한 경우, 숫자/알파벳을 대응하는 알파벳/숫자로 대체할 수 있으며, 명사가 아닌 품사, 기호 등이 포함된 오류를 발견한 경우, 해당 품사, 기호를 삭제할 수 있다.

나아가, 웹 서버는 딥 러닝 기술(CNN, RNN(Recurrent Neural Network), 또는 이들의 조합)을 기반으로, 확립한 도면 부호 설명 추출 규칙과 오류 추출 규칙을 학습하여 성능이 더욱 향상된 도면 부호 설명 추출 모델을 구축할 수 있다. 특히, 웹 서버는 이미 구축한 특허 도면 검색 데이터 베이스에 현재까지 축적되어 있는 도면 부호 및 도면 부호 설명에 대한 정답 셋을 활용하여 인식률 및 정확도가 매우 뛰어난 도면 부호 설명 추출 모델을 구축하여 도면 부호 설명 추출에 사용할 수 있다.

한편, 앞서 별도로 언급하지 않았으나, 상호 대응되는 도면 부호 및 도면 부호 설명의 추출을 위해서는, 도면뿐만 아니라 명세서에서도 도면 부호를 높은 정확도로 인식할 필요가 있다. 본 명세서에서 제안된 도면 설명 추출 규칙은 '도면 부호'를 기준으로 도면 부호 설명을 추출함을 전제로 하기 때문이다. 즉, 도면 부호를 매개체로 하여 명세서와 도면이 상호 연동되는 것으로 볼 수 있다. 따라서, 웹 서버는 명세서 및 도면 각각에서 도면 부호가 정확하게 추출되었는지 여부를 판단하고, 정확하게 추출되지 않았다고 판단된 도면 부호는 보완할 수 있다. 이를 통해, 도면 부호 및 도면 부호 설명간의 매칭 정확도가 더욱 향상될 수 있다.

이에 대한 제1 실시예로서, 웹 서버는 도면을 통해 추출한 도면 부호를 특허 명세서에 포함된 도면 부호와 상호 매칭시킴으로써, 도면에 대한 도면 부호 인식 정확도를 향상시킬 수 있다. 보다 상세하게는, 웹 서버는 상술한 실시예에 따라 특허 도면에서 인식한 도면 부호를, 해당 특허 도면에 대응하는 특허 명세서에서 검색할 수 있다. 만일, 특허 도면에서 인식한 도면 부호가 특허 명세서에서 검색된 경우, 웹 서버는 인식한 도면 부호를 적절한 도면 부호로 판단하여 최종 도면 부호로 결정할 수 있다. 반대로, 인식한 도면 부호가 특허 명세서에서 검색되지 않은 경우, 웹 서버는 해당 도면 부호는 부적절한 도면 부호로 판단하고, 해당 도면 부호와 기설정된 비율 이상으로 형상 유사도를 갖는 문자/단어/용어를 특허 명세서에서 탐색하여 이를 최종 도면 부호로 결정할 수 있다.

예를 들면, 도면을 통해 36D가 인식되었으나 실제 명세서에서는 36D가 검색되지 않은 경우, 웹 서버는 36D와 가장 높은 형상 유사도를 갖는 360을 최종 도면 부호로 결정할 수 있다.

이와 유사하게 제2 실시예로서, 웹 서버는 명세서를 통해 인식한 도면 부호를 도면에서 인식된 도면 부호와 상호 매칭시킴으로써, 명세서에 대한 도면 부호 인식 정확도를 향상시킬 수 있다. 보다 상세하게는, 웹 서버는 상술한 실시예에 따라 특허 명세서에서 인식한 도면 부호를, 해당 특허 명세서에 대응하는 특허 도면으로부터 인식된 도면 부호 중에서 검색할 수 있다. 만일, 특허 명세서에서 인식한 도면 부호가 특허 도면으로부터 인식된 도면 부호 중에서 검색된 경우, 웹 서버는 인식한 도면 부호를 적절한 도면 부호로 판단하여 최종 도면 부호로 결정할 수 있다. 반대로, 인식한 도면 부호가 특허 도면으로부터 인식된 도면 부호 중에서 검색되지 않은 경우, 웹 서버는 해당 도면 부호는 부적절한 도면 부호로 판단하고, 해당 도면 부호와 기설정된 비율 이상으로 형상 유사도를 갖는 문자/단어/용어를 특허 도면으로부터 인식된 도면 부호 중에서 탐색하여 이를 최종 도면 부호로 결정할 수 있다.

예를 들면, 특허 명세서를 통해 36D가 인식되었으나 실제 특허 도면을 통해 인식된 도면 부호 중에서는 36D가 검색되지 않은 경우, 웹 서버는 특허 도면에서 인식된 도면 부호 중에서 36D와 가장 높은 형상 유사도를 갖는 360을 최종 도면 부호로 결정할 수 있다.

즉, 제1 실시예에 따르면 웹 서버는 특허 도면에서 인식한 도면 부호를 특허 명세서에서 인식한 도면 부호와 매칭시켜 보완할 수 있으며, 제2 실시예에 따르면 웹 서버는 특허 명세서에서 인식한 도면 부호를 특허 도면에서 인식한 도면 부호와 매칭시켜 보완할 수 있다.

상술한 제1 및 제2 실시예는 목적 및 효과에 따라 선택적으로 사용되거나, 결합되어 동시에 사용될 수 있다. 결합되어 동시에 사용되는 경우, 특허 도면과 특허 명세서간 상호 매칭되는 도면 부호만이 최종 도면 부호로 결정/추출/확정될 수 있으며, 제1 및 제2 실시예를 선택적으로 적용하는 경우보다 도면 부호 인식 오류 확률을 현저히 낮출 수 있다.

이상으로 도면 부호 및 도면 부호 설명 인식 방법에 대해 살펴보았다. 이하에서는 이렇게 인식한 도면 부호를 도면 부호 설명으로 대체하여 출력하는 방법에 대해 제안하기로 한다.

특히, 본 명세서에서 제안하는 도면 부호 설명 출력 방법은, 종래 기술과는 달리, 도면 자체의 상태 변화(예를 들어, 이동, 회전, 확대 또는 축소)에 무관하게 도면 내에서의 상대적인 위치는 항상 동일하게 유지/고정됨으로써, 사용자가 도면 자체의 상태를 변화시키더라도 항상 도면 부호 설명이 도면 부호 위치를 정확히 트래킹하여 이를 대체할 수 있다는 특징을 갖는다.

도 6을 참조하면, 우선 웹 서버는 특허 도면의 크기 및 특허 도면 내에 포함된 도면 부호의 위치를 인식하여 특허 도면 내에서의 도면 부호의 상대적인 위치 좌표를 획득할 수 있다(S601). 다시 말하면, 웹 서버는 특허 도면의 크기 대비 도면 부호의 상대적인 위치 좌표를 획득할 수 있다. 이렇게 상대적인 위치 좌표를 획득하는 이유는, 앞서 상술한 바와 같이 도면이 상태 변화되더라도 도면 부호의 위치를 정확히 트래킹하기 위함이다.

다음으로, 웹 서버는 전 단계에서 획득한 상대적인 위치 좌표를, 도면 부호에 대응하는 도면 부호 설명의 상대적인 위치 좌표로 설정할 수 있다(S602).

마지막으로, 웹 서버는 설정된 상대적인 위치 좌표에 도면 부호 설명을 출력할 수 있다(S603). 이때 출력되는 도면 부호 설명은 불투명한 배경색을 갖는 아이콘/GUI(Graphic User Interface) 형태로 출력될 수 있으며, 도면과 동일한 상대적인 위치 좌표에 출력되는 결과, 도면 부호의 적어도 일부를 커버(cover)하게/덮게 된다. 즉, 도면 부호 설명은 도면 내에서 도면 부호와 동일한 위치에 출력되는 결과, 도면 부호를 대체하여 출력되게 된다. 예를 들면, 도 1(a)의 도면에서 모든 도면 부호들은 도 1(b)와 같이 도면 부호 설명으로 대체되게 된다.

본 실시예에서 도면 부호 설명이 도면 부호의 적어도 일부를 커버/덮도록 출력되는 경우를 예시하였으나 이에 반드시 한정되는 것은 아니며, 도면 부호 설명은 도면 부호와 대응되는 위치(예를 들어, 상기 적어도 일부를 커버/덮는 위치를 포함하여 도면 부호의 상/하/좌/우/사선/이웃 방향의 위치)라면 어느 곳이든 출력될 수 있다. 만일, 도면 부호 설명을 도면 부호와 이웃하는 영역에 출력하고자 하는 경우, 웹 서버는 S601 단계에서 획득한 도면 부호의 상대적인 위치 좌표를 기설정된 방향으로 및/또는 기설정된 거리만큼 이동시킨 좌표를 도면 부호 설명의 상대적인 좌표로 설정/할당할 수 있다. 이하에서는 설명의 편의를 위해 상술한 도 6의 실시예를 기초로 하여 도면 부호를 도면 부호 설명으로 대체하는 구체적인 실시예에 대해 살펴본다.

도 7 내지 도 9는 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 순서도이다.

보다 상세하게는, 도 7은 본 발명의 일 실시예에 따른 SVG(Scalable Vector Graphics) 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 순서도이고, 도 8 및 도 9는 본 발명의 일 실시예에 따른 SVG 이미지를 이용한 도면 부호 설명 출력 방법을 예시한 도면이다.

도 7 및 8을 참조하면, 우선 웹 서버는 특허 도면(801)과 동일한 크기의 SVG 이미지(802)를 생성한 후, SVG 이미지(802)를 특허 도면(801) 상에 오버랩시킨 후 특허 도면(801)에 고정시킬 수 있다(S701). 다시 말하면, 특허 도면(801)과 동일한 크기이면서 투명한 SVG 이미지(802)를 생성한 후 특허 도면(801) 전체를 덮은 상태로 특허 도면(801)에 고정시킬 수 있다. 그 결과, SVG 이미지(802)는 사용자 입장에선 인식이 불가능하나, 특허 도면(801)의 상태 변화에 따라 동일하게 상태 변화한다는 특징을 갖는다. 참고로, SVG 이미지는 2차원 벡터 그래픽을 표현하기 위한 XML(Extensible Markup Language) 기반의 이미지 파일 형식으로, 이미지의 상태 변화(특히 확대)에도 품질이 저하되지 않는다는 특징을 갖는다.

도 7 및 9를 참조하면, 다음으로, 웹 서버는 SVG 이미지(802) 내의 기설정된 상대적인 위치 좌표(901)에 도면 부호 설명(902)을 새길/부가/표시/할당할(903) 수 있다(S702). 여기서 기설정된 상대적인 위치 좌표(901)는, 도 6의 S601 및 S602 단계에서 획득한 도면 부호 및 도면 부호 설명의 상대적인 위치 좌표를 의미할 수 있다. 도면 부호 설명(902)은 불투명한 배경색을 갖는 아이콘/GUI 형태로 SVG 이미지(802) 내에 새겨질/부가/표시/할당될 수 있다.

그 결과, SVG 이미지(802) 내에서, 도면 부호와 대응하는 위치(901)에 도면 부호 설명(902)이 새겨지게/부가/표시/할당되게(903) 된다. 웹 서버는 도면(801) 상에, 도면 부호 설명(902)이 새겨진/부가된/표시된/할당된 SVG 이미지(903)를 중첩하여 출력할 수 있으며, 그 결과 도면(801)의 도면 부호는 SVG 이미지(903) 상에 새겨진/부가된/표시된/할당된 도면 부호 설명(902)에 의해 커버되게 된다(S703).

예를 들어, 도면(801)의 도면 부호 '16'에 대한 도면 부호 설명(902)이 '볼트'인 경우, 도면 부호 '16'과 동일한 위치에 '볼트'(902)가 새겨진/부가된/표시된/할당된 SVG 이미지(903)가 생성될 수 있으며, SVG 이미지(903)가 도면(801)에 중첩되어 출력된 결과 도면 부호 '16'은 '볼트'(902)에 의해 커버될 수 있다. 그 결과, 사용자 입장에서 도면 부호 '16'은 '볼트'(902)로 대체된 것처럼 보이는 효과가 발생한다.

다시 말하면, 본 실시예에서 웹 서버는 도면 부호와 대응하는 위치(901)에 도면 부호 설명(902)이 새겨진/부가된/할당된/표시된 SVG 이미지(903)를 생성하고, 이렇게 생성한 SVG 이미지(903)를 도면(801)에 매칭/연동/대응하여 출력할 수 있다. 그 결과, 도면(801)의 도면 부호는 도면 부호 설명(902)으로 대체되어 출력되게 된다.

SVG 이미지의 특성 상 품질 저하 없이 상태 변화가 자유롭고, 도면 부호 설명은 SVG 이미지를 구성하는 객체/구성요소로서 이미지 내의 위치 좌표가 할당된 이상, SVG 이미지의 상태 변화에 따라 자동으로 도면 부호 설명의 위치 좌표가 스케일링되므로 위치 좌표를 재계산할 필요가 없다. 도면에서 도면 부호 역시 도면 이미지를 구성하는 이미지 객체로서 포함되고, SVG 이미지에서 도면 부호 설명 역시 SVG 이미지를 구성하는 이미지 객체로서 포함되며, 도면 부호 설명은 도면 부호와 대응하는 위치에 표시되므로(또는 새겨지거나, 부가, 할당되므로), 연동된 두 이미지의 상태 변화에 따라 이미지의 구성 요소인 도면 부호와 도면 부호 설명 위치 좌표는 자동으로 스케일링되며, 스케일링된 결과 이동한 위치 역시 동일하게 된다. 따라서, 특허 도면이 상태 변경(예를 들어, 이동, 회전, 확대 또는 축소)되더라도 특허 도면 상에 고정된 SVG 이미지 역시 특허 도면과 동일하게 상태 변경되게 되며, 그 결과 SVG 이미지 상에 새겨진/부가된/할당된/표시된 도면 부호 설명 역시 SVG 이미지가 이동, 회전, 확대, 또는 축소되더라도 SVG 이미지 내에서의 상대적인 위치는 변하지 않고 고정되게 된다.

SVG 이미지를 사용하는 경우, 도면 부호 위치에는 특정 서식(예를 들어, 노란색 하이라이트 표시 등) 등을 표시하여 웹 서버가 현재 인식 완료한 도면 부호를 사용자에게 알려줄 수 있으며, 이렇듯 특정 서식 등으로 표시된 위치에는 추후 HTML 등을 이용하여 툴 팁(tool tip)처럼 도면 부호 설명이 표시될 수 있다.

본 실시예에 따르면, 도면의 상태 변화에 따라 도면 부호의 위치를 매번 트래킹/재계산하여 도면 부호 설명을 할당하는 기존 방식 대비, 도면 부호 설명 대체 속도가 매우 빠르다는 효과가 발생한다. 특히, 기존/종래 방식의 경우, 도면의 상태 변화에 따라 매번 도면 부호의 위치를 트래킹/재계산해야 하므로 대체 속도가 매우 느리기 때문에, 한 번에 하나의 도면 부호에 대해서만 도면 부호 설명이 대체/출력 가능했던 반면, 본 실시예에 따를 때 대체 속도가 매우 빨라 하나의 도면에 포함된 모든 도면 부호(즉, 복수의 도면 부호들)를 한 번에 대체/출력하는 동작이 가능하다.

한편, 본 도면에는 도시하지 않았으나, 모든 도면 부호 설명에 상대적인 위치 좌표를 할당한 결과, SVG 이미지 상에서 적어도 일부가 중첩되는 도면 부호 설명이 발생하는 경우가 생길 수 있다. 이 경우, 웹 서버는 중첩되는 도면 부호 설명 중 적어도 하나의 상대적인 위치 좌표를 상호 중첩되지 않는 방향으로 임의로 조정한 후 SVG 이미지 상에 새길/표시/부가/할당할 수 있다. 예를 들어, 웹 서버는 제1 도면 부호 설명과 제2 도면 부호 설명이 상호 중첩되는 경우, 제1 도면 부호 설명을 제1 방향으로, 제2 도면 부호 설명은 제1 방향의 반대 방향인 제2 방향으로 기설정된 길이만큼 이동시킬 수 있다.

본 명세서에서는 도면 부호 설명 출력에 사용되는 이미지로 'SVG 이미지'를 대표적인 실시예로 들어 설명하였으나 이에 한정되는 것은 아니며, 다양한 포맷의 이미지가 활용될 수 있음은 물론이다. 따라서, 본 명세서에서 SVG 이미지는 '이미지'로 통칭/대체되어 설명될 수 있으며, 이때의 '이미지'는 SVG 이미지와 같이 상태 변화에도 품질이 저하되지 않는 다양한 포맷의 이미지를 지칭할 수 있다.

한편, 상기 순서도 및 도면에는 별도 언급하지 않았으나, 블록도, 순서도와 같이 도면에 각 도면 부호에 대한 도면 부호 설명이 이미 도면에 포함되어 있는 경우, 웹 서버는 해당 도면 부호에 대해서는 도면 부호 설명으로 대체하지 않는 대신 도면 부호 설명에 강조 표시 서식을 적용할 수 있다. 이를 위해, 웹 서버는 도면에 포함된 문자를 인식하기 위한 동작을 사전에 수행할 수 있다.

이상으로 도면 부호 인식 방법, 도면 부호 설명 추출 방법, 도면 부호를 도면 부호 설명으로 대체하는 방법에 관해 각각 살펴보았다. 이렇게 추출/인식된 도면 부호 및/또는 도면 부호 설명을 매개체로 하여, 특허 문헌의 각 카테고리는 상호 연동/동기화될 수 있다. 그 결과, 사용자는 도면 부호 및/또는 도면 부호 설명을 이용하여 원하는 정보의 선택적인 탐색/검색이 가능하게 되어, 보다 효율적으로 발명의 파악이 가능하게 된다. 특허 문헌의 각 카테고리별 상호 연동/동기화 실시예는 도 11 내지 15를 참조하여 이하에서 후술하며, 이를 살펴보기에 앞서 본 명세서에서 정의하는 특허 문헌의 카테고리에 대해 간단히 살펴보기로 한다.

도 10을 참조하면, 특허 문헌(1000)은 복수의 카테고리(1001, 1002)로 구분될 수 있다. 특허 문헌(1000)은 크게는 특허 명세서(1001)와 특허 도면(1002)으로 구분될 수 있으며, 특허 명세서(1001)는 다시 청구 범위(1001-1), 발명의 상세한 설명(1001-2) 및/또는 부호의 설명(미도시)으로 구분될 수 있다.

이렇게 구분되는 복수의 카테고리(1001, 1002)는 복수의 영역/창으로 구분되어 출력될 수 있다. 예를 들어, 특허 명세서(1001)와 특허 도면(1002)은 하나의 창 내에서 서로 다른 제1 및 제2 영역에 각각 구분되어 출력될 수 있다. 또는, 특허 명세서(1001)와 특허 도면(1002)은 서로 다른 제1 및 제2 창에 각각 구분되어 출력될 수 있다. 또는, 특허 명세서(1001)와 특허 도면(1002)은 하나의 창에서 영역별로 구분되어 출력됨과 동시에 특허 명세서(1001) 또는 특허 도면(1002)이 별도의 창으로서 추가 출력될 수도 있다.

이렇게 영역/창별로 구분하여 출력하는 이유는, 사용자의 시야에 모든 카테고리(1001, 1002)가 한 번에 들어올 수 있도록 하여, 사용자가 보다 쉽고 효율적으로 정보를 파악할 수 있도록 편의를 제공하기 위함이다.

본 명세서에서 복수의 카테고리(1001, 1002)는 도면 부호 및/또는 도면 부호 설명을 매개체로 하여 상호 연동될 수 있다.

보다 상세하게는, 복수의 카테고리(1001, 1002) 중 어느 하나의 카테고리에 포함된 도면 부호에 대한 선택 입력이 수신된 경우, 웹 서버는 복수의/모든 카테고리(1001, 1002)에서 도면 부호를 검색할 수 있다. 나아가, 웹 서버는 복수의/모든 카테고리(1001, 1002)에서 검색된 도면 부호에 대하여 모두 강조 표시 서식을 적용하여 출력할 수 있다.

만일 도면 부호가 특허 명세서 카테고리(1001)에서 검색된 경우, 웹 서버는 검색된 모든 도면 부호에 대해 기설정된 서식(예를 들어, 밑줄, 굵은 글씨 표시, 다른 글씨 색 적용, 하이라이트 표시 등)을 적용하여 강조 표시할 수 있다. 같은 맥락으로, 도면 부호가 특허 도면 카테고리(1002)에서 검색된 경우, 웹 서버는 검색된 모든 도면 부호 또는 이에 대응하여 대체 출력된 모든 도면 부호 설명에 대해 기설정된 서식(예를 들어, 밑줄, 굵은 글씨 표시, 다른 글씨 색 적용, 하이라이트 표시 등)을 적용하여 강조 표시할 수 있다.

예를 들어, 사용자가 특허 명세서 카테고리(1001)에서 도면 부호 '16'을 선택한 경우, 특허 도면 카테고리(1002)에서 도면 부호 '16'이 포함된 도면이 자동으로 선택/출력된 후 도면 부호 '16'이 강조 표시되거나, 특허 도면 카테고리(1002)에서 도면 부호 '16'을 선택하는 경우 특허 명세서 카테고리(1001)에서 도면 부호 '16'이 모두 강조 표시됨과 동시에 도면 부호 '16'이 포함된 문장/문단으로 자동으로 스크롤링되는/출력 동작 등이 수행될 수 있다.

도면 부호에 대한 사용자 입력을 수신하기 위해, 특허 명세서 카테고리(1001)에서 도면 부호는 하이퍼링크 형식으로 출력될 수 있으며, 특허 도면 카테고리(1002)에서 도면 부호(또는 도면 부호 설명) 역시 선택 가능한 형태의 GUI/아이콘 형태로 출력될 수 있다.

도 11 및 12는 본 발명의 일 실시예에 따른 도면 부호 및 도면 부호 설명이 상호 연동되는 도면 인터페이스를 예시한 도면이다.

본 명세서에서 제안되는 도면 인터페이스는 도면에 관한 다양한 기능을 사용자에게 제공하는 사용자 인터페이스로서 도면 카테고리에서 출력될 수 있다. 이러한 도면 인터페이스는, 본 도면들에 도시한 바와 같이, 기본적으로 도면을 출력할 수 있다. 추가로, 도면 인터페이스는 특허 문헌에 포함된 전체 도면에 대한 미리보기 및 바로가기 기능, 도면 상태 변경(예를 들어, 도면 회전, 이동, 확대 및 축소) 기능, 도면 부호 설명 대체 기능 등 도면과 관련된 다양한 기능을 제공하여 사용자 편의를 제공할 수 있다. 여기서 도면 부호 설명 대체 기능은 앞서 상술한 실시예들이 적용된 기능에 해당할 수 있다.

특히, 도면 인터페이스는 선택된 도면의 모든 도면 부호를 인식하여 이들에 대응하는 모든 도면 부호 설명을 추출하고, 추출한 모든 도면 부호 설명을 리스트-업하여 사용자에게 제공하는 기능을 제공할 수 있다. 이때 상호 대응하는 도면 부호와 도면 부호 설명은 상호 매칭/페어링되어 출력될 수 있다. 도면 부호 인식 및 도면 부호 설명 추출은 앞서 상술한 실시예들이 적용될 수 있다.

나아가, 웹 서버는 도 12에 도시한 바와 같이, 도면 인터페이스를 통해 출력된 도면 부호 설명 리스트에서 적어도 하나의 도면 부호 설명(또는 도면 부호 설명)에 대한 사용자의 선택 입력을 수신한 경우, 선택 입력된 도면 부호 설명(또는 도면 부호)에 한해서만 선택적으로 출력할 수 있다. 예를 들어, 도 12에 도시한 바와 같이, 볼트(16)에 대한 사용자의 선택 입력이 수신된 경우, 웹 서버는 도면 부호 16에 한해서만 도면 부호 설명인 볼트를 출력할 수 있다.

본 실시예에 따를 때, 사용자는 원하는 도면 부호 또는 도면 부호 설명에 한해 선택적으로 볼 수 있어, 쉽고 효율적으로 도면/발명을 파악할 수 있다.

본 명세서에서 제안되는 도면 인터페이스는 키워드 설정 인터페이스를 제공할 수 있다. 키워드 설정 인터페이스는 도면 부호 설명 중 적어도 일부를 키워드로 설정할 수 있도록 하기 위해 도면 카테고리를 통해 제공되는 사용자 인터페이스에 해당한다.

키워드 설정 인터페이스는, 본 도면에 예시한 바와 같이, 키워드로 설정하고자 하는 도면 부호 설명을 입력받기 위한 입력창, 설정된 키워드의 강조 색상을 설정하기 위한 색 설정창 및/또는 현재까지 설정된 키워드를 나타내는 키워드 인디케이터를 포함하여 구성될 수 있다. 그러나, 키워드 설정 인터페이스는 이에 한정되지 않으며, 다양한 기능이 추가되거나 상술한 기능 중 적어도 일부가 제외될 수 있다.

사용자는 이러한 키워드 설정 인터페이스를 통해, 도면 부호 설명 중 특정 도면 부호 설명을 키워드로 등록/설정할 수 있으며, 웹 서버는 등록/설정된 키워드를 사용자가 쉽게 찾을 수 있도록 도면 내에서 강조 표시하거나 키워드가 포함된 도면들을 강조 표시할 수 있다.

예를 들어, 사용자가 도 11에서 예시된 도면 부호 설명 중 '볼트(16)'를 키워드로 지정하고자 하는 경우, 도 12에 예시된 바와 같이 볼트를 입력창에 입력하고 강조 색상을 설정한 뒤 등록 버튼을 누를 수 있다. 이에 따라, 웹 서버는 볼트를 키워드로 설정/등록하고 키워드 설정 인터페이스의 소정의 영역에 볼트가 키워드로 설정/등록되었음을 알리는 키워드 인디케이터를 출력할 수 있다. 나아가, 웹 서버는 볼트를 도면 카테고리 내에서 검색하여, 현재 선택되어 확대 출력 중인 도면 내의 키워드에 강조 색상을 적용하여 출력할 수 있다. 또한, 웹 서버는 미리보기 제공 중인 도면 중 키워드가 검색된 도면에 대해서는 키워드 강조 색상과 동일한 색상의 인디케이터를 출력할 수 있다.

그 결과, 사용자는 현재 보고 있는 도면 내에서 키워드를 쉽게 파악할 수 있을 뿐 아니라, 현재 보고 있지 않은 도면 중에서도 키워드가 포함되어 있는 도면이 무엇인지 쉽게 파악할 수 있어 사용자가 원하는 정보의 접근 효율성이 매우 향상된다는 효과가 있다. 또한, 사용자가 복수의 키워드를 설정/등록도 가능하며, 이 경우에도 키워드별 색상을 다르게 설정할 수 있으므로, 색상으로 키워드의 구분이 쉽게 가능하다.

도 14 및 15는 본 발명의 일 실시예에 따른 도면 부호 설명을 매개체로 한 카테고리간 연동 실시예를 예시한 도면이다.

도 14에 도시한 바와 같이, 도면 부호를 커버하여 출력된 도면 부호 설명(1402)에 대하여 사용자의 선택 입력이 수신되는 경우 적어도 하나의 기능을 선택하기 위한 선택창이 출력될 수 있다. 이때 제공되는 기능(1403)으로는, 선택된 도면 부호 설명(1402)을 특허 명세서 내에서 탐색/검색하는 기능이 있을 수 있다. 사용자가 본 기능(1403)을 선택하는 경우, 웹 서버는 선택된 도면 부호 설명(1402) 또는 이(1402)에 대응하는 도면 부호를 모든 카테고리에서 검색할 수 있으며, 검색된 도면 부호 설명(1402)에 강조 표시(1502)를 적용하여 도 15에 도시한 바와 같이 출력할 수 있다.

도 15를 참조하면, 웹 서버는 선택된 도면 부호 설명 또는 이에 대응하는 도면 부호를 특허 명세서 카테고리에서 검색한 경우, 검색된 모든 도면 부호 설명 또는 도면 부호(1506-1, 1506-2)에 기설정된 서식(예를 들어, 밑줄, 굵은 글씨 표시, 다른 글씨 색 적용, 하이라이트 표시 등)을 적용하여 강조 표시할 수 있다.

그리고/또는, 웹 서버는 검색된 도면 부호 설명 또는 도면 부호 중 특허 명세서 카테고리(특히, 청구항 카테고리 및 발명의 상세한 설명 카테고리)의 최상단에 위치한 도면 부호 설명 또는 도면 부호(1506-1)의 위치/페이지/문장/문단으로 웹 페이지를 자동 스크롤링할 수 있다.

그리고/또는, 웹 서버는 특허 명세서 카테고리(특히, 청구항 카테고리 및 발명의 상세한 설명 카테고리)에서 제공되는 전체 스크롤 바 영역에서, 검색된 모든 도면 부호 설명 또는 도면 부호의 위치와 대응되는 스크롤 바 영역(또는 스크롤 바 이웃 영역)에 제1 인디케이터(1505)를 각각 출력할 수 있다. 즉, 제1 인디케이터(1505)를 통해 미니 맵 형식으로 도면 부호 설명 또는 도면 부호가 위치하는 페이지 영역을 스크롤 바 영역에 표시함으로써 사용자가 제1 인디케이터(1505)의 위치로 스크롤 바를 이동시켜 보다 쉽게 원하는 정보에 접근하게 할 수 있도록 한다. 나아가, 미니 맵 형식으로 출력되는 제1 인디케이터를 통해, 사용자는 검색된 모든 도면 부호 설명 및/또는 도면 부호가 어느 카테고리에 얼만큼 분포하는지를 한 눈에 파악할 수 있으므로, 구성 요소의 중요성 판단에도 유용하게 활용될 수 있다.

그리고/또는, 웹 서버는 검색된 도면 부호 설명 또는 도면 부호를 탐색하기 위한 탐색창(1504-1, 1504-2)을 특허 명세서 카테고리(특히, 청구항 카테고리 및 발명의 상세한 설명 카테고리) 내에서 제공/출력할 수 있다. 따라서, 사용자는 탐색창(1504-1, 1504-2)을 통해 검색하고자 하는 도면 부호 설명 또는 도면 부호가 포함된 문단, 페이지, 문장을 바로 탐색할 수 있다.

그리고/또는, 웹 서버는 선택된 도면 부호 설명 또는 이에 대응하는 도면 부호를 특허 도면 카테고리에서도 검색할 수 있으며, 미리보기 제공 중인 도면 중 도면 부호 설명 또는 이에 대응하는 도면 부호가 포함된 도면에 제2 인디케이터(1507)를 제공/출력할 수 있다. 따라서, 사용자는 제2 인디케이터(1507)가 제공/출력된 도면을 선택함으로써 바로 탐색하고자 하는 도면 부호 설명이 포함된 도면을 탐색/검색할 수 있다.

한편, 본 도면에는 도시하지 않았으나, 웹 서버는 특허 명세서 카테고리 중 사용자가 현재 읽고/탐색하고 있는 문단/문장 부분에 대응하는 도면을 자동으로 선택하여 확대 출력하는 동작을 수행할 수 있다. 이를 위해, 웹 서버는 특허 명세서 카테고리(특히, 발명의 상세한 설명 카테고리)의 내용을 파악하여 각 도면에 대한 설명(예를 들어, 문단, 문장, 페이지)별로 영역을 구획할 수 있으며, 현재 웹 페이지 상에서 가장 높은 비율로 출력 중인 영역에 해당하는 도면을 자동으로 선택하여 확대 출력할 수 있다. 예를 들어, 사용자 장치에서 도 1에 대한 발명의 상세한 설명이 출력 중인 경우, 웹 서버는 도 1을 자동 선택하여 도면 카테고리 내에서 확대 출력할 수 있다.

이와 유사하게, 사용자가 특허 명세서 카테고리 내에서 특정 영역(예를 들어, 문단, 문장, 페이지)를 선택한 경우, 웹 서버는 선택된 도면에 대응하는 도면을 도면 카테고리에서 자동 선택하여 확대 출력할 수 있다. 나아가, 웹 서버는 선택된 특정 영역에 포함된 도면 부호에 대하여 도면 부호 설명으로 자동 대체하는 동작을 수행할 수 있다.

웹 서버는 앞서 상술한 동작/방법/실시예들을 통해 획득/인식한 적어도 하나의 정보를 데이터 베이스화하여(즉, 데이터로 축적하여 데이트 베이스에 별도 저장하여), 특허 도면 검색 데이터 베이스를 구축할 수 있다.

예를 들어, 웹 서버는 특허 문헌, 특허 도면, 특허 도면의 크기, 특허 도면에 포함된 도면 부호, 각 도면 부호에 대응하는 도면 부호 설명 및/또는 도면 부호의 상대적인 위치 좌표를 하나의 데이터로서 그룹핑하고, 이를 데이터 베이스에 저장함으로써 특허 도면 검색 데이터 베이스를 구축할 수 있다.

따라서, 사용자는 이렇게 구축된 특허 도면 검색 데이터 베이스를 통해, 특허 문헌과 관련된 검색어를 입력함으로써 쉽게 전세계 특허 도면 중 찾고자 하는 특허 도면에 관한 정보를 쉽게 획득할 수 있다.

나아가, 웹 서버는 이렇게 구축된 특허 도면 검색 데이터 베이스를 통해 다양한 특허 도면 데이터를 실시간/주기적으로 학습함으로써 앞서 상술한 다양한 모델/규칙들을 업데이트하여 인식 정확도/속도를 향상시킬 수 있다.

도 16을 참조하면, 본 명세서에서 제안되는 특허 정보 검색 시스템은, 웹 서버와 사용자 장치를 포함할 수 있다.

웹 서버(1601)와 사용자 장치(1602)는 주로는 인터넷 연결을 통해 상호 연결되어 통신을 수행할 수 있으며, 웹 서비스/페이지를 통해 특허 정보 검색 서비스를 제공/수신할 수 있다.

웹 서버(1601)는 본 명세서에서 제안된 실시예들을 수행하도록 설계된 적어도 하나의 소프트웨어 및 하드웨어 구성 요소가 포함된 서버/장치에 해당할 수 있다. 특히, 웹 서버(1601)는 인터넷 웹 페이지를 통해 본 명세서에서 제안된 특허 정보 검색 서비스를 클라이언트 기기인 사용자 장치에 제공할 수 있다.

사용자 장치(1602)는 웹 서버를 통해 제공되는 특허 정보 검색 서비스를 받는 클라이언트 기기에 해당할 수 있다. 사용자 장치(1602)는 인터넷 웹 페이지를 통해 웹 서버가 제공하는 특허 정보 검색 서비스를 제공받을 수 있다.

본 명세서에서는 특허 정보 검색 시스템이 웹 서버(1601) 및 사용자 장치(1602)로 구성된 경우를 예시하였으나 이에 한정되는 것은 아니며, 실시예에 따라 웹 서버(1601)는 어플리케이션 서버, 프로그램 서버, 서비스 제공 장치로 대체되어 설명될 수 있다. 또한, 본 명세서에서 실시예의 수행 주체를 웹 서버(1601)로 설명하였으나 이에 한정되는 것은 아니며, 웹 서버(1601)는 상술한 실시예를 구현하도록 설계된 프로그램, 어플리케이션으로 대체될 수 있으며, 웹 서버(1601)의 동작은 이들의 기능으로 해석될 수 있다.

도 17은 본 발명의 일 실시예에 따른 웹 서버의 블록도이다.

도 17을 참조하면, 웹 서버는 프로세서(1710), 메모리 유닛(1720) 및 통신 유닛(1730)을 포함할 수 있다.

프로세서(1710)는 본 명세서에서 제안된 실시예를 수행하기 위해 다른 구성 요소와 통신을 수행하거나 이들을 제어할 수 있으며, 메모리 유닛(1720)에 저장된 다양한 프로그램 및/또는 어플리케이션을 실행하고 내부 데이터를 프로세싱할 수 있다. 프로세서(1710)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), AP(Application Processor), AP(Application Processor) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 적어도 하나 포함하여 구성될 수 있다. 따라서, 본 명세서에서 웹 서버는 프로세서로 대체되어 설명될 수도 있다.

메모리 유닛(1720)은 플래시 메모리, HDD(Hard Disk Drive), SSD(Solid State Drive) 등의 내장 가능한 디지털 데이터 저장 공간을 의미할 뿐 아니라, 클라우드 등과 같이 통신 연결을 통해 데이터 저장이 가능한 외부 저장 공간까지 통칭한다. 따라서, 메모리 유닛(1720)은, 비디오, 오디오, 사진, 동영상, 이미지, 텍스트, 어플리케이션, 프로그램 등 다양한 디지털 데이터를 저장할 수 있다. 특히, 본 명세서에서 제안되는 메모리 유닛(1720)은 다양한 지식 정보 컨텐츠(특히, 특허 문헌) 데이터를 저장할 수 있으며, 프로세서(1710)에 의해 구축된 특허 문헌 검색 데이터 베이스 및/또는 특허 도면 검색 데이터 베이스(1720-1)를 저장할 수 있다. 따라서, 실시예에 따라 프로세서(1710)는 메모리 유닛(1720)에 저장되어 있는 특허 문헌 및/또는 특허 도면 검색 데이터 베이스로부터 다양한 데이터를 로딩하여 데이터 프로세싱/출력 동작 등을 수행할 수 있다.

통신 유닛(1730)은 적어도 하나의 유/무선 통신 프로토콜을 사용하여 통신을 수행, 데이터를 송신/수신할 수 있다.

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

아울러, 본 발명에 따른 장치나 단말은 하나 이상의 프로세서로 하여금 앞서 설명한 기능들과 프로세스를 수행하도록 하는 명령에 의하여 구동될 수 있다. 예를 들어 그러한 명령으로는, 예컨대 JavaScript나 ECMAScript 명령 등의 스크립트 명령과 같은 해석되는 명령이나 실행 가능한 코드 혹은 컴퓨터로 판독 가능한 매체에 저장되는 기타의 명령이 포함될 수 있다. 나아가 본 발명에 따른 장치는 서버 팜(Server Farm)과 같이 네트워크에 걸쳐서 분산형으로 구현될 수 있으며, 혹은 단일의 컴퓨터 장치에서 구현될 수도 있다.

또한, 본 발명에 따른 장치에 탑재되고 본 발명에 따른 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.

설명의 편의를 위하여 각 도면을 나누어 설명하였으나, 각 도면에 서술되어 있는 실시예들을 병합하여 새로운 실시예를 구현하도록 설계하는 것도 가능하다. 또한, 본 발명은 상술한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상술한 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시 예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

또한, 이상에서는 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 명세서는 상술한 특정의 실시예에 한정되지 아니하며, 청구 범위에서 청구하는 요지를 벗어남이 없이 당해 명세서가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 명세서의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

본 발명은 다양한 특허 검색 시스템/장치/방법에 활용될 수 있다.

Claims

특허 도면 부호 인식 방법에 있어서,

복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델 및 도면 부호 인식 모델을 구축하는 단계;

도면 부호 인식 대상인 특허 도면을 입력받는 단계;

상기 도면 부호 위치 인식 모델을 이용하여 상기 특허 도면에 포함된 도면 부호의 위치를 인식하는 단계;

상기 인식된 위치의 도면 부호를 상기 특허 도면에서 이미지 조각으로 잘라내는 단계; 및

상기 도면 부호 인식 모델을 이용하여 상기 이미지 조각에 포함된 도면 부호를 인식하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 1 항에 있어서,

상기 도면 부호 위치 인식 모델을 구축하는 단계는,

상기 복수의 특허 도면 샘플에 포함된 도면 부호의 위치들을 FCN(Fully Convolutional Network)을 이용하여 인식하는 단계;

상기 인식한 도면 부호의 위치들로부터 공통된 특징을 추출하는 단계; 및

상기 추출한 공통된 특징을 기초로 상기 도면 부호 위치 인식 모델을 구축하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 2 항에 있어서,

상기 도면 부호 인식 모델을 구축하는 단계는,

상기 도면 위치 인식 모델을 이용하여 상기 복수의 특허 도면 샘플들에 포함된 도면 부호의 위치들을 인식하는 단계;

상기 인식된 위치의 도면 부호들을 상기 복수의 특허 도면 샘플들에서 이미지 조각으로 잘라내는 단계;

상기 잘라낸 이미지 조각들 각각에 포함된 도면 부호를 C-RNN(Convolution Recurrent Neural Network)을 이용하여 인식하는 단계;

상기 인식한 도면 부호로부터 공통된 특징을 추출하는 단계; 및

상기 추출한 공통된 특징을 기초로 상기 도면 부호 인식 모델을 구축하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 3 항에 있어서,

상기 도면 부호를 인식하는 단계는,

기설정된 수 단위로 이미지 조각을 모아 하나의 이미지를 생성하는 단계; 및

상기 하나의 이미지에 포함된 복수의 도면 부호들을 상기 C-RNN을 이용하여 인식하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 1 항에 있어서,

상기 특허 도면에 대응하는 특허 명세서에서 상기 인식한 도면 부호에 대응하는 도면 부호 설명을 추출하는 단계;

상기 특허 도면의 크기 및 상기 특허 도면 내에 포함된 상기 도면 부호의 위치를 인식하여 상기 특허 도면 내에서의 상기 도면 부호의 상대적인 위치 좌표를 획득하는 단계;

상기 특허 도면과 동일한 크기의 이미지를 생성하는 단계; 및

상기 이미지를 상기 특허 도면 상에 오버랩(overlap)시킨 후 상기 특허 도면에 고정시키는 단계;

상기 획득한 상대적인 위치 좌표와 대응하는 위치의 상대적인 위치 좌표를 상기 도면 부호 설명에 할당하는 단계;

상기 이미지 상에, 상기 도면 부호 설명에 할당된 상대적인 위치 좌표에 상기 도면 부호 설명을 표시하는 단계; 및

상기 도면 부호 설명이 표시된 이미지를 출력하는 단계; 를 포함하는, 특허 도면 부호에 대한 도면 부호 설명 출력 방법.
제 5 항에 있어서,

상기 도면 부호 설명을 추출하는 단계는,

텍스트 마이닝 기술을 기반으로 복수의 특허 명세서 샘플들을 이용하여 도면 부호 설명 추출 규칙을 확립하는 단계; 및

상기 확립한 도면 부호 설명 추출 규칙을 기반으로 상기 특허 명세서에서 상기 도면 부호 설명을 추출하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 6 항에 있어서,

상기 도면 부호 설명 추출 규칙을 확립하는 단계는,

상기 복수의 특허 명세서 샘플들을 출원 국가별로 분류하는 단계;

상기 분류된 출원 국가별로 공통된 특징을 추출하는 단계; 및

상기 추출한 특징을 기초로 상기 도면 부호 설명 추출 규칙을 확립하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 7 항에 있어서,

상기 공통된 특징을 추출하는 단계는,

상기 도면 부호를 기준으로 한 상기 도면 부호 설명의 상대적인 위치, 상기 도면 부호 설명에 적용된 서식, 및 출원 년도 중 적어도 하나를 기초로 상기 공통된 특징을 추출하는 단계인, 특허 도면 부호 인식 방법.
제 8 항에 있어서,

상기 도면 부호 설명 추출 규칙이 상기 도면 부호를 기준으로 한 상기 도면 부호 설명의 상대적인 위치를 기초로 확립된 경우, 상기 도면 부호 설명을 추출하는 단계는,

상기 특허 명세서에서 상기 인식한 도면 부호를 검색하는 단계;

상기 도면 부호 설명 추출 규칙에 따라 상기 검색된 도면 부호를 기준으로 한 상기 도면 부호 설명의 상대적인 위치를 예상하는 단계; 및

상기 예상한 위치의 문자를 상기 도면 부호 설명으로서 추출하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 9 항에 있어서,

상기 도면 부호 설명이 복수개 추출되는 경우, 상기 복수개 추출된 도면 부호 설명을 상기 특허 명세서에서 검색하는 단계; 및

가장 많이 검색된 도면 부호 설명을 최종 도면 부호 설명으로 결정하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
제 6 항에 있어서,

상기 도면 부호 설명의 추출 정확도를 높이기 위하여, 상기 추출한 도면 부호 설명을 보완하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
제 11 항에 있어서,

상기 확립한 도면 부호 설명 추출 규칙을 기반으로 상기 복수의 특허 명세서 샘플들을 이용하여 추출한 도면 부호 설명을 상기 특허 명세서에서 검색하는 단계;

상기 특허 명세서에서 검색되지 않는 도면 부호 설명을 오류가 발생한 도면 부호 설명으로 분류하는 단계;

상기 분류한 도면 부호 설명으로부터 공통된 특징을 추출하여 오류 추출 규칙을 확립하는 단계; 및

상기 확립한 오류 추출 규칙을 기반으로 상기 특허 명세서에서 추출한 도면 부호 설명에 오류가 있는지 판단하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
제 12 항에 있어서,

상기 공통된 특징을 추출하는 단계는,

숫자 또는 알파벳이 상기 알파벳 또는 상기 숫자로 추출되었는지 여부, 상기 도면 부호 설명에 기설정된 품사의 포함 여부, 및 상기 도면 부호 설명에 기호 포함 여부 중 적어도 하나를 기초로 상기 공통된 특징을 추출하는 단계인, 특허 도면 부호 인식 방법.
제 12 항에 있어서,

상기 추출한 도면 부호 설명에 오류가 있는 것으로 판단된 경우, 상기 추출한 도면 부호 설명을 보완하는 단계는,

상기 추출한 도면 부호 설명에서 상기 오류를 삭제하거나 다른 문자로 대체하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 12 항에 있어서,

상기 확립한 도면 부호 설명 추출 규칙 및 상기 확립한 오류 추출 규칙을 학습하여 도면 부호 설명 추출 모델을 구축하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
제 1 항에 있어서,

상기 인식한 도면 부호를 상기 특허 도면에 대응하는 특허 명세서에서 검색하는 단계;

상기 인식한 도면 부호가 상기 특허 명세서에서 검색된 경우, 상기 인식한 도면 부호를 최종 도면 부호로 결정하는 단계; 및

상기 인식한 도면 부호가 상기 특허 명세서에서 검색되지 않는 경우, 상기 특허 명세서 내에서 상기 인식한 도면 부호와 기설정된 비율 이상의 형상 유사도를 갖는 문자를 상기 최종 도면 부호로 결정하는 단계; 를 포함하는, 특허 도면 부호 인식 방법.
제 1 항에 있어서,

상기 특허 도면에 대응하는 특허 명세서에서 도면 부호를 인식하는 단계;

상기 특허 도면을 통해 인식한 도면 부호 중에서 상기 특허 명세서에서 인식한 도면 부호와 매칭되는 도면 부호가 있는지 판단하는 단계;

매칭되는 도면 부호가 있는 경우, 상기 특허 명세서에서 인식한 도면 부호를 최종 도면 부호로 결정하는 단계; 및

매칭되는 도면 부호가 없는 경우, 상기 특허 도면을 통해 인식한 도면 부호 중에서, 상기 특허 명세서에서 인식한 도면 부호와 기설정된 비율 이상의 형상 유사도를 갖는 도면 부호를 상기 최종 도면 부호로 결정하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
제 5 항에 있어서,

상기 인식한 도면 부호 및 상기 인식한 도면 부호 설명을 상호 매칭하여 데이터 베이스에 저장함으로써 특허 도면 검색 데이터 베이스를 구축하는 단계; 를 더 포함하는, 특허 도면 부호 인식 방법.
특허 도면 부호를 인식하는 웹 서버에 있어서,

적어도 하나의 통신 프로토콜을 사용하여 통신을 수행하는, 통신 유닛;

데이터를 저장하는, 메모리 유닛; 및

상기 통신 유닛 및 상기 메모리 유닛을 제어하는, 프로세서; 를 포함하고,

상기 프로세서는,

복수의 특허 도면 샘플을 학습하여 도면 부호 위치 인식 모델 및 도면 부호 인식 모델을 구축하고,

도면 부호 인식 대상인 특허 도면을 선택받고,

상기 도면 부호 위치 인식 모델을 이용하여 상기 특허 도면에 포함된 도면 부호의 위치를 인식하고,

상기 인식된 위치의 도면 부호를 상기 특허 도면에서 이미지 조각으로 잘라내고,

상기 도면 부호 인식 모델을 이용하여 상기 이미지 조각에 포함된 도면 부호를 인식하는, 웹 서버.
특허 도면 부호 인식 및 도면 부호 설명 출력 방법에 있어서,

특허 도면을 입력받는 단계;

상기 특허 도면에 포함된 도면 부호의 위치를 인식하는 단계;

상기 인식된 도면 부호 위치의 도면 부호를 인식하는 단계;

상기 특허 도면 내에서의 상기 도면 부호의 상대적인 위치 좌표를 획득하는 단계;

상기 특허 도면과 동일한 크기의 이미지를 생성하는 단계;

상기 이미지를 상기 특허 도면 상에 오버랩(overlap)시킨 후 상기 특허 도면에 고정시키는 단계;

상기 획득한 상대적인 위치 좌표와 대응하는 위치의 좌표를, 상기 도면 부호에 대응하는 도면 부호 설명에 상기 이미지에 대한 상대적인 위치 좌표로서 할당하는 단계;

상기 이미지 상에, 상기 도면 부호 설명에 할당된 상대적인 위치 좌표에 상기 도면 부호 설명을 표시하는 단계; 및

상기 도면 부호 설명이 표시된 이미지를 출력하는 단계; 를 포함하는, 특허 도면 부호 인식 및 도면 부호 설명 출력 방법.