WO2016068514A1 - 자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치 - Google Patents

자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치 Download PDF

Info

Publication number
WO2016068514A1
WO2016068514A1 PCT/KR2015/010660 KR2015010660W WO2016068514A1 WO 2016068514 A1 WO2016068514 A1 WO 2016068514A1 KR 2015010660 W KR2015010660 W KR 2015010660W WO 2016068514 A1 WO2016068514 A1 WO 2016068514A1
Authority
WO
WIPO (PCT)
Prior art keywords
product
keyword
keywords
structure analysis
relationship
Prior art date
Application number
PCT/KR2015/010660
Other languages
English (en)
French (fr)
Inventor
전홍우
고병열
이재민
여운동
김선호
송인석
김소영
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2016068514A1 publication Critical patent/WO2016068514A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data

Abstract

본 발명은 기술기회발굴을 지원하기 위해 제품별로 산업구조를 분석하는 방법 및 이를 위한 분석장치에 관한 것이다. 구체적으로는, 기술문헌으로부터 제품키워드를 추출하되 상표 및 상표와 대응되는 임의의 제품, 그리고 위 제품에 대한 설명이 저장된 상표 데이터베이스를 활용하여 상표가 존재하는 제품을 구별하여 제품키워드를 추출하고, 추출된 제품키워드들을 대상을 자연어 처리기법을 적용시켜 각 제품키워드들 간 연관관계를 파악하는 것에 관한 것이다.

Description

자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치
본 발명은 기술기회발굴을 지원하기 위해 제품별로 산업구조를 분석하는 방법 및 이를 위한 분석장치에 관한 것이다. 구체적으로는, 기술문헌으로부터 제품키워드를 추출하되 상표 및 상표와 대응되는 임의의 제품, 그리고 위 제품에 대한 설명이 저장된 상표 데이터베이스를 활용하여 상표가 존재하는 제품을 구별하여 제품키워드를 추출하고, 추출된 제품키워드들을 대상을 자연어 처리기법을 적용시켜 각 제품키워드들 간 연관관계를 파악하는 것에 관한 것이다.
기술기회발굴(TOD. Technology Opportunity Discovery)이란 기술 또는 제품의 개발과 활용을 통해 수익 창출이 가능한 기회를 발굴하는 과정을 의미한다. 이러한 기술기회의 발굴은 기술기반 주체로 하여금 새로운 수익 영역 내지 개발 영역을 확보할 수 있도록 하여 궁극적으로는 지속 가능한 발전의 원동력을 확보하는 것을 목표로 한다. 이에 최근 대다수의 선진국가들과 글로벌 기업들은 적극적인 기술기회발굴을 통해 유망기술 개발을 위한 방향을 설정하거나 부가가치가 높은 아이템을 탐색하는 등 새로운 수익 영역 또는 개발 영역을 확보하기 위해 적극적인 태도를 보이고 있다.
기술기회를 발굴하는 방법론에 대해서는 최근까지도 다양한 방법이 제시되고 있으며, 이 중에는 전문가 기반의 TOD 방법론, 객관적 자료분석에 기반한 TOD 방법론 등이 포함된다.
한편, 기술기회를 발굴하는 데에는 논문, 특허문헌 등과 같이 기술내용이 포함된 기술문헌들을 분석하는 과정이 수반될 수 있는데, 이 때에 분석에 유효한 키워드만을 추출해 내는 것은 분석 대상을 선별하기 위한 전처리 과정으로서 매우 중요한 과정이라 할 수 있다.
그러나 종래에는 유효한 키워드를 추출하는 기준, 방식이 모호하여 기술문헌들을 분석하는 데에 시간 및 노력이 많이 소모되었으며, 추출된 키워드들도 정확도 면에서 높지 않아 전반적인 전처리 과정의 효율이 떨어지는 문제점이 있어 왔다.
또한 종래에는 추출된 키워드들 및 각 키워드들이 포함된 문장 패턴을 살펴 해당 기술이 어떠한 세부구성을 포함하는지 밝혀 왔으나, 키워드들 중에는 명확히 관계파악이 되지 않는 것들도 많을뿐더러 특정 기술을 기준으로 한 전방, 후방 또는 등위의 관계를 파악하기가 어려워 전반적인 제품별 산업구조를 이해하기가 쉽지 않았다.
본 발명은 이와 같은 문제점을 해결하기 위한 것으로, 이 건 발명은 앞서 살핀 기술적 수요를 충족시킴은 물론, 본 기술분야에서 통상의 지식을 가진 자가 용이하게 발명할 수 없는 추가적인 기술요소들을 제공하기 위해 발명되었다.
본 발명은 기술문헌으로부터 복수의 제품키워드들을 추출해 내고, 추출된 제품키워드들 간의 연관관계를 파악하여 제품별 산업구조를 분석하는 것을 목적으로 한다.
또한 본 발명은, 제품키워드를 추출해 냄에 있어, 상표 데이터베이스, 즉 상표를 가지는 상품, 상품에 대한 설명 등이 매칭되어 저장되어 있는 상표 데이터베이스를 참조함으로써, 거래 속성이 분명하게 드러나는 제품키워드들을 추출해 내는 것을 목적으로 한다.
또한 본 발명은, 추출된 제품키워드들 간의 연관관계, 즉 전방, 후방, 등위 관계를 파악하여 사용자로 하여금 제품별로 산업구조를 파악할 수 있게 하는 것을 목적으로 한다.
위와 같은 문제점을 해결하기 위한 본 발명에 따른 제품별 산업구조 분석방법은 (a) 기술문헌으로부터 복수의 제품키워드를 추출하는 단계; 및 (b) 상기 제품키워드들 간 연관관계를 파악하는 단계;를 포함한다.
또한, 상기 제품별 산업구조 분석방법은 (c) 상기 제품키워드들 간 연관관계를 시각화 하는 단계;를 더 포함하여 구현될 수도 있다.
또한, 상기 제품별 산업구조 분석방법에 있어서 (a) 단계는, (a-1) 기술문헌으로부터 복수의 기반 명사구를 추출하는 단계; (a-2) 상표DB를 참조하여, 상기 기반 명사구들과 상기 상표DB 내 임의의 제품에 대한 제품설명의 유사도를 연산하는 단계; (a-3) 연산결과, 유사도가 기설정된 값 이상이면 제품키워드로 추출하는 단계; 를 포함한다.
또한 이 때 (a-2) 단계는, 상기 기반 명사구가 포함하는 단어들과 상기 상표DB 내 임의의 상품에 대한 상품설명을 구성하는 단어들의 중복비율을 산출하여 유사도를 연산하는 것을 특징으로 한다.
한편, 상기 제품별 산업구조 분석방법에 있어서 (b) 단계는 자연어 처리기법을 이용하여 상기 제품키워드들 간 연관관계를 파악하는 것을 특징으로 한다.
또한 이 때, 상기 연관관계는 제품키워드들 간 전방관계, 후방관계 또는 등위관계를 포함하는 것을 의미한다.
나아가 이 때, 제1제품키워드가 제2제품키워드의 구성요소로서 포함되면, 상기 제1제품키워드는 제2제품키워드에 대해 후방관계로 정의되는 것, 그리고
제1제품키워드가 제2제품키워드를 구성요소로서 포함하면, 상기 제1제품키워드는 제2제품키워드에 대해 전방관계로 정의되는 것을 특징으로 한다. 다른 한편, 제1제품키워드 및 제2제품키워드가 동일한 전방 및 후방관계를 가지는 경우, 상기 제1제품키워드 및 제2제품키워드는 상호 등위관계로 정의되는 것을 특징으로 한다.
한편, 본 발명의 다른 실시예에 따른 제품별 산업구조 분석장치는, 기술문헌으로부터 제품키워드를 추출하는 키워드 추출부; 추출된 제품키워드들 간 연관관계를 분석하는 연관관계 연산부; 복수개의 상품 및 각 상품에 대한 상품설명이 저장된 상표DB; 및 상기 키워드 추출부, 연관관계 연산부, 상표DB를 제어하는 제어부;를 포함한다.
또한, 상기 제품별 산업구조 분석장치는 제품키워드들 간 연관관계를 시각화하는 시각화부;를 더 포함한다.
본 발명에 의하면, 기술문헌으로부터 제품별 산업구조를 이해할 수 있는 정보를 얻을 수 있게 되는 효과가 있다.
또한 본 발명에 의하면, 현재 사용자가 보유하고 있는 제품을 기반으로 한 기술전략 및 제품전략을 수립하는 데에 기여할 수 있는 효과가 있다.
또한 본 발명에 의하면, 거래 속성이 드러나는 제품키워드들만을 효율적으로 추출해 낼 수 있어, 최종적으로 얻어지는 결과물의 정확도가 높아지는 효과가 있으며, 유효한 제품키워드들만을 대상으로 분석이 가능하므로 전체 분석과정이 신속하게 이루어질 수 있는 효과가 있다.
또한 본 발명에 의하면, 제품별 산업구조를 분석하는 데에 전문가의 도움이 없이도 사용자가 쉽게 활용할 수 있는 효과가 있다.
도 1은 본 발명에 따른 제품별 산업구조 분석장치의 수행기능을 개략적으로 나타낸 개념도이다.
도 2는 본 발명에 따른 제품별 산업구조 분석장치의 세부구성을 설명하기 위한 블록도이다.
도 3은 본 발명에 따른 제품별 산업구조 분석방법을 설명하기 위한 흐름도이다.
도 4는 제품별 산업구조 분석방법 중 제품키워드를 추출하는 단계를 상세하게 나타낸 것이다.
도 5 및 도 6은 제품키워드들 간의 연관관계를 파악하는 과정을 설명하기 위한 것이다.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다.
본 명세서에서 개시되는 실시예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시예들로 한정되는 것을 의도하지 않는다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.
또한, 어떤 구성요소들을 포함한다는 표현은 “개방형”의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.
이하에서는 도 1을 참조하여 본 발명에 따른 제품별 산업구조 분석장치(100)의 기능 및 실무에서의 기여 모습에 대해 간략히 살펴보기로 한다.
앞서에서도 언급하였듯 본 발명에서 제안하고자 하는 제품별 산업구조 분석장치(100)는 사용자가 현재 보유하고 있는 제품, 즉 연구개발이 완료된 기술 또는 제품을 기초로 새로운 기술기회를 탐색하는 이른바 TOD 활동을 지원하기 위한 장치를 의미한다.
제품별 산업구조 분석장치(100)의 기능은 우선 사용자로부터 분석의 대상이 되는 자료, 즉 레퍼런스 기술 또는 제품에 대한 정보가 포함된 기술문헌을 수신하는 것으로부터 시작하며, 제품별 산업구조 분석장치(100)는 수신된 기술문헌을 기초로 제품키워드를 추출해 내고, 다시 추출된 제품키워드들 간의 연관관계를 파악하여 하나의 완전한 제품별 산업구조를 사용자에게 제공한다.
도 1에서도 볼 수 있듯, 상기 제품별 산업구조 분석장치(100)는 하나 이상의 기술문헌을 외부로부터 직접 입력 받을 수 있으며, 또는 내부적으로 별도의 데이터베이스, 즉 기술문헌 데이터베이스(140)를 구비하고 복수의 기술문헌을 상기 기술문헌 데이터베이스(140) 내 저장한 후 향후 분석에 활용할 수도 있다.
또한 각 기술문헌들에 대해서는 제품키워드 추출과정, 제품키워드 간 연관관계 파악과정을 거쳐 하나의 제품별 산업구조가 결과로서 얻어지게 된다. 도 1에는 제품별 산업구조 분석장치(100)에 의해 획득된 분석결과가 예시로서 제시되어 있다. 이를 살펴보면, 제품별 산업구조 분석장치(100)가 이차전지라는 하나의 제품키워드에 대해 기타 제품키워드들과의 연관관계를 파악한 것이라 상정했을 때, 그 결과 전해질, 분리막 등의 제품키워드들은 이차전지의 후방에, 디지털 카메라, 전기자동차 등의 제품키워드들은 이차전지의 전방에, 그리고 LCD, 렌즈 등의 제품키워드들은 이차전지와 등위의 관계에 존재하는 것으로 파악하여 결과물을 제시하고 있음을 확인할 수 있다.
한편, 본 상세한 설명에서 사용하는 용어 중 전방관계와 관련하여, 제1제품키워드가 제2제품키워드 내 포함되는 관계이거나 혹은 제1제품키워드가 제2제품키워드를 구현하는 데에 필요한 구성요소인 경우 제1제품키워드를 기준으로 제2제품키워드는 전방관계에 있는 것이라 정의하기로 한다.
또한 후방관계와 관련하여, 제1제품키워드가 제2제품키워드를 포함하는 관계이거나 혹은 제1제품키워드가 제2제품키워드에 의해 구현되는 경우 제1제품키워드를 기준으로 제2제품키워드는 후방관계에 있는 것이라 정의하기로 한다.
한편 등위관계와 관련하여, 제1제품키워드와 제2제품키워드가 상호 간 전방관계도, 후방관계도 아닌 경우 상기 제1제품키워드와 제2제품키워드는 등위관계에 있는 것이라 정의하기로 한다.
이하에서는 도 2를 참조하여 본 발명에 따른 제품별 산업구조 분석장치(100)에 대해 보다 상세하게 살펴보기로 한다.
도 2를 참조할 때, 제품별 산업구조 분석장치(100)는 키워드 추출부(110), 연관관계 연산부(120), 상표 데이터베이스(130), 기술문헌 데이터베이스(140) 및 제어부를 포함한다.
키워드 추출부(110)는 기술문헌으로부터 제품키워드를 추출하는 기능을 수행한다.
이 때, 제품키워드란 기술문헌 내에 특정 제품을 지칭하는 단어를 의미하는 것으로, 상기 제품키워드에는 제품명, 서비스명, 상표명(이 때 상표명에는 사용에 의해 일반 제품명으로 인식되고 있는 것까지 포함하는 것으로 본다.)등이 포함될 수 있다.
한편, 본 발명에서 인용하고 있는 제품키워드는 특정 제품을 지칭하는 단어일 것을 요할 뿐만 아니라 해당 제품, 서비스에 대해 특정 상표를 가지고 있을 것을 또 다른 요건으로 한다. 즉, 앞서도 언급하였지만 본 발명의 주요 특징 중 하나는 상표와 매칭되는 제품 또는 서비스를 제품키워드로서 추출해 내는 것인데, 이는 유효한 제품키워드를 추출함에 있어 거래의 속성이 명백히 드러나는 상표의 존재와 연동시켜 키워드를 추출하는 경우 추출된 제품키워드들의 정확도가 높고 나아가 신속한 키워드 추출이 가능하기 때문이다.
키워드 추출부(110)가 실제 기술문헌으로부터 제품키워드를 추출하는 과정에 대해서는 추후 더 상세히 살펴보기로 한다.
연관관계 연산부(120)는 앞서 키워드 추출부(110)에 의해 추출된 제품키워드들을 대상으로 연관관계, 즉 전방, 후방, 등위의 관계를 파악하는 기능을 수행한다.
이 때, 상기 연관관계 연산부(120)는 자연어 처리기법을 이용하게 되는데, 자연어 처리기법이란 언어 현상을 기계적으로 분석하여 연산부가 이해할 수 있는 형태로 만드는 자연 언어, 또는 그러한 형태를 다시 인간이 이해할 수 있는 언어로 표현하는 제반 기술을 일컫는다.
자연어 처리기법을 이용하여서는 특히 구문 분석이 가능한데, 구문 분석이란 구 또는 절을 이루고 있는 구성 성분을 파악하고, 이들 구성 성분들의 위계 관계를 분석하여 구 또는 절의 구조를 결정하는 것을 의미한다.
따라서 본 발명에 따른 연관관계 연산부(120)가 자연어 처리기법을 이용한다는 것의 의미는, 하나 이상의 제품키워드가 포함된 구 또는 절을 개별 제품키워드별로 나누어 배열하고, 이들 제품키워드들을 연결하는 기타 구성 성분들, 예를 들어 연결어, 조사 등을 고려하여 상기 제품키워드들 간의 위계 관계를 분석하는 것을 의미한다.
다음으로 상표 데이터베이스(130)는 상기 키워드 추출부(110)가 기술문헌으로부터 제품키워드를 추출할 때에 참조하게 되는 데이터베이스이다.
상표 데이터베이스(130)에는 크게 세 가지 종류의 정보, 즉 상표, 상기 상표와 대응되는 제품 및 제품설명이 저장된다. 이 때, 하나의 상표에는 복수의 제품이 대응될 수 있다. 또한, 본 상세한 설명에서 사용하는 상표라는 용어에는 서비스표의 의미까지 포함된 것으로 이해하기로 한다.
한편, 상표 데이터베이스(130)는 키워드 추출부(110)의 기능에 따라 참조되는 것으로, 키워드 추출부(110)는 기술문헌으로부터 복수개의 기반 명사구를 추출하되, 상표 데이터베이스(130) 내 저장된 제품명, 제품설명을 참조하여 상기 추출된 기반 명사구들 중 상표가 존재하는 기반 명사구들만을 선별해 낸다.
따라서, 상표 데이터베이스(130)는 키워드 추출부(110)의 기능수행에 활용된다.
한편, 본 발명에 따른 제품별 산업구조 분석장치(100)는 기술문헌 데이터베이스(140)를 더 구비할 수 있다. 기술문헌 데이터베이스(140)란, 논문 또는 특허문헌 등 기술내용이 포함된 문헌들이 저장될 수 있는 저장공간을 의미한다.
한편, 본 상세한 설명에서는 상표 데이터베이스(130), 기술문헌 데이터베이스(140)가 제품별 산업구조 분석장치(100) 내에 구비된 것으로 설명하였으나, 반드시 장치 내부적으로 구비되는 것으로 한정되는 것은 아니며, 제품별 산업구조 분석장치(100)와는 별개의 저장장치로서 존재하되 양 장치가 상호 유선 또는 무선 네트워크로 연결되어 있는 형태의 구현도 가능하다.
한편, 본 발명에 따른 제품별 산업구조 분석장치(100)는 앞서 연관관계 연산부(120)에 의해 분석된 제품키워드들 간 연관관계를 시각화하는 시각화부(150)를 더 포함할 수 있다.
구체적으로, 상기 시각화부(150)는 제품키워드들 간 연관관계를 그래프, 차트, 텍스트, 동영상 등 사용자가 용이하게 인지 가능한 형태의 데이터로 변환한다.
마지막으로 본 발명에 따른 제품별 산업구조 분석장치(100)는 앞서 설명한 기능부들을 모두 제어하기 위한 제어부를 포함한다. 상기 제어부는 적어도 하나의 연산 장치를 포함할 수 있는데, 이 때 연산장치로는 범용적인 중앙연산장치(CPU), 특정 목적에 적합하게 구현된 프로그래머블 디바이스 소자(CPLD, FPGA), 주문형 반도체 연산장치(ASIC) 또는 마이크로 컨트롤러 칩일 수 있다.
이하에서는 도 3을 참조하여 본 발명에 따른 제품별 산업구조 분석방법의 순서에 대해 살펴보기로 한다.
제품별 산업구조 분석방법은 우선 기술문헌으로부터 둘 이상의 제품키워드를 추출하는 단계(S310)로부터 시작하며, 이후 상기 제품키워드들 간 연관관계를 추출하는 단계(S320)로 이어진다.
한편, 상기 단계 이후에는 파악된 연관관계를 사용자가 이해할 수 있는 형태의 데이터로 시각화 하는 단계(S330)를 더 포함할 수 있다.
도 4는 기술문헌으로부터 제품키워드를 추출하는 단계를 구체화 한 흐름도이다.
도 4에 의하면, 제품별 산업구조 분석장치(100)는 우선 기술문헌으로부터 복수의 기반 명사구를 추출(S410)한다. 기반 명사구란 둘 이상의 어절이 어울려 절이나 문장 내에서 명사의 구실을 하는 구(句)를 의미하는 것으로, 상기 기반 명사구는 하나의 문장이 주어(subject), 동사(verb), 목적어(object)를 포함할 때 일반적으로 주어 또는 목적어에 대응될 수 있다.
더 구체적으로 기반 명사구는 명사구 내부에 다른 명사구를 포함하지 않는 명사구로 정의될 수 있는데, 이러한 기반 명사구 인식은 구문해석의 성능을 향상시키기 위한 방법으로 이용되고 있다. 한편, 이와 같은 기반 명사구는 예시적으로 “명사+명사”, “형용사+명사”, “명사” 등의 형태로 이루어질 수 있다.
이후, 제품별 산업구조 분석장치(100)는 상기 추출된 기반 명사구에 대해 상표 데이터베이스(130)를 참조하여 특정 상표와 대응되는 제품 또는 제품에 대한 제품설명과 비교를 하고 상기 기반 명사구가 제품키워드로 추출될 수 있는지 여부를 판단(S430)한다. 본 단계는 상기 추출된 기반 명사구 내에 상표가 존재하는 제품명이 포함되어 있는지를 확인하는 단계이다.
본 단계는 다양한 방식으로 이루어질 수 있다. 예를 들어, 제품별 산업구조 분석장치(100)는 상표 데이터베이스(130)로부터 특정 상표와 대응되는 제품 또는 제품에 대한 제품설명을 추출(S420)해 내고(이 때 추출되는 제품설명은 하나 이상의 문장이나 구, 절(節)일 수 있음), 추출된 제품 또는 제품설명을 구성하는 단어들, 그리고 상기 기술문헌으로부터 추출된 기반 명사구를 구성하는 단어들 간의 중복비율을 산출하여 유사도를 연산하는 방식으로 이루어질 수 있다. 즉, 기반 명사구와 제품, 기반 명사구와 제품설명 간 중복되는 단어가 일정비율 이상인 경우 상기 기반 명사구는 유효한 제품키워드로 인정되어 추출 대상이 될 수 있다.(S430) 한편, 중복되는 단어가 없거나 일정비율 미만인 경우에는 현재 탐색된 제품 또는 제품설명을 제외(S440)하고 다른 제품, 제품설명을 비교 대상으로 삼게 된다.
예를 들어, 미국 공개특허공보로부터 automated teller machines라는 기반 명사구가 추출된 경우, 본 발명에 따른 제품별 산업구조 분석장치(100)는 상표 데이터베이스(130)를 참조하여 “DIEBOLD RIVO”라는 상표가 지정하고 있는 “ATM, Automated teller machines”라는 제품, 그리고 이에 대한 제품설명인 “Computer application software for automated teller machines. Software for operating automated teller machines”를 탐색하고, 탐색된 내용과 상기 추출된 기반 명사구를 비교하여 해당 기반 명사구가 “상표”가 존재하는 제품에 해당하는 기반 명사구인지를 파악하게 된다.
상기 예에서는 미국 공개특허공보로부터 추출된 기반 명사구(automated teller machines)와 상표 데이터베이스(130)로부터 탐색된 제품명(Automated teller machines)가 동일하므로, 상기 기반 명사구는 유효한 제품키워드로 추출되게 된다.
한편, 상표 데이터베이스(130)로부터 추출한 제품명/제품설명과 기술문헌으로부터 추출한 기반 명사구를 비교함에 있어서는 반드시 상기 추출된 제품명/제품설명과 기반 명사구의 모든 단어를 비교하는 것이 아니라, 부분적으로만 발췌된 단어를 비교함으로써 제품키워드 추출 과정을 보다 빠르게 할 수도 있다.
예를 들어, 상표 데이터베이스(130)로부터 추출한 제품명/제품설명에는 소위 상기 제품을 직접적으로 표현하는 “표제어”들이 포함될 수 있는데, 이러한 표제어를 상기 기술문헌으로부터 추출한 기반 명사구와 비교하는 경우 더욱 빠른 제품키워드 추출이 가능하게 된다. 특히, 일반적으로 영어의 명사구에서 표제어는 명사구의 말미에 위치하게 되는데, 이를 참고할 때 상표 데이터베이스(130)로부터 추출한 제품명/제품설명의 표제어와 기술문헌으로부터 추출한 기반 명사구의 표제어(명사구의 말미 단어)를 비교하는 경우 모든 단어를 하나씩 비교하는 것에 비해 상대적으로 효율적으로 제품키워드를 추출해 낼 수 있게 된다.
본 발명에 따른 제품별 산업구조 분석장치(100)는 도 4의 과정을 반복하여 기술문헌으로부터 유효한 제품키워드를 추출한다.
도 5, 도 6은 제품별 산업구조 분석장치(100)가 앞서 추출된 제품키워드들 간 연관관계를 분석하는 단계를 구체적인 실시예에 적용시킨 것이다.
도 5는 제품키워드들이 문장 또는 구, 절 내에서 이루는 문맥상 패턴을 근거로 제품키워드들 간 연관관계를 밝히는 모습을 나타낸 것이다.
예를 들어 copper foil과 electrolytic metal foil의 두 제품키워드가 하나의 문장 내 포함되어 있고, 상기 copper foil과 electrolytic metal foil이 a kind of 라는 연결구로 이어져 있다면, 상기 copper foil은 electrolytic metal foil의 한 종류 이해될 수 있고, 따라서 copper foil을 기준으로 볼 때 electrolytic metal foil은 전방관계에 있는 제품키워드로 정의될 수 있다. 이를 일반화 시켜보면, 'product1 is (a|one) (kind|sort|type) of product2'와 같은 형태의 구가 문장 또는 구, 절 내에 포함된 경우 product1을 기준으로 할 때 product2는 전방관계에 있는 제품키워드라 정의할 수 있다.
한편, 도 5의 다른 예를 살펴보면, welding electrode, shaft, ultrasonic probe, cooling water pipe와 같은 네 제품키워드가 하나의 문장 내 포함되어 있고, 상기 welding electrode와 shaft, ultrasonic probe, cooling water pipe가 is constituted by라는 연결구로 이어져 있다면, 상기 welding electrode는 shaft, ultrasonic probe, cooling water pipe를 포함하는 제품으로 이해될 수 있고, 따라서 welding electrode를 기준으로 볼 때 shaft, ultrasonic probe, cooling water pipe는 후방관계에 있는 제품키워드들이라 정의될 수 있다. 이를 일반화 시켜보면, 'product1 (is constituted by | include | is used for | …) product2'와 같은 형태의 구가 문장 또는 구, 절 내에 포함된 경우 product1을 기준으로 할 때 product2는 후방관계에 있는 제품키워드라 정의할 수 있다.
도 6은 제품키워드들이 특허문헌의 청구항 내에서 이루는 구조를 근거로 제품키워드들 간 연관관계를 밝히는 모습을 나타낸 것이다.
예를 들어 hybrid vehicle, rechargeable electric storage, electric power generating device, electric power input unit과 같은 네 개의 제품키워드들이 하나의 청구항 내에 포함되어 있고, 상기 hybrid vehicle과 그 외 세 개의 제품키워드들이 comprising이라는 특정 단어에 의해 구분되어 있다면, 상기 hybrid vehicle은 위 세 개의 제품키워드들을 구성요소로 포함하는 것으로 이해될 수 있고, 따라서 hybrid vehicle을 기준으로 볼 때 나머지 세 개의 제품키워드들은 후방관계에 있는 것들로 정의될 수 있다.
한편, 둘 이상의 제품키워드들이 동일한 전방, 후방관계로 정의되는 경우, 상기 둘 이상의 제품키워드들은 등위관계에 있는 것으로 정의할 수 있다. 예를 들어, 도 1에서 이차전지가 전방관계로서 디지털카메라, 전기자동차와 연관되어 있고 후방관계로서 전해질, 분리막과 연결되어 있을 때, LCD, 렌즈와 같은 제품키워드들 역시 상기 이차전지와 동일한 전방관계(디지털카메라, 전기자동차), 후방관계(전해질, 분리막)로 각 제품키워드들과 연결되어 있다면, 이차전지와 LCD, 렌즈 등은 등위관계에 있는 것으로 정의할 수 있다.
이상 본 발명의 바람직한 실시예 및 응용예에 대하여 도시하고 설명하였으나, 본 발명은 상술한 특정의 실시예 및 응용예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 구별되어 이해되어서는 안 될 것이다.

Claims (11)

  1. (a) 기술문헌으로부터 복수의 제품키워드를 추출하는 단계; 및
    (b) 상기 제품키워드들 간 연관관계를 파악하는 단계;
    를 포함하는 제품별 산업구조 분석방법.
  2. 제1항에 있어서,
    (c) 상기 제품키워드들 간 연관관계를 시각화 하는 단계;
    를 더 포함하는 제품별 산업구조 분석방법.
  3. 제1항에 있어서,
    (a) 단계는,
    (a-1) 기술문헌으로부터 복수의 기반 명사구를 추출하는 단계;
    (a-2) 상표DB를 참조하여, 상기 기반 명사구들과 상기 상표DB 내 임의의 제품에 대한 제품설명의 유사도를 연산하는 단계;
    (a-3) 연산결과, 유사도가 기설정된 값 이상이면 제품키워드로 추출하는 단계;
    를 포함하는 것을 특징으로 하는 제품별 산업구조 분석방법.
  4. 제3항에 있어서,
    (a-2) 단계는,
    상기 기반 명사구가 포함하는 단어들과 상기 상표DB 내 임의의 상품에 대한 상품설명을 구성하는 단어들의 중복비율을 산출하여 유사도를 연산하는 것을 특징으로 하는 제품별 산업구조 분석방법.
  5. 제1항에 있어서,
    (b) 단계는,
    자연어 처리기법을 이용하여 상기 제품키워드들 간 연관관계를 파악하는 것을 특징으로 하는 제품별 산업구조 분석방법.
  6. 제5항에 있어서,
    상기 연관관계는 제품키워드들 간 전방관계, 후방관계 또는 등위관계인 것을 특징으로 하는 제품별 산업구조 분석방법.
  7. 제6항에 있어서,
    제1제품키워드가 제2제품키워드의 구성요소로서 포함되면, 상기 제1제품키워드는 제2제품키워드에 대해 후방관계로 정의되는 것을 특징으로 하는 제품별 산업구조 분석방법
  8. 제6항에 있어서,
    제1제품키워드가 제2제품키워드를 구성요소로서 포함하면, 상기 제1제품키워드는 제2제품키워드에 대해 전방관계로 정의되는 것을 특징으로 하는 제품별 산업구조 분석방법.
  9. 제6항에 있어서,
    제1제품키워드 및 제2제품키워드가 동일한 전방 및 후방관계를 가지는 경우, 상기 제1제품키워드 및 제2제품키워드는 상호 등위관계로 정의되는 것을 특징으로 하는 제품별 산업구조 분석방법.
  10. 기술문헌으로부터 제품키워드를 추출하는 키워드 추출부;
    추출된 제품키워드들 간 연관관계를 분석하는 연관관계 연산부;
    복수개의 상품 및 각 상품에 대한 상품설명이 저장된 상표DB; 및
    상기 키워드 추출부, 연관관계 연산부, 상표DB를 제어하는 제어부;
    를 포함하는 제품별 산업구조 분석장치.
  11. 제10항에 있어서,
    제품키워드들 간 연관관계를 시각화하는 시각화부;
    를 더 포함하는 제품별 산업구조 분석장치.
PCT/KR2015/010660 2014-10-30 2015-10-08 자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치 WO2016068514A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0148980 2014-10-30
KR1020140148980A KR101612291B1 (ko) 2014-10-30 2014-10-30 자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치

Publications (1)

Publication Number Publication Date
WO2016068514A1 true WO2016068514A1 (ko) 2016-05-06

Family

ID=55857792

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/010660 WO2016068514A1 (ko) 2014-10-30 2015-10-08 자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치

Country Status (2)

Country Link
KR (1) KR101612291B1 (ko)
WO (1) WO2016068514A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102470248B1 (ko) 2021-02-08 2022-11-25 주식회사 페이커즈 위조품 식별을 위한 자연어 처리 방법 및 위조품 탐지 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0170198B1 (ko) * 1995-09-04 1999-03-30 양승택 키워드망을 이용한 문서순위 결정방법
KR20080077458A (ko) * 2007-02-20 2008-08-25 야후! 인크. 제품 정보를 등록 및 검색하기 위한 방법 및 시스템
KR20110029205A (ko) * 2009-09-15 2011-03-23 에스케이 텔레콤주식회사 인터넷 쇼핑몰 검색 시스템 및 방법
KR20130024127A (ko) * 2011-08-30 2013-03-08 한국옐로우페이지주식회사 검색엔진용 키워드 추출 시스템 및 추출 방법
KR20140081237A (ko) * 2012-12-21 2014-07-01 한국과학기술정보연구원 기술기회발굴을 위한 정보를 제공하는 방법, 기술기회발굴을 위한 정보를 제공하는 장치, 및 기술기회발굴을 위한 정보를 제공하는 프로그램을 저장하는 저장매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0170198B1 (ko) * 1995-09-04 1999-03-30 양승택 키워드망을 이용한 문서순위 결정방법
KR20080077458A (ko) * 2007-02-20 2008-08-25 야후! 인크. 제품 정보를 등록 및 검색하기 위한 방법 및 시스템
KR20110029205A (ko) * 2009-09-15 2011-03-23 에스케이 텔레콤주식회사 인터넷 쇼핑몰 검색 시스템 및 방법
KR20130024127A (ko) * 2011-08-30 2013-03-08 한국옐로우페이지주식회사 검색엔진용 키워드 추출 시스템 및 추출 방법
KR20140081237A (ko) * 2012-12-21 2014-07-01 한국과학기술정보연구원 기술기회발굴을 위한 정보를 제공하는 방법, 기술기회발굴을 위한 정보를 제공하는 장치, 및 기술기회발굴을 위한 정보를 제공하는 프로그램을 저장하는 저장매체

Also Published As

Publication number Publication date
KR101612291B1 (ko) 2016-04-26

Similar Documents

Publication Publication Date Title
Pan et al. Course concept extraction in moocs via embedding-based graph propagation
US10296584B2 (en) Semantic textual analysis
WO2014025135A1 (ko) 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
WO2011096690A2 (ko) 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
WO2011129481A1 (ko) Rdf 탐색기반 질의응답 서비스 시스템 및 방법
WO2014065630A1 (ko) 감상 기반 질의 처리 시스템 및 방법
JP2005235014A (ja) 表現抽出装置、表現抽出方法、プログラム及び記録媒体
WO2014030834A1 (ko) 문법의 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
WO2019093675A1 (ko) 빅데이터 분석을 위한 데이터 병합 장치 및 방법
WO2018088664A1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
WO2013062302A1 (ko) 작문 자동 평가를 위한 예제기반 오류 검출 시스템, 이를 위한 방법 및 이를 위한 오류 검출 장치
Presutti et al. Uncovering the semantics of Wikipedia pagelinks
WO2021107449A1 (ko) 음역 전환 신조어를 이용한 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
CN110096599A (zh) 知识图谱的生成方法及装置
WO2016068514A1 (ko) 자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치
Konys Knowledge-based approach to question answering system selection
CN106372083A (zh) 一种有争议性新闻线索自动发现的方法及系统
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
Pathak et al. Context guided retrieval of math formulae from scientific documents
KR101866790B1 (ko) 기술 문서를 이용한 기술관계 네트워크 생성 방법 및 장치
Huang et al. Pandasearch: A fine-grained academic search engine for research documents
Rondon et al. Never-ending multiword expressions learning
WO2020242086A1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
US11475222B2 (en) Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents
WO2015133774A1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15854490

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15854490

Country of ref document: EP

Kind code of ref document: A1