KR20060079792A - 유사율 산출장치 및 유사율 산출 프로그램 - Google Patents

유사율 산출장치 및 유사율 산출 프로그램 Download PDF

Info

Publication number
KR20060079792A
KR20060079792A KR1020067002688A KR20067002688A KR20060079792A KR 20060079792 A KR20060079792 A KR 20060079792A KR 1020067002688 A KR1020067002688 A KR 1020067002688A KR 20067002688 A KR20067002688 A KR 20067002688A KR 20060079792 A KR20060079792 A KR 20060079792A
Authority
KR
South Korea
Prior art keywords
technical
group
cluster
document group
similarity rate
Prior art date
Application number
KR1020067002688A
Other languages
English (en)
Inventor
히로아키 마스야마
노리아키 요시노
Original Assignee
가부시키가이샤 아이.피.비.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 아이.피.비. filed Critical 가부시키가이샤 아이.피.비.
Publication of KR20060079792A publication Critical patent/KR20060079792A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은, 특허문헌 또는 기보 등의 기술문헌으로 구성되는 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 것이 가능한 유사율 산출장치를 제공하는 것을 목적으로 한다.
이 과제를 해결하기 위해 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단(송수신수단(365) 등)과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단(입력 인터페이스(371) 등)과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단(정보처리수단(380))과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 산출하는 유사율 산출수단(정보처리수단(380))과, 상기 산출한 유사율을 출력하는 출력수단(송수신수단(365) 등)을 구비했다.
본 발명에 따르면, 기술문헌군에 기재되어 있는 기술내용의 유사성을 나타내는 지표를 간편하게 산출하는 것이 가능해진다.

Description

유사율 산출장치 및 유사율 산출 프로그램{SIMILARITY CALCULATION DEVICE AND SIMILARIT CALCULATION PROGRAM}
본 발명은, 기술문헌군끼리를 비교해서 유사성을 판단하는 유사율 산출장치및 유사율 산출 프로그램에 관한 것이다.
종래의 특허맵에서는, 특허문헌을 이용하여, 동일 또는 유사의 연구 개발 테마의 내용에 대해서, 기술비교를 행하고, 전체적인 동향, 분포를 아는 것이 가능하다고 되어 있다. 그리고 경영자가 특허맵을 봄으로써, 시장동향, 기술동향, 참여 기업 및 라이벌 기업동향, 장래성 등의 경영 판단적 요소를 분석하는 것이 가능하게 되어 있다.
또 특허맵에서는, A사에 관련된 기술문헌 A군과 B사에 관련된 기술문헌 B군에서 매크로적인 비교를 행할 필요가 있는 경우에, 기술문헌 A군과 기술문헌 B군에 소속된 각각의 기술문헌끼리를 마이크로적으로 비교하고, 거기에서 매크로적으로 기술문헌군간의 비교를 이끌어내고 있었다.
도 19는, 기술문헌 A군에 포함되는 기술문헌과, 기술문헌 B군에 포함되는 기술문헌을 각각 마이크로적으로 비교하는, 종래의 비교 상황을 나타내는 도이다.
도 19에 나타내는 것처럼, 기술문헌 A군에 기재되어 있는 기술에 대하여, 비 교 대상의 기술문헌 B군의 기술을 비교할 경우, 종래는, 기술문헌 A군에 포함되는 기술문헌(특허공보나 기보 등)과 기술문헌 B군에 포함되는 기술문헌(특허공보나 기보 등)을 전체의 조합에 두는 것에 대해서, 각각 마이크로적으로 비교하고, 이것을 마이크로적인 유사율로서 수치화하고, 그 평균이나 분산을 구함으로써, 2개의 기술문헌군간의 비교수값으로 하고 있었다.(예를 들면, "특허맵 가이던스”, 특허청 2002년 8월 4일 검색 참조, 인터넷<http://www5.ipdl.jpo.go.jp/pmgs1/pmgs1/pmgs>, 이하 비특허문헌1이라고 한다.)
일본 특허공개 2000-348015호 공보에 기재된 지적재산 평가장치 등에는, 출원중 혹은 등록 후의 발명 등에 관한 지적재산의 재산적 가치를 평가하는 지적재산평가장치에 있어서, 실시이익에 관한 데이터를 입력하는 실시이익 입력수단과, 각년마다의 복리현가율에 관한 데이터를 입력하는 복리현가율 입력수단과, 상기 실시이익 입력수단에 의해 입력된 각 년째마다의 복리현가율에 관한 데이터를 승산하고, 각 년째마다의 보상금 연액의 복리현가율을 산출하는 복리현가 산출수단과, 상기 복리현가 산출수단에 의해 산출된 각 년마다의 보상금 연액의 복리현가 각 년마다 합산하는 것에 의해 지적재산 가액을 산출하는 지적재산 가격 산출수단과, 상기 지적재산 가격 산출수단에 의해 산출된 지적재산 가액을 출력하는 출력수단을 구비한 지적재산 평가장치, 지적재산 평가방법 등이 기재되어 있다.
이 지적재산 평가장치 등에서는, 등록된 특허와, 그것에 관련된 매상고나 이익 등을 감가상각해서 현재 잔존하고 있는 특허의 자산적 가치를 파악하고자 하는 것이다. 또한, 해당 발명에서는, 각 특허의 가치의 평가는, 자사평가나 타사평가 등을 순위 매겨서 입력한 것을 기여도로서 평가하고, 구체적인 실시권 설정이 되지 있지 않은 지적재산의 자산가치를 산출하는 것이 가능하다고 되어 있다.
일본 특허공개 2001-76042호 공보에 기재된 시스템 등에서는, 소정의 갱신 간격을 갖는 제1의 데이터와 갱신 간격이 상기 제1의 데이터보다 짧은 제2의 데이터로부터, 경시적으로 변동할 수 있는 평가 항목을 평가하는 시스템으로서, (a)샘플 대상의 제1의 데이터의 입력에 따라서, 제1의 평가 모델을 작성하는 수단과, (b)상기 샘플 대상의 제1의 데이터를 제1의 평가 모델에 적용하고, 제1의 평가 출력을 산출하는 수단과, (c)샘플 대상의 제2의 데이터와 제1의 평가 출력의 입력에 따라서, 제2의 평가 모델을 작성하는 수단과, (d)평가 대상의 제1의 데이터의 입력에 따라서, 상기 제1의 데이터를 제1의 평가 모델에 적용하고, 제2의 평가 출력을 산출하는 수단과, (e)상기 평가 대상의 제2의 데이터와 상기 제2의 평가 출력을 제2의 평가 모델에 적용하고, 상기 평가 대상의 평가 출력을 산출하는 수단을 구비한 경시적으로 변동할 수 있는 평가 대상의 평가 항목을 평가하기 위한 시스템, 방법 및 기록 매체가 알려져 있다.
이 시스템에서는, 1년 단위나 4반기 단위마다 갱신되는 임차 대조표나 손익 계산서 등으로부터의 재무 데이터 등과 같이, 갱신 간격이 비교적 긴 제1의 데이터로부터 산출되는 등급을 매긴 데이터나 도산 확률 등의 기업평가를 행하는 모델(정적 모델)과, 매일 변동하는 주가나 금리, 환율 등과 같이 갱신 간격이 비교적 짧은 제2의 데이터의 입력에 기초하여, 그 후의 변화를 예측해서 동적으로 기업평가를 행하는 모델(동적 모델)의 2개의 평가 모델에 대해서, 평가 대상의 기업 데이터를 적용함으로써, 적시에, 최신의 기업평가를 산출하는 것이 가능하다고 되어 있다.
또한, 일본 특허공개평 8-287081호 공보, 일본 특허공개 2001-337992호 공보, 일본 특허공개평 10-74205호 공보, 일본 특허공개평 8-278982호 공보, 일본 특허공개평 11-73415호 공보, 및 일본 특허공개 2001-331527호 공보에서는, 어떤 문서나 문장과 유사한 내용의 문서나 문장을 검색할 때에, 문서나 문장끼리의 유사도나 신빙성이 높고, 고정밀도로 유사 문서를 검색하는 것이 가능한 유사 문서 검색 장치나 유사 검색 시스템 등이 소개되어 있다.
그런데, 비특허문헌1에 기재된 특허맵이나 일본 특허공개평 8-287081호 공보, 일본 특허공개 2001-337992호 공보, 일본 특허공개평 10-74205호 공보, 일본 특허공개평 8-278982호 공보, 일본 특허공개평 11-73415호 공보, 및 일본 특허공개2001-331527호 공보에 기재된 발명에서는, 예를 들면, A사에 관련된 기술문헌 A군과, B사에 관련된 기술문헌 B군의 사이에서, 기술문헌에 기재되어 있는 내용을 매크로적으로 비교하는 요구가 있었다고 해도, 종래는 기술문헌 A군과 기술문헌 B군에 소속하는 각각의 기술문헌끼리를 각각 마이크로적으로 비교하여, 그 복수의 연산 결과로부터 매크로적인 기술문헌군간의 비교를 이끌어내고 있었기 때문에, 작업 효율이 나쁘다고 하는 문제를 발생시키고 있었다.
또한, 비특허문헌1에 기재된 특허맵에서는, 기술비교에 있어서 동일 또는 유사의 연구 개발 테마의 내용마다, 전체적인 동향이나 분포를 아는 것이 가능하다고 되어 있지만, 기업간에 있어서, 기업 전체의 총기술문헌을 모집단으로 한 각 기술의 상대적 평가를 산출할 수 없기 때문에, 무형자산의 가치평가 방법으로서, 정량적, 정성적인 결과를 얻을 수 없고, 신탁이나 투자의 평가의 대상, 기업의 특허전략의 결정적 수단이 되는 기술평가의 지표를 산출할 수 없다고 하는 문제를 발생시키고 있었다.
또한, 이 마이크로적인 유사율을 평균하는 계산 방법을 이용하면, 예를 들면 도 19에 나타내는 경우에 있어서, 기술문헌 A군과 기술문헌 B군이 전혀 다른 경우에는, 유사율은 0으로 산출된다. 또한, 전체의 조합에서 구한 평균의 유사율도 0이 되므로 문제 없어 보인다.
그러나, 제1의 기술문헌군과 제2의 기술문헌군이 완전히 동일할 경우이여도, 제1의 기술문헌군에 포함되는 기술문헌A1에 대하여 제2의 기술문헌군에 포함되는 기술문헌B1, B2, B3, B4의 마이크로적인 유사율을 구하면, 2개의 기술문헌이 완전히 동일할 경우(A1=B1 등)에는 A1과 B1의 유사율은 1로 산출되지만, 그 이외의 경우에는 일반적으로 유사율이 1이 되는 일은 없다. 또한 A1이외의, A2, A3, A4 등에 대한 전체의 조합에서 구한 평균 유사율은, 1과 그 이하의 수치의 평균이 되므로, 역시 유사율이 1로 산출될 일은 없다고 하는 문제를 발생시킨다.
또한, 기술문헌의 총수가 몇 만건 이상이 될 경우와 같이, 다량의 기술문헌끼리에 대해서 유사율을 산출할 때에는, 전체의 기술문헌의 조합에 대해서 유사율을 계산할 필요가 있으므로, 유사율을 산출함에 있어서의 계산량이 방대해 지기 때문에, 계산 시간이 많이 필요하게 되고, 유사율의 계산 결과를 재빠르게 표시할 수 없다고 하는 문제를 발생시키고 있다.
또 종래와 같이 유사율을 산출함에 있어서, 조사 대상과 모집단의 기술문헌을 키워드로 나누고, 각각의 키워드가 포함되는 기술문헌의 수량과, 기술문헌의 총수의 비율을 연산하고, 키워드 전체에 대해서 연산한 비율을 평균하여 유사율을 산출하는 방법에서는, 키워드의 중요성에 따른 가중을 행하지 않으면, 산출되는 유사율과 실제의 감각적인 유사율과의 차이가 크게 벌어져 버린다는 문제를 발생시키고 있었다.
이 가중을 한 키워드를 이용해서 유사율을 산출할 때에, 전체 키워드에 대해서 오퍼레이터가 가중을 행해서 시소러스 사전을 작성하고, 그 가중에 기초해서 유사율을 산출하는 것이 가능하다. 이것은 이론적으로 가능하지만, 실제로 방대한 양의 키워드의 각각에 가중시키는 것은 꽤 대단한 작업(극히 어려운 일)이고, 처리의 자동화에는 걸맞지 않다. 또한, 각각의 기술문헌마다 유사율이 산출되는 것으로는 바뀌지 않으므로, 결국은 기술문헌끼리를 마이크로적으로 비교하고 있는 것에 지나지 않는다고 하는 문제를 발생시키고 있다.
또한, 비특허문헌1에 기재된 특허맵에서는, 특허맵 작성 지원소프트의 가격이, 약 15만∼50만엔 정도이며, 그 조작에는, 컴퓨터 뿐만 아니라 특허청구의 범위, 도면 등을 읽어내는 등 고도의 기술력과 지식력을 필요로 한다. 특허조사 기관에서 의뢰할 경우라도, 1건당 30만엔 이상의 비용이 필요하는 동시에, 약 1개월 이상 작성 시간이 필요하다.
따라서, 자본금이나 개발비가 적은 벤처 기업 등이 이용할 경우, 혹은 출원을 서두를 경우에는, 특허맵의 이용이 제한되는 것이 상정된다.
또한, 종래의 지적재산 평가장치 등에서는, 제품 등의 연구 개발의 착수 전에 과거부터 최근의 정보를 널리 수집하고, 경합 타사의 기술동향의 분석이나, 기술 수준을 파악하는 기술동향 조사 등의 조사를 행하기 어렵다고 하는 문제를 발생시키고 있었다.
최근, 기업가치에 차지하는 무형자산(Intangible assets)의 비율이 커짐에 따라, 무형자산의 가치가 기업 가치를 크게 좌우하도록 되어 왔다.
따라서, 신탁 회사는 신탁의 대상에, 투자가는 투자의 대상에, 기업은 지적재산으로부터 산출되는 이익을 중시하도록 특허 전략의 동향의 대상에, 각각 무형 재산을 지표로서 이용하는 경향이 있다.
그러나 종래는, 투자의 참고로 하기 위해서, 기술문헌 일반을 이용해서 기업이 보유하는 무형재산을 비교하기 위한 적절한 지표가 존재하지 않았다.
특히, 생존을 건 기업 경영에 있어서, 신규 사업 참여나 신제품의 개발에 착수하는 전단계에 있어서 개발비를 충당할 가치가 있는 기술분야인지, 특허출원해야 할 가치가 있는 것인지, 출원 심사의 청구를 해야 할 것인가 아닌가, 권리화의 가능성이 있는 것인지, 라이센스 교섭을 했을 경우가 이익율이 높을 것인가 아닌가 등의 특허 전략을 검토하기 위한 지표의 존재가, 대단히 중요해지고 있다.
그래서 본 발명은, 상기 종래의 상황에 비추어 봐서, 기업 사이에 있어서, 일본 특허공보 등에 한정되지 않는 광범위한 기술문헌군끼리를 비교하여, 사람의 감각과 일치하는 적당한 유사율을 산출함으로써, 정량적, 정성적이며 동시에 상대적인 무형자산의 가치를 평가하는 것이 가능한 지표를 산출하기 위한 유사율 산출장치, 유사율 산출 프로그램 및 유사율 산출방법을 제공하는 것을 목적으로 하고 있다.
또 본 발명은, 제1의 기술문헌군과 제2의 기술문헌군이 전혀 달랐을 때만은 유사율이 0으로 산출되는 동시에, 제1의 기술문헌군과 제2의 기술문헌군이 동일할 때만은 유사율이 1로 산출될 수 있는 것이며, 대량으로 시간이 걸리는 계산을 필요로 하지 않고, 분석자의 자의가 혼입됨으로써 산출되는 유사율의 값이 바뀔 가능성이 적고, 제1의 기술문헌군과 제2의 기술문헌군의 사이에서 매크로적인 유사성의 비교 결과를 산출하는 것이 가능한 유사율 산출장치, 유사율 산출 프로그램 및 유사율 산출방법을 제공하는 것을 목적으로 하고 있다.
또 본 발명에서는, 비교하는 기술문헌의 총수가 몇 만건 이상이 될 경우이여도, 비교적 짧은 계산 시간으로 유사율을 산출하는 것이 가능한 유사율 산출장치, 유사율 산출 프로그램 및 유사율 산출방법을 제공하는 것을 목적으로 하고 있다.
또 본 발명에서는, 기술문헌군끼리를 매크로적으로 비교하는 것이 가능한 유사율 산출장치, 유사율 산출 프로그램 및 유사율 산출방법을 제공하는 것을 목적으로 하고 있다.
또 본 발명에서는, 무형재산에 의해 기업가치를 확인하는 요구가 있는 투자가 등이나 일반의 실무자에게도 용이하게 취급하는 것이 가능한 유사율 산출장치, 유사율 산출 프로그램 및 유사율 산출방법을 제공하는 것을 목적으로 하고 있다.
상기 과제를 해결하기 위해서 본 발명은, 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색해서 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 유사율로서 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값을 취하는 제1의 보정값과 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값을 취하는 제2의 보정값을 승산한 것을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색해서 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단,또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)을, 전체 클러스터 내의 기술문헌수의 평균값 등의 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)을 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다. 또 본 발명은, 상기 규격화 인자를, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 최대값의 γ승(단, 0 <γ)으로 한 것을 특징으로 하고 있다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 제1의 기술문헌군에 포함되는 기술문헌수 M과 제2의 기술문헌군에 포함되는 기술문헌수 N의 구성비, N/M과, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수M과 제2의 기술문헌군의 기술문헌수 n의 혼재비, n/m에 대해서, 또한 구성비와 혼재비의 비를 취했지만 ζ승(단, 0 <ζ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 제1의 기술문헌군과 제2의 기술문헌을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고, 상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고, 그 기대값 차를 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
또 상기 과제를 해결하기 위해서 본 발명은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고, 상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고, 그 기대값 차를 혼재 클러스터에 포함되는 기술문헌수로 나눈 것을 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값으로 하고, 이것을 각 혼재 클러스터에 대해서 총합을 산출하고, 또한 상기 산출한 전체 클러스터수로 나누고 유사율을 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 한다.
본 발명에 따르면, 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 유사율로서 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비했으므로, 그 분해한 전체 클러스터수와 혼재 클러스터수의 비에 기초하여, 기술문헌군에 기재되어 있는 기술내용의 유사성을 나타내는 지표를 간편하게 산출하는 것이 가능해진다.
또 본 발명에 따르면, 유사율 산출수단에 각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값을 취하는 제1의 보정값과, 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값을 취하는 제2의 보정값을 승산한 것을, 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 형성했으므로, 보정항1의 존재에 의해 혼재 클러스터에 포함되는 기술문헌의 양에 따라서 중요도가 높은 것을 의미부여하는 보정이 가능해지는 동시에, 보정항2의 존재에 의해 혼재 클러스터에 포함되는 기술문헌의 비율이 소정의 양에 가까울수록, 중요한 클러스터이다라고 해서, 유사율이 높은 값을 나타내도록 무거운 가중을 해서, 유사율의 산출 결과를, 보다 사람의 감각에 맞도록 보정하는 것이 가능해진다.
따라서, 보정항1 및 보정항2를 이용해서 유사율을 산출함으로써, 기술문헌 수량이 많은 혼재 클러스터를 중요시해서 유사율을 보정하는 동시에, 기술문헌의 혼합 상태가 불균일할 경우에는, 유사율을 작은 값으로 보정하는 것이 가능해진다.
또 본 발명에 따르면, 유사율 산출수단에 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 형성했으므로, 클러스터 내의 기술문헌수가 많을수록 중요한 클러스터이다라고 하는 유사율을 산출하는 것이 가능해진다.
또 본 발명에 따르면, 유사율 산출수단에 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)을, 전체 클러스터수 등의 규격화 인자로 나누어서 유사율을 산출하는 기능을 구비했으므로, 0≤유사율≤1을 보증하는 것이 가능해진다. 또한, 규격화 인자로서 전체 클러스터 내의 기술문헌수의 평균값을 배치했으므로, 전체 클러스터 내의 기술문헌수의 평균값을 기준으로 해서 기술문헌의 양의 다소를 산출하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 형성했다. 즉, 유사율 산출수단에 (A군 중에서 m개, B군 중에서 n개의 기술문헌을 꺼내는 조합의 수)/ (A군과 B군을 혼합한 것 중에서 m+n개의 기술문헌을 꺼내는 조합수)를 분자에 배치한 연산을 행하는 기능을 구비했으므로, 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수의 편향(작위성)에 따라서, 편향이 클 경우는 작은 보정값으로, 편향이 작은 경우는 큰 보정값으로 유사율을 보정하는 것이 가능해진다. 또한, 규격화 인자로서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 최대값의 γ승(단, 0 <γ)을 배치했으므로, 유사율의 산출 범위로서 0≤유사율≤1을 보증하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군에 포함되는 기술문헌수M과 제2의 기술문헌군에 포함되는 기술문헌수 N의 구성비, N/M과, 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수m과 제2의 기술문헌군의 기술문헌수 n의 혼재비, n/m에 대해서, 또한 구성비와 혼재비의 비를 취한 것의 ζ승(단, 0 <ζ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 갖추었으므로, A군과 B군의 기술문헌 수량의 구성비와 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비가 같을수록 유사율을 높게 산출하는 (1에 가까이 한다) 것이 가능해진다.
또한, 구성비와 혼재비의 비의 지수ζ을 ζ>1로 설정함으로써, A군과 B군의 기술문헌 수량의 비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비가 작은 혼재 클러스터의 영향을, 유사율의 산출 결과에 크게 반영시키지 않도록 하는 것이 가능해진다.
또한, 지수ζ을 ζ=1로 설정함으로써, 단순하게 A군과 B군의 기술문헌 수량의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비에 따라서 유사율을 증감시키는 것이 가능해진다.
또한, 분자의 지수를 0 <ζ <1로 설정함으로써, A군과 B군의 기술문헌 수량의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비가 클 경우에 유사율의 산출 결과에 대한 영향을 적게 하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서 제1의 기술문헌군의 기술문헌을 꺼내는 확률에 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고, 상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고, 그 기대값 차를 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값을, 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율로 산출하도록 했으므로, ξ의 값의 설정에 따라서 기대값 차에 대한 유사율의 산출 결과를 민감하게 반응시키는 보정을 행하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서 제1의 기술문헌군의 기술문헌을 꺼내는 확률에 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고, 상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고, 그 기대값 차를 혼재 클러스터에 포함되는 기술문헌수로 나눈 것을, 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값으로 하고, 이것을 각 혼재 클러스터에 대해서 총합을 산출하고, 또한 전체 클러스터수로 나누어서 유사율로 산출하도록 했으므로, ξ의 값의 설정에 따라서 기대값 차에 대한 유사율의 산출 결과를 민감하게 반응시키는 보정을 행하는 것이 가능해진다.
도 1은, 본 발명에 관한 유사율 산출 시스템의 전체 구성도이다.
도 2는, 본 발명에 관한 유사율 산출장치의 블록도이다.
도 3은, 기술문헌 A군과 기술문헌 B군에 포함되는 기술문헌의 구성을 나타내는 도이다.
도 4는, 유사율의 표시처리를 나타내는 플로우 차트이다.
도 5는, 유사율 산출을 위한 입력화면의 표시예를 나타내는 도이다.
도 6은, 산출한 유사율을 이용자에게 통지하는 유사율 표시화면의 표시예를 나타내는 도이다.
도 7은, 본 발명에 관한 유사율 산출장치를 이용해서 기술문헌군을 클러스터 분해한 후의 각 클러스터의 구성을 나타내는 도이다.
도 8은, 유사율의 산출처리를 나타내는 플로우 차트이다.
도 9는, 유사율의 계산에 이용하는 설정 조건을 나타내는 도표이다.
도 10은, 혼재 클러스터1에는 기술문헌이 많이 포함되어 있는 상황을 나타내는 도이다.
도 11은, 보정항1(1)을 채용했을 경우의 유사율 산출예의 도표이다.
도 12는, 보정항2(1)를 채용했을 경우의 유사율 산출예의 도표이다.
도 13은, 보정항1(1) 및 보정항2(1)의 쌍방을 채용했을 경우의 유사율 산출예의 도표이다.
도 14는, 보정항2(2)를 채용했을 경우의 유사율 산출예의 도표이다.
도 15는, 보정항1(1) 및 보정항2(2)를 채용했을 경우의 유사율 산출예의 도표이다.
도 16은, (식31)에 조건1∼4를 대입했을 경우의 기대값 차의 산출예를 나타내는 도표이다.
도 17은, ξ=10으로 했을 경우에 있어서, (식32)에 조건1∼4를 대입했을 경우의 유사율 산출예의 도표이다.
도 18은, 보정항1(1) 및 보정항2(3)를 채용했을 경우의 유사율 산출예의 도표이다.
도 19는, 기술문헌 A군에 포함되는 기술문헌과, 기술문헌 B군에 포함되는 기술문헌을 각각 마이크로적으로 비교하는 종래의 상황을 나타내는 도이다.
도 1은, 본 발명에 관한 유사율 산출 시스템의 전체구성도이다.
동도에 나타내는 것처럼, 본 발명에 관한 유사율 산출 시스템은, 기술문헌 데이터 베이스(20)로부터 통신망(10)을 통해, 유사율의 산출에 필요한 기술문헌을 판독하고, 유사율을 산출해서 표시하는 유사율 산출장치(30)와, 통신망(10)을 통해 각 회사의 기보나, 출원이 종료된 특허공보, 실용신안 공보등의 특허문헌을 포함하는 기술문헌을 기록하는 기술문헌 데이터 베이스(20)가 설치되어져 있다.
통신망(10)은, 인터넷 등의 통신망이며, 유사율 산출장치(30)가 통신망(10)을 통해 기술문헌 데이터 베이스(20)로부터 특허문헌 등의 기술문헌에 관한 정보를 취득하는 것이 가능해지고 있다.
유사율 산출장치(30)는, 이용자로부터 비교 대상의 기술문헌군에 관한 정보나, 문헌끼리의 비교 조건을 입력하고, 기술문헌 데이터 베이스(20)로부터 통신망(10)을 통해, 유사율의 산출에 필요한 기술문헌을 판독하고, 유사율을 산출해서 표시하는 것이 가능해지고 있다.
도 2는, 본 발명에 관한 유사율 산출장치의 블록도이다.
동도에 나타내는 것처럼 유사율 산출장치(30)의 정보송수신부에는, 공중회선 또는 통신 네트워크 등의 통신망(364)을 통해, 기술문헌 데이터 베이스(20)등의 다른 통신기기와 정보의 송수신을 행하는 것이 가능한 송수신수단(365)(기술문헌군 입력수단, 기술정보 입력수단, 또는 출력수단의 기능을 포함하는 것이여도 좋다)이 설치되어져 있다.
송수신수단(365)은, 기술문헌 데이터 베이스(20)로부터 통신망(10)을 통해, 유사율의 산출에 필요한 기술문헌을 취득하는 것이 가능해지고 있다.
또 유사율 산출장치(30)에는, 이용자로부터 비교 대상의 기술문헌군에 관한 정보나, 문헌끼리의 비교 조건을 입력하는 키보드, 마우스 등의 입력수단(370)(기술정보 입력수단의 기능을 포함하는 것이여도 좋다)이 설치되어져 있다.
또 유사율 산출장치(30)에는, 입력수단(370)을 통해 입력한 각종 정보를 판독해서 후술하는 정보처리 수단(380)에 전달하거나, 정보처리 수단(380)으로부터의 지시에 기초해서 LED 등에 표시 지령을 출력하는 입력 인터페이스(371)(기술정보 입력수단의 기능을 포함하는 것이여도 좋다)와, 화상이나 문자 등의 정보를 표시하는 표시수단(372)(출력수단의 기능을 포함하는 것이여도 좋다)과, 정보처리 수단(380)의 지령에 기초해서 표시수단(372)에 대하여 표시용의 화상신호를 출력하는 표시 인터페이스(373)(출력수단의 기능을 포함하는 것이여도 좋다)가 설치되어져 있다. 또한, 입력수단(370)은, 키보드나 마우스에 한정되지 않고, 태블릿 등의 입력장치를 포함하는 것이다.
또 유사율 산출장치(30)에는, 기록 매체(377)를 착탈 가능하게 장착하는 기록 매체 장착부(378)와, 기록 매체(377)에 대하여 각종 정보를 기록하거나 판독하거나 하는 기록 매체 인터페이스(379)(기술문헌군 입력수단, 기술정보 입력수단, 또는 출력수단의 기능을 포함하는 것이여도 좋다)가 설치되어져 있다. 또한, 기록 매체(377)는, 메모리 카드 등의 반도체나, MO, 자기 디스크 등으로 대표되는 자기 기록식, 광기록식 등의 착탈 가능한 기록 매체이다.
또한, 유사율 산출장치(30)에는, 유사율 산출장치(30)의 전체의 제어를 행하는 정보처리 수단(380)과, 정보처리 수단(380)에서 실행되는 프로그램이나 각종 정수가 기록되어 있는 ROM이나 정보처리 수단(380)이 처리를 실행할 때의 작업 영역이 되는 기록수단인 RAM으로 구성되는 메모리 381이 설치되어져 있다.
또한, 정보처리 수단(380)(클러스터 분해수단, 또는 유사율 산출수단)은, 이용자에게서 비교 대상의 기술문헌군에 관한 정보나, 문헌끼리의 비교 조건을 입력하고, 기술문헌 데이터 베이스(20)로부터 유사율의 산출에 필요한 기술문헌을 취득하고, 기록수단(384)에 기록되어 있는 유사율의 연산 프로그램이나 유사율의 산출처리 프로그램에 기초하고, 기술문헌끼리의 유사율을 산출하는 기능을 실현하는 것이 가능해지고 있다. 또한, 유사율의 산출 결과를 표시수단(372)에 표시하는 기능을 실현하는 것이 가능해지고 있다.
또한, 정보처리 수단(380)(클러스터 분해수단)은, 문서 내의, 청구항, 발명의 상세한 설명, 도면의 간단한 설명, 요약 등에 포함되는 언어(단어, 숙어, 명사, 동사, 조동사, 형용사, 부사, 조사 등)로 이루어지는 문장을 띄어쓰기 하거나, 1글자, 2글자 등 기계적으로 잘라내어 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능을 실현하는 것이 가능해지고 있다.
또 정보처리 수단(380)(클러스터 분해수단)은, 서지사항 등에 포함되는 항목(IPC등의 분류, 출원일, 출원 번호, 출원인명, 발명자, 심사청구의 유무, 보정의 유무, 국내우선의 유무, 외국출원의 유무, 거절 이유의 유무, 등록일, 등록번호 등)을 이용해서 클러스터 분해하는 기능을 실현하는 것이 가능해지고 있다.
또 정보처리 수단(380)(유사율 산출수단)은, 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 산출하거나 해서, 기술문헌군끼리의 유사율을 산출하는 기능을 실현하는 것이 가능해지고 있다.
이들의 모든 처리를 정보처리 수단(380)이 실행하는 대신에, 복수의 처리 장치로 분담해서 실행하도록 해도 본 발명의 목적을 달성하는 것이 가능하다.
또한, 유사율 산출장치(30)에는, 유사율 산출장치(30)의 처리에 관한 각종 정수나 네트워크상의 통신기기에 통신접속할 때의 속성정보, URL(Uniform Resource Locators), 게이트웨이 정보, DNS(Domain Name System)등의 접속정보, 기업의 경영에 관한 정보, 특허에 관한 정보, 특허문헌, 기보, 키워드, 기술정보 등의 각종 정보를 기록하는 것이 가능한 하드 디스크 등의 기록수단(384)과, 기록수단(384)에 기록되어 있는 정보를 판독하거나 기록수단(384)에 대하여 정보를 기록하는 처리를 행하는 기록수단 인터페이스(385)(기술문헌군 입력수단, 기술정보 입력수단, 또는 출력수단의 기능을 포함하는 것이여도 좋다)와, 시각을 나타내는 캘린더 시계(390)가 설치되어져 있다.
유사율 산출장치(30) 내의 정보처리 수단(380)과, 표시 인터페이스(373), 메모리(381), 기록수단 인터페이스(385), 캘린더 시계(390) 등을 포함하는 각 주변 회로는 버스(399)로 접속되어 있고, 정보처리 수단(380)으로 실행되는 처리 프로그램에 기초해서 각각의 주변 회로를 제어하는 기능을 실현하는 것이 가능해지고 있다.
상기 송수신수단(365), 기록 매체 인터페이스(379), 기록수단 인터페이스(385) 등의 기술정보 입력수단은, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 것이 가능해지고 있다.
상기 송수신수단(365), 입력수단(370), 입력 인터페이스(371), 기록 매체 인터페이스(379), 기록수단 인터페이스(385) 등의 기술정보 입력수단은, 키워드나 IPC등의 기술정보를 입력하는 것이 가능해지고 있다.
상기 송수신수단(365), 표시 인터페이스(373), 기록수단 인터페이스(385), 기록 매체 인터페이스(379), 프린터 인터페이스 등의 출력수단은, 유사율 산출수단이 산출한 유사율을, 기록수단, 표시수단, 또는 통신수단에 출력하는 것이 가능해지고 있다.
도 1에 나타낸 데이터 베이스(20)는, 기록수단(384)에 기억되어 있는 경우나, CD-ROM, CD-RW, DVD, MO 등의 기억 매체(377)로 제공될 경우, 통신망(364)을 통해 다른 통신기기로부터 취득하는 경우도 생각된다.
또한, 상기의 유사율 산출장치(30)는, 퍼스널 컴퓨터, 워크스테이션 등 여러가지 컴퓨터를 이용해서 실현할 수 있다. 또한, 컴퓨터를 네트워크로 접속하고 기능을 분산해서 실시하도록 해도 좋다.
본 발명에 관한 유사율 산출장치 및 유사율 산출 프로그램에 의해 산출되는 기술문헌의 유사율이란, 제1의 기술문헌군(기술문헌 A군)과 다른 제2의 기술문헌군(기술문헌 B군)을 소정의 키워드나 IPC등에 기초해서 매크로적으로 비교했을 때에 산출되는 수치이며, 기술문헌군끼리가 어느 정도 기술적으로 관련이 있는가를 나타 내는 지표로 하기 위한 수치를 말한다.
그리고, 제1의 기술문헌군(기술문헌 A군)과 제2의 기술문헌군(기술문헌 B군)은, 어떠한 속성을 가지는 기술문헌의 모임으로 한다.
본 발명에서는, A사가 출원한 특허공보나 A사가 발행한 기보 등의 제1의 기술문헌군(기술문헌 A군)에 기재된 기술내용과, B사가 출원한 특허공보나 B사가 발행한 기보 등의 제2의 기술문헌군(기술문헌 B군)에 기재된 기술내용이, 얼마나 유사하고 있는가를 정성적으로 평가하는 지표로서의 수치를 산출함으로써, 기술문헌끼리를 용이하게 비교하는 것이 가능해지고 있다.
이하에 설명하는 실시예에서는, 제1의 기술문헌군(기술문헌 A군)과 제2의 기술문헌군(기술문헌 B군)에 기재된 기술내용이 유사할수록, 유사율은 큰 값을 취하는 것이라고 정의하고 있다.
또한 본 발명에서는, 유사율을 산출할 때에 다른 조건을 설정했을 경우여도, 제1의 기술문헌군(기술문헌 A군)과 제2의 기술문헌군(기술문헌 B군) 사이에서 산출한 유사율과, 제3의 기술문헌군(기술문헌 C군)과 제4의 기술문헌군(기술문헌 D군) 사이에서 산출한 유사율을 직접 비교하는 것이 가능하도록, 유사율이 취할 수 있는 범위로서, 0≤유사율≤1이 되는 연산을 행하기로 하고 있지만, 유사율이 취할 수 있는 범위는 이 범위에 한정되는 것은 아니다.
도 3은, 기술문헌 A군과 기술문헌 B군에 포함되는 기술문헌의 구성을 나타내는 도이다.
동도에 나타내는 것처럼, 기술문헌 A군은, A1, A2, A3,…AM의 M개의 기술 문헌으로 구성되어 있고, 기술문헌 B군은, B1, B2, B3,…BN의 N개의 기술문헌으로 구성되어 있다.
도 4는, 유사율의 표시처리를 나타내는 플로우 차트이다.
동도에 나타내는 것처럼, 이용자가 기술문헌군끼리를 비교하고, 기술내용이 유사한 정도를 조사할 경우에는, S10 「유사율 산출 지시 입력」 (이하 S10과 같이 생략해서 기재한다.)에 있어서, 유사율 산출 지시를 유사율 산출장치(30)의 키보드, 마우스 등의 입력수단(370)을 조작해서 입력하고, 이후의 처리를 실시시킨다.
유사율 산출장치(30)가, S100 「입력화면 판독·표시」에서, 유사율 산출 지시에 기초하여, 유사율 산출에 관한 각종 조건의 입력화면의 표시 정보를 기록수단(384)으로부터 읽어내고, 그 표시 정보에 기초한 유사율 산출에 필요한 조건의 입력화면을 표시수단(372)에 표시한다.
도 5는, 유사율 산출을 위한 입력화면의 표시예를 나타내는 도이다.
동도에 나타내는 것처럼 입력화면에는, 비교 대상으로 되어 있는 제1의 기술문헌군과 제2의 기술문헌군의 추출 조건을 지정하는 정보와, 키워드나 IPC등의 기술정보를 지정하는 취지의 정보가 표시되어 있다. 이용자는, 표시화면에 기초해서 여러 사항을 입력하는 것이 가능해지고 있다.
클러스터 분해의 조건을 입력하는 부분에서는, 특허공보, 기보 등의 대상 문헌의 지정이나, 전체문, 청구항부분만 등의 대상부분의 설정이나, IPC, 키워드 등의 클러스터 분해의 척도 등의 각종 조건을 입력하는 것이 가능해지고 있다. 또한 기술문헌군의 추출 조건으로서, 특허공보의 출원일의 기간, 업계명칭, 출전원의 기 업명, 개인명 등을 입력하는 항목이 표시되어 있다. 이용자는, 도 5에 나타난 입력화면에 기초하고, 용이하게 유사율의 산출조건을 입력하거나, 미리 형성되어져 있는 복수의 산출조건 중에서 소망의 산출조건을 선택하는 것이 가능해지고 있다.
또 도 5에는, 혼재 클러스터 비를 유사율의 산출 용도에 따라 보정하기 위한, 보정 방법을 입력하는 부분이 설치되어져 있다.
예를 들면 보정항1로서, 각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값에 기초하고, 유사율을 보정하는가 아닌가의 보정 조건을, 이용자가 입력하는 것이 가능해지고 있다.
또 보정항2로서, 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값에 기초하고, 유사율을 보정하는가 아닌가의 보정 조건을, 이용자가 입력하는 것이 가능해지고 있다.
또한 본 발명에서는, 이 기술문헌과의 혼합 상태에 따른 보정 방법으로서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 이것을 전체 클러스터수로 나누어서 유사율의 보정 등을 행하는, 「기술문헌수의 확률」에 따른 보정 방법을 선택하는 것이 가능해지고 있다.
또 본 발명에서는, 제1의 기술문헌군에 포함되는 기술문헌수M과 제2의 기술문헌군에 포함되는 기술문헌수 N의 구성비 N/M과, 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수m과 제2의 기술문헌군의 기술문헌수 n의 혼재비, n/m에 대해서, 또한 구성비와 혼재비의 비를 취한 것의 ζ승 (단, 0 <ζ)에 비례한 보정값을, 각 혼재 클러스터에 대해서 총합을 산출하고, 이것을 전체 클러스터수로 나누어서 유사율의 보정 등을 행하는, 「기술문헌의 혼재비」에 따른 보정 방법을 선택하는 것이 가능해지고 있다.
또 본 발명에서는, 제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고, 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고, 그 기대값 차를 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값을, 각 혼재 클러스터에 대해서 총합을 산출하고, 이것을 전체 클러스터수로 승산해서 유사율의 보정 등을 행하는, 「기술문헌의 기대값 차」에 따른 보정 방법을 선택하는 것이 가능해지고 있다.
도 4에 나타나는 S12 「유사율 산출조건입력」에서, 이용자는, 표시수단에 표시되어 있는 안내에 기초하고, 특허문헌, 기보, 사보, 기술논문 등의 기술문헌 종별이나, 비교하는 기술문헌군의 지정, 클러스터 분해를 실시할 때에 기술문헌군으로부터 기술문헌을 추출하는 조건이 되는 IPC 또는 키워드 등, 또한 유사율을 산출할 때의 목적에 따른 보정 정보를, 입력수단(370)을 통해 입력한다.
S102 「기술문헌취득」에서, 정보처리 수단(380)은, 이용자로부터 입력한 기술문헌 종별 (예를 들면 특허문헌)에 기초해서 검색하는 데이터 베이스를 특정하고, 이용자로부터 입력한 기술문헌군 (예를 들면 A사의 기술문헌 A군 및 B사의 기술문헌 B군)의 지정에 기초한 기술문헌군의 취득 정보를 특정의 데이터 베이스에 출력한다.
S130 「기술문헌 판독」에서, 기술문헌 데이터 베이스(20)는, 유사율 산출수단(30)으로부터 취득한 기술문헌 종별과, 기술문헌군 등에 기초하고, 데이터 베이스 내를 검색해서 기술문헌을 판독하고, 유사율 산출장치(30)에 송신한다.
S104 「유사율 산출처리」에서, 유사율 산출장치(30)는, 데이터 베이스(20)로부터 취득한 기술문헌군 (예를 들면 A사의 기술문헌 A군 및 B사의 기술문헌 B군) 중에서, 이용자 지정의 IPC나 키워드를 공통으로 포함하는 기술문헌을 꺼내고, 클러스터마다 분해하는 처리를 행한다.
클러스터 분해한 결과, 기술문헌 A군에 속하는 기술문헌 및 기술문헌 B군에 속하는 기술문헌이 혼재하고 있는 클러스터를 혼재 클러스터로 정의한다. 본 발명에서는, 전체 클러스터 중, 혼재 클러스터가 존재하는 비율에 기초해서 유사율을 산출한다.
또한, 유사율의 용도에 따라, 혼재 클러스터에 포함되는 기술문헌의 수량이나 혼재 확률, 혼재 비율, 또는 이들의 조합에 따른 보정을 행하는 것도 가능하다.
S106 「유사율 표시처리」에서, 유사율 산출장치(30)는, 산출한 유사율을 표시수단(372)에 표시하고, 이용자에게 통지한다. 또한, S106에서 유사율을 표시수단(372)으로 표시하는 대신에, 산출한 유사율을 송수신수단(365)과 통신망(10)을 통해 다른 통신기기에 송신출력하도록 해도 좋고, 기록수단 인터페이스(385)를 통해 기록수단(384)에 기록 출력하도록 해도 좋고, 기록 매체 인터페이스(379)를 통해 기록 매체(377)에 기록출력하도록 해도 좋다. 또한, 산출한 유사율을, 인쇄용의 프 린터 인터페이스(도면에 나타내지 않음)를 통해 인쇄수단에 출력하도록 해도 좋다.
도 6은, 유사율 산출장치(30)가 산출한 유사율을 이용자에게 통지하는, 유사율 표시화면의 표시예를 나타내는 도이다.
동도에 나타내는 것처럼, 유사율 표시화면에는, 이용자가 입력한 기술문헌군을 추출 지정하는 정보와, 키워드나 IPC 등의 기술정보를 클러스터 분해했을 때의 척도나, 보정 방법 등의 입력 정보가 확인을 위해 표시되어 있다.
또 유사율 표시화면에는, 보정항3으로서, 예를 들면 클러스터 분해했을 때의 소정의 특허분류나 키워드에 주목해서 자의적인 가중을 행하기 위한 보정 조건을, 각 클러스터마다 이용자가 입력하는 것이 가능해지고 있다. 동도에 나타내는 예에서는, 보정항3의 수치로서 「1.000」을 설정하고 있다.
또 유사율 표시화면에는, 유사율의 산출 결과와, 그 유사율을 보정하기 위한, α, γ, ζ, ξ 등의 유사율 산출조건을 연속적으로 변경하는 슬라이드바와, 각 클러스터의 보정항을 확인하기 위해서, 분해한 클러스터의 내용을 표시하는 부분이 설치되어져 있다.
이용자는, 산출된 유사율을 보면서, 자유롭게 유사율의 산출조건을 변경하는 것이 가능해지고 있다. 이용자가 슬라이드바를 조작했을 경우에는, 정보처리 수단(380)이 캘린더 시계(390)가 계수하는 시간에 기초하고, 슬라이드바의 조작 완료를 판단한다. 그러면, 정보처리 수단(380)이 실시하는 처리는 S104로 분기해서 다시 유사율을 산출하고, 유사율의 연산 결과를 유사율 표시화면에 표시하는 처리를 행한다.
도 4에 나타내는 S14 「종료」, S108 「종료」 및 S140 「종료」에서, 유사율 산출처리가 종료한다.
본 발명에 있어서의 기술문헌의 클러스터 분해란, 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)을 매크로적으로 비교하기 위한 「유사율」을 산출할 때에, 키워드나 IPC 등을 이용해서 기술문헌을 분류하는 것을 말한다.
본 발명을 창작함에 있어서 비교하는 2개의 기술문헌군을 조감해 보았을 때, 2개의 기술문헌군이 따로따로되어 있으면, 대단히 계산이 복잡해지지만, 2개를 「섞어」버리고 정리정돈하면 훨씬 계산이 용이해지는 것이 아닐까해서, 「섞었」더니 예상대로 유사율의 산출에 적합한 모양이 보여졌다. 쌍방의 기술문헌군을 섞은 후, 클러스터 분해에 의해 분류했을 때, 일부에 양쪽의 기술문헌군의 구성 요소(기술문헌)를 포함하는 클러스터(혼재 클러스터)가 존재하고, 그 분해한 전체 클러스터수에 대한 혼재 클러스터의 비율이, 우리들의 통상의 감각으로서의 유사율에 가까운 것을 알 수 있었다.
우선, 상기와 같이 제1의 기술문헌군과 제2의 기술문헌군의 쌍방의 기술문헌을 섞어서 하나의 군으로 한다.
혼합된 기술문헌의 군을, 어떠한 분류법에 의해, 어떤 기술문헌의 작은 모임(클러스터라고 한다)으로 분해한다. 어떤 클러스터에는 제1의 기술문헌군에 속하는 기술문헌이 m개와 제2의 기술문헌군에 속하는 기술문헌이 n개 포함되어 있다고 한다.
기술문헌을 IPC(국제특허분류)마다나, 기술문헌에 소정의 키워드가 포함되는 가 아닌가에 의해 「그룹나누기」 하는 것을 「클러스터 분해」한다고 정의한다.
도 7에, 본 발명에 관한 유사율 산출장치를 이용해서 기술문헌군을 클러스터 분해한 후의 각 클러스터의 구성을 나타낸다.
예를 들면 도 7에 나타내는 것처럼, IPC 「G06F 17/30」으로 분류되는 기술문헌으로서, 제1의 기술문헌군에는 「특허문헌A1」이, 또 제2의 기술문헌군에는 「특허문헌B1」이 각각 존재했을 경우에는, IPC 「G06F 17/30」의 클러스터에는, 「특허문헌A1」과 「특허문헌B1」의 요소가 포함된다.
또한 예를 들면, 키워드로서 「텍스트 처리」라고 하는 문언을 포함하는 기술문헌이, 제1의 기술문헌군에는 「기술문헌A2」가, 또 제2의 기술문헌군에는 「기술문헌B2」 및 「기술문헌B3」이 존재했을 경우에는, 키워드 「텍스트 처리」의 클러스터에는 「기술문헌A2」과 「기술문헌B2」, 「기술문헌B3」의 요소가 포함된다.
또한, 클러스터 분해의 방법에는, 기술문헌군의 각각의 기술문헌의 속성에 의해 2가지의 취급이 있고, 그것은 아래와 같다.
1. 외적인 기준이 있는 속성(속성 1형으로 정의한다)의 경우는, 그 속성 각각으로 클러스터를 구성할 수 있다. 예를 들어, 일본 특허공보 등의 기술문헌으로 말하자면, 출원일의 날짜나 IPC 등, 일의로 결정되는 기술문헌이다.
2. 내적인 관계로 속성이 결정되는 값(속성 2형태로 정의한다)은, 전처리로서 다변량 해석(클러스터 분석) 등에 의한 클러스터화가 필요하다.
예를 들면 일본 특허공보 기술문헌 중에서는, 요약이나 청구항 등의 문서에 외적인 기준을 적용시키는 것이 어렵기 때문에, 문서간의 마이크로적인 유사율을 별도 정의하고, 거기에 기초해서 다변량 분해를 행한 결과를 이용해서 클러스터를 구성한다. 또한, 문서간의 마이크로적인 유사율에 대해서는, TFIDF법 등, 일반적으로 널리 쓰여져 있는 것을 사용하는 것에 의해, 분석자의 자의의 혼입을 막는 것이 가능하다.
정보처리 수단(380) 등의 클러스터 분해수단은, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 기술정보 입력수단을 통해 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술 정보마다 클러스터 분해하고 있다.
본 발명의 실시예에서는, 혼재 클러스터를 아래와 같이 정의한다.
도 7에 나타나는 IPC 「G06F 17/30」의 클러스터에는, 기술문헌 A군에 속하는 「특허문헌A1」과, 기술문헌 B군에 속하는 「특허문헌B1」이 혼재하고 있다. 이처럼, 기술문헌 A군에 속하는 기술문헌, 및 기술문헌 B군에 속하는 기술문헌이 혼재하고 있는 클러스터를 혼재 클러스터라고 정의한다.
본 발명의 실시예에서는, 비혼재 클러스터를 이하와 같이 정의한다.
예를 들면 도 7에 나타내는 것처럼, IPC 「B01」로 분류되는 기술문헌으로서, 기술문헌 A군에는 「특허문헌A3」이 존재하지만, 기술문헌 B군에는 IPC 「B01」로 분류되는 기술문헌이 존재하지 않을 경우에는, IPC 「B01」의 클러스터에는 「특허문헌A3」만이 요소로서 포함된다.
또 도 7에 나타내는 것처럼, 예를 들면 키워드로서 「무기화합물」이라고 하는 문언을 포함하는 기술문헌은, 기술문헌 A군에는 존재하지 않지만 기술문헌 B군 에는 「기술문헌B1」이 존재했을 경우에는, 키워드 「무기화합물」의 클러스터에는 「기술문헌B1」이 요소로서 포함된다.
이처럼, 기술문헌 A군에 속하는 기술문헌과, 기술문헌 B군에 속하는 기술문헌이 혼재하지 않고 있는 클러스터를 비혼재 클러스터라고 정의한다.
도 8은, 유사율의 산출처리를 나타내는 플로우 차트이다.
정보처리 수단(380)이 실시하는 처리가, 도 4에 나타난 S104로 진행되면, 정보처리 수단(380)이 실시하는 처리는 S200로 분기해 오고, S200이후의 처리를 실시한다.
유사율 산출장치(30)의 정보처리 수단(380)은, S200 「기술문헌 A군과 기술문헌 B군을 혼동한다」에서, S102 「기술문헌취득」에 의해 데이터 베이스로부터 취득한 기술문헌군 (예를 들면 A사의 제1의 기술문헌군 및 B사의 제2의 기술문헌군)을 혼합하고, 1개의 기술문헌군으로 하는 처리를 행한다.
S202 「클러스터 분해처리」에서 정보처리 수단(380)은, 키워드나 IPC 등의 기술정보에 기초해서 클러스터 분해 처리를 행한다. 다음의 S204 「보정항1의 계산식을 설정」에서, 정보처리 수단(380)은, 혼재 클러스터에 포함되는 기술문헌의 수량에 따라서 유사율을 보정하는 취지의 지시를 이용자에게서 입력하고 있을 경우에는, 그 지시에 기초한 보정항의 수식을 선택하는 처리를 행한다. 여기에서는, 보정의 내용에 따라서 보정항1에 소정의 수식을 대입하는 처리를 행한다.
보정항1은, 혼재 클러스터에 포함되는 기술문헌의 양이 많을수록, 중요한 클러스터라고 생각하여 유사율이 높아지도록 무거운 가중을 해서 유사율의 보정을 행 하기 위한 보정항이다.
혼재 클러스터에 포함되는 기술문헌의 수량에 따라서 유사율을 보정하지 않을 경우에는, 보정항1=1(정수)을 대입한다.
S206 「보정항2의 계산식을 설정」에서 정보처리 수단(380)은, 혼재 클러스터에 포함되는 기술문헌A와 기술문헌B의 혼합 상태에 따라서 유사율을 보정하는 취지의 지시를 이용자로부터 입력하고 있을 경우에는, 그 지시에 기초한 보정항의 수식을 선택하는 처리를 행한다. 여기에서는, 보정의 내용에 따라서 보정항2에 소정의 수식을 대입하는 처리를 행한다.
보정항2는, 혼재 클러스터에 포함되는 기술문헌의 비율이 소정의 양에 가까울수록, 중요한 클러스터라고 생각하고 유사율이 높아지도록 무거운 가중을 해서 유사율의 보정을 행하기 위한 보정항이다.
혼재 클러스터에 포함되는 기술문헌의 혼합 상태에 따라서 유사율을 보정하지 않을 경우에는, 보정항2=1(정수)을 대입한다.
S208 「보정항3의 값을 설정」에서 정보처리 수단(380)은, 클러스터 분해했을 때의 소정의 특허분류나 키워드에 주목해서 자의적인 가중을 행하고, 유사율을 보정하는 취지의 지시를 이용자로부터 입력하고 있을 경우에는, 그 지시에 기초한 보정항의 수식을 선택하는 처리를 행한다. 여기에서는, 보정의 내용에 따라서 보정항3에 소정의 값을 대입하는 처리를 행한다. 클러스터 분해했을 때의 소정의 특허분류나 키워드에 대해서 특히 주목하지 않을 경우에는, 보정항3=1(정수)을 대입한다.
S210 「유사율 산출」에서 정보처리 수단(380)은, 각 혼재 클러스터에 대해서 보정항1, 보정항2, 보정항3의 각 보정항을 승산해서 총합을 산출한다. 또한 규격화하기 위해서 전체 클러스터수로 나누어서 유사율을 산출하는 처리를 행한다.
S212 「종료」에서, 유사율 산출처리의 서브루틴을 종료하고, 원래의 처리로 돌아간다.
도 9에, 유사율의 계산에 이용하는 설정 조건을 나타낸다.
도 9는 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군과, 각 군의 기술문헌을 4개의 클러스터로 분해했을 경우의 각 클러스터(1∼4)에 존재하는 각 기술문헌수를 나타내는 도표이다. 동도 오른쪽 끝에 나타나는 「기대하는 유사율」의 값은, 기술문헌의 유사성의 판단을 행하고 있는 복수의 전문가에게 듣기를 행한 결과, 조건1∼4의 경우에, 산출되는 것을 기대하는 유사율의 값을 나타내는 것이다. 그리고, 그 기대하는 유사율의 값에 대하여 허용될 수 있다고 생각되는 범위는, 동도에 나타내는 것처럼 허용 범위=±0.050정도이다.
따라서, 본 발명에 관한 유사율 산출장치를 이용해서 유사율을 산출한 결과, 도 9에 나타나는 허용 범위 내에서 유사율이 산출되면, 기술문헌끼리의 비교가 최적으로 행해지고 있는 것을 나타내고 있다.
기본형 1:보정항을 고려하지 않을 경우의 유사율 (기본형1)의 산출예
이하에, 보정항을 이용하지 않는 기본형의 유사율 (기본형1)의 산출예를 나타낸다. 이 유사율 (기본형1)의 산출예는, 혼재 클러스터 추출법에 의해 기술문헌의 유사율을 연산하는 것이다.
제1의 기술문헌군에 포함되는 기술내용과, 제2의 기술문헌군에 포함되는 기술내용이, 어느 정도 유사하고 있는가의 정도(유사율의 값의 크기)는, 「혼재 클러스터의 수량」에 비례하는 것이라고 생각된다.
또 유사율을, 0≤유사율≤1의 범위로 설정하기 위해서, 예를 들면, 「혼재 클러스터수」를, 「혼재 클러스터수와 비혼재 클러스터수의 총합」인 「전체 클러스터수」로 나눈 혼재 클러스터를 산출하면, 기술문헌군끼리의 유사율로서 이하의 (식1)이 얻어진다.
혼재 클러스터를 고려한 유사율 산출방법을 혼재 클러스터 추출법이라고 정의한다. 하기에 나타나는 (식1)은 가장 기본적인 사고방식이다. 하기의 (식1)에서는, 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비(이하 혼재 클러스터비라고 부른다)를 유사율로서 산출하는 한 예를 나타내고 있다. 따라서, 전체 클러스터수와 혼재 클러스터수의 비의 산출의 방법은, 하기의 (식1)에 한정되는 것이 아니다.
Figure 112006009194687-PCT00001
단,
δ = 혼재 클러스터의 경우……1
비혼재 클러스터의 경우…0
앞에 말한 것처럼, 유사율이란 제1의 기술문헌군에 기재되어 있는 기술내용과 제2의 기술문헌군에 기재되어 있는 기술내용이 어느 정도 유사하고 있는지를 나타내는 수치이다.
또한, 혼재 클러스터수란, 제1의 기술문헌군에 속하는 기술문헌 및 제2의 기술문헌군에 속하는 기술문헌이 혼재하고 있는 클러스터의 수를 나타내는 수치이다.
전체 클러스터수란, 제1의 기술문헌군의 기술문헌 또는 제2의 기술문헌군의 기술문헌이 존재하는 클러스터의 전체 수를 나타내는 수치이다.
이하에, 유사율 (기본형1)의 계산식을 이용했을 경우의 계산 결과에 대해서 설명한다.
제1의 기술문헌군과 제2의 기술문헌군에 대해서, 소정의 키워드나 IPC 등을 이용해서 클러스터 분해를 행한 결과, 전체 클러스터수가 10개이며, 혼재 클러스터수가 3개이었을 경우에는, 유사율 (기본형1)=3/10=0.3으로 산출된다.
또한, 전체 클러스터수가 4개이며, 혼재 클러스터수가 2개이었을 경우에는, 유사율 (기본형1)=2/4=0.5로 산출된다.
제1의 기술문헌군과 제2의 기술문헌군에 포함되는 기술문헌을, 키워드나 IPC 등을 이용해서 클러스터 분해하고, 그 분해한 전체 클러스터수와 혼재 클러스터수의 비를 유사율로서 산출함으로써, 기술문헌군끼리의 유사율의 기초부분이 되는 값을 산출하는 것이 가능해진다.
또한, 유사율을 산출할 때에, 혼재 클러스터수를 전체 클러스터수로 나눔으 로써, 산출되는 유사율의 값을 0≤유사율≤1의 범위로 설정하는 것이 가능해진다.
이하에, 유사율 (기본형1)을 이용했을 경우의 발명의 효과에 대해서 설명한다.
제1의 기술문헌군과 제2의 기술문헌군에 포함되는 키워드나 IPC 등을 이용해서 클러스터 분해하고, 그 분해한 전체 클러스터수와 혼재 클러스터수의 비에 기초해서 유사율을 산출함으로써, 기술문헌군끼리가 어느 정도 기술적으로 유사하고 있는가를 나타내는 지표를 간편하게 산출하는 것이 가능해진다. 여기서 산출되는 유사율은, 우리들이 상식적으로 생각한 기술문헌군끼리의 유사의 정도와 비교적 일치하고 있는 것을 알 수 있다.
또 본 발명에서는, 산출하는 유사율의 값을 0≤유사율≤1의 범위로 설정하는 연산을 행하고 있으므로, 전체 클러스터수량이나 혼재 클러스터의 수량, 또 기술문헌군에 포함되는 기술문헌의 양의 다소에 관계없이 일정의 지표를 산출하는 것이 가능해진다.
또한, 보다 많은 조건 하에서 제1의 기술문헌군과 제2의 기술문헌군을 비교한 유사율과, 제1의 기술문헌군과 제3의 기술문헌군을 비교한 유사율을 직접 대비하는 것도 가능해진다.
기본형 2:보정항을 고려했을 경우의 유사율(기본형2)의 산출예
이하에, 보정항을 고려했을 경우의 유사율(기본형2)의 산출예를 나타낸다. 이 유사율(기본형2)의 산출예는, 상기 유사율(기본형1)의 산출예에 대하여 보정항1∼3을 가미한 것으로 되어 있다.
상기의 (식1)을 이용해서 유사율을 산출하면, 혼재 클러스터수로 비례한 유사율이 간단한 수식을 이용해서 매우 재빠르게 산출할 수 있다고 하는 이점이 있다.
상기의 가장 기본적인 (식1)은, 예를 들면 많은 기술문헌을 포함하는 클러스터와 소수의 기술문헌밖에 포함하지 않는 클러스터가 대등한 기여를 가지는 결과가 되는 것도 알 수 있듯이, 각각의 클러스터 내의 기술문헌수의 대소를 고려하지 않고 있다고 하는 결점이 있기 때문에, 혼재 클러스터 내에 많은 기술문헌이 포함될 경우이여도, 2개밖에 기술문헌이 포함되지 않을 경우여도 동일한 유사율이 산출되어 버려, 우리들이 상식적으로 생각한 유사의 정도와 달라버릴 경우가 있다고 하는 문제를 발생시킬 가능성이 있다.
혼재 클러스터에 포함되는 기술문헌의 양 이외에도, 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태 (제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 비율)나, 특정한 특허분류나 키워드에 주목하고 싶을 경우의 자의적인 가중 등에 의해, 산출되는 유사율의 값을 보정하고 싶을 경우가 발생한다.
도 10은, 혼재 클러스터(1)에 기술문헌이 많이 포함되어 있는 상황을 나타내는 도이다.
도 10에 나타나는 예에서는, 클러스터(1)(혼재 클러스터)에는, 기술문헌이 많이 포함되어 있으므로 중요한 클러스터라고 생각되고, 유사율 계산 시에 가장 기여가 커지면 좋다.
다른 클러스터 (예를 들면 클러스터(2), 클러스터(3), 클러스터(4) 등)은, 포함되어 있는 기술문헌이 적으므로 중요한 클러스터가 아니라고 생각되므로, 클러스터(1)의 기여에 비교하면 훨씬 작아지는 것이 바람직하다.
도 10의 예와 같은 상황이 있을 경우, 클러스터(1)에 대하여, 클러스터(2), 클러스터(3), 클러스터(4)의 영향을 경시해야 할 경우가 있다. 또한, 포함되는 기술문헌 수량이 적은 클러스터의 존재를 무시하지 않을 경우에는, 산출되는 유사율의 값은 0.5까지 떨어져버린다.
그래서 이하의 (식2)에 나타나는 것처럼, (식1)의 δ(클러스터가 혼재 클러스터일 경우에는 δ=1이라고 하고, 그 이외의 경우에는, δ=0이라고 한다)에 대하여 보정항을 승산하기로 한다. 또한, 보정에 의해 유사율의 범위가, 0≤유사율≤1의 범위를 넘지 않도록 하기 위해서는 적당한 규격화 인자가 필요하다.
Figure 112006009194687-PCT00002
단,
δ = 혼재 클러스터의 경우……1
비혼재 클러스터의 경우…0
(식2)에 나타나는 보정항1은, 혼재 클러스터에 포함되는 기술문헌의 양에 따라서 유사율을 산출하기 위한 보정항이다. 이 보정항1은, 혼재 클러스터에 포함되 는 기술문헌의 양이 많을수록, 중요한 클러스터라고 생각하여 유사율이 높아지도록 무거운 가중을 해서 유사율의 보정을 행하는 보정항이다.
또한 반대로 보정항1은, 혼재 클러스터에 포함되는 기술문헌의 양이 적을수록, 중요한 클러스터가 아니다라고 생각하여 유사율이 낮아지도록 가벼운 가중을 해서 유사율의 보정을 행하는 것도 가능한 보정항이다.
또 보정항1은, 각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값을 취하는 제1의 보정값을 산출하는 것이 가능한 다른 계산식을 이용한 보정항이여도 좋다.
(식2)에 나타나는 보정항2는, 혼재 클러스터에 포함되는 기술문헌A와 기술문헌B의 혼합 상태(기술문헌A와 기술문헌B의 비율)에 따라서 유사율을 산출하기 위한 보정항이다.
보정항2는, 혼재 클러스터에 포함되는 기술문헌의 비율이 소정의 양에 가까울수록, 중요한 클러스터라고 생각하여 유사율이 높아지도록 무거운 가중을 해서 유사율의 보정을 행하는 보정항이다.
또 보정항2는, 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값을 취하는 제2의 보정값을 산출하는 것이 가능한 보정항이다.
(식2)에 나타내는 것 같이 유사율은, 보정항1, 보정항2, 또는 보정항3을 전체 혼재 클러스터에 대한 총합을 산출하고, 상기 총합을 전체 클러스터수로 나누는 연산을 행하고 있다.
보정항2를 산출할 때에 이용하는 기술문헌의 「혼합 상태」의 의미는, 이하 대로이다.
어떤 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌, 및 제2의 기술문헌군에 포함되는 기술문헌의 혼합 상태에 주목하여, 쌍방의 기술문헌이 잘 혼합되어 있을 때, 즉 쌍방의 기술문헌수가 치우치지 않고 있을 때에 중요한 클러스터라고 생각해서 무거운 가중을 하고, 잘 혼합되어 있지 않을 경우, 즉 기술문헌수가 한쪽의 기술문헌군에 치우치고 있을 경우에, 중요하지 않은 클러스터라고 생각해서 가벼운 가중을 하기 위한 보정항목이다.
바꿔 말하면, 예를 들면 어떤 혼재 클러스터에 포함되는, 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 수량이, 제1의 기술문헌군과 제2의 기술문헌군으로부터 무작위로 추출했을 때의 기대값에 가까운 것은 무겁게, 먼 것은 가볍게 하는 보정항이다.
보정항3이란, 특정한 특허분류나 키워드에 주목하고 싶을 경우에, 자의적인 가중을 행해서 유사율을 산출하기 위한 보정항이다. 이 항은 기술문헌군끼리를 비교하는 자가 개별 설정하는 항이므로, 이번에는 고려하지 않고 정수 「1」을 대입해 둔다.
응용형 1:보정항1(1)의 산출예
Figure 112006009194687-PCT00003
보정항1(1)을 고려한 유사율 (식4)의 산출예를 이하에 나타낸다.
Figure 112006009194687-PCT00004
보정항1(1)에서는, 유사율이 혼재 클러스터에 포함되는 기술문헌의 양에 따라서 큰 값을 취하도록 보정하기 위해서, 「클러스터 내의 기술문헌수」의 α승(단, 0 <α)을 분자에 배치하고 있다. 그리고, 유사율의 산출 범위로서 0≤유사율≤1을 보증하기 위해서, 보정항1(1)의 식에서는 규격화 인자를 분모에 배치하고 있다.
(식4)에 나타나는 보정항1(1)의 연산에서는, 분자에 배치한 클러스터 내의 기술문헌수가 많을 경우이여도 유사율의 값이 1을 넘지 않도록 하기 위해서, 또, 기술문헌의 양의 다소의 판단 기준을 형성하기 위해서, 규격화 인자로서, 전체 클 러스터 내의 기술문헌수의 평균값을 배치하고 있다. 또한, 규격화 인자는, 전체 클러스터 내의 기술문헌수의 α승의 총합을 산출하고, 전체 클러스터수로 나눈 값을 배치해도 좋다. 이 규격화 인자는, 0≤유사율≤1을 보증하는 것이 가능한 항이면 좋고, (식4)의 수식에 한정되는 것이 아니다.
또한, 포함되는 기술문헌의 양이 적은 혼재 클러스터의 영향을, 유사율의 산출 결과에 크게 반영시키고 싶지 않을 경우에는, 분자의 지수α을 α>1로 설정한다.
또한, 단순하게 클러스터 내의 기술문헌수의 양에 따라서 유사율을 증감시키는 요망이 있을 경우에는, α=1로 설정한다.
또한, 클러스터에 포함되는 기술문헌의 양에 따라서 유사율을 산출하는 동시에, 기술문헌이 다량으로 포함되는 클러스터의 존재에 의한 유사율의 산출 결과의 영향을 적게 할 필요가 있을 경우에는, 0 <α <1로 설정하면 좋다.
이하에 「응용형 1:보정항1(1)」의 계산식의 분자와 분모의 구성에 의한 작용에 대해서 설명한다.
식 4에 설명하는 것처럼 「클러스터 내의 기술문헌수」를 보정항1(1)의 분자에 배치했으므로, 클러스터 내의 기술문헌수에 비례한 유사율을 산출하는 것이 가능해진다.
또한, 「규격화 인자」를 보정항1(1)의 분모에 배치했으므로, 0≤유사율≤1을 보증하는 것이 가능해진다. 그리고, 보정항1(1)의 규격화 인자로서, 전체 클러스터 내의 기술문헌수의 평균값을 배치했으므로, 전체 클러스터 내의 기술문헌수의 평균값을 기준으로서, 기술문헌의 양의 다소를 산출하는 것이 가능해진다.
또한, 분자의 지수α를 α>1로 설정함으로써, 혼재 클러스터에 포함되는 기술문헌의 양이 적은 혼재 클러스터의 영향을, 유사율의 산출 결과에 크게 반영시키지 않도록 하는 것이 가능해진다. 또한, 분자의 지수를 α=1로 설정함으로써, 단순하게 클러스터 내의 기술문헌수의 양에 따라서 유사율을 증감시키는 것이 가능해진다 (단순함수비교). 또한, 분자의 지수를 0 <α <1로 설정함으로써, 기술문헌이 다량으로 포함되는 클러스터의 존재에 의한 유사율의 산출 결과의 영향을 적게 하는 것이 가능해진다.
이하에, 「응용형 1:보정항1(1)」의 계산식 (식4)에, 도 9에 나타난 각 조건을 대입했을 경우의 계산예를 나타낸다. 또한, 산출 결과는, 도 11에, 보정항1(1)을 채용했을 경우의 유사율 산출예(보정항1(1)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표로서 나타낸다.
보정항1(1)만을 고려하고 다른 보정항을 고려하지 않을 경우이며 (즉 보정항2=1, 보정항3=1로 한다), 단순하게 혼합 클러스터 내에 포함되는 기술문헌수의 비교를 행할 경우 (즉 α=1로 했을 때)에, 기술문헌군끼리를 비교하는 조건으로서, 조건1∼4를 설정했을 경우의 유사율의 시산 결과를 이후에 나타낸다.
하식 (식5)에, 계산예4-1(식4에 조건1을 대입했을 경우)의 계산 결과에 대해서 설명한다.
조건1의 경우에는, 각 혼재 클러스터(본 실시예의 경우에는, 클러스터(1) 및 클러스터(2))에 포함되는 기술문헌수는, 각각 3개이다. 따라서, 클러스터에 포함되 는 기술문헌의 양에 의한 유사율의 보정의 영향은 적은 것이 기대된다.
Figure 112006009194687-PCT00005
상기 (식5)에서 산출한 유사율(식4에 조건1을 대입했을 경우)= 0.5의 값은, (식1)에 의한 유사율의 연산 결과와 일치하고 있고, 보정항1(1)을 삽입했을 경우이여도, 우리들이 상식적으로 생각한 유사율의 정도와 크게 어긋나 있지 않다. 또한, 클러스터 내의 기술문헌 수량이 각각 3, 3, 2, 4 정도이므로, 전체로부터 같은 정도의 기여가 있어야 해서, 여기에서 유사율=0.5라고 산출된 결과는, 우리들이 상식적으로 생각한 유사의 정도(약 0.30정도)로부터 크게 빗나가 있지 않고, 대체로 요건을 만족하고 있는 것으로 되어 있다.
하식 (식6)에, 계산예 4-2(식4에 조건2를 대입했을 경우)의 계산 결과에 대해서 설명한다.
조건2의 경우의 클러스터(1)에 포함되는 기술문헌의 양은, 클러스터(2)∼클러스터(4)에 포함되는 기술문헌의 양보다 두드러지게 많으므로, 유사율을 산출할 때에는, 클러스터(1)에 포함되는 기술문헌의 양의 영향을 중시해서 유사율을 크게 산출해야 하는 것은 분명하다.
Figure 112006009194687-PCT00006
상기 (식6)에서 산출한 유사율 (식4에 조건2를 대입했을 경우)= 0.962의 값은, 클러스터(1)에 포함되는 기술문헌의 양의 많음에 영향받아, 유사율=0.5(식4에 조건1을 대입했을 경우에 산출한 유사율)로부터 유사율 0.962(식4에 조건2를 대입했을 경우에 산출한 유사율)로 보정되었다.
이하에 식6(식4에 조건2를 대입했을 경우)의 효과에 대해서 설명한다. 식6의 연산 처리에 의해, 클러스터에 포함되는 기술문헌의 양이 다른 클러스터에 포함되는 기술문헌의 양보다 많을 경우에, 그 기술문헌의 양을 유사율의 산출 결과에 반영시키는 것이 가능해진다. 이것은, 클러스터(1)가 유사율을 산출할 때의 경향의 거의 모두를 대표하고 있으므로, 이 클러스터(1)의 성질이 유사율을 정하도록 작용하고 있는 것이 보인다.
그리고 이 유사율의 산출 결과는, 우리들이 상식적으로 생각한 유사의 정도와, 상당히 일치하고 있는 것을 알 수 있다.
하식(식7)에, 계산예 4-3(식4에 조건을 3대입했을 경우)의 계산 결과에 대해서 설명한다.
조건3의 경우에는, 조건2의 경우와 클러스터에 포함되는 기술문헌의 양의 총 합은 같지만, 클러스터(1)에 포함되는 기술문헌의 양만이 두드러지게 많은 상황은 아니므로, 유사율을 산출할 때에 클러스터(1)에 포함되는 기술문헌의 양의 영향이 조건2의 경우 정도는 발생하지 않는 것이 바람직하다.
Figure 112006009194687-PCT00007
상기(식7)에서 산출한 유사율(식4에 조건3을 대입했을 경우)= 0.459의 값은, 클러스터(1)에 포함되는 기술문헌의 양의 많음이, 다른 클러스터(3)보다 조금 적은 정도인 것으로부터, 유사율의 보정에는 대부분 관여하지 않도록 보정된다.
이하에, (식7)의 계산 결과 (식4에 조건3을 대입했을 경우)의 효과에 대해서 설명한다.
보정항1(1)의 연산 처리를 행하는 것에 의해, 클러스터에 포함되는 기술문헌의 양이 많을 경우이여도, 다른 클러스터에 포함되는 기술문헌의 양과 큰 차이가 없을 경우에는, 그 기술문헌의 양을 유사율의 산출 결과에 그다지 반영시키지 않도록 하는 것이 가능해진다.
이 (식7)에 의한 유사율의 산출 결과는, 클러스터(1)와 클러스터(3)의 영향이 크게 나오도록 보유성이 작용하고 있으므로, 우리들이 상식적으로 생각한 유사 의 정도(약 0.20정도)와 크게 빗나가 있지 않고, 거의 목표대로의 값이 얻어지고 있다.
하식(식8)에, 계산예 4-4(식4에 조건을 4대입했을 경우)의 계산 결과에 대해서 설명한다.
조건4의 경우에는, 조건3의 경우와 클러스터에 포함되는 기술문헌의 양의 총합은 같지만, 클러스터(1) 및 클러스터(2)에 포함되는 제1의 기술문헌군과 제2의 기술문헌군의 비율이 극단적으로 불균등한 경우이다. 따라서, 혼합 클러스터에 포함되는 기술문헌수가 많다고 해서 유사율을 크게 산출하지 않는 것이 바람직하다.
Figure 112006009194687-PCT00008
상기의 (식8)에서 산출한 유사율 (식4에 조건4를 대입했을 경우)= 0.459의 값은, 클러스터(1) 및 클러스터(2)에 포함되는 기술문헌의 양이 많아도, 다른 클러스터(3)보다 조금 적은 정도인 것으로부터, 유사율의 보정에는 대부분 관여하지 않도록 보정된다.
이하에, (식8)의 계산 결과 (식4에 조건4를 대입했을 경우)의 효과에 대해서 설명한다.
(식8)의 연산 처리에 의해, 클러스터에 포함되는 기술문헌의 양이 많을 경우이여도, 다른 클러스터에 포함되는 기술문헌의 양과 큰 차이가 없을 경우에는, 그 기술문헌의 양을 유사율의 산출 결과에 그다지 반영시키지 않도록 하는 것이 가능해 지지만, 조건4의 경우에는 유사율은 몇 퍼센트의 값이 되는 것이 감각상 바람직하다.
이 조건4의 경우에는, 보정항1(1)의 처리만으로는 사람의 감각과 일치하지 않는 부분이 생길 가능성이 있기 때문에, 이후에서 설명하는 보정항2가 유용해진다. 단, 클러스터(3),(1),(2)의 영향이 커지고 있으므로, 보정항1(1)의 역할은 충분히 다하고 있다고 할 수 있다. 또한, 보정항1(1)의 처리를 행하는 것에 의해, 기술문헌수의 많은 클러스터가 존재할 경우에는, 그 클러스터에 포함되는 기술문헌 수량의 많음을 유사율에 반영하는 것이 가능해지고 있다.
도 11에, 보정항1(1)을 채용했을 경우의 유사율 산출예(보정항1(1)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표를 나타낸다.
응용형 2:보정항2(1)의 산출예
이하에 나타나는 보정항2(1)의 계산식 (식 9)은, 혼재 클러스터 내의 기술문헌의 혼재 확률에 따라 보정을 행하기 위해서 구성한 것이다.
Figure 112006009194687-PCT00009
단,
M: 제1의 기술문헌군(A군)에 포함되는 기술문헌수
N: 제2의 기술문헌군(B군)에 포함되는 기술문헌수
m: 소정의 클러스터에 포함되는 제1의 기술문헌군(A군)의 기술문헌수
n: 소정의 클러스터에 포함되는 제2의 기술문헌군(B군)의 기술문헌수
γ :임의 정수γ> 0
상기 보정항2(1)를 고려한 유사율 (식10)의 산출예를 이하에 나타낸다.
Figure 112006009194687-PCT00010
(식10)의 보정항2(1)에서는, 유사율이, 혼재 클러스터에 포함되는 제1의 기술문헌군(A군) 및 제2의 기술문헌군(B군)의 기술문헌수의 확률에 따라 큰 값을 취하도록 보정하기 위해서, 제1의 기술문헌군(A군) 중에서 m개, 제2의 기술문헌군(B군) 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)을 분자에 배치하고 있다.
유사율의 산출 범위를 0≤유사율≤1을 보증하기 위해서, 예를 들면 (식10)에 나타내는 것처럼, 제1의 기술문헌군(A군) 중에서 m개, 제2의 기술문헌군(B군) 중에서 n개의 기술문헌을 꺼내는 확률의 최대값의 γ승(단, 0 <γ)을 규격화 인자로서 분모에 배치하고 있다.
규격화 인자는, 0≤유사율≤1을 보증하는 것이 가능한 항이면 좋고, (식10)에 나타낸 규격화 인자에 한정되는 것은 아니다.
이하에, 지수γ의 설정 조건에 대해서 설명한다.
단순하게 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수가, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 가까운 정도에 비례해서 유사율의 값을 보정할 필요가 있을 경우에는, 지수γ을 γ=1로 설정하면 좋다.
또한, 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수가, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 가까울수록 중요시해서 큰 값으로 보정할 필요가 있을 경우, 또는, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 멀수록 경시해서 작은 값으로 보정할 필요가 있을 경우에는, 지수γ을 γ>1로 설정하면 좋다.
또한, 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수가, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 가깝지 않아도 중요시해서 보정할 필요가 있을 경우에는, 지수γ을 0 <γ <1로 설정하면 좋다.
이하에, 응용형 2:보정항2(1)의 계산식(식10)에, 도 9에 나타낸 각 조건을 대입했을 경우의 계산예를 나타낸다. 또한, 산출 결과는, 도 12에, 보정항2(1)을 채용했을 경우의 유사율 산출예(보정항2(1)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표로서 나타낸다.
보정항2(1)에서는, (A군 중에서 m개, B군 중에서 n개의 기술문헌을 꺼내는 조합의 수)/ (A군과 B군을 혼합한 것 중에서 m+n개의 기술문헌을 꺼내는 조합수)를 분자에 배치했으므로, 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수의 치우침(작위성)에 따라서, 치우침이 클 경우는 작은 보정값으로, 치우침 작은 경우는 큰 보정값으로 유사율을 보정하는 것이 가능해진다. 본 실시예에서는, 치우침이 클 경우에는 보정값을 작게 해서 유사율을 작게 산출하는 것으로 하고, 반대로 치우침이 작을 경우에는 보정값을 크게 해서 유사율을 크게 산출하는 것으로 하고 있다.
규격화 인자로서 분모에 (A군 중에서 x개, B군 중에서 y개의 기술문헌을 꺼내는 조합의 수)/ (A군과 B군을 혼합한 것 중에서 m+n개의 기술문헌을 꺼내는 조합수)를 배치했으므로, x, y는 분모를 최대로 하는 수의 조합인 것으로부터 유사율의 산출 범위로서 0≤유사율≤1을 보증하는 것이 가능해진다.
또한, 분자의 지수γ을 γ=1로 설정함으로써, 단순하게 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수가, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 가까운 정도에 비례해서 유사율의 값을 보정하는 것이 가능해진다.
또한, 분자의 지수γ을 γ> 1로 설정함으로써, 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수가, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 가까울수록 중요시해서 큰 값으로 보정하는 것이 가능해진다. 또한, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 멀수록 경시해서 작은 값으로 보정하는 것이 가능해진다.
또한, 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수가, A군 및 B군의 기술문헌군으로부터 무작위로 추출했을 때의 분포에 가깝지 않아도 중요시해서 보정할 필요가 있을 경우에는, 분자의 지수γ을 0 <γ <1로 설정하면 좋다.
하식 (식11)에, 계산예 10-1(식10에 조건1을 대입했을 경우)의 계산 결과에 대해서 설명한다.
보정항2(1)만을 고려하고 다른 보정항의 작용을 고려하지 않을 경우이며 (즉 보정항1=1, 보정항3=1로 한다), 단순하게 혼재 확률에 기초해서 비교를 행할 경우 (즉 γ=1로 했을 경우)에, 기술문헌군끼리를 비교하는 조건을, 조건1∼4로 설정했을 때의 유사율의 검산 결과는, 이하대로이다.
하기의 (식11)에 나타내는 것처럼, 조건1의 경우에는, 각 혼재 클러스터(1)에 포함되는 기술문헌의 혼재 확률은, 0.409로 산출된다. 또한, 마찬가지로 클러스터(2)에 포함되는 기술문헌의 혼재 비율도, 0.409로 산출된다.
Figure 112006009194687-PCT00011
한편, 분모의 규격화 인자는 혼재 클러스터(1)의 혼재 확률의 최대값이므로, 아래와 같이 규격화 인자=0.409로 산출된다. 또한, 조건1의 경우에는, 클러스터(2)의 규격화 인자도 0.409로 산출된다.
Figure 112006009194687-PCT00012
따라서, (식12)의 계산식에 조건1을 대입했을 경우에 있어서의 보정항2(1)의 값은, 보정항2(1)=1로 산출된다. 마찬가지로, 혼재 클러스터(2)의 보정항2(1)의 값 도 1로 산출된다.
따라서, 보정항2(1)의 값은, 하식 (식13)과 같이 1로 산출되므로, 특히 보정은 행하여지지 않고, 유사율은 0.5로 산출된다.
Figure 112006009194687-PCT00013
상기의 (식13)에 의해 산출되는 유사율 (식10에 조건1을 대입했을 경우)= 0.5의 값은, 보정을 고려하지 않은 (식1)에 의한 유사율의 연산 결과와 일치하고 있다. 그리고, 기술문헌군에 포함되는 기술문헌 수량이 각각 6개와 6개이고, 혼재 클러스터 내에 포함되는 기술문헌수도 2개와 1개이므로, 우리들이 상식적으로 생각한 유사의 정도와 거의 일치하고 있다. 따라서, 보정항2(1)를 삽입했을 경우이여도 허용 범위 내의 결과를 얻는 것이 가능해진다.
하식 (식14)에, 계산예 10-2(식10에 조건2를 대입했을 경우)의 계산 결과에 대해서 설명한다.
조건2의 경우의 클러스터(1)에 포함되는 기술문헌의 혼재 확률은, 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)의 크기의 비율에 가까우므로, 유사율을 산출할 때에는 클러스터(1)를 구성하는 기술문헌의 혼재 비율의 영향을 중시하고, 유 사율을 크게 산출해야 할 것은 분명하다.
이하의 (식14)에, 보정항2(1)의 분자를 구성하는 혼재 확률의 계산예를 나타낸다.
Figure 112006009194687-PCT00014
한편, 분모의 규격화 인자는 혼재 클러스터(1)의 혼재 확률의 최대값이므로, 이하와 같이 규격화 인자=0.280로 산출된다. 또한, 조건2의 경우에는, 클러스터(2)의 규격화 인자도 0.280로 산출된다.
Figure 112006009194687-PCT00015
따라서, 조건2에 있어서의 클러스터(1)의 보정항2(1)의 값은, 보정항2(1)=0.404로 산출된다. 또한, 조건2에 있어서의 클러스터(2)의 보정항2(1)의 값은, 「1」로 산출되므로, 하식 (식16)에 나타내는 것처럼, 보정항2(1)에 기초하는 유사율은 0.351로 산출된다. (도 12참조).
Figure 112006009194687-PCT00016
상기의 (식16)에서 산출한 유사율 (식10에 조건2를 대입했을 경우)= 0.351의 값은, 클러스터(1)에 포함되는 기술문헌의 혼재 확률에 영향받아, 유사율 (식4에 조건2를 대입했을 경우)= 0.962로부터, 유사율 (식5에 조건2를 대입했을 경우)= 0.351로 보정되었다.
하식 (식17)∼ (식19)에, 계산예 10-3(식10에 조건3을 대입했을 경우)의 계산 결과에 대해서 설명한다. 이하의 (식17)은, 보정항2(1)의 분자를 구성하는 혼재 확률의 계산예이다.
Figure 112006009194687-PCT00017
한편, 분모의 규격화 인자는 혼재 클러스터(1)의 혼재 확률의 최대값이므로, 이하와 같이 규격화 인자=0.133으로 산출된다. 또한, 조건3의 경우에는, 클러스터(2)의 규격화 인자도 0.448로 산출된다.
Figure 112006009194687-PCT00018
따라서, 조건3에 있어서의 보정항2(1)의 값은, 보정항2(1)=0.000으로 산출된다. 혼재 클러스터(2)의 보정항2(1)의 값은, 조건1 및 조건2의 경우와 마찬가지로 1로 산출된다.
따라서 유사율은, 하기의 계산에 의해 0.25로 산출된다.
Figure 112006009194687-PCT00019
상기의 (식19)에서 산출한 유사율 (식10에 조건3을 대입했을 경우)= 0.25의 값은, 클러스터(1)에 포함되는 기술문헌의 혼재 확률에 영향받아, 유사율 (식4에 조건3을 대입했을 경우)= 0.459로부터 유사율 (식10에 조건3을 대입했을 경우)= 0. 25로 보정되었다.
하식 (식20)∼ (식24)에, 계산예 10-4(식10에 조건4를 대입했을 경우)의 계산 결과에 대해서 설명한다.
조건4의 경우에는, 조건3의 경우와 클러스터에 포함되는 기술문헌의 양의 총합은 같지만, 클러스터(1) 및 클러스터(2)에 포함되는 기술문헌 A군과 기술문헌 B군의 비율이 극단적으로 불균등한 경우이다. 따라서, 혼합 클러스터에 포함되는 기술문헌수가 많기 때문이다라고 해서 유사율을 크게 산출하지 않는 것이 바람직하다.
보정항2(1)의 혼재 클러스터(1)의 분자를 구성하는 혼재 확률에 대해서 산출하면,
Figure 112006009194687-PCT00020
한편, 분모의 규격화 인자는 혼재 클러스터(1)의 혼재 확률의 최대값이므로, 이하와 같이 규격화 인자=0.141로 산출된다.
Figure 112006009194687-PCT00021
따라서, 조건4에 있어서의 혼재 클러스터(1)의 보정항2(1)의 값은, 보정항2(1)=0.000으로 산출된다.
한편, 혼재 클러스터(2)의 보정항2(1)의 값은, 이하와 같이 보정항 2(1)=0.004로 산출된다.
Figure 112006009194687-PCT00022
혼재 클러스터(2)의 분모의 규격화 인자는, 혼재 클러스터(2)의 혼재 확률의 최대값이므로, 조건4의 경우에는, 이하와 같이 규격화 인자=0.194로 산출된다.
Figure 112006009194687-PCT00023
따라서 유사율은, 이하와 같이 0.001로 산출된다.
Figure 112006009194687-PCT00024
상기의 (식24)에서 산출한 유사율 (식10에 조건4를 대입했을 경우)= 0.001의 값은, 클러스터(1) 및 클러스터(2)에 포함되는 기술문헌의 혼재 확률이, 기술문헌 A군과 기술문헌 B군으로부터 무작위로 꺼냈을 경우의 혼재 확률의 최대값보다 훨씬 작으므로, 유사율 (식4에 조건4를 대입했을 경우)= 0.459에서 유사율 (식10에 조건4를 대입했을 경우)= 0.001로 보정되었다.
도 12에, 보정항2(1)를 채용했을 경우의 유사율 산출예(보정항2(1)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표를 나타낸다.
동도에 나타내는 것처럼, 혼합 클러스터 중, 기술문헌이 잘 혼합되어 있는 클러스터(혼재 확률이 큰 값을 나타내는 조건을 구비한 클러스터)에서는, 보정항2(1)의 값이 큰 값을 나타내고 있는 것을 알 수 있다. 또한, 기술문헌이 잘 혼합되어 있지 않은 클러스터(혼재 확률이 작은 값을 나타내는 조건을 구비한 클러스터)에서는, 보정항2(1)의 값이 거의 「0」이라는, 작은 값을 나타내고, 산출되는 유사율의 값도 작은 값을 나타내고 있다.
도 13에, 보정항1(1) 및 보정항2(1)의 쌍방을 채용했을 경우의 유사율 산출예(보정항1(1) 및 보정항2(1)에, 조건1∼4를 대입했을 경우의 계산 결과)의 도표를 나타낸다.
조건1의 경우에 산출된 유사율=0.5는, 우리들이 상식적으로 생각하는 유사의 정도와 거의 맞고 있다고 할 수 있다.
조건2의 경우에는, 혼합 클러스터(1)에 포함되는 기술문헌의 수량은 클러스터(2∼4)에 포함되는 기술문헌 수량과 비교하면 분명히 많지만, 산출되는 유사율의 값은 (식1)에 조건2를 대입했을 경우의 유사율=0.5에서, 보정항1(1) 및 보정항2(1)를 이용해서 조건2를 대입했을 경우의 유사율=0.4로 보정되었다. 이렇게 보정항 1(1) 및 보정항2(1)를 이용해서 유사율을 산출함으로써, 기술문헌수가 많은 클러스터(1)에 대해서 그다지 가중을 하고 싶지 않을 때에 유효하게 된다.
조건3의 경우에는, 조건2의 경우와 비교해서 클러스터 내에 포함되는 기술문헌 수량의 총합은 같지만, 혼재 클러스터(1)의 기술문헌 수량만이 특히 많은 것은 아니므로, 산출되는 유사율의 값은 유사율=0.019로 작게 보정되었다. 이렇게 보정항1(1) 및 보정항2(1)를 이용해서 유사율을 산출함으로써, 클러스터(1)에 포함되는 많은 기술문헌 수량을 유사율의 산출 결과에 반영하고 싶지 않을 경우에 유효하게 된다.
조건4의 경우에는, 조건2의 경우와 비교해서 클러스터 내에 포함되는 기술문헌 수량의 총합은 같지만, 혼재 클러스터(1)나 혼재 클러스터(2)가 특히 큰 것은 아니고, 기술문헌의 혼합 상태가 더욱 극단적일 때, 유사율의 값은 유사율=0.0005로 보정되어 있다. 이렇게 보정항1(1) 및 보정항2(1)를 이용해서 유사율을 산출함으로써, 혼재 클러스터 내의 기술문헌 수량이 많을 경우이여도, 기술문헌의 혼합 상태가 불균등할 경우에는 유사율을 작게 산출하는 방향으로 보정하는 것이 가능해진다.
즉, 보정항1(1) 및 보정항2(1)를 이용해서 유사율을 산출함으로써, 기술문헌 수량의 많은 혼재 클러스터를 중요시해서 유사율을 보정하는 동시에, 기술문헌의 혼합 상태가 불균일할 경우에는, 유사율을 작은 값으로 보정하는 것이 가능해진다.
또 동도에 나타내는 것처럼, 보정항2(1)의 계산식에서는, 보정항의 값이 기술문헌의 혼합 상태에 민감하게 반응하는 경향이 있으므로, 적당히 γ의 값을 조절 할 필요가 발생하는 경우도 있다고 생각된다. 그리고, 혼재 클러스터 내에 포함되는 기술문헌의 수량에 기초한 보정과, 혼재 클러스터 내에 포함되는 기술문헌의 혼합 상태에 기초하는 보정은, 상술한 것처럼 각각 밀접한 관계가 있으므로, α의 값과 함께 γ의 값을 적당히 결정하는 것도 중요하다고 생각된다.
또한, 도 13은 α=1, γ=1이라고 했을 경우의 계산예이지만, 예를 들면 α=1인채로 해서 γ=0.25로 설정해서 시산해 보면, 조건1의 유사율=0.5→0.5, 조건2의 유사율=0.4→0.769, 조건3의 유사율=0.019→0.019, 조건4의 유사율=0.0005→0.033으로 산출하는 것이 가능해진다.
응용형 3:보정항2(2)의 산출예
보정항2(2)은, 혼재 클러스터 내에 있어서의 기술문헌의 혼재비에 따라서 유사율을 보정하는 보정항이다.
제1의 기술문헌군(A군)과, 제2의 기술문헌군(B군)에 포함되는 기술문헌의 수량의 비가 크게 다른 경우에는, 각 혼재 클러스터에 포함되는 기술문헌의 혼재비도 당연히 다를 것이다. 또한, 양쪽군에 포함되는 기술문헌의 수량이 길항(拮抗)하고 있을수록, 클러스터에 포함되는 기술문헌의 혼재비는 제1의 기술문헌군(A군) 및 제2의 기술문헌군(B군)에 포함되어 기술문헌수의 수량의 비(구성비)에 가깝게 된다고 생각하는 것이 타당하다.
그래서 본 발명에서는, 제1의 기술문헌군(A군) 및 제2의 기술문헌군(B군)에 포함되는 기술문헌수의 구성비N/M과, 각 클러스터 내에 있어서의 기술문헌수의 혼재비n/m에 대해서, 또한 구성비와 혼재비의 비를 취한 것의 ξ승(단, 0 <ξ)에 비 례한 보정값을, 유사율을 산출할 때의 보정항으로서 형성하고 있다.
즉, 제1의 기술문헌군(A군) 및 제2의 기술문헌군(B군)에 포함되는 기술문헌수의 구성비N/M과, 각 클러스터 내에 있어서의 기술문헌수의 혼재비n/m이 가까울 수록 유사율을 높게 설정하기 (1에 가까이 한다)위한 수식이다.
따라서 보정항2(2)의 값은, 제1의 기술문헌군(A군) 및 제2의 기술문헌군(B군)에 포함되는 기술문헌수의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비가 다를수록 1부터 작은 값을 취한다.
Figure 112006009194687-PCT00025
보정항2(2)을 고려한 유사율의 산출예를, 이하의 (식26)에 나타낸다.
Figure 112006009194687-PCT00026
상기의 (식25) 및 (식26)에 나타내는 것처럼 보정항2(2)에서는, 기술문헌 A 군 및 기술문헌 B군의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비가 같을수록 유사율을 높게 설정하기 (1에 가까이 한다) 위해서, 분자에는 「N/M 또는 n/m의 작은 쪽」을 배치하고, 분모에는 「N/M 또는 n/m의 큰 쪽」을 배치하고 있다.
이 경우에, 기술문헌의 혼재비가 작은 혼재 클러스터의 영향을, 유사율의 산출 결과에 크게 반영시키고 싶지 않을 경우에는, 보정항의 지수ζ을 ζ>1로 설정하면 좋다.
또한, 단순하게 클러스터 내에 있어서의 기술문헌의 혼재비에 따라서 유사율을 증감시키는 요망이 있을 경우에는, ζ=1로 설정하면 좋다.
또한, 혼재비가 큰 혼재 클러스터의 영향을 유사율의 산출 결과에 크게 반영시키고 싶지 않은 요구가 있을 경우에는, 0 <ζ <1로 설정하면 좋다.
이하에, 유사율의 계산에 있어서 보정항2(2)를 이용할 경우의 작용에 대해서 설명한다.
보정항2(2)에서는, 분자에 A군과 B군의 기술문헌 수량의 구성비 또는 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비 중 작은 쪽을 배치하고, 분모에 A군과 B군의 기술문헌 수량의 구성비 또는 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비 중 큰 쪽을 배치하도록 했으므로, A군과 B군의 기술문헌 수량의 구성비와 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비가 같을수록 유사율을 높게 산출하는 (1에 가까이 한다) 것이 가능해진다. 또한, A군과 B군의 기술문헌 수량의 구성비와 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비가 다를수록 유사율을 작 은 값으로 산출하는 것이 가능해진다.
또한, A군과 B군의 기술문헌 수량의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비를 산출하고 있으므로, 유사율의 산출 범위를 0≤유사율≤1을 보증하는 것이 가능해진다.
또한, 지수ζ을 ζ>1로 설정함으로써, A군과 B군의 기술문헌 수량의 비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비가 작은 혼재 클러스터의 영향을, 유사율의 산출 결과에 크게 반영시키지 않도록 하는 것이 가능해진다.
또한, 지수ζ을 ζ=1로 설정함으로써, 단순하게 A군과 B군의 기술문헌 수량의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비에 따라서 유사율을 증감시키는 것이 가능해진다 (단순혼재비 비교).
또한, 분자의 지수를 0 <ζ <1로 설정함으로써, A군과 B군의 기술문헌 수량의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비가 클 경우에 유사율의 산출 결과에 대한 영향을 적게 하는 것이 가능해진다.
보정항2(2)만을 고려하고 다른 보정항의 작용을 고려하지 않을 경우이며 (즉 보정항1=1, 보정항3=1로 한다), 단순 혼재비 비교를 행할 경우 (즉 ζ=1)에, 기술문헌군끼리를 비교하는 조건으로서, (식26)에 있어서 조건1∼4로 설정했을 경우의 유사율의 검산 결과를 이하에 나타낸다. 또한, 산출 결과는, 도 14에, 보정항2(2)를 이용했을 경우의 유사율 산출예(보정항2(2)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표로서 나타낸다.
하식 (식27)에, 계산예 26-1(식26에 조건1을 대입했을 경우)의 계산 결과를 나타낸다.
조건1에서는, 제1의 기술문헌군(A군)의 기술문헌 수량은 6개, 제2의 기술문헌군(B군)의 기술문헌 수량도 6개이므로, A군과 군B군의 기술문헌 수량의 구성비는 1대1이다.
한편, 조건1의 경우에 각 혼재 클러스터(클러스터(1) 및 클러스터(2))에 포함되는 기술문헌수는, 제1의 기술문헌군(A군)의 기술문헌이 2개, 제2의 기술문헌군(B군)의 기술문헌이 1개이므로, 혼재비는 2대1이다.
따라서, 클러스터에 포함되는 기술문헌의 혼재비에 의한 유사율의 보정의 영향은, 적지 않게 존재하는 것이 기대된다.
Figure 112006009194687-PCT00027
하식 (식28)에, 계산예 26-2(식26에 조건2를 대입했을 경우)의 계산 결과를 나타낸다.
Figure 112006009194687-PCT00028
하식(식29)에, 계산예 26-3(식26에 조건3을 대입했을 경우)의 계산 결과를 나타낸다.
조건3의 경우에는, 조건2의 경우와 클러스터에 포함되는 기술문헌의 양의 총합은 같지만, 혼재 클러스터(1)에 포함되는 기술문헌의 혼재비가, 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)의 구성비와 크게 다른 상황이다. 따라서 유사율을 산출할 때에, 혼재 클러스터(1)에 포함되는 기술문헌의 혼재 비율의 영향이 조건2의 경우만큼은 발생하지 않는 것이 바람직하다.
Figure 112006009194687-PCT00029
상기의 (식29)에서 산출한 유사율 (식26에 조건3을 대입)=0.289의 값은, 혼재 클러스터(1)에 포함되는 기술문헌의 혼재비가, 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)의 구성비와 다른 것으로부터, 유사율은 적게 보정된다.
따라서, 보정2(2)의 연산 처리를 행하는 것에 의해, 혼재 클러스터에 포함되는 기술문헌의 양이 많은 경우이여도, 그 기술문헌의 혼재 비율에 따라서 유사율을 보정하는 것이 가능해진다.
하식 (식30)에, 계산예 26-4(식26에 조건4를 대입했을 경우)의 계산 결과를 나타낸다.
Figure 112006009194687-PCT00030
상기의 (식30)에서 산출한 유사율 (식26에 조건4를 대입했을 경우)= 0.029의 값은, 클러스터(1) 및 클러스터(2)에 포함되는 기술문헌의 혼재비가 극단적으로 불균등한 동시에, 혼재 클러스터(1) 및 혼재 클러스터(2)의 혼재비가 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)의 기술문헌 수량의 구성비와 크게 다르므로, 유사율이 적게 보정된다.
도 14에, 보정항2(2)을 채용했을 경우의 유사율 산출예(보정항2(2)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표를 나타낸다.
조건1, 조건2에 있어서의 혼재 클러스터(1) 및 혼재 클러스터(2), 및 조건3에 있어서의 혼재 클러스터(2)는, 도 9에 나타내는 것처럼 기술문헌이 잘 혼합되어 있는 상태라고 할 수 있는 예(혼재 클러스터에 있어서의 기술문헌의 혼재비가, 제1 의 기술문헌군과, 제2의 기술문헌군에 포함되는 기술문헌의 수량의 비에 가까운 경우)이다. 이 경우에는, 보정항의 값을 비교적 크게 산출하고, 유사율의 값을 크게 하는 효과가 있다.
반대로, 조건3의 혼재 클러스터(1) 및 조건4의 각 혼재 클러스터는, 기술문헌이 잘 혼합되어 있지 않은 상태라고 할 수 있으므로 (혼재 클러스터에 있어서의 기술문헌의 혼재비가, 제1의 기술문헌군과, 제2의 기술문헌군에 포함되는 기술문헌의 수량의 비와 크게 다른 경우라고 할 수 있다), 보정항의 값을 작게 산출하고, 유사율을 작은 값으로 산출하는 효과가 있다.
따라서 (식4)에 나타낸, 보정항1(1)과 조합하여 유사율을 산출함으로써, 기술문헌군끼리가 어느 정도 기술적으로 관련이 있는지를 나타내는 유사율의 산출 제도를 향상시키는 것이 가능해진다.
도 15에, 보정항1(1) 및 보정항2(2)를 채용했을 경우의 유사율 산출예(보정항1(1) 및 보정항2(2)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표를 나타낸다.
동도에 나타내는 것처럼, 보정항1(1) 및 보정항2(2)를 이용한 계산식에 조건1을 대입하면, 클러스터 내에 포함되는 기술문헌 수량과 혼재 비율에 따른 유사율을 산출하므로, 조건1을 대입했을 경우의 유사율=0.25의 값은, (식1)에 조건1을 대입했을 경우(보정항이 없는 경우)의 유사율=0.5의 값보다 작지만, 상당히 기대한 값에 가까워, 기술문헌군끼리의 기술의 유사성을 잘 나타내고 있다고 할 수 있다.
또한, 보정항1(1) 및 보정항2(2)를 이용한 계산식에 조건2를 대입하면, 클러 스터 내에 포함되는 기술문헌 수량과 혼재 비율에 따른 유사율을 산출하므로, 유사율은 (식1)에 조건2를 대입했을 경우(보정이 없는 경우)의 유사율=0.5에서, 보정항1 및 보정항2(2)를 이용해서 조건2를 대입했을 경우의 유사율=0.909로 보정되어, 상당히 기대한 유사율의 값에 가까워, 기술문헌끼리의 유사성을 잘 나타내고 있다고 할 수 있다.
이처럼 보정항1 및 보정항2(2)를 이용해서 유사율을 산출함으로써, 기술문헌수가 많은 클러스터(1)에 대해서 가중을 하는 것이 가능해진다.
또한, 보정항1(1) 및 보정항2(2)를 이용한 계산식에 조건3을 대입하면, 클러스터 내에 포함되는 기술문헌 수량과 혼재 비율에 따른 유사율을 산출하므로, 조건2의 경우와 비교해서 클러스터 내에 포함되는 기술문헌 수량의 총합은 같지만, 혼재 클러스터(1)의 기술문헌 수량만이 특히 많은 것은 아니고, 한편, 클러스터(1)내의 기술문헌의 혼재 비율이 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)의 기술문헌 수량의 비율과 다른 경우에는, 클러스터(1)의 존재를 특히 중시하지 않도록 하는 것이 가능해진다.
여기에서 산출되는 유사율은, (식1)에 조건3을 대입했을 경우(보정이 없는 경우)의 유사율=0.5에서, 보정항1 및 보정항2(2)를 이용해서 조건3을 대입했을 경우의 유사율=0.111로 보정되어, 상당히 기대한 값에 가까워, 기술문헌군끼리의 유사성을 나타내고 있다고 할 수 있다.
또한, 보정항1(1) 및 보정항2(2)를 이용한 계산식에 조건4를 대입하면, 클러스터 내에 포함되는 기술문헌 수량과 혼재 비율에 따른 유사율을 산출하므로, 조건 2의 경우와 비교해서 클러스터 내에 포함되는 기술문헌 수량의 총합은 같지만, 혼재 클러스터(1)나 혼재 클러스터(2)가 특히 큰 것은 아니고, 기술문헌의 혼합 상태가 더욱 극단적인 경우로, 혼재 클러스터 내에 있어서의 기술문헌의 혼재비가, A군과 B군의 기술문헌수의 비와 크게 다르므로, 유사율에 반영하는 영향이 작게 되어 있다.
여기에서 산출되는 유사율은, (식1)에 조건4를 대입했을 경우(보정이 없는 경우)의 유사율=0.5에서, 보정항1 및 보정항2(2)를 이용해서 조건4를 대입했을 경우의 유사율=0.019로 보정되어, 상당히 기대한 값에 가까워, 기술문헌끼리의 유사성을 잘 나타내고 있다고 할 수 있다.
응용형4:보정항2(3)의 산출예
이하에, 혼재 클러스터 내에 있어서의 기술문헌의 기대값 차에 기초하는 보정에 대해서 설명한다.
어떤 클러스터 내에 포함되는 제1의 기술문헌군(A군)의 기술문헌의 수량M과, 제2의 기술문헌군(B군)의 기술문헌의 수량N이, A군과 B군으로부터 무작위로 추출했을 때의 기대값(M/ (M+N))에 가까울수록, 잘 혼합되어 있다고 생각하는 것은 자연스럽다. (상기(식9)에 나타낸 확률비, 또는 (식25)에 나타낸 혼재비와 비길만한 제3의 혼합 상태의 정의이다.)
거기에서 본 발명에서는, 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)을 혼합한 기술문헌군 중에서, 제1의 기술문헌군(A군)의 기술문헌을 꺼내는 확률(M/ (M+N))에, 혼재 클러스터에 포함되는 기술문헌수(m+n)을 승산해서 제1의 기술문헌 군(A군)의 기술문헌을 꺼내는 기대값을 산출하고, 그 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군(A군)의 기술문헌수m의 차를 기대값 차(하(식31)참조)로서 산출하고, 이 차가 작을수록(0에 가까울수록) 유사율이 높아지도록 보정하는 연산을 행한다.
이하의 (식31)에 기대값 차의 산출예를 나타낸다.
Figure 112006009194687-PCT00031
도 16에, 상기의 (식31)에 조건1∼4를 대입했을 경우의 기대값 차의 산출예를 나타낸다.
상기의 (식31)에 의한 계산 결과로부터 알 수 있듯이, 어떤 클러스터 내에 포함되는 A군의 기술문헌의 수량과, B군의 기술문헌의 수량이, A군과 B군으로부터 무작위로 추출했을 때의 기대값에 가까울수록, 그 클러스터를 중요시해서 유사율을 보정할 경우에는, 도 16에 나타나는 기대값 차를 마이너스의 수로 해서 지수부분에 두면 좋다.
마이너스의 값으로 한 기대값 차를 지수부분에 배치함으로써, 혼재 클러스터에 기대값대로의 기술문헌이 존재할 경우에는, 기대값 차=0이 되고, 지수=0의 경우에는, 보정항의 값을 1로 산출하는 것이 가능해지기 때문이다. 그러나, 기대값 상태와 혼합 상태 뿐만아니라 소정의 혼재 클러스터의 크기에도 의존해버리기때문에, 기대값 차를 클러스터에 포함되는 기술문헌수로 나누면 좋다.
이렇게 해서 구한 보정항2(3)의 실시예를 이하에 나타낸다.
Figure 112006009194687-PCT00032
단,
ξ :임의 정수이며, ξ> 1 로 한다.
상기(식32)와 같이 보정항2를 산출함으로써, 예를 들면, 클러스터의 크기가 100이며 기대값 차가 10일 때와 클러스터의 크기가 10이며 기대값 차가 1일 때의 보정값을 같게 하는 것이 가능해진다.
또한, ξ의 값을 크게 설정할수록 기대값 차에 대하여 민감하게 반응해서 유사율을 작게 보정하는 것이 가능해진다.
도 17에, ξ=10으로 했을 경우에 있어서, (식32)에 조건1∼4를 대입했을 경우의 유사율 산출예를 나타낸다.
도 18에, 보정항1(1) 및 보정항2(3)을 채용했을 경우의 유사율 산출예(보정항1(1) 및 보정항2(3)에 조건1∼4를 대입했을 경우의 계산 결과)의 도표를 나타낸다.
동도에 나타내는 것처럼, 보정항1(1) 및 보정항2(3)를 이용한 계산식에 조건1을 대입하면, 클러스터 내에 포함되는 기술문헌 수량과 기대값 차에 따른 유사율 을 산출하므로(어떤 클러스터 내에 포함되는 제1의 기술문헌군(A군)의 기술문헌의 수량과, 제2의 기술문헌군(B군)의 기술문헌의 수량이, A군과 B군으로부터 무작위로 추출했을 때의 기대값에 가까울수록 유사율을 크게 산출하는 보정을 행한다), 보정항1 및 보정항2(3)을 이용해서 조건1을 대입했을 경우의 유사율=0.340은, (식1)에 조건1을 대입했을 경우(보정이 없는 경우)의 유사율=0.5의 값에 가깝고, 기대한 값에 가까운 값을 산출하는 것이 가능해지고 있다.
조건2의 경우에는, 혼재 클러스터(1)는, 클러스터(2∼4)와 비교하면 혼재 클러스터에 포함되는 기술문헌수가 큰데다가, 기대값 차도 적으므로, 혼재 클러스터(1)에 포함되는 기술문헌의 구성의 영향을 중시해야 한다.
보정항1(1) 및 보정항2(3)을 이용한 계산식에 조건2를 대입하면, 클러스터 내에 포함되는 기술문헌 수량과 기대값 차에 따른 유사율을 산출하므로 (어떤 클러스터 내에 포함되는 제1의 기술문헌군(A군)의 기술문헌의 수량과, 제2의 기술문헌군(B군)의 기술문헌의 수량이, A군과 B군으로부터 무작위로 추출했을 때의 기대값에 가까울수록 유사율을 크게 산출하는 보정을 행한다), 보정항1 및 보정항2(3)을 이용해서 조건2를 대입했을 경우의 유사율=0.935는, (식1)에 조건1을 대입했을 경우(보정이 없는 경우)의 유사율=0.5의 값보다 크게 보정되어 있어, 이 값은 기대한 값에 가까운 값이 된다.
조건3의 경우에는, 상기의 조건2의 경우와 비교해서 클러스터에 포함되는 기술문헌 수량의 총합은 같지만, 혼재 클러스터(1)만이 특히 큰 것이 아니므로 클러스터(1)를 특히 중시하지 않을 것이다. 또한, 혼재 클러스터(1)에 포함되는 기술문 헌은, 제1의 기술문헌군(A군)과 제2의 기술문헌군(B군)으로부터 무작위로 추출했을 때의 기대값과 크게 다르므로, 혼재 클러스터(1)의 기대값 차의 크기에 영향받아 유사율은 작게 산출될 것이다.
보정항1(1) 및 보정항2(3)을 이용한 계산식에 조건3을 대입하면, 클러스터 내에 포함되는 기술문헌 수량과 기대값 차에 따른 유사율을 산출하므로 (어떤 클러스터 내에 포함되는 제1의 기술문헌군(A군)의 기술문헌의 수량과, 제2의 기술문헌군(B군)의 기술문헌의 수량이, A군과 B군으로부터 무작위로 추출했을 때의 기대값에 가까울수록 유사율을 크게 산출하는 보정을 행한다), 보정항1 및 보정항2(3)을 이용해서 조건3을 대입했을 경우에, 유사율=0.207로 산출된다. 이 유사율의 값도 기대한 값에 가까운 값이다.
조건4의 경우에는, 조건3과 비교해서 클러스터 내에 포함되는 기술문헌 수량의 총합는 같지만, 혼재 클러스터(1)나 혼재 클러스터(2)에 포함되는 기술문헌 수량이 특히 큰 것이 아니라, 혼합 상태가 더욱 극단적인 경우이므로, 혼재 클러스터(1)의 가중에 영향받지 않는 것이 바람직하다.
보정항1(1) 및 보정항2(3)를 이용한 계산식에 조건4를 대입하면, 클러스터 내에 포함되는 기술문헌 수량과 기대값 차에 따른 유사율을 산출하므로 (어떤 클러스터 내에 포함되는 제1의 기술문헌군(A군)의 기술문헌의 수량과, 제2의 기술문헌군(B군)의 기술문헌의 수량이, A군과 B군으로부터 무작위로 추출했을 때의 기대값에 가까울수록 유사율을 크게 산출하는 보정을 행한다), 보정항1 및 보정항2(3)를 이용해서 조건4를 대입했을 경우에는, 유사율=0.146으로 산출된다. 이 유사율의 값 도, 기대한 값에 가까운 값이다.
본 발명에 따르면, 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 유사율로서 산출하는 유사율 산출수단과, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비했으므로, 그 분해한 전체 클러스터수와 혼재 클러스터수의 비에 기초하여, 기술문헌군에 기재되어 있는 기술내용의 유사성을 나타내는 지표를 간편하게 산출하는 것이 가능해진다.
또 본 발명에 따르면, 유사율 산출수단에 각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값을 취하는 제1의 보정값과, 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값을 취하는 제2의 보정값을 승산한 것을, 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 형성했으므로, 보정항1 의 존재에 의해 혼재 클러스터에 포함되는 기술문헌의 양에 따라서 중요도가 높은 것을 의미 부여하는 보정이 가능해지는 동시에, 보정항2의 존재에 의해 혼재 클러스터에 포함되는 기술문헌의 비율이 소정의 양에 가까울수록, 중요한 클러스터라고 해서, 유사율이 높은 값을 나타내도록 무거운 가중을 하고, 유사율의 산출 결과를, 보다 사람의 감각에 맞도록 보정하는 것이 가능해진다.
따라서, 보정항1 및 보정항2를 이용해서 유사율을 산출함으로써, 기술문헌 수량이 많은 혼재 클러스터를 중요시해서 유사율을 보정하는 동시에, 기술문헌의 혼합 상태가 불균일할 경우에는, 유사율을 작은 값으로 보정하는 것이 가능해진다.
또 본 발명에 따르면, 유사율 산출수단에 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 형성했으므로, 클러스터 내의 기술문헌수가 많을수록 중요한 클러스터로 하는 유사율을 산출하는 것이 가능해진다.
또 본 발명에 따르면, 유사율 산출수단에 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)을, 전체 클러스터수 등의 규격화 인자로 나누어서 유사율을 산출하는 기능을 구비했으므로, 0≤유사율≤1을 보증하는 것이 가능해진다. 또한, 규격화 인자로서 전체 클러스터 내의 기술문헌수의 평균값을 배치했으므로, 전체 클러스터 내의 기술문헌수의 평균값을 기준으로 해서 기술문헌의 양의 다소를 산출하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군 중에서 m개, 제2 의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 형성했다. 즉, 유사율 산출수단에 (A군 중에서 m개, B군 중에서 n개의 기술문헌을 꺼내는 조합의 수)/ (A군과 B군을 혼합한 것 중에서 m+n개의 기술문헌을 꺼내는 조합수)를 분자에 배치한 연산을 행하는 기능을 구비했으므로, 혼재 클러스터에 포함되는 A군 및 B군의 기술문헌수의 치우침(작위성)에 따라서, 치우침이 큰 경우는 작은 보정값으로, 치우침이 작은 경우는 큰 보정값으로 유사율을 보정하는 것이 가능해진다. 또한, 규격화 인자로서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 최대값의 γ승(단, 0 <γ)을 배치했으므로, 유사율의 산출 범위로서 0≤유사율≤1을 보증하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군에 포함되는 기술문헌수M과 제2의 기술문헌군에 포함되는 기술문헌수N의 구성비 N/M과, 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수m과 제2의 기술문헌군의 기술문헌수n의 혼재비 n/m에 대해서, 또한 구성비와 혼재비의 비를 취한 것의 ζ승(단, 0 <ζ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율을 산출하는 기능을 구비했으므로, A군과 B군의 기술문헌 수량의 구성비와 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비가 같을수록 유사율을 높게 산출하는 (1에 가까이 한다) 것이 가능해진다.
또한, 구성비와 혼재비의 비의 지수ζ을 ζ>1로 설정함으로써, A군과 B군의 기술문헌 수량의 비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비가 작은 혼재 클러스터의 영향을, 유사율의 산출 결과에 크게 반영시키지 않도록 하는 것이 가능해진다.
또한, 지수ζ을 ζ=1로 설정함으로써, 단순하게 A군과 B군의 기술문헌 수량의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비에 따라서 유사율을 증감시키는 것이 가능해진다.
또한, 분자의 지수를 0 <ζ <1로 설정함으로써, A군과 B군의 기술문헌 수량의 구성비와, 각 클러스터 내에 있어서의 기술문헌끼리의 혼재비의 비가 큰 경우에 유사율의 산출 결과에 대한 영향을 적게 하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서 제1의 기술문헌군의 기술문헌을 꺼내는 확률에 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고, 상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고, 그 기대값 차를 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값을, 각 혼재 클러스터에 대해서 총합을 산출하고, 전체 클러스터수로 나누어서 유사율로 산출하도록 했으므로, ξ의 값의 설정에 따라서 기대값 차에 대한 유사율의 산출 결과를 민감하게 반응시키는 보정을 행하는 것이 가능해진다.
또 본 발명에 따르면 유사율 산출수단에, 제1의 기술문헌군과 제2의 기술문 헌군을 혼합한 기술문헌군 중에서 제1의 기술문헌군의 기술문헌을 꺼내는 확률에 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고, 상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고, 그 기대값 차를 혼재 클러스터에 포함되는 기술문헌수로 나눈 것을, 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값으로 하고, 이것을 각 혼재 클러스터에 대해서 총합을 산출하고, 또한 전체 클러스터수로 나누어서 유사율로 산출하도록 했으므로, ξ의 값의 설정에 따라서 기대값 차에 대한 유사율의 산출 결과를 민감하게 반응시키는 보정을 행하는 것이 가능해진다.

Claims (33)

  1. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 유사율로서 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  2. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단과;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값을 취하는 제1의 보정값과, 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값을 취하는 제2의 보정값을 승산한 것을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  3. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  4. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)을 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  5. 제 4항에 기재된 유사율 산출장치에 있어서의 상기 규격화 인자는 전체 클러스터 내의 기술문헌수의 평균값인 것을 특징으로 하는 유사율 산출장치.
  6. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문 헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  7. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문 헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)을 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  8. 제 7항에 기재된 유사율 산출장치에 있어서의 상기 규격화 인자는, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 최대값의 γ승(단, 0 <γ)인 것을 특징으로 하는 유사율 산출장치.
  9. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    제1의 기술문헌군에 포함되는 기술문헌수M과 제2의 기술문헌군에 포함되는 기술문헌수N의 구성비 N/M과, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수m과 제2의 기술문헌군의 기술문헌수n의 혼재비 n/m에 대해서, 또한 구성비와 혼재비의 비를 취한 것의 ζ승(단, 0 <ζ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력 수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  10. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고,
    상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수 차를 기대값 차로서 산출하고,
    그 기대값 차를 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수라고 한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  11. 특허문헌 또는 기보 등의 기술문헌으로 구성되는 제1의 기술문헌군과 제2의 기술문헌군의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출장치로서,
    비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기술문헌군 입력수단;
    키워드나 IPC 등의 기술정보를 입력하는 기술정보 입력수단;
    제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 클러스터 분해수단;
    상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고,
    상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고,
    그 기대값 차를 혼재 클러스터에 포함되는 기술문헌수로 나눈 것을, 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값으로 해서, 이것을 각 혼재 클러스터에 대해서 총합을 산출하고, 또한 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 유사율 산출수단; 및
    상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 출력수단을 구비한 것을 특징으로 하는 유사율 산출장치.
  12. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어를 하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 유사율로서 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  13. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으 로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값을 취하는 제1의 보정값과, 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값을 취하는 제2의 보정값을 승산한 것을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  14. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입 력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단 에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  15. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각각의 클러스터 내의 기술문헌수의 α승(단, 0 < α)을 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  16. 제 15항에 기재된 유사율 산출 프로그램에 있어서,
    상기 정보처리 수단에,
    상기 유사율 산출수단이, 상기 규격화 인자로서, 전체 클러스터 내의 기술문헌수의 평균값을 이용하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  17. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  18. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하 는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)을 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  19. 제 18항에 기재된 유사율 산출 프로그램에 있어서,
    상기 정보처리 수단에,
    상기 유사율 산출수단이, 상기 규격화 인자로서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 최대값의 γ승(단, 0 <γ)을 이용하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  20. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 제1의 기술문헌군에 포함되는 기술문헌수M과 제2의 기술문헌군에 포함되는 기술문헌수N의 구성비 N/M과, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수m과 제2의 기술문헌군의 기술문헌수n의 혼재비 n/m에 대해서, 또한 구성비와 혼재비의 비를 취한 것의 ζ승(단, 0 <ζ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  21. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고,
    상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고,
    그 기대값 차를 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  22. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단과, 상기 기술문헌군 입력수단과 기술정보 입력수단과 클러스터 분해수단과 유사율 산출수단과 출력수단을 제어를 하는 것이 가능한 정보처리 수단을 구비한 유사율 산출장치의 정보처리 수단으로 동작하고, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출 프로그램으로서,
    상기 정보처리 수단에,
    상기 기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 기능;
    상기 기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 기능;
    상기 클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 기능;
    상기 유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고,
    상기 기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고,
    그 기대값 차를 혼재 클러스터에 포함되는 기술문헌수로 나눈 것을, 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값으로 하고, 이것을 각 혼재 클러스터에 대해서 총합을 산출하고, 또한 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 기능; 및
    상기 출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 기능을 실현시키는 것을 특징으로 하는 유사율 산출 프로그램.
  23. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출 장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수의 비를 유사율로서 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  24. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출 장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각 혼재 클러스터에 포함되는 기술문헌의 양에 따른 값을 취하는 제1의 보정값과, 각 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌과 제2의 기술문헌군의 기술문헌의 혼합 상태에 따른 값을 취하는 제2의 보정값을 승산한 것을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  25. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러 스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  26. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러 스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 각각의 클러스터 내의 기술문헌수의 α승(단, 0 <α)을 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  27. 제 26항에 기재된 유사율 산출방법에 있어서,
    상기 유사율 산출수단이, 규격화 인자로서, 전체 클러스터 내의 기술문헌수 의 평균값을 이용하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  28. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총 합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  29. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함 되는 제1의 기술문헌군 및 제2의 기술문헌군의 기술문헌수의 확률에 따라 보정하기 위해서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 γ승(단, 0 <γ)을 규격화 인자로 나눈 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  30. 제 29항에 기재된 유사율 산출방법에 있어서,
    상기 유사율 산출수단이, 규격화 인자로서, 제1의 기술문헌군 중에서 m개, 제2의 기술문헌군 중에서 n개의 기술문헌을 꺼내는 확률의 최대값의 γ승(단, 0 <γ)을 이용하는 공정으로 포함하는 것을 특징으로 하는 유사율 산출방법.
  31. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술 문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에, 제1의 기술문헌군에 포함되는 기술문헌수M과 제2의 기술문헌군에 포함되는 기술문헌수N의 구성비 N/M과, 상기 클러스터 분해한 결과 얻어진 혼재 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수m과 제2의 기술문헌군의 기술문헌수n의 혼재비, n/m에 대해서, 또한 구성비와 혼재비의 비를 취한 것의 ζ승(단, 0 <ζ)에 비례한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  32. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출 장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고,
    기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고,
    그 기대값 차를 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값을 각 혼재 클러스터에 대해서 총합을 산출하고, 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
  33. 기술문헌군을 입력하는 기술문헌군 입력수단과, 키워드 등의 기술정보를 입력하는 기술정보 입력수단과, 기술정보군을 기술정보마다 클러스터 분해하는 클러스터 분해수단과, 전체 클러스터수와 혼재 클러스터수를 산출해서 유사율을 산출하는 유사율 산출수단과, 산출한 유사율을 출력하는 출력수단을 구비한 유사율 산출장치를 이용하여, 기술문헌군끼리의 기술적인 유사성을 판단하기 위한 지표를 산출하는 유사율 산출방법으로서,
    기술문헌군 입력수단이, 비교 대상이 되는 제1의 기술문헌군 및 제2의 기술문헌군을 입력하는 공정;
    기술정보 입력수단이, 키워드나 IPC 등의 기술정보를 입력하는 공정;
    클러스터 분해수단이, 제1의 기술문헌군 및 제2의 기술문헌군에 포함되는 기술문헌에 대해서, 상기 입력한 기술정보를 포함하는 기술문헌을 검색하고, 상기 검색한 기술문헌을 각각의 기술정보마다 클러스터 분해하는 공정;
    유사율 산출수단이, 상기 클러스터 분해한 결과 얻어진 전체 클러스터수와, 제1의 기술문헌군 및 제2의 기술문헌군의 쌍방의 기술문헌을 포함하는 혼재 클러스터수를 산출하는 동시에,
    제1의 기술문헌군과 제2의 기술문헌군을 혼합한 기술문헌군 중에서, 제1의 기술문헌군의 기술문헌을 꺼내는 확률에, 상기 클러스터 분해한 혼재 클러스터에 포함되는 기술문헌수를 승산해서 제1의 기술문헌군의 기술문헌을 꺼내는 기대값을 산출하고,
    기대값과 혼합 클러스터에 포함되는 제1의 기술문헌군의 기술문헌수의 차를 기대값 차로서 산출하고,
    그 기대값 차를 혼재 클러스터에 포함되는 기술문헌수로 나눈 것을, 임의 정수ξ(단, 1 <ξ)의 마이너스의 지수로 한 보정값으로 하고, 이것을 각 혼재 클러스터에 대해서 총합을 산출하고, 또한 상기 산출한 전체 클러스터수로 나누어서 유사율을 산출하는 공정; 및
    출력수단이, 상기 산출한 유사율을 기록수단, 표시수단, 또는 통신수단에 출력하는 공정을 포함하는 것을 특징으로 하는 유사율 산출방법.
KR1020067002688A 2003-09-30 2004-03-29 유사율 산출장치 및 유사율 산출 프로그램 KR20060079792A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003341904 2003-09-30
JPJP-P-2003-00341904 2003-09-30

Publications (1)

Publication Number Publication Date
KR20060079792A true KR20060079792A (ko) 2006-07-06

Family

ID=34419250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067002688A KR20060079792A (ko) 2003-09-30 2004-03-29 유사율 산출장치 및 유사율 산출 프로그램

Country Status (10)

Country Link
US (1) US20060294060A1 (ko)
EP (1) EP1669889A4 (ko)
JP (1) JPWO2005033972A1 (ko)
KR (1) KR20060079792A (ko)
CN (1) CN1856788A (ko)
AU (1) AU2004277629A1 (ko)
BR (1) BRPI0415148A (ko)
CA (1) CA2540661A1 (ko)
RU (1) RU2344474C2 (ko)
WO (1) WO2005033972A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100834292B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR101255181B1 (ko) * 2011-03-23 2013-04-16 강민수 특허 분쟁 예측 모델 생성 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 기록 매체
KR101333074B1 (ko) * 2010-11-02 2013-11-26 (주)광개토연구소 특허 평가 모델 생성 방법, 특허 평가 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 프로그램이 저장된 기록 매체
WO2014098281A1 (ko) * 2012-12-18 2014-06-26 ㈜광개토연구소 특허 괴물 정보를 포함하는 특허 정보 제공 방법 및 그 특허 정보 시스템
US9317887B2 (en) 2012-11-14 2016-04-19 Electronics And Telecommunications Research Institute Similarity calculating method and apparatus

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192161A1 (en) * 2005-12-28 2007-08-16 International Business Machines Corporation On-demand customer satisfaction measurement
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
US8661029B1 (en) * 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US9026536B2 (en) * 2010-10-17 2015-05-05 Canon Kabushiki Kaisha Systems and methods for cluster comparison
JP5742506B2 (ja) * 2011-06-27 2015-07-01 日本電気株式会社 文書類似度算出装置
RU2469389C1 (ru) * 2011-11-08 2012-12-10 Учреждение Российской академии наук Институт системного программирования РАН Способ интеграции профилей пользователей онлайновых социальных сетей
US20130159346A1 (en) * 2011-12-15 2013-06-20 Kas Kasravi Combinatorial document matching
CN103514172A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 设置搜索引擎关键词的下词方法
RU2573951C2 (ru) * 2013-12-17 2016-01-27 Сергей Анатольевич Головин Устройство формирования информационно-методических ресурсов кафедры
JP6468364B2 (ja) * 2015-04-24 2019-02-13 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
KR101724302B1 (ko) * 2016-10-04 2017-04-10 한국과학기술정보연구원 특허분쟁예보장치 및 그 방법
EP3333728A1 (en) * 2016-12-12 2018-06-13 Tata Consultancy Services Limited System and method for analyzing research literature for strategic decision making of an entity
RU2696295C1 (ru) * 2018-10-31 2019-08-01 Алексей Викторович Морозов Способ формирования и структурирования электронной базы данных
CN110826595A (zh) * 2019-09-29 2020-02-21 广东美的白色家电技术创新中心有限公司 菜谱比较方法、装置及计算机存储介质
CN111353301B (zh) * 2020-02-24 2023-07-21 成都网安科技发展有限公司 辅助定密方法及装置
KR102221355B1 (ko) * 2020-07-27 2021-03-02 한국과학기술정보연구원 유사 특허 분류방법 및 유사 특허 분류시스템
CN112632954A (zh) * 2020-12-29 2021-04-09 中译语通科技股份有限公司 获取机构技术相似性的方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US6154725A (en) * 1993-12-06 2000-11-28 Donner; Irah H. Intellectual property (IP) computer-implemented audit system optionally over network architecture, and computer program product for same
JPH08278982A (ja) 1995-04-05 1996-10-22 Fuji Electric Co Ltd 類似語または類似文章の検索方法
JPH08287081A (ja) 1995-04-19 1996-11-01 Fuji Xerox Co Ltd 類似度付きデータ検索装置
US5787420A (en) * 1995-12-14 1998-07-28 Xerox Corporation Method of ordering document clusters without requiring knowledge of user interests
JP3019780B2 (ja) 1996-08-30 2000-03-13 松下電器産業株式会社 類似名称検索装置
JPH1173415A (ja) 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
JP2001331527A (ja) 2000-05-24 2001-11-30 Hitachi Ltd 類似文書検索方法
JP2001337992A (ja) 2000-05-29 2001-12-07 Mitsubishi Electric Corp 類似検索システム及び類似検索方法
KR100426382B1 (ko) * 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
US20020161626A1 (en) * 2001-04-27 2002-10-31 Pierre Plante Web-assistant based e-marketing method and system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100834292B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
KR101333074B1 (ko) * 2010-11-02 2013-11-26 (주)광개토연구소 특허 평가 모델 생성 방법, 특허 평가 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 프로그램이 저장된 기록 매체
KR101255181B1 (ko) * 2011-03-23 2013-04-16 강민수 특허 분쟁 예측 모델 생성 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 기록 매체
US9317887B2 (en) 2012-11-14 2016-04-19 Electronics And Telecommunications Research Institute Similarity calculating method and apparatus
WO2014098281A1 (ko) * 2012-12-18 2014-06-26 ㈜광개토연구소 특허 괴물 정보를 포함하는 특허 정보 제공 방법 및 그 특허 정보 시스템

Also Published As

Publication number Publication date
WO2005033972A1 (ja) 2005-04-14
US20060294060A1 (en) 2006-12-28
RU2344474C2 (ru) 2009-01-20
RU2006114689A (ru) 2007-11-20
JPWO2005033972A1 (ja) 2006-12-14
AU2004277629A1 (en) 2005-04-14
BRPI0415148A (pt) 2006-11-28
EP1669889A4 (en) 2007-10-31
EP1669889A1 (en) 2006-06-14
CA2540661A1 (en) 2005-04-14
CN1856788A (zh) 2006-11-01

Similar Documents

Publication Publication Date Title
KR20060079792A (ko) 유사율 산출장치 및 유사율 산출 프로그램
Atalay et al. New technologies and the labor market
KR100744703B1 (ko) 기술평가장치, 기술평가프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체, 기술평가방법
EP1783624A1 (en) Company evaluation device, company evaluation program, and company evaluation method
Opthof et al. Caveats for the journal and field normalizations in the CWTS (“Leiden”) evaluations of research performance
US6370516B1 (en) Computer based device to report the results of codified methodologies of financial advisors applied to a single security or element
Abebe Top team composition and corporate turnaround under environmental stability and turbulence
US20060200395A1 (en) Stock portfolio selection device, stock portfolio selection method and medium storing stock portfolio selection program
US6859788B1 (en) Automated assessment of personal financial risk tolerance
KR20060096432A (ko) 기업평가 장치 및 기업평가 프로그램
Yang et al. Textual analysis of corporate annual disclosures: A comparison between bankrupt and non-bankrupt companies
Kumar et al. Do women directors impact financial outcomes? The Indian evidence
Morrell Property performance analysis and performance indices: a review
JP2005326897A (ja) 技術・知財評価装置及び技術・知財評価方法
RU2281556C1 (ru) Система и способ контроля управления портфелями финансовых инструментов с фиксированной доходностью
Nguyen et al. Trade volatility in the association of Southeast Asian nations plus three: impacts and determinants
Chapagain et al. Factors affecting investment decisions of employees working on financial and non-financial sectors: a case of Pokhara metropolitan city, Nepal
JPWO2004061714A1 (ja) 技術評価装置、技術評価プログラム、技術評価方法
Scherrmann Multi-label topic model for financial textual data
Mashuri et al. Determinants Of Financial Statements Integrity In Company Index Kompas 100
Pisano Human capital disclosure in the MD&A statement: An analysis on Italian public utilities
EP1182578A1 (en) System, method and computer program for patent and technology related information management and processing
Birge et al. The value and cost of more stages in stochastic programing: a statistical analysis on a set of portfolio choice problems
Sukarno et al. Manufacturing Company Dividend Policy
Hu et al. The influence of short-term managerial myopia on supply chain concentration: The moderating role of long-term incentives for the supervisory board

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application