KR20040018404A

KR20040018404A - 데이터 처리 방법, 데이터 처리 시스템 및 프로그램

Info

Publication number: KR20040018404A
Application number: KR10-2003-7017149A
Authority: KR
Inventors: 무라카미아키코; 마츠자와히로후미; 나스카와데츠야
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2001-07-26
Filing date: 2002-07-19
Publication date: 2004-03-03
Also published as: WO2003012679A1; CN1310172C; EP1429258A4; CA2451083A1; EP1429258A1; IL160069A0; JPWO2003012679A1; US20040181759A1; JP4571404B2; CN1535428A; US7483829B2

Abstract

본 발명은 텍스트 마이닝으로 이용할 수 있는 동의어 사전을 작성할 때의, 동의어 후보의 생성을 효율적으로 행할 수 있는 지원 시스템 혹은 동의어 후보의 생성 방법을 제공하는 것을 목적으로 한다.

필자별 데이터(110)로부터 입력 단어와 유사한 필자별 동의어 후보 집합을, 전체 데이터(120)로부터 입력 단어와 유사한 동의어 후보 집합을, 동의어 후보 취득 장치(130)에 의해 취득한다. 생성한 동의어 후보 집합(140)을 입력으로 하고, 동의어 후보 판정 장치(150)에 의해 전체 데이터(120)의 동의어 후보를 평가한다. 평가는 필자별 동의어 후보에 있어서 1위에 랭크된 단어와 일치하는 단어에 「absolute」의 상태를 부가하고, 2위 이하에 랭크된 단어와 일치하는 단어에 「negative」의 상태를 부가한다.

Description

데이터 처리 방법, 데이터 처리 시스템 및 프로그램{DATA PROCESSING METHOD, DATA PROCESSING SYSTEM, AND PROGRAM}

정보 처리 시스템의 저가격화 및 일반화, 혹은 워드프로세서 등 문서 작성툴의 일반화, 더욱이 최근의 인터넷 등 네트워크 환경의 진전 등을 배경으로, 방대한 양의 전자 데이터가 축적되고 있다. 예를 들면 영업보고서 등 각종 사내 문서, 커스터머 콜 센터에서의 고객과의 회화 기록 등 모든 정보가 전자 데이터로서 정보 처리 시스템에 축적되고 있다.

일반적으로, 이들 정보의 축적에는 기업 활동, 영업 활동 등에 이용 가능한 유용한 지식의 추출이 의도되고 있다. 예를 들면, 상품의 판매경향, 고객동향, 품질 등에 관한 불만, 요구, 불량의 조기 발견 등이다. 이들 유용한 지식을 미처리 정보로부터 얻기 위해서는 생정보를 어떠한 관점에서 분석할 필요가 있다. 생정보에 미리 분류 항목 등의 레이블 부착이 행해져 있는 경우, 이들 분석은 비교적 용이하다. 그러나, 이미 상정되는 관점에 기초하여 항목별로 나누어진 문서로부터 얻어지는 지견은 그 관점의 범위를 넘는 것은 아니다. 즉, 미리 상정할 수 없는 새로운 지식은 분류별로 나누어지지 않는 자유 형식의 기술로부터 추출되는 경우가 많다. 따라서, 자유 형식으로 기록된 문서로부터, 예를 들면 그 문서의 화제가 무엇인지, 화제의 시계열한 경향은 어떤지 등, 자유로운 관점에서 생정보를 분석할 수 있는 수법이 필요하게 된다.

이러한 수법의 하나로서, 대량의 텍스트 데이터를 처리하여 분석하는 텍스트 마이닝이 있다. 예를 들면, 「나스카와데쯔야, 모로하시마사유키, 나가노토오루 지음, 텍스트 마이닝-방대한 문서 데이터의 자동 분석에 의한 지식 발견-, 정보 처리, Vol. 40 No. 4, pp. 358-364(1999)」(문헌 1)에는 대량의 문서 데이터에 기술되어 있는 다종 다양한 내용을 분석 대상으로 하는 것을 가능하게 하고, 그 상관 관계나 출현 경향 등을 추출하여 제시하는 텍스트 마이닝의 수법을 이용한 분석툴이 기재되어 있다. 이러한 수법(툴)을 이용하면, 사람이 모든 생문서를 읽지 않고, 방대한 생문서를 기계적으로 분석함으로써 유용한 지식을 발견하는 것이 가능해진다.

텍스트 마이닝에 있어서는, 문서 중에 기술되어 있는 개념(화제)이나 어떤 화제(개념)에 어떠한 의미 부여(긍정적인지 부정적인지, 혹은 질문인지 요망인지)가 행해지고 있는지에 주목한다. 따라서 문서 중에 표현되어 있는 바와 같은 단어가 아니라, 적절한 개념을 추출하여, 이 개념 단위에서의 분석을 행하는 것이 필요하다. 즉, 문서 중에서 표현되어 있는 단어를 단순히 기계적으로 취급할 뿐 아니라, 그 단어가 의미하는 개념을 적절히 파악할 필요가 있다.

표기되어 있는 단어로부터, 이러한 개념을 추출할 때에, 단어의 동의어 혹은 이의어의 취급이 문제가 된다. 즉, 어떤 표현이 행해져 있는 단어가 의미하는 개념이 다른 표현에서도 행해지는 경우, 이들 동일 개념을 의미하는 단어군은 동의어로서 취급해야만 한다. 만약, 동의라도 표현이 틀리면 다른 단어로서 간주되어 버리고, 이들 상이한 표현이 의미하는 개념의 출현 빈도가 정확하게 카운트되지 않으며, 문서를 정확하게 분석할 수 없게 될 가능성이 있다. 또한, 동일 표기되는 단어라도 사용하는 분야나 상황에 따라 다른 개념을 의미하는 경우가 있다. 예를 들면 「드라이버」라고 하는 단어는 컴퓨터 관련어라면 디바이스를 구동하기 위한 소프트웨어이며, 자동차 관련어라면 운전하는 사람을 의미한다. 동일 표기된 단어라도, 그 의미하는 개념이 상이한 경우에는 이것을 적확하게 나누어 파악하지 않으면, 상기 마찬가지로 적정한 개념의 출현 빈도가 카운트되지 않고, 정확한 분석이 곤란해진다.

그래서, 종래, 동의어의 문제에 대해서는, EDR 사전이나 유어휘표라는 기존의 시소러스를 이용하여 단어를 동일 표현으로 통일하는 것이 행해지고 있다. EDR 사전은 일영 각 20만어의 단어 사전, 공기(共起) 사전, 개념 사전으로서, 예를 들면 「http://www.iijnet.or.jp/edr/J_index.html」에 기재되어 있다. 또한, 이의어의 문제에 대해서는, 어의의 차이를 주석으로서 단어에 덧붙임으로써 해결하는 것이 가능하다. 단, 대량의 문서를 처리하기 위해서는 이 방법은 지나치게 비용이 들고, 실현성이 낮다. 그래서, 분야가 정해져 있는 문서를 해석하는 경우, 분야에 있던 어의를 할당하여 그 단어와 동의로서 취급함으로써, 이 문제를 해결할 수 있다.그러기 위해서는, 분야별 사전을 작성하는 것이 불가결하게 된다.

또, 코퍼스(대량의 문서 데이터)로부터 동의어를 추출하는 수법에 관해서 이하와 같은 연구가 알려져 있다. 예를 들면 「Donald Hindle, Noun Classification From Predicate Argument Structures. Proc. 28th Annual Meeting of ACL, pp. 268-275, (1990)」(문헌 2)에는 동사와 주어·목적어 등의 명사의 공기 데이터를 이용하여 명사간의 유사도를 구하는 연구가 기재되어 있고, 대상으로 하는 명사와의 유사도가 높은 명사를 동의어로서 추출하는 수법에 적용할 수 있다. 또한, 「Tomek Strzarkowski and Barbara Vauthey. Information Retrieval Using Robust Natural Languag Processing. Proc. 30th Annual Meeting of ACL, pp. 104-111, (1992)」(문헌 3)에는 공기 관계가 아니라, 동사·형용사의 의존 관계를 이용하여 명사의 유사도를 구한 후, 그 명사의 추상도의 상하 관계를 파악하는 연구가 기재되어 있다. 더욱이, 「우라모토나오히코. 문의 다의성 해소에 있어서의 치환 가능 관계를 이용한 사례의 적용률 향상. 인공지능학회지, Vol. 10 No. 2 pp. 242-249, (1995)」(문헌 4)에는 코퍼스중의 문법 정보를 이용하여 단어의 치환 가능 관계를 추출하는 연구가 기재되어 있다. 이들도, 명사의 유사도를 파악하는 데 이용할 수 있다.

발명이 해결하고자 하는 과제

텍스트 마이닝의 수법을 적용할 때에 문제가 되는 동의어, 이의어에 대해서는 상기한 바와 같은 해결 방법이 일단 준비되어 있다. 그러나, 본 발명자들은 더욱이 이하와 같은 문제가 있는 것을 인식하고 있다. 즉, 생략어, 철자 미스 등에기인한 표기 차이의 문제이다.

일반적으로 텍스트 마이닝으로 이용하는 텍스트 데이터는 사내 문서나 콜 센터에 모여진 질문 등의 기록 등, 복수의 사람에 의해 작성된 것이 많다. 이들 복수인에 의해 작성된 문서는 단어 표기가 통일되어 있지 않고, 또한, 비교적 비공식 문서이기 때문에 생략어 등이 다수 이용되는 경향이 있다. 예를 들면 콜 센터에서는 「customer」라고 하는 단어가 빈번히 사용된다. 기록하는 사람에 따라서는 이것을 「cus」나 「cust」라고 표기하는 경우가 있다. 생략어가 사전에 수록되어 있는 것은 거의 기대할 수 없기 때문에, 기존의 사전을 이용하여 동의어를 생성하고 있는 것에서는, 이들 생략어를 모두 미지어로서 취급해 버리게 된다. 생략어가 미지어로서 취급되면, 본래의 의미의 단어가 아니라, 별도의 단어로서 취급되어 버린다. 본래의 단어의 빈도에도 더해지는 일도 없고, 또한, 수도 적기 때문에 노이즈로서 버려지게 된다. 또한, 이들 사내 문서 등에서는 컴퓨터에 입력될 때에 철자 미스를 범하는 경우도 많다. 특히 콜 센터 등에서의 기록에서는, 한정된 시간 내에 문서를 작성해야 하기 때문에, 타이핑 미스를 일으키는 경우가 많다. 이들 철자 미스를 포함하는 문서도 상기와 마찬가지로 의미가 없는 노이즈로서 취급되게 된다.

그러나, 번잡하게 사용되는 단어일수록 생략 표기될 가능성이 높고, 한편 번잡하게 출현하는 단어이기 때문에 그것에 관련된 개념이 중요한 경우가 많다. 또한, 일반적으로 고객과의 직접 대응을 담당하는 부문에서 작성되는 문서는 콜 센터에서의 예와 같이 작성 시간이 한정되기 때문에 철자 미스를 포함할 가능성이 높고, 한편 이러한 고객과 직접 접하는 부문에서 작성되는 문서야말로 유용한 고객정보가 기록되고, 기업에 있어서 중요한 지식이 내포되어 있을 가능성이 높다. 즉, 이들 생략 표기되는 단어나 철자 미스된 단어 등, 사전에는 없는 단어를 의미 있는 데이터로서 취급하는 의의는 매우 높다. 또, 일본어, 중국어, 한글어 등의 2 바이트 문자가 FEP(front-end processor)에 의해 변환 미스되는 경우도 철자 미스의 경우와 동일하다.

따라서, 생략어, 철자 미스(변환 미스를 포함함) 등을 고려한 사전의 작성이 필요하게 된다. 기존의 사전은 생략어나 철자 미스 전부를 망라하고 있는 것은 아니기 때문에, 텍스트 마이닝으로 이용하는 데에 필요한 사전은 사람 손으로 작성해야만 한다. 이것은 매우 비용이 드는 작업으로서, 실제의 텍스트 마이닝의 운용상, 사용자에게 있어서 가장 걱정되는 부분이다. 따라서 동의어 사전을 작성하기 위한 동의어의 생성을 자동적으로 행하는 사전 작성을 위한 지원 시스템이 필요하게 된다.

동의어를 자동적으로 생성하는 수법으로서, 상기한 문헌 2∼4의 연구를 이용할 수 있다. 즉, 명사간의 유사도를 상기 연구의 수법으로 구하여, 유사도가 높은 소정의 범위내의 명사를 동의어로 한다. 그러나 이들 수법을 이용하면, 동의어 외에 반의어가 취득되어 버리는 문제가 있다. 즉, 종래의 수법을 그대로 적용한 것에서는, 반의어 그 밖의 노이즈를 많이 취득하여 버리고, 사람 손에 의한 노이즈의 제거가 번잡하게 되어 버린다.

또한, 컴퓨터 분야 등 진보가 현저한 분야에서는, 새로운 용어가 잇달아 생기고 있다. 이들 새로운 용어도 신속하게 텍스트 마이닝으로 적절히 취급할 수 있도록 해야 한다.

본 발명의 목적은 텍스트 마이닝으로 이용할 수 있는 동의어 사전을 작성할 때의, 동의어 후보의 생성을 효율적으로 행할 수 있는 지원 시스템 혹은 동의어 후보의 생성 방법을 제공하는 것에 있다. 또한, 이 동의어 후보의 생성에 있어서, 실제로 텍스트 마이닝을 적용하는 문서를 이용하여, 그 문서에서 이용하는 생략어나 독특한 용어, 추가로 철자 미스, 변환 미스도 포함시킨 단어를 취급할 수 있도록 하는 것을 목적으로 한다. 더욱이, 텍스트 마이닝의 시스템과 함께 이용함으로써, 적용하고자 하는 문서에 최적의 동의어 사전을 동적으로 생성하고, 보다 정밀한 문서 분석을 실현할 수 있는 시스템을 제공하는 것을 목적으로 한다.

과제를 해결하기 위한 수단

본원 발명의 개략을 설명하면, 이하와 같다. 즉, 본 발명의 데이터 처리 방법은 문서 데이터로 사용되고 있는 대상어에 대한 동의어 후보를 생성하는 데이터 처리 방법으로서, 문서 데이터 전체를 기초로 대상어에 대한 동의어 후보의 제1 집합을 생성하는 단계와, 문서 데이터의 적어도 하나의 부분을 기초로 대상어에 대한 동의어 후보의 적어도 하나의 제2 집합을 생성하는 단계와, 제1 집합에 포함되는 동의어 후보를, 제2 집합에 포함되는 동의어 후보로 범위를 축소하는 단계를 가지며, 범위를 축소하는 단계에서는, 소정의 기준에 따라 제2 집합내의 동의어 후보가 대상어의 동의어에 해당하는지 여부를 판정하여, 어느 제2 집합에 있어서 그 부분내에서 동의어라고 판정된 경우를 제외하고, 동의어라고 판정되지 않은 제2 집합내의 단어에 일치하는 단어를 제1 집합내의 동의어 후보로부터 제거함으로써 동의어후보를 생성하는 것이다.

즉, 대상어의 동의어 후보를 생성하는 데 있어서, 그 대상어가 사용되고 있는 문서 데이터 자체를 코퍼스로 하고, 이 코퍼스의 부분 집합인 부분 데이터(문서 데이터 부분)를 추출 또는 준비한다. 부분 데이터로서, 대상어를 특정 동의어로 표현하고 있는 것을 판명 또는 추정할 수 있는 것을 준비한다. 그리고, 문서 데이터 전체를 대상으로 기존의 동의어 후보 생성 처리를 행한다. 이 처리에 의해 생성되는 동의어 후보(제1 집합)에는, 정답인 동의어 외에 원래 동의어가 아니지만 후보 생성 처리에 의해 유사도가 높게 랭크되기 때문에 섞여 드는 노이즈(반의어 기타 동의어가 아닌 단어)가 포함된다. 한편, 부분 데이터도 코퍼스로서 취급하고, 이 부분 코퍼스를 대상으로 동일한 처리를 행한다. 이 부분 데이터를 대상으로 한 동의어 후보(제2 집합)에도 문서 데이터 전체를 대상으로 한 처리와 마찬가지로 동의어에 덧붙여 노이즈가 포함된다. 여기서, 제2 집합에 포함되는 동의어 후보 중 이미 그것이 정답인 것이 판명 또는 추정되는 동의어 후보가 존재하고 있는 것이 때문에, 이것을 확정 동의어 후보로 한다. 한편, 제2 집합내의 확정 동의어 후보 이외에는 노이즈라고 간주한다. 이 정보를 이용하여 제1 후보의 동의어 후보의 범위 축소를 행할 수 있다. 즉, 동일한 동의어 후보 생성 처리를 적용하는 한, 제1 집합 및 제2 집합에는 동일한 노이즈가 포함된다. 제2 집합을 평가하함으로써 노이즈를 추정하고, 이 제2 집합의 노이즈를 이용하여 제1 집합의 노이즈를 취소한다. 이에 따라 제1 집합의 정답률을 향상시킬 수 있다.

이와 같이, 본 발명에 있어서는, 노이즈를 생성하는 원인이 되는 단어 및 그관계에 대해서는 치우침 없이 이것을 포함하고, 한편 확정 동의어 후보에 관해서는 확실하게 높은 순위에 랭크되도록 그 근본이 되는 단어 및 관계를 포함하는 부분 데이터를 준비한다. 이러한 부분 데이터를 어떻게 적정하게 생성 또는 준비할지가 제1 집합의 정답률을 향상시키는 포인트가 된다. 본 발명에서는, 이러한 부분 데이터(문서 데이터의 부분)로서, 특정 필자에 의해 작성된 문만으로 이루어진 문서 데이터를 예시한다. 즉, 특정 필자는 어떤 개념을 표기할 때, 특정 표기를 다용하는 경향이 있다고 하는 사실을 본 발명자들은 인식하고, 이러한 지견에 기초하여 본 발명이 이루어졌다. 예를 들면, 영문 표기에서의 고객을 의미하는 단어로서, 「customer」, 그 약어 표기인 「Cust」 혹은 End User의 약어 표기인 「EU」 등을 이용할 수 있다. 실제, 본 발명자들이 해석한 문서 데이터에 있어서는, 고객을 의미하는 표기로서, 이들 「customer」, 「Cust」 혹은 「EU」 등의 표기가 혼재한다. 그런데, 특정 필자에 의해 작성된 문서에 착안하면, 어떤 필자는 주로 「customer」라고 표기하고, 다른 필자는 주로 「Cust」라고 표기하며, 다른 필자는 주로 「EU」 등이라 표기한다. 즉, 필자별로 문서를 해석하면, 필자는 그 필자 고유의 표기를 이용하여 어떤 개념을 나타내는 경향이 있고, 그 밖의 표기로 동일 개념을 나타낼 확률은 작다. 이러한 필자별 문서 데이터가 갖는 내부 구조는 즉, 부분 데이터내에 있어서 대상어가 표현하는 개념을 특정한 동의어(대상어를 포함함)로 표현하고 있는 구조로서, 또한 필자별 부분 데이터는 노이즈를 일으키는 문서 구조를 문서 데이터 전체와 마찬가지로 그 내부에 포함한다. 따라서, 필자별 문서 데이터를 상기한 부분 데이터(문서 데이터의 부분)로서 이용하고, 적정한 노이즈를 검출하여 제1 집합내의 동의어 후보의 범위 축소를 행할 수 있다.

또, 상기 데이터 처리 방법에 있어서, 소정의 기준은 유사도이며, 특정 동의어라고 판정되는 단어는 제2 집합에 있어서, 대상어와의 유사도가 가장 높은 동의어 후보라고 할 수 있다. 예를 들면 필자별 문서 데이터를 부분 데이터에 적용하는 경우, 대부분의 필자는 어떤 개념을 단일 표현(단어)으로 표기한다. 이 경우, 동의어라고 간주할 수 있는 단어는 최고 순위에 랭크된 단어로 하는 것이 타당하다.

또한, 본 발명의 데이터 처리 방법은 필자가 상이한 문을 포함하는 문서 데이터를 기초로 문서 데이터로 사용되고 있는 대상어에 대한 동의어 후보를 생성하는 데이터 처리 방법으로서, 단일 필자에 의한 문만을 포함하는 문서 데이터의 적어도 하나의 부분 데이터를 그 필자별로 생성 또는 준비하는 단계와, 문서 데이터에 포함되는 단어를 추출하고, 그 추출된 단어와 대상어와의 유사도를 계산하여, 유사도가 높은 순으로 상위 소정수의 그 추출된 단어를 그 요소로 하는 동의어 후보의 제1 집합을 생성하는 단계와, 부분 데이터에 포함되는 단어를 추출하고, 그 추출된 단어와 대상어와의 유사도를 계산하여, 유사도가 높은 순으로 상위 소정수의 그 추출된 단어를 그 요소로 하는 동의어 후보의 제2 집합을 필자별로 생성하는 단계와, 제1 집합에 포함되는 단어 중, 어느 제2 집합에 있어서 임계치 순위 이상의 고순위에 랭크되어 있는 단어와 일치하는 단어를 「절대적」이라고 평가하는 단계와, 「절대적」이다라고 평가된 단어 이외의 제1 집합에 포함되는 단어 중, 어느 제2 집합에 있어서 임계치 순위보다 하위에 랭크되어 있는 단어와 일치하는 단어를「부정적」이라고 평가하는 단계와, 「부정적」이라고 평가된 단어 이외의 제1 집합의 단어로부터 대상어에 대한 동의어 후보를 생성하는 단계를 포함한다.

이러한 데이터 처리 방법에 따르면, 상기와 마찬가지로 제1 집합의 동의어 후보를 제2 집합의 동의어 후보에 의해 범위를 축소할 수 있다. 이 경우, 임계치 순위 이상의 제2 집합에 있어서의 후보를 「절대적」이라고 평가한다. 「절대적」이라고 평가된 동의어 후보는 거의 동의어로 간주된다. 그 이외의 단어를 노이즈라고 간주하여 제1 집합에서 삭제함으로써, 고정밀한 동의어 후보의 생성이 가능해진다. 여기서, 임계치 순위는 이하와 같이 정의할 수 있다. 즉, 사람별 데이터로부터 얻어지는 동의어의 순위거 부여된 결과 중에서, 제n위까지를 전체 데이터로부터 얻어진 동의어의 집합 중에서 「절대적」이라고 평가할 때, 이 제n위를 「임계치 순위」라고 한다. 임계치 순위를 높게 설정하면, 원래 포함되어야 할 동의어를 얻을 수 있는 동의어 후보로부터 누락될 확률이 높아지고, 반대로 임계치 순위를 낮게 설정하면 얻어지는 동의어 후보에 노이즈가 포함될 확률이 높아진다. 따라서 임계치 순위는 부분 데이터의 구조나 그 수에 따라 경험적으로 적합한 순위가 채용되는 것이다.

또, 임계치 순위는 1위로 할 수 있다. 예를 들면, 사람별 데이터를 부분 데이터로 채용하는 경우, 각 사람은 어떤 개념을 표기할 때에 특정한 하나의 표현을 이용하는 경향이 강한 것은 상기하였다. 이러한 경우, 임계치 순위를 1위로 하면, 생성되는 동의어 후보에 노이즈가 포함될 확률이 작아진다.

또한, 유사도의 계산은 문서 데이터 또는 부분 데이터로부터, 모든 제1 품사와, 제1 품사와 연관 관계를 일으키는 모든 제2 품사(기본적인 자립어)를 추출하는단계와, 추출된 모든 제1 품사 및 모든 제2 품사를 그 행 또는 열의 지표로 하는, 크기가 제1 품사수×제2 품사수의 행렬을 생성하는 단계와, 행렬의 각 요소에, 그 요소를 지표하는 제1 품사 및 제2 품사간의 연관 관계의 출현 빈도를 대입하는 단계와, 문서 데이터를 기초로 생성된 행렬로부터, 대상어에 일치하는 제1 품사를 지표로 하는 행 또는 열의 각 요소를 추출하여, 대상어 벡터로 하는 단계와, 문서 데이터 또는 부분 데이터를 기초로 생성된 행렬로부터, 임의의 행 또는 열의 각 요소를 추출하여, 그것이 지표하는 제1 품사의 벡터로 하는 단계와, 제1 품사 벡터와 대상어 벡터를 사용하여 그 제1 품사의 대상어와의 유사도를 구하는 단계에 의해 실현된다. 즉, 문서 중에서의 제1 품사 및 제2 품사간의 공기 빈도 및 의존 관계의 빈도에 따라 유사도를 계산할 수 있다. 또, 유사도의 계산에는, 제1 품사 벡터와 대상어 벡터와의 내적치를 이용하는 방법을 예시할 수 있다.

또, 상기 행렬로부터의 행 또는 열의 각 요소의 추출에 의해 대상어 벡터 및 제1 품사 벡터로 하는 경우에 있어서, 행 요소를 추출하여 대상어 벡터를 생성한 경우에는, 이 행 요소를 추출하여 제1 품사 벡터를 생성하는 것은 물론이다. 반대로 열 요소를 추출하여 대상어 벡터를 생성한 경우에는 열 요소를 추출하여 제1 품사 벡터를 생성한다. 또한, 전치 행렬을 이용하여 행 벡터와 열 벡터를 교체하여 계산하는 것도 가능하다.

여기서, 제1 품사는 명사, 제2 품사는 동사, 형용사, 형용동사 등 명사와의 연관 관계를 일으킬 수 있는 품사로 할 수 있다. 이 경우, 명사간의 유사도를 동사 등과의 공기 빈도 혹은 의존 관계의 빈도를 이용하여 구할 수 있다. 또, 제1 품사로서 동사 등, 제2 품사에 명사를 선택하는 것도 가능하다. 이 경우 동사 등의 품사간의 유사도를 계산할 수 있다. 즉 대상어로서 동사 등, 명사 이외의 품사를 선택할 수도 있다.

또한, 문서 데이터 또는 부분 데이터에, 문서 템플릿을 이용하여 작성된 개소가 포함되는 경우에는, 문서 템플릿을 이용한 개소를 문서 데이터 또는 부분 데이터에서 삭제할 수 있다. 이것에 의해, 필자별 문서 데이터에 템플릿 등에 의해 통일된 표현이 혼입되는 것을 방지한다. 예를 들면, 콜 센터에서의 회화 기록을 작성하는 경우, 문서 기입의 속도가 요구된다. 이들 기입 속도가 요구되는 곳에서는 기입을 간략화하기 위한 정형적인 표현을 템플릿으로서 준비한다. 콜 테이커는 템플릿을 이용하여 간단한 조작에 의해 기입을 행할 수 있다. 이러한 템플릿을 이용하면, 작성되는 문서는 쓰는 사람에게 의존하지 않는 통일 표현이 된다. 이들 통일 표현이 필자별 문서에 혼입된 경우에는, 정당히 필자별 표현(필자에게 고유한 동의어 표현)을 평가할 수 없다. 따라서, 이들 통일된 표현에 의한 단어를 미리 배제하는 것이다.

또한, 문서 데이터 또는 부분 데이터에, 동일 또는 유사한 화제에 대한 일련의 문 또는 문서가 포함되는 경우, 일련의 문 또는 문서별로 단어의 출현 빈도를 정규화할 수 있다. 즉, 예를 들면 어떤 질문이 행해지고, 그것에 대한 응답, 더한 질문, 응답 등, 어떤 화제에 대한 트랜잭션이 발생하는 경우가 있다. 이러한 경우, 어떤 질문(화제)에 대한 관련어의 출현 빈도가 많이 발생하게 된다. 한편, 같은 내용이라도, 적은 응답으로 문제(질문)가 해소되는 경우도 있다. 이러한 트랜잭션이있는 경우의 문서와 짧은 응답만으로 완결되는 문서가 동일한 문서 데이터에 존재했을 경우, 출현 빈도가 많은 화제에 출현하는 단어 혹은 그 단어를 포함하는 연관을 중시하게 되어, 상대적으로 짧은 응답으로 완결된 화제에 출현하는 단어 등을 가볍게 평가하게 된다. 따라서, 적정하게 단어 및 그 단어를 포함하는 연관을 추출하여, 명사의 특성을 평가하기 위해서는 이러한 트랜잭션이 발생했을 때에는 그 트랜잭션내에서 등장하는 단어의 빈도를 정규화하는 것이 바람직하다. 상기는 이러한 요청에 대응한 것이다.

또한, 문서 데이터 또는 부분 데이터에 출현하는 명사의 출현 빈도가 소정의 빈도보다 낮은 경우, 유사도의 계산 대상에서 이 명사를 제거할 수 있다. 출현 빈도가 낮은 명사는 노이즈의 원인이 되는 경우가 있기 때문에, 미리 이것을 제거하는 것이다.

또, 대상어는 매뉴얼, 사전 기타 통일된 표현으로 기술되어 있는 문서로부터 선택한 용어로 할 수 있다. 일반적인 용어를 대상어로서 동의어 후보를 생성하면, 그 정답률이 향상된다고 하는 경험칙이 있다. 따라서, 일반적인 용어를 이용함으로써, 동의어 후보 생성의 정답률을 향상시킬 수 있다.

본 명세서에 있어서, 동의어의 문언에는 텍스트 마이닝에 있어서의 동의어라고 간주해도 좋은 단어도 포함한다. 즉, 언어학적으로 엄밀히 동의어라고는 말할 수 없는 것이어도, 텍스트 마이닝에 적용할 때에 동일한 개념을 표기하는 단어를 포함시켜 동의어라고 한다. 따라서, 대상이 되는 단어와 동등한 개념을 표현하는 철자 미스된 단어나 약어, 혹은 FEP에 의해 잘못 변환된 단어도 동의어가 될 수 있다. 또한, 상기한 방법의 발명은 시스템 혹은 프로그램의 발명으로서 파악하는 것도 가능하다.

본 발명은 데이터 처리 방법, 데이터 처리 시스템 및 프로그램에 관한 것이다. 특히, 대량의 문서 데이터를 코퍼스(corpus)로서 취급하여, 문서 중에 출현하는 단어의 동의어 후보의 고정밀한 생성에 적용하기 유효한 기술에 관한 것이다.

도 1은 콜 센터에 있어서의 복수의 콜 테이커(필자)가 작성한 회화 기록 문서내에서, 「고객」의 개념을 어떻게 표기하고 있는지를 사람별로 해석하여 도시한 그래프.

도 2는 「AC 어댑터」의 개념에 대해서, 도 1과 동일한 해석을 행한 결과를 도시한 그래프.

도 3은 「ThinkPad」의 개념에 대해서, 도 1과 동일한 해석을 행한 결과를 도시한 그래프.

도 4는 「CD-ROM」의 개념에 대해서, 도 1과 동일한 해석을 행한 결과를 도시한 그래프.

도 5는 「플로피디스크」의 개념에 대해서, 도 1과 동일한 해석을 행한 결과를 도시한 그래프.

도 6은 본 발명의 일 실시 형태인 데이터 처리 시스템의 일례를 그 기능에 대해서 도시한 블록도.

도 7은 본 발명의 일 실시 형태인 데이터 처리 방법의 일례를 도시한 흐름도.

도 8은 C_Full의 평가 순서(단계 240)의 일례를 도시한 흐름도.

이하, 본 발명의 실시 형태를 도면에 기초하여 상세히 설명한다. 단, 본 발명은 대부분의 다른 형태로 실시하는 것이 가능하고, 본 실시 형태의 기재 내용에 한정하여 해석하면 안된다. 또, 실시 형태의 전체를 통해 동일한 요소에는 같은 번호를 붙이는 것으로 한다.

이하의 실시 형태에서 설명하는 방법 또는 시스템은 당업자라면 분명한 바와 같이, 본 발명은 컴퓨터에서 사용 가능한 프로그램으로서도 실시할 수 있다. 따라서, 본 발명은 하드웨어로서의 실시 형태, 소프트웨어로서의 실시 형태 또는 소프트웨어와 하드웨어의 조합의 실시 형태를 취할 수 있다. 프로그램은 하드디스크, CD-ROM, 광기억 장치 또는 자기 기억 장치 등의 임의의 컴퓨터 판독 가능 매체에 기록할 수 있다.

또한, 이하의 실시 형태에서는, 그 시스템으로서 일반적인 컴퓨터 시스템을 이용할 수 있다. 실시 형태로 이용할 수 있는 컴퓨터 시스템은 중앙 연산 처리 장치(CPU), 주기억 장치(메인 메모리: RAM), 불휘발성 기억 장치(ROM), 코프로세서, 화상 액셀러레이터, 캐시 메모리, 입출력 제어 장치(I/O), 하드디스크 장치 등의 외부 기억 장치 등, 일반적인 컴퓨터 시스템에 구비되는 하드웨어 자원을 구비한다. 또한, 인터넷 등의 네트워크에 접속 가능한 통신 수단을 구비할 수도 있다. 컴퓨터 시스템에는 퍼스널컴퓨터, 워크스테이션, 메인프레임 컴퓨터 등 각종 컴퓨터가 포함된다.

이하의 실시 형태를 설명하기 전에, 본 실시 형태에서 이용하는 문서의 특징에 대해서 설명한다. 도 1은 콜 센터에서의 복수의 콜 테이커(필자)가 작성한 회화 기록 문서내에서, 「고객」의 개념을 어떻게 표기하고 있는지를 사람별로 해석하여 나타낸 그래프이다. A∼E의 지표는 사람(콜 테이커)을 나타내고, 각 사람에 의한 각 표기의 출현 빈도를 백분율로 나타내고 있다. 문서의 전체에 있어서 「고객」의 개념을 표기하는 단어로서 「customer」, 「cust」, 「eu」, 「user」, 「enduser」, 「cus」의 6종류의 표기가 이용되고 있다. 이 중, 사람 A는 「customer」, 「cust」, 「eu」 또는 「user」라고 표기하고, 그 중 「eu」라고 표기하는 비율이 89.1%로 가장 높다. 그 밖의 표기를 이용하는 비율은 11% 정도이다. 즉 사람 A는「고객」 개념을 주로 「eu」라고 표기한다. 사람 B는 「enduser」, 「customer」, 「cust」, 「eu」 또는 「user」라고 표기하고, 그 중 「cust」라고 표기하는 비율이 66.1%로 가장 높다. 마찬가지로 사람 C는 「eu」라고 표기하는 비율이 약 83%로 가장 높고, 사람 D도 「eu」라고 표기하는 비율이 약 92%로 가장 높으며, 사람 E는 「customer」라고 표기하는 비율이 약 79%로 가장 높다. 즉, 「고객」의 개념을 표기할 때에, 사람별로 거의 정해진 표기가 행해지고, 그 종류는 거의 1종류로 한정된다. 도 2 내지 도 5는 「AC 어댑터」, 「ThinkPad」, 「CD-ROM」, 「플로피디스크」의 각 개념에 대해서, 도 1과 동일한 해석을 행한 결과를 나타낸 그래프이다. 도 2로부터, 「고객」의 경우와 마찬가지로, 사람 A는 「AC 어댑터」의 개념을 주로 「adapter」, 사람 B도 「adapter」, 사람 C는 「ac」, 사람 D는 「ac adapter」, 사람 E는 「adapter」라고 표기하는 것을 알 수 있다. 도 3으로부터, 사람 A∼D는 「ThinkPad」의 개념을 「tp」, 사람 E는 「thinkpad」라고 표기하는 것을알 수 있다. 도 4로부터, 「CD-ROM」의 개념을, 사람 A는 주로 「cd」, 사람 B도 「cd」, 사람 C는 「cd-rom」, 사람 D는 「cdrom」, 사람 E는 「cd」라고 표기하는 것을 알 수 있다. 도 5로부터, 「플로피디스크」의 개념을, 사람 A는 주로 「disk」, 사람 B는 「diskette」 혹은 「disk」, 사람 C도 「diskette」 혹은 「disk」, 사람 D는 주로 「disk」, 사람 E는 주로 「diskette」이라 표기하는 것을 알 수 있다. 또, 「ThinkPad」는 IBM Corp.의 상표로서, 노트북형 퍼스널컴퓨터의 명칭이다.

즉, 도 1 내지 도 5의 해석 결과는 이하의 사실을 가르쳐 준다. 즉, 복수의 사람에 의해 작성된 문서에 있어서, 어떤 개념은 통일된 표기로 표현되지 않고, 복수의 표기가 문서내에 존재한다. 그리고, 문서를 사람별로 나눠 보면, 어떤 개념을 표기할 때 , 그 사람 고유의 표기를 주로 이용하고, 다른 표기를 행하는 경우는 적다. 이러한 문서의 성질을 이용하면, 이하와 같이 하여 동의어 후보의 생성 정밀도를 향상시킬 수 있다. 즉, 문서내의 어떤 개념은 복수의 표기에 의해 표현되기 때문에, 이것을 통일한 지표어로 나타낼 필요가 있지만, 사람별로 동의어 후보를 생성하면, 그 사람이 이용하는 고유의 표기가 최고 순위를 얻어(즉 유사도가 가장 높게) 생성되는 것이다. 한편, 사람별 동의어 후보의 생성에 따라서도, 전체 문서를 대상으로 한 경우와 마찬가지로 노이즈가 포함되는 것이다. 따라서, 사람별로 분류된 문서를 대상으로 동의어 후보의 생성을 행하고, 제1 순위의 동의어 후보는 적어도 어떤 개념(입력 대상어)에 대한 그 사람 고유의 표기인 것이 추정되기 때문에, 그 이외의 단어를 노이즈라 추정하여 문서 전체를 대상으로 한 동의어 후보에서 이것과 일치한 것을 삭제한다. 이것에 의해 동의어 후보의 생성 정밀도(정답률)를 향상시킬 수 있다. 또, 사람별 동의어 후보 집합에 있어서 2위 이하로 랭크되는 단어도, 그 사람이 통일된 표기를 이용하고 있지 않는 한 대상어의 개념을 정당히 나타내는 것일 확률이 높다. 실제, 도 1 내지 도 5에 도시한 바와 같이 1명의 사람이 어떤 개념을 복수의 표기로 표현하고 있기 때문에, 사람별 동의어 후보에 있어서 2위 이하라도 정답일 가능성은 높다. 이 정당한 표기의 삭제를 방지하기 위해서, 다른 사람에 의해 제1위에 랭크된 동의어 후보는 정당한 것이라고 하여, 만일 2위 이하로 랭크되어 있어도 이것을 삭제하지 않도록 한다.

본 발명은 상기와 같은 사람별 문서의 특징을 잘 이용하여 동의어 후보의 생성 정밀도를 향상시키는 것이다. 이하, 구체적인 실현 수단인 데이터 처리 시스템, 데이터 처리 방법을 설명한다.

도 6은 본 발명의 일 실시 형태인 데이터 처리 시스템의 일례를 그 기능에 대해서 도시한 블록도이다. 본 실시 형태의 데이터 처리 시스템에는, 필자별 데이터(110), 전체 데이터(120), 동의어 후보 취득 장치(130), 동의어 후보 집합(140), 동의어 후보 판정 장치(150) 및 판정 결과가 부여된 동의어 후보(160)를 포함한다. 필자별 데이터(110)는 필자별 문서 데이터로부터 생성된 명사, 그 명사와 공기하는 동사, 형용사, 형용동사 등의 품사 및 이들의 의존 구조를 동사 명사 쌍으로서 나타낸 데이터베이스이다. 전체 데이터(120)는 모든 필자에 의한 문서를 포함하는 문서 데이터의 전체로부터 생성된 명사, 그 명사와 공기하는 동사, 형용사, 형용동사 등의 품사 및 이들의 의존 구조를 동사 명사 쌍으로서 나타낸 데이터베이스이다.동의어 후보 취득 장치(130)는 동의어 생성의 대상어를 입력 단어로서 입력하고, 필자별 데이터(110) 및 전체 데이터(120)로부터 입력 단어의 동의어 후보 집합(140)을 생성한다. 즉 동의어 후보 취득 장치(130)는 필자별 데이터(110)로부터 필자별 동의어 후보 집합을 생성하고, 전체 데이터(120)로부터 전체 데이터에 대한 동의어 후보 집합을 생성한다. 동의어 후보 집합(140)은 동의어 후보 취득 장치(130)에 의해 생성된 필자별 동의어 후보 집합 및 전체 데이터의 동의어 후보 집합이다. 필자가 m인 있는 경우에는, 동의어 후보 집합(140)에 기록되는 동의어 후보 집합의 수는 m+1이 된다. 동의어 후보 판정 장치(150)는 동의어 후보 집합(140)을 입력으로 하고, 필자별 동의어 후보 집합을 기초로 하여 전체 데이터로부터 얻어진 동의어 후보 집합을 평가한다. 평가는, 전체 데이터로부터 얻어진 동의어 후보에 대하여, 동의어의 후보로서 어울리는지를 판정한다. 판정 결과는 판정 결과가 부가된 동의어 후보(160)로서 출력한다.

필자별 데이터(110) 및 전체 데이터(120)는 이하와 같이 생성한다. 우선, 조사하고 싶은 단어인 대상어(입력 단어)를 베이스 워드 b로 한다. 데이터 전체를 F, 그 코퍼스의 필자를 A, B, C, ···의 첨자로 나타내는 것으로 한다. 또, A, B, C, ···는 데이터가 많은 쪽에서부터 올림차순으로 나타낸다. 데이터 전체에 출현하는 명사의 수를 n, 동사 등(동사, 형용사, 형용동사 등)의 수를 m으로 한다. 각 명사에 있어서, 어떤 동사 등과 연관 관계를 갖는지를 행렬로 나타낸다. 명사 p와 동사 q의 연관 관계가 데이터 중 k회 출현했을 때, 행렬의 요소 i_pq는 하기 수학식 1과 같다.

각 집합으로부터 얻어지는 행렬은 M_(F), M_(A), M_(B), M_(C)···이며, 크기는 전부 (n, m)이다. 행렬 M_(F)등을 식으로 나타내면 하기 수학식 2와 같다.

필자별 데이터(110)는 예를 들면 M_(A), M_(B), M_(C)···와 같이 나타내어지고, 전체 데이터(120)는 M_(F)와 같이 나타낼 수 있다. 명사 N_(P)가 어떠한 동사와 연관을 갖는지는 행렬 M중의 p번째의 행을 벡터로서 추출하면 된다. 이와 같이 하여 얻어진 명사의 벡터는 하기 수학식 3과 같이 나타낼 수 있다.

다음에, 도 7의 동의어 후보 취득 장치(130)의 동작에 대해서 설명한다. 동의어 후보 취득 장치(130)는 컴퓨터 시스템내에서 소프트웨어적으로 실현된다. 우선, 입력 단어인 베이스 워드 b에 대한 전체 집합 중에서의 정보를 구한다. M_(F)중에서, 하기 수학식 4로 나타내는 베이스 워드 b의 동사 정보 벡터 N_(b)를 구한다.

이것과, 하기 수학식 5에서 나타낸 M_(F)의 모든 명사가 갖는 동사 정보 벡터 N_(l)과의 각도를 θ로 한다. 각도 θ가 작은 것일수록, 즉 cosθ의 값이 1에 가까운 것일수록 베이스 워드에 의미가 가깝다고 생각할 수 있기 때문에, cosθ의 값을 유사도로 할 수 있다. 즉 유사도는 0∼1의 값으로 나타내어지고, 1에 가까울수록(값이 클수록) 유사도는 커진다. 또, cosθ의 값은 N_(b)와 N_(l)의 내적치를 이용하여 구할 수 있다.

상기한 바와 같이 구한 유사도가 높은 순으로 랭킹을 행한다. 랭킹의 상위에서부터 소정수의 순위까지 랭킹된 명사의 집합을 C_(F)로 한다. 이 C_(F)가 전체 데이터를 대상으로 한 동의어 후보 집합이다.

다음에 필자별 데이터(110)로부터 필자별 동의어 후보 집합을 취득하는 경우를 설명한다. 상기한 수학식 4에서 나타낸 베이스 워드 b에 있어서의 동사 정보 벡터 N_(b)를 이용하여, 각 필자의 명사 중에서 베이스 워드 b에 의미가 가까운 것을 랭킹한다. 필자 A에 대한 동의어 후보 집합을 C_(A)로 한다. 여기서, 필자별 데이터인 M_(A)중의 명사 b에 대한 동사 정보 벡터를 이용하고 있지 않다. 왜냐하면, 어떤 필자가 b와 동의의 명사를 기술할 때, 표기는 b와 틀린 것일 가능성이 있다. 그 때, 각 필자의 데이터중의 명사 b에 대한 동사 정보 벡터의 요소는 거의 0이며, 이것을 이용한 것에서는 정확하게 b와 어의가 가까운 것을 취할 가능성은 적다. 따라서, 전체 데이터의 명사 b에 대한 동사 정보 벡터를 이용한다. 마찬가지로 하여 소정 인원수의 필자 B, C, D···에 대해서도 동의어 후보 C_(B), C_(C), C_(D),···를 취득할 수 있다.

도 7은 본 실시 형태의 데이터 처리 방법의 일례를 도시한 흐름도이다. 우선, 입력 단어 A(대상어)에 있어서의 동의어 후보의 생성을 행한다(단계 210). 이 동의어 후보 집합은 상기한 동의어 후보 취득 장치(130)에 의해 생성되고, 전체 데이터에 대한 동의어 후보 집합 C_Full=C_(F)와, 필자별 데이터에 대한 동의어 후보 집합 C_k={C_(A), C_(B), C_(C), C_(D)···}(k=m, m은 필자의 수)가 취득된다. 표 1은 콜 센터에서 작성된 문서를 대상으로, 전체 데이터로부터 생성한 동의어 후보 집합 C_Full의 일례를 나타낸 표이다.

여기서, 입력 단어는 「battery」이며, 그 개념에 포함되지 않는 단어도 후보로서 포함되어 있다. 4위의 「cover」, 7위 이하의 「adapter」, 「bezel」, 「cheque」, 「screw」가 노이즈이다.

표 2 및 표 3은 각각 필자 A 및 필자 B에 의한 필자별 데이터로부터 생성한 「battery」의 동의어 후보 집합의 일례를 나타낸 표이다.

표 2 및 표 3 모두 제1위에 「battery」가 랭킹되어 있다. 이 예의 경우, 필자 A, 필자 B 모두 「battery」 개념을 표기하는 고유의 단어로서 「battery」를 이용하고 있게 된다.

다음에, 포인터 변수 K에 1을 대입하여(단계 230), K가 필자 수 m과 같은지를 판단하고(단계 230), 단계 230의 판단이 no이면(모든 필자에 대해서 평가하지 않을 때), C_k와 C_Full과의 비교에 의한 C_Full의 평가를 행한다(단계 240).

도 8은 C_Full의 평가 순서(단계 240)의 일례를 도시한 흐름도이다. 우선, 평가 대상의 단어가 C_k후보중의 1위인지를 판단하여(단계 310), 1위인 경우에는 C_Full중의 단어와 일치하는지를 판단한다(단계 320). C_Full중의 단어와 일치하는 경우, C_Full중의 단어의 상태를 "absolute"(「절대적」)로 한다(단계 330). 여기서 "absolute"는 동의어 후보로서 확정적인 것을 나타내고, 뒤의 평가에 따라 "negative"(「부정적」)가 되는 일은 없다. 또한, 이미 "negative"라고 평가되고 있는 경우라도 상태는 "absolute"로 변경된다.

단계 310 및 320에서 no라고 판단되거나 혹은 단계 330 후, 단계 340으로 진행하여, C_k중의 후보가 아직 존재하는지를 판단한다(단계340). 존재하는 경우, C_Full중의 단어와 일치하는지를 판단하여(단계 350), 일치하는 경우는 C_Full중의 일치하는 단어의 상태를 "negative"로 한다(단계 360). 단, 상태를 "negative"로 할 수 있는 것은, 이미 "absolute"라고 평가되어 있지 않은 동의어 후보뿐이다. 일치하지 않는 경우는 단계 340으로 되돌아간다. 단계 340에서 단계 360의 단계를 C_k중의 후보가 없어질 때까지 행하고, 단계 340에서 no라고 판단되었을 때, 평가가 붙은 동의어 후보 C_Full을 출력한다(단계 370).

상기 표 2의 C_k에 의해 상기 표 1의 C_Full을 상기 순서로 평가한 경우, 표 2 중 3위의 「cover」가 표 1중 4위의 「cover」와 일치하기 때문에 "negative"의 상태가 부가된다. 마찬가지로, 표 1에서 10위의 「screw」, 9위의 「cheque」에 "negative"의 상태가 부가된다. 이와 같이 어떤 필자에 대한 동의어 후보를 이용하여 전체 데이터에 의한 동의어 후보 집합의 평가를 행할 수 있다.

그 후, 포인터 K를 하나 증가하여(단계 250), 단계 230으로 되돌아간다. 그리고, 상기와 마찬가지로, 다른 필자에 대해서도 평가를 행한다. 상기 표 3의 C_k에 의해 표 1의 C_Full을 상기 순서로 평가한 경우, 표 1에서 7위의 「adapter」, 9위의 「cheque」에 "negative"의 상태가 부가된다.

모든 필자에 대해서 평가하면, 단계 230에서 Yes라고 판단되어, 평가가 붙은 동의어 후보 C_Full을 출력하고(단계 260), 처리를 종료한다.

표 1의 C_Full에 대해서, 상기 처리를 행한 결과, 4위의 「cover」, 7위의 「adapter」, 9위의 「cheque」, 10위의 「screw」에 "negative"의 상태가 부가된다. 이들 결과는 상태를 붙이거나 혹은 "negative" 상태의 단어를 삭제한 후에, GUI 등에 의해 사용자에게 제시된다. 사용자는 제시된 내용을 확인하여 상기 예의 경우 「battery」라고 하는 개념에 대한 동의어를 정의할 수 있다. 또, 이 단계에서도 취할 수 없는 노이즈 「bezel」이 남아 있다. 사용자는 이 단계에서 「bezel」을 삭제하여 「battery」 개념의 동의어 사전을 생성할 수 있다.

여기서, 생성된 동의어 사전에는 「batt」, 「batterie」, 「bat」, 「BTY」, 「batterry」와 같이 약어나 철자 미스가 포함된다. 본 실시 형태의 시스템 및 방법을 이용하면, 실제로 텍스트 마이닝을 적용하는 문서를 코퍼스로서 이용하여 동의어 후보를 생성하기 때문에, 이들 약어나 철자 미스도 동의어에 포함시키는 것이 가능해진다. 이것에 의해, 종래의 동의어 사전 등에서는 노이즈로서 버려져 있던 정보를 유효하게 활용하는 것이 가능해지고, 본 실시 형태에 따른 동의어 사전을 이용한 텍스트 마이닝에서는, 보다 정확하고 또한 정밀한 문서의 해석이 가능해진다. 또한, 본 실시 형태의 시스템 혹은 방법에 따르면, 저비용으로 유효한 동의어 사전을 작성할 수 있기 때문에, 텍스트 마이닝의 도입을 용이하게 할 수 있다. 또한, 텍스트 마이닝의 커다란 적용 분야인 콜 센터의 데이터나 각종 보고서에서는 쓰는 사람을 알 수 있는 대량의 데이터가 갖추어져 있다. 그 때문에, 동의어 사전을 작성할 때의 본 실시 형태의 수법은 실현성이 높고 유효하다.

또한, 템플릿 등을 이용하여 문장이 작성되어 있는 경우에는, 이 템플릿 부분을 삭제하여 전체 데이터(120) 혹은 사람별 데이터(110)를 생성할 수 있다. 이에 따라 사람별 차이를 보다 현저하게 할 수 있다.

또한, 명사의 출현 빈도를 고려할 수 있다. 예를 들면 콜 센터에 있어서의 고객과 오퍼레이터의 교환과 같이 트랜잭션이 발생하는 것이 있다. 어떤 오퍼레이터가 어떤 제품에 대한(예컨대 하드디스크 등) 문제를 처리하고, 그 교환이 길게 계속되어 버린 경우에는, 다른 문서 중에 비하여 특정 단어(예를 들면 하드디스크)의 출현이 다른 문서 중에 비하여 많아진다. 그러나, 다른 오퍼레이터도 동일한 조회를 받고 있음에도 불구하고 그 질문이 간단히 끝나면, 그 단어에 대한 출현 빈도는 낮아지게 된다. 이러한 단어의 출현 빈도의 치우침을 없애기 위해서, 트랜잭션별(또는 문서 단위별) 단어 빈도의 정규화를 행하여, 보다 정밀도가 좋은 것을 얻을 수 있다. 또, 정규화는 쓰는 사람의 오기나 시간의 변화에 따른 표기의 불균일을 흡수하기 위해서도 적용할 수 있다.

또한, 상기한 바와 같이 얻어진 동의어에 있어서, 어느 것이 정답인지(하나의 통일 표현으로 통합할 때에 어떤 단어가 일반적인지)는 사람 손으로 판단해야만 한다. 이 때문에, 같은 수법을 동일한 분야에서 표기가 일반적인 단어로 통일되어 있는 것(예를 들면 컴퓨터 분야라면 컴퓨터 메뉴얼)에 적응하여, 자동적으로 정답을 얻을 수 있다. 컴퓨터 매뉴얼과 같이 비교적 정확하게 작성된 문서에 있어서는 표현이 통일되어 있고, 그 표현은 동의어 중에서 일반적으로 많이 사용되는 것으로 생각된다. 따라서, 얻어진 동의어의 동사 정보 벡터를 이용하여 그 후의 집합에 대한 적절한 라벨이 되는 단어를 선택할 수 있다.

또한, 동의어 작성을 행할 때, 상기한 바와 같은 일반적으로 사용되는 표현을 입력하는 명사로서 선택한 쪽이, 일반적이지 않은 생략어 등으로 입력한 것보다도 정밀도가 좋은 것을 판명하고 있다. 예를 들면 동일한 문서에 대하여 본 실시 형태의 동의어 후보 생성을 입력어로서 「customer, 「cus」,「cust」, 「end_user」을 선택한 경우의 결과를 표 4 내지 표 7에 나타낸다. 또, 각 표 중에서 명사의 좌측에 「x」를 표시한 후보는 노이즈이다.

표 4는 「customer」를 입력 단어로서 선택한 경우의 동의어 후보 생성 결과이며, 정답률은 0.9이다. 표 5는 「cus」를 입력 단어로서 선택한 경우의 동의어 후보 생성 결과이며, 정답률은 0.6이다. 표 6은 「cust」를 입력 단어로서 선택한 경우의 동의어 후보 생성 결과이며, 정답률은 0.7이다. 표 7은 「end_user」를 입력 단어로서 선택한 경우의 동의어 후보 생성 결과이며, 정답률은 0.8이다. 상기한 바와 같이, 일반적인 용어인 「customer」를 입력 단어(대상어)로 한 경우에 가장 정답률이 높다. 따라서, 입력하는 명사를 매뉴얼 등으로부터 선정함으로써, 보다 효과가 높은 결과를 얻을 수 있다.

상기 문헌 1에 기재한 텍스트 마이닝 시스템에서는, 분야별로 작성한 카테고리 사전을 이용하여 동의어의 흡수를 행하고 있다. 그러나, 이 카테고리 사전은 분야를 이해하고 있는 사람이 사람 손으로 작성해야만 하고, 보다 코스트가 낮은 사전 작성의 수법이 요구되고 있다. 한편, 텍스트 마이닝의 큰 적용 분야인 콜 센터의 데이터나 각종 보고서에서는 쓰는 사람이 알고 있는 대량의 데이터가 갖추어져 있기 때문에, 본 실시 형태의 수단을 이용하여 사전의 생성의 지원을 효율적으로 행할 수 있다.

또한, 본 실시 형태의 수법에 따르면, 전문 용어나 특수 용도의 단어에 대해서도 동의어의 후보를 얻을 수 있다. 또한, 사전에 실려 있지 않은 새로운 말에 대해서도 철자 미스를 포함한 동의어나 동일한 카테고리에 속하는 단어를 발견할 수 있다.

또한, 어떤 특정 문서 중에서, 그 분야에 한하는 동의어의 후보를 추출하는 것에도 유효하다. 예를 들면 특정한 분야 중에서의 전문 용어의 동의어의 추출을 기존의 동의어 사전을 사용하지 않고서, 그 특정 분야의 문장을 이용하여 동적으로 작성하는 것도 가능하다. 콜 센터의 기록을 텍스트 마이닝하는 경우에 있어서도, 컴퓨터 분야의 발전은 현저하고, 그 만큼 전문 용어의 수가 증가하는 방법도 엄격하다. 특히, 신제품 정보 등의 질문을 많이 수취한다고 생각되기 때문에, 기존의 동의어 사전만을 이용하는 것만으로는 불충분하다고 생각된다. 그래서, 특정한 분야에 관한 문서가 충분히 존재할 때에 본 실시 형태의 수법을 이용하면, 사전에 없고, 새롭게 등장한 단어에 대해서도 기존 단어와의 동의성을 검증할 수 있고, 동의어 사전에 새롭게 부가할 수 있게 된다.

이상, 본 발명자에 의해 행해진 발명을 발명의 실시 형태에 기초하여 구체적으로 설명하였지만, 본 발명은 상기 실시 형태에 한정되지 않고, 그 요지를 일탈하지 않는 범위에서 여러 가지 변경하는 것이 가능하다.

예를 들면, 상기 실시 형태에서는, 사람별로 상이한 문서의 특징을 이용하여 동의어 후보 생성의 정밀도를 향상시켰지만, 기타, 어떤 개념을 특정한 동의어로서 표현하고 있는 것을 판명 또는 추정할 수 있는 문서가 존재하는 경우에는, 이들 문서를 부분 데이터로서 이용하여도 되는 것은 물론이다.

또한, 상기 실시 형태에서는, 필자별 동의어 후보 집합에 의해 전체 데이터의 동의어 후보를 평가할 때에, 1위와 2위 이하로 나누어 「absolute」인지 「negative」인지의 평가를 나누었지만, 예를 들면 2위 이상을 「absolute」, 3위 이하를 「negative」라고 평가하도록, 그 임계치 순위를 변경하여도 좋다.

본원에서 개시되는 발명 중, 대표적인 것에 의해 얻어지는 효과는 이하와 같다. 즉, 텍스트 마이닝으로 이용할 수 있는 동의어 사전을 작성할 때의, 동의어 후보의 생성을 효율적으로 행할 수 있는 지원 시스템 혹은 동의어 후보의 생성 방법을 제공할 수 있다. 또한, 이 동의어 후보의 생성에 있어서, 실제로 텍스트 마이닝을 적용하는 문서를 이용하여, 그 문서에서 이용하는 생략어나 독특한 용어, 추가로 철자 미스, 변환 미스도 포함시킨 단어를 취급할 수 있도록 할 수 있다. 더욱이, 텍스트 마이닝의 시스템과 함께 이용함으로써, 적용하고자 하는 문서에 최적인동의어 사전을 동적으로 생성하여, 보다 정밀한 문서 분석을 실현할 수 있다.

Claims

문서 데이터로 사용되고 있는 대상어에 대한 동의어 후보를 생성하는 데이터 처리 방법으로서,

상기 문서 데이터 전체를 기초로, 상기 대상어에 대한 동의어 후보의 제1 집합을 생성하는 단계와,

상기 문서 데이터의 적어도 하나의 부분을 기초로, 상기 대상어에 대한 동의어 후보의 적어도 하나의 제2 집합을 생성하는 단계와,

상기 제1 집합에 포함되는 동의어 후보를, 상기 제2 집합에 포함되는 동의어 후보로 범위를 축소하는 단계를 가지며,

상기 범위 축소 단계에서는, 소정의 기준에 따라 상기 제2 집합내의 동의어 후보가 상기 대상어의 동의어에 해당하는지 여부를 판정하여, 어느 제2 집합에 있어서 그 부분내에서 동의어라고 판정된 경우를 제외하고, 동의어라고 판정되지 않은 상기 제2 집합내의 단어에 일치하는 단어를 상기 제1 집합내의 동의어 후보로부터 제거함으로써 동의어 후보를 생성하는 데이터 처리 방법.
제1항에 있어서, 상기 문서 데이터의 부분은 특정 필자에 의해 작성된 문만으로 이루어진 문서 데이터인 데이터 처리 방법.
제2항에 있어서, 상기 소정의 기준은 유사도이며, 상기 특정 동의어라고 판정되는 단어는 상기 제2 집합에 있어서, 상기 대상어와의 유사도가 가장 높은 동의어 후보인 데이터 처리 방법.
필자가 상이한 문을 포함하는 문서 데이터를 기초로, 상기 문서 데이터로 사용되고 있는 대상어에 대한 동의어 후보를 생성하는 데이터 처리 방법으로서,

단일 필자에 의한 문만을 포함하는 상기 문서 데이터의 적어도 하나의 부분 데이터를 그 필자별로 생성 또는 준비하는 단계와,

상기 문서 데이터에 포함되는 단어를 추출하고, 그 추출된 단어와 상기 대상어와의 유사도를 계산하여, 유사도가 높은 순으로 상위 소정수의 그 추출된 단어를 그 요소로 하는 동의어 후보의 제1 집합을 생성하는 단계와,

상기 부분 데이터에 포함되는 단어를 추출하고, 그 추출된 단어와 상기 대상어와의 유사도를 계산하여, 유사도가 높은 순으로 상위 소정수의 그 추출된 단어를 그 요소로 하는 동의어 후보의 제2 집합을 상기 필자별로 생성하는 단계와,

상기 제1 집합에 포함되는 단어 중, 어느 상기 제2 집합에 있어서 임계치 순위 이상의 고순위에 랭크되어 있는 단어와 일치하는 단어를 「절대적」이라고 평가하는 단계와,

상기 「절대적」이라고 평가된 단어 이외의 상기 제1 집합에 포함되는 단어 중, 어느 상기 제2 집합에 있어서 상기 임계치 순위보다 하위에 랭크되어 있는 단어와 일치하는 단어를 「부정적」이라고 평가하는 단계와,

상기 「부정적」이라고 평가된 단어 이외의 상기 제1 집합의 단어로부터 상기 대상어에 대한 동의어 후보를 생성하는 단계를 포함하는 데이터 처리 방법.
제4항에 있어서, 상기 임계치 순위는 1위인 데이터 처리 방법.
제4항에 있어서, 상기 유사도의 계산은,

상기 문서 데이터 또는 부분 데이터로부터, 모든 제1 품사와, 상기 제1 품사와 연관 관계를 일으키는 모든 제2 품사를 추출하는 단계와,

추출된 상기 모든 제1 품사 및 상기 모든 제2 품사를 그 행 또는 열의 지표로 하는, 크기가 제1 품사수×제2 품사수의 행렬을 생성하는 단계와,

상기 행렬의 각 요소에, 그 요소를 지표하는 제1 품사 및 제2 품사간의 연관 관계의 출현 빈도를 대입하는 단계와,

상기 문서 데이터를 기초로 생성된 행렬로부터, 상기 대상어에 일치하는 제1 품사를 지표로 하는 행 또는 열의 각 요소를 추출하여, 대상어 벡터로 하는 단계와,

상기 문서 데이터 또는 부분 데이터를 기초로 생성된 행렬로부터, 임의의 행 또는 열의 각 요소를 추출하여, 그것이 지표하는 제1 품사의 벡터로 하는 단계와,

상기 제1 품사 벡터와 상기 대상어 벡터를 사용하여 그 제1 품사의 상기 대상어와의 유사도를 구하는 단계에 의해 실현할 수 있는 데이터 처리 방법.
제6항에 있어서, 상기 제1 품사는 명사이고, 상기 제2 품사는 동사, 형용사,형용동사 기타 상기 명사와의 연관 관계를 일으키는 품사인 데이터 처리 방법.
제4항에 있어서, 상기 문서 데이터 또는 상기 부분 데이터에, 문서 템플릿을 이용하여 작성된 개소가 포함되는 경우에는, 상기 문서 템플릿을 이용한 개소를 상기 문서 데이터 또는 부분 데이터로부터 삭제하는 단계를 포함하는 데이터 처리 방법.
제4항에 있어서, 상기 문서 데이터 또는 상기 부분 데이터에, 동일 또는 유사한 화제에 대한 일련의 문 또는 문서가 포함되는 경우, 그 일련의 문 또는 문서별로 단어의 출현 빈도를 정규화하는 단계를 포함하는 데이터 처리 방법.
제4항에 있어서, 상기 문서 데이터 또는 상기 부분 데이터에 출현하는 명사의 출현 빈도가 소정의 빈도보다 낮은 경우, 상기 유사도의 계산 대상으로부터 상기 명사를 제거하는 단계를 갖는 데이터 처리 방법.
문서 데이터로 사용되고 있는 대상어에 대한 동의어 후보를 생성하는 데이터 처리 시스템으로서,

상기 문서 데이터의 전체를 기초로, 상기 대상어에 대한 동의어 후보의 제1 집합을 생성하는 수단과,

상기 문서 데이터의 적어도 하나의 부분을 기초로, 상기 대상어에 대한 동의어 후보의 적어도 하나의 제2 집합을 생성하는 수단과,

상기 제1 집합에 포함되는 동의어 후보를, 상기 제2 집합에 포함되는 동의어 후보로 범위를 축소하는 수단을 가지며,

상기 범위 축소 수단에서는, 소정의 기준에 따라 상기 제2 집합내의 동의어 후보가 상기 대상어의 동의어에 해당하는지 여부를 판정하여, 어느 제2 집합에 있어서 그 부분내에서 동의어라고 판정된 경우를 제외하고, 동의어라고 판정되지 않은 상기 제2 집합내의 단어에 일치하는 단어를 상기 제1 집합내의 동의어 후보로부터 제거함으로써 동의어 후보를 생성하는 데이터 처리 시스템.
제11항에 있어서, 상기 문서 데이터의 부분은 특정 필자에 의해 작성된 문으로만 이루어진 문서 데이터인 데이터 처리 시스템.
제12항에 있어서, 상기 소정의 기준은 유사도이며, 상기 특정 동의어라고 판정되는 단어는 상기 제2 집합에 있어서, 상기 대상어와의 유사도가 가장 높은 동의어 후보인 데이터 처리 시스템.
필자가 상이한 문을 포함하는 문서 데이터 및 단일 필자에 의해 작성된 문만을 포함하는 그 필자마다의 적어도 하나의 부분 데이터를 입력하는 수단과,

상기 문서 데이터 또는 부분 데이터에 포함되는 단어를 추출하고, 그 추출된 단어와 상기 문서 데이터에 포함되는 대상어와의 유사도를 계산하는 수단과,

상기 유사도가 높은 순으로 상위 소정수의 그 추출된 단어를 그 요소로 하는 집합을 생성하는 동의어 후보 생성 수단과,

상기 문서 데이터에 기초하여 상기 동의어 후보 생성 수단으로 생성된 제1 집합과, 상기 부분 데이터에 기초하여 상기 동의어 생성 수단으로 생성된 상기 필자별 제2 집합을 기록하는 수단과,

상기 제1 집합에 포함되는 단어 중, 어느 상기 제2 집합에 있어서 임계치 순위 이상의 고순위에 랭크되어 있는 단어와 일치하는 단어를 「절대적」이라고 평가하고, 상기 「절대적」이라고 평가된 단어 이외의 상기 제1 집합에 포함되는 단어 중, 어느 상기 제2 집합에 있어서 상기 임계치 순위보다 하위에 랭크되어 있는 단어와 일치하는 단어를 「부정적」이라고 평가하는 수단과,

상기 「부정적」이라고 평가된 단어 이외의 상기 제1 집합의 단어로부터 상기 대상어에 대한 동의어 후보를 생성하는 수단을 포함하는 데이터 처리 시스템.
제14항에 있어서, 상기 임계치 순위는 1위인 데이터 처리 시스템.
제14항에 있어서, 상기 유사도의 계산 수단에는,

상기 문서 데이터 또는 부분 데이터로부터, 모든 제1 품사와, 상기 제1 품사와 연관 관계를 일으키는 모든 제2 품사를 추출하는 수단과,

추출된 상기 모든 제1 품사 및 상기 모든 제2 품사를 그 행 또는 열의 지표로 하는, 크기가 제1 품사수×제2 품사수의 행렬을 생성하는 수단과,

상기 행렬의 각 요소에, 그 요소를 지표하는 제1 품사 및 제2 품사간의 연관 관계의 출현 빈도를 대입하는 수단과,

상기 문서 데이터를 기초로 생성된 행렬로부터, 상기 대상어에 일치하는 제1 품사를 지표로 하는 행 요소를 추출하여, 대상어 벡터로 하는 수단과,

상기 문서 데이터 또는 부분 데이터를 기초로 생성된 행렬로부터, 임의의 행요소를 추출하여, 그것이 지표하는 제1 품사의 벡터로 하는 수단과,

상기 제1 품사 벡터와 상기 대상어 벡터를 사용하여 그 제1 품사의 상기 대상어와의 유사도를 구하는 수단을 포함하는 데이터 처리 시스템.
제16항에 있어서, 상기 제1품사는 명사이고, 상기 제2품사는 동사, 형용사, 형용동사 기타 상기 명사와의 연관 관계를 일으키는 품사인 데이터 처리 시스템.
제14항에 있어서, 상기 문서 데이터 또는 상기 부분 데이터에, 문서 템플릿을 이용하여 작성된 개소가 포함되는 경우에는, 상기 문서 템플릿을 이용한 개소를 상기 문서 데이터 또는 부분 데이터로부터 삭제하는 수단을 포함하는 데이터 처리 시스템.
제14항에 있어서, 상기 문서 데이터 또는 상기 부분 데이터에, 동일 또는 유사 화제에 대한 일련의 문 또는 문서가 포함되는 경우, 상기 일련의 문 또는 문서별로 단어의 출현 빈도를 정규화하는 수단을 포함하는 데이터 처리 시스템.
제14항에 있어서, 상기 문서 데이터 또는 상기 부분 데이터에 출현하는 명사의 출현 빈도가 소정의 빈도보다 낮은 경우, 상기 유사도의 계산 대상으로부터 상기 명사를 제거하는 수단을 갖는 데이터 처리 시스템.
문서 데이터로 사용되고 있는 대상어에 대한 동의어 후보를 컴퓨터에 의해 생성시키기 위한 컴퓨터 판독 가능한 프로그램으로서,

상기 문서 데이터의 전체를 기초로, 상기 대상어에 대한 동의어 후보의 제1 집합을 생성하는 기능과,

상기 문서 데이터의 적어도 하나의 부분을 기초로, 상기 대상어에 대한 동의어 후보의 적어도 하나의 제2 집합을 생성하는 기능과,

상기 제1 집합에 포함되는 동의어 후보를, 상기 제2 집합에 포함되는 동의어 후보로 범위를 축소하는 기능을 실현하고,

상기 범위 축소 기능에서는, 소정의 기준에 따라 상기 제2 집합내의 동의어 후보가 상기 대상어의 동의어에 해당하는지 여부를 판정하여, 어느 제2 집합에 있어서 그 부분내에서 동의어라고 판정된 경우를 제외하고, 동의어라고 판정되지 않은 상기 제2 집합내의 단어에 일치하는 단어를 상기 제1 집합내의 동의어 후보로부터 제거함으로써 동의어 후보를 생성하는 기능을 실현하는 프로그램.
필자가 상이한 문을 포함하는 문서 데이터를 기초로, 상기 문서 데이터로 사용되고 있는 대상어에 대한 동의어 후보를 컴퓨터에 생성시키기 위한 컴퓨터 판독 가능한 프로그램으로서,

단일 필자에 의한 문만을 포함하는 상기 문서 데이터의 적어도 하나의 부분 데이터를 그 필자별로 생성 또는 준비하는 기능과,

상기 문서 데이터에 포함되는 단어를 추출하고, 그 추출된 단어와 상기 대상어와의 유사도를 계산하여, 유사도가 높은 순으로 상위 소정수의 그 추출된 단어를 그 요소로 하는 동의어 후보의 제1 집합을 생성하는 기능과,

상기 부분 데이터에 포함되는 단어를 추출하고, 그 추출된 단어와 상기 대상어와의 유사도를 계산하여, 유사도가 높은 순으로 상위 소정수의 그 추출된 단어를 그 요소로 하는 동의어 후보의 제2 집합을 상기 필자별로 생성하는 기능과,

상기 제1 집합에 포함되는 단어 중, 어느 상기 제2 집합에 있어서 임계치 순위 이상의 고순위에 랭크되어 있는 단어와 일치하는 단어를 「절대적」이라고 평가하는 기능과,

상기 「절대적」이라고 평가된 단어 이외의 상기 제1 집합에 포함되는 단어 중, 어느 상기 제2 집합에 있어서 상기 임계치 순위보다 하위에 랭크되어 있는 단어와 일치하는 단어를 「부정적」이라고 평가하는 기능과,

상기 「부정적」이라고 평가된 단어 이외의 상기 제1 집합의 단어로부터 상기 대상어에 대한 동의어 후보를 생성하는 기능을 실현하기 위한 프로그램.