KR20180077261A

KR20180077261A - 자동질문응답시스템 질문 클러스터링 처리방법 및 장치

Info

Publication number: KR20180077261A
Application number: KR1020187015559A
Authority: KR
Inventors: 지안종 왕; 웨이퀴앙 유안; 마오쿤 한; 징 시아오
Original assignee: 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date: 2016-11-14
Filing date: 2017-08-30
Publication date: 2018-07-06
Also published as: JP6634515B2; AU2017329098A1; AU2017329098B2; SG11201802373WA; JP2019504371A; EP3540612A1; EP3540612A4; US20190073416A1; KR102113413B1; WO2018086401A1; CN107656948B; CN107656948A

Abstract

본 발명은 자동질문응답시스템 질문 클러스터링 처리방법 및 장치에 관한 것으로서, 그 처리방법에 있어서, 작성자가 입력한 클러스터링 요구의 수신; 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득하는 과정; 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문집합에 대해 진행하는 특징 추출 및 질문 특징집합의 출력; 질문 특징집합의 프리셋 분할조건 부합여부의 판단; 프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 질문 특징집합에 대해 진행하는 분할 클러스터링 및 적어도 2개 질문 특징 부분집합의 출력; 질문 특징 부분집합을 질문 특징집합으로 업데이트하는 과정 및 질문 특징집합의 프리셋 분할조건 부합여부의 판단; 프리셋 분할조건에 부합되지 않을 경우, 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는 것이 포함된다. 본 자동질문응답시스템 질문 클러스터링 처리방법 및 장치에 있어서, 클러스터링 대기 질문집합을 자동으로 클러스터링하여 작성자를 도와 질문 조회수요를 요해하고 작성한 Q&A의 적용범위를 확대할 수 있다.

Description

자동질문응답시스템 질문 클러스터링 처리방법 및 장치

본 발명은 텍스트 정보처리 분야에 속하는 것으로서, 특히 자동질문응답시스템 질문 클러스터링 처리방법 및 장치에 관한 것이다.

자동질문응답시스템(Question and Answering, "QA"라 약함)은 지식 표현, 정보 검색, 자연언어 처리 등 기술을 통합적으로 이용하여 사용자가 자연언어로 입력한 질문을 수신한 후 즉시 간결하고 정확하게 회답할 수 있는 시스템이다. 전통적인 검색엔진에 비해 자동질문응답시스템은 보다 편리하고 보다 정확한 장점을 가지고 있으며 현재 자연언어 처리 및 인공지능 분야에서 인기 연구항목에 속한다.

일반적으로 자동질문응답시스템에 FAQ 데이터베이스(Frequently-Asked Question, "FAQ"라 약함)을 미리 설정해야 하며 FAQ 데이터베이스에 적어도 1개의 Q&A를 저장하며 각 Q&A에는 사용자가 자주 제출하는 질문과 답안이 포함된다. 사용자가 질문을 입력하면 FAQ 데이터베이스에 동일 질문 존재여부에 대해 자동질문응답시스템이 판단하고; 동일한 질문이 존재하면 FAQ 데이터베이스 중의 관련 답안을 직접 사용자에게 발송하여 자동질문응답시스템의 처리효율과 정확도를 향상하고; 동일한 질문이 존재하지 않으면 관련 답안을 직접 발송할 수 없기 때문에 인공으로 회답하거나 기타 처리를 해야 하므로 자동질문응답시스템의 처리효율과 정확도가 떨어진다. 자동질문응답시스템은 질문 답변 정확도와 적시성이 높기 때문에 고객서비스 및 기타 인공지능 분야에서 비교적 많이 응용되고 있다. 하지만 적시에 정확히 답변하기 위해서는 자동질문응답시스템FAQ 데이터베이스에 관련 Q&A가 있어야 하고 FAQ 데이터베이스 중의 Q&A가 보다 풍부하고 적용범위가 넓을수록 자동질문응답시스템의 답변 정확도와 효율이 보다 높게 된다. 요약하자면 자동질문응답시스템의 핵심은 Q&A의 작성에 있다.

기존 자동질문응답시스템의 Q&A는 일반적으로 "작성자가 질문을 작성하고, 답변자가 질문에 회답하는 방식"을 취하여 질문과 답안이 대응되는 Q&A를 형성한다. 질문 작성 시, 작성자가 일반적으로 본인의 경험, 지식 및 기억 등 요소에 의존하기 때문에 국한성이 존재하므로 작성자가 작성한 질문 포괄범위가 제한되어 사용자가 관심하는 질문을 완벽하고 신속하게 커버할 수 없다. 따라서 FAQ 데이터베이스에 저장된 Q&A가 사용자 수요를 충분히 만족시킬 수 없고 작성자가 질문을 작성하는 과정에서 많은 인건비와 시간적 소모가 발생하게 되고 효율이 낮아진다.

본 발명은 작성자가 작성한 문제 적용범위가 제한되어 있는 기존 자동질문응답시스템의 문제점을 해결하기 위한 것으로, 그 목적은 자동질문응답시스템 질문 클러스터링 처리방법 및 장치를 제공하고, 사용자가 관심하는 질문에 대해 클러스터링 처리를 진행하여 질문 설계 적용범위를 확대하고 Q&A 지능형 설계를 실현하고자 한다.

상기한 목적을 달성하기 위한 구체적인 수단으로서 본 발명은, 자동질문응답시스템 질문 클러스터링 처리방법에 있어서,

작성자가 입력한 클러스터링 요구를 수신하고;

상기 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 적어도 1개의 클러스터링 대기 질문이 포함된 클러스터링 대기 질문집합을 취득하고;

적어도 한 개의 질문특징을 포함한 상기 클러스터링 대기 질문집합에 대해 텍스트 특징 추출 알고리즘으로 특징 추출을 진행하고, 질문 특징집합을 출력하며;

상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하고;

프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대한 분할 클러스터링을 진행하고 적어도 2개 질문 특징 부분집합을 출력하며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하며;

프리셋 분할조건에 부합되지 않을 경우, 상기 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는 것을 포함한다.

본 발명의 자동질문응답시스템 질문 클러스터링 처리장치에 있어서,

클러스터링 요구 수신유닛은 작성자가 입력한 클러스터링 요구 수신에 사용되고;

클러스터링 질문집합 취득유닛은 미응답 질문 데이터베이스에서 상기 클러스터링 요구에 따라 적어도 1개의 클러스터링 대기 질문이 포함된 클러스터링 대기 질문집합을 취득하는데 사용되고;

특징추출유닛은 적어도 한 개의 질문특징을 포함한 상기 클러스터링 대기 질문집합에 대해 텍스트 특징 추출 알고리즘으로 진행하는 특징 추출 및 질문 특징집합의 출력에 사용되고;

분할판단유닛은 상기 질문 특징집합의 프리셋 분할조건 부합여부의 판단에 사용되고;

제1처리유닛은 상기 질문 특징집합이 프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대해 분할 클러스터링을 진행하고 적어도 2개 질문 특징 부분집합을 출력하는데 사용되며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하는 과정 및 상기 질문 특징집합의 프리셋 분할조건 부합여부의 판단에 사용되며;

제2처리유닛은 상기 질문 특징집합이 프리셋 분할조건에 부합되지 않을 경우 상기 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는데 사용된다.

본 발명의 컴퓨터 판독가능 저장매체에 있어서,

상기 컴퓨터 판독가능 저장매체에는 컴퓨터 프로그램이 저장되었고, 프로세스가 상기 컴퓨터 프로그램을 실행할 함에 있어서,

작성자가 입력한 클러스터링 요구를 수신하고;

프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대해 분할 클러스터링을 진행하고, 적어도 2개 질문 특징 부분집합을 출력하며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하며;

프리셋 분할조건에 부합되지 않을 경우, 상기 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는 것이 포함된다.

본 발명의 메모리, 프로세서 및 상기 메모리에 저장되어 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함한 서버에 있어서,

상기 프로세서가 컴퓨터 프로그램을 실행함에 있어서,

작성자가 입력한 클러스터링 요구를 수신하고;

적어도 한 개의 질문특징을 포함한 상기 클러스터링 대기 질문집합에 대해 텍스트 특징 추출 알고리즘으로 특징 추출을 진행하고 질문 특징집합을 출력하고;

프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대해 분할 클러스터링을 진행하고 적어도 2개 질문 특징 부분집합을 출력하며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 상기 질문 특징집합의 프리셋 분할조건 부합여부을 판단하며;

상기한 바와 같은 본 발명은 기존 기술에 비해 다음과 같은 효과가 있다.

본 발명에서 개시한 자동질문응답시스템 질문 클러스터링 처리방법 및 장치는 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득한 후, 클러스터링 대기 질문집합에 대해 자동 클러스터링을 진행하고 작성자를 도와 질문 조회 요구를 요해하고, Q&A의 적용범위를 향상하며, 자동질문응답시스템의 전체적 응답능력을 향상시킨다. 본 자동질문응답시스템 질문 클러스터링 처리방법 및 장치는 클러스터링 대기 질문집합에 대해 특징 취득을 진행한 후, 프리셋 분할조건 부합여부를 판단해야 하며, 프리셋 분할조건에 부합되면 분할 클러스터링 알고리즘으로 분할 클러스터링을 진행하고, 프리셋 분할조건에 부합되지 않으면 질문 특징집합의 동적변화 응용조건을 만족시키어 층차별 클러스터링 처리를 실현하여, 출력한 클러스터링 클러스터 내부 질문의 유사성을 확보하고, 수동으로 매개변수를 조절하는 복잡한 조작을 피한다.

첨부 도면 및 실시예와 결부하여 본 발명에 대해 추가 설명을 진행한다.
도 1은 본 발명의 실시예1에서 제공하는 자동질문응답시스템 질문 클러스터링 처리방법 흐름도이다.
도 2는 본 발명의 실시예2에서 제공하는 자동질문응답시스템 질문 클러스터링 처리장치 기능구성도이다.
도 3은 본 발명의 실시예에서 제공하는 서버 설명도이다.

상술한 본 발명의 기술특징, 목적, 효과는 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.

실시예 1

도 1은 본 실시예에 의한 자동질문응답시스템 질문 클러스터링 처리방법을 보여준다. 본 자동질문응답시스템에는 서버, 서버와 통신 연결된 클라이언트 단말 및 백그라운드 서비스 단말이 포함되며; 그중 FAQ 데이터베이스는 서버에 저장되어 있다. 클라이언트 단말은, 고객이 자연언어 또는 기타 방식으로 입력한 질문을 수신한 후, 질문을 서버에 발송하고 서버가 피드백한 답안을 수신 및 표시하는데 사용된다. 서버는 클라이언트 단말이 발송한 질문에 의거하여 FAQ 데이터베이스에 그에 대응한 Q&A가 있는지 없는지를 조회하는데 사용되고; 대응한 Q&A가 존재하면 답안을 클라이언트 단말에 발송하고; 대응한 Q&A가 존재하지 않으면 질문을 백그라운드 서비스 단말에 발송한 후, 백그라운드 서비스 단말이 질문을 수신하고 그 질문을 클라이언트 단말에 발송한다. 백그라운드 서비스 단말은 작성자가 입력한 문제를 수신하고 표시하는데 사용될 뿐만 아니라 서버가 발송한 문제를 수신하고 표시하는데 사용되며 답변자가 입력한 답안을 수신한 후 서버에 업로드하는 것에도 사용된다. 본 실시예에서 제공하는 자동질문응답시스템 질문 클러스터링 처리방법은 고객이 서버에 업로드한 질문을 클러스터링하여 작성자가 고객의 조회 요구를 보다 깊게 요해하게 하고, 자동질문응답시스템 FAQ 데이터베이스 중의 Q&A를 개선하고, 자동질문응답시스템의 전체적인 질문응답 기능을 향상시킨다. 그중 클러스터링은 물리적 또는 추상적 객체의 집합을 유사한 객체로 구성된 여러 개의 클래스로 분할하는 과정을 의미하며; 유사한 객체로 구성된 클래스를 클러스터링 클러스터라고 부른다.

본 자동질문응답시스템 질문 클러스터링 처리방법에는 다음과 같은 내역이 포함된다.

S1: 작성자가 입력한 클러스터링 요구를 수신한다. 작성자가 클러스터링 요구를 입력하면 자동질문응답시스템이 클러스터링 요구에 따라 사용자 조회요구를 취득하고, 자동질문응답시스템 FAQ 데이터베이스에 질문을 설정한다. 구체적으로는, 백그라운드 서비스 단말이 작성자가 출력한 클러스터링 요구를 수신한 후, 클러스터링 요구를 서버에 발송하며; 그중 클러스터링 요구는 HTTP 요구에 속한다.

S2: 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득하며, 클러스터링 대기 질문집합에는 적어도 1개의 클러스터링 대기 질문이 포함된다. 구체적으로는, 서버가 클러스터링 요구를 수신한 후, 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 미응답 질문집합을 취득하여 클러스터링 대기 질문집합으로 간주하여 출력하고, 그중 클러스터링 대기 질문집합에는 적어도 1개의 클러스터링 대기 질문이 포함되며, 각 클러스터링 대기 질문은 자동질문응답시스템에서 응답하지 않은 질문에 속한다. 자동질문응답시스템에서 고객이 클라이언트 단말을 통해 자연언어로 질문을 입력하여 서버에 업로드한 후, 서버 FAQ 데이터베이스에 그에 대응한 Q&A가 존재하면 답안을 직접 클라이언트 단말에 피드백하고; 서버 FAQ 데이터베이스에 그에 대응한 Q&A가 없으면 답안을 직접 클라이언트 단말에 피드백할 수 없고, 관련 질문에 미응답 라벨을 추가하고, 미응답 라벨이 달린 질문을 전부 미응답 질문 데이터베이스에 저장한다.

본 실시예에서, 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득하고, 클러스터링 대기 질문집합 중의 각 클러스터링 대기 질문 전부를 고객이 클라이언트 단말을 통해 업로드하고, 시스템이 자동으로 응답하지 않은 미응답 질문에 속하기 때문에, 클러스터링 요구에 따라 취득한 클러스터링 대기 질문집합이 고객이 관심하는 질문을 보다 정확하게 체현할 수 있고, 클러스터링 대기 질문집합에 의거하여 Q&A를 작성할 때, Q&A의 적용범위를 보다 확대할 수 있다.

특정 실시예에서, 본 클러스터링 요구는 시간 범위 필드를 포함할 수 있고, 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득할 때 클러스터링 요구의 시간범위 필드 내의 모든 미응답 질문만 추출한 후 클러스터링 대기 질문집합으로 간주하며, 추출한 클러스터링 대기 질문집합이 시간성을 가지게 하고, 작성자가 백그라운드 서비스 단말을 통해 시간필드 내 고객이 주목하는 질문을 요해할 수 있게 한다. 이해할 수 있듯이, 작성자가 백그라운드 서비스 단말을 통해 업로드한 클러스터링 요구에 시간범위 필드가 포함되지 않으면, 미응답 질문 데이터베이스 중의 모든 미응답 질문을 디폴트로 취득한 후 클러스터링 대기 질문집합으로 간주한다.

S3: 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문집합에 대해 특징 추출을 진행하고, 질문 특징집합을 출력하며, 질문 특징집합에는 적어도 1개의 질문 특징이 포함된다. 구체적으로는, 서버가 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득한 후, 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문에 대해 특징 추출을 진행하고, 클러스터링 대기 질문집합에 자연언어로 저장된 클러스터링 대기 질문을, 구조화한 컴퓨터 판독처리 가능한 질문 특징집합으로 전환시키며, 질문 특징집합 중의 각 질문 특징은 전부 컴퓨터가 판독 가능한 텍스트 정보에 속한다.

특정 실시예에서, 절차 S3은 구체적으로 다음 내역을 포함한다.

S31: IT-IDF 알고리즘을 이용한 벡터 공간모형으로 클러스터링 대기 질문집합에 대해 특징 추출을 진행하고, 초기 특징집합을 출력한다. IT-IDF(term frequency-inverse document frequency, 즉 어휘빈도 - 역파일 빈도)알고리즘은 정보검색과 데이터 마이닝에 사용되는 가중 알고리즘이다. 절차 S31에는, 클러스터링 대기 질문집합 중의 모든 클러스터링 대기 질문에 포함된 모든 어휘의 어휘빈도(IT)와 역파일 빈도(IDF)를 각각 계산하고, 어휘빈도(IT)와 역파일 빈도(IDF)를 이용하여 IT-IDF치를 계산하고, IT-IDF치에 의거하여 클러스터링 대기 질문집합에 대응한 초기 특징집합을 확정하는 것이 포함된다. 어휘빈도(IT)는 어휘가 문장에 나타나는 횟수에서 문장 중의 총 어휘 수량을 나눈 값을 의미한다. 역파일 빈도(IDF)는 시뮬레이션 언어 환경의 어휘 데이터베이스에 포함된 파일 수량에서 해당 어휘를 포함한 파일 수량을 나눈 값의 로그치를 의미한다. 이해할 수 있듯이, 분모가 0이 되는 것을 피하기 위해 (즉, 어휘 데이터베이스 중의 모든 문서에 해당 어휘가 존재하지 않을 경우), 해당 어휘가 포함된 파일수와 상수의 합을 분모로 할 수 있다. IT-IDF치는 어휘빈도(IT)와 역파일 빈도(IDF)의 승적을 의미한다. 이해할 수 있듯이, 한 어휘의 IT-IDF치가 클수록 그 중요성도 더 크게 된다.

S32: LSI 모형을 이용하여 초기 특징집합에 대해 특징 매핑을 진행하고, 질문 특징집합을 출력한다. IT-IDF 알고리즘의 벡터 공간모형은 일반적으로 파일이나 문장을 고차원 스파스 벡터로 표시하는데 사용되며, 아주 긴 질문 텍스트에 대해서는 IT-IDF 알고리즘만으로 클러스터링 대기 질문집합의 특징 추출을 진행하고, 출력한 초기 특징집합이 질문 특징을 충분히 표현하지 못하기 때문에, LSI 모형을 이용하여 초기 특징집합에 대해 특징 매핑을 진행하고, 최종 질문 특징집합을 출력해야 한다. 그중 LSI(Latent Semantic Index, 잠재적 어의 색인) 모형이란 2개 또는 2개 이상의 어휘가 한 개 파일 중에 대량 출현하면, 2개 또는 2개 이상의 어휘의 어의가 연관성이 있다고 판단하며, LSI 모형으로 통계한 후, 관련 어휘로 잠재적 테마를 구성하여 어휘 클러스터링을 실현하고 차원을 감소하는 것을 의미한다.

특정 실시예에서, 절차 S3 실행 전에 텍스트 전처리 알고리즘으로 클러스터링 대기 질문집합에 대해 전처리를 진행한다. 텍스트 전처리 알고리즘에는 번체와 간체의 통일, 대소문자 통일, 중국어 분사와 금지어 제거 중 적어도 한가지가 포함된다. 중국어 분사(Chinese Word Segmentation) 란 한자 순서를 한 개의 독립적인 단어로 분할하는 것을 의미한다. 금지어(Stop Words)란 자연언어 데이터 처리 시, 자동으로 여과해 버리는 일부 글자와 단어를 의미하는 바, 예를 들면 영어 자모, 숫자, 숫자, 표기, 기호 및 사용 빈도가 아주 높은 한자 등이 포함된다. 텍스트 전처리 알고리즘으로 클러스터링 질문에 대해 전처리를 진행하면 저장 공간을 절약하고 처리효율을 향상시킬 수 있다. 본 실시예에서, 텍스트 전처리 알고리즘으로 클러스터링 대기 질문집합에 대해 진행한 전처리 결과는 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문집합에 대해 진행하는 향후의 특징 추출 효과에 직접적인 영향을 미친다.

S4: 질문 특징집합이 프리셋 분할조건에 부합되는지를 판단한다. 구체적으로는, 서버가 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문에 대해 특징 추출을 진행하고 질문 특징집합을 출력한 후, 질문 특징집합이 프리셋 분할조건에 부합되는지를 판단하여 질문 특징집합이 약간 개의 질문 특징 부분집합으로 분할될 수 있는지 확인한다.

특정 실시예에서, 절차 S4에는 구체적으로, 질문 특징집합이 적어도 2개 분할 클러스터링 중심에 의해 적어도 2개 질문 특징 부분집합으로 분할할 수 있는지를 판단한 후, 질문 특징집합 중의 각 점에서 원시 클러스터링 중심까지의 평균거리가, 각 질문 특징 부분집합 중의 각 점에서 분할 클러스터링 중심까지의 평균거리보다 크게 만들고; 클 경우에는 프리셋 분할조건에 부합되고; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않는 것이 포함된다. 그중 원시 클러스터링 중심은 질문 특징집합의 클러스터링 중심에 속한다.

다른 한 특정 실시예에서, 절차 S4에는, 질문 특징집합의 질문 특징 수량이 프리셋 분할 수량보다 큰지를 판단하고, 클 경우 프리셋 분할조건에 부합되며; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않는 것이 포함된다. 해당 특정 실시예에서는 특정된 질문 특징집합 중의 질문 특징 수량이 프리셋 분할 수량보다 큰지를 판단할 때, "질문 특징집합 중의 질문 특징 수량이 프리셋 분할 수량보다 커야만 지속적으로 분할할 수 있다"는 전략을 취한다. 본 실시예에서는, 미응답 질문 데이터베이스 중의 모든 질문 수량의 제곱근을 프리셋 분할 수량으로 설정할 수 있다.

S5: 프리셋 분할조건에 부합되면 분할 클러스터링 알고리즘으로 질문 특징집합에 대해 분할 클러스터링을 진행하고, 적어도 2개 질문 특징 부분집합을 출력하며; 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 질문 특징집합이 프리셋 분할조건에 부합되는지를 판단한다. 서버가 질문 특징집합의 프리셋 분할조건 부합여부를 판단할 때, K-means 알고리즘, K-medoids 알고리즘 및 CLARANS 알고리즘 등 분할 클러스팅 알고리즘으로 질문 특징집합에 대해 분할 클러스팅을 진행하여, 질문 특징집합을 적어도 2개 질문 특징 부분집합으로 분할하고, 임의의 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 절차 S4를 반복한다.

본 실시예에서 제공하는 자동질문응답시스템 질문 클러스터링 처리방법 중, 질문 특징집합 중의 질문 특징은 짧은 텍스트에 속하며, K-means 알고리즘으로 질문 특징집합에 대해 분할 클러스터링을 진행할 때 K치를 2로 하며, 번마다 질문 특징집합을 2개의 질문 특징 부분집합으로 분할하고, 각 질문 특징 부분집합을 질문 특징집합으로 업데이트한 후, 절차 S4을 반복적으로 실행한다. K-means 알고리즘에서 K치는 일반적으로 사전에 지정하며, 실행과정에서 동적 조절을 진행할 수 없으며, 클러스터링 요구에 따라 취득한 클러스터링 대기 질문집합에 동적변화가 발생하고 그에 대응한 질문 특징집합에도 동적변화가 발생할 경우, 사전에 지정한 K치는 동적변화가 발생하는 질문 특징집합에 적용되지 않으며; 따라서 특정 실시예에서, 우선 질문 특징집합의 프리셋 분할조건 부합여부를 판단해야 하며, 프리셋 분할조건에 부합될 때에만 K-means 알고리즘으로 분할 클러스터링을 진행하여, 질문 특징집합의 동적변화 요구를 만족시킨다.

S6: 프리셋 분할조건에 부합되면 질문 특징집합을 클러스터링 클러스터로 간주하여 출력한다. 서버가 질문집합이 프리셋 분할조건에 부합되지 않는다고 판단하면, 질문 특징집합을 클러스터링 클러스터로 간주하여 백그라운드 서비스 단말에 출력한다. 그중 클러스터링 클러스터는 질문 최소단위에 속한다. 클러스터링 클러스터를 백그라운드 서비스 단말에 발송한 후, 백그라운드 서비스 단말이 클러스터링 클러스터를 수신하고 표시하여, 작성자가 클러스터링 클러스터에 의거하여 고객 조회 수요를 보다 명확하게 요해할 수 있게 하며, 새 Q&A를 설계하고, Q&A를 FAQ 데이터베이스에 저장한다.

S7: 클러스터링 클러스터에 대해 데이터베이스 필드 정합처리를 진행하고, 처리 후 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 저장한다. 텍스트 전처리 알고리즘으로 클러스터링 대기 질문집합에 대해 전처리를 진행하고 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문집합에 대해 특징 추출을 진행한 후, 출력한 클러스터링 클러스터가 미응답 질문 데이터베이스에서 취득한 클러스터링 질문의 텍스트 격식과 다르면 클러스터링 클러스터와 클러스터링 대기 질문을 연결시키고, 클러스터링 클러스터에 대해 데이터베이스 필드 정합처리를 진행하고, 클러스터링 클러스터를 처리하여 클러스터링 질문 데이터베이스 중의 필드와 일치한 격식으로 만들어, 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 더 간편하고 빠르게 저장한다.

본 실시예에서 제공하는 자동질문응답시스템 질문 클러스터링 처리방법에 있어서, 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득하며, 클러스터링 대기 질문집합에 대해 자동 클러스터링을 진행하고, 작성자를 도와 질문 조회 요구를 요해하고, 작성한 Q&A의 적용범위를 확대하고, 전체적인 응답 기능을 향상시킨다. 본 자동질문응답시스템 질문 클러스터링 처리방법에서, 클러스터링 대기 질문집합에 대해 특징 추출을 진행한 후, 질문 특징집합의 프리셋 분할조건 부합여부를 판단해야 하며, 프리셋 분할조건에 부합될 경우 분할 클러스터링 알고리즘으로 분할 클러스터링을 진행하고, 프리셋 분할조건에 부합되지 않을 경우 분할 클러스터링을 자동정지하여, 질문 특징집합의 동적변화 응용조건을 만족시키고, 층차별 클러스터링 처리를 실현하며, 출력한 클러스터링 클러스터 내부 질문의 유사성을 보장할 수 있으며, 클러스터링 효과가 비교적 좋고, 수동으로 매개변수를 조절하는 복잡한 조작을 피할 수 있다.

실시예 2

도 2는 본 실시예에 의한 자동질문응답시스템 질문 클러스터링 처리장치를 보여준다. 본 자동질문응답시스템에는 서버, 서버와 통신 연결된 클라이언트 단말 및 백그라운드 서비스 단말이 포함되며; 그중 FAQ 데이터베이스는 서버에 저장되어 있다. 클라이언트 단말은, 고객이 자연언어 또는 기타 방식으로 입력한 질문을 수신한 후, 질문을 서버에 발송하고 서버가 피드백한 답안을 수신 및 표시하는데 사용된다. 서버는 클라이언트 단말이 발송한 질문에 의거하여 FAQ 데이터베이스에 그에 대응한 Q&A가 있는지 없는지를 조회하는데 사용되고; 대응한 Q&A가 존재하면 답안을 클라이언트 단말에 발송하고; 대응한 Q&A가 존재하지 않으면 질문을 백그라운드 서비스 단말에 발송한 후, 백그라운드 서비스 단말이 질문을 수신하고 그 질문을 클라이언트 단말에 발송한다. 백그라운드 서비스 단말은 작성자가 입력한 문제를 수신하고 표시하는데 사용될 뿐만 아니라 서버가 발송한 문제를 수신하고 표시하는데 사용되며 답변자가 입력한 답안을 수신한 후 서버에 업로드하는 것에도 사용된다. 본 실시예에서 제공한 자동질문응답시스템 질문 클러스터링 처리장치는 고객이 서버에 업로드한 질문을 클러스터링하여, 작성자가 고객 조회 요구를 보다 명확히 요해하게 하며, 자동질문응답시스템 FAQ 데이터베이스 중의 Q&A를 개선하고, 자동질문응답시스템의 전체적인 질문응답 기능을 향상시킨다. 그중 클러스터링은 물리적 또는 추상적 객체의 집합을 유사한 객체로 구성된 여러 개의 클래스로 분할하는 과정을 의미하며; 유사한 객체로 구성된 클래스를 클러스터링 클러스터라고 부른다. 본 자동질문응답시스템 질문 클러스터링 처리장치에는, 클러스터링 요구 수신유닛(10), 클러스터링 질문집합 취득유닛(20), 특징추출유닛(30), 분할판단유닛(40), 제1처리유닛(50), 제2처리유닛(60), 전처리유닛(70) 및 정합처리유닛(80)이 포함된다.

클러스터링 요구 수신유닛(10)은 작성자가 입력한 클러스터링 요구를 수신하는데 사용된다. 작성자가 클러스터링 요구를 입력하면 자동질문응답시스템이 클러스터링 요구에 따라 사용자 조회 요구를 간편하게 취득할 수 있고, 자동질문응답시스템 FAQ 데이터베이스에 질문을 설정한다. 구체적으로는, 백그라운드 서비스 단말이 작성자가 출력한 클러스터링 요구를 수신한 후, 클러스터링 요구를 서버에 발송하며; 그중 클러스터링 요구는 HTTP 요구에 속한다.

클러스터링 질문집합 취득유닛(20)은 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득하는데 사용되며, 클러스터링 대기 질문집합에는 적어도 1개의 클러스터링 대기 질문이 포함된다. 구체적으로는, 서버가 클러스터링 요구를 수신한 후, 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 미응답 질문집합을 취득하여 클러스터링 대기 질문집합으로 간주하여 출력하고, 그중 클러스터링 대기 질문집합에는 적어도 1개의 클러스터링 대기 질문이 포함된다, 각 클러스터링 대기 질문은 자동질문응답시스템에서 응답하지 않은 질문에 속한다. 자동질문응답시스템에서 고객이 클라이언트 단말을 통해 자연언어로 질문을 입력하여 서버에 업로드한 후, 서버 FAQ 데이터베이스에 그에 대응한 Q&A가 존재하면, 답안을 직접 클라이언트 단말에 피드백하고; 서버 FAQ 데이터베이스에 그에 대응한 Q&A가 없으면, 답안을 직접 클라이언트 단말에 피드백할 수 없고, 관련 질문에 미응답 라벨을 추가하고, 미응답 라벨이 달린 질문을 전부 미응답 질문 데이터베이스에 저장한다.

특징추출유닛(30)은 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문집합에 대해 특징 추출을 진행하고 질문 특징집합을 출력하는데 사용되며, 질문 특징집합에는 적어도 1개의 질문 특징이 포함된다. 구체적으로는, 서버가 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득한 후, 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문에 대해 특징 추출을 진행하고, 클러스터링 대기 질문집합에 자연언어로 저장된 클러스터링 대기 질문을, 구조화한 컴퓨터 판독처리 가능한 질문 특징집합으로 전환시키며, 질문 특징집합 중의 각 질문 특징은 전부 컴퓨터가 판독 가능한 텍스트 정보에 속한다.

특정 실시예에서, 특징추출유닛(30)에는 특징추출서브유닛(31)과 특징매핑서브유닛(32)이 포함된다.

특징추출서브유닛(31)은 IT-IDF 알고리즘을 이용한 벡터 공간모형으로 클러스터링 대기 질문집합에 대해 특징 추출을 진행하고 초기 특징집합을 출력하는데 사용된다. IT-IDF(term frequency-inverse document frequency, 즉 어휘빈도 - 역파일 빈도)알고리즘은 정보검색과 데이터 마이닝에 사용되는 가중 알고리즘이다. 특징추출서브유닛(31)은, 클러스터링 대기 질문집합 중의 모든 클러스터링 대기 질문에 포함된 모든 어휘의 어휘빈도(IT)와 역파일 빈도(IDF)를 각각 계산하고, 어휘빈도(IT)와 역파일 빈도(IDF)를 이용하여 IT-IDF치를 계산하고, IT-IDF치에 의거하여 클러스터링 대기 질문집합에 대응한 초기 특징집합을 확정하는데 사용된다. 어휘빈도(IT)는 어휘가 문장에 나타나는 횟수에서 문장 중의 총 어휘 수량을 나눈 값을 의미한다. 역파일 빈도(IDF)는 시뮬레이션 언어 환경의 어휘 데이터베이스에 포함된 파일 수량에서 해당 어휘를 포함한 파일 수량을 나눈 값의 로그치를 의미한다. 이해할 수 있듯이, 분모가 0이 되는 것을 피하기 위해 (즉, 어휘 데이터베이스 중의 모든 문서에 해당 어휘가 존재하지 않을 경우), 해당 어휘가 포함된 파일수와 상수의 합을 분모로 할 수 있다. IT-IDF치는 어휘빈도(IT)와 역파일 빈도(IDF)의 승적을 의미한다. 이해할 수 있듯이, 한 어휘의 IT-IDF치가 클수록 그 중요성도 더 크게 된다.

특징매핑서브유닛(32)은 LSI 모형을 이용하여 초기 특징집합에 대해 특징 매핑을 진행하고 질문 특징집합을 출력하는데 사용된다. IT-IDF 알고리즘의 벡터 공간모형은 일반적으로 파일이나 문장을 고차원 스파스 벡터로 표시하는데 사용되며, 아주 긴 질문 텍스트에 대해서는 IT-IDF 알고리즘만으로 클러스터링 대기 질문집합의 특징 추출을 진행하고, 출력한 초기 특징집합이 질문 특징을 충분히 표현하지 못하기 때문에, LSI 모형을 이용하여 초기 특징집합에 대해 특징 매핑을 진행하고, 최종 질문 특징집합을 출력해야 한다. 그중 LSI(Latent Semantic Index, 잠재적 어의 색인) 모형이란 2개 또는 2개 이상의 어휘가 한개 파일 중에 대량 출현하면, 2개 또는 2개 이상의 어휘의 어의가 연관성이 있다고 판단하며, LSI 모형으로 통계한 후, 관련 어휘로 잠재적 테마를 구성하여 어휘 클러스터링을 실현하고 차원을 감소하는 것을 의미한다.

특정 실시예에서, 본 자동질문응답시스템 질문 클러스터링 처리장치에는 전처리유닛(70)도 포함되며, 텍스트 전처리 알고리즘으로 클러스터링 대기 질문집합에 대해 전처리를 진행하는데 사용된다. 텍스트 전처리 알고리즘에는 번체와 간체의 통일, 대소문자 통일, 중국어 분사와 금지어 제거 중 적어도 한가지가 포함된다. 중국어 분사(Chinese Word Segmentation) 란 한자 순서를 한 개의 독립적인 단어로 분할하는 것을 의미한다. 금지어(Stop Words)란 자연언어 데이터 처리 시, 자동으로 여과해 버리는 일부 글자와 단어를 의미하는 바, 예를 들면, 영어 자모, 숫자, 숫자, 표기, 기호 및 사용 빈도가 아주 높은 한자 등이 포함된다. 텍스트 전처리 알고리즘으로 클러스터링 질문에 대해 전처리를 진행하면 저장 공간을 절약하고 처리효율을 향상시킬 수 있다. 본 실시예에서, 텍스트 전처리 알고리즘으로 클러스터링 대기 질문집합에 대해 진행한 전처리 결과는 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문집합에 대해 진행하는 향후의 특징 추출 효과에 직접적인 영향을 미친다.

분할판단유닛(40)은 질문 특징집합의 프리셋 분할조건 부합여부를 판단하는데 사용된다. 구체적으로는, 서버가 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문에 대해 특징 추출을 진행하고 질문 특징집합을 출력한 후, 질문 특징집합이 프리셋 분할조건에 부합되는지를 판단하여 질문 특징집합이 약간 개의 질문 특징 부분집합으로 분할될 수 있는지 확인한다.

특정 실시예에서, 분할판단유닛(40) 대신 제1판단유닛(41)을 사용할 수도 있으며, 질문 특징집합이 적어도 2개 분할 클러스터링 중심에 의해 적어도 2개 질문 특징 부분집합으로 분할할 수 있는지를 판단한 후, 질문 특징집합 중의 각 점에서 원시 클러스터링 중심까지의 평균거리를, 각 질문 특징 부분집합 중의 각 점에서 분할 클러스터링 중심까지의 평균거리보다 크게 만드는데 사용되며; 클 경우에는 프리셋 분할조건에 부합되고; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않으며.그중 원시 클러스터링 중심은 질문 특징집합의 클러스터링 중심에 속한다.

다른 한 특정 실시예에서, 분할판단유닛(40) 대신 제2판단유닛(42)을 사용할 수 있으며, 이는 질문 특징집합의 질문 특징 수량이 프리셋 분할 수량보다 큰지를 판단하는데 사용되며, 클 경우 프리셋 분할조건에 부합되며; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않는다. 해당 특정 실시예에서는 특정된 질문 특징집합 중의 질문 특징 수량이 프리셋 분할 수량보다 큰지를 판단할 때, "질문 특징집합 중의 질문 특징 수량이 프리셋 분할 수량보다 커야만 지속적으로 분할할 수 있다"는 전략을 취한다. 본 실시예에서는, 미응답 질문 데이터베이스 중의 모든 질문 수량의 제곱근을 프리셋 분할 수량으로 설정할 수 있다.

제1처리유닛(50)은 질문 특징집합이 프리셋 분할조건에 부합될 경우 분할 클러스터링 알고리즘으로 질문 특징집합에 대해 분할 클러스터링을 진행하고 적어도 2개 질문 특징 부분집합을 출력하며; 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 질문 특징집합의 프리셋 분할조건 부합여부를 판단하는데 사용된다. 서버가 질문 특징집합의 프리셋 분할조건 부합여부를 판단할 때, K-means 알고리즘, K-medoids 알고리즘 및 CLARANS 알고리즘 등 분할 클러스팅 알고리즘으로 질문 특징집합에 대해 분할 클러스팅을 진행하여, 질문 특징집합을 적어도 2개 질문 특징 부분집합으로 분할하고, 임의의 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 분할판단유닛(40)으로 이동한다.

본 실시예에서 제공한 자동질문응답시스템 질문 클러스터링 처리장치에 있어서, 질문 특징집합 중의 질문 특징은 짧은 텍스트에 속하며, K-means 알고리즘으로 질문 특징집합에 대해 분할 클러스터링을 진행할 때 K치를 2로 하며, 번마다 질문 특징집합을 2개의 질문 특징 부분집합으로 분할하고, 각 질문 특징 부분집합을 질문 특징집합으로 업데이트한 후, 분할판단유닛(40)에 이동한다. K-means 알고리즘에서 K치는 일반적으로 사전에 지정하며, 실행과정에서 동적 조절을 진행할 수 없으며, 클러스터링 요구에 따라 취득한 클러스터링 대기 질문집합에 동적변화가 발생하고 그에 대응한 질문 특징집합에도 동적변화가 발생할 경우, 사전에 지정한 K치는 동적변화가 발생하는 질문 특징집합에 적용되지 않으며; 따라서 특정 실시예에서, 우선 질문 특징집합의 프리셋 분할조건 부합여부를 판단해야 하며, 프리셋 분할조건에 부합될 때에만 K-means 알고리즘으로 분할 클러스터링을 진행하여, 질문 특징집합의 동적변화 요구를 만족시킨다.

제2처리유닛(60)은 질문 특징집합이 프리셋 분할조건에 부합되지 않을 경우 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는데 사용된다. 서버가 질문집합이 프리셋 분할조건에 부합되지 않는다고 판단하면, 질문 특징집합을 클러스터링 클러스터로 간주하여 백그라운드 서비스 단말에 출력한다. 그중 클러스터링 클러스터는 질문 최소단위에 속한다. 클러스터링 클러스터를 백그라운드 서비스 단말에 발송한 후, 백그라운드 서비스 단말이 클러스터링 클러스터를 수신하고 표시하여, 질문 특징집합 중의 질문 특징 수량이 프리셋 분할 수량보다 클 때에만 계속 분할할 수 있게 한다. 본 실시예에서는, 미응답 질문 데이터베이스 중의 모든 질문 수량의 제곱근을 프리셋 분할 수량으로 설정할 수 있다.

정합처리유닛(80)은 클러스터링 클러스터에 대해 데이터베이스 필드 정합처리를 진행하고, 처리 후 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 저장하는데 사용된다. 텍스트 전처리 알고리즘으로 클러스터링 대기 질문집합에 대해 전처리를 진행하고 텍스트 특징 추출 알고리즘으로 클러스터링 대기 질문집합에 대해 특징 추출을 진행한 후, 출력한 클러스터링 클러스터가 미응답 질문 데이터베이스에서 취득한 클러스터링 질문의 텍스트 격식과 다르면 클러스터링 클러스터와 클러스터링 대기 질문을 연결시키고, 클러스터링 클러스터에 대해 데이터베이스 필드 정합처리를 진행하고, 클러스터링 클러스터를 처리하여 클러스터링 질문 데이터베이스 중의 필드와 일치한 격식으로 만들어, 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 더 간편하고 빠르게 저장한다.

본 실시예에서 제공하는 자동질문응답시스템 질문 클러스터링 처리장치는, 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 클러스터링 대기 질문집합을 취득하며, 클러스터링 대기 질문집합에 대해 자동 클러스터링을 진행하고, 작성자를 도와 질문 조회 요구를 요해하고, 작성한 Q&A의 적용범위를 확대하고, 전체적인 응답 기능을 향상시킨다. 본 자동질문응답시스템 질문 클러스터링 처리장치에 있어서, 클러스터링 대기 질문집합에 대해 특징 추출을 진행한 후, 질문 특징집합의 프리셋 분할조건 부합여부를 판단해야 하며, 프리셋 분할조건에 부합될 경우 분할 클러스터링 알고리즘으로 분할 클러스터링을 진행하고, 프리셋 분할조건에 부합되지 않을 경우 분할 클러스터링을 자동정지하여, 질문 특징집합의 동적변화 응용조건을 만족시키고, 층차별 클러스터링 처리를 실현하며, 출력한 클러스터링 클러스터 내부 질문의 유사성을 보장할 수 있으며, 클러스터링 효과가 비교적 좋고, 수동으로 매개변수를 조절하는 복잡한 조작을 피할 수 있다.

도 3은 본 발명의 실시예에서 제공한 서버 설명도를 보여준다. 도 3에서 보여주다시피, 본 실시예의 서버(3)에는, 프로세서(30), 메모리(31) 및 상기 메모리(31)에 저장되어 상기 프로세서(30)에서 실행할 수 있는 컴퓨터 프로그램(32), 예를 들면, 상기 자동질문응답시스템 질문 클러스터링 처리방법 프로그램이 포함된다. 상기 프로세서(30)가 상기 컴퓨터 프로그램(32)을 실행하면 상기 각 자동질문응답시스템 질문 클러스터링 처리방법 실시예의 절차를 실현하는 바, 예를 들면 도 1에서 보여주다시피 절차 S1부터 S7을 실행한다. 또는 상기 프로세서(30)이 상기 컴퓨터 프로그램(32)을 실행하면 상기 각 장치 실시예의 각 모듈/유닛의 기능을 실현하는 바, 예를 들면 도 2에서 보여준 유닛 10 부터 80까지의 기능이 있다.

예시적으로, 상기 컴퓨터 프로그램(32)을 1개 또는 여러 개의 모듈/유닛으로 분할할 수 있으며, 상기 1개 또는 여러 개의 모듈/유닛은 상기 메모리(31)에 저장되어 있고, 상기 프로세서(30)가 이를 실행시켜 본 발명을 실현한다. 상기 1개 또는 여러 개의 모듈/유닛은 특정 기능을 완성할 수 있는 일련의 컴퓨터 프로그램 명령 세그먼트일 수 있으며, 이 명령 세그먼트는 상기 서버(3)에서 상기 컴퓨터 프로그램(32)을 실행하는 과정을 설명하는데 사용된다.

상기 서버(3)는 로컬 서버, 클라우드 서버 등 계산장치를 사용해도 된다. 상기 서버에는 프로세서(30), 메모리(31)가 포함될 수 있으나 이에 국한되지 않는다. 본 분야의 기술자가 이해할 수 있다시피, 도 3은 서버(3)의 실시예에 지나지 않으며 서버(3)의 기능을 한정하는 것이 아니며, 도면보다 많거나 적은 부품 또는 부동한 부품을 포함할 수 있으며, 상기 서버는 입력출력장치, 네트워크 액세스 장비, 버스 등도 포함할 수 있다.

상기 프로세서(30)는 중앙처리유닛(Central Processing Unit, CPU)일 수도 있고, 기타 일반 프로세서, 디지털 신호 프로세서 (Digital Signal Processor, DSP), ASIC(Application Specific Integrated Circuit, ASIC), 기성품 프로그래머블 게이트 어레이 (Field-Programmable Gate Array, FPGA) 또는 기타 프로그래머블 로직 디바이스, 분할 게이트 또는 트랜지스터 로직 디바이스, 분할 하드웨어 부품 등을 사용할 수도 있다. 일반 프로세서는 마이크로 프로세서를 사용할 수 있고 임의의 일반 프로세서 등을 사용할 수도 있다.

상기 메모리(31)는 서버(3)의 하드디스크 또는 메모리와 같은 상기 서버(3)의 내부 저장유닛일 수 있다. 또한 상기 메모리(31)는 플러그인 하드 드라이브, 스마트 메모리 카드(Smart Media Card, SMC), 안전한 디지털 카드(Secure Digital, SD), 플래시 메모리 카드(Flash Card) 등과 같은 상기 서버(3)에 배치된 상기 서버(3)의 외부 저장장치일 수도 있다. 또한, 상기 메모리(31)는 상기 서버(3)의 내부 저장유닛을 포함할 뿐만 아니라 외부 저장장치를 포함할 수도 있다. 상기 메모리(31)는 상기 컴퓨터 프로그램 및 상기 서버에 필요한 기타 프로그램과 데이터 저장에 사용된다. 상기 메모리(31)는 이미 출력하였거나 곧 출력하게 될 데이터의 임시 저장에도 사용할 수 있다.

관련 분야의 기술자가 명확히 아시다시피, 설명 상의 편의성과 간결함을 위해 상기 시스템, 장치 및 유닛의 구체적인 작업 과정은 전술한 방법의 실시예의 관련 과정을 참고할 수 있으며, 이에 대해 더 이상 설명하지 않기로 한다.

이상에서 설명한 본 발명은 전술한 실시예에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능함은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명백할 것이다.

12; 클러스터링 요구 수신유닛 20; 클러스터링 질문집합 취득유닛
30; 특징추출유닛 31; 특징추출서브유닛
32; 특징매핑서브유닛 40; 분할판단유닛
41; 제1판단유닛 42; 제2판단유닛
50; 제1처리유닛 60; 제2처리유닛
70; 전처리유닛 80; 정합처리유닛

Claims

자동질문응답시스템 질문 클러스터링 처리방법에 있어서,
작성자가 입력한 클러스터링 요구를 수신하며;
상기 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 적어도 1개의 클러스터링 대기 질문이 포함된 클러스터링 대기 질문집합을 취득하며;
텍스트 특징 추출 알고리즘으로 적어도 한개의 질문특징을 포함한 상기 클러스터링 대기 질문집합에 대해 특징추출을 진행하고 질문 특징집합을 출력하며;
상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하며;
프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대해 분할 클러스터링을 진행하고, 적어도 2개 질문 특징 부분집합을 출력하며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하며;
프리셋 분할조건에 부합되지 않을 경우, 상기 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리방법.
제1항에 있어서,
상기 질문 특징집합의 프리셋 분할조건 부합여부의 판단에는,
상기 질문 특징집합이 적어도 2개 분할 클러스터링 중심에 의거하여 적어도 2개 질문 특징 부분집합으로 분할된 후, 질문 특징집합 중의 각 점에서 원시 클러스터링 중심까지의 평균거리가, 각 질문 특징 부분집합 중의 각 점에서 상기 분할 클러스터링 중심까지의 평균거리보다 큰지 아닌지를 판단하는 것이 포함되며; 클 경우에는 프리셋 분할조건에 부합되고; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않으며;
또는 상기 질문 특징집합의 질문 특징 수량이 프리셋 분할수량보다 큰지 아닌지를 판단하는 것이 포함되며, 클 경우 프리셋 분할조건에 부합되며; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리방법.
제1항에 있어서,
상기 텍스트 특징 추출 알고리즘을 이용한 상기 클러스터링 대기 질문집합의 특징 추출 및 질문 특징집합의 출력에는,
IT-IDF 알고리즘과 벡터 공간 모형으로 상기 클러스터링 대기 질문집합에 대해 진행하는 특징 추출 및 초기 특징집합의 출력;
LSI 모형으로 상기 초기 특징집합에 대해 진행하는 특징 매핑 및 상기 질문 특징집합의 출력이 포함된 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리방법.
제1항에 있어서,
상기 텍스트 특징 추출 알고리즘으로 상기 클러스터링 대기 질문집합에 대해 특징 추출을 진행하기 전에,
텍스트 전처리 알고리즘으로 상기 클러스터링 대기 질문집합에 대해 전처리를 진행하고; 상기 텍스트 전처리 알고리즘에는 번체와 간체의 통일, 대소문자 통일, 중국어 분사와 금지어 제거 중 적어도 한 가지를 포함하는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리방법.
제1항에 있어서,
상기 클러스터링 클러스터에 대해 데이터베이스 필드 정합 처리를 진행하고 처리 후의 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 저장하는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리방법.
자동질문응답시스템 질문 클러스터링 처리장치에 있어서,
클러스터링 요구 수신유닛은 작성자가 입력한 클러스터링 요구 수신에 사용되고;
클러스터링 질문집합 취득유닛은 미응답 질문 데이터베이스에서 상기 클러스터링 요구에 따라 적어도 1개의 클러스터링 대기 질문이 포함된 클러스터링 대기 질문집합을 취득하는데 사용되고;
특징추출유닛은 적어도 한개의 질문특징을 포함한 상기 클러스터링 대기 질문집합에 대해 텍스트 특징 추출 알고리즘으로 진행하는 특징 추출 및 질문 특징집합의 출력에 사용되고;
분할판단유닛은 상기 질문 특징집합의 프리셋 분할조건 부합여부의 판단에 사용되고;
제1처리유닛은 상기 질문 특징집합이 프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대해 분할 클러스터링을 진행하고 적어도 2개 질문 특징 부분집합을 출력하는데 사용되며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하는 과정 및 상기 질문 특징집합의 프리셋 분할조건 부합여부의 판단에 사용되며;
제2처리유닛은 상기 질문 특징집합이 프리셋 분할조건에 부합되지 않을 경우 상기 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는데 사용되는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리장치.
제6항에 있어서,
상기 분할판단유닛에는 제1판단유닛 또는 제2판단유닛이 포함되며;
상기 제1판단유닛은 상기 질문 특징집합이 적어도 2개 분할 클러스터링 중심에 의거하여 적어도 2개 질문 특징 부분집합으로 분할된 후, 질문 특징집합 중의 각 점에서 원시 클러스터링 중심까지의 평균거리가, 각 질문 특징 부분집합 중의 각 점에서 상기 분할 클러스터링 중심까지의 평균거리보다 큰지 아닌지를 판단하는 것에 사용되며; 클 경우에는 프리셋 분할조건에 부합되고; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않으며;
상기 제2판단유닛은 상기 질문 특징집합의 질문 특징 수량이 프리셋 분할 수량보다 큰지 아닌지를 판단하는데 사용되고, 클 경우 프리셋 분할조건에 부합되며; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리장치.
제6항에 있어서,
상기 특징추출유닛에는,
IT-IDF 알고리즘으로 벡터 공간 모형으로 상기 클러스터링 대기 질문집합에 대해 특징 추출을 진행하고 초기 특징집합을 출력하는데 사용되는 특징추출서브유닛;
LSI 모형을 이용하여 상기 초기 특징집합에 대해 특징 매핑을 진행하고 상기 질문 특징집합을 출력하는데 사용되는 특징매핑서브유닛이 포함되는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리장치.
제6항에 있어서,
텍스트 전처리 알고리즘으로 상기 클러스터링 대기 질문집합에 대해 전처리를 진행하는 전처리유닛이 포함되고;
상기 텍스트 전처리 알고리즘에는 번체와 간체의 통일, 대소문자 통일, 중국어 분사와 금지어 제거 중 적어도 한 가지를 포함하는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리장치.
제6항에 있어서,
상기 클러스터링 클러스터에 대해 데이터베이스 필드 정합처리를 진행하고 처리 후 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 저장하는데 사용되는 정합처리유닛을 포함하는 것을 특징으로 하는
자동질문응답시스템 질문 클러스터링 처리장치.
컴퓨터 프로그램이 저장된 컴퓨터 판독가능 저장매체에 있어서,
프로세서가 상기 컴퓨터 프로그램을 실행함에 있어서,
작성자가 입력한 클러스터링 요구를 수신하고;
상기 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 적어도 1개의 클러스터링 대기 질문이 포함된 클러스터링 대기 질문집합을 취득하고;
적어도 한 개의 질문특징을 포함한 상기 클러스터링 대기 질문집합에 대해 텍스트 특징 추출 알고리즘으로 특징 추출을 진행하고, 질문 특징집합을 출력하며;
상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하고;
프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대해 분할 클러스터링을 진행하고 적어도 2개 질문 특징 부분집합을 출력하며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하며;
프리셋 분할조건에 부합되지 않을 경우, 상기 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는 과정을 포함한 것을 특징으로 하는
컴퓨터 판독가능 저장매체.
제11항에 있어서,
상기 질문 특징집합의 프리셋 분할조건 부합여부의 판단에는,
상기 질문 특징집합이 적어도 2개 분할 클러스터링 중심에 의거하여 적어도 2개 질문 특징 부분집합으로 분할된 후, 질문 특징집합 중의 각 점에서 원시 클러스터링 중심까지의 평균거리가, 각 질문 특징 부분집합 중의 각 점에서 상기 분할 클러스터링 중심까지의 평균거리보다 큰지 아닌지를 판단하는 것이 포함되며; 클 경우에는 프리셋 분할조건에 부합되고; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않으며;
또는 상기 질문 특징집합의 질문 특징 수량이 프리셋 분할수량보다 큰지 아닌지를 판단하는 것이 포함되며, 클 경우 프리셋 분할조건에 부합되며; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않는 것을 특징으로 하는
컴퓨터 판독가능 저장매체.
제11항에 있어서,
상기 텍스트 특징 추출 알고리즘을 이용한 상기 클러스터링 대기 질문집합의 특징 추출 및 질문 특징집합의 출력에는,
IT-IDF 알고리즘과 벡터 공간 모형으로 상기 클러스터링 대기 질문집합에 대해 진행하는 특징 추출 및 초기 특징집합의 출력;
LSI 모형으로 상기 초기 특징집합에 대해 진행하는 특징 매핑 및 상기 질문 특징집합의 출력이 포함되는 것을 특징으로 하는
컴퓨터 판독가능 저장매체.
제11항에 있어서,
상기 텍스트 특징 추출 알고리즘으로 상기 클러스터링 대기 질문집합에 대해 특징 추출을 진행하기 전에, 텍스트 전처리 알고리즘으로 상기 클러스터링 대기 질문집합에 대해 전처리를 진행하고; 상기 텍스트 전처리 알고리즘에는 번체와 간체의 통일, 대소문자 통일, 중국어 분사와 금지어 제거 중 적어도 한 가지를 포함하는 것을 특징으로 하는
컴퓨터 판독가능 저장매체.
제11항에 있어서,
상기 클러스터링 클러스터에 대해 데이터베이스 필드 정합 처리를 진행하고 처리 후의 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 저장하는 것을 특징으로 하는
컴퓨터 판독가능 저장매체.
메모리, 프로세서 및 상기 메모리에 저장되어 상기 프로세스에 의해 실행되는 컴퓨터 프로그램을 포함한 서버에 있어서,
상기 프로세서가 상기 컴퓨터 프로그램 실행 시,
작성자가 입력한 클러스터링 요구를 수신하고;
상기 클러스터링 요구에 따라 미응답 질문 데이터베이스에서 적어도 1개의 클러스터링 대기 질문이 포함된 클러스터링 대기 질문집합을 취득하고;
적어도 한 개의 질문특징을 포함한 상기 클러스터링 대기 질문집합에 대해 텍스트 특징 추출 알고리즘으로 특징 추출을 진행하고, 질문 특징집합을 출력하며;
상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하고;
프리셋 분할조건에 부합될 경우, 분할 클러스터링 알고리즘으로 상기 질문 특징집합에 대해 분할 클러스터링을 진행하고 적어도 2개 질문 특징 부분집합을 출력하며; 상기 질문 특징 부분집합을 질문 특징집합으로 업데이트하고, 상기 질문 특징집합의 프리셋 분할조건 부합여부를 판단하며;
프리셋 분할조건에 부합되지 않을 경우, 상기 질문 특징집합을 클러스터링 클러스터로 간주하여 출력하는 것을 특징으로 하는
서버.
제16항에 있어서,
상기 질문 특징집합의 프리셋 분할조건 부합여부의 판단에는,
상기 질문 특징집합이 적어도 2개 분할 클러스터링 중심에 의거하여 적어도 2개 질문 특징 부분집합으로 분할된 후, 질문 특징집합 중의 각 점에서 원시 클러스터링 중심까지의 평균거리가, 각 질문 특징 부분집합 중의 각 점에서 상기 분할 클러스터링 중심까지의 평균거리보다 큰지 아닌지를 판단하는 것이 포함되며; 클 경우에는 프리셋 분할조건에 부합되고; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않으며;
또는 상기 질문 특징집합의 질문 특징 수량이 프리셋 분할수량보다 큰지 아닌지를 판단하는 것이 포함되며; 클 경우 프리셋 분할조건에 부합되며; 크지 않을 경우에는 프리셋 분할조건에 부합되지 않는 것을 특징으로 하는
서버.
제16항에 있어서,
상기 텍스트 특징 추출 알고리즘을 이용한 상기 클러스터링 대기 질문집합의 특징 추출 및 질문 특징집합의 출력에는,
IT-IDF 알고리즘과 벡터 공간 모형으로 상기 클러스터링 대기 질문집합에 대해 진행하는 특징 추출 및 초기 특징집합의 출력;
LSI 모형으로 상기 초기 특징집합에 대해 진행하는 특징 매핑 및 상기 질문 특징집합의 출력이 포함되는 것을 특징으로 하는
서버.
제16항에 있어서,
상기 텍스트 특징 추출 알고리즘으로 상기 클러스터링 대기 질문집합에 대해 특징 추출을 진행하기 전에,
텍스트 전처리 알고리즘으로 상기 클러스터링 대기 질문집합에 대해 전처리를 진행하고;
상기 텍스트 전처리 알고리즘에는 번체와 간체의 통일, 대소문자 통일, 중국어 분사와 금지어 제거 중 적어도 한 가지를 포함하는 것을 특징으로 하는
서버.
제16항에 있어서,
상기 클러스터링 클러스터에 대해 데이터베이스 필드 정합 처리를 진행하고 처리 후의 클러스터링 클러스터를 클러스터링 질문 데이터베이스에 저장하는 것을 특징으로 하는
서버.