KR20200036419A

KR20200036419A - 음성을 이용한 키워드 추출 방법 및 서버

Info

Publication number: KR20200036419A
Application number: KR1020180116031A
Authority: KR
Inventors: 양승원; 오계남
Original assignee: 우석대학교 산학협력단; (유)한결소프트
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2020-04-07
Also published as: KR102166446B1

Abstract

본 발명은 음성을 이용한 키워드 추출 방법 및 서버에 관한 것으로, 본 발명에 따른 음성을 이용한 키워드 추출 방법은 키워드 추출부가 메인 데이터베이스를 참조해 키워드를 추출하는 제1 단계; 상기 키워드의 추출에 실패한 경우, 음성인식 테스트부가 원문 텍스트의 발성 시 사용한 발성 예제 텍스트와 음성 인식된 결과 생성된 음성 텍스트를 비교하는 제2 단계; 상기 발성 예제 텍스트와 상기 음성 텍스트가 상이하면, 유사 단어 선정부가 상기 음성 텍스트 상에서 보정 가능한 유사 단어를 선정하는 제3 단계; 및 보정 단어 저장부가 선정된 상기 유사 단어를 보정 가능한 보정 단어에 매칭하여 보정 데이터베이스에 저장하는 제4 단계;를 포함한다.

Description

음성을 이용한 키워드 추출 방법 및 서버{KEYWORD EXTRACTION METHOD AND SERVER USING PHONETIC VALUE}

본 발명의 실시예는 음성을 이용한 키워드 추출 방법 및 서버에 관한 것이다.

현재, 여러 연구기관에서 연속 음성인식 연구가 활발하게 진행되고 있으며, 연속 음성 인식 시스템의 인식률과 인식속도 측면에서 사용자의 요구사항을 만족시키기 위한 지속적인 연구 개발이 이루어지고 있다.

종래에는 이러한 음성인식을 위해 어절을 이용한 음성인식, 의사 형태소를 이용하여 낭독체, 대화체의 음성인식, 또는 의사형태소와 어절을 동시에 사용하는 다중 수준의 음성인식 단위를 제공하는 방법 등이 사용되어 왔다.

대한민국 특허 출원번호 1997-0065686호는 의사형태소를 이용하여 음성 인식 단위를 설정하는 방법을 게시하고 있으며, 대한민국 특허 출원번호 1998-0044518호는 연속 음성인식을 위한 어절 분리방법 및 그를 이용한 음성 인식방법에 대하여 게시하고 있다.

한편, 이와 같은 음성인식기와 형태소분석을 통해 특정 도메인의 응용 프로그램 작성 시에 음성인식기와 형태소분석기의 사전에서 무한정 단어를 제공할 수 없으므로, 대부분의 전문 용어는 미지어(Unknown Word)로 처리되어 인식률이 현저히 저하되어, 키워드를 추출하는 응응 프로그램을 작성할 수 없는 문제점이 있었다.

본 발명은 전술한 문제를 해결하기 위해 안출된 것으로서, 본 발명에 따르면 키워드 추출 예제를 발성한 음성의 인식 테스트를 통해 보정 가능한 유사 단어를 선정하여 데이터베이스를 구축하여 미지어(Unknown Word)를 인식할 수 있도록 하여 기존 사전을 보정하는 데이터베이스를 구축하여 보조사전에 추가 엔트리를 등록할 수 있도록 하여, 보다 정확도 높은 검색이 가능하도록 하고자 한다.

전술한 문제를 해결하기 위한 본 발명의 실시예에 따른 음성을 이용한 키워드 추출 방법은 키워드 추출부가 메인 데이터베이스를 참조해 키워드를 추출 하는 제1 단계; 상기 키워드 추출에 실패한 경우, 음성인식 테스트부가 원문 텍스트의 발성 예제 텍스트와 음성 인식된 음성 텍스트를 비교하는 제2 단계; 상기 테스트에서 발성 예제 텍스트와 음성 텍스트가 상이하면, 유사 단어 선정부가 상기 음성 텍스트 상에서 보정 가능한 유사 단어를 선정하는 제3 단계; 및 보정 단어 저장부가 선정된 상기 유사 단어를 보정 가능한 보정 단어에 매칭하여 보정 데이터베이스에 저장하는 제4 단계;를 포함한다.

본 발명의 다른 일실시예에 따르면, 상기 제4 단계는 상기 보정 단어 저장부가 복수개의 상기 유사 단어를 하나의 상기 보정 단어에 매칭하여 구성한 데이터를 상기 보정 데이터베이스에 저장할 수 있다.

본 발명의 다른 일실시예에 따르면, 단어 보정부가 상기 보정 데이터베이스에 보정 단어를 이용해 상기 음성 텍스트의 유사 단어를 보정하는 제5 단계; 및 정확도 산출부가 상기 보정된 음성 텍스트의 정확도를 계산하는 제6 단계;를 더 포함할 수 있다.

본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 서버는 메인 데이터베이스를 참조해 키워드를 추출하는 키워드 추출부; 상기 키워드에 추출에 실패한 경우, 원문 텍스트의 발성 예제 텍스트와 음성 인식된 음성 텍스트를 비교하는 음성인식 테스트부; 상기 발성 예제 텍스트와 상기 음성 텍스트가 상이하면, 상기 음성 텍스트 상에서 보정 가능한 유사 단어를 선정하는 유사 단어 선정부; 및 선정된 상기 유사 단어를 보정 가능한 보정 단어에 매칭하여 보정 데이터베이스에 저장하는 보정 단어 저장부;를 포함한다.

본 발명의 다른 일실시예에 따르면, 상기 보정 단어 저장부는 복수 개의 상기 유사 단어를 하나의 상기 보정 단어에 매칭하여 구성한 데이터를 상기 보정 데이터베이스에 저장할 수 있다.

본 발명의 다른 일실시예에 따르면, 상기 보정 데이터베이스에 보정 단어를 이용해 상기 음성 텍스트의 유사 단어를 보정하는 단어 보정부; 및 상기 보정된 음성 텍스트의 정확도를 산출하는 정확도 산출부;를 더 포함할 수 있다.

본 발명의 실시예에 따르면 키워드 추출 예제를 발성한 음성의 인식 테스트를 통해 보정 가능한 유사 단어를 선정하여 데이터베이스를 구축하여 미지어(Unknown Word)를 인식할 수 있도록 하여 기존 사전을 보정하는 데이터베이스를 구축하여 보조사전에 추가 엔트리를 등록할 수 있도록 하여, 키워드 추출율을 제고함으로써 보다 정확도 높은 검색이 가능하도록 할 수 있다.

도 1은 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 서버 및 키워드 추출 시스템을 설명하기 위한 개념도이다.
도 2는 본 발명의 일실시예에 따른 보정 데이터베이스에 매칭되어 저장되는 유사 단어와 보정 단어를 설명하기 위한 도면이다.
도 3은 본 발명의 다른 일실시예에 따른 음성을 이용한 키워드 추출 시스템을 설명하기 위한 개념도이다.
도 4는 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 방법을 설명하기 위한 흐름도이다.
도 5 및 도 6은 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 방법의 정확도 계산 결과를 설명하기 위한 도면이다.

이하에서는 첨부한 도면을 참조하여 바람직한 본 발명의 일실시예에 대해서 상세히 설명한다. 다만, 실시형태를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 또한, 도면에서의 각 구성요소들의 크기는 설명을 위하여 과장될 수 있으며, 실제로 적용되는 크기를 의미하는 것은 아니다.

도 1은 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 서버 및 키워드 추출 시스템을 설명하기 위한 개념도이고, 도 2는 본 발명의 일실시예에 따른 보정 데이터베이스에 매칭되어 저장되는 유사 단어와 보정 단어를 설명하기 위한 도면이다.

이후부터는 도 1을 참조하여 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 서버 및 키워드 추출 시스템을 설명하기로 한다.

본 발명의 일실시예에 따른 음성을 이용한 키워드 시스템은 키워드 추출 서버(110), 음성 인식 서버(200), 보정 데이터베이스(310) 및 메인 데이터베이스(320)를 포함하여 구성될 수 있다.

키워드 추출 서버(110)는 키워드 추출부(111), 음성인식 테스트부(112), 유사 단어 선정부(113) 및 보정 단어 저장부(114)를 포함하여 구성될 수 있다.

먼저, 키워드 추출부(111)는 음성인식 텍스트를 형태소 단위로 나눈 다음, 메인 데이터베이스(320)를 참조해 키워드를 추출한다.

음성인식 테스트부(112)는 상기 키워드 추출이 실패한 경우, 원문 텍스트의 발성 시 사용한 발성 예제 텍스트와 음성인식 결과 생성된 음성 텍스트를 비교한다.

유사 단어 선정부(113)는 상기 음성 텍스트 상에서 보정 가능한 유사 단어를 선정한다.

이때, 상기 유사 단어 선정부(113)는 상기 음성인식 테스트부(112)의 테스트 결과, 원문 텍스트를 발성한 텍스트와 상기 음성 인식된 결과 생성된 텍스트가 상이하여 테스트가 실패한 경우, 상기 음성 텍스트 상에서 보정 가능한 유사 단어를 선정할 수 있다.

보정 단어 저장부(114)는 선정된 상기 유사 단어를 보정 가능한 보정 단어에 매칭하여 보정 데이터베이스(310)에 저장한다.

이때, 상기 보정 단어 저장부(113)는 복수개의 상기 유사 단어를 하나의 상기 보정 단어에 매칭하여 구성한 데이터를 상기 보정 데이터베이스(310)에 저장할 수 있다.

도 2를 참조하여 보다 상세하게 설명하면, 상기 보정 단어 저장부(113)는 상기 보정 데이터베이스(310)에 인덱스 별로 하나의 보정 단어에 보정하고자 하는 다수의 유사 단어를 매칭시켜 저장할 수 있다.

아울러, 본 발명의 다른 일실시예에 따르면 상기 키워드 추출 서버(110)는 단어 보정부 및 정확도 산출부를 더 포함하여 구성될 수 있다.

상기 단어 보정부는 상기 보정 데이터베이스에 보정 단어를 이용해 상기 음성 텍스트의 유사 단어를 보정할 수 있으며, 상기 정확도 산출부는 상기 보정된 음성 텍스트의 정확도를 산출하여, 보정 정확도를 확인 및 검증할 수 있다.

도 3은 본 발명의 다른 일실시예에 따른 음성을 이용한 키워드 추출 시스템을 설명하기 위한 개념도이고, 도 4는 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 방법을 설명하기 위한 흐름도이다.

이후부터는 도 3 및 도 4를 참조하여 본 발명의 다른 일실시예에 따른 음성을 이용한 키워드 추출 시스템을 설명하기로 한다.

사용자(201)가 사용자 사전을 제공하는 어플리케이션(202)을 통해 음성을 입력하면, 어플리케이션(202)은 음성 인식 서버(200)를 통해 음성 데이터를 음성 텍스트로 변환한다.

키워드 추출 서버(110)는 형태소 분석기를 포함하여 구성되며 상기 어플리케이션(202)으로부터 음성 텍스트를 입력 받는다.

그에 따라, 상기 키워드 추출 서버(110)는 입력받은 음성 텍스트를 형태소 분석하고 이를 토대로 메인 데이터베이스(320)를 참조하여 키워드를 추출 하고(410), 추출에 성공하면 다음프로세스를 진행한다(S420). 상기 키워드 추출에 실패한 경우, 음성입력에 사용한 원문 텍스트와 음성 텍스트를 테스트하여(S430), 상기 테스트가 성공하면 메인 데이터베이스 검색 실패로 판정하고 키워드 추출을 종료한다(440). 이때, 사용자에게는 상기 어플리케이션(202)을 통해 키워트 추출에 실패했음을 알리는 에러 메시지가 제공될 수 있다.

한편, 상기 음성 텍스트를 테스트하여 실패하면, 키워드 추출 서버(110)는 보정 데이터베이스(310)를 참조하여 키워드 추출을 하고(S450), 이때 키워드 추출에 성공하면(S460, S465), 다음 프로세스를 진행한다(S470).

또한, 상기 키워드 추출에 실패하면 보정 프로세스를 시작할 수 있다(S480).

보다 구체적으로, 키워드 추출 서버(110)가 음성 텍스트 상에서 보정 가능한 유사 단어를 선정하고, 상기 선정된 유사 단어를 보정 가능한 보정 단어에 매칭하여 보정 데이터베이스(310)에 저장할 수 있으며, 아울러 상기 키워드 추출 서버(110)의 사용자 사전과 기분석사전에 함께 저장하여 등록할 수 있다.

도 5 및 도 6은 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 방법의 정확도 계산 결과를 설명하기 위한 도면이다.

도 5 및 도 6을 참조하면, 본 발명의 일실시예에 따른 음성을 이용한 키워드 추출 방법을 약품 용어의 보정에 사용하면, 보정전에 비교하여 약품명, 용량숫자, 용량단위, 주문수량 및 주문단위에서 정확도가 상승하는 것을 확인할 수 있으며, 검색률도 상승하는 것을 알 수 있다.

전술한 바와 같은 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였다. 그러나 본 발명의 범주에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능하다. 본 발명의 기술적 사상은 본 발명의 전술한 실시예에 국한되어 정해져서는 안 되며, 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

110: 키워드 추출 서버
111: 키워드 추출부
112: 음성인식 테스트부
113: 유사 단어 선정부
114: 보정 단어 저장부
200: 음성 인식 서버
201: 사용자
202: 어플리케이션
310: 보정 데이터베이스
320: 메인 데이터베이스

Claims

키워드 추출부가 메인 데이터베이스를 참조해 키워드를 추출하는 제1 단계;
상기 키워드의 추출에 실패한 경우, 음성인식 테스트부가 원문 텍스트의 발성 시 사용한 발성 예제 텍스트와 음성 인식된 결과 생성된 음성 텍스트를 비교하는 제2 단계;
상기 발성 예제 텍스트와 상기 음성 텍스트가 상이하면, 유사 단어 선정부가 상기 음성 텍스트 상에서 보정 가능한 유사 단어를 선정하는 제3 단계; 및
보정 단어 저장부가 선정된 상기 유사 단어를 보정 가능한 보정 단어에 매칭하여 보정 데이터베이스에 저장하는 제4 단계;
를 포함하는 음성을 이용한 키워드 추출 방법.
청구항 1에 있어서,
상기 제4 단계는,
상기 보정 단어 저장부가 복수개의 상기 유사 단어를 하나의 상기 보정 단어에 매칭하여 구성한 데이터를 상기 보정 데이터베이스에 저장하는 음성을 이용한 키워드 추출 방법.
청구항 1에 있어서,
단어 보정부가 상기 보정 데이터베이스에 보정 단어를 이용해 상기 음성 텍스트의 유사 단어를 보정하는 제5 단계; 및
정확도 산출부가 상기 보정된 음성 텍스트의 정확도를 계산하는 제6 단계;
를 더 포함하는 음성을 이용한 키워드 추출 방법.
메인 데이터베이스를 참조해 키워드를 추출하는 키워드 추출부;
상기 키워드에 추출에 실패한 경우, 원문 텍스트의 발성 시 사용한 발성 예제 텍스트와 음성 인식된 결과 생성된 음성 텍스트를 비교하는 음성인식 테스트부;
상기 발성 예제 텍스트와 상기 음성 텍스트가 상이하면, 상기 음성 텍스트 상에서 보정 가능한 유사 단어를 선정하는 유사 단어 선정부; 및
선정된 상기 유사 단어를 보정 가능한 보정 단어에 매칭하여 보정 데이터베이스에 저장하는 보정 단어 저장부;
를 포함하는 음성을 이용한 키워드 추출 서버.
청구항 4에 있어서,
상기 보정 단어 저장부는,
복수개의 상기 유사 단어를 하나의 상기 보정 단어에 매칭하여 구성한 데이터를 상기 보정 데이터베이스에 저장하는 음성을 이용한 키워드 추출 서버.
청구항 1에 있어서,
상기 보정 데이터베이스에 보정 단어를 이용해 상기 음성 텍스트의 유사 단어를 보정하는 단어 보정부; 및
상기 보정된 음성 텍스트의 정확도를 산출하는 정확도 산출부;
를 더 포함하는 음성을 이용한 키워드 추출 서버.