KR102067973B1

KR102067973B1 - 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법

Info

Publication number: KR102067973B1
Application number: KR1020170108496A
Authority: KR
Inventors: 반성민
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2020-02-11
Also published as: KR20190023169A

Abstract

본 발명은 웨이크업 단어 선정 방법에 관한 것으로서, 웨이크업 단어가 될 수 있는 후보 단어의 음소열과 이에 대한 비교대상 단어의 음소열 간의 편집 거리(edit distance)를 이용하여 발음이 유사한 정도를 수치화 함으로써 음성 인식 기반 장치의 웨이크업 단어를 선정함에 있어서 객관적 기준을 제공할 수 있다.

Description

음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법 {METHOD FOR WAKEUP WORD SELECTION USING EDIT DISTANCE}

본 발명은 웨이크업 단어 선정 방법에 관한 것으로서, 더욱 상세하게는 웨이크업 단어가 될 수 있는 후보 단어의 음소열과 이에 대한 비교대상 단어의 음소열 간의 편집 거리(edit distance)를 기반으로 발음이 유사한 비교대상 단어를 판단하여 수치화 함으로써 최적의 웨이크업 단어를 선정하는 음소열 사이의 편집 거리를 이용한 웨이크업 단어 선정 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

기술이 발달함에 따라 최근 많은 분야에서 음성 인식 기술을 적용한 각종 서비스들이 소개되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있으며, 음성 인식 기술을 이용하는 음성 인식 서비스는 사용자의 음성을 인식하고 이에 해당하는 적합한 서비스를 제공하는 일련의 과정을 의미할 수 있다.

이러한 음성 인식 기술이 적용되는 음성 인식 기반 장치는 일반적으로 배터리 용량이 충분하지 않은 소형 기기이므로, 음성 인식을 위한 구성이 항상 작동을 하는 것이 아니라, 특정 명령어가 입력될 때에만 음성 인식이 시작된다. 이 때 특정 명령어를 웨이크업(wake-up) 단어라 하며, 웨이크업 단어 인식과 관련된 구성은 연산량이 많지 않으므로 음성 인식 기반 장치에서 항상 작동한다.

즉, 웨이크업 단어는 음성 인식 기반 장치에 미리 등록된 단어로, 사용자의 발화 음성에 웨이크업 단어가 포함되어 있을 경우, 음성 인식 기반 장치는 웨이크업 단어를 인식하여 음성 신호를 연동된 서버로 전송하거나 지정된 동작을 수행하도록 할 수 있다.

그런데, 사용자가 의도를 가지고 웨이크업 단어를 발화한 경우에만 음성 인식 기반 장치가 작동하는 것이 바람직하지만, 웨이크업 단어의 인식과 관련된 구성은 웨이크업 단어와 발음이 유사한 단어에 대해 오작동(FA: False Alarm)할 수 있다. 이러한 오작동을 줄이기 위해서 웨이크업 단어의 길이를 길게 정하는 방법도 있으나, 이는 사용자가 길게 발화하는 불편을 감수해야 한다.

오작동의 가능성이 적은 웨이크업 단어를 선정하는 것은 향후 음성 인식 기반 장치의 성능, 음성 인식 기반 서비스의 만족도 등을 좌우하는 중요한 요소이므로, 웨이크업 단어의 길이가 길지 않으면서 발음상 다른 단어와 혼동이 적은 최적의 웨이크업 단어를 선정하는 방법이 필요하다.

한국공개특허 제10-2016-0089210호 (명칭: 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치, 2016.07.27.)

본 발명은 상술한 문제점을 해결하기 위하여 제안된 것으로, 복수의 후보 단어 중에서 유사한 발음의 단어가 적어 음성 인식 기반 장치의 오작동의 가능성을 최소로 하는 최적의 웨이크업 단어를 선정하는 방법을 제공하고자 한다.

그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법은 하나 이상의 후보 단어 중에서 음성 인식 기반 장치의 웨이크업(wake-up) 단어를 선정하는 웨이크업 단어 선정 장치가, 후보 단어의 음소열과 말뭉치 DB 내의 비교대상 단어의 음소열 간의 편집 거리(edit distance)를 기반으로 상기 후보 단어에 대한 적합도 점수를 연산하는 단계; 및 상기 적합도 점수를 기반으로 상기 후보 단어의 웨이크업 단어 선정 여부를 결정하는 단계를 포함할 수 있다.

이때, 상기 적합도 점수를 연산하는 단계는, 상기 말뭉치 DB 내의 모든 음소에 대하여 상기 후보 단어의 음소열에 대한 음소 개수를 기준 단위로 하여 상기 특정 후보 단어와 동일한 음소 개수를 가진 비교대상 단어의 음소열을 N개 추출하는 단계; 상기 후보 단어의 음소열과 추출되는 N개의 비교대상 단어의 음소열 간의 편집 거리를 기반으로 각각의 비교대상 단어에 대하여 유사도를 설정하는 단계; 및 상기 후보 단어의 N개의 비교대상 단어 각각에 대하여 설정된 N개의 유사도를 모두 합산하는 단계를 포함하고, 상기 N은 상기 후보 단어의 음소열에 대한 음소 개수를 기준으로 생성할 수 있는 상기 말뭉치 DB 내의 모든 음소열의 개수일 수 있다.

이때, 상기 유사도를 설정하는 단계는, 상기 후보 단어의 음소열과 추출되는 N개의 비교대상 단어의 음소열 각각에 대하여 편집 거리를 연산하는 단계; 및 상기 편집 거리가 기 설정된 기준값 미만인 경우, 상기 후보 단어와 상기 비교대상 단어의 유사도를 1로 설정하고, 상기 편집 거리가 기 설정된 기준값 이상인 경우 상기 후보 단어와 상기 비교대상 단어의 유사도를 0으로 설정하는 단계를 포함할 수 있다.

한편, 상기 기준값은 1 이상의 자연수로 설정될 수 있다.

또한, 상기 적합도 점수를 연산하는 단계 이전에, 상기 후보 단어 또는 상기 말뭉치 DB 내의 비교대상 단어의 자소열을 음소열로 변환하는 단계를 더 포함할 수 있다.

또한, 상기 후보 단어가 하나인 경우, 상기 웨이크업 단어 선정 여부를 결정하는 단계는, 연산된 적합도 점수와 기 설정된 임계값을 비교하여, 비교 결과 상기 임계값 미만인 경우에 한하여 상기 후보 단어를 웨이크업 단어로 선정할 수 있다.

반면에, 상기 후보 단어가 둘 이상의 복수 개인 경우, 상기 웨이크업 단어 선정 여부를 결정하는 단계는, 상기 복수 개의 후보 단어 중에서 적합도 점수가 최소값인 후보 단어를 웨이크업 단어로 선정할 수 있다.

아울러, 상기 웨이크업 단어 선정 여부를 결정하는 단계는, 상기 복수 개의 후보 단어 중에서 적합도 점수가 최소값으로 동일한 값을 갖는 후보 단어가 둘 이상인 경우, 상기 유사도 설정을 위한 기준값을 재설정하여 최소값으로 동일한 적합도 점수를 갖는 상기 둘이 상의 후보 단어에 대하여 적합도 점수를 재연산 할 수 있다.

추가로, 상술한 웨이크업 단어 선정 방법을 실행시키도록 구현되어 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로 제공될 수도 있다.

본 발명에 따르면, 음소열의 편집 거리를 기반으로 대용량의 말뭉치 DB 내에서 유사한 발음을 가진 비교대상 단어를 판단하여 수치화 함으로써 웨이크업 단어를 선정하는 객관적인 기준을 제공할 수 있다.

본 발명에 따른 객관적인 기준에 따라 웨이크업 단어를 선정함으로써 음성 인식 기반 장치의 작동을 개시함에 있어서 오작동의 가능성을 감소시킬 수 있다.

아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.

도 1은 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법의 개략적인 순서도이다.
도 2는 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법을 보다 구체적으로 도시한 순서도이다.
도 3은 본 발명의 실시 예에 따른 웨이크업 단어 산정 방법을 후보 단어의 수에 따라 구분하여 도시한 순서도이다.
도 4는 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법을 구현하기 위한 웨이크업 단어 선정 장치에 대한 구성도이다.
도 5는 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법에 의해 선정된 웨이크업 단어가 적용되는 음성 인식 기반 장치를 포함하는 음성 인식 서비스 제공 시스템에 대한 예시도이다.

본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.

다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.

또한, 명세서에 기재된 "부", "기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.

아울러, 본 발명의 범위 내의 실시 예들은 컴퓨터 실행가능 명령어 또는 컴퓨터 판독가능 매체에 저장된 데이터 구조를 가지거나 전달하는 컴퓨터 판독가능 매체를 포함한다.

후술할 본 발명에 따른 설명에서 편집 거리는 기준 음소열과 비교대상인 음소열 사이의 유사한 정도를 측정하기 위한 언어처리 기술로, 두 음소열이 일치하기 위해서 수행되는 삭제, 대체, 삽입 등의 연산 횟수를 의미한다.

또한, 음성 인식 기반 장치는 사용자가 발화하는 음성에 웨이크업 단어가 있는 경우, 웨이크업 단어를 인식하고 음성 인식 기반 장치를 동작 시켜 사용자의 의도에 따른 음성 인식 기반 서비스를 수행할 수 있는 모든 장치를 의미한다.

아울러, 웨이크업 단어 선정 방법을 실행하기 위한 본 발명의 웨이크업 단어 선정 장치는 음성 인식 기반 장치 및 음성 인식 기반 장치를 기반으로 음성 인식 서비스를 제공하는 서비스 제공자 측의 서비스 서버에 하드웨어 또는 소프트웨어의 형태로 구현된 장치일 수 있다.

또한 상기 웨이크업 단어 선정 장치는 음성 인식 기반 장치를 사용하는 사용자의 단말에 어플리케이션 형태로 저장된 장치일 수도 있다.

따라서 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법은 음성 인식 기반 장치 생산 단계에서 서비스 제공자 측에서 웨이크업 단어를 등록하는 경우뿐만 아니라, 사용자가 음성 인식 기반 장치와 근거리 통신 방식 등으로 연결된 단말을 이용하여 기 등록된 웨이크업 단어를 변경하는 경우에도 적용할 수 있는 것이다.

그러면, 이제 도면을 참조하여 본 발명의 실시 예에 따른 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법에 대하여 상세하게 설명하도록 한다.

도 1은 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법의 전체적인 순서도이고, 도 4는 본 발명의 실시 예에 따른 웨이크업 단어 산정 방법을 구현하기 위한 웨이크업 단어 선정 장치에 대한 구성도이다.

도 1 및 도 4를 참조하면, 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법은 후보 단어 중에서 음성 인식 기반 장치의 웨이크업 단어를 선정하는 웨이크업 단어 선정 장치(100)에 의하여 구현되며, 이러한 웨이크업 단어 선정 장치(100)는 도 5와 같은 음성 인식 서비스 제공 시스템에 적용될 수 있다.

음성 인식 서비스 제공 시스템은 음성 인식 기반 장치(200), 단말(300) 및 서비스 서버(400)를 포함하여 구성될 수 있다.

상기 웨이크업 단어 선정 장치(100)는 입력된 후보 단어와 말뭉치 DB 내의 비교대상 단어의 음소열 간의 편집 거리를 기반으로 상기 후보 단어에 대한 적합도 점수를 연산하여(S 10), 후보 단어의 음소열과 말뭉치 DB 내의 모든 비교대상 단어에 대한 음소열 간의 유사한 정도를 수치로 도출한다. 웨이크업 단어는 상기 연산된 적합도 점수를 기반으로 선정된다(S 20).

후술할 바와 같이 적합도 점수가 큰 후보 단어 일수록 말뭉치 DB 내의 유사한 발음을 가진 비교대상 단어의 음소열이 많다는 의미가 되므로, 발음의 혼동을 피하고 음성 인식 기반 장치의 오작동율을 최소로 하기 위해서는 적합도 점수가 기 설정된 임계값 미만이거나 복수 개의 후보 단어 중에서 적합도 점수가 가장 최소인 후보 단어를 웨이크업 단어로 선정한다.

보다 구체적은 웨이크업 단어 선정 방법을 하기의 수학식과 도 2 및 도 3을 참조하여 설명하도록 한다.

먼저, 적합도 점수를 도출하기 위한 공식은 수학식 1과 같다.

웨이크업 단어 선정 장치(100)에 I개의 후보 단어가 입력된다고 가정할 때,

는 I 개의 후보 단어 중, i번째 후보 단어의 음소열을 의미하고,

는 i번째 후보 단어의 음소 개수를 의미한다.

는 말뭉치 DB의 n에서

까지 해당하는 음소열을 나타낸다.

N 은 말뭉치 DB에서 특정 후보 단어에 대하여 비교대상이 될 수 있는 단어 음소열의 총 개수이다. 말뭉치 DB에는 많은 수의 음소가 저장되어 있으며, 저장된 각각의 음소를 조합하여 발음이 가능한 다양한 음소열도 함께 저장될 수 있다.

본 발명의 실시 예에서 웨이크업 단어 선정 장치(100)는 말뭉치 DB에서 비교대상 단어를 선정함에 있어서, 적합도 점수를 구하고자 하는 특정 후보 단어의 음소열에 대한 음소 개수를 기준 단위로 하여 상기 특정 후보 단어와 동일한 음소 개수를 가진 비교대상 단어를 추출하며, 이 때 추출되는 비교대상 단어의 수가 총 N개인 것이다. 그러므로, i번째 후보 단어의 비교대상 단어가 될 수 있는 말뭉치 DB의 n에서

까지 해당하는 음소열의 음소 개수는 곧 i번째 후보 단어의 음소열에 대한 음소 개수

와 동일하고, N 은 후보 단어의 음소 개수에 따라 달라진다.

예를 들어, 적합도 점수를 구하고자 하는 i번째 후보 단어가 '에이야'일 경우, 음소열

는 {ㅇ, ㅔ, ㅇ, ㅣ, ㅇ, ㅑ}이고, 음소 개수

는 6개이며, 말뭉치 DB내의 정렬된 음소에 대하여 음소 1개씩 이동해가면서 6개의 음소를 기준으로 음소열을 스캔하여 비교대상 단어의 음소열

을 N 개 추출할 수 있다. 이렇게 함으로써 후보 단어의 음소열과 동일한 음소 개수를 가지고 있어 발음이 유사할 가능성이 있는 비교대상 단어를 추출할 수 있다.

와

에 대한 유사도

를 n= 1 부터 n=N 까지 모두 설정하여 후보 단어

의 적합도 점수를 연산할 수 있다.

한편, 적합도 점수에서 유사도

는 하기의 수학식 2에 따라 설정할 수 있다.

즉, 유사도는 후보 단어의 음소열

과 비교대상 단어의 음소열

사이의 편집 거리

를 이용하여 설정하며, 편집 거리가 기 설정된 기준값인 th (threshold) 미만인 경우에는 1로, 그 외에는 0으로 설정한다.

편집 거리는 후보 단어의 음소열과 비교대상 단어의 음소열 간에 동일해지기 위해 수행해야하는 삭제, 대체, 삽입 등의 연산 횟수를 의미하므로, 0 또는 1 이상의 자연수로 도출되며, 편집 거리가 0이라는 것은 후보 단어의 음소열과 비교대상 단어의 음소열이 완전히 동일한 것을 의미하므로, 기 설정된 기준값인 th는 1 이상의 자연수로 설정한다.

편집 거리는 후보 단어의 음소열과 비교대상 단어의 음소열이 동일 또는 유사할수록 그 크기가 작기 때문에 유사도가 1로 설정된다는 의미는 동일한 th 하에서, 후보 단어의 음소열과 비교대상 단어의 음소열의 유사성이 큰 것을 의미하고, 따라서, 동일한 th를 기준으로 하여 설정된 유사도

를 n= 1 부터 n= N 까지 모두 설정하여 수학식 1에 따라 합산한 적합도 점수는 그 크기가 클수록 유사한 발음을 가진 음소열이 말뭉치 DB 내에 많다는 것을 의미한다.

이 때, th는 경험치에 따라 적절한 값으로 설정될 수 있는데, th가 너무 작다면, 예를 들어 th를 최소값인 1로 설정한다면, 편집 거리가 0인경우에만 유사도가 1로 설정될 것이고, 이는 후보 단어의 음소열과 비교대상 단어의 음소열이 동일한 경우에만 유사도가 1로 설정된다는 것을 의미한다.

따라서, th가 1이라면 결국엔 후보 단어의 음소열과 동일한 음소열을 가진 비교대상 단어가 측정되기 때문에 최적의 웨이크업 단어 선정에 있어서 정확도가 떨어질 수 있으므로, 경험치에 따라 2 이상의 자연수로 설정하는 것이 바람직하다.

상술한 바와 같이 N개의 비교대상 단어의 음소열에 대하여 모두 유사도가 설정되면 이를 모두 합산하여 후보 단어에 대한 적합도 점수를 도출할 수 있다.

적합도 점수 도출 과정을 도 2에 따라 설명하면, I개의 후보 단어 중 i번째 특정 후보 단어의 음소열에 대하여 동일한 음소 개수를 가진 비교대상 단어를 말뭉치 DB 내에서 N개 추출하고(S 11), 후보 단어의 음소열과 비교대상 단어의 음소열 간의 유사도를 설정한다.

이러한 유사도는 후보 단어의 음소열과 비교대상 단어의 편집 거리를 기반으로 설정할 수 있는데(S 12), 수학식 2에 따라 연산된 편집 거리를 기 설정된 기준과 비교하여(S 13) 기 설정된 기준 미만인 경우를 유사하다고 판단하여 유사도를 1로 설정하고(S 14), 기 설정된 기준 이상인 경우는 유사도를 0으로 설정한다(S 15).

말뭉치 DB 내에서 i번째 후보 단어와 동일한 음소 개수를 가진 모든 비교대상 단어의 음소열을 비교해야 하므로, 추출된 N개의 비교대상 단어에 대하여 모두 유사도를 설정해야 한다(S 16).

N개의 비교대상 단어에 대한 음소열 각각에 대하여 모두 편집 거리를 연산하여 유사도가 설정되었다면, 이를 모두 합산하여 i번째 후보 단어의 적합도 점수를 도출한다(S 17).

한편, 도 3과 같이 웨이크업 단어 선정 장치(100)에 입력되는 후보 단어는 1개 일수도 있고 둘 이상의 복수 개일 수도 있다. 즉, 웨이크업 단어를 선정하고자 할 때, 웨이크업 단어 선정 장치(100)는 1개의 후보 단어만이 입력될 경우에는 해당 후보 단어가 웨이크업 단어로서 적합할지를 판단하고, 둘 이상의 복수 개의 후보 단어가 입력될 경우에는 입력되는 복수 개의 후보 단어 중에서 특정 후보 단어를 웨이크업 단어로 선정할 수 있다.

즉, 웨이크업 단어 선정 장치(100)는 입력된 후보 단어가 1개인지 혹은 둘 이상의 복수 개인지를 판단하고, 즉 I=1 인지를 먼저 판단하고(S 30, 31), 후보 단어가 1개라면, 도 2에 따라 도출된 적합도 점수가 특정 임계값 미만인지를 판단하여(S 32), 임계값 미만인 경우에 한해 웨이크업 단어로 선정한다(S 33). 상술한 바와 같이 적합도 점수는 그 크기가 클수록 유사한 발음을 가진 음소열이 말뭉치 DB 내에 많다는 것을 의미하는 바, 임계값은 경험치에 따라 적절한 값으로 설정되어야 한다. 적합도 점수가 임계값 보다 큰 경우에는 유사한 발음을 가진 음소열이 말뭉치 DB 내에 많은 것으로 판단하여 해당 후보 단어를 웨이크업 단어로 선정하지 않고, 다른 후보 단어를 새로 입력 받을 수 있도록 한다.

한편, 후보 단어가 복수 개인 경우라면, 즉 I가 둘 이상인 경우, 복수의 I 개 후보 단어에 대하여 모두 도 2에 따라 적합도 점수를 각각 도출하고, I 개의 후보 단어 중에서 하기의 수학식 3에 따라 최소의 적합도 점수를 갖는 음소열

에 대한 후보 단어를 최적의 웨이크업 단어로 선정할 수 있다(S 34).

정리하자면, I 개의 후보 단어 중 i번째 특정 후보 단어의 음소열에 대하여 동일한 음소 개수를 가진 비교대상 단어를 말뭉치 DB 내에서 N개 추출하고, 후보 단어의 음소열과 비교대상 단어의 음소열 간의 유사도를 설정한다. 이러한 유사도는 후보 단어의 음소열과 비교대상 단어의 편집 거리를 기반으로 설정하며, 추출된 N개의 비교대상 단어에 대하여 모두 유사도를 설정해야 한다.

N개의 비교대상 단어에 대한 음소열 각각에 대하여 모두 편집 거리를 연산하여 유사도가 설정되었다면, 이를 모두 합산하여 i번째 후보 단어의 적합도 점수를 도출한다. 이러한 과정을 웨이크업 단어 선정 장치(100)에 입력된 I 개의 후보 단어에 대하여 수행하여, I=1일 경우에는 기 설정된 임계값 미만인 경우에만 웨이크업 단어로 선정하고, I=2 이상인 경우에는 복수의 후보 단어 중에서 최소의 적합도 점수를 갖는 후보 단어를 웨이크업 단어로 선정한다.

한편, 후보 단어가 복수 개인 경우로서, 최소값의 적합도 점수를 갖는 후보 단어가 둘 이상일 경우, 즉 동일한 값의 최소의 적합도 점수를 갖는 후보 단어가 둘 이상일 경우에는, 둘 이상의 후보 단어를 모두 웨이크업 단어로 선정할 수 있다. 다만, 단 하나의 웨이크업 단어를 선정하기 위해, 상술한 유사도 설정을 위한 편집 거리의 기준값을 재설정하고, 그에 따라 적합도 점수를 재연산하여 가장 최소의 적합도 점수를 갖는 후보 단어를 웨이크업 단어로 선정할 수도 있다.

이와 같이 후보 단어와 발음이 유사한 단어가 말뭉치 DB 내의 어느 정도 존재하는지를 적합도 점수로 도출하여 수치화 함으로써 웨이크업 단어 선정에 있어서 객관적 기준을 제공할 수 있다.

또한, 적합도 점수를 연산하기 이전에 후보 단어 또는 말뭉치 DB 내의 비교대상 단어의 자소열을 음소열로 변환할 필요가 있는 경우, 변환 알고리즘을 이용하여 변환한 후에 적합도 점수를 연산할 수 있다.

자소열은 문자 표기 그대로의 최소 단위로, 상기 예를 든 '에이야'는 자소열과 음소열이 동일하나, 받침이 있는 단어의 경우에는 자소열과 음소열이 상이할 수 있다.

음성 인식 기반 장치(200)는 사용자가 발화하는 음성의 발음을 인식하는 것이지, 문자 표기 대로의 문자열을 인식하는 것이 아니므로, 자소열의 유사성이 높은 비교대상 단어가 아닌 음소열의 유사성가 높은 비교대상 단어를 측정해야 오작동의 오류를 개선할 수 있다. 자소열을 음소열로 변환하는 데에는 일반적으로 널리 알려진 G2P(grapheme-to-phoneme) 알고리즘을 사용할 수 있으나, 이에 한정되는 것은 아니고, 자소열을 음소열로 변환할 수 있는 알고리즘이라면 적용 가능하다.

도 1 내지 도 3을 참조하여 설명한 본 발명에 따른 웨이크업 단어 선정 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

즉, 본 발명에 따른 웨이크업 단어 선정 방법을 수행하는 웨이크업 단어 선정 장치(100)는 상술한 처리를 수행하는 프로그램 모듈이 저장된 기록매체 및 상기 기록매체에 저장된 프로그램 모듈을 로딩하여 실행하여 프로세서를 포함하는 컴퓨터 장치로 구현될 수 있다. 여기서, 본 발명에 따른 웨이크업 단어 선정 장치(100)에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현예에서 본 프로세서는 멀티 쓰레드(Multithreaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.

다시 도 4를 참조할 때, 본 발명의 실시 예에 따른 웨이크업 단어 선정 방법을 구현하기 위한 웨이크업 단어 선정 장치(100)는 후보 단어 입력부(110), 제어부(120) 및 저장부(130)를 포함하여 구성될 수 있고, 이러한 웨이크업 단어 선정 장치(100)는 도 5와 같은 음성 인식 서비스 제공 시스템에 적용될 수 있다.

단말(300)과 음성 인식 기반 장치(200)는 근거리 통신 방식으로 연결되어 정보를 송수신할 수 있으며, 단말(200)과 서비스 서버(400) 그리고 음성 인식 기반 장치(200) 및 서비스 서버(400)는 통신망(500)을 경유하여 연결될 수 있다.

단말(200)은 사용자의 요청에 따라 각종 데이터를 송수신할 수 있는 사용자의 장치를 의미한다. 특히, 본 발명의 단말(200)은 음성 인식 기반 장치(200)와 근거리 통신 방식으로 연결되어 음성 인식 기반 장치(200)의 조작을 위한 각종 설정 정보를 상기 음성 인식 기반 장치(200)로 전송할 수 있다.

한편, 서비스 서버(400)는 본 발명의 실시 예에 따른 음성 인식 서비스를 제공하는 서비스 사업자 주체의 장치를 의미한다. 본 발명의 서비스 서버(400)는 단말(300)과 연동하여 서비스 제공을 위한 각종 정보를 송수신할 수 있다. 또한, 본 발명의 서비스 서버(400)는 음성 인식 기반 장치(200)로부터 사용자가 발화하여 생성된 음성 신호를 수신하고 이에 해당하는 음성 인식 서비스를 제공할 수 있다.

본 발명의 웨이크업 단어 선정 장치(100)의 후보 단어 입력부(110), 제어부(120) 및 저장부(130)는 상술한 프로세서 혹은 기록매체와 같은 하드웨어 및/또는 이러한 하드웨어 상에서 실행되는 소프트웨어의 결합으로 이루어질 수 있다.

또한, 본 발명의 웨이크업 단어 선정 장치(100)는 상술한 사용자의 단말(300) 또는 서비스 서버(400)에서 실행되는 하드웨어 및/또는 하드웨어 상에서 실행되는 소프트웨어의 결합일 수 있다.

즉, 웨이크업 단어 선정 방법은 서비스 제공자 측에서 서비스 서버(400)를 통해 음성 인식 기반 장치(200)에 웨이크업 단어를 등록 또는 변경하기 위해서 사용할 수도 있고, 사용자 측에서 단말(300)을 통해 웨이크업 단어를 등록 또는 변경하는 경우에도 사용할 수 있다.

상술한 과정을 지원하는 통신망(500)은 인터넷 망과 같은 IP 기반의 유선 통신망뿐만 아니라, LTE(Long term evolution) 망, WCDMA 망과 같은 이동통신망, Wi-Fi망과 같은 다양한 종류의 무선망, 및 이들의 조합으로 이루어질 수 있으며, 이러한 통신망(500)은 접속망, 백본망, 인터넷망을 포함하여 구성될 수 있으나, 구체적인 구성 및 통신망에서의 동작은 공지된 다양한 기술을 적용할 수 있으므로, 구체적인 설명에 대해서는 생략하도록 한다.

후보 단어 입력부(110)는 후보 단어를 입력 받는 구성으로, 1개 또는 복수 개가 입력될 수 있다.

제어부(120)는 웨이크업 단어 선정 장치(100)에 입력된 후보 단어에 대하여 적합도 점수를 연산하고, 이를 기반으로 웨이크업 단어 선정 여부를 결정한다. 적합도 점수는 수학식 1 및 2를 이용하여 상술한 바와 같이 후보 단어와 동일한 음소 개수를 가진 N개의 비교대상 단어를 추출하여 후보 단어의 음소열과 비교대상 단어의 음소열의 유사도를 편집 거리를 기반으로 1 또는 0으로 설정하고, 하나의 후보 단어에 대하여 N개의 비교대상 단어와의 유사도를 모두 합산하여 도출할 수 있다.

또한, 제어부(120)는 입력된 후보 단어가 1개인 경우에는 기 설정된 임계값과 비교하여 상기 후보 단어가 웨이크업 단어로 선정되어도 적합한지를 판단하며, 후보 단어가 둘 이상의 복수 개인 경우에는 최소의 적합도 점수를 갖는 후보 단어를 웨이크업 단어로 선정한다.

한편, 제어부(120)는 복수 개의 후보 단어 중에서, 최소값으로 동일한 값을 갖는 후보 단어가 둘 이상이라면, 유사도 설정을 위한 편집 거리의 기준값을 재설정하여 적합도 점수를 재연산하여 최소의 적합도 점수를 갖는 후보 단어를 웨이크업 단어로 선정할 수도 있고, 적합도 점수의 재연산 없이, 복수 개의 후보 단어를 모두 웨이크업 단어로 선정할 수도 있다.

또한, 제어부(120)는 적합도 점수 연산 전, 자소열을 음소열로 변환하는 알고리즘에 따라 문자 표기대로의 자소열을 발음 기준의 음소열로 변환할 수 있다. 자소열 간의 유사성보다 음소열 간의 유사성이 높은 단어가 음성 인식 기반 장치의 오작동을 일으킬 가능성이 높기 때문에, 발음 상으로 보다 최적의 웨이크업 단어를 선정할 수 있도록 하기 위해서는 적합도 점수를 연산하기 전에 제어부(120)에서 자소열을 음소열로 변환하는 과정이 필요하다.

저장 모듈(120)에는 웨이크업 단어 선정을 위해 필요한 수학식, 알고리즘 등을 저장하는 저장 매체이며, 대용량의 텍스트를 저장하는 말뭉치 DB가 저장되어 있을 수 있다. 그러나, 말뭉치 DB는 외부의 장치에 별도로 저장하여 두고, 제어부(120)에서 적합도 점수 연산 시 이용하도록 할 수도 있다.

이상에서 설명한 바와 같이, 본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다.

또한, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.

방법 단계들은 온 입력(on input) 데이터를 동작 시키고 출력을 발생시킴으로써 기능들을 수행하기 위해 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 프로세서들에 의해 수행될 수 있다. 방법 단계들은 또한 특수 목적 논리 회로 조직, 예를 들어 FPGA(field programmable gate away) 또는 ASIC(application-specific integrated circuit)에 의해 수행될 수 있고, 장치는 이들로서 구현될 수 있다.

컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로 프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다.

본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 통상의 기술자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 통상의 기술자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.

따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.

본 발명은 웨이크업 단어 선정 방법에 관한 것으로서, 음성 인식 기반 장치를 작동시키기 위하여 이용되는 웨이크업 단어를 선정함에 있어서, 대용량의 말뭉치 DB 내의 비교대상 단어의 음소열에 대하여 웨이크업 단어의 후보 단어와 유사한 정도를 편집 거리를 기반으로 수치화 함으로써 웨이크업 단어 선정 시 객관적인 기준을 제공할 수 있도록 하는 웨이크업 단어 선정 방법에 관한 것이다.

본 발명은 음성 인식 기반 장치 및 이를 이용한 서비스 산업 발전에 이바지 할 수 있고, 더불어, 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.

100: 웨이크업 단어 선정 장치
110: 후보 단어 입력부
120: 제어부
130: 저장부
200: 음성인식 기반 장치
300: 단말
400: 서비스 서버
500: 통신망

Claims

하나 이상의 후보 단어 중에서 음성 인식 기반 장치의 웨이크업(wake-up) 단어를 선정하는 웨이크업 단어 선정 장치에 있어서,
상기 웨이크업 단어 선정 장치가,
후보 단어의 음소열과 말뭉치 DB 내의 비교대상 단어의 음소열 간의 편집 거리(edit distance)를 기반으로 상기 후보 단어에 대한 적합도 점수를 연산하는 단계; 및
상기 적합도 점수를 기반으로 상기 후보 단어의 웨이크업 단어 선정 여부를 결정하는 단계;를 포함하고,
상기 웨이크업 단어 선정 여부를 결정하는 단계는,
상기 후보 단어가 하나인 경우, 연산된 적합도 점수와 기 설정된 임계값을 비교하여, 비교 결과 상기 임계값 미만인 경우에 한하여 상기 후보 단어를 웨이크업 단어로 선정하고,
상기 후보 단어가 둘 이상의 복수 개인 경우, 상기 복수 개의 후보 단어 중에서 적합도 점수가 최소값인 후보 단어를 웨이크업 단어로 선정하는 것을 특징으로 하는 웨이크업 단어 선정 방법.
제1항에 있어서, 상기 적합도 점수를 연산하는 단계는,
상기 말뭉치 DB 내의 모든 음소에 대하여 상기 후보 단어의 음소열에 대한 음소 개수를 기준 단위로 하여 상기 하나 이상의 후보 단어 중에서 상기 적합도 점수를 구하고자 하는 특정 후보 단어와 동일한 음소 개수를 가진 비교대상 단어의 음소열을 N개 추출하는 단계;
상기 후보 단어의 음소열과 추출되는 N개의 비교대상 단어의 음소열 간의 편집 거리를 기반으로 각각의 비교대상 단어에 대하여 유사도를 설정하는 단계; 및
상기 후보 단어의 N개의 비교대상 단어 각각에 대하여 설정된 N개의 유사도를 모두 합산하는 단계;를 포함하고,
상기 N은 상기 후보 단어의 음소열에 대한 음소 개수를 기준으로 생성할 수 있는 상기 말뭉치 DB 내의 모든 음소열의 개수인 것을 특징으로 하는 웨이크업 단어 선정 방법.
제2항에 있어서, 상기 유사도를 설정하는 단계는,
상기 후보 단어의 음소열과 추출되는 N개의 비교대상 단어의 음소열 각각에 대하여 편집 거리를 연산하는 단계; 및
상기 편집 거리가 기 설정된 기준값 미만인 경우, 상기 후보 단어와 상기 비교대상 단어의 유사도를 1로 설정하고, 상기 편집 거리가 기 설정된 기준값 이상인 경우 상기 후보 단어와 상기 비교대상 단어의 유사도를 0으로 설정하는 단계;
를 포함하는 웨이크업 단어 선정 방법.
제3항에 있어서, 상기 기준값은 1 이상의 자연수로 설정되는 것을 특징으로 하는 웨이크업 단어 선정 방법.
제1항에 있어서, 상기 적합도 점수를 연산하는 단계 이전에,
상기 후보 단어 또는 상기 말뭉치 DB 내의 비교대상 단어의 자소열을 음소열로 변환하는 단계;
를 더 포함하는 것을 특징으로 하는 웨이크업 단어 선정 방법.
삭제
삭제
제1항에 있어서, 상기 웨이크업 단어 선정 여부를 결정하는 단계는,
상기 복수 개의 후보 단어 중에서 적합도 점수가 최소값으로 동일한 값을 갖는 후보 단어가 둘 이상인 경우, 유사도 설정을 위한 기준값을 재설정하여 최소값으로 동일한 적합도 점수를 갖는 상기 둘이 상의 후보 단어에 대하여 적합도 점수를 재연산하는 것을 특징으로 하는 웨이크업 단어 선정 방법.
제1항 내지 제5항, 제8항 중 어느 하나의 항에 기재된 웨이크업 단어 선정 방법을 실행시키도록 구현되어 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.