KR101422020B1

KR101422020B1 - 음성 인식 방법 및 장치

Info

Publication number: KR101422020B1
Application number: KR1020070121422A
Authority: KR
Inventors: 정두경
Original assignee: 엘지전자 주식회사
Priority date: 2007-11-27
Filing date: 2007-11-27
Publication date: 2014-07-23
Also published as: KR20090054642A

Abstract

본 발명은, 실시간으로 수신되는 사람의 음성을 해석하여 문자 데이터로 변환할 수 있는 음성 인식 방법 및 장치에 관한 것으로서, 음성 신호를 실시간 수신하는 단계; 상기 음성 신호에 초기 음성구간 및 휴지 지점이 검출되면, 상기 초기 음성구간이 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부에 따라 윈도우의 크기를 결정하는 단계; 및, 상기 결정된 크기의 윈도우를 이용하여 상기 휴지 지점 이후에 음성 구간이 시작되는지 여부를 판단하는 단계를 포함한다. 본 발명에 따르면, 싱글 워드인지 더블워드인지에 따라 각각 다른 크기의 윈도우를 적용할 수 있다.

음성 인식

Description

음성 인식 방법 및 장치{METHOD FOR RECOGNIZING VOICE, AND APPARATUS FOR IMPLEMENTING THE SAME}

본 발명은 음성 인식 방법 및 장치에 관한 것으로서, 더욱 상세하게는 실시간으로 수신되는 사람의 음성을 해석하여 문자 데이터로 변환할 수 있는 음성 인식 방법 및 장치에 관한 것이다.

일반적으로, 음성 인식을 수행하는 데 있어서, 연속 숫자(continuous digit), 일반 명령어(command), 단일 숫자(signal digit), 확인(confirmation, yes or no)과 같은 문법(Grammar)이 활용될 수 있다. 여기서 연속 숫자는 보통 더블 워드로 구성되고, 단일 숫자나 확인은 싱글 워드로 구성된다. 싱글 워드는 하나의 단어이기 때문에, 단어와 단어 사이의 정지 시간(pause time)이 존재할 수 없으므로, 음성 인식에 있어서도 이 정지시간을 고려할 필요가 없다.

한편, 일반 명령어일 경우, "dial" "phone"과 같이 싱글 워드(single word)로 구성될 수도 있고, "digit dial"이나 "plan route"와 같이 더블 워드(double word)로 구성될 수도 있다. 더블 워드로 구성되는 경우에는, 워드와 워드 사이에 약 300ms 이내의 정지 시간(pause time)이 존재한다.

한편, 워드와 워드 사이의 정지시간을 고려하는 데 있어서, 일정 크기의 윈도우를 이용하여 휴지 지점 또는 엔드 포인트(end point) 이후부터 휴지상태가 지속되는지 음성신호가 발생하는지를 모니터링하는데, 이때 싱글워드인지 더블워드인지에 상관없이 동일한 크기의 윈도우를 사용하기 때문에, 반응 시간이 늦어지는 문제점이 있었다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 싱글 워드인지 더블워드인지에 따라 각각 다른 크기의 윈도우를 적용하기 위한 음성 인식 방법 및 장치를 제공하는데 그 목적이 있다.

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 음성 인식 방법은, 음성 신호를 실시간 수신하는 단계; 상기 음성 신호에 초기 음성구간 및 휴지 지점이 검출되면, 상기 초기 음성구간이 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부에 따라 윈도우의 크기를 결정하는 단계; 및, 상기 결정된 크기의 윈도우를 이용하여 상기 휴지 지점 이후에 음성 구간이 시작되는지 여부를 판단하는 단계를 포함한다.

본 발명에 따르면, 하나의 낱말로 구성되는 워드에 해당하는 윈도우의 크기는, 둘 이상의 낱말로 구성되는 워드에 해당하는 윈도우의 크기보다 작을 수 있다.

본 발명에 따르면, 하나의 낱말로 구성되는 워드에 해당하는 윈도우의 크기 는, 둘 이상의 낱말로 구성되는 워드에 해당하는 윈도우의 크기의 50%일 수 있다.

본 발명에 따르면, 하나의 낱말로 구성되는 워드에 해당하는 윈도우의 크기는, 약 100ms-200ms일 수 있다.

본 발명에 따르면, 상기 판단의 결과에 따라, 상기 결정된 크기의 윈도우 내에서 음성구간이 시작되지 않는 경우, 음성 인식을 종료하는 단계를 더 포함할 수 있다.

본 발명에 따르면, 질의어 또는 안내어를 출력하는 단계를 더 포함하고, 상기 음성신호가 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부는, 상기 질의어 또는 상기 안내어의 유형에 따라 결정될 수 있다.

본 발명에 따르면, 상기 판단의 결과에 따라, 상기 결정된 크기의 윈도우 내에서 음성구간이 시작되지 않는 경우, 상기 휴지 지점 이전의 음성구간에 해당하는 워드에 근거하여, 음성 인식 결과를 출력하는 단계를 더 포함할 수 있다.

본 발명에 따르면, 상기 음성 인식 결과는, 텍스트로 변환된 단어가 명령어인 경우, 명령에 따른 실행이고, 텍스트로 변환된 데이터가 일반 텍스트인 경우, 텍스트의 출력일 수 있다.

본 발명의 또 다른 측면에 따르면, 음성 신호를 실시간 수신하기 위한 신호 수신부; 상기 음성 신호로부터 초기 음성구간 및 휴지 지점을 검출하기 위한 휴지지점 검출부; 및, 상기 음성 신호에 초기 음성구간 및 휴지 지점이 검출되면, 상기 초기 음성구간이 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말 로 구성되는 워드에 해당하는지 여부에 따라 윈도우의 크기를 결정하고, 상기 결정된 크기의 윈도우를 이용하여 상기 휴지 지점 이후에 음성 구간이 시작되는지 여부를 판단하는 휴지기간 판단부를 포함하는 음성 인식 장치가 제공된다.

본 발명에 따르면, 질의어 또는 안내어를 출력하고, 상기 질의어 또는 상기 안내어에 대응하는 워드의 유형 정보를 상기 휴지기간 판단부에 전달하는 질의어 출력부를 더 포함하고, 상기 휴지기간 판단부는, 상기 유형 정보를 근거로 하여, 상기 초기 음성구간이 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부를 결정할 수 있다.

본 발명의 일 측면에 따르면, 입력된 단어가 싱글 워드인 경우, 더블 워드 의 경우에 비해 상대적으로 작은 크기의 윈도우를 적용하기 때문에, 싱글 워드가 등장하는 경우, 응답 속도가 현저히 빨라지는 효과가 있다.

본 발명의 다른 측면에 따르면, 입력된 단어가 싱글 워드인 경우 음성 인식 엔진이 일찍 중지되더라도, 그렇지 않은 경우에 비해 인식률에는 큰 차이가 없다.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한 다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명의 실시예에 따른 음성 인식 장치의 구성을 보여주기 위한 도면이다. 도 1을 참조하면, 본 발명의 실시예에 따른 음성 인식 장치(100)는 질의어 출력부(110), 신호 수신부(120), 휴지지점 검출부(130), 휴지기간 판단부(140),인식결과 출력부(150)를 포함한다.

질의어 출력부(110)는 사용자를 위해 질의어 또는 안내어를 출력하고, 이 질의어 또는 안내어의 유형에 따라, 그 질의어 또는 안내어에 대응되는 사용자의 음성신호가 싱글워드인지 또는 더블워드인지를 결정한다.

이하에서는 음성 인식 과정에서 사용되는 문법과 함께, 싱글워드 및 더블워드의 개념에 관해서 살펴보고자 한다.

연속 숫자(continuous digit), 일반 명령어(command), 단일 숫자(signal digit), 확인(confirmation, yes or no)과 같은 문법(Grammar)이 활용될 수 있다. 연속 숫자(continuous digit),의 경우, 숫자가 연속적으로 발음되기 때문에 숫자와 숫자 사이의 정지 시간(pause time)이 존재하게 된다. 이때 인트라 청크(intra-chunk) 숫자의 정지 시간 보다는, 인터 청크(inter-chunk)의 정지시간이 대체적으로 길게 된다. 예를 들어, 248-567-1234인 경우, "248"과 "567" 사이, 또는 "567"과 "1234" 사이의 정지 시간이 "2"와 "4" 사이, 또는 "4"와 "8"의 정지시간 보다 대체적으로 길다. 인터 청크(inter-chunk)의 정지시간은 대체적으로 1300ms까지 될 수도 있다.

한편, 일반 명령어(command)는 "dial", "phone"과 같이 하나의 낱말로 구성되는 워드 즉 싱글 워드(single word)로 구성될 수도 있고, "digit dial"이나 "plan route"와 같이 둘 이상의 낱말로 구성되는 워드(이하, 더블 워드(double word))로 구성될 수도 있다. 더블 워드로 구성되는 경우에는, 워드와 워드 사이에 약 300ms 이내의 정지 시간(pause time)이 존재한다.

단일 숫자(single digit) 및 확인(confirmation, yes or no)의 경우, 모두 경우 어휘 세트(vocabulary set)가 싱글 워드(single word)로서 존재하기 때문에, 이 경우 정지시간을 고려할 필요가 없다.

앞서 살펴본 각 문법의 유형들을 싱글 워드와 더블 워드로 나누어서 정리하면, 싱글 워드에는 단일 숫자, 확인, 및 싱글 워드로 구성되는 명령어가 존재하고, 더블 워드에는 연속 숫자, 및 더블 워드로 구성되는 명령어가 존재할 수 있다.

질의어 출력부(110)는 예를 들어, "전화번호를 입력해주세요"라는 질의어가 출력된 경우, 사용자는 이 질의어에 대응하여 7-10자리의 연속 숫자를 말하는 것이 일반적이므로, 이 질의어에 대응하여 신호 수신부(120)를 통해 입력될 워드는 더블 워드(double word)로 결정하는 것이다. 질의어 출력부(110)는 질의어를 출력한 후에, 질의어 또는 안내어에 대응되는 워드의 유형정보를 휴지기간 판단부(140)로 전달한다.

신호 수신부(120)는 마이크로폰 등의 음성 입력 장치로부터 음성신호를 수신 하는 장치이다. 휴지지점 검출부(130)는 신호 수신부(120)를 통해 수신된 음성신호 중에서 초기 음성구간 및 휴지 지점을 검출한다. 초기 음성 구간이란 시간 영역의 음성신호 중에서 음성이 존재하는 영역을 일컫는 것이고, 휴지 구간은 음성 신호에 음성이 존재하지 않는 영역을 일컫는 것으로서, 음성 구간이 종료되고 휴지 구간이 시작되는 부분을 휴지 지점 또는 엔드 포인트(end point)라고 한다. 음성 구간 또는 휴지 구간은 음성 파형의 영교차율(Zero-Crossing rate), 신호의 에너지 등을 이용하여 검출할 수 있으나, 본 발명은 이에 한정되지 아니한다. 휴지지점 검출부(130)는 음성 구간 이후 휴지 구간이 시작되는 휴지 지점이 검출되면, 휴지 지점 에 관한 위치 정보 및 실시간 수신되는 음성 신호를 휴지기간 판단부(140)로 전달한다.

휴지기간 판단부(140)는 휴지 구간 이전의 음성 구간 즉, 초기 음성구간에 해당하는 단어가 싱글 워드인지 더블 워드인지에 따라서, 리스닝 윈도우(listening window) 크기를 결정한다. 리스닝 윈도우의 크기는, 더블 워드인 경우보다 싱글 워드인 경우가 더 작은 것이 바람직하다. 싱글 워드인 경우가 더블 워드인 경우의 약 30-70% 정도인 것이 바람직한데, 예를 들어 더블 워드에 해당하는 경우, 윈도우의 크기가 300ms 정도라면, 싱글 워드에 해당하는 윈도우의 크기는 100ms-200ms로 할 수 있다. 그리고 결정된 크기의 윈도우를 이용하여 휴지 구간 이후에 음성 구간이 시작되는지 여부를 판단한다. 만약, 결정된 크기의 윈도우 내에서 음성 구간이 시작되지 않는 경우, 음성 인식을 종료하고, 인식결과 출력부(150)는 초기 음성구간에 해당하는 워드에 근거하여 음성 인식 결과를 출력한다. 여기서 음성 인식 결과 는, 텍스트로 변환된 단어가 명령어에 해당하는 경우, 명령에 따른 실행이고, 텍스트로 변환된 단어가 일반 텍스트인 경우, 텍스트의 출력일 수 있다.

도 2는 본 발명의 실시예에 따른 음성 인식 방법의 순서를 보여주는 도면이다. 도 2를 참조하면, 질의어 또는 안내어를 출력한다(S110 단계). 예를 들어, 스피커를 통해서 "전화번호를 입력해주세요"라는 음성을 출력하는 것이다. 그런 다음, 사용자에 의해 발생된 음성 신호를 실시간으로 수신한다(S120 단계). 음성 신호에 음성 구간으로부터 휴지 구간으로 전이되는 휴지 지점(엔드 포인트)를 검출한다(S130 단계). 만약, S120 단계에서 입력된 음성신호가 싱글 워드인지 더블 워드인지를 조회한다(S130 단계). S110 단계에서 출력된 질의어 또는 안내어의 유형에 따라, S120 단계에서 입력되는 음성신호가 싱글 워드인지 더블워드인지가 결정될 수 있다. 만약, S120 단계에서 수신되는 음성신호가 싱글 워드에 해당하지 않는 경우(더블 워드, 트리플 워드 등)(S140 단계의 '아니오'), 더블 워드 등에 적절한 리스닝 윈도우의 크기를 결정한다(S150 단계). 예를 들어 300ms로 결정할 수 있다.

더블 워드인 경우, 음성 신호 및 윈도우의 크기의 일 예가 도 3에 도시되어 있다. 도 3을 참조하면, 초기 음성 구간(speech)에서 엔드 포인트(end point)를 기점으로 휴지구간(silence)으로의 이전(transition)이 일어나고, 엔드 포인트로부터 약 300ms의 크기의 윈도우를 이용하여, 엔드 포인트 이후 구간에 음성 구간이 시작되는지 여부를 판단하는 모습이다. 만약, S150 단계에서 결정된 크기의 윈도우 내에서 음성 구간이 시작되지 않으면, 음성 인식 과정은 강제로 종료되고(S160 단계), 초기 워드에 해당하는 인식 결과가 출력된다(S170 단계). 만약, 도 3에 도시된 바와 같이 윈도우 내에 음성 구간이 시작되면, 이후 음성 구간에 해당하는 워드를 분석하여, 그 결과와 초기 워드를 조합하여 인식 결과를 출력한다.

한편, S120 단계에서 수신된 음성 신호가 싱글 워드에 해당하는 경우(S140 단계의 "예"), 싱글 워드에 적절한 리스닝 윈도우의 크기를 결정한다(S180 단계). 예를 들어 100ms-200ms 내에서 결정할 수 있다. 싱글 워드인 경우, 음성 신호 및 윈도우의 크기의 일 예가 도 4에 도시되어 있다. 초기 음성구간 이후 엔드 포인트(end point)를 기점으로 휴지구간으로 전이(transition)가 발생한다. 엔드 포인트부터 약 150ms 의 윈도우내에 음성 구간이 시작되는지 여부를 판단하게 된다.

만약, S180 단계에서 결정된 크기의 윈도우 내에 음성 구간이 시작되지 않으면, 음성인식이 강제적으로 종료되고(S190 단계). 초기 단어에 해당하는 결과를 음성인식 결과로서 출력한다(S200 단계). 만약, S180 단계에서 결정된 크기의 윈도우 내에 음성 구간이 시작되면, 그에 해당하는 워드를 분석한 후, 분석된 워드와 초기 워드와 조합함으로써 결과를 출력한다.

도 5는 본 발명의 실시예에 따른 음성 인식 정확도를 보여주기 위한 도면이다. 구체적으로, 본 발명의 일 실시예에 따라, 더블 워드일 경우에 300ms, 싱글 워드일 경우 150ms의 윈도우를 적용하였고, 종래 발명에서는 더블 워드이든 싱글 워드이든 상관없이 300ms의 윈도우를 적용한 실험 결과이다. 본 발명에 따라 싱글 워드일 경우 150ms정도만 모니터링하고 음성인식을 강제적으로 종료한 경우에도 인식률(정확도)에 있어서는, 종래 기술보다 나쁘지 않음을 알 수 있다.

이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

본 발명은 컴퓨터, 휴대폰, 이동 단말기 등에 적용할 수 있다.

도 1은 본 발명의 실시예에 따른 음성 인식 장치의 구성도.

도 2는 본 발명의 실시예에 따른 음성 인식 방법의 순서도.

도 3은 더블 워드인 경우, 음성 신호 및 윈도우의 크기의 일 예.

도 4는 싱글 워드인 경우, 음성 신호 및 윈도우의 크기의 일 예.

도 5는 본 발명의 실시예에 따른 음성 인식 정확도를 보여주기 위한 도면.

Claims

음성 신호를 실시간 수신하는 단계;

상기 음성 신호에 초기 음성구간 및 휴지 지점이 검출되면, 상기 초기 음성구간이 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부에 따라 윈도우의 크기를 결정하는 단계; 및,

상기 결정된 크기의 윈도우를 이용하여 상기 휴지 지점 이후에 음성 구간이 시작되는지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

하나의 낱말로 구성되는 워드에 해당하는 윈도우의 크기는, 둘 이상의 낱말로 구성되는 워드에 해당하는 윈도우의 크기보다 작은 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,

하나의 낱말로 구성되는 워드에 해당하는 윈도우의 크기는, 둘 이상의 낱말로 구성되는 워드에 해당하는 윈도우의 크기의 50%인 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,

하나의 낱말로 구성되는 워드에 해당하는 윈도우의 크기는, 100ms-200ms인 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

상기 판단의 결과에 따라, 상기 결정된 크기의 윈도우 내에서 음성구간이 시작되지 않는 경우, 음성 인식을 종료하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

질의어 또는 안내어를 출력하는 단계를 더 포함하고,

상기 음성신호가 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부는, 상기 질의어 또는 상기 안내어의 유형에 따라 결정되는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,

상기 판단의 결과에 따라, 상기 결정된 크기의 윈도우 내에서 음성구간이 시작되지 않는 경우, 상기 휴지 지점 이전의 음성구간에 해당하는 워드에 근거하여, 음성 인식 결과를 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 7 항에 있어서,

상기 음성 인식 결과는, 텍스트로 변환된 단어가 명령어인 경우, 명령에 따른 실행이고, 텍스트로 변환된 데이터가 일반 텍스트인 경우, 텍스트의 출력인 것을 특징으로 하는 음성 인식 방법.
음성 신호를 실시간 수신하기 위한 신호 수신부;

상기 음성 신호로부터 초기 음성구간 및 휴지 지점을 검출하기 위한 휴지지점 검출부; 및,

상기 음성 신호에 초기 음성구간 및 휴지 지점이 검출되면, 상기 초기 음성구간이 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부에 따라 윈도우의 크기를 결정하고, 상기 결정된 크기의 윈도우를 이용하여 상기 휴지 지점 이후에 음성 구간이 시작되는지 여부를 판단하는 휴지기간 판단부를 포함하는 것을 특징으로 하는 음성 인식 장치.
제 9 항에 있어서,

질의어 또는 안내어를 출력하고, 상기 질의어 또는 상기 안내어에 대응하는 워드의 유형 정보를 상기 휴지기간 판단부에 전달하는 질의어 출력부를 더 포함하고,

상기 휴지기간 판단부는, 상기 유형 정보를 근거로 하여, 상기 초기 음성구간이 하나의 낱말로 구성되는 워드에 해당하는지 또는 둘 이상의 낱말로 구성되는 워드에 해당하는지 여부를 결정하는 것을 특징으로 하는 음성 인식 장치.