KR20140058127A - 음성인식장치 및 음성인식방법 - Google Patents

음성인식장치 및 음성인식방법 Download PDF

Info

Publication number
KR20140058127A
KR20140058127A KR1020120124772A KR20120124772A KR20140058127A KR 20140058127 A KR20140058127 A KR 20140058127A KR 1020120124772 A KR1020120124772 A KR 1020120124772A KR 20120124772 A KR20120124772 A KR 20120124772A KR 20140058127 A KR20140058127 A KR 20140058127A
Authority
KR
South Korea
Prior art keywords
speech recognition
voice
speech
engine
signal
Prior art date
Application number
KR1020120124772A
Other languages
English (en)
Inventor
박은상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120124772A priority Critical patent/KR20140058127A/ko
Priority to US14/045,315 priority patent/US20140129223A1/en
Priority to EP13190720.6A priority patent/EP2728576A1/en
Priority to RU2015121720A priority patent/RU2015121720A/ru
Priority to PCT/KR2013/009814 priority patent/WO2014073820A1/en
Priority to CN201310537463.7A priority patent/CN103811006A/zh
Publication of KR20140058127A publication Critical patent/KR20140058127A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

본 발명에 따른 음성인식장치는, 사용자의 음성신호를 수신하는 음성수신부; 상기 음성신호를 수신하여 음성인식 처리를 수행하는 제1음성인식엔진; 상기 음성신호를 수신하여 외부의 제2음성인식엔진으로 전송하는 통신부; 및 상기 음성수신부를 통해 수신된 음성신호를 상기 제1음성인식엔진으로 전송하고, 상기 제1음성인식엔진이 상기 음성신호의 음성인식을 수행할 수 있는 경우 상기 제1음성인식엔진의 음성인식 결과를 출력하고, 수행할 수 없는 경우 상기 음성신호를 상기 통신부를 통해 상기 제2음성인식엔진으로 전송하도록 제어하는 제어부를 포함한다.
이에 따라, 상이한 성능을 갖는 복수의 음성인식엔진을 이용하여 음성인식을 수행하면서, 각 음성인식엔진의 음성인식의 결과의 충돌을 방지할 수 있는 음성인식장치 및 음성인식장치를 통한 음성인식방법을 제공할 수 있다.

Description

음성인식장치 및 음성인식방법 {VOICE RECOGNITION APPARATUS AND VOICE RECOGNITON METHOD}
본 발명은 음성인식장치 및 음성인식장치를 통한 음성인식방법에 관한 것으로서, 보다 상세하게는 상이한 성능을 갖는 복수의 음성인식엔진을 이용하여 음성인식을 수행할 수 있는 음성인식장치 및 이러한 음성인식장치를 통한 음성인식방법에 관한 것이다.
음성 인식 기술은 사용자 등이 입력하는 음성을 집음하여 획득한 음성신호를 소정 언어에 대응되는 신호로 인식하는 기술로 다양한 분야에 활용될 수 있다. 특히, 음성인식기술은 손가락 등을 통해 특정 버튼을 누르는 등의 종래의 입력방식에 비해 간편하므로, 종래의 입력방식을 대체하는 수단으로 TV, 휴대폰 등의 전자기기에 활용되고 있다. 예를 들어, TV의 채널 조정을 '채널 올려'와 같은 특정 단어를 음성으로 입력하고, TV 내의 음성인식엔진을 통해 사용자의 음성신호를 인식하여 채널 조정을 수행할 수 있다.
음성인식 기술이 발달함에 따라 음성인식엔진을 통해 인식 가능한 음성신호의 범위도 확장되고 있는데, 종래에는 한정된 수의 정해진 단어만을 인식할 수 있는 정도에 불과 하였으나, 최근에는 비교적 긴 문장을 인식할 수 있으며 그 정확도 또한 향상된 음성인식엔진이 상용화되고 있는 추세이다.
한편, 음성인식엔진은 그 사용목적에 따라 여러 가지로 분류할 수 있는데, 크게 단어 인식용 엔진과, 연속어 인식용 엔진으로 구분할 수 있다. 단어 인식용 엔진은 한정된 수의 정해진 단어만을 인식하면 충분하므로 음성인식엔진의 용량이 크지 않아 전자기기 내의 임베디드형 엔진으로 활용 가능하다. 또한, 연속어 인식용 엔진은 대용량이 요구되는 대신 더욱 많은 단어 및 문장을 인식할 수 있으므로, 최근 들어 클라우드 환경이 구축됨에 따라 서버 기반으로 활용될 수 있다.
상술한 단어 인식용 엔진과 연속어 인식용 엔진은 용량면, 데이터 전송면, 속도 면에서 서로 상충되는 장단점을 가지고 있어, 양자를 적절히 활용하여 음성인식 기능을 더욱 효율적으로 사용할 수 있을 것이다. 다만, 하나의 음성신호에 대해 하나의 기기에 탑재된 여러가지 형태의 음성인식엔진에서 음성 인식을 수행하는 경우 그 결과가 달라 음성신호에 따른 제어를 수행하는데 문제가 발생할 수 있다.
이에 본 발명은 상이한 성능을 갖는 복수의 음성인식엔진을 이용하여 음성인식을 수행하면서, 각 음성인식엔진의 음성인식의 결과의 충돌을 방지할 수 있는 음성인식장치 및 음성인식장치를 통한 음성인식방법을 제안하고자 한다.
상기 과제는, 본 발명에 따라, 음성인식장치에 있어서, 사용자의 음성신호를 수신하는 음성수신부; 상기 음성신호를 수신하여 음성인식 처리를 수행하는 제1음성인식엔진; 상기 음성신호를 수신하여 외부의 제2음성인식엔진으로 전송하는 통신부; 및 상기 음성수신부를 통해 수신된 음성신호를 상기 제1음성인식엔진으로 전송하고, 상기 제1음성인식엔진이 상기 음성신호의 음성인식을 수행할 수 있는 경우 상기 제1음성인식엔진의 음성인식 결과를 출력하고, 수행할 수 없는 경우 상기 음성신호를 상기 통신부를 통해 상기 제2음성인식엔진으로 전송하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 음성인식장치에 의해 달성될 수 있다.
여기서, 상기 제1음성인식엔진은 기 설정된 어휘만을 인식할 수 있는 임베디드형 엔진으로 구성되고, 상기 제2음성인식엔진은 연속된 다수의 어휘를 인식할 수 있는 서버형 엔진으로 구성될 수 있다.
여기서, 상기 제1음성인식엔진은 상기 음성신호의 묵음 구간을 검출하고, 상기 묵음 구간 사이의 음성신호에 대한 음성인식 처리를 수행할 수 있다.
여기서, 상기 제1음성인식엔진은 상기 음성신호에서 음성의 크기가 기설정된 값 이하인 구간을 상기 묵음 구간으로 판단할 수 있다.
여기서, 상기 음성수신부는 원격제어장치로부터 집음된 사용자의 음성신호를 수신할 수 있다.
여기서, 음성인식장치는 영상을 표시하는 디스플레이부를 포함하는 디스플레이장치일 수 있다.
여기서, 상기 제어부는 음성신호를 처리하는 음성인식엔진에 관한 정보를 포함하는 UI를 상기 디스플레이부에 표시하도록 제어할 수 있다.
또한, 상기 과제는, 음성인식장치를 통한 음성인식방법에 있어서, 사용자의 음성신호를 수신하는 단계; 상기 수신한 음성신호를 제1음성인식엔진으로 입력하는 단계; 상기 제1음성인식엔진을 통해 상기 음성신호의 음성인식을 수행할 수 있는지 판단하는 단계; 및 상기 판단 결과, 상기 제1음성인식엔진을 통해 음성인식을 수행할 수 있는 경우 상기 제1음성인식엔진의 음성인식 결과를 출력하고, 수행할 수 없는 경우 상기 음성신호를 외부의 제2음성인식엔진으로 전송하는 단계 포함하는 것을 특징으로 하는 음성인식방법에 의해 달성될 수도 있다.
여기서, 상기 제1음성인식엔진은 기 설정된 어휘만을 인식할 수 있는 임베디드형 엔진으로 구성되고, 상기 제2음성인식엔진은 연속된 다수의 어휘를 인식할 수 있는 서버형 엔진으로 구성될 수 있다.
여기서, 상기 음성신호의 묵음 구간을 검출하는 단계를 더 포함하며, 상기 제1음성인식엔진은 상기 묵음 구간 사이의 음성신호에 대한 음성인식 처리를 수행할 수 있다.
여기서, 상기 묵음 구간을 검출하는 단계는, 상기 음성신호에서 음성의 크기가 기설정된 값 이하인 구간을 상기 묵음 구간으로 판단할 수 있다.
여기서, 상기 음성인식장치는 영상을 표시하는 디스플레이부를 포함하는 디스플레이장치일 수 있다.
여기서, 상기 음성신호를 처리하는 음성인식엔진에 관한 정보를 포함하는 UI를 상기 디스플레이부에 표시하는 단계를 더 포함할 수 있다.
이상 설명한 바와 같이, 본 발명에 따르면, 상이한 성능을 갖는 복수의 음성인식엔진을 이용하여 음성인식을 수행하면서, 각 음성인식엔진의 음성인식의 결과의 충돌을 방지할 수 있는 음성인식장치 및 음성인식장치를 통한 음성인식방법을 제공할 수 있다.
도 1은 본 발명에 따른 음성인식장치의 제어블록도이다.
도 2는 음성신호에서 묵음 구간을 검출하여, 음성인식을 수행할 음성신호 구간을 결정하는 특징을 설명하기 위한 것이다.
도3은 디스플레이부에 표시된 UI를 간략히 도시한 것이다.
도 4는 본 발명에 따른 음성인식장치를 통한 음성인식방법의 흐름도이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예들에 한정되지 않는다. 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙이도록 한다.
도 1은 본 발명에 따른 음성인식장치(100)의 제어블록도이다.
도시된 바와 같이, 본 발명에 따른 음성인식장치(100)는 음성수신부(110), 제1음성인식엔진(120), 통신부(130), 제어부(140)를 포함하며, 실시 형태에 따라 디스플레이부(150)를 더 포함할 수 있다.
음성수신부(110)는 사용자의 음성신호(10)를 수신한다. 음성수신부(110)는 음성인식장치(100)의 외측에 마련된 마이크를 통해 구현될 수 있으며, 원격제어장치(미도시)에 마련된 마이크를 통해 집음된 음성신호(10)를 수신하는 형태로도 구현될 수 있다.
제1음성인식엔진(120)은 음성신호를 수신하여 음성인식 처리를 수행한다. 음성인식 기능은 음성신호를 언어 데이터로 변환하는 일련의 과정으로써 제1음성인식엔진(120)은 공지의 다양한 음성인식 방법에 따라 음성신호를 언어 데이터로 변환하여 출력할 수 있다. 한편, 음성수신부(110)를 통해 수신되는 음성신호는 음성인식을 목표로 한 사용자의 음성 이외에 다양한 노이즈를 포함할 수 있으므로, 주파수 분석 등의 전처리 과정을 통해 사용자의 음성 성분만을 추출하고, 추출된 음성 성분에 대해 음성인식 처리를 수행할 수 있다. 음성인식엔진을 통한 음성 인식 방법은 공지의 다양한 방법이 존재하므로, 이에 대한 설명은 생략하기로 한다.
제1음성인식엔진(120)은 음성인식장치(100) 내부에 마련되는 임베디드형 엔진으로 구현될 수 있으며, 별도의 하드웨어로 구현되거나, 후술할 제어부(140)에 의해 실행되는 소프트웨어로 구현될 수도 있다. 이러한 임베디드형 엔진은 정해진 수의 특정한 어휘 만을 인식 가능할 수 있다. 예를 들어, 음성인식장치(100)가 TV 등의 디스플레이장치로 구현되는 경우, TV를 제어하기 위한 사용자의 입력을 인식하는 용도로 활용될 수 있다. 사용자가 '채널 올려', '전원 오프', '음소거' 등의 음성신호를 입력하는 경우에, 제1음성인식엔진(120)은 음성신호를 인식하여 저장된 언어리스트에 포함된 기 설정된 언어 중 어느 하나로 인식되는 경우, 인식된 언어 데이터를 출력할 수 있다. 이러한 임베디드형 엔진은 작은 용량의 메모리 만으로 구현이 가능하고, 속도 면에 있어서 우월한 장점이 있으나, 인식할 수 있는 어휘에 한계가 존재할 수 밖에 없어 앞서 설명한 바와 같이 TV 제어 등의 간단한 입력만이 가능한 한계가 있다.
음성인식장치(100)는 음성신호를 수신하여 외부의 제2음성인식엔진(210)을 구비하는 음성인식서버(200)로 전송하는 통신부(130)를 더 포함할 수 있다. 통신부(130)는 네트워크를 통해 음성인식서버(200)로 음성신호를 전달하고, 제2음성인식엔진(210)의 음성인식 결과를 음성인식서버(200)로부터 수신할 수 있다.
앞서 설명한 바와 같이, 임베디드형 엔진에 해당하는 제1음성인식엔진(120)과 달리, 제2음성인식엔진(210)은 서버를 통해 구현되므로 다양한 어휘 또는 연속어의 인식이 가능할 수 있다. 예를 들어, 검색창에 특정 검색어를 입력하는 것, SNS 등의 어플리케이션을 통해 문장을 입력하는 것 등은 많은 어휘의 인식이 요구되므로, 임베디드형 엔진을 통해서는 실현이 쉽지 않지만, 서버를 통해 구현되는 제2음성인식엔진(210)을 통해서는 실현이 가능하다. 즉, 제2음성인식엔진(210)을 활용하는 경우, 음성인식서버(200)로 음성신호를 전달해야 하는 과정을 거치는 결과 속도가 느린 대신 성능 면에서는 우수하다고 볼 수 있다.
따라서, 본 발명에 따른 음성인식장치(100)는 음성수신부(110)를 통해 입력되는 음성신호를 제1음성인식엔진(120) 및 제2음성인식엔진(210) 모두를 활용하여 인식 결과를 활용할 수 있도록 구성된다. 특정한 음성신호가 입력될 때, 상기 음성인식엔진의 특성에 따른 용도 차이로 인해서 음성인식장치(100)는 입력되는 음성신호를 어느 음성인식엔진으로 전송할 지 결정해야 할 필요가 있다. 제1음성인식엔진(120)과 제2음성인식엔진(210) 모두에서 음성 인식 결과를 출력할 경우, 하나의 입력에 대해 복수의 동작이 수행될 수 있어 사용자가 의도하는 입력이 이루어지지 않을 수 있다. 하지만, 음성인식장치(100) 내에서 음성신호만을 보고 이를 결정하는 것은 쉽지가 않다.
제어부(140)는 본 발명의 음성인식장치(100)를 전반적으로 제어하는 역할을 수행하는 CPU, MiCOM과 같은 마이크로프로세서로 구현될 수 있다. 특히, 제어부(140)는 음성수신부(110)를 통해 수신된 음성신호를 제1음성인식엔진(120) 및/또는 제2음성인식엔진(210)으로 전송하고, 출력된 결과를 통해 음성인식장치(100)의 동작을 제어하는 역할을 수행한다. 이를 위해 제어부(140)는 디멀티플렉서와 같이 입력되는 신호를 하나의 경로로 스위칭하는 음성분기부(미도시)를 포함할 수 있다.
제어부(140)는 음성수신부(110)를 통해 음성신호가 수신되면, 수신한 음성신호를 제1음성인식엔진(120)으로 전송한다. 음성신호를 입력 받은 제1음성인식엔진(120)은 음성신호에 대한 음성인식처리를 수행하며, 앞서 설명한 바와 같이 음성신호가 저장된 언어리스트에 포함된 언어 중 어느 하나로 인식되는 경우 그 결과를 제어부(140)로 출력하고, 저장된 언어리스트에 포함된 언어가 아닌 경우, 즉 제1음성인식엔진(120)이 음성인식을 수행할 수 없는 경우, 음성인식이 불가능하다는 정보를 포함하는 소정 신호를 제어부(140)로 출력한다. 이 경우, 제어부(140)는 음성신호를 통신부(130)를 통해 음성인식서버(200)에 포함된 제2음성인식엔진(210)으로 전송하도록 제어하고, 제2음성인식엔진(210)으로부터 출력된 음성인식 결과에 따라 소정 동작을 수행한다.
한편, 음성인식장치(100)에 있어서, 음성수신부(110)는 사용자의 음성을 연속적으로 수신하고, 그 결과는 제어부(140)의 제어에 따라 제1음성인식엔진(120) 및/또는 제2음성인식엔진(210)으로 입력된다.
이 경우, 제1음성인식엔진(120)은 입력되는 음성신호를 순차적으로 인식을 수행하여 먼저 인식할 수 있는 언어가 나타나면 곧바로 그 결과를 출력하도록 구성될 수 있다. 도 2에 도시된 바와 같이, 예를 들어 사용자가 "Fox news is"라는 음성을 연속적으로 입력하는 경우, 음성신호는 제1음성인식엔진(120)으로 입력되고, 제1음성인식엔진(120)은 입력된 음성신호에서 특징벡터(features)를 찾고, 이 특징벡터들을 통해 음향모델의 state와 연결되며, 각 state들을 통해 각 음소(phone)를 검출할 수 있다. 만약 검출된 음소의 조합 결과가 저장된 언어리스트에 포함되어 있는 것이면 제1음성인식엔진(120)은 그에 따른 결과를 출력할 수 있다. 이 때, 저장된 언어리스트에 "fox"라는 언어가 존재하여, 음성신호의 앞 구간에서 "fox"에 해당하는 음소를 검출하면, 제1음성인식엔진(120)은 이후에 연속적으로 입력되는 "news is"의 음성신호와 관계 없이 "fox"의 인식결과만을 출력할 수 있다. 이러한 방식은 연속적으로 입력되는 음성에 대해 연속적으로 각각 그 결과를 출력시킬 수 있게 하는 방식에 해당한다.
하지만, 본 발명에 따른 음성인식장치(100)는 제1음성인식엔진(120) 및/또는 제2음성인식장치(100)의 음성인식 결과를 모두 출력 가능함에도, 앞서 설명한 바와 같이 음성인식을 수행할 음성인식엔진을 선택할 수 있는 방법을 제한할 수 있으므로, 사용자가 의도하고자 하는 음성신호 구간을 결정하여 결정된 구간의 음성데이터에 대해서만 음성인식을 수행하는 것이 타당할 것이다.
상기 문제점을 해결하기 위해, 제1음성인식엔진(120)은 연속적으로 입력되는 음성신호 중 묵음 구간을 검출하고, 묵음 구간 사이의 음성신호에 대해 음성인식 처리를 수행한다. 이 때, 제1음성인식엔진(120)은 음성신호의 사이에서 음성의 크기가 소정 값 이하인 구간이 소정 시간 이상 지속되는 경우, 이 구간을 묵음 구간으로 판단할 수 있다.
도 2를 참고하면, 제1음성인식엔진(120)은 입력되는 음성신호에서 음성신호가 소정 시간 동안 소정 값 이하인, 첫번째 묵음 구간 및 두번째 묵음 구간(12)을 검출하고, 묵음 구간(12) 사이에 존재하는 음성신호 전체(13)에 대해 음성인식을 수행한다. 본 발명에서 제1음성인식엔진(120)은 임베디드형 엔진으로써 정해진 수의 특정한 어휘 만을 인식하도록 마련될 수 있는 바, 이 경우 단어 "Fox"에 대한 음성인식이 가능하더라도, 문장 "Fox news is"는 저장된 언어리스트에 포함되어 있지 않아, 음성인식 결과를 출력할 수 없을 것이다. 따라서, 제1음성인식엔진(120)은 음성인식 결과의 출력이 불가능하다는 정보를 포함하는 소정 신호를 제어부(140)로 출력하고, 제어부(140)는 이러한 정보를 수신하면 묵음 구간 사이의 음성신호를 통신부(130)를 통해 음성인식서버(200)로 전송한다.
다른 예를 들어 구체적으로 설명하면, 사용자가 "[묵음] 채널 5번에서 오늘 저녁에 드라마 뭐해 [묵음]"라고 발화하는 경우, 이는 사용자가 방송 검색을 목적으로 하거나, 문자 메시지를 보내는 것을 목적으로 하는 경우일 것이다. 하지만, 이 음성신호가 제1음성인식엔진(120)으로 입력되면 음성신호의 문두에 나타나는 "채널"은 제1음성인식엔진(120)에 저장된 언어리스트에 존재하는 단어일 수 있으며, 인식된 "채널"이라는 결과를 그대로 출력할 수 있다. 따라서, 제1음성인식엔진(120)은 제2음성인식엔진(210)을 통한 처리가 적합한 상기 음성신호에 대해서도 인식결과를 출력하게 되고, 음성인식장치(100)는 제1음성인식엔진(120)이 출력한 결과에 따른 동작을 수행하게 된다. 상술한 본 발명에 따라, 묵음 구간 사이의 음성신호 전체를 처리하는 경우, 제1음성인식엔진(120)은 "채널"만을 인식하는 것이 아니라, 묵음 구간 사이에 존재하는 "채널 5번에서 오늘 저녁에 드라마 뭐해"라는 음성신호 전체를 인식하게 되고, 이러한 인식 결과는 제1음성인식엔진(120)의 언어리스트에 존재하지 않으므로, 인식결과를 출력할 수 없거나 출력한다고 해도 그 신뢰도는 매우 낮을 수 밖에 없을 것이다. 이런 경우, 제어부(140)는 해당 음성신호가 임베디드형 엔진인 제1음성인식엔진(120)의 처리가 적합하지 않음을 판단할 수 있고, 서버형 엔진인 제2음성인식엔진(210)에 의한 처리가 수행되도록 결정할 수 있으며, 제1음성인식엔진(120)으로부터 출력된 결과는 무시할 수 있다.
본 발명에 따른 음성인식장치(100)는 영상을 표시하는 디스플레이부(150)를 포함하는 디스플레이장치로 구현될 수 있다. 이 경우 제어부(140)는 음성신호를 처리하는 음성인식엔진에 관한 정보를 포함하는 UI를 디스플레이부(150)에 표시하도록 제어할 수 있다. 도 3에 도시된 바와 같이, 음성신호가 입력되고 그 결과에 따라 채널 전환 또는 검색어의 입력과 같은 동작이 수행되면, 해당 음성인식 결과가 어떠한 음성인식엔진에 의해 수행된 것인지를 지시하는 UI를 표시하여, 사용자에게 피드백을 제공할 수 있다.
상술한 본 발명에 따른 음성인식장치(100)는, 상이한 성능을 갖는 복수의 음성인식엔진을 이용하여 음성인식을 수행하면서, 각 음성인식엔진의 음성인식의 결과의 충돌을 방지하고, 사용자가 의도하는 의도하고자 하는 음성신호 구간에 대한 음성인식 결과를 출력할 수 있다.
도 4는 본 발명에 따른 음성인식장치(100)를 통한 음성인식방법의 흐름도이다.
본 발명에 따른 음성인식장치는 사용자의 음성신호를 제1음성인식엔진 또는 제2음성인식엔진을 통해 음성인식 처리를 수행할 수 있다. 제1음성인식엔진은 음성인식장치 내부에 마련되는 임베디드형 엔진으로 구현되어 작은 용량으로 구현 가능한 대신 정해진 수의 특정한 어휘만을 인식 가능하도록 마련될 수 있으며, 제2음성인식엔진은 이와 달리 서버형 엔진으로 구현되어 음성인식장치 외부의 음성인식서버(200)에 마련되어 다수의 어휘 및 문장을 인식 가능하도록 마련될 수 있다.
음성인식장치는 사용자의 음성신호를 수신한다(S110). 이 때, 음성인식장치에 마련된 마이크를 통해 사용자의 음성을 수신하거나, 원격제어장치에 마련된 마이크를 통해 집음된 음성신호를 수신할 수 있다.
음성인식장치는 수신된 사용자의 음성신호를 제1음성인식엔진으로 입력한다(S120).
제1음성인식엔진은 음성신호의 묵음 구간을 검출하며(S130), 검출된 묵음 구간 사이의 음성신호가 제1음성인식엔진을 통한 음성인식 처리의 대상이 된다. 이 때, 제1음성인식엔진은 음성신호의 사이에서 음성의 크기가 소정 값 이하인 구간이 소정 시간 이상 지속되는 경우, 이 구간을 묵음 구간으로 판단할 수 있다. 묵음 사이의 구간을 검출하는 상기 특징에 대해서는 앞서 도 2를 통해 설명한 바와 같다.
앞서 설명한 바와 같이, 제1음성인식엔진은 임베디드형 엔진으로 구현될 수 있으며, 저장된 언어리스트에 저장된 정해진 수의 특정한 어휘 만을 인식 가능하다. 음성인식장치는 제1음성인식엔진에 의해 묵음 구간 사이의 음성신호에 대한 음성인식을 수행할 수 있는지 판단하고(S140), 수행할 수 있는 경우 음성인식 결과를 출력하고(S150), 수행할 수 없는 경우 음성신호를 제2음성인식엔진을 포함하는 음성인식서버로 전송한다(S160).
제1음성인식엔진 및/또는 제2음성인식엔진의 음성인식 결과는 음성인식장치의 제어부에 전송되며, 제어부는 음성인식 결과에 따른 소정 동작을 수행한다.
한편, 본 발명에 있어서, 음성인식장치는 영상을 표시하는 디스플레이부를 포함하는 디스플레이장치로 구현될 수 있다. 이 경우 음성인식장치는 음성신호를 처리하는 음성인식엔진에 관한 정보를 포함하는 UI를 디스플레이부에 표시할 수 있다. 이에 대해서는 앞서 도 3을 통해 설명한 바와 같다.
상술한 본 발명에 따른 음성인식장치를 통한 음성인식방법은, 상이한 성능을 갖는 복수의 음성인식엔진을 이용하여 음성인식을 수행하면서, 각 음성인식엔진의 음성인식의 결과의 충돌을 방지하고, 사용자가 의도하는 의도하고자 하는 음성신호 구간에 대한 음성인식 결과를 출력할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 그 기술적 사상이나 필수적인 특징들이 변경되지 않고서 다른 구체적인 형태로 실시될 수 있다는 것으로 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 음성인식장치
110: 음성수신부
120: 제1음성인식엔진
130: 통신부
140: 제어부
150: 디스플레이부
200: 음성인식서버
210: 제2음성인식엔진

Claims (13)

  1. 음성인식장치에 있어서,
    사용자의 음성신호를 수신하는 음성수신부;
    상기 음성신호를 수신하여 음성인식 처리를 수행하는 제1음성인식엔진;
    상기 음성신호를 수신하여 외부의 제2음성인식엔진으로 전송하는 통신부; 및
    상기 음성수신부를 통해 수신된 음성신호를 상기 제1음성인식엔진으로 전송하고, 상기 제1음성인식엔진이 상기 음성신호의 음성인식을 수행할 수 있는 경우 상기 제1음성인식엔진의 음성인식 결과를 출력하고, 수행할 수 없는 경우 상기 음성신호를 상기 통신부를 통해 상기 제2음성인식엔진으로 전송하도록 제어하는 제어부를 포함하는 것을 특징으로 하는 음성인식장치.
  2. 제 1항에 있어서,
    상기 제1음성인식엔진은 기 설정된 어휘만을 인식할 수 있는 임베디드형 엔진으로 구성되고, 상기 제2음성인식엔진은 연속된 다수의 어휘를 인식할 수 있는 서버형 엔진으로 구성되는 것을 특징으로 하는 음성인식장치.
  3. 제 2항에 있어서,
    상기 제1음성인식엔진은 상기 음성신호의 묵음 구간을 검출하고, 상기 묵음 구간 사이의 음성신호에 대한 음성인식 처리를 수행하는 것을 특징으로 하는 음성인식장치.
  4. 제 3항에 있어서,
    상기 제1음성인식엔진은 상기 음성신호에서 음성의 크기가 기설정된 값 이하인 구간을 상기 묵음 구간으로 판단하는 것을 특징으로 하는 음성인식장치.
  5. 제 1항에 있어서,
    상기 음성수신부는 원격제어장치로부터 집음된 사용자의 음성신호를 수신하는 것을 특징으로 하는 음성인식장치.
  6. 제 1항에 있어서,
    음성인식장치는 영상을 표시하는 디스플레이부를 포함하는 디스플레이장치인 것을 특징으로 하는 음성인식장치.
  7. 제 6항에 있어서,
    상기 제어부는 음성신호를 처리하는 음성인식엔진에 관한 정보를 포함하는 UI를 상기 디스플레이부에 표시하도록 제어하는 것을 특징으로 하는 음성인식장치.
  8. 음성인식장치를 통한 음성인식방법에 있어서,
    사용자의 음성신호를 수신하는 단계;
    상기 수신한 음성신호를 제1음성인식엔진으로 입력하는 단계;
    상기 제1음성인식엔진을 통해 상기 음성신호의 음성인식을 수행할 수 있는지 판단하는 단계; 및
    상기 판단 결과, 상기 제1음성인식엔진을 통해 음성인식을 수행할 수 있는 경우 상기 제1음성인식엔진의 음성인식 결과를 출력하고, 수행할 수 없는 경우 상기 음성신호를 외부의 제2음성인식엔진으로 전송하는 단계 포함하는 것을 특징으로 하는 음성인식방법.
  9. 제 8항에 있어서,
    상기 제1음성인식엔진은 기 설정된 어휘만을 인식할 수 있는 임베디드형 엔진으로 구성되고, 상기 제2음성인식엔진은 연속된 다수의 어휘를 인식할 수 있는 서버형 엔진으로 구성되는 것을 특징으로 하는 음성인식방법.
  10. 제 9항에 있어서,
    상기 음성신호의 묵음 구간을 검출하는 단계를 더 포함하며,
    상기 제1음성인식엔진은 상기 묵음 구간 사이의 음성신호에 대한 음성인식 처리를 수행하는 것을 특징으로 하는 음성인식방법.
  11. 제 10항에 있어서,
    상기 묵음 구간을 검출하는 단계는, 상기 음성신호에서 음성의 크기가 기설정된 값 이하인 구간을 상기 묵음 구간으로 판단하는 것을 특징으로 하는 음성인식방법.
  12. 제 8항에 있어서,
    상기 음성인식장치는 영상을 표시하는 디스플레이부를 포함하는 디스플레이장치인 것을 특징으로 하는 음성인식방법.
  13. 제 12항에 있어서,
    상기 음성신호를 처리하는 음성인식엔진에 관한 정보를 포함하는 UI를 상기 디스플레이부에 표시하는 단계를 더 포함하는 것을 특징으로 하는 음성인식방법.



KR1020120124772A 2012-11-06 2012-11-06 음성인식장치 및 음성인식방법 KR20140058127A (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020120124772A KR20140058127A (ko) 2012-11-06 2012-11-06 음성인식장치 및 음성인식방법
US14/045,315 US20140129223A1 (en) 2012-11-06 2013-10-03 Method and apparatus for voice recognition
EP13190720.6A EP2728576A1 (en) 2012-11-06 2013-10-29 Method and apparatus for voice recognition
RU2015121720A RU2015121720A (ru) 2012-11-06 2013-11-01 Способ и устройство для распознавания речи
PCT/KR2013/009814 WO2014073820A1 (en) 2012-11-06 2013-11-01 Method and apparatus for voice recognition
CN201310537463.7A CN103811006A (zh) 2012-11-06 2013-11-04 用于语音识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120124772A KR20140058127A (ko) 2012-11-06 2012-11-06 음성인식장치 및 음성인식방법

Publications (1)

Publication Number Publication Date
KR20140058127A true KR20140058127A (ko) 2014-05-14

Family

ID=49485670

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120124772A KR20140058127A (ko) 2012-11-06 2012-11-06 음성인식장치 및 음성인식방법

Country Status (6)

Country Link
US (1) US20140129223A1 (ko)
EP (1) EP2728576A1 (ko)
KR (1) KR20140058127A (ko)
CN (1) CN103811006A (ko)
RU (1) RU2015121720A (ko)
WO (1) WO2014073820A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170082063A (ko) 2016-01-05 2017-07-13 한국전자통신연구원 음성 인식 장치 및 음성 인식 방법
WO2018199390A1 (ko) * 2017-04-24 2018-11-01 엘지전자 주식회사 전자기기
KR20190127202A (ko) * 2018-05-03 2019-11-13 주식회사 케이티 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015252962A1 (en) 2014-04-30 2016-12-22 Michael Flynn Mobile computing system with user preferred interactive components
CN104217719A (zh) * 2014-09-03 2014-12-17 深圳如果技术有限公司 一种触发处理方法
CN106782561A (zh) * 2016-12-09 2017-05-31 深圳Tcl数字技术有限公司 语音识别方法和系统
CN107319857A (zh) * 2017-06-30 2017-11-07 广东工业大学 一种交互镜子及具有该交互镜子的智能家电系统
CN107731222B (zh) * 2017-10-12 2020-06-30 安徽咪鼠科技有限公司 一种延长智能语音鼠标语音识别延续时间的方法
DE102018108867A1 (de) * 2018-04-13 2019-10-17 Dewertokin Gmbh Steuereinrichtung für einen Möbelantrieb und Verfahren zum Steuern eines Möbelantriebs
JP7009338B2 (ja) * 2018-09-20 2022-01-25 Tvs Regza株式会社 情報処理装置、情報処理システム、および映像装置
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
CN109859755B (zh) * 2019-03-13 2020-10-09 深圳市同行者科技有限公司 一种语音识别方法、存储介质及终端
CN109979454B (zh) * 2019-03-29 2021-08-17 联想(北京)有限公司 数据处理方法及装置
CN113053369A (zh) * 2019-12-26 2021-06-29 青岛海尔空调器有限总公司 智能家电的语音控制方法及装置、智能家电

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
WO2000058942A2 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
JP2000284792A (ja) * 1999-03-31 2000-10-13 Canon Inc 音声認識装置及び方法
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6834265B2 (en) * 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US20120010890A1 (en) * 2008-12-30 2012-01-12 Raymond Clement Koverzin Power-optimized wireless communications device
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视系统及通过语音控制电视机的方法
WO2013012107A1 (ko) * 2011-07-19 2013-01-24 엘지전자 주식회사 전자 기기 및 그 제어 방법
CN102572569B (zh) * 2012-02-24 2015-05-06 北京原力创新科技有限公司 机顶盒、互联网电视及智能控制信号的处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170082063A (ko) 2016-01-05 2017-07-13 한국전자통신연구원 음성 인식 장치 및 음성 인식 방법
WO2018199390A1 (ko) * 2017-04-24 2018-11-01 엘지전자 주식회사 전자기기
KR20190127202A (ko) * 2018-05-03 2019-11-13 주식회사 케이티 스토리 컨텐츠에 대한 음향 효과를 제공하는 미디어 재생 장치 및 음성 인식 서버

Also Published As

Publication number Publication date
US20140129223A1 (en) 2014-05-08
RU2015121720A (ru) 2016-12-27
EP2728576A1 (en) 2014-05-07
WO2014073820A1 (en) 2014-05-15
CN103811006A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
KR20140058127A (ko) 음성인식장치 및 음성인식방법
KR20140054643A (ko) 음성인식장치 및 음성인식방법
US9767795B2 (en) Speech recognition processing device, speech recognition processing method and display device
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
CN109937447B (zh) 语音识别装置、语音识别系统
CN109343819B (zh) 在语音识别系统中控制显示装置的显示装置和方法
US9601107B2 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
WO2011148594A1 (ja) 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム
CN110047481B (zh) 用于语音识别的方法和装置
EP2770445A2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
KR20170032096A (ko) 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
EP3428917B1 (en) Voice processing device and voice processing method
KR20150093482A (ko) 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
KR20140112360A (ko) 음성 인식의 단어 통합 시스템 및 단어군 추가 방법
US9679560B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
US20170278511A1 (en) Server-Side ASR Adaptation to Speaker, Device and Noise Condition Via Non-ASR Audio Transmission
KR20200082137A (ko) 전자 장치 및 그의 제어 방법
CN110839169B (zh) 一种智能设备遥控装置及基于其的控制方法
KR102075399B1 (ko) 스피치 인식 장치
KR102479026B1 (ko) MPEG IoMT 환경에서의 질의응답 시스템 및 방법
KR20210130494A (ko) 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법
CN112823047A (zh) 用于控制网络应用程序的系统和设备
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备
CN113228170B (zh) 信息处理装置及非易失性存储介质
KR101364844B1 (ko) 화상통화기능을 갖는 이동통신단말기 및 그 제어방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid