KR102372327B1 - 음성 인식 방법 및 이에 사용되는 장치 - Google Patents

음성 인식 방법 및 이에 사용되는 장치 Download PDF

Info

Publication number
KR102372327B1
KR102372327B1 KR1020170101309A KR20170101309A KR102372327B1 KR 102372327 B1 KR102372327 B1 KR 102372327B1 KR 1020170101309 A KR1020170101309 A KR 1020170101309A KR 20170101309 A KR20170101309 A KR 20170101309A KR 102372327 B1 KR102372327 B1 KR 102372327B1
Authority
KR
South Korea
Prior art keywords
sound
voice recognition
weight
distance
multiplied
Prior art date
Application number
KR1020170101309A
Other languages
English (en)
Other versions
KR20190016851A (ko
Inventor
임국찬
신동엽
신승민
신승호
배용우
이학순
전진수
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020170101309A priority Critical patent/KR102372327B1/ko
Publication of KR20190016851A publication Critical patent/KR20190016851A/ko
Priority to KR1020210166682A priority patent/KR102374054B1/ko
Application granted granted Critical
Publication of KR102372327B1 publication Critical patent/KR102372327B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

일 실시예에 따른 음성 입력 방법은 음성 인식 장치에 의해 수행되며, 상기 음성 인식 장치의 제1 소리 입력부에 입력된 제1 소리의 크기를 도출하는 단계와, 타 기기의 제2 소리 입력부에 입력된 제2 소리의 크기에 대한 정보가 상기 타 기기로부터 수신되면, 상기 제1 소리의 크기와 상기 제2 소리의 크기를 비교하는 단계와, 상기 비교 결과 상대적으로 크기가 큰 소리에 상대적으로 큰 값의 가중치를 곱하고 상대적으로 크기가 작은 소리에 상대적으로 작은 값의 가중치를 곱하는 단계와, 상기 가중치가 각각 곱해진 제1 소리 및 제2 소리에 대해 음성 인식이 수행되도록 제어하는 단계를 포함한다.

Description

음성 인식 방법 및 이에 사용되는 장치{METHOD FOR RECOGNIZING VOICE AND APPARATUS USED THEREFOR}
본 발명은 음성 인식 방법 및 이에 사용되는 장치에 관한 것이며, 보다 자세하게는 음성을 입력받는 타 기기와 연동하여서 음성을 인식하는 방법 및 이에 사용되는 장치에 관한 것이다.
음성 인식 기반의 대화형 디바이스는 복수 개의 음성 입력부(예컨대 마이크로폰)를 포함할 수 있다. 음성 입력부가 복수 개로 구비되면, 다양한 방향에서 발생되는 음성이 높은 인식률로 수집될 수 있다. 도 1은 복수 개의 음성 입력부(20)를 포함하는 대화형 디바이스(1)의 구성을 개념적으로 도시한 도면이다. 도 1을 참조하면, 대화형 디바이스(1)는 몸체를 구성하는 바디부(10) 그리고 이러한 바디부(10)에 실장되는 복수 개의 음성 입력부(20)를 포함할 수 있다. 복수 개의 음성 입력부(20)는 다양한 방향을 향하도록 지향적으로 배치될 수 있다.
도 2는 도 1에 도시된 복수 개의 음성 입력부(20)에 대한 블록도를 도시한 도면이다. 도 2를 참조하면, 복수 개의 음성 입력부(20) 각각은 증폭기(21)에 연결될 수 있고, 증폭기(21)는 마이크로프로세서(MCU, 22)에 연결될 수 있다. 복수 개의 음성 입력부(20) 각각을 통해 입력된 음성은 증폭기(21)에서 증폭된 뒤 마이크로프로세서(22)로 전달된다. 마이크로프로세서(22)는 각각의 증폭기(21)로부터 음성을 전달받은 후 음성 인식을 직접 수행할 수 있으며, 이와 달리 별도의 음성 인식 서버에서 음성 인식이 수행될 수 있도록 음성 인식 서버에게 음성을 전달할 수 있다.
대화형 디바이스(1)는 특정 위치에 고정되어 사용되는 고정형 디바이스일 수 있다. 사용자가 대화형 디바이스(1)로부터 근거리만큼 이격된 위치에 있다면, 이러한 사용자가 발한 음성은 대화형 디바이스(1)에서 용이하게 인식 가능하다. 그러나, 사용자가 대화형 디바이스(1)로부터 원거리만큼 이격된 위치에 있다면, 이러한 사용자가 발한 음성은 대화형 디바이스(1)에서 용이하게 인식되기가 어렵다. 왜냐하면, 사용자가 발한 음성이 대화형 디바이스(1)까지 도달하는 과정에서 왜곡될 수 있기 때문이다. 이 밖에도 사용자의 음성에 의한 반향(echo), 잡음원이 발생하는 잡음(noise)에 의한 영향 또는 대화형 디바이스(1) 자체에서 출력되는 소리에 의한 반향 등은 사용자가 발한 음성에 왜곡을 가할 수 있다.
한국특허공개공보, 제 2010-0115783호 (2010.10.28. 공개)
이에 본 발명이 해결하고자 하는 과제는, 사용자가 음성 인식 장치로부터 원거리만큼 이격된 위치에 있거나 대화형 디바이스 부근에 잡음원이 존재하는 경우 음성 인식률을 개선하는 기술을 제공하는 것이다.
또한, 음성 인식 장치가 자체적으로 출력하는 소리 또는 사용자의 음성에 의한 반향 영향 등을 제거 또는 감소시킴으로써 음성 인식률을 개선하는 기술을 제공하는 것이다.
다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
일 실시예에 따른 음성 입력 방법은 음성 인식 장치에 의해 수행되며, 상기 음성 인식 장치의 제1 소리 입력부에 입력된 제1 소리의 크기를 도출하는 단계와, 타 기기의 제2 소리 입력부에 입력된 제2 소리의 크기에 대한 정보가 상기 타 기기로부터 수신되면, 상기 제1 소리의 크기와 상기 제2 소리의 크기를 비교하는 단계와, 상기 비교 결과 상대적으로 크기가 큰 소리에 상대적으로 큰 값의 가중치를 곱하고 상대적으로 크기가 작은 소리에 상대적으로 작은 값의 가중치를 곱하는 단계와, 상기 가중치가 각각 곱해진 제1 소리 및 제2 소리에 대해 음성 인식이 수행되도록 제어하는 단계를 포함한다.
일 실시예에 따른 음성 인식 장치는 제1 소리를 입력받는 제1 소리 입력부와, 상기 제1 소리의 크기를 도출하는 음성 인식부와, 제2 소리 입력부를 포함하는 타 기기로부터 상기 제2 소리 입력부에 입력된 제2 소리의 크기에 대한 정보를 수신하는 통신부와, 상기 제1 소리의 크기와 상기 제2 소리의 크기를 비교하고, 상기 비교 결과 상대적으로 큰 소리에 곱해지는 가중치는 상대적으로 큰 값을 갖도록 산출하고 상대적으로 작은 소리에 곱해지는 가중치는 상대적으로 작은 값을 갖도록 산출하며, 상기 산출된 각각의 가중치가 곱해진 제1 소리 및 제2 소리에 대해 음성 인식이 수행되도록 제어하는 제어부를 포함한다.
일 실시예에 따르면, 복수 개의 장치 각각이 소리를 입력받을 때, 이러한 소리를 발하는 음원과 각각의 장치 간의 이격 거리가 고려되어서 각각의 소리가 다른 비율로 증폭될 수 있다. 따라서, 어느 하나의 장치가 음원과 원거리만큼 이격되어 있다고 하더라도 다른 장치가 음원과 근거리만큼 이격되어 있으면 이러한 다른 장치로 입력된 소리가 보다 크게 증폭되어서 합성될 수 있으므로, 해당 음원이 발하는 소리에 대한 인식률이 향상될 수 있다.
또한, 반향음에 의해 발생 가능한 소리의 왜곡이 경감되거나 제거될 수 있다.
도 1은 일반적인 대화형 음성 인식 장치의 구성을 개념적으로 도시한 도면이다.
도 2는 도 1에 도시된 대화형 음성 인식 장치의 음성 인식부에 대한 블록도를 도시한 도면이다.
도 3은 일 실시예에 따른 음성 인식 장치가 적용된 음성 인식 시스템의 구성을 개념적으로 도시한 도면이다.
도 4는 도 3에 도시된 타 기기의 구성을 개념적으로 도시한 도면이다.
도 5는 도 3에 도시된 일 실시예에 따른 음성 인식 장치의 구성을 개념적으로 도시한 도면이다.
도 6은 일 실시예에 따른 음성 인식 장치의 동작을 개념적으로 도시한 도면이다.
도 7은 일 실시예에 따른 음성 인식 장치가 동작하는 상황에 대한 제1 예를 개념적으로 도시한 도면이다.
도 8은 일 실시예에 따른 음성 인식 장치가 동작하는 상황에 대한 제2 예를 개념적으로 도시한 도면이다.
도 9는 일 실시예에 따른 음성 인식 장치가 동작하는 상황에 대한 제3 예를 개념적으로 도시한 도면이다.
도 10은 일 실시예에 따른 음성 인식 장치의 동작을 개념적으로 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 3은 일 실시예에 따른 음성 인식 장치(100)가 적용된 음성 인식 시스템(1000)의 구성을 개념적으로 도시한 도면이다. 다만, 도 3은 예시적인 것에 불과하므로, 음성 인식 장치(100)가 도 3에 도시된 음성 인식 시스템(1000)에만 한정 적용되는 것으로 해석되지는 않는다.
도 3을 참조하면, 음성 인식 시스템(1000)은 음성 인식 서버(500), 음성 인식 장치(100) 그리고 적어도 하나의 타 기기(200,210)를 포함할 수 있다. 이 때, 이러한 음성 인식 시스템(1000)이 설치된 공간에는 잡음(noise)을 발하는 잡음원(300)이 배치될 수 있다.
음성 인식 서버(500)는 소리로부터 음성을 추출하고 인식하는 기능을 수행하는 서버일 수 있다. 음성 인식 서버(500)에서 처리되는 소리는 음성 인식 장치(100)나 또는 타 기기(200,210)로부터 전달받은 소리일 수 있다. 여기서, 음성 인식 서버(500)는 소리로부터 음성을 추출하고 인식하기 위해 공지된 기술을 사용할 수 있는 바, 이에 대한 설명은 생략하기로 한다.
타 기기(200,210)는 외부의 소리를 입력받는 기능을 구비하는 모든 기기를 총칭할 수 있다. 예컨대 이러한 타 기기(200,210)는 스마트폰, 스마트패드, 스마트시계, 소리 입력 기능이 구비된 리모콘 또는 소리 입력 기능이 구비된 스피커 등일 수 있다. 이러한 타 기기(200,210)는 음성 인식 시스템(1000)에서 적어도 한 개 이상 구비될 수 있다. 이러한 타 기기(200,210)에 대하여는 도 4를 참조하여 살펴보기로 한다.
도 4는 도 3에 도시된 타 기기(200,210)에 대한 구성을 예시적으로 도시한 도면이다. 도 4를 참조하면, 타 기기(200,210)는 통신부(201), 적어도 하나의 스피커(202), 적어도 하나의 소리 입력부(203) 및 제어부(204) 중 적어도 하나를 포함할 수 있으며, 언급되지 않은 다른 구성을 포함할 수도 있다.
통신부(201)는 무선 통신 모듈일 수 있다. 예컨대 통신부(201)는 블루투스 모듈, Wi-Fi 모듈 또는 적외선 통신 모듈 중 어느 하나일 수 있으나 이에 한정되는 것은 아니다. 통신부(201)를 통해서 타 기기(200,210)는 음성 인식 장치(100) 또는 음성 인식 서버(500)와 음성 또는 음성 관련 데이터를 주고받을 수 있다.
스피커(202)는 외부를 향해 소리를 출력하는 구성이다. 이러한 타 기기(200,210)에 채용되는 스피커(202)는 회로 기판에 포함되는 일반적인 스피커일 수 있는 바, 이러한 스피커(202)에 대해서는 설명을 생략하기로 한다.
소리 입력부(203)는 마이크로폰과 같이 소리를 입력받는 구성이며, 입력받은 소리를 증폭시키는 구성까지도 포함할 수 있다. 소리 입력부(203)가 입력받는 소리에는 사람의 음성, 사물로부터 발생되는 소리, 잡음원(300)이 발생시키는 잡음 등이 있을 수 있으며, 다만 이에 한정되는 것은 아니다.
소리 입력부(203)는 복수 개가 타 기기(200,210)에 구비될 수 있다. 복수 개의 소리 입력부(203)는 다양한 방향을 향하도록 지향적으로 배치 및 동작될 수 있다. 복수 개의 소리 입력부(203)는 후술할 제어부(204)에 의해서 선택적으로 동작될 수 있다.
제어부(204)는 이하에서 설명할 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의하여 구현 가능하다. 이하에서는 이러한 제어부(204)에 대하여 구체적으로 살펴보도록 한다.
제어부(204)는 소리 입력부(203)가 복수 개로 구비된 경우, 이 중 적어도 하나를 선별적으로 동작시킬 수 있다.
또한, 제어부(204)는 소리 입력부(203)에 입력된 소리로부터 정보를 추출할 수 있다. 제어부(204)가 소리로부터 추출하는 정보에는 소리 입력부(203)에 소리가 입력된 시간 또는 소리 입력부(203)에 입력된 소리의 주파수나 크기 등이 포함될 수 있으나 이에 한정되는 것은 아니다.
또한, 제어부(204)는 소리에 잡음이 포함되어 있을 경우, 소리로부터 잡음을 추출하고 그 특성을 파악할 수 있으며 또한 이러한 특성을 기초로 잡음을 상쇄시키는 상쇄음을 생성할 수 있다. 다만, 제어부(204)가 소리로부터 잡음을 추출하고 잡음의 특성을 파악하며 이러한 잡음의 특성을 기초로 잡음에 대한 상쇄음을 생성하는 기술은 이미 공지된 기술을 이용하는 것이므로 이에 대한 설명은 생략하기로 한다.
잡음원(300)은 잡음을 발생시키는 음원을 지칭한다. 잡음에는 백색 소음 또는 기타 다른 소음 등이 포함될 수 있다.
음성 인식 장치(100)는 사용자(400)가 발하는 음성을 인식하고, 인식된 음성에 대응하여서 대화형 서비스를 제공하는 장치일 수 있다. 또한, 음성 인식 장치(100)는 타 기기(200,210)를 제어함으로써, 이러한 타 기기(200,210)로 하여금 사용자(400)가 발하는 음성을 입력받도록 할 수 있다. 이하에서는 이러한 음성 인식 장치(100)의 구성에 대해서 살펴보도록 한다.
도 5는 도 3에 도시된 음성 인식 장치(100)의 구성을 예시적으로 도시한 도면이다. 도 5를 참조하면, 음성 인식 장치(100)는 통신부(110), 스피커(120), 소리 입력부(130), 합성부(140), 저장부(150), 음성 인식부(160), 처리부(170) 및 제어부(180)를 포함할 수 있으며, 다만 도 5에 도시된 것과는 달리 이 중에서 적어도 하나를 포함하지 않거나 또는 도면에는 도시되지 않은 구성을 더 포함할 수도 있다.
통신부(110)는 무선 통신 모듈일 수 있다. 예컨대 통신부(110)는 블루투스모듈, Wi-Fi 모듈 또는 적외선 통신 모듈 중 어느 하나일 수 있으나 이에 한정되는 것은 아니다. 이러한 통신부(110)를 통해서 음성 인식 장치(100)는 음성 인식 서버(500) 또는 타 기기(200,210)와 음성 또는 음성 관련 데이터를 주고받을 수 있다.
스피커(120)는 외부를 향해 소리를 출력하는 구성이다. 음성 인식 장치(100)에 채용되는 스피커(120)는 일반적인 스피커일 수 있는 바, 이러한 스피커(120)에 대해서는 설명을 생략하기로 한다.
소리 입력부(130)는 마이크와 같이 소리를 입력받는 구성이며, 입력받은 소리를 증폭시키는 구성까지도 포함하는 개념일 수 있다. 소리 입력부(130)가 입력받는 소리에는 사람의 음성, 사물로부터 발생되는 소리, 잡음원(300)이 발생시키는 잡음 등이 있을 수 있으며, 다만 이에 한정되는 것은 아니다.
소리 입력부(130)는 복수 개가 음성 인식 장치(100)에 구비될 수 있다. 복수 개의 소리 입력부(130)는 다양한 방향을 향하도록 지향적으로 배치 및 동작될 수 있다. 복수 개의 소리 입력부(130)의 동작은 후술할 제어부(180)에 의해서 제어될 수 있다.
합성부(140)는 복수 개의 소리를 합성하는 구성이며, 필터와 같이 일반적으로 공지된 구성을 포함할 수 있다. 합성부(140)는 음성 인식 장치(100)의 소리 입력부(130)로 입력되는 소리와, 타 기기(200,210)의 소리 입력부(203)로 입력되는 소리를 대상으로 합성할 수 있다. 만약, 음성 인식 장치(100)의 소리 입력부(130)가 복수 개로 구비되거나 타 기기(200)의 소리 입력부(203)가 복수 개로 구비되는 경우, 합성부(140)는 이들 복수 개의 소리 입력부(103,203)로 입력되는 소리를 합성할 수 있다.
합성부(140)는 각각의 소리에 가중치(weight)를 곱할 수 있으며, 따라서 합성부(140)는 가중치가 곱해진 소리를 합성할 수 있다. 가중치는 양(+) 또는 음(-)의 값을 가질 수 있으며, 양의 값은 음성을 합성하기 위해서 해당 소리 입력부(203)의 음성 특성을 강화하는데 사용될 수 있고, 음의 값은 해당 소리 입력부(203)의 음성 특성을 약화하는데 사용될 수 있다. 합성부(140)에 의해서 소리에 가중치가 곱해진다는 것은 소리가 앰프 등을 통과한다는 것을 의미할 수 있으며, 이에 합성부(140)는 앰프 등을 구성요소로서 포함할 수 있다. 가중치가 곱해진 소리는 곱해진 가중치에 따라서 그 크기가 커지거나 줄어들 수 있다. 이러한 가중치는 후술할 제어부(180)로부터 전달받은 것일 수 있다.
저장부(150)는 데이터를 저장하는 구성이며, 메모리 등으로 구현 가능하다. 저장부(160)에 저장된 데이터에는 예컨대 웨이크업 신호, 소리 입력부(130,203)의 ID 또는 스피커(120)를 통해 출력되는 소리일 수 있으나 이에 한정되는 것은 아니다. 여기서, 웨이크업 신호는 미리 정해진 주파수 특성을 가질 수 있다. 웨이크업 신호가 음성 인식 장치(100)에서 인식되면, 그 이후에 사용자(400)가 발하는 음성은 명령으로 인식될 수 있다.
음성 인식부(160)는 소리로부터 음성을 추출하여서 그 특성(예컨대 소리의 크기나 주파수, 소리가 입력된 시간 등)을 인식하는 구성이다. 음성 인식부(160)는 소리로부터 음성을 인식하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의하여 구현 가능하다.
음성 인식부(160)에서 인식되는 소리는 소리 입력부(120)로 입력된 소리 또는 타 기기(200,210)로부터 전달받은 소리일 수 있다.
음성 인식부(160)는 소리로부터 전술한 웨이크업 신호를 소리로부터 추출하여서 인식할 수 있다.
한편, 음성 인식부(160)는 웨이크업 신호 이외에 사용자(400)가 발하는 명령을 인식할 수도 있다. 다만, 이와 달리 음성 인식부(160)는 웨이크업 신호 이외에 사용자(400)가 발하는 명령을 인식하지 않을 수 있으며, 이 경우에 사용자의 명령 인식은 음성 인식 서버(500)에서 수행될 수 있다.
음성 인식부(160)는 소리로부터 잡음을 추출하여서 그 특성을 인식할 수 있다. 음성 인식부(160)가 소리로부터 잡음을 추출하여서 그 특성을 인식하는데 사용하는 알고리즘은 공지된 것이므로 이에 대한 설명은 생략하기로 한다.
처리부(170)는 사용자(400)에게 대화형 서비스를 제공하는 구성이며, 이러한 처리부(170)는 대화형 서비스를 제공하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의하여 구현 가능하다. 여기서, 처리부(170)는 이미 공지된 알고리즘을 사용하여서 대화형 서비스를 제공하므로, 이에 대해서는 설명을 생략하기로 한다.
한편, 실시예에 따라서 처리부(170)는 음성 인식 장치(100)에 포함되지 않을 수 있다. 이 경우, 사용자(400)에게 제공되는 대화형 서비스는 음성 인식 서버(500)가 생성한 것이 음성 인식 장치(100)에게 전달된 것일 수 있다.
제어부(180)는 이하에서 설명할 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의하여 구현 가능하다. 이하에서는 이러한 제어부(180)에 대하여 구체적으로 살펴보도록 한다.
제어부(180)는 음성 인식 장치(100) 주변에 위치한 타 기기(200,210)를 탐색할 수 있다. 예컨대, 통신부(110)가 블루투스 모듈로 구현된 경우, 제어부(180)는 블루투스 연결 히스토리 등을 이용하여서 탐색의 진행을 제어할 수 있다.
탐색이 완료된 경우, 제어부(180)는 탐색된 타 기기(200,210)와 음성 인식 장치(100)를 서로 연결시킬 수 있다.
통신이 연결되면, 제어부(180)는 통신이 연결된 타 기기(200,210) 각각에 포함된 적어도 하나의 소리 입력부(203)의 ID와, 음성 인식 장치(100)에 포함된 적어도 하나의 소리 입력부(130) 각각의 ID를 리스트 업(list up)할 수 있다. 이와 같이 리스트 업된 정보는 저장부(150)에 저장될 수 있다.
제어부(180)는 통신이 연결된 타 기기(200,210)에게 소리에 대한 정보를 요청할 수 있다. 이러한 요청에 대응하여서, 소리에 대한 정보가 통신부(110)를 통해 각각의 타 기기(200,210)로부터 수신될 수 있다. 소리에 대한 정보에는 소리가 소리 입력부(203)로 입력된 시간, 소리 입력부(203)로 입력된 소리의 주파수나 크기, 소리에 포함된 잡음의 크기나 주파수 등이 있을 수 있으며 다만 이에 한정되는 것은 아니다.
제어부(180)는 합성부(140)에서 소리에 곱해지는 가중치를 산출할 수 있다. 제어부(180)에서 산출된 가중치는 합성부(140)에 전달되며, 합성부(140)는 이러한 가중치를 소리에 곱한 뒤 합성할 수 있다. 도 6은 소리 입력부(103a,b) 및 소리 입력부(203a,b) 각각으로 입력된 소리가 합성부(140)로 전달되고, 제어부(180)에 의해 산출된 가중치가 합성부(140)로 전달되면, 합성부(140)가 소리에 가중치를 곱한 뒤 이들을 합성하는 과정을 도시한 도면이다. 합성부(140)에 의해 합성된 소리는 음성 인식이 수행될 수 있도록 제어부(180)에 의해 제어될 수 있다. 예컨대, 합성부(140)에 의해 합성된 소리가 웨이크업 신호이면 음성 인식부(160)에서 인식될 수 있고, 합성부(140)에 의해 합성된 소리가 웨이크업 신호가 인식된 이후에 입력된 소리이면 통신부(110)를 통해서 음성 인식 서버(500)로 전달될 수도 있다.
이하에서는 제어부(180)가 가중치를 산출하는 방법에 대해 예시를 들어서 설명하기로 한다.
제어부(180)는 소리의 크기에 따라 가중치를 산출할 수 있다. 예컨대, 제어부(180)는 상대적으로 큰 크기의 소리에는 상대적으로 큰 값의 가중치가 곱해지도록 가중치를 산출하고, 상대적으로 작은 크기의 소리에는 상대적으로 작은 값의 가중치가 곱해지도록 가중치를 산출할 수 있다. 이에 대해서는 도 7을 참조하여서 보다 자세하게 살펴보기로 한다.
도 7은 사용자(400)가 음성 입력 장치(100) 및 타 기기(200)와 각각 서로 상이한 거리만큼 이격되어 있는 상황을 도시한 도면이다. 도 7을 참조하면, 사용자(400)는 음성 입력 장치(100)보다 타 기기(200)에 상대적으로 가깝게 위치해 있다. 따라서, 사용자(400)가 발하는 음성은 음성 입력 장치(100)보다 타 기기(200)에서 보다 큰 크기로 입력될 것이다. 제어부(180)는 타 기기(200)와 음성 입력 장치(100)로 입력된 소리 중에서, 타 기기(200)로 입력된 소리에 곱해지는 가중치가 상대적으로 큰 값을 갖도록 산출할 것이다. 실시예에 따라서는 제어부(180)는 타 기기(200)의 소리 입력부(203a,b) 중에서도 사용자(400)를 향하는 소리 입력부(203b)에 대한 가중치를 가장 큰 값으로 산출할 수 있는데, 이는 소리 입력부(203a)보다는 소리 입력부(203b)에 입력된 소리의 크기가 가장 클 것이기 때문이다.
즉, 일 실시예에 따르면 소리의 크기에 곱해지는 가중치를 산출할 때 서로 상이한 장치(음성 인식 장치(100)와 타 기기(200,210)) 각각에 입력되는 소리의 크기에 따라 상이한 가중치가 산출될 수 있으며, 실시예에 따라서는 하나의 기기에 구비된 복수 개의 소리 입력부에 대해서도 각각에 입력되는 소리의 크기에 따라 서로 상이한 가중치가 산출될 수 있다.
따라서, 복수 개의 장치 각각이 소리를 입력받을 때, 이러한 소리를 발하는 음원과 각각의 장치 간의 이격 거리가 고려되어서 각각의 소리가 증폭될 수 있다. 따라서, 어느 하나의 장치가 음원과 원거리만큼 이격되어 있다고 하더라도 다른 장치가 음원과 근거리만큼 이격되어 있으면 이러한 다른 장치로 입력된 소리가 보다 증폭되어서 합성될 수 있으므로, 해당 음원이 발하는 소리에 대한 인식률이 향상될 수 있다.
한편, 제어부(180)는 소리의 크기에 따라 가중치를 산출한 뒤, 아래와 같은 방법으로 이러한 가중치를 변경할 수 있다.
예컨대, 가중치를 변경하는 제1 방법으로서, 제어부(180)는 복수 개의 소리 입력부(130,203) 중에서 가장 늦게 소리를 입력받은 소리 입력부에 대해서는 가중치의 부호를 음(minus)으로 변경할 수 있다. 도 7을 다시 한번 살펴보면, 사용자(400)가 소리를 발하였을 때, 각각의 소리 입력부(203a,203b,130a,130b,130c,130d) 중에서 가장 늦게 소리가 도달한 소리 입력부를 식별번호 130a의 소리 입력부라고 가정하자. 이 때, 소리 입력부(130a)로 가장 늦게 소리가 입력된 이유는, 해당 소리가 반향음이기 때문일 수 있다. 즉, 소리 입력부(130a)를 제외한 다른 다른 소리 입력부(130b,130c,130d,203a,203b)에는 사용자(400)의 소리가 직접 전달되는 반면, 소리 입력부(130a)에는 사용자(400)의 소리가 주변(예컨대 벽이나 천장, 사물 등)에서 반사된 반향음이 입력되기 때문에 가장 늦게 입력될 수 있는 것이다. 제어부(180)는 가장 늦게 소리를 입력받은 소리 입력부(130a)에 대해서는 가중치의 부호를 양(plus)에서 음(minus)으로 변경할 수 있다. 음의 가중치가 곱해진 소리가 합성부(140)에서 합성될 경우, 해당 소리의 특성이 약화되기 때문에 반향음에 의한 왜곡이 경감 내지는 제거될 수 있다.
이를 위해, 제어부(180)는 소리 입력부(130a,130b,130c,130d)로 소리가 입력된 시간과 소리의 주파수 등에 대한 정보를 획득할 수 있으며, 또한 타 기기(200,210)의 소리 입력부(203a,203b) 각각으로 소리가 입력된 시간과 소리의 주파수 등에 대한 정보를 획득할 수 있다. 제어부(180)는 이와 같이 획득된 정보를 기초로 동일한 소리에 대해서 어떤 소리 입력부로 가장 늦게 소리가 입력되었는지 여부를 판단할 수 있다.
즉, 일 실시예에 따르면 동일한 소리에 대해서 가장 늦게 소리가 도달한 소리 입력부에는 음(minus)의 부호를 갖는 가중치가 곱해지도록 변경함으로써, 반향음에 의해 발생 가능한 소리의 왜곡이 경감되거나 제거되도록 할 수 있다.
가중치를 변경하는 제2 방법으로서, 제어부(180)는 주변의 잡음원(300)이 발생시키는 잡음을 고려하여서 가중치를 변경할 수 있는데, 이러한 방법은 웨이크업 신호를 인식하는 과정에서 수행 가능하며, 도 8을 참조하여 살펴보기로 한다.
도 8은 사용자(400)가 음성 인식 장치(100)와 타 기기(200) 사이에 위치해 있고, 잡음원(300)은 음성 인식 장치(100)보다 타 기기(200)에 가까이에 위치해 있는 상황을 도시하고 있다. 도 8에서 음성 인식 장치(100)에 입력된 소리의 크기와 타 기기(200)에 입력된 소리의 크기가 동일하다고 가정하자. 이 경우, 전술한 바대로라면 제어부(180)는 음성 인식 장치(100)의 소리 입력부(130)와 타 기기(200)의 소리 입력부(203) 각각에 대해 동일한 값을 갖는 가중치를 산출해야 한다.
다만, 타 기기(200)에 입력된 소리에는 음성 인식 장치(100)에 입력된 소리보다 상대적으로 많은 잡음이 포함되어 있다. 왜냐하면, 타 기기(200)가 음성 인식 장치(100)보다 잡음원(300)에 상대적으로 가까이에 위치하기 때문이다. 따라서, 타 기기(200)에 입력된 소리보다는 음성 인식 장치(100)에 입력된 소리에 대해 음성 인식을 수행하는 것이 음성 인식률 면에서 유리하다.
이를 감안하여서, 웨이크업 신호를 인식하는 과정에서, 제어부(180)는 음성 인식 장치(100)의 소리 입력부(130)로 입력된 소리와 웨이크업 신호와의 유사도를 산출하고, 타 기기(200)의 소리 입력부(203)에 입력되는 소리와 웨이크업 신호와의 유사도를 산출한다. 아울러, 제어부(180)는 상대적으로 높은 유사도를 갖는 소리에 더 큰 값의 가중치가 곱해지도록 가중치를 산출하고 상대적으로 낮은 유사도를 갖는 소리에 더 작은 값의 가중치가 곱해지도록 가중치를 산출할 수 있다.
이에 따르면, 도 8에서 음성 인식 장치(100)의 소리 입력부(130)에 입력된 소리의 크기와 타 기기(200)의 소리 입력부(203)에 입력된 소리의 크기가 동일하지만, 소리 입력부(130) 입력된 소리에는 더 적은 양의 잡음이 포함되어 있는 반면 소리 입력부(203)에 입력된 소리에는 더 많은 양의 잡음이 포함되어 있다. 따라서, 제어부(180)는 소리 입력부(130)의 소리에 더 큰 값의 가중치가 곱해지도록 가중치를 산출하고, 소리 입력부(203)의 소리에 더 작은 값의 가중치가 곱해지도록 가중치를 산출할 수 있다.
즉, 일 실시예에 따르면 소리의 크기가 동일하더라도 그 안에 포함된 잡음의 양에 따라서 가중치가 달리 산출되어 적용될 수 있다.
한편, 전술한 제2 방법에서, 제어부(180)는 음성 인식 장치(100) 및 타 기기(200) 중에서 잡음원(300)과 상대적으로 가까이에 있는 객체로 하여금 잡음을 상쇄시키는 상쇄음을 출력하도록 제어할 수 있으며, 도 8의 상황에서 이러한 객체는 타 기기(200)이다. 이를 위해, 음성 인식부(160)는 소리 인식부(130,203)로 입력된 소리로부터 잡음을 추출해서 그 특성을 인식할 수 있다. 제어부(180)는 이러한 잡음의 특성을 기초로 해당 잡음을 상쇄시킬 수 있는 상쇄음을 생성할 수 있고, 이러한 상쇄음이 스피커(120)를 통해 출력되도록 제어할 수 있다.
이에 따르면, 음성 인식 장치(100)와 타 기기(200) 중에서 잡음원(300)과 상대적으로 먼 거리에 위치한 객체로 하여금 웨이크업 신호를 인식하도록 제어할 수 있으며, 뿐만 아니라 잡음원(300)과 상대적으로 가까운 거리에 위치한 객체에서는 잡음을 상쇄시키는 상쇄음을 발생시킬 수 있으므로, 잡음원(300)과 상대적으로 먼 거리에 위치한 객체에서 웨이크업 신호를 높은 인식률로 인식하도록 할 수 있다.
가중치를 변경하는 제3 방법으로서, 제어부(180)는 음성 입력 장치(100)의 스피커(120)가 소리를 출력하는 상황을 고려하여서 가중치를 변경할 수 있는데, 이러한 방법은 웨이크업 신호를 인식하는 과정에서 수행 가능하며, 도 9를 참조하여 살펴보기로 한다.
도 9는 음성 입력 장치(100)가 스피커(120)를 통해 소리를 출력하는 상황을 도시하고 있다. 도 9를 참조하면, 사용자(400)는 음성 인식 장치(100)와 타 기기(200) 사이에 위치해 있다. 도 9에서 음성 인식 장치(100)에 입력된 소리의 크기와 타 기기(200)에 입력된 소리의 크기가 동일하다고 가정하자.
이 경우, 전술한 바대로라면 제어부(180)는 음성 인식 장치(100)의 소리 입력부(130)와 타 기기(200)의 소리 입력부(203) 각각에 대해 동일한 값을 갖는 가중치를 산출해야 한다.
다만, 음성 인식 장치(100)의 소리 입력부(130)에 입력된 소리에는 음성 인식 장치(100)의 스피커(120)가 출력하는 소리가 포함되어 있을 수 있다. 따라서, 음성 인식 장치(100)에 입력된 소리보다는 타 기기(200)에 입력된 소리에 대해 음성 인식을 수행하는 것이 음성 인식률 면에서 유리하다.
이를 감안하여서, 제어부(180)는 음성 인식 장치(100)의 스피커(120)가 소리를 출력하는 상황을 인지하고, 이를 기초로 음성 인식 장치(100)의 소리 출력부(130)로 입력되는 소리에는 더 작은 값의 가중치가 곱해지도록 가중치를 산출하고, 타 기기(210)의 소리 출력부(203)로 입력되는 소리에는 더 큰 값의 가중치가 곱해지도록 가중치를 산출할 수 있다.
한편, 제어부(180)가 제3 방법에 따라서 가중치를 산출한 이후, 제어부(180)는 상황에 따라서 스피커(120)가 출력하는 소리의 크기, 즉 볼륨을 기존보다 작게 조절할 수 있다. 볼륨을 기존보다 작게 하는 상황에는, 제3 방법에 따라서 가중치를 산출한 이후에, 예컨대 사용자(400)가 발한 음성이 음성 인식 장치(100)에서 타 기기(200)보다 크게 인식된 경우 등이 있을 수 있으나 이에 한정되는 것은 아니다
즉, 이에 따르면 상황에 따라서 스피커의 소리가 기존보다 작게 조절될 수 있고, 이 경우 사용자가 발하는 향후의 명령이나 다른 사용자의 음성에 대한 인식률이 개선될 수 있다.
한편, 전술한 제1 방법 내지 제3 방법은 어느 하나만이 사용되거나 또는 적어도 두 개 이상이 순차적으로 적용될 수도 있으며, 이는 사용자(400)에 의해 설정되거나 또는 기 정해진 알고리즘에 의해 주기적으로 변경될 수도 있다.
도 10은 일 실시예에 따른 음성 인식 방법의 절차를 도시한 도면이다. 이러한 방법은 전술한 음성 인식 장치(100)에 의해 수행 가능하며, 다만 도 11에 도시된 절차 중 적어도 하나가 수행되지 않거나 도시된 절차의 순서와는 다르게 수행될 수 있으며, 또한 도시되지 않은 다른 절차가 수행될 수도 있다.
도 11을 참조하면, 먼저 음성 인식 장치(100)의 소리 입력부(130)를 통해서 제1 소리가 입력되면, 음성 인식부(160)는 제1 소리의 특성, 예컨대 제1 소리의 크기를 도출할 수 있다(S100). 다만, 단계 S100 이전에 도면에는 도시되지 않았지만 다음과 같은 단계들이 먼저 선행될 수 있다. 예컨대, 제어부(180)가 음성 인식 장치(100) 주변에 있는 타 기기(200,210)를 탐색하는 단계, 탐색이 완료되면 타 기기(200,210)와 음성 인식 장치(100)를 연결시키는 단계, 연결되면 제어부(180)가 타 기기(200,210) 각각에게 통신부(110)를 통해서 제1 소리의 특성을 요청하는 단계 등이 수행될 수 있다.
한편, 통신부(110)를 통해 타 기기(200,210) 각각으로부터 제2 소리의 특성, 예컨대 소리의 크기가 수신되면, 제어부(180)는 제1 소리의 크기와 제2 소리의 크기를 비교할 수 있다(S200).
비교 결과, 제어부(180)는 더 큰 크기의 소리에 더 큰 값의 가중치가 곱해지도록 가중치를 산출하고, 더 작은 크기의 소리에 더 작은 값의 가중치가 곱해지도록 산출할 수 있다(S300).
이 후, 제어부(180)는 단계 S300에서 산출된 가중치를 조절할 수 있다(S400). 예컨대, 제어부(180)는 소리 입력부(130,203)에 소리가 입력된 시간(제1 방안), 웨이크업 신호와 소리와의 유사도(제2 방안) 또는 스피커(120)를 통해 소리가 출력되는지 여부(제3 방안) 등을 고려하여서 가중치를 조절할 수 있다. 이 경우, 전술한 제1 방안 내지 제3 방안의 경우, 어느 하나가 선별적으로 고려되거나 또는 적어도 두 개 이상이 동시에 고려될 수도 있으며, 이는 사용자(400)에 의해 설정되거나 또는 기 정의된 알고리즘에 의해 변경될 수 있다.
합성부(140)는 단계 S400에서 조절된 각각의 가중치를 각각의 소리에 곱한 뒤 합성할 수 있다(S500).
제어부(180)는 단계 S500에서 합성된 소리에 대해 음성 인식이 수행되도록 제어할 수 있다(S600). 예컨대, 제어부(180)는 단계 S500에서 합성된 소리를 음성 인식 서버(500)에게 전달할 수 있다. 음성 인식 서버(500)로 전달된 소리는 이러한 음성 인식 서버(500)에서 음성 인식에 사용될 수 있다.
이상에서 살펴본 바와 같이, 일 실시예에 따르면, 복수 개의 장치 각각이 소리를 입력받을 때, 이러한 소리를 발하는 음원과 각각의 장치 간의 이격 거리가 고려되어서 각각의 소리가 증폭될 수 있다. 따라서, 어느 하나의 장치가 음원과 원거리만큼 이격되어 있다고 하더라도 다른 장치가 음원과 근거리만큼 이격되어 있으면 이러한 다른 장치로 입력된 소리가 보다 증폭되어서 합성될 수 있으므로, 해당 음원이 발하는 소리에 대한 인식률이 향상될 수 있다.
또한, 반향음에 의해 발생 가능한 소리의 왜곡이 경감되거나 제거될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
일 실시예에 따르면, 사용자가 음성 인식 장치로부터 원거리에서 음성을 발화하더라도, 사용자와 음성 인식 장치 간의 원거리로 인해 발생 가능한 음성 왜곡이 발생하지 않을 수 있다. 또한, 음성 입력 시스템에 잡음원이 존재하더라도 이러한 잡음원이 음성 인식에 영향을 최소한으로 미치도록 할 수 있다.
100: 음성 인식 장치
200, 210: 타 기기
300: 잡음원
400: 사용자

Claims (6)

  1. 음성 인식 장치에 의해 수행되는 음성 인식 방법으로서,
    상기 음성 인식 장치의 제1 소리 입력부에 입력된 음원의 제1 소리의 크기를 도출하는 단계와,
    타 기기의 제2 소리 입력부에 입력된 상기 음원의 제2 소리의 크기에 대한 정보가 상기 타 기기로부터 수신되면, 상기 제1 소리의 크기와 상기 제2 소리의 크기를 비교하는 단계와,
    상기 비교의 결과, 상기 제1 소리와 상기 제2 소리 중에서 상대적으로 크기가 큰 소리에 상대적으로 큰 값의 가중치를 곱하고 상대적으로 크기가 작은 소리에 상대적으로 작은 값의 가중치를 곱하는 단계와,
    상기 가중치가 각각 곱해진 제1 소리 및 제2 소리에 대해 음성 인식이 수행되도록 제어하는 단계와,
    웨이크업 신호가 상기 음성 인식 장치에서 인식되기 전이면서 상기 제1 소리와 상기 제2 소리에 잡음원으로부터의 잡음이 포함된 경우, 상기 제1 소리 및 상기 제2 소리 각각에 대해 상기 웨이크업 신호와의 유사도를 도출하는 단계를 포함하되,
    상기 가중치를 곱하는 단계는,
    상기 도출된 유사도를 기초로, 상기 제1 소리와 상기 제2 소리 중에서 상대적으로 낮은 유사도를 갖는 소리에 상대적으로 작은 값의 가중치가 곱해지도록 하고, 상대적으로 높은 유사도를 갖는 소리에 상대적으로 큰 값의 가중치가 곱해지도록 하고,
    상기 음성 인식 장치 및 상기 타 기기 사이의 거리가 제1 거리, 상기 음원과 상기 타 기기 사이의 거리가 제2 거리 및 상기 음원과 상기 음성 인식 장치 사이의 거리가 제3 거리일 경우, 상기 제1 거리는 상기 제2 거리보다는 멀고, 상기 제3 거리보다는 가까운
    음성 인식 방법.
  2. 제 1 항에 있어서,
    상기 제1 소리가 상기 제1 소리 입력부에 입력된 제1 시간 및 상기 제2 소리가 상기 제2 소리 입력부에 입력된 제2 시간을 검출하는 단계와,
    상기 제1 소리와 상기 제2 소리가 동일 시간에 상기 음원으로부터 발생된 소리인지 여부를 판단하는 단계를 더 포함하며,
    상기 가중치를 곱하는 단계는,
    상기 제1 소리와 상기 제2 소리가 동일 시간에 상기 음원으로부터 발생된 소리라고 판단되면, 상기 제1 시간과 상기 제2 시간을 비교하여서 상기 제1 소리와 상기 제2 소리 중 더 늦게 입력된 소리에 음(minus)의 부호를 갖는 가중치가 곱해지도록 하는
    음성 인식 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 잡음의 특성을 인식하는 단계와,
    상기 음성 인식 장치와 상기 타 기기 중에서 상대적으로 낮은 유사도의 소리를 입력받은 객체로 하여금, 상기 인식된 잡음의 특성을 기초로 상기 잡음을 상쇄시키는 상쇄음을 생성하여서 출력하도록 하는 단계를 더 포함하는
    음성 인식 방법.
  5. 제 1 항에 있어서,
    상기 음성 인식 장치가 제3 소리를 출력하는 단계를 더 포함하고,
    상기 가중치를 곱하는 단계는,
    상기 제3 소리가 출력되는 동안 상기 제1 소리에 상대적으로 작은 값의 가중치가 곱해지도록 하고, 상기 제2 소리에 상대적으로 큰 값의 가중치가 곱해지도록 하는
    음성 인식 방법.
  6. 음원의 제1 소리를 입력받는 제1 소리 입력부와,
    상기 제1 소리의 크기를 도출하는 음성 인식부와,
    제2 소리 입력부를 포함하는 타 기기로부터 상기 제2 소리 입력부에 입력된 상기 음원의 제2 소리의 크기에 대한 정보를 수신하는 통신부와,
    상기 제1 소리의 크기와 상기 제2 소리의 크기를 비교하고, 상기 비교 결과 상대적으로 큰 소리에 곱해지는 가중치는 상대적으로 큰 값을 갖도록 산출하고 상대적으로 작은 소리에 곱해지는 가중치는 상대적으로 작은 값을 갖도록 산출하며, 상기 산출된 각각의 가중치가 곱해진 제1 소리 및 제2 소리에 대해 음성 인식이 수행되도록 제어하는 제어부를 포함하되,
    상기 제어부는,
    웨이크업 신호가 상기 음성 인식 장치에서 인식되기 전이면서 상기 제1 소리와 상기 제2 소리에 잡음원으로부터의 잡음이 포함된 경우, 상기 제1 소리 및 상기 제2 소리 각각에 대해 상기 웨이크업 신호와의 유사도를 도출하고,
    상기 도출된 유사도를 기초로, 상기 제1 소리와 상기 제2 소리 중에서 상대적으로 낮은 유사도를 갖는 소리에 곱해지는 가중치는 상대적으로 작은 값을 갖도록 산출하고, 상대적으로 높은 유사도를 갖는 소리에 곱해지는 가중치는 상대적으로 큰 값을 갖도록 산출하고,
    상기 음성 인식 장치 및 상기 타 기기 사이의 거리가 제1 거리, 상기 음원과 상기 타 기기 사이의 거리가 제2 거리 및 상기 음원과 상기 음성 인식 장치 사이의 거리가 제3 거리일 경우, 상기 제1 거리는 상기 제2 거리보다는 멀고, 상기 제3 거리보다는 가까운
    음성 인식 장치.
KR1020170101309A 2017-08-09 2017-08-09 음성 인식 방법 및 이에 사용되는 장치 KR102372327B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170101309A KR102372327B1 (ko) 2017-08-09 2017-08-09 음성 인식 방법 및 이에 사용되는 장치
KR1020210166682A KR102374054B1 (ko) 2017-08-09 2021-11-29 음성 인식 방법 및 이에 사용되는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170101309A KR102372327B1 (ko) 2017-08-09 2017-08-09 음성 인식 방법 및 이에 사용되는 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210166682A Division KR102374054B1 (ko) 2017-08-09 2021-11-29 음성 인식 방법 및 이에 사용되는 장치

Publications (2)

Publication Number Publication Date
KR20190016851A KR20190016851A (ko) 2019-02-19
KR102372327B1 true KR102372327B1 (ko) 2022-03-08

Family

ID=65528769

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020170101309A KR102372327B1 (ko) 2017-08-09 2017-08-09 음성 인식 방법 및 이에 사용되는 장치
KR1020210166682A KR102374054B1 (ko) 2017-08-09 2021-11-29 음성 인식 방법 및 이에 사용되는 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020210166682A KR102374054B1 (ko) 2017-08-09 2021-11-29 음성 인식 방법 및 이에 사용되는 장치

Country Status (1)

Country Link
KR (2) KR102372327B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200141860A (ko) 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20220071591A (ko) * 2020-11-24 2022-05-31 삼성전자주식회사 전자장치 및 그 제어방법
KR20240027914A (ko) * 2022-08-23 2024-03-05 한국전기연구원 인지 능력 평가 장치, 모바일 단말 및 발화 획득 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000188795A (ja) * 1998-12-22 2000-07-04 Matsushita Electric Ind Co Ltd マイクロホン装置とそれを用いた音声認識装置、カーナビゲーションシステム、自動車の自動運転システム
JP2001359185A (ja) * 2000-06-13 2001-12-26 Matsushita Electric Ind Co Ltd ハンズフリー装置とその音声信号処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8411880B2 (en) 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
KR101233271B1 (ko) * 2008-12-12 2013-02-14 신호준 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
KR101043114B1 (ko) * 2009-07-31 2011-06-20 포항공과대학교 산학협력단 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치
KR102351366B1 (ko) * 2015-01-26 2022-01-14 삼성전자주식회사 음성 인식 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000188795A (ja) * 1998-12-22 2000-07-04 Matsushita Electric Ind Co Ltd マイクロホン装置とそれを用いた音声認識装置、カーナビゲーションシステム、自動車の自動運転システム
JP2001359185A (ja) * 2000-06-13 2001-12-26 Matsushita Electric Ind Co Ltd ハンズフリー装置とその音声信号処理方法

Also Published As

Publication number Publication date
KR20210148057A (ko) 2021-12-07
KR102374054B1 (ko) 2022-03-14
KR20190016851A (ko) 2019-02-19

Similar Documents

Publication Publication Date Title
KR102374054B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
US8666750B2 (en) Voice control system
US9881616B2 (en) Method and systems having improved speech recognition
KR102476600B1 (ko) 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
US9830924B1 (en) Matching output volume to a command volume
JP2018049143A (ja) 音声取得システムおよび音声取得方法
US20150117669A1 (en) Apparatus and method for controlling beamforming microphone considering location of driver seat
CN107465970A (zh) 用于语音通信的设备
CN103886861A (zh) 一种控制电子设备的方法及电子设备
JP7197992B2 (ja) 音声認識装置、音声認識方法
US11894000B2 (en) Authenticating received speech
US11290802B1 (en) Voice detection using hearable devices
JP2019028465A (ja) 話者検証方法及び音声認識システム
WO2023004223A1 (en) Noise suppression using tandem networks
JP3838159B2 (ja) 音声認識対話装置およびプログラム
JP2010506526A (ja) 補聴器の動作方法、および補聴器
WO2020240169A1 (en) Detection of speech
JP2018045192A (ja) 音声対話装置および発話音量調整方法
JP6760394B2 (ja) コンテンツ再生機器、収音機器、及びコンテンツ再生システム
KR102331234B1 (ko) 음성 인식 방법 및 이에 사용되는 장치
US11089420B2 (en) Speech processing system and speech processing method
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
KR102495028B1 (ko) 휘파람소리 인식 기능이 구비된 사운드장치
KR20210054246A (ko) 전자장치 및 그 제어방법
JP2010164992A (ja) 音声対話装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
A107 Divisional application of patent
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant