KR102052510B1 - 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법 - Google Patents

음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법 Download PDF

Info

Publication number
KR102052510B1
KR102052510B1 KR1020170098479A KR20170098479A KR102052510B1 KR 102052510 B1 KR102052510 B1 KR 102052510B1 KR 1020170098479 A KR1020170098479 A KR 1020170098479A KR 20170098479 A KR20170098479 A KR 20170098479A KR 102052510 B1 KR102052510 B1 KR 102052510B1
Authority
KR
South Korea
Prior art keywords
voice
signal
bridge device
received
information
Prior art date
Application number
KR1020170098479A
Other languages
English (en)
Other versions
KR20190014697A (ko
Inventor
김건우
성대운
Original Assignee
에스케이브로드밴드주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이브로드밴드주식회사 filed Critical 에스케이브로드밴드주식회사
Priority to KR1020170098479A priority Critical patent/KR102052510B1/ko
Publication of KR20190014697A publication Critical patent/KR20190014697A/ko
Application granted granted Critical
Publication of KR102052510B1 publication Critical patent/KR102052510B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3228Monitoring task completion, e.g. by use of idle timers, stop commands or wait commands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 음성신호(음성) 인식 결과에 따른 기 정의된 동작을 처리하는 것과 관련하여 음성신호의 인식 가능 거리를 확장함과 동시에 음성신호에 대한 인식 결과의 정확도를 제고할 수 있는 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법에 관한 것이다.

Description

음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법{VOICE BRIDGE APPRATUS AND VOICE RECOGNITION APPARATUS, AND CONTROL METHOD THEREOF}
본 발명은 음성신호(사용자음성) 인식 결과에 따른 기 정의된 동작을 처리하는 것과 관련하여 음성신호에 대한 인식 가능 거리(커버리지)를 확장함과 동시에 인식 결과의 정확도를 제고하기 위한 방안에 관한 것이다.
M2M(Machine to Machine: 사물지능통신), 나아가 사물인터넷(IoT, Internet of Things) 등의 기술이 주목됨에 따라 인간과 기기 간의 통신은 더욱 더 빠르고 편리하게 변화해 가고 있으며, 인간이 가장 쉽고 편리하고 거부감을 느끼지 않는 음성은 이러한 변화에 가장 적합한 인터페이스라 할 수 있다.
이와 관련하여 최근에는 음성 인식 기술을 기반으로 컨텐츠를 검색하고 이를 실행시킬 수 있는 사용자 인터페이스가 활발히 연구 개발되고 있다.
이러한 연구 결과로서 예컨대, 음성 인식 기술을 댁내 디지털TV와 접목하여 컨텐츠 선택, 특정 메뉴 선택, 특정 명령 입력, 특정 채널 시청 요구 등을 사용자 음성 발화를 통해 구현하거나, 또는 인터넷과 연결된 댁내 별도 기기와 접목하여 인터넷을 통해 원하는 정보를 검색하고 그 검색 결과를 음성으로 제공받는 단계에까지 이르게 되었다.
이처럼, 댁내 비치된 기기와 음성 인식 기술을 접목하기 위해서는 음성신호를 인식하고, 인식 결과에 해당하는 정해진 동작을 처리할 수 있는 음성인식처리장치가 필수적이며, 이러한 음성인식처리장치는 댁내에서 예컨대, 디지털 TV와 연결되는 셋탑박스 또는 블루투스 스피커(조명) 등의 형태로 구현될 수 있다.
헌데, 이처럼 음성인식처리장치는 댁내 정해진 장소에서 설치된 기기의 형태로 구현되는 것이 일반적인 관계로, 음성 인식 가능 거리가 제한적이며, 다소 먼 거리에서 수신되는 음성신호의 경우 음성 인식 결과의 정확도가 떨어진다는 문제가 있다.
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 음성신호(사용자음성) 인식 결과에 따른 기 정의된 동작을 처리하는 것과 관련하여 음성신호의 인식 가능 거리를 확장함과 동시에 인식 결과의 정확도를 제고하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성브리지장치는, 음성신호를 수신하는 수신부; 상기 음성신호를 인식 결과에 따른 기 정의된 동작을 처리하는 음성인식처리장치가 수신할 수 있는 통신신호로 변환하는 변환부; 및 상기 통신신호를 상기 음성인식처리장치로 전송하여, 상기 음성인식처리장치가 상기 통신신호로부터 상기 음성신호를 인식할 수 있도록 하는 전송부를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 음성브리지장치는, 대기모드 상태에서 상기 음성신호가 수신되는 경우, 상기 음성신호에 대한 인식 결과를 기초로 상기 음성신호가 웨이크업 음성신호인지 여부를 판별하는 판별부; 및 상기 음성신호가 웨이크업 음성신호인 것으로 판별되면, 상기 대기모드를 액티브모드로 전환하여, 상기 액티브모드 상태에서 수신되는 음성신호가 상기 음성인식처리장치로 전송될 수 있도록 하는 제어부를 더 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 음성브리지장치는, 상기 웨이크업 음성신호의 신호 세기를 확인하는 확인부를 더 포함하며, 상기 제어부는, 상기 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 것으로 확인되면, 대기모드를 액티브모드로 전환시키기 위한 모드전환신호를 타 음성브리지장치로 전송하도록 하여, 상기 타 음성브리지장치로 하여금 액티브모드 상태에서 수신되는 음성신호를 상기 음성인식처리장치로 전송할 수 있도록 한다.
보다 구체적으로, 상기 제어부는, 상기 타 음성브리지장치에 대해서 상기 모드전환신호를 전송한 경우, 상기 음성인식처리장치로 전송되는 음성신호에 식별정보를 삽입하여, 상기 음성인식처리장치로 하여금 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 상기 타 음성브리지장치로부터 수신되는 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하도록 하는 것을 특징으로 한다.
보다 구체적으로, 상기 보정음성정보는, 상기 타 음성브리지장치로부터 2 이상의 음성신호가 수신되는 경우, 상기 2 이상의 음성신호 중 상기 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호로부터 인식되는 것을 특징으로 한다.
보다 구체적으로, 상기 타 음성브리지장치는, 상기 음성인식처리장치와 접속된 다른 음성브리지장치 중 통신신호가 수신되거나, 또는 통신신호의 수신신호세기가 임계 세기 이상인 음성인식장치를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성인식처리장치는 음성브리지장치로부터 통신신호를 수신하는 수신부; 상기 통신신호를 상기 음성브리지장치에서 수신한 음성신호로 변환하는 변환부; 상기 음성신호를 인식하는 인식부; 및 상기 음성신호에 대한 인식 결과를 기초로 기 정의된 동작을 처리하는 처리부를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 인식부는, 2 이상의 음성브리지장치로부터 통신신호가 수신되어 각각의 음성신호로 변환된 경우, 각각의 음성신호 중 신호 세기가 가장 큰 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하는 것을 특징으로 한다.
보다 구체적으로, 상기 인식부는, 2 이상의 음성브리지장치로부터 통신신호가 수신되어 각각의 음성신호로 변환되며, 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하는 경우, 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하는 것을 특징으로 한다.
보다 구체적으로, 상기 식별정보는, 상기 다수의 음성브리지장치 중 타 음성브리지장치를 액티브모드로 전환시키기 위한 모드전환신호를 전송한 특정 음성브리지장치에서 삽입되는 정보이며, 상기 특정 음성브리지장치는, 대기모드 상태를 액티브모드로 전환시키기 위한 웨이크업 음성신호가 수신되며, 상기 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 경우, 상기 모드전환신호를 전송하는 것을 특징으로 한다.
보다 구체적으로, 상기 보정음성정보는, 특정 음성브리지장치로부터 수신된 통신신호가 2 이상의 음성신호로 변환된 경우, 상기 2 이상의 음성신호 중 상기 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호로부터 인식되는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성브리지장치의 동작 방법은, 음성신호를 수신하는 수신단계; 상기 음성신호를 인식 결과에 따른 기 정의된 동작을 처리하는 음성인식처리장치가 수신할 수 있는 통신신호로 변환하는 변환단계; 및 상기 통신신호를 상기 음성인식처리장치로 전송하여, 상기 음성인식처리장치가 상기 통신신호로부터 상기 음성신호를 인식할 수 있도록 하는 전송단계를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 방법은, 상기 전송단계 이전에, 대기모드 상태에서 상기 음성신호가 수신되는 경우, 상기 음성신호에 대한 인식 결과를 기초로 상기 음성신호가 웨이크업 음성신호인지 여부를 판별하는 판별단계; 및 상기 음성신호가 웨이크업 음성신호인 것으로 판별되면, 상기 대기모드를 액티브모드로 전환하여, 상기 액티브모드 상태에서 수신되는 음성신호가 상기 음성인식처리장치로 전송될 수 있도록 하는 제어단계를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 방법은, 상기 웨이크업 음성신호의 신호 세기를 확인하는 확인단계를 더 포함하며, 상기 제어단계는, 상기 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 것으로 확인되면, 대기모드를 액티브모드로 전환시키기 위한 모드전환신호를 타 음성브리지장치로 전송하도록 하여, 상기 타 음성브리지장치로 하여금 액티브모드 상태에서 수신되는 음성신호를 상기 음성인식처리장치로 전송할 수 있도록 한다.
보다 구체적으로, 상기 제어단계는, 상기 타 음성브리지장치에 대해서 상기 모드전환신호를 전송한 경우, 상기 음성인식처리장치로 전송되는 음성신호에 식별정보를 삽입하여, 상기 음성인식처리장치로 하여금 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 상기 타 음성브리지장치로부터 수신되는 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하도록 하는 것을 특징으로 한다.
보다 구체적으로, 상기 보정음성정보는, 상기 타 음성브리지장치로부터 2 이상의 음성신호가 수신되는 경우, 상기 2 이상의 음성신호 중 상기 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호로부터 인식되는 것을 특징으로 한다.
보다 구체적으로, 상기 타 음성브리지장치는, 상기 음성인식처리장치와 접속된 다른 음성브리지장치 중 통신신호가 수신되거나, 또는 통신신호의 수신신호세기가 임계 세기 이상인 음성인식장치를 포함하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성인식처리장치의 동작 방법은, 음성브리지장치로부터 통신신호를 수신하는 수신단계; 상기 통신신호를 상기 음성브리지장치에서 수신한 음성신호로 변환하는 변환단계; 상기 음성신호를 인식하는 인식단계; 및 상기 음성신호에 대한 인식 결과를 기초로 기 정의된 동작을 처리하는 처리단계를 포함하는 것을 특징으로 한다.
보다 구체적으로, 상기 인식단계는, 2 이상의 음성브리지장치로부터 통신신호가 수신되어 각각의 음성신호로 변환된 경우, 각각의 음성신호 중 신호 세기가 가장 큰 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하는 것을 특징으로 한다.
보다 구체적으로, 상기 인식단계는, 2 이상의 음성브리지장치로부터 통신신호가 수신되어 각각의 음성신호로 변환되며, 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하는 경우, 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하는 것을 특징으로 한다.
보다 구체적으로, 상기 식별정보는, 상기 다수의 음성브리지장치 중 타 음성브리지장치를 액티브모드로 전환시키기 위한 모드전환신호를 전송한 특정 음성브리지장치에서 삽입되는 정보이며, 상기 특정 음성브리지장치는, 대기모드 상태를 액티브모드로 전환시키기 위한 웨이크업 음성신호가 수신되며, 상기 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 경우, 상기 모드전환신호를 전송하는 것을 특징으로 한다.
이에, 본 발명에 따른 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법에 의하면, 주변에서 수신되는 음성신호를 통신신호로 변환하여 음성인식처리장치로 전송하는 음성브리지장치의 구성을 채택함으로써, 음성신호의 인식 가능 거리를 확장할 수 있으며, 또한, 음성인식처리장치에서는 음성브리지장치로부터 수신되는 음성신호를 음성기준정보와 음성보정정보로 구분하는 방식을 통해서 음성신호에 대한 인식을 처리함으로써, 음성신호에 대한 인식 결과의 정확도를 제고할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성인식 처리 시스템의 개략적인 구성도.
도 2는 본 발명의 일 실시예에 따른 음성브리지장치의 개략적인 구성도.
도 3은 본 발명의 일 실시예에 따른 음성인식처리장치의 개략적인 구성도.
도 4는 본 발명의 일 실시예에 따른 음성브리지장치에서의 동작 흐름을 설명하기 위한 순서도.
도 5는 본 발명의 일 실시예에 따른 음성인식처리장치에서의 동작 흐름을 설명하기 위한 순서도.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성신호 인식 시스템을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성신호 인식 시스템은, 다수의 음성브리지장치(10), 및 음성인식처리장치(20)를 포함하는 구성을 갖는다.
음성브리지장치(10)는 음성신호를 통신신호로 변환하여 음성인식처리장치(20)로 전송하는 장치를 일컫는 것으로서, 예컨대, 댁내 지정된 영역(예: 안방, 거실, 주방, 화장실) 별로 설치될 수 있다.
여기서, 음성신호는 음성브리지장치(10)가 설치된 영역에서 사용자가 발화하는 경우에 음성브리지장치(10)로 수신되는 사용자음성을 일컫는 것으로서, 만약 음성브리지장치(10)가 설치된 영역에서 복수의 사용자가 발화하는 경우라면, 각 사용자음성에 해당하는 각각의 음성신호가 음성브리지장치(10)로 수신되는 것으로 이해될 수 있다.
이러한, 음성브리지자치(10)는 무선통신을 통해서 음성브리지장치(10)와 접속될 수 있는데, 여기서의 무선통신은 예컨대, 블루투스, 와이파이, 지그비, 등의 근거리 무선통신 방식이 해당될 수 있으며, 이에 제한되는 것이 아닌 통신신호의 송수신이 가능한 방식은 모두 포함될 수 있다.
음성인식처리장치(20)는 음성브리지장치(10)로부터 수신되는 통신신호를 음성신호로 변환하여 변환된 음성신호를 인식하고, 음성신호 인식 결과에 따른 정해진 동작을 처리하는 인공지능장치를 일컫는다.
예를 들어, 이러한 음성인식처리장치(20)는 댁내에서 디지털 TV와 연결되는 셋탑박스 또는 인터넷과 연결된 블루투스 스피커(조명) 등의 형태로 구현될 수 있으며, 그 형태에 있어서 제한은 따르지 않는다.
참고로, 셋탑박스의 형태로 구현된 경우, 음성인식처리장치(20)는 음성신호 인식 결과에 따라 예컨대, 컨텐츠 선택, 특정 메뉴 선택, 특정 명령 입력, 특정 채널 시청 요구 등의 기 정의된 동작을 처리할 수 있다.
만약 인터넷과 연결된 블루투스 스피커(조명) 형태로 구현된 경우라면, 음성인식처리장치(20)는 예컨대, 인터넷을 통해 원하는 정보를 검색하고 그 검색 결과를 음성으로 제공하는 등의 기 정의된 동작을 처리할 수 있다.
한편, 음성인식처리장치(20)는 음성브리지장치(10)로부터 통신신호의 형태로 수신되는 음성신호뿐만 아니라, 자신이 설치된 주변환경에서 발생(발화)되는 음성신호를 수신하여 이에 대한 인식을 처리하는 것 또한 가능함은 물론이다.
이처럼, 본 발명의 일 실시예에 따른 음성신호 인식 시스템은 전술한 구성을 통해서 음성신호에 대한 인식 가능 거리를 확장함과 동시에 인식 결과의 정확도를 보다 제고할 수 있는데, 이하에서는 이를 실현하기 위한 시스템 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성브리지장치(10)의 개략적인 구성을 보여주고 있다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성브리지장치(10)는 음성신호를 수신하는 수신부(11), 음성신호를 통신신호로 변환하는 변환부(12), 및 통신신호를 음성인식처리장치(20)로 전송하는 전송부(23)를 포함하는 기본 구성을 가질 수 있다.
또한, 본 발명의 일 실시예에 따른 음성브리지장치(10)는 전술한 구성 이외에 웨이크업 음성신호 여부를 판별하는 판별부(14), 웨이크업 음성신호의 신호 세기를 확인하는 확인부(15), 및 음성신호의 전송을 제어하는 제어부(16)를 포함하는 핵심 구성을 더 포함할 수 있다.
이상의 수신부(11), 변환부(12), 전송부(13), 판별부(14), 확인부(15), 및 제어부(16)를 포함하는 음성브리지장치(10)의 구성 전체 내지는 적어도 일부는, 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.
여기서, 소프트웨어 모듈이란, 예컨대, 음성브리지장치(10) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 음성브리지장치(10) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.
한편, 본 발명의 일 실시예에 따른 음성브리지장치(10)는 전술한 구성 이외에, 음성인식처리장치(20)와의 실질적인 통신 기능을 제공하는 통신부(17)를 더 포함하는 구성을 가질 수 있다.
이를 위해, 통신부(17)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로를 포함할 수 있다.
이러한, 통신부(17)가 지원하는 통신 프로토콜로는, 예컨대, 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct) 등이 포함될 수 있다. 또한, 유선 통신망으로는 유선 LAN(Local Area Network), 유선 WAN(Wide Area Network), 전력선 통신(Power Line Communication: PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 등이 포함될 수 있으며, 이제 제한되는 것이 아닌, 다른 장치와의 통신 환경을 제공할 수 있는 프로토콜은 모두 포함될 수 있다.
결국, 본 발명의 일 실시예에 따른 음성브리지장치(10)는 전술한 구성을 통해 주변에서 수신되는 음성신호를 통신신호로 변환하여 음성인식처리장치(20)로 전송함으로써, 음성신호에 대한 인식 가능 거리(커버리지)를 확장함과 동시에 인식 결과의 정확도를 제고할 수 있는데, 이하에서는 이를 위한 음성브리지장치(10) 내 핵심 구성에 대해서 보다 구체적으로 설명하기로 한다.
판별부(14)는 웨이크업 음성신호인지 여부를 판별하는 기능을 수행한다.
보다 구체적으로, 판별부(14)는 대기모드 상태에서 수신부(11)를 통해서 음성신호가 수신되는 경우, 수신된 음성신호에 대한 인식 결과를 기초로 음성신호가 웨이크업 음성신호인지 여부를 판별하게 된다.
이때, 판별부(14)는 음성신호에 대한 인식 결과에 특정 웨이크업 단어(Word)가 포함되어 있는 경우, 대기모드 상태에서 수신되는 음성신호를 액티브모드로 전환을 위한 웨이크업 음성신호인 것으로 판별할 수 있다.
여기서, 웨이크업 단어는, 예컨대, 시스템 자체적으로 설정된 고정된 단어이거나, 사용자에 의해서 특정 단어로 설정될 수 있음은 물론이다.
한편, 제어부(16)는 이처럼 대기모드 상태에서 수신되는 음성신호가 웨이크업 음성신호인 것으로 판별되는 경우 대기모드를 액티브모드로 전환함으로써, 액티브모드 상태에서 수신부(11)를 통해 수신되는 음성신호가 변환부(12)를 통해 통신신호로 변환된 이후 전송부(13)를 통해서 음성인식처리장치(20)로 전송될 수 있도록 한다.
확인부(15)는 웨이크업 음성신호의 신호 세기를 확인하는 기능을 수행한다.
보다 구체적으로, 확인부(15)는 대기모드 상태에서 수신되는 음성신호가 웨이크업 음성신호인 것으로 판별되는 경우, 해당 웨이크업 음성신호의 신호 세기가 임계 세기 미만인지 여부를 확인하게 된다.
여기서, 임계 세기는 웨이크업 음성신호를 전달한 사용자의 위치의 가늠하기 위한 수치로서, 해당 웨이크업 음성신호의 신호 세기가 임계 세기 미만으로 확인되는 경우는, 사용자가 음성브리지장치(10)의 설치 위치와는 떨어진 곳에서 웨이크업 음성신호를 전달한 경우인 것으로 이해될 수 있다.
한편, 제어부(16)는 이처럼 웨이크업 음성신호가 임계 세기 미만인 것으로 확인되는 경우, 전송부(13)에서 대기모드를 액티브모드로 전환시키기 위한 모드전환신호를 타 음성브리지장치로 전송하도록 하여, 모드전환신호를 수신한 타 음성브리지장치로 하여금 액티브모드 상태에서 수신되는 음성신호를 음성인식처리장치(20)로 함께 전송할 수 있도록 한다.
참고로, 이러한, 모드전환신호의 전송 방식은 예컨대, 전송부(13)를 통해 타 음성브리지장치로 모드전환신호를 직접 전송하는 직접 전송 방식과, 음성인식처리장치(20)에 모드전화신호의 전송을 요청하는 간접 전속 방식으로 구분될 수 있다.
여기서, 타 음성브리지장치는 웨이크업 음성신호를 수신한 음성브리지장치(10)와 가장 인접한 위치에 설치된 음성브리지장치인 것으로 이해될 수 있으며, 이러한 타 음성브리지장치는, 음성인식처리장치(20)와 접속된 다른 음성브리지장치 중 통신신호(예: 비콘신호)가 수신되거나, 또는 통신신호(예: 비콘신호)의 수신신호세기가 임계 세기 이상인 음성브리지장치로 선별될 수 있다.
이처럼, 이처럼 웨이크업 음성신호가 임계 세기 미만인 것으로 확인되는 경우, 인접한 타 음성브리지장치를 액티브모드로 전환하여 액티브모드 상태에서 수신되는 음성신호를 음성인식처리장치(20)로 함께 전송할 수 있도록 하는 것은, 웨이크업 음성신호를 수신한 음성브리지장치(10)와 타 음성브리지장치로부터 수신되는 동일한 음성신호를 조합하는 방식을 통해서 음성인식처리장치(20)에서 처리되는 음성신호에 대한 인식 정확도를 향상시키기 위함이다.
이와 관련하여, 제어부(16)는 타 음성브리지장치에 대해서 모드전환신호를 전송한 경우, 음성인식처리장치(20)로 전송하는 음성신호에 식별정보를 삽입하여, 음성인식처리장치(20)로 하여금 음성브리지장치(10) 및 타 음성브리지장치로부터 수신되는 각 음성신호 중, 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 타 음성브리지장치로부터 수신되는 음성신호는 기준음성정보를 보정하기 위한 보정음성정보로서 인식하도록 한다.
참고로, 보정음성정보와 관련하여 타 음성브리지장치가 설치된 영역에는 웨이크업 음성신호를 전달한 사용자 이외에, 다른 사용자가 존재하는 경우, 2 이상의 음성신호가 음성인식처리장치(20)로 전송될 수 있다.
이 경우, 음성인식처리장치(20)에서는 2 이상의 음성신호 중 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호를 웨이크업 음성신호를 전달한 사용자의 음성신호인 것으로 판별하여 해당 음성신호를 보정음성정보로서 인식할 수 있다.
여기서, 기준음성정보와 수신시점이 일치한다는 것은, 사용자의 발화시점이 동일하다는 것을 의미한다.
또한, 음성신호의 신호 세기가 임계 세기 미만이라는 것은, 웨이크업 음성신호를 수신한 음성브리지장치(10)와 사용자 간 거리와 마찬가지로, 타 음성브리지장치와 사용자가 떨어져 있다는 것을 의미하는 것으로서, 이는 만약, 타 음성브리지장치와 사용자의 위치가 인접한 경우라면, 타 음성브리지장치가 사용자가 전달하는 웨이크업 음성신호를 직접 수신할 수 있다는 점에 기인한다.
이하에서는, 본 발명의 일 실시예에 따른 음성인식처리장치(20)의 구성에 대해 설명하기로 한다.
이와 관련하여 도 3은 본 발명의 일 실시예에 따른 음성인식처리장치(20)의 개략적인 구성을 보여주고 있다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성인식처리장치(20)는 음성브리지장치(10)로부터 통신신호를 수신하는 수신부(21), 통신신호를 음성신호로 변환하는 변환부(22), 음성신호를 인식하는 인식부(23), 및 음성신호에 대한 인식 결과를 기초로 기 정의된 동작을 처리하는 처리부(24)를 포함하는 구성을 가질 수 있다.
이상의 수신부(21), 변환부(22), 인식부(23), 및 처리부(24)를 포함하는 음성인식처리장치(20)의 구성 전체 내지는 적어도 일부는, 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.
여기서, 소프트웨어 모듈이란, 예컨대, 음성인식처리장치(20) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 음성인식처리장치(10) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.
한편, 본 발명의 일 실시예에 따른 음성인식처리장치(20)는 전술한 구성 이외에, 음성브리지장치(20)와의 실질적인 통신 기능을 제공하는 통신부(25)를 더 포함하는 구성을 가질 수 있다.
여기서, 통신부(25)는 앞서 설명한 음성브리지장치(10) 내 통신부(17)의 구성과 일치하므로 그 구체적인 예시나 설명은 생략하기로 한다.
결국, 본 발명의 일 실시예에 따른 음성인식처리장치(20)는 전술한 구성을 통해 음성신호 인식 결과에 대한 정확도를 제고할 수 있는데, 이하에서는 이를 위한 음성인식처리장치(20) 내 핵심 구성인 인식부(23)의 기능에 대해서 보다 구체적으로 설명하기로 한다.
인식부(23)는 기준음성정보와 보정음성정보를 구분하여 인식하는 기능을 수행한다.
보다 구체적으로, 인식부(23)는 2 이상의 음성브리지장치(10)로부터 전송된 통신신호가 수신부(21)를 통해 수신되어 변환부(22)에서 각각의 음성신호로 변환된 경우, 각각의 음성신호 중 신호 세기가 가장 큰 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하게 된다.
여기서, 2 이상의 음성브리지장치(10)로부터 통신신호가 수신된다는 것은, 임계 세기 이상의 웨이크업 음성신호를 동시에 수신한 2 이상의 음성브리지장치(10)가 액티브모드 상태에서 음성신호를 수신하고 있는 상황을 의미할 수 있다.
따라서, 인식부(23)는 각각의 음성신호 중 신호 세기가 가장 큰 음성신호의 경우 사용자와 가장 근접한 위치에 설치된 음성브리지장치에서 수신한 것으로 인지하여, 각각의 음성신호 중 신호 세기가 가장 큰 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식할 수 있는 것이다.
여기서, 기준음성정보는 음성신호 내 발화내용을 직접 인식하기 위한 정보이며, 보정음성정보는 기준음성정보로부터 인식된 발화내용을 검증하기 위한 정보로서, 이러한 검증은 기준음성정보로부터 인식된 발화내용과 보정음성정보로부터 인식된 발화내용을 비교하는 방식을 통해서 이루어질 수 있다.
참고로, 기준음성정보로부터 인식된 발화내용과 보정음성정보로부터 인식된 발화내용이 서로 다른 경우에는 기준음성정보로부터 발화내용을 재 인식하는 방식을 통해서 음성신호의 인식 정확도를 제고할 수 있다.
한편, 2 이상의 음성브리지장치(10)로부터 통신신호가 수신된다는 것은 임계 세기 미만의 웨이크업 음성신호를 수신한 특정 음성브리지장치가 자신과 인접한 타 음성브리지장치에 모드전환신호를 전송한 상황으로 이해될 수 있으며, 이 경우 웨이크업 음성신호를 수신한 특정 음성브리지장치의 음성신호에는 식별정보가 삽입된다.
따라서, 인식부(23)는 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하는 경우, 해당 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식할 수 있는 것이다.
참고로, 보정음성정보와 관련하여 웨이크업 음성신호를 전달한 사용자 이외에, 다른 사용자가 동일한 공간에 존재하는 경우, 2 이상의 음성신호가 혼재된 통신신호가 수신될 수 있다.
이 경우 인식부(23)는 2 이상의 음성신호 중 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호를 웨이크업 음성신호를 전달한 사용자의 음성신호인 것으로 판별하여 해당 음성신호를 보정음성정보로서 인식할 수 있다.
이상에서 살펴본 바와 같이 본 발명의 일 실시예에 따른 음성브리지장치(10) 및 음성인식처리장치(20)의 구성에 따르면, 음성브리지장치(10)가 주변에서 수신되는 음성신호를 통신신호로 변환하여 원격에 위치한 음성인식처리장치(20)로 전송함으로써, 음성신호에 대한 인식 가능 거리를 확장할 수 있으며, 또한, 음성인식처리장치(20)에서는 음성브리지장치로부터 수신되는 음성신호를 기준음성정보와 보정음성정보로 구분하는 방식을 통해 음성신호에 대한 인식을 처리함으로써, 음성신호에 대한 인식 결과의 정확도를 제고할 수 있다.
이하에서는 본 발명의 일 실시예에 따른 음성신호 인식 시스템 내 각 구성에서의 동작 흐름에 대해 설명하기로 한다.
우선 도 4를 참조하여 본 발명의 일 실시예에 따른 음성브리지장치(10)에서의 동작 흐름을 살펴보면 다음과 같다.
먼저, 판별부(14)는 단계 S11에 따라 대기모드 상태에서 수신부(11)를 통해서 음성신호가 수신되는 경우, 단계 S12를 통해 수신된 음성신호에 대한 인식 결과를 기초로 음성신호가 웨이크업 음성신호인지 여부를 판별한다.
이때, 판별부(14)는 음성신호에 대한 인식 결과에 특정 웨이크업 단어(Word)가 포함되어 있는 경우, 대기모드 상태에서 수신되는 음성신호를 액티브모드로 전환을 위한 웨이크업 음성신호인 것으로 판별한다.
그런 다음, 확인부(15)는 단계 S13 및 S14에 따라서 대기모드 상태에서 수신되는 음성신호가 웨이크업 음성신호인 것으로 판별되는 경우, 해당 웨이크업 음성신호의 신호 세기가 임계 세기 미만인지 여부를 확인한다.
그리고 나서, 제어부(16)는 단계 S15 및 S16에 따라 웨이크업 음성신호가 임계 세기 미만인 것으로 확인되는 경우, 전송부(13)가 대기모드를 액티브모드로 전환시키기 위한 모드전환신호를 타 음성브리지장치로 전송하도록 하여, 모드전환신호를 수신한 타 음성브리지장치로 하여금 액티브모드 상태에서 수신되는 음성신호를 함께 음성인식처리장치(20)로 전송할 수 있도록 한다.
참고로, 이러한, 모드전환신호의 전송 방식은 예컨대, 전송부(13)를 통해 타 음성브리지장치로 모드전환신호를 직접 전송하는 직접 전송 방식과, 음성인식처리장치(20)에 모드전화신호의 전송을 요청하는 간접 전속 방식으로 구분될 수 있다.
여기서, 타 음성브리지장치는 웨이크업 음성신호를 수신한 음성브리지장치(10)와 가장 인접한 위치에 설치된 음성브리지장치인 것으로 이해될 수 있으며, 이러한 타 음성브리지장치는, 음성인식처리장치(20)와 접속된 다른 음성브리지장치 중 통신신호(예: 비콘신호)가 수신되거나, 또는 통신신호(예: 비콘신호)의 수신신호세기가 임계 세기 이상인 음성브리지장치로 선별될 수 있다.
이후, 제어부(16)는 단계 S17 내지 S20에 따라 대기모드 상태에서 수신되는 음성신호가 웨이크업 음성신호인 것으로 판별된 것과 관련하여 대기모드를 액티브모드로 전환함으로써, 액티브모드 상태에서 수신부(11)를 통해 수신되는 음성신호가 변환부(12)를 통해 통신신호로 변환된 이후 전송부(13)를 통해 음성인식처리장치(20)로 전송될 수 있도록 한다.
한편, 앞선 단계 S15에서 웨이크업 음성신호가 임계 세기 이상인 것으로 확인되는 경우에는 단계 S16을 통한 모드전화신호의 전송 과정 없이, 단계 S17 내지 S20에 해당하는 위 동작을 바로 수행함은 물론이다.
이하에서는 도 5를 참조하여 본 발명의 일 실시예에 따른 음성인식처리장치(10)에서의 동작 흐름을 살펴보면 다음과 같다.
먼저, 수신부(21)는 단계 S21에 따라 음성브리지장치(10)가 전송한 통신신호를 수신하며, 이어서 변환부(22)는 단계 S22에 따라서 수신부(21)가 수신한 통신신호를 음성신호로 변환한다.
이에 대해, 인식부(23)는 단계 S23에 따라 변환된 음성신호에 대한 인식을 처리함에 앞서 2 이상의 음성브리지장치(10)로부터 통신신호가 수신되어 각각의 음성신호로 변환되었는지 여부를 확인한다.
이어서, 인식부(23)는 단계 S24 및 S25에 따라서 2 이상의 음성브리지장치(10)로부터 전송된 통신신호가 각각의 음성신호로 변환된 것으로 확인된 경우, 변환된 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하는지 여부를 확인한다.
여기서, 2 이상의 음성브리지장치(10)로부터 통신신호가 수신된다는 것은 임계 세기 미만의 웨이크업 음성신호를 수신한 특정 음성브리지장치가 자신과 인접한 타 음성브리지장치에 모드전환신호를 전송한 상황으로 이해될 수 있으며, 이 경우 웨이크업 음성신호를 수신한 특정 음성브리지장치의 음성신호에는 식별정보가 삽입된다.
그런 다음, 인식부(23)는 단계 S26 및 S29에 따라서, 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하는 것으로 확인되는 경우, 식별정보가 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로 구분하여 인식한다.
여기서, 기준음성정보는 음성신호 내 발화내용을 직접 인식하기 위한 정보이며, 보정음성정보는 기준음성정보로부터 인식된 발화내용을 검증하기 위한 정보로서, 이러한 검증은 기준음성정보로부터 인식된 발화내용과 보정음성정보로부터 인식된 발화내용을 비교하는 방식을 통해서 이루어질 수 있다.
참고로, 기준음성정보로부터 인식된 발화내용과 보정음성정보로부터 인식된 발화내용이 서로 다른 경우에는 기준음성정보로부터 발화내용을 재 인식하는 방식을 통해서 음성신호의 인식 정확도를 제고할 수 있다.
한편, 인식부(23)는 앞선 단계 S26에서 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하지 않는 것으로 확인되는 경우에는, 단계 S28 및 S29에 따라서 각각의 음성신호 중 신호 세기가 가장 큰 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 구분하여 인식한다.
여기서, 2 이상의 음성브리지장치(10)로부터 통신신호가 수신된다는 것은, 임계 세기 이상의 웨이크업 음성신호를 동시에 수신한 2 이상의 음성브리지장치(10)가 액티브모드 상태에서 음성신호를 수신하고 있는 상황을 의미할 수 있다.
따라서, 인식부(23)는 각각의 음성신호 중 신호 세기가 가장 큰 음성신호의 경우 사용자와 가장 근접한 위치에 설치된 음성브리지장치에서 수신한 것으로 인지하여, 각각의 음성신호 중 신호 세기가 가장 큰 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식할 수 있는 것이다.
참고로, 보정음성정보와 관련하여 웨이크업 음성신호를 전달한 사용자 이외에, 다른 사용자가 동일한 공간에 존재하는 경우, 2 이상의 음성신호가 혼재된 통신신호가 수신될 수 있다.
이 경우 인식부(23)는 2 이상의 음성신호 중 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호를 웨이크업 음성신호를 전달한 사용자의 음성신호인 것으로 판별하여 해당 음성신호를 보정음성정보로서 인식할 수 있다.
한편, 인식부(33)는 앞선 단계 S24에서 음성브리지장치(10)로부터 하나의 통신신호에 대한 음성신호로의 변환이 이루어진 것으로 확인되는 경우, 별도 기준음성정보와 보정음성정보의 구분 없이 단계 S29를 통한 음성정보에 대한 인식을 처리한다.
이후, 처리부(24)는 단계 S30에 따라 인식부(23)에서 처리된 음성신호에 대한 인식 결과에 따른 기 정의된 동작을 처리한다.
이때, 처리부(24)는 예컨대, 음성인식처리장치(20)가 셋탑박스로 구현된 경우라면, 컨텐츠 선택, 특정 메뉴 선택, 특정 명령 입력, 특정 채널 시청 요구 등을 기 정의된 동작으로 처리할 수 있으며, 만약 인터넷과 연결된 블루투스 스피커(조명) 형태로 구현된 경우라면, 인터넷을 통해 원하는 정보를 검색하고 그 검색 결과를 음성으로 제공하는 것 등을 기 정의된 동작으로 처리할 수 있다.
이상에서 살펴본 바와 같이 본 발명의 일 실시예에 따른 음성브리지장치(10) 및 음성인식처리장치(20)의 각각에서의 동작 흐름에 따르면, 음성브리지장치(10)가 주변에서 수신되는 음성신호를 통신신호로 변환하여 원격에 위치한 음성인식처리장치(20)로 전송함으로써, 음성신호에 대한 인식 가능 거리를 확장할 수 있으며, 또한, 음성인식처리장치(20)에서는 음성브리지장치로부터 수신되는 음성신호를 기준음성정보와 보정음성정보로 구분하는 방식을 통해 음성신호에 대한 인식을 처리함으로써, 음성신호에 대한 인식 결과의 정확도를 제고할 수 있다.
한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다.  본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 제어 시스템의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.
컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 제어하기 위한 모든 기구, 장치 및 기계를 포괄한다. 제어 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등 요청 시 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.
본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 어플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다
이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명에 일 실시예에 따른 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법에 따르면, 음성신호(사용자음성) 인식 결과에 따른 기 정의된 동작을 처리하는 것과 관련하여 음성신호에 대한 인식 가능 거리(커버리지)를 확장함과 동시에 인식 결과의 정확도를 제고할 수 있다는 점에서 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.
10: 음성브리지장치
11: 수신부 12: 변환부
13: 전송부 14: 판별부
15: 확인부 16: 제어부
20: 음성인식처리장치
21: 수신부 22: 변환부
23: 인식부 24: 처리부

Claims (23)

  1. 음성신호를 수신하면, 상기 음성신호를 인식 결과에 따른 기 정의된 동작을 처리하는 음성인식처리장치가 수신할 수 있는 통신신호로 변환하는 변환부;
    상기 통신신호를 상기 음성인식처리장치로 전송하여, 상기 음성인식처리장치가 상기 통신신호로부터 상기 음성신호를 인식할 수 있도록 하는 전송부;
    상기 수신하는 음성신호 중 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 것으로 확인되면, 타 음성브리지장치로 대기모드를 액티브모드로 전환시키기 위한 모드전환신호를 전송하도록 하여, 상기 타 음성브리지장치로 하여금 액티브모드 상태에서 수신되는 음성신호를 상기 음성인식처리장치로 전송할 수 있도록 하는 제어부를 포함하며;
    상기 제어부는,
    상기 타 음성브리지장치에 대해서 상기 모드전환신호를 전송한 경우, 상기 음성인식처리장치로 전송하는 음성신호에 식별정보를 삽입하여,
    상기 음성인식처리장치로 하여금 상기 음성브리지장치 및 상기 타 음성브리지장치로부터 수신되는 각 음성신호 중, 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 상기 타 음성브리지장치로부터 수신되는 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하도록 하는 것을 특징으로 하는 음성브리지장치.
  2. 제 1 항에 있어서,
    상기 음성브리지장치는,
    대기모드 상태에서 상기 음성신호가 수신되는 경우, 상기 음성신호에 대한 인식 결과를 기초로 상기 음성신호가 웨이크업 음성신호인지 여부를 판별하는 판별부를 더 포함하며;
    상기 제어부는,
    상기 음성신호가 웨이크업 음성신호인 것으로 판별되면 상기 대기모드를 액티브모드로 전환하여, 상기 액티브모드 상태에서 수신되는 음성신호가 상기 음성인식처리장치로 전송될 수 있도록 하는 것을 특징으로 하는 음성브리지장치.
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 보정음성정보는,
    상기 타 음성브리지장치로부터 2 이상의 음성신호가 수신되는 경우, 상기 2 이상의 음성신호 중 상기 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호로부터 인식되는 것을 특징으로 하는 음성브리지장치.
  6. 제 1 항에 있어서,
    상기 타 음성브리지장치는,
    상기 음성인식처리장치와 접속된 다른 음성브리지장치 중 통신신호가 수신되거나, 또는 통신신호의 수신신호세기가 임계 세기 이상인 음성인식장치를 포함하는 것을 특징으로 하는 음성브리지장치.
  7. 음성브리지장치로부터 수신한 통신신호를 음성신호로 변환하는 변환부;
    상기 음성신호를 인식한 하는 인식부; 및
    상기 음성신호에 대한 인식 결과를 기초로 기 정의된 동작을 처리하는 처리부를 포함하며;
    상기 인식부는,
    2 이상의 음성브리지장치로부터 통신신호가 수신되어 각각의 음성신호로 변환되며, 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하는 경우, 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하며,
    상기 보정음성정보는,
    특정 음성브리지장치로부터 수신된 통신신호가 2 이상의 음성신호로 변환된 경우, 상기 2 이상의 음성신호 중 상기 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호로부터 인식되는 것을 특징으로 하는 음성인식처리장치.
  8. 삭제
  9. 삭제
  10. 제 7 항에 있어서,
    상기 식별정보는,
    상기 다수의 음성브리지장치 중 타 음성브리지장치를 액티브모드로 전환시키기 위한 모드전환신호를 전송한 특정 음성브리지장치에서 삽입되는 정보이며,
    상기 특정 음성브리지장치는,
    대기모드 상태를 액티브모드로 전환시키기 위한 웨이크업 음성신호가 수신되며, 상기 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 경우, 상기 모드전환신호를 전송하는 것을 특징으로 하는 음성인식처리장치.
  11. 삭제
  12. 음성신호를 수신하는 수신단계;
    상기 음성신호를 인식 결과에 따른 기 정의된 동작을 처리하는 음성인식처리장치가 수신할 수 있는 통신신호로 변환하는 변환단계;
    상기 통신신호를 상기 음성인식처리장치로 전송하여, 상기 음성인식처리장치가 상기 통신신호로부터 상기 음성신호를 인식할 수 있도록 하는 전송단계;
    상기 수신하는 음성신호 중 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 것으로 확인되면, 타 음성브리지장치로 대기모드를 액티브모드로 전환시키기 위한 모드전환신호를 전송하도록 하여, 상기 타 음성브리지장치로 하여금 액티브모드 상태에서 수신되는 음성신호를 상기 음성인식처리장치로 전송할 수 있도록 하는 제어단계를 포함하며;
    상기 제어단계는,
    상기 타 음성브리지장치에 대해서 상기 모드전환신호를 전송한 경우, 상기 음성인식처리장치로 전송하는 음성신호에 식별정보를 삽입하여,
    상기 음성인식처리장치로 하여금 상기 음성브리지장치 및 상기 타 음성브리지장치로부터 수신되는 각 음성신호 중, 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 상기 타 음성브리지장치로부터 수신되는 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하도록 하는 것을 특징으로 하는 음성브리지장치의 동작 방법.
  13. 제 12 항에 있어서,
    상기 방법은,
    상기 전송단계 이전에, 대기모드 상태에서 상기 음성신호가 수신되는 경우, 상기 음성신호에 대한 인식 결과를 기초로 상기 음성신호가 웨이크업 음성신호인지 여부를 판별하는 판별단계를 더 포함하며;
    상기 제어단계는,
    상기 음성신호가 웨이크업 음성신호인 것으로 판별되면 상기 대기모드를 액티브모드로 전환하여, 상기 액티브모드 상태에서 수신되는 음성신호가 상기 음성인식처리장치로 전송될 수 있도록 하는 것을 특징으로 하는 음성브리지장치의 동작 방법.
  14. 삭제
  15. 삭제
  16. 제 12 항에 있어서,
    상기 보정음성정보는,
    상기 타 음성브리지장치로부터 2 이상의 음성신호가 수신되는 경우, 상기 2 이상의 음성신호 중 상기 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호로부터 인식되는 것을 특징으로 하는 음성브리지장치의 동작 방법.
  17. 제 12 항에 있어서,
    상기 타 음성브리지장치는,
    상기 음성인식처리장치와 접속된 다른 음성브리지장치 중 통신신호가 수신되거나, 또는 통신신호의 수신신호세기가 임계 세기 이상인 음성인식장치를 포함하는 것을 특징으로 하는 음성브리지장치의 동작 방법.
  18. 제 12 항 내지 제 13항, 제 16 항 내지 제 17 항 중 어느 한 항의 각 단계를 실행시키기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
  19. 음성브리지장치로부터 통신신호를 수신하는 수신단계;
    상기 통신신호를 상기 음성브리지장치에서 수신한 음성신호로 변환하는 변환단계;
    상기 음성신호를 인식하는 인식단계; 및
    상기 음성신호에 대한 인식 결과를 기초로 기 정의된 동작을 처리하는 처리단계를 포함하며;
    상기 인식단계는,
    2 이상의 음성브리지장치로부터 통신신호가 수신되어 각각의 음성신호로 변환되며, 각각의 음성신호 중 식별정보가 삽입된 음성신호가 존재하는 경우, 상기 식별정보가 삽입된 음성신호를 기준음성정보로서 인식하며, 나머지 음성신호는 상기 기준음성정보를 보정하기 위한 보정음성정보로서 인식하며,
    상기 보정음성정보는,
    특정 음성브리지장치로부터 수신된 통신신호가 2 이상의 음성신호로 변환된 경우, 상기 2 이상의 음성신호 중 상기 기준음성정보와 수신시점이 일치하며, 신호 세기가 임계 세기 미만인 음성신호로부터 인식되는 것을 특징으로 하는 음성브리지장치의 동작 방법.
  20. 삭제
  21. 삭제
  22. 제 19 항에 있어서,
    상기 식별정보는,
    상기 다수의 음성브리지장치 중 타 음성브리지장치를 액티브모드로 전환시키기 위한 모드전환신호를 전송한 특정 음성브리지장치에서 삽입되는 정보이며,
    상기 특정 음성브리지장치는,
    대기모드 상태를 액티브모드로 전환시키기 위한 웨이크업 음성신호가 수신되며, 상기 웨이크업 음성신호의 신호 세기가 임계 세기 미만인 경우, 상기 모드전환신호를 전송하는 것을 특징으로 하는 음성브리지장치의 동작 방법.
  23. 제 19 항 또는 제 22 항 중 어느 한 항의 각 단계를 실행시키기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
KR1020170098479A 2017-08-03 2017-08-03 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법 KR102052510B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170098479A KR102052510B1 (ko) 2017-08-03 2017-08-03 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170098479A KR102052510B1 (ko) 2017-08-03 2017-08-03 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20190014697A KR20190014697A (ko) 2019-02-13
KR102052510B1 true KR102052510B1 (ko) 2019-12-05

Family

ID=65366748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170098479A KR102052510B1 (ko) 2017-08-03 2017-08-03 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102052510B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109140A (ko) * 2019-03-12 2020-09-22 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102246936B1 (ko) 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100769156B1 (ko) * 2007-04-20 2007-10-22 주식회사 서비전자 홈 네트워크 시스템 및 그것의 제어방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100769156B1 (ko) * 2007-04-20 2007-10-22 주식회사 서비전자 홈 네트워크 시스템 및 그것의 제어방법

Also Published As

Publication number Publication date
KR20190014697A (ko) 2019-02-13

Similar Documents

Publication Publication Date Title
US11641408B2 (en) Methods and systems of configuring electronic devices
US10069976B1 (en) Voice agent forwarding
US11869487B1 (en) Allocation of local and remote resources for speech processing
US9913197B2 (en) Beacon device for seamless service, and control method thereof
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
US20120224457A1 (en) Server for grouping devices based on sounds collected and method therefore
US20140195249A1 (en) Interactive server, control method thereof, and interactive system
US20160132029A1 (en) Method for configuring and controlling smart home products
CN104978958A (zh) 语音控制方法和系统
KR20160028468A (ko) 멀티 레벨 음성 인식
EP2403224A1 (en) Audio Control System and Method Using Near-Field Wireless Communication
KR102052510B1 (ko) 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법
EP2904486A1 (en) Handsfree device with continuous keyword recognition
KR20140037519A (ko) 자연어 기반의 명령어 인식을 통해 가전기기를 원격 제어하는 제어 단말 및 그 방법
WO2007102904A3 (en) Interactive voice browsing server for mobile devices on wireless networks
US11201849B2 (en) Natural language connectivity
KR20170135133A (ko) 음성 인식 시스템 및 방법
CN106134166B (zh) 语音接口的语言的自动选择
KR101940254B1 (ko) 단말장치 및 제어대상장치와, 그 장치들의 동작 방법
WO2007111726A3 (en) Interactive voice browsing system for mobile devices on wireless networks
CN108847231B (zh) 远场语音识别方法、装置及系统
US20130089028A1 (en) Wireless communication system and method using directional communication
WO2014111991A1 (ja) 車両装置と携帯端末との動作適合化方法、車両装置と携帯端末とを備える車両システム、携帯端末、及び情報センタ
KR20190056699A (ko) 음성인식처리장치 및 그 동작 방법
KR102355637B1 (ko) 모듈형 음성인식 지원 어댑터 및 그 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right