KR20190133476A - 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법 - Google Patents
음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20190133476A KR20190133476A KR1020180058470A KR20180058470A KR20190133476A KR 20190133476 A KR20190133476 A KR 20190133476A KR 1020180058470 A KR1020180058470 A KR 1020180058470A KR 20180058470 A KR20180058470 A KR 20180058470A KR 20190133476 A KR20190133476 A KR 20190133476A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- control
- voice
- voice response
- response device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004044 response Effects 0.000 claims abstract description 75
- 238000009434 installation Methods 0.000 claims abstract description 22
- 238000002360 preparation method Methods 0.000 claims abstract description 4
- 230000003213 activating effect Effects 0.000 claims abstract description 3
- 238000001994 activation Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000009849 deactivation Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 241000086571 Tyrannosaurus Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B15/00—Systems controlled by a computer
- G05B15/02—Systems controlled by a computer electric
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/80—Services using short range communication, e.g. near-field communication [NFC], radio-frequency identification [RFID] or low energy communication
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법에 관한 것이다. 본 발명에 따른 소정의 기동어 감지에 따라 해당 기동어에 대응되는 서비스 제공 준비를 수행하는 음성 반응 장치의 제어방법은, 설치 환경 상태를 판단하는 단계와; 판단된 설치 환경 상태에 따라, 기 등록된 복수의 기동어 중 적어도 어느 하나의 기동어에 대한 활성화 처리 또는 비활성화 처리를 수행하는 단계와; 사용자의 발화 음성으로부터 현재 활성화된 기동어가 감지되는 경우 그 감지된 기동어에 대응되는 외부 서버와 통신하여 서비스를 제공하는 단계를 포함하는 것을 특징으로 한다.
Description
본 발명은 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법에 관한 것으로, 보다 상세하게는 소정의 기동어가 감지되는 경우 해당 기동어에 대응되는 서비스 제공 준비를 수행하는 음성 반응 장치 및 그 제어방법에 관한 것이다.
사용자가 소정의 통신 서비스를 받기 위해서는 사용자 명령을 수신하는 별도의 장치(이하, 사용자 장치)가 있어야 하는데, 일반적으로는 사용자 장치에 구비된 버튼이나 터치스크린을 직접 누르거나 또는 리모컨 등을 이용하여 무선으로 사용자 명령을 내렸었다.
즉, 사용자가 자신의 손으로 직접 무엇인가를 조작하면서 원하는 명령을 사용자 장치에 전달해온 것이다.
이러한 종래의 방식은, 사용자가 소정의 통신 서비스를 제공받기 위해서는 해당 사용자 장치에 직접 다가가서 조작하거나, 또는 해당 사용자 장치를 조작하기 위한 별도의 장치(상술한 리모컨)를 찾아야 하는 것이어서, 상당히 불편한 방식이라 할 수 있다.
이러한 불편을 최소화하기 위해 최근에는 음성 명령을 통해 장치를 제어하는 방식이 등장하였다.
즉, 사용자는 음성 반응 장치에 음성으로 명령을 내리면 그 음성 반응 장치가 특정 명령을 수행하는 것이다.
예를 들어 최근 출시된 일명 'AI(인공지능) 스피커'의 경우 인공지능 음성인식 기술을 이용해 사용자와 의사소통할 수 있도록 함으로써 사용자가 다른 일을 하면서도 제어할 수 있으므로 큰 인기를 얻고 있다.
이러한 음성 반응 장치는 사용자에게 특정 서비스를 제공하기 위해 외부의 서버와 연결될 수 있는데, 그 연결 상태를 계속 유지하는 것은 비효율적이므로 일반적으로 음성 반응 장치에는 '기동어'라는 일종의 트리거 역할을 하는 단어가 미리 등록되어 있고, 사용자가 해당 기동어를 발화하는 경우 음성 반응 장치는 그 기동어를 감지하여 상술한 외부의 서버와 연결 처리를 수행할 수 있다.
예를 들어 사용자의 다양한 음성 명령을 음성 반응 장치 자체에서 수행하는 것은 단말기 사양 및 음성 처리 기술 등을 고려할 때 바람직하지 않고, 오히려 일반적인 사용자 음성 명령에 대한 처리는 외부 서버에서 수행하되, 음성 반응 장치는 '기동어'에 대한 음성 처리 및 인식만 처리하는 것이 바람직하고, 현재 AI 스피커의 경우에도 마찬가지이다.
그런데 종래의 음성 반응 장치(즉, AI 스피커)의 경우에는 오직 하나의 기동어만을 처리할 수 있게 되어 있거나, 또는 복수의 기동어를 처리한다 하여도 설치 또는 운용 환경에 맞는 적절한 조치가 이루어지지 못하고 있는 실정이다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 안출된 것으로서, 그 목적은 복수의 기동어가 구비된 경우 다양한 설치 환경에서 최적의 구동 모드를 결정하는 음성 반응 장치 및 그 방법을 제공하는 것이다.
상기한 목적을 달성하기 위해 본 발명에 따른 소정의 기동어 감지에 따라 외부 서버와 통신하여 사용자에게 서비스를 제공하는 음성 반응 장치는, 설치 환경 상태를 판단하는 판단부와; 상기 판단부에서 판단된 설치 환경 상태에 따라, 기 등록된 복수의 기동어 중 적어도 어느 하나의 기동어에 대한 활성화 처리 또는 비활성화 처리를 수행하는 기동어 활성화 제어부와; 사용자의 발화 음성으로부터 현재 활성화된 기동어가 감지되는 경우 그 감지된 기동어에 대응되는 외부 서버와 통신하여 서비스를 제공하는 서비스 제공부를 포함하여 구성된다.
또, 상기한 목적을 달성하기 위해 본 발명에 따른 소정의 기동어 감지에 따라 해당 기동어에 대응되는 서비스 제공 준비를 수행하는 음성 반응 장치의 제어방법은, 설치 환경 상태를 판단하는 단계와; 판단된 설치 환경 상태에 따라, 기 등록된 복수의 기동어 중 적어도 어느 하나의 기동어에 대한 활성화 처리 또는 비활성화 처리를 수행하는 단계와; 사용자의 발화 음성으로부터 현재 활성화된 기동어가 감지되는 경우 그 감지된 기동어에 대응되는 외부 서버와 통신하여 서비스를 제공하는 단계를 포함하여 이루어진다.
이상 설명한 바와 같이 본 발명에 따르면, 복수의 기동어를 구비한 경우 설치 환경 상태에 따라 복수의 기동어 중 적어도 어느 하나를 비활성화시킴으로써, 전력 소모를 최소화할 수 있다.
특히, 음성 반응 장치가 상용전원이 없는 야외에서 배터리로 동작하는 경우 댁내에서 IPTV 셋탑박스와 연결되어 있을 때나 필요한 기동어(예를 들어 '유플티비')에 대해서 비활성화 처리함으로써, 배터리 소모를 최소화하고 야외에서의 동작 시간을 연장시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 반응 장치를 포함하는 전체 통신 시스템의 개략 구성도이고,
도 2는 도 1의 음성 반응 장치의 기능 블록도이고,
도 3은 본 발명의 일 실시예에 따른 음성 반응 장치의 제어흐름도이다.
도 2는 도 1의 음성 반응 장치의 기능 블록도이고,
도 3은 본 발명의 일 실시예에 따른 음성 반응 장치의 제어흐름도이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다.
이하 본 발명에 따른 각 실시예는 본 발명의 이해를 돕기 위한 하나의 예에 불과하고, 본 발명이 이러한 실시예에 한정되는 것은 아니다. 특히 본 발명은 각 실시예에 포함되는 개별 구성, 개별 기능, 또는 개별 단계 중 적어도 어느 하나 이상의 조합으로 구성될 수 있다.
특히, 편의상 청구 범위의 일부 청구항에는 '(a)'와 같은 알파벳을 포함시켰으나, 이러한 알파벳이 각 단계의 순서를 규정하는 것은 아니다.
또한 이하 본 발명에 따른 각 실시예에서 언급하는 각 신호는 한 번의 연결 등에 의해 전송되는 하나의 신호를 의미할 수도 있지만, 후술하는 특정 기능 수행을 목적으로 전송되는 일련의 신호 그룹을 의미할 수도 있다. 즉, 각 실시예에서는 소정의 시간 간격을 두고 전송되거나 상대 장치로부터의 응답 신호를 수신한 이후에 전송되는 복수 개의 신호들이 편의상 하나의 신호명으로 표현될 수 있는 것이다.
본 발명의 일 실시예에 따른 음성 반응 장치(100)를 포함하는 전체 통신 시스템의 개략 구성은 도 1에 도시된 바와 같다.
동 도면에 도시된 바와 같이 전체 통신 시스템은, 음성 반응 장치(100), 제어 대상 장치(200), 외부 서비스 서버(300)를 포함하여 구성된다.
여기서 제어 대상 장치(200)는 음성 반응 장치(100)에 의해 제어가 이루어지는 것으로서, 예를 들어 댁내에 구비된 IPTV(Internet Protocol Television) 셋탑 박스에 해당할 수 있다.
즉, 후술하는 바와 같이 본 발명에서 사용자는 발화음성을 음성 반응 장치(100)에서 감지하도록 하여 여러 가지 명령들이 처리되도록 할 수 있는데, 특히 댁내에 구비된 제어 대상 장치(200)의 기능이 음성 반응 장치(100)에 발화한 음성에 의해 제어되도록 할 수 있는 것이다.
예를 들어 사용자는 음성 반응 장치(100)에 '채널 5번 틀어'와 같은 음성을 보냄으로써, 음성 반응 장치(100)의 제어에 의해 IPTV 셋탑 장치가 5번 채널을 재생하도록 할 수 있는 것이다.
여기서 음성 반응 장치(100)가 제어 대상 장치(200)(즉, IPTV 셋탑 장치)를 제어한다는 것은, 음성 반응 장치(100)가 제어 명령을 직접 제어 대상 장치(200)에 전송하는 것은 물론이고, 음성 반응 장치(100)가 외부 서비스 서버(300)를 경유하여 제어 대상 장치(200)에 제어 명령을 간접적으로 전송하는 것도 포함한다.
한편, 외부 서비스 서버(300)는 음성 반응 장치(100)와 통신하여 음성 반응 장치(100)가 특정 서비스를 사용자에게 제공하도록 하는 기능을 수행한다.
예를 들어 외부 서비스 서버(300)는 멀티미디어 콘텐츠 제공 관련된 검색 및 해당 콘텐츠 제공과 같은 기능은 물론이고, 인터넷 검색이나 날씨 정보 제공과 같은 기능을 수행할 수도 있다.
이러한 외부 서비스 서버(300)는 사용자의 음성 명령을 인식하고 처리하는 기능도 수행할 수 있다.
즉, 후술하는 바와 같이 음성 반응 장치(100)는 사용자의 음성 명령을 이러한 외부 서비스 서버(300)에 전달할 수 있는데, 각 외부 서비스 서버(300)는 음성 반응 장치(100)로부터 수신된 사용자의 음성 명령을 음성 인식 알고리즘을 이용하여 해석한 후, 그 음성 명령에 대응되는 기능을 수행할 수 있는 것이다.
본 실시예에서는 편의상 상술한 IPTV 셋탑 장치에 특정 콘텐츠를 제공하는 제1 외부 서비스 서버(310)와, 인터넷 검색을 수행하는 제2 외부 서비스 서버(320)로 구분되는 것을 일 예로 한다.
이러한 각 외부 서비스 서버(300)가 특정 서비스를 제공하는 구체적인 과정은 후술토록 한다.
한편, 음성 반응 장치(100)는 사용자의 음성 명령을 각 외부 서비스 서버(300)에 제공하는 기능을 수행한다.
또한 음성 반응 장치(100)는 각 외부 서비스 서버(300)의 처리 결과를 사용자에게 제공하는 기능도 수행한다.
본 실시예에서 음성 반응 장치(100)는 일종의 음성 인식 스피커로써, 사용자의 음성을 인식 및 전달하는 기능과, 그 처리 결과를 음성으로 출력하는 기능을 모두 수행한다고 가정한다. 이를 위해 음성 반응 장치(100)에 마이크(미 도시함)와 스피커(미 도시함)가 구비될 수 있음은 당연하다.
이러한 음성 반응 장치(100)의 기능 중 사용자의 음성 신호를 외부 서비스 서버(300)로 전달하는 것은 기 공지된 기술에 해당하므로 보다 상세한 설명은 생략하고, 종래와 차이가 나는 특징을 위주로 설명하기로 한다.
음성 반응 장치(100)의 구체적인 기능 블록은 도 2에 도시된 바와 같다.
동 도면에 도시된 바와 같이 본 발명의 일 실시예에 따른 음성 반응 장치(100)는 판단부(110), 기동어 활성화 제어부(120), 서비스 제공부(130), 통신부(140)를 포함하여 구성될 수 있다.
우선, 통신부(140)는 음성 반응 장치(100)가 외부의 장치 또는 기지국과 통신하기 위한 것으로서, 본 실시예에서 통신부(140)는 제어 대상 장치(200)와 유선 또는 와이파이 통신하기 위한 통신 모듈과, 기지국과 통신하기 위한 이동통신 모듈을 포함하는 것으로 가정한다.
판단부(110)는 음성 반응 장치(100)가 현재 설치된 설치 환경 상태를 판단하는 기능을 수행한다.
예를 들어 판단부(110)는 기 설정된 제어 대상 장치(200)(상술한 IPTV 셋탑박스)와의 연결 여부를 확인하고, 그 연결 여부에 따라 설치 환경 상태를 판단할 수 있다.
즉, 판단부(110)는 댁내에서 IPTV 셋탑박스(200)와 연결되어 해당 IPTV 셋탑박스(200)를 제어할 수 있는 상태인지 여부를 판단할 수 있는 것이다.
다른 예로써, 판단부(110)는 위치 정보를 수집하고, 그 수집된 위치 정보에 따라 설치 환경 상태를 판단할 수 있다. 즉, 판단부(110)는 수집된 위치 정보에 기초하여 현재 댁내에 설치되어 운용되고 있는지, 또는 댁외(야외)에서 운용되고 있는지를 판단할 수 있다.
예를 들어 판단부(110)는, 근거리 통신을 통해 소정 서버로부터 획득한 정보, 기지국 또는 기지국을 경유한 소정 서버로부터 획득한 정보와, GPS(Global Positioning System)를 통해 획득한 정보 중 적어도 어느 하나를 기초로 위치 정보를 판단할 수 있다.
일 예로 판단부(110)는 와이파이 통신이 이루어지는 경우 와이 파이 통신을 통해 외부의 서비스 서버(미 도시함)와 통신할 수 있는데, 이때 그 서비스 서버는 음성 반응 장치(100)와 통신하는 와이파이 액세스 포인트 정보를 기초로 해당 음성 반응 장치(100)의 현재 위치를 확인할 수 있고, 그 확인된 정보를 음성 반응 장치(100)에 제공할 수 있다. 따라서 판단부(110)는 그 서비스 서버가 전송하는 정보로부터 자신의 위치 정보를 추출할 수 있는 것이다.
이는 기지국을 통한 통신에서도 마찬가지이다.
특히 판단부(110)에 GPS(Global Positioning System) 모듈을 구비한 경우에는 그 GPS 모듈을 통해 획득하는 좌표 정보를 이용하여 자신의 위치를 판단할 수 있다.
기동어 활성화 제어부(120)는 판단부(110)에서 판단된 설치 환경 상태에 따라, 기 등록된 복수의 기동어 중 적어도 어느 하나의 기동어에 대한 활성화 처리 또는 비활성화 처리를 수행한다.
여기서 '기동어'는 앞서 '발명의 배경이 되는 기술'에서 언급한 바와 같이 음성 반응 장치(100)가 사용자에게 특정 서비스를 제공하기 위한 전제로써, 자체적으로 음성 인식되는 단어 또는 문장 등에 해당한다.
즉, 앞서 언급한 바와 같이 실제 사용자의 대부분의 음성 명령은 외부 서비스 서버(300)에서 처리될 수 있는데, 그 중 특정 단어에 대해서는 음성 반응 장치(100)가 음성 인식 처리 기술을 이용하여 인식할 수 있는데, 이때 그 특정 단어가 '기동어'에 해당하는 것이다.
그런데 본 발명은 음성 반응 장치(100)가 처리할 수 있는 기동어가 복수 개인 것을 전제로 하고 있는데, 각 기동어마다 그 이후에 제공되는 서비스 종류가 다르고, 특히 각 기동어마다 대응되는 외부 서비스 서버(300)가 다를 수 있다.
기동어를 활성화 처리한다는 것은 해당 기동어를 사용자가 발화한 경우 그 기동어를 인식할 수 있도록 한다는 것이고, 기동어를 비활성화 처리한다는 것은 해당 기동어를 사용자가 발화한다 하여도 음성 반응 장치(100)가 그 기동어를 인식할 수 없도록 한다는 것이다.
예를 들어 기동어 처리 모듈(미 도시함)이 각각 두 개로 구분되어 있는 경우, 기동어 활성화 제어부(120)는 그 중 어느 하나만 활성화시키고 다른 하나는 비활성화 시키거나, 또는 두 개의 기동어 처리 모듈을 모두 활성화시킬 수 있는 것이다.
구체적인 예를 든다면, 음성 반응 장치(100)에 기 등록된 기동어가 '유플티비'와 '인터넷 연결'이라고 한다면, 그 '유플티비' 기동어를 음성 인식하는 모듈은 제1 기동어 처리 모듈이고, '인터넷 연결' 기동어를 음성 인식하는 모듈은 제2 기동어 처리 모듈이라고 할 수 있는데, 판단부(110)에서 판단된 설치 환경 상태에 따라 기동어 활성화 제어부(120)는 제1 기동어 처리 모듈과 제2 기동어 처리 모듈 중 적어도 어느 하나에 대한 활성화 처리 또는 비활성화 처리를 수행할 수 있는 것이다.
여기서 기동어 처리 모듈을 비활성화 한다는 것은 해당 모듈 그 자체 또는 해당 모듈의 동작에 필요한 여타 하드웨어에 공급되는 전원을 차단하거나, 해당 모듈을 슬립모드로 진입시키는 등 전력 소모를 최소화하는 것을 모두 의미한다.
구체적 하드웨어 관점으로 보면, 제1 기동어 처리 모듈은 CPU(Central Processing Unit)에 해당할 수 있고, 제2 기동어 처리 모듈은 음성 인식 DSP(Digital signal processing)에 해당할 수 있다.
'유플티비'와 '인터넷 연결' 기동어가 모두 활성화된 상태에서, 판단부(110)의 판단 결과 IPTV 셋탑 장치와 연결이 되어 있지 않은 경우에는, 기동어 활성화 제어부(120)는 활성화된 두 개의 기동어 중 IPTV 셋탑 장치 제어를 위한 기동어 즉, '유플티비' 기동어를 비활성화 처리할 수 있다.
다른 예로써, '유플티비'와 '인터넷 연결' 기동어가 모두 활성화된 상태에서, 판단부(110)의 판단 결과 현재 음성 반응 장치(100)가 설치된 위치가 댁외인 경우에는 기동어 활성화 제어부(120)는 그 활성화된 두 개의 기동어 중 댁내에 설치된 IPTV 셋탑 장치 제어를 위한 기동어 즉, '유플티비' 기동어를 비활성화 처리할 수 있다.
상술한 두 개의 예에서 '인터넷 연결' 기동어는 활성화된 상태를 유지함은 물론이고, 설령 '인터넷 연결' 기동어가 비활성화된 상태에 있었다 하더라도 기동어 활성화 제어부(120)는 다시 활성화상태로 전환시킬 수 있다.
서비스 제공부(130)는 사용자의 발화 음성으로부터 현재 활성화된 기동어가 감지되는 경우 그 감지된 기동어에 대응되는 외부 서버와 통신하여 서비스를 제공하는 기능을 수행한다.
예를 들어 '유플티비'기동어와 '인터넷 연결'기동어가 모두 활성화된 상태에서 사용자가 '유플티비'를 발화하는 경우 서비스 제공부(130)는 제1 외부 서비스 서버(310)와 통신하여 서비스를 제공하고, 만일 사용자가 '인터넷 연결'을 발화하는 경우 서비스 제공부(130)는 제2 외부 서비스 서버(320)와 통신하여 서비스를 제공할 수 있는 것이다.
일 예로, 서비스 제공부(130)는 각 기동어가 감지된 시점에 비로소 각 외부 서비스 서버(300)와 통신 연결을 수행할 수도 있고, 또는 기동어 감지 후 사용자가 발화하는 음성 신호를 그 기동어에 대응되는 외부 서비스 서버(300)로 전송할 수 있다.
구체적으로, 사용자의 '유플티비'의 발화에 따라 제1 외부 서비스 서버(310)와 통신 연결이 이루어진 경우, 서비스 제공부(130)는 그 이후에 수신되는 사용자의 발화음성 신호는 제1 외부 서비스 서버(310)에 전송하여 음성 처리를 요청하고, 사용자의 '인터넷 연결'의 발화에 따라 제2 외부 서비스 서버(320)와 통신 연결이 이루어진 경우, 서비스 제공부(130)는 그 이후에 수신되는 사용자의 발화음성 신호는 제2 외부 서비스 서버(320)에 전송하여 음성 처리를 요청할 수 있는 것이다.
이하에서는 도 3을 참조하여 본 발명의 일 실시예에 따른 음성 반응 장치(100)의 전체적인 제어 과정을 설명한다.
본 실시예를 설명함에 있어서, 음성 반응 장치(100)에는 상술한 바와 같이 IPTV 셋탑박스(200)를 제어하기 위한 기동어인 '유플티비'와 인터넷 망에 접속하여 검색하기 위한 기동어인 '인터넷 연결'이 등록되어 있다고 가정한다.
먼저 음성 반응 장치(100)는 IPTV 셋탑박스(200)와 연결되어 있는지를 판단한다.
판단 결과 IPTV 셋탑박스(200)와 연결되어 있다면 이는 음성 반응 장치(100)가 댁내에 설치되어 있다는 것을 의미하고, 따라서 음성 반응 장치(100)는 댁내에서 이용될 수 있는 '유플티비'기동어와 '인터넷 연결'기동어를 모두 활성화시킨다.
이 상태에서 사용자의 '유플티비'발화 음성이 감지된 경우 음성 반응 장치(100)는 제1 외부 서비스 서버(310)와 통신 연결하고, 그 이후 사용자의 발화 음성 신호는 제1 외부 서비스 서버(310)에 전달한다.
예를 들어 사용자가 '채널 5번 틀어줘'라고 발화하는 경우, 이 발화 음성 신호는 음성 반응 장치(100)를 경유하여 제1 외부 서비스 서버(310)에 전달되고, 제1 외부 서비스 서버(310)는 해당 발화 음성을 음성 인식 알고리즘에 따라 인식한 후, IPTV 셋탑박스(200)가 채널 5번을 재생하도록 제어할 수 있다.
일 예로 제1 외부 서비스 서버(310)는 직접 IPTV 셋탑박스(200)에 채널 5번 재생 제어 신호를 전송할 수도 있고, 또는 음성 인식 결과를 음성 반응 장치(100)에 전송하여 음성 반응 장치(100)로 하여금 채널 5번 재생 제어 신호를 IPTV 셋탑박스(200)에 전송하도록 할 수도 있다.
한편, 단계 S1에서 판단 결과 IPTV 셋탑박스(200)가 연결되어 있지 않은 경우 음성 반응 장치(100)는 '유플티비'기동어는 비활성화 처리하고, '인터넷 연결'기동어는 활성화 처리한다.
이후 사용자의 '인터넷 연결'발화 음성이 감지된 경우 음성 반응 장치(100)는 제2 외부 서비스 서버(320)와 통신 연결하고, 그 이후 사용자의 발화 음성 신호는 제2 외부 서비스 서버(320)에 전달한다.
예를 들어 사용자가 '티라노사우루스가 뭐야'라고 발화하는 경우, 이 발화 음성 신호는 음성 반응 장치(100)를 경유하여 제2 외부 서비스 서버(320)에 전달되고, 제2 외부 서비스 서버(320)는 해당 발화 음성을 음성 인식 알고리즘에 따라 인식한 후, 티라노사우루스에 대한 정보가 음성 반응 장치(100)에서 음성으로 출력되도록 제어할 수 있다.
일 예로 제2 외부 서비스 서버(320)는 직접 '티라노사우루스'에 대한 검색 요청을 별도의 인터넷 검색 서버(미 도시함)에 전송한 후 인터넷 검색 서버로부터 수신된 결과를 음성 신호로 변환한 후 음성 반응 장치(100)에 전송할 수도 있고, 또는 음성 인식 결과를 음성 반응 장치(100)에 전송하여 음성 반응 장치(100)로 하여금 인터넷 검색 서버에 '티라노사우루스'에 대한 검색을 요청 및 수신하여 음성으로 변화 출력하도록 할 수도 있다.
한편, 상술한 각 실시예를 수행하는 과정은 소정의 기록 매체(예를 들어 컴퓨터로 판독 가능한)에 저장된 프로그램 또는 애플리케이션에 의해 이루어질 수 있음은 물론이다. 여기서 기록 매체는 RAM(Random Access Memory)과 같은 전자적 기록 매체, 하드 디스크와 같은 자기적 기록 매체, CD(Compact Disk)와 같은 광학적 기록 매체 등을 모두 포함한다.
이때, 기록 매체에 저장된 프로그램은 컴퓨터나 스마트폰 등과 같은 하드웨어 상에서 실행되어 상술한 각 실시예를 수행할 수 있다. 특히, 상술한 본 발명에 따른 음성 반응 장치의 기능 블록 중 적어도 어느 하나는 이러한 프로그램 또는 애플리케이션에 의해 구현될 수 있다.
또한, 본 발명은 상기한 특정 실시예에 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 변형 및 수정하여 실시할 수 있는 것이다. 이러한 변형 및 수정이 첨부되는 특허청구범위에 속한다면 본 발명에 포함된다는 것은 자명할 것이다.
100 : 음성 반응 장치 200 : 제어 대상 장치
300 : 외부 서비스 서버 110 : 판단부
120 : 기동어 활성화 제어부 130 : 서비스 제공부
140 : 통신부
300 : 외부 서비스 서버 110 : 판단부
120 : 기동어 활성화 제어부 130 : 서비스 제공부
140 : 통신부
Claims (14)
- 소정의 기동어 감지에 따라 해당 기동어에 대응되는 서비스 제공 준비를 수행하는 음성 반응 장치의 제어방법에 있어서,
(a) 설치 환경 상태를 판단하는 단계와;
(b) 판단된 설치 환경 상태에 따라, 기 등록된 복수의 기동어 중 적어도 어느 하나의 기동어에 대한 활성화 처리 또는 비활성화 처리를 수행하는 단계와;
(c) 사용자의 발화 음성으로부터 현재 활성화된 기동어가 감지되는 경우 그 감지된 기동어에 대응되는 외부 서버와 통신하여 서비스를 제공하는 단계를 포함하는 것을 특징으로 하는 음성 반응 장치의 제어방법. - 제1항에 있어서,
상기 (a) 단계에서는, 기 설정된 제어 대상 장치와의 연결 여부를 확인하고, 그 연결 여부에 따라 설치 환경 상태를 판단하는 것을 특징으로 하는 음성 반응 장치의 제어방법. - 제2항에 있어서,
상기 제어 대상 장치는 IPTV(Internet Protocol Television) 셋탑 장치이고,
상기 (b) 단계에서는, 상기 IPTV 셋탑 장치 제어용 기동어를 포함하는 복수의 기동어가 활성화된 상태에서 상기 (a) 단계의 판단 결과 상기 IPTV 셋탑 장치와 연결이 되어 있지 않은 경우에는, 상기 활성화된 복수의 기동어 중 상기 IPTV 셋탑 장치 제어용 기동어를 비활성화 처리하는 것을 특징으로 하는 음성 반응 장치의 제어방법. - 제1항에 있어서,
상기 (a) 단계에서는, 위치 정보를 수집하고, 그 수집된 위치 정보에 따라 설치 환경 상태를 판단하는 것을 특징으로 하는 음성 반응 장치의 제어방법. - 제4항에 있어서,
상기 (b) 단계에서는, 댁내에 설치된 제어 대상 장치 제어용 기동어를 포함하는 복수의 기동어가 활성화된 상태에서 상기 (a) 단계의 판단 결과 댁외인 경우에는 상기 활성화된 복수의 기동어 중 상기 댁내에 설치된 제어 대상 장치 제어용 기동어를 비활성화 처리하는 것을 특징으로 하는 음성 반응 장치의 제어방법. - 제4항에 있어서,
상기 (a) 단계에서는, 근거리 통신을 통해 소정 서버로부터 획득한 정보, 기지국 또는 기지국을 경유한 소정 서버로부터 획득한 정보와, GPS(Global Positioning System)를 통해 획득한 정보 중 적어도 어느 하나를 기초로 위치 정보를 판단하는 것을 특징으로 하는 음성 반응 장치의 제어방법. - 제1항 내지 제6항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
- 하드웨어와 결합되어 제1항 내지 제6항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 기록 매체에 저장된 응용 프로그램.
- 소정의 기동어 감지에 따라 외부 서버와 통신하여 사용자에게 서비스를 제공하는 음성 반응 장치에 있어서,
설치 환경 상태를 판단하는 판단부와;
상기 판단부에서 판단된 설치 환경 상태에 따라, 기 등록된 복수의 기동어 중 적어도 어느 하나의 기동어에 대한 활성화 처리 또는 비활성화 처리를 수행하는 기동어 활성화 제어부와;
사용자의 발화 음성으로부터 현재 활성화된 기동어가 감지되는 경우 그 감지된 기동어에 대응되는 외부 서버와 통신하여 서비스를 제공하는 서비스 제공부를 포함하는 것을 특징으로 하는 음성 반응 장치. - 제9항에 있어서,
상기 판단부는 기 설정된 제어 대상 장치와의 연결 여부를 확인하고, 그 연결 여부에 따라 설치 환경 상태를 판단하는 것을 특징으로 하는 음성 반응 장치. - 제10항에 있어서,
상기 제어 대상 장치는 IPTV(Internet Protocol Television) 셋탑 장치이고,
상기 기동어 활성화 제어부는, 상기 IPTV 셋탑 장치 제어용 기동어를 포함하는 복수의 기동어가 활성화된 상태에서 상기 판단부의 판단 결과 상기 IPTV 셋탑 장치와 연결이 되어 있지 않은 경우에는, 상기 활성화된 복수의 기동어 중 상기 IPTV 셋탑 장치 제어용 기동어를 비활성화 처리하는 것을 특징으로 하는 음성 반응 장치. - 제9항에 있어서,
상기 판단부는 위치 정보를 수집하고, 그 수집된 위치 정보에 따라 설치 환경 상태를 판단하는 것을 특징으로 하는 음성 반응 장치. - 제12항에 있어서,
상기 기동어 활성화 제어부는, 댁내에 설치된 제어 대상 장치 제어용 기동어를 포함하는 복수의 기동어가 활성화된 상태에서 상기 판단부의 판단 결과 댁외인 경우에는 상기 활성화된 복수의 기동어 중 상기 댁내에 설치된 제어 대상 장치 제어용 기동어를 비활성화 처리하는 것을 특징으로 하는 음성 반응 장치. - 제12항에 있어서,
상기 판단부는, 근거리 통신을 통해 소정 서버로부터 획득한 정보, 기지국 또는 기지국을 경유한 소정 서버로부터 획득한 정보와, GPS(Global Positioning System)를 통해 획득한 정보 중 적어도 어느 하나를 기초로 위치 정보를 판단하는 것을 특징으로 하는 음성 반응 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180058470A KR102663506B1 (ko) | 2018-05-23 | 2018-05-23 | 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180058470A KR102663506B1 (ko) | 2018-05-23 | 2018-05-23 | 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190133476A true KR20190133476A (ko) | 2019-12-03 |
KR102663506B1 KR102663506B1 (ko) | 2024-05-09 |
Family
ID=68837866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180058470A KR102663506B1 (ko) | 2018-05-23 | 2018-05-23 | 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102663506B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
KR20150047803A (ko) | 2013-10-25 | 2015-05-06 | 삼성전자주식회사 | 인공지능 오디오 장치 및 그 동작 방법 |
-
2018
- 2018-05-23 KR KR1020180058470A patent/KR102663506B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
KR20150047803A (ko) | 2013-10-25 | 2015-05-06 | 삼성전자주식회사 | 인공지능 오디오 장치 및 그 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102663506B1 (ko) | 2024-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11985003B2 (en) | Apparatus, system and method for directing voice input in a controlling device | |
US11631403B2 (en) | Apparatus, system and method for directing voice input in a controlling device | |
US20140136195A1 (en) | Voice-Operated Internet-Ready Ubiquitous Computing Device and Method Thereof | |
WO2013128999A1 (ja) | 機器操作システム、機器操作装置、サーバ、機器操作方法およびプログラム | |
KR20170032096A (ko) | 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체 | |
JP2019086535A (ja) | 送信制御装置及びプログラム | |
KR20140089863A (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
KR20200052638A (ko) | 전자 장치 및 전자 장치의 음성 인식 방법 | |
US20130339032A1 (en) | Server and method of controlling the same | |
KR20140087717A (ko) | 디스플레이 장치 및 제어 방법 | |
US11178280B2 (en) | Input during conversational session | |
KR20130016644A (ko) | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 | |
WO2016198132A1 (en) | Communication system, audio server, and method for operating a communication system | |
CA3151297A1 (en) | Keyword detection | |
KR20210045280A (ko) | IoT 기기를 제어하는 방법 및 이를 위한 전자 장치 | |
EP3735687A1 (en) | Apparatus, system and method for directing voice input in a controlling device | |
KR20170051994A (ko) | 음성인식 디바이스 및 이의 동작 방법 | |
KR20190133476A (ko) | 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법 | |
CN112700770A (zh) | 语音控制方法、音箱设备、计算设备和存储介质 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
KR102089593B1 (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
WO2022193735A1 (zh) | 显示设备及语音交互方法 | |
KR102124396B1 (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
KR102594683B1 (ko) | 전자 장치 및 이의 음성 인식 방법 | |
US20240005949A1 (en) | Method and apparatus for providing noise suppression to an intelligent personal assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |