WO2020045835A1

WO2020045835A1 - 전자 장치 및 그 제어 방법

Info

Publication number: WO2020045835A1
Application number: PCT/KR2019/009324
Authority: WO
Inventors: 김창한; 김보원; 이진석; 임현택; 서정관
Original assignee: 삼성전자주식회사
Priority date: 2018-08-29
Filing date: 2019-07-26
Publication date: 2020-03-05
Also published as: US20210256965A1; CN112513984A; EP3796316A4; KR20200025226A; KR102628211B1; EP3796316A1

Abstract

본 개시의 전자 장치는 통신부, 메모리 및 전자 장치가 획득한 오디오 신호에서 음성 구간을 검출하고, 검출된 음성 구간에 포함된 사용자 음성에 메모리에 저장된 웨이크업(wakeup) 단어가 존재하는지 여부를 식별하고, 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별되는 경우, 통신부를 통해 사용자 음성을 음성 인식 서비스를 제공하는 서버로 전송하고, 서버로부터 사용자 음성에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공하는 프로세서를 포함하며, 프로세서는 사용자 음성 중 일부가 웨이크업 단어에 매칭되는 경우 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별한다. 특히, 응답을 제공하기 위한 자연어를 획득하는 방법은 기계학습, 신경망 및 딥러닝 알고리즘 중 적어도 하나에 따라 학습된 인공지능 모델을 이용할 수 있다.

Description

전자 장치 및 그 제어 방법

본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 음성 구간을 검출하여 음성을 인식할 수 있는 전자 장치 및 그 제어 방법에 관한 것이다.

최근 전자 기술의 발달로 다양한 전자 장치들이 개발되고 있다. 특히, 최근에는 인간 수준의 지능을 구현하는 인공지능(Artificial Intelligence; AI) 모델을 활용하여 사용자 음성에 대한 응답을 제공할 수 있는 음성 인식 서비스를 제공할 수 있는 전자 장치들이 개발되고 있다.

한편, 사용자가 음성 인식 서비스를 호출하는 방법은 전자 장치의 버튼을 누르거나, 호출 명령어를 발화하는 방법 등이 있다. 특히, 호출 명령어를 발화하는 방법은, 사용자가 전자 장치와 거리가 떨어져 있어도 음성 인식 서비스를 호출할 수 있고, 버튼을 누르는 것보다 간편하며, 사용자에게 자연스러운 사용자 인터페이스(User Interface; UI)를 제공할 수 있게 되는 등의 장점이 있다.

다만, 사용자가 호출 명령어를 발화하는 경우에는, 묵음과 묵음 사이에 호출 명령어가 있어야 호출 명령어를 인식할 수 있기 때문에, 묵음 뒤에 호출 명령어를 발화한 후 잠시 묵음 구간을 거쳐야만 이를 인식하여 음성 인식 서비스가 호출되는 문제가 있다.

한편, 음성 인식 서비스를 연속해서 호출하려는 경우에. 매 호출마다 사용자가 호출 명령어를 발화해야 한다는 불편함이 있다. 또한, 대화 중에는 상대방의 이름을 매번 지칭하는 것보다 대명사로 지칭하는 것이 일반적이기 때문에, 사용자는 음성 인식 서비스를 호출할 때마다 대명사가 아닌 호출 명령어를 발화하게 되어 사용자에게 이질감을 주는 문제가 있다.

본 개시는 상술한 필요성에 의해 안출된 것으로, 본 개시의 목적은, 사용자가 호출 명령어를 포함하는 사용자 음성을 연속적으로 발화하더라도 호출 명령어를 검출하여 음성 인식 서비스를 호출할 수 있도록 하는 전자 장치 및 그 제어 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 통신부 및 상기 전자 장치가 획득한 오디오 신호에서 음성 구간을 검출하고, 상기 검출된 음성 구간에 포함된 사용자 음성에 웨이크업(wakeup) 단어가 존재하는지 여부를 식별하고, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 통신부를 통해 상기 사용자 음성을 음성 인식 서비스를 제공하는 서버로 전송하고, 상기 서버로부터 상기 사용자 음성에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보에 기초하여 상기 사용자 음성에 대한 응답을 제공하는 프로세서;를 포함하며, 상기 프로세서는, 상기 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

여기에서, 상기 프로세서는, 상기 오디오 신호의 레벨에 기초하여, 상기 오디오 신호에서 상기 음성 구간과 묵음 구간을 검출하고, 상기 검출된 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

여기에서, 상기 프로세서는, 상기 오디오 신호에서 기설정된 레벨 이상의 크기를 갖는 구간을 상기 음성 구간으로 검출하고, 상기 오디오 신호에서 상기 기설정된 레벨 미만의 크기를 갖는 구간을 상기 묵음 구간으로 검출할 수 있다.

한편, 상기 프로세서는, 상기 사용자 음성을 음소 단위로 구분하여 상기 사용자 음성으로부터 복수의 음소를 획득하고, 상기 획득된 복수의 음소로부터 구성되는 단어가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

한편, 상기 프로세서는, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성을 상기 서버로 전송할 수 있다.

여기에서, 상기 프로세서는, 상기 오디오 신호에서 복수의 음성 구간을 검출하고, 상기 복수의 음성 구간 중 어느 하나의 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 어느 하나의 음성 구간에 포함된 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성 및 상기 나머지 음성 구간에 포함된 사용자 음성을 상기 서버로 전송할 수 있다.

한편, 상기 프로세서는, 상기 사용자 음성에서 상기 웨이크업 단어가 존재하는 것으로 식별된 이후, 기설정된 시간 이내에 오디오 신호가 획득되면, 상기 통신부를 통해 상기 오디오 신호의 음성 구간에 포함된 사용자 음성을 상기 서버로 전송하며, 상기 사용자 음성에서 상기 웨이크업 단어가 존재하는 것으로 식별된 이후, 상기 기설정된 시간이 경과된 후 오디오 신호가 획득되면, 상기 오디오 신호의 음성 구간에 포함된 사용자 음성에 기설정된 단어가 존재하는지 여부를 식별하고, 상기 기설정된 단어가 존재하는 것으로 식별된 경우, 상기 통신부를 통해 상기 음성 구간에 포함된 사용자 음성을 상기 서버로 전송할 수 있다.

여기에서, 상기 기설정된 단어는, 대명사를 포함할 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 상기 전자 장치가 획득한 오디오 신호에서 음성 구간을 검출하는 단계, 상기 검출된 음성 구간에 포함된 사용자 음성에 웨이크업(wakeup) 단어가 존재하는지 여부를 식별하는 단계, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 사용자 음성을 음성 인식 서비스를 제공하는 서버로 전송하는 단계, 상기 서버로부터 상기 사용자 음성에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보에 기초하여 상기 사용자 음성에 대한 응답을 제공하는 단계를 포함하며, 상기 식별하는 단계는, 상기 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

여기에서, 상기 검출하는 단계는, 상기 오디오 신호의 레벨에 기초하여, 상기 오디오 신호에서 상기 음성 구간과 묵음 구간을 검출하고, 상기 검출된 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

여기에서, 상기 검출하는 단계는, 상기 오디오 신호에서 기설정된 레벨 이상의 크기를 갖는 구간을 상기 음성 구간으로 검출하고, 상기 오디오 신호에서 상기 기설정된 레벨 미만의 크기를 갖는 구간을 상기 묵음 구간으로 검출할 수 있다.

한편, 상기 식별하는 단계는, 상기 사용자 음성을 음소 단위로 구분하여 상기 사용자 음성으로부터 복수의 음소를 획득하고, 상기 획득된 복수의 음소로부터 구성되는 단어가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

한편, 상기 전송하는 단계는, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성을 상기 서버로 전송할 수 있다.

여기에서, 상기 검출하는 단계는, 상기 오디오 신호에서 복수의 음성 구간을 검출하고, 상기 전송하는 단계는, 상기 복수의 음성 구간 중 어느 하나의 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 어느 하나의 음성 구간에 포함된 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성 및 상기 나머지 음성 구간에 포함된 사용자 음성을 상기 서버로 전송할 수 있다.

한편, 상기 사용자 음성에서 상기 웨이크업 단어가 존재하는 것으로 식별된 이후, 기설정된 시간 이내에 오디오 신호가 획득되면, 상기 통신부를 통해 상기 오디오 신호의 음성 구간에 포함된 사용자 음성을 상기 서버로 전송하는 단계 및 상기 사용자 음성에서 상기 웨이크업 단어가 존재하는 것으로 식별된 이후, 상기 기설정된 시간이 경과된 후 오디오 신호가 획득되면, 상기 오디오 신호의 음성 구간에 포함된 사용자 음성에 기설정된 단어가 존재하는지 여부를 식별하고, 상기 기설정된 단어가 존재하는 것으로 식별된 경우, 상기 통신부를 통해 상기 음성 구간에 포함된 사용자 음성을 상기 서버로 전송하는 단계를 더 포함할 수 있다.

여기에서, 상기 기설정된 단어는, 대명사를 포함할 수 있다.

이상과 같은 본 개시의 다양한 실시 예에 따르면, 사용자가 자연스러운 발화로 호출 명령어를 포함하는 사용자 음성을 연속적으로 발화하더라도 사용자 음성에 포함된 호출 명령어를 검출하여 음성 인식 서비스를 호출할 수 있는 전자 장치 및 그 제어 방법을 제공할 수 있다.

또한, 음성 인식 서비스를 연속해서 호출하려는 경우에 사용자가 대명사를 포함하는 기설정된 단어를 발화하더라도 호출 명령어를 발화한 것과 같이 음성 인식 서비스를 호출할 수 있어, 사용자에게 자연스러운 사용자 인터페이스를 제공할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 음성 인식 서비스를 제공하는 시스템을 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 블록도이다.

도 3a 및 3b는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.

도 4a 내지 4c는 웨이크업 단어를 판단하는 구체적인 예를 설명하기 위한 도면이다.

도 5는 기설정된 단어를 판단하는 구체적인 예를 설명하기 위한 도면이다.

도 6은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세히 도시한 블록도이다.

도 7은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.

본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 개시에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 개시에서 전자 장치는 스마트폰, 태블릿 PC, 스피커, 이동 전화기, 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 워크스테이션, 서버, PDA, PMP(portable multimediaplayer), MP3 플레이어, 의료기기, 카메라, 텔레비전, DVD(digital video disk) 플레이어, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 전자 액자 또는 웨어러블 장치 등과 같은 장치로 구현될 수 있다. 여기서, 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형, 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다.

이하에서, 첨부된 도면을 이용하여 본 개시의 다양한 실시 예들에 대하여 구체적으로 설명한다.

도 1을 참조하면, 음성 인식 서비스를 제공하는 시스템은 전자 장치(100) 및 서버(200)를 포함할 수 있다.

도 1에 도시된 바와 같이, 전자 장치(100)는 서버(200)와 통신을 수행할 수 있는 장치로서, 스피커로 구현될 수 있다. 다만, 이는 일 예일 뿐이고 전자 장치(100)는 전술한 바와 같이 다양한 타입의 장치로 구현될 수 있다.

전자 장치(100)는 사용자 음성에 대해 음성 인식을 수행하여 정보를 제공하거나 동작을 수행하는 서비스(이하, 음성 인식 서비스 또는 비서 서비스라 한다)를 제공할 수 있다.

이를 위해, 전자 장치(100)는 사용자 음성을 획득하고, 획득된 사용자 음성을 음성 인식 서비스를 제공하는 서버(200)로 전송할 수 있다. 이 경우, 전자 장치(100)는 서버(200)와 유선 또는 무선 네트워크를 통해 연결되어 다양한 정보를 송수신할 수 있다.

구체적으로, 전자 장치(100)는 사용자 음성에서 웨이크업(wakeup) 단어(또는, 호출 명령어)를 검출하고, 사용자 음성에서 웨이크업 단어가 검출되면 전자 장치(100)를 웨이크업시키고, 사용자 음성을 서버(200)로 전송할 수 있다. 여기서, 웨이크업은 전자 장치(100)가 음성 인식 서비스를 활성화(또는 호출)하는 것을 의미할 수 있다.

한편, 서버(200)는 전자 장치(100)로부터 사용자 음성이 수신되면, 수신된 사용자 음성에 대한 음성 인식을 수행할 수 있다. 여기에서, 서버(200)는 인공지능(Artificial intelligence; AI) 에이전트(agent)를 이용하여 음성 인식 서비스를 제공하는 서버일 수 있다.

이를 위해, 서버(200)는 인공지능 모델을 이용하여 사용자 음성에 대한 응답을 제공할 수 있는 대화 시스템(Dialogue System)을 포함할 수 있다.

구체적으로, 서버(200)는 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성을 텍스트로 변환하고, 음성 인식 결과에 기초하여 사용자 음성의 의도(intent) 및 엔티티(entity)를 파악할 수 있다. 그리고, 서버(200)는 자연어 이해 결과에 기초하여 사용자 음성에 대한 응답에 대한 정보를 획득하고, 획득된 정보에 기초하여 사용자 음성에 대한 응답 정보로서, 자연어를 획득할 수 있다. 그리고, 서버(200)는 응답 정보를 전자 장치(100)로 전송할 수 있다.

이를 위해, 서버(200)는 자동 음성 인식(Automatic Speech Recognition, ASR) 모듈, 자연어 이해(Natural Language Understanding, NLU) 모듈, 대화 관리(Dialogue Management, DM) 모듈, 자연어 생성(Natural Language Generation, NLG) 모듈 등을 포함할 수 있다.

한편, 전자 장치(100)는 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공할 수 있다.

예를 들어, 전자 장치(100)는 TTS(Text to Speech)를 통해, 수신된 응답 정보에 포함된 텍스트를 음성으로 변환하여 출력하거나, 또는 해당 텍스트를 포함하는 유저 인터페이스(User interface)를 전자 장치(100)의 디스플레이(미도시)를 통해 표시할 수 있다.

이상의 대화 시스템은 사용자 음성에 대한 응답을 제공할 수 있게 되어, 사용자는 전자 장치(100)와 대화를 수행할 수 있게 된다.

한편, 사용자의 언어 습관 또는, 현재 상황(말더듬, 발음 장애 등) 등에 따라 동일한 단어라도, 사용자는 발화 속도, 묵음(음절 또는 단어 사이의 휴지), 억양 등을 다르게 하여 발화할 수 있다. 예를 들어, 사용자는 웨이크업 단어와 특정한 단어(또는 구, 절, 문장)를 포함한 사용자 음성을 묵음 없이 연속적으로 발화하거나, 또는 웨이크업 단어를 먼저 발화하는 것이 아니라 다른 단어를 먼저 발화한 후 웨이크업 단어를 발화할 수 있다.

이 경우, 본 개시의 일 실시 예에 따른 전자 장치(100)는 웨이크업 단어 검출 시, 음성 구간과 묵음 구간을 구분하고, 음성 구간에 포함된 사용자 음성을 음소 단위로 분석하여 웨이크업 단어를 검출할 수 있다.

이에 따라, 사용자가 웨이크업 단어와 특정한 단어를 포함한 사용자 음성을 묵음 없이 연속적으로 발화하는 경우뿐만 아니라, 사용자가 다른 단어를 먼저 발화한 후에 웨이크업 단어를 발화하는 경우라도, 전자 장치(100)는 사용자 음성에서 웨이크업 단어를 검출할 수 있게 된다.

따라서, 음성 인식 서비스를 호출할 수 있는 웨이크업 단어를 검출할 수 있는 범위 및 정확도가 향상될 수 있고, 사용자는 자연스러운 발화로 음성 인식 서비스를 호출할 수 있게 되어, 사용자의 만족도 및 편의성이 향상될 수 있다.

이하에서는, 첨부된 도면을 참조하여 본 개시에 대해 보다 상세히 설명하기로 한다.

도 2를 참조하면, 전자 장치(100)는 통신부(110) 및 프로세서(120)를 포함할 수 있다.

통신부(110)는 다양한 유형의 통신방식에 따라 외부 기기와 통신을 수행할 수 있다. 예를 들어, 통신부(110)는 서버(200) 또는 외부의 전자 장치와 유선 또는 무선 네트워크로 연결되어 통신을 수행할 수 있다. 여기에서, 서버(200)는 학습된 인공지능 모델을 이용하여 음성 인식 서비스를 제공할 수 있는 서버를 포함할 수 있다.

이 경우, 통신부(110)는 전자 장치(100)가 획득한 사용자 음성을 서버(200)로 전송할 수 있으며, 인공지능 모델을 통해 획득된 사용자 음성에 대응되는 응답 정보를 서버(200)로부터 수신할 수 있다.

이를 위해, 통신부(110)는 와이파이 칩, 이더넷 칩, 블루투스 칩, 무선 통신 칩 중 적어도 하나를 포함할 수 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어할 수 있다.

특히, 프로세서(120)는 전자 장치(100)가 획득한 오디오 신호에서 음성 구간을 검출하고, 검출된 음성 구간에 포함된 사용자 음성에 웨이크업 단어가 존재하는지 여부를 식별하고, 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별되는 경우, 통신부(110)를 통해 사용자 음성을 음성 인식 서비스를 제공하는 서버(200)로 전송하고, 서버(200)로부터 사용자 음성에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공할 수 있다.

구체적으로, 전자 장치(100)는 사용자가 발화한 음성에서 오디오 신호를 획득할 수 있다. 예를 들어, 전자 장치(100)는 내장 마이크 또는 외장 마이크를 통해 입력된 사용자가 발화한 음성에서 오디오 신호를 획득할 수 있다. 다른 실시 예로서, 전자 장치(100)는 외부 전자 장치(미도시)에 입력된 사용자가 발화한 음성을 외부 전자 장치(미도시)로부터 수신받고, 수신된 음성에서 오디오 신호를 획득할 수 있다.

이 경우, 프로세서(120)는 전자 장치(100)가 획득한 오디오 신호를 메모리(미도시)에 저장할 수 있다.

한편, 프로세서(120)는 전자 장치(100)가 획득한 오디오 신호에서 음성 구간을 검출할 수 있다. 구체적으로, 프로세서(120)는 오디오 신호에서 주변 소음이나 잡음을 먼저 제거하고, 다음으로 묵음 구간(또는 비음성 구간)을 제거하는 방식으로 음성 구간을 검출할 수 있다.

이 경우, 프로세서(120)는 오디오 신호의 레벨에 기초하여, 오디오 신호에서 음성 구간과 묵음 구간을 검출할 수 있다. 여기에서, 오디오 신호의 레벨은 오디오 신호의 전압(또는 전력) 값 또는 평균 전압(또는 전력) 값 등이 될 수 있다. 구체적으로, 프로세서(120)는 오디오 신호에서 기설정된 레벨 이상의 크기를 갖는 구간을 음성 구간으로 검출하고, 오디오 신호에서 기설정된 레벨 미만의 크기를 갖는 구간을 묵음 구간으로 검출할 수 있다. 예를 들어, 일반적으로 사람이 소곤대는 소리인 15데시벨(dB)을 기준 레벨로 설정한 경우, 프로세서(120)는 오디오 신호에서 15데시벨 이상의 크기를 갖는 구간을 음성 구간으로 검출하고, 15데시벨 미만의 크기를 갖는 구간을 묵음 구간으로 검출할 수 있다.

그리고, 프로세서(120)는 검출된 음성 구간에 포함된 사용자 음성에 웨이크업 단어가 존재하는지 여부를 식별(또는 검출)할 수 있다.

이때, 웨이크업 단어는 음성 인식 서비스를 실행하거나 음성 인식 서비스의 응답을 요청하기 위한 트리거 단어(또는 호출 명령어)를 의미하며, 사용자가 음성으로 음성 인식 서비스를 호출하기 위해서는 웨이크업 단어를 발화하여야 한다. 이러한 웨이크업 단어는 음성 인식 서비스를 제공하는 인공지능의 이름 등이 될 수 있다.

이를 위해, 프로세서(120)는 사용자 음성을 음소 단위로 구분하여 사용자 음성으로부터 복수의 음소를 획득하고, 획득된 복수의 음소로부터 구성되는 단어를 획득할 수 있다.

구체적으로, 프로세서(120)는 STT(Speech To Text) 과정을 통해, 검출된 음성 구간에 포함된 사용자 음성을 음소 단위의 텍스트로 구분할 수 있다. 여기에서, 음소는 소리의 최소 단위를 의미할 수 있다. 그리고, 프로세서(120)는 음소의 집합이 갖는 발음과 동일한 발음을 갖는 단어를 발음사전으로부터 검색하여, 획득된 복수의 음소로부터 의미를 갖는 단어를 획득할 수 있다. 또는, 프로세서(120)는 획득된 복수의 음소를 학습된 인공지능 모델에 입력하여, 획득된 복수의 음소로부터 의미를 갖는 단어를 획득할 수도 있다. 이 경우, 인공지능 모델은 사용자의 발화 의도 및 음절 전후에 존재하는 다른 음절과의 관계 등을 고려하여 획득된 복수의 음소로부터 의미를 갖는 단어를 획득하도록 학습된 모델일 수 있다.

이후, 프로세서(120)는 음성 구간에 포함된 사용자 음성에 웨이크업 단어가 존재하는지 여부를 식별할 수 있다.

구체적으로, 프로세서(120)는 음성 구간에 포함된 사용자 음성을 음소 단위로 분석한 결과 얻어진 단어가 웨이크업 단어와 매칭되거나, 또는 분석 결과 얻어진 복수의 단어 중 적어도 하나가 웨이크업 단어와 매칭되는 경우, 사용자 음성에 웨이크업 단어가 존재하는 것으로 판단할 수 있다. 이때, 프로세서(120)는 획득된 단어가 웨이크업 단어와 일치하는 경우뿐만 아니라, 양 단어가 기설정된 값 이상의 유사도를 갖는 경우에도, 이들이 서로 매칭되는 것으로 판단할 수 있다.

예를 들어, "빅스비"가 웨이크업 단어이고, 사용자가 "빅스비날씨는?"와 같이 발화한 경우를 가정한다.

이 경우, 프로세서(120)는 음성 구간에서 "빅스비날씨는?"와 같은 사용자 음성을 검출하고, 음소 단위로 사용자 음성을 분석하여 "빅스비날씨는?"와 같은 사용자 음성으로부터 "빅스비", "날씨", "는"와 같은 단어를 획득할 수 있다. 이때, 프로세서(120)는 획득된 단어 중 "빅스비"는 웨이크업 단어와 매칭되므로, "빅스비날씨는?"와 같은 사용자 음성에 웨이크업 단어가 존재하는 것으로 판단할 수 있다.

다른 예로, "빅스비"가 웨이크업 단어이고, 사용자가 "빅스비야 날씨는?"와 같이 발화한 경우를 가정한다.

이 경우, 프로세서(120)는 묵음 구간을 제외하고, 각 음성 구간에서 "빅스비야", "날씨는?"와 같은 사용자 음성을 검출하고, 음소 단위로 사용자 음성을 분석하여 "빅스비야 날씨는?"와 같은 사용자 음성으로부터 "빅스비", "야", "날씨", "는"과 같은 단어를 획득할 수 있다. 이때, 프로세서(120)는 획득된 단어 중 "빅스비"는 웨이크업 단어와 매칭되므로, "빅스비야 날씨는?"와 같은 사용자 음성에 웨이크업 단어가 존재하는 것으로 판단할 수 있다.

이에 따라, 프로세서(120)는 사용자 음성 중 일부가 웨이크업 단어에 매칭되는 경우, 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별할 수 있게 된다.

한편, 프로세서(120)는 사용자 음성을 음소 단위로 구분하여 사용자 음성으로부터 복수의 음소를 획득하고, 획득된 복수의 음소에서 웨이크업 단어에 대응되는 음소가 존재하는지 여부를 판단할 수 있다. 여기서, 웨이크업 단어에 대응되는 음소는 웨이크업 단어를 음소 단위로 구분한 음소 중에 첫번째 음소일 수 있다.

그리고, 프로세서(120)는 획득된 복수의 음소에서 웨이크업 단어에 대응되는 음소가 존재한다고 판단되면, 웨이크업 단어에 대응되는 음소를 기점으로 순차적으로 획득된 복수의 음소를 우선적으로 결합하여, 획득된 복수의 음소로부터 구성되는 단어를 획득할 수 있다.

예를 들어, "빅스비"가 웨이크업 단어이고, 사용자가 "저기 빅스비"와 같이 발화한 경우를 가정한다. 여기서, 웨이크업 단어에 대응되는 음소는 기설정된 웨이크업 단어를 음소 단위로 구분한 "ㅂ, ㅣ, ㄱ, ㅅ, ㅡ, ㅂ, ㅣ"의 음소 중에 첫번째 음소인 "ㅂ"이 된다.

참고로 한글 자음에 해당하는 발음은 하기의 표 1과 동일하며, 한글 모음에 해당하는 발음은 하기의 표 2와 동일하다.

ㄱ	ㄴ	ㄷ	ㄹ	ㅁ	ㅂ	ㅅ	ㅇ	ㅈ	ㅊ
g, k	n	d, t	r, l	m	b, p	s	ng	j	ch
ㅋ	ㅌ	ㅍ	ㅎ	ㄲ	ㄸ	ㅃ	ㅆ	ㅉ
k	t	p	h	kk	tt	pp	ss	jj

ㅏ	ㅑ	ㅓ	ㅕ	ㅗ	ㅛ	ㅜ
a	ya	eo	yeo	o	yo	u
ㅠ	ㅡ	ㅣ	ㅐ	ㅒ	ㅔ	ㅖ
yu	eu	i	ae	yae	e	ye
ㅚ	ㅘ	ㅙ	ㅟ	ㅝ	ㅞ	ㅢ
oe	wa	wae	wi	wo	we	ui

이 경우, 프로세서(120)는 음성 구간에서 "저기", "빅스비" 와 같은 사용자 음성을 검출하고, 음소 단위로 사용자 음성을 분석하여 사용자 음성으로부터 "ㅈ, ㅓ, ㄱ, ㅣ", "ㅂ, ㅣ, ㄱ, ㅅ, ㅡ, ㅂ, ㅣ"와 같은 음소를 획득할 수 있다. 여기서, 프로세서(120)는 사용자 음성으로부터 획득된 음소를 이용하여 단어를 획득할 때, 웨이크업 단어에 대응되는 음소인 "ㅂ"을 기점으로 순차적으로 획득되는 음소인 "ㅂ, ㅣ, ㄱ, ㅅ, ㅡ, ㅂ, ㅣ" 로 구성되는 단어인 "빅스비" 를 우선적으로 획득할 수 있다. 그리고, 프로세서(120)는 획득된 단어인 "빅스비"는 웨이크업 단어와 매칭되므로, 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

이에 따라, 사용자 음성으로부터 웨이크업 단어를 우선적으로 획득하여, 사용자 음성에 웨이크업 단어가 존재하는지 여부를 식별하는 속도를 향상시킬 수 있다.

한편, 프로세서(120)는 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별되는 경우, 음성 인식 서비스를 제공하기 위해 전자 장치(100)를 웨이크업 할 수 있다.

구체적으로, 프로세서(120)는 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별되는 경우, 통신부(110)를 통해 사용자 음성을 음성 인식 서비스를 제공하는 서버(200)로 전송할 수 있다. 이때, 프로세서(120)는 오디오 정보 또는 텍스트 정보를 포함하는 사용자 음성을 서버(200)로 전송 할 수 있다.

여기에서, 프로세서(120)는 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별되는 경우, 사용자 음성 중 웨이크업 단어를 제외한 나머지 사용자 음성을 서버(200)로 전송할 수 있다.

예를 들어, "빅스비"가 웨이크업 단어이고, 사용자가 "빅스비날씨는?"과 같이 발화한 경우를 가정한다. 이 경우, 프로세서(120)는 사용자 음성으로부터 "빅스비", "날씨", "는" 과 같은 단어를 획득할 수 있다. 여기서, 프로세서(120)는 획득된 단어 중 "빅스비"는 웨이크업 단어와 매칭되므로, 사용자 음성에 웨이크업 단어가 존재하는 것으로 판단할 수 있다. 이때, 프로세서(120)는 웨이크업 단어인 "빅스비"를 제외한 나머지 사용자 음성인 "날씨는”을 서버(200)로 전송할 수 있다.

여기에서, 프로세서(120)는 오디오 신호에서 복수의 음성 구간을 검출하고, 복수의 음성 구간 중 어느 하나의 음성 구간에 포함된 사용자 음성 중 일부가 웨이크업 단어에 매칭되는 경우, 어느 하나의 음성 구간에 포함된 사용자 음성 중 웨이크업 단어를 제외한 나머지 사용자 음성 및 나머지 음성 구간에 포함된 사용자 음성을 서버(200)로 전송할 수 있다. 여기서 복수의 음성 구간은 묵음이 유지되는 시간(또는 묵음 구간의 길이)으로 구별될 수 있다.

예를 들어, "빅스비"가 웨이크업 단어이고 사용자가 "빅스비야 날씨는?"와 같이 발화한 경우를 가정한다. 이 경우, 프로세서(120)는 전자 장치(100)가 획득한 오디오 신호에서 순차적으로 "빅스비야(제1 음성 구간)", (묵음구간), "날씨는(제2 음성 구간)" 과 같이 복수의 음성 구간을 검출 할 수 있다. 이때, 프로세서(120)는 검출된 복수의 음성 구간 중 "빅스비야(제1 음성 구간)" 에 포함된 사용자 음성 중 일부인 "빅스비"가 웨이크업 단어와 일치하므로, "빅스비야(제1 음성 구간)" 에 포함된 웨이크업 단어를 제외한 나머지 "야" 및 나머지 제2 음성 구간에 포함된 사용자 음성인 "날씨는"을, 서버(200)로 전송할 수 있다.

한편, 프로세스(120)는 사용자 음성에서 웨이크업 단어가 존재하는 것으로 식별된 시점부터, 기설정된 시간 이전까지 또는 기설정된 시간 이후까지 획득된 사용자 음성을 서버(200)로 전송할 수 있다.

예를 들어, 웨이크업 단어가 "빅스비"이고, 사용자가 "안녕? 저기 빅스비 날씨는?"와 같이 발화한 경우를 가정한다. 이 경우, 프로세서(120)는 묵음 구간을 제외하고, 각 음성 구간에서 "안녕", "저기", "빅스비", "날씨는"과 같은 사용자 음성을 검출하고, 음소 단위로 사용자 음성을 분석하여 사용자 음성으로부터 "안녕", "저기", "빅스비", "날씨", "는" 과 같은 단어를 획득할 수 있다. 여기서, 프로세서(120)는 획득된 단어 중 "빅스비”는 웨이크업 단어와 매칭되므로, 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

이때, "빅스비"가 식별된 시점부터 기설정된 시간 이전까지 획득된 사용자 음성이 "저기"이고, "빅스비"가 식별된 시점부터 기설정된 시간 이후까지 획득된 사용자 음성이 "날씨" 인 경우를 가정하면, 프로세서(120)는 웨이크업 단어인 "빅스비"를 제외한 나머지 사용자 음성 중, "빅스비"가 식별된 시점부터 기설정된 시간 이전까지 획득된 "저기"가 포함된 사용자 음성 및 "빅스비"가 식별된 시점부터 기설정된 시간 이후까지 획득된 "날씨" 가 포함된 사용자 음성을 서버(200)로 전송할 수 있다.

한편, 프로세서(120)는 서버(200)로부터 사용자 음성에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공할 수 있다.

이를 위해, 서버(200)는 전자 장치(100)로부터 사용자 음성을 수신할 수 있고, 사용자 음성에 대한 음성 인식을 수행하여 사용자 음성에 대한 응답 정보를 획득할 수 있고, 사용자 음성에 대한 응답 정보를 전자 장치(100)로 전송할 수 있다.

그리고, 프로세서(120)는 서버(200)로부터 사용자 음성에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 오디오, 텍스트, 이미지 및 영상 중 적어도 하나의 형태로 제공할 수 있고, 또는 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답으로 특정한 동작(예: 거실 등을 off 하는 동작 등)을 수행할 수 있다. 이때, 프로세서(120)는 수신된 응답 정보에 기초하여, 수신된 응답 정보에 포함된 텍스트를 TTS(Text to Speech)를 통해 소리로 변환하여 출력하거나, 또는 수신된 응답 정보에 포함된 텍스트를 유저 인터페이스(User interface)를 통해 전자 장치(100)의 디스플레이(미도시)에 표시할 수 있다.

한편, 프로세서(120)는 사용자 음성에서 웨이크업 단어가 존재하는 것으로 식별된 이후, 기설정된 시간 이내에 오디오 신호가 획득되면, 오디오 신호의 음성 구간에 포함된 사용자 음성에 기설정된 단어가 존재하는지 여부를 식별하고, 기설정된 단어가 존재하는 것으로 식별된 경우, 통신부(110)를 통해 음성 구간에 포함된 사용자 음성을 서버(200)로 전송할 수 있다.

여기에서, 기설정된 단어는 대명사를 포함할 수 있다. 예를 들어, 기설정된 단어는 너, 당신, 그, 그대 등과 같은 대명사를 포함할 수 있으며, 사용자가 기설정된 단어를 추가하거나 변경할 수 있다.

이상의 일 실시 예에 따르면, 웨이크업 단어를 검출한 이후에 기설정된 시간 이내에는, 사용자는 대명사를 포함하는 기설정된 단어를 발화하여 음성 인식 서비스를 호출할 수 있고, 사용자는 사람의 일반적인 대화와 같이 자연스러운 대화를 통해 음성 인식을 수행할 수 있게 되므로 음성 인식 서비스를 연속해서 호출하는 사용자의 편의성 및 만족감이 향상될 수 있다.

도 3a 내지 3B는, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 도면이다.

도 3a를 참조하면, 프로세서(120)는 전자 장치(100)가 획득한 오디오 신호에서 음성 구간을 검출할 수 있다(S300).

다음으로, 프로세서는 검출된 음성 구간에 포함된 사용자 음성에 웨이크업 단어가 존재하는지 여부를 식별할 수 있다.

구체적으로, 프로세서(120)는 검출된 음성 구간에 포함된 사용자 음성을 음소 단위로 분석하여 사용자 음성으로부터 음소를 획득할 수 있다 (S305).

그리고, 프로세서(120)는 음성 구간이 종료될 때까지 획득한 음소를 누적하여 복수의 음소를 획득하고, 획득된 복수의 음소로부터 구성되는 단어를 획득할 수 있다 (S310).

그리고, 프로세서(120)는 음성 구간이 종료되었는지 여부를 판단할 수 있다(S315). 이때, 묵음 구간의 길이가 음성 구간이 종료되었는지 여부를 판단하는 기준이 될 수 있다. 예를 들어, 묵음이 유지되는 시간이 기설정된 시간을 충족하는 경우 음성 구간이 종료되었다고 판단할 수 있다.

그리고, 음성 구간이 종료되었는지 여부를 판단한 결과, 음성 구간이 종료된 경우(S315, Yes) 프로세서(120)는 획득된 복수의 음소로부터 구성되는 단어를 포함하는 사용자 음성이 웨이크업 단어에 매칭되는지 여부를 판단하고(S320), 음성 구간이 종료된 경우가 아니라면(S315, No) 프로세서(120)는 다시 검출된 음성 구간에서 복수의 음소를 획득할 수 있다(S310).

그리고, 사용자 음성이 웨이크업 단어가 매칭되는지 여부를 판단한 결과, 프로세서(120)는 사용자 음성 중 일부가 웨이크업 단어에 매칭되는 경우(S320, Yes), 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별할 수 있다. 한편, 사용자 음성이 웨이크업 단어가 매칭되는 경우가 아니라면(S320, No) 프로세서(120)는 다시 전자 장치(100)가 획득한 오디오 신호에서 음성 구간을 검출하는 동작을 수행한다(S300).

그리고, 프로세서(120)는 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별되는 경우 통신부(110)를 통해 사용자 음성을 음성 인식 서비스를 제공하는 서버(200)로 전송할 수 있다.

그리고, 프로세서(120)는 서버로부터 사용자 음성에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공할 수 있다(S330).

이와 다른 일 실시 예로서, 도 3b를 참조하여, 웨이크업 단어가 존재하는 것으로 식별된 시점으로부터 기설정된 시간 이내에 오디오 신호가 획득된 경우를 살펴본다.

프로세서(120)는 웨이크업 단어가 존재하는 것으로 식별된 시점으로부터 기설정된 시간 이내에 전자 장치(100)가 획득한 오디오 신호에서, 음성 구간을 검출하고(S340), 검출된 음성 구간에 포함된 사용자 음성을 음소 단위로 분석하여 사용자 음성으로부터 음소를 획득하며(S345), 음성 구간이 종료될 때까지 획득한 음소를 누적하여 복수의 음소를 획득하고, 획득된 복수의 음소로부터 구성되는 단어를 획득할 수 있다 (S350).

그리고, 프로세서(120)는 음성 구간이 종료되었는지 여부를 판단하여(S355), 음성 구간이 종료된 경우(S355, Yes) 획득된 복수의 음소로부터 구성되는 단어를 포함하는 사용자 음성이 기설정된 단어에 매칭되는지 여부를 판단할 수 있다(S360).

여기에서, 기설정된 단어는 대명사를 포함할 수 있다. 예를 들어, 기설정된 단어는 "너, 당신, 그, 그대" 등과 같은 대명사를 포함할 수 있다.

그리고, 프로세서(120)는 사용자 음성에서 기설정된 단어가 존재하는 것으로 식별되면 (S360, Yes), 통신부(110)를 통해 오디오 신호의 음성 구간에 포함된 사용자 음성을 서버(200)로 전송할 수 있다(S365).

그리고, 프로세서(120)는 서버(200)로부터 사용자 음성에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공할 수 있다(S370).

도 4a 내지 도 4c는 본 개시의 일 실시 예에 따라 웨이크업 단어를 판단하는 구체적인 예를 설명하기 위한 도면이다. 여기에서, 웨이크업 단어가 "빅스비"로 설정된 경우를 가정한다.

도 4a를 참조하면, 사용자가 "빅스비, 추천식당은?" 와 같이 발화하고 있다.

이 경우, 프로세서(120)는 사용자가 발화한 음성에서, "빅스비(제1 음성 구간)", (묵음 구간),"추천식당은(제2 음성 구간)"과 같은 음성 구간 및 묵음 구간을 검출하고, 검출된 음성 구간을 음소 단위로 분석하여 "ㅂ, ㅣ, ㄱ, ㅅ, ㅡ, ㅂ, ㅣ", "ㅊ, ㅜ, ㅊ, ㅓ, ㄴ, ㅅ, ㅣ, ㄱ, ㄷ, ㅏ, ㅇ, (ㅇ), ㅡ, ㄴ" 과 같은 복수의 음소를 획득할 수 있다.

그리고, 프로세서(120)는 획득된 복수의 음소를 학습된 인공지능 모델에 입력하여, 획득된 복수의 음소로부터 "빅스비", "추천", "식당", "은"과 같은 단어를 획득할 수 있다. 이때, 프로세서(120)는 획득된 단어 중 "빅스비"는 웨이크업 단어와 매칭되므로, 사용자 음성에 웨이크업 단어가 존재하는 것으로 판단할 수 있다.

이때, 프로세서(120)는 웨이크업 단어를 제외한 나머지 사용자 음성 중 "추천식당은"을 서버(200)로 전송할 수 있다. 그리고, 프로세서(120)는 서버(200)로부터 "추천식당은"에 대해 인식한 결과로서 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 "XXX 에 위치한 YYY 식당이 어떠신가요?"와 같은 응답을 제공할 수 있다.

도 4b를 참조하면, 사용자가 "빅스비추천식당은?" 와 같이 발화하고 있다.

이 경우, 프로세서(120)는 사용자가 발화한 음성에서, "빅스비추천식당은"을 음성 구간으로 검출하고, 검출된 음성 구간을 음소 단위로 분석하여 "ㅂ, ㅣ, ㄱ, ㅅ, ㅡ, ㅂ, ㅣ, ㅊ, ㅜ, ㅊ, ㅓ, ㄴ, ㅅ, ㅣ, ㄱ, ㄷ, ㅏ, ㅇ, (ㅇ), ㅡ, ㄴ" 과 같은 복수의 음소를 획득할 수 있다.

도 4c를 참조하면, 사용자가 "몇시니, 빅스비?" 와 같이 발화하고 있다.

이 경우, 프로세서(120)는 사용자가 발화한 음성에서, "몇시니(제1 음성 구간)", (묵음 구간),"빅스비(제2 음성 구간)"과 같은 음성 구간 및 묵음 구간을 검출하고, 검출된 음성 구간을 음소 단위로 분석하여 "ㅁ, ㅕ, ㅊ, ㅅ, ㅣ, ㄴ, ㅣ", "ㅂ, ㅣ, ㄱ, ㅅ, ㅡ, ㅂ, ㅣ"와 같은 복수의 음소를 획득할 수 있다.

그리고, 프로세서(120)는 획득된 복수의 음소를 학습된 인공지능 모델에 입력하여, 획득된 복수의 음소로부터 "몇", "시", "니", "빅스비"와 같은 단어를 획득할 수 있다. 이때, 프로세서(120)는 획득된 단어 중 "빅스비"는 웨이크업 단어와 매칭되므로, 사용자 음성에 웨이크업 단어가 존재하는 것으로 판단할 수 있다.

이때, 프로세서(120)는 웨이크업 단어를 제외한 나머지 사용자 음성 중 "몇시니"를 서버(200)로 전송할 수 있다. 그리고, 프로세서(120)는 서버(200)로부터 "몇시니"에 대해 인식한 결과로서 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 "현재 시각은 오후 3시 입니다."와 같은 응답을 제공할 수 있다.

도 5는 본 개시의 일 실시 예에 따라 기설정된 단어를 판단하는 구체적인 예를 설명하기 위한 도면이다. 여기에서, 전자 장치(100)가 웨이크업 된 후 기설정된 시간 이내에 오디오 신호가 획득된 경우를 가정하고, 기설정된 단어는 "야"로 설정된 것을 가정한다.

도 5를 참조하면, 전자 장치(100)가 웨이크업 된 후 기설정된 시간 이내에, 사용자가 "야, 몇시니?" 와 같이 발화하고 있다.

이 경우, 프로세서(120)는 사용자가 발화한 음성에서, "야(제1 음성 구간)", (묵음 구간),"몇시니(제2 음성 구간)"와 같은 음성 구간 및 묵음 구간을 검출하고, 검출된 음성 구간을 음소 단위로 분석하여 "(ㅇ), ㅑ", " ㅁ, ㅕ, ㅊ, ㅅ, ㅣ, ㄴ, ㅣ" 과 같은 복수의 음소를 획득할 수 있다.

그리고, 프로세서(120)는 획득된 복수의 음소를 학습된 인공지능 모델에 입력하여, 획득된 복수의 음소로부터 "야", "몇", "시", "니"와 같은 단어를 획득할 수 있다. 이때, 프로세서(120)는 획득된 단어 중 "야"는 기설정된 단어와 매칭되므로, 사용자 음성에 기설정된 단어가 존재하는 것으로 판단할 수 있다.

이때, 프로세서(120)는 기설정된 단어를 제외한 나머지 사용자 음성인 "몇시니"를 서버(200)로 전송할 수 있다. 그리고, 프로세서(120)는 서버(200)로부터 "몇시니"에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 "현재 시각은 오후 3시 입니다."와 같은 응답을 제공할 수 있다.

도 6은, 본 개시의 일 실시 예에 따른 전자 장치의 구성을 상세히 도시한 블록도이다.

도 6에 도시된 바와 같이, 전자 장치(100)는 통신부(110), 프로세서(120), 메모리(130), 입력부(140), 마이크(150), 스피커(160) 및 디스플레이(170)를 포함할 수 있다.

통신부(110)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행할 수 있다. 통신부(110)는 블루투스 칩(111), 와이파이 칩(112), 무선 통신 칩(113), 이더넷 칩(114) 중 적어도 하나를 포함할 수 있다.

여기서, 통신부(110)는 프로세서(120)에 의해 제어되어, 서버(200) 또는 각종 외부 기기와 통신을 수행할 수 있다.

특히, 통신부(110)는 학습된 인공지능 모델을 통해 음성 인식 서비스를 수행하는 서버(200)와 통신을 수행할 수 있다. 즉, 통신부(110)는 서버(200)로 복수의 슬롯에 대한 정보를 포함하는 입력 데이터를 전송할 수 있으며, 외부 서버(200)로부터 인공지능 모델을 통해 획득된 입력 데이터에 대응되는 자연어에 대한 정보를 수신할 수 있다.

프로세서(120)(또는 제어부)는 전자 장치(100)의 전반적인 동작을 제어할 수 있다.

프로세서(120)는 RAM(121), ROM(122), 그래픽 처리부(123), 메인 CPU(124), 제1 내지 n 인터페이스(125-1~125-n), 버스(126)로 구성될 수 있다. 이때, RAM(121), ROM(122), 그래픽 처리부(123), 메인 CPU(124), 제1 내지 n 인터페이스(125-1~125-n) 등은 버스(126)를 통해 서로 연결될 수 있다.

메모리(130)는 전자 장치(100)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 특히, 메모리(130)는 음성 인식 서비스에 관련된 적어도 하나의 명령 또는 데이터를 저장하고 있을 수 있다.

메모리(130)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(130)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시의 메모리라는 용어는 메모리(130), 프로세서(120) 내 RAM(121), ROM(122) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱 등)를 포함할 수 있다.

또한, 메모리(130)에는 디스플레이(170)의 디스플레이 영역에 표시될 각종 영상을 구성하기 위한 프로그램 및 데이터, 스피커(160)를 통해 소리로 출력될 각종 프로그램 및 데이터 등이 저장될 수 있다. 또한, 메모리(130)는 본 개시의 다양한 인공지능 모델을 저장할 수도 있다.

입력부(140)는 다양한 사용자 입력을 수신하여 프로세서(120)로 전달할 수 있다. 입력부(140)는 예를 들면, 터치 패널, (디지털) 펜 센서 또는 키를 포함할 수 있다. 터치 패널은, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. 또한, 터치 패널은 제어 회로를 더 포함할 수도 있다. 터치 패널은 택타일 레이어(tactile layer)를 더 포함하여, 사용자에게 촉각 반응을 제공할 수 있다. (디지털) 펜 센서는 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트를 포함할 수 있다. 키는 예를 들면, 물리적인 버튼, 광학식 키, 또는 키패드를 포함할 수 있다.

마이크(150)는 음성을 획득할 수 있다. 특히, 마이크(150)는 전자 장치(100) 내부에 구비될 수 있으나, 이는 일 실시 예에 불과할 뿐, 전자 장치(100)와 전기적으로 연결되거나 네트워크로 연결되어 외부 장치로 구현될 수 있다.

스피커(160)는 오디오 처리부(미도시)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 오디오를 출력하는 구성은 스피커(160)로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.

특히, 스피커(160)는 자연어 생성부(미도시)를 통해 획득된 자연어를 TTS(미도시)를 통해 음성 메시지로 출력할 수 있다.

디스플레이(170)는 영상 처리부(미도시)에서 처리한 영상 데이터를 디스플레이 영역(또는 디스플레이)에 디스플레이할 수 있다. 디스플레이 영역은 전자 장치(100)의 하우징의 일면에 노출된 디스플레이(170)의 적어도 일부를 의미할 수 있다. 디스플레이(170)의 적어도 일부는 플렉서블 디스플레이(flexible display)의 형태로 전자 장치(100)의 전면 영역 및, 측면 영역 및 후면 영역 중 적어도 하나에 결합될 수도 있다. 플렉서블 디스플레이는 종이처럼 얇고 유연한 기판을 통해 손상 없이 휘거나 구부리거나 말 수 있는 것을 특징으로 할 수 있다.

도 7은, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

우선, 전자 장치(100)가 획득한 오디오 신호에서 음성 구간을 검출할 수 있다(S710).

구체적인 일 실시 예에 따르면, 오디오 신호에서 음성 구간을 검출하는 것은 오디오 신호의 레벨에 기초하여 오디오 신호에서 음성 구간과 묵음 구간을 검출하고, 검출된 음성 구간에 포함된 사용자 음성 중 일부가 웨이크업 단어에 매칭되는 경우 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함할 수 있다.

여기서, 오디오 신호에서 음성 구간을 검출하는 것은 오디오 신호에서 기설정된 레벨 이상의 크기를 갖는 구간을 음성 구간으로 검출하고, 오디오 신호에서 기설정된 레벨 미만의 크기를 갖는 구간을 묵음 구간으로 검출하는 것을 포함할 수 있다.

한편, 오디오 신호에서 음성 구간을 검출하는 것은 오디오 신호에서 복수의 음성 구간을 검출하는 것을 포함할 수 있다.

다음으로, 검출된 음성 구간에 포함된 사용자 음성에 웨이크업 단어가 존재하는지 여부를 식별할 수 있다(S720). 특히, 사용자 음성 중 일부가 웨이크업 단어에 매칭되는 경우, 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별할 수 있다.

구체적인 일 실시 예에 따르면, 사용자 음성에 웨이크업 단어가 존재하는지 여부를 식별하는 것은 사용자 음성을 음소 단위로 구분하여 사용자 음성으로부터 복수의 음소를 획득하고, 획득된 복수의 음소로부터 구성되는 단어가 웨이크업 단어에 매칭되는 경우 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함할 수 있다.

다음으로, 사용자 음성에 웨이크업 단어가 존재하는 것으로 식별되는 경우, 통신부를 통해 사용자 음성을 음성 인식 서비스를 제공하는 서버(200)로 전송할 수 있다(S730).

여기서, 사용자 음성을 음성 인식 서비스를 제공하는 서버(200)로 전송하는 것은 사용자 음성 중 웨이크업 단어를 제외한 나머지 사용자 음성을 서버(200)로 전송하는 것을 포함할 수 있다.

여기서, 사용자 음성을 음성 인식 서비스를 제공하는 서버(200)로 전송하는 것은 복수의 음성 구간 중 어느 하나의 음성 구간에 포함된 사용자 음성 중 일부가 웨이크업 단어에 매칭되는 경우, 어느 하나의 음성 구간에 포함된 사용자 음성 중 웨이크업 단어를 제외한 나머지 사용자 음성 및 나머지 음성 구간에 포함된 사용자 음성을 서버(200)로 전송하는 것을 포함할 수 있다.

다음으로, 서버(200)로부터 사용자 음성에 대한 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 사용자 음성에 대한 응답을 제공할 수 있다(S740).

한편 본 개시의 일 실시 예에 따르면, 사용자 음성에서 웨이크업 단어가 존재하는 것으로 식별된 이후 기설정된 시간 이내에 오디오 신호가 획득되면 오디오 신호의 음성 구간에 포함된 사용자 음성에 기설정된 단어가 존재하는지 여부를 식별하고, 기설정된 단어가 존재하는 것으로 식별된 경우 음성 구간에 포함된 사용자 음성을 서버(200)로 전송할 수 있다.

여기서, 기설정된 단어는 대명사를 포함할 수 있다.

본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims

전자 장치에 있어서,

통신부; 및

상기 전자 장치가 획득한 오디오 신호에서 음성 구간을 검출하고,

상기 검출된 음성 구간에 포함된 사용자 음성에 웨이크업(wakeup) 단어가 존재하는지 여부를 식별하고,

상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 통신부를 통해 상기 사용자 음성을 음성 인식 서비스를 제공하는 서버로 전송하고,

상기 서버로부터 상기 사용자 음성에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보에 기초하여 상기 사용자 음성에 대한 응답을 제공하는 프로세서;를 포함하며,

상기 프로세서는,

상기 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 오디오 신호의 레벨에 기초하여, 상기 오디오 신호에서 상기 음성 구간과 묵음 구간을 검출하고,

상기 검출된 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함하는 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 오디오 신호에서 기설정된 레벨 이상의 크기를 갖는 구간을 상기 음성 구간으로 검출하고,

상기 오디오 신호에서 상기 기설정된 레벨 미만의 크기를 갖는 구간을 상기 묵음 구간으로 검출하는 것을 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 음성을 음소 단위로 구분하여 상기 사용자 음성으로부터 복수의 음소를 획득하고,

상기 획득된 복수의 음소로부터 구성되는 단어가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성을 상기 서버로 전송하는 것을 포함하는 전자 장치.
제5항에 있어서,

상기 프로세서는,

상기 오디오 신호에서 복수의 음성 구간을 검출하고,

상기 복수의 음성 구간 중 어느 하나의 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 어느 하나의 음성 구간에 포함된 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성 및 상기 나머지 음성 구간에 포함된 사용자 음성을 상기 서버로 전송하는 것을 포함하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 사용자 음성에서 상기 웨이크업 단어가 존재하는 것으로 식별된 이후, 기설정된 시간 이내에 오디오 신호가 획득되면, 상기 오디오 신호의 음성 구간에 포함된 사용자 음성에 기설정된 단어가 존재하는지 여부를 식별하고, 상기 기설정된 단어가 존재하는 것으로 식별된 경우, 상기 통신부를 통해 상기 음성 구간에 포함된 사용자 음성을 상기 서버로 전송하는 것을 포함하는 전자 장치.
제7항에 있어서,

상기 기설정된 단어는 대명사를 포함하는 전자 장치.
전자 장치의 제어 방법에 있어서,

상기 전자 장치가 획득한 오디오 신호에서 음성 구간을 검출하는 단계;

상기 검출된 음성 구간에 포함된 사용자 음성에 웨이크업(wakeup) 단어가 존재하는지 여부를 식별하는 단계;

상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 사용자 음성을 음성 인식 서비스를 제공하는 서버로 전송하는 단계; 및

상기 서버로부터 상기 사용자 음성에 대한 응답 정보가 수신되면, 상기 수신된 응답 정보에 기초하여 상기 사용자 음성에 대한 응답을 제공하는 단계;를 포함하며,

상기 식별하는 단계는,

상기 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함하는 제어 방법.
제9항에 있어서,

상기 검출하는 단계는,

상기 오디오 신호의 레벨에 기초하여, 상기 오디오 신호에서 상기 음성 구간과 묵음 구간을 검출하고,

상기 검출된 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함하는 제어 방법.
제10항에 있어서,

상기 검출하는 단계는,

상기 오디오 신호에서 기설정된 레벨 이상의 크기를 갖는 구간을 상기 음성 구간으로 검출하고,

상기 오디오 신호에서 상기 기설정된 레벨 미만의 크기를 갖는 구간을 상기 묵음 구간으로 검출하는 것을 포함하는 제어 방법.
제9항에 있어서,

상기 식별하는 단계는,

상기 사용자 음성을 음소 단위로 구분하여 상기 사용자 음성으로부터 복수의 음소를 획득하고,

상기 획득된 복수의 음소로부터 구성되는 단어가 상기 웨이크업 단어에 매칭되는 경우, 상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별하는 것을 포함하는 제어 방법.
제9항에 있어서,

상기 전송하는 단계는,

상기 사용자 음성에 상기 웨이크업 단어가 존재하는 것으로 식별되는 경우, 상기 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성을 상기 서버로 전송하는 것을 포함하는 제어 방법.
제13항에 있어서,

상기 검출하는 단계는,

상기 오디오 신호에서 복수의 음성 구간을 검출하는 것을 포함하며,

상기 전송하는 단계는,

상기 복수의 음성 구간 중 어느 하나의 음성 구간에 포함된 사용자 음성 중 일부가 상기 웨이크업 단어에 매칭되는 경우, 상기 어느 하나의 음성 구간에 포함된 사용자 음성 중 상기 웨이크업 단어를 제외한 나머지 사용자 음성 및 상기 나머지 음성 구간에 포함된 사용자 음성을 상기 서버로 전송하는 것을 포함하는 제어 방법.
제9항에 있어서,

상기 사용자 음성에서 상기 웨이크업 단어가 존재하는 것으로 식별된 이후, 상기 기설정된 시간 이내에 오디오 신호가 획득되면, 상기 오디오 신호의 음성 구간에 포함된 사용자 음성에 기설정된 단어가 존재하는지 여부를 식별하고, 상기 기설정된 단어가 존재하는 것으로 식별된 경우, 상기 음성 구간에 포함된 사용자 음성을 상기 서버로 전송하는 단계;를 더 포함하는, 제어 방법.