WO2020204357A1

WO2020204357A1 - 전자 장치 및 이의 제어 방법

Info

Publication number: WO2020204357A1
Application number: PCT/KR2020/002676
Authority: WO
Inventors: 박준용; 마지연; 신동헌; 이영아; 김대웅; 손성도; 심다혜; 육형민
Original assignee: 삼성전자주식회사
Priority date: 2019-04-02
Filing date: 2020-02-25
Publication date: 2020-10-08
Also published as: KR20200116654A; US20220020380A1; US11869512B2

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 음성입력부, 디스플레이, 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리 및 상기 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 음성입력부를 통해 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하고, 인식된 사용자에 대응되는 인디케이터를 표시하도록 제어할 수 있다.

Description

전자 장치 및 이의 제어 방법

본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로서, 더욱 상세하게는 사용자의 음성을 분석하여 사용자에 대응되는 인디케이터를 등록하고, 음성 인식된 사용자에 대응되는 인디케이터를 표시하는 전자 장치 및 제어 방법에 관한 것이다.

근래의 전자 장치가 점차 다기능화, 고도화됨에 따라 전자 장치를 제어하기 위한 다양한 입력 방법이 개발되어 왔다. 특히, 다른 수작업을 필요로 하지 않고 오로지 사용자가 발화한 음성을 이용하여 각종 기능을 수행할 수 있는 음성 인식을 이용한 입력 방법이 각광을 받고 있다.

음성 인식을 이용한 입력 방법의 기술적 배경인 음성 인식 기술은 각종 산업분야 뿐만 아니라 일상생활에도 다양하게 활용되고 있으며, 현재 음성 인식 기술에 대한 연구 및 수요가 점자 증가하고 있다.

다만, 음성 인식 기술은 주변 소음 등에 영향을 많이 받을 수 있다는 단점이 존재한다. 그리고, 사용자가 발화하는 음성은 항상 동일하지 않고 조금씩 변할 수 있기 때문에 전자 장치는 사전에 등록된 음성과 등록된 사용자의 변한 음성의 차이를 감지해야 한다.

그리하여, 음성 인식 기술은 사용자 음성이 전자 장치에 입력되면 전자 장치는 사용자 음성을 분석하고, 분석한 결과 및 피드백을 사용자에게 전달하는 기능을 포함하고 있다. 따라서, 사용자는 자신의 음성 분석 결과를 바탕으로 전자 장치에 음성을 재등록하는 등, 음성 분석 결과 및 피드백을 활용하여 음성 인식 기술을 더 효율적으로 사용할 수 있다.

다만, 기존의 음성 인식 입력 장치의 경우, 디스플레이가 포함되지 않은 경우가 많아서 사용자는 입력된 음성의 분석 결과 및 피드백을 알림음으로 전달받을 수 밖에 없었다.

즉, 사용자는 자신의 음성 입력 상태 및 인식 상태를 시각적으로 확인하기 어렵다는 한계가 존재하였다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 음성 인식을 하는 전자 장치에 디스플레이를 추가하여 입력된 사용자 음성을 바탕으로 사용자의 인디케이터를 등록하고, 발화한 사용자의 음성을 인식하여 인식된 사용자에 대응되는 인디케이터를 표시하는 전자 장치 및 이의 제어 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 개시의 일 실시예에 따른 전자 장치는 음성입력부, 디스플레이, 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리, 및 상기 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하고, 상기 인식된 사용자에 대응되는 인디케이터를 표시하도록 상기 디스플레이를 제어할 수 있다.

그리고, 상기 프로세서는 상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하도록 상기 디스플레이를 제어하고, 상기 발화를 요구하는 UI가 표시되는 동안 상기 음성입력부를 통해 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자 음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하고, 상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 상기 메모리 중 적어도 하나에 저장할 수 있다.

또한, 상기 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 것을 특징으로 할 수 있다.

그리고, 상기 프로세서는 상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정할 수 있다.

또한, 상기 음도 및 강도는 상기 인디케이터의 크기, 형상, 위치 및 움직임 중 적어도 하나를 결정하고, 상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 할 수 있다.

그리고, 상기 프로세서는 상기 음성입력부를 통해 상기 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 상기 사용자의 음성이 입력되면, 상기 입력된 음성을 발화한 사용자를 인식하고, 상기 입력된 음성을 발화한 사용자가 인식되면 상기 음성 인식 모드로 전환할 수 있다.

또한, 상기 인디케이터는 상기 사용자에 대응되면서, 현재 전자 장치의 모드가 음성 인식 모드임을 나타내는 인디케이터인 것을 특징으로 할 수 있다.

그리고, 상기 프로세서는 상기 음성 인식 모드 동안 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 상기 입력된 사용자 음성의 분석 결과에 대응되도록 상기 인디케이터를 변경할 수 있다.

또한, 상기 프로세서는 상기 음성 인식 모드 동안 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경할 수 있다.

그리고, 상기 프로세서는 상기 등록된 인디케이터와 동시에 상기 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어할 수 있다.

한편, 상기 목적을 달성하기 위한 본 개시의 일 실시예에 따른 전자 장치 제어 방법에 있어서, 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하는 단계; 및 상기 인식된 사용자에 대응되는 인디케이터를 표시하는 단계;를 포함할 수 있다.

그리고, 상기 인디케이터를 등록하는 단계는 상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하는 단계, 상기 발화를 요구하는 UI가 표시되는 동안 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자의 상기 인디케이터를 등록하기 위한 음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하는 단계; 상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 메모리 중 적어도 하나에 저장하는 단계;를 포함할 수 있다.

그리고, 상기 획득하는 단계는 상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정하는 단계;를 포함할 수 있다.

또한, 상기 음도 및 강도는 상기 인디케이터의 크기, 형상 위치 및 움직임 중 적어도 하나를 결정하고, 상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 할 수 있다.

그리고, 상기 사용자를 인식하는 단계는, 상기 음성입력부를 통해 상기 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 상기 사용자의 음성이 입력되면, 상기 입력된 음성을 발화한 사용자를 인식하는 단계; 및 상기 입력된 음성을 발화한 사용자가 인식되면 상기 음성 인식 모드로 전환하는 단계;를 포함할 수 있다.

그리고, 상기 음성 인식 모드 동안 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 상기 입력된 사용자 음성의 분석 결과에 대응되도록 상기 인디케이터를 변경하는 단계;를 포함할 수 있다.

또한, 상기 변경하는 단계는 상기 음성 인식 모드 동안 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경하는 것을 특징으로 할 수 있다.

그리고, 상기 디스플레이를 제어하는 단계는 상기 등록된 인디케이터와 동시에 상기 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어하는 단계;를 포함할 수 있다.

상술한 바와 같이 본 개시의 다양한 실시예에 의해, 전자 장치는 입력된 음성을 분석하여 발화한 사용자를 인식하고, 인식한 사용자에 대응하는 기등록된 인디케이터를 표시하므로써 사용자는 음성 입력 상태를 시각적으로 제공받을 수 있다.

도 1은 본 개시의 일 실시예에 따른, 인디케이터를 표시하는 전자 장치를 도시한 도면,

도 2는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 간략히 도시한 블록도,

도 3은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 상세히 도시한 블록도,

도 4a는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 분석하고 분석한 결과를 바탕으로 인디케이터를 획득하는 구성을 설명하기 위한 블록도,

도 4b는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 분석하기 위한 구성을 설명하기 위한 블록도,

도 5는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 바탕으로 인디케이터를 획득하는 과정을 설명하기 위한 블록도,

도 6는 본 개시의 일 실시예에 따른, 전자 장치가 인디케이터를 결정하는 과정을 설명하기 위한 도면,

도 7a는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터를 등록할 수 있음을 설명하는 UI를 설명하기 위한 위한 도면,

도 7b는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면,

도 7c는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면,

도 7d는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면,

도 7e는 본 개시의 일 실시예에 따른, 전자 장치가 사용자에게 인디케이터가 등록되었음을 알리는 UI를 설명하기 위한 도면,

도 8a는 본 개시의 일 실시예에 따른, 전자 장치가 사용자의 음성을 인식하는 과정을 설명하기 위한 도면,

도 8b는 본 개시의 일 실시예에 따른, 전자 장치가 사용자의 음성 인식하여 음성 인식 모드로 전환하는 과정을 설명하기 위한 도면,

도 8c는 본 개시의 일 실시예에 따른, 전자 장치가 사용자의 음성 인식을 실패했을 때 표시하는 화면을 설명하기 위한 도면,

도 9a는 본 개시의 일 실시예에 따른, 전자 장치가 음성 인식 모드에서 사용자 명령을 입력받는 과정을 설명하기 위한 도면,

도 9b는 본 개시의 일 실시예에 따른, 전자 장치가 음성 인식 모드에서 사용자 명령에 따라 명령을 수행하는 과정을 설명하기 위한 도면,

도 9c는 본 개시의 일 실시예에 따른, 전자 장치가 음성 인식 모드에서 사용자 음성을 분석하여 인디케이터를 변경하는 과정을 설명하기 위한 도면,

도 10은 본 개시의 일 실시예에 따른, 전자 장치 제어 방법을 설명하기 위한 순서도이다.

이하에서 설명되는 실시 예는 본 개시의 이해를 돕기 위하여 예시적으로 나타낸 것이며, 본 개시는 여기서 설명되는 실시 예들과 다르게 다양하게 변형되어 실시될 수 있음이 이해되어야 할 것이다. 다만, 이하에서 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성요소에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명 및 구체적인 도시를 생략한다. 또한, 첨부된 도면은 개시의 이해를 돕기 위하여 실제 축척대로 도시된 것이 아니라 일부 구성요소의 치수가 과장되게 도시될 수 있다.

본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.

본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 명세서에서는 본 개시의 각 실시 예의 설명에 필요한 구성요소를 설명한 것이므로, 반드시 이에 한정되는 것은 아니다. 따라서, 일부 구성요소는 변경 또는 생략될 수도 있으며, 다른 구성요소가 추가될 수도 있다. 또한, 서로 다른 독립적인 장치에 분산되어 배치될 수도 있다.

이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하도록 한다.

도 1은 본 개시의 일 실시예에 따른, 인디케이터를 표시하는 전자 장치(100)를 도시한 도면이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 입력받은 사용자의 음성을 바탕으로 복수의 레이어(10-1, 10-2, 10-3)로 이루어진 인디케이터(10)를 결정할 수 있다.

전자 장치(100)는 음성입력부(110)를 통해 입력받은 사용자 음성을 바탕으로 사용자 음성에 대응하는 인디케이터를 결정 및 등록하고 메모리(120)나 외부 서버 둘 중 적어도 하나에 저장할 수 있다. 구체적으로, 전자 장치(100)는 인디케이터(10)를 등록하기 위한 이벤트가 발생하면, 사용자에게 발화를 요구하는 UI를 표시할 수 있다. 사용자에게 발화를 요구하는 UI가 표시되는 동안 사용자 음성이 입력되면, 전자 장치(100)는 사용자 음성을 분석하여 사용자 음성에 대응되는 인디케이터(10)를 결정할 수 있다. 구체적으로, 전자 장치(100)는 음성입력부(110)를 통해 입력받은 사용자의 음성을 분석하고, 분석된 사용자의 음성의 특성(예를 들어, 음성의 음도, 강도 및 음질)에 따라 인디케이터(10)를 다양하게 결정할 수 있다. 일 실시예로, 전자 장치(100)는 입력받은 사용자의 음성의 특성을 분석하여 인디케이터를 이루는 레이어의 수 및 여러가지 특성(예를 들어, 색, 크기, 형상, 위치, 투명도 및 움직임)을 결정할 수 있다. 따라서, 도 1에서 도시하고 있는 인디케이터(10)를 구성하고 있는 복수의 레이어(10-1, 10-2, 10-3)는 일 실시예일 뿐, 다양하게 구성될 수 있다. 그리고, 전자 장치(100)는 결정된 인디케이터(10)를 등록하고 사용자 정보와 사용자와 대응되는 인디케이터(10)를 외부 서버 또는 메모리(120) 둘 중 적어도 하나에 저장할 수 있다.

또한, 음성입력부(110)를 통해 사용자의 음성이 입력되면, 전자 장치(100)는 입력된 음성을 발화한 사용자를 인식할 수 있다. 구체적으로, 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자의 음성이 음성입력부(110)를 통해 입력되면, 전자 장치(100)는 기등록된 복수의 음성과 입력된 음성을 비교하여 발화한 사용자를 인식할 수 있다. 그리고, 입력된 음성을 발화한 사용자가 인식되면 전자 장치(100)는 전자 장치(100)의 모드를 음성 인식 모드로 전환할 수 있다. 한편, 전자 장치(100)의 모드가 음성 인식 모드인 경우 전자 장치(100)는 사용자 음성에 대응되는 인디케이터(10)와 사용자 정보, 및 사용자의 음성의 강도가 음성입력부(110)가 감지할 수 있을 정도의 강도인지 여부를 알려주는 복수의 오브젝트(810)를 표시할 수 있다.

그리고, 전자 장치(100)는 인식된 사용자에 대응되는 등록된 인디케이터(10)를 표시하도록 디스플레이(130)를 제어할 수 있다. 구체적으로, 전자 장치(100)는 도 1에서 도시하고 있는 바와 같이 인디케이터(10)를 표시하여 전자 장치(100)의 모드가 음성 인식 모드임을 나타낼 수 있다. 또한, 음성 인식 모드 동안 사용자의 음성이 입력되면, 전자 장치(100)는 입력된 사용자 음성의 분석 결과에 대응되도록 인디케이터(10)를 변경할 수 있다. 예를 들어, 음성 인식 모드 동안, 입력된 사용자의 음성이 기등록된 사용자의 음성과 차이가 있을 경우, 전자 장치(100)는 입력된 사용자의 음성과 기등록된 사용자의 음성 차이를 분석하여 인디케이터(10)의 복수의 레이어(10-1, 10-2, 10-3)의 특성을 변경할 수 있다.

전자 장치(100)는 음성 인식 모드인 동안, 사용자의 음성에 대응되는 인디케이터(10)와 동시에 사용자에게 명령을 요구하는 메시지를 표시할 수 있다. 즉, 전자 장치(100)는 사용자가 발화한 음성 명령을 확인하기 위하여 사용자가 발화한 음성에 대응되는 텍스트를 전자 장치(100)에 표시하도록 디스플레이(130)를 제어할 수 있다. 따라서, 사용자는 음성 인식 모드 상태에서 음성으로 전자 장치(100)에게 여러 명령을 할 수 있다.

도 2는 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 간략하게 도시한 블록도이다. 도 2에서 도시된 바와 같이, 전자 장치(100)는 음성입력부(110), 메모리(120), 디스플레이(130) 및 프로세서(140)를 포함할 수 있다. 그러나 상술한 구성에 한정되는 것은 아니며, 전자 장치의 유형에 따라 일부 구성이 추가되거나 생략될 수 있음은 물론이다.

음성입력부(110)는 사용자 음성을 입력받을 수 있다. 특히, 음성입력부(110)는 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자 발화를 수신할 수 있고 사용자의 명령이 담긴 음성을 수신할 수 있다.

그리고, 음성입력부(110)는 전자 장치(100) 내부에 구비될 수 있으나, 외부에 구비되어 전자 장치(100)와 전기적으로 연결되거나 통신부(150)를 통해 통신 연결될 수 있다.

메모리(120)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 인스트럭션(Instruction) 또는 데이터를 저장할 수 있다. 특히, 메모리(120)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(120)는 프로세서(140)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(120), 프로세서(140) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(120)에는 디스플레이(130)의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다.

그리고, 메모리(120)는 음성입력부(110)로부터 입력된 사용자 음성에 대응되는 인디케이터 및 사용자 정보를 저장할 수 있다. 구체적으로, 메모리(120)는 전자 장치(100)가 입력된 사용자의 인디케이터를 등록하기 위한 음성을 분석하여 획득한 인디케이터 및 사용자 정보를 저장할 수 있다. 메모리(120)가 저장하는 사용자 정보는 사용자의 음성, 음성의 특성(예를 들어, 음성의 강도, 음도 및 음질), 사용자 이름, 나이 및 성별 등이 될 수 있으나 이는 일 실시예일 뿐 이다.

디스플레이(130)는 프로세서(140)의 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(130)는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시할 수 있다. 또한, 디스플레이(130)는 인식된 사용자에 대응되는 등록된 인디케이터 및 사용자 인식에 따라 전환된 음성 인식 모드를 나타내는 화면을 표시할 수 있다.

그리고, 디스플레이(130)는 터치 패널과 함께 터치 스크린으로도 구현될 수 있다. 그러나 상술한 구현으로 한정되는 것은 아니며, 디스플레이는(130)는 전자 장치의 유형에 따라 다르게 구현될 수 있다.

프로세서(140)는 메모리(120) 및 디스플레이(130)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(140)는 음성입력부(110)를 통해 사용자의 음성이 입력되면, 입력된 음성을 발화한 사용자를 인식하고, 인식된 사용자에 대응되는 인디케이터를 표시하도록 디스플레이(130)를 제어할 수 있다.

그리고, 인디케이터를 등록하기 위한 이벤트가 발생하면, 프로세서(140)는 사용자에게 발화를 요구하는 UI를 표시하도록 디스플레이(130)를 제어할 수 있다. 그리고, 발화를 요구하는 UI가 표시되는 동안 음성입력부(110)를 통해 사용자의 인디케이터를 등록하기 위한 음성이 입력되면, 프로세서(140)는 사용자 음성을 분석하여 사용자 음성에 대응되는 인디케이터를 획득하고, 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 메모리(120)에 저장할 수 있다. 특히, 발화를 요구하는 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함할 수 있다.

한편, 프로세서(140)는 사용자 음성의 특성을 분석하여 인디케이터를 구성하는 복수의 레이어의 특성을 결정할 수 있다. 구체적으로, 프로세서(140)는 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터를 이루고 있는 복수의 레이어의 색, 크기, 형상, 위치, 투명도 및 움직임을 결정할 수 있다. 일 실시예로, 프로세서(140)는 사용자 음성의 음도 및 강도를 분석하여 인디케이터를 이루는 레이어의 크기, 형상 위치 및 움직임 중 적어도 하나를 결정할 수 있고, 음질을 분석하여 인디케이터를 이루는 레이어의 색 및 투명도 중 적어도 하나를 결정할 수 있다.

그리고, 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자의 음성이 음성입력부(110)를 통해 입력되면, 프로세서(140)는 입력된 음성을 발화한 사용자를 인식하고 입력된 음성을 발화한 사용자가 인식되면 음성 인식 모드로 전환할 수 있다. 구체적으로, 프로세서(140)는 입력받은 사용자의 음성을 분석하고 그 분석 결과값을 기등록된 사용자 음성의 분석 결과와 비교하여, 발화한 사용자가 기등록된 사용자가 맞는지 여부를 판단할 수 있다.

또한, 음성 인식 모드 상태에서 프로세서(140)는 사용자가 발화한 음성을 인식하고 입력된 사용자의 음성 분석 결과에 대응되도록 인디케이터를 변경할 수 있다. 구체적으로, 프로세서는(140)는 음성 인식 모드 동안 음성입력부(110)를 통해 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터를 이루고 있는 복수의 레이어의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경할 수 있다.

한편, 프로세서는(140)는 등록된 인디케이터와 동시에 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어할 수 있다. 사용자가 명령이 포함된 발화를 음성입력부(110)를 통해 전자 장치(100)에 입력하는 경우, 프로세서(140)는 사용자가 발화한 음성 명령을 확인하기 위하여 사용자가 발화한 음성에 대응되는 텍스트를 전자 장치(100)에 표시하도록 디스플레이(130)를 제어할 수 있다. 그리고, 프로세서(140)는 사용자 명령에 대응되는 기능을 수행할 수 있다.

도 3은 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 상세히 도시한 블록도이다. 도 3에 도시된 바와 같이, 전자 장치(100)는 음성입력부(110), 메모리(120), 디스플레이(130), 프로세서(140), 통신부(150), 입력부(160) 및 스피커(170)를 포함할 수 있다. 한편, 도 3에 도시된 음성입력부(110), 메모리(120), 디스플레이(130) 및 프로세서(140)는 도 2에서 설명하였으므로, 중복되는 설명은 생략하기로 한다.

통신부(150)는 외부 장치와 통신을 수행할 수 있다. 이때, 통신부(150)가 외부 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다.

특히, 통신부(150)는 전자 장치(100)의 리모컨, 스마트폰, AI 스피커 등과 같은 외부 장치와 통신을 연결하여 외부 장치의 마이크로 입력되는 사용자의 음성을 수신할 수 있다. 일 실시예로, 전자 장치(100)의 리모컨의 마이크에 사용자의 인디케이터를 등록하기 위한 음성이 입력되면, 통신부(150)는 리모컨으로부터 사용자의 음성이 담긴 신호를 수신할 수 있다.

한편, 통신부(150)는 외부 장치와 통신을 수행하기 위해 다양한 통신 모듈을 포함할 수 있다. 일 예로, 통신부(150)는 무선 통신 모듈을 포함할 수 있으며, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신 모듈을 포함할 수 있다. 또 다른 예로, 무선 통신 모듈은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 또한, 통신부(150)는 유선 통신 모듈을 포함할 수 있으며 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 무선 통신 또는 유선 통신이 수행되는 네트워크는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.

입력부(160)는 전자 장치(100)를 제어하기 위한 사용자 입력을 수신할 수 있다. 특히, 입력부(160)는 사용자 손 또는 스타일러스 펜 등을 이용한 사용자 터치를 입력받기 위한 터치 패널, 사용자 조작을 입력받기 위한 버튼 등이 포함될 수 있다. 그 밖에, 입력부(160)는 다른 입력 장치(예로 리모컨, 모션 입력부, 가상 키보드, 마우스)로 구현될 수 있다. 일 실시예로, 사용자는 리모컨의 음성 인식 버튼을 눌러 인디케이터를 등록하기 위한 이벤트를 입력할 수 있다. 그리고, 사용자는 가상 키보드를 이용하여 음성 인식 모드를 구성하고 있는 이미지나 텍스트를 변경할 수 있다.

스피커(170)는 오디오 처리부에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 한편, 오디오를 출력하기 위한 구성은 스피커(170)로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.

프로세서(140)는 디지털 신호를 처리하는 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(140)는 메모리(120)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(140)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.

도 4a 및 도4b는 본 개시의 일 실시예에 따른, 전자 장치가 음성을 분석하고 분석한 결과를 바탕으로 인디케이터를 획득하는 구성을 설명하기 위한 블록도이다. 도 4a에 도시된 바와 같이, 전자 장치(100)는 음성입력부(110)를 통해 입력된 사용자의 음성을 분석하고, 발화한 사용자를 인식하고, 발화한 음성의 변화를 검출하는 음성 분석부(410)를 포함할 수 있다.

도 4b에 도시된 바와 같이, 음성 분석부(410)는 음도/강도(Pitch/Loudness) 분석 모듈(430), 음질(Quality) 분석 모듈(440), 화자 판단 모듈(450) 및 변화 검출 모듈(460)를 통해 음성을 분석할 수 있다.

음도/강도 분석 모듈(430)은 음성입력부(110)를 통해 입력된 사용자의 음성의 음도 및 강도를 분석할 수 있다. 음도는 음의 높낮이를 의미하며 초당 진동수에 의해 결정된다. 평균적인 남성의 음성 음도는 118Hz이고 평균적인 여성의 음성 음도는 211Hz인바 일 실시예로, 전자 장치(100)는 음도를 분석하여 발화한 사람의 성별을 구분할 수 있다. 강도는 음의 세기를 의미하며 음성 진동의 폭에 따라 결정된다. 음성입력부(110)의 상태 혹은 사용자가 발화하는 거리에 따라 입력되는 사용자의 음성의 강도는 달라질 수 있다.

음질 분석 모듈(440)은 음성입력부(110)를 통해 입력된 사용자의 음성의 음질을 분석할 수 있다. 즉, 음질 분석 모듈(440)는 음성의 주파수 변동률(Jitter), 진폭 변동(Shimmer) 및 노이즈를 분석할 수 있다. 주파수 변동률은 음성의 음도가 분석구간에서 얼마나 변화하였는지를 의미한다. 진폭 변동은 음성의 강도가 분석 구간에서 얼마나 변화하였는지를 의미한다. 노이즈는 성대 진동과 호흡이 불규칙한 정도를 의미하며, 불규칙한 상태 즉 노이즈가 큰 상태는 주파수 변동률과 진폭 변동률이 모두 커진 상태를 의미한다. 일 실시예로, 주파수 변동률, 진폭 변동 및 노이즈에 대응되는 값이 클 경우 음질 분석 모듈(440)은 발화한 사용자의 감정 변화가 큰 것을 판단할 수 있다. 즉, 음질 분석 모듈(440)은 음질을 분석하여 사용자의 감정 변화를 추출할 수 있다.

화자 판단 모듈(450)은 사용자의 음성 분석 결과를 바탕으로 발화한 사용자의 음성이 기등록된 사용자의 음성인지를 여부를 판단할 수 있다. 즉, 화자 판단 모듈(450)은 음성입력부(110)를 통해 사용자의 음성이 입력되면, 발화한 사용자의 음성이 기등록된 복수의 음성과 비교하여 등록된 사용자의 음성임을 판단할 수 있다. 예를 들면, 화자 판단 모듈(450)은 음성입력부(110)를 통해 입력된 사용자의 음성의 특성(예를 들어, 음성의 음도, 강도 및 음질)을 분석하고 기등록된 복수의 사용자의 음성의 특성과 매칭한다. 만약, 입력된 사용자의 음성의 특성과 기등록된 사용자의 음성의 특성의 차이가 임계값을 초과하지 않은 경우, 화자 판단 모듈(450)은 입력된 음성은 기등록된 사용자에 의해 발화한 것으로 판단한다. 따라서, 화자 판단 모듈(450)은 발화한 사용자를 인식할 수 있다.

변화 검출 모듈(460)은 전자 장치(100)가 음성 인식 모드 상태일 때, 음성입력부(110)를 통해 입력된 사용자 음성의 분석결과가 기존에 분석 결과와 차이가 있는 것을 검출할 수 있다. 즉, 사용자가 발화하는 음성은 항상 동일하지 않고 조금씩 변할 수 있기 때문에 변화 검출 모듈(460)은 음성 인식 모드인 동안 사용자의 음성의 차이를 검출할 수 있다.

한편, 도 4a에 도시된 그래픽 처리부(420)는 음성 분석부(410)를 통하여 분석한 결과를 바탕으로 인디케이터의 구성요소를 결정할 수 있다. 그래픽 처리부(420)는 사용자 음성의 음도, 강도 및 음질을 분석하여 인디케이터를 이루는 복수의 레이어의 개수 및 복수의 레이어의 색, 크기, 형상, 위치, 투명도, 움직임 등을 결정할 수 있다. 이 때, 그래픽 처리부(420)는 음도 및 강도를 분석하여 인디케이터의 크기, 형상 위치 및 움직임을 결정할 수 있고, 음질을 분석하여 상기 인디케이터의 색 및 투명도를 결정할 수 있다. 일 실시예로, 그래픽 처리부(420)는 사용자 음성의 음도 및 강도값이 크다는 분석결과를 바탕으로 인디케이터의 레이어(Layer) 크기를 크게 할 수 있다. 한편, 일 실시예로, 그래픽 처리부(420)는 사용자 음성의 음질의 분석에 대응되는 결과 값이 클수록 인디케이터의 색을 빨간색 또는 짙은 색으로 결정할 수 있다. 그러나 이는 일 실시예에 불과하고 그래픽 처리부(420)는 다양하게 음성 분석 결과를 바탕으로 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임을 결정할 수 있다.

도 5는 본 개시의 일 실시예에 따른, 전자 장치가 사용자 음성을 바탕으로 인디케이터를 획득하는 과정을 설명하기 위한 블록도이다.

먼저 전자 장치(100)는 음성입력부(110)를 통해 사용자로부터 사용자의 인디케이터를 등록하기 위한 음성을 입력 받을 수 있다(510). 그리고, 전자 장치(100)는 입력받은 사용자 음성의 음도 및 강도를 분석할 수 있다(520). 전자 장치(100)는 분석한 사용자 음성의 음도 및 강도의 값에 대응하여 인디케이터의 크기, 형상, 위치, 움직임을 조절할 수 있다(530). 일 실시예로, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도 분석값이 클수록 인디케이터의 크기를 크게 할 수 있다. 또한, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도 분석값이 클수록 인디케이터의 형상을 각지게 할 수 있고 인디케이터의 위치를 디스플레이(130)의 상단 영역에 위치하게 할 수 있다. 그리고, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도 분석값이 클수록 인디케이터의 움직이는 속도를 빠르게 할 수 있다. 물론 이는 일 실시예일 뿐, 전자 장치(100)는 사용자의 음성의 음도 및 강도 분석 결과값에 따라 인디케이터를 다양하게 결정할 수 있다. 한편, 전자 장치(100)는 입력받은 사용자 음성의 음질을 분석할 수 있다(540). 전자 장치(100)는 분석한 사용자 음성의 음질에 대응하여 인디케이터의 색 및 투명도를 조절할 수 있다(550). 일 실시예로, 입력된 사용자의 음성의 음질의 주파수 변동률 및 진폭 변동률의 값이 클수록 전자 장치(100)는 인디케이터의 색을 붉게할 수 있다. 그리고, 일 실시예로, 입력된 사용자의 음성의 음질을 분석할 때 성대 진동과 호흡이 불규칙한 정도(즉, 노이즈)가 클 수록 전자 장치(100)은 인디케이터의 명도를 어둡게 할 수 있고 인디케이터의 투명도를 낮게 할 수 있다. 그 결과, 전자 장치(100)는 사용자 음성에 대응되는 인디케이터를 획득하고 등록할 수 있다(560). 그리고 전자 장치(100)는 등록된 인디케이터와 사용자 정보를 외부 서버 또는 메모리(120)에 저장할 수 있다.

도 6는 본 개시의 일 실시예에 따른, 전자 장치가 인디케이터를 결정하는 과정을 설명하기 위한 도면이다.

인디케이터는 전자 장치(100)가 사용자의 인디케이터를 등록하기 위한 음성을 입력받기 전에는 흑백톤의 기설정된 크기를 가지는 모양(610)을 유지할 수 있다. 음성입력부(110)를 통해 사용자 음성이 입력되면, 전자 장치(100)는 입력된 사용자 음성을 분석하고 분석 결과를 바탕으로 인디케이터를 결정할 수 있다. 특히, 전자 장치(100)는 사용자 음성의 음도 및 강도를 분석한 결과를 바탕으로 인디케이터의 크기, 형상, 위치, 및 움직임을 조절할 수 있다. 일 실시예로, 사용자 음성의 음도 분석 결과값이 클수록 전자 장치(100)는 인디케이터의 제 1레이어(620)의 크기를 크게 할 수 있다. 마찬가지로 일 시예로, 사용자의 음성의 강도 분석 결과 값이 클수록 전자 장치(100)는 인디케이터의 제 2레이어(630)의 크기를 크게할 수 있다. 그리고, 일 실시예로 전자 장치(100)는 사용자의 음성의 음질 분석 결과를 바탕으로 인디케이터의 색(640)을 다르게 결정할 수 있다.

그리고, 전자 장치(100)는 사용자에 대응되는 인디케이터를 결정하기 전에 사용자에게 인디케이터를 구성하는 색 등 인디케이터의 특성을 결정할 수 있게 할 수 있다. 즉, 전자 장치(100)는 사용자에 대응하는 인디케이터를 결정할 때, 사용자의 의견을 반영할 수 있다.

도 7a 내지 도 7d는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자의 인디케이터를 등록하기 위한 음성에 대응되는 인디케이터를 등록하는 과정을 설명하기 위한 도면이다.

도 7a는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자에게 인디케이터를 등록할 수 있음을 설명하는 UI를 표시하는 도면을 개시하고 있다. 인디케이터를 등록하기 위한 이벤트가 발생하면, 전자 장치(100)는 사용자에게 발화를 요구하는 메시지를 포함하는 UI를 표시하도록 디스플레이(130)를 제어할 수 있다. 인디케이터를 등록하기 위한 이벤트는 일 실시예에 따르면, 디스플레이(130) 또는 리모컨에 부착되어 있는 인디케이터 등록을 위한 버튼을 누르는 이벤트일 수 있고 음성입력부(110)를 통해 특정 텍스트를 발화한 음성이 입력되는 이벤트일 수 있고, 공장 출시 후 최초로 파워 온 하는 이벤트, 인디케이터 등록을 위한 메뉴를 선택하는 이벤트일 수 있다. 이는 일 실시예에 불과할 뿐, 인디케이터를 등록하기 위한 이벤트는 다양할 수 있다.

한편, 인디케이터를 등록하기 위한 이벤트가 발생하면, 전자 장치(100)는 '사용자를 등록하는 단계입니다'라는 텍스트를 포함하는 UI를 표시할 수 있다. 다만, 이는 일 실시예에 불과할 뿐, 전자 장치(100)는 인디케이터를 등록할 수 있다는 의미를 내포한 다양한 텍스트 또는 사용자 정의 이미지를 포함하는 UI를 표시할 수 있다.

도 7b는 본 개시의 일 실시예에 따른, 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면이다. 전자 장치(100)는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메세지를 포함하는 UI를 표시할 수 있다. 전자 장치(100)는 사용자로부터 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자의 발화가 입력되면, 전자 장치(100)는 사용자 음성의 특성(예를 들어, 음도, 강도 및 음질)을 분석하여 사용자 음성에 대응되는 인디케이터를 결정하고 등록하고 메모리(120) 또는 외부 서버 중 적어도 하나에 저장할 수 있다. 일 실시예로, 전자 장치(100)는 입력된 사용자의 음성의 음도 및 강도를 바탕으로 인디케이터의 크기, 형상 위치 및 움직임을 결정할 수 있으며, 입력된 사용자의 음질을 바탕으로 인디케이터의 색 및 투명도를 결정할 수 있다. 그리고, 전자 장치(100)는 결정된 인디케이터를 메모리(120) 또는 외부 서버 중 적어도 하나에 저장할 수 있다.

도 7c 및 도 7d는 본 개시의 일 실시예에 따른 사용자에게 인디케이터 등록을 위해 발화를 요구하는 UI를 설명하기 위한 도면이다. 도 7c에서 도시한 바와 같이, 전자 장치(100)는 음성 인식 모드로의 전환을 위한 텍스트 뿐 아니라 기저장된 복수의 텍스트 중 하나(710) 및 상기 텍스트(710)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시할 수 있다. 그리고, 기저장된 복수의 텍스트 중 하나(710)와 상기 텍스트(710)에 대한 사용자 발화를 요구하는 메시지를 포함한 UI가 표시될 때, 사용자로부터 표시된 텍스트에 대한 음성이 입력되면, 전자 장치(100)는 입력된 음성의 특성을 분석하여 사용자 음성에 대응되는 인디케이터를 결정할 수 있다. 다만, 분석한 사용자 음성의 특성이 사용자의 음성에 대응되는 인디케이터를 결정하기에 충분하지 않은 경우, 도 7d에 도시한 바와 같이 전자 장치(100)는 다시 기저장된 복수의 텍스트 중 하나(730) 및 상기 텍스트(730)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시할 수 있다. 따라서, 사용자로부터 입력된 음성의 특성을 분석하여 사용자 음성에 대응되는 인디케이터가 결정될 때까지, 전자 장치(100)는 기저장된 복수의 텍스트 중 하나와 상기 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 반복하여 표시할 수 있다.

그리고, 도 7c 및 도 7d에서 도시한 바와 같이 일 실시예로 전자 장치(100)는 사용자의 음성에 대응되는 인디케이터가 결정된 정도를 배경색의 명도를 통해 나타낼 수 있다. 구체적으로, 도 7c에서 도시한 바와 같이 분석한 사용자 음성의 특성이 사용자 음성에 대응되는 인디케이터를 결정하기에 충분하지 않은 경우, 전자 장치(100)는 기저장된 복수의 텍스트 중 하나(710)와 상기 텍스트(710)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 다시 표시하면서 배경색(720)의 명도를 기존의 배경색의 명도보다 기설정된 값만큼 높게 또는 낮게할 수 있다. 그리고, 분석한 사용자 음성의 특성이 사용자에 대응되는 인디케이터를 결정하기에 충분하지 않은 경우 도 7d에서 도시한 바와 같이 전자 장치(100)는 다시 기저장된 복수의 텍스트 중 하나(730) 및 상기 텍스트(730)에 대한 사용자 발화를 요구하는 메시지를 포함하는 UI를 표시하면서 더욱 배경색(740)의 명도를 기설정된 값만큼 높게 또는 낮게할 수 있다. 따라서, 전자 장치(100)는 배경색의 명도를 통해 사용자 음성에 대응되는 인디케이터가 결정된 정도를 시각적으로 나타낼 수 있다.

도 7e는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자에게 인디케이터가 등록되었음을 알리는 UI를 설명하기 위한 도면이다. 전자 장치(100)는 사용자 음성에 대응하는 인디케이터와 함께 사용자 정보를 같이 등록할 수 있다. 일 실시예에 따르면, 사용자가 음성 인식 모드로의 전환을 위한 텍스트에 대해서 발화하기 전 혹은 후에 자신의 정보를 미리 음성입력부(110) 또는 입력부(160)를 통해 전자 장치(100)에 입력할 수 있다. 도 7e에 도시된 바와 같이 일 실시예에 따르면, 전자 장치(100)는 '철수님 등록되었습니다'라는 텍스트와 사용자 음성에 대응되는 인디케이터를 표시하여 사용자에게 인디케이터가 등록되었음을 알리는 UI를 표시할 수 있다.

한편, 도 7a 내지 도 7e에서 도시하고 있는 인디케이터를 등록하기 위한 UI는 인디케이터 등록을 위한 이벤트가 입력되기 전에 표시하고 있는 화면과 동시에 표시될 수 있다. 그리고, 인디케이터를 등록하기 위한 UI는 화면 일 영역 또는 전체에서 표시될 수 있다.

도 8a 내지 도 8c는 본 개시의 일 실시예에 따른, 전자 장치(100)가 사용자의 음성을 인식하여 음성 인식 모드로 전환될 때 혹은 음성 인식을 실패할 때의 UI를 도시하는 도면이다.

도 8a는 본 개시의 일 실시예에 따른 것으로, 사용자가 음성입력부(110)를 통해 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 사용자 음성을 전자 장치에 입력할 때, 전자 장치(100)가 발화한 사용자를 인식하는 과정을 도시하고 있다. 음성 인식 모드로의 전환을 위한 텍스트는 '음성인식모드'라는 텍스트일 수 도 있고 사용자가 정한 텍스트일 수 있다. 일 실시예로, 사용자로부터 '음성인식모드'라는 음성 인식 모드로의 전환을 위한 텍스트가 포함된 음성이 입력되면, 전자 장치(100)는 발화한 사용자의 음성이 기등록된 사용자의 음성과 맞는지 여부를 판단할 수 있다. 구체적으로, 전자 장치(100)는 발화한 사용자의 음성의 특성(예를 들어, 음성의 음도, 강도 및 음질)을 분석하고 그 분석 결과값과 기등록된 사용자의 음성의 분석 결과값을 매칭한다. 발화한 사용자의 음성의 특성과 기등록된 사용자의 음성의 특성의 차이가 임계값을 초과하지 않는 경우, 전자 장치(100)는 발화한 사용자가 기등록된 사용자임을 판단한다. 전자 장치(100)는 사용자의 음성이 기등록된 사용자의 음성이 맞는지 여부를 판단하는 동안에 도형(800)을 표시하도록 디스플레이(130)를 제어할 수 있다. 물론, 도형(800)은 사용자가 입력부(160)를 통해 다양하게 변형할 수 있으며, 텍스트 또는 동영상 등으로 변경될 수 있다.

도 8b는 본 개시의 일 실시예에 따른 것으로, 전자 장치(100)가 발화한 사용자의 음성이 기등록된 사용자의 음성과 맞다는 것을 판단하면, 즉 입력된 음성을 발화한 사용자를 인식하면 전자 장치(100) 모드를 음성 인식 모드로 전환할 수 있는 과정을 설명하기 위한 도면이다.

전자 장치(100)는 현재 전자 장치의 모드가 음성 인식 모드임을 나타내는 사용자 음성에 대응되는 인디케이터를 표시할 수 있다. 그리고, 일 실시예로, 음성 인식 모드에서는 전자 장치(100)는 사용자의 음성에 대응되는 인디케이터와 함께 등록하였던 사용자 정보(820)를 같이 표시할 수 있다.(예를 들면, 전자 장치(100)는 '철수님 안녕하세요' 라는 텍스트를 표시하거나 사용자 정보를 음성 형태로 출력할 수 있다.) 그리고, 전자 장치(100)는 음성 인식 모드에서 사용자에게 명령을 요구하는 메시지(830)를 표시할 수 있다.(예를 들어, '말씀하세요.')

일 실시예로, 전자 장치(100)는 음성 인식 모드 상태에서 사용자의 음성의 강도가 음성입력부(110)가 감지할 수 있을 정도의 강도인지 여부를 알려주는 복수의 오브젝트(810)를 표시할 수 있다. 전자 장치(100)가 음성 인식 모드 상태일 때, 복수의 오브젝트(810)는 기설정된 크기를 가지고 기설정된 속도로 무작위로 디스플레이(130)상에서 움직일 수 있다. 전자 장치(100)는 음성입력부(110)를 통해 입력된 사용자의 음성의 강도를 분석하고, 분석 결과 값에 대응하여 복수의 오브젝트(810)의 크기 및 속도를 결정할 수 있다. 일 실시예로, 전자 장치(100)는 사용자의 음성의 강도를 분석한 결과, 사용자 음성의 강도가 음성입력부(110)가 감지할 수 있을 정도(음성입력부 기준으로 약 55 db)에 도달하지 않는 경우, 전자 장치(100)는 복수의 오브젝트(810)의 크기 및 속도는 기설정된 값을 유지하도록 할 수 있다. 그리고, 입력된 사용자의 음성이 점차 커질 경우, 즉 사용자의 음성의 강도가 커질 경우에는, 전자 장치(100)는 복수의 오브젝트(810)의 크기를 점차 크게 만들고 속도를 빠르게 할 수 있다. 그리고, 사용자의 음성이 음성입력부(110)가 감지할 수 있을 정도(마이크 기준으로 약 55 db)로 커진 경우, 전자 장치(100)는 다시 복수의 오브젝트(810)의 속도 및 크기를 사용자 음성이 입력되기 전인 기설정된 속도 및 크기로 되돌릴 수 있다.

도 8c는 본 개시의 일시예에 따른 것으로, 음성을 발화한 사용자를 인식하지 못했을 경우, 전자 장치(100)는 음성 인식 모드로 전환하지 못하고 X표시로 변형된 인디케이터(840)와 함께 '인식을 실패하였습니다'라는 텍스트를 표시할수 있음을 도시하고 있다. 즉, 전자 장치(100)가 사용자 인식을 실패했을 경우, 그에 대응되는 메시지 혹은 도형 형태를 표시할 수 있다. 물론, 전자 장치(100)가 사용자 인식을 실패할 경우 그에 대응되어 표시되는 메시지 혹은 도형 형태는 사용자가 입력부(160)를 통해 다양하게 변형할 수 있으며, 디스플레이의 일 영역 또는 전체에서 표시될 수 있다.

그리고, 전자 장치(100)는 사용자 음성의 인식을 실패했을 때, 사용자 음성이 입력되기 전에 표시하고 있던 화면을 표시할 수 있고, 다시 사용자에게 음성 인식 모드 전환을 위한 텍스트에 대해서 발화를 요구하는 UI를 표시할 수 있다.

도 9a 내지 도 9c는 본 개시의 일 실시예에 따른, 전자 장치(100)가 음성 인식 모드에서 사용자로부터 명령을 입력받고 수행하는 과정 및 음성 인식 모드에서 사용자 음성을 분석하여 인디케이터를 변경하는 과정을 설명하기 위한 도면이다.

도 9a는 전자 장치(100)의 모드가 음성 인식 모드일 때, 전자 장치(100)가 사용자가 발화한 음성 명령을 확인하기 위하여 사용자가 발화한 음성에 대응되는 텍스트를 전자 장치(100)에 표시하도록 디스플레이(130)를 제어하는 과정을 도시하는 도면이다. 일 실시예에 따르면, 사용자가 '오늘 날씨 알려줘'라고 발화했을 때, 전자 장치(100)는 '오늘 날씨 알려줘'라는 텍스트를 사용자 음성에 대응되는 인디케이터와 함께 디스플레이(130)에 표시하도록 제어한다. 따라서, 전자 장치(100)를 통해 사용자는 자신이 발화한 명령이 전자 장치(100)에 정확히 입력되었는지 여부를 확인할 수 있다.

도 9b는 전자 장치(100)가 음성 인식 모드 상태에서 사용자의 발화에 따른 명령을 수행하는 과정을 도시하고 있다. 일 실시예로, 사용자로부터 '오늘 날씨 알려줘'라는 음성 명령이 입력되면, 전자 장치(100)는 오늘 날씨에 대한 정보를 표시할 수 있다. 그리고, 사용자 음성 명령에 따른 기능의 수행화면은 디스플레이(130) 일 영역 또는 전체에 표시될 수 있다.

도 9c는 전자 장치(100)의 모드가 음성 인식 모드 일 때, 전자 장치(100)는 사용자 음성을 분석하고 분석 결과를 바탕으로 인디케이터를 변경하는 과정을 도시하고 있다. 사용자의 음성은 항상 동일 할 수 없고, 시간의 흐름에 따라 변화할 수 있기때문에 전자 장치(100)는 음성 인식 모드 일때, 사용자의 음성을 분석하고, 분석 결과에 대응되도록 인디케이터를 변경할 수 있다. 즉, 전자 장치(100)는 음성 인식 모드 동안 입력된 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터를 이루고 있는 복수의 레이어의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경할 수 있다. 일 실시예에 따르면, 전자 장치(100)가 음성 인식 모드 상태에서 입력된 사용자의 음성을 분석하였을 때, 음성의 강도 및 음도에 대응되는 분석값이 인디케이터를 등록했을 때보다 작아지고 음질에 대응되는 분석값이 달라졌을 경우, 전자 장치(100)는 인디케이터의 크기를 작게 그리고 색은 달라지게 변경할 수 있다. 도 9c에서 도시하고 있는 인디케이터(920)는 도 9a에서 도시하고 있는 인디케이터보다 크기가 작아지고 레이어의 색이 달라진 것을 볼 수 있다. 한편, 전자 장치(100)는 음성 인식 모드임을 나타내는 사용자의 음성에 대응되는 인디케이터는 변경된 것으로 표시할 수 있다.

도 10은 본 개시의 일 실시예에 따른, 전자 장치 제어 방법을 설명하기 위한 순서도이다. 도 10에 따르면, 전자 장치(100)는 사용자의 음성이 입력되면 기등록된 복수의 음성과 비교할 수 있다(S1010). 구체적으로, 전자 장치(100)는 입력된 사용자의 음성의 특성을 분석하고, 분석된 음성의 특성과 기등록된 복수의 음성의 특성을 비교할 수 있다. 일 실시예로 전자 장치(100)는 기등록된 복수의 음성 중 하나의 음성의 특성과 입력된 사용자 음성의 특성의 차이가 임계값을 넘는지 여부를 판단할 수 있다. 기등록된 음성의 특성과 사용자 음성의 특성의 차이가 임계값을 넘지 않을 경우, 전자 장치(100)는 입력된 사용자 음성과 기등록된 음성이 매칭된다고 판단할 수 있다. 그리고, 입력된 사용자 음성이 기등록된 복수의 음성 중 하나와 매칭된다고 판단하면 전자 장치(100)는 입력된 사용자 음성을 발화한 사용자를 인식할 수 있다(S1020). 그리고 전자 장치(100)는 인식된 사용자에 대응되는 인디케이터를 표시하도록 디스플레이를 제어할 수 있다(S1030).

한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 개시의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims

전자 장치에 있어서,

음성입력부;

디스플레이;

적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및

상기 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하고,

상기 프로세서는,

상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하고,

상기 인식된 사용자에 대응되는 인디케이터를 표시하도록 상기 디스플레이를 제어하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하도록 상기 디스플레이를 제어하고,

상기 발화를 요구하는 UI가 표시되는 동안 상기 음성입력부를 통해 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자의 상기 인디케이터를 등록하기 위한 음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하고,

상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 상기 메모리 중 적어도 하나에 저장하는 전자 장치.
제2항에 있어서,

상기 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 것을 특징으로 하는 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정하는 전자 장치.
제4항에 있어서,

상기 음도 및 강도는 상기 인디케이터의 크기, 형상, 위치 및 움직임 중 적어도 하나를 결정하고,

상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 음성 인식 모드로의 전환을 위한 텍스트를 포함하는 상기 사용자의 음성이 상기 음성입력부를 통해 입력되면, 상기 입력된 음성을 발화한 사용자를 인식하고,

상기 입력된 음성을 발화한 사용자가 인식되면 상기 음성 인식 모드로 전환하는 전자 장치.
제6항에 있어서,

상기 인디케이터는 상기 사용자에 대응되면서, 현재 전자 장치의 모드가 음성 인식 모드임을 나타내는 인디케이터인 것을 특징으로 하는 전자 장치.
제7항에 있어서,

상기 프로세서는,

상기 음성 인식 모드 동안 상기 음성입력부를 통해 상기 사용자의 음성이 입력되면, 상기 입력된 사용자 음성의 분석 결과에 대응되도록 상기 인디케이터를 변경하는 전자 장치.
제8항에 있어서,

상기 프로세서는,

상기 음성 인식 모드 동안 상기 음성입력부를 통해 입력된 상기 사용자 음성의 음도, 강도 및 음질을 분석하여 기등록된 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 변경하는 전자 장치의 제어방법.
제9항에 있어서,

상기 프로세서는,

상기 등록된 인디케이터와 동시에 상기 사용자에게 명령을 요구하는 메시지를 표시하도록 상기 디스플레이를 제어하는 전자 장치.
전자 장치 제어 방법에 있어서,

사용자의 음성이 입력되면, 기등록된 복수의 음성과 비교하여 상기 입력된 사용자 음성을 발화한 사용자를 인식하는 단계; 및

상기 인식된 사용자에 대응되는 인디케이터를 표시하는 단계;를 포함하는 전자 장치의 제어 방법.
제 11항에 있어서,

상기 인디케이터를 등록하는 단계는,

상기 인디케이터를 등록하기 위한 이벤트가 발생하면, 상기 사용자에게 발화를 요구하는 UI를 표시하는 단계;

상기 발화를 요구하는 UI가 표시되는 동안 상기 사용자의 상기 인디케이터를 등록하기 위한 음성이 입력되면, 상기 사용자의 상기 인디케이터를 등록하기 위한음성을 분석하여 상기 사용자 음성에 대응되는 인디케이터를 획득하는 단계;

상기 사용자에 대한 정보와 상기 획득한 인디케이터를 등록하고 외부 서버 또는 메모리 중 적어도 하나에 저장하는 단계;를 포함하는 전자 장치의 제어 방법.
제12항에 있어서,

상기 UI는 음성 인식 모드로의 전환을 위한 텍스트에 대한 사용자 발화를 요구하는 메시지를 포함하는 것을 특징으로 하는 전자 장치의 제어 방법.
제12항에 있어서,

상기 획득하는 단계는,

상기 사용자 음성의 음도(Pitch), 강도(Loudness) 및 음질(Quality)을 분석하여 인디케이터의 색, 크기, 형상, 위치, 투명도 및 움직임 중 적어도 하나를 결정하는 단계;를 포함하는 전자 장치의 제어 방법.
제14항에 있어서,

상기 음도 및 강도는 상기 인디케이터의 크기, 형상 위치 및 움직임 중 적어도 하나를 결정하고,

상기 음질은 상기 인디케이터의 색 및 투명도 중 적어도 하나를 결정하는 것을 특징으로 하는 전자 장치의 제어 방법.