KR20230101603A

KR20230101603A - 전자 장치 및 그 제어 방법

Info

Publication number: KR20230101603A
Application number: KR1020210191847A
Authority: KR
Inventors: 최지웅; 김현철; 이해리; 황연성
Original assignee: 삼성전자주식회사
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-07-06

Abstract

전자 장치가 개시된다. 전자 장치는, 마이크, 카메라, 통신 인터페이스, 학습된 제1 신경망 모델이 저장된 메모리 마이크, 카메라, 통신 인터페이스 및 메모리와 연결되어 전자 장치를 제어하는 프로세서를 포함하며, 프로세서는, 마이크를 통해 수신된 사용자 음성이 특정 조건에 해당하는 것으로 식별되면, 카메라를 통해 획득된 입 모양 촬영 영상을 제1 신경망 모델에 입력하여 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 획득하고, 획득된 음성 녹음 데이터를 재생하고, 재생되는 음성 녹음 데이터가 통신 인터페이스를 통해 통화의 상대 단말로 전송되도록 제어하며, 제1 신경망 모델은, 카메라를 통해 획득된 사용자의 입 모양 촬영 영상 및 마이크를 통해 수신된 사용자 음성에 기초하여 학습될 수 있다.

Description

전자 장치 및 그 제어 방법 { Electronic apparatus and control method thereof }

본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 음성 데이터를 제공하는 전자 장치 및 그 제어 방법에 관한 것이다.

전자 기술의 발달에 힘입어 다양한 유형의 전자 기기가 개발 및 보급되고 있다. 특히, 스마트폰과 같은 사용자 단말은 사용자의 니즈를 만족시키기 위하여 최근 수년 간 지속적으로 발전하고 있다.

사용자 단말에 구비된 통화 기능을 통해 사용자는 다른 사람과 음성으로 통화를 할 수 있다. 이 경우, 사용자가 큰 목소리를 낼 수 없는 상황이거나, 사용자 주변에 소음이 심해 사용자의 음성이 상대방에게 제대로 전달되지 않는 경우, 통화의 품질이 떨어지고 의사소통에 어려움이 발생하는 문제가 있다.

본 개시는 상술한 필요성에 따른 것으로, 통화 중 획득된 사용자의 입 모양 촬영 영상 및 사용자 음성에 기초하여 음성 데이터를 획득하고, 이를 통화 상대 단말로 전송하는 전자 장치 및 이의 제어 방법을 제공함에 있다.

이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는, 마이크, 카메라, 통신 인터페이스, 학습된 제1 신경망 모델이 저장된 메모리 및 상기 마이크, 상기 카메라, 상기 통신 인터페이스 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하며, 상기 프로세서는, 상기 마이크를 통해 수신된 사용자 음성이 특정 조건에 해당하는 것으로 식별되면, 상기 카메라를 통해 획득된 입 모양 촬영 영상을 상기 제1 신경망 모델에 입력하여 상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 획득하고, 상기 획득된 음성 녹음 데이터를 재생하고, 상기 재생되는 음성 녹음 데이터가 상기 통신 인터페이스를 통해 상기 통화의 상대 단말로 전송되도록 제어하며, 상기 제1 신경망 모델은, 상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성에 기초하여 학습될 수 있다.

여기서, 상기 프로세서는, 통화가 시작되는 이벤트가 발생되면, 상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성을 매칭하여 상기 메모리에 저장할 수 있다.여기서, 상기 메모리는, 사용자의 상이한 입 모양 촬영 영상 각각에 대응되는 음성 녹음 데이터를 저장하며, 상기 프로세서는, 상기 메모리에 저장된 데이터에 기초하여, 상기 마이크를 통해 수신된 사용자 음성이 상기 카메라를 통해 획득된 사용자 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면, 상기 사용자 음성이 상기 특정 조건에 해당하는 것으로 식별할 수 있다.

여기서, 상기 특정 조건은, 상기 마이크를 통해 수신된 사용자 음성에 임계 값 이상의 노이즈 사운드가 포함되어 있는 경우 또는 상기 마이크를 통해 수신된 사용자 음성의 크기가 임계 값 미만인 경우 중 적어도 하나를 포함할 수 있다.

여기서, 상기 제1 신경망 모델로부터 출력되는 출력 데이터는, 상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터 및 상기 음성 녹음 데이터의 정확도에 대응되는 확률 값을 포함하며, 상기 프로세서는, 상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보에 기초하여 상기 카메라를 통해 획득된 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하고, 상기 획득된 음성 데이터를 재생할 수 있다.

여기서, 상기 프로세서는, 상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보 및 상기 카메라를 통해 획득된 사용자 입 모양 영상을 학습된 제2 신경망 모델에 입력하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하며, 상기 제2 신경망 모델은, 통화 내용에 대응되는 음성 및 사용자 입 모양 영상에 기초하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 출력하도록 학습될 수 있다.

또한, 상기 프로세서는, 상기 메모리에 저장된 사용자 음성의 크기 정보에 기초하여 상기 획득된 음성 데이터의 크기를 식별하고, 상기 식별된 크기에 기초하여 상기 획득된 음성 데이터를 재생할 수 있다.

또한, 상기 전자 장치는, 스피커를 더 포함하며, 상기 프로세서는, 상기 재생되는 음성 녹음 데이터를 출력하도록 상기 스피커를 제어할 수 있다.

또한, 상기 프로세서는, 상기 통신 인터페이스를 통해 상기 통화의 상대 단말로 전송되는 데이터가 음성 녹음 데이터임을 나타내는 가이드 사운드를 상기 통신 인터페이스를 통해 상기 통화의 상대 단말로 전송할 수 있다.

여기서, 상기 카메라는, UDC(under display Camera)로 구현되며, 상기 UDC 카메라는, 홈 버튼 영역에 구비될 수 있다.

한편, 본 개시의 일 실시 예에 다른 전자 장치의 제어 방법은, 마이크를 통해 수신된 사용자 음성이 특정 조건에 해당하는 것으로 식별되면, 카메라를 통해 획득된 입 모양 촬영 영상을 제1 신경망 모델에 입력하여 상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 획득하는 단계 및 상기 획득된 음성 녹음 데이터를 재생하고, 상기 재생되는 녹음 데이터를 상기 통화의 상대 단말로 전송하는 단계를 포함하며, 상기 제1 신경망 모델은, 상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성에 기초하여 학습될 수 있다.

여기서, 제어 방법은, 상기 통화가 시작되는 이벤트가 발생되면, 상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성을 매칭하여 메모리에 저장하는 단계를 더 포함할 수 있다.

또한, 상기 메모리에 저장하는 단계는, 사용자의 상이한 입 모양 촬영 영상 각각에 대응되는 음성 녹음 데이터를 저장하며, 상기 제어 방법은, 상기 메모리에 저장된 데이터에 기초하여, 상기 마이크를 통해 수신된 사용자 음성이 상기 카메라를 통해 획득된 사용자 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면, 상기 사용자 음성이 상기 특정 조건에 해당하는 것으로 식별하는 단계를 더 포함할 수 있다.

또한, 상기 제1 신경망 모델로부터 출력되는 출력 데이터는, 상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터 및 상기 음성 녹음 데이터의 정확도에 대응되는 확률 값을 포함하며, 상기 제어 방법은, 상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보에 기초하여 상기 카메라를 통해 획득된 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하고, 상기 획득된 음성 데이터를 재생하는 단계를 더 포함할 수 있다.

여기서, 상기 음성 데이터를 획득하는 단계는, 상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보 및 상기 카메라를 통해 획득된 사용자 입 모양 영상을 학습된 제2 신경망 모델에 입력하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하며, 상기 제2 신경망 모델은, 통화 내용에 대응되는 음성 및 사용자 입 모양 영상에 기초하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 출력하도록 학습될 수 있다.

여기서, 상기 음성 데이터를 재생하는 단계는, 상기 메모리에 저장된 사용자 음성의 크기 정보에 기초하여 상기 획득된 음성 데이터의 크기를 식별하고, 상기 식별된 크기에 기초하여 상기 획득된 음성 데이터를 재생할 수 있다.

또한, 상기 재생되는 음성 녹음 데이터를 스피커를 통해 출력하는 단계를 더 포함할 수 있다.

또한, 상기 통화의 상대 단말로 전송하는 단계는, 상기 통화의 상대 단말로 전송되는 데이터가 녹음 데이터임을 나타내는 가이드 사운드를 상기 통화의 상대 단말로 전송할 수 있다.

또한, 상기 카메라는, UDC(under display Camera)로 구현되며, 상기 UDC 카메라는, 홈 버튼 영역에 구비될 수 있다.

상술한 다양한 실시 예에 따르면, 통화 중 획득된 사용자의 입 모양 촬영 영상 및 사용자 음성에 기초하여 음성 데이터를 획득하고, 이를 통화 상대 단말로 전송하는 전자 장치 및 이의 제어 방법을 제공할 수 있다. 이에 따라 사용자의 만족도가 향상될 수 있다.

도 1은 일 실시 예에 따른 전자 장치의 음성 데이터 제공 방법을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.
도 3은 일 실시 예에 따른 입 모양 촬영 영상 및 사용자 음성 획득 방법을 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 제1 신경망 모델을 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 제2 신경망 모델을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른 음성 녹음 데이터 획득 및 전송 방법을 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른 음성 녹음 데이터 및 음성 데이터 생성 방법을 설명하기 위한 흐름도이다.
도 8은 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 도면이다.

이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.

본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.

도 1은 일 실시 예에 따른 전자 장치의 음성 데이터 제공 방법을 설명하기 위한 도면이다.

일 실시 예에 따르면, 전자 장치(100)는 스마트 폰, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 디지털방송용 단말기, 네비게이션, MP3 플레이어 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않으며 통화 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기 등 통화 기능을 구비한 어떠한 전자 장치(100)도 포함될 수 있다.

통화가 시작되는 이벤트가 발생하면, 전자 장치(100)는 사용자(10)로부터 마이크(미도시)를 통하여 사용자 음성을 수신하고, 이에 기초하여 음성 데이터를 획득하여 이를 통화 상대 단말(200)로 전송할 수 있다.

다만, 사용자(10)가 공공 장소 등 주변에 소음 또는 노이즈(noise)가 심한 상황에서 통화를 하는 경우, 마이크(미도시)를 통해 수신된 음성 데이터에는 사용자의 음성과 함께 주변 소음에 대응되는 음성 데이터가 포함될 수 있다. 이에 따라 통화 상대 단말(200)을 통해 통화를 하는 상대방(20)은 사용자 음성과 주변 소음을 같이 듣게 되어 통화의 품질이 낮아지게 된다.

다른 예로, 사용자(10)가 도서관 등의 조용한 곳에서 통화를 하여 목소리를 크게 낼 수 없는 경우, 마이크(미도시)를 통해 수신된 음성 데이터에 사용자 음성이 포함되지 않거나 아주 작은 크기의 사용자 음성이 포함되는 바 통화 상대방(20)과의 의사소통에 어려움이 발생하게 된다.

이에 따라, 이하에서는 통화 중 획득된 사용자의 입 모양 촬영 영상 및 사용자 음성에 기초하여 음성 데이터를 획득하고, 이를 통화 상대 단말로 전송하는 다양한 실시 예에 대하여 설명하도록 한다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다.

도 2에 따른 전자 장치(100)는 마이크(110), 카메라(120), 통신 인터페이스(130), 메모리(140) 및 프로세서(150)를 포함한다.

마이크(110)는 소리를 획득하여 전기 신호로 변환하는 모듈을 의미할 수 있으며, 콘덴서 마이크, 리본 마이크, 무빙코일 마이크, 압전소자 마이크, 카본 마이크, MEMS(Micro Electro Mechanical System) 마이크일 수 있다. 또한, 무지향성, 양지향성, 단일지향성, 서브 카디오이드(Sub Cardioid), 슈퍼 카디오이드(Super Cardioid), 하이퍼 카디오이드(Hyper Cardioid)의 방식으로 구현될 수 있다.

카메라(120)는 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라(120)는 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.

통신 인터페이스(130)는 타 사용자 단말 등의 네트워크 장치(미도시)와 통신을 수행할 수 있다.

일 실시 예에 따라 통신 인터페이스(130)는 무선 통신 모듈, 예를 들어, Wi-Fi 모듈, 블루투스 모듈 등을 포함할 수 있다. 다만, 이에 한정되는 것은 아니며, 통신 인터페이스(150)는 상술한 통신 방식 이외에 지그비(zigbee), 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 4G(4th Generation), 5G(5th Generation)등과 같은 다양한 무선 통신 규격, 적외선 통신(IrDA, infrared Data Association) 기술 등에 따라 통신을 수행할 수도 있다.

메모리(140)는 본 개시의 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(140)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)와 통신 가능한(또는 탈부착 가능한) 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)와 통신 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)와 통신 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.

다른 예에 따라, 메모리(140)는 복수의 레이어를 포함하는 신경망 모델에 관한 정보를 저장할 수 있다. 여기서, 신경망 모델에 관한 정보를 저장한다는 것은 신경망 모델의 동작과 관련된 다양한 정보, 예를 들어 신경망 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 사용되는 파라미터(예를 들어, 필터 계수, 바이어스 등)에 대한 정보 등을 저장한다는 것을 의미할 수 있다. 예를 들어, 메모리(140)는 일 실시 예에 따라 영상 데이터에 대응되는 음성 녹음 데이터를 예측하여 출력하도록 학습된 제1 신경망 모델에 대한 정보를 저장할 수 있다. 또한, 메모리(140)는 통화 컨텐츠 및 영상 데이터에 대응되는 음성 데이터를 예측하여 획득하도록 학습된 제2 신경망 모델에 대한 정보를 저장할 수 있다. 다만, 프로세서(150)가 신경망 모델 전용 하드웨어로 구현되는 경우, 신경망 모델에 관한 정보는 프로세서(150) 내부 메모리에 저장될 수도 있다.

일 실시 예에 따르면, 메모리(140)는 본 개시에 따른 다양한 동작들에서 생성되는 데이터를 저장하는 단일 메모리로 구현될 수 있다. 다만, 다른 실시 예에 따르면, 메모리(140)는 상이한 타입의 데이터를 각각 저장하거나, 상이한 단계에서 생성되는 데이터를 각각 저장하는 복수의 메모리를 포함하도록 구현될 수도 있다.

프로세서(150)는 마이크(110), 카메라(120), 통신 인터페이스(130) 및 메모리(140)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작을 제어한다. 프로세서(150)는 하나 또는 복수의 프로세서로 구성될 수 있다. 구체적으로, 프로세서(150)는 메모리(140)에 저장된 적어도 하나의 인스트럭션(instruction)을 실행함으로써, 본 개시의 다양한 실시 예에 따른 전자 장치(100)의 동작을 수행할 수 있다.

일 실시 예에 따라 프로세서(150)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), GPU(Graphics Processing Unit), AI(Artificial Intelligence) 프로세서, NPU (Neural Processing Unit), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 애플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(150)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, ASIC(application specific integrated circuit), FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

또한, 일 실시 예에 따른 신경망 모델을 실행하기 위한 프로세서(150)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서와 소프트웨어의 조합을 통해 구현될 수 있다. 프로세서(150)는, 메모리(110)에 저장된 기 정의된 동작 규칙 또는 신경망 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(150)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 신경망 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 신경망 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(150)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 사용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.

일 실시 예에 따라 통화가 시작되는 이벤트가 발생되면, 프로세서(150)는 카메라(120)를 통해 획득된 사용자의 입 모양 촬영 영상 및 마이크(110)를 통해 수신된 사용자 음성을 매칭하여 메모리(140)에 저장할 수 있다.

여기서, 입 모양 촬영 영상은 통화 중 사용자의 입 모양을 촬영한 영상을 의미하며, 사용자 단말 등 전자 장치(100)의 일 측에 위치한 카메라(130)를 통해 획득될 수 있다. 일 예에 따라, 카메라(130)는 홈 버튼 영역에 구비될 수 있다. 이 경우, 카메라(130)는 UDC(Under display camera)일 수 있으며, 프로세서(150)는 홈 버튼 영역에 구비된 UDC를 통해 사용자의 입과 가까운 위치에서 영상을 획득할 수 있다. UDC는 디스플레이 패널 아래에 위치한 카메라를 의미하며, 디스플레이의 픽셀 밀도를 줄이고 그 아래에 카메라가 위치함으로써 디스플레이 패널에 별도의 구멍이 없어도 카메라의 구동이 가능하다.

일 예에 따라, 통화가 시작되는 이벤트가 발생되면, 프로세서(150)는 통화 계속 중 획득된 사용자의 상이한 입 모양 촬영 영상 각각에 대응되는 음성 녹음 데이터를 메모리(140)에 저장할 수 있다. 이 경우, 프로세서(150)는 수신된 사용자 음성을 단어(word) 단위 또는 문장(sentence) 단위로 식별하고, 식별된 단위에 대응되는 사용자 음성 및 입 모양 촬영 영상을 매칭하여 메모리(140)에 저장할 수 있다.

예를 들어, 마이크를 통해 “오늘 몇 시에 봐?”에 대응되는 사용자 음성이 수신되면, 프로세서(150)는 “오늘”, “몇 시” 및 “봐?”로 문장을 단어 단위로 식별하고, 식별된 “오늘”, “몇 시” 및 “봐?” 각각에 대응되는 촬영 영상을 매칭하여 메모리(140)에 저장할 수 있다. 다른 예로, 프로세서(150)는 “오늘 몇 시에 봐?”에 대응되는 사용자 음성이 수신되면, 이를 하나의 문장 단위로 식별하고, “오늘 몇 시에 봐?”에 대응되는 입 모양 촬영 영상을 매칭하여 이를 메모리(140)에 저장할 수도 있다.

일 실시 예에 따라, 프로세서(150)는 마이크(110)를 통해 수신된 사용자 음성이 특정 조건에 해당하는 것으로 식별되면, 카메라(120)를 통해 획득된 입 모양 촬영 영상을 제1 신경망 모델에 입력하여 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 획득할 수 있다. 여기서, 특정 조건은 마이크(110)를 통해 수신된 사용자 음성에 임계 값 이상의 노이즈(noise) 사운드가 포함되어 있는 경우 또는 마이크(110)를 통해 수신된 사용자 음성의 크기가 임계 값 미만인 경우 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다. 노이즈 사운드는 사용자 목소리에 대응되는 음성 이외의 사운드를 의미한다.

다른 예로, 프로세서(150)는 메모리(140)에 저장된 데이터에 기초하여, 마이크(110)를 통해 수신된 사용자 음성이 카메라(120)를 통해 획득된 사용자 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면 입 모양 촬영 영상을 제1 신경망 모델에 입력할 수도 있다. 이에 대하여는 도 6을 통해 자세히 설명한다.

한편, 제1 신경망 모델은 사용자의 입 모양 촬영 영상 및 이에 대응되는 사용자 음성에 기초하여 학습되며, 프로세서(150)는 제1 신경망 모델을 통해 메모리(140)에 기 저장된 사용자 음성 중 입력된 입 모양 촬영 영상에 가장 잘 대응되는 사용자 음성을 식별하고 이를 음성 녹음 데이터로 획득할 수 있다.

이 경우, 제1 신경망 모델로부터 출력되는 적어도 하나의 출력 데이터는 입 모양 촬영 영상에 대응되는 음성 녹음 데이터 및 음성 녹음 데이터의 정확도에 대응되는 확률 값을 포함하며, 프로세서(150)는 적어도 하나의 출력 데이터 중 식별된 하나의 데이터를 음성 녹음 데이터로 획득할 수 있다. 일 예에 따라, 프로세서(150)는 적어도 하나의 출력 데이터 중 확률 값이 임계 값 이상이며 가장 큰 확률 값을 가지는 출력 데이터를 음성 녹음 데이터로 획득할 수 있으나 이에 한정되는 것은 아니다. 이에 대하여는 도 4를 통해 자세히 설명한다.

이 후, 일 실시 예에 따라 프로세서(150)는 획득된 음성 녹음 데이터를 재생하고, 재생되는 음성 녹음 데이터가 통신 인터페이스(130)를 통해 통화의 상대 단말로 전송되도록 제어할 수 있다. 이 경우, 프로세서(150)는 재생되는 음성 녹음 데이터를 출력하도록 스피커(미도시)를 제어할 수도 있다.

일 예에 따라, 통화 중 사용자 음성의 크기가 기 설정된 값 미만인 것으로 식별된 경우를 상정한다. 이 경우, 프로세서(150)는 제1 신경망 모델을 통해 획득된 음성 녹음 데이터로서 “내일 몇 시에 봐?”에 대응되는 녹음 데이터를 재생하고, 이를 통신 인터페이스(130)를 통해 통화의 상대 단말로 전송하도록 제어할 수 있다. 이 경우, 프로세서(150)는 “내일 몇 시에 봐?”에 대응되는 음성 녹음 데이터를 출력하도록 스피커(미도시)를 제어할 수 있다. 이에 따라, 사용자가 목소리를 키우지 않아도 사용자가 의도한 음성을 통화의 상대 단말로 전송할 수 있게 되며, 사용자 역시 자신의 의도한 음성이 전송되는지 확인할 수 있게 된다.

한편, 다른 실시 예에 따라, 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 프로세서(150)는 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보에 기초하여 카메라(120)를 통해 획득된 사용자 입 모양 촬영 영상에 대응되는 음성 데이터를 획득하고, 획득된 음성 데이터를 재생할 수 있다.

일 예에 따라, 프로세서(150)는 획득된 사용자 음성, 통화 상대방 음성에 대응되는 정보 및 획득된 사용자 입 모양 영상을 학습된 제2 신경망 모델에 입력하여 사용자 입 모양 영상에 대응되는 음성 데이터를 획득할 수 있다. 여기서, 통화 상대방 음성에 대응되는 정보는 통화 상대방 단말로부터 수신된 음성 데이터를 의미하며, 통화 중 획득된 통화 상대방과의 통화 내역에 대한 정보를 포함할 수 있다.

예를 들어, 제1 신경망을 통해 획득된 음성 녹음 데이터에 대응되는 확률 값이 미만인 경우를 상정한다. 통화 상대 단말로부터 “오늘 몇 시에 만나?”에 대응되는 정보가 획득되고, “오후 일곱시”에 대응되는 사용자 입 모양 영상이 획득된 경우, 프로세서(150)는 “오늘 몇 시에 만나?”에 대응되는 정보 및 “오후 일곱시”에 대응되는 사용자 입 모양 영상을 제2 신경망 모델에 입력하고, “오후 일곱시”에 대응되는 음성 데이터를 획득하여 이를 재생할 수 있다.

한 편, 제2 신경망 모델은 통화 내용에 대응되는 음성 및 사용자 입 모양 영상에 기초하여 사용자 입 모양 영상에 대응되는 음성 데이터를 출력하도록 학습된다. 통화 내용에 대응되는 음성은 상술한 통화 상대방 음성에 대응되는 정보 및 사용자 음성을 포함할 수 있다.

이 경우, 제2 신경망 모델로부터 출력되는 적어도 하나의 출력 데이터는 입 모양 촬영 영상에 대응되는 음성 데이터 및 음성 데이터의 정확도에 대응되는 확률 값을 포함하며, 프로세서(150)는 적어도 하나의 출력 데이터 중 식별된 하나의 데이터를 음성 데이터로 획득할 수 있다. 일 예에 따라, 프로세서(150)는 적어도 하나의 출력 데이터 중 확률 값이 임계 값 이상이며 가장 큰 확률 값을 가지는 출력 데이터를 음성 데이터로 획득할 수 있으나 이에 한정되는 것은 아니다. 이에 대하여는 도 5를 통해 자세히 설명한다.

한편, 상술한 제1 신경망 모델 및 제2 신경망 모델 각각은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 신경망 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 신경망 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 업데이트될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RLN(Reinforcement Learning Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

또한, 일 예에 따라 제1 신경망 모델 및 제2 신경망 모델의 출력 데이터는 softmax 처리가 가능하도록 구현될 수 있다. 여기서, softmax 는 입력 데이터를 0 ~ 1 사이 값으로 모두 정규화하며 출력 값들의 총합을 항상 1로 만드는 함수로, 각 class 별 확률 값을 출력할 수 있다. Argmax 는 다수의 label 중에서 가장 가능성 높은 것을 선택해 주는 함수로, 여기에서는 각 class 별 확률 값을 확률 값 중 가장 큰 값을 가지는 비율을 선택하여 출력할 수 있다. 즉, 제1 신경망 모델 및 제2 신경망 모델 각각의 출력 데이터가 Argmax 처리되어 있는 경우, 가장 높은 확률 값을 가지는 하나의 음성 녹음 데이터 또는 음성 데이터 만이 출력될 수 있게 된다.

한편, 일 실시 예에 따라, 프로세서(150)는 메모리(140)에 저장된 사용자 음성의 크기 정보에 기초하여 획득된 음성 녹음 데이터 또는 음성 데이터의 크기를 식별하고, 식별된 크기에 기초하여 획득된 음성 녹음 데이터 또는 음성 데이터를 재생할 수 있다. 일 예에 따라, 프로세서(150)는 메모리(140)에 저장된 사용자 음성의 크기 정보의 평균 값 또는 평균 값의 70%에 해당하는 크기를 음성 녹음 데이터 또는 음성 데이터의 크기로 식별할 수 있다. 다른 예로, 프로세서(150)는 통화 상대방의 음성 크기를 식별하고, 이를 음성 녹음 데이터 또는 음성 데이터의 크기로 식별할 수 있다.

한편, 일 실시 예에 따라, 프로세서(150)는 통신 인터페이스(130)를 통해 통화의 상대 단말로 전송되는 데이터가 음성 녹음 데이터임을 나타내는 가이드 사운드를 통신 인터페이스(130)를 통해 통화의 상대 단말로 전송할 수 있다. 예를 들어, 프로세서(150)는 통화의 상대 단말로 음성 녹음 데이터를 전송하기 전에 가이드 사운드에 대응되는 음성 데이터를 통신 인터페이스(130)를 통해 상대 단말로 전송할 수 있다. 다만 이에 한정되는 것은 아니고, 상술한 소리 이외의 다른 소리에 대응되는 음성 데이터가 전송될 수 있음은 물론이다.

도 3은 일 실시 예에 따른 입 모양 촬영 영상 및 사용자 음성 획득 방법을 설명하기 위한 도면이다.

도 3에 따르면, 일 예에 따라 프로세서(150)는 전자 장치(100)의 홈 버튼 영역에 구비된 UDC(under display camera, 310)를 통해 사용자의 입 모양 촬영 영상(320)을 획득할 수 있다. 이에 따라, UDC(310)는 사용자의 입과 가까운 위치에서 입 모양 영상(320)을 촬영할 수 있다. 또한, 프로세서(150)는 마이크(110)를 통해 사용자 음성을 수신할 수 있다. 예를 들어, 도 3에 도시된 바와 같이 사용자를 통해 “오늘 몇 시에 와?”에 대응되는 사용자 음성이 수신되는 동안, 프로세서(150)는 UDC(310)를 통해 상술한 사용자 음성에 대응되는 입 모양 촬영 영상(320)를 획득할 수 있다.

이 경우, 프로세서(150)는 수신된 사용자 음성을 단어(word) 단위인 “오늘”, “몇 시”, “와?”로 식별하여 각각에 대응되는 입 모양 촬영 영상과 매칭하여 메모리(140)에 저장할 수 있다. 또는 프로세서(150)는 수신된 사용자 음성을 문장(sentence) 단위로서 “오늘 몇 시에 와?”로 식별하고, 이에 대응되는 입 모양 촬영 영상(320)을 매칭하여 메모리(140)에 저장할 수도 있다.

도 4는 일 실시 예에 따른 제1 신경망 모델을 설명하기 위한 도면이다.

먼저, 제1 신경망 모델(410)은 사용자의 입 모양 촬영 영상 및 이에 대응되는 사용자 음성에 기초하여 학습될 수 있다. 일 실시 예에 따라, 프로세서(150)는 메모리(140)에 기 저장된 사용자의 입 모양 촬영 영상 및 이와 매칭된 사용자 음성을 제1 신경망 모델(410)에 입력할 수 있고, 이에 따라 제1 신경망 모델(410)은 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 출력하도록 학습될 수 있다.

프로세서(150)는 카메라(120)를 통해 획득된 입 모양 촬영 영상(420)을 제1 신경망 모델(410)에 입력하여 이에 대응되는 적어도 하나의 출력 데이터(430)를 획득할 수 있다.

일 예에 따라, 통화가 시작되는 이벤트가 발생되고, 사용자 음성에 임계 값 이상의 노이즈 사운드가 포함되어 있는 경우를 상정하도록 한다. 사용자로부터 “뭐 하고 있어?”에 대응되는 사용자 음성을 노이즈 사운드와 함께 수신한 경우, 프로세서(150)는 카메라(120)를 통해 사용자의 실시간 입 모양 영상(420)을 획득하고 이를 제1 신경망 모델(410)에 입력할 수 있다. 이 후, 프로세서(150)는 입력된 입 모양 영상(420)에 대응되는 출력 데이터(430)로서 복수의 음성 녹음 데이터 1 내지 n 및 음성 녹음 데이터 각각에 대응되는 확률 값을 획득할 수 있다.

이 후, 프로세서(150)는 적어도 하나의 음성 녹음 데이터 중 확률 값이 임계 값인 0.95 이상이며 가장 큰 확률 값을 가지는 음성 녹음 데이터 1을 획득할 수 있다. 프로세서(150)는 획득된 음성 녹음 데이터 1을 재생하고, 통신 인터페이스(130)를 통해 통화의 상대 단말로 전송되도록 제어할 수 있다.

도 5는 일 실시 예에 따른 제2 신경망 모델을 설명하기 위한 도면이다.

도 5에 따르면, 제2 신경망 모델(510)은 통화 내용에 대응되는 음성 및 사용자 입 모양 영상에 기초하여 사용자 입 모양 영상에 대응되는 음성 데이터를 출력하도록 학습될 수 있다.

프로세서(150)는 카메라(120)를 통해 획득된 입 모양 촬영 영상과 통화 컨텐츠를 제2 신경망 모델(510)에 입력하여 이에 대응되는 적어도 하나의 출력 데이터(530)를 획득할 수 있다. 여기서, 통화 컨텐츠는 통화 내용에 대응되는 음성을 의미하며, 사용자 음성 및 통화 상대 단말로부터 수신되는 음성 데이터를 포함할 수 있다.

일 예에 따라, 통화가 시작되는 이벤트가 발생되고, 사용자 음성에 임계 값 이상의 노이즈 사운드가 포함되어 있는 경우를 상정하도록 한다. 사용자로부터 “우리 어디서 만날까?”에 대응되는 사용자 음성을 노이즈 사운드와 함께 수신한 경우, 먼저 프로세서(150)는 카메라(120)를 통해 사용자의 실시간 입 모양 영상을 획득하고 이를 제1 신경망 모델에 입력할 수 있다. 이 후, 프로세서(150)는 제1 신경망 모델을 통해 출력된 음성 녹음 데이터의 확률 값이 기 설정된 임계 값 미만인 것으로 식별되면, 획득된 통화 컨텐츠 및 사용자 입 모양 영상을 제2 신경망 모델에 입력할 수 있다. 여기서, 통화 컨텐츠는 사용자와 통화 상대와의 통화 내용에 대한 데이터일 수 있다.

이 후, 프로세서(150)는 입력된 입 모양 영상(520)에 대응되는 출력 데이터(530)로서 복수의 음성 데이터 1 내지 n 및 음성 데이터 각각에 대응되는 확률 값을 획득할 수 있다. 프로세서(150)는 적어도 하나의 음성 데이터 중 가장 큰 확률 값(0.9)을 가지는 음성 데이터 1을 획득할 수 있다. 프로세서(150)는 획득된 녹음 데이터를 재생하고, 재생되는 음성 데이터를 통신 인터페이스(130)를 통해 통화의 상대 단말로 전송되도록 제어할 수 있다.

도 6은 일 실시 예에 따른 음성 녹음 데이터 획득 및 전송 방법을 설명하기 위한 도면이다.

일 실시 예에 따라, 사용자(610)가 소리를 낼 수 없는 상황에서 통화가 시작되는 이벤트가 발생되는 경우를 상정한다. 프로세서(150)는 통화가 계속 중인 것으로 식별되고, 마이크(110)를 통해 수신된 사용자 음성(611)의 크기가 임계 값 미만인 0dB(decibel)로 식별되면, 통화 계속 중 카메라(120)를 통해 획득된 입 모양 촬영 영상을 제1 신경망 모델에 입력하여 “오늘 몇 시에 와?”에 대응되는 음성 녹음 데이터를 획득할 수 있다. 이 경우, 임계 값의 크기는 5 dB이 될 수 있으나, 이에 한정되는 것은 아니며 다른 임계 값이 기 설정되어 메모리(140)에 저장되어 있을 수 있다.

또는, 다른 실시 예에 따라 프로세서(150)는 메모리(140)에 저장된 데이터에 기초하여, 마이크(110)를 통해 수신된 사용자 음성이 카메라(120)를 통해 획득된 사용자 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면 입 모양 촬영 영상을 제1 신경망 모델에 입력할 수도 있다. 도 6에 따라, 사용자 음성이 무음으로 식별되어 사용자 음성이 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면 프로세서(150)는 입 모양 촬영 영상을 제1 신경망 모델에 입력할 수 있다.

이 후, 프로세서(150)는 획득된 음성 녹음 데이터를 재생하고, “오늘 몇 시에 와?”에 대응되는 음성 녹음데이터가 통신 인터페이스(130)를 통해 통화의 상대 단말(200)로 전송되도록 제어할 수 있다. 이에 따라 통화 상대방(620)은 사용자의 음성이 0dB이더라도 “오늘 몇 시에 와”에 대응되는 음성을 수신할 수 있다. 이 후, 통화 상대 단말의 프로세서는 “6시에 도착이야.”에 대응되는 사용자 음성을 수신하여 전자 장치(100)로 전송하도록 제어할 수 있다.

본 개시에 따르면, 사용자가 소리를 낼 수 없는 환경에서 통화를 하더라도 사용자의 음성을 전송할 수 있어 통화 품질이 향상되고 사용자의 만족도가 향상될 수 있다.

도 7은 일 실시 예에 따른 음성 녹음 데이터 및 음성 데이터 생성 방법을 설명하기 위한 흐름도이다.

도 7에 따르면, 먼저 통화가 수신 또는 송신됨으로서 통화가 시작되는 이벤트가 발생한다(S710).

통화가 시작되는 이벤트가 발생되면, 프로세서(150)는 사용자 음성에 대응되는 음성 데이터 및 사용자의 입 모양을 촬영한 영상 데이터를 획득한다(S720). 이어서, 프로세서(150)는 획득된 영상 데이터 및 음성 데이터를 매칭하고, 이를 메모리(140)에 저장한다(S730).

이 후, 프로세서(150)는 음성 데이터가 특정 조건에 해당하는지 여부를 식별한다(S740). 여기서, 특정 조건은 획득된 사용자 음성에 임계 값 이상의 노이즈 사운드가 포함되어 있거나, 사용자 음성의 크기가 임계 값 미만인 경우를 포함할 수 있다.

음성 데이터가 상술한 특정 조건에 해당하는 것으로 식별되면, 프로세서(150)는 제1 신경망 모델을 통해 음성 녹음 데이터를 획득한다(S750).

이 후, 프로세서(150)는 획득된 음성 녹음 데이터의 확률 값이 임계 값 이상인지 여부를 식별한다(S760). 먼저, 획득된 음성 녹음 데이터의 확률 값이 임계 값 이상인 것으로 식별되면, 프로세서(150)는 획득된 음성 녹음 데이터를 재생하고(S770), 획득된 음성 녹음 데이터의 확률 값이 임계 값 미만인 것으로 식별되면, 제2 신경망 모델 통해 음성 데이터를 획득하고 이를 재생한다(S780).

S770 단계를 통해 음성 녹음 데이터가 재생된 후, 프로세서(150)는 통화가 종료되었는지 여부를 식별한다(S790). 통화가 종료된 것으로 식별되면, 프로세서(150)는 통화 내역을 확인하고 정확도를 개선한다(S795). 이 경우, 프로세서(150)는 사용자 인터페이스(미도시)를 통한 사용자 입력에 기초하여 재생된 음성 녹음 데이터에 대응되는 정확도 값을 산출할 수 있다.

한 편, 음성 녹음 데이터가 재생된 후에도 통화가 종료되지 않은 것으로 식별되면, 프로세서(150)는 S720 단계로 돌아가 영상 데이터 및 음성 데이터를 획득한다.

도 8은 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.

도 8에 도시된 전자 장치의 제어 방법에 따르면, 마이크를 통해 수신된 사용자 음성이 특정 조건에 해당하는지 여부를 식별한다(S810). 여기서, 특정 조건은, 마이크를 통해 수신된 사용자 음성에 임계 값 이상의 노이즈 사운드가 포함되어 있는 경우 또는 마이크를 통해 수신된 사용자 음성의 크기가 임계 값 미만인 경우 중 적어도 하나를 포함할 수 있다.

이어서, 카메라를 통해 획득된 입 모양 촬영 영상을 제1 신경망 모델에 입력하여 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 획득한다(S820).

이어서, 획득된 음성 녹음 데이터를 재생하고, 재생되는 녹음 데이터를 통화의 상대 단말로 전송한다(S830). 여기서, S830 단계는, 통화의 상대 단말로 전송되는 데이터가 녹음 데이터임을 나타내는 가이드 사운드를 통화의 상대 단말로 전송할 수 있다.

한편, 제어 방법은, 통화가 시작되는 이벤트가 발생하면, 카메라를 통해 획득된 사용자의 입 모양 촬영 영상 및 마이크를 통해 수신된 사용자 음성을 매칭하여 저장할 수 있다. 또한, 사용자의 상이한 입 모양 촬영 영상 각각에 대응되는 음성 녹음 데이터를 저장할 수 있다.

한편, 제어 방법은, 메모리에 저장된 데이터에 기초하여, 마이크를 통해 수신된 사용자 음성이 카메라를 통해 획득된 사용자 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면, 사용자 음성이 특정 조건에 해당하는 것으로 식별하는 단계를 더 포함할 수 있다. 여기서, 카메라는, UDC(under display camera)로 구현되며, UDC는, 홈 버튼 영역에 구비될 수 있다.

한편, 제1 신경망 모델로부터 출력되는 출력 데이터는, 입 모양 촬영 영상에 대응되는 음성 녹음 데이터 및 음성 녹음 데이터의 정확도에 대응되는 확률 값을 포함하며, 제어 방법은, 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보에 기초하여 카메라를 통해 획득된 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하고, 획득된 음성 데이터를 재생하는 단계를 더 포함할 수 있다.

여기서, 음성 데이터를 획득하는 단계는, 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보 및 카메라를 통해 획득된 사용자 입 모양 영상을 학습된 제2 신경망 모델에 입력하여 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하며, 제2 신경망 모델은, 통화 내용에 대응되는 음성 및 사용자 입 모양 영상에 기초하여 사용자 입 모양 영상에 대응되는 음성 데이터를 출력하도록 학습될 수 있다.

또한, 음성 데이터를 재생하는 단계는, 메모리에 저장된 사용자 음성의 크기 정보에 기초하여 획득된 음성 데이터의 크기를 식별하고, 식별된 크기에 기초하여 획득된 음성 데이터를 재생할 수 있다.

한편, 제어 방법은 재생되는 음성 녹음 데이터를 스피커를 통해 출력하는 단계를 더 포함할 수 있다.

도 9는 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 도면이다.

도 9에 따르면, 전자 장치(100')는 마이크(110), 카메라(120), 통신 인터페이스(130), 메모리(140), 프로세서(150), 스피커(160), 사용자 인터페이스(170) 및 디스플레이(180)를 포함할 수 있다. 도 9에 도시된 구성 중 도 2에 도시된 구성과 중복되는 구성에 대해서는 자세한 설명을 생략하도록 한다.

스피커(160)는, 고음역대 소리 재생을 위한 트위터, 중음역대 소리 재생을 위한 미드레인지, 저음역대 소리 재생을 위한 우퍼, 극저음역대 소리 재생을 위한 서브우퍼, 공진을 제어하기 위한 인클로저, 스피커에 입력되는 전기 신호 주파수를 대역 별로 나누는 크로스오버 네트워크 등으로 이루어질 수 있다.

스피커(160)는, 음향 신호를 전자 장치(100')의 외부로 출력할 수 있다. 스피커(160)는 멀티미디어 재생, 녹음 재생, 각종 알림음, 음성 메시지 등을 출력할 수 있다. 전자 장치(100')는 스피커(160)와 같은 오디오 출력 장치를 포함할 수 있으나, 오디오 출력 단자와 같은 출력 장치를 포함할 수 있다. 특히, 스피커(160)는 획득한 정보, 획득한 정보에 기초하여 가공·생산한 정보, 사용자 음성에 대한 응답 결과 또는 동작 결과 등을 음성 형태로 제공할 수 있다.

사용자 인터페이스(170)는 전자 장치(100')가 사용자와 인터렉션(Interaction)을 수행하기 위한 구성이다. 예를 들어 사용자 인터페이스(170)는 터치 센서, 모션 센서, 버튼, 조그(Jog) 다이얼, 스위치, 마이크 또는 스피커 중 적어도 하나를 포함할 수 있으나 이에 한정되는 것은 아니다.

디스플레이(180)는 자발광 소자를 포함하는 디스플레이 또는, 비자발광 소자 및 백라이트를 포함하는 디스플레이로 구현될 수 있다. 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, LED(Light Emitting Diodes), 마이크로 LED(micro LED), Mini LED, PDP(Plasma Display Panel), QD(Quantum dot) 디스플레이, QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(180) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다.

한편, 디스플레이(180)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 롤러블 디스플레이(rollable display), 3차원 디스플레이(3D display), 복수의 디스플레이 모듈이 물리적으로 연결된 디스플레이 등으로 구현될 수 있다. 또한, 디스플레이(180)는 터치 스크린을 내장하고 있어, 손가락 또는 펜(예를 들어, 스타일러스 펜)을 이용하여 프로그램을 실행시킬 수 있도록 구현될 수 있다.

상술한 다양한 실시 예에 따르면, 통화 중 획득된 사용자의 입 모양 촬영 영상 및 사용자 음성에 기초하여 음성 데이터를 획득하고, 이를 통화 상대 단말로 전송할 수 있게 된다. 이에 따라 시끄러운 공간 또는 소리를 낼 수 없는 공간에서도 음성 데이터를 전송할 수 있어 통화 품질이 향상되고 의사소통의 불편함이 해소될 수 있다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들은 딥 러닝 기반의 인공 신경망(또는 심층 인공 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치의 외부 서버를 통해 수행되는 것도 가능하다.

한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 디스플레이 장치(예: 디스플레이 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100: 전자 장치 110: 마이크
120: 카메라 130: 통신 인터페이스
140: 메모리 150: 프로세서

Claims

전자 장치에 있어서,
마이크;
카메라;
통신 인터페이스;
학습된 제1 신경망 모델이 저장된 메모리; 및
상기 마이크, 상기 카메라, 상기 통신 인터페이스 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하며,
상기 프로세서는,
상기 마이크를 통해 수신된 사용자 음성이 특정 조건에 해당하는 것으로 식별되면, 상기 카메라를 통해 획득된 입 모양 촬영 영상을 상기 제1 신경망 모델에 입력하여 상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 획득하고,
상기 획득된 음성 녹음 데이터를 재생하고,
상기 재생되는 음성 녹음 데이터가 상기 통신 인터페이스를 통해 통화의 상대 단말로 전송되도록 제어하며,
상기 제1 신경망 모델은,
상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성에 기초하여 학습되는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
통화가 시작되는 이벤트가 발생되면, 상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성을 매칭하여 상기 메모리에 저장하는, 전자 장치.
제2항에 있어서,
상기 메모리는,
사용자의 상이한 입 모양 촬영 영상 각각에 대응되는 음성 녹음 데이터를 저장하며,
상기 프로세서는,
상기 메모리에 저장된 데이터에 기초하여, 상기 마이크를 통해 수신된 사용자 음성이 상기 카메라를 통해 획득된 사용자 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면, 상기 사용자 음성이 상기 특정 조건에 해당하는 것으로 식별하는, 전자 장치.
제1항에 있어서,
상기 특정 조건은,
상기 마이크를 통해 수신된 사용자 음성에 임계 값 이상의 노이즈 사운드가 포함되어 있는 경우 또는 상기 마이크를 통해 수신된 사용자 음성의 크기가 임계 값 미만인 경우 중 적어도 하나를 포함하는, 전자 장치.
제1항에 있어서,
상기 제1 신경망 모델로부터 출력되는 출력 데이터는,
상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터 및 상기 음성 녹음 데이터의 정확도에 대응되는 확률 값을 포함하며,
상기 프로세서는,
상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보에 기초하여 상기 카메라를 통해 획득된 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하고, 상기 획득된 음성 데이터를 재생하는, 전자 장치.
제5항에 있어서,
상기 프로세서는,
상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보 및 상기 카메라를 통해 획득된 사용자 입 모양 영상을 학습된 제2 신경망 모델에 입력하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하며,
상기 제2 신경망 모델은,
통화 내용에 대응되는 음성 및 사용자 입 모양 영상에 기초하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 출력하도록 학습된, 전자 장치.
제5항에 있어서,
상기 프로세서는,
상기 메모리에 저장된 사용자 음성의 크기 정보에 기초하여 상기 획득된 음성 데이터의 크기를 식별하고, 상기 식별된 크기에 기초하여 상기 획득된 음성 데이터를 재생하는, 전자 장치.
제1항에 있어서,
스피커;를 더 포함하며,
상기 프로세서는,
상기 재생되는 음성 녹음 데이터를 출력하도록 상기 스피커를 제어하는, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 통신 인터페이스를 통해 상기 통화의 상대 단말로 전송되는 데이터가 음성 녹음 데이터임을 나타내는 가이드 사운드를 상기 통신 인터페이스를 통해 상기 통화의 상대 단말로 전송하는, 전자 장치.
제1항에 있어서,
상기 카메라는,
UDC(under display camera)로 구현되며,
상기 UDC는, 홈 버튼 영역에 구비되는, 전자 장치.
전자 장치의 제어 방법에 있어서,
마이크를 통해 수신된 사용자 음성이 특정 조건에 해당하는 것으로 식별되면, 카메라를 통해 획득된 입 모양 촬영 영상을 제1 신경망 모델에 입력하여 상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터를 획득하는 단계; 및
상기 획득된 음성 녹음 데이터를 재생하고, 상기 재생되는 녹음 데이터를 통화의 상대 단말로 전송하는 단계;를 포함하며,
상기 제1 신경망 모델은,
상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성에 기초하여 학습되는, 제어 방법.
제11항에 있어서,
상기 통화가 시작되는 이벤트가 발생되면, 상기 카메라를 통해 획득된 상기 사용자의 입 모양 촬영 영상 및 상기 마이크를 통해 수신된 상기 사용자 음성을 매칭하여 메모리에 저장하는 단계;를 더 포함하는, 제어 방법.
제12항에 있어서,
상기 메모리에 저장하는 단계는,
사용자의 상이한 입 모양 촬영 영상 각각에 대응되는 음성 녹음 데이터를 저장하며,
상기 제어 방법은,
상기 메모리에 저장된 데이터에 기초하여, 상기 마이크를 통해 수신된 사용자 음성이 상기 카메라를 통해 획득된 사용자 입 모양 촬영 영상에 대응되지 않는 것으로 식별되면, 상기 사용자 음성이 상기 특정 조건에 해당하는 것으로 식별하는 단계;를 더 포함하는, 제어 방법.
제11항에 있어서,
상기 특정 조건은,
상기 마이크를 통해 수신된 사용자 음성에 임계 값 이상의 노이즈 사운드가 포함되어 있는 경우 또는 상기 마이크를 통해 수신된 사용자 음성의 크기가 임계 값 미만인 경우 중 적어도 하나를 포함하는, 제어 방법.
제11항에 있어서,
상기 제1 신경망 모델로부터 출력되는 출력 데이터는,
상기 입 모양 촬영 영상에 대응되는 음성 녹음 데이터 및 상기 음성 녹음 데이터의 정확도에 대응되는 확률 값을 포함하며,
상기 제어 방법은,
상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보에 기초하여 상기 카메라를 통해 획득된 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하고, 상기 획득된 음성 데이터를 재생하는 단계;를 더 포함하는, 제어 방법.
제15항에 있어서,
상기 음성 데이터를 획득하는 단계는,
상기 음성 녹음 데이터에 대응되는 확률 값이 임계 값 미만이면, 상기 통화가 진행되는 동안 획득된 사용자 음성 및 통화 상대방 음성에 대응되는 정보 및 상기 카메라를 통해 획득된 사용자 입 모양 영상을 학습된 제2 신경망 모델에 입력하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 획득하며,
상기 제2 신경망 모델은,
통화 내용에 대응되는 음성 및 사용자 입 모양 영상에 기초하여 상기 사용자 입 모양 영상에 대응되는 음성 데이터를 출력하도록 학습된, 제어 방법.
제15항에 있어서,
상기 음성 데이터를 재생하는 단계는,
메모리에 저장된 사용자 음성의 크기 정보에 기초하여 상기 획득된 음성 데이터의 크기를 식별하고, 상기 식별된 크기에 기초하여 상기 획득된 음성 데이터를 재생하는, 제어 방법.
제11항에 있어서,
상기 재생되는 음성 녹음 데이터를 스피커를 통해 출력하는 단계;를 더 포함하는, 제어 방법.
제11항에 있어서,
상기 통화의 상대 단말로 전송하는 단계는,
상기 통화의 상대 단말로 전송되는 데이터가 녹음 데이터임을 나타내는 가이드 사운드를 상기 통화의 상대 단말로 전송하는, 제어 방법.
제11항에 있어서,
상기 카메라는,
UDC(under display camera)로 구현되며,
상기 UDC는, 홈 버튼 영역에 구비되는, 제어 방법.