KR20240008760A - 번역 처리 방법 및 전자 장치 - Google Patents

번역 처리 방법 및 전자 장치 Download PDF

Info

Publication number
KR20240008760A
KR20240008760A KR1020220111527A KR20220111527A KR20240008760A KR 20240008760 A KR20240008760 A KR 20240008760A KR 1020220111527 A KR1020220111527 A KR 1020220111527A KR 20220111527 A KR20220111527 A KR 20220111527A KR 20240008760 A KR20240008760 A KR 20240008760A
Authority
KR
South Korea
Prior art keywords
voice
audio
electronic device
audio data
translation
Prior art date
Application number
KR1020220111527A
Other languages
English (en)
Inventor
신호선
이철민
이영우
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2023/009941 priority Critical patent/WO2024014869A1/ko
Priority to US18/237,158 priority patent/US20240020490A1/en
Publication of KR20240008760A publication Critical patent/KR20240008760A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S715/00Data processing: presentation processing of document, operator interface processing, and screen saver display processing
    • Y10S715/978Audio interaction as part of an operator interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 개시의 일 실시 예는 적어도 하나의 마이크, 적어도 하나의 스피커, 통신 모듈, 디스플레이, 메모리, 및 상기 적어도 하나의 마이크, 상기 적어도 하나의 스피커, 상기 통신 모듈, 상기 디스플레이 또는 상기 메모리 중 적어도 하나와 작동적으로 연결된 프로세서를 포함할 수 있다. 상기 프로세서는 상기 통신 모듈을 통해 외부 장치와 연결된 상태에서 상기 적어도 하나의 마이크를 통해 제1 오디오를 획득하고, 상기 획득한 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성하고, 상기 제1 오디오 데이터를 상기 외부 장치로 전송하고, 상기 외부 장치로부터 상기 외부 장치의 마이크를 통해 획득한 제2 오디오 또는 제2 오디오 데이터 중 어느 하나를 수신하고, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 번역하고, 상기 제1 오디오 데이터를 번역한 제1 번역 정보를 상기 외부 장치로 전송하고, 상기 제2 오디오 데이터를 번역한 제2 번역 정보를 출력하도록 설정된 방법 및 장치에 관하여 개시한다. 다양한 실시 예들이 가능하다.

Description

번역 처리 방법 및 전자 장치{TRANSLATION PROCESSING METHOD AND ELECTRONIC DEVICE}
본 발명의 실시예들은 번역을 처리하는 방법 및 장치에 관하여 개시한다.
디지털 기술의 발달과 함께 이동통신 단말기, PDA(personal digital assistant), 전자수첩, 스마트 폰, 태블릿 PC(personal computer), 웨어러블 디바이스(wearable device)와 같은 다양한 유형의 전자 장치가 널리 사용되고 있다. 이러한, 전자 장치는 기능 지지 및 증대를 위해, 전자 장치의 하드웨어적인 부분 및/또는 소프트웨어적인 부분이 지속적으로 개량되고 있다.
일례로, 전자 장치는 블루투스(bluetooth), 와이파이 다이렉트와 같은 근거리 무선 통신을 이용하여 노트북, 무선 입출력 장치(예: 이어폰, 헤드폰), 웨어러블 표시 장치와 연결하여 정보(또는 컨텐츠)를 출력 또는 교환할 수 있다. 예를 들어, 전자 장치는 무선 입출력 장치와 근거리 통신으로 연결하여, 무선 입출력 장치를 통해 음악 또는 동영상의 소리를 출력할 수 있다.
한편, 전자 장치는 사용자가 외국인과 만났을 때, 대화를 편리하게 하기 위해 번역 서비스를 제공할 수 있다.
전자 장치는 무선 입출력 장치(예: 무선 이어폰)와 근거리 통신으로 연결하고, 사용자가 무선 입출력 장치를 착용한 상태에서 번역 서비스를 이용할 수 있다. 전자 장치는 무선 입출력 장치를 착용한 사용자의 음성과 무선 입출력 장치를 착용하지 않은 외국인(예: 상대방)의 음성을 각각 번역한 후, 무선 입출력 장치를 통해 외국인의 음성을 번역한 제1 번역 음성을 출력하고, 전자 장치의 스피커를 통해 사용자의 음성을 번역한 제2 번역 음성을 출력할 수 있다.
이때, 사용자는 제1 번역 음성을 출력하는 중에 다른 말을 시작할 수도 있고, 상대방도 제2 번역 음성을 출력하는 중에 다른 말을 시작할 수도 있다. 이 경우, 제1 번역 음성이 사용자의 음성과 중첩되어, 전자 장치는 제1 번역 음성과 사용자 음성을 분리해서 번역하지 못할 수 있다. 또는 각각 번역 음성이 출력된 이후에 다른 말을 시작하게 되면, 다른 말을 하는데 까지 대기하는 시간이 길어질 수 있다.
다양한 실시예들에서는, 사용자와 외국인이 대화할 때 전자 장치가 번역을 못하거나 대기 시간이 길어지는 문제점을 개선하고, 사용자의 음성 및 외국인의 음성을 각각 분리 번역할 수 있는 번역 처리 방법 및 장치에 관하여 개시할 수 있다.
본 문서에서 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시 예에 따른 전자 장치는 적어도 하나의 마이크, 적어도 하나의 스피커, 통신 모듈, 디스플레이, 메모리, 및 상기 적어도 하나의 마이크, 상기 적어도 하나의 스피커, 상기 통신 모듈, 상기 디스플레이 또는 상기 메모리 중 적어도 하나와 작동적으로 연결된 프로세서를 포함하고, 상기 프로세서는 상기 통신 모듈을 통해 외부 장치와 연결된 상태에서 상기 적어도 하나의 마이크를 통해 제1 오디오를 획득하고, 상기 획득한 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성하고, 상기 제1 오디오 데이터를 상기 외부 장치로 전송하고, 상기 외부 장치로부터 상기 외부 장치의 마이크를 통해 획득한 제2 오디오 또는 제2 오디오 데이터 중 어느 하나를 수신하고, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 번역하고, 상기 제1 오디오 데이터를 번역한 제1 번역 정보를 상기 외부 장치로 전송하고, 상기 제2 오디오 데이터를 번역한 제2 번역 정보를 출력하도록 설정될 수 있다.
본 개시의 일 실시 예에 따른 전자 장치의 동작 방법은 상기 전자 장치의 통신 모듈을 통해 외부 장치와 연결된 상태에서 상기 전자 장치의 적어도 하나의 마이크를 통해 제1 오디오를 획득하는 동작, 상기 획득한 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성하는 동작, 상기 제1 오디오 데이터를 상기 외부 장치로 전송하는 동작, 상기 외부 장치로부터 상기 외부 장치의 마이크를 통해 획득한 제2 오디오 또는 제2 오디오 데이터 중 어느 하나를 수신하는 동작, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 번역하는 동작, 및 상기 제1 오디오 데이터를 번역한 제1 번역 정보를 상기 외부 장치로 전송하고, 상기 제2 오디오 데이터를 번역한 제2 번역 정보를 출력하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 전자 장치가 무선 입출력 장치와 연결된 상태에서 번역 서비스를 제공할 때, 사용자 음성과 번역된 상대방 음성이 중첩되거나, 상대방 음성과 번역된 사용자 음성이 중첩되는 경우에도 사용자 음성과 상대방 음성을 구분하여 번역 처리할 수 있다.
일 실시 예에 따르면, 전자 장치와 무선 입출력 장치에서 각각 획득한 사용자 음성과 상대방 음성을 서로 교환함으로써, 무선 입출력 장치에서 입력되는 사용자 음성을 제외한 소리(예: 상대방 음성, 주변 소리)를 잡음 처리하여 제거하고, 전자 장치에서 입력되는 상대방 음성을 제외한 소리(예: 사용자 음성, 주변 소리)를 잡음 처리하여 제거할 수 있다.
일 실시 예에 따르면, 전자 장치와 무선 입출력 장치 간의 거리 차이로 인하여 무선 입출력 장치의 마이크를 통해 입력되는 사용자 음성은 상대방 음성보다 크고, 전자 장치의 마이크를 통해 입력되는 상대방 음성은 사용자 음성보다 크므로, 이러한 소리 크기에 기반하여 효과적으로 사용자 음성 및 상대방 음성에 대한 전처리할 수 있다.
일 실시 예에 따르면, 사용자와 상대방이 동시에 발화하거나, 번역된 음성이 출력하는 중에 사용자 또는 상대방이 발화하더라도, 사용자 음성 또는 상대방 음성 만 정확히 번역함으로써, 사용자 편의성을 향상시킬 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시 예에 따른 네트워크 환경 내의 전자 장치의 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치가 연결된 상태에서 번역 서비스를 제공하는 일례를 도시한 것이다.
도 3a는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치의 번역과 관련된 구성도를 도시한 도면이다.
도 3b는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치의 번역과 관련된 구성도를 도시한 도면이다.
도 3c는 본 개시의 일 실시 예에 따른 전자 장치의 번역과 관련된 구성도를 도시한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치가 연결된 상태에서 번역 서비스를 제공하는 방법을 도시한 흐름도이다.
도 5a는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치에서 각각 음성을 획득하는 일례를 도시한 도면이다.
도 5b는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치에서 각각 음성을 획득 및 출력하는 일례를 도시한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 동작 방법을 도시한 흐름도이다.
도 7은 본 개시의 일 실시 예에 따른 전자 장치에서 상대방 음성을 전처리하여 번역하는 일례를 도시한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 무선 입출력 장치의 동작 방법을 도시한 흐름도이다.
도 9는 본 개시의 일 실시 예에 따른 무선 입출력 장치에서 사용자 음성을 전처리하여 번역하는 일례를 도시한 도면이다.
도 10a 및 도 10b는 본 개시의 일 실시 예에 따른 전자 장치에서 제공하는 사용자 인터페이스를 도시한 도면들이다.
도 11은 본 개시의 일 실시 예에 따른 전자 장치에서 사용자 음성 및 상대방 음성을 획득하여 번역 처리하는 방법을 도시한 흐름도이다.
도 1은 본 개시의 일 실시 예에 따른 네트워크 환경 내의 전자 장치의 블록도이다.
도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.
오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제1 네트워크(198)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다.
무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.
다양한 실시예에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일실시예에 따르면, 명령 또는 데이터는 제2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치가 연결된 상태에서 번역 서비스를 제공하는 일례를 도시한 것이다.
도 2를 참조하면, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101))는 무선 입출력 장치(201)를 연결한 상태에서, 사용자와 상대방(예: 외국인) 간의 대화에 대한 번역 서비스를 제공할 수 있다. 사용자(예: 도면에서 여자)는 무선 입출력 장치(201)를 착용한 상태이고, 상대방(예: 도면에서 남자)은 무선 입출력 장치를 착용하지 않고, 전자 장치(101)와 근거리에 위치할 수 있다. 무선 입출력 장치(201)는, 양쪽 귀에 착용할 수 있는, 이어폰, 헤드폰과 같이 무선으로 전자 장치(101)와 연결되는 장치일 수 있다. 무선 입출력 장치(201)는 제1 장치(203) 및 제2 장치(205)가 페어로 동작하며, 각 장치에는 프로세서, 통신 모듈, 센서 모듈(예: 근접 센서, 터치 센서 등), 마이크 및 스피커를 포함할 수 있다.
일 실시 예에 따르면, 사용자는 무선 입출력 장치(201)를 착용한 상태에서 전자 장치(101)에 포함된 번역 서비스를 위한 어플리케이션(예: 도 1의 어플리케이션(146))을 실행할 수 있다. 전자 장치(101)는 무선 입출력 장치(201)가 연결(예: 페어링)된 경우, 전자 장치(101)의 마이크(예: 제1 마이크)(예: 도 1의 입력모듈(150))에서 획득한(수신 또는 입력) 소리를 상대방 음성으로 인식(또는 처리)하고, 무선 입출력 장치(201)의 마이크(예: 제2 마이크)에서 획득한 소리를 사용자 음성으로 처리할 수 있다. 전자 장치(101)는 근거리 무선 통신(예: 블루투스)을 통해 무선 입출력 장치(201)와 페어링될 수 있다. 전자 장치(101)의 마이크와 무선 입출력 장치(201)의 마이크를 구별하기 위해, 전자 장치(101)의 마이크를 제1 마이크로 하고, 무선 입출력 장치(201)의 마이크를 제2 마이크로 설명할 수 있다. 여기서, 제1 마이크 또는 제2 마이크는 하나 또는 복수개일 수 있다.
이하에서는, 전자 장치(101)의 제1 마이크를 통해 획득한 상대방 음성을 제1 오디오로 명명하고, 무선 입출력 장치(201)의 제2 마이크를 통해 획득한 사용자 음성을 제2 오디오로 명명하기로 한다. 예를 들어, 제1 오디오는 상대방 음성, 사용자 음성, 주변 소음, 및 전자 장치(101)의 스피커(예: 제1 스피커)(예: 도 1의 음향 출력 모듈(155))로부터 출력된 소리를 포함할 수 있다. 제2 오디오는 상대방 음성, 사용자 음성, 주변 소음, 및 무선 입출력 장치(201)의 스피커(예: 제2 스피커)로부터 출력된 소리를 포함할 수 있다. 상기 제1 오디오는 전자 장치(101)의 오디오 버퍼(예: 도 1의 메모리(130))에 저장되며, 상기 제2 오디오는 무선 입출력 장치(201)의 오디오 버퍼에 저장될 수 있다. 전자 장치(101)와 무선 입출력 장치(201)는 오디오 버퍼에 저장된 오디오(예: 제1 오디오, 제2 오디오)를 서로 교환(또는 공유)함으로써, 오디오 신호를 처리할 수 있다.
일 실시 예에 따르면, 무선 입출력 장치(201)와 전자 장치(101)가 서로 이격되어 위치하고 있지만, 충분한 이격 거리를 두지 않은 경우, 사용자 음성의 일부가 전자 장치(101)의 제1 마이크에 유입될 수도 있고, 상대방 음성의 일부가 무선 입출력 장치(201)의 제2 마이크에 유입될 수도 있다. 또는, 전자 장치(101)의 제1 스피커를 통해 출력되고 있는 소리는 전자 장치(101)의 제1 마이크 또는 무선 입출력 장치(201)의 제2 마이크에 유입될 수 있다. 또한, 무선 입출력 장치(201)의 제2 스피커를 통해 출력되고 있는 소리는 무선 입출력 장치(201)의 제2 마이크에 유입될 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 제1 오디오에 AEC(acoustic echo canceller)를 적용(또는 처리)하여 에코가 적어도 일부 제거된 제1 오디오 데이터(또는 오디오 신호)를 무선 입출력 장치(201)로 전송할 수 있다. AEC는 에코를 제거하는 알고리즘 또는 소프트웨어를 의미할 수 있다. 전자 장치(101)는 제1 스피커를 통해 출력되고 있는 소리를 제1 오디오 레퍼런스로 AEC에 입력하여, 상기 제1 오디오로부터 제1 스피커를 통해 출력되고 있는 소리를 적어도 일부 제거할 수 있다. 전자 장치(101)는 무선 입출력 장치(201)로부터 제2 오디오 또는 제2 오디오 데이터를 획득할 수 있다. 상기 제2 오디오 데이터는 제2 오디오에 AEC를 처리한 오디오 데이터일 수 있다. 제2 오디오는 AEC를 처리하지 않은 것(예: raw data)일 수도 있다. 전자 장치(101)는 AEC를 처리하지 않은 제2 오디오를 수신한 경우 AEC를 처리하여 에코가 적어도 일부 제거된 제2 오디오 데이터를 생성할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 제2 오디오 데이터(또는 오디오 신호)에 기반하여 제1 오디오 데이터를 전처리할 수 있다. 상기 전처리는 상기 제1 오디오 데이터에서 상대방 음성을 제외한 모든 소리(예: 잡음)를 적어도 일부 제거하여 상대적으로 또렷한(또는 향상된) 상대방 음성만 남도록 처리하는 것을 의미할 수 있다. 상대적으로 정확도 높은 번역 처리를 위해서는 상대방 음성 이외에는 다른 소리가 포함되지 않도록 처리하는 것이 중요할 수 있다. 전자 장치(101)는 제1 오디오 데이터를 전처리하여 향상된 상대방 음성을 제1 타겟 음성으로 추출할 수 있다. 전자 장치(101)는 머신 러닝(machine learning) 또는 딥 러닝(deep learning)과 같은 기술을 이용하여 상기 제1 타겟 음성을 추출할 수도 있다.
일 실시 예에 따르면, 전자 장치(101)는 추출된 제1 타겟 음성에 대하여 VAD(voice activity detection) 처리하여 제1 타겟 음성의 시작(예: 시작 시점, 시작 시간)과 종료(예: 종료 시점, 종료 시간)를 검출할 수 있다. VAD는 입력된 제1 타겟 음성의 시작 및 종료를 검출하는 알고리즘 또는 소프트웨어를 의미할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 카메라 모듈(예: 도 1의 카메라 모듈(180))을 이용하여 상대방을 촬영하고, 촬영한 상대방 이미지의 립 리딩(lip reading)을 분석하여 제1 타겟 음성의 시작 및 종료를 검출할 수도 있다. 립 리딩은 말하는 사용자의 입 움직임을 분석하여 사용자가 어떤 말을 하는지 유추하는 기술을 의미할 수 있다. 전자 장치(101)는 제1 타겟 음성 및 제1 타겟 음성의 시작과 종료를 ASR(automatic speech recognition)에 전달할 수 있다. ASR은 제1 타겟 음성(예: 음향학적 신호(acoustic speech signal))을 인식하여 텍스트(예: 단어 또는 문장)로 변환시키는 알고리즘 또는 소트트웨어를 의미할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 음성 인식(ASR)하고, 음성 인식된 제1 텍스트에 대하여 번역 처리할 수 있다. 전자 장치(101)는 제1 타겟 음성에 대하여 ASR를 처리하면, 제1 타겟 음성에 대응하는 제1 텍스트를 획득할 수 있다. 전자 장치(101)는 제1 텍스트에 대하여 번역 처리하여 제1 번역 정보(또는 제1 번역 데이터)를 획득할 수 있다. 전자 장치(101)는 상기 제1 번역 정보를 무선 입출력 장치(201)로 전송할 수 있다. 전자 장치(101)는 상기 제1 번역 정보를 TTS(text to speech)로 변환하여 무선 입출력 장치(201)로 전송할 수 있다. 전자 장치(101)는 상기 제1 번역 정보를 디스플레이(예: 도 1의 디스플레이 모듈(160))에 표시할 수 있다.
일 실시 예에 따르면, 무선 입출력 장치(201)는 제2 오디오에 AEC를 적용(또는 처리)하여 에코가 적어도 일부 제거된 제2 오디오 데이터를 전자 장치(101)로 전송할 수 있다. 무선 입출력 장치(201)는 제2 스피커를 통해 출력되고 있는 소리를 제2 오디오 레퍼런스로 AEC에 입력하여, 상기 제2 오디오로부터 상기 제2 스피커를 통해 출력되고 있는 소리를 제거할 수 있다. 무선 입출력 장치(201)는 전자 장치(101)로부터 제1 오디오 데이터를 수신하고, 상기 제1 오디오 데이터에 기반하여 상기 제2 오디오 데이터를 전처리할 수 있다. 무선 입출력 장치(201)는 상기 제2 오디오 데이터를 전처리하여 향상된 사용자 음성을 제2 타겟 음성으로 추출하고, 추출된 제2 타겟 음성을 전자 장치(101)로 전송할 수 있다. 무선 입출력 장치(201)는 상기 추출된 제2 타겟 음성에 대하여 VAD 처리하여 상기 제2 타겟 음성의 시작과 종료를 검출할 수 있다. 무선 입출력 장치(201)는 상기 제2 타겟 음성의 시작 및 종료 정보를 전자 장치(101)로 전송할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 무선 입출력 장치(201)로부터 상기 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료 정보를 수신할 수 있다. 전자 장치(101)는 상기 제2 타겟 음성의 시작 및 종료 정보에 기반하여 상기 제2 타겟 음성을 음성 인식(ASR)하고, 음성 인식된 제2 텍스트에 대하여 번역 처리할 수 있다. 전자 장치(101)는 제2 타겟 음성에 대하여 ASR를 처리하면, 제2 타겟 음성에 대응하는 제2 텍스트를 획득할 수 있다. 전자 장치(101)는 제2 텍스트에 대하여 번역 처리하여 제2 번역 정보(또는 제2 번역 데이터)를 획득할 수 있다. 전자 장치(101)는 상기 제2 번역 정보를 TTS로 변환하여 제1 스피커를 통해 출력하거나, 상기 제2 번역 정보를 디스플레이 모듈(160)에 표시할 수 있다.
일 실시 예에 따르면, 무선 입출력 장치(201)가 상대방 음성(예: 제1 오디오)에 대응하는 번역 정보(예: 제1 번역 정보)를 출력하는 동안 전자 장치(101)는 새로운 상대방 음성(예: 제3 오디오)을 획득할 수 있다. 또한, 무선 입출력 장치(201)가 새로운 사용자 음성(예: 제4 오디오)을 획득하는 중에, 전자 장치(101)는 이전 사용자 음성(예: 제2 오디오)에 대응하는 번역 정보(예: 제2 번역 정보)를 출력할 수 있다. 즉, 전자 장치(101) 및 무선 입출력 장치(201)는 입력된 음성(예: 사용자 음성 또는 상대방 음성)과 번역된 음성(예: 사용자 음성에 대응하는 번역 음성, 상대방 음성에 대응하는 번역된 음성)이 중첩되더라도, 사용자 음성만을 분리하여 번역하고, 상대방 음성만 분리하여 번역할 수 있다. 이에 대한 자세한 설명은 아래 도면을 통해 설명하기로 한다.
일 실시 예에 따르면, 전자 장치(101)와 무선 입출력 장치(201)가 연결되지 않은 상태에서, 번역 서비스를 제공할 수 있다. 전자 장치(101)와 무선 입출력 장치(201)가 연결되지 않은 상태는 전자 장치(101)와 무선 입출력 장치(201)가 근거리 무선 통신으로 서로 연결(예: 페어링)되지 않은 상태를 의미할 수 있다. 이 경우, 전자 장치(101)는 지향성 마이크 및 복수의 스피커를 이용하여 번역 서비스를 제공할 수 있다. 예를 들어, 전자 장치(101)의 디스플레이가 배치된 전자 장치(101)의 정면을 기준으로 전자 장치(101)의 일단(예: 카메라가 배치된 위치)에 제1 마이크 및 제1 스피커가 배치되고, 전자 장치(101)의 타단(예: 충전기가 연결되는 위치)에 제2 마이크 및 제2 스피커가 배치될 수 있다. 전자 장치(101)는 제1 오디오(예: 사용자 음성 또는 상대방 음성)를 획득하고, 획득한 제1 오디오에 기반하여 지향성 마이크를 결정하고, 결정된 마이크(예: 제2 마이크)를 제외한 다른 마이크(예: 제1 마이크)를 통해 획득되는 음성을 제2 오디오로 처리할 수 있다.
예를 들어, 상기 제1 마이크 및 상기 제1 스피커는 상대방의 음성을 수신하거나, 상대방에게 음성을 출력하는 것으로 활용하고, 상기 제2 마이크 및 상기 제2 스피커는 사용자의 음성을 수신하거나, 사용자에게 음성을 출력하는 것으로 활용될 수 있다. 전자 장치(101)는 상기 제1 마이크를 통해 입력된 상대방 음성을 번역하여 상기 제2 스피커를 통해 번역된 상대방 음성을 출력할 수 있다. 전자 장치(101)는 상기 제2 마이크를 통해 입력된 사용자 음성을 번역하여 상기 제1 스피커를 통해 번역된 사용자 음성을 출력할 수 있다. 전자 장치(101)는 상기 상대방 음성 또는 상기 사용자 음성으로부터 에코를 적어도 일부 제거하고, 전처리하여 번역할 수 있다.
도 3a는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치의 번역과 관련된 구성도를 도시한 도면이다.
도 3a를 참조하면, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101))는 번역과 관련하여, 프로세서(예: 도 1의 프로세서(120)), 제1 스피커(310)(예: 도 1의 음향 출력 모듈(155)), 또는 제1 마이크(315)(예: 도 1의 입력 모듈(150)) 중 적어도 하나를 포함할 수 있다. 전자 장치(101)는 번역과 관련하여, 통신 모듈(예: 도 1의 통신 모듈(190)) 및 디스플레이(예: 도 1의 디스플레이 모듈(160))을 더 포함할 수도 있다. 프로세서(120)는 내부적으로 AEC 1(320), TSE(target speaker extractor) 1(325), VAD 1(330), ASR(335), Translator(340), Translation Manager(345), 또는 TTS(350) 중 적어도 하나와 관련된 알고리즘 또는 스프트웨어를 포함할 수 있다. AEC 1(320), TSE 1(325), VAD 1(330)은 오디오 신호(또는 데이터)를 전처리하는 것일 수 있다. ASR(335) 및 Translator(340)는 각각 구성되거나, 하나의 모듈로서 구성될 수 있다.
일 실시 예에 따르면, 제1 마이크(315)는 상대방 음성을 제1 오디오로서 획득하고, 획득한 제1 오디오를 AEC 1(320)에 전달할 수 있다. 상기 제1 오디오는 오디오 버퍼(예: 도 1의 메모리(130))에 저장될 수 있다. AEC 1(320)은 제1 오디오로부터 에코를 적어도 일부 제거하고, 에코가 적어도 일부 제거된 제1 오디오 데이터를 TSE 1(325)으로 전달할 수 있다. 상기 제1 오디오는 상대방 음성, 사용자 음성, 주변 소음, 및/또는 제1 스피커(310)로부터 출력된 소리를 포함할 수 있다. AEC 1(320)은 제1 스피커(310)를 통해 출력되는 소리를 제1 오디오 레퍼런스(311)로 활용할 수 있다. 제1 스피커(310)를 통해 출력되고 있는 소리가 있는 경우(예: 사용자 음성에 대해 번역된 음성, 음악, 및/또는 알림음), 제1 스피커(310)를 통해 출력되고 있는 소리의 일부가 제1 마이크(315)로 유입될 수 있다. 제1 스피커(310)로부터 출력된 소리가 제1 마이크(315)로 입력되는 데까지는 시간차가 발생할 수 있다. AEC 1(320)은 상기 제1 오디오 레퍼런스에 기반하여 상기 제1 오디오로부터 제1 스피커(310)로부터 출력된 소리를 적어도 일부 제거할 수 있다. 또한, AEC 1(320)은 상기 제1 오디오로부터 주변 소음을 적어도 일부 제거할 수 있다.
일 실시 예에 따르면, TSE 1(325)은 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출(또는 생성, 식별)할 수 있다. 상기 제1 타겟 음성은 향상된 상대방 음성만 포함하는 것으로, 상대방 음성을 제외한 소리(예: 사용자 음성)가 적어도 일부 제거된 것일 수 있다. TSE 1(325)은 무선 입출력 장치(예: 도 2의 무선 입출력 장치(201))로부터 수신된 제2 오디오 데이터에 기반하여 제1 타겟 음성을 추출할 수 있다. 상기 제2 오디오 데이터는 사용자 음성이므로, TSE 1(325)은 상대방 음성에서 사용자 음성을 적어도 일부 제거하여 제1 타겟 음성을 추출할 수 있다. 또는, 메모리(예: 도 1의 메모리(130))에는 전자 장치(101)의 사용자 음성 정보(예: 오디오 파일 또는 사용자 음성과 관련된 음성 특징 정보)가 저장될 수 있다. TSE 1(325)은 메모리(130)에 저장된 사용자 음성 정보에 기반하여 상기 제1 타겟 음성을 추출할 수 있다.
본 개시에 따르면, 전자 장치(101)는 상기 제1 스피커를 통해 번역된 사용자 음성이 출력되는 중에 획득한 상대방 음성을 제1 타겟 음성으로 추출함으로써, 여러 개의 소리가 결합(또는 중첩)된 소리로부터 상대방 음성만 분리하여 번역함으로써, 상대적으로 정확도 높게 번역 처리할 수 있다. TSE 1(325)은 상기 제1 타겟 음성을 VAD 1(330) 및 ASR(335)로 전달할 수 있다. VAD 1(330)은 제1 타겟 음성의 시작 및 종료를 검출할 수 있다. VAD 1(330)은 검출된 제1 타겟 음성의 시작 및 종료를 ASR(335)로 전달할 수 있다.
일 실시 예에 따르면, ASR(335)은 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 인식할 수 있다. ASR(335)은 상기 제1 타겟 음성을 인식하여 제1 번역 정보를 생성할 수 있다. 상기 제1 번역 정보는 텍스트일 수 있다. ASR(335)은 상기 제1 번역 정보를 Translator(340)을 거쳐 Translation Manager(345)로 전달할 수 있다. Translation Manager(345)는 상기 제1 번역 정보를 출력하기 위해 TTS(350) 또는 디스플레이 모듈(160)로 전달할 수 있다. TTS(350)는 상기 제1 번역 정보를 제1 번역 음성으로 변환하여 통신 모듈(190)로 전달할 수 있다. 통신 모듈(190)은 상기 제1 번역 음성을 무선 입출력 장치(201)로 전송할 수 있다. 디스플레이 모듈(160)은 상기 제1 번역 정보를 표시할 수 있다.
일 실시 예에 따른 무선 입출력 장치(201)는 번역과 관련하여, 제2 프로세서(301), 제2 스피커(365)(예: 음향 출력 모듈(155)), 제2 마이크(360), VPU(voice pick-up) 센서(370) 중 적어도 하나를 포함할 수 있다. 무선 입출력 장치(210)는 사용자의 왼쪽 귀에 착용하기 위한 제1 장치 및 사용자의 오른쪽 귀에 착용하기 위한 제2 장치를 포함할 수 있다. 무선 입출력 장치(201)의 번역과 관련된 구성도는 상기 제1 장치 또는 상기 제2 장치에 포함될 수 있다. 전자 장치(101)는 번역과 관련하여, 제2 통신 모듈(예: 도 1의 통신 모듈(190)), 센서 모듈(예: 터치 센서, 근접 센서) 또는 LED 모듈을 더 포함할 수도 있다. 제2 프로세서(301)는 내부적으로 AEC 2(375), TSE 2(380), 또는 VAD 2(385) 중 적어도 하나와 관련된 알고리즘 또는 스프트웨어를 포함할 수 있다.
도면에서는 전자 장치(101)에 포함되는 구성 요소(예: 제1 스피커(310), AEC 1(320))와 무선 입출력 장치(201)에 포함되는 구성 요소(예: 제2 스피커(365), AEC 2(375))를 구별하기 위하여, 1, 2 또는 제1, 제2와 같이 구분한 것일 수 있다. 제1 스피커(310) 또는 제2 스피커(365)는 동일한 역할을 수행하나, 성능(예: 하드웨어) 또는 알고리즘(예: 소프트웨어)은 서로 다를 수 있다.
일 실시 예에 따르면, 제2 마이크(360)는 사용자 음성을 제2 오디오로서 획득하고, 획득한 제2 오디오를 AEC 2(375)에 전달할 수 있다. 상기 제2 오디오는 무선 입출력 장치(201)의 제2 오디오 버퍼에 저장될 수 있다. AEC 2(375)는 제2 오디오로부터 에코를 적어도 일부 제거하고, 에코가 적어도 일부 제거된 제2 오디오 데이터를 TSE 2(380)로 전달할 수 있다. 상기 제2 오디오는 상대방 음성, 사용자 음성, 주변 소음, 제1 스피커(310)로부터 출력되는 소리, 및/또는 제2 스피커(365)로부터 출력되는 소리를 포함할 수 있다. AEC 2(375)는 제1 스피커(310)로부터 출력되는 소리, 및/또는 제2 스피커(365)로부터 출력되는 소리를 제2 오디오 레퍼런스로 활용할 수 있다. 제1 스피커(310)로부터 출력되는 소리(예: 사용자 음성에 대해 번역된 음성), 또는 제2 스피커(365)를 통해 출력되고 있는 소리(예: 상대방 음성에 대해 번역된 음성, 음악, 및/또는 알림음)의 일부는 제2 마이크(360)로 유입될 수 있다. 제1 스피커(310)로부터 출력되는 소리 또는 제2 스피커(365)를 통해 출력되고 있는 소리는 제2 마이크(360)로 입력되는 데까지는 시간차가 발생할 수 있다. AEC 2(375)는 상기 제2 오디오 레퍼런스에 기반하여 상기 제2 오디오로부터 제1 스피커(310)로부터 출력된 소리, 및 제2 스피커(365)를 통해 출력되고 있는 소리를 적어도 일부 제거할 수 있다.
일 실시 예에 따르면, TSE 2(380)는 상기 제2 오디오 데이터로부터 제2 타겟 음성을 추출(또는 생성)할 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 상대방 음성)가 적어도 일부 제거된 것일 수 있다. TSE 2(380)는 전자 장치(101)로부터 수신된 제1 오디오 데이터에 기반하여 제2 타겟 음성을 추출할 수 있다. 상기 제1 오디오 데이터는 상대방 음성이므로, TSE 2(380)는 사용자 음성에서 상대방 음성을 적어도 일부 제거하여 제2 타겟 음성을 추출할 수 있다. TSE 2(380)은 상기 제2 타겟 음성을 VAD 2(385) 및 제2 통신 모듈(미도시)로 전달할 수 있다.
일 실시 예에 따르면, VAD 2(385)는 제2 타겟 음성의 시작 및 종료를 검출할 수 있다. VPU 센서(370)는 골전도 센서로, 상기 제2 오디오를 획득할 때 발생되는 진동에 기반하여 제2 오디오의 시작 및 종료를 검출할 수 있다. 사용자가 무선 입출력 장치(201)를 착용하는 경우, 사용자가 말을 할 때 진동이 발생할 수 있다. VPU 센서(370)는 제2 오디오의 시작 및 종료를 VAD 2(385)로 전달할 수 있다. VAD 2(385)는 VPU 센서(370)로부터 전달받은 제2 오디오의 시작 및 종료에 기반하여 상기 제2 타겟 음성의 시작 및 종료를 검출할 수 있다. VAD 2(385)는 검출된 제2 타겟 음성의 시작 및 종료를 상기 제2 통신 모듈로 전달할 수 있다.
일 실시 예에 따르면, 상기 제2 통신 모듈은 상기 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료를 전자 장치(101)로 전송할 수 있다. 또한, 상기 제2 통신 모듈은 전자 장치(101)로부터 상기 제1 타겟 음성에 대응하는 제1 번역 음성을 수신할 수 있다. 상기 제2 통신 모듈은 상기 수신된 제1 번역 음성을 제2 스피커(365)로 전달할 수 있다. 제2 스피커(365)는 상기 제1 번역 음성을 출력할 수 있다. 무선 입출력 장치(201)를 착용하고 있는 사용자는 제2 스피커(365)를 통해 출력된 제1 번역 음성을 들을 수 있다.
일 실시 예에 따르면, ASR(335)은 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 인식할 수 있다. ASR(335)은 상기 제2 타겟 음성을 인식하여 제2 번역 정보를 생성할 수 있다. 상기 제2 번역 정보는 텍스트일 수 있다. ASR(335)은 상기 제2 번역 정보를 Translator(340)을 거쳐 Translation Manager(345)로 전달할 수 있다. Translation Manager(345)는 상기 제2 번역 정보를 출력하기 위해 TTS(350) 또는 디스플레이 모듈(160)로 전달할 수 있다. TTS(350)는 상기 제2 번역 정보를 제2 번역 음성으로 변환하여 제1 스피커(310)로 전달할 수 있다. 제1 스피커(310)는 상기 제2 번역 음성을 출력할 수 있다. 디스플레이 모듈(160)은 상기 제2 번역 정보를 표시할 수 있다.
일 실시 예에 따르면, 전자 장치(101)와 무선 입출력 장치(201)는 오디오 버퍼에 저장된 오디오(예: 제1 오디오, 제2 오디오)를 서로 교환(또는 공유)함으로써, 오디오 신호를 처리할 수 있다. 무선 입출력 장치(201)를 착용한 사용자의 언어가 '한국어'이고, 상대방의 언어가 '영어'인 경우, 상기 제1 번역 정보는 한국어(예: 안녕하세요?)이고, 상기 제2 번역 정보는 영어(예: Hello)일 수 있다. 무선 입출력 장치(201)를 착용한 사용자는 한국어로 말하고, 상대방의 말은 한국어로 번역되어 출력될 수 있다. 전자 장치(101)에 근접한 상대방은 영어로 말하고, 사용자의 말은 영어로 번역되어 제1 스피커(310)를 통해 음성으로 출력되거나, 디스플레이 모듈(160)에 텍스트로 표시될 수 있다.
도 3b는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치의 번역과 관련된 구성도를 도시한 도면이다.
도 3b를 참조하면, 무선 입출력 장치(201)는 제2 마이크(360), 제2 스피커(365), 및 VPU 센서(370)을 포함하고, 번역과 관련된 구성도(예: 도 3a의 AEC 2(375), TSE 2(380), 또는 VAD 2(385))를 포함하지 않을 수 있다. 전자 장치(101)는 무선 입출력 장치(201)로부터 오디오를 획득하여 사용자 음성 및 상대방 음성에 대하여 번역과 관련된 동작을 수행할 수 있다. 도면에서, 프로세서(120)는 AEC 1(320), TSE 1(325), VAD 1(330)을 포함하는 것으로 설명하고 있지만, 무선 입출력 장치(201)로부터 획득한 오디오를 처리하기 위한 구성요소를 더 포함할 수 있다. 즉, 프로세서(120)는 AEC, TSE, VAD를 두 개씩 포함할 수 있다. 예를 들어, 프로세서(120)는 사용자 음성을 처리하기 위한 구성요소(예: AEC 1(320), TSE 1(325), VAD 1(330))와 상대방 음성을 처리하기 위한 구성요소(예: 도 3c의 AEC 2(320-1), TSE 2(325-1), VAD 2(330-1))를 각각 포함할 수 있다. 도 3b의 구성 요소는 도 3a와 동일 또는 유사하므로 자세한 설명을 생략할 수 있다.
일 실시 예에 따르면, 제1 마이크(315)는 상대방 음성을 제1 오디오로서 획득하고, 획득한 제1 오디오를 AEC 1(320)에 전달할 수 있다. AEC 1(320)은 제1 오디오로부터 에코를 적어도 일부 제거하고, 에코가 적어도 일부 제거된 제1 오디오 데이터를 TSE 1(325)으로 전달할 수 있다. TSE 1(325)은 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출(또는 생성)할 수 있다. 상기 제1 타겟 음성은 향상된 상대방 음성만 포함하는 것으로, 상대방 음성을 제외한 소리(예: 사용자 음성)가 적어도 일부 제거된 것일 수 있다. TSE 1(325)은 상기 제1 타겟 음성을 VAD 1(330) 및 ASR(335)로 전달할 수 있다. VAD 1(330)은 제1 타겟 음성의 시작 및 종료를 검출할 수 있다. VAD 1(330)은 검출된 제1 타겟 음성의 시작 및 종료를 ASR(335)로 전달할 수 있다.
일 실시 예에 따르면, 무선 입출력 장치(201)의 제2 마이크(360)는 제2 오디오를 획득할 수 있다. AEC 1(320)은 통신 모듈(190)을 통해 상기 제2 오디오를 수신할 수 있다. AEC 1(320)은 제2 오디오로부터 에코를 적어도 일부 제거하고, 에코가 적어도 일부 제거된 제2 오디오 데이터를 TSE 1(325)으로 전달할 수 있다. TSE 1(325)은 상기 제2 오디오 데이터로부터 제2 타겟 음성을 추출(또는 생성)할 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 상대방 음성)가 적어도 일부 제거된 것일 수 있다. 무선 입출력 장치(201)의 VPU 센서(370)는 상기 제2 오디오에 대한 시작 및 종료를 검출하여, 전자 장치(101)로 전송할 수 있다. TSE 1(325)은 통신 모듈(190)을 통해 VPU 센서(370)의 상기 제2 오디오에 대한 시작 및 종료를 수신할 수 있다. TSE 1(325)은 상기 제2 타겟 음성을 VAD 1(330) 및 ASR(335)로 전달할 수 있다. VAD 1(330)은 상기 제2 오디오에 대한 시작 및 종료에 기반하여 제2 타겟 음성의 시작 및 종료를 검출할 수 있다. VAD 1(330)은 검출된 제2 타겟 음성의 시작 및 종료를 ASR(335)로 전달할 수 있다.
일 실시 예에 따르면, ASR(335)은 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 인식할 수 있다. ASR(335)은 상기 제1 타겟 음성을 인식하여 제1 번역 정보를 생성할 수 있다. 상기 제1 번역 정보는 텍스트일 수 있다. ASR(335)은 상기 제1 번역 정보를 Translator(340)을 거쳐 Translation Manager(345)로 전달할 수 있다. Translation Manager(345)는 상기 제1 번역 정보를 출력하기 위해 TTS(350) 또는 디스플레이 모듈(160)로 전달할 수 있다. TTS(350)는 상기 제1 번역 정보를 제1 번역 음성으로 변환하여 통신 모듈(190)로 전달할 수 있다. 통신 모듈(190)은 상기 제1 번역 음성을 무선 입출력 장치(201)로 전송할 수 있다. 무선 입출력 장치(201)의 제2 스피커(365)는 상기 제1 번역 음성을 출력할 수 있다. 디스플레이 모듈(160)은 상기 제1 번역 정보를 표시할 수 있다.
일 실시 예에 따르면, ASR(335)은 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 인식할 수 있다. ASR(335)은 상기 제2 타겟 음성을 인식하여 제2 번역 정보를 생성할 수 있다. 상기 제2 번역 정보는 텍스트일 수 있다. ASR(335)은 상기 제2 번역 정보를 Translator(340)을 거쳐 Translation Manager(345)로 전달할 수 있다. Translation Manager(345)는 상기 제2 번역 정보를 출력하기 위해 TTS(350) 또는 디스플레이 모듈(160)로 전달할 수 있다. TTS(350)는 상기 제2 번역 정보를 제2 번역 음성으로 변환하여 제1 스피커(310)로 전달할 수 있다. 제1 스피커(310)는 상기 제2 번역 음성을 출력할 수 있다. 디스플레이 모듈(160)은 상기 제2 번역 정보를 표시할 수 있다.
도 3c는 본 개시의 일 실시 예에 따른 전자 장치의 번역과 관련된 구성도를 도시한 도면이다.
도 3c를 참조하면, 전자 장치(101)는 무선 입출력 장치(201)와 연결되지 않은 상태에서, 번역 서비스를 제공할 때, 전자 장치(101)는 번역과 관련하여, 프로세서(120), 제1 스피커(310), 제2 스피커(310-1), 제1 마이크(315), 또는 제2 마이크(315-1) 적어도 하나를 포함할 수 있다. 제1 스피커(310) 및 제1 마이크(315)는 서로 실질적으로 유사한 위치에 배치되고, 제2 스피커(310-1) 및 제2 마이크(315-1)와는 서로 이격된 위치에 배치될 수 있다. 예를 들어, 전자 장치(101)의 디스플레이(예: 도 1의 디스플레이 모듈(160))가 배치된 전자 장치(101)의 정면을 기준으로 전자 장치(101)의 일단(예: 카메라가 배치된 방향)에 제1 스피커(310) 및 제1 마이크(315)가 배치되고, 전자 장치(101)의 타단(예: 충전기가 연결되는 방향)에 제2 스피커(310-1) 및 제2 마이크(315-1)가 배치될 수 있다. 또는, 전자 장치(101)의 정면을 기준으로 전자 장치(101)의 일측면(예: 사용자가 전자 장치(101)를 보는 관점에서 왼쪽 측면)에 제1 스피커(310) 및 제1 마이크(315)가 배치되고, 전자 장치(101)의 타측면(예: 오른쪽 측면)에 제2 스피커(310-1) 및 제2 마이크(315-1)가 배치될 수 있다.
일 실시 예에 따르면, 프로세서(120)는 내부적으로 AEC 1(320), AEC 2(320-1), TSE 1(325), TSE 2(325-1), VAD 1(330), VAD 2(330-1), ASR(335), Translator(340), Translation Manager(345), 또는 TTS(350) 중 적어도 하나와 관련된 알고리즘 또는 스프트웨어를 포함할 수 있다. 즉, 프로세서(120)는 사용자 음성을 처리하기 위한 구성요소(예: AEC 1(320), TSE 1(325), VAD 1(330))와 상대방 음성을 처리하기 위한 구성요소(예: AEC 2(320-1), TSE 2(325-1), VAD 2(330-1))를 각각 포함할 수 있다. 도 3c의 구성 요소는 도 3a와 동일 또는 유사하므로 자세한 설명을 생략한다. 도면에서는 전자 장치(101)가 두 개의 마이크 및 두 개의 스피커를 포함하는 것으로 도시하고 있지만, 두 개 보다 많은 마이크 및 스피커를 포함할 수도 있다. 도면은 발명의 이해를 돕기 위한 것일 뿐, 도면 또는 설명에 의해 본 발명이 제한되는 것은 아니다.
일 실시 예에 따르면, 프로세서(120)는 제1 마이크(315), 또는 제2 마이크(315-1)로부터 제1 오디오를 획득할 수 있다. 상기 제1 오디오는 사용자 음성 또는 상대방 음성일 수 있다. 메모리(예: 도 1의 메모리(130))에는 전자 장치(101)의 사용자 음성 정보(예: 오디오 파일 또는 사용자 음성과 관련된 음성 특징 정보)가 저장될 수 있다. 프로세서(120)는 상기 제1 오디오를 메모리(130)에 저장된 사용자 음성 정보에 기반하여 상기 제1 오디오가 사용자 음성인지 또는 상대방 음성인지 판단할 수 있다. 이하에서는, 도 3a 및 도 3b에 설명된 내용을 고려하여 상기 제1 오디오는 상대방으로부터 획득한 음성으로 설명하기로 한다. 프로세서(120)는 제1 마이크(315)로부터 획득한 상기 제1 오디오의 소리 크기 및 제2 마이크(315-1)로부터 획득한 상기 제1 오디오의 소리 크기에 기반하여 상기 제1 오디오에 지향되는 마이크를 결정할 수 있다. 상대방 또는 사용자가 어느 마이크와 더 가깝게 위치(또는 존재)해 있는지에 따라 각 마이크에서 획득한 소리의 크기가 다를 수 있다.
예를 들어, 상대방이 제2 마이크(315-1)보다 제1 마이크(315)에 더 가깝게 위치하는 경우, 제1 마이크(315)에서 획득한 제1 오디오 신호의 소리 크기가 제2 마이크(315-1)에서 획득한 제1 오디오 신호의 소리 크기보다 클 수 있다. 프로세서(120)는 제1 마이크(315)로부터 획득한 상기 제1 오디오의 소리 크기 및 제2 마이크(315-1)로부터 획득한 상기 제1 오디오의 소리 크기에 기반하여 상기 제1 오디오에 지향되는 마이크를 제1 마이크(315)로 결정할 수 있다. 이 경우, 프로세서(120)는 상기 제1 오디오와 다른 음성 특성을 갖는 제2 오디오의 지향성 마이크를 제2 마이크(315-1)로 결정할 수 있다. 이하에서는, 상대방이 제1 스피커(310) 및 제1 마이크(315)에 사용자보다 가깝게 위치하고, 사용자가 제2 스피커(310-1) 및 제2 마이크(315-1)에 상대방보다 더 가깝게 위치하는 것으로 설명하기로 한다.
일 실시 예에 따르면, AEC 1(320)은 제1 오디오로부터 에코를 적어도 일부 제거하고, 에코가 적어도 일부 제거된 제1 오디오 데이터를 TSE 1(325)으로 전달할 수 있다. TSE 1(325)은 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출(또는 생성)할 수 있다. 상기 제1 타겟 음성은 향상된 상대방 음성만 포함하는 것으로, 상대방 음성을 제외한 소리(예: 주변 소음, 사용자 음성 등)가 적어도 일부 제거된 것일 수 있다. TSE 1(325)은 제2 마이크(315-1)를 통해 획득한 제2 오디오 데이터에 기반하여 제1 타겟 음성을 추출할 수 있다. 상기 제2 오디오 데이터는 제2 마이크(315-1)를 통해 획득한 제2 오디오에서 AEC 2(320-1)을 적용한 것일 수 있다. TSE 1(325)은 상기 제1 타겟 음성을 VAD 1(330) 및 ASR(335)로 전달할 수 있다. VAD 1(330)은 제1 타겟 음성의 시작 및 종료를 검출할 수 있다. VAD 1(330)은 검출된 제1 타겟 음성의 시작 및 종료를 ASR(335)로 전달할 수 있다.
일 실시 예에 따르면, AEC 2(320-1)은 제2 오디오로부터 에코를 적어도 일부 제거하고, 에코가 적어도 일부 제거된 제2 오디오 데이터를 TSE 2(325-1)로 전달할 수 있다. TSE 2(325-1)은 상기 제2 오디오 데이터로부터 제2 타겟 음성을 추출(또는 생성)할 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 상대방 음성)가 적어도 일부 제거된 것일 수 있다. TSE 2(325-1)는 제1 마이크(315)를 통해 획득한 제1 오디오 데이터에 기반하여 제2 타겟 음성을 추출할 수 있다. TSE 2(325-1)는 상기 제2 타겟 음성을 VAD 2(330-1) 및 ASR(335)로 전달할 수 있다. VAD 2(330-1)은 제2 타겟 음성의 시작 및 종료를 검출할 수 있다. VAD 2(330-1)은 검출된 제2 타겟 음성의 시작 및 종료를 ASR(335)로 전달할 수 있다.
일 실시 예에 따르면, ASR(335)은 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 인식할 수 있다. ASR(335)은 상기 제1 타겟 음성을 인식하여 제1 번역 정보를 생성할 수 있다. 상기 제1 번역 정보는 텍스트일 수 있다. ASR(335)은 상기 제1 번역 정보를 Translator(34)을 거쳐 Translation Manager(345)로 전달할 수 있다. Translation Manager(345)는 상기 제1 번역 정보를 출력하기 위해 TTS(350) 또는 디스플레이 모듈(160)로 전달할 수 있다. TTS(350)는 상기 제1 번역 정보를 제1 번역 음성으로 변환하여 제2 스피커(310-1)로 전달할 수 있다. 제2 스피커(310-1)는 상기 제1 번역 음성을 출력할 수 있다. 상기 제1 번역 정보는 사용자를 위한 것이므로, 사용자를 향한 제2 스피커(310-1)로 상기 제1 번역 음성이 출력될 수 있다. 디스플레이 모듈(160)은 상기 제1 번역 정보를 표시할 수 있다.
일 실시 예에 따르면, ASR(335)은 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 인식할 수 있다. ASR(335)은 상기 제2 타겟 음성을 인식하여 제2 번역 정보를 생성할 수 있다. 상기 제2 번역 정보는 텍스트일 수 있다. ASR(335)은 상기 제2 번역 정보를 Translation Manager(345)로 전달할 수 있다. Translation Manager(345)는 상기 제2 번역 정보를 출력하기 위해 TTS(350) 또는 디스플레이 모듈(160)로 전달할 수 있다. TTS(350)는 상기 제2 번역 정보를 제2 번역 음성으로 변환하여 제1 스피커(310)로 전달할 수 있다. 제1 스피커(310)는 상기 제2 번역 음성을 출력할 수 있다. 상기 제2 번역 정보는 상대방을 위한 것이므로, 상대방을 향한 제1 스피커(310)로 상기 제2 번역 음성이 출력될 수 있다. 디스플레이 모듈(160)은 상기 제2 번역 정보를 표시할 수 있다.
본 개시의 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101))는 적어도 하나의 마이크(예: 도 3a의 제1 마이크(315)), 적어도 하나의 스피커(예: 도 3a의 제1 스피커(310)), 통신 모듈(예: 도 1의 통신 모듈(190)), 디스플레이(예: 도 1의 디스플레이 모듈(160)), 메모리(예: 도 1의 메모리(130)), 및 상기 적어도 하나의 마이크, 상기 적어도 하나의 스피커, 상기 통신 모듈, 상기 디스플레이 또는 상기 메모리 중 적어도 하나와 작동적으로 연결된 프로세서(예: 도 1의 프로세서(120))를 포함하고, 상기 프로세서는 상기 통신 모듈을 통해 외부 장치(예: 도 2의 무선 입출력 장치(201))와 연결된 상태에서 상기 적어도 하나의 마이크를 통해 제1 오디오를 획득하고, 상기 획득한 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성하고, 상기 제1 오디오 데이터를 상기 외부 장치로 전송하고, 상기 외부 장치로부터 상기 외부 장치의 마이크(예: 도 3a의 제2 마이크(360))를 통해 획득한 제2 오디오 또는 제2 오디오 데이터 중 어느 하나를 수신하고, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 번역하고, 상기 제1 오디오 데이터를 번역한 제1 번역 정보를 상기 외부 장치로 전송하고, 상기 제2 오디오 데이터를 번역한 제2 번역 정보를 출력하도록 설정될 수 있다.
상기 프로세서는, 상기 제1 오디오 및 상기 적어도 하나의 스피커를 통해 출력되는 소리를 제1 오디오 레퍼런스로 AEC(acoustic echo canceller)에 입력하여 상기 제1 오디오로부터 상기 적어도 하나의 스피커를 통해 출력되는 소리를 적어도 일부 제거하여 제1 오디오 데이터를 생성하도록 설정될 수 있다.
상기 프로세서는, 상기 외부 장치로부터 AEC를 처리하지 않은 제2 오디오를 수신한 경우 AEC를 처리하여 에코가 적어도 일부 제거된 제2 오디오 데이터를 생성하도록 설정될 수 있다.
상기 프로세서는, 상기 제2 오디오 데이터에 기반하여 상기 제1 오디오 데이터를 전처리하여 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출하도록 설정될 수 있다.
상기 프로세서는, 상기 제1 오디오 데이터에서 상대방 음성을 제외한 소리를 적어도 일부 제거하여 향상된 상대방 음성을 상기 제1 타겟 음성으로 추출하도록 설정될 수 있다.
상기 프로세서는, 상기 메모리에 저장된 사용자 음성 정보에 기반하여 상기 제1 오디오로부터 상기 제1 타겟 음성을 추출하도록 설정될 수 있다.
상기 전자 장치는 카메라 모듈(예: 도 1의 카메라 모듈(180))을 더 포함하고, 상기 프로세서는, 상기 카메라 모듈을 이용하여 상대방을 촬영하고, 촬영한 상대방 이미지의 립 리딩(lip reading)을 분석하여 상기 제1 타겟 음성의 시작 및 종료를 검출하도록 설정될 수 있다.
상기 프로세서는, 상기 제1 타겟 음성의 시작 및 종료를 검출하고, 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 음성 인식(automatic speech recognition; ASR)하고, 상기 음성 인식된 제1 텍스트에 대하여 번역 처리하여 제1 번역 정보를 획득하도록 설정될 수 있다.
상기 프로세서는, 상기 제1 번역 정보를 TTS(text to speech)를 이용하여 제1 번역 음성으로 변환하고, 상기 제1 번역 음성을 상기 외부 장치로 전송하여 상기 외부 장치의 스피커를 통해 상기 제1 번역 음성이 출력되도록 설정될 수 있다.
상기 프로세서는, 상기 제2 오디오 데이터로부터 추출된 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료를 상기 외부 장치로부터 수신하도록 설정될 수 있다.
상기 제2 타겟 음성은, 상기 제2 오디오 데이터에서 사용자 음성을 제외한 소리를 적어도 일부 제거하여 향상된 사용자 음성을 포함하고, 상기 제2 타겟 음성의 시작 및 종료는, 상기 외부 장치에 포함된 VPU(voice pick-up) 센서를 통해 검출된 것일 수 있다.
상기 프로세서는, 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 음성 인식(ASR)하고, 상기 음성 인식된 제2 텍스트에 대하여 번역 처리하여 제2 번역 정보를 획득하도록 설정될 수 있다.
상기 프로세서는, 상기 제2 번역 정보를 TTS를 이용하여 제2 번역 음성으로 변환하고, 상기 제2 번역 정보를 상기 디스플레이에 표시하거나, 상기 제2 번역 음성을 상기 적어도 하나의 스피커에 출력하도록 설정될 수 있다.
상기 프로세서는, 상기 외부 장치를 통해 상기 제1 오디오를 번역한 제1 번역 음성이 출력되는 동안 상기 적어도 하나의 마이크를 통해 제3 오디오를 획득하도록 설정될 수 있다.
상기 프로세서는, 상기 외부 장치가 제4 오디오를 획득하는 동안, 상기 제2 오디오를 번역한 제2 번역 정보를 상기 적어도 하나의 스피커를 통해 출력하도록 설정될 수 있다.
도 4는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치가 연결된 상태에서 번역 서비스를 제공하는 방법을 도시한 흐름도이다.
이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.
도 4를 참조하면, 동작 401에서, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101)와 외부 장치(예: 도 2의 무선 입출력 장치(201))는 연결될 수 있다. 전자 장치(101)와 무선 입출력 장치(201)는 통신 모듈(예: 도 1의 통신 모듈(190))을 통해 블루투스로 연결될 수 있다. 전자 장치(101)의 사용자는 무선 입출력 장치(201)를 착용한 상태에서, 외국인과의 대화를 하기 위해 번역 서비스를 위한 어플리케이션을 실행시킬 수 있다. 전자 장치(101)는 무선 입출력 장치(201)와 연결한 후, 사용자 입력에 따라 번역 서비스를 위한 어플리케이션(예: 도 1의 어플리케이션(146))을 실행할 수 있다.
동작 403에서, 전자 장치(101)는 마이크(예: 도 3a의 제1 마이크(315))로 입력되는 제1 오디오를 획득할 수 있다. 전자 장치(101)는 상기 어플리케이션을 통한 사용자의 입력(예: 시작 버튼 선택)에 기반하여 상기 제1 오디오를 획득할 수 있다. 또는, 전자 장치(101)는 상기 어플리케이션 실행 후, 음성이 입력되는지 감지하여 상기 제1 오디오를 획득할 수 있다. 상기 제1 오디오는 상대방 음성, 사용자 음성, 주변 소음, 및/또는 제1 스피커(310)로부터 출력된 소리를 포함할 수 있다. 상기 제1 오디오는 사용자 음성 또는 상대방 음성일 수 있다. 상기 제1 오디오는 전자 장치(101)의 제1 오디오 버퍼(예: 도 1의 메모리(130))에 저장될 수 있다. 메모리(130)에는 전자 장치(101)의 사용자 음성 정보(예: 오디오 파일 또는 사용자 음성과 관련된 음성 특징 정보)가 저장될 수 있다. 전자 장치(101)는 상기 제1 오디오를 메모리(130)에 저장된 사용자 음성 정보에 기반하여 상기 제1 오디오가 사용자 음성인지 또는 상대방 음성인지 판단할 수 있다. 이하에서는, 상기 제1 오디오는 상대방으로부터 획득한 음성으로 설명하기로 한다.
일 실시 예에 따르면, 전자 장치(101)는 상기 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성할 수 있다. 전자 장치(101)는 상기 제1 오디오에 AEC를 적용하여 상기 제1 오디오 데이터를 생성할 수 있다. 에코 제거 시, 전자 장치(101)는 전자 장치(101)의 스피커(예: 도 3a의 제1 스피커(310))를 통해 출력되는 소리를 제1 오디오 레퍼런스로 활용할 수 있다. 제1 스피커(310)를 통해 출력되고 있는 소리가 있는 경우(예: 사용자 음성에 대해 번역된 음성, 음악, 및/또는 알림음), 제1 스피커(310)를 통해 출력되고 있는 소리의 일부가 제1 마이크(315)로 유입될 수 있다. 제1 스피커(310)로부터 출력된 소리가 제1 마이크(315)로 입력되는 데까지는 시간차가 발생할 수 있다. 전자 장치(101)는 상기 제1 오디오 레퍼런스에 기반하여 상기 제1 오디오로부터 제1 스피커(310)로부터 출력된 소리를 적어도 일부 제거할 수 있다. 또한, 전자 장치(101)는 상기 제1 오디오로부터 주변 소음을 적어도 일부 제거할 수 있다.
동작 405에서, 무선 입출력 장치(201)는 마이크(예: 도 3a의 제2 마이크(360))로 입력되는 제2 오디오를 획득할 수 있다. 상기 제2 오디오는 상대방 음성, 사용자 음성, 주변 소음, 제1 스피커(310)로부터 출력되는 소리, 및/또는 무선 입출력 장치(201)의 스피커(예: 도 3a의 제2 스피커(365))로부터 출력되는 소리를 포함할 수 있다. 상기 제2 오디오는 무선 입출력 장치(201)의 제2 오디오 버퍼에 저장될 수 있다. 무선 입출력 장치(201)는 상기 제2 오디오에 AEC를 적용하여 제2 오디오 데이터를 생성할 수 있다. 무선 입출력 장치(201)는 제1 스피커(310)로부터 출력되는 소리, 및/또는 무선 입출력 장치(201)의 제2 스피커(365)로부터 출력되는 소리를 제2 오디오 레퍼런스로 활용할 수 있다. 제1 스피커(310)로부터 출력되는 소리(예: 사용자 음성에 대해 번역된 음성), 또는 제2 스피커(365)를 통해 출력되고 있는 소리(예: 상대방 음성에 대해 번역된 음성, 음악, 및/또는 알림음 )의 일부는 제2 마이크(360)로 유입될 수 있다. 무선 입출력 장치(201)는 상기 제2 오디오 레퍼런스에 기반하여 상기 제2 오디오로부터 제1 스피커(310)로부터 출력된 소리, 및 제2 스피커(365)를 통해 출력되고 있는 소리를 적어도 일부 제거할 수 있다. 또한, 무선 입출력 장치(201)는 상기 제2 오디오로부터 주변 소음을 적어도 일부 제거할 수 있다.
도면에서는 동작 403이 수행된 후, 동작 405가 수행되는 것으로 설명하고 있지만, 동작 403 및 동작 405는 병렬적으로 수행되거나, 동작 405가 먼저 수행되고, 동작 403이 나중에 수행될 수도 있다. 도면은 발명의 이해를 돕기 위한 것으로, 도면에 의해 본 발명이 제한되는 것은 아니다.
동작 407에서, 전자 장치(101)는 상기 제1 오디오 데이터를 무선 입출력 장치(201)로 전송할 수 있다. 전자 장치(101)는 통신 모듈(예: 도 1의 통신 모듈(190)을 통해 상기 제1 오디오 데이터를 무선 입출력 장치(201)로 전송할 수 있다.
동작 409에서, 무선 입출력 장치(201)는 상기 제2 오디오 데이터를 전자 장치(101)로 전송할 수 있다. 무선 입출력 장치(201)는 통신 모듈(예: 도 1의 통신 모듈(190)을 통해 상기 제2 오디오 데이터를 전자 장치(101)로 전송할 수 있다. 일 실시 예에 따르면, 무선 입출력 장치(201)는 제2 오디오 데이터를 생성하지 않고, 제2 오디오(예: raw data)를 전자 장치(101)로 전송할 수 있다. 이 경우, 무선 입출력 장치(201)는 전자 장치(101)로 제2 오디오를 전송할 수 있다. 제2 오디오 데이터를 생성하는 동작은 생략 가능할 수 있다.
도면에서는 동작 407은 동작 405가 수행된 이후에 수행되는 것으로 설명하고 있지만, 동작 403과 동작 405 사이에 수행될 수도 있다. 또한, 동작 409는 동작 405와 동작 407 사이에 수행될 수도 있다.
동작 411에서, 전자 장치(101)는 상기 제1 오디오 데이터를 전처리할 수 있다. 상기 제1 오디오 데이터를 전처리하는 것은 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출하는 것일 수 있다. 상기 제1 타겟 음성은 향상된 상대방 음성만 포함하는 것으로, 상대방 음성을 제외한 소리(예: 사용자 음성)가 적어도 일부 제거된 것일 수 있다. 전자 장치(101)는 상기 제2 오디오 데이터에 기반하여 제1 타겟 음성을 추출할 수 있다. 상기 제2 오디오 데이터는 사용자 음성이므로, 전자 장치(101)는 상대방 음성에서 사용자 음성을 적어도 일부 제거하여 제1 타겟 음성을 추출할 수 있다. 또는, 메모리(예: 도 1의 메모리(130))에는 전자 장치(101)의 사용자 음성 정보(예: 오디오 파일 또는 사용자 음성과 관련된 음성 특징 정보)가 저장될 수 있다. 전자 장치(101)는 메모리(130)에 저장된 사용자 음성 정보에 기반하여 상기 제1 타겟 음성을 추출할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 머신 러닝 또는 딥 러닝 기술을 이용하여 상기 제1 타겟 음성을 추출할 수도 있다.
일 실시 예에 따르면, 전자 장치(101)는 VAD(예: 도 3a 내지 도 3c의 VAD 1(330))를 이용하여 상기 제1 타겟 음성의 시작 및 종료를 검출할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 카메라(예: 도 1의 카메라 모듈(180))를 이용하여 상기 제1 타겟 음성의 시작 및 종료를 검출할 수 있다. 예를 들어, 전자 장치(101)는 번역 서비스를 위한 어플리케이션이 실행되면, 카메라 모듈(180)을 구동(예: 카메라 on)하여 카메라 모듈(180)로부터 이미지를 획득하고, 획득한 이미지를 립 리딩 분서하여 상기 제1 타겟 음성의 시작 및 종료를 검출할 수 있다.
동작 413에서, 무선 입출력 장치(201)는 상기 제2 오디오 데이터를 전처리할 수 있다. 상기 제2 오디오 데이터를 전처리하는 것은 상기 제2 오디오 데이터로부터 제2 타겟 음성을 추출하는 것일 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 상대방 음성)가 적어도 일부 제거된 것일 수 있다. 무선 입출력 장치(201)는 상기 제1 오디오 데이터에 기반하여 제2 타겟 음성을 추출할 수 있다. 상기 제1 오디오 데이터는 상대방 음성이므로, 무선 입출력 장치(201)는 사용자 음성에서 상대방 음성을 적어도 일부 제거하여 제2 타겟 음성을 추출할 수 있다. 무선 입출력 장치(201)는 VAD를 이용하여 상기 제2 타겟 음성의 시작 및 종료를 검출할 수 있다.
동작 415에서, 무선 입출력 장치(201)는 전처리된 제2 오디오 데이터를 전송할 수 있다. 상기 전처리된 제2 오디오 데이터는 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료가 포함할 수 있다.
동작 417에서, 전자 장치(101)는 상기 전처리된 제1 오디오 데이터를 번역할 수 있다. 예를 들어, 전자 장치(101)는 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 인식(예: ASR)할 수 있다. 전자 장치(101)는 상기 제1 타겟 음성을 인식하여 제1 번역 정보를 생성할 수 있다. 상기 제1 번역 정보는 텍스트일 수 있다. 전자 장치(101)는 상기 제1 번역 정보를 제1 번역 음성으로 변환(예: TTS)할 수 있다.
동작 419에서, 전자 장치(101)는 상기 제1 번역 정보를 무선 입출력 장치(201)로 전송할 수 있다. 상기 제1 번역 정보는 제1 번역 음성을 포함할 수 있다.
동작 421에서, 전자 장치(101)는 상기 전처리된 제2 오디오 데이터를 번역할 수 있다. 예를 들어, 전자 장치(101)는 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 인식할 수 있다. 전자 장치(101)는 상기 제2 타겟 음성을 인식하여 제2 번역 정보를 생성할 수 있다. 상기 제2 번역 정보는 텍스트일 수 있다. 전자 장치(101)는 상기 제2 번역 정보를 제2 번역 음성으로 변환할 수 있다.
동작 423에서, 무선 입출력 장치(201)는 상기 제1 번역 정보를 출력할 수 있다. 상기 제1 번역 정보는 상대방 음성을 번역한 것이므로, 사용자를 위한 것일 수 있다. 사용자는 무선 입출력 장치(201)를 착용하고 있으므로, 상기 제1 번역 음성은 무선 입출력 장치(201)의 제2 스피커(365)로 출력될 수 있다.
도면에서는 동작 423이 동작 425 이전에 수행되는 것으로 설명하고 있지만, 동작 423은 동작 421 또는 동작 425와 병렬적으로 수행될 수 있다.
동작 425에서, 전자 장치(101)는 상기 제2 번역 정보를 출력할 수 있다. 상기 제2 번역 정보는 제2 번역 음성을 포함할 수 있다. 상기 제2 번역 정보는 사용자 음성을 번역한 것이므로, 상대방을 위한 것일 수 있다. 전자 장치(101)는 제1 스피커(310)를 통해 상기 제2 번역 음성을 출력하거나, 디스플레이 모듈(예: 도 1의 디스플레이 모듈(160))에 상기 제2 번역 정보를 표시할 수 있다.
도 5a는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치에서 각각 음성을 획득하는 일례를 도시한 도면이다.
도 5a를 참조하면, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101)와 외부 장치(예: 도 2의 무선 입출력 장치(201))는 서로 연결될 수 있다. 전자 장치(101)와 무선 입출력 장치(201)는 통신 모듈(예: 도 1의 통신 모듈(190))을 통해 블루투스로 연결될 수 있다. 전자 장치(101)의 사용자는 무선 입출력 장치(201)를 착용한 상태에서, 외국인(예: 상대방)과 대화할 수 있다. 사용자와 외국인이 근접한 거리에 위치하고, 전자 장치(101)는 상대방에게 더 가깝게 위치할 수 있다.
일 실시 예에 따르면, 사용자가 발화(510)하는 경우, 사용자의 발화 점(예: 입)에서 무선 입출력 장치(201)가 전자 장치(101) 보다 상대적으로 근접하므로, 무선 입출력 장치(201)로 입력되는 사용자 음성(예: 안녕하세요)의 크기(511)는 전자 장치(101)로 입력되는 사용자 음성의 크기(513)보다 더 클 수 있다. 반대로, 상대방이 발화(530)하는 경우, 상대방의 발화 점(예: 입)에서 전자 장치(101)가 무선 입출력 장치(201) 보다 상대적으로 근접하므로, 전자 장치(101)로 입력되는 상대방 음성(예: Hello)의 크기(531)는 무선 입출력 장치(201)로 입력되는 상대방 음성의 크기(533)보다 더 클 수 있다.
일 실시 예에 따르면, 무선 입출력 장치(201)와 전자 장치(101)가 서로 이격되어 위치하고 있지만, 충분한 이격 거리를 두지 않은 경우, 사용자 음성의 일부가 전자 장치(101)의 제1 마이크에 유입될 수도 있고, 상대방 음성의 일부가 무선 입출력 장치(201)의 제2 마이크에 유입될 수도 있다. 또는, 전자 장치(101)의 제1 스피커를 통해 출력되고 있는 소리는 전자 장치(101)의 제1 마이크 또는 무선 입출력 장치(201)의 제2 마이크에 유입될 수 있다. 또한, 무선 입출력 장치(201)의 제2 스피커를 통해 출력되고 있는 소리는 무선 입출력 장치(201)의 제2 마이크에 유입될 수 있다.
전자 장치(101)는 제1 마이크에 입력된 상대방 음성 데이터를 무선 입출력 장치(201)와 공유하고, 무선 입출력 장치(201)는 제2 마이크에 입력된 사용자 음성 데이터를 전자 장치(101)와 공유할 수 있다. 전자 장치(101)는 서로 간의 공유된 음성에 기반하여 번역에 필요한 상대방 음성과 사용자 음성만을 분리하여 번역에 사용할 수 있다.
도 5b는 본 개시의 일 실시 예에 따른 전자 장치와 무선 입출력 장치에서 각각 음성을 획득 및 출력하는 일례를 도시한 도면이다.
도 5b를 참조하면, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101)의 사용자는 외부 장치(예: 도 2의 무선 입출력 장치(201))를 착용한 상태에서 외국인(예: 상대방)과 대화할 수 있다. 발명의 이해를 돕기 위해 시간 순으로 설명하면, 첫번째 사용자 발화(501) 후, 첫번째 사용자 발화에 대한 제1 번역 음성(503)이 전자 장치(101)를 통해 출력될 수 있다. 첫번째 사용자 발화(501)를 획득하는 동안에 제1 번역 음성(503)이 출력될 수 있다. 이후, 전자 장치(101)를 통해 첫번째 상대방 음성 데이터(505)를 획득하고, 첫번째 상대방 음성 데이터에 대한 제2 번역 음성(507)이 무선 입출력 장치(201)를 통해 출력될 수 있다. 첫번째 상대방 음성 데이터(505)를 획득하는 동안에 제2 번역 음성(507)이 출력될 수 있다. 제2 번역 음성(507)이 출력되는 동안, 무선 입출력 장치(201)는 두 번째 사용 음성 데이터(509)를 획득할 수 있다.
일 실시 예에 따르면, 사용자와 상대방이 심리스한 대화를 하도록 전자 장치(101) 또는 무선 입출력 장치(201)는 현재 상태를 표시할 수 있다. 예를 들어, 상기 현재 상태는 사용자가 발화하는 동안에는, 전자 장치(101)는 대기 모드로 표시하고, 무선 입출력 장치(201)는 발화 모드에 대응하는 LED가 제1 색상(예: 녹색)으로 표시하는 것일 수 있다. 또한, 사용자 음성이 번역되어 출력되는 동안에는 전자 장치(101)는 출력 모드로 표시되고, 무선 입출력 장치(201)는 대기 모드에 대응하는 LED가 제2 색상(예: 빨간색)으로 표시될 수 있다. 상대방이 발화하는 동안에는, 전자 장치(101)는 발화 모드로 표시하고, 무선 입출력 장치(201)는 대기 모드에 대응하는 LED가 제2 색상으로 표시될 수 있다. 상대방 음성이 번역되어 출력되는 동안에는 전자 장치(101)는 대기 모드로 표시되고, 무선 입출력 장치(201)는 출력 모드에 대응하는 LED가 제3 색상(예: 주황색)으로 표시될 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 스피커를 통해 번역 음성이 출력되는 동안에 획득한 음성에 대하여 전처리(예: 타겟 음성 추출)함으로써, 번역해야 할 음성만 구분하여 번역할 수 있다. 전자 장치(101)는 번역 음성과 사용자 음성 또는 상대방 음성이 중첩되는 경우에도, 타겟 음성만 구분하여 번역함으로써, 상대적으로 정확도 높은 번역 서비스를 제공할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 전자 장치의 동작 방법을 도시한 흐름도(600)이다.
이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.
일 실시 예에 따르면, 동작 601 내지 613은 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(120))에서 수행되는 것으로 이해될 수 있다.
도 6을 참조하면, 동작 601에서, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(120))는 외부 장치(예: 도 2의 무선 입출력 장치(201))를 연결한 상태에서, 마이크(예: 도 3a의 제1 마이크(315))로 입력되는 제1 오디오를 획득할 수 있다. 프로세서(120)는 어플리케이션(예: 도 1의 어플리케이션(146))을 통한 사용자의 입력(예: 시작 버튼 선택)에 기반하여 상기 제1 오디오를 획득할 수 있다. 또는, 프로세서(120)는 상기 어플리케이션 실행 후, 음성이 입력되는지 감지하여 상기 제1 오디오를 획득할 수 있다. 상기 제1 오디오는 상대방 음성, 사용자 음성, 주변 소음, 및/또는 제1 스피커(310)로부터 출력된 소리를 포함할 수 있다. 상기 제1 오디오는 사용자 음성 또는 상대방 음성일 수 있다. 메모리(예: 도 1의 메모리(130))에는 전자 장치(101)의 사용자 음성 정보(예: 오디오 파일 또는 사용자 음성과 관련된 음성 특징 정보)가 저장될 수 있다. 프로세서(120)는 상기 제1 오디오를 메모리(130)에 저장된 사용자 음성 정보에 기반하여 상기 제1 오디오가 사용자 음성인지 또는 상대방 음성인지 판단할 수 있다. 이하에서는, 상기 제1 오디오는 상대방으로부터 획득한 음성으로 설명하기로 한다.
동작 603에서, 프로세서(120)는 상기 제1 오디오로부터 에코를 적어도 일부 제거한 제1 오디오 데이터를 통신 모듈(예: 도 1의 통신 모듈(190))을 통해 무선 입출력 장치(201)에 전송할 수 있다. 프로세서(120)는 상기 제1 오디오에 AEC(예: 도 3a 내지 도 3c의 AEC 1(320))를 적용하여 제1 오디오 데이터를 생성할 수 있다. 에코 제거 시, 프로세서(120)는 전자 장치(101)의 스피커(예: 도 3a의 제1 스피커(310))를 통해 출력되는 소리를 제1 오디오 레퍼런스로 활용할 수 있다. 제1 스피커(310)를 통해 출력되고 있는 소리가 있는 경우(예: 사용자 음성에 대해 번역된 음성, 음악, 및/또는 알림음), 제1 스피커(310)를 통해 출력되고 있는 소리의 일부가 제1 마이크(315)로 유입될 수 있다. 제1 스피커(310)로부터 출력된 소리가 제1 마이크(315)로 입력되는 데까지는 시간차가 발생할 수 있다. 프로세서(120)는 상기 제1 오디오 레퍼런스에 기반하여 상기 제1 오디오로부터 제1 스피커(310)로부터 출력된 소리를 적어도 일부 제거할 수 있다. 또한, 프로세서(120)는 상기 제1 오디오로부터 주변 소음을 적어도 일부 제거할 수 있다.
동작 605에서, 프로세서(120)는 무선 입출력 장치(201)로부터 제2 오디오 데이터(또는 제2 오디오)를 수신할 수 있다. 상기 제2 오디오 데이터는 무선 입출력 장치(201)에서 획득한 오디오 정보로서, 예를 들어, AEC를 적용한 것이거나, AEC를 적용하지 않은 것(예: 제2 오디오, raw data)일 수 있다. AEC를 적용하지 않은 경우, 프로세서(120)는 제2 오디오에 ACE를 적용하여 제2 오디오 데이터를 생성할 수 있다. 에코 제거 시, 프로세서(120)는 제1 스피커(310)로부터 출력되는 소리, 또는 무선 입출력 장치(201)의 제2 스피커(365)로부터 출력되는 소리를 제2 오디오 레퍼런스로 활용할 수 있다. 제1 스피커(310)로부터 출력되는 소리(예: 상대방 음성에 대해 번역된 음성), 또는 제2 스피커(365)를 통해 출력되고 있는 소리(예: 상대방 음성에 대해 번역된 음성, 음악, 및/또는 알림음 )의 일부는 제2 마이크(360)로 유입될 수 있다. 프로세서(120)는 상기 제2 오디오 레퍼런스에 기반하여 상기 제2 오디오로부터 제1 스피커(310)로부터 출력된 소리, 및 제2 스피커(365)를 통해 출력되고 있는 소리를 적어도 일부 제거할 수 있다. 또한, 프로세서(120)는 상기 제2 오디오로부터 주변 소음을 적어도 일부 제거할 수 있다.
동작 607에서, 프로세서(120)는 제2 오디오 데이터에 기반하여 제1 오디오 데이터를 전처리할 수 있다. 상기 제1 오디오 데이터를 전처리하는 것은 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출하는 것일 수 있다. 상기 제1 타겟 음성은 향상된 상대방 음성만 포함하는 것으로, 상대방 음성을 제외한 소리(예: 사용자 음성)가 적어도 일부 제거된 것일 수 있다. 프로세서(120)는 상기 제2 오디오 데이터에 기반하여 제1 타겟 음성을 추출할 수 있다. 상기 제2 오디오 데이터는 사용자 음성이므로, 프로세서(120)는 상대방 음성에서 사용자 음성을 적어도 일부 제거하여 제1 타겟 음성을 추출할 수 있다. 프로세서(120)는 메모리(130)에 저장된 사용자 음성 정보에 기반하여 상기 제1 타겟 음성을 추출할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 머신 러닝 또는 딥 러닝 기술을 이용하여 상기 제1 타겟 음성을 추출할 수도 있다.
프로세서(120)는 VAD(예: 도 3a 내지 도 3c의 VAD 1(330))를 이용하여 상기 제1 타겟 음성의 시작 및 종료를 검출할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 카메라(예: 도 1의 카메라 모듈(180))를 이용하여 상기 제1 타겟 음성의 시작 및 종료를 검출할 수 있다. 예를 들어, 프로세서(120)는 번역 서비스를 위한 어플리케이션이 실행되면, 카메라 모듈(180)을 구동(예: 카메라 on)하여 카메라 모듈(180)로부터 이미지를 획득하고, 획득한 이미지를 립 리딩 분서하여 상기 제1 타겟 음성의 시작 및 종료를 검출할 수 있다.
동작 609에서, 프로세서(120)는 통신 모듈(190)을 통해 무선 입출력 장치(201)로부터 전처리된 제2 오디오 데이터를 수신할 수 있다. 상기 전처리된 제2 오디오 데이터는 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료가 포함할 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 상대방 음성)가 적어도 일부 제거된 것일 수 있다.
동작 611에서, 프로세서(120)는 전처리된 제1 오디오 데이터 및 제2 오디오 데이터를 번역할 수 있다. 프로세서(120)는 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 인식(예: ASR)할 수 있다. 프로세서(120)는 상기 제1 타겟 음성을 인식하여 제1 번역 정보를 생성할 수 있다. 상기 제1 번역 정보는 텍스트일 수 있다. 프로세서(120)는 상기 제1 번역 정보를 제1 번역 음성으로 변환(예: TTS)할 수 있다. 또한, 프로세서(120)는 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 인식할 수 있다. 프로세서(120)는 상기 제2 타겟 음성을 인식하여 제2 번역 정보를 생성할 수 있다. 상기 제2 번역 정보는 텍스트일 수 있다. 프로세서(120)는 상기 제2 번역 정보를 제2 번역 음성으로 변환할 수 있다.
도면에서는 동작 611에서 제1 오디오 데이터 및 제2 오디오 데이터를 한번에 번역하는 것으로 도시하고 있지만, 동작 603 내지 동작 609 사이에 제1 오디오 데이터를 번역 및 전송할 수 있다. 또는, 동작 605 내지 동작 609 사이에 제2 오디오 데이터를 번역 및 전송할 수 있다.
동작 613에서, 프로세서(120)는 상기 제1 번역 정보를 전송하고, 상기 제2 번역 정보를 출력할 수 있다. 상기 제1 번역 정보는 상대방 음성을 번역한 것이므로, 사용자를 위한 것일 수 있다. 사용자는 무선 입출력 장치(201)를 착용하고 있으므로, 상기 제1 번역 음성은 무선 입출력 장치(201)의 제2 스피커(365)로 출력될 수 있다. 상기 제2 번역 정보는 사용자 음성을 번역한 것이므로, 상대방을 위한 것일 수 있다. 프로세서(120)는 제1 스피커(310)를 통해 상기 제2 번역 음성을 출력하거나, 디스플레이 모듈(예: 도 1의 디스플레이 모듈(160))에 상기 제2 번역 정보를 표시할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 전자 장치에서 상대방 음성을 전처리하여 번역하는 일례를 도시한 도면이다.
도 7을 참조하면, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101)와 무선 입출력 장치(예: 도 2의 무선 입출력 장치(201))는 연결될 수 있다. 전자 장치(101)와 무선 입출력 장치(201)는 통신 모듈(예: 도 1의 통신 모듈(190))을 통해 블루투스로 연결될 수 있다. 전자 장치(101)의 사용자는 무선 입출력 장치(201)를 착용한 상태에서, 외국인과의 대화를 용이하게 하기 위해 번역 서비스를 위한 어플리케이션(예: 도 1의 어플리케이션(146))을 실행시킬 수 있다. 전자 장치(101)의 마이크(예: 도 3a의 제1 마이크(315))를 통해 제1 오디오를 획득하면, 전자 장치(101)의 AEC 1(320)으로 제1 오디오(710)가 입력될 수 있다. 제1 오디오(710)는 상대방 음성(예: Foreigner' voice), 사용자 음성(예: User' voice), 주변 소음, 및/또는 제1 스피커(310)로부터 출력된 소리(예: TTS playback to Foreigner)를 포함할 수 있다. AEC 1(320)는 주변 소음 및 제1 스피커(310)로부터 출력된 소리를 적어도 일부 제거하여 상대방 음성(예: Foreigner' voice), 및 사용자 음성(예: User' voice)을 출력할 수 있다. AEC 1(320)의 출력(730)은 제1 오디오 데이터로서, TSE 1(325)에 입력될 수 있다.
일 실시 예에 따르면, 무선 입출력 장치(201)의 마이크(예: 도 3a의 제2 마이크(360))를 통해 제2 오디오를 획득하면, 무선 입출력 장치(201)의 AEC 2(375)로 제2 오디오(720)가 입력될 수 있다. 제2 오디오(720)는 상대방 음성(예: Foreigner' voice), 사용자 음성(예: User' voice), 주변 소음, 제1 스피커(310)로부터 출력된 소리(예: TTS playback to Foreigner) 또는 제2 스피커(예: 도 3a의 제2 스피커(365))로부터 출력된 소리(예: TTS playback to User)를 포함할 수 있다. AEC 2(375)는 주변 소음, 제1 스피커(310)로부터 출력된 소리, 제2 스피커(365)로부터 출력된 소리를 적어도 일부 제거하여 상대방 음성(예: Foreigner' voice), 및 사용자 음성(예: User' voice)을 출력할 수 있다. AEC 2(375)의 출력(740)은 제2 오디오 데이터로서, TSE 1(325)에 입력될 수 있다. 일 실시 예에 따르면, AEC 2(375)의 출력(740)은 일부 잡음(예: residual noises)이 포함될 수도 있다.
일 실시 예에 따르면, 전자 장치(101)의 AEC 1(320)은 제2 오디오(720)를 입력받아, 제2 오디오 데이터를 출력할 수 있다.
일 실시 예에 따르면, TSE 1(325)은 상기 제2 오디오 데이터에 기반하여 상기 제1 오디오 데이터를 전처리할 수 있다. 예를 들어, TSE 1(325)은 상대방 음성에서 사용자 음성을 적어도 일부 제거하여 제1 타겟 음성(예: Enhanced Foreigner' voice, 750)를 추출할 수 있다. 전자 장치(101)는 제1 타겟 음성을 인식하여 번역 처리할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 무선 입출력 장치의 동작 방법을 도시한 흐름도(800)이다.
이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.
일 실시 예에 따르면, 동작 801 내지 813은 외부 장치(예: 도 2의 무선 입출력 장치(201))의 프로세서(예: 도 3a의 제2 프로세서(301))에서 수행되는 것으로 이해될 수 있다.
도 8을 참조하면, 동작 801에서, 일 실시 예에 따른 외부 장치(예: 도 2의 무선 입출력 장치(201))의 프로세서(예: 도 3a의 제2 프로세서(301))는 전자 장치(예: 도 1의 전자 장치(101))와 연결되고, 사용자에게 착용된 상태에서, 마이크(예: 도 3a의 제2 마이크(360))로 입력되는 제2 오디오를 획득할 수 있다. 무선 입출력 장치(201)는 통신 모듈(예: 도 1의 통신 모듈(190))을 통해 전자 장치(101)와 연결(예: 블루투스)될 수 있다. 사용자는 무선 입출력 장치(201)를 착용한 상태에서, 외국인과 대화할 수 있다. 상기 제2 오디오는 상대방 음성, 사용자 음성, 주변 소음, 전자 장치(101)의 제1 스피커(예: 도 3a의 제1 스피커(310))로부터 출력되는 소리, 및/또는 무선 입출력 장치(201)의 스피커(예: 도 3a의 제2 스피커(365))로부터 출력되는 소리를 포함할 수 있다. 상기 제2 오디오는 사용자 음성일 수 있다.
동작 803에서, 프로세서(301)는 제2 오디오로부터 에코를 적어도 일부 제거한 제2 오디오 데이터를 전자 장치(101)로 전송할 수 있다. 프로세서(301)는 상기 제2 오디오에 AEC(예: 도 3a의 AEC 2(380))를 적용하여 제2 오디오 데이터를 생성할 수 있다. 프로세서(301)는 제1 스피커(310)로부터 출력되는 소리, 또는 무선 입출력 장치(201)의 제2 스피커(365)로부터 출력되는 소리를 제2 오디오 레퍼런스로 활용할 수 있다. 제1 스피커(310)로부터 출력되는 소리(예: 상대방 음성에 대해 번역된 음성), 또는 제2 스피커(365)를 통해 출력되고 있는 소리(예: 상대방 음성에 대해 번역된 음성, 음악, 및/또는 알림음)의 일부는 제2 마이크(360)로 유입될 수 있다. 프로세서(301)는 상기 제2 오디오 레퍼런스에 기반하여 상기 제2 오디오로부터 제1 스피커(310)로부터 출력된 소리, 및 제2 스피커(365)를 통해 출력되고 있는 소리를 적어도 일부 제거할 수 있다. 또한, 프로세서(301)는 상기 제2 오디오로부터 주변 소음을 적어도 일부 제거할 수 있다.
동작 805에서, 프로세서(301)는 전자 장치(101)로부터 제1 오디오 데이터를 수신할 수 있다. 상기 제1 오디오 데이터는 제1 오디오(예: 상대방 음성)에 AEC를 적용한 것일 수 있다.
동작 807에서, 프로세서(301)는 제1 오디오 데이터에 기반하여 제2 오디오 데이터를 전처리할 수 있다. 상기 제2 오디오 데이터를 전처리하는 것은 상기 제2 오디오 데이터로부터 제2 타겟 음성을 추출하는 것일 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 상대방 음성)가 적어도 일부 제거된 것일 수 있다. 프로세서(301)는 상기 제2 오디오 데이터에 기반하여 제2 타겟 음성을 추출할 수 있다. 상기 제1 오디오 데이터는 상대방 음성이므로, 프로세서(301)는 사용자 음성에서 상대방 음성을 적어도 일부 제거하여 제2 타겟 음성을 추출할 수 있다. 일 실시 예에 따르면, 프로세서(301)는 머신 러닝 또는 딥 러닝 기술을 이용하여 상기 제2 타겟 음성을 추출할 수도 있다. 프로세서(301)는 VAD를 이용하여 상기 제2 타겟 음성의 시작 및 종료를 검출할 수 있다.
동작 809에서, 프로세서(301)는 통신 모듈(190)을 통해 전자 장치(101)로 전처리된 제2 오디오 데이터를 전송할 수 있다. 상기 전처리된 제2 오디오 데이터는 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료가 포함할 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 상대방 음성)가 적어도 일부 제거된 것일 수 있다.
동작 811에서, 프로세서(301)는 제1 번역 정보를 수신하여 출력할 수 있다. 상기 제1 번역 정보는 상대방 음성을 번역한 것이므로, 사용자를 위한 것일 수 있다. 사용자는 무선 입출력 장치(201)를 착용하고 있으므로, 상기 제1 번역 음성은 무선 입출력 장치(201)의 제2 스피커(365)로 출력될 수 있다.
동작에서는 811이 가장 마지막 동작으로 설명하고 있지만, 동작 811은 동작 805 동작 809 사이에 수행될 수도 있다. 또한, 동작 801 이후에 사용자로부터 새로운 사용자 음성을 획득할 수도 있다.
도 9는 본 개시의 일 실시 예에 따른 무선 입출력 장치에서 사용자 음성을 전처리하여 번역하는 일례를 도시한 도면이다.
도 9를 참조하면, 일 실시 예에 따른 외부 장치(예: 도 2의 무선 입출력 장치(201))는 전자 장치(예: 도 1의 전자 장치(101)와 연결될 수 있다. 전자 장치(101)와 무선 입출력 장치(201)는 통신 모듈(예: 도 1의 통신 모듈(190))을 통해 블루투스로 연결될 수 있다. 전자 장치(101)의 사용자는 무선 입출력 장치(201)를 착용한 상태에서, 외국인과 대화를 시작할 수 있다. 무선 입출력 장치(201)의 마이크(예: 도 3a의 제1 마이크(315))를 통해 제2 오디오를 획득하면, 무선 입출력 장치(201)의 AEC 2(375)로 제2 오디오(920)가 입력될 수 있다. 제2 오디오(720)는 사용자 음성(예: User' voice), 상대방 음성(예: Foreigner' voice), 주변 소음, 및/또는 제2 스피커(365)로부터 출력된 소리(예: TTS playback to User)를 포함할 수 있다. AEC 2(375)는 주변 소음 및 제2 스피커(365)로부터 출력된 소리를 적어도 일부 제거하여 상대방 음성(예: Foreigner' voice), 및 사용자 음성(예: User' voice)을 출력할 수 있다. AEC 2(375)의 출력(930)은 제2 오디오 데이터로서, TSE 2(380)의 입력으로 입력될 수 있다. 일 실시 예에 따르면, AEC 2(375)의 출력(740)은 일부 잡음(예: residual noises)이 포함될 수도 있다.
일 실시 예에 따르면, 전자 장치(101)의 마이크(예: 도 3a의 제1 마이크(310))를 통해 제1 오디오를 획득하면, 상기 제1 오디오가 TSE 2(380)에 입력될 수 있다. 제1 오디오(910)는 상대방 음성(예: Foreigner' voice), 사용자 음성(예: User' voice), 주변 소음, 및/또는 제1 스피커(310)로부터 출력된 소리(예: TTS playback to Foreigner)를 포함할 수 있다. 무선 입출력 장치(201)는 전자 장치(101)로부터 AEC를 적용하지 않은 제1 오디오(예: raw data)를 이용하여 사용자 음성을 모델링할 수 있다.
일 실시 예에 따르면, TSE 2(380)는 상기 제1 오디오 데이터(또는 제1 오디오(910))에 기반하여 상기 제2 오디오 데이터를 전처리할 수 있다. 예를 들어, TSE 2(380)은 사용자 음성에서 상대방 음성을 적어도 일부 제거하여 제2 타겟 음성(예: Enhanced User' voice, 940)를 추출할 수 있다. TSE 2(380)는 통신 모듈을 통해 제2 타겟 음성을 전자 장치(101)로 전송함으로써, 전자 장치(101)가 제2 타겟 음성을 인식하여 번역 처리할 수 있다.
도 10a 및 도 10b는 본 개시의 일 실시 예에 따른 전자 장치에서 제공하는 사용자 인터페이스를 도시한 도면들이다.
도 10a를 참조하면, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(120))는 외부 장치(예: 도 2의 무선 입출력 장치(201))와 연결되고, 사용자가 무선 입출력 장치(201)를 착용한 상태에서 번역 서비스를 위한 제1 사용자 인터페이스(1010)를 제공할 수 있다. 제1 사용자 인터페이스(1010)는 상대방을 위한 것으로, 사용자(예: you)와 상대방(예: user)이 대화한 내용이 상대방에 대응하는 언어로 표시될 수 있다. 또는, 제1 사용자 인터페이스(1010)는 사용자(예 : you)와 상대방(예: user)이 대화한 내용이 사용자에 대응하는 언어로 표시될 수 있다. 예를 들어, 프로세서(120)는 상대방 첫번째 음성에 기반하여 제1 상대방(user) 발화 내용(1001)을 표시하고, 사용자 첫번째 음성을 번역한 제1 사용자 발화 내용(1003)을 표시할 수 있다. 제1 사용자 발화 내용(1003)은 전자 장치(101)의 스피커(예: 도 3a의 제1 스피커(310))를 통해 출력될 수 있다.
일 실시 예에 따르면, 프로세서(120)는 상대방 두번째 음성에 기반하여 제2 상대방 발화 내용(1005)을 표시하고, 제2 상대방 발화 내용(1005)에 대응하는 번역 내용(예: 나는 로컬 박물관에 가고 싶어)을 무선 입출력 장치(201)에 음성으로 출력할 수 있다. 제2 상대방 발화 내용(1005)은 음성 인식한 내용을 표시할 수 있다. 프로세서(120)는 사용자의 두번째 음성을 번역한 제2 사용자 발화 내용(1007)을 표시하고, 상대방 세번째 음성에 기반하여 제3 상대방 발화 내용(1009)을 표시할 수 있다. 예를 들어, 사용자는 사용자의 모국어(예: 한국어)로 말하고 있으므로, 프로세서(120)는 사용자의 두번째 음성을 상대방의 모국어(예: 영어)로 번역할 수 있다. 제2 사용자 발화 내용(1007)은 제1 스피커(310)를 통해 출력될 수 있다.
도 10b를 참조하면, 전자 장치(101)의 프로세서(120)는 제2 사용자 인터페이스(1050)를 제공할 수 있다. 제2 사용자 인터페이스(1050)는 전자 장치(101)가 무선 입출력 장치(201)에 연결하지 않은 상태에서 번역 서비스를 제공하는 실시예일 수 있다. 또는, 전자 장치(101)가 무선 입출력 장치(201)에 연결된 상태에서 번역 서비스를 제공하는 실시예일 수도 있다. 제2 사용자 인터페이스는 사용자 보다 상대방과 인접한 위치에 상대방을 위한 대화 창(예: 1059, 1061, 1063) 및 상대방 보다 사용자와 인접한 위치에 사용자를 위한 대화 창(예: 1051, 1053, 1057)을 포함할 수 있다. 프로세서(120)는 상대방 대화 창과 사용자 대화 창의 언어를 다르게 표시할 수 있다.
일 실시 예에 따르면, 프로세서(120)는 사용자 첫번째 음성에 대응하여 제1 상대방 내용(1059) 및 제1 사용자 내용(1051)으로 표시하고, 상대방 첫번째 음성에 대응하여 제2 상대방 내용(1061) 및 제2 사용자 내용(1053)으로 표시하며, 사용자 두번째 음성에 대응하여 제3 상대방 내용(1063) 및 제3 사용자 내용(1057)으로 표시할 수 있다. 상대방 내용 및 사용자 내용은 서로 대응되는 것이나, 표시되는 언어가 서로 다를 수 있다.
도 11은 본 개시의 일 실시 예에 따른 전자 장치에서 사용자 음성 및 상대방 음성을 획득하여 번역 처리하는 방법을 도시한 흐름도이다.
이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.
일 실시 예에 따르면, 동작 1101 내지 1113은 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(120))에서 수행되는 것으로 이해될 수 있다.
도 11을 참조하면, 동작 1101에서, 일 실시 예에 따른 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서(120))는 적어도 하나의 마이크를 통해 제1 오디오를 획득할 수 있다. 프로세서(120)는 사용자 요청에 따라 번역을 위한 어플리케이션(예: 도 1의 어플리케이션(146))을 실행하고, 상기 어플리케이션을 통해 상기 제1 오디오를 획득할 수 있다. 전자 장치(101)는 제1 스피커(예: 도 3c의 제1 스피커(310)), 제2 스피커(예: 도 3c의 제2 스피커(310-1)), 제1 마이크(예: 도 3c의 제1 마이크(315)), 또는 제2 마이크(예: 도 3c의 제2 마이크(315-1)) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따르면, 제1 스피커(310) 및 제1 마이크(315)는 서로 실질적으로 유사한 위치에 배치되고, 제2 스피커(310-1) 및 제2 마이크(315-1)와는 서로 이격된 위치에 배치될 수 있다. 예를 들어, 전자 장치(101)의 디스플레이(예: 도 1의 디스플레이 모듈(160))가 배치된 전자 장치(101)의 정면을 기준으로 전자 장치(101)의 일단(예: 카메라가 배치된 방향)에 제1 스피커(310) 및 제1 마이크(315)가 배치되고, 전자 장치(101)의 타단(예: 충전기가 연결되는 방향)에 제2 스피커(310-1) 및 제2 마이크(315-1)가 배치될 수 있다. 또는, 전자 장치(101)의 정면을 기준으로 전자 장치(101)의 일면(예: 사용자가 전자 장치(101)를 보는 관점에서 왼쪽 측면)에 제1 스피커(310) 및 제1 마이크(315)가 배치되고, 전자 장치(101)의 다른 타면(예: 오른쪽 측면)에 제2 스피커(310-1) 및 제2 마이크(315-1)가 배치될 수 있다.
일 실시 예에 따르면, 상기 제1 오디오는 사용자 음성 또는 상대방 음성일 수 있다. 메모리(예: 도 1의 메모리(130))에는 전자 장치(101)의 사용자 음성 정보(예: 오디오 파일 또는 사용자 음성과 관련된 음성 특징 정보)가 저장될 수 있다. 프로세서(120)는 상기 제1 오디오를 메모리(130)에 저장된 사용자 음성 정보에 기반하여 상기 제1 오디오가 사용자 음성인지 또는 상대방 음성인지 판단할 수 있다.
동작 1103에서, 프로세서(120)는 획득한 제1 오디오에 기반하여 지향성 마이크를 결정할 수 있다. 프로세서(120)는 제1 마이크(315)로부터 획득한 상기 제1 오디오의 소리 크기 및 제2 마이크(315-1)로부터 획득한 상기 제1 오디오의 소리 크기에 기반하여 상기 제1 오디오에 지향되는 마이크를 결정할 수 있다. 상대방 또는 사용자가 어느 마이크와 더 가깝게 위치(또는 존재)해 있는지에 따라 각 마이크에서 획득한 소리의 크기가 다를 수 있다. 예를 들어, 상대방이 제2 마이크(315-1)보다 제1 마이크(315)에 더 가깝게 위치하는 경우, 제1 마이크(315)에서 획득한 제1 오디오 신호의 소리 크기가 제2 마이크(315-1)에서 획득한 제1 오디오 신호의 소리 크기보다 클 수 있다. 프로세서(120)는 제1 마이크(315)로부터 획득한 상기 제1 오디오의 소리 크기 및 제2 마이크(315-1)로부터 획득한 상기 제1 오디오의 소리 크기에 기반하여 상기 제1 오디오에 지향되는 마이크를 제1 마이크(315)로 결정할 수 있다.
이하에서, 상기 제1 오디오는 상대방으로부터 획득한 음성으로 설명하기로 한다. 프로세서(120)는 상기 제1 오디오에 AEC(예: 도 3c의 ACE 1(320))를 적용하여 제1 오디오 데이터를 생성할 수 있다.
동작 1105에서, 프로세서(120)는 제2 마이크(315-1)를 통해 제2 오디오를 획득할 수 있다. 프로세서(120)는 상기 제1 오디오와 다른 음성 특성을 갖는 제2 오디오의 지향성 마이크를 제2 마이크(315-1)로 결정할 수 있다. 이하에서는, 상대방이 제1 스피커(310) 및 제1 마이크(315)에 사용자보다 더 가깝게 위치하고, 사용자가 제2 스피커(310-1) 및 제2 마이크(315-1)에 상대방보다 더 가깝게 위치하는 것으로 설명하기로 한다. 상기 제2 오디오는 사용자로부터 획득한 음성으로 설명하기로 한다. 프로세서(120)는 상기 제2 오디오에 AEC를 적용하여 제2 오디오 데이터를 생성할 수 있다.
동작 1107에서, 프로세서(120)는 제2 오디오에 기반하여 제1 오디오 데이터를 전처리할 수 있다. 여기서, 상기 제2 오디오는 AEC를 적용한 제2 오디오 데이터를 의미하는 것일 수 있다. 상기 전처리는 타겟 음성을 추출하는 것일 수 있다. 프로세서(120)는 상기 제2 오디오 데이터에 기반하여 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출(또는 생성)할 수 있다. 상기 제1 타겟 음성은 향상된 상대방 음성만 포함하는 것으로, 상대방 음성을 제외한 소리(예: 주변 소음, 사용자 음성 등)가 적어도 일부 제거된 것일 수 있다. 프로세서(120)는 제1 타겟 음성의 시작 및 종료를 검출할 수 있다.
동작 1109에서, 프로세서(120)는 제1 오디오에 기반하여 제2 오디오 데이터를 전처리할 수 있다. 여기서, 상기 제1 오디오는 AEC를 적용한 제1 오디오 데이터를 의미하는 것일 수 있다. 상기 전처리는 타겟 음성을 추출하는 것일 수 있다. 프로세서(120)는 상기 제1 오디오 데이터에 기반하여 상기 제2 오디오 데이터로부터 제2 타겟 음성을 추출(또는 생성)할 수 있다. 상기 제2 타겟 음성은 향상된 사용자 음성만 포함하는 것으로, 사용자 음성을 제외한 소리(예: 주변 소음, 사용자 음성 등)가 적어도 일부 제거된 것일 수 있다. 프로세서(120)는 제2 타겟 음성의 시작 및 종료를 검출할 수 있다.
동작 1107 및 동작 1108은 병렬적으로 수행되거나, 동작 1108이 동작 1107보다 먼저 수행될 수도 있다.
동작 1111에서, 프로세서(120)는 전처리된 제1 오디오 데이터 및 제2 오디오 데이터를 번역할 수 있다. 프로세서(120)는 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 인식할 수 있다. 프로세서(120)는 상기 제1 타겟 음성을 인식하여 제1 번역 정보를 생성할 수 있다. 상기 제1 번역 정보는 텍스트일 수 있다. 프로세서(120)는 상기 제1 번역 정보를 제1 번역 음성으로 변환하거나, 디스플레이 모듈(160)로 전달할 수 있다. 프로세서(120)는 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 인식할 수 있다. 프로세서(120)는 상기 제2 타겟 음성을 인식하여 제2 번역 정보를 생성할 수 있다. 상기 제2 번역 정보는 텍스트일 수 있다. 프로세서(120)는 상기 제2 번역 정보를 제2 번역 음성으로 변환하거나, 디스플레이 모듈(160)로 전달할 수 있다.
동작 1113에서, 프로세서(120)는 제1 스피커(310)를 통해 제2 번역 정보를 출력하고, 제2 스피커(310-1)를 통해 제1 번역 정보를 출력할 수 있다. 상대방은 제1 스피커(310)에 사용자보다 더 가깝게 위치하고, 사용자가 제2 스피커(310-1)에 상대방보다 더 가깝게 위치할 수 있다. 프로세서(120)는 제1 마이크(315)를 통해 입력된 상대방 음성을 번역하여 제2 스피커(310-1)를 번역된 상대방 음성을 출력할 수 있다. 프로세서(120)는 제2 마이크(315-1)를 통해 입력된 사용자 음성을 번역하여 제1 스피커(310)를 통해 번역된 사용자 음성을 출력할 수 있다.
본 개시의 일 실시 예에 따른 전자 장치의 동작 방법은 상기 전자 장치의 통신 모듈을 통해 외부 장치와 연결된 상태에서 상기 전자 장치의 적어도 하나의 마이크를 통해 제1 오디오를 획득하는 동작, 상기 획득한 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성하는 동작, 상기 제1 오디오 데이터를 상기 외부 장치로 전송하는 동작, 상기 외부 장치로부터 상기 외부 장치의 마이크를 통해 획득한 제2 오디오 또는 제2 오디오 데이터 중 어느 하나를 수신하는 동작, 상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 번역하는 동작, 및 상기 제1 오디오 데이터를 번역한 제1 번역 정보를 상기 외부 장치로 전송하고, 상기 제2 오디오 데이터를 번역한 제2 번역 정보를 출력하는 동작을 포함할 수 있다.
상기 생성하는 동작은, 상기 제1 오디오 및 상기 적어도 하나의 스피커를 통해 출력되는 소리를 제1 오디오 레퍼런스로 AEC에 입력하여 상기 제1 오디오로부터 상기 적어도 하나의 스피커를 통해 출력되는 소리를 제거하여 제1 오디오 데이터를 생성하는 동작을 포함할 수 있다.
상기 번역하는 동작은, 상기 제2 오디오 데이터에 기반하여 상기 제1 오디오 데이터를 전처리하여 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출하는 동작, 상기 제1 타겟 음성의 시작 및 종료를 검출하는 동작, 상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 음성 인식하는 동작, 및 상기 음성 인식된 제1 텍스트에 대하여 번역 처리하여 제1 번역 정보를 획득하는 동작을 포함할 수 있다.
상기 제1 번역 정보를 전송하는 동작은, 상기 제1 번역 정보를 TTS를 이용하여 제1 번역 음성으로 변환하는 동작, 및 상기 제1 번역 음성을 상기 외부 장치로 전송하여 상기 외부 장치의 스피커를 통해 상기 제1 번역 음성이 출력되도록 하는 동작을 포함할 수 있다.
상기 방법은, 상기 제2 오디오 데이터로부터 추출된 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료를 상기 외부 장치로부터 수신하는 동작, 상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 음성 인식(ASR)하는 동작, 상기 음성 인식된 제2 텍스트에 대하여 번역 처리하여 제2 번역 정보를 획득하는 동작, 상기 제2 번역 정보를 TTS를 이용하여 제2 번역 음성으로 변환하는 동작, 및 상기 제2 번역 정보를 상기 디스플레이에 표시하거나, 상기 제2 번역 음성을 상기 적어도 하나의 스피커에 출력하는 동작을 포함할 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
본 명세서와 도면에 개시된 본 발명의 다양한 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
101: 전자 장치
120: 프로세서
130: 메모리
310: 제1 스피커
315: 제1 마이크
190: 통신 모듈

Claims (20)

  1. 전자 장치에 있어서,
    적어도 하나의 마이크;
    적어도 하나의 스피커;
    통신 모듈;
    디스플레이;
    메모리; 및
    상기 적어도 하나의 마이크, 상기 적어도 하나의 스피커, 상기 통신 모듈, 상기 디스플레이 또는 상기 메모리 중 적어도 하나와 작동적으로 연결된 프로세서를 포함하고,
    상기 프로세서는,
    상기 통신 모듈을 통해 외부 장치와 연결된 상태에서 상기 적어도 하나의 마이크를 통해 제1 오디오를 획득하고,
    상기 획득한 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성하고,
    상기 제1 오디오 데이터를 상기 외부 장치로 전송하고,
    상기 외부 장치로부터 상기 외부 장치의 마이크를 통해 획득한 제2 오디오 또는 제2 오디오 데이터 중 어느 하나를 수신하고,
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 번역하고,
    상기 제1 오디오 데이터를 번역한 제1 번역 정보를 상기 외부 장치로 전송하고, 상기 제2 오디오 데이터를 번역한 제2 번역 정보를 출력하도록 설정된 전자 장치.
  2. 제1항에 있어서, 상기 프로세서는,
    상기 제1 오디오 및 상기 적어도 하나의 스피커를 통해 출력되는 소리를 제1 오디오 레퍼런스로 AEC(acoustic echo canceller)에 입력하여 상기 제1 오디오로부터 상기 적어도 하나의 스피커를 통해 출력되는 소리를 적어도 일부 제거하여 제1 오디오 데이터를 생성하도록 설정된 전자 장치.
  3. 제1항에 있어서, 상기 프로세서는,
    상기 외부 장치로부터 AEC를 처리하지 않은 제2 오디오를 수신한 경우 AEC를 처리하여 에코가 적어도 일부 제거된 제2 오디오 데이터를 생성하도록 설정된 전자 장치.
  4. 제1항에 있어서, 상기 프로세서는,
    상기 제2 오디오 데이터에 기반하여 상기 제1 오디오 데이터를 전처리하여 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출하도록 설정된 전자 장치.
  5. 제4항에 있어서, 상기 프로세서는,
    상기 제1 오디오 데이터에서 상대방 음성을 제외한 소리를 적어도 일부 제거하여 향상된 상대방 음성을 상기 제1 타겟 음성으로 추출하도록 설정된 전자 장치.
  6. 제4항에 있어서, 상기 프로세서는,
    상기 메모리에 저장된 사용자 음성 정보에 기반하여 상기 제1 오디오로부터 상기 제1 타겟 음성을 추출하도록 설정된 전자 장치.
  7. 제4항에 있어서,
    카메라 모듈을 더 포함하고,
    상기 프로세서는,
    상기 카메라 모듈을 이용하여 상대방을 촬영하고, 촬영한 상대방 이미지의 립 리딩(lip reading)을 분석하여 상기 제1 타겟 음성의 시작 및 종료를 검출하도록 설정된 전자 장치.
  8. 제4항에 있어서, 상기 프로세서는,
    상기 제1 타겟 음성의 시작 및 종료를 검출하고,
    상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 음성 인식(automatic speech recognition; ASR)하고,
    상기 음성 인식된 제1 텍스트에 대하여 번역 처리하여 제1 번역 정보를 획득하도록 설정된 전자 장치.
  9. 제8항에 있어서, 상기 프로세서는,
    상기 제1 번역 정보를 TTS(text to speech)를 이용하여 제1 번역 음성으로 변환하고,
    상기 제1 번역 음성을 상기 외부 장치로 전송하여 상기 외부 장치의 스피커를 통해 상기 제1 번역 음성이 출력되도록 설정된 전자 장치.
  10. 제1항에 있어서, 상기 프로세서는,
    상기 제2 오디오 데이터로부터 추출된 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료를 상기 외부 장치로부터 수신하도록 설정된 전자 장치.
  11. 제10항에 있어서, 상기 제2 타겟 음성은,
    상기 제2 오디오 데이터에서 사용자 음성을 제외한 소리를 적어도 일부 제거하여 향상된 사용자 음성을 포함하고,
    상기 제2 타겟 음성의 시작 및 종료는,
    상기 외부 장치에 포함된 VPU(voice pick-up) 센서를 통해 검출된 것인 전자 장치.
  12. 제10항에 있어서, 상기 프로세서는,
    상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 음성 인식(ASR)하고,
    상기 음성 인식된 제2 텍스트에 대하여 번역 처리하여 제2 번역 정보를 획득하도록 설정된 전자 장치.
  13. 제12항에 있어서, 상기 프로세서는,
    상기 제2 번역 정보를 TTS를 이용하여 제2 번역 음성으로 변환하고,
    상기 제2 번역 정보를 상기 디스플레이에 표시하거나, 상기 제2 번역 음성을 상기 적어도 하나의 스피커에 출력하도록 설정된 전자 장치.
  14. 제1항에 있어서, 상기 프로세서는,
    상기 외부 장치를 통해 상기 제1 오디오를 번역한 제1 번역 음성이 출력되는 동안 상기 적어도 하나의 마이크를 통해 제3 오디오를 획득하도록 설정된 전자 장치.
  15. 제1항에 있어서, 상기 프로세서는,
    상기 외부 장치가 제4 오디오를 획득하는 동안, 상기 제2 오디오를 번역한 제2 번역 정보를 상기 적어도 하나의 스피커를 통해 출력하도록 설정된 전자 장치.
  16. 전자 장치의 동작 방법에 있어서,
    상기 전자 장치의 통신 모듈을 통해 외부 장치와 연결된 상태에서 상기 전자 장치의 적어도 하나의 마이크를 통해 제1 오디오를 획득하는 동작;
    상기 획득한 제1 오디오로부터 에코를 적어도 일부 제거하여 제1 오디오 데이터를 생성하는 동작;
    상기 제1 오디오 데이터를 상기 외부 장치로 전송하는 동작;
    상기 외부 장치로부터 상기 외부 장치의 마이크를 통해 획득한 제2 오디오 또는 제2 오디오 데이터 중 어느 하나를 수신하는 동작;
    상기 제1 오디오 데이터 및 상기 제2 오디오 데이터를 각각 번역하는 동작; 및
    상기 제1 오디오 데이터를 번역한 제1 번역 정보를 상기 외부 장치로 전송하고, 상기 제2 오디오 데이터를 번역한 제2 번역 정보를 출력하는 동작을 포함하는 방법.
  17. 제16항에 있어서, 상기 생성하는 동작은,
    상기 제1 오디오 및 상기 적어도 하나의 스피커를 통해 출력되는 소리를 제1 오디오 레퍼런스로 AEC에 입력하여 상기 제1 오디오로부터 상기 적어도 하나의 스피커를 통해 출력되는 소리를 적어도 일부 제거하여 제1 오디오 데이터를 생성하는 동작을 포함하는 방법.
  18. 제16항에 있어서, 상기 번역하는 동작은,
    상기 제2 오디오 데이터에 기반하여 상기 제1 오디오 데이터를 전처리하여 상기 제1 오디오 데이터로부터 제1 타겟 음성을 추출하는 동작;
    상기 제1 타겟 음성의 시작 및 종료를 검출하는 동작;
    상기 제1 타겟 음성의 시작 및 종료에 기반하여 상기 제1 타겟 음성을 음성 인식하는 동작; 및
    상기 음성 인식된 제1 텍스트에 대하여 번역 처리하여 제1 번역 정보를 획득하는 동작을 포함하는 방법.
  19. 제18항에 있어서, 상기 제1 번역 정보를 전송하는 동작은,
    상기 제1 번역 정보를 TTS를 이용하여 제1 번역 음성으로 변환하는 동작; 및
    상기 제1 번역 음성을 상기 외부 장치로 전송하여 상기 외부 장치의 스피커를 통해 상기 제1 번역 음성이 출력되도록 하는 동작을 포함하는 방법.
  20. 제16항에 있어서,
    상기 제2 오디오 데이터로부터 추출된 제2 타겟 음성 및 상기 제2 타겟 음성의 시작 및 종료를 상기 외부 장치로부터 수신하는 동작;
    상기 제2 타겟 음성의 시작 및 종료에 기반하여 상기 제2 타겟 음성을 음성 인식(ASR)하는 동작;
    상기 음성 인식된 제2 텍스트에 대하여 번역 처리하여 제2 번역 정보를 획득하는 동작;
    상기 제2 번역 정보를 TTS를 이용하여 제2 번역 음성으로 변환하는 동작; 및
    상기 제2 번역 정보를 상기 디스플레이에 표시하거나, 상기 제2 번역 음성을 상기 적어도 하나의 스피커에 출력하는 동작을 포함하는 방법.
KR1020220111527A 2022-07-12 2022-09-02 번역 처리 방법 및 전자 장치 KR20240008760A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2023/009941 WO2024014869A1 (ko) 2022-07-12 2023-07-12 번역 처리 방법 및 전자 장치
US18/237,158 US20240020490A1 (en) 2022-07-12 2023-08-23 Method and apparatus for processing translation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220085828 2022-07-12
KR20220085828 2022-07-12

Publications (1)

Publication Number Publication Date
KR20240008760A true KR20240008760A (ko) 2024-01-19

Family

ID=89717688

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220111527A KR20240008760A (ko) 2022-07-12 2022-09-02 번역 처리 방법 및 전자 장치

Country Status (1)

Country Link
KR (1) KR20240008760A (ko)

Similar Documents

Publication Publication Date Title
KR102419374B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US20230197084A1 (en) Apparatus and method for classifying speakers by using acoustic sensor
KR20240008760A (ko) 번역 처리 방법 및 전자 장치
US20240020490A1 (en) Method and apparatus for processing translation
KR20220108919A (ko) 전자 장치 및 전자 장치의 단축 명령어 수행 방법
US20230230593A1 (en) Electronic device and method for processing speech by classifying speech target
US20230311328A1 (en) Electronic device for providing interaction on basis of user voice, and method therefor
KR20200003529A (ko) 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
US20230410788A1 (en) Method for providing group call service, and electronic device supporting same
KR20240043021A (ko) 음성 특성 기반 번역 방법 및 이를 위한 전자 장치
US20220261218A1 (en) Electronic device including speaker and microphone and method for operating the same
KR20240050203A (ko) 발화 캐시에 기반하여 사용자 발화를 분석하기 위한 방법 및 이를 지원하는 전자 장치
KR20240026820A (ko) 전자 장치 및 전자 장치의 인식 모델 관리 방법
KR20230146964A (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US20220405045A1 (en) Electronic device for responding to user reaction and outside sound and operating method thereof
US20230214397A1 (en) Server and electronic device for processing user utterance and operating method thereof
EP4332966A1 (en) Method and device for sound recording by electronic device using earphones
WO2024014869A1 (ko) 번역 처리 방법 및 전자 장치
KR20240026811A (ko) 사용자 발화를 분석하기 위한 방법 및 이를 지원하는 전자 장치
KR20240020134A (ko) 전자 장치, 지능형 서버, 및 화자 적응형 음성 인식 방법
KR20240038525A (ko) 전자 장치 및 사용자 발화 처리 방법
KR20240038523A (ko) 오거부 판단 방법 및 이를 수행하는 전자 장치
KR20240020140A (ko) 전자 장치 및 이의 음성 인식 방법
KR20240026049A (ko) 전자 장치 및 사용자 발화 처리 방법
KR20230060351A (ko) 발화 수신에 기반한 목적 장치의 식별 방법 및 이를 위한 전자 장치