KR20230099580A - 영상 통화 중 영역 별로 노이즈를 처리하는 전자 장치 및 이의 동작 방법 - Google Patents

영상 통화 중 영역 별로 노이즈를 처리하는 전자 장치 및 이의 동작 방법 Download PDF

Info

Publication number
KR20230099580A
KR20230099580A KR1020220019596A KR20220019596A KR20230099580A KR 20230099580 A KR20230099580 A KR 20230099580A KR 1020220019596 A KR1020220019596 A KR 1020220019596A KR 20220019596 A KR20220019596 A KR 20220019596A KR 20230099580 A KR20230099580 A KR 20230099580A
Authority
KR
South Korea
Prior art keywords
electronic device
sound signal
target area
signal
receiving terminal
Prior art date
Application number
KR1020220019596A
Other languages
English (en)
Inventor
허승윤
안중열
곽선정
김강열
김태우
우성화
이상수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20230099580A publication Critical patent/KR20230099580A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Telephone Function (AREA)

Abstract

일 실시 예에 따른 전자 장치는, 타겟 영역에 대해 조정된 사운드 시그널을 생성하기 위해, 영상 통화를 위해 전자 장치가 획득한 영상을 수신 단말로 전송하고, 수신 단말로부터, 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대응하는 특정 신호 정보를 수신하고, 특정 신호 정보에 기초하여, 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하고, 업데이트에 따라, 빔포밍된(beamformed) 사운드 시그널을 획득하고, 빔포밍된 사운드 시그널에 대해 노이즈 처리를 수행함으로써, 타겟 영역에 대해 조정된 사운드 시그널을 생성하고, 조정된 사운드 시그널을 수신 단말로 전송할 수 있다. 그 외에도 다양한 실시예들이 가능할 수 있다.

Description

영상 통화 중 영역 별로 노이즈를 처리하는 전자 장치 및 이의 동작 방법 {ELECTRONIC DEVICE FOR PROCESSING NOISE FOR EACH AREA DURING VIDEO CALL AND OPERATING METHOD THEREOF}
아래의 개시는 영상 통화 중 영역 별로 노이즈를 처리하는 전자 장치 및 그 동작 방법에 관한 것이다.
전자 장치는 오디오 신호 처리와 관련한 기능을 제공할 수 있다. 예컨대, 전자 장치는 오디오 신호를 수집하고 전달하는 통화 기능, 오디오 신호를 녹음하는 녹음 기능 등을 제공할 수 있다.
오디오를 출력하는 전자 장치는 음성 신호의 구분을 위해 다양한 노이즈 제거 및 억제 기술을 탑재하고 있을 수 있다. 예를 들어, 헤드폰은 노이즈 제거 회로와 연결된 마이크를 통해 주변 노이즈를 획득하고, 획득된 노이즈에 대하여 역 위상의 안티-노이즈(anti-noise) 신호를 출력할 수 있다. 사용자는 주변 노이즈와, 역 위상의 노이즈를 함께 듣게 되고, 이를 통해 노이즈가 제거된 효과를 얻을 수 있다.
복수의 단말들 간 영상 통화 시, 하나의 통화 경로에서 고정된 노이즈 처리가 지원된다. 사용자는 영상 통화 중 특정 영역에 대응하는 사운드 신호에 대해 선택적으로 노이즈 처리를 수행하고 싶을 수 있다. 예를 들어, 사용자는 영역 별로 노이즈를 처리하여 향상된 품질의 음성을 듣거나, 주변 소리를 더 크게 듣고 싶을 수 있다.
일 실시 예에 따른 전자 장치의 동작 방법은, 영상 통화를 위해 상기 전자 장치가 획득한 영상을 수신 단말로 전송하는 동작, 상기 수신 단말로부터, 상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대응하는 특정 신호 정보를 수신하는 동작, 상기 특정 신호 정보에 기초하여, 상기 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하는 동작, 상기 업데이트에 따라, 빔포밍된(beamformed) 사운드 시그널을 획득하는 동작, 상기 빔포밍된 사운드 시그널에 대해 노이즈 처리를 수행함으로써, 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작, 및 상기 조정된 사운드 시그널을 상기 수신 단말로 전송하는 동작을 포함할 수 있다.
일 실시 예에 따른 전자 장치의 동작 방법은, 송신 단말로부터, 영상 통화를 위해 상기 송신 단말이 획득한 영상을 수신하는 동작, 상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한, 사용자 입력을 수신하는 동작, 상기 타겟 영역에 대응하는 특정 신호 정보를 상기 송신 단말로 전송하는 동작, 상기 송신 단말로부터 로(raw) 사운드 시그널 및 빔포밍 정보 - 상기 빔포밍 정보는 상기 송신 단말에서 상기 타겟 영역에 대응하는 방향에 기초하여 생성됨 -를 수신하는 동작, 상기 로 사운드 시그널 및 상기 빔포밍 정보에 기초하여 노이즈 처리를 수행함으로써, 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작, 및 상기 조정된 사운드 시그널을 출력하는 동작을 포함할 수 있다.
일 실시 예에 따른 전자 장치는, 영상 통화를 위한 영상을 획득하기 위한 카메라 모듈, 영상 통화를 위한 사운드 시그널을 획득하기 위한 입력 모듈, 상기 전자 장치와 영상 통화를 수행하는 수신 단말로 상기 영상을 전송하고, 상기 수신 단말로부터 상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대응하는 특정 신호 정보를 수신하기 위한 통신 모듈, 노이즈 처리를 통해 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하기 위한 오디오 모듈, 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리, 및 상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서를 포함하고, 상기 명령어들은, 상기 특정 신호 정보에 기초하여, 상기 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하고, 상기 업데이트에 따라, 빔포밍된(beamformed) 사운드 시그널을 획득하고, 상기 빔포밍된 사운드 시그널에 기초하여, 상기 오디오 모듈을 통해 상기 조정된 사운드 시그널을 생성하고, 및 상기 조정된 사운드 시그널을 상기 수신 단말로 전송하도록 구성될 수 있다.
일 실시 예에 따른 전자 장치는, 상기 전자 장치와 영상 통화를 수행하는 송신 단말로부터, 영상 통화를 위해 상기 송신 단말이 획득한 영상을 수신하는 통신 모듈, 상기 영상을 디스플레이하고, 상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한, 사용자 입력을 수신하는 디스플레이 모듈, 노이즈 처리를 통해 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하기 위한 오디오 모듈, 상기 조정된 사운드 시그널을 출력하는 음향 출력 모듈, 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리, 및 상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서를 포함하고, 상기 명령어들은, 상기 타겟 영역에 대응하는 특정 신호 정보를 상기 송신 단말로 전송하고, 상기 송신 단말로부터 로(raw) 사운드 시그널 및 빔포밍 정보 - 상기 빔포밍 정보는 상기 송신 단말에서 상기 타겟 영역에 대응하는 방향에 기초하여 생성됨 -를 수신하고, 상기 로 사운드 시그널 및 상기 빔포밍 정보에 기초하여 상기 오디오 모듈을 통해 상기 조정된 사운드 시그널을 생성하도록 구성될 수 있다.
다양한 실시 예에 따르면, 영상 통화 중 수신 단말 사용자가 선택한 영역에 대해 선택적으로 노이즈 처리를 수행하는 송신 단말이 제공될 수 있다.
다양한 실시 예들에 따르면, 복수의 수신 단말들과 하나의 송신 단말이 영상 통화를 수행하는 경우, 수신 단말의 사용자가 선택한 영역에 대해 송신 단말로부터 정보를 전달받아 선택적으로 노이즈 처리를 수행하는 수신 단말이 제공될 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 다양한 실시 예들에 따른, 네트워크 환경 내의 전자 장치의 블록도이다.
도 2는 다양한 실시에 따른 오디오 모듈의 블록도이다.
도 3은 송신 단말과 수신 단말이 영상 통화를 수행하는 일 예를 나타낸 도면이다.
도 4는 일 실시 예에 따른 선택적 노이즈 처리를 수행하는 송신 단말의 블록도이다.
도 5는 송신 단말에서 노이즈 처리를 수행하는 동작을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른 선택적 노이즈 처리를 수행하는 수신 단말의 블록도이다.
도 7은 수신 단말에서 노이즈 처리를 수행하는 동작을 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른 특정 신호 정보를 설명하기 위한 도면이다.
도 9는 일 실시 예에 따른 선택적 노이즈 처리를 위한 사용자 인터페이스를 설명하기 위한 도면이다.
도 10은 일 실시 예에 따른, 송신 단말이 선택적으로 노이즈 처리를 수행하는 동작을 설명하기 위한 흐름도이다.
도 11은 일 실시 예에 따른, 선택적 노이즈 처리의 개시 동작을 설명하기 위한 흐름도이다.
도 12는 일 실시 예에 따른, 송신 단말이 선택적으로 노이즈 처리를 수행하여 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작을 설명하기 위한 흐름도이다.
도 13은 일 실시 예에 따른, 수신 단말이 선택적으로 노이즈 처리를 수행하는 동작을 설명하기 위한 흐름도이다.
도 14는 일 실시 예에 따른, 선택적 노이즈 처리의 개시 동작을 설명하기 위한 흐름도이다.
도 15는 일 실시 예에 따른, 수신 단말이 선택적으로 노이즈 처리를 수행하여 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작을 설명하기 위한 흐름도이다.
도 16은 일 실시 예에 따른, 타겟 영역이 변경되는 경우 수신 단말의 동작을 설명하기 위한 흐름도이다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
< 전자 장치 >
도 1은 다양한 실시 예들에 따른, 네트워크 환경 내의 전자 장치의 블록도이다.
도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블록도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.
보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network), 심층 Q-네트워크(deep Q-networks) 또는 상기 중 둘 이상의 조합 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서 모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.
입력 모듈(150)은, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 모듈(150)은, 예를 들면, 마이크, 마우스, 키보드, 키(예: 버튼), 또는 디지털 펜(예: 스타일러스 펜)을 포함할 수 있다.
음향 출력 모듈(155)은 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)은, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있다. 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일 실시예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.
디스플레이 모듈(160)은 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 디스플레이 모듈(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시예에 따르면, 디스플레이 모듈(160)은 터치를 감지하도록 설정된 터치 센서, 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 압력 센서를 포함할 수 있다.
오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일 실시예에 따르면, 오디오 모듈(170)은, 입력 모듈(150)을 통해 소리를 획득하거나, 음향 출력 모듈(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102))(예: 스피커 또는 헤드폰)를 통해 소리를 출력할 수 있다.
센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일 실시예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 홀 센서, 또는 조도 센서를 포함할 수 있다.
인터페이스(177)는 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시예에 따르면, 연결 단자(178)는, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일 실시예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일 실시예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.
배터리(189)는 전자 장치(101)의 적어도 하나의 구성요소에 전력을 공급할 수 있다. 일 실시예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108)) 간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제1 네트워크(198)(예: 블루투스, WiFi(wireless fidelity) direct 또는 IrDA(infrared data association)와 같은 근거리 통신 네트워크) 또는 제2 네트워크(199)(예: 레거시 셀룰러 네트워크, 5G 네트워크, 차세대 통신 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부의 전자 장치(104)와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성요소(예: 단일 칩)로 통합되거나, 또는 서로 별도의 복수의 구성요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 또는 인증할 수 있다.
무선 통신 모듈(192)은 4G 네트워크 이후의 5G 네트워크 및 차세대 통신 기술, 예를 들어, NR 접속 기술(new radio access technology)을 지원할 수 있다. NR 접속 기술은 고용량 데이터의 고속 전송(eMBB(enhanced mobile broadband)), 단말 전력 최소화와 다수 단말의 접속(mMTC(massive machine type communications)), 또는 고신뢰도와 저지연(URLLC(ultra-reliable and low-latency communications))을 지원할 수 있다. 무선 통신 모듈(192)은, 예를 들어, 높은 데이터 전송률 달성을 위해, 고주파 대역(예: mmWave 대역)을 지원할 수 있다. 무선 통신 모듈(192)은 고주파 대역에서의 성능 확보를 위한 다양한 기술들, 예를 들어, 빔포밍(beamforming), 거대 배열 다중 입출력(massive MIMO(multiple-input and multiple-output)), 전차원 다중입출력(FD-MIMO: full dimensional MIMO), 어레이 안테나(array antenna), 아날로그 빔형성(analog beam-forming), 또는 대규모 안테나(large scale antenna)와 같은 기술들을 지원할 수 있다. 무선 통신 모듈(192)은 전자 장치(101), 외부 전자 장치(예: 전자 장치(104)) 또는 네트워크 시스템(예: 제2 네트워크(199))에 규정되는 다양한 요구사항을 지원할 수 있다. 일 실시예에 따르면, 무선 통신 모듈(192)은 eMBB 실현을 위한 Peak data rate(예: 20Gbps 이상), mMTC 실현을 위한 손실 Coverage(예: 164dB 이하), 또는 URLLC 실현을 위한 U-plane latency(예: 다운링크(DL) 및 업링크(UL) 각각 0.5ms 이하, 또는 라운드 트립 1ms 이하)를 지원할 수 있다.
안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부의 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 안테나를 포함할 수 있다. 일 실시예에 따르면, 안테나 모듈(197)은 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다. 이런 경우, 제1 네트워크(198) 또는 제2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부의 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시예에 따르면, 방사체 이외에 다른 부품(예: RFIC(radio frequency integrated circuit))이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.
다양한 실시예에 따르면, 안테나 모듈(197)은 mmWave 안테나 모듈을 형성할 수 있다. 일 실시예에 따르면, mmWave 안테나 모듈은 인쇄 회로 기판, 상기 인쇄 회로 기판의 제1 면(예: 아래 면)에 또는 그에 인접하여 배치되고 지정된 고주파 대역(예: mmWave 대역)을 지원할 수 있는 RFIC, 및 상기 인쇄 회로 기판의 제2 면(예: 윗 면 또는 측 면)에 또는 그에 인접하여 배치되고 상기 지정된 고주파 대역의 신호를 송신 또는 수신할 수 있는 복수의 안테나들(예: 어레이 안테나)을 포함할 수 있다.
상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))을 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시예에 따르면, 명령 또는 데이터는 제2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 외부의 전자 장치(102, 또는 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부의 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부의 전자 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부의 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부의 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 모바일 에지 컴퓨팅(MEC: mobile edge computing), 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다. 전자 장치(101)는, 예를 들어, 분산 컴퓨팅 또는 모바일 에지 컴퓨팅을 이용하여 초저지연 서비스를 제공할 수 있다. 다른 실시예에 있어서, 외부의 전자 장치(104)는 IoT(internet of things) 기기를 포함할 수 있다. 서버(108)는 기계 학습 및/또는 신경망을 이용한 지능형 서버일 수 있다. 일 실시예에 따르면, 외부의 전자 장치(104) 또는 서버(108)는 제2 네트워크(199) 내에 포함될 수 있다. 전자 장치(101)는 5G 통신 기술 및 IoT 관련 기술을 기반으로 지능형 서비스(예: 스마트 홈, 스마트 시티, 스마트 카, 또는 헬스 케어)에 적용될 수 있다.
도 2는 다양한 실시에 따른 오디오 모듈(170)의 블록도(200)이다.
도 2를 참조하면, 오디오 모듈(170)은, 예를 들면, 오디오 입력 인터페이스(210), 오디오 입력 믹서(220), ADC(analog to digital converter)(230), 오디오 신호 처리기(240), DAC(digital to analog converter)(250), 오디오 출력 믹서(260), 또는 오디오 출력 인터페이스(270)를 포함할 수 있다.
오디오 입력 인터페이스(210)는 입력 모듈(150)의 일부로서 또는 전자 장치(101)와 별도로 구성된 마이크(예: 다이나믹 마이크, 콘덴서 마이크, 또는 피에조 마이크)를 통하여 전자 장치(101)의 외부로부터 획득한 소리에 대응하는 오디오 신호를 수신할 수 있다. 예를 들어, 오디오 신호가 외부의 전자 장치(102)(예: 헤드셋 또는 마이크)로부터 획득되는 경우, 오디오 입력 인터페이스(210)는 상기 외부의 전자 장치(102)와 연결 단자(178)를 통해 직접, 또는 무선 통신 모듈(192)을 통하여 무선으로(예: Bluetooth 통신) 연결되어 오디오 신호를 수신할 수 있다. 일실시예에 따르면, 오디오 입력 인터페이스(210)는 상기 외부의 전자 장치(102)로부터 획득되는 오디오 신호와 관련된 제어 신호(예: 입력 버튼을 통해 수신된 볼륨 조정 신호)를 수신할 수 있다. 오디오 입력 인터페이스(210)는 복수의 오디오 입력 채널들을 포함하고, 상기 복수의 오디오 입력 채널들 중 대응하는 오디오 입력 채널 별로 다른 오디오 신호를 수신할 수 있다. 일실시예에 따르면, 추가적으로 또는 대체적으로, 오디오 입력 인터페이스(210)는 전자 장치(101)의 다른 구성 요소(예: 프로세서(120) 또는 메모리(130))로부터 오디오 신호를 입력 받을 수 있다.
오디오 입력 믹서(220)는 입력된 복수의 오디오 신호들을 적어도 하나의 오디오 신호로 합성할 수 있다. 예를 들어, 일실시예에 따르면, 오디오 입력 믹서(220)는, 오디오 입력 인터페이스(210)를 통해 입력된 복수의 아날로그 오디오 신호들을 적어도 하나의 아날로그 오디오 신호로 합성할 수 있다.
ADC(230)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환할 수 있다. 예를 들어, 일실시예에 따르면, ADC(230)는 오디오 입력 인터페이스(210)을 통해 수신된 아날로그 오디오 신호, 또는 추가적으로 또는 대체적으로 오디오 입력 믹서(220)를 통해 합성된 아날로그 오디오 신호를 디지털 오디오 신호로 변환할 수 있다.
오디오 신호 처리기(240)는 ADC(230)를 통해 입력받은 디지털 오디오 신호, 또는 전자 장치(101)의 다른 구성 요소로부터 수신된 디지털 오디오 신호에 대하여 다양한 처리를 수행할 수 있다. 예를 들어, 일실시예에 따르면, 오디오 신호 처리기(240)는 하나 이상의 디지털 오디오 신호들에 대해 샘플링 비율 변경, 하나 이상의 필터 적용, 보간(interpolation) 처리, 전체 또는 일부 주파수 대역의 증폭 또는 감쇄, 노이즈 처리(예: 노이즈 또는 에코 감쇄), 채널 변경(예: 모노 및 스테레오간 전환), 합성(mixing), 또는 지정된 신호 추출을 수행할 수 있다. 일실시예에 따르면, 오디오 신호 처리기(240)의 하나 이상의 기능들은 이퀄라이저(equalizer)의 형태로 구현될 수 있다.
DAC(250)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환할 수 있다. 예를 들어, 일실시예에 따르면, DAC(250)는 오디오 신호 처리기(240)에 의해 처리된 디지털 오디오 신호, 또는 전자 장치(101)의 다른 구성 요소(예: 프로세서(120) 또는 메모리(130))로부터 획득한 디지털 오디오 신호를 아날로그 오디오 신호로 변환할 수 있다.
오디오 출력 믹서(260)는 출력할 복수의 오디오 신호들을 적어도 하나의 오디오 신호로 합성할 수 있다. 예를 들어, 일실시예에 따르면, 오디오 출력 믹서(260)는 DAC(250)를 통해 아날로그로 전환된 오디오 신호 및 다른 아날로그 오디오 신호(예: 오디오 입력 인터페이스(210)을 통해 수신한 아날로그 오디오 신호)를 적어도 하나의 아날로그 오디오 신호로 합성할 수 있다.
오디오 출력 인터페이스(270)는 DAC(250)를 통해 변환된 아날로그 오디오 신호, 또는 추가적으로 또는 대체적으로 오디오 출력 믹서(260)에 의해 합성된 아날로그 오디오 신호를 음향 출력 모듈(155)을 통해 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 모듈(155)는, 예를 들어, dynamic driver 또는 balanced armature driver 같은 스피커, 또는 리시버를 포함할 수 있다. 일실시예에 따르면, 음향 출력 모듈(155)는 복수의 스피커들을 포함할 수 있다. 이런 경우, 오디오 출력 인터페이스(270)는 상기 복수의 스피커들 중 적어도 일부 스피커들을 통하여 서로 다른 복수의 채널들(예: 스테레오, 또는 5.1채널)을 갖는 오디오 신호를 출력할 수 있다. 일실시예에 따르면, 오디오 출력 인터페이스(270)는 외부의 전자 장치(102)(예: 외부 스피커 또는 헤드셋)와 연결 단자(178)를 통해 직접, 또는 무선 통신 모듈(192)을 통하여 무선으로 연결되어 오디오 신호를 출력할 수 있다.
일실시예에 따르면, 오디오 모듈(170)은 오디오 입력 믹서(220) 또는 오디오 출력 믹서(260)를 별도로 구비하지 않고, 오디오 신호 처리기(240)의 적어도 하나의 기능을 이용하여 복수의 디지털 오디오 신호들을 합성하여 적어도 하나의 디지털 오디오 신호를 생성할 수 있다.
일실시예에 따르면, 오디오 모듈(170)은 오디오 입력 인터페이스(210)를 통해 입력된 아날로그 오디오 신호, 또는 오디오 출력 인터페이스(270)를 통해 출력될 오디오 신호를 증폭할 수 있는 오디오 증폭기(미도시)(예: 스피커 증폭 회로)를 포함할 수 있다. 일실시예에 따르면, 상기 오디오 증폭기는 오디오 모듈(170)과 별도의 모듈로 구성될 수 있다.
본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나 또는 둘"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.
본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
도 3은 송신 단말(302)과 수신 단말(301)이 영상 통화를 수행하는 일 예를 나타낸 도면이다.
도 3을 참조하면, 송신 단말(302)과 수신 단말(301)이 영상 통화(또는, 비디오 콜(video call))를 수행하는 일 예시가 도시된다. 송신 단말(302)은 영상(310) 및 사운드 시그널(320)을 획득할 수 있고, 획득한 영상 및 사운드 시그널을 수신 단말(301)로 전송할 수 있다. 수신 단말(301)에서는 수신한 영상 및 사운드 시그널이 수신 단말 사용자에게 제공될 수 있다.
일반적인 영상 통화의 경우, 고정된 노이즈 처리를 제공한다. 예를 들어, 도 3을 참조하여 설명하는 영상 통화 실시예에서 송신 단말(302) 및 수신 단말(301)은 고정된 에코-캔슬러(echo-canceler) 또는 노이즈 억제 파라미터(noise suppression parameter)를 지원할 수 있다. 수신 단말(301)의 사용자는, 특정 영역(350)에 대해 노이즈 제거를 증가시키거나, 감소시키길 원할 수 있다. 일 례로, 수신 단말(301)의 사용자는 도 3의 영상 통화 실시 예에서 남성의 음성을 더 크게 듣고 싶을 수 있다. 다른 일 례로, 영상 통화로 자연 풍경에 대한 영상 및 사운드가 수신 단말(301)로 제공되는 경우, 수신 단말(301)의 사용자는 특정 영역에 대한 주변 소리를 더 크게 듣고 싶을 수 있다. 다만 일반적인 영상 통화의 경우, 고정된 파라미터로 인해 영역에 따라 다르게 노이즈 처리를 수행할 수 없다.
도 4 내지 도 15를 참조하여, 영역에 따라 선택적으로 노이즈를 처리하는 방법에 대해 상세히 설명한다. 도 4 내지 도 15를 참조하여 설명할 다양한 실시 예들에서, 송신 단말과 수신 단말이 영상 통화를 수행하고, 송신 단말에서 획득한 영상 및 음성이 수신 단말로 전송되어 수신 단말 사용자에게 제공될 수 있다.
도 4 및 도 5를 참조하여 설명하는 실시 예에 따르면, 사용자가 선택한 특정 영역인 타겟 영역에 대해 조정된 사운드 시그널이 송신 단말(302)에서 생성될 수 있다. 도 6 및 도 7을 참조하여 설명하는 실시 예에 따르면, 사용자가 선택한 특정 영역인 타겟 영역에 대해 조정된 사운드 시그널이 수신 단말(301)에서 생성될 수 있다.
도 4는 일 실시 예에 따른 선택적 노이즈 처리를 수행하는 송신 단말(401)의 블록도이다.
도 4를 참조하면, 수신 단말(402)과 영상 통화 수행 중 수신 단말(402)의 사용자가 선택한 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 전자 장치(401)의 블록도가 도시된다. 전자 장치(401)는 송신 단말로서, 획득한 영상 및 사운드 시그널을 수신 단말(402)로 전송할 수 있다.
일 실시 예에 따르면, 전자 장치(401)는 카메라 모듈(480), 입력 모듈(450), 통신 모듈(490), 오디오 모듈(470), 메모리(430) 및 프로세서(420)를 포함할 수 있다.
카메라 모듈(480)은 영상 통화를 위한 영상을 획득할 수 있다. 입력 모듈(450)은 영상 통화를 위한 사운드 시그널을 획득할 수 있다. 통신 모듈(490)은 전자 장치(401)와 영상 통화를 수행하는 수신 단말(402)로 영상을 전송하고, 수신 단말(402)로부터 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대응하는 특정 신호 정보를 수신할 수 있다. 오디오 모듈(470)은 노이즈 처리를 통해 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 메모리(430)에는 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장되고, 프로세서(420)는 메모리(430)에 억세스(access)하여 명령어들을 실행할 수 있다.
전자 장치(401) 및 그 구성들에 대해, 도 1 및 도 2를 참조하여 전술한 바와 중복되는 설명은 생략한다. 예를 들어, 메모리(430)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
일 실시 예에 따르면, 사용자가 선택한 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 프로그램(예: 도 1의 프로그램(140))이 소프트웨어로서 메모리(430)에 저장될 수 있다.
일 실시 예에 따르면, 프로세서(420)는 수신 단말(402)로부터 수신한 타겟 영역에 대응하는 특정 신호 정보에 기초하여, 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하고, 업데이트에 따라 타겟 영역에 대응하는 방향으로 빔포밍된(beamformed) 사운드 시그널을 획득할 수 있다. 프로세서(420)는 빔포밍된 사운드 시그널에 기초하여, 오디오 모듈(470)을 통해 타겟 영역에 대해 조정된 사운드 시그널을 생성하고, 조정된 사운드 시그널을 수신 단말(402)로 전송할 수 있다.
구체적인 프로세서(420)의 동작은 도 5 및 도 10 내지 도 12를 참조하여 상세히 설명한다.
도 5는 송신 단말(401)에서 노이즈 처리를 수행하는 동작을 설명하기 위한 도면이다.
도 5를 참조하면, 수신 단말(402)과 영상 통화를 수행중인, 송신 단말인 전자 장치(401)가 도시된다. 전자 장치(401)는 카메라 모듈(480)에 기초하여 영상(510)을 획득하고, 입력 모듈(450)로 영상 통화를 위한 사운드 시그널(520)을 획득할 수 있다.
전자 장치(401)의 프로세서(420)는, 수신 단말(402)로 영상 통화를 위해 획득한 영상(510)을 전송할 수 있다. 수신 단말(402)에는 영상(510)이 디스플레이되고, 영상(510)을 사전 설정된 방법에 따라 분할하는 인터페이스(530)가 더 디스플레이될 수 있다. 예를 들어, 인터페이스(530)는 도 5와 같이 영상(510)을 9등분할 수 있고, 구분된 각 영역에는 1 내지 9의 숫자 각각이 포함될 수 있다. 다만 도 5의 분할 방법으로 제한되는 것은 아니고, 다양한 방법으로 분할될 수 있다. 예를 들어, 도 8을 참조하여 후술하는 바와 같이 16등분되거나, 사용자 설정에 따라 다양하게 분할될 수 있다.
수신 단말(402)의 사용자는, 분할된 영역들 중 선택적으로 노이즈 처리를 수행하고 싶은 타겟 영역에 대해 터치(touch), 또는 탭(tap)함으로써 타겟 영역을 결정할 수 있다. 예를 들어, 도 5를 참조하면 수신 단말(402)의 사용자는 남성의 음성을 보다 잘 듣기 위해 1번 영역(540)을 선택할 수 있다. 수신 단말(402)은 전자 장치(401)로 타겟 영역에 대한 특정 신호 정보를 전송할 수 있다.
일 실시 예에 따르면, 특정 신호 정보는 타겟 영역에 대응하는 DTMF(dual tone multi frequency) 신호일 수 있다. 예를 들어, 도 5를 참조하면 수신 단말(402)로부터 전자 장치(401)로 1번 DTMF 신호가 전송될 수 있다. DTMF 신호에 대한 상세한 설명은 도 8을 참조하여 상세히 설명한다. 다른 일 실시 예에 따르면, 특정 신호 정보는 약 20kHz 이상의 비가청대역 고주파 신호일 수 있다.
일 실시 예에 따르면, 전자 장치(401)의 프로세서(420)는 특정 신호 정보에 기초하여 타겟 영역에 대응하는 방향에 대한 정보를 획득할 수 있고, 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트 함으로써 빔포밍된 사운드 시그널을 획득할 수 있다. 예를 들어, 도 5를 참조하면 전자 장치(401)의 프로세서(420)는 1번 영역(560)에 대응하는 방향으로 빔포밍 파라미터를 업데이트할 수 있고, 1번 영역(560)에 대응하는 방향으로 빔포밍된 사운드 시그널을 획득할 수 있다.
일 실시 예에 따르면, 전자 장치(401)의 프로세서(420)는 빔포밍된 사운드 시그널에 대해 노이즈 처리를 수행함으로써, 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 빔포밍된 사운드 시그널에 대해서는 도 2를 참조하여 전술한 바와 같이 오디오 모듈(470)을 통해 다양한 노이즈 처리가 수행될 수 있다.
일 실시 예에 따르면, 프로세서(420)는 1번 영역(560)에 대해 빔포밍된 사운드 시그널에 대해, 노이즈 억제를 강화하거나, 약화 또는 오프(off)할 수 있다. 예를 들어, 프로세서(420)는 카메라 모듈(480)을 통해 획득한 영상(510) 중 타겟 영역에 대응하는 타겟 영상(560)을 분석하여 사람이 포함되었는지 여부를 결정할 수 있다. 일 례로, 프로세서(420)는 1번 영역(560)에 대응하는 타겟 영상에 대해, DNN semantic segmentation에 기초하여 사람이 포함되었다고 결정할 수 있다. 다만 이에 제한되는 것은 아니고, 다양한 기술에 기초하여 타겟 영상(560)에 사람이 포함되었는지 여부가 결정될 수 있다. 예를 들어, 객체 분류(object classification), 객체 검출(object detection), CNN(convolutional neural network)에 기초한 영상 처리 알고리즘, 컴퓨터 비전(computer vision) 분야의 얼굴 인식 알고리즘 등이 타겟 영상(560) 분석에 사용될 수 있다.
일 실시 예에 따르면, 프로세서(420)는 사람이 포함된 경우 빔포밍된 사운드 시그널에 대해 노이즈 억제를 강화함으로써 1번 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 도 5에서는 설명의 편의를 위해 전자 장치(401)에도 수신 단말(402)에 디스플레이되는 인터페이스(550)를 도시하였지만, 송신 단말인 전자 장치(401)에는 인터페이스(550)가 디스플레이되지 않을 수 있다.
전자 장치(401)의 프로세서(420)는 사용자 설정에 따라 노이즈 처리를 다르게 수행할 수 있다. 예를 들어, 전술한 실시 예에서는 사람이 포함된 경우 노이즈 억제를 강화한다고 하였지만, 이에 제한되는 것은 아니고 사용자 설정에 따라 다양한 노이즈 처리가 수행될 수 있다.
일 실시 예에 따르면, 프로세서(420)는 타겟 영역에 대해 조정된 사운드 시그널을 수신 단말(402)로 전송할 수 있다. 수신 단말(402)에서는 조정된 사운드 시그널이 출력될 수 있다. 일 실시 예에 따르면, 수신 단말(402)에서는 조정된 사운드 시그널과 함께 영상(510) 중 타겟 영역에 대응하는 타겟 영상(예를 들어, 1번 영역에 대한 영상(560))이 확대되어 출력될 수 있다.
도 4 및 도 5를 참조하여 전술한 실시 예에서는 수신 단말(402)이 한 개로 도시되었지만, 이에 제한되는 것은 아니고 수신 단말은 복수 개일 수 있다. 예를 들어, 전자 장치(401)의 프로세서(420)는 복수의 수신 단말 각각에서 선택된 타겟 영역에 대해 조정된 사운드 시그널을 생성하고, 각 수신 단말로 조정된 사운드 시그널이 전송되어 사용자에게 출력될 수 있다. 도 4 및 도 5를 참조하여 전술한 송신 단말인 전자 장치(401)에서 선택적 노이즈 처리가 수행되는 실시 예에 대해, 도 10 내지 도 12를 참조하여 전자 장치(401)의 동작을 상세히 설명한다.
도 6은 일 실시 예에 따른 선택적 노이즈 처리를 수행하는 수신 단말(601)의 블록도이다.
도 6을 참조하면, 송신 단말(604)과 영상 통화를 수행하는 하나 이상의 수신 단말(예: 전자 장치(601) 및 제2 수신 단말(602)) 중 전자 장치(601)의 사용자가 선택한 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 전자 장치(601)의 블록도가 도시된다. 전자 장치(601)는 수신 단말로서, 송신 단말(604)이 획득한 영상 및 사운드 시그널을 수신할 수 있다.
일 실시 예에 따르면, 전자 장치(601)는 통신 모듈(690), 디스플레이 모듈(660), 오디오 모듈(670), 음향 출력 모듈(655), 메모리(630) 및 프로세서(620)를 포함할 수 있다.
통신 모듈(690)은 송신 단말(604)이 획득한 영상 통화를 위한 영상을 수신할 수 있다. 디스플레이 모듈(660)은 영상을 디스플레이하고, 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한 사용자 입력을 수신할 수 있다. 오디오 모듈(670)은 노이즈 처리를 통해 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 메모리(630)에는 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장되고, 프로세서(620)는 메모리(630)에 억세스(access)하여 명령어들을 실행할 수 있다.
전자 장치(601) 및 그 구성들에 대해, 도 1 및 도 2를 참조하여 전술한 바와 중복되는 설명은 생략한다. 예를 들어, 메모리(630)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
일 실시 예에 따르면, 사용자가 선택한 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 프로그램(예: 도 1의 프로그램(140))이 소프트웨어로서 메모리(630)에 저장될 수 있다.
일 실시 예에 따르면, 프로세서(620)는 디스플레이 모듈(660)을 통해 수신한 타겟 영역에 대한 사용자 입력에 기초하여, 타겟 영역에 대응하는 특정 신호 정보를 송신 단말(604)로 전송하고, 송신 단말(604)로부터 로(raw) 사운드 시그널 및 빔포밍 정보를 수신할 수 있다. 빔포밍 정보는 송신 단말(604)에서 타겟 영역에 대응하는 방향에 기초하여 생성될 수 있다. 도 5를 참조하여 전술한 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트 함으로써 획득되는 빔포밍된 사운드 시그널과 달리, 로 사운드 시그널은 특정 방향(예: 타겟 영역에 대응하는 방향)에 대해 빔포밍되지 않은 신호일 수 있다. 예를 들어, 로 사운드 시그널은 송신 단말(604)이 마이크와 같은 입력 모듈(예: 도 4를 참조하여 전술한 송신 단말인 전자 장치(401)의 입력 모듈(450))을 통해 획득한 빔포밍되지 않은 사운드 시그널일 수 있다. 로 사운드 시그널은 송신 단말(604)에서 인코딩, 압축과 같은 오디오 신호 처리가 수행된 후 전자 장치(601)로 전송될 수 있고, 전자 장치(601)의 프로세서(620)는 수신한 신호에 대해 오디오 모듈(670)에 기초하여 디코딩, 압축 해제와 같은 오디오 신호 처리를 수행할 수 있다.
일 실시 예에 따르면, 프로세서(620)는 로 사운드 시그널 및 빔포밍 정보에 기초하여 오디오 모듈(670)을 통해 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 조정된 사운드 시그널은 음향 출력 모듈(655)을 통해 사용자에게 출력될 수 있다.
구체적인 프로세서(620)의 동작은 도 7 및 도 13 내지 도 15를 참조하여 상세히 설명한다.
도 7은 수신 단말(601)에서 노이즈 처리를 수행하는 동작을 설명하기 위한 도면이다.
도 7을 참조하면, 송신 단말(604)과 영상 통화를 수행중인 복수의 수신 단말인 전자 장치(601) 및 제2 수신 단말(602)이 도시된다. 전자 장치(601)는 송신 단말(604)이 획득한 영상(710)을 수신 및 디스플레이하고, 영상(710)을 사전 설정된 방법에 따라 분할하는 인터페이스(730)를 더 디스플레이할 수 있다. 예를 들어, 인터페이스(730)는 도 7과 같이 영상(710)을 9등분할 수 있고, 구분된 각 영역에는 1 내지 9의 숫자 각각이 포함될 수 있다.
전자 장치(601)의 사용자는, 분할된 영역들 중 선택적으로 노이즈 처리를 수행하고 싶은 타겟 영역에 대해 터치(touch), 또는 탭(tap)함으로써 타겟 영역을 결정할 수 있다. 예를 들어, 도 7을 참조하면 수신 단말인 전자 장치(601)의 사용자는 남성의 음성을 보다 잘 듣기 위해 1번 영역(740)을 선택할 수 있다. 전자 장치(601)는 송신 단말(604)로 타겟 영역에 대한 특정 신호 정보를 전송할 수 있다.
일 실시 예에 따르면, 특정 신호 정보는 타겟 영역에 대응하는 DTMF(dual tone multi frequency) 신호일 수 있다. 예를 들어, 도 7을 참조하면 전자 장치(601) 로부터 송신 단말(604)로 1번 DTMF 신호가 전송될 수 있다. DTMF 신호에 대한 상세한 설명은 도 8을 참조하여 상세히 설명한다. 다른 일 실시 예에 따르면, 특정 신호 정보는 약 20kHz 이상의 비가청대역 고주파 신호일 수 있다.
일 실시 예에 따르면, 전자 장치(601)의 프로세서(620)는 1번 영역(740)의 객체(예: 도 7의 740에 대응하는 남성)를 검출(detect)하고, 추적(tracking)함에 따라 타겟 영역을 추적하고, 변경된 타겟 영역에 대한 특정 신호 정보를 전송할 수 있다. 예를 들어, 도 7을 참조하여 1번 영역의 남성이 3번 영역으로 이동하는 경우의 실시 예를 설명한다. 프로세서(620)는 전술한 바와 같이 1번 영역에 대응하는 1번 DTMF 신호를 전송한 후, 1번 영역의 남성을 검출 및 추적하여 남성이 이동한 3번 영역에 대한 특정 신호 정보(예: 3번 DTMF 신호)를 송신 단말(604)로 더 전송할 수 있다.
일 실시 예에 따르면, 전자 장치(601)의 프로세서(620)는 송신 단말(604)로부터 로 사운드 시그널(720) 및 빔포밍 정보를 수신할 수 있다. 빔포밍 정보는 특정 신호 정보에 따라, 타겟 영역에 대응하는 방향에 기초하여 생성될 수 있다. 일 례로, 빔포밍 정보는 타겟 영역에 대응하는 방향에 기초하여 업데이트되는 빔포밍 파라미터에 대한 정보일 수 있다. 예를 들어, 도 7을 참조하면 전자 장치(601)의 프로세서(620)는 로 사운드 시그널(720), 및 1번 영역(740)에 대응하는 방향에 기초하여 생성된 빔포밍 정보를 송신 단말(604)로부터 수신할 수 있다. 일 실시 예에 따르면, 전술한 바와 같이 남성이 1번 영역에서 3번 영역으로 이동하여 송신 단말(604)로 3번 영역에 대한 특정 신호 정보가 더 전송된 경우, 프로세서(620)는 송신 단말(604)로부터 3번 영역에 대응하는 방향에 기초하여 생성된 빔포밍 정보를 더 수신할 수 있다.
일 실시 예에 따르면, 전자 장치(601)의 프로세서(620)는 로 사운드 시그널 및 빔포밍 정보에 기초하여 노이즈 처리를 수행함으로써, 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 도 2를 참조하여 전술한 바와 같이, 오디오 모듈(670)을 통해 다양한 노이즈 처리가 수행될 수 있다.
일 실시 예에 따르면, 프로세서(620)는 1번 영역(740)에 대한 빔포밍 정보 및 로 사운드 시그널에 기초하여, 노이즈 억제를 강화하거나, 약화 또는 오프(off)할 수 있다. 예를 들어, 프로세서(620)는 로 사운드 시그널 및 빔포밍 정보에 기초하여 타겟 영역에 대응하는 음원을 분리하는 음원 분리 기법(source separation)을 수행하고, 타겟 영역에 대응하는 음원 및 타겟 영역에 대응하는 음원이 아닌 음원에 대해 노이즈 처리를 수행할 수 있다. 타겟 영역에 대응하는 음원은, 미리 학습된 신경망 모델에 기초하여 분리될 수 있다.
예를 들어, 프로세서(620)는 타겟 영역에 대응하는 음원에 대해 노이즈 억제를 강화하고, 타겟 영역에 대응하는 음원이 아닌 음원에 대해 노이즈 억제를 약화 또는 오프함으로써 타겟 영역인 1번 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 도 7에서는 설명의 편의를 위해 송신 단말(604)에도 전자 장치(601)에 디스플레이되는 인터페이스(730)와 동일한 인터페이스(770)를 도시하였지만, 송신 단말(604)에는 인터페이스(770)가 디스플레이되지 않을 수 있다.
전자 장치(601)의 프로세서(620)는 사용자 설정에 따라 노이즈 처리를 다르게 수행할 수 있다. 예를 들어, 전술한 실시 예에서는 타겟 영역에 대응하는 음원에 대해 노이즈 억제를 강화한다고 하였지만, 이에 제한되는 것은 아니고 사용자 설정에 따라 다양한 노이즈 처리가 수행될 수 있다.
일 실시 예에 따르면, 프로세서(620)는 음향 출력 모듈(655)을 통해 타겟 영역에 대해 조정된 사운드 시그널을 출력할 수 있다. 일 실시 예에 따르면, 전자 장치(601)는 조정된 사운드 시그널과 함께 영상(710) 중 타겟 영역에 대응하는 타겟 영상이 확대되어 출력될 수 있다.
일 실시 예에 따르면, 다른 수신 단말인 제2 수신 단말(602)에서도 동일한 방법으로 선택적 노이즈 처리가 수행될 수 있다. 예를 들어, 도 7을 참조하면 제2 수신 단말(602)에는 영상 통화를 위한 영상(710) 및 영상(710)을 사전 설정에 따라 분할하는 인터페이스(750)가 도시되고, 제2 수신 단말(602)의 사용자는 여성의 음성을 보다 잘 듣기 위해 타겟 영역으로 3번 영역(760)을 선택할 수 있다. 3번 영역 선택에 따라 3번 DTMF 신호가 송신 단말(604)로 전송되면, 송신 단말(604)은 로 사운드 시그널(720) 및 3번 영역에 대응하는 방향에 기초하여 생성된 빔포밍 정보를 제2 수신 단말(602)로 전송할 수 있다. 제2 수신 단말(602)은 로 사운드 시그널 및 빔포밍 정보에 기초하여, 타겟 영역인 3번 영역에 대해 조정된 사운드 시그널을 생성하고 출력할 수 있다.
일 실시 예에 따르면, 도 4 및 도 5를 참조하여 전술한 실시 예에서 노이즈를 처리하는 방법과, 도 6 및 도 7을 참조하여 전술한 실시 예에서 노이즈를 처리하는 방법은 동일할 수 있다. 일 례로, 도 4 및 도 5를 참조하여 전술한 실시 예에서는 전자 장치(401)가 타겟 영역에 대응하는 타겟 영상에 사람이 포함되었는지 여부에 따라 노이즈를 처리한다고 설명하였지만, 도 6 및 도 7을 참조하여 전술한 바와 같이 음원 분리 기법에 기초하여 노이즈를 처리할 수 있다. 다른 일 례로, 도 6 및 도 7을 참조하여 전술한 실시 예에서는 전자 장치(601)가 타겟 영역에 대응하는 타겟 음원인지 여부에 따라 노이즈를 처리한다고 설명하였지만, 도 4 및 도 5를 참조하여 전술한 바와 같이 타겟 영역에 대응하는 타겟 영상을 분석하고, 타겟 영상에 사람이 포함되었는지 여부에 따라 노이즈를 처리할 수 있다. 또 다른 일 례로, 노이즈 처리 방법은 사용자 설정에 따라 다양하게 구현될 수 있다.
도 6 및 도 7을 참조하여 전술한 실시 예에서는 수신 단말이 복수 개(예: 전자 장치(601) 및 제2 수신 단말(602))로 도시되었지만, 이에 제한되는 것은 아니고 수신 단말은 한개일 수 있다. 도 6 및 도 7을 참조하여 전술한 수신 단말인 전자 장치(601)에서 선택적 노이즈 처리가 수행되는 실시 예에 대해, 도 13 내지 도 15를 참조하여 전자 장치(601)의 동작을 상세히 설명한다.
도 6 및 도 7을 참조하여 전술한 실시 예의 경우, 노이즈 처리가 각 수신 단말들(예: 전자 장치(601) 및 제2 수신 단말(602))에서 수행되기 때문에, 복수의 수신 단말들이 하나의 송신 단말과 영상 통화를 수행하는 경우 효율적일 수 있다. 예를 들어 복수의 수신 단말들과 영상 통화를 수행하는데 도 4 및 도 5를 참조하여 전술한 실시예처럼 송신 단말(예: 도 5의 전자 장치(401))이 노이즈 처리를 수행한다면, 하나의 송신 단말에서의 노이즈 처리로 인해 속도가 지연될 수 있다. 영상 통화의 경우 실시간성이 중요할 수 있고, 영상 통화에서 수신 단말이 복수인 경우에는 도 6 및 도 7을 참조하여 전술한 실시 예와 같이 각 수신 단말에서 노이즈 처리를 수행하는 것이 보다 빠를 수 있다.
도 4 내지 도 7을 참조하여 설명한 실시 예들은, 수신 단말 사용자의 선택적 노이즈 처리에 대한 승인 요청, 및 송신 단말 사용자의 승인으로 인해 개시될 수 있다. 일 실시 예에 따른 선택적 노이즈 처리를 위한 사용자 인터페이스는, 도 9를 참조하여 상세히 설명한다.
도 8은 일 실시 예에 따른 특정 신호 정보를 설명하기 위한 도면이다.
도 8을 참조하면, 일 실시 예에 따른 DTMF(dual tone multi frequency) 신호를 설명하기 위한 도면이 도시된다. DTMF는 상대방을 결정하기 위해 전화국으로 전달되는 신호 방식의 하나로서, 전화기의 버튼을 누를 때마다 '삐'하고 울리는 소리가 DTMF 신호이다. 사람의 귀로는 다 비슷한 소리로 들리지만, 실제로는 각 버튼에 해당되는 고유의 주파수가 할당되어 있다. DTMF의 대응하는 번호에 대해 사용자가 선택하면, 각 버튼에 해당하는 2개의 서로 다른 주파수의 음이 발생할 수 있다. DTMF 신호는 각 주파수 사이에 고조파를 방지하도록 설정되어 있어, 다른 주파수에 의한 간섭이 배제될 수 있다.
도 8을 참조하면, 1번 DTMF 신호의 경우 약 697 Hz의 음과 약 1209 Hz의 음이 동시에 발생할 수 있다. 예를 들어, 도 5를 참조하여 전술한 실시 예에서 수신 단말(402)의 사용자가 1번 영역(540)이 타겟 영역이라고 결정하고 1번 영역(540)을 터치한 경우, 수신 단말(402)에서 전자 장치(401)로 약 697 Hz의 음과 약 1209 Hz의 음이 동시에 전송될 수 있다.
도 8을 참조하면 각 번호에 해당되는 주파수가 도시되어 있다. 전화기와 같은 실제 상용 제품에서는 1633Hz의 주파수는 사용하지 않고 있으나, 도 4 내지 도 7을 참조하여 전술한 실시 예들에서는 1633Hz 주파수도 사용될 수 있다. 일 실시 예에 따르면, 타겟 영역을 결정하기 위해 화면을 분할하는 인터페이스가 도 8의 DTMF 신호에 따라 다양하게 구현될 수 있다.
예를 들어, 도 5 및 도 7을 참조하여 전술한 실시 예에서는 화면을 9등분하는 인터페이스가 디스플레이 되었지만(예: 도 5의 수신 단말(402), 도 7의 전자 장치(601) 및 제2 수신 단말(602)), 이에 제한되지 않고 도 8과 같이 화면을 16등분하는 인터페이스가 수신 단말에 디스플레이될 수 있다.
도 9는 일 실시 예에 따른 선택적 노이즈 처리를 위한 사용자 인터페이스를 설명하기 위한 도면이다.
도 4 내지 도 7을 참조하여 설명한 실시 예들은 수신 단말 사용자의 선택적 노이즈 처리에 대한 승인 요청, 및 송신 단말 사용자의 승인으로 인해 개시될 수 있다. 도 9를 참조하면, 수신 단말(901) 및 송신 단말(904)에서의 선택적 노이즈 처리를 위한 사용자 인터페이스가 도시된다. 수신 단말(901)은 도 4 및 도 5를 참조하여 전술한 실시 예의 수신 단말(402) 또는 도 6 및 도 7을 참조하여 전술한 실시 예의 전자 장치(601)일 수 있다. 송신 단말(904)은 도 4 및 도 5를 참조하여 전술한 실시 예의 전자 장치(401) 또는 도 6 및 도 7을 참조하여 전술한 실시 예의 송신 단말(604)일 수 있다.
일 실시 예에 따르면, 수신 단말(901)에는 영상 통화 중 선택적 노이즈 처리 요청을 위한 사용자 인터페이스(910)가 디스플레이될 수 있다. 수신 단말(901)의 사용자가 선택적 노이즈 처리 요청을 위한 사용자 인터페이스(910)를 터치(또는, 탭(tap))하면, 수신 단말(901)로부터 송신 단말(904)로 선택적 노이즈 처리 승인 요청이 전송되고, 송신 단말(904)에는 선택적 노이즈 승인을 위한 사용자 인터페이스(930)가 디스플레이될 수 있다. 송신 단말(904)의 사용자가 선택적 노이즈 처리 요청 승인 인터페이스(930)를 터치(또는 ,탭)하면, 선택적 노이즈 처리 요청을 승인한다는 신호가 수신 단말(901)로 전송될 수 있다.
일 실시 예에 따르면, 선택적 노이즈 처리 요청 승인 신호가 수신 단말(901)로 전송된 후 도 4 내지 도 7을 참조하여 전술한 실시 예들이 개시될 수 있다. 일 례로, 도 4 및 도 5를 참조하여 전술한 실시 에에서, 수신 단말(402)에 영상 통화를 위한 영상(510)이 디스플레이되던 중 영상(510)을 사전 설정된 방법에 따라 분할하는 인터페이스(530)가 디스플레이될 수 있다. 다른 일 례로, 도 6 및 도 7을 참조하여 전술한 실시 에에서, 수신 단말인 전자 장치(601)에 영상 통화를 위한 영상(710)이 디스플레이되던 중 영상(710)을 사전 설정된 방법에 따라 분할하는 인터페이스(730)가 디스플레이될 수 있다.
< 송신 단말의 동작 방법 >
도 10은 일 실시 예에 따른, 송신 단말(401)이 선택적으로 노이즈 처리를 수행하는 동작을 설명하기 위한 흐름도이다.
동작 1010 내지 동작 1060은 도 4 및 도 5를 참조하여 전술된 전자 장치(401)의 프로세서(420)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 9를 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
동작 1010에서, 프로세서(420)는 영상 통화를 위해 전자 장치(401)가 획득한 영상(예를 들어, 도 5에서 영상(510))을 수신 단말(402)로 전송할 수 있다.
동작 1020에서, 프로세서(420)는 수신 단말(402)로부터, 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대응하는 특정 신호 정보를 수신할 수 있다. 예를 들어, 도 5를 참조하여 전술한 바와 같이, 수신 단말(402)에는 영상(510)을 사전 설정된 방법으로 분할하는 인터페이스(530)가 디스플레이되고, 프로세서(420)는 수신 단말(402) 사용자의 선택에 따라 수신 단말(402)로부터 1번 영역(540)에 대응하는 1번 DTMF 신호를 수신할 수 있다.
동작 1030에서, 프로세서(420)는 특정 신호 정보에 기초하여 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트할 수 있다. 예를 들어, 도 5를 참조하여 전술한 바와 같이 프로세서(420)는 영상 내에서 타겟 영역(예: 도 5에서 1번 영역(560))에 대응하는 방향으로 빔포밍 파라미터를 업데이트할 수 있다.
동작 1040에서, 프로세서(420)는 업데이트에 따라 빔포밍된 사운드 시그널을 획득할 수 있다. 프로세서(420)는 타겟 영역에 대응하는 방향으로 업데이트한 빔포밍 파라미터에 기초하여 사운드 시그널을 획득할 수 있다.
동작 1050에서, 프로세서(420)는 빔포밍된 사운드 시그널에 노이즈 처리를 수행함으로써, 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 송신 단말인 전자 장치(401)의 프로세서(420)가 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작은 도 12를 참조하여 상세히 설명한다.
동작 1060에서, 프로세서(420)는 타겟 영역에 대해 조정된 사운드 시그널을 수신 단말(402)로 전송할 수 있다. 수신 단말(402)에서는 타겟 영역에 대해 조정된 사운드 시그널이 출력될 수 있다. 일 실시 예에 따르면, 수신 단말(402)에서는 타겟 영역에 대해 조정된 사운드 시그널과 함께, 타겟 영역(560)이 확대되어 출력될 수 있다.
도 11은 일 실시 예에 따른, 선택적 노이즈 처리의 개시 동작을 설명하기 위한 흐름도이다.
동작 1110 및 동작 1120은 도 4 및 도 5를 참조하여 전술된 전자 장치(401)의 프로세서(420)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 10을 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
동작 1110 및 동작 1120은 도 9를 참조하여 전술한 선택적 노이즈 처리의 개시 동작에 대응할 수 있고, 동작 1110 및 동작 1120은 도 10을 참조하여 전술한 영상 통화를 위한 영상을 수신 단말(402)로 전송하는 동작(예: 도 10의 동작 1010) 이후 수행될 수 있다.
동작 1110에서, 프로세서(420)는 수신 단말(402)로부터 노이즈 처리 승인 요청을 수신할 수 있다. 예를 들어, 도 9를 참조하여 전술한 바와 같이 수신 단말(402)에는 선택적 노이즈 처리 승인 요청을 위한 사용자 인터페이스(910)가 디스플레이되고, 수신 단말(402) 사용자의 인터페이스(910)에 대한 사용자 입력에 따라 프로세서(420)는 노이즈 처리 승인 요청을 수신할 수 있다.
동작 1120에서, 프로세서(420)는 전자 장치(401)로의 사용자 입력에 따라, 요청을 승인한다는 신호를 수신 단말(402)로 전송할 수 있다. 예를 들어, 도 9를 참조하여 전술한 바와 같이 선택적 노이즈 처리 승인 요청을 수신함에 따라 송신 단말인 전자 장치(401)에는 선택적 노이즈 처리 승인에 대한 사용자 인터페이스(930)가 디스플레이될 수 있다. 전자 장치(401) 사용자의 인터페이스(930)에 대한 사용자 입력에 따라 프로세서(420)는 수신 단말(402)로 선택적 노이즈 처리 요청을 승인한다는 신호를 전송할 수 있다.
동작 1120에서 수신 단말(402)로 요청 승인 신호가 전송되면, 수신 단말(402)에는 영상을 사전 설정된 방법으로 분할하는 인터페이스가 디스플레이되고, 수신 단말(402) 사용자의 선택에 따라 타겟 영역에 대응하는 특정 신호 정보가 전자 장치(401)로 전송될 수 있다. 예를 들어, 동작 1120 이후 전자 장치(401)의 프로세서(420)는 수신 단말(402)로부터 타겟 영역에 대응하는 특정 신호 정보를 수신하는 동작(예: 도 10의 동작 1020)을 수행할 수 있다.
도 12는 일 실시 예에 따른, 송신 단말(401)이 선택적으로 노이즈 처리를 수행하여 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작을 설명하기 위한 흐름도이다.
동작 1210 내지 동작 1240은 도 4 및 도 5를 참조하여 전술된 전자 장치(401)의 프로세서(420)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 11을 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
일 실시 예에 따르면, 동작 1210 내지 동작 1240은 도 10을 참조하여 설명한 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작(예: 도 10의 동작 1050)에 대응될 수 있다.
동작 1210에서, 프로세서(420)는 전자 장치(401)가 획득한 영상 중, 타겟 영역에 대응하는 타겟 영상을 분석할 수 있다. 예를 들어, 도 5를 참조하여 전술한 바와 같이, 프로세서(420)는 전자 장치(401)가 획득한 영상(510) 중 수신 단말(402) 사용자가 선택한 타겟 영역에 대응하는 타겟 영상(예를 들어, 도 5의 1번 영역(560)에 대응하는 영상)을 분석할 수 있다.
동작 1220에서, 프로세서(420)는 분석에 기초하여 타겟 영상에 사람이 포함되었는지 여부를 결정할 수 있다. 일 례로, 프로세서(420)는 1번 영역(560)에 대응하는 타겟 영상에 대해, DNN semantic segmentation에 기초하여 사람이 포함되었다고 결정할 수 있다.
동작 1230에서, 프로세서(420)는 타겟 영상에 사람이 포함된 경우 노이즈 억제를 강화함으로써, 조정된 사운드 시그널을 생성할 수 있다. 예를 들어, 타겟 영역에 사람이 포함된 경우 수신 단말(402)의 사용자는 타겟 영역에 포함된 사람의 음성을 보다 잘 듣기 위해 타겟 영역을 선택한 것일 수 있고, 프로세서(420)는 노이즈 억제를 통해 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다.
동작 1240에서, 프로세서(420)는 타겟 영상에 사람이 포함되지 않은 경우 노이즈 억제를 약화 또는 오프함으로써, 조정된 사운드 시그널을 생성할 수 있다. 예를 들어, 타겟 영역에 사람이 포함되지 않은 경우 수신 단말(402)의 사용자는 타겟 영역에서 발생하는 사람 음성이 아닌 사운드, 예를 들어 배경 소리를 보다 잘 듣기 위해 타겟 영역을 선택한 것일 수 있고, 프로세서(420)는 노이즈 억제 약화 또는 오프를 통해 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다.
동작 1230 또는 동작 1240이 수행된 후, 프로세서(420)는 타겟 영역에 대해 조정된 사운드 시그널을 수신 단말(402)로 전송할 수 있다. 타겟 영역에 대해 조정된 사운드 시그널은 수신 단말(402)에서 출력될 수 있다.
< 수신 단말의 동작 방법 >
도 13은 일 실시 예에 따른, 수신 단말(601)이 선택적으로 노이즈 처리를 수행하는 동작을 설명하기 위한 흐름도이다.
동작 1310 내지 동작 1360은 도 6 및 도 7을 참조하여 전술된 전자 장치(601)의 프로세서(620)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 12를 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
동작 1310에서, 프로세서(620)는 송신 단말(604)로부터, 송신 단말(604)이 영상 통화를 위해 획득한 영상(예를 들어, 도 7에서 영상(710))을 수신할 수 있다.
동작 1320에서, 프로세서(620)는 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한 사용자 입력을 수신할 수 있다. 예를 들어, 도 7을 참조하여 전술한 바와 같이, 전자 장치(601)에는 영상(710)을 사전 설정된 방법으로 분할하는 인터페이스(730)가 디스플레이되고, 1번 영역(740)에 대한 사용자 입력을 수신할 수 있다.
동작 1330에서, 프로세서(620)는 타겟 영역에 대응하는 특정 신호 정보를 송신 단말(604)로 전송할 수 있다. 예를 들어, 도 7을 참조하여 전술한 바와 같이, 프로세서(620)는 송신 단말(604)로 1번 영역(740)에 대응하는 1번 DTMF 신호를 전송할 수 있다.
동작 1340에서, 프로세서(620)는 송신 단말(604)로부터, 로(raw) 사운드 시그널 정보 및 빔포밍 정보를 수신할 수 있다. 도 7을 참조하여 전술한 바와 같이, 빔포밍 정보는 특정 신호 정보에 따라 타겟 영역에 대응하는 방향에 기초하여 업데이트되는 빔포밍 파라미터에 대한 정보일 수 있다. 예를 들어, 전자 장치(601)의 프로세서(620)는 로 사운드 시그널(720), 및 1번 영역(780)에 대응하는 방향에 기초하여 생성된 빔포밍 정보를 송신 단말(604)로부터 수신할 수 있다.
동작 1350에서, 프로세서(620)는 로 사운드 시그널 정보 및 빔포밍 정보에 기초하여 노이즈 처리를 수행함으로써, 타겟 영역에 대해 조정된 사운드 시그널을 생성할 수 있다. 수신 단말인 전자 장치(601)의 프로세서(620)가 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작은 도 15를 참조하여 상세히 설명한다.
동작 1360에서, 프로세서(620)는 타겟 영역에 대해 조정된 사운드 시그널을 출력할 수 있다. 예를 들어, 도 6을 참조하여 전술한 전자 장치(601)의 음향 출력 모듈(655)을 통해 타겟 영역에 대해 조정된 사운드 시그널이 출력될 수 있다.
도 14는 일 실시 예에 따른, 선택적 노이즈 처리의 개시 동작을 설명하기 위한 흐름도이다.
동작 1410 및 동작 1420은 도 6 및 도 7을 참조하여 전술된 전자 장치(601)의 프로세서(620)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 13을 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
동작 1410 및 동작 1420은 도 9를 참조하여 전술한 선택적 노이즈 처리의 개시 동작에 대응할 수 있고, 동작 1410 및 동작 1420은 도 13을 참조하여 전술한 영상 통화를 위해 송신 단말(604)이 획득한 영상을 송신 단말(604)로부터 수신하는 동작(예: 도 13의 동작 1310) 이후 수행될 수 있다.
동작 1410에서, 프로세서(620)는 전자 장치(601)로의 사용자 입력에 따라, 송신 단말(604)로 노이즈 처리 승인 요청을 전송할 수 있다. 예를 들어, 도 9를 참조하여 전술한 바와 같이 수신 단말인 전자 장치(601)에는 선택적 노이즈 처리 승인 요청을 위한 사용자 인터페이스(910)가 디스플레이되고, 전자 장치(601) 사용자의 인터페이스(910)에 대한 사용자 입력에 따라 프로세서(620)는 송신 단말(604)로 노이즈 처리 승인 요청을 전송할 수 있다.
동작 1420에서, 프로세서(620)는 송신 단말(604)로부터, 요청을 승인한다는 신호를 수신할 수 있다. 예를 들어, 도 9를 참조하여 전술한 바와 같이 선택적 노이즈 처리 승인 요청을 수신함에 따라 송신 단말 (604)에는 선택적 노이즈 처리 승인에 대한 사용자 인터페이스(930)가 디스플레이될 수 있다. 송신 단말(604) 사용자의 인터페이스(930)에 대한 사용자 입력에 따라, 프로세서(620)는 송신 단말(604)로부터 선택적 노이즈 처리 요청을 승인한다는 신호를 수신할 수 있다.
동작 1420에서 전자 장치(601)로 요청 승인 신호가 전송되면, 전자 장치(601)에는 영상을 사전 설정된 방법으로 분할하는 인터페이스가 디스플레이되고, 프로세서(620)는 전자 장치(601) 사용자의 선택에 따라 타겟 영역에 대한 사용자 입력을 수신할 수 있다. 예를 들어, 동작 1420 이후 전자 장치(601)의 프로세서(620)는 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한 사용자 입력을 수신하는 동작(예: 도 13의 동작 1320)을 수행할 수 있다.
도 15는 일 실시 예에 따른, 수신 단말(601)이 선택적으로 노이즈 처리를 수행하여 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작을 설명하기 위한 흐름도이다.
동작 1510 내지 동작 1540은 도 6 및 도 7을 참조하여 전술된 전자 장치(601)의 프로세서(620)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 14를 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
일 실시 예에 따르면, 동작 1510 내지 동작 1540은 도 13을 참조하여 설명한 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작(예: 도 13의 동작 1350)에 대응될 수 있다.
동작 1510에서, 프로세서(620)는 로 사운드 시그널 및 빔포밍 정보에 기초하여 음원을 분리할 수 있다. 예를 들어, 도 7을 참조하여 전술한 바와 같이, 프로세서(620)는 로 사운드 시그널 및 빔포밍 정보에 기초하여 타겟 영역에 대응하는 음원을 분리하는 음원 분리 기법(source separation)을 수행할 수 있다.
동작 1520에서, 프로세서(620)는 동작 1510에서 분리한 음원이 타겟 영역에 대응하는 음원인지, 타겟 영역에 대응하는 음원이 아닌 음원인지 여부를 결정할 수 있다. 타겟 영역에 대응하는 음원은, 미리 학습된 신경망 모델에 기초하여 분리될 수 있다.
동작 1530에서, 프로세서(620)는 타겟 영역에 대응하는 음원에 대해 노이즈 억제를 강화함으로써 조정된 사운드 시그널을 생성할 수 있다. 동작 1540에서, 프로세서(620)는 타겟 영역에 대응하는 음원이 아닌 음원에 대해 노이즈 억제를 약화 또는 오프함으로써, 조정된 사운드 시그널을 생성할 수 있다.
도 15에서는 동작 1530과 동작 1540을 분리하여 각각 조정된 사운드 시그널이 생성된다고 도시하였지만, 이에 제한되는 것은 아니다. 예를 들어, 프로세서(620)는 로 사운드 시그널 및 빔포밍 정보에 기초하여 음원을 분리한 후, 타겟 영역에 대응하는 음원에 대해서는 노이즈 억제를 강화하고, 타겟 영역에 대응하는 음원이 아닌 음원에 대해서는 노이즈 억제를 약화 또는 오프함으로써 조정된 사운드 시그널을 생성할 수 있다.
조정된 사운드 시그널이 생성되면, 프로세서(620)는 타겟 영역에 대해 조정된 사운드 시그널을 음향 출력 모듈(655)을 통해 출력할 수 있다.
도 16은 일 실시 예에 따른, 타겟 영역이 변경되는 경우 수신 단말(601)의 동작을 설명하기 위한 흐름도이다.
동작 1610 및 동작 1620은 도 6 및 도 7을 참조하여 전술된 전자 장치(601)의 프로세서(620)에 의해 수행될 수 있고, 간명한 설명을 위해 도 1 내지 도 15를 참조하여 설명한 내용과 중복되는 내용은 생략될 수 있다.
동작 1610 및 동작 1620은 도 13을 참조하여 전술한 타겟 영역에 대응하는 특정 신호 정보를 송신 단말(604)로 전송하는 동작(예: 도 13의 동작 1330) 이후 수행될 수 있다.
동작 1610에서, 프로세서(620)는 타겟 영역에서 검출된 객체가 다른 타겟 영역으로 이동하였는지 여부를 판단할 수 있다. 예를 들어, 도 7을 참조하여 전술한 바와 같이, 프로세서(620)는 도 7의 1번 영역(740)의 남성을 검출하고, 남성이 다른 타겟 영역인 3번 영역으로 이동하였음을 판단할 수 있다.
타겟 영역에서 검출된 객체가 다른 타겟 영역으로 이동하지 않는 경우, 도 13을 참조하여 전술한 바와 같이, 프로세서(620)는 송신 단말(604)로부터 동작 1330에서 전송한 특정 신호 정보에 기초한 빔포밍 정보와 로 사운드 시그널 정보를 수신할 수 있다. 예를 들어, 프로세서(620)는 1번 영역에 대응하는 빔포밍 정보와, 빔포밍되지 않은 로 사운드 시그널 정보를 수신할 수 있다.
동작 1620에서, 타겟 영역에서 검출된 객체가 다른 타겟 영역으로 이동한 경우, 프로세서(620)는 이동한 다른 타겟 영역에 대응하는 특정 신호 정보를 송신 단말(604)로 더 전송할 수 있다. 예를 들어, 도 7을 참조하여 전술한 바와 같이, 프로세서(620)는 사용자 입력(예: 도 13의 동작 1320에서의 사용자 입력)에 따른 특정 신호 정보(예: 1번 DTMF 신호) 뿐만 아니라, 객체가 이동한 다른 타겟 영역(예: 3번 영역)에 따른 특정 신호 정보(예: 3번 DTMF 신호)를 송신 단말(604)로 더 전송할 수 있다.
일 실시 예에 따르면, 프로세서(620)는 동작 1620 이후 동작 1340 내지 동작 1360을 수행할 수 있다. 예를 들어, 프로세서(620)는 송신 단말(604)로부터 다른 타겟 영역에 따른 특정 신호 정보(예: 3번 DTMF 신호)에 대응하는 빔포밍 정보와, 빔포밍되지 않은 로 사운드 시그널 정보를 더 수신할 수 있다. 도 13의 동작 1340 내지 동작 1360을 참조하여 전술한 바와 같이, 프로세서(620)는 변경된 타겟 영역(예: 3번 영역)에 대해 조정된 사운드 시그널을 더 생성하고, 사용자에게 더 출력할 수 있다.
설명의 편의를 위해 동작 1610 및 동작 1620을 도 13을 참조하여 전술한 동작 1330과 동작 1340 사이에 수행되는 것으로 설명하였지만, 이에 제한되는 것은 아니다. 예를 들어, 프로세서(620)는 동작 1310 내지 동작 1360을 수행하고, 이후 타겟 영역의 객체를 추적하여 타겟 영역이 변경되는지 판단하는 동작 1610을 수행할 수 있다.
도 16을 참조하여 전술한 실시 예에 따르면, 사용자는 탭, 터치와 같은 추가적인 사용자 입력 없이도, 객체의 이동에 따라 변경되는 타겟 영역에 대해 조정된 사운드 시그널을 제공받을 수 있다.
도 16을 참조하여 수신 단말(601)의 프로세서(620)를 중심으로 설명하였지만, 이에 제한되는 것은 아니고 도 10 내지 도 12를 참조하여 전술한 송신 단말(401)의 프로세서(420)도 유사한 동작을 수행할 수 있다.
예를 들어, 송신 단말(401)의 프로세서(420)는 타겟 영역의 객체를 추적(tracking)하여 변경된 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 더 업데이트하고, 빔포밍된 사운드 시그널을 더 획득하고, 변경된 타겟 영역에 대해 조정된 사운드 시그널을 더 생성해 수신 단말(402)로 더 전송할 수 있다.
일 실시 예에 따른 전자 장치(401)의 동작 방법은, 영상 통화를 위해 전자 장치(401)가 획득한 영상(510)을 수신 단말(402)로 전송하는 동작, 수신 단말(402)로부터, 영상(510) 중 선택적으로 노이즈 처리를 수행할 타겟 영역(540)에 대응하는 특정 신호 정보를 수신하는 동작, 특정 신호 정보에 기초하여, 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하는 동작, 업데이트에 따라, 빔포밍된(beamformed) 사운드 시그널을 획득하는 동작, 빔포밍된 사운드 시그널에 대해 노이즈 처리를 수행함으로써, 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작, 및 조정된 사운드 시그널을 수신 단말(402)로 전송하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 수신 단말(402)에는 전자 장치(401)가 획득한 영상(510)을 사전 설정된 방법에 따라 분할하는 인터페이스(530)가 더 디스플레이되고, 타겟 영역(540)은, 인터페이스(530)에 의해 분할된 영역들 중에서 수신 단말(402)로의 사용자의 입력에 의해 결정될 수 있다.
일 실시 예에 따르면, 특정 신호 정보는, DTMF(dual tone multi frequency) 신호 중 타겟 영역에 대응하는 신호에 대한 정보를 포함할 수 있다.
일 실시 예에 따르면, 특정 신호 정보는, 20kHz 이상의 비가청대역 고주파 신호일 수 있다.
일 실시 예에 따르면, 수신 단말(402)로부터 선택적 노이즈 처리 승인 요청을 수신하고, 전자 장치(401)로의 사용자 입력에 따라, 요청을 승인한다는 신호를 수신 단말(402)로 전송하는 동작, 및 전송에 따라, 수신 단말(402)로부터 특정 신호 정보를 수신하는 동작을 더 포함할 수 있다.
일 실시 예에 따르면, 빔포밍된 사운드 시그널에 대해 노이즈 처리를 수행하는 동작은, 전자 장치(401)가 획득한 영상(510) 중, 타겟 영역(540)에 대응하는 타겟 영상(560)을 분석하는 동작, 분석에 기초하여, 타겟 영상(560)에 사람이 포함된 경우 노이즈 억제(noise suppression)를 강화하는 동작, 및 분석에 기초하여, 타겟 영상에 사람이 포함되지 않은 경우 노이즈 억제를 약화 또는 오프(off)하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 조정된 사운드 시그널은, 수신 단말(402)에서 타겟 영상(560)과 함께 출력될 수 있다.
일 실시 예에 따르면, 타겟 영상(560)을 분석하는 동작은, DNN(deep neural network)에 기초한 semantic segmentation에 따라 타겟 영상(560)에 사람이 포함되었는지 여부를 결정하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 빔포밍된 사운드 시그널에 대한 노이즈 처리는, 사용자 설정에 따라 변경 가능할 수 있다.
일 실시 예에 따른 전자 장치(601)의 동작 방법은, 송신 단말(604)로부터, 영상 통화를 위해 송신 단말(604)이 획득한 영상(710)을 수신하는 동작, 영상(710) 중 선택적으로 노이즈 처리를 수행할 타겟 영역(740)에 대한, 사용자 입력을 수신하는 동작, 타겟 영역에 대응하는 특정 신호 정보를 송신 단말(604)로 전송하는 동작, 송신 단말(604)로부터 로(raw) 사운드 시그널 및 빔포밍 정보 - 빔포밍 정보는 송신 단말(604)에서 타겟 영역에 대응하는 방향에 기초하여 생성됨 -를 수신하는 동작, 로 사운드 시그널 및 빔포밍 정보에 기초하여 노이즈 처리를 수행함으로써, 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작, 및 조정된 사운드 시그널을 출력하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 전자 장치(601)에는 송신 단말(604)이 획득한 영상(710)을 사전 설정된 방법에 따라 분할하는 인터페이스(730)가 더 디스플레이되고, 타겟 영역은, 인터페이스에 의해 분할된 영역들 중에서 사용자 입력에 의해 결정될 수 있다.
일 실시 예에 따르면, 특정 신호 정보는, DTMF(dual tone multi frequency) 신호 중 타겟 영역에 대응하는 신호에 대한 정보를 포함할 수 있다.
일 실시 예에 따르면, 전자 장치(601)는, 송신 단말(604)과 영상 통화를 수행하는 하나 이상의 수신 단말(601, 602) 중 하나일 수 있다.
일 실시 예에 따르면, 전자 장치(601)의 동작 방법은, 전자 장치(601)로의 사용자 입력에 따라, 송신 단말(604)로 선택적 노이즈 처리 승인 요청을 전송하는 동작, 송신 단말(604)로부터, 요청을 승인한다는 신호를 수신하는 동작, 및 수신에 따라 타겟 영역에 대한 사용자 입력을 수신하는 동작을 더 포함할 수 있다.
일 실시 예에 따르면, 노이즈 처리를 수행하는 동작은, 로 사운드 시그널 및 빔포밍 정보에 기초하여 음원을 분리(separate)하는 동작, 및 타겟 영역에 대응하는 음원에 대해, 노이즈 억제(noise suppression)를 강화하는 동작, 및 타겟 영역에 대응하는 음원이 아닌 음원에 대해, 노이즈 억제를 약화 또는 오프(off)하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 타겟 영역에 대응하는 음원은, 미리 학습된 신경망 모델에 기초하여 분리될 수 있다.
일 실시 예에 따르면, 로 사운드 시그널 및 빔포밍 정보에 기초하여 노이즈 처리를 수행하는 동작은, 사용자 설정에 따라 변경 가능할 수 있다.
일 실시 예에 따른 전자 장치(401)는, 영상 통화를 위한 영상(510)을 획득하기 위한 카메라 모듈(480), 영상 통화를 위한 사운드 시그널을 획득하기 위한 입력 모듈(450), 전자 장치(401)와 영상 통화를 수행하는 수신 단말(402)로 영상(510)을 전송하고, 수신 단말(401)로부터 영상(510) 중 선택적으로 노이즈 처리를 수행할 타겟 영역(540)에 대응하는 특정 신호 정보를 수신하기 위한 통신 모듈(490), 노이즈 처리를 통해 타겟 영역(540)에 대해 조정된 사운드 시그널을 생성하기 위한 오디오 모듈(470), 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리(430), 및 메모리(430)에 억세스(access)하여 명령어들을 실행하는 프로세서(420)를 포함하고, 명령어들은, 특정 신호 정보에 기초하여, 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하고, 업데이트에 따라, 빔포밍된(beamformed) 사운드 시그널을 획득하고, 빔포밍된 사운드 시그널에 기초하여, 오디오 모듈(470)을 통해 조정된 사운드 시그널을 생성하고, 및 조정된 사운드 시그널을 수신 단말(402)로 전송하도록 구성될 수 있다.
일 실시 예에 따른 전자 장치(601)는, 전자 장치(601)와 영상 통화를 수행하는 송신 단말(604)로부터, 영상 통화를 위해 송신 단말(604)이 획득한 영상을 수신하는 통신 모듈(690), 영상(710)을 디스플레이하고, 영상(710) 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한, 사용자 입력을 수신하는 디스플레이 모듈(660), 노이즈 처리를 통해 타겟 영역에 대해 조정된 사운드 시그널을 생성하기 위한 오디오 모듈(670), 조정된 사운드 시그널을 출력하는 음향 출력 모듈(655), 컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리(630), 및 메모리(630)에 억세스(access)하여 명령어들을 실행하는 프로세서(620)를 포함하고, 명령어들은, 타겟 영역에 대응하는 특정 신호 정보를 송신 단말(604)로 전송하고, 송신 단말(604)로부터 로(raw) 사운드 시그널 및 빔포밍 정보 -빔포밍 정보는 송신 단말(604)에서 타겟 영역에 대응하는 방향에 기초하여 생성됨 -를 수신하고, 로 사운드 시그널 및 빔포밍 정보에 기초하여 오디오 모듈(670)을 통해 조정된 사운드 시그널을 생성하도록 구성될 수 있다.
401: 송신 단말
420: 송신 단말의 프로세서
601: 수신 단말
620: 수신 단말의 프로세서

Claims (20)

  1. 전자 장치의 동작 방법에 있어서,
    영상 통화를 위해 상기 전자 장치가 획득한 영상을 수신 단말로 전송하는 동작;
    상기 수신 단말로부터, 상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대응하는 특정 신호 정보를 수신하는 동작;
    상기 특정 신호 정보에 기초하여, 상기 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하는 동작;
    상기 업데이트에 따라, 빔포밍된(beamformed) 사운드 시그널을 획득하는 동작;
    상기 빔포밍된 사운드 시그널에 대해 노이즈 처리를 수행함으로써, 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작; 및
    상기 조정된 사운드 시그널을 상기 수신 단말로 전송하는 동작
    을 포함하는,
    전자 장치의 동작 방법.
  2. 제1항에 있어서,
    상기 수신 단말에는 상기 전자 장치가 획득한 영상을 사전 설정된 방법에 따라 분할하는 인터페이스가 더 디스플레이되고,
    상기 타겟 영역은,
    상기 인터페이스에 의해 분할된 영역들 중에서 상기 수신 단말로의 사용자의 입력에 의해 결정되는,
    전자 장치의 동작 방법.
  3. 제1항에 있어서,
    상기 특정 신호 정보는,
    DTMF(dual tone multi frequency) 신호 중 상기 타겟 영역에 대응하는 신호에 대한 정보를 포함하는,
    전자 장치의 동작 방법.
  4. 제1항에 있어서,
    상기 특정 신호 정보는,
    20kHz 이상의 비가청대역 고주파 신호인,
    전자 장치의 동작 방법.
  5. 제1항에 있어서,
    상기 수신 단말로부터 선택적 노이즈 처리 승인 요청을 수신하는 동작;
    상기 전자 장치로의 사용자 입력에 따라, 상기 요청을 승인한다는 신호를 상기 수신 단말로 전송하는 동작; 및
    상기 전송에 따라, 상기 수신 단말로부터 상기 특정 신호 정보를 수신하는 동작;
    을 더 포함하는,
    전자 장치의 동작 방법.
  6. 제1항에 있어서,
    상기 빔포밍된 사운드 시그널에 대해 노이즈 처리를 수행하는 동작은,
    상기 전자 장치가 획득한 영상 중, 상기 타겟 영역에 대응하는 타겟 영상을 분석하는 동작;
    상기 분석에 기초하여, 상기 타겟 영상에 사람이 포함된 경우 노이즈 억제(noise suppression)를 강화하는 동작; 및
    상기 분석에 기초하여, 상기 타겟 영상에 사람이 포함되지 않은 경우 노이즈 억제를 약화 또는 오프(off)하는 동작
    을 포함하는,
    전자 장치의 동작 방법.
  7. 제6항에 있어서,
    상기 조정된 사운드 시그널은,
    상기 수신 단말에서 상기 타겟 영상과 함께 출력되는,
    전자 장치의 동작 방법.
  8. 제6항에 있어서,
    상기 타겟 영상을 분석하는 동작은,
    DNN(deep neural network)에 기초한 semantic segmentation에 따라 상기 타겟 영상에 사람이 포함되었는지 여부를 결정하는 동작
    을 포함하는,
    전자 장치의 동작 방법.
  9. 제1항에 있어서,
    상기 빔포밍된 사운드 시그널에 대한 상기 노이즈 처리는,
    사용자 설정에 따라 변경 가능한,
    전자 장치의 동작 방법.
  10. 전자 장치의 동작 방법에 있어서,
    송신 단말로부터, 영상 통화를 위해 상기 송신 단말이 획득한 영상을 수신하는 동작;
    상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한, 사용자 입력을 수신하는 동작;
    상기 타겟 영역에 대응하는 특정 신호 정보를 상기 송신 단말로 전송하는 동작;
    상기 송신 단말로부터 로(raw) 사운드 시그널 및 빔포밍 정보 - 상기 빔포밍 정보는 상기 송신 단말에서 상기 타겟 영역에 대응하는 방향에 기초하여 생성됨 -를 수신하는 동작;
    상기 로 사운드 시그널 및 상기 빔포밍 정보에 기초하여 노이즈 처리를 수행함으로써, 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하는 동작; 및
    상기 조정된 사운드 시그널을 출력하는 동작
    을 포함하는,
    전자 장치의 동작 방법.
  11. 제10항에 있어서,
    상기 전자 장치에는 상기 송신 단말이 획득한 영상을 사전 설정된 방법에 따라 분할하는 인터페이스가 더 디스플레이되고,
    상기 타겟 영역은,
    상기 인터페이스에 의해 분할된 영역들 중에서 상기 사용자 입력에 의해 결정되는,
    전자 장치의 동작 방법.
  12. 제10항에 있어서,
    상기 특정 신호 정보는,
    DTMF(dual tone multi frequency) 신호 중 상기 타겟 영역에 대응하는 신호에 대한 정보를 포함하는,
    전자 장치의 동작 방법.
  13. 제10항에 있어서,
    상기 전자 장치는, 상기 송신 단말과 영상 통화를 수행하는 하나 이상의 수신 단말 중 하나인,
    전자 장치의 동작 방법.
  14. 제10항에 있어서,
    상기 전자 장치로의 사용자 입력에 따라, 상기 송신 단말로 선택적 노이즈 처리 승인 요청을 전송하는 동작;
    상기 송신 단말로부터, 상기 요청을 승인한다는 신호를 수신하는 동작; 및
    상기 수신에 따라 상기 타겟 영역에 대한 상기 사용자 입력을 수신하는 동작
    을 더 포함하는,
    전자 장치의 동작 방법.
  15. 제10항에 있어서,
    상기 노이즈 처리를 수행하는 동작은,
    상기 로 사운드 시그널 및 상기 빔포밍 정보에 기초하여 음원을 분리(separate)하는 동작; 및
    상기 타겟 영역에 대응하는 음원에 대해, 노이즈 억제(noise suppression)를 강화하는 동작; 및
    상기 타겟 영역에 대응하는 음원이 아닌 음원에 대해, 노이즈 억제를 약화 또는 오프(off)하는 동작
    을 포함하는,
    전자 장치의 동작 방법.
  16. 제15항에 있어서,
    상기 타겟 영역에 대응하는 음원은,
    미리 학습된 신경망 모델에 기초하여 분리되는,
    전자 장치의 동작 방법.
  17. 제10항에 있어서,
    상기 로 사운드 시그널 및 상기 빔포밍 정보에 기초하여 노이즈 처리를 수행하는 동작은,
    사용자 설정에 따라 변경 가능한,
    전자 장치의 동작 방법.
  18. 하드웨어와 결합되어 제1항 내지 제17항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  19. 전자 장치에 있어서,
    영상 통화를 위한 영상을 획득하기 위한 카메라 모듈;
    영상 통화를 위한 사운드 시그널을 획득하기 위한 입력 모듈;
    상기 전자 장치와 영상 통화를 수행하는 수신 단말로 상기 영상을 전송하고, 상기 수신 단말로부터 상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대응하는 특정 신호 정보를 수신하기 위한 통신 모듈;
    노이즈 처리를 통해 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하기 위한 오디오 모듈;
    컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및
    상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서
    를 포함하고,
    상기 명령어들은,
    상기 특정 신호 정보에 기초하여, 상기 타겟 영역에 대응하는 방향으로 빔포밍 파라미터를 업데이트하고, 상기 업데이트에 따라, 빔포밍된(beamformed) 사운드 시그널을 획득하고, 상기 빔포밍된 사운드 시그널에 기초하여, 상기 오디오 모듈을 통해 상기 조정된 사운드 시그널을 생성하고, 및 상기 조정된 사운드 시그널을 상기 수신 단말로 전송
    하도록 구성되는,
    전자 장치.
  20. 전자 장치에 있어서,
    상기 전자 장치와 영상 통화를 수행하는 송신 단말로부터, 영상 통화를 위해 상기 송신 단말이 획득한 영상을 수신하는 통신 모듈;
    상기 영상을 디스플레이하고, 상기 영상 중 선택적으로 노이즈 처리를 수행할 타겟 영역에 대한, 사용자 입력을 수신하는 디스플레이 모듈;
    노이즈 처리를 통해 상기 타겟 영역에 대해 조정된 사운드 시그널을 생성하기 위한 오디오 모듈;
    상기 조정된 사운드 시그널을 출력하는 음향 출력 모듈;
    컴퓨터로 실행 가능한 명령어들(computer-executable instructions)이 저장된 메모리; 및
    상기 메모리에 억세스(access)하여 상기 명령어들을 실행하는 프로세서
    를 포함하고,
    상기 명령어들은,
    상기 타겟 영역에 대응하는 특정 신호 정보를 상기 송신 단말로 전송하고, 상기 송신 단말로부터 로(raw) 사운드 시그널 및 빔포밍 정보 - 상기 빔포밍 정보는 상기 송신 단말에서 상기 타겟 영역에 대응하는 방향에 기초하여 생성됨 -를 수신하고, 상기 로 사운드 시그널 및 상기 빔포밍 정보에 기초하여 상기 오디오 모듈을 통해 상기 조정된 사운드 시그널을 생성
    하도록 구성되는,
    전자 장치.
KR1020220019596A 2021-12-27 2022-02-15 영상 통화 중 영역 별로 노이즈를 처리하는 전자 장치 및 이의 동작 방법 KR20230099580A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210188549 2021-12-27
KR20210188549 2021-12-27

Publications (1)

Publication Number Publication Date
KR20230099580A true KR20230099580A (ko) 2023-07-04

Family

ID=87156303

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220019596A KR20230099580A (ko) 2021-12-27 2022-02-15 영상 통화 중 영역 별로 노이즈를 처리하는 전자 장치 및 이의 동작 방법

Country Status (1)

Country Link
KR (1) KR20230099580A (ko)

Similar Documents

Publication Publication Date Title
KR20220103543A (ko) 자동 음량 제어를 수행하는 웨어러블 장치
KR20220061537A (ko) 전자 장치 및 복수의 오디오 출력 장치와의 연결에 따른 오디오 출력 모드 설정 방법
US20220208208A1 (en) Electronic device and method for controlling speech input/output of electronic device
KR20220125026A (ko) 오디오 처리 방법 및 이를 포함하는 전자 장치
KR20230099580A (ko) 영상 통화 중 영역 별로 노이즈를 처리하는 전자 장치 및 이의 동작 방법
KR20220016552A (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US20230379623A1 (en) Method for processing audio data and electronic device supporting same
US20230087784A1 (en) Electronic device including multi-way speaker and operation method thereof
US20230140204A1 (en) Method and device for recording sound of electronic device using earphones
US20230421946A1 (en) Audio data processing method and electronic device supporting same
US20240127784A1 (en) Electronic device and method for detecting error of a signal
KR20230052783A (ko) 오디오 장면에 기초하여 주변 사운드를 제어하는 전자 장치 및 그 동작방법
KR20220015716A (ko) Ar 오디오 데이터 제공 방법 및 장치
US20230112073A1 (en) Electronic device for controlling ambient sound based on audio scene and operating method thereof
KR20240049074A (ko) 진동 소리 신호를 생성하기 위한 전자 장치 및 방법
KR20240052598A (ko) 신호의 오류를 검출하기 위한 전자 장치 및 방법
US20240036182A1 (en) Electronic device and method, in electronic device, for determining whether object is near
KR20220058236A (ko) 오디오 데이터 처리 방법 및 그 장치
US20220360897A1 (en) Wearable device and method for controlling audio output using multi digital to analog converter path
KR20240050963A (ko) 음향 효과를 제공하기 위한 전자 장치 및 그 동작 방법, 저장 매체
JP2024518261A (ja) 電子装置及びその動作方法
KR20220104424A (ko) 오디오 재생 방법 및 이를 포함하는 전자 장치
KR20220017080A (ko) 음성 신호를 처리하는 방법 및 이를 이용한 장치
KR20220096460A (ko) 전자 장치 및 전자 장치의 음성 입출력 제어 방법
KR20220040146A (ko) 전자 장치 및 전자 장치의 동작 방법