KR102305066B1 - 사운드 처리 방법 및 장치 - Google Patents

사운드 처리 방법 및 장치 Download PDF

Info

Publication number
KR102305066B1
KR102305066B1 KR1020197014937A KR20197014937A KR102305066B1 KR 102305066 B1 KR102305066 B1 KR 102305066B1 KR 1020197014937 A KR1020197014937 A KR 1020197014937A KR 20197014937 A KR20197014937 A KR 20197014937A KR 102305066 B1 KR102305066 B1 KR 102305066B1
Authority
KR
South Korea
Prior art keywords
sound signal
current frame
sound
signal
microphone
Prior art date
Application number
KR1020197014937A
Other languages
English (en)
Other versions
KR20190067902A (ko
Inventor
렐린 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20190067902A publication Critical patent/KR20190067902A/ko
Application granted granted Critical
Publication of KR102305066B1 publication Critical patent/KR102305066B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G06K9/00221
    • G06K9/00268
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S2205/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S2205/01Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations specially adapted for specific applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

본 발명은 단말의 카메라가 촬영 상태에 있다고 검출되는 경우, 2개의 마이크로폰을 사용하여 현재 프레임의 사운드 신호를 획득하는 단계와, 제1 사전설정된 알고리즘에 따라 현재 프레임의 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하는 단계와, 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하는 단계와, 판정 조건이 충족되는 경우, 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하는 단계(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임)와, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러 내는 단계를 포함하는 방법을 개시한다.

Description

사운드 처리 방법 및 장치
본 발명은 단말 기술 분야에 관련되고, 특히 사운드 처리 방법 및 장치에 관련된다.
음성 처리 디바이스가 음성 신호를 획득하거나 입력하는 경우, 다양한 유형의 잡음로부터의 간섭이 불가피하게 존재한다. 실제 음성 통신 시스템에서, 통상적인 잡음은 정적 잡음(stationary noise) 및 지향성 간섭 사운드 소스(directional interference sound source)를 포함한다. 그러한 잡음은 쉽사리 타겟(target) 사운드 신호에 대해 간섭을 야기하고, 획득된 사운드의 청각적 편안함(acoustic comfort) 및 발화 명료성(speech intelligibility)을 심각하게 감소시킨다. 지향성 간섭 잡음을 억제하는 데에 있어 종래의 잡음 추정 알고리즘 및 종래의 단일 채널 음성 품질 향상 알고리즘의 효과는 매우 불만족스럽다. 그러므로, 타겟 음성을 지향성으로 포착하고 다른 잡음을 억제하는 능력을 구현하기 위해, 간섭 잡음 억제 능력을 갖는 몇몇 시스템이 실제 환경에 따라 설계될 필요가 있다.
기존의 사운드 소스 측위(positioning) 알고리즘의 대부분은 빔형성(beamforming) 기술, 지연 차이에 기반한 사운드 소스 측위 기술 등을 사용하여 사운드 필드(sound field) 내의 사운드 소스 방향의 위치를 정하고, 이후 고정 빔(fixed beam) 또는 적응 빔(adaptive beam)을 사용하여 빔 너머의 간섭 사운드 소스를 감소시키고 지향성 사운드 포착(directional sound pickup)을 구현한다.
단말의 촬영 시나리오에 기반하여, 사용자는 촬영을 수행하기 위해 단말의 카메라를 사용한다. 지연 차이에 기반한 기존의 사운드 소스 측위 기술에서, 낮은 신호 대 잡음 비(signal-to-noise ratio)의 시나리오에서, 타겟 사운드 소스(카메라의 촬영 방향과 동일한 방향의 사운드 소스)의 방향 정보는 잡음 소스(카메라의 촬영 방향과 반대 방향의 사운드 소스)의 방향 정보와 자주 혼합된다. 그러므로, 비디오 캡처 동안에, 많은 잡음이 존재하여, 타겟 사운드 소스의 포착 정밀도를 저하시킨다. 결과적으로, 최종 캡처된 내용(final captured content)에는 많은 잡음이 여전히 존재한다.
본 발명의 실시예는 타겟 사운드 신호가 지향성으로 포착되는 경우에 심각한 잡음 혼합이 존재하여 타겟 사운드 소스의 낮은 포착 정밀도의 문제를 유발한다는 기존의 문제를 해결하기 위해 사운드 처리 방법 및 장치를 제공한다.
본 발명의 실시예에서 제공되는 구체적인 기술적 해결책은 다음과 같다:
제1 측면에 따라, 본 발명의 실시예는 사운드 처리 방법을 제공한다. 방법은 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 2개의 마이크로폰은 단말의 전방 표면(front surface) 및 후방 표면(back surface) 상에 각각 위치되며, 방법은 다음을 포함한다:
단말의 카메라가 촬영 상태(photographing state)에 있는 경우, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하는 것; 제1 사전설정된 알고리즘에 따라 현재 프레임의 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이(interaural level difference)를 계산하는 것; 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건(sound source direction determining condition)을 충족하는지를 판정하는 것; 사운드 소스 방향 판정 조건이 충족된 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호(backward sound signal)를 포함하는지를 판정하는 것(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임); 및 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내는 것(filtering out).
제2 측면에 따라, 본 발명의 실시예는 사운드 처리 장치를 제공한다. 장치는 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 2개의 마이크로폰은 단말의 전방 표면 및 후방 표면 상에 각각 위치되며, 장치는 다음을 포함한다:
단말의 카메라가 촬영 상태에 있는 경우, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하도록 구성된 획득 모듈;
제1 사전설정된 알고리즘에 따라 현재 프레임의 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하도록 구성된 계산 모듈;
현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하도록 구성된 판단 모듈;
사운드 소스 방향 판정 조건이 충족되는 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하도록 구성된 판정 모듈(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임); 및
현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 구성된 필터링 모듈.
본 발명의 실시예에서 제공되는 방법 및 장치의 전술한 기술적 해결책에 따라, 사운드 신호 내의 후방 사운드 신호는 특정한 알고리즘을 사용함으로써 판정되고, 걸러질 수 있다. 그러므로, 촬영 동안에, 촬영 범위 너머의 잡음 신호가 걸러질 수 있어, 촬영 동안 비디오의 사운드 품질을 보장하고, 사용자 경험을 개선한다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 단말은 카메라의 촬영 상태를 검출할 필요가 있고, 카메라가 촬영을 수행하는지를 검출하는 경우, 카메라의 위치를 또한 판정할 수 있다. 단말이 오직 하나의 카메라를 가지면, 카메라의 위치가 직접 획득될 수 있다. 단말이 복수의 카메라를 가지면, 카메라가 촬영 상태에 있는지가 검출되는 경우, 촬영을 수행하고 있는 특정 카메라가 또한 판정될 수 있어서, 프로세서는 대응하는 알고리즘을 사용함으로써 카메라의 위치에 기반하여 후속 신호 처리를 수행한다. 카메라의 촬영 상태가 검출되는 경우, 타이밍(timing) 프로그램을 사용함으로써 검출이 수행될 수 있거나, 카메라의 인에이블(enable) 신호가 검출될 수 있거나, 다른 방식이 구현을 위해 사용될 수 있다.
이 단계는 획득 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 카메라의 인에이블된 상태(enabled state) 및 카메라의 위치가 획득될 수 있다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하는 것은: 2개의 마이크로폰을 사용함으로써, 현재 프레임의 사운드 신호 S1 및 S2를 획득하는 것을 포함하고; 제1 사전설정된 알고리즘에 따라 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하는 것은: 고속 푸리에 변환(Fast Fourier transformation: FFT) 알고리즘을 사용함으로써 S1 및 S2에 기반하여 S1 및 S2의 파워 스펙트럼 P1 및 P2을 계산하는 것; 및 다음의 공식을 사용함으로써 P1 및 P2에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하는 것을 포함한다:
Figure 112019053254463-pct00001
여기서 P1은 현재 프레임에서 상부-전방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내고; P2는 현재 프레임에서 상부-후방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내며; P1 및 P2는 각각 N개의 요소를 갖는 벡터이고, N개의 요소는 현재 프레임의 사운드 신호에 대해 고속 푸리에 변환이 수행된 후에 획득되는 N개의 대응하는 주파수 포인트의 값이며, N은 1보다 큰 정수이고; ILDnow는 N개의 주파수 포인트에 대응하는 양이 레벨 차이를 포함하는 벡터이다.
이 단계는 획득 모듈 및 계산 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 사운드 신호를 획득하도록 마이크로폰 및 오디오 회로를 제어하고, 획득된 사운드 신호에 대해 대응하는 동작을 수행하기 위해 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 양이 레벨 차이가 계산될 수 있다. 양이 레벨 차이를 계산하는 방법에 대해 많은 대안이 존재하고, 여기에서는 하나하나 나열되지 않음에 유의하여야 한다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하는 것은 다음을 포함한다:
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 제2 사전설정된 알고리즘에 따라, 제i 주파수 포인트에 대응하는 최대 참조 값 및 최소 참조 값을 계산하는 것(제i 주파수 포인트는 N개의 주파수 포인트 중 하나이고, i는 N보다 크지 않은 모든 양의 정수로 가정됨); 및
제i 주파수 포인트의 최대 참조 값 및 최소 참조 값 간의 차이가 제i 주파수 포인트에 대응하는 제1 임계치보다 큰 경우, 2개의 마이크로폰 간의 양이 레벨 차이가 제i 주파수 포인트 상에서 사운드 소스 방향 판정 조건을 충족한다고 판정하는 것;
최대 참조 값 및 최소 참조 값 간의 차이가 제i 주파수 포인트에 대응하는 제1 임계치보다 크지 않은 경우, 2개의 마이크로폰 간의 양이 레벨 차이가 제i 주파수 포인트 상에서 사운드 소스 방향 판정 조건을 충족하지 않는다고 판정하는 것; 또는
N개의 주파수 포인트 중의 M개의 주파수 포인트가 사운드 소스 방향 판정 조건을 충족하는 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족한다고 판정하는 것(M은 N/2보다 크거나 같음).
이 단계는 판단 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 어떻게 후속적으로 양이 레벨 차이를 적절하게 사용힐 것인지에 대한 사용 기준을 제공하기 위해, 양이 레벨 차이를 사용함으로써 잡음이 판정될 수 있는지를 판정하는 규칙이 제공된다. 특정 판정 방법에 대해 복수의 대안이 존재할 수 있고, 이는 본 발명에서 한정되지 않는다. 제1 임계치는 경험적인 값에 기반하여 요구되는 대로 설정될 수 있고, 이것은 본 발명에서 또한 한정되지 않는다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 제i 주파수 포인트에 대응하는 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 제2 사전설정된 알고리즘에 따라, 제i 주파수 포인트에 대응하는 최대 참조 값 및 최소 참조 값을 계산하는 단계는 다음을 포함한다:
제(i-1) 주파수 포인트에 대응하는 최대 참조 값을 획득하는 것(제(i-1) 주파수 포인트는 제i 주파수 포인트의 이전 주파수 포인트임); 및 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최대 참조 값보다 크지 않은 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최대 참조 값을 계산하는 것:
Figure 112019053254463-pct00002
; 또는
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최대 참조 값보다 큰 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최대 참조 값을 계산하는 것:
Figure 112019053254463-pct00003
; 및
제(i-1) 주파수 포인트에 대응하는 최소 참조 값을 획득하는 것; 및 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최소 참조 값보다 큰 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최소 참조 값을 계산하는 것:
Figure 112019053254463-pct00004
; 또는
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최소 참조 값보다 크지 않은 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최소 참조 값을 계산하는 것:
Figure 112019053254463-pct00005
,
ILDnow는 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이를 나타내고, ILDmax는 제i 주파수 포인트에 대응하는 최대 참조 값을 나타내며,
Figure 112019053254463-pct00006
은 제(i-1) 주파수 포인트에 대응하는 최대 참조 값을 나타내고, ILDmin은 제i 주파수 포인트에 대응하는 최소 참조 값을 나타내며,
Figure 112019053254463-pct00007
은 제(i-1) 주파수 포인트에 대응하는 최소 참조 값을 나타내고,αfast 및 αlow은 사전설정된 스텝 값을 나타내며, αfast > αlow이다.
이 단계는 판단 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 양이 레벨 차이를 사용함으로써 잡음이 판정될 수 있는지를 판정하는 규칙을 위해 하위 구현이 제공된다. 특정 판정 방법에 대해 복수의 대안이 존재할 수 있고, 이것은 본 발명에서 한정되지 않는다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하는 것은 다음을 포함한다:
제j 주파수 포인트에 대응하는 양이 레벨 차이가 제j 주파수 포인트에 대응하는 제2 임계치보다 작은 경우, 후방 사운드 신호가 제j 주파수 포인트 상에서 포함된다고 판정하는 것(제j 주파수 포인트는 M개의 주파수 포인트 중 하나이고, j는 M보다 크지 않은 모든 양의 정수로 가정됨); 또는
제j 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제2 임계치보다 작지 않은 경우, 제j 주파수 포인트 상에서 어떠한 후방 사운드 신호도 포함되지 않는다고 판정하는 것.
이 단계는 판정 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 양이 레벨 차이를 사용함으로써 잡음을 판정하는 최종 방식이 제공되어서, 후방 사운드 신호가 정확하게 식별될 수 있다. 제2 임계치는 경험적인 값에 기반하여 요구되는 대로 설정될 수 있다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내는 것은 다음을 포함한다:
촬영을 수행하고 있는 단말의 카메라가 전면 카메라임이 검출되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것; 또는
촬영을 수행하고 있는 단말의 카메라가 후면 카메라임이 검출되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것.
이 단계는 필터링 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 상이한 위치의 카메라를 위해 잡음 처리를 어떻게 수행할 것인지의 방법이 제공된다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 단말이 하부에 제3 마이크로폰을 더 포함하고(하부에서의 제3 마이크로폰의 위치는 한정되지 않음), 촬영을 수행하고 있는 카메라가 전면 카메라인 경우, 방법은 다음을 더 포함한다:
제3 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 상하 방위각을 획득하는 것;
상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것(이 경우에, 부차적 잡음 신호는 전면 카메라의 전방에 위치되고 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임); 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 하부 마이크로폰이 존재하는 경우, 부차적 잡음에 대해 처리가 또한 수행될 수 있다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 단말이 하부에 제4 마이크로폰을 더 포함하고, 제3 마이크로폰 및 제4 마이크로폰이 좌측에서 우측으로 단말의 하부에 배열되는 경우(구체적인 위치는 한정되지 않음), 방법은 다음을 더 포함한다:
제3 마이크로폰 및 제4 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하는 것;
좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것; 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것. 상하 방위각 및 좌우 방위각은 양자 모두 부차적 잡음 신호를 판정하기 위해 사용될 수 있지만, 상하 방위각 및 좌우 방위각은 상이한 사운드 소스 방향에 치중하며, 상호 보완적일 수 있음에 유의하여야 한다. 상하 방위각 및 좌우 방위각의 조합을 사용함으로써 부차적 잡음 신호를 판정하는 것은 상하 방위각 또는 좌우 방위각을 개별적으로 사용함으로써 부차적 잡음 신호를 판정하는 것보다 더 포괄적이고 정확하다.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 2개의 마이크로폰이 하부에 존재하는 경우, 부차적 잡음에 대해 처리가 또한 수행될 수 있다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 단말이 하부에 제3 마이크로폰을 더 포함하고(하부에서의 제3 마이크로폰의 위치는 한정되지 않음), 촬영을 수행하고 있는 카메라가 후면 카메라인 경우, 방법은 다음을 더 포함한다:
제3 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 상하 방위각을 획득하는 것;
상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것(이 경우에, 부차적 잡음 신호는 후면 카메라의 전방에 위치되고 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임); 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 하부 마이크로폰이 존재하는 경우, 부차적 잡음에 대해 처리가 또한 수행될 수 있다.
제1 측면 또는 제2 측면에 따라, 가능한 설계에서, 단말이 하부에 제4 마이크로폰을 더 포함하고, 제3 마이크로폰 및 제4 마이크로폰이 좌측에서 우측으로 단말의 하부에 배열되는 경우, 방법은 다음을 더 포함한다:
제3 마이크로폰 및 제4 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하는 것;
좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것; 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것. 상하 방위각 및 좌우 방위각은 양자 모두 부차적 잡음 신호를 판정하기 위해 사용될 수 있지만, 상하 방위각 및 좌우 방위각은 상이한 사운드 소스 방향에 치중하며, 상호 보완적일 수 있음에 유의하여야 한다. 상하 방위각 및 좌우 방위각의 조합을 사용함으로써 부차적 잡음 신호를 판정하는 것은 상하 방위각 또는 좌우 방위각을 개별적으로 사용함으로써 부차적 잡음 신호를 판정하는 것보다 더 포괄적이고 정확하다.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다. 설계에서의 해결책에서, 2개의 마이크로폰이 하부에 존재하는 경우, 부차적 잡음에 대해 처리가 또한 수행될 수 있다.
제3 측면에 따라, 본 발명의 실시예는 사운드 처리 단말 디바이스를 제공한다. 디바이스는 마이크로폰, 카메라, 메모리 및 프로세서를 포함하되, 그것들은 버스를 사용함으로써 서로에 연결되며;
마이크로폰은 프로세서의 제어 하에 사운드 신호를 획득하도록 구성되며;
카메라는 프로세서의 제어 하에 이미지 신호를 획득하도록 구성되고;
메모리는 컴퓨터 프로그램 및 명령어를 저장하도록 구성되며;
프로세서는 전술한 가능한 설계 중 임의의 것에 따른 방법을 수행하기 위해, 메모리 내에 저장된 컴퓨터 프로그램 및 명령어를 호출하도록 구성된다.
제3 측면에 따라, 가능한 설계에서, 단말 디바이스는 안테나 시스템을 더 포함하고, 프로세서의 제어 하에, 안테나 시스템은 무선 통신 신호를 수신하고 발신하여, 모바일 통신 네트워크와의 무선 통신을 구현하며, 모바일 통신 네트워크는 GSM 네트워크, CDMA 네트워크, 3G 네트워크, FDMA 네트워크, TDMA 네트워크, PDC 네트워크, TACS 네트워크, AMPS 네트워크, WCDMA 네트워크, TDSCDMA 네트워크, WiFi 네트워크 및 LTE 네트워크 중 하나 이상을 포함한다.
제4 측면에 따라, 본 발명의 실시예는 사운드 처리 방법을 제공한다. 방법은 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 2개의 마이크로폰은 단말의 전방 표면 및 후방 표면 상에 각각 위치되며, 방법은 다음을 포함한다:
단말이 비디오 통화(video call)의 상태에 있는 경우, 단말의 카메라의 촬영 범위 내에 타겟 사용자가 있는지를 판정하는 것; 및
촬영 범위 내에 타겟 사용자가 있다고 판정되는 경우, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하는 것; 제1 사전설정된 알고리즘에 따라 현재 프레임의 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하는 것; 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하는 것; 사운드 소스 방향 판정 조건이 충족되는 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하는 것(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임); 및 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내는 것.
제5 측면에 따라, 본 발명의 실시예는 사운드 처리 장치를 제공한다. 장치는 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 2개의 마이크로폰은 단말의 전방 표면 및 후방 표면 상에 각각 위치되며, 장치는 다음을 포함한다:
단말이 비디오 통화의 상태에 있는 경우, 단말의 카메라의 촬영 범위 내에 타겟 사용자가 있는지를 판정하도록 구성된 식별 모듈;
식별 모듈이 촬영 범위 내에 타겟 사용자가 있다고 식별하는 경우, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하도록 구성된 획득 모듈;
제1 사전설정된 알고리즘에 따라 현재 프레임의 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하도록 구성된 계산 모듈;
현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하도록 구성된 판단 모듈;
사운드 소스 방향 판정 조건이 충족되는 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하도록 구성된 판정 모듈(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임); 및
현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 구성된 필터링 모듈.
본 발명의 실시예에서 제공되는 방법 및 장치의 전술한 기술적 해결책에 따라, 사운드 신호 내의 후방 사운드 신호는 특정한 알고리즘을 사용함으로써 판정되고, 걸러질 수 있다. 그러므로, 촬영 동안에, 예를 들어, 비디오 통화의 시나리오에서, 촬영 범위 너머의 잡음 신호가 걸러질 수 있는바, 비디오의 사운드 품질을 보장하고, 사용자 경험을 개선한다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 단말은 카메라의 촬영 상태를 검출할 필요가 있고, 카메라가 촬영을 수행하는지를 검출하는 경우, 카메라(예를 들어, 전면 카메라 또는 후면 카메라)의 위치를 또한 판정할 수 있다. 단말이 오직 하나의 카메라를 가지면, 카메라의 위치는 직접 획득될 수 있다. 단말이 복수의 카메라를 가지면, 카메라가 촬영 상태에 있는지가 검출되는 경우, 촬영을 수행하고 있는 특정 카메라가 또한 판정될 수 있어서, 프로세서는 대응하는 알고리즘을 사용함으로써 카메라의 위치에 기반하여 후속 신호 처리를 수행한다. 카메라의 촬영 상태가 검출되는 경우, 타이밍 프로그램을 사용함으로써 검출이 수행될 수 있거나, 카메라의 인에이블 신호가 검출될 수 있거나, 다른 방식이 구현을 위해 사용될 수 있다.
이 단계는 식별 모듈 또는 획득 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 카메라의 촬영 상태를 검출하는 경우, 단말은 카메라가 켜진 시나리오, 예를 들어, 정규 비디오 녹화가 수행되는지 또는 실시간 비디오 통화가 행해지는지를 또한 판정할 수 있다. 전술한 상태 검출 및 시나리오 판정은 프로그램 명령어를 사용함으로써 인에이블 신호를 식별하여 프로세서에 의해 구현될 수 있다.
이 단계는 식별 모듈 또는 획득 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 촬영 범위 내에 타겟 사용자가 있다고 판정되는 것은 다음을 포함한다:
초상 인식 기술(portrait recognition technology)을 사용함으로써, 임의의 사용자가 촬영 범위 내에 있다고 판정되는 것; 또는
안면 인식 기술(facial recognition technology)을 사용함으로써, 사전저장된 안면 탬플릿(facial template)과 동일한 안면 특징을 갖는 사용자가 촬영 범위 내에 있다고 판정되는 것; 또는
입술 움직임 검출 기술(lip movement detection technology)을 사용함으로써, 입술이 움직이는 사용자가 있다고 판정되는 것.
이 단계는 식별 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하는 것은: 2개의 마이크로폰을 사용함으로써, 현재 프레임의 사운드 신호 S1 및 S2를 획득하는 것을 포함하고; 제1 사전설정된 알고리즘에 따라 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하는 것은: 고속 푸리에 변환(Fast Fourier Transformation: FFT) 알고리즘을 사용함으로써 S1 및 S2에 기반하여 S1 및 S2의 파워 스펙트럼 P1 및 P2을 계산하는 것; 및 다음의 공식을 사용함으로써 P1 및 P2에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하는 것을 포함한다:
Figure 112019053254463-pct00008
여기서 P1은 현재 프레임에서 상부-전방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내고; P2는 현재 프레임에서 상부-후방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내며; P1 및 P2는 각각 N개의 요소를 갖는 벡터이고; N개의 요소는 현재 프레임의 사운드 신호에 대해 고속 푸리에 변환이 수행된 후에 획득되는 N개의 대응하는 주파수 포인트의 값이며; N은 1보다 큰 정수이고; ILDnow는 N개의 주파수 포인트에 대응하는 양이 레벨 차이를 포함하는 벡터이다.
이 단계는 획득 모듈 및 계산 모듈에서 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 사운드 신호를 획득하도록 마이크로폰 및 오디오 회로를 제어하고, 획득된 사운드 신호에 대해 대응하는 동작을 수행하기 위해 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하는 것은 다음을 포함한다:
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 제2 사전설정된 알고리즘에 따라, 제i 주파수 포인트에 대응하는 최대 참조 값 및 최소 참조 값을 계산하는 것(제i 주파수 포인트는 N개의 주파수 포인트 중 하나이고, i는 N보다 크지 않은 모든 양의 정수라고 가정됨); 및
제i 주파수 포인트의 최대 참조 값 및 최소 참조 값 간의 차이가 제i 주파수 포인트에 대응하는 제1 임계치보다 큰 경우, 2개의 마이크로폰 간의 양이 레벨 차이가 제i 주파수 포인트 상에서 사운드 소스 방향 판정 조건을 충족한다고 판정하는 것;
최대 참조 값 및 최소 참조 값 간의 차이가 제i 주파수 포인트에 대응하는 제1 임계치보다 크지 않은 경우, 2개의 마이크로폰 간의 양이 레벨 차이가 제i 주파수 포인트 상에서 사운드 소스 방향 판정 조건을 충족하지 않는다고 판정하는 것; 또는
N개의 주파수 포인트 중의 M개의 주파수 포인트가 사운드 소스 방향 판정 조건을 충족하는 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족한다고 판정하는 것(M은 N/2보다 크거나 같음).
이 단계는 판단 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 제2 사전설정된 알고리즘에 따라, 제i 주파수 포인트에 대응하는 최대 참조 값 및 최소 참조 값을 계산하는 것은 다음을 포함한다:
제(i-1) 주파수 포인트에 대응하는 최대 참조 값을 획득하는 것(제(i-1) 주파수 포인트는 제i 주파수 포인트의 이전 주파수 포인트임); 및 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최대 참조 값보다 크지 않은 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최대 참조 값을 계산하는 것:
Figure 112019053254463-pct00009
; 또는
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최대 참조 값보다 큰 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최대 참조 값을 계산하는 것:
Figure 112019053254463-pct00010
; 및
제(i-1) 주파수 포인트에 대응하는 최소 참조 값을 획득하는 것; 및 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최소 참조 값보다 큰 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최소 참조 값을 계산하는 것:
Figure 112019053254463-pct00011
; 또는
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트에 대응하는 최소 참조 값보다 크지 않은 경우, 다음의 공식을 사용함으로써, 제i 주파수 포인트에 대응하는 최소 참조 값을 계산하는 것:
Figure 112019053254463-pct00012
,
여기서 ILDnow는 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 상기 양이 레벨 차이를 나타내고; ILDmax는 제i 주파수 포인트에 대응하는 최대 참조 값을 나타내며;
Figure 112019053254463-pct00013
은 제(i-1) 주파수 포인트에 대응하는 최대 참조 값을 나타내고; ILDmin은 제i 주파수 포인트에 대응하는 최소 참조 값을 나타내며;
Figure 112019053254463-pct00014
은 제(i-1) 주파수 포인트에 대응하는 최소 참조 값을 나타내고; αfast 및 αlow은 사전설정된 스텝 값을 나타내며; αfast > αlow이다.
이 단계는 판단 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하는 것은 다음을 포함한다:
제j 주파수 포인트에 대응하는 양이 레벨 차이가 제j 주파수 포인트에 대응하는 제2 임계치보다 작은 경우, 후방 사운드 신호가 제j 주파수 포인트 상에서 포함된다고 판정하는 것(제j 주파수 포인트는 M개의 주파수 포인트 중 하나이고, j는 M보다 크지 않은 모든 양의 정수로 가정됨); 또는
제j 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제2 임계치보다 작지 않은 경우, 제j 주파수 포인트 상에서 어떠한 후방 사운드 신호도 포함되지 않는다고 판정하는 것.
이 단계는 판정 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내는 것은 다음을 포함한다:
촬영을 수행하고 있는 단말의 카메라가 전면 카메라임이 검출되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것; 또는
촬영을 수행하고 있는 단말의 카메라가 후면 카메라임이 검출되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것.
이 단계는 필터링 모듈에 의해 완료될 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 단말이 하부에 제3 마이크로폰을 더 포함하고(하부에서의 제3 마이크로폰의 위치는 한정되지 않음), 촬영을 수행하고 있는 카메라가 전면 카메라인 경우, 방법은 다음을 더 포함한다:
제3 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 상하 방위각을 획득하는 것;
상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것(이 경우에, 부차적 잡음 신호는 전면 카메라의 전방에 위치되고 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임); 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 단말이 하부에 제4 마이크로폰을 더 포함하고, 제3 마이크로폰 및 제4 마이크로폰이 좌측에서 우측으로 단말의 하부에 배열되는 경우(구체적인 위치는 한정되지 않음), 방법은 다음을 더 포함한다:
제3 마이크로폰 및 제4 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하는 것;
좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것; 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것. 상하 방위각 및 좌우 방위각은 양자 모두 부차적 잡음 신호를 판정하기 위해 사용될 수 있지만, 상하 방위각 및 좌우 방위각은 상이한 사운드 소스 방향에 치중하며, 상호 보완적일 수 있음에 유의하여야 한다. 상하 방위각 및 좌우 방위각의 조합을 사용함으로써 부차적 잡음 신호를 판정하는 것은 상하 방위각 또는 좌우 방위각을 개별적으로 사용함으로써 부차적 잡음 신호를 판정하는 것보다 더 포괄적이고 정확하다.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 단말이 하부에 제3 마이크로폰을 더 포함하고(하부에서의 제3 마이크로폰의 위치는 한정되지 않음), 촬영을 수행하고 있는 카메라가 후면 카메라인 경우, 방법은 다음을 더 포함한다:
제3 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 상하 방위각을 획득하는 것;
상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것(이 경우에, 부차적 잡음 신호는 후면 카메라의 전방에 위치되고 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임); 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제4 측면 또는 제5 측면에 따라, 가능한 설계에서, 단말이 하부에 제4 마이크로폰을 더 포함하고, 제3 마이크로폰 및 제4 마이크로폰이 좌측에서 우측으로 단말의 하부에 배열되는 경우, 방법은 다음을 더 포함한다:
제3 마이크로폰 및 제4 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하는 것;
좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 것; 및
현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것. 상하 방위각 및 좌우 방위각은 양자 모두 부차적 잡음 신호를 판정하기 위해 사용될 수 있지만, 상하 방위각 및 좌우 방위각은 상이한 사운드 소스 방향에 치중하며, 상호 보완적일 수 있음에 유의하여야 한다. 상하 방위각 및 좌우 방위각의 조합을 사용함으로써 부차적 잡음 신호를 판정하는 것은 상하 방위각 또는 좌우 방위각을 개별적으로 사용함으로써 부차적 잡음 신호를 판정하는 것보다 더 포괄적이고 정확하다.
구체적인 구현 프로세스에서, 장치는 전술한 방법을 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다. 더욱 구체적으로, 기술적 구현에서, 프로세서는 대응하는 동작을 수행하기 위해, 메모리 내의 프로그램 및 명령어를 호출할 수 있다.
제6 측면에 따라, 본 발명의 실시예는 사운드 처리 단말 디바이스를 제공한다. 디바이스는 마이크로폰, 카메라, 메모리 및 프로세서를 포함하는데, 그것들은 버스를 사용함으로써 서로 연결되고;
마이크로폰은 프로세서의 제어 하에 사운드 신호를 획득하도록 구성되며;
카메라는 프로세서의 제어 하에 이미지 신호를 획득하도록 구성되고;
메모리는 컴퓨터 프로그램 및 명령어를 저장하도록 구성되며;
프로세서는 전술한 가능한 설계 중 임의의 것에 따른 방법을 수행하기 위해, 메모리 내에 저장된 컴퓨터 프로그램 및 명령어를 호출하도록 구성된다.
제6 측면에 따라, 가능한 설계에서, 단말 디바이스는 안테나 시스템을 더 포함하고; 프로세서의 제어 하에, 안테나 시스템은 무선 통신 신호를 수신하고 발신하여, 모바일 통신 네트워크와의 무선 통신을 구현하고; 모바일 통신 네트워크는 다음 중 하나 이상을 포함한다: GSM 네트워크, CDMA 네트워크, 3G 네트워크, FDMA 네트워크, TDMA 네트워크, PDC 네트워크, TACS 네트워크, AMPS 네트워크, WCDMA 네트워크, TDSCDMA 네트워크, WiFi 네트워크 및 LTE 네트워크.
전술한 해결책에 따라, 본 발명의 실시예에서, 단말이 촬영 상태에 있는 경우, 낮은 신호 대 잡음 비의 시나리오에서, 사운드 소스 방향은 양이 레벨 차이에 기반한 방법을 사용함으로써 판정되어서, 잡음이 효과적으로 판정될 수 있고 잡음이 효과적으로 억제될 수 있는바, 이로써 촬영 동안 타겟 사운드 소스의 포착 정밀도를 개선하고, 사용자 경험을 개선한다.
도 1은 단말의 개략적인 구조도이고,
도 2a, 도 2b, 또는 도 2c는 본 발명의 실시예에 따른 단말 상의 마이크로폰의 배열의 개략도이며,
도 3은 본 발명의 실시예에 따른 사운드 처리 방법의 흐름도이고,
도 4a는 단말의 전방 및 후방 마이크로폰 간의 에너지 차이 및 ILD 간의 관계의 개략도이며,
도 4b는 마이크로폰을 사용함으로써 사운드 소스 측위 동안에 사운드 소스 방향을 판정하는 것의 개략도이고,
도 5는 위상 차이에 기반한 사운드 소스 측위 기술의 원리도이며,
도 6은 일반화된 상호 상관(cross-correlation) 사운드 소스 측위 방법의 개략적인 구현도이고,
도 7은 본 발명의 실시예에 따른 사운드 처리 장치의 개략적인 구조도이다.
다음은 본 발명의 실시예에서의 첨부 도면을 참조하여 본 발명의 실시예에서의 기술적 해결책을 명확하게 설명한다. 명백히, 기술된 실시예는 본 발명의 실시예 중 일부일 뿐 전부는 아니다. 창조적 노력 없이 본 발명의 실시예에 기반하여 당업자에 의해 획득되는 다른 모든 실시예는 본 발명의 보호 범위 내에 속할 것이다.
본 발명의 실시예에서, 단말은 사용자에게 음성 및/또는 데이터 연결성을 제공하는 디바이스, 무선 연결 기능을 갖는 핸드헬드 디바이스(handheld device), 또는 무선 모뎀에 연결된 다른 처리 디바이스, 예를 들어, 모바일 폰(또는 "셀룰러"(cellular) 폰으로 지칭됨)일 수 있거나, 휴대가능 디바이스(portable device), 포켓 크기 디바이스(pocket-sized device), 핸드헬드 디바이스, 또는 웨어러블 디바이스(wearable device)(가령, 스마트워치(smartwatch) 또는 스마트밴드(smart band)), 태블릿 컴퓨터(tablet computer), 개인용 컴퓨터(PC, Personal Computer), PDA(Personal Digital Assistant, 개인용 디지털 보조기기), POS(Point of Sales, 판매시점기기), 또는 차량내 컴퓨터(in-vehicle computer)일 수 있다.
도 1은 단말(100)의 선택적인 하드웨어 구조의 개략도이다.
도 1을 참조하면, 단말(100)은 무선 주파수 유닛(radio frequency unit)(110), 메모리(120), 입력 유닛(130), 디스플레이 유닛(140), 카메라(150), 오디오 회로(160), 스피커(161), 마이크로폰(162), 프로세서(170), 외부 인터페이스(180) 및 전력 공급부(power supply)(190)와 같은 컴포넌트를 포함할 수 있다. 마이크로폰(162)은 시뮬레이션 마이크로폰 또는 디지털 마이크로폰일 수 있고, 정상적인 마이크로폰 사운드 포착 기능을 구현할 수 있다. 추가로, 적어도 2개의 마이크로폰이 있고, 마이크로폰의 배열은 특정 요구사항을 충족할 필요가 있다. 세부사항에 대해서는, 도 2a(총 2개의 마이크로폰: 단말의 상부-전방 마이크로폰 및 상부-후방 마이크로폰), 도 2b(총 3개의 마이크로폰: 단말의 상부-전방 마이크로폰, 상부-후방 마이크로폰 및 하부 마이크로폰) 및 도 2c(총 4개의 마이크로폰: 단말의 상부-전방 마이크로폰, 상부-후방 마이크로폰, 하부-좌측 마이크로폰 및 하부-우측 마이크로폰)에 도시된 몇 개의 배열을 참조한다. 물론, 다른 배열 방식이 더 포함될 수 있다. 하부 마이크로폰에 의해 획득되는 사운드 데이터는, 기본 통화 기능을 구현하기 위해, 운영 체제를 사용함으로써 획득될 수 있다.
도 1은 휴대가능 다기능 장치의 예일 뿐이며 휴대가능 다기능 장치를 한정하도록 의도되지 않고, 장치는 도면에 도시된 것보다 더 많은 또는 더 적은 컴포넌트를 포함할 수 있거나, 몇몇 컴포넌트는 조합될 수 있거나, 상이한 컴포넌트가 사용된다는 것을 당업자는 이해할 수 있다.
입력 유닛(130)은 입력된 숫자 또는 문자 정보를 수신하고, 휴대가능 다기능 장치의 사용자 설정 및 기능 제어에 관련된 키 신호 입력을 생성하도록 구성될 수 있다. 구체적으로, 입력 유닛(130)은 터치스크린(131) 및 다른 입력 디바이스(132)를 포함할 수 있다. 터치스크린(131)은 터치스크린(131) 상에서의 또는 근처에서의 사용자의 터치 동작(예를 들면, 손가락, 조인트 또는 스타일러스와 같은 임의의 적합한 물체를 사용하는, 터치스크린 상에서의 또는 근처에서의 사용자의 동작)을 수집하고, 사전설정된 프로그램에 따라 대응하는 연결 장치를 구동할 수 있다. 터치스크린은 터치스크린 상에서의 사용자의 터치 동작을 검출하고, 터치 동작을 터치 신호로 변환하며 터치 신호를 프로세서(170)로 발신할 수 있고, 프로세서(170)에 의해 발신된 명령을 수신하고 실행할 수 있다. 터치 신호는 적어도 터치 포인트 좌표 정보를 포함한다. 터치스크린(131)은 단말(100) 및 사용자 간의 입력 인터페이스 및 출력 인터페이스를 제공할 수 있다. 추가로, 터치스크린은 저항식, 용량식, 적외선식 및 표면 음향파(surface acoustic wave)식과 같은 다양한 유형으로 구현될 수 있다. 터치스크린(131)에 추가하여, 입력 유닛(130)은 다른 입력 디바이스를 포함할 수 있다. 구체적으로, 다른 입력 디바이스(132)는 물리적 키보드, 기능 키(예를 들어, 볼륨 제어 키(132) 또는 전원 온/오프 키(133)), 트랙볼, 마우스, 또는 조이스틱 중 하나 이상을 포함할 수 있지만, 이에 한정되지 않는다.
디스플레이 유닛(140)은 사용자에 의해 입력된 정보 또는 사용자에게 제공된 정보 및 단말(100)의 다양한 메뉴를 디스플레이하도록 구성될 수 있다. 또한, 터치스크린(131)은 디스플레이 패널(141)을 커버할(cover) 수 있다. 터치스크린(131) 상에서의 또는 근처에서의 터치 동작을 검출한 후, 터치스크린(141)은 터치 동작을 프로세서(170)에 전달하여, 터치 이벤트의 유형을 판정한다. 그러면, 프로세서(170)는 대응하는 시각적 출력을 디스플레이 패널(141) 상에 터치 이벤트의 유형에 기반하여 제공한다. 이 실시예에서, 터치스크린 및 디스플레이 유닛은 단말(100)의 입력 기능, 출력 기능 및 디스플레이 기능을 구현하기 위해 하나의 컴포넌트로 통합될 수 있다. 설명의 용이함을 위해, 본 발명의 이 실시예에서, 터치 디스플레이 스크린은 터치스크린 및 디스플레이 유닛의 기능을 조합한다. 몇몇 실시예에서, 터치스크린 및 디스플레이 유닛은 두 개의 독립적인 컴포넌트로서 사용될 수 있다.
메모리(120)는 명령어 및 데이터를 저장하도록 구성될 수 있다. 메모리(120)는 주로 명령어 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 데이터 저장 영역은 조인트 터치 제스처(joint touch gesture) 및 애플리케이션 프로그램 기능 간의 연관 관계를 저장할 수 있다. 명령어 저장 영역은 운영 체제, 애플리케이션, 그리고 적어도 하나의 기능에 의해 요구되는 명령어와 같은 소프트웨어 유닛, 또는 그것의 서브세트, 또는 그것의 확장된 세트를 저장할 수 있다. 메모리(120)는 비휘발성 랜덤 액세스 메모리(non-volatile random access memory)를 더 포함할 수 있고, 소프트웨어 및 애플리케이션에 대한 제어를 지원하기 위해, 관리 및 계산 처리 디바이스 내의 하드웨어, 소프트웨어, 데이터 리소스 등을 프로세서(170)에 제공할 수 있다. 메모리(120)는 멀티미디어 파일을 저장하고, 프로그램을 가동하며 애플리케이션을 저장하도록 더 구성된다.
프로세서(170)는 단말(100)의 제어 센터이고, 다양한 인터페이스 및 라인을 사용함으로써 모바일 폰의 다양한 부분에 연결된다. 프로세서(170)는 메모리(120)에 저장된 명령어를 가동하거나 실행하고 메모리(120)에 저장된 데이터를 호출함으로써 단말(100)의 다양한 기능 및 데이터 처리를 수행하는바, 이로써 모바일 폰 상에 전반적인 모니터링을 구현한다. 선택적으로, 프로세서(170)는 하나 이상의 처리 유닛을 포함할 수 있다. 바람직하게는, 프로세서(170)는 애플리케이션 프로세서 및 모뎀 프로세서를 통합할 수 있다. 애플리케이션 프로세서는 주로 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 처리한다. 모뎀 프로세서는 주로 무선 통신을 처리한다. 전술한 모뎀 프로세서는 프로세서(170) 내에 통합되지 않을 수 있음이 이해될 수 있다. 몇몇 실시예에서, 프로세서 및 메모리는 단일 칩 상에 구현될 수 있다. 다른 실시예에서, 프로세서 및 메모리는 개별 칩 상에 구현될 수 있다. 프로세서(170)는, 대응하는 동작 제어 신호를 생성하고, 계산 처리 디바이스 내의 대응하는 컴포넌트에 동작 제어 신호를 발신하며, 소프트웨어 내의 데이터를 판독하고 처리하되, 특히, 메모리(120) 내의 데이터 및 프로그램을 판독하고 처리하도록 또한 구성될 수 있는바, 기능 모듈은 대응하는 기능을 수행하여, 대응하는 컴포넌트로 하여금 명령어에 의해 요구되는 바와 같은 동작을 수행하도록 제어한다.
카메라(150)는 이미지 또는 비디오를 획득하도록 구성되고, 촬영 또는 비디오 녹화 기능을 구현하도록, 애플리케이션 프로그램 명령어를 사용함으로써 트리거되고(triggered) 인에이블될(enabled) 수 있다.
무선 주파수 유닛(110)은 정보 수신 및 발신 프로세스 또는 통화 프로세스 동안에 신호를 수신하고 발신하도록 구성될 수 있다. 특히, 무선 주파수 유닛은 기지국으로부터 다운링크 정보를 수신하고, 이후 다운링크 정보를 처리를 위해 프로세서(170)에 전달하고, 관련된 업링크 데이터를 기지국에 발신한다. 일반적으로, RF 회로(140)는 안테나, 적어도 하나의 증폭기, 송수신기(transceiver), 커플러(coupler), 저잡음 증폭기(Low Noise Amplifier, LNA), 듀플렉서(duplexer) 등을 포함하지만, 이에 한정되지 않는다. 추가로, 무선 주파수 유닛(110)은 무선 통신을 통해 네트워크 디바이스 및 다른 디바이스와 또한 통신할 수 있다. 무선 통신은, 모바일 통신을 위한 글로벌 시스템(Global System for Mobile Communications: GSM), 일반 패킷 무선 서비스(General Packet Radio Service: GPRS), 코드 분할 다중 액세스(Code Division Multiple Access: CDMA), 광대역 코드 분할 다중 액세스(Wideband Code Division Multiple Access: WCDMA), 롱텀 에볼루션(Long Term Evolution: LTE), 이메일(email), 단문 메시징 서비스(Short Messaging Service: SMS) 등을 포함하지만 이에 한정되지 않는 임의의 통신 표준 또는 프로토콜을 사용할 수 있다.
오디오 회로(160), 스피커(161) 및 마이크로폰(162)은 사용자 및 단말(100) 간의 오디오 인터페이스를 제공할 수 있다. 오디오 회로(160)는 수신된 오디오 데이터를 전기 신호로 변환하고 전기 신호를 스피커(161)에 송신할 수 있다. 스피커(161)는 전기 신호를 출력을 위한 사운드 신호로 변환한다. 한편, 마이크로폰(162)은 사운드 신호를 획득하도록 구성되고, 획득된 사운드 신호를 전기 신호로 또한 변환할 수 있다. 오디오 회로(160)는 전기 신호를 수신하고 이후 전기 신호를 오디오 데이터로 변환하며, 오디오 데이터를 처리를 위해 프로세서(170)에 출력한다. 그러면, 프로세서(170)는 오디오 데이터를, 예를 들어, 무선 주파수 유닛(110)을 사용함으로써 다른 단말에 발신하거나, 추가 처리를 위해 오디오 데이터를 메모리(120)에 출력한다. 오디오 회로는 오디오 회로 및 이어폰 간의 연결 인터페이스를 제공하도록 구성된 이어폰 잭(163)을 더 포함할 수 있다.
단말(100)은 컴포넌트에 전력을 공급하기 위한 전력 공급부(190)(가령, 배터리)를 더 포함한다. 바람직하게는, 전력 공급부는 전력 관리 시스템을 사용함으로써 프로세서(170)에 논리적으로 연결될 수 있는바, 이로써 전력 관리 시스템을 사용하여 충전, 방전 및 전력 소비 관리와 같은 기능을 구현한다.
단말(100)은 외부 인터페이스(180)를 더 포함한다. 외부 인터페이스는 표준 마이크로 USB 인터페이스일 수 있거나, 멀티-핀 커넥터(multi-pin connector)일 수 있고, 통신을 위해 단말(100)을 다른 장치에 연결하도록 구성될 수 있거나, 단말(100)을 충전하기 위한 충전기에 연결되도록 구성될 수 있다.
비록 도시되지 않지만, 단말(100)은 플래시 라이트(flash light), 와이파이(Wireless Fidelity: WiFi) 모듈, 블루투스(Bluetooth) 모듈, 다양한 센서 등을 더 포함할 수 있다. 세부사항은 여기에서 설명되지 않는다
몇몇 시나리오에서, 사용자가 비디오를 녹화하거나 실시간 촬영을 수행하기 위해 모바일 폰과 같은 모바일 단말을 사용하는 경우, 사용자는 보통 녹화된 비디오가 카메라의 후방으로부터 어떠한 사운드도 포함하지 않기를 기대한다. 그러나, 비교적 낮은 신호 대 잡음 비를 갖는 환경에서, 카메라의 후방으로부터의 간섭 잡음 소스가 쉽사리 카메라의 촬영 범위 내의 사운드 소스로서 위치된다. 결과적으로, 사운드 소스 측위에 대한 부정확한 판정이 쉽게 발생하고, 정확성이 비교적 낮다. 그러므로, 본 발명의 실시예는 사운드 처리 방법 및 장치를 제공하여, 사운드 소스 측위의 정확성을 개선하고 부정확한 판정을 감소시키며, 카메라의 후방으로부터의 잡음을 효과적으로 걸러낸다. 카메라의 후방으로부터의 잡음은 또한 본 발명의 실시예에서 후방 사운드 신호로서 지칭될 수 있다. 예시로서, 단말의 본체가 위치되는 면이 경계로서 사용되고, 사운드 소스가 카메라의 후방 영역에 있는 잡음(예를 들어, 전면 카메라에 대해, 전면 카메라의 후방은 본체의 후방 표면의 후방에서의 영역으로서 이해될 수 있고, 후면 카메라에 대해, 후면 카메라의 후방은 본체의 전방 표면의 전방에서의 영역으로서 이해될 수 있음)는 후방 사운드 신호로서 이해될 수 있다. 위에서 언급된 영역에 대해 특정한 정의 오류는 허용된다.
도 3을 참조하면, 본 발명의 실시예는 사운드 처리 방법을 제공한다. 방법은 상부에 2개의 마이크로폰을 갖는 단말에 적용가능하고, 2개의 마이크로폰은 단말의 전방 표면 및 후방 표면에 각각 위치되며, 단말은 도 1에 도시된 단말(100)일 수 있다. 마이크로폰의 배치 방식은 도 2a, 도 2b 및 도 2c에서의 배치 중 임의의 것으로 도시될 수 있다. 구체적인 절차는 다음의 단계를 포함한다:
단계(31): 단말의 카메라가 촬영 상태에 있다고 검출되는 경우, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서의 사운드 신호를 획득한다. 시간 도메인(time domain)에서, 사운드 신호는 프레임의 사운드 신호로 더 세밀하게 분할될 수 있다. 프레임의 길이는 사전설정된 분할 알고리즘에 관련된다. 그러므로, 각 프레임은 대응하는 사운드 신호를 갖는다. 그러므로, 마이크로폰이 작동 상태에 있는 경우, 마이크로폰은 현재 프레임의 신호 사운드를 획득할 수 있다.
단계(32): 제1 사전설정된 알고리즘에 따라 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산한다.
구체적으로, 계산 처리 동안, 프레임에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이를 획득하기 위해, 각 프레임의 신호에 대해 계산이 수행될 수 있다.
단계(33): 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정한다.
단계(34): 사운드 소스 방향 판정 조건이 충족되는 경우, 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 사운드 신호가 후방 사운드 신호를 포함하는지를 판정한다(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임). 후방 사운드 신호는 또한 잡음 신호로서 이해될 수 있다.
단계(35): 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 사운드 신호로부터 후방 사운드 신호를 걸러낸다.
구체적으로, 단계(31) 및 단계(32)는 다음 프로세스를 사용함으로써 구현될 수 있다.
단말은, 사전설정된 검출 프로그램을 사용함으로써, 카메라가 켜진 상태(turned-on state)에 있는지를 식별할 수 있는데, 예를 들어, 카메라가 이미 인에이블된 것인지를 검출할 수 있다. 카메라가 촬영 상태에 있다고 검출하는 경우, 단말은 단말의 상부-전방 마이크로폰 및 상부-후방 마이크로폰을 사용함으로써 현재 환경에서의 사운드 신호를 획득한다. 이론적으로, 현재 프레임의 사운드 신호는 S1 및 S2로서 각각 표기될 수 있고, S1 및 S2의 파워 스펙트럼 P1 및 P2은 고속 푸리에 변환(Fast Fourier Transformation: FFT) 알고리즘을 사용함으로써 S1 및 S2에 기반하여 계산되며, 2개의 마이크로폰 간의 양이 레벨 차이는 P1 및 P2에 기반하여 계산된다. 당업자는 사운드 신호가 복수의 프레임의 신호를 포함할 수 있음을 알아야 한다. 추가로, 단말이 2개의 카메라를 갖는 경우, 단계(31)의 구체적인 구현 프로세스에서, 카메라가 인에이블됨이 검출되는 경우, 일반적으로, 단말이 전면 카메라 또는 후면 카메라를 사용하는지가 또한 검출될 수 있어서, 프로세서는 카메라의 위치에 기반하여 후속 신호 처리를 위한 적절한 알고리즘을 선택할 수 있다.
구체적인 구현 프로세스는 다음과 같다:
우선, 2개의 마이크로폰에 의해 획득된 사운드 신호는 FFT 모듈로 발신된다. FFT 모듈은 신호 스펙트럼을 획득하기 위해, 획득한 사운드 신호에 대한 시간 대 주파수 변환(time-to-frequency conversion)을 수행하는 것을 담당한다. 구체적으로, FFT 모듈은 단시간 푸리에 변환(Short-Time Fourier Transform: STFT)을 통해 신호를 처리한다.
여기서, 예로서 상부-전방 마이크로폰 및 상부-후방 마이크로폰을 사용하면, 2개의 마이크로폰에 의해 포착된 사운드 신호가
Figure 112019053254463-pct00015
(
Figure 112019053254463-pct00016
)이라고 가정하여, 사용된 카메라가 전면 카메라인 경우,
Figure 112019053254463-pct00017
은 전방 마이크로폰 및 후방 마이크로폰임을 개별적으로 나타내거나, 사용된 카메라가 후면 카메라인 경우,
Figure 112019053254463-pct00018
은 후방 마이크로폰 및 전방 마이크로폰임을 개별적으로 나타내되, n은 프레임의 신호에서의 샘플링 포인트의 개수를 나타내고, 예로서 8k의 샘플링 레이트 및 10ms의 프레임 길이를 사용하면, n은 80이다. 신호
Figure 112019053254463-pct00019
은 푸리에 변환 후에 획득되되, N은 프레임의 신호에 대응하는 발신 주파수 포인트를 나타내고, l은 프레임 번호를 나타내며, 제l 프레임이 획득된 임의의 순간이 현재 프레임으로서 이해될 수 있다. 신호의 파워 스펙트럼은
Figure 112019053254463-pct00020
이다. 현재 프레임에 대응하는 2개의 마이크 간의 양이 레벨 차이(Interaural Level Difference: ILD)는 다음의 공식을 사용함으로써 계산된다:
Figure 112019053254463-pct00021
전면 카메라에 의한 촬영이 예로서 사용되되(후면 카메라가 촬영을 위해 사용되는 경우, 원리는 이와 유사함), P1은 현재 프레임에서 상부-전방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내고, P2는 현재 프레임에서 상부-후방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내며, P1 및 P2는 각각 N개의 요소를 갖는 벡터이고, N개의 요소는 현재 프레임의 사운드 신호에 대해 고속 푸리에 변환이 수행된 후에 획득되는 N개의 대응하는 주파수 포인트의 값이며, N은 1보다 큰 정수이고, ILDnow는 N개의 주파수 포인트에 대응하는 양이 레벨 차이를 포함하는 벡터이며, N의 값은 사전설정된 주파수 포인트 분할 규칙에 기반하여 판정된다. 전술한 예에서의 알고리즘은 제1 사전설정된 알고리즘의 구현 형태이고, 한정을 부과하도록 의도되지 않는다.
도 4a는 상부-전방 마이크 및 상부-후방 마이크 간의 에너지 차이(데시벨(dB)로 됨) 및 ILD 간의 관계를 도시한다.
도 4a에 도시된 바와 같이, ILD의 값 범위는 -1에서 1까지이다. 1은 현재 프레임에서 상부-전방 마이크로폰의 에너지가 상부-후방 마이크로폰의 에너지보다 상당히 더 크고 그것이 전방 사운드 신호임을 나타내며, -1은 현재 프레임에서 상부-후방 마이크로폰의 에너지가 상부-전방 마이크로폰의 에너지보다 상당히 더 크고 그것이 후방 사운드 신호임을 나타낸다.
그러나, 후방 사운드 신호는 양이 레벨 차이가 특정 조건을 충족하는 경우에만 양이 레벨 차이를 사용함으로써 더욱 정확하게 판정될 수 있다. 구체적으로, 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하는 단계(33)는 다음의 프로세스를 포함한다:
현재 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이의 최대값 및 그 양이 레벨 차이의 최소값은 현재 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 계산되고, 현재 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이의 최대값 및 그 양이 레벨 차이의 최소값 간의 차이가 제1 임계치보다 큰 경우, 양이 레벨 차이를 사용하여 사운드 소스 방향을 판정하기 위한 조건이 현재 주파수 포인트 상에서 충족된다고 판정되거나, 양이 레벨 차이의 최대값 및 양이 레벨 차이의 최소값 간의 차이가 제1 임계치보다 크지 않은 경우, 양이 레벨 차이를 사용하여 사운드 소스 방향을 판정하기 위한 조건이 현재 주파수 포인트 상에서 충족되지 않는다고 판정된다. 프레임의 신호에서, N개의 주파수 포인트 중의 M개의 주파수 포인트가 사운드 소스 방향 판정 조건을 충족하는 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족한다고 판정된다(M은 N/2보다 크거나 같음). 구체적으로, 현재 프레임에 대해, 후방 사운드 신호가 있는지는 양이 레벨 차이를 사용함으로써 판정될 수 있다.
여기서, ILDmax은 제i 주파수 포인트(현재 프레임에 대응하는 주파수 포인트 중 하나)에 대응하는 양이 레벨 차이의 최대값을 나타내기 위해 사용되고, ILDmin은 제i 주파수 포인트에 대응하는 양이 레벨 차이의 최소값을 나타내기 위해 사용되며, 초기 프레임의 제1 주파수 포인트 상에서, ILDmax 및 ILDmin은 0으로 설정되거나 상부-전방 마이크로폰 및 상부-후방 마이크로폰 간의 사전설정된 양이 레벨 차이로 설정될 수 있다. 구체적으로, ILDmax - ILDmin > 제1 임계치인 경우, 2개의 마이크로폰 간의 양이 레벨 차이가 제i 주파수 포인트 상에서 사운드 소스 방향 판정 조건을 충족한다고 간주되고, 그렇지 않으면, 사운드 소스 방향 판정 조건이 제i 주파수 포인트 상에서 충족되지 않는다고 간주되되, ILDmax은 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여 계산된 양이 레벨 차이의 최대값이고, ILDmin은 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여 계산된 양이 레벨 차이의 최소값이다.
ILDmax 및 ILDmin의 계산 방법은 다음과 같다:
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트(이전 주파수 포인트)에 대응하는 양이 레벨 차이의 최대값보다 크지 않은 경우, 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이의 최대값은 다음의 공식을 사용함으로써 계산되거나:
Figure 112019053254463-pct00022
;
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트(이전 주파수 포인트)에 대응하는 양이 레벨 차이의 최대값보다 큰 경우, 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이의 최대값은 다음의 공식을 사용함으로써 계산되고:
Figure 112019053254463-pct00023
;
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트(이전 주파수 포인트)에 대응하는 양이 레벨 차이의 최소값보다 큰 경우. 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이의 최소값은 다음의 공식을 사용함으로써 계산되거나:
Figure 112019053254463-pct00024
;
제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제(i-1) 주파수 포인트(이전 주파수 포인트)에 대응하는 양이 레벨 차이의 최소값보다 크지 않은 경우. 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이의 최소값은 다음의 공식을 사용함으로써 계산되되:
Figure 112019053254463-pct00025
,
ILDnow는 제i 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이를 나타내고, ILDmax는 제i 주파수 포인트에 대응하는 최대 참조 값을 나타내며,
Figure 112019053254463-pct00026
은 제(i-1) 주파수 포인트에 대응하는 최대 참조 값을 나타내고, ILDmin은 제i 주파수 포인트에 대응하는 최소 참조 값을 나타내며,
Figure 112019053254463-pct00027
은 제(i-1) 주파수 포인트에 대응하는 최소 참조 값을 나타내고, αfast 및 αlow은 사전설정된 스텝 값을 나타내며, αfast > αlow이다. αfast 및 αlow은 각각 0.95 및 0.05임이 제안된다. ILDmax는 제i 주파수 포인트 상에서의 양이 레벨 차이 ILDnow 및 이전 주파수 포인트 상에서의 양이 레벨 차이의 최대값에 기반하여 평활적으로(smoothly) 획득되고, ILDmin은 제i 주파수 포인트 상에서의 양이 레벨 차이 ILDnow 및 이전 주파수 포인트 상에서의 양이 레벨 차이의 최소값에 기반하여 평활적으로 획득됨을 이상으로부터 알 수 있다.
또한, 현재 프레임에 대한 양이 레벨 차이가 사운드 소스 판정 조건을 충족하는 경우, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지는 단말의 상부-전방 마이크로폰 및 상부-후방 마이크로폰 간의 양이 레벨 차이에 기반하여 판정되고, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 후방 신호는 걸러지게 된다.
구체적인 구현 프로세스에서, 도 2a에 도시된 바와 같이, 단말이 상부에서 전방 표면 상에 배열된 하나의 마이크로폰 및 상부에서 후방 표면 상에 배열된 하나의 마이크로폰을 갖는 경우, 단계(34)는 구체적으로, 제j 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제2 임계치보다 작은 경우, 사운드 신호는 대응하는 제j 주파수 포인트 상에서 후방 사운드 신호를 포함한다고 판정하는 단계, 또는 제j 주파수 포인트에 대응하는, 2개의 마이크로폰 간의 양이 레벨 차이가 제2 임계치보다 작지 않은 경우, 사운드 신호는 대응하는 제j 주파수 포인트 상에서 어떠한 후방 사운드 신호도 포함하지 않는다고 판정하는 단계일 수 있다.
단계(35)는 구체적으로, 사운드 신호가 대응하는 제j 주파수 포인트 상에서 후방 사운드 신호를 포함한다고 판정되고 촬영을 수행하고 있는 단말의 카메라가 전면 카메라인 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것, 또는 촬영을 수행하고 있는 카메라가 후면 카메라인 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러내도록 단말 내의 적응 필터를 제어하는 것이다. 예를 들어, NLMS 적응 필터 해결책이 사용될 수 있다. 주파수 도메인 필터는 시간 도메인 필터의 동등한 형태이다. 2개의 필터링 방식을 사용함으로써 신호 처리를 수행하는 원리는 동등할 수 있다. 이들은 모두 선행 기술이다. 상세한 필터링 프로세스는 설명되지 않는다.
방법은 상부에 전방 및 후방 마이크로폰을 갖는 임의의 단말에 적용가능함, 예를 들어, 도 2b 및 도 2c에서의 단말 양자 모두에 적용가능함에 유의하여야 한다.
그러나, 일반적으로, 카메라에 의해 촬영될 수 있는 시야각(view angle) 범위는 카메라의 전방의 전체 영역이 아니라 대략적으로 120도이다. 그러므로, 사운드 소스가 카메라의 전방에 위치되고 카메라의 촬영 범위를 넘어서 위치된 잡음 신호가 있을 수 있다. 후방 사운드 신호에 비해, 이 부분의 잡음 신호는 캡처된 내용에 비교적 적은 영향을 미치고, 부차적 잡음 신호로서 정의될 수 있다. 위에서 언급된 영역에 대해 특정한 정의 오류가 허용된다. 그러므로, 구체적인 구현 프로세스에서, 후방 사운드 신호: 그 부분의 잡음을 걸러내는 것 외에도, 부차적 잡음이 걸러질 수 있다. 다음의 2개의 예를 참조한다.
예 1:
단말은 상부에서의 전방 표면에 배열된 1개의 마이크로폰, 상부에서의 후방 표면에 배열된 1개의 마이크로폰 및 하부에 배열된 1개의 마이크로폰을 갖는다. 단말이 상부에서의 전방 표면에 배열된 1개의 마이크로폰, 상부에서의 후방 표면에 배열된 1개의 마이크로폰 및 하부에서의 좌측 상의 1개의 마이크로폰을 갖는 경우가 아래에서 예로서 사용된다. 도 2b에 도시된 바와 같이, 이 경우에, 앞에 후방 사운드 신호가 있는지에 상관없이, 사운드 처리 방법은 다음의 단계를 더 포함할 수 있다: 단계(36): 전면 카메라가 촬영을 위해 사용되는 경우, 하부-좌측 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 사운드 신호의 상하 방위각을 획득하고; 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정한다. 부차적 잡음 신호는 전면 카메라의 전방에 위치되고 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 제어된다.
후면 카메라가 촬영을 위해 사용되는 경우, 하부-좌측 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위가 수행되어, 사운드 신호의 상하 방위각을 획득하고; 상하 방위각이 제1 사전설정된 각도(이는 이전 단락에서의 제1 사전설정된 각도와 동일하거나 상이할 수 있음)보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 이 경우에, 부차적 잡음 신호는 후면 카메라의 전방에 위치되고 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 제어된다.
구체적인 구현 프로세스에서, 단말이 상부에서의 전방 표면에 배열된 1개의 마이크로폰, 상부에서의 후방 표면에 배열된 1개의 마이크로폰 및 하부에서의 우측 상의 1개의 마이크로폰을 갖는 경우를 위한 원리는 전술한 예에서의 원리와 매우 유사하다. 당업자는 본 발명에서의 예에 기반하여 유사한 예시적 방식을 쉽게 구현할 수 있고, 세부사항은 여기에서 다시 설명되지 않는다.
예 2:
단말이 상부에서의 전방 표면에 배열된 1개의 마이크로폰, 후방 표면 상의 1개의 마이크로폰, 하부에서의 좌측에 배열된 1개의 마이크로폰 및 하부에서의 우측에 배열된 1개의 마이크로폰을 갖는 경우, 참조의 용이함을 위해, 하부에서의 2개의 마이크로폰은 또한 제3 마이크로폰 및 제4 마이크로폰으로서 참조될 수 있다. 도 2c에 도시된 바와 같이, 이 경우에, 앞에 후방 사운드 신호가 있는지에 상관없이, 전술한 사운드 처리 방법은 다음의 단계를 더 포함할 수 있다:
단계(37): 전면 카메라가 촬영을 위해 사용되는 경우, 하부-좌측 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위를 수행하여, 사운드 신호의 상하 방위각을 획득하고; 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정한다. 부차적 잡음 신호는 전면 카메라의 전방에 위치되고 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 또한, 제3 마이크로폰 및 제4 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위가 수행되어, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하고; 좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 전술한 단계에 따라, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 모든 부차적 잡음 신호를 걸러내도록 제어된다. 추가로, 상하 방위각 및 좌우 방위각을 사용함으로써 검출될 수 있는 모든 잡음은 부차적 잡음 신호이나, 상하 방위각 및 좌우 방위각은 잡음 소스의 상이한 방향에 치중한다. 예를 들어, 상하 방위각은 단말이 위치된 면에서의 상하 방향에서의 잡음의 검출에 더 치중하고, 좌우 방위각은 단말이 위치된 면에서의 좌우 방향에서의 잡음의 검출에 더 치중한다.
후면 카메라가 촬영을 위해 사용되는 경우, 하부-좌측 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위가 또한 수행되어, 사운드 신호의 상하 방위각을 획득하고; 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 이 경우에, 부차적 잡음 신호는 후면 카메라의 전방에 위치되고 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 또한, 지연 차이 기반 측위가 제3 마이크로폰 및 제4 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호에 대해 또한 수행되어, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하고; 좌우 방위각이 제2 사전설정된 각도(이는 이전 단락에서의 제2 사전설정된 각도와 동일하거나 상이할 수 있음)보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 전술한 단계에 따라, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 모든 부차적 잡음 신호를 걸러내도록 제어된다. 추가로, 상하 방위각 및 좌우 방위각을 사용함으로써 검출될 수 있는 모든 잡음은 부차적 잡음 신호이나, 상하 방위각 및 좌우 방위각은 잡음 소스의 상이한 방향에 치중한다. 예를 들어, 상하 방위각은 단말이 위치된 면에서의 상하 방향에서의 잡음의 검출에 더 치중하고, 좌우 방위각은 단말이 위치된 면에서의 좌우 방향에서의 잡음의 검출에 더 치중한다.
전후 방향에서의 사운드 소스의 방향은 단말의 전방 및 후방 마이크로폰 간의 양이 레벨 차이에 관한 정보를 사용함으로써 추정될 수 있음을 이상으로부터 알 수 있다. 추가로, 전후 방향에서의 사운드 소스의 방향은 지연 차이 정보, 예를 들어, 도 4b에서의 각도
Figure 112019053254463-pct00028
(전후 방위각), 즉, 전방 및 후방 마이크로폰 간의 지연 차이를 사용함으로써 방향 추정을 수행함으로써 획득되는 각도를 사용함으로써 추정될 수 있다. 여기에서, 전방 및 후방 마이크로폰은 각각 상부-전방 마이크로폰 및 상부-후방 마이크로폰이다. 구체적인 계산 방법에 대해서, 도 5에서의 지연 차이 계산 방법을 참조한다. 지연 차이 계산 방법은 선행 기술이고, 세부사항은 본 발명에서 설명되지 않는다.
하부에서의 마이크로폰이 있는 경우, 이는 도 2b에서의 마이크로폰의 배열과 유사하다. 하부-좌측 마이크로폰이 추가되고 도 4b에서 마이크 2로 표시된다. 이 경우에,
Figure 112019053254463-pct00029
은 지연 차이에 기반한 방위각 추정 방법에 기반하여 하부 마이크 2 및 전방 마이크를 사용함으로써 계산된다. 하부에 2개의 마이크로폰이 있는 경우, 도 2c에서의 마이크로폰의 배열과 유사하다. 하부-좌측 마이크로폰 및 하부-우측 마이크로폰이 추가되고 도 4b에서 각각 마이크 2 및 마이크 1로 표시된다. 이 경우에,
Figure 112019053254463-pct00030
은 지연 차이에 기반한 방위각 추정 방법에 기반하여 하부 마이크 1 및 하부 마이크 2를 사용함으로써 계산된다. 도 4b에 도시된 바와 같이, 전방 및 후방 마이크를 사용함으로써 x, y 및 z축을 포함하는 공간 좌표 시스템에서 x축에 대해 각도 분석(angle parsing)이 수행될 수 있고, 전방 마이크 및 후방 마이크 2를 사용함으로써 y축에 대해 각도 분석이 수행될 수 있으며, 후방 마이크 1 및 후방 마이크 2를 사용함으로써 z축에 대해 각도 분석이 수행될 수 있다.
이 경우에, 타겟 사운드 소스가 카메라의 촬영 범위 내에 있는지를 측위를 통해 판정하기 위해, 공간에서의 사운드 소스 측위 기능은 3개의 각도
Figure 112019053254463-pct00031
,
Figure 112019053254463-pct00032
Figure 112019053254463-pct00033
(전후 방위각과, 좌우 방위각과, 상하 방위각)을 사용하여 구현될 수 있다. 전후 방향, 좌우 방향 및 상하 방향에 대해, 모바일 폰의 본체가 참조로 사용되는데, 예를 들어, 전후 방향은 모바일 폰의 전방 표면 및 후방 표면의 방향이고, 좌우 방향은 본체의 2개의 측면의 방향이며, 상하 방향은 본체의 상부 및 하부의 방향이다.
전면 카메라가 촬영을 위해 사용되는 예를 여전히 사용하면(주의: 비록 후면 카메라에 의한 촬영은 상이한 시나리오이지만, 유사한 해결책 구현 원리를 가지며, 따라서, 세부사항은 본 발명에서 설명되지 않으며, 적용 시나리오는 한정되지 않고, 이것은 명세서를 통틀어 적용가능함), 카메라의 시야(field of view)는 단말 상의, 각각 개방각(open angle) 1 및 개방각 2인 2개의 개방각에 의해 표현됨은 잘 알려져 있다. 개방각 1은 z축에서의 방향에 대응하고, 개방각 2는 y축에서의 방향에 대응한다. 이 알고리즘에서, 우선, 양이 레벨 차이 또는 지연 차이에 기반한 각도 추정 방법은 전후 방향에서의 사운드 소스 신호 간을 구분하기 위해 사용되고, 이후에,
Figure 112019053254463-pct00034
은 y축에서의 개방각을 제한하기 위해 사용된다.
Figure 112019053254463-pct00035
가 카메라의 개방각 2보다 큰 경우, 사운드 신호는 부차적 잡음 신호를 포함한다. 이것은
Figure 112019053254463-pct00036
와 유사하다.
Figure 112019053254463-pct00037
가 개방각 1보다 큰 경우, 사운드 신호는 부차적 잡음 신호를 포함한다. 부차적 잡음 신호는 더 상위의 개념이고,
Figure 112019053254463-pct00038
Figure 112019053254463-pct00039
를 사용하는 판정 방법을 사용함으로써 검출되는 부차적 잡음 방향은 상이하다.
Figure 112019053254463-pct00040
을 사용하는 방법은 주로 좌우 방향에서의 부차적 잡음의 검출에 치중하고,
Figure 112019053254463-pct00041
을 사용하는 방법은 주로 상하 방향에서의 부차적 잡음의 검출에 치중하며,
Figure 112019053254463-pct00042
Figure 112019053254463-pct00043
는 사운드 소스 방향 판정에서 상호 보완적일 수 있다.
구체적인 구현 프로세스에서, 양이 레벨 차이에 기반한 사운드 소스 측위 방법에서, 마이크로폰의 배열이 도 2a에 도시된 경우, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지가 획득될 수 있고, 현재 프레임의 신호가 어떠한 후방 사운드 신호도 포함하지 않는 경우, 0의 음성 활동 검출(Voice Activity Detection, VAD) 식별자가 출력되거나; 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는 경우, 잡음 소스가 포함된다고 간주되고, 1의 VAD 식별자가 출력된다. 마이크로폰의 배열이 도 2b 또는 도 2c에 도시된 경우, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지가 획득될 수 있고; 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는 경우, 1의 VAD 식별자가 출력되거나; 현재 프레임의 신호가 어떠한 후방 사운드 신호도 포함하지 않는 경우, 부차적 잡음 신호가 포함되는지가 또한 판정되며, 어떠한 부차적 잡음 신호도 포함되지 않는 경우, 0의 음성 활동 검출(Voice Activity Detection, VAD) 식별자가 출력되고; 그렇지 않은 경우, 1의 VAD 식별자가 출력된다. VAD 식별자는 디폴트로(by default) 0이다. 결론적으로, 후방 사운드 신호의 영향 및 부차적 잡음의 영향 양자 모두가 고려되면, 현재 사운드 신호가 부차적 잡음 및 후방 사운드 신호 중 어느 쪽이든 포함하는 경우, VAD 식별자는 1로 설정되거나; 후방 사운드 신호의 영향만 고려되는 경우, 후방 사운드 신호가 포함된다면, VAD 식별자는 1로 설정된다. 분명히, 전자는 사운드 소스에 더 민감하고, 더 높은 요구사항을 갖는다. 이것은 사용자에 의해 유연하게 사전구성될 수 있다.
현재의 ILD 정보가 무효인 경우, 즉, 상부-전방 마이크로폰 및 상부-후방 마이크로폰 간의 양이 레벨 차이를 사용함으로써, 양이 레벨 차이를 사용하여 사운드 소스 방향을 판정하는 것에 대한 조건이 충족되지 않는다고 판정되는 경우, 사운드 소스 측위에 대해 판정하는 것은 위상 차이에 기반한 종래의 사운드 소스 측위 기술을 사용함으로써 수행된다. 구체적인 방법이 다음과 같이 보여진다:
도 5에 도시된 바와 같이, 원거리장(far-field) 사운드 소스 신호가 병렬로 입사하는 경우, 상이한 입사각으로 인해, 2개의 마이크에서의 신호의 도착의 시간 차이가 있다. 임의의 주파수를 갖는 파형 신호에 대해, 시간 차이 정보는 파형 신호의 위상 변화, 즉, 위상 차이이다.
입사각이 0°인 경우, 위상 차이는
Figure 112019053254463-pct00044
이되, f는 주파수이고, c는 음속이며, d는 마이크 간의 거리이다. 0°에서의 입사의 경우, 여기에서,
Figure 112019053254463-pct00045
는 0과 같고, 180°에서의 입사의 경우,
Figure 112019053254463-pct00046
는 π와 같다. 도 5에서, h는 2개의 마이크 간의 위상 차이로서 이해될 수 있고, d는 2개의 마이크 간의 최대 위상 차이이며, 입사각=asin(h/d)이다. 최대 위상 차이는
Figure 112019053254463-pct00047
이고, 2개의 마이크 간의 위상 차이는 주파수 포인트 복소수 신호 간의 위상 각도 차이이다(복소수는
Figure 112019053254463-pct00048
와 같이 삼각함수를 사용함으로써 표현될 수 있는데, A는 복소수의 절대값임).
전체 프레임에 대한 위상 차이에 기반한 많은 사운드 소스 측위 방법이 있다. 비교적 통상적인 방법은 일반화된 상호 상관(Generalized Cross-Correlation: GCC) 사운드 소스 측위 방법이다. GCC 사운드 소스 측위 방법은 도 6에 도시된다.
도 6에서,
Figure 112019053254463-pct00049
Figure 112019053254463-pct00050
은 2개의 마이크에 의해 수신된 시간 도메인 신호이고, FFT는 고속 푸리에 변환이며, 계산을 통해 획득된 피크 인덱스(peak index)는
Figure 112019053254463-pct00051
, 즉, 대응하는 지연 샘플링 포인트의 개수이며, 시간 차이=
Figure 112019053254463-pct00052
이다. 입사각은 다음의 공식에 따라 계산될 수 있다: 입사각=
Figure 112019053254463-pct00053
, 여기서 C는 음속이고, d는 마이크 간의 거리이며, Fs는 샘플링 레이트이다.
위상 차이에 기반한 사운드 소스 측위 방법에서, 전체 프레임에 대한 입사각 및 주파수 포인트에 대한 입사각이 현재 프레임의 신호에 대해 획득될 수 있다. 전체 프레임에 대한 입사각 및 주파수 포인트에 대한 입사각 양자 모두가 빔 포착 범위를 넘는 경우(빔 범위는 사전설정됨), 현재 사운드 신호는 후방 사운드 신호, 즉 잡음 신호를 포함한다고 간주되고, 1의 VAD 식별자가 출력되고; 그렇지 않으면, 0의 VAD 식별자가 출력된다. VAD 식별자는 디폴트로 0이다.
구체적으로, VAD 식별자가 0으로서 출력되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-전방 마이크로폰에 의해 획득된 사운드 신호로부터 잡음 신호를 걸러내도록 제어된다. 구체적인 구현 프로세스는 다음과 같다: VAD 식별자는 빔형성기에 출력된다. 선택적으로, 정규화된 최소 평균 제곱(Normalized Least Mean Square: NLMS) 필터가 사용된다. NLMS 필터는 참조 신호를 사용함으로써 원하는 신호를 적응적으로 생성하고, 타겟 신호로부터 원하는 신호를 감산하여, 잔차 신호를 획득하며, 최소 잔차를 설계 방향으로서 사용할 필요가 있다. 전술한 사운드 소스 측위 결과를 사용함으로써 NLMS 필터의 스텝이 유도되며, 전방 사운드 신호가 타겟 사운드 소스임이 판정되는 경우, 필터의 스텝은 0이며, 갱신되지 않는다. 후방 사운드 신호가 잡음 소스를 포함한다고 판정되는 경우, 필터의 스텝은 가장 크며, 갱신된다. 여기서, 필터의 참조 신호는 타겟 사용자와 반대인 방향의 신호를 사용한다. 예를 들어, 화자(talker)가 화면의 바로 전방에 있는 경우, 참조 신호는 단말의 상부-후방 마이크의 신호를 선택한다. 그 반대도 마찬가지이다. 출력 신호(이로부터 후방 잡음 컴포넌트가 걸러짐)를 획득하기 위해, 갱신된 필터 계수에 입력 (in) 신호가 곱해진다.
또한, 빔형성 후에 획득된 신호에 대해, 빔형성 후의 후처리 잡음 감소를 유도하기 위해 사운드 소스 측위 결과가 사용된다. 주파수 포인트 상의 사운드 소스 측위 결과가 잡음이 포함됨인 경우, 주파수 포인트 상에서의 잡음 에너지가 갱신되고, 후처리 이득-클램핑(post-processing gain-clamping)을 수행하는 데에 종래의 위너 필터링 알고리즘(Wiener filtering algorithm)이 사용된다. 빔형성 후에 획득된 신호에 대해, 추가의 잡음 감소 처리가 수행된다.
다음으로, 후처리 후에 획득된 신호는, 추가의 반향 소거(echo cancellation)를 수행하기 위해, 반향 소거 모듈로 발신된다. 빔형성 부분 및 후처리 부분에서, 특정한 소거 기능이 반향 신호에 대해 이미 달성된다. 이 시나리오에서, 스피커의 위치는 일반적으로 모바일 폰의 하부에 또는 후방에 있고, 스피커가 신호를 생성하는 방향이 잡음 방향이다. 그러므로, 종래의 반향 소거 기술에 비해, 마이크로폰을 위한 빔형성 및 후처리 기술이 반향을 감소시킬 수 있고 반향을 더 쉽게 소거할 수 있다.
중간 주파수 신호 및 고주파 신호가 단말에 의해 차단되는 경우, 상당한 차단 효과가 생성될 수 있다. 낮은 신호 대 잡음 비 또는 복수의 사운드 소스의 시나리오에서, 지연 차이 정보는 이미 매우 혼탁하며 복수의 방향에서의 사운드 소스의 혼합이다. 지연 차이에 기반한 사운드 소스 측위 결과는 무작위성을 보여준다. 이 경우에, 양이 레벨 차이 정보는 또한 혼합된다. 그러나, 단말의 전방 표면 및 후방 표면 상에서 사운드 소스에 대해 2개의 마이크 상에서 생성된 양이 레벨 차이가 상이하다면, 사운드 소스 측위가 수행될 수 있다. 특히, 비디오 통화의 시나리오에서, 화자 또는 잡음 소스와 같은 사운드 소스가 단말에 근접한 경우, 양이 레벨 차이 정보는 더 신뢰할 만하다.
구체적인 구현 프로세스에서, 단말(100) 상에서의 마이크의 배열은 도 2a, 도 2b 및 도 2c에서의 배열 중 임의의 것을 포함하나, 이에 한정되지 않는다. 도 2a, 도 2b 또는 도 2c에서의 마이크로폰의 배열은 전형적인 인라인 유형(in-line type) 배열이다. 마이크로폰의 개수가 증가되는 경우, 빔을 위한 사운드 포착 범위가 더 잘 구별될 수 있어서, 빔 범위가 더 정확하여, 3D 사운드 소스 측위를 구현한다. 도 2a에서의 마이크로폰의 배열이 사용되는 경우, 전방 및 후방 신호가 효과적으로 구별될 수 있다. 도 2b에서의 마이크의 배열이 사용되는 경우, 전방 및 후방 신호가 효과적으로 구별될 수 있다. 1개의 마이크가 하부에 추가되기 때문에(위치가 좌측에 있거나 우측에 있는지는 한정되지 않음), 사운드 소스 방향은 모바일 폰의 상하 방향에서 구별될 수 있다. 도 2c에서의 마이크의 배열이 사용되는 경우, 전방 및 후방 신호가 효과적으로 구별될 수 있다. 좌측에 그리고 우측에 분산된 2개의 새로운 마이크가 하부에 추가되기 때문에, 3D 사운드 소스 측위를 구현하기 위해, 상하 방향 및 좌우 방향에서 사운드 소스 방향이 구별될 수 있다.
본 발명은 사운드 처리 방법을 제공한다. 방법은 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 2개의 마이크로폰은 단말의 전방 표면 및 후방 표면 상에 각각 위치된다. 단말의 카메라가 촬영 상태에 있다고 검출되는 경우, 현재 환경에서의 사운드 신호가 2개의 마이크로폰을 사용함으로써 획득되고, 2개의 마이크로폰 간의 양이 레벨 차이는 제1 사전설정된 알고리즘에 따라 현재 프레임의 획득된 사운드 신호에 기반하여 계산되며, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지가 판정되고, 사운드 소스 방향 판정 조건이 충족되는 경우, 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임)하며, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 후방 사운드 신호는 현재 프레임의 사운드 신호로부터 걸러진다. 방법에 따르면, 촬영 동안에, 촬영 범위 너머의 잡음 신호가 걸러질 수 있는바, 이로써 촬영 동안 비디오의 사운드 품질을 보증하고, 사용자 경험을 개선한다.
도 7에 도시된 바와 같이, 전술한 실시예에서 제공된 사운드 처리 방법에 기반하여, 본 발명의 실시예는 사운드 처리 장치(700)를 제공한다. 장치(700)는 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 2개의 마이크로폰은 각각 단말의 전방 표면 및 후방 표면에 위치되며, 도 7에 도시된 바와 같이, 장치(700)는 획득 모듈(701), 계산 모듈(702), 판단 모듈(701), 판정 모듈(704) 및 필터링 모듈(705)을 포함한다.
획득 모듈(701)은, 단말의 카메라가 촬영 상태에 있는 경우, 2개의 마이크로폰을 사용함으로써 단말의 현재 환경에서의 사운드 신호를 획득하도록 구성된다. 획득 모듈은 프로세서에 의해 구현될 수 있다. 카메라의 촬영 기능이 인에이블된 것인지를 모니터링하기 위해 로컬 메모리 또는 클라우드 서버의 프로그램 명령어가 호출될 수 있고, 카메라가 이미 인에이블됨이 검출되는 경우, 프로세서는 사운드 신호를 획득하도록 마이크로폰을 또한 제어할 수 있다. 또한, 획득된 신호는 오디오 회로를 사용함으로써 디지털 신호로 변환될 수 있다.
구체적인 구현 프로세스에서, 획득 모듈(701)은 검출 유닛(701a) 및 수신 유닛(701b)을 더 포함할 수 있다. 검출 유닛(701a)은 인에이블된 상태에 있는 카메라가 있는지를 검출하도록 구성되고, 전방 및 후방 카메라 간을 구별할 수 있다. 카메라가 인에이블됨이 검출되는 경우, 수신 유닛(710b)은 현재 환경에서의 사운드 신호를 또한 획득한다. 2개의 유닛은 프로세서에 의해 메모리 내의 프로그램 및 명령어를 호출함으로써 대응하는 기능을 구현할 수 있다.
계산 모듈(702)은 제1 사전설정된 알고리즘에 따라, 획득 모듈(701)에 의해 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하도록 구성된다. 계산 모듈은 프로세서에 의해 구현될 수 있다. 양이 레벨 차이를 획득하기 위해, 획득된 사운드 신호에 대해 계산 처리를 수행하도록, 로컬 메모리 또는 클라우드 서버 내의 양이 레벨 차이 알고리즘 프로그램이 호출될 수 있다.
판단 모듈(703)은 계산 모듈(702)에 의해 계산된 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하도록 구성된다, 판단 모듈은 프로세서에 의해 구현될 수 있다. 판정 결과를 획득하기 위해, 대응하는 계산을 수행하도록, 로컬 메모리 또는 클라우드 서버 내의 판정 알고리즘 프로그램이 호출될 수 있다. 판정 모듈(704)은, 판단 모듈(703)이 사운드 소스 방향 판정 조건이 충족되는 경우, 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하도록 구성된다. 판정 모듈은 프로세서에 의해 구현될 수 있다. 조건이 충족됨을 나타내는 결과가 수신되는 경우, 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하기 위해, 로컬 메로리 또는 클라우드 서버 내의 후방 사운드 판정 알고리즘 프로그램이 호출될 수 있다.
필터링 모듈(705)은, 판정 모듈(704)이 사운드 신호가 후방 사운드 신호를 포함한다고 판정하는 경우, 사운드 신호로부터 후방 사운드 신호를 걸러내도록 구성된다. 필터링 모듈은 프로세서에 의해 구현될 수 있다. 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 사운드 신호로부터 후방 사운드 신호를 걸러내기 위해, 로컬 메모리 또는 클라우드 서버 내의 잡음 필터링 알고리즘 프로그램이 호출될 수 있다.
그러나, 일반적으로, 카메라에 의해 촬영될 수 있는 시야각 범위는 카메라의 전방의 전체 영역이 아니라 약 120도이다. 그러므로, 사운드 소스가 카메라의 전방에 위치되고 카메라의 촬영 범위를 넘어서 위치된 잡음 신호가 있을 수 있다. 후방 사운드 신호에 비해, 이 부분의 잡음 신호는 캡처된 내용에 비교적 적은 영향을 미치며, 부차적 잡음 신호로서 이해될 수 있다. 위에서 언급된 영역에 대해 특정한 정의 오류가 허용된다. 그러므로, 구체적인 구현 프로세스에서, 후방 사운드 신호: 그 부분의 잡음을 걸러내는 것 외에도, 부차적 잡음이 걸러질 수 있다. 다음의 2개의 예를 참조한다:
예 3:
단말은 상부에서의 전방 표면에 배열된 1개의 마이크로폰, 상부에서의 후방 표면에 배열된 1개의 마이크로폰 및 하부에 배열된 1개의 마이크로폰을 갖는다. 단말이 상부에서의 전방 표면에 배열된 1개의 마이크로폰, 상부에서의 후방 표면에 배열된 1개의 마이크로폰 및 하부에서의 좌측의 1개의 마이크로폰을 갖는 경우가 아래에서 예로서 사용된다. 도 2b에 도시된 바와 같이, 이 경우에, 앞에 후방 사운드 신호가 있는지에 상관없이, 장치는 다음의 단계를 수행하도록 구성된 부차적 잡음 필터링 모듈(706)을 더 포함할 수 있다.
단말이 촬영을 위해 전면 카메라를 사용한다고 획득 모듈(701)이 검출하는 경우, 사운드 신호의 상하 방위각을 획득하기 위해, 하부-좌측 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위를 수행하며; 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정한다. 부차적 잡음 신호는 전면 카메라의 전방에 위치되고 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 제어된다.
촬영을 위해 후면 카메라가 사용된다고 획득 모듈(701)이 검출하는 경우, 사운드 신호의 상하 방위각을 획득하기 위해, 하부-좌측 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위가 수행될 수 있고; 상하 방위각이 제1 사전설정된 각도(이는 이전 단락에서의 제1 사전설정된 각도와 동일하거나 상이할 수 있음)보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 이 경우에, 부차적 잡음 신호는 후면 카메라의 전방에 위치되고 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 부차적 잡음 신호를 걸러내도록 제어된다.
예 4:
단말이 상부에서의 전방 표면에 배열된 1개의 마이크로폰, 후방 표면 상의 1개의 마이크로폰, 하부에서의 좌측에 배열된 1개의 마이크로폰 및 하부에서의 우측에 배열된 1개의 마이크로폰을 갖는 경우, 참조의 용이함을 위해, 하부에서의 2개의 마이크로폰은 또한 제3 마이크로폰 및 제4 마이크로폰으로서 참조될 수 있다. 도 2c에 도시된 바와 같이, 이 경우에, 앞에 후방 사운드 신호가 있는지에 상관없이, 장치는 다음의 단계를 수행하도록 구성된 부차적 잡음 필터링 모듈을 더 포함할 수 있다:
단말이 촬영을 위해 전면 카메라를 사용한다고 획득 모듈(701)이 검출하는 경우, 사운드 신호의 상하 방위각을 획득하기 위해, 하부-좌측 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위를 수행하고; 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정한다. 부차적 잡음 신호는 전면 카메라의 전방에 위치되고 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 또한, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하기 위해, 제3 마이크로폰 및 제4 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위가 수행되고; 좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 전술한 단계에 따라, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-전방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 모든 부차적 잡음 신호를 걸러내도록 제어된다.
단말이 촬영을 위해 후면 카메라를 사용한다고 획득 모듈(701)이 검출하는 경우, 사운드 신호의 상하 방위각을 획득하기 위해, 하부-좌측 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된 사운드 신호에 대해 지연 차이 기반 측위가 또한 수행될 수 있고; 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 이 경우에, 부차적 잡음 신호는 후면 카메라의 전방에 위치되고 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호이다. 또한, 현재 프레임의 사운드 신호의 좌우 방위각을 획득하기 위해, 제3 마이크로폰 및 제4 마이크로폰에 의해 획득된, 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위가 수행될 수 있고; 좌우 방위각이 제2 사전설정된 각도(이는 이전 단락에서의 제2 사전설정된 각도와 동일하거나 상이할 수 있음)보다 큰 경우, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정된다. 전술한 단계에 따라, 현재 프레임의 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호가 참조 신호로서 사용되고, 단말 내의 적응 필터는 상부-후방 마이크로폰에 의해 획득된 현재 프레임의 사운드 신호로부터 모든 부차적 잡음 신호를 걸러내도록 제어된다.
부차적 잡음 필터링 모듈은 프로세서에 의해 구현될 수 있다. 사운드 신호가 부차적 잡음 신호를 포함한다고 판정되는 경우, 사운드 신호로부터 후방 사운드 신호를 걸러내기 위해, 로컬 메모리 또는 클라우드 서버 내의 부차적 잡음 필터링 알고리즘 프로그램이 호출될 수 있다.
구체적인 구현 프로세스에서, 획득 모듈(701)은 단계(31)에서 언급된 방법 및 동등한 대체물로서의 역할을 할 수 있는 방법을 수행하도록 구체적으로 구성되고, 계산 모듈(702)은 단계(32)에서 언급된 방법 및 동등한 대체물로서의 역할을 할 수 있는 방법을 수행하도록 구체적으로 구성되며, 판단 모듈(703)은 단계(33)에서 언급된 방법 및 동등한 대체물로서의 역할을 할 수 있는 방법을 수행하도록 구체적으로 구성되고, 판정 모듈(704)은 단계(34)에서 언급된 방법 및 동등한 대체물로서의 역할을 할 수 있는 방법을 수행하도록 구체적으로 구성되며, 필터링 모듈(705)은 단계(35)에서 언급된 방법 및 동등한 대체물로서의 역할을 할 수 있는 방법을 수행하도록 구체적으로 구성되고, 부차적 잡음 필터링 모듈(706)은 단계(36) 또는 단계(37)에서 언급된 방법 및 동등한 대체물로서의 역할을 할 수 있는 방법을 수행하도록 구체적으로 구성된다. 전술한 구체적인 방법 실시예 및 실시예에서의 설명과 서술은 실행을 위해 장치 내의 방법에 또한 적용가능하다.
본 발명은 사운드 처리 장치를 제공한다. 장치는 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 2개의 마이크로폰은 각각 단말의 전방 표면 및 후방 표면에 위치되며, 장치는 획득 모듈(701), 계산 모듈(702), 판단 모듈(701), 판정 모듈(704) 및 필터링 모듈(705)를 포함한다. 단말의 카메라가 촬영 상태에 있다고 검출되는 경우, 획득 모듈(701)은 2개의 마이크로폰을 사용함으로써 현재 환경에서의 사운드 신호를 획득하고, 계산 모듈(702)은 제1 사전설정된 알고리즘에 따라 현재 프레임의 획득된 사운드 신호에 기반하여 2개의 마이크로폰 간의 양이 레벨 차이를 계산하며, 판단 모듈(703)은 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하고, 사운드 소스 방향 판정 조건이 충족되는 경우, 판정 모듈(704)은 현재 프레임에 대한 2개의 마이크로폰 간의 양이 레벨 차이에 기반하여, 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하며(후방 사운드 신호는 사운드 소스가 카메라의 후방에 위치된 사운드 신호임), 현재 프레임의 사운드 신호가 후방 사운드 신호를 포함한다고 판정되는 경우, 필터링 모듈(705)는 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러낸다. 장치에 따라, 촬영 동안에, 촬영 범위 너머의 잡음 신호가 걸러질 수 있는바, 이로써 촬영 동안 비디오의 사운드 품질을 보장하고, 사용자 경험을 개선한다.
장치(700)에서의 모듈의 구분은 단지 논리적 기능 구분임이 이해되어야 한다. 실제의 구현 동안에, 모듈 중 일부 또는 전부가 하나의 물리적 개체 내에 집적될 수 있거나, 모듈은 물리적으로 별개일 수 있다. 예를 들어, 모듈은 독립적으로 배치된 처리 요소일 수 있거나, 구현을 위해 단말 내의 칩 내에 집적될 수 있다. 추가로, 모듈은 프로그램 코드의 형태로 제어기 내의 저장 요소 내에 저장될 수 있고, 프로세서 내의 처리 요소는 모듈의 기능을 호출하고 수행한다. 추가로, 모듈은 함께 집적될 수 있거나 독립적으로 구현될 수 있다. 처리 요소는 집적 회로 칩일 수 있고 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법에서의 단계 또는 전술한 모듈은 처리 요소 내의 하드웨어 집적 논리 회로를 사용함으로써, 또는 소프트웨어의 형태로 된 명령어를 사용함으로써 구현될 수 있다. 처리 요소는 일반 목적 프로세서, 예를 들어, 중앙 처리 유닛(영문: Central Processing Unit, 줄여서 CPU)일 수 있거나, 전술한 방법을 구현하도록 구성된 하나 이상의 집적 회로, 예를 들어, 하나 이상의 애플리케이션 특정 집적 회로(영문: Application-Specific Integrated Circuit, 줄여서 ASIC), 또는 하나 이상의 마이크로프로세서(영문: Digital Signal Processor, 줄여서 DSP), 또는 하나 이상의 필드 프로그램가능 게이트 어레이(영문: Field-Programmable Gate Array, 줄여서 FPGA)일 수 있다.
당업자는 본 발명의 실시예가 방법, 시스템 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해하여야 한다. 그러므로, 본 발명은 하드웨어뿐인 실시예, 소프트웨어뿐인 실시예, 또는 소프트웨어 및 하드웨어의 조합을 갖는 실시예의 형태를 사용할 수 있다. 더욱이, 본 발명은 컴퓨터 사용가능(computer-usable) 프로그램 코드를 포함하는 하나 이상의 컴퓨터 사용가능 저장 매체(디스크 메모리, CD-ROM, 광학 메모리 등을 포함하나 이에 한정되지 않음) 상에 구현된 컴퓨터 프로그램 제품의 형태를 사용할 수 있다.
본 발명은 본 발명의 실시예에 따른 방법, 디바이스(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 설명된다. 컴퓨터 프로그램 명령어는 흐름도 및/또는 블록도 내의 각 프로세스 및/또는 각 블록 및 흐름도 및/또는 블록도 내의 프로세스 및/또는 블록의 조합을 구현하는 데에 사용될 수 있음이 이해되어야 한다. 이들 컴퓨터 프로그램 명령어는 기계를 생성하기 위해 일반 목적 컴퓨터, 전용 컴퓨터, 임베디드(embedded) 프로세서, 또는 임의의 다른 프로그램 가능 데이터 처리 디바이스의 프로세서를 위해 제공될 수 있어서, 컴퓨터 또는 임의의 다른 프로그램가능 데이터 처리 디바이스의 프로세서에 의해 실행되는 명령어는 흐름도에서의 하나 이상의 프로세스에서의 그리고/또는 블록도에서의 하나 이상의 블록에서의 구체적 기능을 구현하기 위한 장치를 생성한다.
이들 컴퓨터 프로그램 명령어는 컴퓨터 판독가능 메모리 내에 저장될 수 있는데 이는 컴퓨터 또는 임의의 다른 프로그램가능 데이터 처리 디바이스로 하여금 특정 방식으로 작동하도록 명령할 수 있어서, 컴퓨터 판독가능 메모리에 저장된 명령어는 명령 장치를 포함하는 제조품을 생성한다. 명령 장치는 흐름도의 하나 이상의 프로세스에서의 그리고/또는 블록도의 하나 이상의 블록에서의 구체적 기능을 구현한다.
이들 컴퓨터 프로그램 명령어는 컴퓨터 또는 기타 프로그램가능 데이터 처리 디바이스 상에 로딩될 수 있어서, 일련의 동작 및 단계가 컴퓨터 또는 기타 프로그램가능 디바이스 상에서 수행되는바, 이로써 컴퓨터 구현된(computer-implemented) 처리를 생성한다. 그러므로, 컴퓨터 또는 기타 프로그램가능 디바이스 상에서 실행되는 명령어는 흐름도에서의 하나 이상의 프로세스 및/또는 블록도에서의 하나 이상의 블록에서의 구체적 기능을 구현하기 위한 단계를 제공한다.
본 발명의 몇몇 실시예가 설명되었지만, 당업자는 일단 기본적인 발명 개념을 알면 이들 실시예에 대해 변경 및 수정을 행할 수 있다. 그러므로, 다음의 청구항은 바람직한 실시예 및 본 발명의 범위 내에 속하는 모든 변경 및 수정을 망라하는 것으로 해석되도록 의도된다.
명백히, 당업자는 본 발명의 실시예의 사상 및 범위로부터 벗어나지 않고서 본 발명의 실시예에 대한 다양한 수정 및 변형을 행할 수 있다. 본 발명은 이들 수정 및 변형을, 그것들이 다음의 청구항 및 이의 균등한 기술에 의해 정의되는 보호 범위 내에 속한다면 망라하도록 의도된다.

Claims (22)

  1. 사운드 처리 방법으로서,
    상기 방법은 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 상기 2개의 마이크로폰은 상기 단말의 전방 표면 및 후방 표면 상에 각각 위치되며, 상기 방법은,
    상기 단말의 카메라가 촬영 상태에 있는 경우, 상기 2개의 마이크로폰을 사용함으로써 상기 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하는 단계와,
    제1 사전설정된 알고리즘에 따라 상기 현재 프레임의 상기 획득된 사운드 신호에 기반하여 상기 2개의 마이크로폰 간의 양이 레벨 차이(interaural level difference)를 계산하는 단계와,
    상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하는 단계와,
    상기 사운드 소스 방향 판정 조건이 충족되는 경우, 상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이에 기반하여, 상기 현재 프레임의 상기 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하는 단계 - 상기 후방 사운드 신호는 사운드 소스가 상기 카메라의 후방에 위치된 사운드 신호임 - 와,
    상기 현재 프레임의 상기 사운드 신호가 상기 후방 사운드 신호를 포함한다고 판정되는 경우, 상기 현재 프레임의 상기 사운드 신호로부터 상기 후방 사운드 신호를 걸러 내는(filtering out) 단계를 포함하는,
    사운드 처리 방법.
  2. 제1항에 있어서,
    상기 2개의 마이크로폰을 사용함으로써 상기 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하는 단계는,
    상기 2개의 마이크로폰을 사용함으로써, 상기 현재 프레임의 상기 사운드 신호 S1 및 S2를 획득하는 단계를 포함하고,
    제1 사전설정된 알고리즘에 따라 상기 획득된 사운드 신호에 기반하여 상기 2개의 마이크로폰 간의 양이 레벨 차이를 계산하는 단계는,
    고속 푸리에 변환(Fast Fourier Transformation: FFT) 알고리즘을 사용함으로써 S1 및 S2에 기반하여 S1 및 S2의 파워 스펙트럼(power spectrum) P1 및 P2을 계산하는 단계와,
    공식
    Figure 112019053254463-pct00054
    을 사용함으로써 P1 및 P2에 기반하여 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이를 계산하는 단계를 포함하되,
    P1은 상기 현재 프레임에서 상부-전방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내고, P2는 상기 현재 프레임에서 상부-후방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내며, P1 및 P2는 각각 N개의 요소를 갖는 벡터이고, 상기 N개의 요소는 상기 현재 프레임의 상기 사운드 신호에 대해 고속 푸리에 변환이 수행된 후에 획득되는 N개의 대응하는 주파수 포인트의 값이며, N은 1보다 큰 정수이고, ILDnow는 상기 N개의 주파수 포인트에 대응하는 양이 레벨 차이를 포함하는 벡터인,
    사운드 처리 방법.
  3. 제2항에 있어서,
    상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하는 단계는,
    제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 제2 사전설정된 알고리즘에 따라, 상기 제i 주파수 포인트에 대응하는 최대 참조 값 및 최소 참조 값을 계산하는 단계 - 상기 제i 주파수 포인트는 상기 N개의 주파수 포인트 중 하나이고, i는 N보다 크지 않은 모든 양의 정수라고 가정됨 - 와,
    상기 제i 주파수 포인트의 상기 최대 참조 값 및 상기 최소 참조 값 간의 차이가 상기 제i 주파수 포인트에 대응하는 제1 임계치보다 큰 경우, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제i 주파수 포인트 상에서 상기 사운드 소스 방향 판정 조건을 충족한다고 판정하는 단계,
    상기 최대 참조 값 및 상기 최소 참조 값 간의 차이가 상기 제i 주파수 포인트에 대응하는 제1 임계치보다 크지 않은 경우, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제i 주파수 포인트 상에서 상기 사운드 소스 방향 판정 조건을 충족하지 않는다고 판정하는 단계, 또는
    상기 N개의 주파수 포인트 중의 M개의 주파수 포인트가 상기 사운드 소스 방향 판정 조건을 충족하는 경우, 상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 사운드 소스 방향 판정 조건을 충족한다고 판정하는 단계 - M은 N/2보다 크거나 같음 - 를 포함하는,
    사운드 처리 방법.
  4. 제3항에 있어서,
    제i 주파수 포인트에 대응하는 상기 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 제2 사전설정된 알고리즘에 따라, 상기 제i 주파수 포인트에 대응하는 최대 참조 값 및 최소 참조 값을 계산하는 단계는,
    제(i-1) 주파수 포인트에 대응하는 최대 참조 값을 획득하는 단계 - 상기 제(i-1) 주파수 포인트는 상기 제i 주파수 포인트의 이전 주파수 포인트임 - 와, 상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최대 참조 값보다 크지 않은 경우, 공식
    Figure 112019053254463-pct00055
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최대 참조 값을 계산하는 단계, 또는
    상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최대 참조 값보다 큰 경우, 공식
    Figure 112019053254463-pct00056
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최대 참조 값을 계산하는 단계와,
    상기 제(i-1) 주파수 포인트에 대응하는 최소 참조 값을 획득하는 단계와, 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최소 참조 값보다 큰 경우, 공식
    Figure 112019053254463-pct00057
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최소 참조 값을 계산하는 단계, 또는
    상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최소 참조 값보다 크지 않은 경우, 공식
    Figure 112019053254463-pct00058
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최소 참조 값을 계산하는 단계를 포함하되,
    ILDnow는 상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이를 나타내고, ILDmax는 제i 주파수 포인트에 대응하는 상기 최대 참조 값을 나타내며,
    Figure 112019053254463-pct00059
    은 제(i-1) 주파수 포인트에 대응하는 상기 최대 참조 값을 나타내고, ILDmin은 제i 주파수 포인트에 대응하는 상기 최소 참조 값을 나타내며,
    Figure 112019053254463-pct00060
    은 제(i-1) 주파수 포인트에 대응하는 상기 최소 참조 값을 나타내고,
    Figure 112019053254463-pct00061
    Figure 112019053254463-pct00062
    은 사전설정된 스텝 값을 나타내며,
    Figure 112019053254463-pct00063
    인,
    사운드 처리 방법.
  5. 제1항에 있어서,
    상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이에 기반하여, 상기 현재 프레임의 상기 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하는 단계는,
    제j 주파수 포인트에 대응하는 양이 레벨 차이가 상기 제j 주파수 포인트에 대응하는 제2 임계치보다 작은 경우, 상기 제j 주파수 포인트에서 후방 사운드 신호가 포함된다고 판정하는 단계 - 상기 제j 주파수 포인트는 M개의 주파수 포인트 중 하나이고, j는 M보다 크지 않은 모든 양의 정수라고 가정됨 - , 또는
    제j 주파수 포인트에 대응하는 상기 2개의 마이크로폰 간의 양이 레벨 차이가 제2 임계치보다 작지 않은 경우, 상기 제j 주파수 포인트에서 어떠한 후방 사운드 신호도 포함되지 않는다고 판정하는 단계를 포함하는,
    사운드 처리 방법.
  6. 제1항에 있어서,
    상기 현재 프레임의 상기 사운드 신호로부터 상기 후방 사운드 신호를 걸러 내는 단계는,
    촬영을 수행하고 있는 상기 단말의 상기 카메라가 전면(front-facing) 카메라인 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러 내도록(filter out) 상기 단말 내의 적응 필터를 제어하는 단계, 또는
    촬영을 수행하고 있는 상기 단말의 상기 카메라가 후면(rear-facing) 카메라인 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러 내도록 상기 단말 내의 적응 필터를 제어하는 단계를 포함하는,
    사운드 처리 방법.
  7. 제1항에 있어서,
    상기 단말이 하부에 제3 마이크로폰을 더 포함하고, 촬영을 수행하고 있는 상기 카메라가 전면 카메라인 경우, 상기 방법은,
    상기 제3 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된, 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위(delay difference based positioning)를 수행하여 상기 현재 프레임의 상기 사운드 신호의 상하 방위각(up-down azimuth)을 획득하는 단계와,
    상기 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 단계 - 상기 부차적 잡음 신호는 상기 전면 카메라의 전방에 위치되고 상기 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임 - 와,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상기 상부-전방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 적응 필터를 제어하는 단계를 더 포함하는,
    사운드 처리 방법.
  8. 제1항에 있어서,
    상기 단말이 하부에 제3 마이크로폰을 더 포함하고, 촬영을 수행하고 있는 상기 카메라는 후면 카메라인 경우, 상기 방법은,
    상기 제3 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된, 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여 상기 현재 프레임의 상기 사운드 신호의 상하 방위각을 획득하는 단계와,
    상기 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 단계 - 상기 부차적 잡음 신호는 상기 후면 카메라의 전방에 위치되고 상기 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임 - 와,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상기 상부-후방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 적응 필터를 제어하는 단계를 더 포함하는,
    사운드 처리 방법.
  9. 제7항에 있어서,
    상기 단말이 하부에 제4 마이크로폰을 더 포함하고, 상기 제3 마이크로폰 및 상기 제4 마이크로폰이 좌측에서 우측으로 상기 단말의 상기 하부에 배열되는 경우, 상기 방법은,
    상기 제3 마이크로폰 및 상기 제4 마이크로폰에 의해 획득된, 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여 상기 현재 프레임의 상기 사운드 신호의 좌우 방위각(left-right azimuth)을 획득하는 단계와,
    상기 좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 단계와,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상기 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상기 상부-전방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 상기 적응 필터를 제어하는 단계를 더 포함하는,
    사운드 처리 방법.
  10. 제8항에 있어서,
    상기 단말이 하부에 제4 마이크로폰을 더 포함하고, 상기 제3 마이크로폰 및 상기 제4 마이크로폰이 좌측에서 우측으로 상기 단말의 상기 하부에 배열되는 경우, 상기 방법은,
    상기 제3 마이크로폰 및 상기 제4 마이크로폰에 의해 획득된, 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여 상기 현재 프레임의 상기 사운드 신호의 좌우 방위각을 획득하는 단계와,
    상기 좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하는 단계와,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상기 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상기 상부-후방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 상기 적응 필터를 제어하는 단계를 더 포함하는,
    사운드 처리 방법.
  11. 사운드 처리 장치로서,
    상기 장치는 상부에 2개의 마이크로폰을 갖는 단말에 적용되고, 상기 2개의 마이크로폰이 상기 단말의 전방 표면 및 후방 표면 상에 각각 위치되며, 상기 장치는,
    상기 단말의 카메라가 촬영 상태에 있는 경우, 상기 2개의 마이크로폰을 사용함으로써 상기 단말의 현재 환경에서 현재 프레임의 사운드 신호를 획득하도록 구성된 획득 모듈과,
    제1 사전설정된 알고리즘에 따라 상기 현재 프레임의 상기 획득된 사운드 신호에 기반하여 상기 2개의 마이크로폰 간의 양이 레벨 차이를 계산하도록 구성된 계산 모듈과,
    상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 사운드 소스 방향 판정 조건을 충족하는지를 판정하도록 구성된 판단 모듈과,
    상기 사운드 소스 방향 판정 조건이 충족되는 경우, 상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이에 기반하여, 상기 현재 프레임의 상기 사운드 신호가 후방 사운드 신호를 포함하는지를 판정하도록 구성된 판정 모듈 - 상기 후방 사운드 신호는 사운드 소스가 상기 카메라의 후방에 위치된 사운드 신호임 - 과,
    상기 현재 프레임의 상기 사운드 신호가 상기 후방 사운드 신호를 포함한다고 판정되는 경우, 상기 현재 프레임의 상기 사운드 신호로부터 상기 후방 사운드 신호를 걸러 내도록 구성된 필터링 모듈을 포함하는,
    사운드 처리 장치.
  12. 제11항에 있어서,
    상기 획득 모듈은,
    상기 2개의 마이크로폰을 사용함으로써, 상기 현재 프레임의 상기 사운드 신호 S1 및 S2를 획득하도록 구체적으로 구성되고,
    상기 계산 모듈은,
    고속 푸리에 변환(FFT) 알고리즘을 사용함으로써 S1 및 S2에 기반하여 S1 및 S2의 파워 스펙트럼 P1 및 P2를 계산하고,
    공식
    Figure 112019053254463-pct00064
    을 사용함으로써 P1 및 P2에 기반하여 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이를 계산하도록 구체적으로 구성되되,
    P1은 상기 현재 프레임에서 상부-전방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내고, P2는 상기 현재 프레임에서 상부-후방 마이크로폰에 대응하는 파워 사운드 스펙트럼을 나타내며, P1 및 P2 각각은 N개의 요소를 갖는 벡터이고, 상기 N개의 요소는 상기 현재 프레임의 상기 사운드 신호에 대해 고속 푸리에 변환이 수행된 후에 획득되는 N개의 대응하는 주파수 포인트의 값이며, N은 1보다 큰 정수이고, ILDnow는 상기 N개의 주파수 포인트에 대응하는 양이 레벨 차이를 포함하는 벡터인,
    사운드 처리 장치.
  13. 제12항에 있어서,
    상기 판단 모듈은,
    제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 양이 레벨 차이를 사용함으로써 제2 사전설정된 알고리즘에 따라, 상기 제i 주파수 포인트에 대응하는 최대 참조 값 및 최소 참조 값을 계산 - 상기 제i 주파수 포인트는 상기 N개의 주파수 포인트 중 하나이고, i는 N보다 크지 않은 모든 양의 정수라고 가정됨 - 하고,
    상기 제i 주파수 포인트의 상기 최대 참조 값 및 상기 최소 참조 값 간의 차이가 상기 제i 주파수 포인트에 대응하는 제1 임계치보다 큰 경우, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제i 주파수 포인트 상에서 상기 사운드 소스 방향 판정 조건을 충족한다고 판정하거나,
    상기 최대 참조 값 및 상기 최소 참조 값 간의 차이가 상기 제i 주파수 포인트에 대응하는 제1 임계치보다 크지 않은 경우, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제i 주파수 포인트 상에서 상기 사운드 소스 방향 판정 조건을 충족하지 않는다고 판정하거나,
    상기 N개의 주파수 포인트 중의 M개의 주파수 포인트가 상기 사운드 소스 방향 판정 조건을 충족하는 경우, 상기 현재 프레임에 대한 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 사운드 소스 방향 판정 조건을 충족한다고 판정 - M은 N/2보다 크거나 같음 - 하도록 구체적으로 구성된,
    사운드 처리 장치.
  14. 제13항에 있어서,
    상기 판단 모듈은,
    제(i-1) 주파수 포인트에 대응하는 최대 참조 값을 획득 - 상기 제(i-1) 주파수 포인트는 상기 제i 주파수 포인트의 이전 주파수 포인트임 - 하고, 상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최대 참조 값보다 크지 않은 경우, 공식
    Figure 112019053254463-pct00065
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최대 참조 값을 계산하거나,
    상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최대 참조 값보다 큰 경우, 공식
    Figure 112019053254463-pct00066
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최대 참조 값을 계산하고,
    상기 제(i-1) 주파수 포인트에 대응하는 최소 참조 값을 획득하고, 상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최소 참조 값보다 큰 경우, 공식
    Figure 112019053254463-pct00067
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최소 참조 값을 계산하거나,
    상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이가 상기 제(i-1) 주파수 포인트에 대응하는 상기 최소 참조 값보다 크지 않은 경우, 공식
    Figure 112019053254463-pct00068
    을 사용함으로써, 상기 제i 주파수 포인트에 대응하는 상기 최소 참조 값을 계산하도록 구체적으로 구성되되,
    ILDnow는 상기 제i 주파수 포인트에 대응하는, 상기 2개의 마이크로폰 간의 상기 양이 레벨 차이를 나타내고, ILDmax는 제i 주파수 포인트에 대응하는 상기 최대 참조 값을 나타내며,
    Figure 112019053254463-pct00069
    은 제(i-1) 주파수 포인트에 대응하는 상기 최대 참조 값을 나타내고, ILDmin은 제i 주파수 포인트에 대응하는 상기 최소 참조 값을 나타내며,
    Figure 112019053254463-pct00070
    은 제(i-1) 주파수 포인트에 대응하는 상기 최소 참조 값을 나타내고,
    Figure 112019053254463-pct00071
    Figure 112019053254463-pct00072
    은 사전설정된 스텝 값을 나타내며,
    Figure 112019053254463-pct00073
    인,
    사운드 처리 장치.
  15. 제11항에 있어서,
    상기 판정 모듈은,
    제j 주파수 포인트에 대응하는 양이 레벨 차이가 상기 제j 주파수 포인트에 대응하는 제2 임계치보다 작은 경우, 후방 사운드 신호가 상기 제j 주파수 포인트에서 포함된다고 판정 - 상기 제j 주파수 포인트는 M개의 주파수 포인트 중 하나이고, j는 M보다 크지 않은 모든 양의 정수라고 가정됨 - 하거나,
    제j 주파수 포인트에 대응하는 상기 2개의 마이크로폰 간의 양이 레벨 차이가 제2 임계치보다 작지 않은 경우, 어떠한 후방 사운드 신호도 상기 제j 주파수 포인트에서 포함되지 않는다고 판정하도록 구체적으로 구성된,
    사운드 처리 장치.
  16. 제11항에 있어서,
    상기 필터링 모듈은,
    촬영을 수행하고 있는 상기 단말의 상기 카메라가 전면 카메라인 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-전방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러 내도록 상기 단말 내의 적응 필터를 제어하거나,
    촬영을 수행하고 있는 상기 단말의 상기 카메라가 후면 카메라인 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상부-후방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 후방 사운드 신호를 걸러 내도록 상기 단말 내의 적응 필터를 제어하도록 구체적으로 구성된,
    사운드 처리 장치.
  17. 제11항에 있어서,
    상기 단말이 하부에 제3 마이크로폰을 더 포함하고, 촬영을 수행하고 있는 상기 카메라가 전면 카메라인 경우, 상기 장치는 부차적 잡음 필터링 모듈을 더 포함하되, 상기 부차적 잡음 필터링 모듈은,
    상기 제3 마이크로폰 및 상부-전방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여 상기 현재 프레임의 상기 사운드 신호의 상하 방위각을 획득하고,
    상기 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정 - 상기 부차적 잡음 신호는 상기 전면 카메라의 정면에 위치되고 상기 전면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임 - 하고,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로 사용하고, 상기 상부-전방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 적응 필터를 제어하도록 구체적으로 구성된,
    사운드 처리 장치.
  18. 제11항에 있어서,
    상기 단말이 하부에 제3 마이크로폰을 더 포함하고, 촬영을 수행하고 있는 상기 카메라가 후면 카메라인 경우, 상기 장치는 부차적 잡음 필터링 모듈을 더 포함하되, 상기 부차적 잡음 필터링 모듈은,
    상기 제3 마이크로폰 및 상부-후방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여 상기 현재 프레임의 상기 사운드 신호의 상하 방위각을 획득하고,
    상기 상하 방위각이 제1 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정 - 상기 부차적 잡음 신호는 상기 후면 카메라의 정면에 위치되고 상기 후면 카메라의 촬영 범위를 넘어서 위치된 잡음 신호임 - 하고,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로 사용하고, 상기 상부-후방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 적응 필터를 제어하도록 구체적으로 구성된,
    사운드 처리 장치.
  19. 제17항에 있어서,
    상기 단말이 하부에 제4 마이크로폰을 더 포함하고, 상기 제3 마이크로폰 및 상기 제4 마이크로폰이 좌측에서 우측으로 상기 단말의 상기 하부에 배열되는 경우, 상기 부차적 잡음 필터링 모듈은,
    상기 제3 마이크로폰 및 상기 제4 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여 상기 현재 프레임의 상기 사운드 신호의 좌우 방위각을 획득하고,
    상기 좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하고,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상기 상부-후방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로서 사용하고, 상기 상부-전방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 상기 적응 필터를 제어하도록 구체적으로 구성된,
    사운드 처리 장치.
  20. 제18항에 있어서,
    상기 단말이 하부에 제4 마이크로폰을 더 포함하고, 상기 제3 마이크로폰 및 상기 제4 마이크로폰이 좌측에서 우측으로 상기 단말의 상기 하부에 배열되는 경우, 상기 부차적 잡음 필터링 모듈은,
    상기 제3 마이크로폰 및 상기 제4 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호에 대해 지연 차이 기반 측위를 수행하여 상기 현재 프레임의 상기 사운드 신호의 좌우 방위각을 획득하고,
    상기 좌우 방위각이 제2 사전설정된 각도보다 큰 경우, 상기 현재 프레임의 상기 사운드 신호가 부차적 잡음 신호를 포함한다고 판정하고,
    상기 현재 프레임의 상기 사운드 신호가 상기 부차적 잡음 신호를 포함한다고 판정되는 경우, 상기 상부-전방 마이크로폰에 의해 획득된 사운드 신호를 참조 신호로 사용하고, 상기 상부-후방 마이크로폰에 의해 획득된 상기 현재 프레임의 사운드 신호로부터 상기 부차적 잡음 신호를 걸러 내도록 상기 단말 내의 상기 적응 필터를 제어하도록 구체적으로 구성된,
    사운드 처리 장치.
  21. 단말 디바이스로서,
    마이크로폰, 카메라, 메모리, 프로세서, 버스를 포함하되, 상기 마이크로폰, 상기 카메라, 상기 메모리 및 상기 프로세서는 상기 버스를 사용하여 서로 연결되고,
    상기 마이크로폰은 상기 프로세서의 제어 하에 사운드 신호를 획득하도록 구성되며,
    상기 카메라는 상기 프로세서의 제어 하에 이미지 신호를 획득하도록 구성되고,
    상기 메모리는 컴퓨터 프로그램 및 명령어를 저장하도록 구성되며,
    상기 프로세서는 제1항 내지 제10항 중 어느 한 항에 따른 방법을 수행하기 위해, 상기 메모리에 저장된 상기 명령어 및 상기 컴퓨터 프로그램을 호출하도록 구성된,
    단말 디바이스.
  22. 제21항에 있어서,
    상기 단말 디바이스는 안테나 시스템을 더 포함하고, 상기 프로세서의 제어 하에, 상기 안테나 시스템은 무선 통신 신호를 수신하고 발신하여, 모바일 통신 네트워크와의 무선 통신을 구현하고, 상기 모바일 통신 네트워크는 GSM 네트워크, CDMA 네트워크, 3G 네트워크, FDMA 네트워크, TDMA 네트워크, PDC 네트워크, TACS 네트워크, AMPS 네트워크, WCDMA 네트워크, TDSCDMA 네트워크, WiFi 네트워크 및 LTE 네트워크 중 하나 이상을 포함하는,
    단말 디바이스.
KR1020197014937A 2016-10-27 2017-10-19 사운드 처리 방법 및 장치 KR102305066B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610970977.5A CN107026934B (zh) 2016-10-27 2016-10-27 一种声源定位方法和装置
CN201610970977.5 2016-10-27
PCT/CN2017/106905 WO2018077109A1 (zh) 2016-10-27 2017-10-19 一种声音处理方法和装置

Publications (2)

Publication Number Publication Date
KR20190067902A KR20190067902A (ko) 2019-06-17
KR102305066B1 true KR102305066B1 (ko) 2021-09-24

Family

ID=59525239

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197014937A KR102305066B1 (ko) 2016-10-27 2017-10-19 사운드 처리 방법 및 장치

Country Status (5)

Country Link
US (1) US10575096B2 (ko)
EP (1) EP3531674B1 (ko)
KR (1) KR102305066B1 (ko)
CN (1) CN107026934B (ko)
WO (1) WO2018077109A1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107026934B (zh) 2016-10-27 2019-09-27 华为技术有限公司 一种声源定位方法和装置
CN108089152B (zh) * 2016-11-23 2020-07-03 杭州海康威视数字技术股份有限公司 一种设备控制方法、装置及系统
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
CN109036448B (zh) * 2017-06-12 2020-04-14 华为技术有限公司 一种声音处理方法和装置
CN108269582B (zh) * 2018-01-24 2021-06-01 厦门美图之家科技有限公司 一种基于双麦克风阵列的定向拾音方法及计算设备
CN108519583A (zh) * 2018-04-11 2018-09-11 吉林大学 适用于各向异性二维板的声发射源定位方法
CN108254721A (zh) * 2018-04-13 2018-07-06 歌尔科技有限公司 一种机器人声源定位方法和机器人
CN110441738B (zh) * 2018-05-03 2023-07-28 阿里巴巴集团控股有限公司 车载语音定位的方法、系统、车辆和存储介质
CN108734733B (zh) * 2018-05-17 2022-04-26 东南大学 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法
CN108766457B (zh) 2018-05-30 2020-09-18 北京小米移动软件有限公司 音频信号处理方法、装置、电子设备及存储介质
CN108922555A (zh) * 2018-06-29 2018-11-30 北京小米移动软件有限公司 语音信号的处理方法及装置、终端
CN109754803B (zh) * 2019-01-23 2021-06-22 上海华镇电子科技有限公司 车载多音区语音交互系统及方法
CN111479180B (zh) * 2019-01-24 2022-04-29 Oppo广东移动通信有限公司 拾音控制方法及相关产品
CN110198372B (zh) * 2019-05-31 2020-10-09 华为技术有限公司 确定摄像组件伸缩状态的方法、可读存储介质及相关设备
CN111025233B (zh) * 2019-11-13 2023-09-15 阿里巴巴集团控股有限公司 一种声源方向定位方法和装置、语音设备和系统
CN110853657B (zh) * 2019-11-18 2022-05-13 北京小米智能科技有限公司 空间划分方法、装置及存储介质
CN113132863B (zh) * 2020-01-16 2022-05-24 华为技术有限公司 立体声拾音方法、装置、终端设备和计算机可读存储介质
CN111505583B (zh) * 2020-05-07 2022-07-01 北京百度网讯科技有限公司 声源定位方法、装置、设备和可读存储介质
CN111736797B (zh) * 2020-05-21 2024-04-05 阿波罗智联(北京)科技有限公司 负延时时间的检测方法、装置、电子设备及存储介质
CN111665422A (zh) * 2020-06-08 2020-09-15 郑州精铖电力设备有限公司 基于fpga的麦克风阵列非侵入式宽频声波实时成像检测系统
CN112129402B (zh) * 2020-08-21 2021-07-13 东风汽车集团有限公司 一种异响源探测装置
CN113640744A (zh) * 2021-08-20 2021-11-12 歌尔科技有限公司 声源定位方法及音频设备
CN115615624B (zh) * 2022-12-13 2023-03-31 杭州兆华电子股份有限公司 一种基于无人巡检装置的设备泄漏检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100110232A1 (en) 2008-10-31 2010-05-06 Fortemedia, Inc. Electronic apparatus and method for receiving sounds with auxiliary information from camera system
US20130054231A1 (en) * 2011-08-29 2013-02-28 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US20150245133A1 (en) * 2014-02-26 2015-08-27 Qualcomm Incorporated Listen to people you recognize

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7245726B2 (en) * 2001-10-03 2007-07-17 Adaptive Technologies, Inc. Noise canceling microphone system and method for designing the same
EP1443498B1 (en) 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US8345890B2 (en) * 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
CN101203063B (zh) * 2007-12-19 2012-11-28 北京中星微电子有限公司 麦克风阵列的噪声消除方法及装置
US8194882B2 (en) * 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8761412B2 (en) 2010-12-16 2014-06-24 Sony Computer Entertainment Inc. Microphone array steering with image-based source location
KR101761312B1 (ko) 2010-12-23 2017-07-25 삼성전자주식회사 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
JP5701142B2 (ja) * 2011-05-09 2015-04-15 株式会社オーディオテクニカ マイクロホン
US9197974B1 (en) * 2012-01-06 2015-11-24 Audience, Inc. Directional audio capture adaptation based on alternative sensory input
CN104981866B (zh) * 2013-01-04 2018-09-28 华为技术有限公司 用于确定立体声信号的方法
CN104715757A (zh) * 2013-12-13 2015-06-17 华为技术有限公司 一种终端声控操作方法及装置
CN104270489A (zh) * 2014-09-10 2015-01-07 中兴通讯股份有限公司 一种从多个麦克风中确定主副麦克风的方法和系统
CN107026934B (zh) * 2016-10-27 2019-09-27 华为技术有限公司 一种声源定位方法和装置
WO2018148095A1 (en) * 2017-02-13 2018-08-16 Knowles Electronics, Llc Soft-talk audio capture for mobile devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100110232A1 (en) 2008-10-31 2010-05-06 Fortemedia, Inc. Electronic apparatus and method for receiving sounds with auxiliary information from camera system
US20130054231A1 (en) * 2011-08-29 2013-02-28 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US20150245133A1 (en) * 2014-02-26 2015-08-27 Qualcomm Incorporated Listen to people you recognize

Also Published As

Publication number Publication date
EP3531674A4 (en) 2019-11-06
EP3531674A1 (en) 2019-08-28
US20190253802A1 (en) 2019-08-15
US10575096B2 (en) 2020-02-25
KR20190067902A (ko) 2019-06-17
EP3531674B1 (en) 2024-02-14
WO2018077109A1 (zh) 2018-05-03
CN107026934B (zh) 2019-09-27
CN107026934A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
KR102305066B1 (ko) 사운드 처리 방법 및 장치
US11094334B2 (en) Sound processing method and apparatus
CN110970057B (zh) 一种声音处理方法、装置与设备
US9668048B2 (en) Contextual switching of microphones
US9922663B2 (en) Voice signal processing method and apparatus
JP6400566B2 (ja) ユーザインターフェースを表示するためのシステムおよび方法
EP2882170B1 (en) Audio information processing method and apparatus
US9525938B2 (en) User voice location estimation for adjusting portable device beamforming settings
EP3576430B1 (en) Audio signal processing method and device, and storage medium
CN112802486B (zh) 一种噪声抑制方法、装置及电子设备
KR20170063618A (ko) 전자 장치 및 이의 잔향 제거 방법
US10453470B2 (en) Speech enhancement using a portable electronic device
CN113923294B (zh) 音频变焦的方法、装置、折叠屏设备及存储介质
CN104754446B (zh) 一种麦克风控制方法和装置
CN109218920B (zh) 一种信号处理方法、装置及终端
US11363187B2 (en) Focusing method and apparatus applied to terminal device, and terminal device
CN117153180A (zh) 声音信号处理方法、装置、存储介质及电子设备
CN114239293A (zh) 恒定束宽的波束形成器设计方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant