KR20100082239A - Device and method for stabilizing voice source and communication apparatus comprising the same device - Google Patents
Device and method for stabilizing voice source and communication apparatus comprising the same device Download PDFInfo
- Publication number
- KR20100082239A KR20100082239A KR1020090001629A KR20090001629A KR20100082239A KR 20100082239 A KR20100082239 A KR 20100082239A KR 1020090001629 A KR1020090001629 A KR 1020090001629A KR 20090001629 A KR20090001629 A KR 20090001629A KR 20100082239 A KR20100082239 A KR 20100082239A
- Authority
- KR
- South Korea
- Prior art keywords
- threshold
- threshold value
- value
- sound
- level
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000000087 stabilizing effect Effects 0.000 title claims abstract description 7
- 238000004891 communication Methods 0.000 title abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 5
- 230000006641 stabilisation Effects 0.000 claims description 41
- 238000011105 stabilization Methods 0.000 claims description 41
- 238000012935 Averaging Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
Description
본 발명은 통신기기에 관한 것으로, 특히 모바일 디바이스를 이용한 통신환경에서 디바이스로 입력되는 음원의 레벨을 안전화시키는 장치 및 방법에 관한 것이다.The present invention relates to a communication device, and more particularly, to an apparatus and method for securing a level of a sound source input to a device in a communication environment using a mobile device.
핸드폰과 같은 모바일 디바이스를 통해 소리(Voice or Sound)를 레코딩하거나 캡쳐하는 환경에서, 화자(Speaker) 또는 음원(Voice Source)과 소리가 입력되는 입력장치는 둘 다 고정되어 있지 않고 모두 움직이는 요소들이다. 일반적으로 입력장치는 모바일 디바이스 자체, 또는 모바일 디바이스에 내장된 음성 입력부로서, 예컨대 핸드-헬드 소자(Hand-held Device), 핸즈 프리 마이크(Hands Free Mic), 블루투스 헤드 셋(BT Head Set) 등의 다양한 모바일 디바이스들을 들 수 있겠다.In an environment in which a voice or sound is recorded or captured through a mobile device such as a mobile phone, a speaker or a voice source and an input device for inputting sound are both fixed and moving elements. In general, the input device is a mobile device itself or a voice input unit embedded in the mobile device, such as a hand-held device, a hands-free microphone, a Bluetooth headset, or a BT head set. Various mobile devices can be mentioned.
도 1은 화자와 모바일 디바이스 간의 공간 움직임을 보여주는 도면으로서, 도시된 바와 같이 화자와 모바일 디바이스 사이에 거리가 존재하며, 화자의 움직임 및 모바일 디바이스의 움직임에 따라 화자와 모바일 디바이스 사이에 거리는 계속 해서 변화하게 된다.FIG. 1 is a diagram illustrating spatial movement between a speaker and a mobile device. As shown, a distance exists between a speaker and a mobile device, and the distance between the speaker and the mobile device continuously changes according to the speaker's movement and the mobile device's movement. Done.
화자가 중심위치(Center, C)에 있을 때, 화자와 모바일 디바이스의 거리가 최적 거리가 되어 화자의 음성을 일정 음압으로 입력받을 수 있도록 모바일 디바이스가 설계되어 있다고 하자. 이때 모바일 디바이스는 고정되어 있다고 가정한다. 이러한 모바일 디바이스의 설계 환경에서, 화자의 공간 움직임에 의한 위치(A, B, C)에 따라 모바일 디바이스로 입력되는 음압이 달라지게 됨은 자명하다. 즉, 중심 위치(C)에서 왼쪽으로 이동한 위치(A)에 있을 때, 기준 레벨의 음압보다 작게 되고(Weak Signals), 오른쪽으로 이동한 위치(B)에 있을 때, 기준 레벨의 음압보다 크게된다(Loud Signals). 그에 따라, 화자의 말이 모바일 디바이스로 너무 크게 입력되거나 들을 수 없을 정도로 작게 입력되어 음성 신호의 명료도가 떨어져 통화 품질을 저하시킨다. 또한, 음성의 레코딩 환경에서도 역시 동일한 원인에 기인하여 레코딩의 질(quality)을 저하시키는 문제가 발생한다.When the speaker is in the center position (Center, C), the distance between the speaker and the mobile device is the optimum distance, so that the mobile device is designed to receive the speaker's voice at a constant sound pressure. In this case, it is assumed that the mobile device is fixed. In the design environment of such a mobile device, it is apparent that the sound pressure input to the mobile device varies according to the positions A, B, and C caused by the speaker's spatial movement. That is, when at the position A moved to the left from the center position C, it is lower than the sound pressure of the reference level (Weak Signals), and when it is at the position B moved to the right, it is larger than the sound pressure at the reference level. Loud Signals. Accordingly, the speaker's words are input too large or too small to be heard by the mobile device, resulting in a drop in the intelligibility of the voice signal, which degrades the call quality. In addition, a problem of degrading the quality of recording occurs due to the same cause also in the recording environment of voice.
앞서 모바일 디바이스가 고정되어 있음을 가정하여 설명하였지만, 모바일 디바이스도 움직이기 때문에 모바일 디바이스의 움직임에 의해서도 동일한 문제가 발생하게 된다.Although the foregoing description has been made on the assumption that the mobile device is fixed, the same problem occurs due to the movement of the mobile device because the mobile device also moves.
도 2a 및 2b는 일정한 음압 및 일정하지 않은 음압의 음성 신호를 보여주는 신호 파형도들로서, 도 1에 도시된 A, B, C의 위치에 따른 음성신호 대한 파형도들이다.2A and 2B are signal waveform diagrams illustrating a voice signal having a constant sound pressure and a non-constant sound pressure, which are waveform diagrams for voice signals according to positions A, B, and C of FIG. 1.
도 2a는 화자가 중심위치(C)에 있는 경우의 일정한 음압, 즉 기준 레벨의 정상적인 음성 신호에 대한 파형도이며, 이러한 경우는 모바일 디바이스를 통해 정상 적으로 레코딩하거나 통화할 수 있다. 여기서, V1, V2, V3, V4 등은 음압이 존재하는 음성 신호의 구간을 표시한다.FIG. 2A is a waveform diagram of a normal sound signal at a constant sound pressure, that is, a reference level when the speaker is in the center position C, and in this case, the mobile device may normally record or talk. Here, V1, V2, V3, V4 and the like indicate a section of the voice signal in which sound pressure exists.
도 2b는 화자가 위치를 A나 B로 이동한 경우의 음성 신호에 대한 파형도로서, 왼쪽 부분의 파형도가 B의 위치로 이동하여 음압이 커진 경우이고, 중앙부분과 오른쪽 부분이 A의 위치로 이동함에 따라 음압이 작아지거나 변형된 경우를 보여준다. 이와 같이 음압이 변하게 되면, 전술한 바와 같이 통화 품질이 나빠지거나 레코딩의 질이 저하되게 된다.2B is a waveform diagram of a speech signal when the speaker moves to a position A or B. The waveform diagram of the left part is moved to the position B and the sound pressure is increased. The sound pressure decreases or deforms as it moves to. If the sound pressure is changed in this way, the call quality deteriorates or the recording quality deteriorates as described above.
본 발명이 해결하고자 하는 과제는 모바일 디바이스를 이용한 통신환경에서 음원과 모바일 디바이스의 움직임에도 불구하고 입력되는 음성 신호의 음압을 일정한 레벨로 유지시키며, 또한 대상음과 암소음을 구별하여 처리함으로써, 통화 품질 및 레코딩의 질을 향상시킬 수 있는 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기를 제공하는 데에 있다.The problem to be solved by the present invention is to maintain the sound pressure of the input voice signal at a constant level, despite the movement of the sound source and the mobile device in a communication environment using a mobile device, and also by distinguishing between the target sound and the dark sound, call quality And a sound source level stabilization apparatus and method capable of improving the recording quality, and a communication device including the apparatus.
상기 과제를 달성하기 위하여, 본 발명은 입력 음원(input voice source)에 대해서 대상음(voice)과 암소음(background noise or silence)으로 구분하는 VAD(Voice Activity Detector); 상기 대상음에 대하여 에너지 레벨을 계산하여 문턱값(threshold)을 업데이트 하는 문턱값 업데이트부; 및 업데이트된 상기 문턱값에 기초하여 상기 대상음에 대한 동적(dynamic) 처리를 수행하여 상기 입력 음원의 레벨을 안정화하는 동적 처리부(dynamic processing unit);를 포함하는 음원 레벨 안정화 장치를 제공한다.In order to achieve the above object, the present invention provides a voice activity detector (VAD) for distinguishing the input voice (voice) and the background noise (background noise or silence) with respect to the input (source voice source); A threshold value updater configured to update an threshold by calculating an energy level with respect to the object sound; And a dynamic processing unit configured to stabilize the level of the input sound source by performing dynamic processing on the target sound based on the updated threshold value.
본 발명에 있어서, 상기 문턱값 업데이트부는, 상기 대상음에 대하여 프레임 별로 에너지 레벨을 계산하는 에너지 계산부; 계산된 상기 에너지 레벨을 상기 문턱값과 비교하는 비교기; 및 상기 비교기의 결과에 따라 상기 문턱값을 업데이트하는 문턱값 업데이터;를 포함할 수 있다. 또한, 상기 동적 처리부는 상기 대상음에 대한 프레임 별 상기 동적 처리를 위한 DRC(Dynamic Range Compressor), 및 상기 암소음에 대한 처리를 위한 게이트(gate)를 포함할 수 있다.In the present invention, the threshold value update unit, an energy calculation unit for calculating the energy level for each frame for the target sound; A comparator for comparing the calculated energy level with the threshold; And a threshold updater for updating the threshold value according to the result of the comparator. The dynamic processor may include a dynamic range compressor (DRC) for the dynamic processing for each frame of the target sound, and a gate for the dark sound.
상기 문턱값은 음압(sound pressure)이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하고, 상기 문턱값 업데이터는 엔벨로프 값으로 계산한 현재 프레임의 에너지 레벨을 제1 문턱값 및 제2 문턱값과 비교하여 제1 문턱값과 제2 문턱값을 계속 업데이트 하며, 상기 동적 처리부는 이와 같이 업데이트된 문턱값에 기초하여 상기 입력 음원의 레벨을 안정화할 수 있다.The threshold includes a first threshold that is a threshold for a low sound pressure and a second threshold that is a threshold for a high sound pressure, wherein the threshold updater is a current value calculated as an envelope value. The energy level of the frame is compared with the first threshold value and the second threshold value to continuously update the first threshold value and the second threshold value, and the dynamic processor adjusts the level of the input sound source based on the updated threshold value. It can stabilize.
본 발명은 또한 상기 과제를 달성하기 위하여, 음원이 입출력되는 입출력장치; 유무선 신호가 송수신되는 송수신장치; 상기 입출력 장치로 입력된 음원의 에너지 레벨에 기초하여 문턱값을 업데이트하고, 업데이트된 상기 문턱값에 기초하여 상기 음원을 동적(dynamic) 처리하여 상기 음원의 레벨을 안정화시키는 음원 레벨 안정화 장치; 상기 안정화 장치로부터 출력된 신호를 포함한 상기 입출력 장치를 통해 입출력된 신호 및 상기 송수신부를 통해 송수신된 신호를 처리하는 신호처리장치; 및 상기 입출력장치, 송수신장치, 안정화 장치 및 신호처리장치를 제어하는 제어부;를 포함하는 통신기기를 제공한다.The present invention also to achieve the above object, the input and output device that the sound source is input and output; A transceiver for transmitting and receiving wired and wireless signals; A sound source level stabilization device for updating a threshold value based on an energy level of a sound source input to the input / output device, and stabilizing the level of the sound source by dynamically processing the sound source based on the updated threshold value; A signal processing device for processing a signal input / output through the input / output device including a signal output from the stabilization device and a signal transmitted / received through the transmission / reception unit; And a control unit controlling the input / output device, the transmission / reception device, the stabilization device, and the signal processing device.
더 나아가 본 발명은 상기 과제를 달성하기 위하여, 음원이 입력되는 단계; 상기 음원을 VAD를 이용하여 대상음과 암소음으로 구분하는 단계; 상기 대상음에 대한 에너지 레벨을 계산하는 단계; 계산된 상기 에너지 레벨과 문턱값을 비교하는 단계; 비교 결과에 따라 상기 문턱값을 업데이트하는 단계; 및 업데이트된 상기 문턱값에 기초하여 DRC를 이용하여 상기 대상음을 동적 처리하는 단계;를 포함하는 음원 레벨 안정화 방법을 제공한다.Furthermore, the present invention, the sound source is input to achieve the above object; Dividing the sound source into a target sound and a dark sound using a VAD; Calculating an energy level for the object sound; Comparing the calculated energy level with a threshold; Updating the threshold value according to a comparison result; And dynamically processing the target sound by using the DRC based on the updated threshold value.
본 발명에 있어서, 상기 에너지 레벨은 프레임 별 엔벨로프 값으로 계산되며, 상기 에너지 레벨을 계산하는 단계는, 상기 음원의 현재 프레임에 대하여 에너지의 RMS 값을 계산하는 단계; 및 현재 프레임의 상기 RMS 값과 이전 프레임의 상기 엔벨로프 값을 가중평균하여 현재 프레임의 상기 엔벨로프 값을 계산하는 단계;를 포함할 수 있다. 또한, 상기 문턱값은 음압이 낮은 음에 대한 문턱값인 제1 문턱값 및 음압이 높은 음에 대한 문턱값인 제2 문턱값을 포함하고, 상기 비교단계는 현재 프레임의 상기 엔벨로프 값을 이전 프레임의 상기 제2 문턱값과 비교하는 단계, 및 현재 프레임의 상기 엔벨로프 값을 이전 프레임의 상기 제1 문턱값과 비교하는 단계를 포함하며, 상기 업데이트 단계에서, 현재 프레임의 상기 엔벨로프 값이 이전 프레임의 상기 제2 문턱값보다 크거나 또는 상기 제1 문턱값보다 작은 경우에 상기 제1 및 제2 문턱값을 업데이트 시킬 수 있다.In the present invention, the energy level is calculated as an envelope value per frame, and calculating the energy level comprises: calculating an RMS value of energy with respect to a current frame of the sound source; And calculating the envelope value of the current frame by weighted averaging the RMS value of the current frame and the envelope value of the previous frame. The threshold may include a first threshold, which is a threshold for a low sound pressure, and a second threshold, which is a threshold for a high sound pressure, and the comparing may include the envelope value of the current frame. And comparing the envelope value of the current frame with the first threshold value of a previous frame, wherein in the updating step, the envelope value of the current frame is equal to that of the previous frame. The first and second thresholds may be updated when they are larger than the second threshold or smaller than the first threshold.
본 발명에 따른 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기는 고정된 값의 기준 레벨 아닌 시간에 따라 변하는 에너지(Time Varying Energy)에 따라 적응적으로 변화되는 문턱값 및 그에 따른 기준 레벨을 이용하여 음성 신호의 음압 레벨을 조정함으로써, 공간 움직임을 가지고 입력되는 음성 신호의 명료도를 현저히 높일 수 있다.Sound source level stabilization apparatus and method according to the present invention, and a communication device including the device is a threshold value that is adaptively changed according to the time varying energy (Time Varying Energy), not a reference level of a fixed value and thus the reference level By adjusting the sound pressure level of the audio signal by using, it is possible to significantly increase the intelligibility of the audio signal input with spatial movement.
또한, VAD 및 게이트를 채용하여, 먼저 VAD를 통해 암소음(Background Noise)을 대상음으로부터 구별하고, 구별된 암소음에 대하여 게이트(Gate)를 통해 음압을 낮추거나 제거함으로써, 음성 신호의 명료도를 더욱 높일 수 있다.In addition, by employing VAD and gate, the background noise is first distinguished from the target sound through VAD, and the sound pressure is lowered or eliminated through the gate for the distinguished noise, thereby increasing the intelligibility of the voice signal. Can be.
이러한, 본 발명에 따른 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기는 모든 모바일 환경의 통신 및 레코딩 분야에 적용가능할 뿐 아니라, 모바일 디바이스 외에 화자의 위치가 움직일 수 있는 거치식 디바이스 환경에서의 통신 및 레코딩 분야에도 확장 적용 가능하다. The sound source level stabilization apparatus and method according to the present invention, and the communication device including the device is not only applicable to the communication and recording field of any mobile environment, but also in a stationary device environment in which the speaker's position can be moved in addition to the mobile device. It can also be extended to communication and recording applications.
이하에서는 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 이하의 설명에서 어떤 구성 요소가 다른 구성 요소에 연결된다고 기술될 때, 이는 다른 구성 요소와 바로 연결될 수도 있지만, 그 사이에 제3의 구성 요소가 개재될 수도 있다. 또한, 도면에서 각 구성 요소의 구조나 크기는 설명의 편의 및 명확성을 위하여 과장되었고, 설명과 관계없는 부분은 생략되었다. 도면상에서 동일 부호는 동일한 요소를 지칭한다. 한편, 사용되는 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description, when a component is described as being connected to another component, it may be directly connected to another component, but a third component may be interposed therebetween. In addition, in the drawings, the structure or size of each component is exaggerated for convenience and clarity of explanation, and parts irrelevant to the description are omitted. Like numbers refer to like elements in the figures. It is to be understood that the terminology used is for the purpose of describing the present invention only and is not used to limit the scope of the present invention.
도 3은 본 발명의 일 실시예에 따른 음원 레벨 안정화 장치를 포함한 통신기기에 대한 블럭 구조도이다.3 is a block diagram of a communication device including a sound source level stabilization device according to an embodiment of the present invention.
도 3을 참조하면, 본 실시예의 통신기기는 입출력 장치(100), 음원 레벨 안정화 장치(200), 신호처리장치(300), 송수신장치(400) 및 제어부(500)를 포함한다. 입출력장치(100)로는 음원(Voice Source)이 입출력되며, 예컨대, 이러한 입출력 장치는 마이크나 스피커 등이 될 수 있다. 음원 레벨 안정화 장치(200)는 입출력 장 치로 입력된 음원의 에너지 레벨에 기초하여 문턱값을 업데이트하고, 업데이트 된 상기 문턱값에 기초하여 상기 음원을 동적(dynamic) 처리한다. 음원 레벨 안정화 장치(200)에 대해서는 도 4 이하에서 상세히 기술한다.Referring to FIG. 3, the communication device of the present embodiment includes an input /
신호처리장치(300)는 입출력 장치를 통해 입출력된 신호 및 송수신부를 통해 송수신된 신호를 처리한다. 예컨대, 입출력 장치를 통해 입력된 음원 신호는 음원 레벨 안정화 장치에서 음원 레벨이 일정하게 유지되며, 이렇게 안정화된 음성 신호는 신호처리장치를 통해 레코딩되거나 출력 신호나 송신 신호 등으로 변환된다. 또한, 신호처리장치(300)는 유무선을 통해 수신된 유무선 신호를 복호화하거나 송신을 위해 엔코딩하는 등의 다양한 기능을 수행한다.The
송수신장치(400)는 유무선 신호를 송수신하며, 제어부(500)는 입출력장치(100), 음원 레벨 안정화 장치(200), 신호처리장치(300) 및 송수신장치(400)를 전반적으로 제어한다.The
본 실시예의 통신기기는 음원 레벨 안정화 장치를 포함함으로써, 입출력 장치를 통해 입력된 음원의 레벨을 일정한 음압으로 안정화시켜 레코딩 품질 및 송수신에서의 통화 품질을 향상시킬 수 있다.Since the communication device of the present embodiment includes a sound source level stabilization device, the level of the sound source input through the input / output device can be stabilized to a constant sound pressure to improve the recording quality and the call quality in transmission and reception.
도 4는 도 3의 통신기기에서 음원 레벨 안정화 장치 부분을 좀더 상세하게 보여주는 블럭 구조도이다.FIG. 4 is a block diagram illustrating in detail a portion of a sound source level stabilization device in the communication device of FIG. 3.
도 4를 참조하면, 본 실시예에 따른 음원 레벨 안정화 장치(200)는 VAD(210, Voice Activity Detector), 문턱값 업데이트부(250) 및 동적 처리부(260, dynamic processing unit)를 포함한다.Referring to FIG. 4, the sound source
VAD(210)은 입력된 음원에 대하여 대상음(voice)과 암소음(background noise or silence)으로 구분하여 분리하는 기능을 하며, 문턱값 업데이트부(250)는 입력된 대상음의 에너지 레벨을 프레임 별로 계산하고, 계산된 에너지 레벨에 따라 문턱값을 프레임 별로 계속 업데이트한다. 이러한 문턱값 업데이트를 수행하기 위해서, 문턱값 업데이트부(250)는 에너지 계산부(220), 비교기(230) 및 문턱값 업데이터(240)를 포함한다.The VAD 210 separates and separates the input sound source into a target voice and a background noise or silence, and the threshold
에너지 계산부(220)는 대상음에 대하여 프레임 별로 에너지 레벨을 평균제곱근(Root Mean Square: RMS) 값으로 계산하며, 또한, 문턱값과의 비교를 위해 식(1)과 같이 프레임 별 에너지 레벨을 엔벨로프 값으로서 계산한다. 각 프레임 별 엔벨로프 값의 계산식은 다음과 같다.The
Env(n)=(1-α) * rms(n) + α* Env(n-1) ............식(1)Env (n) = (1-α) * rms (n) + α * Env (n-1) ...... Equation (1)
여기서, Env(n)은 현재 프레임의 엔벨로프 값이며, Env(n-1)은 이전 프레임의 엔벨로프 값이다. α는 가중 평균을 위한 변수로서, 0부터 1 사이의 값을 가지며, rms(n)는 현재 프레임 에너지의 RMS 값을 의미한다. 한편, 최초 프레임의 엔벨로프 값, 즉 Env(1)은 최초 프레임의 RMS 값, 즉 rms(1)과 동일하다. 이와 같이 프레임 별로 엔벨로프 값을 계산하는 이유는 모바일 또는 화자의 이동에 의해 시간에 따라 변하는 에너지 레벨(Time varying energy)을 정확히 캡쳐하여 문턱값 업데이트에 이용하기 위함이다.Here, Env (n) is the envelope value of the current frame, and Env (n-1) is the envelope value of the previous frame. α is a variable for the weighted average, and has a value between 0 and 1, and rms (n) represents the RMS value of the current frame energy. Meanwhile, the envelope value of the first frame, that is, Env (1), is equal to the RMS value of the first frame, that is, rms (1). The reason for calculating the envelope value for each frame is to accurately capture the time varying energy that changes with time due to the mobile or the speaker's movement, and use it for updating the threshold.
비교기(230)는 프레임 별로 문턱값과 에너지 레벨에 대한 엔벨로프 값을 비교한다. 이때, 비교되는 문턱값은 이전 프레임에 의해 업데이트된 문턱값이며, 엔벨로프 값은 현재의 프레임에 대한 엔벨로프 값이다. 문턱값은 문턱값 업데이터에 의해서 시간에 따라 계속 변하는 값으로서, 음압(sound pressure)이 낮은 음에 대한 문턱값인 제1 문턱값(Weak Threshold)과 음압이 높은 음에 대한 문턱값인 제2 문턱값(Loud Threshold)을 포함한다. 그에 대한 내용은 도 7부분에서 좀더 상세히 기술한다.The
문턱값 업데이터(240)는 비교기(230)의 결과에 따라, 제1 및 제2 문턱값을 업데이트한다. 업데이트는 여러 가지 평균 기법들 중 어느 하나의 평균법을 사용하여 수행할 수 있다. 예컨대, 앞서 α와 같은 개념의 변수 β 및 γ를 이용한 가중평균을 이용하여 제1 및 제2 문턱값을 업데이트 할 수 있다. 물론 다른 평균 기법, 예컨대, 산술 평균, 및 기하 평균 등을 이용하여 업데이트할 수도 있음은 물론이다. 이러한 문턱값의 업데이트에 관한 내용도 도 7부분에서 좀더 상세히 설명한다.The
한편, 동적 처리부(260)는 게이트(262, Gate) 및 DRC(264, Dynamic Range Compressor)를 포함한다. DRC(264)는 업데이트된 문턱값들에 기초하여 프레임 별로 대상음들에 대한 동적 처리를 수행한다. 예컨대, 제1 문턱값보다 낮은 음압의 대상음에 대해서는 제1 문턱값 수준으로 음압을 높이며, 제2 문턱값보다 높은 음압의 대상음에 대해서는 제2 문턱값 수준으로 음압을 낮춤으로써, 대상음에 대한 음압을 안정화시킨다. 게이트(262)는 VAD(210)를 통해 암소음(silence)으로 분류된 신호에 대하여 음압을 낮추어 암소음을 줄이거나 제거하게 된다.Meanwhile, the
본 실시예의 음원 레벨 안정화 장치는 고정된 문턱값을 사용하는 것이 아니라 문턱값 업데이트부에서 문턱값을 시간에 따라 동적으로 업데이트하고, 동적 처리부가 그러한 업데이트된 문턱값을 기초로 대상음의 음압을 조정함으로써, 모바일 환경에 적응하여 음성 신호의 음압을 일정한 레벨로 안정적으로 유지시킬 수 있다. 또한 대상음과 암소음을 구별하여 처리함으로써, 암소음에 의한 대상음의 영향을 배제시킬 수 있다. 그에 따라, 모바일 통신기기에서의 통화 품질 및 레코딩의 질을 현저히 향상시킬 수 있다.The sound source level stabilization device of the present embodiment does not use a fixed threshold value, but dynamically updates the threshold value with time in the threshold update unit, and the dynamic processor adjusts the sound pressure of the target sound based on the updated threshold value. Accordingly, the sound pressure of the voice signal can be stably maintained at a constant level by adapting to a mobile environment. Furthermore, by distinguishing and processing the object sound and the noise, the influence of the object sound due to the noise can be eliminated. Accordingly, the call quality and recording quality in the mobile communication device can be significantly improved.
도 5는 본 발명의 다른 실시예에 따른 음원 레벨 안정화 방법을 보여주는 흐름도로서, 이해의 편의를 위해 도 3 및 도 4를 참조하여 설명한다.5 is a flowchart illustrating a sound source level stabilization method according to another exemplary embodiment of the present invention, which will be described with reference to FIGS. 3 and 4 for convenience of understanding.
도 5를 참조하면, 본 실시예의 음원 레벨 안정화 방법은 먼저, 음원이 마이크 등의 입출력장치(100)를 통해 입력된다(S110). 음원이 입력되면, 음원 레벨 안정화 장치(200)의 VAD(210)가 대상음(Voice)인지 암소음(Silence)인지를 판단한다(S120). 대상음인 경우에 에너지 계산부(220)에서 대상음의 현재 프레임에 대한 에너지 레벨(Energy Level)을 계산한다(S130). 에너지 계산은 RMS 값으로 계산하며, 또한 식(1)과 같이 엔벨로프 값으로서 계산한다.Referring to FIG. 5, in the sound source level stabilization method of the present embodiment, first, a sound source is input through an input /
그 후, 계산된 에너지 레벨은 비교기(230)에서 제2 문턱값(Loud Threshold)과 비교하고(S140) 제2 문턱값보다 큰 경우에는 제2 문턱값을 업데이트한다(S160a). 한편, 제2 문턱값보다 작거나 같은 경우에는 제1 문턱값(Weak Threshold)과 비교하고(S150), 제1 문턱값보다 작은 경우에 제1 문턱값을 업데이트한다(S160b). 제1 및 제2 문턱값의 업데이트에 대해서는 도 7에서 좀더 상세히 기 술한다. 한편, 여기서, 제2 문턱값을 먼저 비교하고 제1 문턱값으로 비교하는 과정을 거쳤지만, 그 반대로 제1 문턱값을 먼저 비교하고 그 후 제2 문턱값과 비교하는 과정을 통해 문턱값의 업데이트를 수행할 수 있음은 물론이다.Thereafter, the calculated energy level is compared with the second threshold value (Loud Threshold) in the comparator 230 (S140), and if it is larger than the second threshold value, the second threshold value is updated (S160a). On the other hand, if less than or equal to the second threshold value is compared with the first threshold (Weak Threshold) (S150), if less than the first threshold value is updated (S160b). Update of the first and second thresholds will be described in more detail with reference to FIG. 7. On the other hand, here, the second threshold value is compared first and compared to the first threshold value, but on the contrary, the first threshold value is first compared and then the second threshold value is updated through the process of updating the threshold value. Of course it can be done.
제1 및 제2 문턱값의 업데이트가 끝나면 업데이트된 제1 및 제2 문턱값은 다음 프레임의 에너지 레벨과 비교를 위한 제1 및 제2 문턱값으로 사용되며(점선의 화살표), 또한 DRC(264)에 기준 레벨로서 적용되어, DRC가 대상음을 일정한 음압으로 조정하는 데에 이용된다(S170).After the first and second thresholds have been updated, the updated first and second thresholds are used as first and second thresholds for comparison with the energy level of the next frame (dashed arrows), and also with
DRC(264)에 의한 대상음에 대한 조정이 끝나면 안정화된 음성을 출력한다(S190). 한편, 제1 문턱값보다 크거나 같은 경우 그리고 제2 문턱값보다 작거나 같은 경우, 즉 제1 문턱값에서 제2 문턱값 사이의 에너지 레벨을 갖는 대상음에 대해서는 문턱값 업데이트를 수행하지 않으며, 또한 DRC도 적용하지 않고 입력된 그대로의 대상음을 안정화된 음성으로서 출력한다(S190). 제1 문턱값에서 제2 문턱값 사이의 에너지 레벨을 갖는 대상음은 이미 안정화된 음압의 음성으로서 입력된 경우이므로 DRC를 통해 조정이 불필요하기 때문이다.After adjusting the target sound by the
한편, 암소음으로 분류된 신호는 게이트(262)로 입력되어 게이트에 의한 조절이 수행된다(S180). 즉, 게이트는 암소음에 대하여 음압을 낮추어 암소음을 줄이거나 제거하는 기능을 한다. 이러한 게이트(262)에 의한 조절이 끝나면 암소음도 역시 안정화된 음성으로서 출력되게 된다(S190).On the other hand, the signal classified as the dark noise is input to the
도 6a 및 6b는 본 발명의 음원 레벨 안정화 방법에 따라 음원 레벨을 안정화하는 원리를 보여주는 신호 파형도들로서, 이해의 편의를 위해 도 5를 참조하여 설 명한다.6A and 6B are signal waveform diagrams illustrating a principle of stabilizing a sound source level according to the sound source level stabilization method of the present invention, which will be described with reference to FIG. 5 for convenience of understanding.
도 6a를 참조하면, 먼저 음원이 입출력장치로 입력되면(S110), 음원 레벨 안정화 장치의 VAD가 대상음과 암소음을 구별한다(S120). 도시된 바와 같이 V로 표시된 부분이 대상음에 대한 구간이고 S로 표시된 부분이 암소음에 대한 구간이다. 따라서, 대상음으로 판단된 부분은 문턱값 업데이트부에 입력되어, 에너지 계산(S130), 문턱값과 비교(S140, S150), 문턱값 업데이트(S160a, S160b) 및 DRC 적용(S170) 등이 수행되어 안정화된 음압을 갖는 음성으로서 조정된다. 또한, 암소음으로 판단된 부분은 게이트에 입력되어 음압이 낮춰지거나 제거되게 된다.Referring to FIG. 6A, when a sound source is input to an input / output device (S110), the VAD of the sound source level stabilization device distinguishes a target sound from a dark sound (S120). As shown, the portion marked V is the section for the object sound, and the portion marked S is the section for the dark sound. Therefore, the part determined as the target sound is input to the threshold value update unit, and the energy calculation (S130), the comparison with the threshold values (S140, S150), the threshold value update (S160a, S160b) and the DRC application (S170) are performed. And as a voice having a stabilized sound pressure. In addition, the part judged as the dark sound is input to the gate so that the sound pressure is lowered or removed.
도 6b는, DRC를 통해 음성의 음압을 조절하는 모습을 보여주는데, 상부로 음압에 대한 파형도가 그려져 있고, 하부로 평균 음압 레벨(SPL: Sound Pressure Level)이 도시되어 있다. 여기서 타겟(Target)은 앞서 전술한 제1 및 제2 문턱값 중 어느 하나일 수도 있고, 아니면 제1 및 제2 문턱값을 소정 계산식에 대입하여 구한 새로운 기준값일 수 있다. 예컨대, 타겟은 제1 및 제2 문턱값의 산술 평균, 가중 평균 또는 기하 평균 등의 평균값으로서 계산될 수 있다.FIG. 6B shows a method of adjusting the sound pressure of the voice through the DRC. The waveform diagram of the sound pressure is shown in the upper portion, and the average sound pressure level (SPL) is shown in the lower portion. The target may be any one of the above-described first and second threshold values, or may be a new reference value obtained by substituting the first and second threshold values into a predetermined formula. For example, the target may be calculated as an average value such as an arithmetic mean, weighted average, or geometric mean of the first and second thresholds.
도시한 바와 같이 DRC는 도 1의 B 위치에서 입력된 타겟보다 높은 음압에 대해서는 타겟 레벨로 음압을 낮춤으로써, 도 1의 A 위치에서 입력된 타겟보다 낮은 음압에 대해서는 타겟 레벨로 음압을 높임으로써 입력되는 음원의 음압을 조절한다. 한편, 도 1의 C 위치에서 입력된 타겟과 동일한 기준 음압에 대해서는 음압을 조절할 필요가 없음으로 DRC를 통한 조절이 불필요하다. 한편, DRC를 이용한 대상음에 대한 동적 처리는 프레임 단위로 이루어지게 된다.As shown, the DRC lowers the sound pressure to the target level for the sound pressure higher than the target input at the position B of FIG. 1, and increases the sound pressure to the target level for the sound pressure lower than the target input at the position A of FIG. 1. Adjust the sound pressure of the sound source. On the other hand, it is not necessary to adjust the sound pressure for the same reference sound pressure as the target input in the position C of FIG. Meanwhile, dynamic processing of the target sound using the DRC is performed in units of frames.
도 7은 도 5의 흐름도에서 에너지 레벨 계산과 문턱값 업데이트 단계를 좀더 상세하게 보여주는 흐름도이다.FIG. 7 is a flowchart illustrating in more detail an energy level calculation and a threshold value updating step in the flowchart of FIG. 5.
도 7을 참조하면, 먼저, 도 5의 에너지 계산 단계(S130)는 먼저, 현재 프레임의 에너지 레벨을 RMS 값으로 계산하고(S130a), 다음 계산된 RMS 값에 기초하여 현재 프레임에 대한 엔벨로프 값을 계산한다(S130b). 엔벨로프 계산식은 전술한 식(1)과 동일하다.Referring to FIG. 7, first, the energy calculation step (S130) of FIG. 5 first calculates an energy level of a current frame as an RMS value (S130a), and then calculates an envelope value for the current frame based on the calculated RMS value. Calculate (S130b). The envelope calculation formula is the same as that of Formula (1) mentioned above.
다음 계산된 현재 프레임의 엔벨로프 값을 이전 프레임의 제2 문턱값과 비교한다(S140). 이때 현재 프레임의 엔벨로프 값이 Env(n)로 표시되고, 이전 프레임의 제2 문턱값은 이전 프레임의 엔벨로프 값에 의해 업데이트된 문턱값이므로, Lthr(n-1)로 표시된다. 현재 프레임의 엔벨로프 값이 이전 프레임의 제2 문턱값보다 크면, 제2 문턱값에 대한 업데이트를 수행한다(S160a). 제2 문턱값에 대한 업데이트는 다음과 같다. The envelope value of the next calculated current frame is compared with the second threshold of the previous frame (S140). In this case, the envelope value of the current frame is represented by Env (n), and the second threshold value of the previous frame is represented by L thr (n-1) because the threshold value is updated by the envelope value of the previous frame. If the envelope value of the current frame is larger than the second threshold of the previous frame, the second threshold is updated (S160a). The update to the second threshold is as follows.
먼저, 현재 프레임의 RMS 값과 이전 프레임의 제2 문턱값을 β을 이용하여 가중 평균하고 그 값을 현재 프레임의 제2 문턱값으로 임시 설정하다(S162a). 식으로 표현하면, 식(2)와 같다.First, a weighted average of the RMS value of the current frame and the second threshold value of the previous frame using β is temporarily set to the second threshold value of the current frame (S162a). Expressed in formula, it is the same as formula (2).
Lthr(n) = ( 1 - β ) * rms(n) + β * Lthr(n-1)............식(2)L thr (n) = (1-β) * rms (n) + β * L thr (n-1) ............ Equation (2)
다음, 이전 프레임의 제2 문턱값과 임시 설정된 현재 프레임의 제2 문턱값 중 큰 값을 현재 프레임의 제2 문턱값으로 설정하여 제2 문턱값을 업데이트 한다(S164a). 식으로 표현하면, 식(3)와 같다.Next, the second threshold value is updated by setting a larger value between the second threshold value of the previous frame and the second threshold value of the temporarily set current frame as the second threshold value of the current frame (S164a). Expressed in formula, it is the same as formula (3).
Lthr(n) = MAX(Lthr(n-1), Lthr(n))..........................식(3)L thr (n) = MAX (L thr (n-1), L thr (n)) ......................... 3)
이와 같이 업데이트 된 제2 문턱값은 다음 프레임의 엔벨로프 값과 비교를 위해 사용된다. 한편, 제2 문턱값의 임시 설정을 위해서 가중 평균이 이용되었지만, 산술 평균, 기하 평균 등 다양한 평균 기법들이 이용될 수 있음은 물론이다. 또한, 적용 프레임도 현재 프레임(n)과 이전 프레임(n-1)에 한정되지 않고, n-2, n-3, … 등 다양한 프레임에 대해서 상황에 따라 확장 가능하다.The updated second threshold is used for comparison with the envelope value of the next frame. Meanwhile, although a weighted average is used for the temporary setting of the second threshold value, various average techniques such as arithmetic mean and geometric mean may be used. Also, the applied frame is not limited to the current frame n and the previous frame n-1, and n-2, n-3,... It can be extended to various frames according to the situation.
한편, 현재 프레임의 엔벨로프 값이 이전 프레임의 제2 문턱값보다 작거나 같으면, 현재 프레임의 엔벨로프 값을 이전 프레임의 제1 문턱값과 비교한다(S150). 이전 프레임의 제1 문턱값은 이전 프레임의 제2 문턱값과 비슷하게 Wthr(n-1)로 표시된다. 현재 프레임의 엔벨로프 값이 이전 프레임의 제1 문턱값보다 작은 경우에, 제1 문턱값에 대한 업데이트를 수행한다(S160b). 제1 문턱값에 대한 업데이트는 다음과 같다.On the other hand, if the envelope value of the current frame is less than or equal to the second threshold value of the previous frame, the envelope value of the current frame is compared with the first threshold value of the previous frame (S150). The first threshold of the previous frame is represented by W thr (n-1), similar to the second threshold of the previous frame. When the envelope value of the current frame is smaller than the first threshold value of the previous frame, the first threshold value is updated (S160b). The update to the first threshold is as follows.
먼저, 현재 프레임의 RMS 값과 이전 프레임의 제1 문턱값을 γ을 이용하여 가중 평균하고 그 값을 현재 프레임의 제1 문턱값으로 임시 설정하다(S162b). 식으로 표현하면, 식(4)와 같다.First, a weighted average of the RMS value of the current frame and the first threshold value of the previous frame using γ is temporarily set as the first threshold value of the current frame (S162b). Expressed in formula, it is the same as formula (4).
Wthr(n) = ( 1 - γ ) * rms(n) + γ * Wthr(n-1)............식(4)W thr (n) = (1-γ) * rms (n) + γ * W thr (n-1) ............ Equation (4)
다음, 이전 프레임의 제1 문턱값과 임시 설정된 현재 프레임의 제1 문턱값을 평균하여 현재 프레임의 제1 문턱값으로 설정하여 제1 문턱값을 업데이트 한다(S164b). 식으로 표현하면, 식(5)와 같다.Next, the first threshold value of the current frame and the temporarily set first threshold value of the current frame are averaged to be set as the first threshold value of the current frame, and the first threshold value is updated (S164b). Expressed by the formula, it is the same as the formula (5).
Wthr(n) = Average(Wthr(n-1), Wthr(n))..........................식(5)W thr (n) = Average (W thr (n-1), W thr (n)) ..................... 5)
이와 같이 업데이트 된 제1 문턱값은 다음 프레임의 엔벨로프 값과 비교를 위해 사용됨은 물론이다. 또한, 제1 문턱값의 임시 설정을 위해서 가중 평균이 이용되었지만, 제2 문턱값과 유사하게 산술 평균, 기하 평균 등 다양한 평균 기법들이 이용될 수 있음은 물론이다. 또한, 제2 문턱값에 대해서 설명한 바와 동일하게 적용 프레임도 현재 프레임(n)과 이전 프레임(n-1)에 한정되지 않고, n-2, n-3, … 등의 다양한 프레임에 대해서 상황에 따라 확장 가능하다.The updated first threshold value is used for comparison with the envelope value of the next frame. In addition, although a weighted average is used for temporarily setting the first threshold value, various average techniques such as arithmetic mean and geometric mean may be used similarly to the second threshold value. In addition, similarly to the description of the second threshold, the applied frame is not limited to the current frame n and the previous frame n-1, and n-2, n-3,... It can be extended to various frames such as according to the situation.
제1 및 제2 문턱값에 대한 업데이트 과정이 종료되면, 업데이트된 제1 및 제2 문턱값을 기초로 하여 DRC에서 대상음에 대한 동적 처리가 수행된다(S170). 이때 동적 처리는 제1 및 제2 문턱값을 기초로 각각 수행될 수도 있지만, 제1 및 제2 문턱값을 조합하여 다른 기준 값을 설정하여 그 기준 값에 맞춰서 동적 처리가 수행 되도록 할 수도 있다. When the update process for the first and second thresholds is completed, the dynamic processing for the target sound is performed in the DRC based on the updated first and second threshold values (S170). In this case, the dynamic processing may be performed based on the first and second threshold values, respectively, but a combination of the first and second threshold values may be set to set another reference value so that the dynamic processing may be performed according to the reference value.
한편, 비교 단계를 거쳐서, 제2 문턱값보다 작거나 동일한 경우나, 제1 문턱값보다 크거나 동일한 경우, 즉 제1 문턱값에서 제2 문턱값까지의 에너지 레벨을 갖는 대상음의 경우는 동적 처리가 불필요하므로 DRC에 의한 동적 처리 과정을 거치지 않는다. On the other hand, through the comparison step, the case of less than or equal to the second threshold, or greater than or equal to the first threshold, i.e., the target sound having an energy level from the first threshold to the second threshold is dynamic. Since the processing is unnecessary, it does not go through the dynamic processing by the DRC.
도 8은 본 발명의 음원 레벨 안정화 방법에 따른 입출력 동적 레인지를 보여주는 그래프이다. 8 is a graph showing the input and output dynamic range according to the sound source level stabilization method of the present invention.
도 8은 음원 레벨 안정화 방법에서의 DRC와 게이트의 적용에 따른 음압의 입출력 동적 레인지(Dynamic Range)를 보여주고 있는데, x축이 입력 동적 레인지를, 그리고 y축이 출력 동적 레인지를 나타낸다. 8 illustrates an input / output dynamic range of sound pressure according to the application of DRC and gate in the sound source level stabilization method, wherein the x-axis represents the input dynamic range and the y-axis represents the output dynamic range.
전술한 바와 같이 입력된 음원은 VAD에 의해 대상음(Voice)과 암소음(Silence) 신호로 분류되고 대상음은 문턱값 업데이트부의 에너지 계산부에서 에너지의 엔벨로프 갑이 계산되고, 계산된 엔벨로프 값과 제1 및 제2 문턱값이 비교기에서 비교되어 음압이 낮은 신호(Weak Signals), 높음 신호(Loud Signals), 그리고 기준 레벨의 신호(Normal Signals)로 구분이 된다. 이와 같이 구분되는 네 가지의 신호에 대해 입출력 동적 레인지의 변화가 그래프로 표시된다.As described above, the input sound source is classified into a voice and a silence signal by the VAD, and the target sound is calculated by calculating the envelope value of energy in the energy calculator of the threshold update unit. The first and second thresholds are compared in a comparator and divided into weak signals, loud signals, and reference signals. The change of the input / output dynamic range is displayed as a graph for the four signals classified as described above.
기준 레벨의 신호는 동적 처리를 할 필요가 없으므로 음원 신호가 DRC나 Gate를 거치지 않고 그대로 패스하여 음원 레벨 안정화 장치로 출력되게 된다. 그에 따라, 입력 동적 레인지(X1)와 출력 동적 레인지(X2)는 변화가 없어 동일하다. 다음, 암소음(Silence)의 경우는 게이트가 적용되어 입력 동적 레인지(S1)가 더 넓 은 폭의 출력 동적 레인지(S2)로 조정된다. 도시된 바와 같이 게이트는 소정 레벨 이하의 음압에 대해서는 제거(Cut)할 수 있다. Since the signal of the reference level does not need to be processed dynamically, the sound source signal passes through the DRC or Gate without being passed through and is output to the sound source level stabilization device. Accordingly, the input dynamic range X1 and the output dynamic range X2 are the same without change. Next, in the case of silence, a gate is applied to adjust the input dynamic range S1 to a wider output dynamic range S2. As shown, the gate may be cut for a sound pressure below a predetermined level.
한편, 음압이 낮은 신호(Weak Signals)의 경우는 DRC가 적용되어 입력 동적 레인지(W1)가 좁은 폭의 출력 동적 레인지(W2)로 줄어들게 된다. 여기서, 출력 동적 레인지(W2)의 감소는 낮은 신호를 기준 레벨로 맞추기 위해 낮은 신호에 DRC를 적용하여 낮은 신호의 음압을 소정 레벨만큼 높임으로써 구현된다. 마지막으로, 음압이 높은 신호(Loud Signals)의 경우도 DRC가 적용되어 입력 동적 레인지(L1)가 좁은 폭의 출력 동적 레인지(L2)로 줄어들게 된다. 여기서, 출력 동적 레인지(L2)의 감소는 높은 신호를 기준 레벨로 맞추기 위해 높은 신호에 DRC를 적용하여 높은 신호의 음압을 소정 레벨만큼 낮춤으로써 구현된다.On the other hand, in the case of low sound pressure signals (weak signals), the DRC is applied to reduce the input dynamic range W1 to the narrow output dynamic range W2. Here, the reduction of the output dynamic range W2 is implemented by applying the DRC to the low signal to raise the sound pressure of the low signal by a predetermined level to adjust the low signal to the reference level. Finally, in the case of loud signals, the DRC is applied to reduce the input dynamic range L1 to the narrow output dynamic range L2. Here, the reduction of the output dynamic range L2 is implemented by lowering the sound pressure of the high signal by a predetermined level by applying DRC to the high signal to set the high signal to the reference level.
본 그래프에서 게이트나 및 DRC를 통해 음원의 출력 동적 레인지를 조정하는 것을 도시하고 있는데, 게이트 및 DRC는 그 목적을 위해 다양한 구조로 설계가 가능하다. 그에 따라, 그래프에서 꺾여지는 경계부분을 좀더 부드러운 레벨 변위를 위해 곡선형태(soft knee)가 되도록 할 수도 있다. 게이트나 DRC는 음향 기술 분야에서 이미 사용되는 장치 또는 방법이므로 그에 대한 자세한 설명은 생략한다.In this graph, the output dynamic range of the sound source is adjusted through the gate and the DRC. The gate and the DRC can be designed in various structures for the purpose. As a result, the curved boundary in the graph can be made soft knee for smoother level displacement. Since the gate or the DRC is a device or method already used in the acoustic technology field, a detailed description thereof will be omitted.
지금까지, 본 발명을 도면에 표시된 실시예를 참고로 설명하였으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.So far, the present invention has been described with reference to the embodiments shown in the drawings, which are merely exemplary, and those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. . Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.
도 1은 화자와 모바일 디바이스 간의 공간 움직임을 보여주는 도면이다.1 is a diagram illustrating spatial movement between a speaker and a mobile device.
도 2a 및 2b는 일정한 음압 및 일정하지 않은 음압의 음성 신호를 보여주는 신호 파형도들이다.2A and 2B are signal waveform diagrams showing voice signals with a constant sound pressure and a non-constant sound pressure.
도 3은 본 발명의 일 실시예에 따른 음원 레벨 안정화 장치를 포함한 통신기기에 대한 블럭 구조도이다.3 is a block diagram of a communication device including a sound source level stabilization device according to an embodiment of the present invention.
도 4는 도 3의 통신기기에서 음원 레벨 안정화 장치 부분을 좀더 상세하게 보여주는 블럭 구조도이다.FIG. 4 is a block diagram illustrating in detail a portion of a sound source level stabilization device in the communication device of FIG. 3.
도 5는 본 발명의 다른 실시예에 따른 음원 레벨 안정화 방법을 보여주는 흐름도이다.5 is a flowchart illustrating a sound source level stabilization method according to another embodiment of the present invention.
도 6a 및 6b는 본 발명의 음원 레벨 안정화 방법에 따라 음원 레벨을 안정화하는 원리를 보여주는 신호 파형도들이다.6A and 6B are signal waveform diagrams showing a principle of stabilizing a sound source level according to the sound source level stabilization method of the present invention.
도 7은 도 5의 흐름도에서 에너지 레벨 계산과 문턱값 업데이트 단계를 좀더 상세하게 보여주는 흐름도이다.FIG. 7 is a flowchart illustrating in more detail an energy level calculation and a threshold value updating step in the flowchart of FIG. 5.
도 8은 본 발명의 음원 레벨 안정화 방법에 따른 입출력 동적 레인지를 보여주는 그래프이다. 8 is a graph showing the input and output dynamic range according to the sound source level stabilization method of the present invention.
Claims (21)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090001629A KR101148771B1 (en) | 2009-01-08 | 2009-01-08 | Device and method for stabilizing voice source and communication apparatus comprising the same device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090001629A KR101148771B1 (en) | 2009-01-08 | 2009-01-08 | Device and method for stabilizing voice source and communication apparatus comprising the same device |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100082239A true KR20100082239A (en) | 2010-07-16 |
KR101148771B1 KR101148771B1 (en) | 2012-05-25 |
Family
ID=42642414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090001629A KR101148771B1 (en) | 2009-01-08 | 2009-01-08 | Device and method for stabilizing voice source and communication apparatus comprising the same device |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101148771B1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261143A (en) * | 2018-12-03 | 2020-06-09 | 杭州嘉楠耘智信息科技有限公司 | Voice wake-up method and device and computer readable storage medium |
CN111816217A (en) * | 2020-07-02 | 2020-10-23 | 南京奥拓电子科技有限公司 | Voice recognition method and system for self-adaptive endpoint detection and intelligent equipment |
US20220051657A1 (en) * | 2018-09-11 | 2022-02-17 | Nippon Telegraph And Telephone Corporation | Channel selection apparatus, channel selection method, and program |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103796145B (en) * | 2014-01-26 | 2017-01-11 | 深圳市微纳集成电路与系统应用研究院 | Auditory sense threshold value determining method and device and hearing aid |
KR20210122348A (en) | 2020-03-30 | 2021-10-12 | 삼성전자주식회사 | Digital microphone interface circuit for voice recognition and including the same |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6535846B1 (en) * | 1997-03-19 | 2003-03-18 | K.S. Waves Ltd. | Dynamic range compressor-limiter and low-level expander with look-ahead for maximizing and stabilizing voice level in telecommunication applications |
US6381570B2 (en) * | 1999-02-12 | 2002-04-30 | Telogy Networks, Inc. | Adaptive two-threshold method for discriminating noise from speech in a communication signal |
-
2009
- 2009-01-08 KR KR1020090001629A patent/KR101148771B1/en active IP Right Grant
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220051657A1 (en) * | 2018-09-11 | 2022-02-17 | Nippon Telegraph And Telephone Corporation | Channel selection apparatus, channel selection method, and program |
CN111261143A (en) * | 2018-12-03 | 2020-06-09 | 杭州嘉楠耘智信息科技有限公司 | Voice wake-up method and device and computer readable storage medium |
CN111261143B (en) * | 2018-12-03 | 2024-03-22 | 嘉楠明芯(北京)科技有限公司 | Voice wakeup method and device and computer readable storage medium |
CN111816217A (en) * | 2020-07-02 | 2020-10-23 | 南京奥拓电子科技有限公司 | Voice recognition method and system for self-adaptive endpoint detection and intelligent equipment |
CN111816217B (en) * | 2020-07-02 | 2024-02-09 | 南京奥拓电子科技有限公司 | Self-adaptive endpoint detection voice recognition method and system and intelligent device |
Also Published As
Publication number | Publication date |
---|---|
KR101148771B1 (en) | 2012-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102512311B1 (en) | Earbud speech estimation | |
KR101725744B1 (en) | Limiting active noise cancellation output | |
RU2461081C2 (en) | Intelligent gradient noise reduction system | |
US8315400B2 (en) | Method and device for acoustic management control of multiple microphones | |
US8744091B2 (en) | Intelligibility control using ambient noise detection | |
JP4968147B2 (en) | Communication terminal, audio output adjustment method of communication terminal | |
US20170110142A1 (en) | Apparatuses and methods for enhanced speech recognition in variable environments | |
CN106507258B (en) | Hearing device and operation method thereof | |
KR102317686B1 (en) | Speech signal processing method and apparatus adaptive to noise environment | |
US9466282B2 (en) | Variable rate adaptive active noise cancellation | |
US20110125494A1 (en) | Speech Intelligibility | |
KR101148771B1 (en) | Device and method for stabilizing voice source and communication apparatus comprising the same device | |
US10824388B2 (en) | Robust voice activity detector system for use with an earphone | |
WO2009136953A1 (en) | Method and device for acoustic management control of multiple microphones | |
JP2008197200A (en) | Automatic intelligibility adjusting device and automatic intelligibility adjusting method | |
US11683643B2 (en) | Method and device for in ear canal echo suppression | |
US20120143603A1 (en) | Speech processing apparatus and method | |
US20090088224A1 (en) | Adaptive volume control | |
US8275141B2 (en) | Noise reduction system and noise reduction method | |
US11856375B2 (en) | Method and device for in-ear echo suppression | |
KR20070084312A (en) | Adaptive time-based noise suppression | |
KR20130094246A (en) | Semiconductor device and voice communication device | |
NL1038762C2 (en) | Voice immersion smartphone application or headset for reduction of mobile annoyance. | |
US20230260526A1 (en) | Method and electronic device for personalized audio enhancement | |
KR20120034863A (en) | Method and apparatus processing audio signal in a mobile communication terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160404 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20170403 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180508 Year of fee payment: 7 |