KR102277952B1 - 디제이 변환에 의한 주파수 추출 방법 - Google Patents
디제이 변환에 의한 주파수 추출 방법 Download PDFInfo
- Publication number
- KR102277952B1 KR102277952B1 KR1020190003620A KR20190003620A KR102277952B1 KR 102277952 B1 KR102277952 B1 KR 102277952B1 KR 1020190003620 A KR1020190003620 A KR 1020190003620A KR 20190003620 A KR20190003620 A KR 20190003620A KR 102277952 B1 KR102277952 B1 KR 102277952B1
- Authority
- KR
- South Korea
- Prior art keywords
- amplitude
- frequency
- springs
- spring
- sound
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000007704 transition Effects 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims description 29
- 238000006073 displacement reaction Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 238000013016 damping Methods 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 210000002768 hair cell Anatomy 0.000 description 10
- 150000001875 compounds Chemical class 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000004397 blinking Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 210000003926 auditory cortex Anatomy 0.000 description 1
- 210000002469 basement membrane Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000067 inner hair cell Anatomy 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
본 발명의 실시예에따른, 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 주파수를 추출하는 방법은, 각각이 상이한 고유 주파수를 가지며, 입력된 소리에 따라 진동 운동을 하는 복수의 용수철을 모델링하는 단계; 상기 모델링된 복수의 용수철의 시점별 전이 상태 순음 진폭을 계산하는 단계; 상기 모델링된 복수의 용수철의 안정 상태 예상 진폭을 계산하는 단계; 상기 안정 상태 예상 진폭에 기초하여 순음 예측 진폭을 계산하는 단계; 상기 시점별 전이 상태 순음 진폭과 상기 순음 예측 진폭을 곱함으로써 순음 여과 진폭을 계산하는 단계; 상기 순음 여과 진폭의 극댓값에 해당하는 용수철의 고유주파수를 추출하는 단계를 포함한다.
Description
본 발명은 주파수 추출 방법에 관한 것으로, 특히 시간 해상도와 주파수 해상도를 동시에 높일 수 있는 주파수 추출 방법에 관한 것이다.
단시간 푸리에 변환은 음성 인식, 화자 인식 등 소리를 다루는 다양한 분야에서 주어진 소리에서 주파수를 추출할 때 사용되고 있다. 그러나, 단시간 푸리에 변환을 사용하여 주파수를 측정하면 푸리에 불확정성 원리에 의해서 시간 정밀도와 주파수 정밀도를 동시에 높이는데 한계를 가지고 있다. 푸리에 불확정성 원리는 짧은 시간 동안의 소리를 주파수 성분으로 변환하면 해상도가 낮은 주파수 성분을 가지게 되고 정확한 주파수를 측정하기 위해서 긴 시간 동안의 소리를 사용하면 측정된 주파수의 발생 시점에 대한 시간 해상도는 낮아진다는 것이다.
예를 들어 단시간 푸리에 변환을 사용할 때 윈도우 크기를 25밀리초로 하고 사각형 필터를 사용한다고 가정하자. 이러한 조건에서 추출된 주파수는 40 Hz의 해상도를 갖게 된다. 즉, 주어진 소리에 420 Hz 주파수가 존재할지라도 추출된 결과에는 400 Hz 주파수와 440 Hz 주파수만 나타나고 420 Hz 주파수는 나타나지 않게 된다. 따라서 420 Hz 주파수만으로 구성된 순음과 400 Hz와 440 Hz 주파수로 구성된 복합음의 구분이 명확하지 않게 된다. 이번에는 추출된 주파수에 4 kHz 소리가 존재한다고 가정하자. 그러나 추출 결과에는 4 kHz 소리가 25밀리초 내의 어느 시점에 발생했는지에 대한 정보가 들어 있지 않다. 예를 들어 4 kHz 주파수가 0~10밀리초에 발생한 소리와 10~20밀리초에 발생한 소리가 구분이 되지 않는다.
주파수 해상도가 20 Hz가 되도록 하려면 윈도우 크기를 50밀리초로 늘려야 한다. 그러나 결과적으로 시간 해상도는 50밀리초로 커지게 된다. 또한 시간 해상도를 높이기 위해서 윈도우 크기를 12.5밀리초로 줄이면 주파수 해상도는 80 Hz로 커지게 된다. 이러한 트레이드 오프에 의해서 단시간 푸리에 변환을 사용하면 시간 해상도와 주파수 해상도를 동시에 높일 수 없게 된다.
실험 결과에 따르면 사람의 청각 능력은 푸리에 불확정성 원리에 제약을 받지 않는 것으로 알려져 있다. 본 발명은 사람의 이러한 청각 능력에 착안하여 달팽이관을 구성하는 유모 세포의 동작원리를 기반으로 시간 해상도와 주파수 해상도를 동시에 높이는 새로운 주파수 추출 방법인 디제이 변환 방법을 제안하고자 한다.
본 발명의 실시예에 따른, 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 주파수를 추출하는 방법은, 각각이 상이한 고유 주파수를 가지며, 입력된 소리에 따라 진동 운동을 하는 복수의 용수철을 모델링하는 단계; 상기 모델링된 복수의 용수철의 시점별 전이 상태 순음 진폭을 계산하는 단계; 상기 모델링된 복수의 용수철의 안정 상태 예상 진폭을 계산하는 단계; 상기 안정 상태 예상 진폭에 기초하여 순음 예측 진폭을 계산하는 단계; 상기 시점별 전이 상태 순음 진폭과 상기 순음 예측 진폭을 곱함으로써 순음 여과 진폭을 계산하는 단계; 상기 순음 여과 진폭의 극댓값에 해당하는 용수철의 고유주파수를 추출하는 단계를 포함한다.
본 발명의 일 실시예에 따른 소리의 주파수 추출 장치는, 각각이 상이한 고유 주파수를 가지며, 입력된 소리에 따라 진동 운동을 하는 복수의 용수철을 모델링함으로써, 복수의 용수철 각각의 변위 및 속도를 산출하는 용수철 모델링부; 및 상기 모델링된 복수의 용수철의 시점별 전이 상태 순음 진폭을 계산하고, 상기 모델링된 복수의 용수철의 안정 상태 예상 진폭을 계산하고, 상기 안정 상태 예상 진폭에 기초하여 순음 예측 진폭을 계산하고, 상기 시점별 전이 상태 순음 진폭과 상기 순음 예측 진폭을 곱함으로써 순음 여과 진폭을 계산하고, 상기 순음 여과 진폭의 극댓값에 해당하는 용수철의 고유주파수를 추출하는 주파수 추출부를 포함한다.
본 발명의 실시예에 따른, 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 주파수를 추출하는 방법은, 각각이 상이한 고유 주파수를 가지며, 입력된 소리에 대해 진동 운동을 하는 복수의 용수철을 모델링하는 단계; 상기 모델링된 복수의 용수철 중, 시점별 진폭이 최대인 용수철의 안정 상태 예상 진폭을 추정하는 단계; 상기 안정 상태 예상 진폭에 기초하여 상기 시점별 진폭이 최대인 용수철의 에너지를 계산하는 단계; 및 상기 에너지에 기초하여 입력 순음 진폭을 계산하는 단계를 포함한다.
본 발명의 실시예에 따른 소리의 주파수 추출 장치는, 각각이 상이한 고유 주파수를 가지며, 입력된 순음에 대해 진동 운동을 하는 복수의 용수철을 모델링함으로써, 복수의 용수철 각각의 변위, 속도, 에너지 및 진폭을 산출하는 용수철 모델링부; 및 상기 모델링된 복수의 용수철 중, 상기 시점별 진폭이 최대인 용수철의 안정 상태 예상 진폭을 추정하고, 상기 안정 상태 예상 진폭에 기초하여 상기 시점별 진폭이 최대인 용수철의 에너지를 계산하고, 상기 에너지에 기초하여 입력 순음 진폭을 계산하는 주파수 추출부를 포함한다.
상기 안정 상태 예상 진폭은, 소리의 입력 기간 내의 두 시점에서의 진폭에 기초하여 계산될 수 있다.
상기 안정 상태 예상 진폭(Ai,s)은, 하기의 식에 의해 계산될 수 있다.
(단, t1 및 t2는 소리의 입력 기간 내의 두 시점이며, t2>t1 이고, Ai(t1)은 t1에서 상기 복수의 용수철 중 어느 하나의 진폭이고, Ai(t2)은 t2에서 상기 하나의 용수철의 진폭이고, ζ는 상기 하나의 용수철의 감쇠 비율이고, ω는 ωi가 상기 하나 용수철의 고유 주파수일 때, 의 식을 만족함)
상기 두 시점의 차는, 해당하는 용수철의 고유 주파수의 주기일 수 있다.
상기 두 시점 중 하나를 t1, 상기 입력된 소리의 샘플레이트를 SR, 해당하는 용수철의 고유 주파수에 해당하는 주기를 T라고 할 때, 상기 두 시점 중 나머지 t2는 다음의 식으로 계산될 수 있다.
상기 안정 상태 예상 진폭은, 소리의 입력 기간 내의 적어도 두 시점에서의 진폭을 하기의 식에 대입하여, 선형 회귀 분석을 통해 계산될 수 있다.
(단, A(t)는 시점 t에서의 상기 복수의 용수철 중 어느 하나의 진폭이고, As는 상기 하나의 용수철의 상기 안정 상태 예상 진폭이고, Ac는 시점 tc에서 상기 하나의 용수철의 진폭이고, ζ는 상기 하나의 용수철의 감쇠 비율이고, ω는 ωi가 상기 하나 용수철의 고유 주파수일 때, 의 식을 만족함)
상기 모델링하는 단계는, 상기 복수의 용수철 각각의 시점별 변위 및 속도를 측정하는 단계; 상기 변위 및 속도에 기초하여, 상기 복수의 용수철 각각의 시점별 에너지를 계산하는 단계; 및 상기 에너지에 기초하여, 상기 복수의 용수철 각각의 진폭을 계산하는 단계를 포함할 수 있다.
상기 복수의 용수철의 개수는, 추출하고자 하는 주파수의 범위 및 주파수 해상도에 기초하여 결정될 수 있다.
본 발명의 일 실시예에 따른 컴퓨터 판독 가능한 기록 매체는, 상기 소리의 주파수 추출 방법이 기록된 것일 수 있다.
본 발명의 실시예에 따른 주파수 추출 방법은, 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 주파수를 추출하는 방법으로, 상기 입력되는 소리가 어느 시점까지는 제1 주파수를 갖다가, 상기 시점 이후에는 제2 주파수로 변경될 때, 상기 변경되는 시점에서의 주파수 변환 결과가 상기 제1 주파수를 나타내고, 상기 변경되는 시점 직후의 주파수 변환 결과는 상기 제2 주파수의 10퍼센트 범위 내를 나타낸다.
본 발명의 실시예에 의하면, 높은 시간 해상도와 높은 주파수 해상도를 갖는 소리의 주파수 추출 방법이 제공된다. 이에 따라, 주파수가 유사한 소리를 좀더 세분해서 구분할 수 있고, 음성에서 음소들의 순서 정보를 정밀하게 추출하여 음성 인식의 정확도를 높일 수 있다. 추가적으로, 노이즈가 있는 환경에서 안정적인 음성 인식이 가능하고, 음성 인식 학습에 필요한 데이터의 규모가 작아질 수 있다.
도 1은 외부 힘이 0일 때 용수철의 변위를 나타내는 그래프의 일 예이다.
도 2는 외부 힘이 주어졌다가 사라질 때 용수철의 진폭 변화 그래프의 일 예이다.
도 3은 본 발명의 실시예에 따른 소리의 주파수 추출 방법을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 전이 상태 순음 진폭과 입력 순음 진폭을 나타내는 그래프이다.
도 5는 진폭이 일정한 1 kHz의 소리가 입력된 경우, 본 발명의 실시예에 따른 전이 상태 순음 진폭, 순음 예측 진폭 및 순음 여과 진폭을 나타내는 그래프이다.
도 6은 복합음이 입력된 경우, 순음 여과 진폭을 나타내는 그래프이다.
도 7은 도 6과 상이한 복합음이 입력된 경우, 순음 여과 진폭을 나타내는 그래프이다.
도 8은 본 발명의 실시예에 따른 소리의 주파수 추출 방법을 나타내는 순서도이다.
도 9는 순음이 입력된 경우, 단시간 푸리에 변환 결과, 입력된 소리의 주파수 및 본 발명의 실시예에 따른 디제이 변환 결과를 나타내는 도면이다.
도 10은 입력된 순음의 주파수가 변경되는 경우, 본 발명의 실시예에 따른 디제이 변환 결과를 나타내는 도면이다.
도 11은 입력된 순음의 주파수가 변경되는 경우, 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 12는 점멸 신호 및 지속 신호가 입력되는 경우, 입력 신호의 주파수 성분, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 13은 1 kHz 및 2 kHz의 소리가 교대로 입력되는 경우, 입력 소리의 주파수 성분, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 14는 순음 및 복합음이 입력되는 경우, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 15는 본 발명의 실시예에 따른 소리의 주파수 추출 장치를 나타내는 도면이다.
도 2는 외부 힘이 주어졌다가 사라질 때 용수철의 진폭 변화 그래프의 일 예이다.
도 3은 본 발명의 실시예에 따른 소리의 주파수 추출 방법을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 전이 상태 순음 진폭과 입력 순음 진폭을 나타내는 그래프이다.
도 5는 진폭이 일정한 1 kHz의 소리가 입력된 경우, 본 발명의 실시예에 따른 전이 상태 순음 진폭, 순음 예측 진폭 및 순음 여과 진폭을 나타내는 그래프이다.
도 6은 복합음이 입력된 경우, 순음 여과 진폭을 나타내는 그래프이다.
도 7은 도 6과 상이한 복합음이 입력된 경우, 순음 여과 진폭을 나타내는 그래프이다.
도 8은 본 발명의 실시예에 따른 소리의 주파수 추출 방법을 나타내는 순서도이다.
도 9는 순음이 입력된 경우, 단시간 푸리에 변환 결과, 입력된 소리의 주파수 및 본 발명의 실시예에 따른 디제이 변환 결과를 나타내는 도면이다.
도 10은 입력된 순음의 주파수가 변경되는 경우, 본 발명의 실시예에 따른 디제이 변환 결과를 나타내는 도면이다.
도 11은 입력된 순음의 주파수가 변경되는 경우, 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 12는 점멸 신호 및 지속 신호가 입력되는 경우, 입력 신호의 주파수 성분, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 13은 1 kHz 및 2 kHz의 소리가 교대로 입력되는 경우, 입력 소리의 주파수 성분, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 14는 순음 및 복합음이 입력되는 경우, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 나타내는 도면이다.
도 15는 본 발명의 실시예에 따른 소리의 주파수 추출 장치를 나타내는 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 도면을 참조하여 본 발명의 실시예에 대하여 구체적으로 설명한다.
유모 세포는 기저막에서 발생한 기계적 신호를 전기 신호로 변경하여 일차청각피질로 신호를 전달한다. 유모 세포는 약 3,500개의 내모 세포와 12,000개의 외모 세포로 구성되며 각각의 유모 세포는 자신의 특징 주파수의 소리에 민감하게 반응한다. 유모 세포의 이러한 특성은 용수철이 자신의 고유 주파수와 일치하는 주파수의 외부 힘을 받을 때 공명을 일으켜서 진폭이 커지는 현상과 유사하다. 이러한 유사점을 활용하여 본 발명은 복수의 용수철을 사용하여 유모 세포의 움직임을 모델링한다.
사람의 가청 주파수는 20 ~ 20,000 Hz이고 사람의 목소리 주파수는 80 ~ 8,000 Hz로 알려져 있다. 음성 인식 등의 분야에서 다루는 주파수 범위는 8 kHz 이내이다. 이러한 점을 반영하여 음성 처리에 사용할 때 용수철의 고유 주파수를 50 Hz부터 8 kHz까지를 1 Hz 간격으로 구분하여 고유 주파수 기준으로 서로 다른 7,951 종류의 용수철이 사용될 수 있다. 이것은 주파수 해상도가 1 Hz라는 것을 의미한다. 다만, 이는 일 실시예에 불과하며, 용수철의 갯수를 늘림으로써 주파수 해상도를 높이거나, 주파수의 범위를 늘리는 것이 가능하다.
용수철로 모델링된 유모 세포의 움직임은 구동 조화 진동의 운동 미분 방정식으로 표현할 수 있다. 소리는 용수철에 가해지는 다양한 사인파의 조합으로 이루어진 외부 힘에 해당한다. 각각의 용수철은 고유 주파수를 가지며 일련의 소리 샘플들에 의해서 고유의 운동 궤적을 그리게 된다. 각 용수철의 운동 궤적은 룽게-쿠타 방법 등의 수치해석 기법으로 구동 조화 진동의 운동 미분 방정식의 해를 계산하여 구할 수 있다.
여기서 는 용수철의 길이가 균형점에서 벗어난 거리(변위)이고 은 용수철에 매단 물체의 질량이다. 는 감쇠 비율로서 속도에 비례하는 마찰 계수가 이면 가 된다. 는 용수철 의 탄성 계수이다. 는 와 가 모두 0일 때 용수철의 고유 주파수이며 이다.
가 -180도와 0도 사이가 되도록 정수 을 지정한다. 만약 이면 용수철은 도 1과 같이 주기적 감쇠 진동을 하게 된다. 또한, 이고 시간이 많이 지나서 용수철이 안정 상태에 도달하면 식(2)의 첫 번째 항은 사라지고 두 번째 항만 남아서 용수철의 안정 상태 궤적 는 식(5)를 따르게 된다.
정지 상태의 용수철 에 이 용수철의 고유 주파수 와 일치하는 주파수의 소리가 외부 힘으로 주어지는 상황을 고려해 보자. 이 용수철이 안정 상태에 도달하는 과정에서 용수철의 움직임은 식(6)으로 기술된다.
도 2는 외부 힘이 주어졌다가 사라지는 과정에서 용수철의 진폭 변화 그래프의 예시이다.
본 실시예에서는 이러한 유모세포를 모델링한 용수철의 움직임을 기초로 하여, 입력된 소리의 주파수 및 진폭을 추출하는 방법 2가지를 제안한다.
입력된 소리의 주파수 및 진폭 추출 방법 Ⅰ
1.
안정 상태일 때
(1)
주파수 추출
공명하는 용수철은 다른 용수철보다 더 큰 진폭으로 진동한다는 특성을 기반으로 입력된 소리의 주파수를 추출할 수 있다.
순음 가 주어지면 안정 상태에서 용수철 의 진폭은 식(5)에 의해서 가 된다. 모든 용수철에 매달린 질량 이 동일하면 진폭이 가장 큰 용수철은 가 최소가 되는 용수철이다. 이러한 용수철의 고유 주파수 와 순음의 주파수 사이의 관계식은 식(3)을 에 대해서 미분하여 구할 수 있으며 그 결과는 다음과 같다.
진폭이 제일 큰 용수철을 추출하기 위해서 룽게-쿠타 등 미분방정식의 해를 구하는 수치 해석 방법을 사용한다. 순음 가 주어지면 수치해석 방법을 이용하여 식(1)의 해에 해당하는 각 용수철 의 변위 와 속도 를 계산한다. 각 용수철이 가지는 에너지는 운동에너지와 위치에너지의 합이므로 용수철 가 갖는 에너지는 식(9)로 구할 수 있다.
안정 상태에 도달한 용수철의 에너지는 일정한 값을 유지한다. 따라서, 속도 가 0인 시점의 변위 가 용수철 의 진폭이 된다. 그러므로 용수철 의 안정 상태의 진폭 는 아래 식으로 계산할 수 있다.
추출한 용수철들의 진폭 중 최대인 진폭의 용수철이 공명하는 용수철이다. 따라서, 진폭이 제일 큰 용수철의 고유 주파수 와 식(8)을 사용하여 주어진 순음의 주파수를 구할 수 있게 된다.
(2) 진폭 추출
또한 안정 상태의 에너지 는 수치해석 방법으로 식(1)의 해를 구하여 얻어진 안정 상태에서의 변위 와 속도 를 식(9)에 대입하여 구할 수 있다. 따라서 주어진 순음의 진폭 는 아래와 같이 된다.
외부 힘에 공명하는 용수철의 고유 주파수 는 외부 힘의 주파수와 거의 일치한다. 따라서 을 식(3)에 대입하면 가 된다. 이 결과와 를 식(12)에 대입하면 입력 순음의 진폭 는 식(13)으로 계산할 수 있다.
2. 전이 상태일 때
(1) 주파수 추출
순음 가 시간 동안 주어진다고 가정하자. 모든 용수철들은 변위와 속도가 모두 0인 초기 상태에서 움직이기 시작한다. 수치해석 기법을 사용해서 매 시점에 용수철들의 에너지를 계산하고 계산된 결과를 식(10)에 대입해서 각 시점에 용수철의 진폭을 구한다. 그 후 진폭이 제일 큰 용수철의 고유 주파수를 식(8)에 대입해서 주어진 순음의 주파수를 계산한다.
(2) 진폭 추출
식(1)의 일반해에 의하면 주어진 음파와 공명하는 용수철 의 진폭 는 식(6)의 궤적을 따르므로 정지 상태에서 시작한 용수철 는 시간 에서 안정 상태에 도달할 때까지 의 궤적을 따르게 된다. 여기서 는 안정 상태에 도달했을 때 용수철의 진폭을 의미한다.
수치해석 방법을 적용하면 내의 두 시점 , 에서의 에너지 과 를 구할 수 있다. 따라서 이 결과를 식(10)에 대입하면 진폭 과 를 구할 수 있다. 이 결과를 에 대입하면 안정 상태 예상 진폭 를 구할 수 있으며 그 결과는 아래 식과 같다.
이번에는 주파수는 동일하지만 소리 크기가 변하는 경우를 살펴보자. 시점 에서 주어지는 소리의 진폭이 에서 로 변했다고 가정하자. 진폭이 바뀌는 시점 에서 용수철의 진폭을 라 하고 외부 힘이 로 변한 후 안정 상태에 도달한 용수철의 진폭을 라 하자. 이 때의 진폭 변화는 다음 식으로 기술할 수 있다.
예를 들어 시간 에서 외부 힘이 사라져서 이 되는 경우를 살펴보자. 외부 힘이 사라지면 용수철의 에너지는 식(7)을 따라서 기하급수적으로 감소하게 된다. 따라서, 외부 힘이 사라진 시점부터 초 후에 용수철의 진폭을 측정하면 용수철의 진폭은 가 될 것이다. 이 측정 결과를 식(14)에 대입하면 이 되므로 외부 힘이 사라졌음을 알 수 있다.
따라서 용수철의 에너지를 두 번 이상 측정하면 안정 상태 예상 진폭 를 구할 수 있게 된다. 진폭과 에너지의 상관 관계를 나타내는 식(10)을 사용하면 안정 상태의 에너지 를 계산할 수 있고 결과적으로 식(13)을 사용하여 주어진 순음의 진폭 를 추출할 수 있게 된다.
용수철에 가해지는 힘은 주기 함수이므로 전이 상태의 1주기 내에서 에너지가 일정하게 증가하지 않는다. 이러한 특성을 반영해서 위에서 기술한 두 시점 , 를 선택할 때 시간 간격이 주기와 일치하도록 한다.
이와 관련하여, 오디오 데이터의 샘플레이트와 용수철의 고유주파수의 관계에 의해서 1주기 차이가 나는 두 시점을 선택할 수 없는 경우가 발생한다. 이러한 경우에 오차가 발생할 수 있다. 이러한 오차를 보정하기 위해서 두 가지 방법이 사용될 수 있다.
첫 번째 방법은 인접한 소리 샘플 중 주기와 차이가 작은 샘플을 선택하는 방법이다. 오디오 데이터에서 샘플의 위치 과 주기 가 주어지면 두 번째 샘플의 위치 는 로 계산한다. 두 점의 시간 정보와 각 시점에서의 진폭을 식(14)에 대입해서 안정 상태 예측 진폭 를 계산한다.
전술한 이론적 배경을 바탕으로, 입력된 소리의 주파수를 추출하는 방법은 다음과 같이 제안할 수 있다.
도 3을 참조하면, 본 발명의 실시예에 따른 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 주파수를 추출하는 방법은
(a) 각각이 상이한 고유 주파수를 가지며, 입력된 소리에 대해 진동 운동을 하는 복수의 용수철을 모델링하는 단계;
를 포함할 수 있다.
(a) 단계는, 상기 복수의 용수철 각각의 시점별 변위 및 속도를 측정하는 단계(식 (1)을 참조); 상기 변위 및 속도에 기초하여, 상기 복수의 용수철 각각의 시점별 에너지 를 계산하는 단계(식 (9)를 참조); 및 상기 에너지 에 기초하여, 상기 복수의 용수철 각각의 진폭 을 계산하는 단계(식 (10)을 참조)를 포함할 수 있다.
(b) 단계는, 식 (14)를 이용하여 계산될 수 있다.
상기 두 시점의 차는, 해당하는 용수철의 고유 주파수의 주기일 수 있다.
상기 두 시점 중 하나를 t1, 상기 입력된 소리의 샘플레이트를 SR, 해당하는 용수철의 고유 주파수에 해당하는 주기를 T라고 할 때, 상기 두 시점 중 나머지 t2는 다음의 식으로 계산될 수 있다.
상기 복수의 용수철의 개수(N)는, 추출하고자 하는 주파수의 범위 및 주파수 해상도에 기초하여 결정될 수 있다.
도 4는 본 발명의 실시예에 따른 실험 결과를 나타내는 그래프이다.
도 4의 (a)는 주파수가 2 kHz이고 진폭이 일정한 순음이 0.2초부터 0.8초 사이에 주어졌을 때 고유주파수가 2 kHz인 용수철의 시간에 따른 에너지 를 식(13)에 대입해서 구한 결과이다. 이 결과를 전이 상태 순음 진폭이라고 하자. 전이 상태 순음 진폭은 용수철의 에너지에 변화가 없다고 가정하고 계산된 입력 순음의 진폭을 의미한다. 시간이 지나면 용수철의 에너지는 안정 상태에 도달하게 된다. 따라서 도 3(a)에서 볼 수 있듯이 전이 상태 순음 진폭은 시간이 지나면 안정 상태에 이르게 되고 이 때의 진폭은 입력 순음의 진폭 에 해당하게 된다.
도 4의 (b)는 측정된 용수철의 진폭들을 식(14)에 대입해서 용수철의 안정 상태 예상 진폭 를 구하고 그 결과를 위 주파수 추출 방법의 (c) 단계와 (d) 단계에 적용해서 구한 입력 순음의 진폭 을 보여준다. 도 4의 (b)에 도시된 바와 같이, 순음의 시작 시점부터 입력 순음의 진폭이 추출되는 것을 알 수 있다.
입력된 소리의 주파수 및 진폭 추출 방법 Ⅱ
전술한 입력된 소리의 주파수 및 진폭 추출 방법 I에 의하면, 입력된 소리가 순음인 경우 입력된 소리의 주파수 및 진폭을 효과적으로 추출할 수 있다.
복합음 을 구성하는 순음의 종류가 개라고 가정하자. 이라면 용수철 중 진폭이 제일 큰 용수철을 추출하는 방법으로 주어진 소리의 순음을 찾을 수 있다. 그러나 이면 진폭 순위로 상위 개를 선택하는 방법으로는 복합음을 구성하는 순음들을 찾기 어렵다.
첫 번째 이유는 진폭이 제일 큰 용수철과 주파수가 인접한 용수철의 진폭이 복합음을 구성하는 다른 순음과 공명하는 용수철의 진폭보다 클 수 있기 때문이다. 두 번째 이유는 도 2의 0.8초 이후의 궤적이 보여주는 것처럼 외부 힘이 사라지더라도 용수철의 진폭이 0이 될 때까지 시간이 소요되므로 다른 순음의 진폭보다 더이상 존재하지 않는 소리의 진폭이 더 클 수 있기 때문이다.
이에 따라 본 실시예에서는 각 시점의 용수철 진폭 중에서 극댓값을 찾는 대신에 안정 상태 예상 진폭과 전이 상태 진폭을 곱한 결과에서 극댓값을 찾는 방법을 제안한다.
1. 안정 상태 예상 진폭과 여과 진폭
먼저, 복합음을 구성하는 순음을 추출하기 위해서, 입력된 소리의 주파수 추출 방법 I의 (a) 단계를 복수의 용수철에 적용하여 각 용수철 의 진폭 을 계산한다. 도 5(a)는 주파수가 1 kHz이고 진폭이 일정한 소리가 200밀리초에 시작되었을 때 215밀리초에 측정된 결과로서 고유 주파수가 1 kHz 근처인 용수철들의 진폭을 보여준다. 도 5(a)로부터 공명이 발생하지 않는 용수철의 진폭은 공명이 발생하는 용수철의 진폭보다 작다는 것을 알 수 있다.
다음으로 각 용수철 의 진폭 에 입력된 소리의 주파수 추출 방법 I의 (b) 단계를 적용하여 안정 상태 예상 진폭 을 계산한다. 그러나 안정 상태 예상 진폭을 계산하는 식(14)는 공명하는 용수철의 움직임을 기술하는 식(7)로부터 유도된 수식이다. 따라서 도 5(b)가 보여주는 것처럼 공명 주파수로부터 떨어져 있는 주파수에서도 큰 값이 발생하게 된다.
이에 따라 다음의 단계를 수행한다. 세 번째 단계로 용수철 의 진폭 를 식(13)에 대입하여 전이 상태 순음 진폭 을 계산한다. 또한 안정 상태 예상 진폭 에 입력된 소리의 주파수 추출 방법 I의 (c) 단계와 (d) 단계를 적용해서 순음 예측 진폭 를 계산한다.
마지막 단계로 전이 상태 순음 진폭 와 순음 예측 진폭 를 곱하여 순음 여과 진폭 를 계산한다. 추가적으로, 진폭을 곱한 결과를 정규화 하기 위해서 소리가 가질 수 있는 진폭의 최대값으로 나누어줄 수 있다. 예를 들어 소리가 16비트 정수로 표현하였다면 32,767로 나주어 준다.
여과 진폭은 1) 소리가 사라지면 진폭이 0이 되는 특성과 2) 공명 주파수로부터 떨어져 있는 주파수 영역에서의 진폭이 낮은 특성을 동시에 갖게 된다.
도 5(c)는 도 5(a)와 도 5(b)를 동일한 주파수별로 곱한 결과인 여과 진폭을 보여준다. 도 5(d) ~ 도 5(f)는 각각 고유 주파수가 1 kHz인 용수철에 의해서 구한 전이 상태 순음 진폭, 순음 예측 진폭과 순음 여과 진폭을 보여 준다. 특히 도 5(d)에서 소리가 사라져도 진폭이 감소할 뿐 남아 있는 부분이 도 5(e)와 도 5(f)에서는 진폭이 0으로 나타남을 알 수 잇다. 도 5(g) ~ 도 5(i)는 고유 주파수가 1,020 Hz 용수철에 의한 결과를 보여준다. 순음 여과 진폭 가 도 5(f)의 공명 용수철의 순음 여과 진폭 과 비교해서 매우 작음을 알 수 있다.
2. 극댓값들 중에서 순음 찾기
도 6은 100, 250, 500, 1k, 4k Hz의 5가지 순음으로 구성된 복합음의 주파수 대 여과 진폭 그래프이다. 도 5에서 보이는 것처럼 복합음을 구성하는 음들의 주파수 간격이 크면 순음 주파수는 극댓값 중에서 극댓값을 생성하게 된다. 이러한 특성을 이용해서 여과 진폭으로 구한 주파수 대 진폭 그래프에서 극댓값을 구하고 구한 극댓값들 중에서 다시 극댓값을 찾은 후 찾은 주파수를 복합음을 구성하는 순음의 주파수로 처리한다.
그러나 주파수 간격이 좁으면 극댓값과 극댓값 사이에 다른 극댓값이 존재하지 않는 경우가 발생할 수 있다. 도 7은 112 Hz, 181 Hz, 1,034 Hz, 5,017 Hz, 5,034 Hz의 5가지 순음으로 구성된 복합음의 주파수 대 여과 진폭 그래프의 일부분으로 주파수가 인접한 5,017 Hz와 5,034Hz에 의해서 생성된 극댓값들 사이에 다른 극댓값이 존재하지 않는 경우를 보여준다. 이러한 경우의 특징은 주파수 간격이 작고 두 주파수 순음의 여과 진폭이 비슷하다는 점이다. 따라서, 주파수 간격이 일정 수준 비율(예: 진폭이 큰 주파수의 밴드폭) 이내이고 두 주파수 순음의 여과 진폭 비율이 일정 수준(예: 0.5) 이상이면 두 개의 주파수를 모두 복합음을 구성하는 순음의 주파수로 처리한다.
전술한 이론적 배경을 바탕으로, 다음과 같은 소리의 주파수 추출 방법을 제안한다.
도 8을 참조하면, 본 발명의 실시예에 따른 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 주파수를 추출하는 방법은,
를 포함한다.
상기 (1)단계는, 상기 복수의 용수철 각각의 시점별 변위 및 속도 를 측정하는 단계(식 (1)을 참조); 상기 변위 및 속도 에 기초하여, 상기 복수의 용수철 각각의 시점별 에너지 를 계산하는 단계(식 (9)를 참조); 및 상기 에너지 에 기초하여, 상기 복수의 용수철 각각의 진폭 을 계산하는 단계(식 (10)을 참조)를 포함할 수 있다.
상기 (2)단계에서는 식(13)이 이용될 수 있고, 상기 (3)단계에서는 식(14)가 이용될 수 있고, 상기 (4)단계에서는 식(13)이 이용될 수 있다.
상기 복수의 용수철의 개수(N)는, 추출하고자 하는 주파수의 범위 및 주파수 해상도에 기초하여 결정될 수 있다.
(단, t1 및 t2는 소리의 입력 기간 내의 두 시점이며, t2>t1 이고,
Ai(t1)은 t1에서 상기 복수의 용수철 중 어느 하나의 진폭이고,
Ai(t2)은 t2에서 상기 하나의 용수철의 진폭이고,
ζ는 상기 하나의 용수철의 감쇠 비율이고,
상기 두 시점의 차는, 해당하는 용수철의 고유 주파수의 주기일 수 있다.
상기 두 시점 중 하나를 t1, 상기 입력된 소리의 샘플레이트를 SR, 해당하는 용수철의 고유 주파수에 해당하는 주기를 T라고 할 때, 상기 두 시점 중 나머지 t2는 다음의 식으로 계산될 수 있다.
이하, 본 실시예에 따른 실험 결과를 설명한다.
본 실시예에 따른 디제이 변환의 성능을 보이기 위해서 디제이 변환과 단시간 푸리에 변환 결과를 비교하였다. 디제이 변환에서는 고유 주파수가 50 Hz ~ 8,000 Hz인 7,951개의 용수철을 사용하였다. 각 용수철의 주파수 간격은 1 Hz로 하였다. 단시간 푸리에 변환에는 25밀리초 크기의 윈도우를 사용하였다.
디제이 변환은 코어 개수가 3,072개이고 메모리가 12 GB인 엔비디아 M40 GPU 환경에서 수행되었고 Cuda Toolkit 8.0의 C 언어 API를 사용하여 구현하였다. 1초의 음성 데이타를 디제이 변환하는데 약 0.6초 시간이 소요되었다.
도 9는 주파수 해상도 측면에서 단시간 푸리에 변환과 디제이 변환 결과를 나타내는 도면이다. 도 9에서 첫번째 행은 단시간 푸리에 변환 결과를, 두번째 행은 입력된 소리의 주파수를, 세번째 행은 본 발명의 실시예에 따른 디제이 변환 결과를 나타낸다.
도 9에서 보듯이 단시간 푸리에 변환 결과의 주파수 해상도는 40 Hz이다. 또한 순음의 주파수가 400 Hz, 408 Hz, 416 Hz일 때 400 Hz에서 피크를 출력하고 424 Hz, 432 Hz, 440 Hz에서는 440 Hz에서 피크를 출력하였다. 반면에 디제이 변환 결과는 순음의 주파수와 모두 일치하는 결과를 보여주고 있다. 즉 디제이 변환 결과의 주파수 해상도는 1 Hz임을 보여준다.
시간 해상도 측면에서 디제이 변환 결과와 단시간 푸리에 변환 결과를 비교하기 위하여 세 가지 비교 실험을 진행하였다.
첫 번째는 입력 주파수가 변경되는 지점에서 추출된 주파수를 확인하는 실험이다. 도 10(a)는 1 kHz 순음이 500밀리초까지 입력되고 500밀리초부터는 2 kHz 순음이 주어지고, 도 10(b)는 2 kHz 순음이 500밀리초까지 입력되고 500밀리초부터는 1 kHz 순음이 주어지고, 도 10(c)는 4 kHz 순음이 500밀리초까지 입력되고 500밀리초부터는 2 kHz 순음이 주어지고, 도 10(d)는 2 kHz 순음이 500밀리초까지 입력되고 500밀리초부터는 4 kHz 순음이 주어질 때, 디제이 변환에 의해서 추출된 주파수 결과를 보여준다. 도 10(a) ~ 10(d)에서 볼 수 있듯이 500밀리초를 전후로 두 가지 주파수의 경계가 모두 명확함을 알 수 있었다. 구체적으로 살펴보면, 500밀리초까지는 입력된 순음의 주파수인 1 kHz, 2 kHz, 4 kHz 및 2 kHz가 명확히 나타나고, 500밀리초 직후에는 변경된 순음의 주파수인 2 kHz, 1 kHz, 2 kHz 및 4 kHz가 약 10퍼센트의 범위 내에서 나타나는 것을 알 수 있다. 반면에 단시간 푸리에 변환 결과는 도 11에서 볼 수 있듯이 경계선에서 두 가지 주파수가 동시에 추출되는 현상이 발생한다.
두 번째 실험은 짧게 나타났다 사라지는 소리에서 주파수를 추출하는 실험이다. 도 12의 첫 번째 행은 200밀리초부터 800밀리초 사이에서 5밀리초 동안 1 kHz 순음이 발생하고 다음 5밀리초 동안은 무음인 상태가 반복될 때(점멸 신호가 입력될 때)의 주파수 추출 결과를 보여준다. 두 번째 행은 200밀리초부터 800 밀리 사이에서 1 kHz 순음이 지속적으로 발생할 때(지속 신호가 입력될 때)의 결과를 보여준다. 왼쪽 열은 입력 소리의 시간에 따른 주파수 성분을 나타낸 도면이고 가운데 열은 디제이 변환 결과이고 세 번째 열은 단시간 푸리에 변환 결과이다.
중간 열의 도면들을 보면 디제이 변환은 순음과 무음이 반복되는 경우는 점선 결과를 생성하고 일정한 소리만 존재하는 경우에는 실선 결과를 생성하여 두 경우를 명확히 구분하고 있음을 알 수 있다. 반면에 오른쪽 열의 단시간 푸리에 변환 결과를 보면 두 경우 모두 1 kHz에서 강한 실선을 생성하고 있어서 두 경우의 구분이 명확하지 않음을 알 수 있다.
가운데 열의 위 쪽 도면은 1.1 kHz와 0.9 kHz에서 상대적으로 약하지만 점선 결과를 보여주고 있다. 이 결과는 입력이 10밀리초 주기로 반복되고 있어서 결과적으로 100 Hz 신호가 존재하여 발생한 결과로 해석된다. 반면에 단시간 푸리에 변환에서는 도 10의 오른쪽 위 도면을 보면 0.88 kHz, 0.92 kHz, 1.08 kHz와 1.12 kHz에 실선이 나타난다. 이러한 현상은 100 Hz 신호에 의해서 발생하는 0.9 kHz와 1.1 kHz 주파수 성분이 푸리에 변환의 40 Hz 주파수 해상도에 의해서 40 Hz 간격으로 분리되어 나타난 것으로 해석된다.
세 번째 실험은 두 번째 실험의 확장으로 200밀리초부터 800밀리초 사이에서 5밀리초 동안 1 kHz 순음이 발생하고 다음 5밀리초 동안은 2 kHz 순음이 발생하는 상태가 반복될 때의 주파수 추출 결과를 보여준다(도 13). 도 13(b)에서 볼 수 있듯이 디제이 변환은 5밀리초 단위로 1 kHz 순음과 2 kHz 순음의 경계가 명확하게 구분된 결과를 생성한다. 반면에 단시간 푸리에 변환을 사용하면 도 13(c)와 같이 그 경계를 구분할 수 없음을 알 수 있다.
도 14의 첫 번째 행은 420 Hz 순음이 입력될 때 입력 파형, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 보여주고 두 번째 행은 400 Hz와 440 Hz의 복합음이 입력될 때, 입력 파형, 디제이 변환 결과 및 단시간 푸리에 변환 결과를 보여준다. 도 14(a)는 입력 파형이고 도 14(b)와 도 14(c)는 각각 디제이 변환 결과와 단시간 푸리에 변환 결과이다.
도 14에서 볼 수 있듯이 디제이 변환은 순음에서는 420 Hz 주파수를 추출하고 복합음에서는 400 Hz와 440 Hz 주파수를 추출함을 알 수 있다. 반면에 단시간 푸리에 변환은 순음에서 추출한 결과와 복합음에서 추출한 결과에 차이가 거의 없음을 보여 주고 있다.
복합음은 400 Hz와 440 Hz로 구성되어 있어서 도 14(a)의 하단처럼 40 Hz 주기로 진폭 증감이 발생한다. 도 14(b) 하단에서 볼 수 있듯이 디제이 변환은 이와 같이 진폭이 증감하는 특성도 잘 반영하고 있음을 알 수 있다.
도 15는 본 발명의 실시예에 따른 소리의 주파수 추출 장치를 나타내는 도면이다.
본 발명의 실시예에 따른 주파수 추출 장치(100)는 용수철 모델링부(110) 및 주파수 추출부(120)를 포함할 수 있다.
용수철 모델링부(110)는 식(1), 식(9) 및 식(10)을 이용하여 복수의 용수철의 변위 및 속도를 계산할 수 있다. 용수철 모델링부(110)는 복수의 용수철의 개수에 해당하는 스레드를 포함할 수 있으며, 각 스레드는 각각의 용수철에 대응할 수 있다.
주파수 추출부(120)는 용수철 모델링부(110)에서 계산된 변위 및 속도를 기초로 하여, 소리의 주파수 추출 방법 I의 (b) 단계 ~(d) 단계에 따라 주파수를 추출할 수 있다. 또는 주파수 추출부(120)는 용수철 모델링부(110)에서 계산된 변위 및 속도를 기초로 하여, 소리의 주파수 추출 방법 Ⅱ의 (2) 단계~(6) 단계에 따라 주파수를 추출할 수 있다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (17)
- 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 주파수를 추출하는 방법으로,
각각이 상이한 고유 주파수를 가지며, 입력된 소리에 따라 진동 운동을 하는 복수의 용수철 각각의 운동 방정식에 기초하여, 상기 복수의 용수철 각각의 진폭(Ai(t))을 산출하는 단계;
상기 진폭(Ai(t))에 기초하여, 상기 입력된 소리가 순음이라고 가정하여 산출된 진폭인 전이 상태 순음 진폭을 상기 복수의 용수철 각각에 대해 계산하는 단계;
상기 복수의 용수철 각각의 안정 상태 예상 진폭을 계산하는 단계;
상기 안정 상태 예상 진폭에 기초하여 상기 복수의 용수철 각각의 순음 예측 진폭을 계산하는 단계;
상기 전이 상태 순음 진폭과 상기 순음 예측 진폭을 곱함으로써 상기 복수의 용수철 각각의 순음 여과 진폭을 계산하는 단계;
상기 복수의 용수철의 고유주파수에 따른 상기 순음 여과 진폭을 나타냈을 때, 상기 순음 여과 진폭의 극댓값에 해당하는 용수철의 고유주파수를 추출하는 단계
를 포함하는 소리의 주파수 추출 방법. - 제1항에 있어서,
상기 안정 상태 예상 진폭은, 소리의 입력 기간 내의 적어도 두 시점에서의 진폭에 기초하여 계산되는 것을 특징으로 하는 소리의 주파수 추출 방법. - 제2항에 있어서,
상기 두 시점의 차는, 해당하는 용수철의 고유 주파수의 주기인 것을 특징으로 하는 소리의 주파수 추출 방법. - 제1항에 있어서,
상기 진폭(Ai(t))을 산출하는 단계는,
상기 복수의 용수철 각각의 운동 방정식으로부터 상기 복수의 용수철 각각의 변위 및 속도를 산출하는 단계;
상기 변위 및 속도에 기초하여, 상기 복수의 용수철 각각의 에너지를 계산하는 단계; 및
상기 에너지에 기초하여, 상기 복수의 용수철 각각의 진폭을 계산하는 단계
를 포함하는 것을 특징으로 하는 소리의 주파수 추출 방법. - 제1항에 있어서,
상기 복수의 용수철의 개수는, 추출하고자 하는 주파수의 범위 및 주파수 해상도에 기초하여 결정되는 것을 특징으로 하는 소리의 주파수 추출 방법. - 삭제
- 삭제
- 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 진폭을 추출하는 방법으로,
각각이 상이한 고유 주파수를 가지며, 입력된 소리에 대해 진동 운동을 하는 복수의 용수철 각각의 운동 방정식에 기초하여, 상기 복수의 용수철 각각의 진폭(Ai(t))을 산출하는 단계;
상기 복수의 용수철 중, 진폭(Ai(t))이 최대인 용수철의 안정 상태 예상 진폭을 추정하는 단계;
상기 안정 상태 예상 진폭에 기초하여 상기 진폭(Ai(t))이 최대인 용수철의 에너지를 계산하는 단계; 및
상기 에너지에 기초하여 입력 순음 진폭을 계산하는 단계;
를 포함하고,
상기 진폭(Ai(t))을 산출하는 단계는,
상기 복수의 용수철 각각의 운동 방정식으로부터 상기 복수의 용수철 각각의 변위 및 속도를 산출하는 단계;
상기 변위 및 속도에 기초하여, 상기 복수의 용수철 각각의 에너지를 계산하는 단계; 및
상기 에너지에 기초하여, 상기 복수의 용수철 각각의 진폭을 계산하는 단계
를 포함하는 것을 특징으로 하는 소리의 진폭 추출 방법. - 각 단계가 컴퓨터에 의해 수행되며, 입력된 소리의 진폭을 추출하는 방법으로,
각각이 상이한 고유 주파수를 가지며, 입력된 소리에 대해 진동 운동을 하는 복수의 용수철 각각의 운동 방정식에 기초하여, 상기 복수의 용수철 각각의 진폭(Ai(t))을 산출하는 단계;
상기 복수의 용수철 중, 진폭(Ai(t))이 최대인 용수철의 안정 상태 예상 진폭을 추정하는 단계;
상기 안정 상태 예상 진폭에 기초하여 상기 진폭(Ai(t))이 최대인 용수철의 에너지를 계산하는 단계; 및
상기 에너지에 기초하여 입력 순음 진폭을 계산하는 단계;
를 포함하고,
상기 안정 상태 예상 진폭(Ai,s)은, 하기의 식에 의해 계산되는 것을 특징으로 하는 소리의 진폭 추출 방법.
(단, t1 및 t2는 t2>t1 를 만족하는 소리의 입력 기간 내의 두 시점이며,
Ai(t1)은 t1에서 상기 진폭이 최대인 용수철의 진폭이고,
Ai(t2)은 t2에서 상기 진폭이 최대인 용수철의 진폭이고,
ζ는 상기 복수의 용수철의 감쇠 비율이고,
ω는 ωi가 상기 진폭이 최대인 용수철의 고유 주파수일 때, 의 식을 만족함) - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
상기 입력되는 소리가 어느 시점까지는 제1 주파수를 갖다가, 상기 시점 이후에는 상기 제1 주파수와 상이한 제2 주파수로 변경될 때,
상기 변경되는 시점에서의 주파수 변환 결과가 상기 제1 주파수를 나타내고,
상기 변경되는 시점 직후의 주파수 변환 결과는 상기 제2 주파수의 10퍼센트 범위 내를 나타내는 소리의 주파수 추출 방법.
- 삭제
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190003620A KR102277952B1 (ko) | 2019-01-11 | 2019-01-11 | 디제이 변환에 의한 주파수 추출 방법 |
CN201980088800.4A CN113316816A (zh) | 2019-01-11 | 2019-11-26 | 使用dj变换的频率提取方法 |
US17/268,444 US20210183403A1 (en) | 2019-01-11 | 2019-11-26 | Frequency extraction method using dj transform |
PCT/KR2019/016347 WO2020145509A2 (ko) | 2019-01-11 | 2019-11-26 | 디제이 변환에 의한 주파수 추출 방법 |
US18/210,866 US20230410821A1 (en) | 2019-01-11 | 2023-06-16 | Sound processing method and device using dj transform |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190003620A KR102277952B1 (ko) | 2019-01-11 | 2019-01-11 | 디제이 변환에 의한 주파수 추출 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200087402A KR20200087402A (ko) | 2020-07-21 |
KR102277952B1 true KR102277952B1 (ko) | 2021-07-19 |
Family
ID=71520805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190003620A KR102277952B1 (ko) | 2019-01-11 | 2019-01-11 | 디제이 변환에 의한 주파수 추출 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210183403A1 (ko) |
KR (1) | KR102277952B1 (ko) |
CN (1) | CN113316816A (ko) |
WO (1) | WO2020145509A2 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102382208B1 (ko) * | 2020-07-21 | 2022-04-04 | 브레인소프트주식회사 | 복합음을 구성하는 순음의 추출 방법 |
WO2023008831A1 (ko) * | 2021-07-27 | 2023-02-02 | 브레인소프트 주식회사 | 해석적 방법에 기반한 디제이 변환 주파수 추출 방법 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6080112A (en) * | 1998-05-13 | 2000-06-27 | House Ear Institute | Acoustic tumor detection using stacked derived-band ABR amplitude |
US6993480B1 (en) * | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US7828192B2 (en) * | 2005-01-03 | 2010-11-09 | 3M Innovative Properties Company | Amplitude adjustment of an ultrasonic horn |
US8489396B2 (en) * | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
US8065140B2 (en) * | 2007-08-30 | 2011-11-22 | Texas Instruments Incorporated | Method and system for determining predominant fundamental frequency |
JP2010169506A (ja) * | 2009-01-22 | 2010-08-05 | Meidensha Corp | 接触力測定装置及び接触力測定方法 |
EP2237266A1 (en) * | 2009-04-03 | 2010-10-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal |
WO2011031918A1 (en) * | 2009-09-11 | 2011-03-17 | Med-El Elektromedizinische Geraete Gmbh | Low pulse rate cochlear implant stimulation in conjunction with a separate representation of fundamental frequencies and voiced/unvoiced distinctions |
JP5626793B2 (ja) * | 2011-03-01 | 2014-11-19 | 日本電信電話株式会社 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
US9128496B2 (en) * | 2011-10-26 | 2015-09-08 | The United States Of America As Represented By Secretary Of The Navy | Auto-ranging for time domain extraction of perturbations to sinusoidal oscillation |
WO2014179021A1 (en) * | 2013-04-29 | 2014-11-06 | Dolby Laboratories Licensing Corporation | Frequency band compression with dynamic thresholds |
US9502044B2 (en) * | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US10755726B2 (en) * | 2015-01-07 | 2020-08-25 | Google Llc | Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone |
KR101754634B1 (ko) * | 2015-05-12 | 2017-07-07 | 주식회사 신성씨앤티 | 2자유도 감지 모드를 갖는 멤스 자이로스코프 |
EP3121814A1 (en) * | 2015-07-24 | 2017-01-25 | Sound object techology S.A. in organization | A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use |
JP6676258B2 (ja) * | 2015-08-24 | 2020-04-08 | 学校法人 東洋大学 | 生体音測定システムにおける測定データの校正方法 |
US10360895B2 (en) * | 2017-12-21 | 2019-07-23 | Bose Corporation | Dynamic sound adjustment based on noise floor estimate |
US11270721B2 (en) * | 2018-05-21 | 2022-03-08 | Plantronics, Inc. | Systems and methods of pre-processing of speech signals for improved speech recognition |
-
2019
- 2019-01-11 KR KR1020190003620A patent/KR102277952B1/ko active IP Right Grant
- 2019-11-26 CN CN201980088800.4A patent/CN113316816A/zh active Pending
- 2019-11-26 WO PCT/KR2019/016347 patent/WO2020145509A2/ko active Application Filing
- 2019-11-26 US US17/268,444 patent/US20210183403A1/en not_active Abandoned
Non-Patent Citations (1)
Title |
---|
Thomas F. Quatieri, Discrete-time speech signal processing, Prentice Hall PTR, 2002.* |
Also Published As
Publication number | Publication date |
---|---|
US20210183403A1 (en) | 2021-06-17 |
CN113316816A (zh) | 2021-08-27 |
KR20200087402A (ko) | 2020-07-21 |
WO2020145509A2 (ko) | 2020-07-16 |
WO2020145509A3 (ko) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2685391C1 (ru) | Способ, устройство и система для подавления шума | |
KR20180098806A (ko) | 자연어 인식 성능 개선 방법 및 장치 | |
KR20160099212A (ko) | 대어휘 연속 음성 인식 장치 및 방법 | |
KR102277952B1 (ko) | 디제이 변환에 의한 주파수 추출 방법 | |
US6502067B1 (en) | Method and apparatus for processing noisy sound signals | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
Deb et al. | A novel breathiness feature for analysis and classification of speech under stress | |
JPWO2004075074A1 (ja) | カオス論的指標値計算システム | |
Chamoli et al. | Detection of emotion in analysis of speech using linear predictive coding techniques (LPC) | |
KR102164306B1 (ko) | 디제이변환에 기초한 기본주파수 추출 방법 | |
CN115132191B (zh) | 基于机器学习的抗噪声语音识别方法及系统 | |
JP3174777B2 (ja) | 信号処理方法および装置 | |
KR20230044574A (ko) | 디제이변환을 통해 획득한 기본주파수를 이용한 데이터 증강법 | |
JP2007101813A (ja) | 認識システム | |
KR102382208B1 (ko) | 복합음을 구성하는 순음의 추출 방법 | |
KR101434592B1 (ko) | 뇌의 음향처리에 기반한 음성신호 프레임 분할 방법 | |
Khulage et al. | Analysis of speech under stress using Linear techniques and Non-Linear techniques for emotion recognition system | |
Zhuang et al. | Multi-task joint-learning for robust voice activity detection | |
US20230410821A1 (en) | Sound processing method and device using dj transform | |
JP4166405B2 (ja) | 駆動信号分析装置 | |
KR20220127096A (ko) | 음성 특성을 이용한 발화 속도 측정 방법, 이를 이용한 음성 인식 방법 및 장치 | |
CN106920558A (zh) | 关键词识别方法及装置 | |
Raj et al. | Gender based affection recognition of speech signals using spectral & prosodic feature extraction | |
Ahmadi et al. | Human mouth state detection using low frequency ultrasound. | |
JPS60129796A (ja) | 音声入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right |