KR101689332B1 - 정보 기반 소리 음량 조절 장치 및 그 방법 - Google Patents

정보 기반 소리 음량 조절 장치 및 그 방법 Download PDF

Info

Publication number
KR101689332B1
KR101689332B1 KR1020150128969A KR20150128969A KR101689332B1 KR 101689332 B1 KR101689332 B1 KR 101689332B1 KR 1020150128969 A KR1020150128969 A KR 1020150128969A KR 20150128969 A KR20150128969 A KR 20150128969A KR 101689332 B1 KR101689332 B1 KR 101689332B1
Authority
KR
South Korea
Prior art keywords
sound
frequency
signal
sound signal
frequency analysis
Prior art date
Application number
KR1020150128969A
Other languages
English (en)
Inventor
안강헌
유재연
홍성화
이우석
Original Assignee
충남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충남대학교산학협력단 filed Critical 충남대학교산학협력단
Priority to KR1020150128969A priority Critical patent/KR101689332B1/ko
Application granted granted Critical
Publication of KR101689332B1 publication Critical patent/KR101689332B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Abstract

본 발명은 입력된 소리의 음량을 조절하여 출력하는 장치와 그 방법에 관한 것이다.
본 발명에 따른 정보 기반 소리 음량 조절 장치는, 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출하는 것을 특징으로 하는 주파수 분석부, 상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식하는 소리 인식부, 및 상기 소리 인식부가 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력하는 게인 조절부를 포함한다.

Description

정보 기반 소리 음량 조절 장치 및 그 방법{Information-based Sound Volume Control Apparatus and Method thereof}
본 발명은 입력된 소리의 음량을 조절하여 출력하는 장치와 그 방법에 관한 것이다.
마이크로폰과 같은 소리 센서를 통하여 입력된 소리를 증폭하여 사용자가 소리를 더 듣기 쉽도록 소리를 출력하는 장치는 기존에 보청기나 확성기 등에 적용되어 널리 이용되어 왔다. 기존의 소리 음량 조절 장치에 있어서 설정된 소리 증폭률에 따라 입력되는 소리를 일률적으로 증폭하는 확성기가 존재한다. 하지만 이와 같은 확성기는 입력되는 모든 소리를 일률적으로 증폭함으로써, 불필요한 노이즈까지 증폭하여 사용자가 청음에 불편을 느끼고 의미있는 소리를 명확하게 인식하기 어렵도록 하는 문제점이 있다.
또한 기존의 소리 음량 조절 장치로는, 입력된 소리를 가공하여 사용자가 듣기를 원하는 음량으로 소리 크기를 조절하여 출력하는 장치도 존재한다. 예를 들면 보청기와 같은 경우 일률적으로 입력되는 모든 소리를 증폭하는 것이 아니라, 입력된 소리를 주파수 분석하고, 청각에 손실이 발생하여 보상이 필요한 주파수 대역에 해당하는 주파수 성분의 신호를 선택적으로 증폭하는 방식으로 동작한다. 그리고 보다 정확한 음량 조절을 위하여 청각에 손실이 발생한 주파수 대역을 청력검사를 통해 확인하고 장치의 파라미터를 설정한다. 그러나 이와 같은 소리 음량 조절 장치는 특정 주파수 대역에 대하여는 모두 동일하게 음량을 증폭함으로써, 사용자에게 의미 없는 소리일지라도 해당 주파수 대역에 포함되면 증폭되어 사용자의 소리 인지를 방해하는 문제점이 있다.
(특허문헌 0001) 공개특허공보 10-2014-0148089 (2014.12.31.)
(특허문헌 0002) 공개특허공보 10-2006-0092456 (2006.08.23.)
(특허문헌 0003) 공개특허공보 특1991-0004062 (1991.02.28.)
본 발명이 해결하고자 하는 과제는 주파수 대역 별로 선택적으로 음량을 조절함으로써 불필요한 소리까지 소리 크기를 증폭하였던 기존 방식의 문제점을 해결하고, 입력된 소리를 분석하여 획득한 정보에 따라 소정의 시간 구간 별로 입력된 소리의 소리 크기를 증폭하거나 또는 감쇄함으로써, 사용자가 보다 명확하게 의미 있는 소리를 청각을 통해 인지할 수 있도록 하는 정보 기반 소리 음량 조절 장치 및 그에 관한 방법을 제공하는 것이다.
상기 과제를 해결하기 위해, 본 발명의 일 유형에 따른 정보 기반 소리 음량 조절 장치는, 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출하는 것을 특징으로 하는 주파수 분석부; 상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식하는 소리 인식부; 및 상기 소리 인식부가 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력하는 게인 조절부를 포함할 수 있다.
여기서 상기 주파수 분석부는 고속 주파수 분석 회로를 이용하여 상기 주파수 신호 또는 상기 주파수 분석 계수를 산출하고, 상기 게인 조절부는 상기 주파수 분석부가 상기 소리 신호를 입력받은 시간으로부터 적어도 1초 이내에 상기 게인 값을 설정하여 출력하는 것을 특징으로 할 수 있다.
여기서 상기 정보 기반 소리 음량 조절 장치는 마이크로폰을 구비하고, 상기 마이크로폰으로 소리를 감지하여, 상기 감지한 소리를 상기 소리 신호로 변환하는 소리 센서부를 더 포함할 수 있다.
여기서 상기 주파수 분석부는 상기 소리 센서부가 변환한 상기 소리 신호를 입력받는 것을 특징으로 할 수 있다.
여기서 상기 소리 인식부는 상기 분류기를 이용하여 소정의 시간 구간에 있어서 상기 소리 신호가 음성 또는 노이즈에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정하고, 상기 게인 조절부는, 상기 소리 신호가 상기 노이즈 또는 상기 음성에 해당하는지 여부에 따라 미리 정해진 규칙에 의하여 상기 시간 구간에서의 상기 게인 값의 크기를 조절하는 것을 특징으로 할 수 있다.
상기 소리 인식부는 상기 분류기를 이용하여 소정의 시간 구간에 있어서 상기 소리 신호가 음성 또는 하모닉 신호 또는 노이즈 중 적어도 어느 하나에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정하고, 상기 게인 조절부는, 상기 소리 신호가 상기 음성에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이상으로 증가시키고, 상기 소리 신호가 상기 노이즈에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이하로 감소시키고, 상기 소리 신호가 상기 하모닉 신호에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이내로 설정하는 것을 특징으로 할 수 있다.
여기서 상기 정보 기반 소리 음량 조절 장치는 상기 게인 값을 입력받고, 상기 게인 값에 따라 상기 소리 신호의 크기를 조절하여 출력하는 소리 출력부를 더 포함할 수 있다.
여기서 상기 소리 출력부는, 상기 게인 값에 따라 상기 소리 신호의 크기를 조절하는 증폭기; 및 상기 크기를 조절한 소리 신호를 소리로 변환하여 출력하는 스피커를 포함할 수 있다.
여기서 상기 주파수 분석부는 상기 소리 신호로부터 미리 정해진 길이를 가지는 소리 신호 프레임을 획득하고, 상기 소리 신호 프레임을 주파수 변환하여 상기 소리 신호 프레임에서의 주파수 신호를 산출하는 주파수 신호 산출부; 적어도 하나 이상의 필터를 포함하는 필터 뱅크를 이용하여 상기 소리 신호 프레임에서의 주파수 신호를 필터링하여, 상기 필터 별 필터링한 신호를 출력하는 필터 뱅크부; 및 상기 필터링한 신호에 따라 상기 주파수 분석 계수를 산출하는 주파수 분석 계수 산출부를 포함할 수 있다.
여기서 상기 필터 뱅크부는 멜 스케일(Mel Scale)에 따라 상기 필터들 간에 주파수 구간이 구분된 상기 필터 뱅크를 이용하여 상기 주파수 신호를 필터링하고, 상기 필터링한 신호를 출력하는 것을 특징으로 할 수 있다.
여기서 상기 주파수 분석 계수 산출부는 상기 필터링한 신호를 연산하여 멜 주파수 캡스트럼 계수(Mel-frequency cepstral coefficient)를 산출하고, 상기 산출한 멜 주파수 캡스트럼 계수를 상기 주파수 분석 계수로 출력하는 것을 특징으로 할 수 있다.
여기서 상기 주파수 분석부는 멜 스케일(Mel Scale)에 따라 복수 개의 필터들 간에 주파수 구간이 구분된 상기 필터들을 포함하는 필터 뱅크를 이용하여 상기 주파수 신호를 필터링하고, 상기 필터링한 신호에 기초하여 멜 주파수 캡스트럼 계수(Mel-frequency cepstral coefficient)를 산출하고, 상기 산출한 멜 주파수 캡스트럼 계수를 상기 주파수 분석 계수로 출력하는 것을 특징으로 할 수 있다.
여기서 상기 소리 인식부는 신경 망(Neural Network)에 기반한 분류기를 이용하여, 상기 주파수 분석 계수를 상기 신경 망에 기반한 분류기에 입력하여 상기 소리 신호가 해당하는 상기 부류를 분류하는 것을 특징으로 할 수 있다.
여기서 상기 주파수 분석부는 상기 주파수 신호로부터 상기 주파수 분석 계수로서 멜 주파수 캡스트럼 계수를 산출하고, 상기 소리 인식부는 상기 멜 주파수 캡스트럼 계수를 입력받고, 상기 입력받은 멜 주파수 캡스트럼 계수를 상기 신경 망에 기반한 분류기에 입력하여, 상기 소리 신호가 해당하는 상기 부류를 분류하는 것을 특징으로 할 수 있다.
여기서 상기 소리 인식부는 상기 신경 망의 가중치와 바이어스가 미리 학습되어 결정된 상기 신경 망에 기반한 분류기를 이용하여, 상기 주파수 분석 계수를 상기 신경 망의 입력 레이어의 입력 뉴런 값으로 입력하고, 상기 입력한 입력 뉴런 값을 각 레이어의 상기 가중치와 상기 바이어스를 이용하여 연산하여 출력 레이어의 출력 뉴런 값을 산출하고, 상기 산출한 출력 뉴런 값에 따라 상기 소리 신호의 상기 부류를 결정하는 것을 특징으로 할 수 있다.
상기 과제를 해결하기 위해, 본 발명의 또 다른 유형에 따른 정보 기반 소리 음량 조절 방법은, 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출하는 주파수 분석 단계; 상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식하는 소리 인식 단계; 및 상기 소리 인식 단계에서 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력하는 게인 조절 단계를 포함할 수 있다.
여기서 상기 정보 기반 소리 음량 조절 방법은 마이크로폰으로 소리를 감지하고, 상기 감지한 소리를 상기 소리 신호로 변환하는 소리 감지 단계; 상기 게인 조절 단계에서 출력된 상기 게인 값을 입력받고, 상기 게인 값에 따라 상기 소리 신호의 크기를 조절하는 음량 조절 단계; 및 상기 크기를 조절한 소리 신호에 따른 소리를 출력하는 소리 출력 단계를 더 포함할 수 있다.
여기서 상기 주파수 분석 단계는 상기 소리 감지 단계에서 변환한 상기 소리 신호를 입력받는 것을 특징으로 할 수 있다.
여기서 상기 소리 인식 단계는 상기 분류기를 이용하여 소정의 시간 구간에서의 상기 소리 신호가 음성 또는 노이즈에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정하고, 상기 게인 조절 단계는 상기 소리 신호가 상기 노이즈 또는 상기 음성에 해당하는지 여부에 따라 미리 정해진 규칙에 의하여 상기 시간 구간에서의 상기 게인 값의 크기를 조절하는 것을 특징으로 할 수 있다.
여기서 상기 주파수 분석 단계는, 상기 소리 신호로부터 미리 정해진 길이를 가지는 소리 신호 프레임을 획득하고, 상기 소리 신호 프레임을 주파수 변환하여 상기 소리 신호 프레임에서의 상기 주파수 신호를 산출하는 주파수 신호 산출 단계; 적어도 하나 이상의 필터를 포함하는 필터 뱅크를 이용하여 상기 소리 신호 프레임에서의 상기 주파수 신호를 필터링하여, 상기 필터 별 필터링한 신호를 출력하는 필터링 단계; 및 상기 필터링한 신호에 따라 상기 주파수 분석 계수를 산출하는 주파수 분석 계수 산출 단계를 포함할 수 있다.
여기서 상기 주파수 분석 단계는 상기 주파수 신호로부터 상기 주파수 분석 계수로서 멜 주파수 캡스트럼 계수를 산출하고, 상기 소리 인식 단계는 상기 멜 주파수 캡스트럼 계수를 입력받고, 상기 입력받은 멜 주파수 캡스트럼 계수를 신경 망에 기반한 분류기에 입력하여, 상기 소리 신호가 해당하는 상기 부류를 분류하는 것을 특징으로 할 수 있다.
본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면, 입력된 소리를 분석하여 획득한 정보에 따라 소정의 시간 구간 별로 입력된 소리의 소리 크기를 증폭하거나 또는 감쇄함으로써, 사용자가 보다 명확하게 의미 있는 소리를 청각을 통해 인지할 수 있는 효과가 있다.
또한 본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면 정보가 있지 않는 소리 크기를 줄임으로서 큰 강도의 노이즈에서 오는 불쾌감, 피로도 등을 자동적으로 감소시킬 수 있다. 예를 들어 현재의 보청기는 노이즈 상황에서는 수동으로 증폭 동작을 멈춰야 하므로 사용자의 불편을 초래하는데, 본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면 이러한 동작이 자동적으로 이루어지는 효과가 있다. 또한 불필요할 때 자동적으로 증폭을 하지 않음으로써 보청기의 배터리 소모도 줄일 수 있는 효과가 있다.
또한 본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면, 실시간으로 입력된 소리의 정보를 파악하고 그에 따라 소리 음량을 조절하여, 사용자가 입력된 소리에 대하여 음량이 조절된 소리를 실시간으로 청취할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 정보 기반 소리 음량 조절 장치의 블록도이다.
도 2는 본 발명의 또 다른 실시예에 따른 정보 기반 소리 음량 조절 장치 블록도이다.
도 3은 소리 센서부의 세부 블록도이다.
도 4는 소리 출력부의 세부 블록도이다.
도 5는 게인 조절부의 동작을 설명하기 위한 참고도이다.
도 6은 주파수 분석부의 세부 블록도이다.
도 7은 멜 스케일에 따른 각 필터 간 주파수 구간을 가지는 필터 뱅크를 설명하기 위한 참고도이다.
도 8은 소리 인식부의 동작을 설명하기 위한 참고도이다.
도 9는 상기 본 발명의 또 다른 실시예에 따른 정보 기반 소리 음량 조절 방법의 흐름도이다.
도 10은 본 발명의 또 다른 실시예에 따른 정보 기반 소리 음량 조절 방법의 흐름도이다.
도 11은 주파수 분석 단계의 세부 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
사람의 청력을 보완하기 위하여 마이크로폰으로 입력된 소리를 증폭하여 사용자가 소리를 더 듣기 쉽도록 소리를 출력하는 장치는 기존에 보청기나 확성기 등에 적용되어 왔다.
일 예로 기존의 소리 음량 조절 장치에 있어서 설정된 소리 증폭률에 따라 입력되는 소리를 일률적으로 증폭하는 확성기가 존재한다. 하지만 이와 같은 확성기는 입력되는 모든 소리를 일률적으로 증폭함으로써, 불필요한 노이즈까지 증폭하여 사용자가 청음에 불편을 느끼고 의미있는 소리를 명확하게 인식하기 어렵도록 하는 문제점이 있다.
또한 기존에 보청기의 경우 일률적으로 입력되는 모든 소리를 증폭하는 것이 아니라, 입력된 소리를 주파수 분석하고, 청각에 손실이 발생하여 보상이 필요한 주파수 대역에 해당하는 주파수 성분의 신호를 선택적으로 증폭하는 방식으로 동작한다. 그리고 보다 정확한 음량 조절을 위하여 청각에 손실이 발생한 주파수 대역을 청력검사를 통해 확인하고 장치의 파라미터를 설정한다. 그러나 이와 같은 소리 음량 조절 장치는 특정 주파수 대역에 대하여는 모두 동일하게 음량을 증폭함으로써, 사용자에게 의미 없는 소리일지라도 해당 주파수 대역에 포함되면 증폭되어 사용자의 소리 인지를 방해하는 문제점이 있다.
이에 본 발명은 주파수 대역 별로 선택적으로 음량을 조절함으로써 불필요한 소리까지 소리 크기를 증폭하였던 기존의 소리 음량 조절 방식들의 문제점을 해결하고, 입력된 소리를 분석하여 획득한 정보에 따라 소정의 시간 구간 별로 입력된 소리의 소리 크기를 증폭하거나 또는 감쇄함으로써, 사용자가 보다 명확하게 의미 있는 소리를 청각을 통해 인지할 수 있도록 하는 정보 기반 소리 음량 조절 장치 및 그에 관한 방법을 제공한다.
본 발명에 따른 정보 기반 소리 음량 조절 장치는 보청기에 포함되어 이용될 수 있다. 하지만 본 발명에 따른 정보 기반 소리 음량 조절 장치는 확성기나 보청기에 한정되는 것이 아님은 물론이며, 입력된 소리 신호를 소리 신호의 정보 특성에 따라 음량을 증폭하거나 감쇄하여 소리를 출력하는 기능을 제공하는 일체의 장치에 포함되어 동작할 수 있다. 예를 들면 본 발명에 따른 정보 기반 소리 음량 조절 장치는 방송 음향 장치나 마이크 장치에 포함될 수 있고, 또는 스마트폰, 테블릿, 노트북, 기타 소리를 마이크로폰으로 입력받고 스피커를 이용하여 출력하는 다양한 디바이스 및 임베디드 시스템 장치에 포함되어 동작할 수 있다.
본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면, 입력된 소리를 분석하여 획득한 정보에 따라 소정의 시간 구간 별로 입력된 소리의 소리 크기를 증폭하거나 또는 감쇄하여 음량을 조절함으로써, 사용자가 보다 명확하게 의미 있는 소리를 청각을 통해 인지할 수 있는 효과가 있다. 또한 본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면 정보가 있지 않는 소리 크기를 줄임으로서 큰 강도의 노이즈에서 오는 불쾌감, 피로도 등을 자동적으로 감소시킬 수 있다. 예를 들어 현재의 보청기는 노이즈 상황에서는 수동으로 증폭 동작을 멈춰야 하므로 사용자의 불편을 초래하는데, 본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면 이러한 동작이 자동적으로 이루어지는 효과가 있다. 또한 불필요할 때 자동적으로 증폭을 하지 않음으로써 보청기의 배터리 소모도 줄일 수 있는 효과가 있다. 또한 본 발명에 따른 정보 기반 소리 음량 조절 장치 및 그 방법에 의하면, 실시간으로 입력된 소리의 정보를 파악하고 그에 따라 소리 음량을 조절하여, 사용자가 입력된 소리에 대하여 음량이 조절된 소리를 실시간으로 청취할 수 있는 효과가 있다.
이하에서는 본 발명에서 제공하는 정보 기반 소리 음량 조절 장치와 그에 관한 방법에 대하여 보다 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 정보 기반 소리 음량 조절 장치의 블록도이다.
상기 본 발명에 따른 정보 기반 소리 음량 조절 장치는 주파수 분석부(100), 소리 인식부(200), 게인 조절부(300)를 포함할 수 있다.
여기서 본 발명에 따른 정보 기반 소리 음량 조절 장치는 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한 필요에 따라 각 구성요소들은 각각 하나의 독립적인 하드웨어로 구현되거나 각 하드웨어에 포함될 수도 있다. 또한 본 발명에 따른 정보 기반 소리 음량 조절 장치는 소프트웨어 프로그램으로 구현되어 프로세서 또는 신호 처리 모듈 위에서 동작할 수 있고, 또는 하드웨어의 형태로 구현되어 각종 프로세서, 칩(Chip), 반도체, 소자 등에 포함될 수 도 있다. 또한 본 발명에 따른 정보 기반 소리 음량 조절 장치는 컴퓨터, 각종 임베디드 시스템 또는 디바이스 상에서 하드웨어 또는 소프트웨어 모듈의 형태로 포함되어 동작할 수 있다.
주파수 분석부(100)는 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출한다. 여기서 주파수 분석 계수는 바람직하게는 이하에서 상세히 설명할 바와 같이 멜 주파수 캡스트럼 계수를 산출하여 이용할 수 있다.
소리 인식부(200)는 상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식한다. 여기서 분류기는 바람직하게는 이하에서 상세히 설명할 바와 같이 신경 망에 기반한 분류기를 이용할 수 있다.
게인 조절부(300)는 상기 소리 인식부(200)가 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력한다.
도 2는 본 발명의 또 다른 실시예에 따른 정보 기반 소리 음량 조절 장치 블록도이다.
여기서 본 발명에 따른 정보 기반 소리 음량 조절 장치는 상술한 주파수 분석부(100), 소리 인식부(200), 게인 조절부(300)를 포함하면서, 소리 센서부(10) 또는 소리 출력부(20) 중 적어도 어느 하나 이상을 더 포함할 수 있다.
여기서 소리 센서부(10)는 마이크로폰(11)을 구비하고, 상기 마이크로폰으로 소리를 감지하여, 상기 감지한 소리를 상기 소리 신호로 변환할 수 있다. 여기서 소리를 감지한다는 것은 마이크로폰으로 소리를 센싱한다는 것을 의미하고, 이후 전기, 전자적인 형태의 소리 신호로 변환할 수 있는 것이다.
이때 주파수 분석부(100)는 소리 센서부(10)가 변환한 상기 소리 신호를 입력받을 수 있다.
도 3은 소리 센서부(10)의 세부 블록도이다.
여기서 소리 센서부(10)는 소리 신호 변환부(12)를 포함할 수 있고, 소리 신호 변환부(12)는 마이크로폰(11)이 감지한 소리를 소리 신호로 변환할 수 있다. 예를 들어 소리 신호 변환부(12)는 마이크로폰(11)의 출력을 입력받아 아날로그 또는 디지털 신호의 형태로 상기 소리 신호를 출력하는 회로 또는 소자가 될 수 있다.
소리 출력부(20)는 게인 조절부(300)로부터 상기 게인 값을 입력받고, 상기 게인 값에 따라 상기 소리 신호의 크기를 조절하여 출력한다.
도 4는 소리 출력부(20)의 세부 블록도이다.
여기서 소리 출력부(20)는 증폭기(21) 및 스피커(22)를 포함할 수 있다.
증폭기(21)는 입력되는 게인 값에 따라 입력받은 소리 신호의 크기를 조절한다. 예를 들어 게인 값이 2이면 입력받은 소리 신호의 크기를 2배로 증폭하여 출력할 수 있다.
스피커(22)는 상기 크기를 조절한 소리 신호를 소리로 변환하여 출력한다.
여기서 소리 신호는 시간에 따른 소리의 크기를 나타내는 전기, 전자적인 형태의 신호로써 소리 음량 조절 장치 내에서 처리되는 신호를 의미하고, 스피커(22)가 출력하는 소리는 장치 외부로 출력되어 사람이 들을 수 있는 음파로써의 소리를 의미한다.
이때 상기 소리 신호는 시간에 따른 소리의 크기를 나타내는 샘플링된 이산 신호가 될 수 있다. 즉 상기 소리 신호는 소정의 시간 간격으로 샘플링된 소리 크기에 따른 값을 가지는 샘플들로 구성된 이산 신호가 될 수 있다. 여기서 소리 신호의 각 샘플들이 디지털화된 크기를 가지는 디지털 신호가 될 수 있음은 물론이다.
또는 상기 소리 신호는 시간에 따른 소리의 크기를 나타내는 아날로그 신호가 될 수도 있다. 이때 주파수 분석부(100)는 아날로그 회로를 이용하여 상기 소리 신호를 선 처리한 다음, 디지털 신호로 변환하여 상기 주파수 신호 또는 주파수 분석 계수를 산출할 수도 있다.
본 발명에 따른 정보 기반 소리 음량 조절 장치는 입력된 소리 신호의 부류를 소정의 시간 구간 별로 분류하고 그에 따라 소리의 음량을 조절하여, 사용자가 소리를 보다 명확하게 인식할 수 있도록 할 수 있다. 이하에서 상세히 설명할 바와 같이 주파수 분석부(100)는 입력받은 소리 신호를 소정의 시간 길이를 가지는 프레임으로 분할하고, 분할한 각 소리 신호 프레임을 신호 처리하여 각 소리 신호 프레임에 대한 주파수 분석 계수를 산출한다. 그리고 소리 인식부(200)는 이와 같이 소리 신호 프레임 단위로 산출된 주파수 분석 계수를 입력받아 해당 소리 신호 프레임에 대응하는 소리 신호가 미리 정해진 부류 중 어느 부류에 해당하는지를 분류기를 이용하여 판단한다. 그리고 게인 조절부(300)는 판단된 부류에 따라 소리 신호의 음량을 조절한다. 위와 같은 구성을 통하여 본 발명에 따른 정보 기반 소리 음량 조절 장치는 소리 신호 프레임의 길이에 대응하는 소정의 시간 구간의 소리 신호의 정보에 따라 소리 신호의 음량을 조절할 수 있도록 한다.
여기서 소리 인식부(200)는 분류기를 이용하여 소정의 시간 구간에 있어서 상기 소리 신호가 음성 또는 노이즈에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정할 수 있다.
이때 게인 조절부(300)는 상기 소리 신호가 상기 노이즈 또는 상기 음성에 해당하는지 여부에 따라 미리 정해진 규칙에 의하여 상기 시간 구간에서의 상기 게인 값의 크기를 조절할 수 있다.
도 5 (a)는 게인 조절부(300)의 동작을 설명하기 위한 참고도이다.
도 5 (a)와 같이 게인 조절부(300)는 소리 신호가 음성에 해당하는 음성 구간인 경우 게인 값을 소정의 기준에 따라 증가시키고(b), 노이즈인 경우 게인 값을 소정의 기준에 따라 감소시킬 수 있다(c). 여기서 게인 값을 조절하는 기준은 고정된 기준 값을 이용할 수 있다. 또는 시간에 따른 원만한 게인 값의 조절을 위하여 기준 값과 시간 및 소리 신호의 부류를 변수로 하는 다항식의 출력 값을 게인 값으로 할 수도 있다. 이처럼 게인 조절부(300)가 조절하는 게인 값에 따라 소리 출력부(20)에서 소리를 출력함으로써, 사용자는 보다 명확하게 사람의 음성을 인식할 수 있는 효과가 있다. 이는 게인 조절부(300)에서 소리 신호가 음성 인식에 불필요하고 음성 인식을 방해하는 노이즈 구간에 해당하는 경우 소리 크기를 감소시키고, 음성 구간에 해당하는 경우 소리 크기를 증가시키기 때문이다. 또한 노이즈 구간에서 불필요한 소리 크기가 감소됨으로 인하여 사람의 청각 피로감이 감소하여 다음 음성 구간의 소리를 보다 명확하게 인지할 수 있도록 하는 효과가 있다.
또는 소리 인식부(200)는 상기 분류기를 이용하여 소정의 시간 구간에 있어서 상기 소리 신호가 음성 또는 하모닉 신호 또는 노이즈 중 적어도 어느 하나에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정할 수도 있다. 즉 음성과 노이즈 외에 하모닉 성분을 더 고려하는 분류를 수행할 수도 있다.
이때 게인 조절부(300)는, 상기 소리 신호가 상기 음성에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이상으로 증가시킬 수 있다.
그리고 게인 조절부(300)는 상기 소리 신호가 상기 노이즈에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이하로 감소시킬 수 있다.
그리고 게인 조절부(300)는 상기 소리 신호가 상기 하모닉 신호에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이내로 설정할 수 있다.
여기서 미리 정해진 규칙이라 함은 소리 신호의 부류에 따라 게인 값을 조절하기 위하여 미리 설정한 규칙을 의미하며, 상술한 바와 같이 소리 신호의 부류에 따라 고정된 기준 값을 가지도록 게인 값을 설정하는 규칙이 될 수도 있고, 또는 시간에 따른 게인 값의 원만한 조절을 위해 특정 기준 값과 시간 및 부류를 변수로 하는 다항식의 출력 값으로 게인 값을 설정하는 규칙이 될 수도 있다.
도 5 (b)는 게인 조절부(300)의 위와 같은 동작을 설명하기 위한 참고도이다.
도 5 (b)와 같이 게인 조절부(300)는 소리 신호가 음성인 경우 게인 값을 소정의 기준 값(b)에 따라 증가시키고, 음악과 같은 하모닉 성분인 경우 게인 값을 소정의 기준(a) 이내로 복구 설정하고, 노이즈인 경우 게인 값을 소정의 기준 값(c)으로 감소시킬 수 있다. 위와 같은 게인 조절부(300)가 조절하는 게인 값에 따라 소리 출력부(20)에서 소리를 출력함으로써, 사용자는 보다 명확하게 사람의 음성을 인식하면서도 노이즈가 아닌 음악과 같은 하모닉 성분의 소리 역시 청취할 수 있는 효과가 있다.
이하에서는 주파수 분석부(100)의 동작에 대하여 보다 상세히 설명한다.
주파수 분석부(100)는 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출한다. 여기서 주파수 분석 계수는 바람직하게는 이하에서 상세히 설명할 바와 같이 멜 주파수 캡스트럼 계수를 산출하여 이용할 수 있다.
도 6은 주파수 분석부(100)의 세부 블록도이다.
주파수 분석부(100)는 주파수 신호 산출부(110), 필터 뱅크부(120), 주파수 분석 계수 산출부(130)를 포함할 수 있다.
주파수 신호 산출부(110)는 상기 소리 신호로부터 미리 정해진 길이를 가지는 소리 신호 프레임을 획득하고, 상기 소리 신호 프레임을 주파수 변환하여 상기 소리 신호 프레임에서의 주파수 신호를 산출한다.
여기서 소리 신호 프레임의 길이는 예를 들어 20ms 내지 40ms의 시간 길이를 가질 수 있고, 이산 신호인 경우 해당 시간 길이에 대응하는 샘플들의 개수가 될 수 있다. 예를 들어 샘플링 주파수가 16KHz인 소리 신호인 경우 초당 160,000개의 샘플이 존재하는 것이고 만일 소리 신호 프레임의 시간 길이가 25ms인 경우 하나의 소리 신호 프레임은 400개의 샘플을 가질 수 있다(0.025s x 160,000Hz = 400).
이상과 같이 시간 영역에서 샘플링되어 획득된 일정한 개수의 샘플을 가지는 소리 신호 프레임은 주파수 신호 산출부(110)에 의하여 주파수 변환되어 상기 소리 신호 프레임에 대응하는 주파수 신호가 산출될 수 있다. 예를 들어 주파수 신호 산출부(110)는 DFT(Discrete Fourier Transform)을 하여 주파수 신호를 산출할 수 있다.
예를 들면 주파수 신호 산출부(110)는 하기 수학식 1과 같이 소리 신호 프레임의 샘플들을 DFT 변환하여 주파수 신호를 산출할 수 있다.
Figure 112015088569770-pat00001
여기서 n은 소리 신호 프레임의 샘플 인덱스이고, N은 하나의 소리 신호 프레임에 포함되는 샘플들의 개수이고, i는 소리 신호 프레임의 인덱스이고, si(n)는 i번째 소리 신호 프레임이고, Si(f)는 i번째 소리 신호 프레임에 대응하는 주파수 변환된 주파수 신호이고, F는 DFT의 길이이고, h(n)은 윈도우 함수이다. 예를 들면 윈도우 함수로는 hamming 윈도우 함수를 이용할 수 있고, 기타 다양한 윈도우 함수를 이용할 수 있음은 물론이다.
필터 뱅크부(120)는 적어도 하나 이상의 필터를 포함하는 필터 뱅크를 이용하여 상기 소리 신호 프레임에서의 주파수 신호를 필터링하여, 상기 필터 별 필터링한 신호를 출력한다.
여기서 필터 뱅크부(120)는 멜 스케일(Mel Scale)에 따라 상기 필터들 간에 주파수 구간이 구분된 상기 필터 뱅크를 이용하여 상기 주파수 신호를 필터링하고, 상기 필터링한 신호를 출력할 수 있다.
멜 스케일(Mel Scale)은 사람의 청각이 인지하는 주파수 특성을 고려하여 제안된 주파수 스케일로서, 사람이 청각으로 인지하였을 때 서로 동일한 주파수 간격을 가진다고 판단하는 주파수의 인지 스케일에 따라 설정된 주파수 스케일을 의미한다. 사람의 청각은 높은 주파수의 영역보다 낮은 주파수 영역을 보다 민감하게 감지하고, 따라서 고주파 영역일수록 청각의 인지 분해 능력이 떨어지고 저주파 영역일수록 청각의 인지 분해 능력이 증가하게 된다. 따라서 이와 같은 사람의 청각의 특성을 반영한 멜 스케일에서 주파수 신호를 처리하는 것이 사람의 인지를 고려한 소리 신호의 처리에 보다 적합하다고 할 것이다. 이에 본 발명에서는 이와 같은 멜 스케일에 따라 필터들 간에 주파수 구간이 구분된 필터 뱅크를 이용하여 주파수 신호를 필터링하고, 그에 따라 각 필터에서의 주파수 분석 계수를 산출한다.
일반 주파수를 멜 스케일의 주파수로 변환하는 공식은 다음 수학식 2와 같다.
Figure 112015088569770-pat00002
여기서 바람직하게는 a는 2595, b는 700이고, 필요에 따라 다른 수로 설정될 수도 있다.
필터 뱅크부(120)에서는 상기 수학식 1과 같이 멜 스케일의 주파수 영역에서 필터 간의 주파수 구간을 구분한 필터 뱅크를 이용한다. 예를 들어 300 ~ 8000 Hz 영역에서 4개의 필터들로 이루어진 필터 뱅크를 만든다고 가정하면, 300 ~ 8000 Hz 영역을 균등하여 4개의 필터들을 생성하는 것이 아니라, 300 ~ 8000 Hz 영역을 멜 스케일의 주파수 영역으로 변환하고(401.25 ~ 2834.99 Mel), 변환한 멜 스케일의 주파수 영역에서 균등하여 4개의 필터의 멜 스케일 주파수 구간을 구분하는 것이 바람직하다. 그리고 위와 같이 구분된 각 필터의 멜 스케일의 주파수 구간을 다시 일반 주파수 영역으로 역변환하여 그에 따라 필터 별 주파수 구간을 설정할 수 있는 것이다. 여기서 필터 뱅크가 포함하는 필터들의 수는 필요에 따라 다양한 수치로 설정될 수 있음은 물론이다.
도 7은 상술한 멜 스케일에 따른 각 필터 간 주파수 구간을 가지는 필터 뱅크를 설명하기 위한 참고도이다.
도 7 (a)는 일반적인 필터 뱅크를 나타내는 참고도이다.
일반적인 필터 뱅크의 경우 도 7 (a)와 같이 4개의 필터들 간에 각 필터들이 동일한 넓이의 주파수 구간을 가질 수 있다(0 ~ f0, f0 ~ 2f0, 2f0 ~ 3f0, 3f0 ~ 4f0).
도 7 (b)는 멜 스케일에 따른 각 필터 간 주파수 구간을 가지는 필터 뱅크를 나타내는 참고도이다.
필터 뱅크부(120)에서는 도 7 (b)와 같은 필터 간 주파수 구간을 가지는 필터 뱅크를 이용하여 주파수 신호를 필터링할 수 있다. 여기서 m(f1), m(f2), m(f3), m(f4)는 서로 등간격이 될 수 있다.
필터 뱅크부(120)는 이와 같이 멜 스케일의 주파수 영역에서 필터 간 주파수 구간을 구분한 필터 뱅크를 이용함으로써, 소리 인지 측면에서 보다 의미 있는 정보를 효율적으로 보존할 수 있다. 그리고 그에 따라 이후 소리 인식부(300)에서 소리 신호의 분류 성능을 보다 증가시킬 수 있는 효과가 있다.
다음으로 주파수 분석 계수 산출부(130)는 상기 필터링한 신호에 따라 상기 주파수 분석 계수를 산출한다.
여기서 주파수 분석 계수는 상술한 필터 뱅크의 각 필터에서 필터링한 신호에 따라 결정되는 계수이다.
여기서 주파수 분석 계수 산출부(130)는 바람직하게는 상기 필터링한 신호를 연산하여 멜 주파수 캡스트럼 계수(Mel-frequency cepstral coefficient)를 산출하고, 상기 산출한 멜 주파수 캡스트럼 계수를 상기 주파수 분석 계수로 출력할 수 있다. 멜 주파수 캡스트럼 계수(Mel-frequency cepstral coefficient)는 소리의 short-term 파워 스팩트럼을 나타내는 계수로 오디오 신호 처리 분야에서 특징으로 사용되는 계수이다. 본 발명에 따른 정보 기반 소리 음량 조절 장치는 주파수 분석 계수 산출부(130)에서 멜 주파수 캡스트럼 계수를 산출하여 상기 주파수 분석 계수로 출력함으로써, 소리 인식부(200)에서 보다 높은 정확도로 소리 신호의 부류를 인식할 수 있는 효과가 있다.
주파수 분석 계수 산출부(130)는 하기 수학식 3 및 수학식 4와 같이 멜 주파수 캡스트럼 계수를 산출할 수 있다.
Figure 112015088569770-pat00003
Figure 112015088569770-pat00004
여기서 Si(f)는 i번째 소리 신호 프레임에 대응하는 주파수 신호이고, N은 소리 신호 프레임의 길이이고, j는 필터 뱅크의 필터의 인덱스이고, MFj는 필터 뱅크의 j번째 필터이고,
Figure 112015088569770-pat00005
는 i번째 소리 신호 프레임에서의 j번째 필터에 대응하는 주파수 분석 계수이고, J는 필터 뱅크의 필터의 수이다.
여기서 수학식 4는 DCT(Discrete Cosine Transform)를 연산하는 식으로, J는 필터 뱅크에 포함된 필터의 수이고, ci(n)는 멜 주파수 캡스트럼 계수이다.
이와 같이 주파수 분석부(100)는 멜 스케일(Mel Scale)에 따라 복수 개의 필터들 간에 주파수 구간이 구분된 상기 필터들을 포함하는 필터 뱅크를 이용하여 상기 주파수 신호를 필터링하고, 상기 필터링한 신호에 기초하여 멜 주파수 캡스트럼 계수(Mel-frequency cepstral coefficient)를 산출하고, 상기 산출한 멜 주파수 캡스트럼 계수를 상기 주파수 분석 계수로 출력할 수 있다.
또는 주파수 분석부(100)는 멜 주파수 캡스트럼 계수 대신 주파수 분석 계수로 컨볼루션 적분 신호(Convolution Integral Signal)를 이용할 수도 있다. 여기서 상기 소리 신호가 xj이고, j는 시간에 따른 인덱스라고 할 때 컨볼루션 적분 신호는 식
Figure 112015088569770-pat00006
과 같이 상기 소리 신호의 적분된 값을 두 개의 인덱스 I와 m을 이용해서 yim으로 연산할 수 있다. 여기서 σ(z)는 1/(1+e-z)이고 w 와 b 는 학습을 통해서 정해질 파라미터이다. 또한 l 은 convolution integral 의 적분 영역 크기를 정해주는 값이다. 위와 같이 주파수 분석부(100)가 산출한 컨볼루션 적분 신호를 주파수 분석 계수로 산출하여 이하 설명할 바와 같이 소리 인식부(200)의 입력으로 할 수 있다.
다음으로는 소리 인식부(200)의 동작에 대하여 보다 상세히 설명한다.
소리 인식부(200)는 상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식한다.
여기서 분류기(Classifier)는 미리 부류가 분류된 학습용 소리 신호로부터 상술한 과정을 통하여 획득한 주파수 분석 계수와 그에 대응하는 부류를 학습 데이터로 이용하여 분류 함수의 파라미터가 학습된 분류기가 될 수 있다. 여기서 분류기는 입력을 주파수 분석 계수로 하고 출력을 소리 신호의 부류로 하는 분류기로써, 기존의 다양한 분류 기법을 적용한 분류기가 될 수 있다. 예를 들면 SVM(Support Vector Machine) 분류기 또는 Adaboost(Adaptive Boosting) 분류기 등 다양한 종류의 분류기들을 사용할 수도 있다.
여기서 소리 인식부(200)는 가장 바람직하게는 이하에서 상세히 설명할 바와 같이 신경 망(Neural Network)에 기반한 분류기를 이용할 수 있다.
여기서 소리 인식부(200)는 신경 망(Neural Network)에 기반한 분류기를 이용하여, 상기 주파수 분석 계수를 상기 신경 망에 기반한 분류기에 입력하여 상기 소리 신호가 해당하는 상기 부류를 분류할 수 있다.
이때 주파수 분석부(100)는 상기 주파수 신호로부터 상기 주파수 분석 계수로서 멜 주파수 캡스트럼 계수를 산출하고, 소리 인식부(200)는 상기 멜 주파수 캡스트럼 계수를 입력받고, 상기 입력받은 멜 주파수 캡스트럼 계수를 상기 신경 망에 기반한 분류기에 입력하여, 상기 소리 신호가 해당하는 상기 부류를 분류하는 것이 바람직하다.
신경 망(Neural Network)는 기계 학습과 인지 과학에서 널리 사용되는 기법으로 인공 신경 망(Artificial Neural Network)이라고 지칭되기도 한다. 신경 망은 다수의 뉴런들이 서로 연결되는 다층 레이어의 구조를 가지는 예측 함수를 설계하고, 학습 데이터를 이용하여 각 층의 뉴런의 바이어스와 뉴런 간 연결에 적용되는 가중치를 예측하고, 예측된 가중치와 바이어스를 이용하여 입력 데이터에 대한 예측 함수를 연산하여 출력 값에 따라 입력 데이터에 대응하는 분류 또는 예측을 수행하는 방식이다.
도 8 (a)는 이와 같은 신경 망의 일부분인 특정 층에서의 뉴런 간의 연결을 설명하기 위한 참고도이다. 도 8 (a)와 같이 각 층(layer)에서 복수개의 뉴런(neuron)들이 존재하고, 뉴런들은 서로 연결될 수 있으며 이때 연결 관계 간에 연결 가중인 가중치(w)가 적용된다. 그리고 각 뉴런에서 일정한 바이어스(b)가 적용될 수 있다. 도 8과 같이 l - 1 층의 뉴런(ak, ak-1)과 l 층의 뉴런의 연결 관계로부터 도출되는 l 층의 뉴런 값(aj)은 하기 수학식 5와 같이 산출될 수 있다.
Figure 112015088569770-pat00007
여기서 j, k는 뉴런의 인덱스이고, ak는 k 번째 뉴런의 뉴런 값이고, wjk는 j 번째 뉴런과 k 번째 뉴런을 연결하는 연결 가중의 가중치이고 bj는 j 번째 뉴런에서의 바이어스이고, al, bl, wl의 우상단의 l 은 레이어를 나타내는 인덱스로 각각 l 번째 레이어의 뉴런 값, 바이어스, 가중치를 의미하고, σ(z)는 1/(1+e-z)이다.
이를 여러 층으로 확대하여 도 8 (b)와 같이 표현할 수 있다.
소리 인식부(200)는 상기 수학식 5와 같이 각 층의 뉴런들이 서로 연결된 신경 망에 기반한 분류기를 이용할 수 있다.
여기서 소리 인식부(200)는 상기 주파수 분석 계수를 상기 신경 망의 입력 레이어의 입력 뉴런 값으로 입력하고, 상기 입력한 입력 뉴런 값을 각 레이어의 상기 가중치와 상기 바이어스를 이용하여 연산하여 출력 레이어의 출력 뉴런 값을 산출하고, 상기 산출한 출력 뉴런 값에 따라 상기 소리 신호의 상기 부류를 결정할 수 있다.
여기서 최하위 레이어의 인덱스를 l = 0이라고 하고, 최상위 레이어의 인덱스를 l = L이라고 하면, 상기 입력 레이어는 인덱스 l = 0을 가지는 레이어이고, 상기 출력 레이어는 인덱스 l = L을 가지는 레이어이고, 입력 레이어의 뉴런들의 값을 상기 주파수 분석 계수로 입력하였을 때 출력 레이어의 뉴런의 값을 산출하고 그에 따라 소리 신호의 부류를 결정할 수 있는 것이다.
도 8 (b)는 이와 같은 소리 인식부(200)의 동작을 설명하기 위한 참고도이다.
도 8 (b)와 같이 소리 인식부는 예를 들어 L = 3이어서 총 l = 0, 1, 2, 3의 4개의 레이어로 구성된 신경 망을 이용하는 분류기를 이용할 수 있다. 여기서 설명의 편의 상 주파수 분석 계수의 수가 4개라고 가정하면, l = 0의 4개의 뉴런에 각각 주파수 분석 계수의 수를 입력 뉴런 값(al)으로 입력할 수 있다. 그리고 미리 학습된 각 연결 가중에서의 가중치(w)와 각 뉴런에서 더해지는 바이어스(b)를 적용하여 l = 1, l = 2 레이어를 거쳐 각 뉴런의 값을 상기 수학식 5와 같이 산출하고, 최종적으로 l = L 레이어의 뉴런 값 aL을 산출할 수 있다. 여기서 산출된 L 레이어의 뉴런 값 aL에 따라 상기 소리 신호의 부류를 분류할 수 있다. 예를 들어 상기 뉴런 값 aL을 미리 정해진 임계치와 비교하여 그 비교 결과에 따라 부류를 결정할 수 있다.
여기서 소리 인식부(200)는 필요에 따라 음성 부류 해당 여부를 판단하기 위한 제1 신경 망, 노이즈 부류 해당 여부를 판단하기 위한 제2 신경 망을 각각 이용할 수도 있고, 하모닉 성분을 고려하는 경우 하모닉 성분 부류 해당 여부를 판단하기 위한 제3 신경 망을 더 이용할 수도 있다. 즉 각각의 부류 별로 해당 부류 여부를 서로 다른 파라미터를 가지는 신경 망을 이용하여 판단할 수도 있다.
여기서 상기 분류기에 이용되는 신경 망의 가중치(w)와 바이어스(b)가 파라미터는 상술한 바와 같이 학습 데이터를 이용하여 미리 학습되어 결정될 수 있다. 즉 미리 부류가 분류된 학습용 소리 신호로부터 상술한 과정을 통하여 획득한 주파수 분석 계수와 그에 대응하는 부류를 학습 데이터로 이용하여, 신경 망의 파라미터인 가중치와 바이어스가 미리 학습되어 결정될 수 있다.
여기서 바람직하게는 상기 신경 망의 가중치와 바이어스는 이하에서 설명하는 딥 러닝 기법(Deep Learning)을 이용하여 그 값들을 학습하여 결정할 수 있다. 그리고 이때 백 프로파게이션(Back Propagation) 방법을 이용하여 가중치와 바이어스 값을 결정할 수 있다.
이때 비용 함수는 다음 수학식 6과 같이 정의될 수 있다.
Figure 112015088569770-pat00008
여기서 y(x)는 학습 데이터로부터 유추되는 l 번째 레이어의 기댓값이고, al(x)는 신경 망의 l 번째 레이어의 뉴런의 값이고, n은 학습 데이터의 개수이다. 이때 상술한 바와 같이 최상위 레이어인 l = L 레이어에서의 뉴런 값에 따라 학습 용 소리 신호의 부류가 결정되는 것이므로, 미리 부류가 결정된 학습 용 소리 신호의 부류로부터 l = L 레이어에 해당하는 기댓값만을 할 수 있다. 따라서 Back Propagation 방법에서는 l = L 레이어에서부터 하위 레이어의 방향으로 역추적을 하여 가중치와 바이어스 값을 찾는다. 그리고 이때 역추적 과정은 하기 수학식 7 및 수학식 8에 의하여 달성될 수 있다.
Figure 112015088569770-pat00009
여기서 bl, wl은 각각 l 레이어의 가중치와 바이어스이고, bl', wl'은 다시 다음 반복 회차에서의 bl, wl로 입력되는 값이고, η는 학습 속도를 조절하기 위한 상수이다.
Figure 112015088569770-pat00010
여기서 z는
Figure 112015088569770-pat00011
로 정의되는 변수이다.
다음으로 게인 조절부(300)는 상술한 바와 같이 상기 소리 인식부(200)가 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력한다. 즉 도 5를 참조하면서 설명한 바와 같이 게인 조절부(300)는 상기 소리 신호가 상기 노이즈 또는 상기 음성에 해당하는지 여부에 따라 미리 정해진 규칙에 의하여 상기 시간 구간에서의 상기 게인 값의 크기를 조절할 수 있다. 또는 상술한 바와 같이 하모닉 성분까지 분류되는 경우 게인 조절부(300)는 상기 소리 신호가 상기 음성에 해당하는 경우 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이상으로 증가시키고, 상기 소리 신호가 상기 노이즈에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이하로 감소시키고, 상기 소리 신호가 상기 하모닉 신호에 해당하는 경우 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이내로 설정할 수도 있다.
여기서 본 발명에 따른 정보 기반 소리 음량 조절 장치는 실시간으로 소리 신호를 수신하고 음량을 조절하여 출력하는 장치가 될 수 있다. 이에 따라 사용자는 실시간으로 음량이 조절된 소리를 청취할 수 있는 효과가 있다.
이를 위하여, 주파수 분석부(100)는 고속 주파수 분석 회로를 이용하여 상기 주파수 신호 또는 상기 주파수 분석 계수를 산출할 수 있다.
이때 주파수 분석부(100), 소리 인식부(200), 게인 조절부(300)의 신호 처리는 적어도 1초 이내에 이루어져, 게인 조절부(300)가 상기 주파수 분석부(100)가 상기 소리 신호를 입력받은 시간으로부터 적어도 1초 이내에 상기 게인 값을 설정하여 출력하는 것이 바람직하다.
본 발명의 또 다른 실시예는 정보 기반 소리 음량 조절 방법이 될 수 있다.
도 9는 상기 본 발명의 또 다른 실시예에 따른 정보 기반 소리 음량 조절 방법의 흐름도이다.
본 발명에 따른 정보 기반 소리 음량 조절 방법은 주파수 분석 단계(S100), 소리 인식 단계(S200), 게인 조절 단계(S300)를 포함할 수 있다. 여기서 주파수 분석 단계(S100), 소리 인식 단계(S200), 게인 조절 단계(S300)의 각 동작은 위에서 도 1 내지 도 7을 참조하면서 설명한 본 발명에 따른 정보 기반 소리 음량 조절 장치의 주파수 분석부(100), 소리 인식부(200), 게인 조절부(300)의 동작과 동일한 방식으로 동작할 수 있다. 이에 중복되는 부분은 생략하고 간략히 설명한다.
주파수 분석 단계(S100)는 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출한다.
여기서 주파수 분석 단계(S100)는 상기 주파수 신호로부터 상기 주파수 분석 계수로서 멜 주파수 캡스트럼 계수를 산출할 수 있다.
소리 인식 단계(S200)는 상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식한다.
소리 인식 단계(S200)는 상기 분류기를 이용하여 소정의 시간 구간에서의 상기 소리 신호가 음성 또는 노이즈에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정할 수 있다.
또한 소리 인식 단계(S200)는 상기 멜 주파수 캡스트럼 계수를 입력받고, 상기 입력받은 멜 주파수 캡스트럼 계수를 신경 망에 기반한 분류기에 입력하여, 상기 소리 신호가 해당하는 상기 부류를 분류할 수 있다.
게인 조절 단계(S300)는 상기 소리 인식 단계(S200)에서 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력한다.
이때 게인 조절 단계(S300)는 상기 소리 신호가 상기 노이즈 또는 상기 음성에 해당하는지 여부에 따라 미리 정해진 규칙에 의하여 상기 시간 구간에서의 상기 게인 값의 크기를 조절할 수 있다.
도 10은 본 발명의 또 다른 실시예에 따른 정보 기반 소리 음량 조절 방법의 흐름도이다.
이때 본 발명에 따른 정보 기반 소리 음량 조절 방법은 소리 감지 단계(S50), 주파수 분석 단계(S100), 소리 인식 단계(S200), 게인 조절 단계(S300), 음량 조절 단계(S400), 소리 출력 단계(S500)를 포함할 수 있다.
소리 감지 단계(S50)는 마이크로폰으로 소리를 감지하고, 상기 감지한 소리를 상기 소리 신호로 변환한다.
여기서 주파수 분석 단계(S100)는 소리 감지 단계(S50)에서 변환한 상기 소리 신호를 입력받는다.
그리고 주파수 분석 단계(S100), 소리 인식 단계(S200), 게인 조절 단계(S300)는 상술한 바와 동일하게 동작할 수 있다.
음량 조절 단계(S400)는 상기 게인 조절 단계(S300)에서 출력된 상기 게인 값을 입력받고, 상기 게인 값에 따라 상기 소리 신호의 크기를 조절한다.
소리 출력 단계(S500)는 상기 크기를 조절한 소리 신호에 따른 소리를 출력한다.
도 11은 주파수 분석 단계(S100)의 세부 흐름도이다.
주파수 분석 단계(S100)는 주파수 신호 산출 단계(S110), 필터링 단계(S120), 주파수 분석 계수 산출 단계(S130)를 포함할 수 있다.
주파수 신호 산출 단계(S110)는 상기 소리 신호로부터 미리 정해진 길이를 가지는 소리 신호 프레임을 획득하고, 상기 소리 신호 프레임을 주파수 변환하여 상기 소리 신호 프레임에서의 상기 주파수 신호를 산출할 수 있다.
필터링 단계(S120)는 적어도 하나 이상의 필터를 포함하는 필터 뱅크를 이용하여 상기 소리 신호 프레임에서의 상기 주파수 신호를 필터링하여, 상기 필터 별 필터링한 신호를 출력할 수 있다.
주파수 분석 계수 산출 단계(S130)는 상기 필터링한 신호에 따라 상기 주파수 분석 계수를 산출할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
10 : 소리 센서부
11 : 마이크로폰
12 : 소리 신호 변환부
20 : 소리 출력부
21 : 증폭기
22 : 스피커
100 : 주파수 분석부
110 : 주파수 신호 산출부
120 : 필터 뱅크부
130 : 주파수 분석 계수 산출부
200 : 소리 인식부
300 : 게인 조절부
S50 : 소리 감지 단계
S100 : 주파수 분석 단계
S200 : 소리 인식 단계
S300 : 게인 조절 단계
S400 : 음량 조절 단계
S500 : 소리 출력 단계

Claims (19)

  1. 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출하는 것을 특징으로 하는 주파수 분석부;
    상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식하는 소리 인식부; 및
    상기 소리 인식부가 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력하는 게인 조절부를 포함하며,
    상기 소리 인식부는 신경 망(Neural Network)에 기반한 분류기를 이용하여, 상기 주파수 분석 계수를 상기 신경 망에 기반한 분류기에 입력하여 상기 소리 신호가 해당하는 상기 부류를 분류하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  2. 제1항에 있어서,
    상기 주파수 분석부는 고속 주파수 분석 회로를 이용하여 상기 주파수 신호 또는 상기 주파수 분석 계수를 산출하고,
    상기 게인 조절부는 상기 주파수 분석부가 상기 소리 신호를 입력받은 시간으로부터 적어도 1초 이내에 상기 게인 값을 설정하여 출력하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  3. 제1항에 있어서,
    마이크로폰을 구비하고, 상기 마이크로폰으로 소리를 감지하여, 상기 감지한 소리를 상기 소리 신호로 변환하는 소리 센서부를 더 포함하고,
    상기 주파수 분석부는 상기 소리 센서부가 변환한 상기 소리 신호를 입력받는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  4. 제1항에 있어서,
    상기 소리 인식부는 상기 분류기를 이용하여 소정의 시간 구간에 있어서 상기 소리 신호가 음성 또는 노이즈에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정하고,
    상기 게인 조절부는, 상기 소리 신호가 상기 노이즈 또는 상기 음성에 해당하는지 여부에 따라 미리 정해진 규칙에 의하여 상기 시간 구간에서의 상기 게인 값의 크기를 조절하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  5. 제4항에 있어서,
    상기 소리 인식부는 상기 분류기를 이용하여 소정의 시간 구간에 있어서 상기 소리 신호가 음성 또는 하모닉 신호 또는 노이즈 중 적어도 어느 하나에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정하고,
    상기 게인 조절부는,
    상기 소리 신호가 상기 음성에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이상으로 증가시키고,
    상기 소리 신호가 상기 노이즈에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이하로 감소시키고,
    상기 소리 신호가 상기 하모닉 신호에 해당하는 경우, 상기 시간 구간에서의 상기 게인 값을 상기 미리 정해진 규칙에 따라 소정 기준 이내로 설정하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  6. 제1항에 있어서,
    상기 게인 값을 입력받고, 상기 게인 값에 따라 상기 소리 신호의 크기를 조절하여 출력하는 소리 출력부를 더 포함하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  7. 제6항에 있어서, 상기 소리 출력부는,
    상기 게인 값에 따라 상기 소리 신호의 크기를 조절하는 증폭기; 및
    상기 크기를 조절한 소리 신호를 소리로 변환하여 출력하는 스피커를 포함하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  8. 제1항에 있어서, 상기 주파수 분석부는
    상기 소리 신호로부터 미리 정해진 길이를 가지는 소리 신호 프레임을 획득하고, 상기 소리 신호 프레임을 주파수 변환하여 상기 소리 신호 프레임에서의 주파수 신호를 산출하는 주파수 신호 산출부;
    적어도 하나 이상의 필터를 포함하는 필터 뱅크를 이용하여 상기 소리 신호 프레임에서의 주파수 신호를 필터링하여, 상기 필터 별 필터링한 신호를 출력하는 필터 뱅크부; 및
    상기 필터링한 신호에 따라 상기 주파수 분석 계수를 산출하는 주파수 분석 계수 산출부를 포함하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  9. 제8항에 있어서,
    상기 필터 뱅크부는 멜 스케일(Mel Scale)에 따라 상기 필터들 간에 주파수 구간이 구분된 상기 필터 뱅크를 이용하여 상기 주파수 신호를 필터링하고, 상기 필터링한 신호를 출력하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  10. 제8항에 있어서,
    상기 주파수 분석 계수 산출부는 상기 필터링한 신호를 연산하여 멜 주파수 캡스트럼 계수(Mel-frequency cepstral coefficient)를 산출하고, 상기 산출한 멜 주파수 캡스트럼 계수를 상기 주파수 분석 계수로 출력하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  11. 제1항에 있어서,
    상기 주파수 분석부는 멜 스케일(Mel Scale)에 따라 복수 개의 필터들 간에 주파수 구간이 구분된 상기 필터들을 포함하는 필터 뱅크를 이용하여 상기 주파수 신호를 필터링하고, 상기 필터링한 신호에 기초하여 멜 주파수 캡스트럼 계수(Mel-frequency cepstral coefficient)를 산출하고, 상기 산출한 멜 주파수 캡스트럼 계수를 상기 주파수 분석 계수로 출력하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  12. 삭제
  13. 제1항에 있어서,
    상기 주파수 분석부는 상기 주파수 신호로부터 상기 주파수 분석 계수로서 멜 주파수 캡스트럼 계수를 산출하고,
    상기 소리 인식부는 상기 멜 주파수 캡스트럼 계수를 입력받고, 상기 입력받은 멜 주파수 캡스트럼 계수를 상기 신경 망에 기반한 분류기에 입력하여, 상기 소리 신호가 해당하는 상기 부류를 분류하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  14. 제1항에 있어서,
    상기 소리 인식부는 상기 신경 망의 가중치와 바이어스가 미리 학습되어 결정된 상기 신경 망에 기반한 분류기를 이용하여, 상기 주파수 분석 계수를 상기 신경 망의 입력 레이어의 입력 뉴런 값으로 입력하고, 상기 입력한 입력 뉴런 값을 각 레이어의 상기 가중치와 상기 바이어스를 이용하여 연산하여 출력 레이어의 출력 뉴런 값을 산출하고, 상기 산출한 출력 뉴런 값에 따라 상기 소리 신호의 상기 부류를 결정하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 장치.
  15. 소리 신호를 입력받고, 상기 소리 신호를 주파수 변환하여 주파수 신호를 산출하고, 상기 주파수 신호를 신호처리 하여 주파수 분석 계수를 산출하는 주파수 분석 단계;
    상기 주파수 분석 계수를 입력받고, 상기 입력받은 주파수 분석 계수를 미리 학습된 분류기에 입력하여 상기 소리 신호가 미리 정해진 부류 중 어느 하나에 해당하는지 여부를 분류하여, 상기 소리 신호를 인식하는 소리 인식 단계; 및
    상기 소리 인식 단계에서 분류한 상기 소리 신호의 상기 부류에 따라 상기 소리 신호의 출력 크기를 조절하기 위한 게인 값을 설정하여 출력하는 게인 조절 단계를 포함하며,
    상기 주파수 분석 단계는 상기 주파수 신호로부터 상기 주파수 분석 계수로서 멜 주파수 캡스트럼 계수를 산출하고,
    상기 소리 인식 단계는 상기 멜 주파수 캡스트럼 계수를 입력받고, 상기 입력받은 멜 주파수 캡스트럼 계수를 신경 망에 기반한 분류기에 입력하여, 상기 소리 신호가 해당하는 상기 부류를 분류하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 방법.
  16. 제15항에 있어서,
    마이크로폰으로 소리를 감지하고, 상기 감지한 소리를 상기 소리 신호로 변환하는 소리 감지 단계;
    상기 게인 조절 단계에서 출력된 상기 게인 값을 입력받고, 상기 게인 값에 따라 상기 소리 신호의 크기를 조절하는 음량 조절 단계; 및
    상기 크기를 조절한 소리 신호에 따른 소리를 출력하는 소리 출력 단계를 더 포함하고,
    상기 주파수 분석 단계는 상기 소리 감지 단계에서 변환한 상기 소리 신호를 입력받는 것을 특징으로 하는, 정보 기반 소리 음량 조절 방법.
  17. 제15항에 있어서
    상기 소리 인식 단계는 상기 분류기를 이용하여 소정의 시간 구간에서의 상기 소리 신호가 음성 또는 노이즈에 해당하는지 여부를 분류하여 상기 소리 신호의 상기 부류를 결정하고,
    상기 게인 조절 단계는 상기 소리 신호가 상기 노이즈 또는 상기 음성에 해당하는지 여부에 따라 미리 정해진 규칙에 의하여 상기 시간 구간에서의 상기 게인 값의 크기를 조절하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 방법.
  18. 제15항에 있어서, 상기 주파수 분석 단계는,
    상기 소리 신호로부터 미리 정해진 길이를 가지는 소리 신호 프레임을 획득하고, 상기 소리 신호 프레임을 주파수 변환하여 상기 소리 신호 프레임에서의 상기 주파수 신호를 산출하는 주파수 신호 산출 단계;
    적어도 하나 이상의 필터를 포함하는 필터 뱅크를 이용하여 상기 소리 신호 프레임에서의 상기 주파수 신호를 필터링하여, 상기 필터 별 필터링한 신호를 출력하는 필터링 단계; 및
    상기 필터링한 신호에 따라 상기 주파수 분석 계수를 산출하는 주파수 분석 계수 산출 단계를 포함하는 것을 특징으로 하는, 정보 기반 소리 음량 조절 방법.
  19. 삭제
KR1020150128969A 2015-09-11 2015-09-11 정보 기반 소리 음량 조절 장치 및 그 방법 KR101689332B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150128969A KR101689332B1 (ko) 2015-09-11 2015-09-11 정보 기반 소리 음량 조절 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150128969A KR101689332B1 (ko) 2015-09-11 2015-09-11 정보 기반 소리 음량 조절 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR101689332B1 true KR101689332B1 (ko) 2016-12-23

Family

ID=57736247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150128969A KR101689332B1 (ko) 2015-09-11 2015-09-11 정보 기반 소리 음량 조절 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101689332B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036083A (ko) * 2018-09-19 2020-04-07 주식회사 이엠텍 뉴럴 네트워크를 통한 음성 증폭 시스템
CN111491245A (zh) * 2020-03-13 2020-08-04 天津大学 基于循环神经网络的数字助听器声场识别算法及硬件实现方法
US10930279B2 (en) 2016-04-18 2021-02-23 The Industry & Academic Cooperation In Chungnam National University (Iac) Voice frequency analysis system, voice frequency analysis method, and voice recognition system and voice recognition method using the same
CN113614684A (zh) * 2018-09-07 2021-11-05 格雷斯诺特有限公司 经由音频分类进行动态音量调节的方法和装置
CN116980804A (zh) * 2023-09-25 2023-10-31 腾讯科技(深圳)有限公司 音量调整方法、装置、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR910004062A (ko) 1989-07-20 1991-02-28 오오가 노리오 확성기 장치
KR19990001828A (ko) * 1997-06-18 1999-01-15 윤종용 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법
KR0185758B1 (ko) * 1996-02-23 1999-04-15 정호선 음성인식 시스템
JP3505085B2 (ja) * 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
KR20060092456A (ko) 2005-02-17 2006-08-23 삼미음향기술 주식회사 디지털 보청기의 다채널 난청 보상 방법 및 이를 이용한 디지털 보청기
JP2013164518A (ja) * 2012-02-10 2013-08-22 Toshiba Corp 音声信号補正装置、音声信号補正方法、及び音声信号補正プログラム
KR20140148089A (ko) 2013-06-21 2014-12-31 주식회사 바이오사운드랩 사용자 피팅 환경을 제공하는 보청기 및 상기 보청기를 이용한 보청기 피팅방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR910004062A (ko) 1989-07-20 1991-02-28 오오가 노리오 확성기 장치
KR0185758B1 (ko) * 1996-02-23 1999-04-15 정호선 음성인식 시스템
KR19990001828A (ko) * 1997-06-18 1999-01-15 윤종용 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법
JP3505085B2 (ja) * 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
KR20060092456A (ko) 2005-02-17 2006-08-23 삼미음향기술 주식회사 디지털 보청기의 다채널 난청 보상 방법 및 이를 이용한 디지털 보청기
JP2013164518A (ja) * 2012-02-10 2013-08-22 Toshiba Corp 音声信号補正装置、音声信号補正方法、及び音声信号補正プログラム
KR20140148089A (ko) 2013-06-21 2014-12-31 주식회사 바이오사운드랩 사용자 피팅 환경을 제공하는 보청기 및 상기 보청기를 이용한 보청기 피팅방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10930279B2 (en) 2016-04-18 2021-02-23 The Industry & Academic Cooperation In Chungnam National University (Iac) Voice frequency analysis system, voice frequency analysis method, and voice recognition system and voice recognition method using the same
CN113614684A (zh) * 2018-09-07 2021-11-05 格雷斯诺特有限公司 经由音频分类进行动态音量调节的方法和装置
KR20200036083A (ko) * 2018-09-19 2020-04-07 주식회사 이엠텍 뉴럴 네트워크를 통한 음성 증폭 시스템
KR102114102B1 (ko) * 2018-09-19 2020-05-22 주식회사 이엠텍 뉴럴 네트워크를 통한 음성 증폭 시스템
CN111491245A (zh) * 2020-03-13 2020-08-04 天津大学 基于循环神经网络的数字助听器声场识别算法及硬件实现方法
CN116980804A (zh) * 2023-09-25 2023-10-31 腾讯科技(深圳)有限公司 音量调整方法、装置、设备及可读存储介质
CN116980804B (zh) * 2023-09-25 2024-01-26 腾讯科技(深圳)有限公司 音量调整方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
KR101689332B1 (ko) 정보 기반 소리 음량 조절 장치 및 그 방법
US10504539B2 (en) Voice activity detection systems and methods
US11363390B2 (en) Perceptually guided speech enhancement using deep neural networks
US8452023B2 (en) Wind suppression/replacement component for use with electronic systems
US8898058B2 (en) Systems, methods, and apparatus for voice activity detection
US8391507B2 (en) Systems, methods, and apparatus for detection of uncorrelated component
US7590530B2 (en) Method and apparatus for improved estimation of non-stationary noise for speech enhancement
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
US20140140524A1 (en) Wind suppression/replacement component for use with electronic systems
US20230280965A1 (en) Robust voice activity detector system for use with an earphone
JPWO2006011405A1 (ja) デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
Monaghan et al. Auditory inspired machine learning techniques can improve speech intelligibility and quality for hearing-impaired listeners
JP5903921B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム
RU2597487C2 (ru) Устройство обработки, способ обработки, программа, машиночитаемый носитель записи информации и система обработки
JP2010021627A (ja) 音量調整装置、音量調整方法および音量調整プログラム
CN116569564A (zh) 骨传导耳机语音增强系统和方法
Sun et al. A supervised speech enhancement method for smartphone-based binaural hearing aids
CN112767908A (zh) 基于关键声音识别的主动降噪方法、电子设备及存储介质
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
Zaman et al. Classification of Harmful Noise Signals for Hearing Aid Applications using Spectrogram Images and Convolutional Neural Networks
CN116360252A (zh) 听力系统上的音频信号处理方法、听力系统和用于音频信号处理的神经网络
CN113314134B (zh) 一种骨传导信号补偿方法及装置
Xia et al. Ava: An adaptive audio filtering architecture for enhancing mobile, embedded, and cyber-physical systems
Dai et al. An improved model of masking effects for robust speech recognition system
US10706870B2 (en) Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant