KR101520938B1 - 음량 크기의 통계적 특성을 이용한 음량측정방법 - Google Patents

음량 크기의 통계적 특성을 이용한 음량측정방법 Download PDF

Info

Publication number
KR101520938B1
KR101520938B1 KR1020130046994A KR20130046994A KR101520938B1 KR 101520938 B1 KR101520938 B1 KR 101520938B1 KR 1020130046994 A KR1020130046994 A KR 1020130046994A KR 20130046994 A KR20130046994 A KR 20130046994A KR 101520938 B1 KR101520938 B1 KR 101520938B1
Authority
KR
South Korea
Prior art keywords
value
volume
voice data
voice
interval
Prior art date
Application number
KR1020130046994A
Other languages
English (en)
Other versions
KR20140128160A (ko
Inventor
김재인
이세영
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020130046994A priority Critical patent/KR101520938B1/ko
Publication of KR20140128160A publication Critical patent/KR20140128160A/ko
Application granted granted Critical
Publication of KR101520938B1 publication Critical patent/KR101520938B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Abstract

마이크로 입력되는 음성신호에 대한 음량을 계산하는 음량측정방법이 개시된다. 이를 위하여 마이크로 입력된 음성신호를 A/D변환기를 통해 음성 데이터로 변환시키는 샘플링 단계와, 상기 음성 데이터를 일정 시간동안 수집하고, 수집된 음성 데이터의 데이터 값을 분석하여 상기 데이터 값의 분포도를 확보하는 분포도 확보단계와, 상기 분포도에 분포된 음성 데이터의 총수에 대한 일정비율의 곱셈 값을 계산하고, 상기 데이터 값이 높은 구간의 음성 데이터의 개수부터 더하여 합산된 음성 데이터의 개수가 상기 곱셈 값에 대응되는 구간 값을 산출하는 구간 값 산출단계, 및 상기 구간 값을 미리 마련된 룩업 테이블에 적용하여 상기 구간 값에 대응되는 룩업 테이블의 음량 값을 획득하는 음량 값 획득단계를 포함하는 음량측정방법을 제공한다. 본 발명에 의하면, CPU의 성능이 낮은 경우에도 입력되는 음량을 알 수 있기 때문에 시스템에 필요한 적절한 음량을 자동으로 조절할 수 있게 되어 편리함을 더해진 서비스를 사용할 수 있게 된다.

Description

음량 크기의 통계적 특성을 이용한 음량측정방법{METHOD FOR LOUDNESS MEASUREMENT USING STATISTICAL CHARACTERISTIC OF LOUDNESS LEVEL}
본 발명은 마이크로 입력되는 음성신호에 대한 음량을 계산하는 음량측정방법에 관한 것으로, 보다 상세하게는 음성신호가 입력되는 동안은 음량을 조절하지 않고, 음성신호가 입력되기 전 먼저 입력된 음량들로부터 분석된 사용자의 평균 음량을 통해 음성신호의 음성구간을 찾지 않으며, CPU에 부담을 주는 곱셈과 로그계산을 사용하지 않고 계산하는 방식을 이용하는 음량측정방법에 관한 것이다.
일반적으로 음성인식 시스템은 입력되는 음성을 주파수 분석 기법을 이용한 다양한 분석 방법을 통하여 그 특징 벡터를 구성하여 음성 인식을 위해 이용한다. 이러한 음성 인식 시스템은 다양한 음성인식 기법 중 입력된 음성신호의 에너지를 이용한 음성인식 기법이 널리 사용되고 있다.
이와 같이 음성신호의 에너지를 이용한 음성 인식 방법에서, 음성인식 시스템은 음성인식을 위해 입력되는 음성신호에 대한 에너지를 정규화(normalization)하여 상기 음성의 에너지 편차를 최소한으로 줄인다. 이때 음성인식 시스템은 입력된 음성신호의 특정 시점에서의 에너지 레벨(또는 신호 레벨)은 일일이 확인하지 않는다.
기존의 음성인식 방법에서, 음성인식 시스템은 음성신호의 입력 레벨이 매우 낮아 음성 검출이 실패하거나 음성신호의 입력 레벨이 높아 음성의 임의의 구간에서 음성 입력의 해상도(resolution)를 벗어나는 음성이 입력되었을 경우, 음성 인식률이 저하될 우려가 있다.
그러나 기존의 음성인식 시스템을 이용한 음성인식 방법은 상기와 같은 상황에서 음성 인식 저하를 보상하기 위한 방법을 제시하고 있지 않다.
즉, 종래의 음성 인식 시스템은 입력되는 음성의 레벨에 따라 이용 가능한 범위의 레벨로 음성 입력 레벨을 조절하지 않는다. 따라서 종래의 음성인식 시스템은 음성신호의 입력 레벨이 낮아 음성 검출에 실패하거나 음성신호의 입력 레벨이 높아 음성의 구간에서 입력 신호의 포화(Saturation) 현상이 발생하여 음성 인식률을 저하 시킬 수 있다.
한편, 전술한 음성인식 시스템은 단말기에 설치되는 임베디드형과, 음성신호를 받는 곳과 음성인식을 수행하는 곳이 분리되어 있는 클라이언트-서버형이 있다. 두 형태 모두 CPU(중앙처리장치)의 계산 기능을 충분히 사용할 수 없는 환경이기 때문에 CPU에 덜 부담이 되도록 하는 것이 중요하다.
그러나 마이크를 통하여 입력되는 음성은 사용하는 사람이나 환경에 따라서 음량이 다르다. 특히, 음성인식 시스템에 적정한 음량이 입력되는 경우는 인식성능에 차이가 없으나, 주변소음과 입력음량이 적정음량보다 낮은 경우에는 인식률이 떨어진다. 이러한 경우 시스템에서는 잘못 인식된 결과를 확인요청을 하거나, 재 발화를 요청을 하여 사용자를 불편하게 한다.
한편, 음량을 측정하기 위해서는 입력되는 음성에 대한 음성구간을 찾아서, 해당 구간의 음성에 대한 평균에너지를 구하고, 음량을 표시하는 단위인 데시벨 값으로 표시하기 위해 평균에너지에 대한 로그 값을 계산한다. 이러한 과정은 음성구간을 정확히 찾는 것이 어렵고, 해당 부분에 대한 음량을 계산하기 위한 계산량이 많다는 문제점이 있다.
또한, 음성구간의 앞과 뒤에 비음성구간이 포함되면 평균음량에 변화가 생기기 때문에 음량의 정확도가 떨어지고, 평균에너지를 구하기 위해서는 곱셈을 음성샘플 수만큼 사용해야 하고, 평균음량을 구하기 위해서는 로그계산을 하는데 이는 CPU의 연산기능을 사용해야 하기 때문에 낮은 연산기능을 가진 CPU를 사용하는 시스템에서는 음량을 구하는 기능을 포함시킬 수 없게 된다.
도 1은 종래의 음량측정방법을 설명하기 위한 순서도이다. 도 1을 참조하면, 사용자가 마이크(101)에 단어나 문장을 말하게 되면 음성신호는 A/D변환기(102)에 의해 디지털 값으로 변환되어 음량측정시스템으로 입력된다.
이어서 상기 디지털 값들은 음성구간 추출부(103)로 입력되어 음성의 시작점과 끝점을 찾는다.
이러한 과정을 통해 찾아진 시작점부터 끝점까지의 음성데이터에 대한 평균에너지 계산을 평균에너지 계산부(104)에서 수행한 후 데시벨(decibel)값을 구하기 위해서 로그계산(105)을 하게 되면 음량이 출력된다.
다만, 주변이 시끄러운 경우 입력되는 음성에는 잡음신호가 섞이기 때문에 음성구간 추출이 부정확하게 이루어지기 때문에 음량의 정확도가 주변 상황에 따라서 변하게 되는 단점이 발생하고, 음성의 시작점과 끝점을 찾아내기 위한 루틴 개발이 되어야 한다.
특히, 평균에너지 계산과 로그계산을 하기 위해서 CPU연산기능을 사용하게 되는데, 사용되는 CPU가 부동 소숫점(floating point) 기능이 없는 경우 계산범위를 벗어나는 overflow나 underflow에 대한 고려와 함께 나누기와 로그계산을 위한 루틴들이 필요하며, 부동 소숫점이 지원되는 경우에도 곱셈이 다른 연산에 비해 CPU 연산능력을 많이 소모시키기 때문에 CPU연산능력이 낮은 경우 음량을 계산하는 기능을 사용할 없게 되는 단점이 있다.
도 2는 종래 음량측정시스템에서 수행되는 루틴의 일실시예를 나타내는 개략도이다.
먼저, 마이크를 통해 사용자로부터 사용자 음성을 입력받고(S201), 마이크에 연결된 음량측정시스템으로 음성의 시작과 끝을 찾는다(S202). 이때, 입력된 신호에 음량이 높은 잡음이 섞이게 되면 음성의 시작과 끝을 찾는데 오류가 발생하게 된다. 이어서, 음성 데이터들은 각 샘플의 에너지를 구하여 음성이 끝나는 부분까지 더해서 디지털 최대값으로 나누어 음성구간의 파워를 계산한다(203). 그 다음, 음성구간의 파워에 대한 로그값을 계산(204)하여 음량의 데시벨 값을 산출한다(205).
이와 같이, 종래의 음량측정시스템과 음량측정방법은 주변이 시끄러울수록 오류의 발생확률이 높아지기 때문에 평균음량에 대한 정확도가 떨어지는 문제가 있었다. 또한, 음성구간을 찾는 방법을 구현하기 위한 시간과 노력이 많이 들어가며, 음성인식기가 찾은 음성구간의 경우 실제 음량보다 약 10dB 내외의 차이가 발생되는 문제도 있었다.
아울러, 종래의 음량측정시스템은 음량을 계산하기 위한 계산량이 많기 때문에 고사양의 CPU를 사용해야 되며, 부동 소수점 계산을 수행할 수 있는 CPU를 사용해야 된다. 이와 같이, 종래의 음량측정시스템은 고정 소수점 계산을 하는 CPU보다 비싼 가격의 CPU를 사용하거나, 부동 소수점 계산을 고정 소수점 계산 CPU로 구현하기 위해 많은 시간 및 노력이 요구되는 문제점이 있었다.
대한민국 공개특허 제10-2004-0022050호(2004.03.11 공개) 대한민국 공개특허 제1999-0061297호(1999.07.26 공개) 대한민국 등록특허 제10-0655489호(2006.12.08 공고)
따라서, 본 발명의 목적은 CPU에 부담을 주지 않도록 곱셈이나 로그와 같은 연산과정 없이 사용자로부터 발화된 음성의 음량을 측정하여 음성인식시스템에 최적의 인식 성능이 발휘되는 레벨의 음량을 제공하기 위한 음성측정방법을 제공하는데 목적이 있다.
상술한 본 발명의 목적을 달성하기 위하여, 본 발명의 일 실시예에서는 마이크로 입력된 음성신호를 A/D변환기를 통해 음성 데이터로 변환시키는 샘플링 단계와, 상기 음성 데이터를 일정 시간동안 수집하고, 수집된 음성 데이터의 데이터 값을 분석하여 상기 데이터 값의 분포도를 확보하는 분포도 확보단계와, 상기 분포도에 분포된 음성 데이터의 총수에 대한 일정비율의 곱셈 값을 계산하고, 상기 데이터 값이 높은 구간의 음성 데이터의 개수부터 더하여 합산된 음성 데이터의 개수가 상기 곱셈 값에 대응되는 구간 값을 산출하는 구간 값 산출단계, 및 상기 구간 값을 미리 마련된 룩업 테이블에 적용하여 상기 구간 값에 대응되는 룩업 테이블의 음량 값을 획득하는 음량 값 획득단계를 포함하는 음량측정방법을 제공한다.
본 발명에 의하면, 부동 소수점 계산을 할 수 있는 CPU 보다 저렴한 가격대가 형성된 고정 소수점 계산을 하는 CPU를 사용할 수 있어 비용이 음성측정시스템의 초기 구축비용이 절감되며, 부동 소수점 계산을 할 수 있는 CPU를 사용하지 않더라도 마이크로 입력된 음성신호의 음성구간을 신속히 분석할 수 있다.
또한, 본 발명은 음성신호의 샘플 값에 대한 분포를 구하기 위해 카운트와 시프트 기능만 사용하면 되기 때문에 낮은 연산기능을 사용하는 CPU를 사용하는 시스템에서도 마이크로 입력되는 음성신호의 음량을 쉽게 파악할 수 있다.
이와 같이, 본 발명은 CPU의 성능이 낮은 경우에도 입력되는 음량을 알 수 있기 때문에 시스템에 필요한 적절한 음량을 자동으로 조절할 수 있게 되어 편리함을 더해진 서비스를 사용할 수 있게 된다.
도 1은 종래의 음량측정방법을 설명하기 위한 순서도이다.
도 2는 종래 음량측정시스템에서 수행되는 루틴의 일실시예를 나타내는 개략도이다.
도 3은 본 발명에 따른 음량측정방법을 나타내는 순서도이다.
도 4 및 도 5는 마이크로 입력된 음성신호에 대한 샘플 값의 분포를 통해 파악할 수 있는 원리를 도시한 그래프이다.
도 6은 수동으로 측정한 음량과 제안된 방법으로 측정된 음량간의 오차값 분포를 나타내는 그래프이다.
도 7은 음량을 찾기 위한 룩업 테이블의 일실시예를 나타내는 도면이다.
이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예들에 의한 오디오 크기의 통계적 특성을 이용한 음량측정방법(이하, '음량측정방법'이라 약칭함)을 상세하게 설명한다.
본 발명에 따른 음성인식방법은 소음이나 거리 차에 의해 마이크에 음성이 너무 크게 입력되어 왜곡 현상이 발생하거나, 음성이 너무 작게 녹음되어 음성인식에 오차가 발생되는 것을 방지하기 위해 입력된 음성신호의 음량을 분석하는 방법이다.
도 3은 본 발명에 따른 음량측정방법을 나타내는 순서도이다.
도 3을 참조하면, 본 발명에 따른 음량측정방법은 A/D변환기를 통해 마이크로 입력된 음성신호를 음성 데이터로 변환시키는 샘플링 단계(S100)와, 상기 음성 데이터의 디지털 값(이하, '샘플 값'으로 약칭함)을 분석하여 샘플 값의 분포도를 확보하는 분포도 확보단계(S200)와, 상기 분포도의 음성 데이터 총수에 대한 일정비율의 곱셈 값을 계산하고 상기 곱셈 값을 이용하여 구간 값을 산출하는 구간 값 산출단계(S300), 및 상기 구간 값을 룩업 테이블에 적용시켜 음량 값을 산출하는 음량 값 산출단계(S400)를 포함한다.
이러한 음성인식방법은 사용자로부터 발화된 음성신호를 수집하는 마이크, 상기 마이크로 입력된 음성신호를 음성 데이터로 변환시키는 A/D변환기, 상기 A/D변환기를 통해 변환된 음성 데이터를 수집하고 각 음성 데이터의 디지털 값을 분석하여 샘플 값에 대한 분포도를 저장하는 샘플링모듈과 상기 분포도의 음성 데이터 총수에 대한 일정비율의 곱셈 값을 계산하고 샘플 값이 높은 구간의 음성 데이터 개수부터 더하여 합산된 음성 데이터의 수가 곱셈 값에 대응되는 구간 값을 산출하는 특징검출모듈 및 상기 특징검출모듈을 통해 산출된 샘플 값을 미리 마련된 룩업 테이블에 적용시켜 음량 값을 산출하는 음량 값 산출모듈로 이루어진 제어부를 포함하는 음성인식장치로 구현될 수 있다. 여기서, 샘플링모듈과 특징검출모듈 및 음량 값 산출모듈은 별도로 존재하는 것처럼 기재되어 있으나 프로그램에 의하여 동작하는 CPU를 통하여 구현된다.
필요에 따라, 음성인식장치는 ROM과 RAM이 포함될 수 있다. 이때, ROM은 판독 전용의 메모리로 룩업 테이블 등이 미리 저장되며, RAM은 기입 및 판독 가능한 메모리로 음성인식의 과정에서 필요한 데이터와 그 결과의 데이터를 일시적으로 저장해 둔다.
도 4 및 도 5는 마이크로 입력된 음성신호에 대한 샘플 값의 분포를 통해 파악할 수 있는 원리를 도시한 그래프이다.
음량이 큰 경우에는 도 4에 도시된 바와 같이 샘플 값이 15,000 정도까지 분포를 한다. 그러나 음량이 작은 경우는 도 5에 도시된 바와 같이 샘플 값이 3,500 정도까지만 분포한다. 도 4의 디지털값 분포도는 분석구간 내에 음성데이터 값(0~32767)에 따라서 몇 개가 있는지를 세어서 그린 것으로, 간격 512는 0 내지 511까지 있는 샘플값들을 세어서 첫 번째에 표시하고, 512 내지 1023까지의 샘플값들을 세어서 두 번째 그래프에 표시한 것을 의미한다.
특히, 도 5와 같이 음량이 작은 경우는 레벨 6까지만 존재하고 다른 곳은 존재하지 않는다. 하지만 도 4와 같이 음량이 큰 경우는 레벨 25까지 디지털 값이 존재한다. 그러므로 음성 데이터에 대한 분포는 음량에 따라 상한 값이 달라진다. 이러한 원리를 이용하면, 음성구간을 찾지 않고, 곱셈이나 로그와 같은 수학적인 계산 없이 음량을 구할 수 있다.
이하, 도면을 참조하여 각 단계별로 보다 구체적으로 설명한다.
도 3을 참조하면, 본 발명에 따른 음성인식방법은 샘플링 단계(S100)를 포함한다.
상기 샘플링 단계(S100)는 마이크로 입력된 음성신호를 A/D변환기를 통해 음성 데이터로 변환시키는 단계로, 샘플 값을 분석하여 RAM 등의 메모리에 저장한다.
이와 같이, A/D변환기를 통해 디지털(Digital)로 변환된 음성 데이터들은 각각 값을 갖는다. 예를 들어, 음성 입력의 해상도(resolution)가 16비트인 경우에는 ±215인 0 내지 32767 값을 갖는데 음수는 -1부터 -32768까지의 값을 갖는다. 즉, 음성 데이터의 샘플은 65535단계로 표현되며, 이 샘플 각각의 값을 세는 것이다.
예를 들어 샘플 값이 "15, 25, 35, -14, - 18, -22, 0, 1, 1, -1, -1..."로 입력되는 경우 -1은 2개, 1은 2개, 0은 1개의 방식으로 샘플 값 범위를 전부 셀 수도 있고, 메모리의 사용량을 줄이기 위해 샘플 값의 범위를 정해서 셀 수도 있다. 또한, 샘플 값을 32개씩으로 묶으면 0 내지 32까지 샘플 값들을 1번 카운터에 저장하면 되고, 33부터 64까지의 값을 두 번째 카운터에 저장하면 된다. 이러한 방식을 적용하면 카운터 값을 저장하는데 사용되는 메모리의 사용량은 1/32로 줄어들게 된다.
이러한 샘플링 단계(S100)에서는 사용자가 조작부를 터치하여 음량측정 시스템의 동작을 명령하면 상기 음량측정 시스템의 제어부가 출력모듈을 통해 음성 대화형 사용자 인터페이스를 상기 사용자에 제공하여 사용자가 발화한 단일 문장의 음성신호를 마이크를 통해 수집한다. 이어서, 마이크는 수집된 단일 문장의 아날로그 신호를 수집하여 A/D변환기로 제공한다. 그 다음, A/D변환기는 아날로그 신호로부터 변환된 음성 데이터를 제어부로 제공한다.
도 3을 참조하면, 본 발명에 따른 음성인식방법은 분포도 확보단계(S200)를 포함한다.
상기 분포도 확보단계(S200)는 A/D변환기를 통해 변환된 음성 데이터를 일정 시간동안 수집하고 샘플 값을 분석하여 샘플 값의 분포도를 확보하는 단계로, 수집된 샘플 값들은 메모리에 저장한다.
필요에 따라, 본 단계(S200)에서는 음성 데이터 각각의 디지털 값으로 샘플 값의 분포도를 구해도 되지만 메모리의 사용량을 줄이기 위해 정해진 간격 또는 음성의 비선형적 특성에 맞는 간격으로 샘플 값의 분포도를 구할 수 있다. 여기서, 정해진 간격은 음성신호 구간을 수 내지 수십 개의 짧은 구간으로 분획한 간격을 의미한다.
도 3을 참조하면, 본 발명에 따른 음성인식방법은 구간 값 산출단계(S300)를 포함한다.
상기 구간 값 산출단계(S300)는 상기 분포도에 분포된 음성 데이터의 총수에 대한 일정비율의 곱셈 값을 계산하고, 샘플 값이 높은 구간의 음성 데이터의 개수부터 더하여 합산된 음성 데이터의 개수가 곱셈 값에 대응되는 구간 값을 산출하는 단계이다. 이때, 일정비율은 기준이 되는 음성데이터들을 기준으로 시험에 의하여 정해진다.
이와 같이, 본 단계(S300)에서는 일정한 음성 구간에 배치된 음성 데이터의 총수에 대한 일정비율을 곱한 값을 기준 값으로 하여, 상기 기준 값에 대응되는 레벨의 신호를 음성구간으로 간주한다. 이때, 기준 값을 결정하기 위한 일정비율은 사용자의 특성, 및 용도에 따라 적절하게 조절할 수 있다.
예를 들어, 정해진 측정구간에 해당하는 샘플(음성 데이터) 수가 1만개이고 일정비율이 1%인 경우, 기준 값(곱셈 값)은 100이 된다. 또한, 샘플 카운트를 32 단위로 한 경우, 샘플이 채워진 맨 위의 범위가 100번째인 3,200 범위까지 채워져 있으면, 100번째 카운터에 저장된 샘플 수부터 99번째, 98번째 등에 저장된 샘플 수의 합이 100이 될 때까지 합산하고, 95번째 샘플 수까지 더한 경우 100이 된다면 이때 구간 값은 95가 된다.
도 3을 참조하면, 본 발명에 따른 음성인식방법은 음량 값 획득단계(S400)를 포함한다.
상기 음량 값 획득단계(S400)는 구간 값을 미리 마련된 룩업 테이블에 적용하여 구간 값 산출단계를 통해 산출된 구간 값에 대응되는 룩업 테이블의 음량 값을 획득하는 단계이다.
여기서, 룩업 테이블은 음성을 녹음하여 저장하는 방법을 통해 마련한다. 이때, 상기 음성은 한 사람이 아니라 다양한 사람들의 음성이 녹음되는 것이 바람직하며, 잡음이 섞여도 무방하다. 다만, 음성이 아닌 경우에는 다양한 오디오 신호도 사용이 가능하다.
이와 같은 녹음이 완료되면 각각의 신호구간에 대한 표기를 한 후 음량별로 조정을 하여 음량별로 각 녹음파일들을 저장해 놓는다. 그리고 음량별 및 녹음파일별 카운터 번호를 구하며, 이 카운터 번호를 음량별로 그려보면 일정한 범위를 갖게 된다. 이 범위를 확률분포 곡선으로 그려서 다른 음량과의 경계를 구분한다. 경계가 겹칠 수도 있지만 빈도수에 따라 조종을 하여 제어할 수 있다. 이때, 녹음 데이터 수에 따라서 음량의 오차가 발생하지만, 측정오차 정도이다.
보다 구체적으로, 룩업 테이블은 dB값으로 표시되는데 1인당 112 문장을 녹음하여, 4명의 화자음성에 대해 수동으로 측정한 값과 제안한 방법에 의한 오차를 구하고, 이에 대한 분석을 해 본 결과, 평균오차는 0.1dB이고, 분산은 1.3을 보였다. 도 6은 수동으로 측정된 음량과 제안된 방식의 결과 값에 대한 오차를 0.05값 단위로 카운트한 결과를 나타내는 그래프이다. 도 6에 도시된 바와 같이, 오차값은 0.85를 기점으로 줄어들고 있는 것을 확인할 수 있다.
예를 들어 샘플 당 16비트의 해상도를 갖는 경우, 즉 디지털로 변환된 값의 크기가 0 내지 32767값을 갖는 경우에 카운트 간격을 32로 하면 0에서 1023까지가 1024 단계가 되고, 음량은 0 내지 -90dB(20log10 1/32767)을 갖지만, 통상 사람의 음량은 -10dB 내지 43dB 범위를 갖는다. 그래서 측정범위에 해당하는 각각의 음량에 대한 데이터들에 대한 디지털 값의 분포를 구하고, 각각에 대해 해당 파일의 제일 높은 단계에 들어간 샘플 수부터 낮은 단계에 들어간 샘플 수를 더해 전체입력 샘플 수 대비 일정한 비율 안에 들어가는 단계 값 구한다. 다시 말해, 이 단계 값들에 대한 확률분포를 보고 해당 음량에 대한 단계 값에 대한 범위를 정한다.
도 7은 제안된 방식에 의하여 구해진 룩업 테이블의 일실시예이다. 측정하고자 하는 범위가 넓으면 넓은 음량범위의 데이터를 만들어서 룩업 테이블에 적용하면 된다.
특정 양태로서, 도 7에 도시된 바와 같이 구간 값이 95이며 룩업 테이블에서 95에 들어 있는 음량 값이 예를 들어 -28이라면 입력 음량은 -28dB이 된다.
필요에 따라, 본 발명에 따른 음성인식방법은 상기 음량 값 획득단계 이후에 음량 조절단계가 더 포함될 수 있다.
상기 음량 조절단계는 음량 값 획득단계를 통해 획득된 음량 값으로 마이크로 입력된 음성신호의 음량을 조절하는 단계이다.
이러한 음량 조절단계는 네비게이션 등의 음성인식장치가 최적의 인식 성능을 발휘할 수 있도록 음성인식장치의 설치 환경에 따라 적합한 레벨의 음성이 입력되도록 음성의 음량을 조절한다.
이상에서 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (4)

  1. 마이크로 입력된 음성신호를 A/D변환기를 통해 음성 데이터로 변환시키는 샘플링 단계;
    상기 음성 데이터를 일정 시간동안 수집하고, 수집된 음성 데이터의 디지털 값을 분석하여 상기 디지털 값의 분포도를 확보하는 분포도 확보단계;
    상기 분포도에 분포된 음성 데이터의 총수에 대한 일정비율의 곱셈 값을 계산하고, 분석구간 내 디지털 값이 가장 높은 음석 데이터가 채워진 구간의 음성 데이터의 개수부터 더하여 합산된 음성 데이터의 개수가 상기 곱셈 값에 대응되는 구간 값을 산출하는 구간 값 산출단계; 및
    상기 구간 값을 미리 마련된 룩업 테이블에 적용하여 상기 구간 값에 대응되는 룩업 테이블의 음량 값을 획득하는 음량 값 획득단계를 포함하는 음량측정방법.
  2. 제 1 항에 있어서, 상기 디지털 값의 분포도는
    음성 데이터 각각의 디지털 값으로 디지털 값의 분포도를 구하거나 정해진 간격으로 디지털 값의 분포도를 구하는 것을 특징으로 하는 음량측정방법.
  3. 제 1 항에 있어서, 상기 음량 값 획득단계 이후에
    상기 음량 값으로 음성 데이터의 음량을 조절하는 음량 조절단계를 더 포함하는 것을 특징으로 하는 음량측정방법.
  4. 제 1 항에 있어서, 상기 음성신호는 오디오 신호를 포함하는 것을 특징으로 하는 음량측정방법.
KR1020130046994A 2013-04-26 2013-04-26 음량 크기의 통계적 특성을 이용한 음량측정방법 KR101520938B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130046994A KR101520938B1 (ko) 2013-04-26 2013-04-26 음량 크기의 통계적 특성을 이용한 음량측정방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130046994A KR101520938B1 (ko) 2013-04-26 2013-04-26 음량 크기의 통계적 특성을 이용한 음량측정방법

Publications (2)

Publication Number Publication Date
KR20140128160A KR20140128160A (ko) 2014-11-05
KR101520938B1 true KR101520938B1 (ko) 2015-05-18

Family

ID=52452098

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130046994A KR101520938B1 (ko) 2013-04-26 2013-04-26 음량 크기의 통계적 특성을 이용한 음량측정방법

Country Status (1)

Country Link
KR (1) KR101520938B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020130526A1 (en) * 2018-12-18 2020-06-25 Samsung Electronics Co., Ltd. Method and device for measuring sound level of audio content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09500503A (ja) * 1993-07-16 1997-01-14 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 適応ビット配分符号化装置及び方法
KR20060063437A (ko) * 2004-12-07 2006-06-12 삼성전자주식회사 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
KR20070063828A (ko) * 2005-12-15 2007-06-20 에이치텔레콤(주) 자동 음량레벨 보정장치 및 방법
JP2011015018A (ja) * 2009-06-30 2011-01-20 Clarion Co Ltd 自動音量制御装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09500503A (ja) * 1993-07-16 1997-01-14 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 適応ビット配分符号化装置及び方法
KR20060063437A (ko) * 2004-12-07 2006-06-12 삼성전자주식회사 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
KR20070063828A (ko) * 2005-12-15 2007-06-20 에이치텔레콤(주) 자동 음량레벨 보정장치 및 방법
JP2011015018A (ja) * 2009-06-30 2011-01-20 Clarion Co Ltd 自動音量制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020130526A1 (en) * 2018-12-18 2020-06-25 Samsung Electronics Co., Ltd. Method and device for measuring sound level of audio content
US10991383B2 (en) 2018-12-18 2021-04-27 Samsung Electronics Co., Ltd. Method of measuring sound level of audio content and device therefor

Also Published As

Publication number Publication date
KR20140128160A (ko) 2014-11-05

Similar Documents

Publication Publication Date Title
EP0950239B1 (en) Method and recognizer for recognizing a sampled sound signal in noise
US7620544B2 (en) Method and apparatus for detecting speech segments in speech signal processing
CN102111707B (zh) 用于检测音频系统中的啸声的方法及助听器
US10896685B2 (en) Method and apparatus for estimating variability of background noise for noise suppression
CN104240696B (zh) 语音处理设备及方法
US6651040B1 (en) Method for dynamic adjustment of audio input gain in a speech system
JP2007041593A (ja) 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置
KR900700993A (ko) 음성활동 검출방법 및 장치
CN108962231B (zh) 一种语音分类方法、装置、服务器及存储介质
CN101821971A (zh) 用于噪声活动检测的系统和方法
US9466291B2 (en) Voice retrieval device and voice retrieval method for detecting retrieval word from voice data
EP2083417A2 (en) Sound processing device and program
CN107221343B (zh) 一种数据质量的评估方法及评估系统
CN105913849A (zh) 一种基于事件检测的说话人分割方法
CN103546618A (zh) 一种终端的音量调节方法及装置
CN110599989A (zh) 音频处理方法、装置及存储介质
US20070086594A1 (en) Signal processor, method of signal processing and computer program
US20120014537A1 (en) System and Method for Automatic Microphone Volume Setting
KR101520938B1 (ko) 음량 크기의 통계적 특성을 이용한 음량측정방법
WO2020013296A1 (ja) 精神・神経系疾患を推定する装置
CN108847251B (zh) 一种语音去重方法、装置、服务器及存储介质
US8494844B2 (en) Automated sound segment selection method and system
US9899039B2 (en) Method for determining alcohol consumption, and recording medium and terminal for carrying out same
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
JP3311467B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190513

Year of fee payment: 5