KR20150105847A

KR20150105847A - 음성구간 검출 방법 및 장치

Info

Publication number: KR20150105847A
Application number: KR1020140027899A
Authority: KR
Inventors: 김상진
Original assignee: 삼성전기주식회사
Priority date: 2014-03-10
Filing date: 2014-03-10
Publication date: 2015-09-18
Also published as: US20150255090A1

Abstract

본 발명은 음성구간 검출 방법 및 장치에 관한 것으로, 본 발명에 따른 일 실시예는 배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법에 있어서, 상기 음성신호에서 음성신호 샘플을 획득하는 단계, 상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계, 상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 프레임을 생성하는 단계, 상기 프레임을 복수의 서브 프레임으로 분류하는 단계, 상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 서브 프레임을 대표하는 대표 예비 음성신호 및 대표 예비 잡음신호를 획득하는 단계 및 상기 대표 예비 잡음신호에서 상기 대표 예비 음성신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계를 포함하는 음성구간 검출 방법을 제공할 수 있다.

Description

음성구간 검출 방법 및 장치{Method and Apparatus for detecting speech segment}

본 발명은 음성구간 검출 방법 및 장치에 관한 것이다.

음성인식은 컴퓨터나 음성인식 시스템에 전달된 사람의 음성으로부터 음성특징을 추출하고 분석하여 사전에 학습 된 인식 목록에서 가장 근접한 결과를 찾아내는 기술이다. 여기서, 음성의 고유한 특징을 정량화된 파라미터(parameter)로 추출하는 음성 특징 추출(feature extraction)은 음성 인식에서 중요한 문제이다. 좋은 음성 특징 추출을 위해서 음성 신호에서 음성구간과 배경잡음(또는 침묵) 구간을 정확하게 분류해야 한다.

기존의 잘 알려진 음성구간 검출 방법으로 단구간 에너지 방법과 영 교차율 방법이 있는데, 이는 음성신호 분리과정에서 신호에 따른 문턱치 값을 사전에 설정해 주어야 하는 한계가 있다.

또한, 미국 공개특허 제20120130713호(발명의 명칭: SYSTEMS, METHODS, AND APPARATUS FOR VOICE ACTIVITY DETECTION)는 음성의 활동을 결정하면서 주파수 영역으로 음성신호를 변환하여, 음성 검출 시간이 많이 소요되는 단점이 있다.

그리고, 대한민국 공개특허 제1020130085732호(발명의 명칭: 음성 존재 확률을 이용한 코드북 기반 음성 향상 방법 및 그 장치)는 음성이 존재할 확률을 이용하여 검출하였으나, 주파수 영역에서 검출을 시도한 점, 코드북을 기반으로 한다는 점 때문에 음성을 검출하는데 많은 시간이 소요되어, 실제 시스템에 적용하기 어려운 단점이 있다.

더 나아가, 대한민국 공개특허 제1020060134882호(발명의 명칭: 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법)는 통계적 모델을 사용하여, 음성 검출을 시도했으나, 음성을 검출하는 과정에서 고속 푸리에 변환을 사용하기 때문에 시스템의 부담을 가중시키고 전력 소모가 과도하여, 모바일 기기에서는 적용할 수 없는 문제점이 있다.

선행문헌 1 : 미국 공개특허 제2012/0130713호 선행문헌 2 : 대한민국 공개특허 제10-2013-0085732호 선행문헌 3 : 대한민국 공개특허 제10-2006-0134882호

본 발명의 일 실시예가 해결하고자 하는 과제는 주파수영역으로 변환하는 과정을 거치지 않고, 음성구간을 정확하게 검출할 수 있는 음성구간 검출 방법 및 장치를 제공하는 데 있다.

본 발명의 다른 실시예가 해결하고자 하는 과제는 계산과정을 줄여 프로세서의 부담을 줄이고 소비절약을 절약할 수 있는 음성구간 검출 방법 및 장치를 제공하는 데 있다.

본 발명의 또 다른 실시예가 해결하고자 하는 과제는 제한된 소비전력을 공급받는 모바일 기기에 적용할 수 있는 음성구간 검출 방법 및 장치를 제공하는 데 있다.

본 발명에 따른 일 실시예는 배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법에 있어서, 상기 음성신호에서 음성신호 샘플을 획득하는 단계, 상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계, 상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 프레임을 생성하는 단계, 상기 프레임을 복수의 서브 프레임으로 분류하는 단계, 상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 서브 프레임을 대표하는 대표 예비 음성신호 및 대표 예비 잡음신호를 획득하는 단계 및 상기 대표 예비 잡음신호에서 상기 대표 예비 음성신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계를 포함하는 음성구간 검출 방법을 제공할 수 있다.

일 실시예에 있어서, 상기 대표 예비 음성신호에서 상기 대표 예비 잡음신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계 및 상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계를 더 포함할 수 있다.

다른 실시예에 있어서, 상기 프레임을 생성하는 단계는 상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 이상인 경우, 상기 예비 음성신호로 마킹하고, 상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 미만인 경우, 상기 예비 잡음신호로 마킹하여, 상기 프레임을 생성하는 단계일 수 있다.

또 다른 실시예에 있어서, 상기 예비 음성신호는 1로 마킹하고, 상기 예비 잡음신호는 0으로 마킹할 수 있다.

본 발명에 따른 다른 실시예는 배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법에 있어서, 상기 음성신호에서 음성신호 샘플을 획득하는 단계, 상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계, 상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 제 1 프레임을 생성하는 단계, 상기 제 1 프레임을 복수의 서브 프레임으로 분류하고, 상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 예비 음성신호 또는 상기 예비 잡음신호로 마킹하여 제 2 프레임을 생성하는 단계 및 상기 제 2 프레임에서 상기 예비 잡음신호로 마킹된 신호에서 상기 예비 음성신호로 마킹된 신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계를 포함하는 음성구간 검출 방법을 제공할 수 있다.

일 실시예에 있어서, 상기 제 2 프레임에서 상기 예비 음성신호로 마킹된 신호에서 상기 예비 잡음신호로 마킹된 신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계 및 상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계를 더 포함할 수 있다.

다른 실시예에 있어서, 상기 제 1 프레임을 생성하는 단계는 상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 이상인 경우, 상기 예비 음성신호로 마킹하고, 상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 미만인 경우, 상기 예비 잡음신호로 마킹하여, 상기 제 1 프레임을 생성하는 단계일 수 있다.

본 발명에 따른 또 다른 실시예는 음성구간을 검출하는 장치로서, 적어도 하나의 프로세서, 음성신호 인식부 및 상기 음성신호 인식부로부터 수신되고 배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법을 수행하는 프로그램 명령어들을 포함하는 메모리를 포함하고, 상기 프로그램 명령어들은, 상기 음성신호에서 음성신호 샘플을 획득하는 단계, 상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계, 상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 프레임을 생성하는 단계, 상기 프레임을 복수의 서브 프레임으로 분류하는 단계, 상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 서브 프레임을 대표하는 대표 예비 음성신호 및 대표 예비 잡음신호를 획득하는 단계, 상기 대표 예비 잡음신호에서 상기 대표 예비 음성신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계, 상기 대표 예비 음성신호에서 상기 대표 예비 잡음신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계 및 상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계를 상기 적어도 하나의 프로세서에 의해 실행할 수 있는 음성구간을 검출하는 장치를 제공할 수 있다.

본 발명에 따른 또 다른 실시예는 음성구간을 검출하는 장치로서, 적어도 하나의 프로세서, 음성신호 인식부 및 상기 음성신호 인식부로부터 수신되고 배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법을 수행하는 프로그램 명령어들을 포함하는 메모리를 포함하고, 상기 프로그램 명령어들은, 상기 음성신호에서 음성신호 샘플을 획득하는 단계, 상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계, 상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 제 1 프레임을 생성하는 단계, 상기 제 1 프레임을 복수의 서브 프레임으로 분류하고, 상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 예비 음성신호 또는 상기 예비 잡음신호로 마킹하여 제 2 프레임을 생성하는 단계 및 상기 제 2 프레임에서 상기 예비 잡음신호로 마킹된 신호에서 상기 예비 음성신호로 마킹된 신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계를 상기 적어도 하나의 프로세서에 의해 실행할 수 있는 음성구간을 검출하는 장치를 제공할 수 있다.

본 발명의 일 실시예에 따른 음성구간 검출 방법 및 장치는 주파수영역으로 변환하는 과정을 거치지 않고, 음성구간을 정확하게 검출할 수 있다.

본 발명의 다른 실시예에 따른 음성구간 검출 방법 및 장치는 계산과정을 줄여 프로세서의 부담을 줄이고 소비절약을 절약할 수 있다.

본 발명의 다른 실시예에 따른 음성구간 검출 방법 및 장치는 제한된 소비전력을 공급받는 모바일 기기에 적용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성구간 검출 방법을 나타낸 순서도이다.
도 2는 음성신호가 배경잡음 구간과 음성구간으로 구성됨을 나타내는 개념도이다.
도 3은 본 발명의 일 실시예에 따른 음성구간 검출 방법에서 평균과 표준편차를 구하는 것을 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 프레임과 서브 프레임을 구하는 것을 나타낸 것이다.
도 5는 본 발명의 다른 실시예에 따른 음성구간 검출 방법을 나타낸 순서도이다.
도 6은 본 발명의 일 실시예에 따른 제 1 프레임과 제 2 프레임을 구하는 것을 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 음성구간 시작 시점과 음성구간 종료 시점을 검출하는 것을 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용한 음성구간 검출 방법을 시뮬레이션 한 결과이다.
도 9는 본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용하여 음성구간을 검출하는 장치를 나타낸 블럭도이다.

본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 첨부한 도면들을 참조하여, 본 발명의 실시예들을 보다 상세하게 설명하고자 한다.

도 1은 본 발명의 일 실시예에 따른 음성구간 검출 방법을 나타낸 순서도이다.

본 발명의 일 실시예에 따른 음성구간 검출 방법은 음성 인식부(620)를 통해서 배경잡음 구간과 음성구간을 포함하는 음성신호를 입력받을 수 있다. 여기서, 음성 인식부(620)는 음성을 전기신호로 변환할 수 있는 수단이면 가능하다.

음성 인식부(620)로부터 입력받은 음성신호는 배경잡음 구간과 음성구간을 포함할 수 있다. 잠시, 도 2를 참조하면, 배경잡음 구간은 음성구간이 시작되기 전 잡음이 포함되는 구간으로 비음성 신호와는 구별되는 구간이다.

음성구간은 배경잡음 구간 이후 실제 음성을 포함하는 구간이다. 음성신호는 필수적으로 배경잡음 구간과 음성구간을 포함한다. 도 2에 나타낸 것처럼, '사랑해요'라는 음성신호는 '사'라는 신호 이전에 필수적으로 비음성 신호와는 구별되는 배경잡음 신호, 즉 'ㅅ'가 존재한다.

또한, '사'와 '랑' 사이에도 '아' 또는 'ㄹ'와 같은 배경잡음 신호가 존재한다.

종래의 발명은 음성신호와 비음성 신호를 구분하는 것을 목적으로 하나, 본 발명의 일 실시예에 따른 음성구간 검출 방법은 음성신호에 포함되는 배경잡음 구간과 음성구간을 구분하는 목적을 포함할 수 있다.

도 1을 참조하면, 단계 S101에서 음성신호에서 음성신호 샘플을 획득할 수 있다.

본 발명의 일 실시예에서 획득하는 음성신호 샘플은 음성신호의 진폭에 대한 샘플이 될 수 있다. 또한, 획득하는 샘플의 수는 복수가 될 수 있다.

본 발명의 일 실시예에 따른 음성구간 검출 방법에서 획득하는 샘플의 수는 음성구간 검출 방법을 실행하는 데이터 처리 시스템의 처리 속도와 메모리의 용량에 따라 다르게 설정될 수 있다.

단계 S102에서는 단계 S101에서 획득한 음성신호 샘플의 처음 T개의 평균(m)과 표준 편차(σ)를 구할 수 있다.

위에서 설명한 것처럼, 획득한 음성신호 샘플은 음성 신호의 진폭에 대한 샘플 값이 될 수 있다. 음성신호는 배경잡음 구간을 필수적으로 포함하므로, 음성신호 샘플의 처음 T개는 배경잡음 구간의 음성신호 샘플을 포함할 수 있다.

여기서, 임의의 수 T는 음성구간 검출 방법을 실행하는 환경에 따라 다르게 설정될 수 있다.

잠시, 도 3을 참조하면, 음성신호의 배경잡음 구간에서 15개의 샘플 값(X1,X2.....X14 및 X15)을 획득한 것을 확인할 수 있다. 도 3에서는 배경잡음 구간의 전부에서 고르게 샘플 값을 획득하였으나, 배경잡음 구간의 일부에서만 샘플 값을 획득할 수도 있다.

다른 실시예에서, 사용자가 배경잡음 구간을 구별하는 기준을 특정 수치 범위로 지정한 경우 특정 수치 범위를 넘어서는 음성신호는 음성구간으로 판단하고, 특정 수치 범위를 넘어서지 않는 음성신호는 배경잡음 구간으로 판단한 후 배경잡음 구간에 포함되는 샘플에서 평균(m)과 표준 편차(σ)를 구할 수 있다.

평균(m)과 표준 편차(σ)를 구하는 방법은 공지의 방법을 이용할 수 있다.

도 3에 나타낸 것처럼, 15개의 샘플(X1, X2.....X14 및 X15)을 이용하여, 배경잡음 구간 샘플에 포함된 음성신호의 크기의 평균(m) 및 표준 편차(σ)를 계산할 수 있다.

평균(m)은 15개의 샘플 X1,X2.....X14 및 X15의 평균이 될 수 있고, 표준 편차(σ)는 평균(m)과 15개의 샘플 X1,X2.....X14 및 X15을 통해서 구할 수 있다.

여기서, 표준 편차(σ)는 배경잡음에서 벗어난 정도를 나타낸다. 즉, 임의의 음성신호 샘플 값에서 평균(m)을 뺀 값의 절대값이 표준 편차(σ)보다 큰 경우, 음성구간에서 획득한 신호로 판단할 수 있다.

단계 S103에서 평균(m)과 표준 편차(σ)를 이용하여, 음성신호 샘플을 예비 음성신호 또는 예비 잡음신호로 마킹하여 프레임을 생성할 수 있다.

잠시, 도 4를 참조하면, 도 4의 (a) 및 (b)에 나타낸 것처럼, 배경잡음 구간 샘플은 X1, X2.....X14 및 X15을 포함할 수 있고, 음성구간 샘플은 X16, X17.....X29 및 X30을 포함할 수 있다.

음성신호 샘플의 샘플 값에서 평균(m)을 뺀 값의 절대값이 표준 편차(σ)의 N 실수배 이상인 경우, 예비 음성신호로 마킹할 수 있다. 여기서, 예비 음성신호는 1로 마킹할 수 있다.

또한, 음성신호 샘플의 샘플 값에서 평균(m)을 뺀 값의 절대값이 표준 편차(σ)의 N 실수배 미만인 경우, 예비 잡음신호로 마킹할 수 있다. 여기서, 예비 잡음신호는 0으로 마킹할 수 있다.

일 실시예에 있어서, N은 1, 2, 및 3 중 선택되는 어느 하나가 될 수 있으나, N을 특별한 수로 제한하는 것은 아니다. 예를 들어, 표준 정규 분포에 따르면, N이 1인 경우 68%를 벗어나는 구간이 음성구간이 될 수 있고, N이 2인 경우 95%를 벗어나는 구간이 음성구간이 될 수 있고, N이 3인 경우 99.7%를 벗어나는 영역이 음성구간이 될 수 있다. 사용자의 요청에 따라, N은 변경될 수 있다.

도 4의 (c)에 나타낸 것처럼, 음성신호 X1에서 평균(m)을 뺀 절대값이 표준 편차(σ)의 N 실수배 미만인 경우, 0으로 마킹할 수 있다. 또한, 음성신호 X3에서 평균(m)을 뺀 절대값이 표준 편차(σ)의 N 실수배 이상인 경우, 1로 마킹할 수 있다.

동일한 방법으로, 음성신호 X16에서 평균(m)을 뺀 절대값이 표준 편차(σ)의 N 실수배 이상인 경우, 1로 마킹할 수 있다. 또한, 음성신호 X18에서 평균(m)을 뺀 절대값이 표준 편차(σ)의 N 실수배 미만인 경우, 0으로 마킹할 수 있다.

이와 같은 방법을 X1 내지 X30에 적용하여, 도 4의 (c)에 나타낸 것처럼 프레임을 생성할 수 있다.

단계 S104에서 프레임을 복수의 서브 프레임으로 분류할 수 있다.

도 4의 (c)에서는 X1, X2 및 X3을 하나의 서브 프레임으로 분류하였으며, 30개의 샘플은 10개의 서브 프레임이 될 수 있다.

단계 S105에서 복수의 서브 프레임 각각을 예비 음성신호 및 예비 잡음신호의 개수에 따라 서브 프레임을 대표하는 대표 예비 음성신호 및 대표 예비 잡음신호를 획득할 수 있다.

도 4의 (d)에서 X1, X2 및 X3을 하나의 서브 프레임으로 분류했을 때, X1은 0, X2는 0, X3는 1이고, 0의 수가 많으므로, X1, X2 및 X3을 포함하는 서브 프레임을 대표하는 대표 예비 잡음신호는 0이 될 수 있다.

다른 예에서, X16, X17 및 X18을 하나의 서브 프레임으로 분류했을 때, X16은 1, X17는 1, X18는 0이고, 1의 수가 많으므로, X16, X17 및 X18을 포함하는 서브 프레임을 대표하는 대표 예비 음성신호는 1이 될 수 있다.

위의 과정을 반목하여, X1에서 X30까지 대표 신호를 획득하면, X1에서 X15까지는 대표 예비 잡음신호 0을 5개 획득할 수 있고, X16에서 X30까지는 대표 예비 음성신호 1을 5개 획득할 수 있다.

단계 S106에서 대표 예비 잡음신호에서 대표 예비 음성신호로 변경되는 시점을 음성구간이 시작되는 시점으로 판단할 수 있다.

도 4의 (c) 및 (d)에서 X13, X14 및 X15를 대표하는 대표 예비 잡음신호 0에서 X16, X17 및 X18를 대표하는 대표 예비 음성신호 1로 변경되는 시점을 음성구간이 시작되는 시점으로 판단할 수 있다.

보다 상세하게는 X15와 X16을 획득한 시점 사이가 음성구간이 시작되는 시점이 될 수 있다.

단계 S107에서 대표 예비 음성신호에서 대표 예비 잡음신호로 변경되는 시점을 음성구간이 종료되는 시점으로 판단할 수 있다.

단계 S108에서는 단계 S106에서 판단한 음성구간이 시작되는 시점과 단계 S107에서 판단한 음성구간이 종료되는 시점을 이용하여, 시작되는 시점과 종료되는 시점 사이의 구간을 음성구간으로 검출할 수 있다.

본 발명의 일 실시예에 따른 음성구간 검출 방법은 주파수영역으로 변환하는 과정을 거치지 않고, 음성구간을 정확하게 검출할 수 있고, 계산과정을 줄여 프로세서의 부담을 줄이고 소비절약을 절약할 수 있으므로 제한된 소비전력을 공급받는 모바일 기기에 용이하게 적용할 수 있다.

도 5는 본 발명의 다른 실시예에 따른 음성구간 검출 방법을 나타낸 순서도이다.

도 5를 참조하면, 단계 S501에서 배경잡음 구간과 음성 구간을 포함하는 음성신호를 입력받을 수 있다.

단계 S502에서 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산할 수 있다.

단계 S503에서 평균과 상기 표준 편차를 이용하여, 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 제 1 프레임을 생성할 수 있다.

잠시, 도 6을 참조하면, 도 6의 (a) 및 (b)에 나타낸 것처럼, 배경잡음 구간 샘플은 X1, X2.....X14 및 X15을 포함할 수 있고, 음성구간 샘플은 X16, X17.....X29 및 X30을 포함할 수 있다.

일 실시예에서, 음성신호 샘플의 크기에서 평균(m)을 뺀 값의 절대값이 표준 편차(σ)의 N 실수배 이상인 경우, 예비 음성신호로 마킹할 수 있다. 여기서, 예비 음성신호는 1로 마킹할 수 있다.

또한, 음성신호 샘플의 크기에서 평균(m)을 뺀 값의 절대값이 표준 편차(σ)의 N 실수배 미만인 경우, 예비 잡음신호로 마킹할 수 있다. 여기서, 예비 잡음신호는 0으로 마킹할 수 있다.

도 6의 (c)에 나타낸 것처럼, 음성신호 X1에서 평균(m)을 뺀 절대값이 표준 편차(σ)의 N 실수배 미만인 경우, 0으로 마킹할 수 있다. 또한, 음성신호 X3에서 평균(m)을 뺀 절대값이 표준 편차(σ)의 N 실수배 이상인 경우, 1로 마킹할 수 있다.

이와 같은 방법을 X1 내지 X30에 적용하여, 제 1프레임을 생성할 수 있다.

단계 S504에서 제 1 프레임을 복수의 서브 프레임으로 분류하고, 복수의 서브 프레임 각각을 예비 음성신호 및 예비 잡음신호의 개수에 따라 예비 음성신호 또는 예비 잡음신호로 마킹하여 제 2 프레임을 생성할 수 있다.

다른 실시예에서, 제 1 프레임을 복수의 서브 프레임으로 분류하고, 복수의 서브 프레임 각각에서 주요도를 조사할 수 있다. 또한, 주요도에 따라 서브 프레임을 예비 음성신호 또는 예비 잡음신호로 마킹하여, 제 2 프레임을 생성할 수도 있다.

도 6의 (b) 및 (c)에서 X1은 0이고, X2는 0이고, X3는 1이라는 것을 확인할 수 있다. X1, X2 및 X3을 하나의 서브 프레임으로 하여, 주요도를 조사하면, 0과 1중에 0이 많으므로 X1, X2 및 X3을 포함하는 서브 프레임의 주요도는 0이 될 수 있다.

서브 프레임의 주요도가 0인 경우, 도 4의 (d)에 나타낸 것처럼 X1, X2 및 X3을 포함하는 서브 프레임을 대표하는 프레임을 0으로 마킹할 수 있다.

도 6의 (b) 및 (c)에서 X16는 1이고, X17는 1이고, X18는 0이다. X16, X17 및 X18을 다른 하나의 서브 프레임으로 하여, 주요도를 조사하면, 0과 1중에 1이 많으므로 X16, X17 및 X18을 포함하는 서브 프레임의 주요도는 1이 될 수 있다.

서브 프레임의 주요도가 1인 경우, 도 6의 (d)에 나타낸 것처럼 X16, X17 및 X18을 포함하는 서브 프레임을 대표하는 프레임을 1로 마킹할 수 있다.

도 6의 (e)에 나타낸 것처럼, 각각의 서브 프레임을 대표하는 프레임을 정리하면 제 2 프레임을 생성할 수 있다. 다만, 본 발명의 일 실시예에서 주요도는 사용자와 시스템의 요청에 따라 다르게 설정될 수 있다.

도 6의 (e)의 제 2 프레임을 살펴보면, 제 2 프레임 중 배경잡음 구간에 해당하는 프레임은 0으로 마킹되고, 제 2 프레임 중 음성구간에 해당하는 프레임은 1로 마킹된 것을 확인할 수 있다.

본 명세서에서는 제 1 프레임을 생성하는 단계와 제 2 프레임을 생성하는 단계를 각각 1회씩만 수행하는 것을 설명하였으나, 사용자의 요청, 시스템의 사양, 음성 신호의 성질에 따라서, 제 1 프레임을 생성하는 단계 및 제 2 프레임을 생성하는 단계는 복수로 수행될 수 있다.

단계 S505에서 제 2 프레임에서 예비 잡음신호로 마킹된 신호에서 예비 음성신호로 마킹된 신호로 변경되는 시점을 음성구간이 시작되는 시점으로 판단할 수 있다.

단계 S506에서 제 2 프레임에서 예비 음성신호로 마킹된 신호에서 예비 잡음신호로 마킹된 신호로 변경되는 시점을 음성구간이 종료되는 시점으로 판단할 수 있다.

단계 S507에서 음성구간이 시작되는 시점 및 음성구간이 종료되는 시점 사이의 구간을 음성구간으로 검출할 수 있다.

도 7을 참조하면, 제 2 프레임에서, 0에서 1로 변경되는 시점이 음성구간이 시작하는 시점이 될 수 있고, 1에서 0으로 변경되는 시점이 음성구간이 종료하는 시점이 될 수 있다.

도 8은 본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용한 음성구간 검출 방법을 시뮬레이션 한 결과이다.

도 8을 참조하면, P와 S1 사이는 배경잡음 구간이고, S1과 S2 사이는 음성 구간이다. 본 발명에 따른 음성구간 검출방법은 배경잡음 구간과 음성구간이 만나는 시점 S1에서 음성구간이 시작되는 것을 정확하게 검출할 수 있다.

또한, S2는 음성구간이 종료하는 시점으로, 본 발명에 따른 음성구간 검출방법은 배경잡음 구간에서 음성구간으로 변경되는 시점을 정확하게 검출할 수 있다. 동일한 방법으로 S3 및 S4를 검출할 수 있다.

아래 [표 1]은 본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용한 음성구간 검출 방법을 종래의 방법과 비교한 결과이다.

구절	STE	ZCR 기반 STE	본 발명
숫자조합	75.732%	72.213%	87.452%
문장	48.214%	51.129%	68.564%

STE는 종래의 잘 알려진 단구간 에너지(short time energy; STE)를 나타내고, ZCR 기반 STE는 영교차율(zeros crossing rate; ZCR)을 나타낸다. [표 1]에 나타낸 것처럼, 본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용한 음성구간 검출 방법이 종래의 방법보다 우수한 효과가 있음을 확인할 수 있다.

여기에서 개시된 실시예들과 결합하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해서 실행된 소프트웨어 모듈에서, 또는 상기 두 가지의 결합에서 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 탈부착 가능 디스크, CD-ROM, 또는 본 발명이 속한 기술분야에서 알려진 어떤 다른 형상의 저장 매체에 상주할 수 있다. 예시적인 저장 매체는 상기 프로세서와 결합할 수 있을 것이며, 그래서 상기 프로세서가 상기 저장 매체로부터 정보를 읽고 그리고 정보를 그 저장 매체에 쓸 수 있도록 한다.

대안적으로, 저장 매체는 프로세서에 통합될 수 있다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수 있을 것이다. ASIC은 사용자 단말 내에 위치할 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말 내 별도의 컴포넌트들로서 상주할 수 있다.

상기에서 설명된 모든 프로세스들은 하나 또는 그 이상의 범용 또는 특수 목적 컴퓨터들이나 프로세서들에 의해서 실행된 소프트웨어 코드 모듈들 내에서 구현될 수 있을 것이며, 그리고 그 소프트웨어 코드 모듈들을 경유하여 완전히 자동화될 수 있다. 코드 모듈들은 임의 유형의 컴퓨터-독출가능 매체 또는 다른 컴퓨터 저장 디바이스 또는 저장 디바이스들의 집합 상에 저장될 수 있을 것이다. 상기 방법들 중 몇몇 또는 모두는 전문화된 컴퓨터 하드웨어 내에서 대안으로 구현될 수 있을 것이다.

여기에서 설명된 모든 방법들 및 태스크들은 컴퓨터 시스템에 의해서 실행되고 충분히 자동화될 수 있다. 컴퓨터 시스템은 설명된 기능들을 수행하기 위해서 네트워크를 통해서 통신하고 그리고 상호 동작하는 다중의 개별 컴퓨터들 또는 컴퓨팅 디바이스들(예를 들면, 물리적인 서버들, 워크스테이션들, 저장 어레이들 등)을 포함할 수 있다.

컴퓨팅 디바이스 각각은 메모리 또는 비-일시적 컴퓨터-독출가능 저장 매체에 저장된 프로그램 명령어들 또는 모듈들을 실행시키는 프로세서(또는 다중 프로세서들 또는 회로 또는 회로들의 집합, 예를 들면 모듈)를 포함할 수 있다.

여기에서 설명된 다양한 기능들 중 몇몇 또는 모두는 컴퓨터 시스템의 애플리케이션-특정 회로 (예를 들면, ASIC들 또는 FPGA들)로 구현될 수 있지만, 그 설명된 다양한 기능들은 그런 프로그램 명령어들로 구현될 수 있을 것이다. 상기 컴퓨터 시스템이 여러 컴퓨팅 디바이스들을 포함할 때에, 이 디바이스들은 같은 장소에 배치되는 것이 필요한 것은 아니지만, 같이 배치될 수 있을 것이다. 상기 개시된 방법들 및 태스크들의 결과들은 솔리드 스테이트 메모리 칩들 및/또는 자기 디스크들과 같은 변환 물리 저장 디바이스들에 의해서 상이한 상태로 영구적으로 저장될 수 있다.

도 9는 본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용하여 음성구간을 검출하는 장치를 나타낸 블럭도이다.

도 9를 참조하면, 본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용하여 음성구간을 검출하는 장치(600)는 프로세서(610), 음성인식부(620) 및 메모리(630)를 포함할 수 있다.

음성 인식부(610)는 음성신호를 입력받을 수 있다. 여기서, 음성 인식부(610)는 음성신호를 전기신호로 변경하는 수단이면 가능하다. 메모리(620)는 음성구간을 검출하는 프로그램 명령어들을 저장할 수 있고, 프로세서(630)는 음성구간을 검출하는 프로그램 명령어들을 실행할 수 있다.

여기서, 프로그램 명령어들은 상기 음성신호에서 음성신호 샘플을 획득하는 단계, 상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계, 상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 프레임을 생성하는 단계, 상기 프레임을 복수의 서브 프레임으로 분류하는 단계, 상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 서브 프레임을 대표하는 대표 예비 음성신호 및 대표 예비 잡음신호를 획득하는 단계, 상기 대표 예비 잡음신호에서 상기 대표 예비 음성신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계, 상기 대표 예비 음성신호에서 상기 대표 예비 잡음신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계 및 상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계를 수행하는 프로그램 명령어를 포함할 수 있다.

본 명세서에서 설명되는 음성구간 검출 방법을 포함하는 애플리케이션의 실시예들은 다양한 다른 디바이스들과 상호작용할 수 있는 하나 이상의 컴퓨터 시스템에서 실행될 수 있다.

일 실시예에서, 컴퓨터 시스템은 휴대용 디바이스, 개인용 컴퓨터 시스템, 데스크탑 컴퓨터, 랩탑, 노트북 또는 넷북 컴퓨터, 메인프레임 컴퓨터 시스템, 핸드헬드 컴퓨터, 워크스테이션, 네트워크 컴퓨터, 카메라, 셋톱 박스, 이동 디바이스, 소비자 디바이스, 비디오 게임 콘솔, 핸드헬드 비디오 게임 디바이스, 애플리케이션 서버, 저장 디바이스, 스위치, 모뎀, 라우터와 같은 주변 디바이스, 또는 일반적으로 임의 타입의 컴퓨팅 또는 전자 디바이스를 포함하지만, 이에 한정되지 않는 임의의 다양한 타입의 디바이스일 수 있다.

컴퓨터 시스템은 입출력(I/O) 인터페이스를 통해 시스템 메모리에 결합 된 하나 이상의 프로세서를 포함할 수 있다. 컴퓨터 시스템은 I/O 인터페이스에 결합된 유선 및/또는 무선 네트워크 인터페이스를 더 포함할 수 있으며, 커서 제어 디바이스, 키보드, 디스플레이(들) 및 멀티터치 인에이블드 디바이스와 같은 멀티터치 인터페이스와 같은 하나 이상의 입출력 디바이스를 포함할 수 있다.

일 실시예에 있어서, 컴퓨터 시스템의 단일 인스턴스를 이용하여 구현될 수 있는 반면, 다른 실시예에서는 다수의 그러한 시스템, 또는 컴퓨터 시스템을 구성하는 다수의 노드가 실시예들의 상이한 부분들 또는 인스턴스들을 호스트하도록 구성될 수 있다. 예를 들어, 일부 요소들은 다른 요소들을 구현하는 노드들과 다른 컴퓨터 시스템의 하나 이상의 노드들을 통해 구현될 수 있다.

다양한 실시예에서, 컴퓨터 시스템은 하나의 프로세서를 포함하는 유니프로세서 시스템 또는 여러 개의 프로세서(예로서, 2개, 4개, 8개 또는 다른 적절한 수)를 포함하는 멀티프로세서 시스템일 수 있다. 프로세서들은 명령어들을 실행할 수 있는 임의의 적절한 프로세서일 수 있다. 예를 들어, 다양한 실시예들에서, 프로세서들은 x86, PowerPC, SPARC 또는 MIPS 명령어 세트 아키텍처(ISA) 또는 임의의 다른 적절한 ISA와 같은 임의의 다양한 ISA를 구현하는 범용 또는 내장 프로세서들일 수 있다. 멀티프로세서 시스템들에서, 프로세서들의 각각은 반드시가 아니라 일반적으로 동일 ISA로 구현될 수 있다.

일 실시예에 있어서, 적어도 하나의 프로세서는 그래픽 처리 유닛일 수 있다. 그래픽 처리 유닛, 즉 GPU는 개인용 컴퓨터, 워크스테이션, 게임 콘솔 또는 다른 컴퓨팅 또는 전자 디바이스를 위한 전용 그래픽 렌더링 디바이스로서 간주될 수 있다. 현대의 GPU들은 컴퓨터 그래픽의 조작 및 표시에 있어서 매우 효율적일 수 있으며, 이들의 고도의 병렬 구조는 이들이 소정 범위의 복잡한 그래픽 알고리즘들에 대해 통상의 CPU들보다 효과적이게 할 수 있다. 예를 들어, 그래픽 프로세서는 호스트 중앙 처리 유닛(CPU)을 이용하여 스크린에 직접 그리는 것보다 훨씬 더 빠르게 그래픽 프리미티브 연산들을 실행하는 방식으로 다수의 그래픽 프리미티브 연산을 구현할 수 있다.

다양한 실시예에 있어서, 본 명세서에서 개시되는 방법들 및 기술들은 그러한 GPU들 중 하나에서 실행되거나 둘 이상에서 병렬로 실행되도록 구성되는 프로그램 명령어들에 의해 적어도 부분적으로 구현될 수 있다. GPU는 프로그래머들이 GPU의 기능을 호출할 수 있게 하는 하나 이상의 애플리케이션 프로그래머 인터페이스(API)를 구현할 수 있다. 적절한 GPU들은 NVIDIA 사, ATI 테크놀로지스(AMD) 등과 같은 판매자들로부터 구매 가능할 수 있다.

시스템 메모리는 프로세서에 의해 액세스 가능한 프로그램 명령어들 및/또는 데이터를 저장하도록 구성될 수 있다. 다양한 실시예들에서, 시스템 메모리는 정적 랜덤 액세스 메모리(SRAM), 동기식 동적 RAM(SDRAM), 비휘발성/플래시 타입 메모리 또는 임의의 다른 타입의 메모리와 같은 임의의 적절한 메모리 기술을 이용하여 구현될 수 있다.

본 발명의 일 실시예에 따른 배경잡음의 확률모델과 계층적 프레임 정보를 이용한 음성구간 검출 방법을 구현하는 애플리케이션의 실시예들에 대해 전술한 것들과 같은 원하는 기능들을 구현하는 프로그램 명령어들 및 데이터는 시스템 메모리 내에 프로그램 명령어들 및 데이터 저장소로서 각각 저장될 수 있다.

다른 실시예들에서, 프로그램 명령어들 및/또는 데이터는 수신되거나 송신되거나 또는 상이한 타입의 컴퓨터 액세스 가능 매체들 상에 또는 시스템 메모리 또는 컴퓨터 시스템으로부터 분리된 유사한 매체들 상에 저장될 수 있다. 일반적으로, 컴퓨터 액세스 가능 매체는 자기 또는 광학 매체들, 예로서 I/O 인터페이스를 통해 컴퓨터 시스템에 결합된 디스크 또는 CD/DVD-ROM과 같은 저장 매체들 또는 메모리 매체들을 포함할 수 있다. 컴퓨터 액세스 가능 매체를 통해 저장된 프로그램 명령어들 및 데이터는 네트워크 인터페이스를 통해 구현될 수 있는 바와 같은 네트워크 및/또는 무선 링크와 같은 통신 매체를 통해 운반될 수 있는 전기, 전자기 또는 디지털 신호들과 같은 송신 매체들 또는 신호들에 의해 전송될 수 있다.

일 실시예에서, I/O 인터페이스는 프로세서, 시스템 메모리 및 네트워크 인터페이스 또는 입출력 디바이스들과 같은 다른 주변 인터페이스들을 포함하는 디바이스 내의 임의의 주변 디바이스들 간의 I/O 트래픽을 조정하도록 구성될 수 있다. 일부 실시예들에서, I/O 인터페이스는 하나의 컴포넌트(예로서, 시스템 메모리)로부터의 데이터 신호들을 다른 컴포넌트(예로서, 프로세서)에 의한 사용에 적합한 포맷으로 변환하기 위해 임의의 필요한 프로토콜, 타이밍 또는 기타 데이터 변환들을 수행할 수 있다.

일 실시예에서, I/O 인터페이스는 예를 들어 주변 컴포넌트 상호접속(PCI) 버스 표준 또는 유니버설 직렬 버스(USB) 표준의 변형과 같은 다양한 타입의 주변 버스들을 통해 부착된 디바이스들에 대한 지원을 포함할 수 있다. 일부 실시예들에서, I/O 인터페이스의 기능은 예를 들어 노스 브리지 및 사우스 브리지와 같은 둘 이상의 개별 컴포넌트로 분할될 수 있다. 게다가, 일부 실시예들에서, 시스템 메모리에 대한 인터페이스와 같은 I/O 인터페이스의 기능의 일부 또는 전부는 프로세서 내에 직접 통합될 수 있다.

네트워크 인터페이스는 컴퓨터 시스템과 다른 컴퓨터 시스템들과 같은 네트워크에 부착된 다른 디바이스들 사이에서 또는 컴퓨터 시스템의 노드들 사이에서 데이터가 교환되게 하도록 구성될 수 있다.

다양한 실시예들에서, 네트워크 인터페이스는 예를 들어 임의의 적절한 타입의 이더넷 네트워크와 같은 유선 또는 무선 범용 데이터 네트워크들을 통해; 아날로그 음성 네트워크들 또는 디지털 광섬유 통신 네트워크 들과 같은 통신/전화 네트워크들을 통해; 광섬유 채널 SAN들과 같은 저장 영역 네트워크들을 통해; 또는 임의의 다른 적절한 타입의 네트워크 및/또는 프로토콜을 통해 통신을 지원할 수 있다.

입출력 디바이스들은 일부 실시예들에서 하나 이상의 디스플레이 단말기, 키보드, 키패드, 터치패드, 스캐닝 디바이스, 음성 또는 광학 인식 디바이스, 또는 하나 이상의 컴퓨터 시스템에 의한 데이터 입력 및 검색에 적합한 임의의 다른 디바이스들을 포함할 수 있다. 다수의 입출력 디바이스가 컴퓨터 시스템 내에 존재할 수 있거나, 컴퓨터 시스템의 다양한 노드 상에 분산될 수 있다.

일 실시예에서, 유사한 입출력 디바이스들이 컴퓨터 시스템으로부터 분리될 수 있거나, 유선 또는 무선 접속을 통해, 이를테면 네트워크 인터페이스를 통해 컴퓨터 시스템의 하나 이상의 노드와 상호작용할 수 있다.

컴퓨터 시스템 및 디바이스들은 컴퓨터, 개인용 컴퓨터 시스템, 데스크탑 컴퓨터, 랩탑, 노트북 또는 넷북 컴퓨터, 메인프레임 컴퓨터 시스템, 핸드헬드 컴퓨터, 워크스테이션, 네트워크 컴퓨터, 카메라, 셋톱 박스, 이동 디바이스, 네트워크 디바이스, 인터넷 기구, PDA, 무선 전화, 페이저, 소비자 디바이스, 비디오 게임 콘솔, 핸드헬드 비디오 게임 디바이스, 애플리케이션 서버, 저장 디바이스, 스위치, 모뎀, 라우터와 같은 주변 디바이스, 또는 일반적으로 임의 타입의 컴퓨팅 또는 전자 디바이스를 포함하는, 지시된 기능들을 수행할 수 있는 하드웨어 또는 소프트웨어의 임의 조합을 포함할 수 있다.

컴퓨터 시스템은 다른 디바이스들에 접속될 수 있거나, 그 대신에 독립 시스템으로서 동작할 수도 있다. 또한, 컴포넌트들에 의해 제공되는 기능은 일부 실시예들에서 더 적은 컴포넌트들 내에 결합되거나 추가적인 컴포넌트들 내에 분산될 수 있다. 유사하게, 일부 실시예들에서, 컴포넌트들 중 일부 컴포넌트의 기능은 제공되지 않을 수 있고 및/또는 다른 추가 기능이 이용 가능할 수 있다.

다양한 아이템들이 사용되고 있는 동안에 메모리 내에 또는 저장소 상에 저장되지만, 이러한 아이템들 또는 이들의 부분들은 메모리 관리 및 데이터 보전의 목적들을 위해 메모리와 다른 저장 디바이스들 사이에서 전송될 수 있다는 것을 이 분야의 기술자들은 알 수 있다. 대안적으로 다른 실시예들에서, 소프트웨어 컴포넌트들 중 일부 또는 전부는 다른 디바이스 상의 메모리에서 실행되고, 컴퓨터간 통신을 통해 컴퓨터 시스템과 통신할 수 있다.

시스템 컴포넌트들 또는 데이터 구조들의 일부 또는 전부는 또한 그의 다양한 예들이 위에서 설명된 적절한 드라이브에 의해 판독될 컴퓨터 액세스 가능 매체 또는 휴대용 물건 상에(예로서, 명령어들 또는 구조화된 데이터로서) 저장될 수 있다. 일부 실시예들에서, 컴퓨터 시스템으로부터 분리된 컴퓨터 액세스 가능 매체 상에 저장된 명령어들은 네트워크 및/또는 무선 링크와 같은 통신 매체를 통해 운반되는 전기, 전자기 또는 디지털 신호들과 같은 송신 매체들 또는 신호들을 통해 컴퓨터 시스템으로 전송될 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

600 : 음성구간 검출장치
610 : 프로세서
620 : 음성 인식부
630 : 메모리

Claims

배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법에 있어서,
상기 음성신호에서 음성신호 샘플을 획득하는 단계;
상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계;
상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 프레임을 생성하는 단계;
상기 프레임을 복수의 서브 프레임으로 분류하는 단계;
상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 서브 프레임을 대표하는 대표 예비 음성신호 및 대표 예비 잡음신호를 획득하는 단계; 및
상기 대표 예비 잡음신호에서 상기 대표 예비 음성신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계;
를 포함하는 음성구간 검출 방법.
제 1 항에 있어서,
상기 대표 예비 음성신호에서 상기 대표 예비 잡음신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계; 및
상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계;
를 더 포함하는 음성구간 검출 방법.
제 1 항에 있어서,
상기 프레임을 생성하는 단계는
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 이상인 경우, 상기 예비 음성신호로 마킹하고,
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 미만인 경우, 상기 예비 잡음신호로 마킹하여,
상기 프레임을 생성하는 단계인 것을 특징으로 하는 음성구간 검출 방법.
제 1 항에 있어서,
상기 예비 음성신호는 1로 마킹하고, 상기 예비 잡음신호는 0으로 마킹하는 것을 특징으로 하는 음성구간 검출 방법.
배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법에 있어서,
상기 음성신호에서 음성신호 샘플을 획득하는 단계;
상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계;
상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 제 1 프레임을 생성하는 단계;
상기 제 1 프레임을 복수의 서브 프레임으로 분류하고, 상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 예비 음성신호 또는 상기 예비 잡음신호로 마킹하여 제 2 프레임을 생성하는 단계; 및
상기 제 2 프레임에서 상기 예비 잡음신호로 마킹된 신호에서 상기 예비 음성신호로 마킹된 신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계;
를 포함하는 음성구간 검출 방법.
제 5 항에 있어서,
상기 제 2 프레임에서 상기 예비 음성신호로 마킹된 신호에서 상기 예비 잡음신호로 마킹된 신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계; 및
상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계;
를 더 포함하는 음성구간 검출 방법.
제 5 항에 있어서,
상기 제 1 프레임을 생성하는 단계는
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 이상인 경우, 상기 예비 음성신호로 마킹하고,
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 미만인 경우, 상기 예비 잡음신호로 마킹하여,
상기 제 1 프레임을 생성하는 단계인 것을 특징으로 하는 음성구간 검출 방법.
제 5 항에 있어서,
상기 예비 음성신호는 1로 마킹하고, 상기 예비 잡음신호는 0으로 마킹하는 것을 특징으로 하는 음성구간 검출 방법.
음성구간을 검출하는 장치로서,
적어도 하나의 프로세서;
음성신호 인식부; 및
상기 음성신호 인식부로부터 수신되고 배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법을 수행하는 프로그램 명령어들을 포함하는 메모리;
를 포함하고,
상기 프로그램 명령어들은,
상기 음성신호에서 음성신호 샘플을 획득하는 단계;
상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계;
상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 프레임을 생성하는 단계;
상기 프레임을 복수의 서브 프레임으로 분류하는 단계;
상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 서브 프레임을 대표하는 대표 예비 음성신호 및 대표 예비 잡음신호를 획득하는 단계;
상기 대표 예비 잡음신호에서 상기 대표 예비 음성신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계;
상기 대표 예비 음성신호에서 상기 대표 예비 잡음신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계; 및
상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계;
를 상기 적어도 하나의 프로세서에 의해 실행할 수 있는 음성구간을 검출하는 장치.
제 9 항에 있어서,
상기 프레임을 생성하는 단계는
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 이상인 경우, 상기 예비 음성신호로 마킹하고,
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 미만인 경우, 상기 예비 잡음신호로 마킹하여,
상기 프레임을 생성하는 단계인 것을 특징으로 하는 음성구간 검출 장치.
제 9 항에 있어서,
상기 예비 음성신호는 1로 마킹하고, 상기 예비 잡음신호는 0으로 마킹하는 것을 특징으로 하는 음성구간 검출 장치.
음성구간을 검출하는 장치로서,
적어도 하나의 프로세서;
음성신호 인식부; 및
상기 음성신호 인식부로부터 수신되고 배경잡음 구간과 음성구간을 포함하는 음성신호에서 상기 음성구간을 검출하는 방법을 수행하는 프로그램 명령어들을 포함하는 메모리;
를 포함하고,
상기 프로그램 명령어들은,
상기 음성신호에서 음성신호 샘플을 획득하는 단계;
상기 음성신호 샘플의 처음 T개의 평균과 표준 편차를 계산하는 단계;
상기 평균과 상기 표준 편차를 이용하여, 상기 음성신호 샘플을 예비 음성신호 및 예비 잡음신호 중 선택되는 어느 하나로 마킹하여 제 1 프레임을 생성하는 단계;
상기 제 1 프레임을 복수의 서브 프레임으로 분류하고,
상기 복수의 서브 프레임 각각을 상기 예비 음성신호 및 상기 예비 잡음신호의 개수에 따라 상기 예비 음성신호 또는 상기 예비 잡음신호로 마킹하여 제 2 프레임을 생성하는 단계; 및
상기 제 2 프레임에서 상기 예비 잡음신호로 마킹된 신호에서 상기 예비 음성신호로 마킹된 신호로 변경되는 시점을 상기 음성구간이 시작되는 시점으로 판단하는 단계;
를 상기 적어도 하나의 프로세서에 의해 실행할 수 있는 음성구간을 검출하는 장치.
제 12 항에 있어서,
상기 제 2 프레임에서 상기 예비 음성신호로 마킹된 신호에서 상기 예비 잡음신호로 마킹된 신호로 변경되는 시점을 상기 음성구간이 종료되는 시점으로 판단하는 단계; 및
상기 음성구간이 시작되는 시점 및 상기 음성구간이 종료되는 시점 사이의 구간을 상기 음성구간으로 검출하는 단계;
를 더 포함하는 음성구간 검출 장치.
제 12 항에 있어서,
상기 제 1 프레임을 생성하는 단계는
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 이상인 경우, 상기 예비 음성신호로 마킹하고,
상기 음성신호 샘플의 샘플 값에서 상기 평균을 뺀 값의 절대값이 상기 표준 편차의 N 실수배 미만인 경우, 상기 예비 잡음신호로 마킹하여,
상기 제 1 프레임을 생성하는 단계인 것을 특징으로 하는 음성구간 검출 장치.
제 12 항에 있어서,
상기 예비 음성신호는 1로 마킹하고, 상기 예비 잡음신호는 0으로 마킹하는 것을 특징으로 하는 음성구간 검출 장치.