KR20120008088A

KR20120008088A - 음성 세그먼트화를 위한 방법 및 장치

Info

Publication number: KR20120008088A
Application number: KR1020127000010A
Authority: KR
Inventors: 로버트 두; 예 타오; 다렌 주
Original assignee: 인텔 코오퍼레이션
Priority date: 2006-12-27
Filing date: 2006-12-27
Publication date: 2012-01-25
Also published as: EP2100294A1; CN101568957B; JP2010515085A; US8442822B2; EP2100294A4; US8775182B2; US20100153109A1; KR101140896B1; US20130238328A1; JP5453107B2; KR20090094106A; CN101568957A; WO2008077281A1

Abstract

음성 세그먼트화를 위한 머신 판독 가능 매체, 방법, 장치 및 시스템이 설명된다. 일부 실시예들에서, 음성 세그먼트와 비음성 세그먼트를 구별하기 위한 퍼지 규칙이 결정될 수 있다. 퍼지 규칙의 전제는 입력 변수 및 입력 변수 멤버쉽을 포함할 수 있다. 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함할 수 있다. 세그먼트로부터 입력 변수의 인스턴스가 추출될 수 있다. 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수가 훈련될 수 있다. 입력 변수의 인스턴스, 입력 변수 멤버쉽 함수, 출력 변수, 및 출력 변수 멤버쉽 함수를 연산하여, 세그먼트가 음성 세그먼트인지 또는 비음성 세그먼트인지를 결정할 수 있다.

Description

음성 세그먼트화를 위한 방법 및 장치{METHOD AND APPARATUS FOR SPEECH SEGMENTATION}

본 발명은 음성 세그먼트화를 위한 방법 및 장치에 관한 것이다.

음성 세그먼트화는 구조화되지 않은 정보를 음성 세그먼트들 및 비음성(non-speech) 세그먼트들로 분류하기 위한 구조화되지 않은 정보의 검색 단계일 수 있다. 다양한 방법이 음성 세그먼트화에 적용될 수 있다. 가장 널리 사용되는 방법은 음성 세그먼트와 비음성 세그먼트를 구별하는 매체 자원으로부터 음성 세그먼트들을 수동으로 추출하는 것이다.

여기에 설명된 발명은 첨부 도면들에서 한정이 아니라 예시적으로 도시된다. 도시의 간명화를 위해, 도면에 도시된 요소들은 반드시 축척으로 그려진 것은 아니다. 예를 들어, 명료화를 위해, 일부 요소들의 치수들은 다른 요소들에 비해 과장될 수 있다. 또한, 적절한 것으로 생각되는 경우, 도면들 사이에서 대응하거나 유사한 요소들을 지시하기 위해 참조 라벨들이 반복되었다.
도 1은 음성 세그먼트화 시스템을 포함하는 컴퓨팅 플랫폼의 일 실시예를 나타내는 도면.
도 2는 음성 세그먼트화 시스템의 일 실시예를 나타내는 도면.
도 3은 퍼지 규칙, 및 음성 세그먼트화 시스템이 퍼지 규칙을 연산하여, 세그먼트가 음성인지의 여부를 결정하는 방법의 일 실시예를 나타내는 도면.
도 4는 음성 세그먼트화 시스템에 의한 음성 세그먼트화 방법의 일 실시예를 나타내는 도면.

아래의 설명은 음성 세그먼트화 방법 및 장치를 위한 기술들을 설명한다. 아래의 설명에서는, 본 발명의 더 완전한 이해를 제공하기 위해, 논리 구현, 의사 코드, 피연산자를 지정하기 위한 수단, 자원 분할/공유/복제 구현, 시스템 컴포넌트들의 타입 및 상관성, 및 논리 분할/통합 선택과 같은 다양한 특정 상세가 설명된다. 그러나, 본 발명은 그러한 특정 상세들 없이도 실시될 수 있다. 다른 예들에서는, 본 발명을 불명확하게 하지 않기 위해, 제어 구조, 게이트 레벨 회로 및 전체 소프트웨어 명령어 시퀀스는 상세히 설명되지 않았다. 이 분야의 통상의 기술자들은 포함된 설명을 이용하여 과도한 실험 없이도 적절한 기능을 구현할 수 있을 것이다.

명세서에서 "하나의 실시예", "일 실시예", "예시적인 구현" 등에 대한 참조는 설명되는 실시예가 특정 특징, 구조 또는 특성을 포함할 수 있지만, 모든 실시예가 그 특정 특징, 구조 또는 특성을 반드시 포함하는 것은 아닐 수 있다는 것을 나타낸다. 더욱이, 그러한 문구들은 반드시 동일 실시예를 참조하는 것은 아니다. 또한, 특정 특징, 구조 또는 특성이 일 실시예와 관련하여 설명될 때, 명시적으로 설명되어 있는지의 여부와 관계없이, 그러한 특징, 구조 또는 특성을 다른 실시예들과 관련하여 달성하는 것은 이 분야의 기술자의 지식 내에 있다는 것을 이해한다.

본 발명의 실시예들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있다. 본 발명의 실시예들은 또한 하나 이상의 프로세서에 의해 판독되고 실행될 수 있는 머신 판독 가능 매체 상에 저장된 명령어들로서 구현될 수 있다. 머신 판독 가능 매체는 기계(예를 들어, 컴퓨팅 장치)에 의해 판독 가능한 형태로 정보를 저장 또는 전송하기 위한 임의의 메커니즘을 포함할 수 있다. 예를 들어, 머신 판독 가능 매체는 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 장치, 전기, 광학, 음향 또는 다른 형태의 전파 신호(예를 들어, 반송파, 적외선 신호, 디지털 신호 등), 기타 등등을 포함할 수 있다.

음성 세그먼트화 시스템(121)을 포함하는 컴퓨팅 플랫폼(10)의 일 실시예가 도 1에 도시되어 있다. 컴퓨팅 플랫폼들의 예는 메인프레임 컴퓨터, 미니 컴퓨터, 개인용 컴퓨터, 휴대용 컴퓨터, 랩탑 컴퓨터 및 데이터를 송수신하고 처리하기 위한 다른 장치들을 포함할 수 있다.

컴퓨팅 플랫폼(10)은 하나 이상의 프로세서(11), 메모리(12), 칩셋(13), I/O 장치(14) 및 아마도 다른 컴포넌트들을 포함할 수 있다. 하나 이상의 프로세서(11)는 프로세서 버스와 같은 하나 이상의 버스를 통해 다양한 컴포넌트(예를 들어, 메모리(12))에 통신 가능하게 결합된다. 프로세서(11)는 코드들을 실행할 수 있는 하나 이상의 처리 코어를 갖는 집적 회로(IC)로서 구현될 수 있다. 프로세서(11)의 예는 캘리포니아, 산타 클라라의 인텔사로부터 구매 가능한 인텔 코어, 인텔 셀러론, 인텔 펜티엄, 인텔 제논, 인텔 이타늄 아키텍처들을 포함할 수 있다.

메모리(12)는 프로세서(11)에 의해 실행될 코드들을 저장할 수 있다. 메모리(12)의 예는 동기 동적 랜덤 액세스 메모리(SDRAM) 장치, RAMBUS 동적 랜덤 액세스 메모리(RDRAM) 장치, 더블 데이터 레이트(DDR) 메모리 장치, 정적 랜덤 액세스 메모리(SRAM) 및 플래시 메모리 장치와 같은 반도체 장치 중 하나 또는 이들의 조합을 포함할 수 있다.

칩셋(13)은 프로세서(11), 메모리(12), I/O 장치들(14) 및 아마도 다른 컴포넌트들 사이의 하나 이상의 통신 경로를 제공할 수 있다. 칩셋(13)은 전술한 컴포넌트들과 각각 통신하기 위한 허브들을 더 포함할 수 있다. 예를 들어, 칩셋(13)은 메모리 제어기 허브, 입출력 제어기 허브 및 아마도 다른 허브들을 포함할 수 있다.

I/O 장치들(14)은 매체 데이터와 같은 데이터를 컴퓨팅 플랫폼(10)에 입력하거나 컴퓨팅 플랫폼으로부터 출력할 수 있다. I/O 장치들(14)의 예는 네트워크 카드, 블루투스 장치, 안테나, 및 아마도 데이터를 송수신하기 위한 다른 장치들을 포함할 수 있다.

도 1에 도시된 바와 같은 실시예에서, 메모리(12)는 매체 자원(120), 음성 세그먼트화 시스템(121), 음성 세그먼트들(122) 및 비음성 세그먼트들(123)로서 구현되는 코드들을 더 포함할 수 있다.

매체 자원(120)은 오디오 자원 및 비디오 자원을 포함할 수 있다. 매체 자원(120)은 I/O 장치들(14), 디스크 저장 장치(도시되지 않음) 및 오디오/비디오 장치(도시되지 않음)와 같은 다양한 컴포넌트에 의해 제공될 수 있다.

음성 세그먼트화 시스템(121)은 매체(120)를 다수의 매체 세그먼트로 분할하고, 매체 세그먼트가 음성 세그먼트(122)인지 또는 비음성 세그먼트(123)인지를 결정하며, 매체 세그먼트를 음성 세그먼트(122) 또는 비음성 세그먼트(123)로서 라벨링할 수 있다. 음성 세그먼트화는 다양한 시나리오에서 유용할 수 있다. 예를 들어, 음성 분류 및 세그먼트화는 오디오-텍스트 맵핑에 사용될 수 있다. 이 시나리오에서, 음성 세그먼트들(122)은 오디오-텍스트 정렬을 거칠 수 있으며, 따라서 음성 세그먼트와의 텍스트 맵핑이 선택된다.

음성 세그먼트화 시스템(121)은 퍼지 추론 기술들을 이용하여, 음성 세그먼트(122)와 비음성 세그먼트(123)를 구별할 수 있다. 더 많은 상세가 도 2에 제공된다.

도 2는 음성 세그먼트화 시스템(121)의 일 실시예를 나타낸다. 음성 세그먼트화 시스템(121)은 퍼지 규칙(20), 매체 분할 논리(21), 입력 변수 추출 논리(22), 멤버쉽 함수 훈련 논리(23), 퍼지 규칙 연산 논리(24), 디퍼지화(defuzzifying) 논리(25), 라벨링 논리(26) 및 아마도 음성 세그먼트화를 위한 다른 컴포넌트들을 포함할 수 있다.

퍼지 규칙(20)은 매체(120)의 특성들 및 음성 데이터에 대한 사전 지식과 같은 다양한 팩터에 기초하여 결정될 수 있는 하나 이상의 퍼지 규칙을 저장할 수 있다. 퍼지 규칙은 매체 세그먼트가 음성 또는 비음성인지를 결정하기 위한 언어학적 규칙일 수 있으며, if-then 형태와 같은 다양한 형태를 가질 수 있다. if-then 규칙은 전제 부분(if)과 결과 부분(then)을 포함할 수 있다. 전제는 결과를 얻기 위한 조건들을 지정할 수 있다.

전제는 매체 데이터의 다양한 특성을 지시하는 하나 이상의 입력 변수를 포함할 수 있다. 예를 들어, 입력 변수들은 하이 제로-크로싱 레이트 비율(HZCRR), "저에너지" 프레임들의 백분율(LEFP), 스펙트럼 중심의 분산(SCV), 스펙트럼 플럭스의 분산(SFV), 스펙트럼 롤-오프 포인트의 분산(SRPV) 및 4Hz 변조 에너지(4Hz)를 포함하는 특징들의 그룹으로부터 선택될 수 있다. 결과는 출력 변수를 포함할 수 있다. 도 2의 실시예에서, 출력 변수는 음성 확률일 수 있다.

다음은 높은 신호 대 잡음 비(SNR) 환경 하의 매체에 대해 사용되는 퍼지 규칙의 일례일 수 있다.

규칙 1: LEFP가 높거나, SFV가 낮은 경우, 음성 확률은 음성이다.

규칙 2: LEFP가 낮고, HZCRR이 높은 경우, 음성 확률은 비음성이다.

다음은 낮은 SNR 환경 하의 매체에 대해 사용되는 퍼지 규칙의 다른 예일 수 있다.

규칙 1: HZCRR이 낮은 경우, 음성 확률은 비음성이다.

규칙 2: LEFP가 높은 경우, 음성 확률은 음성이다.

규칙 3: LEFP가 낮으면, 음성 확률은 비음성이다.

규칙 4: SCV가 높고, SFV가 높으며, SRPV가 높은 경우, 음성 확률은 음성이다.

규칙 5: SCV가 낮고, SFV가 낮으며, SRPV가 낮은 경우, 음성 확률은 비음성이다.

규칙 6: 4Hz가 매우 높은 경우, 음성 확률은 음성이다.

규칙 7: 4Hz가 낮은 경우, 음성 확률은 비음성이다.

규칙의 각각의 지정문(statement)은 그 안의 부분 멤버쉽의 가능성을 허용할 수 있다. 즉, 규칙의 각각의 지정문은 입력 변수 또는 출력 변수가 멤버쉽에 속하는 정도의 문제일 수 있다. 전술한 규칙들에서, 각각의 입력 변수는 "낮음" 및 "높음"으로 정의되는 2개의 멤버쉽 함수를 이용할 수 있다. 출력 변수는 "음성" 및 "비음성"으로 정의되는 2개의 멤버쉽 함수를 이용할 수 있다. 퍼지 규칙은 상이한 입력 변수들을 상이한 멤버쉽 함수들과 연관시킬 수 있다는 것을 알아야 한다. 예를 들어, 입력 변수 LEFP는 "중간" 및 "낮음" 멤버쉽 함수들을 이용할 수 있는 반면, 입력 변수 SFV는 "높음" 및 "중간" 멤버쉽 함수들을 이용할 수 있다.

멤버쉽 함수 훈련 논리(23)는 각각의 입력 변수와 연관된 멤버쉽 함수들을 훈련시킬 수 있다. 멤버쉽 함수는 다양한 패턴으로 형성될 수 있다. 예를 들어, 가장 간단한 멤버쉽 함수는 직선, 삼각형 또는 사다리꼴로 형성될 수 있다. 2개의 멤버쉽 함수는 가우스 분포 곡선, 단순 가우스 곡선 및 2개의 상이한 가우스 곡선의 양면 복합체 상에 형성될 수 있다. 일반화된 벨(bell) 멤버쉽 함수는 3개의 파라미터에 의해 지정된다.

매체 분할 논리(21)는 매체 자원(120)을 다수의 매체 세그먼트, 예를 들어 1초 윈도우 내의 각각의 매체 세그먼트로 분할할 수 있다. 입력 변수 추출 논리(22)는 퍼지 규칙(20)에 기초하여 각각의 매체 세그먼트로부터 입력 변수들의 인스턴스들을 추출할 수 있다. 퍼지 규칙 연산 논리(24)는 입력 변수들의 인스턴스들, 입력 변수들과 연관된 멤버쉽 함수들, 출력 변수 및 출력 변수와 연관된 멤버쉽 함수를 퍼지 규칙(20)에 기초하여 연산하여, 출력 변수(즉, 음성 확률)가 멤버쉽(즉, 음성 또는 비음성)에 속할 가능성을 나타낼 수 있는 완전한 퍼지 결론을 얻을 수 있다.

디퍼지화 논리(25)는 퍼지 규칙 연산 논리(24)로부터의 퍼지 결론을 디퍼지화하여, 한정된 수치의 출력 변수를 얻을 수 있다. 디퍼지화를 위해 다양한 방법이 적용될 수 있다. 예를 들어, 가중-중심(weighted-centroid) 방법을 이용하여, 각각의 퍼지 규칙으로부터의 각각의 출력의 가중 집합의 중심을 찾을 수 있다. 중심은 한정된 수치의 출력 변수(즉, 음성 확률)를 식별할 수 있다.

라벨링 논리(26)는 각각의 매체 세그먼트를, 이 매체 세그먼트에 대한 한정된 수치의 음성 확률에 기초하여 음성 세그먼트 또는 비음성 세그먼트로서 라벨링할 수 있다.

도 3은 퍼지 규칙(20), 및 음성 세그먼트화 시스템(121)이 퍼지 규칙을 연산하여 세그먼트가 음성인지의 여부를 결정하는 방법의 일 실시예를 나타낸다. 도시된 바와 같이, 퍼지 규칙(20)은 2개의 규칙을 포함할 수 있다.

규칙 1: LEFP가 높거나 SFV가 낮은 경우, 음성 확률은 음성이다.

규칙 2: LEFP가 낮고, HZCRR이 높으면, 음성 확률은 비음성이다.

첫째, 퍼지 규칙 연산 논리(24)는 입력 변수들의 추출된 인스턴스들 및 멤버쉽 함수들에 기초하여 각각의 규칙의 각각의 입력 변수를 퍼지화할 수 있다. 전술한 바와 같이, 퍼지 규칙의 각각의 지정문은 그 안의 부분 멤버쉽의 가능성을 허용할 수 있으며, 지정문의 진실성은 정도의 문제가 될 수 있다. 예를 들어, 'LEFP가 높다'는 지정문은 LEFP가 높다는 부분 정도를 허용할 수 있다. LEFP가 "높은" 멤버쉽에 속하는 정도는 0과 1 사이의 멤버쉽 값으로 표시될 수 있다. 도 3의 블록 B₀₀ 내에 도시된 바와 같은 LEFP와 연관된 "높은" 멤버쉽 함수는 LEFP 인스턴스를 그의 적절한 멤버쉽 값으로 맵핑할 수 있다. 입력 변수와 연관된 멤버쉽 함수 및 추출된 입력 변수의 인스턴스(예를 들어, LEFP=0.7, HZCRR=0.8, SFV=0.1)를 이용하여 멤버쉽 값을 얻는 프로세스를 "입력 퍼지화"라고 할 수 있다. 따라서, 도 3에 도시된 바와 같이, 규칙 1의 입력 변수 "LEFP"는 "높은" 멤버쉽 값 0.4로 퍼지화될 수 있다. 마찬가지로, 규칙 1의 입력 변수 "SFV"는 "낮은" 멤버쉽 값 0.8로 퍼지화될 수 있으며, 규칙 2의 입력 변수 "LEFP"는 "낮은" 멤버쉽 값 0.1로 퍼지화될 수 있고, 입력 변수 "HZCRR"은 "높은" 멤버쉽 값 0.5로 퍼지화될 수 있다.

둘째, 퍼지 규칙 연산 논리(24)는 각각의 규칙의 퍼지화된 입력들을 연산하여, 규칙의 퍼지화된 출력을 얻을 수 있다. 규칙의 전제가 둘 이상의 부분을 포함하는 경우, 퍼지 논리 연산자(예를 들어, AND, OR, NOT)를 이용하여 전제의 결과를 나타내는 값을 얻을 수 있다. 예를 들어, 규칙 1은 2개의 부분, 즉 "LEFP가 높다" 및 "SFV가 낮다"를 가질 수 있다. 규칙 1은 퍼지 논리 연산자 "OR"을 이용하여, 퍼지화된 입력들 중 최대 값, 즉 퍼지화된 입력들 0.4 및 0.8 중 최대 값 0.8을 규칙 1의 전제의 결과로서 취할 수 있다. 규칙 2는 2개의 다른 부분, 즉 "LEFP가 낮다" 및 "HZCRR이 높다"를 가질 수 있다. 규칙 2는 퍼지 논리 연산자 "AND"를 이용하여, 퍼지화된 입력들 중 최소 값, 즉 퍼지화된 입력들 0.1 및 0.5 중 최소 값 0.1을 규칙 2의 전제의 결과로서 취할 수 있다.

셋째, 각각의 규칙에 대해, 퍼지 규칙 연산 논리(24)는 출력 변수 "음성 확률"과 연관된 멤버쉽 함수 및 규칙 전제의 결과를 이용하여, 음성 확률이 멤버쉽(즉, 음성 또는 비음성)에 속하는 한 세트의 정도들을 지시하는 한 세트의 멤버쉽 값들을 얻을 수 있다. 규칙 1에 대해, 퍼지 규칙 연산 논리(24)는 함축 방법(implication method)을 이용하여, 음성 확률이 "음성" 멤버쉽에 속하는 최고 정도를 규칙 1의 전제로부터 얻어진 값, 즉 값 0.8로 제한함으로써 "음성" 멤버쉽 함수를 재구성할 수 있다. 도 3의 블록 B₀₄는 음성 확률이 규칙 1에 대해 "음성" 멤버쉽에 속할 수 있는 한 세트의 정도들을 나타낸다. 마찬가지로, 도 3의 블록 B₁₄는 음성 확률이 규칙 2에 대해 "비음성" 멤버쉽에 속할 수 있는 다른 세트의 정도들을 나타낸다.

넷째, 디퍼지화 논리(25)는 각각의 규칙의 출력을 디퍼지화하여, 출력 변수 "음성 확률"의 디퍼지화된 값을 얻을 수 있다. 각각의 규칙으로부터의 출력은 출력 변수 "음성 확률"이 멤버쉽에 속하는 정도들을 나타낼 수 있는 전체 퍼지 세트일 수 있다. 출력의 절대값을 얻는 프로세스를 "디퍼지화"라고 한다. 디퍼지화를 위해 다양한 방법이 적용될 수 있다. 예를 들어, 디퍼지화 논리(25)는 전술한 가중 중심 방법을 이용하여 출력의 절대값을 얻을 수 있다.

보다 구체적으로, 디퍼지화 논리(25)는 도 3의 블록 B₀₄에 도시된 바와 같은 정도들의 세트 및 도 3의 블록 B₁₄에 도시된 바와 같은 정도들의 세트와 같은 각각의 규칙의 각각의 출력에 가중치를 할당할 수 있다. 예를 들어, 디퍼지화 논리(25)는 규칙 1의 출력 및 규칙 2의 출력에 가중치 "1"을 할당할 수 있다. 이어서, 디퍼지화 논리(25)는 가중된 출력들을 수집하여, 출력 값들의 범위를 정의할 수 있는 합집합을 얻을 수 있다. 도 3의 블록 B₂₀은 집합의 결과를 나타낼 수 있다. 마지막으로, 디퍼지화 논리(25)는 집합의 중심을 출력 "음성 확률"의 절대값으로서 발견할 수 있다. 도 3에 도시된 바와 같이, 음성 확률 값은 0.8일 수 있으며, 이에 기초하여 음성 세그먼트화 시스템(121)은 매체 세그먼트가 음성인지 비음성인지를 결정할 수 있다.

도 4는 음성 세그먼트화 시스템(121)에 의한 음성 세그먼트화 방법의 일 실시예를 나타낸다. 블록 401에서, 매체 분할 논리(21)는 매체(120)를 다수의 매체 세그먼트, 예를 들어 1초 윈도우 내의 각각의 매체 세그먼트로 분할할 수 있다. 블록 402에서, 퍼지 규칙(20)은 매체 세그먼트가 음성인지 비음성인지를 결정하는 조건들을 지정할 수 있는 하나 이상의 규칙을 포함할 수 있다. 퍼지 규칙들은 매체(120)의 특성들 및 음성 데이터에 관한 사전 지식에 기초하여 결정될 수 있다.

블록 403에서, 멤버쉽 함수 훈련 논리(23)는 각각의 퍼지 규칙의 각각의 입력 변수와 연관된 멤버쉽 함수들을 훈련시킬 수 있다. 멤버쉽 함수 훈련 논리(23)는 퍼지 규칙의 출력 변수 "음성 확률"과 연관된 멤버쉽 함수들을 더 훈련시킬 수 있다. 블록 404에서, 입력 변수 추출 논리(22)는 각각의 퍼지 규칙의 전제에 따라 각각의 매체 세그먼트로부터 입력 변수를 추출할 수 있다. 블록 405에서, 퍼지 규칙 연산 논리(24)는 추출된 입력 변수의 인스턴스들 및 입력 변수와 연관된 멤버쉽 함수를 이용하여 각각의 퍼지 규칙의 각각의 입력 변수를 퍼지화할 수 있다.

블록 406에서, 퍼지 규칙 연산 논리(24)는 전제의 결과를 나타내는 값을 얻을 수 있다. 전제가 하나의 부분을 포함하는 경우, 그 부분으로부터 퍼지화된 입력은 값일 수 있다. 전제가 둘 이상의 부분을 포함하는 경우, 퍼지 규칙 연산 논리(24)는 퍼지 규칙에 의해 지시되는 바와 같이 각각의 부분으로부터 퍼지화된 각각의 입력을 퍼지 논리 연산자, 예를 들어 AND, OR 또는 NOT을 이용하여 연산함으로써 값을 얻을 수 있다. 블록 407에서, 퍼지 규칙 연산 논리(24)는 함축 방법을 적용하여, 각각의 퍼지 규칙의 출력 변수와 연관된 멤버쉽 함수를 절단할 수 있다. 절단된(truncated) 멤버쉽 함수는 출력 변수가 멤버쉽에 속하는 정도들의 범위를 정의할 수 있다.

블록 408에서, 디퍼지화 논리(25)는 각각의 퍼지 규칙으로부터의 각각의 출력에 가중치를 할당하고, 가중된 출력을 수집하여 출력 합집합을 얻을 수 있다. 블록 409에서, 디퍼지화 논리(25)는 중심 방법을 적용하여, 출력 합집합의 중심을 출력 변수 "음성 확률"의 값으로서 발견할 수 있다. 블록 410에서, 라벨링 논리(26)는 음성 확률 값에 기초하여 매체 세그먼트가 음성인지 비음성인지를 라벨링할 수 있다.

본 발명의 소정의 특징들이 실시예들을 참조하여 설명되었지만, 본 설명은 제한적 의미로 해석되는 것을 의도하지 않는다. 본 발명이 속하는 분야의 기술자들에게 명백한 본 발명의 실시예들의 다양한 변형은 물론, 다른 실시예들도 본 발명의 사상 및 범위 내에 있는 것으로 간주된다.

Claims

음성 세그먼트화를 위한 방법으로서,
음성 세그먼트와 비음성(non-speech) 세그먼트를 구별하기 위한 퍼지 규칙을 결정하는 단계 - 상기 퍼지 규칙의 전제(antecedent)는 입력 변수 및 입력 변수 멤버쉽을 포함하고, 상기 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함함 -;
세그먼트로부터 상기 입력 변수의 인스턴스를 추출하는 단계;
상기 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 상기 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수를 훈련시키는 단계; 및
상기 입력 변수의 인스턴스, 상기 입력 변수 멤버쉽 함수, 상기 출력 변수 및 상기 출력 변수 멤버쉽 함수를 연산하여, 상기 세그먼트가 상기 음성 세그먼트인지 또는 상기 비음성 세그먼트인지를 결정하는 단계
를 포함하는, 음성 세그먼트화를 위한 방법.
제1항에 있어서,
상기 전제는 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 부분 정도(partial degree)를 허용(admit)하는, 음성 세그먼트화를 위한 방법.
제1항에 있어서,
상기 결과는 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 부분 정도를 허용하는, 음성 세그먼트화를 위한 방법.
실행될 때, 컴퓨터가,
음성 세그먼트와 비음성 세그먼트를 구별하기 위한 퍼지 규칙을 결정하는 단계 - 상기 퍼지 규칙의 전제는 입력 변수 및 입력 변수 멤버쉽을 포함하고, 상기 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함함 -;
세그먼트로부터 상기 입력 변수의 인스턴스를 추출하는 단계;
상기 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 상기 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수를 훈련시키는 단계; 및
상기 입력 변수의 인스턴스, 상기 입력 변수 멤버쉽 함수, 상기 출력 변수 및 상기 출력 변수 멤버쉽 함수를 연산하여, 상기 세그먼트가 상기 음성 세그먼트인지 또는 상기 비음성 세그먼트인지를 결정하는 단계
를 수행하게 하는 복수의 명령어를 포함하는 컴퓨터 판독 가능 기록 매체.
제4항에 있어서,
상기 전제는 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 부분 정도를 허용하는 컴퓨터 판독 가능 기록 매체.
제4항에 있어서,
상기 결과는 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 부분 정도를 허용하는 컴퓨터 판독 가능 기록 매체.