KR20120008088A - 음성 세그먼트화를 위한 방법 및 장치 - Google Patents

음성 세그먼트화를 위한 방법 및 장치 Download PDF

Info

Publication number
KR20120008088A
KR20120008088A KR1020127000010A KR20127000010A KR20120008088A KR 20120008088 A KR20120008088 A KR 20120008088A KR 1020127000010 A KR1020127000010 A KR 1020127000010A KR 20127000010 A KR20127000010 A KR 20127000010A KR 20120008088 A KR20120008088 A KR 20120008088A
Authority
KR
South Korea
Prior art keywords
membership
input variable
segment
output
voice
Prior art date
Application number
KR1020127000010A
Other languages
English (en)
Inventor
로버트 두
예 타오
다렌 주
Original Assignee
인텔 코오퍼레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코오퍼레이션 filed Critical 인텔 코오퍼레이션
Publication of KR20120008088A publication Critical patent/KR20120008088A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

음성 세그먼트화를 위한 머신 판독 가능 매체, 방법, 장치 및 시스템이 설명된다. 일부 실시예들에서, 음성 세그먼트와 비음성 세그먼트를 구별하기 위한 퍼지 규칙이 결정될 수 있다. 퍼지 규칙의 전제는 입력 변수 및 입력 변수 멤버쉽을 포함할 수 있다. 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함할 수 있다. 세그먼트로부터 입력 변수의 인스턴스가 추출될 수 있다. 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수가 훈련될 수 있다. 입력 변수의 인스턴스, 입력 변수 멤버쉽 함수, 출력 변수, 및 출력 변수 멤버쉽 함수를 연산하여, 세그먼트가 음성 세그먼트인지 또는 비음성 세그먼트인지를 결정할 수 있다.

Description

음성 세그먼트화를 위한 방법 및 장치{METHOD AND APPARATUS FOR SPEECH SEGMENTATION}
본 발명은 음성 세그먼트화를 위한 방법 및 장치에 관한 것이다.
음성 세그먼트화는 구조화되지 않은 정보를 음성 세그먼트들 및 비음성(non-speech) 세그먼트들로 분류하기 위한 구조화되지 않은 정보의 검색 단계일 수 있다. 다양한 방법이 음성 세그먼트화에 적용될 수 있다. 가장 널리 사용되는 방법은 음성 세그먼트와 비음성 세그먼트를 구별하는 매체 자원으로부터 음성 세그먼트들을 수동으로 추출하는 것이다.
여기에 설명된 발명은 첨부 도면들에서 한정이 아니라 예시적으로 도시된다. 도시의 간명화를 위해, 도면에 도시된 요소들은 반드시 축척으로 그려진 것은 아니다. 예를 들어, 명료화를 위해, 일부 요소들의 치수들은 다른 요소들에 비해 과장될 수 있다. 또한, 적절한 것으로 생각되는 경우, 도면들 사이에서 대응하거나 유사한 요소들을 지시하기 위해 참조 라벨들이 반복되었다.
도 1은 음성 세그먼트화 시스템을 포함하는 컴퓨팅 플랫폼의 일 실시예를 나타내는 도면.
도 2는 음성 세그먼트화 시스템의 일 실시예를 나타내는 도면.
도 3은 퍼지 규칙, 및 음성 세그먼트화 시스템이 퍼지 규칙을 연산하여, 세그먼트가 음성인지의 여부를 결정하는 방법의 일 실시예를 나타내는 도면.
도 4는 음성 세그먼트화 시스템에 의한 음성 세그먼트화 방법의 일 실시예를 나타내는 도면.
아래의 설명은 음성 세그먼트화 방법 및 장치를 위한 기술들을 설명한다. 아래의 설명에서는, 본 발명의 더 완전한 이해를 제공하기 위해, 논리 구현, 의사 코드, 피연산자를 지정하기 위한 수단, 자원 분할/공유/복제 구현, 시스템 컴포넌트들의 타입 및 상관성, 및 논리 분할/통합 선택과 같은 다양한 특정 상세가 설명된다. 그러나, 본 발명은 그러한 특정 상세들 없이도 실시될 수 있다. 다른 예들에서는, 본 발명을 불명확하게 하지 않기 위해, 제어 구조, 게이트 레벨 회로 및 전체 소프트웨어 명령어 시퀀스는 상세히 설명되지 않았다. 이 분야의 통상의 기술자들은 포함된 설명을 이용하여 과도한 실험 없이도 적절한 기능을 구현할 수 있을 것이다.
명세서에서 "하나의 실시예", "일 실시예", "예시적인 구현" 등에 대한 참조는 설명되는 실시예가 특정 특징, 구조 또는 특성을 포함할 수 있지만, 모든 실시예가 그 특정 특징, 구조 또는 특성을 반드시 포함하는 것은 아닐 수 있다는 것을 나타낸다. 더욱이, 그러한 문구들은 반드시 동일 실시예를 참조하는 것은 아니다. 또한, 특정 특징, 구조 또는 특성이 일 실시예와 관련하여 설명될 때, 명시적으로 설명되어 있는지의 여부와 관계없이, 그러한 특징, 구조 또는 특성을 다른 실시예들과 관련하여 달성하는 것은 이 분야의 기술자의 지식 내에 있다는 것을 이해한다.
본 발명의 실시예들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있다. 본 발명의 실시예들은 또한 하나 이상의 프로세서에 의해 판독되고 실행될 수 있는 머신 판독 가능 매체 상에 저장된 명령어들로서 구현될 수 있다. 머신 판독 가능 매체는 기계(예를 들어, 컴퓨팅 장치)에 의해 판독 가능한 형태로 정보를 저장 또는 전송하기 위한 임의의 메커니즘을 포함할 수 있다. 예를 들어, 머신 판독 가능 매체는 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 장치, 전기, 광학, 음향 또는 다른 형태의 전파 신호(예를 들어, 반송파, 적외선 신호, 디지털 신호 등), 기타 등등을 포함할 수 있다.
음성 세그먼트화 시스템(121)을 포함하는 컴퓨팅 플랫폼(10)의 일 실시예가 도 1에 도시되어 있다. 컴퓨팅 플랫폼들의 예는 메인프레임 컴퓨터, 미니 컴퓨터, 개인용 컴퓨터, 휴대용 컴퓨터, 랩탑 컴퓨터 및 데이터를 송수신하고 처리하기 위한 다른 장치들을 포함할 수 있다.
컴퓨팅 플랫폼(10)은 하나 이상의 프로세서(11), 메모리(12), 칩셋(13), I/O 장치(14) 및 아마도 다른 컴포넌트들을 포함할 수 있다. 하나 이상의 프로세서(11)는 프로세서 버스와 같은 하나 이상의 버스를 통해 다양한 컴포넌트(예를 들어, 메모리(12))에 통신 가능하게 결합된다. 프로세서(11)는 코드들을 실행할 수 있는 하나 이상의 처리 코어를 갖는 집적 회로(IC)로서 구현될 수 있다. 프로세서(11)의 예는 캘리포니아, 산타 클라라의 인텔사로부터 구매 가능한 인텔 코어, 인텔 셀러론, 인텔 펜티엄, 인텔 제논, 인텔 이타늄 아키텍처들을 포함할 수 있다.
메모리(12)는 프로세서(11)에 의해 실행될 코드들을 저장할 수 있다. 메모리(12)의 예는 동기 동적 랜덤 액세스 메모리(SDRAM) 장치, RAMBUS 동적 랜덤 액세스 메모리(RDRAM) 장치, 더블 데이터 레이트(DDR) 메모리 장치, 정적 랜덤 액세스 메모리(SRAM) 및 플래시 메모리 장치와 같은 반도체 장치 중 하나 또는 이들의 조합을 포함할 수 있다.
칩셋(13)은 프로세서(11), 메모리(12), I/O 장치들(14) 및 아마도 다른 컴포넌트들 사이의 하나 이상의 통신 경로를 제공할 수 있다. 칩셋(13)은 전술한 컴포넌트들과 각각 통신하기 위한 허브들을 더 포함할 수 있다. 예를 들어, 칩셋(13)은 메모리 제어기 허브, 입출력 제어기 허브 및 아마도 다른 허브들을 포함할 수 있다.
I/O 장치들(14)은 매체 데이터와 같은 데이터를 컴퓨팅 플랫폼(10)에 입력하거나 컴퓨팅 플랫폼으로부터 출력할 수 있다. I/O 장치들(14)의 예는 네트워크 카드, 블루투스 장치, 안테나, 및 아마도 데이터를 송수신하기 위한 다른 장치들을 포함할 수 있다.
도 1에 도시된 바와 같은 실시예에서, 메모리(12)는 매체 자원(120), 음성 세그먼트화 시스템(121), 음성 세그먼트들(122) 및 비음성 세그먼트들(123)로서 구현되는 코드들을 더 포함할 수 있다.
매체 자원(120)은 오디오 자원 및 비디오 자원을 포함할 수 있다. 매체 자원(120)은 I/O 장치들(14), 디스크 저장 장치(도시되지 않음) 및 오디오/비디오 장치(도시되지 않음)와 같은 다양한 컴포넌트에 의해 제공될 수 있다.
음성 세그먼트화 시스템(121)은 매체(120)를 다수의 매체 세그먼트로 분할하고, 매체 세그먼트가 음성 세그먼트(122)인지 또는 비음성 세그먼트(123)인지를 결정하며, 매체 세그먼트를 음성 세그먼트(122) 또는 비음성 세그먼트(123)로서 라벨링할 수 있다. 음성 세그먼트화는 다양한 시나리오에서 유용할 수 있다. 예를 들어, 음성 분류 및 세그먼트화는 오디오-텍스트 맵핑에 사용될 수 있다. 이 시나리오에서, 음성 세그먼트들(122)은 오디오-텍스트 정렬을 거칠 수 있으며, 따라서 음성 세그먼트와의 텍스트 맵핑이 선택된다.
음성 세그먼트화 시스템(121)은 퍼지 추론 기술들을 이용하여, 음성 세그먼트(122)와 비음성 세그먼트(123)를 구별할 수 있다. 더 많은 상세가 도 2에 제공된다.
도 2는 음성 세그먼트화 시스템(121)의 일 실시예를 나타낸다. 음성 세그먼트화 시스템(121)은 퍼지 규칙(20), 매체 분할 논리(21), 입력 변수 추출 논리(22), 멤버쉽 함수 훈련 논리(23), 퍼지 규칙 연산 논리(24), 디퍼지화(defuzzifying) 논리(25), 라벨링 논리(26) 및 아마도 음성 세그먼트화를 위한 다른 컴포넌트들을 포함할 수 있다.
퍼지 규칙(20)은 매체(120)의 특성들 및 음성 데이터에 대한 사전 지식과 같은 다양한 팩터에 기초하여 결정될 수 있는 하나 이상의 퍼지 규칙을 저장할 수 있다. 퍼지 규칙은 매체 세그먼트가 음성 또는 비음성인지를 결정하기 위한 언어학적 규칙일 수 있으며, if-then 형태와 같은 다양한 형태를 가질 수 있다. if-then 규칙은 전제 부분(if)과 결과 부분(then)을 포함할 수 있다. 전제는 결과를 얻기 위한 조건들을 지정할 수 있다.
전제는 매체 데이터의 다양한 특성을 지시하는 하나 이상의 입력 변수를 포함할 수 있다. 예를 들어, 입력 변수들은 하이 제로-크로싱 레이트 비율(HZCRR), "저에너지" 프레임들의 백분율(LEFP), 스펙트럼 중심의 분산(SCV), 스펙트럼 플럭스의 분산(SFV), 스펙트럼 롤-오프 포인트의 분산(SRPV) 및 4Hz 변조 에너지(4Hz)를 포함하는 특징들의 그룹으로부터 선택될 수 있다. 결과는 출력 변수를 포함할 수 있다. 도 2의 실시예에서, 출력 변수는 음성 확률일 수 있다.
다음은 높은 신호 대 잡음 비(SNR) 환경 하의 매체에 대해 사용되는 퍼지 규칙의 일례일 수 있다.
규칙 1: LEFP가 높거나, SFV가 낮은 경우, 음성 확률은 음성이다.
규칙 2: LEFP가 낮고, HZCRR이 높은 경우, 음성 확률은 비음성이다.
다음은 낮은 SNR 환경 하의 매체에 대해 사용되는 퍼지 규칙의 다른 예일 수 있다.
규칙 1: HZCRR이 낮은 경우, 음성 확률은 비음성이다.
규칙 2: LEFP가 높은 경우, 음성 확률은 음성이다.
규칙 3: LEFP가 낮으면, 음성 확률은 비음성이다.
규칙 4: SCV가 높고, SFV가 높으며, SRPV가 높은 경우, 음성 확률은 음성이다.
규칙 5: SCV가 낮고, SFV가 낮으며, SRPV가 낮은 경우, 음성 확률은 비음성이다.
규칙 6: 4Hz가 매우 높은 경우, 음성 확률은 음성이다.
규칙 7: 4Hz가 낮은 경우, 음성 확률은 비음성이다.
규칙의 각각의 지정문(statement)은 그 안의 부분 멤버쉽의 가능성을 허용할 수 있다. 즉, 규칙의 각각의 지정문은 입력 변수 또는 출력 변수가 멤버쉽에 속하는 정도의 문제일 수 있다. 전술한 규칙들에서, 각각의 입력 변수는 "낮음" 및 "높음"으로 정의되는 2개의 멤버쉽 함수를 이용할 수 있다. 출력 변수는 "음성" 및 "비음성"으로 정의되는 2개의 멤버쉽 함수를 이용할 수 있다. 퍼지 규칙은 상이한 입력 변수들을 상이한 멤버쉽 함수들과 연관시킬 수 있다는 것을 알아야 한다. 예를 들어, 입력 변수 LEFP는 "중간" 및 "낮음" 멤버쉽 함수들을 이용할 수 있는 반면, 입력 변수 SFV는 "높음" 및 "중간" 멤버쉽 함수들을 이용할 수 있다.
멤버쉽 함수 훈련 논리(23)는 각각의 입력 변수와 연관된 멤버쉽 함수들을 훈련시킬 수 있다. 멤버쉽 함수는 다양한 패턴으로 형성될 수 있다. 예를 들어, 가장 간단한 멤버쉽 함수는 직선, 삼각형 또는 사다리꼴로 형성될 수 있다. 2개의 멤버쉽 함수는 가우스 분포 곡선, 단순 가우스 곡선 및 2개의 상이한 가우스 곡선의 양면 복합체 상에 형성될 수 있다. 일반화된 벨(bell) 멤버쉽 함수는 3개의 파라미터에 의해 지정된다.
매체 분할 논리(21)는 매체 자원(120)을 다수의 매체 세그먼트, 예를 들어 1초 윈도우 내의 각각의 매체 세그먼트로 분할할 수 있다. 입력 변수 추출 논리(22)는 퍼지 규칙(20)에 기초하여 각각의 매체 세그먼트로부터 입력 변수들의 인스턴스들을 추출할 수 있다. 퍼지 규칙 연산 논리(24)는 입력 변수들의 인스턴스들, 입력 변수들과 연관된 멤버쉽 함수들, 출력 변수 및 출력 변수와 연관된 멤버쉽 함수를 퍼지 규칙(20)에 기초하여 연산하여, 출력 변수(즉, 음성 확률)가 멤버쉽(즉, 음성 또는 비음성)에 속할 가능성을 나타낼 수 있는 완전한 퍼지 결론을 얻을 수 있다.
디퍼지화 논리(25)는 퍼지 규칙 연산 논리(24)로부터의 퍼지 결론을 디퍼지화하여, 한정된 수치의 출력 변수를 얻을 수 있다. 디퍼지화를 위해 다양한 방법이 적용될 수 있다. 예를 들어, 가중-중심(weighted-centroid) 방법을 이용하여, 각각의 퍼지 규칙으로부터의 각각의 출력의 가중 집합의 중심을 찾을 수 있다. 중심은 한정된 수치의 출력 변수(즉, 음성 확률)를 식별할 수 있다.
라벨링 논리(26)는 각각의 매체 세그먼트를, 이 매체 세그먼트에 대한 한정된 수치의 음성 확률에 기초하여 음성 세그먼트 또는 비음성 세그먼트로서 라벨링할 수 있다.
도 3은 퍼지 규칙(20), 및 음성 세그먼트화 시스템(121)이 퍼지 규칙을 연산하여 세그먼트가 음성인지의 여부를 결정하는 방법의 일 실시예를 나타낸다. 도시된 바와 같이, 퍼지 규칙(20)은 2개의 규칙을 포함할 수 있다.
규칙 1: LEFP가 높거나 SFV가 낮은 경우, 음성 확률은 음성이다.
규칙 2: LEFP가 낮고, HZCRR이 높으면, 음성 확률은 비음성이다.
첫째, 퍼지 규칙 연산 논리(24)는 입력 변수들의 추출된 인스턴스들 및 멤버쉽 함수들에 기초하여 각각의 규칙의 각각의 입력 변수를 퍼지화할 수 있다. 전술한 바와 같이, 퍼지 규칙의 각각의 지정문은 그 안의 부분 멤버쉽의 가능성을 허용할 수 있으며, 지정문의 진실성은 정도의 문제가 될 수 있다. 예를 들어, 'LEFP가 높다'는 지정문은 LEFP가 높다는 부분 정도를 허용할 수 있다. LEFP가 "높은" 멤버쉽에 속하는 정도는 0과 1 사이의 멤버쉽 값으로 표시될 수 있다. 도 3의 블록 B00 내에 도시된 바와 같은 LEFP와 연관된 "높은" 멤버쉽 함수는 LEFP 인스턴스를 그의 적절한 멤버쉽 값으로 맵핑할 수 있다. 입력 변수와 연관된 멤버쉽 함수 및 추출된 입력 변수의 인스턴스(예를 들어, LEFP=0.7, HZCRR=0.8, SFV=0.1)를 이용하여 멤버쉽 값을 얻는 프로세스를 "입력 퍼지화"라고 할 수 있다. 따라서, 도 3에 도시된 바와 같이, 규칙 1의 입력 변수 "LEFP"는 "높은" 멤버쉽 값 0.4로 퍼지화될 수 있다. 마찬가지로, 규칙 1의 입력 변수 "SFV"는 "낮은" 멤버쉽 값 0.8로 퍼지화될 수 있으며, 규칙 2의 입력 변수 "LEFP"는 "낮은" 멤버쉽 값 0.1로 퍼지화될 수 있고, 입력 변수 "HZCRR"은 "높은" 멤버쉽 값 0.5로 퍼지화될 수 있다.
둘째, 퍼지 규칙 연산 논리(24)는 각각의 규칙의 퍼지화된 입력들을 연산하여, 규칙의 퍼지화된 출력을 얻을 수 있다. 규칙의 전제가 둘 이상의 부분을 포함하는 경우, 퍼지 논리 연산자(예를 들어, AND, OR, NOT)를 이용하여 전제의 결과를 나타내는 값을 얻을 수 있다. 예를 들어, 규칙 1은 2개의 부분, 즉 "LEFP가 높다" 및 "SFV가 낮다"를 가질 수 있다. 규칙 1은 퍼지 논리 연산자 "OR"을 이용하여, 퍼지화된 입력들 중 최대 값, 즉 퍼지화된 입력들 0.4 및 0.8 중 최대 값 0.8을 규칙 1의 전제의 결과로서 취할 수 있다. 규칙 2는 2개의 다른 부분, 즉 "LEFP가 낮다" 및 "HZCRR이 높다"를 가질 수 있다. 규칙 2는 퍼지 논리 연산자 "AND"를 이용하여, 퍼지화된 입력들 중 최소 값, 즉 퍼지화된 입력들 0.1 및 0.5 중 최소 값 0.1을 규칙 2의 전제의 결과로서 취할 수 있다.
셋째, 각각의 규칙에 대해, 퍼지 규칙 연산 논리(24)는 출력 변수 "음성 확률"과 연관된 멤버쉽 함수 및 규칙 전제의 결과를 이용하여, 음성 확률이 멤버쉽(즉, 음성 또는 비음성)에 속하는 한 세트의 정도들을 지시하는 한 세트의 멤버쉽 값들을 얻을 수 있다. 규칙 1에 대해, 퍼지 규칙 연산 논리(24)는 함축 방법(implication method)을 이용하여, 음성 확률이 "음성" 멤버쉽에 속하는 최고 정도를 규칙 1의 전제로부터 얻어진 값, 즉 값 0.8로 제한함으로써 "음성" 멤버쉽 함수를 재구성할 수 있다. 도 3의 블록 B04는 음성 확률이 규칙 1에 대해 "음성" 멤버쉽에 속할 수 있는 한 세트의 정도들을 나타낸다. 마찬가지로, 도 3의 블록 B14는 음성 확률이 규칙 2에 대해 "비음성" 멤버쉽에 속할 수 있는 다른 세트의 정도들을 나타낸다.
넷째, 디퍼지화 논리(25)는 각각의 규칙의 출력을 디퍼지화하여, 출력 변수 "음성 확률"의 디퍼지화된 값을 얻을 수 있다. 각각의 규칙으로부터의 출력은 출력 변수 "음성 확률"이 멤버쉽에 속하는 정도들을 나타낼 수 있는 전체 퍼지 세트일 수 있다. 출력의 절대값을 얻는 프로세스를 "디퍼지화"라고 한다. 디퍼지화를 위해 다양한 방법이 적용될 수 있다. 예를 들어, 디퍼지화 논리(25)는 전술한 가중 중심 방법을 이용하여 출력의 절대값을 얻을 수 있다.
보다 구체적으로, 디퍼지화 논리(25)는 도 3의 블록 B04에 도시된 바와 같은 정도들의 세트 및 도 3의 블록 B14에 도시된 바와 같은 정도들의 세트와 같은 각각의 규칙의 각각의 출력에 가중치를 할당할 수 있다. 예를 들어, 디퍼지화 논리(25)는 규칙 1의 출력 및 규칙 2의 출력에 가중치 "1"을 할당할 수 있다. 이어서, 디퍼지화 논리(25)는 가중된 출력들을 수집하여, 출력 값들의 범위를 정의할 수 있는 합집합을 얻을 수 있다. 도 3의 블록 B20은 집합의 결과를 나타낼 수 있다. 마지막으로, 디퍼지화 논리(25)는 집합의 중심을 출력 "음성 확률"의 절대값으로서 발견할 수 있다. 도 3에 도시된 바와 같이, 음성 확률 값은 0.8일 수 있으며, 이에 기초하여 음성 세그먼트화 시스템(121)은 매체 세그먼트가 음성인지 비음성인지를 결정할 수 있다.
도 4는 음성 세그먼트화 시스템(121)에 의한 음성 세그먼트화 방법의 일 실시예를 나타낸다. 블록 401에서, 매체 분할 논리(21)는 매체(120)를 다수의 매체 세그먼트, 예를 들어 1초 윈도우 내의 각각의 매체 세그먼트로 분할할 수 있다. 블록 402에서, 퍼지 규칙(20)은 매체 세그먼트가 음성인지 비음성인지를 결정하는 조건들을 지정할 수 있는 하나 이상의 규칙을 포함할 수 있다. 퍼지 규칙들은 매체(120)의 특성들 및 음성 데이터에 관한 사전 지식에 기초하여 결정될 수 있다.
블록 403에서, 멤버쉽 함수 훈련 논리(23)는 각각의 퍼지 규칙의 각각의 입력 변수와 연관된 멤버쉽 함수들을 훈련시킬 수 있다. 멤버쉽 함수 훈련 논리(23)는 퍼지 규칙의 출력 변수 "음성 확률"과 연관된 멤버쉽 함수들을 더 훈련시킬 수 있다. 블록 404에서, 입력 변수 추출 논리(22)는 각각의 퍼지 규칙의 전제에 따라 각각의 매체 세그먼트로부터 입력 변수를 추출할 수 있다. 블록 405에서, 퍼지 규칙 연산 논리(24)는 추출된 입력 변수의 인스턴스들 및 입력 변수와 연관된 멤버쉽 함수를 이용하여 각각의 퍼지 규칙의 각각의 입력 변수를 퍼지화할 수 있다.
블록 406에서, 퍼지 규칙 연산 논리(24)는 전제의 결과를 나타내는 값을 얻을 수 있다. 전제가 하나의 부분을 포함하는 경우, 그 부분으로부터 퍼지화된 입력은 값일 수 있다. 전제가 둘 이상의 부분을 포함하는 경우, 퍼지 규칙 연산 논리(24)는 퍼지 규칙에 의해 지시되는 바와 같이 각각의 부분으로부터 퍼지화된 각각의 입력을 퍼지 논리 연산자, 예를 들어 AND, OR 또는 NOT을 이용하여 연산함으로써 값을 얻을 수 있다. 블록 407에서, 퍼지 규칙 연산 논리(24)는 함축 방법을 적용하여, 각각의 퍼지 규칙의 출력 변수와 연관된 멤버쉽 함수를 절단할 수 있다. 절단된(truncated) 멤버쉽 함수는 출력 변수가 멤버쉽에 속하는 정도들의 범위를 정의할 수 있다.
블록 408에서, 디퍼지화 논리(25)는 각각의 퍼지 규칙으로부터의 각각의 출력에 가중치를 할당하고, 가중된 출력을 수집하여 출력 합집합을 얻을 수 있다. 블록 409에서, 디퍼지화 논리(25)는 중심 방법을 적용하여, 출력 합집합의 중심을 출력 변수 "음성 확률"의 값으로서 발견할 수 있다. 블록 410에서, 라벨링 논리(26)는 음성 확률 값에 기초하여 매체 세그먼트가 음성인지 비음성인지를 라벨링할 수 있다.
본 발명의 소정의 특징들이 실시예들을 참조하여 설명되었지만, 본 설명은 제한적 의미로 해석되는 것을 의도하지 않는다. 본 발명이 속하는 분야의 기술자들에게 명백한 본 발명의 실시예들의 다양한 변형은 물론, 다른 실시예들도 본 발명의 사상 및 범위 내에 있는 것으로 간주된다.

Claims (6)

  1. 음성 세그먼트화를 위한 방법으로서,
    음성 세그먼트와 비음성(non-speech) 세그먼트를 구별하기 위한 퍼지 규칙을 결정하는 단계 - 상기 퍼지 규칙의 전제(antecedent)는 입력 변수 및 입력 변수 멤버쉽을 포함하고, 상기 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함함 -;
    세그먼트로부터 상기 입력 변수의 인스턴스를 추출하는 단계;
    상기 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 상기 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수를 훈련시키는 단계; 및
    상기 입력 변수의 인스턴스, 상기 입력 변수 멤버쉽 함수, 상기 출력 변수 및 상기 출력 변수 멤버쉽 함수를 연산하여, 상기 세그먼트가 상기 음성 세그먼트인지 또는 상기 비음성 세그먼트인지를 결정하는 단계
    를 포함하는, 음성 세그먼트화를 위한 방법.
  2. 제1항에 있어서,
    상기 전제는 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 부분 정도(partial degree)를 허용(admit)하는, 음성 세그먼트화를 위한 방법.
  3. 제1항에 있어서,
    상기 결과는 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 부분 정도를 허용하는, 음성 세그먼트화를 위한 방법.
  4. 실행될 때, 컴퓨터가,
    음성 세그먼트와 비음성 세그먼트를 구별하기 위한 퍼지 규칙을 결정하는 단계 - 상기 퍼지 규칙의 전제는 입력 변수 및 입력 변수 멤버쉽을 포함하고, 상기 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함함 -;
    세그먼트로부터 상기 입력 변수의 인스턴스를 추출하는 단계;
    상기 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 상기 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수를 훈련시키는 단계; 및
    상기 입력 변수의 인스턴스, 상기 입력 변수 멤버쉽 함수, 상기 출력 변수 및 상기 출력 변수 멤버쉽 함수를 연산하여, 상기 세그먼트가 상기 음성 세그먼트인지 또는 상기 비음성 세그먼트인지를 결정하는 단계
    를 수행하게 하는 복수의 명령어를 포함하는 컴퓨터 판독 가능 기록 매체.
  5. 제4항에 있어서,
    상기 전제는 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 부분 정도를 허용하는 컴퓨터 판독 가능 기록 매체.
  6. 제4항에 있어서,
    상기 결과는 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 부분 정도를 허용하는 컴퓨터 판독 가능 기록 매체.
KR1020127000010A 2006-12-27 2006-12-27 음성 세그먼트화를 위한 방법 및 장치 KR20120008088A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2006/003612 WO2008077281A1 (en) 2006-12-27 2006-12-27 Method and apparatus for speech segmentation

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020097013177A Division KR101140896B1 (ko) 2006-12-27 2006-12-27 음성 세그먼트화를 위한 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20120008088A true KR20120008088A (ko) 2012-01-25

Family

ID=39562073

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020127000010A KR20120008088A (ko) 2006-12-27 2006-12-27 음성 세그먼트화를 위한 방법 및 장치
KR1020097013177A KR101140896B1 (ko) 2006-12-27 2006-12-27 음성 세그먼트화를 위한 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020097013177A KR101140896B1 (ko) 2006-12-27 2006-12-27 음성 세그먼트화를 위한 방법 및 장치

Country Status (6)

Country Link
US (2) US8442822B2 (ko)
EP (1) EP2100294A4 (ko)
JP (1) JP5453107B2 (ko)
KR (2) KR20120008088A (ko)
CN (1) CN101568957B (ko)
WO (1) WO2008077281A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5453107B2 (ja) * 2006-12-27 2014-03-26 インテル・コーポレーション 音声セグメンテーションの方法および装置
FR2946175B1 (fr) * 2009-05-29 2021-06-04 Voxler Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
CN102915728B (zh) * 2011-08-01 2014-08-27 佳能株式会社 声音分段设备和方法以及说话者识别系统
WO2015017706A2 (en) * 2013-07-31 2015-02-05 Kadenze, Inc. Feature extraction and machine learning for evaluation of audio-type, media-rich coursework
US9792553B2 (en) * 2013-07-31 2017-10-17 Kadenze, Inc. Feature extraction and machine learning for evaluation of image- or video-type, media-rich coursework
CN109965764A (zh) * 2019-04-18 2019-07-05 科大讯飞股份有限公司 马桶控制方法和马桶

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696040A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with energy normalization and silence suppression
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
US5673365A (en) * 1991-06-12 1997-09-30 Microchip Technology Incorporated Fuzzy microcontroller for complex nonlinear signal recognition
JP2797861B2 (ja) * 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JPH06119176A (ja) * 1992-10-06 1994-04-28 Matsushita Electric Ind Co Ltd ファジィ演算装置
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5841948A (en) * 1993-10-06 1998-11-24 Motorola, Inc. Defuzzifying method in fuzzy inference system
US5524176A (en) * 1993-10-19 1996-06-04 Daido Steel Co., Ltd. Fuzzy expert system learning network
AU2373695A (en) * 1994-05-03 1995-11-29 Board Of Regents, The University Of Texas System Apparatus and method for noninvasive doppler ultrasound-guided real-time control of tissue damage in thermal therapy
JP2759052B2 (ja) * 1994-05-27 1998-05-28 東洋エンジニアリング株式会社 尿素プラント合成管の液面制御装置及び液面制御方法
US5704200A (en) * 1995-11-06 1998-01-06 Control Concepts, Inc. Agricultural harvester ground tracking control system and method using fuzzy logic
DE19625294A1 (de) * 1996-06-25 1998-01-02 Daimler Benz Aerospace Ag Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6215115B1 (en) * 1998-11-12 2001-04-10 Raytheon Company Accurate target detection system for compensating detector background levels and changes in signal environments
JP2000339167A (ja) 1999-05-31 2000-12-08 Toshiba Mach Co Ltd ファジィ推論におけるメンバーシップ関数のチューニング方法
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6553342B1 (en) * 2000-02-02 2003-04-22 Motorola, Inc. Tone based speech recognition
JP2002116912A (ja) * 2000-10-06 2002-04-19 Fuji Electric Co Ltd ファジイ推論演算処理方法
US6873718B2 (en) * 2001-10-12 2005-03-29 Siemens Corporate Research, Inc. System and method for 3D statistical shape model for the left ventricle of the heart
US7716047B2 (en) * 2002-10-16 2010-05-11 Sony Corporation System and method for an automatic set-up of speech recognition engines
JP4682154B2 (ja) 2004-01-12 2011-05-11 ヴォイス シグナル テクノロジーズ インコーポレーティッド 自動音声認識チャンネルの正規化
US7003366B1 (en) * 2005-04-18 2006-02-21 Promos Technologies Inc. Diagnostic system and operating method for the same
US20080294433A1 (en) 2005-05-27 2008-11-27 Minerva Yeung Automatic Text-Speech Mapping Tool
CN1790482A (zh) * 2005-12-19 2006-06-21 危然 一种增强语音识别系统模板匹配精确度的方法
US20070183604A1 (en) * 2006-02-09 2007-08-09 St-Infonox Response to anomalous acoustic environments
TWI312982B (en) * 2006-05-22 2009-08-01 Nat Cheng Kung Universit Audio signal segmentation algorithm
JP5453107B2 (ja) 2006-12-27 2014-03-26 インテル・コーポレーション 音声セグメンテーションの方法および装置

Also Published As

Publication number Publication date
EP2100294A1 (en) 2009-09-16
CN101568957B (zh) 2012-05-02
JP2010515085A (ja) 2010-05-06
US8442822B2 (en) 2013-05-14
EP2100294A4 (en) 2011-09-28
US8775182B2 (en) 2014-07-08
US20100153109A1 (en) 2010-06-17
KR101140896B1 (ko) 2012-07-02
US20130238328A1 (en) 2013-09-12
JP5453107B2 (ja) 2014-03-26
KR20090094106A (ko) 2009-09-03
CN101568957A (zh) 2009-10-28
WO2008077281A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US8775182B2 (en) Method and apparatus for speech segmentation
US20180005628A1 (en) Speech Recognition
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN114416989A (zh) 一种文本分类模型优化方法和装置
Ferrer et al. A phonetically aware system for speech activity detection
WO2021014612A1 (ja) 発話区間検出装置、発話区間検出方法、プログラム
Kim et al. Efficient harmonic peak detection of vowel sounds for enhanced voice activity detection
CN115171710A (zh) 基于多角度判别的生成对抗网络的语音增强方法及系统
CN114566156A (zh) 一种关键词的语音识别方法及装置
CN114333840A (zh) 语音鉴别方法及相关装置、电子设备和存储介质
US20220122584A1 (en) Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
US20220277761A1 (en) Impression estimation apparatus, learning apparatus, methods and programs for the same
US20220335927A1 (en) Learning apparatus, estimation apparatus, methods and programs for the same
KR20110071742A (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
Chung et al. Endpoint detection using weighted finite state transducer.
Wang et al. A Computation-Efficient Neural Network for VAD using Multi-Channel Feature
US11894017B2 (en) Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program
Bovbjerg et al. Self-supervised Pretraining for Robust Personalized Voice Activity Detection in Adverse Conditions
CN114548162A (zh) 数据识别方法、系统、芯片和电子设备
CN117558279A (zh) 说话人分割模型的训练方法、说话人分割方法及相关设备
CN116895289A (zh) 语音活动检测模型的训练方法、语音活动检测方法及装置
CN117995216A (zh) 说话人分割模型的训练方法、说话人分割方法及相关设备

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application