KR20090094106A - 음성 세그먼트화를 위한 방법 및 장치 - Google Patents
음성 세그먼트화를 위한 방법 및 장치Info
- Publication number
- KR20090094106A KR20090094106A KR1020097013177A KR20097013177A KR20090094106A KR 20090094106 A KR20090094106 A KR 20090094106A KR 1020097013177 A KR1020097013177 A KR 1020097013177A KR 20097013177 A KR20097013177 A KR 20097013177A KR 20090094106 A KR20090094106 A KR 20090094106A
- Authority
- KR
- South Korea
- Prior art keywords
- output
- rule
- variable
- voice
- input variable
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 title abstract description 25
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 230000004907 flux Effects 0.000 claims description 3
- 238000010926 purge Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 27
- 238000000638 solvent extraction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
음성 세그먼트화를 위한 머신 판독 가능 매체, 방법, 장치 및 시스템이 설명된다. 일부 실시예들에서, 음성 세그먼트와 비음성 세그먼트를 구별하기 위한 퍼지 규칙이 결정될 수 있다. 퍼지 규칙의 전제는 입력 변수 및 입력 변수 멤버쉽을 포함할 수 있다. 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함할 수 있다. 세그먼트로부터 입력 변수의 인스턴스가 추출될 수 있다. 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수가 훈련될 수 있다. 입력 변수의 인스턴스, 입력 변수 멤버쉽 함수, 출력 변수, 및 출력 변수 멤버쉽 함수를 연산하여, 세그먼트가 음성 세그먼트인지 또는 비음성 세그먼트인지를 결정할 수 있다.
Description
본 발명은 음성 세그먼트화를 위한 방법 및 장치에 관한 것이다.
음성 세그먼트화는 구조화되지 않은 정보를 음성 세그먼트들 및 비음성(non-speech) 세그먼트들로 분류하기 위한 구조화되지 않은 정보의 검색 단계일 수 있다. 다양한 방법이 음성 세그먼트화에 적용될 수 있다. 가장 널리 사용되는 방법은 음성 세그먼트와 비음성 세그먼트를 구별하는 매체 자원으로부터 음성 세그먼트들을 수동으로 추출하는 것이다.
여기에 설명된 발명은 첨부 도면들에서 한정이 아니라 예시적으로 도시된다. 도시의 간명화를 위해, 도면에 도시된 요소들은 반드시 축척으로 그려진 것은 아니다. 예를 들어, 명료화를 위해, 일부 요소들의 치수들은 다른 요소들에 비해 과장될 수 있다. 또한, 적절한 것으로 생각되는 경우, 도면들 사이에서 대응하거나 유사한 요소들을 지시하기 위해 참조 라벨들이 반복되었다.
도 1은 음성 세그먼트화 시스템을 포함하는 컴퓨팅 플랫폼의 일 실시예를 나타내는 도면.
도 2는 음성 세그먼트화 시스템의 일 실시예를 나타내는 도면.
도 3은 퍼지 규칙, 및 음성 세그먼트화 시스템이 퍼지 규칙을 연산하여, 세그먼트가 음성인지의 여부를 결정하는 방법의 일 실시예를 나타내는 도면.
도 4는 음성 세그먼트화 시스템에 의한 음성 세그먼트화 방법의 일 실시예를 나타내는 도면.
아래의 설명은 음성 세그먼트화 방법 및 장치를 위한 기술들을 설명한다. 아래의 설명에서는, 본 발명의 더 완전한 이해를 제공하기 위해, 논리 구현, 의사 코드, 피연산자를 지정하기 위한 수단, 자원 분할/공유/복제 구현, 시스템 컴포넌트들의 타입 및 상관성, 및 논리 분할/통합 선택과 같은 다양한 특정 상세가 설명된다. 그러나, 본 발명은 그러한 특정 상세들 없이도 실시될 수 있다. 다른 예들에서는, 본 발명을 불명확하게 하지 않기 위해, 제어 구조, 게이트 레벨 회로 및 전체 소프트웨어 명령어 시퀀스는 상세히 설명되지 않았다. 이 분야의 통상의 기술자들은 포함된 설명을 이용하여 과도한 실험 없이도 적절한 기능을 구현할 수 있을 것이다.
명세서에서 "하나의 실시예", "일 실시예", "예시적인 구현" 등에 대한 참조는 설명되는 실시예가 특정 특징, 구조 또는 특성을 포함할 수 있지만, 모든 실시예가 그 특정 특징, 구조 또는 특성을 반드시 포함하는 것은 아닐 수 있다는 것을 나타낸다. 더욱이, 그러한 문구들은 반드시 동일 실시예를 참조하는 것은 아니다. 또한, 특정 특징, 구조 또는 특성이 일 실시예와 관련하여 설명될 때, 명시적으로 설명되어 있는지의 여부와 관계없이, 그러한 특징, 구조 또는 특성을 다른 실시예들과 관련하여 달성하는 것은 이 분야의 기술자의 지식 내에 있다는 것을 이해한다.
본 발명의 실시예들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수 있다. 본 발명의 실시예들은 또한 하나 이상의 프로세서에 의해 판독되고 실행될 수 있는 머신 판독 가능 매체 상에 저장된 명령어들로서 구현될 수 있다. 머신 판독 가능 매체는 기계(예를 들어, 컴퓨팅 장치)에 의해 판독 가능한 형태로 정보를 저장 또는 전송하기 위한 임의의 메커니즘을 포함할 수 있다. 예를 들어, 머신 판독 가능 매체는 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크 저장 매체, 광학 저장 매체, 플래시 메모리 장치, 전기, 광학, 음향 또는 다른 형태의 전파 신호(예를 들어, 반송파, 적외선 신호, 디지털 신호 등), 기타 등등을 포함할 수 있다.
음성 세그먼트화 시스템(121)을 포함하는 컴퓨팅 플랫폼(10)의 일 실시예가 도 1에 도시되어 있다. 컴퓨팅 플랫폼들의 예는 메인프레임 컴퓨터, 미니 컴퓨터, 개인용 컴퓨터, 휴대용 컴퓨터, 랩탑 컴퓨터 및 데이터를 송수신하고 처리하기 위한 다른 장치들을 포함할 수 있다.
컴퓨팅 플랫폼(10)은 하나 이상의 프로세서(11), 메모리(12), 칩셋(13), I/O 장치(14) 및 아마도 다른 컴포넌트들을 포함할 수 있다. 하나 이상의 프로세서(11)는 프로세서 버스와 같은 하나 이상의 버스를 통해 다양한 컴포넌트(예를 들어, 메모리(12))에 통신 가능하게 결합된다. 프로세서(11)는 코드들을 실행할 수 있는 하나 이상의 처리 코어를 갖는 집적 회로(IC)로서 구현될 수 있다. 프로세서(11)의 예는 캘리포니아, 산타 클라라의 인텔사로부터 구매 가능한 인텔 코어, 인텔 셀러론, 인텔 펜티엄, 인텔 제논, 인텔 이타늄 아키텍처들을 포함할 수 있다.
메모리(12)는 프로세서(11)에 의해 실행될 코드들을 저장할 수 있다. 메모리(12)의 예는 동기 동적 랜덤 액세스 메모리(SDRAM) 장치, RAMBUS 동적 랜덤 액세스 메모리(RDRAM) 장치, 더블 데이터 레이트(DDR) 메모리 장치, 정적 랜덤 액세스 메모리(SRAM) 및 플래시 메모리 장치와 같은 반도체 장치 중 하나 또는 이들의 조합을 포함할 수 있다.
칩셋(13)은 프로세서(11), 메모리(12), I/O 장치들(14) 및 아마도 다른 컴포넌트들 사이의 하나 이상의 통신 경로를 제공할 수 있다. 칩셋(13)은 전술한 컴포넌트들과 각각 통신하기 위한 허브들을 더 포함할 수 있다. 예를 들어, 칩셋(13)은 메모리 제어기 허브, 입출력 제어기 허브 및 아마도 다른 허브들을 포함할 수 있다.
I/O 장치들(14)은 매체 데이터와 같은 데이터를 컴퓨팅 플랫폼(10)에 입력하거나 컴퓨팅 플랫폼으로부터 출력할 수 있다. I/O 장치들(14)의 예는 네트워크 카드, 블루투스 장치, 안테나, 및 아마도 데이터를 송수신하기 위한 다른 장치들을 포함할 수 있다.
도 1에 도시된 바와 같은 실시예에서, 메모리(12)는 매체 자원(120), 음성 세그먼트화 시스템(121), 음성 세그먼트들(122) 및 비음성 세그먼트들(123)로서 구현되는 코드들을 더 포함할 수 있다.
매체 자원(120)은 오디오 자원 및 비디오 자원을 포함할 수 있다. 매체 자원(120)은 I/O 장치들(14), 디스크 저장 장치(도시되지 않음) 및 오디오/비디오 장치(도시되지 않음)와 같은 다양한 컴포넌트에 의해 제공될 수 있다.
음성 세그먼트화 시스템(121)은 매체(120)를 다수의 매체 세그먼트로 분할하고, 매체 세그먼트가 음성 세그먼트(122)인지 또는 비음성 세그먼트(123)인지를 결정하며, 매체 세그먼트를 음성 세그먼트(122) 또는 비음성 세그먼트(123)로서 라벨링할 수 있다. 음성 세그먼트화는 다양한 시나리오에서 유용할 수 있다. 예를 들어, 음성 분류 및 세그먼트화는 오디오-텍스트 맵핑에 사용될 수 있다. 이 시나리오에서, 음성 세그먼트들(122)은 오디오-텍스트 정렬을 거칠 수 있으며, 따라서 음성 세그먼트와의 텍스트 맵핑이 선택된다.
음성 세그먼트화 시스템(121)은 퍼지 추론 기술들을 이용하여, 음성 세그먼트(122)와 비음성 세그먼트(123)를 구별할 수 있다. 더 많은 상세가 도 2에 제공된다.
도 2는 음성 세그먼트화 시스템(121)의 일 실시예를 나타낸다. 음성 세그먼트화 시스템(121)은 퍼지 규칙(20), 매체 분할 논리(21), 입력 변수 추출 논리(22), 멤버쉽 함수 훈련 논리(23), 퍼지 규칙 연산 논리(24), 디퍼지화(defuzzifying) 논리(25), 라벨링 논리(26) 및 아마도 음성 세그먼트화를 위한 다른 컴포넌트들을 포함할 수 있다.
퍼지 규칙(20)은 매체(120)의 특성들 및 음성 데이터에 대한 사전 지식과 같은 다양한 팩터에 기초하여 결정될 수 있는 하나 이상의 퍼지 규칙을 저장할 수 있다. 퍼지 규칙은 매체 세그먼트가 음성 또는 비음성인지를 결정하기 위한 언어학적 규칙일 수 있으며, if-then 형태와 같은 다양한 형태를 가질 수 있다. if-then 규칙은 전제 부분(if)과 결과 부분(then)을 포함할 수 있다. 전제는 결과를 얻기 위한 조건들을 지정할 수 있다.
전제는 매체 데이터의 다양한 특성을 지시하는 하나 이상의 입력 변수를 포함할 수 있다. 예를 들어, 입력 변수들은 하이 제로-크로싱 레이트 비율(HZCRR), "저에너지" 프레임들의 백분율(LEFP), 스펙트럼 중심의 분산(SCV), 스펙트럼 플럭스의 분산(SFV), 스펙트럼 롤-오프 포인트의 분산(SRPV) 및 4Hz 변조 에너지(4Hz)를 포함하는 특징들의 그룹으로부터 선택될 수 있다. 결과는 출력 변수를 포함할 수 있다. 도 2의 실시예에서, 출력 변수는 음성 확률일 수 있다.
다음은 높은 신호 대 잡음 비(SNR) 환경 하의 매체에 대해 사용되는 퍼지 규칙의 일례일 수 있다.
규칙 1: LEFP가 높거나, SFV가 낮은 경우, 음성 확률은 음성이다.
규칙 2: LEFP가 낮고, HZCRR이 높은 경우, 음성 확률은 비음성이다.
다음은 낮은 SNR 환경 하의 매체에 대해 사용되는 퍼지 규칙의 다른 예일 수 있다.
규칙 1: HZCRR이 낮은 경우, 음성 확률은 비음성이다.
규칙 2: LEFP가 높은 경우, 음성 확률은 음성이다.
규칙 3: LEFP가 낮으면, 음성 확률은 비음성이다.
규칙 4: SCV가 높고, SFV가 높으며, SRPV가 높은 경우, 음성 확률은 음성이다.
규칙 5: SCV가 낮고, SFV가 낮으며, SRPV가 낮은 경우, 음성 확률은 비음성이다.
규칙 6: 4Hz가 매우 높은 경우, 음성 확률은 음성이다.
규칙 7: 4Hz가 낮은 경우, 음성 확률은 비음성이다.
규칙의 각각의 지정문(statement)은 그 안의 부분 멤버쉽의 가능성을 허용할 수 있다. 즉, 규칙의 각각의 지정문은 입력 변수 또는 출력 변수가 멤버쉽에 속하는 정도의 문제일 수 있다. 전술한 규칙들에서, 각각의 입력 변수는 "낮음" 및 "높음"으로 정의되는 2개의 멤버쉽 함수를 이용할 수 있다. 출력 변수는 "음성" 및 "비음성"으로 정의되는 2개의 멤버쉽 함수를 이용할 수 있다. 퍼지 규칙은 상이한 입력 변수들을 상이한 멤버쉽 함수들과 연관시킬 수 있다는 것을 알아야 한다. 예를 들어, 입력 변수 LEFP는 "중간" 및 "낮음" 멤버쉽 함수들을 이용할 수 있는 반면, 입력 변수 SFV는 "높음" 및 "중간" 멤버쉽 함수들을 이용할 수 있다.
멤버쉽 함수 훈련 논리(23)는 각각의 입력 변수와 연관된 멤버쉽 함수들을 훈련시킬 수 있다. 멤버쉽 함수는 다양한 패턴으로 형성될 수 있다. 예를 들어, 가장 간단한 멤버쉽 함수는 직선, 삼각형 또는 사다리꼴로 형성될 수 있다. 2개의 멤버쉽 함수는 가우스 분포 곡선, 단순 가우스 곡선 및 2개의 상이한 가우스 곡선의 양면 복합체 상에 형성될 수 있다. 일반화된 벨(bell) 멤버쉽 함수는 3개의 파라미터에 의해 지정된다.
매체 분할 논리(21)는 매체 자원(120)을 다수의 매체 세그먼트, 예를 들어 1초 윈도우 내의 각각의 매체 세그먼트로 분할할 수 있다. 입력 변수 추출 논리(22)는 퍼지 규칙(20)에 기초하여 각각의 매체 세그먼트로부터 입력 변수들의 인스턴스들을 추출할 수 있다. 퍼지 규칙 연산 논리(24)는 입력 변수들의 인스턴스들, 입력 변수들과 연관된 멤버쉽 함수들, 출력 변수 및 출력 변수와 연관된 멤버쉽 함수를 퍼지 규칙(20)에 기초하여 연산하여, 출력 변수(즉, 음성 확률)가 멤버쉽(즉, 음성 또는 비음성)에 속할 가능성을 나타낼 수 있는 완전한 퍼지 결론을 얻을 수 있다.
디퍼지화 논리(25)는 퍼지 규칙 연산 논리(24)로부터의 퍼지 결론을 디퍼지화하여, 한정된 수치의 출력 변수를 얻을 수 있다. 디퍼지화를 위해 다양한 방법이 적용될 수 있다. 예를 들어, 가중-중심(weighted-centroid) 방법을 이용하여, 각각의 퍼지 규칙으로부터의 각각의 출력의 가중 집합의 중심을 찾을 수 있다. 중심은 한정된 수치의 출력 변수(즉, 음성 확률)를 식별할 수 있다.
라벨링 논리(26)는 각각의 매체 세그먼트를, 이 매체 세그먼트에 대한 한정된 수치의 음성 확률에 기초하여 음성 세그먼트 또는 비음성 세그먼트로서 라벨링할 수 있다.
도 3은 퍼지 규칙(20), 및 음성 세그먼트화 시스템(121)이 퍼지 규칙을 연산하여 세그먼트가 음성인지의 여부를 결정하는 방법의 일 실시예를 나타낸다. 도시된 바와 같이, 퍼지 규칙(20)은 2개의 규칙을 포함할 수 있다.
규칙 1: LEFP가 높거나 SFV가 낮은 경우, 음성 확률은 음성이다.
규칙 2: LEFP가 낮고, HZCRR이 높으면, 음성 확률은 비음성이다.
첫째, 퍼지 규칙 연산 논리(24)는 입력 변수들의 추출된 인스턴스들 및 멤버쉽 함수들에 기초하여 각각의 규칙의 각각의 입력 변수를 퍼지화할 수 있다. 전술한 바와 같이, 퍼지 규칙의 각각의 지정문은 그 안의 부분 멤버쉽의 가능성을 허용할 수 있으며, 지정문의 진실성은 정도의 문제가 될 수 있다. 예를 들어, 'LEFP가 높다'는 지정문은 LEFP가 높다는 부분 정도를 허용할 수 있다. LEFP가 "높은" 멤버쉽에 속하는 정도는 0과 1 사이의 멤버쉽 값으로 표시될 수 있다. 도 3의 블록 B00 내에 도시된 바와 같은 LEFP와 연관된 "높은" 멤버쉽 함수는 LEFP 인스턴스를 그의 적절한 멤버쉽 값으로 맵핑할 수 있다. 입력 변수와 연관된 멤버쉽 함수 및 추출된 입력 변수의 인스턴스(예를 들어, LEFP=0.7, HZCRR=0.8, SFV=0.1)를 이용하여 멤버쉽 값을 얻는 프로세스를 "입력 퍼지화"라고 할 수 있다. 따라서, 도 3에 도시된 바와 같이, 규칙 1의 입력 변수 "LEFP"는 "높은" 멤버쉽 값 0.4로 퍼지화될 수 있다. 마찬가지로, 규칙 1의 입력 변수 "SFV"는 "낮은" 멤버쉽 값 0.8로 퍼지화될 수 있으며, 규칙 2의 입력 변수 "LEFP"는 "낮은" 멤버쉽 값 0.1로 퍼지화될 수 있고, 입력 변수 "HZCRR"은 "높은" 멤버쉽 값 0.5로 퍼지화될 수 있다.
둘째, 퍼지 규칙 연산 논리(24)는 각각의 규칙의 퍼지화된 입력들을 연산하여, 규칙의 퍼지화된 출력을 얻을 수 있다. 규칙의 전제가 둘 이상의 부분을 포함하는 경우, 퍼지 논리 연산자(예를 들어, AND, OR, NOT)를 이용하여 전제의 결과를 나타내는 값을 얻을 수 있다. 예를 들어, 규칙 1은 2개의 부분, 즉 "LEFP가 높다" 및 "SFV가 낮다"를 가질 수 있다. 규칙 1은 퍼지 논리 연산자 "OR"을 이용하여, 퍼지화된 입력들 중 최대 값, 즉 퍼지화된 입력들 0.4 및 0.8 중 최대 값 0.8을 규칙 1의 전제의 결과로서 취할 수 있다. 규칙 2는 2개의 다른 부분, 즉 "LEFP가 낮다" 및 "HZCRR이 높다"를 가질 수 있다. 규칙 2는 퍼지 논리 연산자 "AND"를 이용하여, 퍼지화된 입력들 중 최소 값, 즉 퍼지화된 입력들 0.1 및 0.5 중 최소 값 0.1을 규칙 2의 전제의 결과로서 취할 수 있다.
셋째, 각각의 규칙에 대해, 퍼지 규칙 연산 논리(24)는 출력 변수 "음성 확률"과 연관된 멤버쉽 함수 및 규칙 전제의 결과를 이용하여, 음성 확률이 멤버쉽(즉, 음성 또는 비음성)에 속하는 한 세트의 정도들을 지시하는 한 세트의 멤버쉽 값들을 얻을 수 있다. 규칙 1에 대해, 퍼지 규칙 연산 논리(24)는 함축 방법(implication method)을 이용하여, 음성 확률이 "음성" 멤버쉽에 속하는 최고 정도를 규칙 1의 전제로부터 얻어진 값, 즉 값 0.8로 제한함으로써 "음성" 멤버쉽 함수를 재구성할 수 있다. 도 3의 블록 B04는 음성 확률이 규칙 1에 대해 "음성" 멤버쉽에 속할 수 있는 한 세트의 정도들을 나타낸다. 마찬가지로, 도 3의 블록 B14는 음성 확률이 규칙 2에 대해 "비음성" 멤버쉽에 속할 수 있는 다른 세트의 정도들을 나타낸다.
넷째, 디퍼지화 논리(25)는 각각의 규칙의 출력을 디퍼지화하여, 출력 변수 "음성 확률"의 디퍼지화된 값을 얻을 수 있다. 각각의 규칙으로부터의 출력은 출력 변수 "음성 확률"이 멤버쉽에 속하는 정도들을 나타낼 수 있는 전체 퍼지 세트일 수 있다. 출력의 절대값을 얻는 프로세스를 "디퍼지화"라고 한다. 디퍼지화를 위해 다양한 방법이 적용될 수 있다. 예를 들어, 디퍼지화 논리(25)는 전술한 가중 중심 방법을 이용하여 출력의 절대값을 얻을 수 있다.
보다 구체적으로, 디퍼지화 논리(25)는 도 3의 블록 B04에 도시된 바와 같은 정도들의 세트 및 도 3의 블록 B14에 도시된 바와 같은 정도들의 세트와 같은 각각의 규칙의 각각의 출력에 가중치를 할당할 수 있다. 예를 들어, 디퍼지화 논리(25)는 규칙 1의 출력 및 규칙 2의 출력에 가중치 "1"을 할당할 수 있다. 이어서, 디퍼지화 논리(25)는 가중된 출력들을 수집하여, 출력 값들의 범위를 정의할 수 있는 합집합을 얻을 수 있다. 도 3의 블록 B20은 집합의 결과를 나타낼 수 있다. 마지막으로, 디퍼지화 논리(25)는 집합의 중심을 출력 "음성 확률"의 절대값으로서 발견할 수 있다. 도 3에 도시된 바와 같이, 음성 확률 값은 0.8일 수 있으며, 이에 기초하여 음성 세그먼트화 시스템(121)은 매체 세그먼트가 음성인지 비음성인지를 결정할 수 있다.
도 4는 음성 세그먼트화 시스템(121)에 의한 음성 세그먼트화 방법의 일 실시예를 나타낸다. 블록 401에서, 매체 분할 논리(21)는 매체(120)를 다수의 매체 세그먼트, 예를 들어 1초 윈도우 내의 각각의 매체 세그먼트로 분할할 수 있다. 블록 402에서, 퍼지 규칙(20)은 매체 세그먼트가 음성인지 비음성인지를 결정하는 조건들을 지정할 수 있는 하나 이상의 규칙을 포함할 수 있다. 퍼지 규칙들은 매체(120)의 특성들 및 음성 데이터에 관한 사전 지식에 기초하여 결정될 수 있다.
블록 403에서, 멤버쉽 함수 훈련 논리(23)는 각각의 퍼지 규칙의 각각의 입력 변수와 연관된 멤버쉽 함수들을 훈련시킬 수 있다. 멤버쉽 함수 훈련 논리(23)는 퍼지 규칙의 출력 변수 "음성 확률"과 연관된 멤버쉽 함수들을 더 훈련시킬 수 있다. 블록 404에서, 입력 변수 추출 논리(22)는 각각의 퍼지 규칙의 전제에 따라 각각의 매체 세그먼트로부터 입력 변수를 추출할 수 있다. 블록 405에서, 퍼지 규칙 연산 논리(24)는 추출된 입력 변수의 인스턴스들 및 입력 변수와 연관된 멤버쉽 함수를 이용하여 각각의 퍼지 규칙의 각각의 입력 변수를 퍼지화할 수 있다.
블록 406에서, 퍼지 규칙 연산 논리(24)는 전제의 결과를 나타내는 값을 얻을 수 있다. 전제가 하나의 부분을 포함하는 경우, 그 부분으로부터 퍼지화된 입력은 값일 수 있다. 전제가 둘 이상의 부분을 포함하는 경우, 퍼지 규칙 연산 논리(24)는 퍼지 규칙에 의해 지시되는 바와 같이 각각의 부분으로부터 퍼지화된 각각의 입력을 퍼지 논리 연산자, 예를 들어 AND, OR 또는 NOT을 이용하여 연산함으로써 값을 얻을 수 있다. 블록 407에서, 퍼지 규칙 연산 논리(24)는 함축 방법을 적용하여, 각각의 퍼지 규칙의 출력 변수와 연관된 멤버쉽 함수를 절단할 수 있다. 절단된(truncated) 멤버쉽 함수는 출력 변수가 멤버쉽에 속하는 정도들의 범위를 정의할 수 있다.
블록 408에서, 디퍼지화 논리(25)는 각각의 퍼지 규칙으로부터의 각각의 출력에 가중치를 할당하고, 가중된 출력을 수집하여 출력 합집합을 얻을 수 있다. 블록 409에서, 디퍼지화 논리(25)는 중심 방법을 적용하여, 출력 합집합의 중심을 출력 변수 "음성 확률"의 값으로서 발견할 수 있다. 블록 410에서, 라벨링 논리(26)는 음성 확률 값에 기초하여 매체 세그먼트가 음성인지 비음성인지를 라벨링할 수 있다.
본 발명의 소정의 특징들이 실시예들을 참조하여 설명되었지만, 본 설명은 제한적 의미로 해석되는 것을 의도하지 않는다. 본 발명이 속하는 분야의 기술자들에게 명백한 본 발명의 실시예들의 다양한 변형은 물론, 다른 실시예들도 본 발명의 사상 및 범위 내에 있는 것으로 간주된다.
Claims (18)
- 음성 세그먼트와 비음성(non-speech) 세그먼트를 구별하기 위한 퍼지 규칙을 결정하는 단계 - 상기 퍼지 규칙의 전제(antecedent)는 입력 변수 및 입력 변수 멤버쉽을 포함하고, 상기 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함함 -;세그먼트로부터 상기 입력 변수의 인스턴스를 추출하는 단계;상기 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 상기 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수를 훈련시키는 단계; 및상기 입력 변수의 인스턴스, 상기 입력 변수 멤버쉽 함수, 상기 출력 변수 및 상기 출력 변수 멤버쉽 함수를 연산하여, 상기 세그먼트가 음성 세그먼트인지 또는 비음성 세그먼트인지를 결정하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 전제는 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 부분 정도(partial degree)를 허용(admit)하는 방법.
- 제1항에 있어서,상기 결과는 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 부분 정도를 허용하는 방법.
- 제1항에 있어서,상기 입력 변수는 저 에너지 프레임들의 백분율(LEFP), 하이 제로 크로싱 레이트 비율(HZCRR), 스펙트럼 중심의 분산(SCV), 스펙트럼 플럭스의 분산(SFV), 스펙트럼 롤-오프 포인트의 분산(SRPV) 및 4Hz 변조 에너지(4Hz)의 그룹으로부터 선택되는 적어도 하나의 변수를 포함하는 방법.
- 제4항에 있어서,상기 출력 변수는 음성 확률(speech-likelihood)인 방법.
- 제5항에 있어서,상기 퍼지 규칙은LEFP가 높거나 SFV가 낮으면, 상기 음성 확률이 음성임을 지정하는 제1 규칙; 및LEFP가 낮고, HZCRR이 높으면, 상기 음성 확률이 비음성임을 지정하는 제2 규칙을 포함하는 방법.
- 제5항에 있어서,상기 퍼지 규칙은HZCRR이 낮으면, 상기 음성 확률이 비음성임을 지정하는 제1 규칙;LEFP가 높으면, 상기 음성 확률이 음성임을 지정하는 제2 규칙;LEFP가 낮으면, 상기 음성 확률이 비음성임을 지정하는 제3 규칙;SCV가 높고, SFV가 높고, SRPV가 높으면, 상기 음성 확률이 음성임을 지정하는 제4 규칙;SCV가 낮고, SFV가 낮고, SRPV가 낮으면, 상기 음성 확률이 비음성임을 지정하는 제5 규칙;4Hz가 높으면, 상기 음성 확률이 음성임을 지정하는 제6 규칙; 및4Hz가 낮으면, 상기 음성 확률이 비음성임을 지정하는 제7 규칙을 포함하는 방법.
- 제1항에 있어서,상기 연산은상기 입력 변수의 인스턴스 및 상기 입력 변수 멤버쉽 함수에 기초하여 상기 입력 변수를 퍼지화하여, 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 정도를 지시하는 퍼지화된 입력을 제공하는 단계;상기 퍼지화된 입력에 기초하여 상기 출력 변수 멤버쉽 함수를 재구성(reshaping)하여, 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 정도들의 그룹을 지시하는 출력 세트를 제공하는 단계;상기 출력 세트를 디퍼지화하여(defuzzifying) 디퍼지화된 출력을 제공하는 단계; 및상기 디퍼지화된 출력에 기초하여, 상기 세그먼트가 음성 세그먼트인지 또는 비음성 세그먼트인지를 라벨링(labeling)하는 단계를 더 포함하는 방법.
- 제8항에 있어서,상기 디퍼지화는상기 퍼지 규칙이 하나의 규칙을 포함하는 경우, 상기 출력 세트의 중심을 발견하여, 상기 디퍼지화된 출력을 제공하는 단계;상기 퍼지 규칙이 복수의 규칙을 포함하는 경우,상기 복수의 규칙 각각을 통해 얻은 출력 세트와 복수의 가중치 각각을 곱하여, 복수의 가중된 출력 세트 각각을 제공하는 단계;상기 복수의 가중된 출력 세트를 수집하여 출력 합집합(union)을 제공하는 단계; 및상기 출력 합집합의 중심을 발견하여, 상기 디퍼지화된 출력을 제공하는 단계를 더 포함하는 방법.
- 음성 세그먼트와 비음성 세그먼트를 구별하기 위한 퍼지 규칙을 결정하는 단계 - 상기 퍼지 규칙의 전제는 입력 변수 및 입력 변수 멤버쉽을 포함하고, 상기 퍼지 규칙의 결과는 출력 변수 및 출력 변수 멤버쉽을 포함함 -;세그먼트로부터 상기 입력 변수의 인스턴스를 추출하는 단계;상기 입력 변수 멤버쉽과 연관된 입력 변수 멤버쉽 함수 및 상기 출력 변수 멤버쉽과 연관된 출력 변수 멤버쉽 함수를 훈련시키는 단계; 및상기 입력 변수의 인스턴스, 상기 입력 변수 멤버쉽 함수, 상기 출력 변수 및 상기 출력 변수 멤버쉽 함수를 연산하여, 상기 세그먼트가 음성 세그먼트인지 또는 비음성 세그먼트인지를 결정하는 단계를, 실행될 때, 시스템이 연산하게 하는 복수의 명령어를 포함하는 머신 판독 가능 매체.
- 제10항에 있어서,상기 전제는 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 부분 정도를 허용하는 머신 판독 가능 매체.
- 제10항에 있어서,상기 결과는 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 부분 정도를 허용하는 머신 판독 가능 매체.
- 제10항에 있어서,상기 입력 변수는 저 에너지 프레임들의 백분율(LEFP), 하이 제로 크로싱 레이트 비율(HZCRR), 스펙트럼 중심의 분산(SCV), 스펙트럼 플럭스의 분산(SFV), 스펙트럼 롤-오프 포인트의 분산(SRPV) 및 4Hz 변조 에너지(4Hz)의 그룹으로부터 선택되는 적어도 하나의 변수를 포함하는 머신 판독 가능 매체.
- 제13항에 있어서,상기 출력 변수는 음성 확률인 머신 판독 가능 매체.
- 제14항에 있어서,상기 퍼지 규칙은LEFP가 높거나 SFV가 낮으면, 상기 음성 확률이 음성임을 지정하는 제1 규칙; 및LEFP가 낮고, HZCRR이 높으면, 상기 음성 확률이 비음성임을 지정하는 제2 규칙을 포함하는 머신 판독 가능 매체.
- 제14항에 있어서,상기 퍼지 규칙은HZCRR이 낮으면, 상기 음성 확률이 비음성임을 지정하는 제1 규칙;LEFP가 높으면, 상기 음성 확률이 음성임을 지정하는 제2 규칙;LEFP가 낮으면, 상기 음성 확률이 비음성임을 지정하는 제3 규칙;SCV가 높고, SFV가 높고, SRPV가 높으면, 상기 음성 확률이 음성임을 지정하는 제4 규칙;SCV가 낮고, SFV가 낮고, SRPV가 낮으면, 상기 음성 확률이 비음성임을 지정하는 제5 규칙;4Hz가 높으면, 상기 음성 확률이 음성임을 지정하는 제6 규칙; 및4Hz가 낮으면, 상기 음성 확률이 비음성임을 지정하는 제7 규칙을 포함하는 머신 판독 가능 매체.
- 제10항에 있어서,상기 시스템이 연산하게 하는 상기 복수의 명령어는,상기 입력 변수의 인스턴스 및 상기 입력 변수 멤버쉽 함수에 기초하여 상기 입력 변수를 퍼지화하여, 상기 입력 변수가 상기 입력 변수 멤버쉽에 속하는 제1 정도를 지시하는 퍼지화된 입력을 제공하는 단계;상기 퍼지화된 입력에 기초하여 상기 출력 변수 멤버쉽 함수를 재구성하여, 상기 출력 변수가 상기 출력 변수 멤버쉽에 속하는 제2 정도들의 그룹을 지시하는 출력 세트를 제공하는 단계;상기 출력 세트를 디퍼지화하여 디퍼지화된 출력을 제공하는 단계; 및상기 디퍼지화된 출력에 기초하여, 상기 세그먼트가 음성 세그먼트인지 또는 비음성 세그먼트인지를 라벨링하는 단계를 상기 시스템이 더 연산하게 하는 머신 판독 가능 매체.
- 제17항에 있어서,상기 시스템이 디퍼지화를 수행하게 하는 상기 복수의 명령어는,상기 퍼지 규칙이 하나의 규칙을 포함하는 경우, 상기 출력 세트의 중심을 발견하여, 상기 디퍼지화된 출력을 제공하는 단계;상기 퍼지 규칙이 복수의 규칙을 포함하는 경우,상기 복수의 규칙 각각을 통해 얻은 출력 세트와 복수의 가중치 각각을 곱하여, 복수의 가중된 출력 세트 각각을 제공하는 단계;상기 복수의 가중된 출력 세트를 수집하여 출력 합집합을 제공하는 단계; 및상기 출력 합집합의 중심을 발견하여, 상기 디퍼지화된 출력을 제공하는 단계를 상기 시스템이 더 수행하게 하는 머신 판독 가능 매체.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2006/003612 WO2008077281A1 (en) | 2006-12-27 | 2006-12-27 | Method and apparatus for speech segmentation |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127000010A Division KR20120008088A (ko) | 2006-12-27 | 2006-12-27 | 음성 세그먼트화를 위한 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090094106A true KR20090094106A (ko) | 2009-09-03 |
KR101140896B1 KR101140896B1 (ko) | 2012-07-02 |
Family
ID=39562073
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127000010A KR20120008088A (ko) | 2006-12-27 | 2006-12-27 | 음성 세그먼트화를 위한 방법 및 장치 |
KR1020097013177A KR101140896B1 (ko) | 2006-12-27 | 2006-12-27 | 음성 세그먼트화를 위한 방법 및 장치 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127000010A KR20120008088A (ko) | 2006-12-27 | 2006-12-27 | 음성 세그먼트화를 위한 방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8442822B2 (ko) |
EP (1) | EP2100294A4 (ko) |
JP (1) | JP5453107B2 (ko) |
KR (2) | KR20120008088A (ko) |
CN (1) | CN101568957B (ko) |
WO (1) | WO2008077281A1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2100294A4 (en) * | 2006-12-27 | 2011-09-28 | Intel Corp | METHOD AND DEVICE FOR LANGUAGE SEGMENTATION |
FR2946175B1 (fr) * | 2009-05-29 | 2021-06-04 | Voxler | Procede pour detecter des paroles dans la voix et utilisation de ce procede dans un jeu de karaoke |
US8712771B2 (en) * | 2009-07-02 | 2014-04-29 | Alon Konchitsky | Automated difference recognition between speaking sounds and music |
CN102915728B (zh) * | 2011-08-01 | 2014-08-27 | 佳能株式会社 | 声音分段设备和方法以及说话者识别系统 |
US9792553B2 (en) * | 2013-07-31 | 2017-10-17 | Kadenze, Inc. | Feature extraction and machine learning for evaluation of image- or video-type, media-rich coursework |
US20150039541A1 (en) * | 2013-07-31 | 2015-02-05 | Kadenze, Inc. | Feature Extraction and Machine Learning for Evaluation of Audio-Type, Media-Rich Coursework |
CN109965764A (zh) * | 2019-04-18 | 2019-07-05 | 科大讯飞股份有限公司 | 马桶控制方法和马桶 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4696040A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with energy normalization and silence suppression |
US4937870A (en) * | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
US5673365A (en) * | 1991-06-12 | 1997-09-30 | Microchip Technology Incorporated | Fuzzy microcontroller for complex nonlinear signal recognition |
JP2797861B2 (ja) * | 1992-09-30 | 1998-09-17 | 松下電器産業株式会社 | 音声検出方法および音声検出装置 |
JPH06119176A (ja) * | 1992-10-06 | 1994-04-28 | Matsushita Electric Ind Co Ltd | ファジィ演算装置 |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
US5841948A (en) * | 1993-10-06 | 1998-11-24 | Motorola, Inc. | Defuzzifying method in fuzzy inference system |
US5524176A (en) * | 1993-10-19 | 1996-06-04 | Daido Steel Co., Ltd. | Fuzzy expert system learning network |
WO1995029737A1 (en) * | 1994-05-03 | 1995-11-09 | Board Of Regents, The University Of Texas System | Apparatus and method for noninvasive doppler ultrasound-guided real-time control of tissue damage in thermal therapy |
JP2759052B2 (ja) * | 1994-05-27 | 1998-05-28 | 東洋エンジニアリング株式会社 | 尿素プラント合成管の液面制御装置及び液面制御方法 |
US5704200A (en) * | 1995-11-06 | 1998-01-06 | Control Concepts, Inc. | Agricultural harvester ground tracking control system and method using fuzzy logic |
DE19625294A1 (de) * | 1996-06-25 | 1998-01-02 | Daimler Benz Aerospace Ag | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
US6215115B1 (en) * | 1998-11-12 | 2001-04-10 | Raytheon Company | Accurate target detection system for compensating detector background levels and changes in signal environments |
JP2000339167A (ja) | 1999-05-31 | 2000-12-08 | Toshiba Mach Co Ltd | ファジィ推論におけるメンバーシップ関数のチューニング方法 |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6553342B1 (en) | 2000-02-02 | 2003-04-22 | Motorola, Inc. | Tone based speech recognition |
JP2002116912A (ja) * | 2000-10-06 | 2002-04-19 | Fuji Electric Co Ltd | ファジイ推論演算処理方法 |
US6873718B2 (en) * | 2001-10-12 | 2005-03-29 | Siemens Corporate Research, Inc. | System and method for 3D statistical shape model for the left ventricle of the heart |
US7716047B2 (en) * | 2002-10-16 | 2010-05-11 | Sony Corporation | System and method for an automatic set-up of speech recognition engines |
EP1774516B1 (en) * | 2004-01-12 | 2011-03-16 | Voice Signal Technologies Inc. | Normalization of cepstral features for speech recognition |
US7003366B1 (en) * | 2005-04-18 | 2006-02-21 | Promos Technologies Inc. | Diagnostic system and operating method for the same |
US20080294433A1 (en) | 2005-05-27 | 2008-11-27 | Minerva Yeung | Automatic Text-Speech Mapping Tool |
CN1790482A (zh) * | 2005-12-19 | 2006-06-21 | 危然 | 一种增强语音识别系统模板匹配精确度的方法 |
US20070183604A1 (en) * | 2006-02-09 | 2007-08-09 | St-Infonox | Response to anomalous acoustic environments |
TWI312982B (en) * | 2006-05-22 | 2009-08-01 | Nat Cheng Kung Universit | Audio signal segmentation algorithm |
EP2100294A4 (en) | 2006-12-27 | 2011-09-28 | Intel Corp | METHOD AND DEVICE FOR LANGUAGE SEGMENTATION |
-
2006
- 2006-12-27 EP EP06840655A patent/EP2100294A4/en not_active Withdrawn
- 2006-12-27 US US12/519,758 patent/US8442822B2/en not_active Expired - Fee Related
- 2006-12-27 KR KR1020127000010A patent/KR20120008088A/ko not_active Application Discontinuation
- 2006-12-27 JP JP2009543317A patent/JP5453107B2/ja not_active Expired - Fee Related
- 2006-12-27 WO PCT/CN2006/003612 patent/WO2008077281A1/en active Application Filing
- 2006-12-27 KR KR1020097013177A patent/KR101140896B1/ko active IP Right Grant
- 2006-12-27 CN CN2006800568140A patent/CN101568957B/zh not_active Expired - Fee Related
-
2013
- 2013-04-12 US US13/861,734 patent/US8775182B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20120008088A (ko) | 2012-01-25 |
CN101568957A (zh) | 2009-10-28 |
CN101568957B (zh) | 2012-05-02 |
US20100153109A1 (en) | 2010-06-17 |
US20130238328A1 (en) | 2013-09-12 |
KR101140896B1 (ko) | 2012-07-02 |
EP2100294A1 (en) | 2009-09-16 |
US8442822B2 (en) | 2013-05-14 |
JP2010515085A (ja) | 2010-05-06 |
EP2100294A4 (en) | 2011-09-28 |
JP5453107B2 (ja) | 2014-03-26 |
WO2008077281A1 (en) | 2008-07-03 |
US8775182B2 (en) | 2014-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Boosting contextual information for deep neural network based voice activity detection | |
CN107331384B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
KR101140896B1 (ko) | 음성 세그먼트화를 위한 방법 및 장치 | |
CN109767776B (zh) | 一种基于密集神经网络的欺骗语音检测方法 | |
CN113646833A (zh) | 语音对抗样本检测方法、装置、设备及计算机可读存储介质 | |
CN114416989A (zh) | 一种文本分类模型优化方法和装置 | |
Mishra et al. | Importance of supra-segmental information and self-supervised framework for spoken language diarization task | |
WO2020162240A1 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
Kim et al. | Efficient harmonic peak detection of vowel sounds for enhanced voice activity detection | |
Yu et al. | Waveform-based voice activity detection exploiting fully convolutional networks with multi-branched encoders | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 | |
CN114333840A (zh) | 语音鉴别方法及相关装置、电子设备和存储介质 | |
US20220122584A1 (en) | Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program | |
CN113160801A (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
Chung et al. | Endpoint detection using weighted finite state transducer. | |
Wang et al. | A computation-efficient neural network for vad using multi-channel feature | |
Shafee et al. | Speaker identification and Spoken word recognition in noisy background using artificial neural networks | |
WO2021014649A1 (ja) | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム | |
Gupta et al. | VoSE: An algorithm to Separate and Enhance Voices from Mixed Signals using Gradient Boosting | |
Fan et al. | Learning to Behave Like Clean Speech: Dual-Branch Knowledge Distillation for Noise-Robust Fake Audio Detection | |
Qiming et al. | Intelligent Speaker Recognition Algorithm Based on SE-Res2Net | |
Ait Mait et al. | An Unsupervised Voice Activity Detection Using Time-Frequency Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
A107 | Divisional application of patent | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170330 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180328 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190328 Year of fee payment: 8 |