KR20050109403A - 정보 검출 장치 및 방법, 및 프로그램 - Google Patents

정보 검출 장치 및 방법, 및 프로그램 Download PDF

Info

Publication number
KR20050109403A
KR20050109403A KR1020047017765A KR20047017765A KR20050109403A KR 20050109403 A KR20050109403 A KR 20050109403A KR 1020047017765 A KR1020047017765 A KR 1020047017765A KR 20047017765 A KR20047017765 A KR 20047017765A KR 20050109403 A KR20050109403 A KR 20050109403A
Authority
KR
South Korea
Prior art keywords
identification
type
information
frequency
section
Prior art date
Application number
KR1020047017765A
Other languages
English (en)
Other versions
KR101022342B1 (ko
Inventor
야스히로 도구리
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20050109403A publication Critical patent/KR20050109403A/ko
Application granted granted Critical
Publication of KR101022342B1 publication Critical patent/KR101022342B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

정보 검출 장치(1)에 있어서, 음성 종별 식별부(11)는 정보원에 있어서의 음성 신호를 소정의 시간 단위마다 음악이나 음성 등의 종별(카테고리)로 식별 분류하고, 기억 장치 및 기록 매체(13)는 그 식별 정보를 기록한다. 식별 빈도 계산부(15)는 소정의 시간 단위마다, 상기 시간 단위보다도 긴 소정의 시간 구간에 있어서 종별마다의 식별 빈도를 계산하고, 구간 개시 종료 판정부(16)는 종별의 식별 빈도가 처음으로 소정의 임계치 이상으로 되고, 또한 그 임계치 이상인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 개시를 검출하며, 식별 빈도가 처음으로 소정의 임계치 이하로 되고, 또한 그 임계치 이하인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 종료를 검출한다.

Description

정보 검출 장치 및 방법, 및 프로그램 {INFORMATION DETECTION DEVICE, METHOD, AND PROGRAM}
본 발명은 음성, 음악, 음악을 포함하는 음성 신호, 또는 그 음성 신호를 포함하는 정보원으로부터 특징량을 추출함으로써, 음성이나 음악 등의 동일 종별의 연속 구간을 검출하는 정보 검출 장치 및 그 방법, 및 프로그램에 관한 것이다.
본 출원은 일본국에서 2003년 3월 6일에 출원된 일본 특허 출원 번호 2003-060382를 기초로 하여 우선권을 주장하는 것이며, 이 출원은 참조함으로써, 본 출원에 원용된다.
방송 시스템이나 멀티미디어 시스템 등에 있어서, 영상이나 음성의 대량의 컨텐츠를 효율적으로 관리, 분류하고, 용이하게 검색 가능하게 하는 것은 중요하지만, 이것에는 컨텐츠 중 어느 부분이 어떠한 정보를 가지고 있는지를 아는 것이 불가결하다.
여기서, 많은 멀티미디어 컨텐츠, 방송 컨텐츠는 영상 신호와 함께 음성 신호를 포함하고, 이것은 컨텐츠의 분류나 장면의 검출에 있어서, 매우 유용한 정보이다. 특히, 정보에 포함되는 음성 신호의 음성 부분과 음악 부분을 식별하여 검출함으로써, 효율적인 정보 검색이나 정보 관리를 실시할 수 있다.
그런데, 음성과 음악을 식별하기 위한 기술은 종래부터 많이 연구되어 있고, 영교차수, 파워의 변동, 스펙트럼의 변동 등을 특징량으로서 사용하여 식별하는 수법이 제안되어 있다.
예를 들면, 문헌 「J. 사운더스(J. Saunders),『방송된 음성/음악의 리얼 타임 식별(Real-time discrimination of broadcast speech/music)』(미국), 전기전자 기술자 학회보, 음향, 음성, 신호 처리에 관한 국제회의(Proc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing, 1996년, p.993-996」에서는, 영교차수를 사용하여 음성 및 음악의 식별을 행하고 있다.
또한, 문헌 「E. 세이어(E. Scheire) 및 M. 슬래니(M. Slaney), 『강력한 다특성 음성/음악 식별기의 제작 및 평가(Construction and evaluation of a robust multifeature speech/music discriminator)』, (미국), 전기전자 기술자 학회보, 음악, 음성, 신호 처리에 관한 국제회의(Proc. IEEE Int. Conf. on Acoustics, Speech of Signal Processing, 1997년, p. 1331-1334」에서는, 4Hz 변조 에너지, 저에너지 프레임 비율, 스펙트럼 롤 오프점, 스펙트럼 센트로이드, 스펙트럼 변동(Flux), 영교차율 등을 포함하고 13개의 특징량을 사용하여 음성, 음악을 식별하고, 각각의 성능을 비교 평가하고 있다.
또한, 문헌 「M. J. 케어(M. J. Care), E. S. 패리스(E. S. Parris) 및 H. 로이드 토마스(H. Lloyd-Thomas), 『음성, 음악을 식별하기 위한 특징 비교(A comparison of features for speech, music discrimination)』, (미국), 전기전자 기술자 학회보, 음악, 음성, 신호 처리에 관한 국제회의(Proc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing, 1999년 3월, p.149-152」에서는, 케프스트럼 계수, 델타 케프스트럼 계수, 진폭, 델타 진폭, 피치, 델타 피치, 영교차수, 델타 제로교차수를 특징량으로 하고, 각각의 특징량에 혼합 정규 분포 모델을 사용함으로써, 음성 및 음악을 식별하고 있다.
이 외, 음악의 스펙트럼 피크가 특정 주파수에 안정된 채로 시간 방향으로 지속한다고 하는 특징에 근거한 검출 수법도 연구되어 있다. 여기서, 스펙트럼 피크의 안정성은, 스펙트로그램에 있어서의 시간 방향의 직선 성분의 유무로서도 표현된다. 스펙트로그램이란, 세로축을 주파수, 가로축을 시간으로 하고, 스펙트럼을 시간 방향으로 배열하여 화상 정보로서 표현한 것이다. 이 특징을 사용한 발명으로서는, 예를 들면 문헌 「미나미, 아쿠츠, 하마다 및 도노무라, 『음성정보를 사용한 영상 인덱싱과 그 응용』, 전자정보통신학회 논문지 D-II, l998년, 제J81-D-II권, 제3호, p.529-537」 및 일본 공개 특허 공보 평10-187182호를 들 수 있다.
이와 같은 소정의 시간마다 음성이나 음악 등의 종별을 식별 분류하는 기술을 응용함으로써, 음성 데이터 중에 있어서 동일 종별의 연속 구간의 개시 및 종료 위치를 검출할 수 있다.
그러나, 전술한 음성이나 음악 등의 종별을 식별 분류하는 기술을 직접 이용하여 동일 종별의 연속 구간을 검출하는데는 다음과 같은 문제가 있다.
예를 들면 음악(악곡)은 많은 악기, 가창 음성, 효과음, 타악기에 의한 리듬 등으로 구성되는 것이 많다. 따라서, 음성 데이터를 단시간마다 식별한 경우, 연속한 악곡 구간 중에 있어서도, 반드시 음악과 식별할 수 있는 부분뿐만 아니라 단기적으로 보면 음성으로 판정되어야 할 부분, 또는 다른 종별로 분류되어야 할 부분이 자주 포함된다. 회화 음성의 연속 구간을 검출하는 경우도 마찬가지이며, 연속한 회화 구간 중에 있어서도, 단기적으로 보면 무음 부분이나, 음악 등의 잡음이 일순간 들어가는 일도 자주 일어날 수 있다. 또, 분명한 음악이나 음성의 부분에 있어서도, 식별 오류에 의해 오류 종별로 식별되어 버릴 일도 있다. 음성, 음악 이외의 종별의 경우도 마찬가지이다.
따라서, 단시간마다의 음성, 음악 등의 종별 식별 결과를 직접 사용하여 연속 구간을 검출하는 방법에서는, 장기적으로 보면 연속 구간으로 보여져야 할 부분이 도중에 분단되거나 역으로 장기적으로는 연속 구간이라고 볼 수 없는 일시적인 잡음 부분을 연속 구간이라고 보아 버릴 문제가 발생한다.
한편, 이와 같은 문제를 피하기 위해 식별을 위한 분석 시간을 길게 취하면, 식별의 시간 분해능이 저하되고, 빈번하게 음악, 음성 등이 바뀌는 경우에 검출율이 저하한다는 문제가 발생한다.
도 1은 본 실시예에 있어서의 정보 검출 장치의 개략 구성을 나타낸 도면이다.
도 2는 식별 정보의 기록 포맷의 일례를 나타낸 도면이다.
도 3은 식별 빈도를 계산하는 시간 구간의 일례를 나타낸 도면이다.
도 4는 인덱스 정보의 기록 포맷의 일례를 나타낸 도면이다.
도 5는 음악 연속 구간의 개시를 검출하는 모습을 설명하기 위한 도면이다.
도 6은 음악 연속 구간의 종료를 검출하는 모습을 설명하기 위한 도이다.
도 7a 내지 도 7c는 동 정보 검출 장치에서의 연속 구간 검출 처리를 나타낸 플로 차트이다.
본 발명은 이와 같은 종래의 실정을 감안하여 제안된 것이며, 음성 데이터 내의 음악이나 음성 등의 연속 구간을 검출할 때에, 장기적으로 보아 동일 종별로 보여져야 할 연속 구간을 정확하게 검출하는 정보 검출 장치 및 그 방법, 및 그와 같은 정보 검출 처리를 컴퓨터로 실행시키는 프로그램을 제공하는 것을 목적으로 한다.
전술한 목적을 달성하기 위해, 본 발명에 관한 정보 검출 장치 및 그 방법에서는, 정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하고, 분류 식별된 식별 정보를 식별 정보 축적 수단에 기록한다. 그리고, 상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하고, 이 식별 빈도를 사용하여 동일 종별의 연속 구간을 검출한다.
이 정보 검출 장치 및 그 방법에서는, 예를 들면, 임의의 종별의 상기 식별 빈도가 제1의 임계치 이상이 되고, 또한 상기 제1의 임계치 이상인 상태가 제1의 시간 이상 연속한 경우에 상기 종별의 개시를 검출하며, 상기 식별 빈도가 제2의 임계치 이하가 되고, 또한 상기 제2의 임계치 이하인 상태가 제2의 시간 이상 연속한 경우에 상기 종별의 종료를 검출한다.
여기서, 상기 식별 빈도로서는, 임의의 종별의 상기 시간 단위마다의 식별의 확실성을 상기 시간 구간에서 평균한 것, 또는 임의의 종별의 상기 시간 구간에 있어서의 식별 횟수를 사용할 수 있다.
또, 본 발명에 관한 프로그램은 전술한 정보 검출 처리를 컴퓨터로 실행시키는 것이다.
본 발명의 또 다른 목적, 본 발명에 의해 얻어지는 구체적인 이점은 이하에 설명되는 실시예의 설명으로부터 한층 분명해질 것이다.
이하, 본 발명을 적용한 구체적인 실시예에 대하여, 도면을 참조하면서 상세하게 설명한다. 이 실시예는 본 발명을 소정의 시간 단위마다 음성 데이터를 회화 음성이나 음악 등의 몇 개의 종별로 식별 분류하고, 동일 종별의 데이터가 연속하는 연속 구간의 개시 위치, 종료 위치 등의 구간 정보를 기억 장치 또는 기록 매체에 기록하는 정보 검출 장치에 적용한 것이다.
그리고, 음성 데이터를 몇 개의 종별로 분류 식별하는 수법은 종래부터 다수 연구되어 있지만, 본 발명에서는 식별하는 종별 및 그 식별 수법은 특정하지 않는다. 이하에서는 일례로서 음성 데이터를 음성 또는 음악으로 식별하고, 음성 연속 구간이나 음악 연속 구간을 검출하는 것으로서 설명하지만, 음성 구간이나 음악 구간만이 아니라, 환성 구간이나 무음 구간을 검출하도록 해도 상관없다. 또, 음악의 장르를 식별 분류하고, 각각의 연속 구간을 검출하도록 해도 상관없다.
먼저, 본 실시예에 있어서의 정보 검출 장치의 개략 구성을 도 1에 나타낸다. 도 1에 나타낸 바와 같이, 본 실시예에 있어서의 정보 검출 장치(1)는 소정 포맷의 음성 데이터를 소정의 시간 단위마다 블록 데이터 D10으로서 읽어들이는 음성 입력부(10)와, 소정의 시간 단위마다 블록 데이터 D10의 종별을 식별하여 식별 정보 D11을 생성하는 음성 종별 식별부(1l)와, 식별 정보 D11을 소정의 포맷으로 변환하고, 변환 후의 식별 정보 D12를 기억 장치 및 기록 매체(13)에 기록하는 식별 정보 출력부(12)와, 기억 장치 및 기록 매체(13)에 기록된 식별 정보 D13을 읽어들이는 식별 정보 입력부(14)와, 읽어들인 식별 정보 D14를 사용하여 각 종별(음성, 음악 등)의 식별 빈도 D15를 계산하는 식별 빈도 계산부(15)와, 식별 빈도 D15를 평가하여 동일 종별의 연속 구간의 개시 위치 및 종료 위치 등을 검출하고, 구간 정보 D16으로 하는 구간 개시 종료 판정부(16)와, 구간 정보 D16을 소정의 포맷으로 변환하고, 인덱스 정보 D17로서 기억 장치 및 기록 매체(18)에 기록하는 구간 정보 출력부(17)로 구성되어 있다.
여기서, 기억 장치 및 기록 매체(13, 18)로서는, 메모리나 자기 디스크 등의 기억 장치, 반도체 메모리(메모리 카드 등) 등의 기억 매체, 또는 CD-R0M 등의 기록 매체 등을 사용할 수 있다.
이상과 같은 구성을 가지는 정보 검출 장치(1)에 있어서, 음성 입력부(10)는 음성 데이터를 소정의 시간 단위마다의 블록 데이터 D10으로서 판독하고, 그 블록 데이터 D10을 음성 종별 식별부(1l)에 공급한다.
음성 종별 식별부(11)는 음성의 특징량을 분석하는 것으로 소정의 시간 단위마다 블록 데이터 D10의 종별을 식별 분류하고, 식별 정보 D11을 식별 정보 출력부(12)에 공급한다. 여기서는 일례로서, 블록 데이터 D10을 음성 또는 음악으로 식별 분류하는 것으로 한다. 그리고, 식별하는 시간 단위는 1초 내지 수 초 정도가 바람직하다.
식별 정보 출력부(12)는 음성 종별 식별부(11)로부터 공급된 식별 정보 D11을 소정의 포맷으로 변환하고, 변환 후의 식별 정보 D12를 기억 장치 및 기록 매체(13)에 기록한다. 여기서, 식별 정보 D12의 기록 포맷의 일례를 도 2에 나타낸다. 도 2의 포맷 예에서는, 음성 데이터 중에 있어서의 위치를 나타낸 「시각」과, 그 시각 위치에 있어서의 종별을 나타낸 「종별 코드」와, 그 식별의 확실성을 나타낸 「확실성」이 기록되어 있다. 「확실성」이란, 그 식별 결과의 확실함을 나타내는 값이며, 예를 들면 사후 확률 최대화법 등의 식별 수법으로 얻어지는 가능성(likelihood)이나, 벡터 양자화의 수법에 따라 얻어지는 벡터 양자화 왜곡의 역수 등을 사용할 수 있다.
식별 정보 입력부(14)는 기억 장치 및 기록 매체(13)에 기록된 식별 정보 D13을 판독하고, 읽어들인 식별 정보 D14를 식별 빈도 계산부(15)에 공급한다. 그리고, 읽어들이는 타이밍으로서는, 식별 정보 출력부(12)가 기억 장치 및 기록 매체(13)에 식별 정보 D12를 기록할 때에 리얼 타임으로 읽어들여도 되고, 식별 정보 D12의 기록이 종료한 후에 읽어들여도 된다.
식별 빈도 계산부(15)는 식별 정보 입력부(14)로부터 공급된 식별 정보 D14를 사용하여, 소정의 시간 단위마다 소정의 시간 구간에 있어서의 종별마다의 식별 빈도를 계산하고, 식별 빈도 정보 D15를 구간 개시 종료 판정부(16)에 공급한다. 식별 빈도를 계산하는 시간 구간의 일례를 도 3에 나타낸다. 이 도 3은 음성 데이터가 음악(M)인가 음성(S)인가를 수초마다 식별하고, 시각 t0에 있어서의 음성의 식별 빈도 Ps(t0) 및 음악의 식별 빈도 Pm(t0)를, 도면 중 Len으로 표현되는 시간 구간에 있어서의 음성(S)과 음악(M)의 식별 정보(식별 횟수 및 그 확실성)로부터 구하는 예를 나타낸 것이다. 그리고, 시간 구간 Len의 길이는 예를 들면 수 초 내지 수십 초 정도가 바람직하다.
여기서, 종별마다의 식별 빈도를 계산하는 구체예를 설명한다. 식별 빈도는 예를 들면 그 종별로 식별된 시각에 있어서의 확실성을 소정의 시간 구간에서 평균함으로써 구할 수 있다. 예를 들면, 시각 t에 있어서의 음성의 식별 빈도 Ps(t)는 이하의 식 (l)과 같이 구해진다. 여기서, 식 (1)에 있어서, p(t-k)는 시각 (t-k)에 있어서의 식별의 확실성을 나타낸다.
또, 식 (1)에 있어서 확실성이 모두 1인 것으로 가정하면, 이하의 식 (2)와 같이, 단순하게 식별 횟수만을 사용하여 식별 빈도 Ps(t)를 계산할 수 있다.
음악이나 그 외의 종별에 대하여도, 모두 마찬가지로 하여 식별 빈도를 계산할 수 있다.
구간 개시 종료 판정부(16)는 식별 빈도 계산부(15)로부터 공급된 식별 빈도 정보 D15를 사용하여, 동일 종별의 연속 구간의 개시 위치 및 종료 위치 등을 검출하고, 구간 정보 D16으로서 구간 정보 출력부(17)에 공급한다.
구간 정보 출력부(17)는 구간 개시 종료 판정부(16)로부터 공급된 구간 정보 D16을 소정의 포맷으로 변환하고, 인덱스 정보 D17로서 기억 장치 및 기록 매체(18)에 기록한다. 여기서, 인덱스 정보 D17의 기록 포맷의 일례를 도 4에 나타낸다. 도 4의 포맷 예에서는, 연속 구간의 번호 또는 식별자를 나타내는 「구간 번호」와, 연속 구간의 종별을 나타내는 「종별 코드」와, 그 연속 구간의 개시 시각, 종료시각을 나타내는 「개시 위치」, 「종료 위치」가 기록되어 있다.
여기서, 연속 구간의 개시 위치 및 종료 위치의 검출 방법에 대하여, 도 5, 도 6을 사용하여 또한 상세하게 설명한다.
도 5는 음악의 식별 빈도를 임계치와 비교하여 음악 연속 구간의 개시를 검출하는 모양을 설명한 도면이다. 도면의 상부에 각 시각에 있어서의 식별 종별을 M(음악), S(음성)로 적어 있다. 세로축은 시각 t에 있어서의 음악의 식별 빈도 Pm(t)이다. 그리고, 식별 빈도 Pm(t)는 도 3에서 설명한 바와 같은 시간 구간 Len에 있어서 계산하고, 도 5에서는 Len=5로 한다. 또, 개시 판정을 위한 식별 빈도 Pm(t)의 임계치 P0를 3/5로 하고, 식별 횟수의 임계치 H0를 6으로 한다.
소정의 시간 단위마다 식별 빈도 Pm(t)를 계산해 가면, 도면 중의 A점에 있어서 시간 구간 Len에 있어서의 식별 빈도 Pm(t)가 3/5로 되고, 처음으로 임계치 P0 이상으로 된다. 그 후에도 연속하여 식별 빈도 Pm(t)는 임계치 PO 이상으로 유지되어 있고, 연속 H0회(초)만큼 임계치 P0 이상 상태가 유지된 도면 중 B점에 있어서 처음으로 음악의 개시를 검출한다.
음악의 실제의 개시 위치는, 도 5로부터도 알 수 있듯이, 식별 빈도 Pm(t)가 처음으로 임계치 P0 이상이 된 A점보다도 조금 앞이다. 식별 빈도 Pm(t)가 임계치 P0 이상으로 될 때까지 연속 증가한 것으로 가정하면, 도면 중 X점이 개시 위치로 추측할 수 있다. 즉, 식별 빈도 Pm(t)의 임계치 P0를 P0=J/Len으로 하면, 처음으로 임계치 P0 이상이 된 A점으로부터 J만큼 돌아온 X점을 추정 개시 위치로 하여 검출한다. 도 5의 예에서는 J=3이므로, A점보다도 3만큼 돌아온 위치를 음악 개시 위치로 하여 검출한다.
도 6은 음악의 식별 빈도를 임계치와 비교하여 음악 연속 구간의 종료를 검출하는 모양을 설명한 도이다. 도 5와 마찬가지로, M은 음악으로 식별된 것을 나타내고, S는 음성으로 식별된 것을 나타낸다. 또, 세로축은 시각 t에 있어서의 음악의 식별 빈도 Pm(t)이다. 또한, 식별 빈도는 도 3으로 설명한 바와 같은 시간 구간 Len에 있어서 계산하고, 도 6에서는 Len=5로 한다. 또, 종료 판정을 위한 식별 빈도 Pm(t)의 임계치 P1을 2/5로 하고, 식별 횟수의 임계치 H1을 6으로 한다. 그리고, 종료 검출의 임계치 P1은 개시 검출의 임계치 PO와 같아도 된다.
소정의 시간 단위마다 식별 빈도를 계산해 가면, 도면 중의 C점에 있어서 시간 구간 Len에 있어서의 식별파도 Pm(t)가 2/5가 되어, 처음으로 임계치 P1 이하로 된다. 그 후에도 연속하여 식별 빈도 Pm(t)는 임계치 P1 이하로 유지되어 있고, 연속 H1회(초)만큼 임계치 P1 이하 상태가 유지된 도면 중 D점에 있어서 처음으로 음악의 종료를 검출한다.
음악의 실제의 종료 위치는, 도 6으로부터도 알 수 있듯이, 식별 빈도 Pm(t)가 시작해서 임계치 P1 이하가 된 C점보다도 조금 앞이다. 식별 빈도 Pm(t)가 임계치 P1 이하로 될 때까지 연속 감소하는 것으로 가정하면, 도면 중 Y점이 종료 위치로 추측할 수 있다. 즉, 식별 빈도 Pm(t)의 임계치 P1을 P1=K/Len으로 하면, 처음으로 임계치 P1 이하가 된 C점으로부터 Len-K만큼 돌아온 Y점을 추정 종료 위치로 하여 검출한다. 도 6의 예에서는 K=2이므로, C점보다 3만큼 돌아온 위치를 음악 종료 위치로 하여 검출한다.
이상 나타낸 연속 구간 검출 처리를 도 7a 내지 도 7c의 플로 차트에 나타낸다. 먼저 스텝 S1에 있어서 초기 처리를 행한다. 구체적으로는, 현재 시각 t를 O으로 하고, 어느 종별의 연속 구간 중에 있는 것을 나타내는 구간 중 플래그를 FALSE, 즉 연속 구간 중에서는 없는 것으로 한다. 또, 식별 빈도 P(t)가 임계치 이상 또는 임계치 이하 상태로 유지된 횟수를 세는 카운터의 값을 0으로 한다.
다음에 스텝 S2에 있어서, 시각 t에 있어서의 종별을 식별한다. 그리고, 이미 식별하고 있는 경우에는, 시각 t에 있어서의 식별 정보를 읽어들인다.
이어서 스텝 S3에 있어서, 식별하고, 또는 읽어들인 결과로부터 데이터 말미에 도달했는지 아닌지를 판별하고, 데이터 말미에 도달한 경우(Yes)에는 처리를 종료한다. 한편, 데이터 말미가 아닌 경우(No)에는 스텝 S4로 진행된다.
스텝 S4에서는, 연속 구간을 검출한 종별(예를 들면 음악)의 시각 t에 있어서의 식별 빈도 P(t)를 계산한다.
스텝 S5에서는, 구간 중 플래그가 TRUE, 즉 연속 구간 중에서 있는지 여부를 판별하고, TRUE인 경우(Yes)에는 스텝 S13으로 진행하고, 그렇지 않은 경우(No), 즉 FALSE인 경우에는 스텝 S6으로 진행된다.
이하의 스텝 S6내지 스텝 S12에서는, 연속 구간의 개시 검출 처리를 한다. 먼저 스텝 S6에 있어서, 식별 빈도 P(t)가 개시 검출의 임계치 P0 이상인지 여부를 판별한다. 여기서, 식별 빈도 P(t)가 임계치 PO 미만인 경우(No)에는 스텝 S20으로 카운터의 값을 0에 리셋하고, 스텝 S21에서 시각 t를1 증가시켜 스텝 S2로 돌아온다. 한편, 식별 빈도 P(t)가 임계치 P0 미만인 경우(Yes)에는 스텝 S7로 진행된다.
다음에 스텝 S7에 있어서, 카운터의 값이 0인지 여부를 판별하고, 0인 경우(Yes)에는 스텝 S8에서 개시 후보 시각으로서 X를 기억하고, 스텝 S9로 진행되어 카운터의 값을1 증가시킨다. 여기서, X는 예를 들면 도 5에서 설명한 바와 같은 위치이다. 한편, 카운터의 값이 0이 아닌 경우(No)에는 스텝 S9로 진행하고, 카운터의 값을 1 늘린다.
이어서 스텝 S10에 있어서, 카운터의 값이 임계치 H0에 도달했는지 아닌지를 판별하고, 임계치 H0에 도달하지 않은 경우(No)에는 스텝 S21로 진행하고, 시각 t를 1 증가시켜 스텝 S2로 돌아온다. 한편, 임계치 H0에 이르렀을 경우(Yes)에는 스텝 S11로 진행된다.
스텝 S11에서는, 기억하고 있는 개시 후보 시각 X를 개시 시각으로서 확정하고, 스텝 S12에서 카운터의 값을 0에 리셋하는 동시에 구간 중 플래그를 TRUE로 바꾸고, 스텝 S21에서 시각 t를 1 증가시켜 스텝 S2로 돌아온다.
이상, 연속 구간의 개시를 검출할 때까지, 즉 스텝 S5에서 구간 중 플래그가 TRUE로 판별될 때까지, 상기의 처리를 반복한다.
연속 구간의 개시가 검출되면, 이하의 스텝 S13 내지 스텝 S19에서는, 연속 구간의 종료 검출 처리를 한다. 먼저 스텝 S13에 있어서, 식별 빈도 P(t)가 종료 검출의 임계치 P1 이하인지 여부를 판별한다. 여기서, 식별 빈도 P(t)가 임계치 P1보다도 큰 경우(No)에는 스텝 S20에서 카운터의 값을 0에 리셋하고, 스텝 S21에서 시각 t를 1 증가시켜 스텝 S2로 돌아온다. 한편, 식별 빈도 P(t)가 임계치 P1 이하인 경우(Yes)에는 스텝 S14로 진행된다.
다음에 스텝 S14에 있어서, 카운터의 값이 O인지 여부를 판별하고, O인 경우(Yes)에는 스텝 S15에서 종료 후보 시각으로서 Y를 기억하고, 스텝 S16으로 진행되어 카운터의 값을1 증가시킨다. 여기서, Y는 예를 들면 도 6에서 설명한 바와 같은 위치이다. 한편, 카운터의 값이 0이 아닌 경우(No)에는 스텝 S16으로 진행하고, 카운트의 값을 1 증가시킨다.
이어서 스텝 S17에 있어서 카운터의 값이 임계치 H1에 도달했는지 여부를 판별하고, 임계치 H1에 도달하지 않은 경우(No)에는 스텝 S21로 진행하고, 시각 t를 1 증가시켜 스텝 S2로 돌아온다. 한편, 임계치 H1에 이르렀을 경우(Yes)에는 스텝 S18로 진행된다.
스텝 S18에서는, 기억하고 있는 종료 후보 시각 Y를 종료 시각으로서 확정하고, 스텝 S19에서 카운터의 값을 0에 리셋하는 동시에 구간 중 플래그를 FALSE로 바꾸고, 스텝 S21에서 시각 t를 1 증가시켜 스텝 S2로 돌아온다.
이상, 연속 구간의 종료를 검출할 때까지, 즉 스텝 S5에서 구간 중 플래그가 FALSE로 판별될 때까지, 상기의 처리를 반복한다.
이상과 같이, 본 실시예에 있어서의 정보 검출 장치(1)에 의하면, 정보원에 있어서의 음성 신호를 소정의 시간 단위마다 각 종별(카테고리)로 식별하고, 그 종별의 식별 빈도를 평가하여 동일 종별의 연속 구간을 검출할 때에, 어느 종별의 식별 빈도가 처음으로 소정의 임계치 이상이 되고, 또한 그 임계치 이상인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 개시를 검출하고, 식별 빈도가 처음으로 소정의 임계치 이하가 되고, 또한 그 임계치 이하인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 종료를 검출함으로써, 연속 구간 중에 잡음 등의 일시적인 음의 혼입이 있거나, 또는 식별 오류가 다소 있는 경우라도, 연속 구간의 개시 위치 및 종료 위치를 정확하게 검출할 수 있다.
그리고, 본 발명은 도면을 참조하여 설명한 전술한 실시예에 한정되지 않고, 첨부의 청구의 범위 및 그 주지를 일탈하지 않고, 여러 가지 변경, 치환 또는 그 동등의 것을 행할 수 있는 것은 당업자에게 있어 분명하다.
예를 들면, 전술한 실시예에서는 하드웨어의 구성으로서 설명했지만, 이에 한정되지 않고, 임의의 처리를, CPU(Central Processing Unit)에 컴퓨터 프로그램을 실행시킴으로써 실현될 수도 있다. 이 경우, 컴퓨터 프로그램은 기억 매체 및 기록 매체에 기록하여 제공하는 것도 가능하며, 또, 인터넷 외의 전송 매체를 통하여 전송함으로써 제공하는 것도 가능하다.
전술한 본 발명에 의하면, 정보원에 포함되는 음성 신호를 소정의 시간 단위마다 음악이나 음성 등의 종별(카테고리)로 식별 분류하고, 그 종별의 식별 빈도를 평가하여 동일 종별의 연속 구간을 검출할 때에, 연속 구간 중에 잡음 등의 일시적인 음의 혼입이 있고, 또는 식별 오류가 다소 있는 경우라도, 연속 구간의 개시 위치 및 종료 위치를 정확하게 검출할 수 있다.

Claims (15)

  1. 정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하는 음성 종별 식별 수단과,
    상기 음성 종별 식별 수단에 의해 분류 식별된 식별 정보를 기록하는 식별 정보 축적 수단과,
    상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하는 식별 빈도 계산 수단과,
    상기 식별 빈도를 사용하여, 동일 종별의 연속 구간을 검출하는 연속 구간 검출 수단
    을 구비하는 것을 특징으로 하는 정보 검출 장치.
  2. 제1항에 있어서,
    상기 연속 구간 검출 수단에 의해 검출된 상기 연속 구간의 구간 정보를 인덱스로서 축적하는 구간 정보 축적 수단을 더 포함하는 것을 특징으로 하는 정보 검출 장치.
  3. 제1항에 있어서,
    상기 연속 구간 검출 수단은 임의의 종별의 상기 식별 빈도가 제1의 임계치 이상이 되고, 또한 상기 제1의 임계치 이상인 상태가 제1의 시간 이상 연속한 경우에 상기 종별의 개시를 검출하며, 상기 식별 빈도가 제2의 임계치 이하가 되고, 또한 상기 제2의 임계치 이하인 상태가 제2의 시간 이상 연속한 경우에 상기 종별의 종료를 검출하는 것을 특징으로 하는 정보 검출 장치.
  4. 제1항에 있어서,
    상기 음성 종별 식별 수단은 상기 시간 단위마다 상기 음성 신호의 종별을 분류 식별하는 동시에 그 식별이 확실한지를 구하는 것을 특징으로 하는 정보 검출 장치.
  5. 제4항에 있어서,
    상기 식별 빈도는 임의의 종별의 상기 시간 단위마다의 식별의 확실성을 상기 시간 구간에서 평균한 것인 것을 특징으로 하는 정보 검출 장치.
  6. 제1항에 있어서,
    상기 식별 빈도는 임의의 종별의 상기 시간 구간에 있어서의 식별 횟수인 것을 특징으로 하는 정보 검출 장치.
  7. 제4항에 있어서,
    상기 식별 정보 축적 수단은 상기 시간 단위마다의 상기 음성 신호의 종별과 상기 식별의 확실성을, 상기 식별 정보로서 기록하는 것을 특징으로 하는 정보 검출 장치.
  8. 정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하는 음성 종별 식별 공정과,
    상기 음성 종별 식별 공정에서 분류 식별된 식별 정보를 식별 정보 축적 수단에 기록하는 기록 공정과,
    상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다, 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하는 식별 빈도 계산 공정과,
    상기 식별 빈도를 사용하여, 동일 종별의 연속 구간을 검출하는 연속 구간 검출 공정
    을 포함하는 것을 특징으로 하는 정보 검출 방법.
  9. 제8항에 있어서,
    상기 연속 구간 검출 공정에서 검출된 상기 연속 구간의 구간 정보를 인덱스로서 구간 정보 축적 수단에 축적하는 축적 공정을 더 포함하는 것을 특징으로 하는 정보 검출 방법.
  10. 제8항에 있어서,
    상기 연속 구간 검출 공정에서는, 임의의 종별의 상기 식별 빈도가 제1의 임계치 이상이 되고, 또한 상기 제1의 임계치 이상인 상태가 제1의 시간 이상 연속한 경우에 상기 종별의 개시가 검출되며, 상기 식별 빈도가 제2의 임계치 이하가 되고, 또한 상기 제2의 임계치 이하인 상태가 제2의 시간 이상 연속한 경우에 상기 종별의 종료가 검출되는 것을 특징으로 하는 정보 검출 방법.
  11. 제8항에 있어서,
    상기 음성 종별 식별 공정에서는, 상기 시간 단위마다 상기 음성 신호의 종별이 분류 식별되는 동시에, 그 식별이 확실한 지가 구해지는 것을 특징으로 하는 정보 검출 방법.
  12. 제11항에 있어서,
    상기 식별 빈도는 임의의 종별의 상기 시간 단위마다의 식별의 확실성을 상기 시간 구간에서 평균한 것인 것을 특징으로 하는 정보 검출 방법.
  13. 제8항에 있어서,
    상기 식별 빈도는 임의의 종별의 상기 시간 구간에 있어서의 식별 횟수인 것을 특징으로 하는 정보 검출 방법.
  14. 제11항에 있어서,
    상기 기록 공정에서는, 상기 시간 단위마다의 상기 음성 신호의 종별과 상기 식별이 확실한 지가, 상기 식별 정보로서 상기 식별 정보 축적 수단에 기록되는 것을 특징으로 하는 정보 검출 방법.
  15. 소정의 처리를 컴퓨터에 실행시키는 프로그램에 있어서,
    정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하는 음성 종별 식별 공정과,
    상기 음성 종별 식별 공정에서 분류 식별된 식별 정보를 식별 정보 축적 수단에 기록하는 기록 공정과,
    상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다, 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하는 식별 빈도 계산 공정과,
    상기 식별 빈도를 사용하여, 동일 종별의 연속 구간을 검출하는 연속 구간 검출 공정
    을 포함하는 것을 특징으로 하는 프로그램.
KR1020047017765A 2003-03-06 2004-02-10 정보 검출 장치 및 정보 검출 방법 KR101022342B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003060382A JP4348970B2 (ja) 2003-03-06 2003-03-06 情報検出装置及び方法、並びにプログラム
JPJP-P-2003-00060382 2003-03-06

Publications (2)

Publication Number Publication Date
KR20050109403A true KR20050109403A (ko) 2005-11-21
KR101022342B1 KR101022342B1 (ko) 2011-03-22

Family

ID=32958879

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047017765A KR101022342B1 (ko) 2003-03-06 2004-02-10 정보 검출 장치 및 정보 검출 방법

Country Status (7)

Country Link
US (1) US8195451B2 (ko)
EP (1) EP1600943B1 (ko)
JP (1) JP4348970B2 (ko)
KR (1) KR101022342B1 (ko)
CN (1) CN100530354C (ko)
DE (1) DE602004023180D1 (ko)
WO (1) WO2004079718A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101281661B1 (ko) * 2008-07-11 2013-07-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
KR20220050530A (ko) * 2020-10-16 2022-04-25 주식회사 엘지유플러스 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3913772B2 (ja) * 2005-08-24 2007-05-09 松下電器産業株式会社 音識別装置
ES2354702T3 (es) * 2005-09-07 2011-03-17 Biloop Tecnologic, S.L. Método para el reconocimiento de una señal de sonido implementado mediante microcontrolador.
US8417518B2 (en) 2007-02-27 2013-04-09 Nec Corporation Voice recognition system, method, and program
JP4572218B2 (ja) * 2007-06-27 2010-11-04 日本電信電話株式会社 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2009192725A (ja) * 2008-02-13 2009-08-27 Sanyo Electric Co Ltd 楽曲記録装置
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US8712771B2 (en) * 2009-07-02 2014-04-29 Alon Konchitsky Automated difference recognition between speaking sounds and music
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
DE112009005215T8 (de) * 2009-08-04 2013-01-03 Nokia Corp. Verfahren und Vorrichtung zur Audiosignalklassifizierung
US20110040981A1 (en) * 2009-08-14 2011-02-17 Apple Inc. Synchronization of Buffered Audio Data With Live Broadcast
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044244B (zh) 2009-10-15 2011-11-16 华为技术有限公司 信号分类方法和装置
JP4837123B1 (ja) * 2010-07-28 2011-12-14 株式会社東芝 音質制御装置及び音質制御方法
US9293131B2 (en) * 2010-08-10 2016-03-22 Nec Corporation Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN103092854B (zh) * 2011-10-31 2017-02-08 深圳光启高等理工研究院 一种音乐数据分类方法
US20130317821A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Sparse signal detection with mismatched models
JP6171708B2 (ja) * 2013-08-08 2017-08-02 富士通株式会社 仮想マシン管理方法、仮想マシン管理プログラム及び仮想マシン管理装置
US9817379B2 (en) * 2014-07-03 2017-11-14 David Krinkel Musical energy use display

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3102385A1 (de) 1981-01-24 1982-09-02 Blaupunkt-Werke Gmbh, 3200 Hildesheim Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
JP2551050B2 (ja) * 1987-11-13 1996-11-06 ソニー株式会社 有音無音判定回路
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
EP0517233B1 (en) * 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
JP2910417B2 (ja) 1992-06-17 1999-06-23 松下電器産業株式会社 音声音楽判別装置
JPH06332492A (ja) 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
BE1007355A3 (nl) * 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
JPH08335091A (ja) 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3475317B2 (ja) * 1996-12-20 2003-12-08 日本電信電話株式会社 映像分類方法および装置
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101281661B1 (ko) * 2008-07-11 2013-07-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
KR101380297B1 (ko) * 2008-07-11 2014-04-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상이한 신호 세그먼트를 분류하기 위한 판별기와 방법
KR20220050530A (ko) * 2020-10-16 2022-04-25 주식회사 엘지유플러스 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치

Also Published As

Publication number Publication date
CN1698095A (zh) 2005-11-16
EP1600943B1 (en) 2009-09-16
EP1600943A4 (en) 2006-12-06
CN100530354C (zh) 2009-08-19
US8195451B2 (en) 2012-06-05
KR101022342B1 (ko) 2011-03-22
JP2004271736A (ja) 2004-09-30
US20050177362A1 (en) 2005-08-11
WO2004079718A1 (ja) 2004-09-16
JP4348970B2 (ja) 2009-10-21
EP1600943A1 (en) 2005-11-30
DE602004023180D1 (de) 2009-10-29

Similar Documents

Publication Publication Date Title
KR101022342B1 (ko) 정보 검출 장치 및 정보 검출 방법
JP4442081B2 (ja) 音声抄録選択方法
EP2560167B1 (en) Method and apparatus for performing song detection in audio signal
US7080008B2 (en) Audio segmentation and classification using threshold values
US7454329B2 (en) Method and apparatus for classifying signals, method and apparatus for generating descriptors and method and apparatus for retrieving signals
US7619155B2 (en) Method and apparatus for determining musical notes from sounds
JP4425126B2 (ja) ロバストかつインバリアントな音声パターンマッチング
US20090006102A1 (en) Effective Audio Segmentation and Classification
US20030101050A1 (en) Real-time speech and music classifier
JP3913772B2 (ja) 音識別装置
KR20030070179A (ko) 오디오 스트림 구분화 방법
US20060015333A1 (en) Low-complexity music detection algorithm and system
JP2009008836A (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
Wu et al. Multiple change-point audio segmentation and classification using an MDL-based Gaussian model
JP4099576B2 (ja) 情報識別装置及び方法、並びにプログラム及び記録媒体
JPH10187182A (ja) 映像分類方法および装置
Penttilä et al. A speech/music discriminator-based audio browser with a degree of certainty measure
AU2005252714B2 (en) Effective audio segmentation and classification
De Santo et al. A neural multi-expert classification system for MPEG audio segmentation
Xu et al. Support vector machine learning for music discrimination

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee