KR20050109403A

KR20050109403A - 정보 검출 장치 및 방법, 및 프로그램

Info

Publication number: KR20050109403A
Application number: KR1020047017765A
Authority: KR
Inventors: 야스히로 도구리
Original assignee: 소니 가부시끼 가이샤
Priority date: 2003-03-06
Filing date: 2004-02-10
Publication date: 2005-11-21
Also published as: CN1698095A; EP1600943B1; EP1600943A4; CN100530354C; US8195451B2; KR101022342B1; JP2004271736A; US20050177362A1; WO2004079718A1; JP4348970B2; EP1600943A1; DE602004023180D1

Abstract

정보 검출 장치(1)에 있어서, 음성 종별 식별부(11)는 정보원에 있어서의 음성 신호를 소정의 시간 단위마다 음악이나 음성 등의 종별(카테고리)로 식별 분류하고, 기억 장치 및 기록 매체(13)는 그 식별 정보를 기록한다. 식별 빈도 계산부(15)는 소정의 시간 단위마다, 상기 시간 단위보다도 긴 소정의 시간 구간에 있어서 종별마다의 식별 빈도를 계산하고, 구간 개시 종료 판정부(16)는 종별의 식별 빈도가 처음으로 소정의 임계치 이상으로 되고, 또한 그 임계치 이상인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 개시를 검출하며, 식별 빈도가 처음으로 소정의 임계치 이하로 되고, 또한 그 임계치 이하인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 종료를 검출한다.

Description

정보 검출 장치 및 방법, 및 프로그램 {INFORMATION DETECTION DEVICE, METHOD, AND PROGRAM}

본 발명은 음성, 음악, 음악을 포함하는 음성 신호, 또는 그 음성 신호를 포함하는 정보원으로부터 특징량을 추출함으로써, 음성이나 음악 등의 동일 종별의 연속 구간을 검출하는 정보 검출 장치 및 그 방법, 및 프로그램에 관한 것이다.

본 출원은 일본국에서 2003년 3월 6일에 출원된 일본 특허 출원 번호 2003-060382를 기초로 하여 우선권을 주장하는 것이며, 이 출원은 참조함으로써, 본 출원에 원용된다.

방송 시스템이나 멀티미디어 시스템 등에 있어서, 영상이나 음성의 대량의 컨텐츠를 효율적으로 관리, 분류하고, 용이하게 검색 가능하게 하는 것은 중요하지만, 이것에는 컨텐츠 중 어느 부분이 어떠한 정보를 가지고 있는지를 아는 것이 불가결하다.

여기서, 많은 멀티미디어 컨텐츠, 방송 컨텐츠는 영상 신호와 함께 음성 신호를 포함하고, 이것은 컨텐츠의 분류나 장면의 검출에 있어서, 매우 유용한 정보이다. 특히, 정보에 포함되는 음성 신호의 음성 부분과 음악 부분을 식별하여 검출함으로써, 효율적인 정보 검색이나 정보 관리를 실시할 수 있다.

그런데, 음성과 음악을 식별하기 위한 기술은 종래부터 많이 연구되어 있고, 영교차수, 파워의 변동, 스펙트럼의 변동 등을 특징량으로서 사용하여 식별하는 수법이 제안되어 있다.

예를 들면, 문헌 「J. 사운더스(J. Saunders),『방송된 음성/음악의 리얼 타임 식별(Real-time discrimination of broadcast speech/music)』(미국), 전기전자 기술자 학회보, 음향, 음성, 신호 처리에 관한 국제회의(Proc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing, 1996년, p.993-996」에서는, 영교차수를 사용하여 음성 및 음악의 식별을 행하고 있다.

또한, 문헌 「E. 세이어(E. Scheire) 및 M. 슬래니(M. Slaney), 『강력한 다특성 음성/음악 식별기의 제작 및 평가(Construction and evaluation of a robust multifeature speech/music discriminator)』, (미국), 전기전자 기술자 학회보, 음악, 음성, 신호 처리에 관한 국제회의(Proc. IEEE Int. Conf. on Acoustics, Speech of Signal Processing, 1997년, p. 1331-1334」에서는, 4Hz 변조 에너지, 저에너지 프레임 비율, 스펙트럼 롤 오프점, 스펙트럼 센트로이드, 스펙트럼 변동(Flux), 영교차율 등을 포함하고 13개의 특징량을 사용하여 음성, 음악을 식별하고, 각각의 성능을 비교 평가하고 있다.

또한, 문헌 「M. J. 케어(M. J. Care), E. S. 패리스(E. S. Parris) 및 H. 로이드 토마스(H. Lloyd-Thomas), 『음성, 음악을 식별하기 위한 특징 비교(A comparison of features for speech, music discrimination)』, (미국), 전기전자 기술자 학회보, 음악, 음성, 신호 처리에 관한 국제회의(Proc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing, 1999년 3월, p.149-152」에서는, 케프스트럼 계수, 델타 케프스트럼 계수, 진폭, 델타 진폭, 피치, 델타 피치, 영교차수, 델타 제로교차수를 특징량으로 하고, 각각의 특징량에 혼합 정규 분포 모델을 사용함으로써, 음성 및 음악을 식별하고 있다.

이 외, 음악의 스펙트럼 피크가 특정 주파수에 안정된 채로 시간 방향으로 지속한다고 하는 특징에 근거한 검출 수법도 연구되어 있다. 여기서, 스펙트럼 피크의 안정성은, 스펙트로그램에 있어서의 시간 방향의 직선 성분의 유무로서도 표현된다. 스펙트로그램이란, 세로축을 주파수, 가로축을 시간으로 하고, 스펙트럼을 시간 방향으로 배열하여 화상 정보로서 표현한 것이다. 이 특징을 사용한 발명으로서는, 예를 들면 문헌 「미나미, 아쿠츠, 하마다 및 도노무라, 『음성정보를 사용한 영상 인덱싱과 그 응용』, 전자정보통신학회 논문지 D-II, l998년, 제J81-D-II권, 제3호, p.529-537」 및 일본 공개 특허 공보 평10-187182호를 들 수 있다.

이와 같은 소정의 시간마다 음성이나 음악 등의 종별을 식별 분류하는 기술을 응용함으로써, 음성 데이터 중에 있어서 동일 종별의 연속 구간의 개시 및 종료 위치를 검출할 수 있다.

그러나, 전술한 음성이나 음악 등의 종별을 식별 분류하는 기술을 직접 이용하여 동일 종별의 연속 구간을 검출하는데는 다음과 같은 문제가 있다.

예를 들면 음악(악곡)은 많은 악기, 가창 음성, 효과음, 타악기에 의한 리듬 등으로 구성되는 것이 많다. 따라서, 음성 데이터를 단시간마다 식별한 경우, 연속한 악곡 구간 중에 있어서도, 반드시 음악과 식별할 수 있는 부분뿐만 아니라 단기적으로 보면 음성으로 판정되어야 할 부분, 또는 다른 종별로 분류되어야 할 부분이 자주 포함된다. 회화 음성의 연속 구간을 검출하는 경우도 마찬가지이며, 연속한 회화 구간 중에 있어서도, 단기적으로 보면 무음 부분이나, 음악 등의 잡음이 일순간 들어가는 일도 자주 일어날 수 있다. 또, 분명한 음악이나 음성의 부분에 있어서도, 식별 오류에 의해 오류 종별로 식별되어 버릴 일도 있다. 음성, 음악 이외의 종별의 경우도 마찬가지이다.

따라서, 단시간마다의 음성, 음악 등의 종별 식별 결과를 직접 사용하여 연속 구간을 검출하는 방법에서는, 장기적으로 보면 연속 구간으로 보여져야 할 부분이 도중에 분단되거나 역으로 장기적으로는 연속 구간이라고 볼 수 없는 일시적인 잡음 부분을 연속 구간이라고 보아 버릴 문제가 발생한다.

한편, 이와 같은 문제를 피하기 위해 식별을 위한 분석 시간을 길게 취하면, 식별의 시간 분해능이 저하되고, 빈번하게 음악, 음성 등이 바뀌는 경우에 검출율이 저하한다는 문제가 발생한다.

도 1은 본 실시예에 있어서의 정보 검출 장치의 개략 구성을 나타낸 도면이다.

도 2는 식별 정보의 기록 포맷의 일례를 나타낸 도면이다.

도 3은 식별 빈도를 계산하는 시간 구간의 일례를 나타낸 도면이다.

도 4는 인덱스 정보의 기록 포맷의 일례를 나타낸 도면이다.

도 5는 음악 연속 구간의 개시를 검출하는 모습을 설명하기 위한 도면이다.

도 6은 음악 연속 구간의 종료를 검출하는 모습을 설명하기 위한 도이다.

도 7a 내지 도 7c는 동 정보 검출 장치에서의 연속 구간 검출 처리를 나타낸 플로 차트이다.

본 발명은 이와 같은 종래의 실정을 감안하여 제안된 것이며, 음성 데이터 내의 음악이나 음성 등의 연속 구간을 검출할 때에, 장기적으로 보아 동일 종별로 보여져야 할 연속 구간을 정확하게 검출하는 정보 검출 장치 및 그 방법, 및 그와 같은 정보 검출 처리를 컴퓨터로 실행시키는 프로그램을 제공하는 것을 목적으로 한다.

전술한 목적을 달성하기 위해, 본 발명에 관한 정보 검출 장치 및 그 방법에서는, 정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하고, 분류 식별된 식별 정보를 식별 정보 축적 수단에 기록한다. 그리고, 상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하고, 이 식별 빈도를 사용하여 동일 종별의 연속 구간을 검출한다.

이 정보 검출 장치 및 그 방법에서는, 예를 들면, 임의의 종별의 상기 식별 빈도가 제1의 임계치 이상이 되고, 또한 상기 제1의 임계치 이상인 상태가 제1의 시간 이상 연속한 경우에 상기 종별의 개시를 검출하며, 상기 식별 빈도가 제2의 임계치 이하가 되고, 또한 상기 제2의 임계치 이하인 상태가 제2의 시간 이상 연속한 경우에 상기 종별의 종료를 검출한다.

여기서, 상기 식별 빈도로서는, 임의의 종별의 상기 시간 단위마다의 식별의 확실성을 상기 시간 구간에서 평균한 것, 또는 임의의 종별의 상기 시간 구간에 있어서의 식별 횟수를 사용할 수 있다.

또, 본 발명에 관한 프로그램은 전술한 정보 검출 처리를 컴퓨터로 실행시키는 것이다.

본 발명의 또 다른 목적, 본 발명에 의해 얻어지는 구체적인 이점은 이하에 설명되는 실시예의 설명으로부터 한층 분명해질 것이다.

이하, 본 발명을 적용한 구체적인 실시예에 대하여, 도면을 참조하면서 상세하게 설명한다. 이 실시예는 본 발명을 소정의 시간 단위마다 음성 데이터를 회화 음성이나 음악 등의 몇 개의 종별로 식별 분류하고, 동일 종별의 데이터가 연속하는 연속 구간의 개시 위치, 종료 위치 등의 구간 정보를 기억 장치 또는 기록 매체에 기록하는 정보 검출 장치에 적용한 것이다.

그리고, 음성 데이터를 몇 개의 종별로 분류 식별하는 수법은 종래부터 다수 연구되어 있지만, 본 발명에서는 식별하는 종별 및 그 식별 수법은 특정하지 않는다. 이하에서는 일례로서 음성 데이터를 음성 또는 음악으로 식별하고, 음성 연속 구간이나 음악 연속 구간을 검출하는 것으로서 설명하지만, 음성 구간이나 음악 구간만이 아니라, 환성 구간이나 무음 구간을 검출하도록 해도 상관없다. 또, 음악의 장르를 식별 분류하고, 각각의 연속 구간을 검출하도록 해도 상관없다.

먼저, 본 실시예에 있어서의 정보 검출 장치의 개략 구성을 도 1에 나타낸다. 도 1에 나타낸 바와 같이, 본 실시예에 있어서의 정보 검출 장치(1)는 소정 포맷의 음성 데이터를 소정의 시간 단위마다 블록 데이터 D10으로서 읽어들이는 음성 입력부(10)와, 소정의 시간 단위마다 블록 데이터 D10의 종별을 식별하여 식별 정보 D11을 생성하는 음성 종별 식별부(1l)와, 식별 정보 D11을 소정의 포맷으로 변환하고, 변환 후의 식별 정보 D12를 기억 장치 및 기록 매체(13)에 기록하는 식별 정보 출력부(12)와, 기억 장치 및 기록 매체(13)에 기록된 식별 정보 D13을 읽어들이는 식별 정보 입력부(14)와, 읽어들인 식별 정보 D14를 사용하여 각 종별(음성, 음악 등)의 식별 빈도 D15를 계산하는 식별 빈도 계산부(15)와, 식별 빈도 D15를 평가하여 동일 종별의 연속 구간의 개시 위치 및 종료 위치 등을 검출하고, 구간 정보 D16으로 하는 구간 개시 종료 판정부(16)와, 구간 정보 D16을 소정의 포맷으로 변환하고, 인덱스 정보 D17로서 기억 장치 및 기록 매체(18)에 기록하는 구간 정보 출력부(17)로 구성되어 있다.

여기서, 기억 장치 및 기록 매체(13, 18)로서는, 메모리나 자기 디스크 등의 기억 장치, 반도체 메모리(메모리 카드 등) 등의 기억 매체, 또는 CD-R0M 등의 기록 매체 등을 사용할 수 있다.

이상과 같은 구성을 가지는 정보 검출 장치(1)에 있어서, 음성 입력부(10)는 음성 데이터를 소정의 시간 단위마다의 블록 데이터 D10으로서 판독하고, 그 블록 데이터 D10을 음성 종별 식별부(1l)에 공급한다.

음성 종별 식별부(11)는 음성의 특징량을 분석하는 것으로 소정의 시간 단위마다 블록 데이터 D10의 종별을 식별 분류하고, 식별 정보 D11을 식별 정보 출력부(12)에 공급한다. 여기서는 일례로서, 블록 데이터 D10을 음성 또는 음악으로 식별 분류하는 것으로 한다. 그리고, 식별하는 시간 단위는 1초 내지 수 초 정도가 바람직하다.

식별 정보 출력부(12)는 음성 종별 식별부(11)로부터 공급된 식별 정보 D11을 소정의 포맷으로 변환하고, 변환 후의 식별 정보 D12를 기억 장치 및 기록 매체(13)에 기록한다. 여기서, 식별 정보 D12의 기록 포맷의 일례를 도 2에 나타낸다. 도 2의 포맷 예에서는, 음성 데이터 중에 있어서의 위치를 나타낸 「시각」과, 그 시각 위치에 있어서의 종별을 나타낸 「종별 코드」와, 그 식별의 확실성을 나타낸 「확실성」이 기록되어 있다. 「확실성」이란, 그 식별 결과의 확실함을 나타내는 값이며, 예를 들면 사후 확률 최대화법 등의 식별 수법으로 얻어지는 가능성(likelihood)이나, 벡터 양자화의 수법에 따라 얻어지는 벡터 양자화 왜곡의 역수 등을 사용할 수 있다.

식별 정보 입력부(14)는 기억 장치 및 기록 매체(13)에 기록된 식별 정보 D13을 판독하고, 읽어들인 식별 정보 D14를 식별 빈도 계산부(15)에 공급한다. 그리고, 읽어들이는 타이밍으로서는, 식별 정보 출력부(12)가 기억 장치 및 기록 매체(13)에 식별 정보 D12를 기록할 때에 리얼 타임으로 읽어들여도 되고, 식별 정보 D12의 기록이 종료한 후에 읽어들여도 된다.

식별 빈도 계산부(15)는 식별 정보 입력부(14)로부터 공급된 식별 정보 D14를 사용하여, 소정의 시간 단위마다 소정의 시간 구간에 있어서의 종별마다의 식별 빈도를 계산하고, 식별 빈도 정보 D15를 구간 개시 종료 판정부(16)에 공급한다. 식별 빈도를 계산하는 시간 구간의 일례를 도 3에 나타낸다. 이 도 3은 음성 데이터가 음악(M)인가 음성(S)인가를 수초마다 식별하고, 시각 t0에 있어서의 음성의 식별 빈도 Ps(t0) 및 음악의 식별 빈도 Pm(t0)를, 도면 중 Len으로 표현되는 시간 구간에 있어서의 음성(S)과 음악(M)의 식별 정보(식별 횟수 및 그 확실성)로부터 구하는 예를 나타낸 것이다. 그리고, 시간 구간 Len의 길이는 예를 들면 수 초 내지 수십 초 정도가 바람직하다.

여기서, 종별마다의 식별 빈도를 계산하는 구체예를 설명한다. 식별 빈도는 예를 들면 그 종별로 식별된 시각에 있어서의 확실성을 소정의 시간 구간에서 평균함으로써 구할 수 있다. 예를 들면, 시각 t에 있어서의 음성의 식별 빈도 Ps(t)는 이하의 식 (l)과 같이 구해진다. 여기서, 식 (1)에 있어서, p(t-k)는 시각 (t-k)에 있어서의 식별의 확실성을 나타낸다.

또, 식 (1)에 있어서 확실성이 모두 1인 것으로 가정하면, 이하의 식 (2)와 같이, 단순하게 식별 횟수만을 사용하여 식별 빈도 Ps(t)를 계산할 수 있다.

음악이나 그 외의 종별에 대하여도, 모두 마찬가지로 하여 식별 빈도를 계산할 수 있다.

구간 개시 종료 판정부(16)는 식별 빈도 계산부(15)로부터 공급된 식별 빈도 정보 D15를 사용하여, 동일 종별의 연속 구간의 개시 위치 및 종료 위치 등을 검출하고, 구간 정보 D16으로서 구간 정보 출력부(17)에 공급한다.

구간 정보 출력부(17)는 구간 개시 종료 판정부(16)로부터 공급된 구간 정보 D16을 소정의 포맷으로 변환하고, 인덱스 정보 D17로서 기억 장치 및 기록 매체(18)에 기록한다. 여기서, 인덱스 정보 D17의 기록 포맷의 일례를 도 4에 나타낸다. 도 4의 포맷 예에서는, 연속 구간의 번호 또는 식별자를 나타내는 「구간 번호」와, 연속 구간의 종별을 나타내는 「종별 코드」와, 그 연속 구간의 개시 시각, 종료시각을 나타내는 「개시 위치」, 「종료 위치」가 기록되어 있다.

여기서, 연속 구간의 개시 위치 및 종료 위치의 검출 방법에 대하여, 도 5, 도 6을 사용하여 또한 상세하게 설명한다.

도 5는 음악의 식별 빈도를 임계치와 비교하여 음악 연속 구간의 개시를 검출하는 모양을 설명한 도면이다. 도면의 상부에 각 시각에 있어서의 식별 종별을 M(음악), S(음성)로 적어 있다. 세로축은 시각 t에 있어서의 음악의 식별 빈도 Pm(t)이다. 그리고, 식별 빈도 Pm(t)는 도 3에서 설명한 바와 같은 시간 구간 Len에 있어서 계산하고, 도 5에서는 Len=5로 한다. 또, 개시 판정을 위한 식별 빈도 Pm(t)의 임계치 P0를 3/5로 하고, 식별 횟수의 임계치 H0를 6으로 한다.

소정의 시간 단위마다 식별 빈도 Pm(t)를 계산해 가면, 도면 중의 A점에 있어서 시간 구간 Len에 있어서의 식별 빈도 Pm(t)가 3/5로 되고, 처음으로 임계치 P0 이상으로 된다. 그 후에도 연속하여 식별 빈도 Pm(t)는 임계치 PO 이상으로 유지되어 있고, 연속 H0회(초)만큼 임계치 P0 이상 상태가 유지된 도면 중 B점에 있어서 처음으로 음악의 개시를 검출한다.

음악의 실제의 개시 위치는, 도 5로부터도 알 수 있듯이, 식별 빈도 Pm(t)가 처음으로 임계치 P0 이상이 된 A점보다도 조금 앞이다. 식별 빈도 Pm(t)가 임계치 P0 이상으로 될 때까지 연속 증가한 것으로 가정하면, 도면 중 X점이 개시 위치로 추측할 수 있다. 즉, 식별 빈도 Pm(t)의 임계치 P0를 P0=J/Len으로 하면, 처음으로 임계치 P0 이상이 된 A점으로부터 J만큼 돌아온 X점을 추정 개시 위치로 하여 검출한다. 도 5의 예에서는 J=3이므로, A점보다도 3만큼 돌아온 위치를 음악 개시 위치로 하여 검출한다.

도 6은 음악의 식별 빈도를 임계치와 비교하여 음악 연속 구간의 종료를 검출하는 모양을 설명한 도이다. 도 5와 마찬가지로, M은 음악으로 식별된 것을 나타내고, S는 음성으로 식별된 것을 나타낸다. 또, 세로축은 시각 t에 있어서의 음악의 식별 빈도 Pm(t)이다. 또한, 식별 빈도는 도 3으로 설명한 바와 같은 시간 구간 Len에 있어서 계산하고, 도 6에서는 Len=5로 한다. 또, 종료 판정을 위한 식별 빈도 Pm(t)의 임계치 P1을 2/5로 하고, 식별 횟수의 임계치 H1을 6으로 한다. 그리고, 종료 검출의 임계치 P1은 개시 검출의 임계치 PO와 같아도 된다.

소정의 시간 단위마다 식별 빈도를 계산해 가면, 도면 중의 C점에 있어서 시간 구간 Len에 있어서의 식별파도 Pm(t)가 2/5가 되어, 처음으로 임계치 P1 이하로 된다. 그 후에도 연속하여 식별 빈도 Pm(t)는 임계치 P1 이하로 유지되어 있고, 연속 H1회(초)만큼 임계치 P1 이하 상태가 유지된 도면 중 D점에 있어서 처음으로 음악의 종료를 검출한다.

음악의 실제의 종료 위치는, 도 6으로부터도 알 수 있듯이, 식별 빈도 Pm(t)가 시작해서 임계치 P1 이하가 된 C점보다도 조금 앞이다. 식별 빈도 Pm(t)가 임계치 P1 이하로 될 때까지 연속 감소하는 것으로 가정하면, 도면 중 Y점이 종료 위치로 추측할 수 있다. 즉, 식별 빈도 Pm(t)의 임계치 P1을 P1=K/Len으로 하면, 처음으로 임계치 P1 이하가 된 C점으로부터 Len-K만큼 돌아온 Y점을 추정 종료 위치로 하여 검출한다. 도 6의 예에서는 K=2이므로, C점보다 3만큼 돌아온 위치를 음악 종료 위치로 하여 검출한다.

이상 나타낸 연속 구간 검출 처리를 도 7a 내지 도 7c의 플로 차트에 나타낸다. 먼저 스텝 S1에 있어서 초기 처리를 행한다. 구체적으로는, 현재 시각 t를 O으로 하고, 어느 종별의 연속 구간 중에 있는 것을 나타내는 구간 중 플래그를 FALSE, 즉 연속 구간 중에서는 없는 것으로 한다. 또, 식별 빈도 P(t)가 임계치 이상 또는 임계치 이하 상태로 유지된 횟수를 세는 카운터의 값을 0으로 한다.

다음에 스텝 S2에 있어서, 시각 t에 있어서의 종별을 식별한다. 그리고, 이미 식별하고 있는 경우에는, 시각 t에 있어서의 식별 정보를 읽어들인다.

이어서 스텝 S3에 있어서, 식별하고, 또는 읽어들인 결과로부터 데이터 말미에 도달했는지 아닌지를 판별하고, 데이터 말미에 도달한 경우(Yes)에는 처리를 종료한다. 한편, 데이터 말미가 아닌 경우(No)에는 스텝 S4로 진행된다.

스텝 S4에서는, 연속 구간을 검출한 종별(예를 들면 음악)의 시각 t에 있어서의 식별 빈도 P(t)를 계산한다.

스텝 S5에서는, 구간 중 플래그가 TRUE, 즉 연속 구간 중에서 있는지 여부를 판별하고, TRUE인 경우(Yes)에는 스텝 S13으로 진행하고, 그렇지 않은 경우(No), 즉 FALSE인 경우에는 스텝 S6으로 진행된다.

이하의 스텝 S6내지 스텝 S12에서는, 연속 구간의 개시 검출 처리를 한다. 먼저 스텝 S6에 있어서, 식별 빈도 P(t)가 개시 검출의 임계치 P0 이상인지 여부를 판별한다. 여기서, 식별 빈도 P(t)가 임계치 PO 미만인 경우(No)에는 스텝 S20으로 카운터의 값을 0에 리셋하고, 스텝 S21에서 시각 t를1 증가시켜 스텝 S2로 돌아온다. 한편, 식별 빈도 P(t)가 임계치 P0 미만인 경우(Yes)에는 스텝 S7로 진행된다.

다음에 스텝 S7에 있어서, 카운터의 값이 0인지 여부를 판별하고, 0인 경우(Yes)에는 스텝 S8에서 개시 후보 시각으로서 X를 기억하고, 스텝 S9로 진행되어 카운터의 값을1 증가시킨다. 여기서, X는 예를 들면 도 5에서 설명한 바와 같은 위치이다. 한편, 카운터의 값이 0이 아닌 경우(No)에는 스텝 S9로 진행하고, 카운터의 값을 1 늘린다.

이어서 스텝 S10에 있어서, 카운터의 값이 임계치 H0에 도달했는지 아닌지를 판별하고, 임계치 H0에 도달하지 않은 경우(No)에는 스텝 S21로 진행하고, 시각 t를 1 증가시켜 스텝 S2로 돌아온다. 한편, 임계치 H0에 이르렀을 경우(Yes)에는 스텝 S11로 진행된다.

스텝 S11에서는, 기억하고 있는 개시 후보 시각 X를 개시 시각으로서 확정하고, 스텝 S12에서 카운터의 값을 0에 리셋하는 동시에 구간 중 플래그를 TRUE로 바꾸고, 스텝 S21에서 시각 t를 1 증가시켜 스텝 S2로 돌아온다.

이상, 연속 구간의 개시를 검출할 때까지, 즉 스텝 S5에서 구간 중 플래그가 TRUE로 판별될 때까지, 상기의 처리를 반복한다.

연속 구간의 개시가 검출되면, 이하의 스텝 S13 내지 스텝 S19에서는, 연속 구간의 종료 검출 처리를 한다. 먼저 스텝 S13에 있어서, 식별 빈도 P(t)가 종료 검출의 임계치 P1 이하인지 여부를 판별한다. 여기서, 식별 빈도 P(t)가 임계치 P1보다도 큰 경우(No)에는 스텝 S20에서 카운터의 값을 0에 리셋하고, 스텝 S21에서 시각 t를 1 증가시켜 스텝 S2로 돌아온다. 한편, 식별 빈도 P(t)가 임계치 P1 이하인 경우(Yes)에는 스텝 S14로 진행된다.

다음에 스텝 S14에 있어서, 카운터의 값이 O인지 여부를 판별하고, O인 경우(Yes)에는 스텝 S15에서 종료 후보 시각으로서 Y를 기억하고, 스텝 S16으로 진행되어 카운터의 값을1 증가시킨다. 여기서, Y는 예를 들면 도 6에서 설명한 바와 같은 위치이다. 한편, 카운터의 값이 0이 아닌 경우(No)에는 스텝 S16으로 진행하고, 카운트의 값을 1 증가시킨다.

이어서 스텝 S17에 있어서 카운터의 값이 임계치 H1에 도달했는지 여부를 판별하고, 임계치 H1에 도달하지 않은 경우(No)에는 스텝 S21로 진행하고, 시각 t를 1 증가시켜 스텝 S2로 돌아온다. 한편, 임계치 H1에 이르렀을 경우(Yes)에는 스텝 S18로 진행된다.

스텝 S18에서는, 기억하고 있는 종료 후보 시각 Y를 종료 시각으로서 확정하고, 스텝 S19에서 카운터의 값을 0에 리셋하는 동시에 구간 중 플래그를 FALSE로 바꾸고, 스텝 S21에서 시각 t를 1 증가시켜 스텝 S2로 돌아온다.

이상, 연속 구간의 종료를 검출할 때까지, 즉 스텝 S5에서 구간 중 플래그가 FALSE로 판별될 때까지, 상기의 처리를 반복한다.

이상과 같이, 본 실시예에 있어서의 정보 검출 장치(1)에 의하면, 정보원에 있어서의 음성 신호를 소정의 시간 단위마다 각 종별(카테고리)로 식별하고, 그 종별의 식별 빈도를 평가하여 동일 종별의 연속 구간을 검출할 때에, 어느 종별의 식별 빈도가 처음으로 소정의 임계치 이상이 되고, 또한 그 임계치 이상인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 개시를 검출하고, 식별 빈도가 처음으로 소정의 임계치 이하가 되고, 또한 그 임계치 이하인 상태가 소정의 시간만큼 연속한 경우에 그 종별의 연속 구간의 종료를 검출함으로써, 연속 구간 중에 잡음 등의 일시적인 음의 혼입이 있거나, 또는 식별 오류가 다소 있는 경우라도, 연속 구간의 개시 위치 및 종료 위치를 정확하게 검출할 수 있다.

그리고, 본 발명은 도면을 참조하여 설명한 전술한 실시예에 한정되지 않고, 첨부의 청구의 범위 및 그 주지를 일탈하지 않고, 여러 가지 변경, 치환 또는 그 동등의 것을 행할 수 있는 것은 당업자에게 있어 분명하다.

예를 들면, 전술한 실시예에서는 하드웨어의 구성으로서 설명했지만, 이에 한정되지 않고, 임의의 처리를, CPU(Central Processing Unit)에 컴퓨터 프로그램을 실행시킴으로써 실현될 수도 있다. 이 경우, 컴퓨터 프로그램은 기억 매체 및 기록 매체에 기록하여 제공하는 것도 가능하며, 또, 인터넷 외의 전송 매체를 통하여 전송함으로써 제공하는 것도 가능하다.

전술한 본 발명에 의하면, 정보원에 포함되는 음성 신호를 소정의 시간 단위마다 음악이나 음성 등의 종별(카테고리)로 식별 분류하고, 그 종별의 식별 빈도를 평가하여 동일 종별의 연속 구간을 검출할 때에, 연속 구간 중에 잡음 등의 일시적인 음의 혼입이 있고, 또는 식별 오류가 다소 있는 경우라도, 연속 구간의 개시 위치 및 종료 위치를 정확하게 검출할 수 있다.

Claims

정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하는 음성 종별 식별 수단과,

상기 음성 종별 식별 수단에 의해 분류 식별된 식별 정보를 기록하는 식별 정보 축적 수단과,

상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하는 식별 빈도 계산 수단과,

상기 식별 빈도를 사용하여, 동일 종별의 연속 구간을 검출하는 연속 구간 검출 수단

을 구비하는 것을 특징으로 하는 정보 검출 장치.
제1항에 있어서,

상기 연속 구간 검출 수단에 의해 검출된 상기 연속 구간의 구간 정보를 인덱스로서 축적하는 구간 정보 축적 수단을 더 포함하는 것을 특징으로 하는 정보 검출 장치.
제1항에 있어서,

상기 연속 구간 검출 수단은 임의의 종별의 상기 식별 빈도가 제1의 임계치 이상이 되고, 또한 상기 제1의 임계치 이상인 상태가 제1의 시간 이상 연속한 경우에 상기 종별의 개시를 검출하며, 상기 식별 빈도가 제2의 임계치 이하가 되고, 또한 상기 제2의 임계치 이하인 상태가 제2의 시간 이상 연속한 경우에 상기 종별의 종료를 검출하는 것을 특징으로 하는 정보 검출 장치.
제1항에 있어서,

상기 음성 종별 식별 수단은 상기 시간 단위마다 상기 음성 신호의 종별을 분류 식별하는 동시에 그 식별이 확실한지를 구하는 것을 특징으로 하는 정보 검출 장치.
제4항에 있어서,

상기 식별 빈도는 임의의 종별의 상기 시간 단위마다의 식별의 확실성을 상기 시간 구간에서 평균한 것인 것을 특징으로 하는 정보 검출 장치.
제1항에 있어서,

상기 식별 빈도는 임의의 종별의 상기 시간 구간에 있어서의 식별 횟수인 것을 특징으로 하는 정보 검출 장치.
제4항에 있어서,

상기 식별 정보 축적 수단은 상기 시간 단위마다의 상기 음성 신호의 종별과 상기 식별의 확실성을, 상기 식별 정보로서 기록하는 것을 특징으로 하는 정보 검출 장치.
정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하는 음성 종별 식별 공정과,

상기 음성 종별 식별 공정에서 분류 식별된 식별 정보를 식별 정보 축적 수단에 기록하는 기록 공정과,

상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다, 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하는 식별 빈도 계산 공정과,

상기 식별 빈도를 사용하여, 동일 종별의 연속 구간을 검출하는 연속 구간 검출 공정

을 포함하는 것을 특징으로 하는 정보 검출 방법.
제8항에 있어서,

상기 연속 구간 검출 공정에서 검출된 상기 연속 구간의 구간 정보를 인덱스로서 구간 정보 축적 수단에 축적하는 축적 공정을 더 포함하는 것을 특징으로 하는 정보 검출 방법.
제8항에 있어서,

상기 연속 구간 검출 공정에서는, 임의의 종별의 상기 식별 빈도가 제1의 임계치 이상이 되고, 또한 상기 제1의 임계치 이상인 상태가 제1의 시간 이상 연속한 경우에 상기 종별의 개시가 검출되며, 상기 식별 빈도가 제2의 임계치 이하가 되고, 또한 상기 제2의 임계치 이하인 상태가 제2의 시간 이상 연속한 경우에 상기 종별의 종료가 검출되는 것을 특징으로 하는 정보 검출 방법.
제8항에 있어서,

상기 음성 종별 식별 공정에서는, 상기 시간 단위마다 상기 음성 신호의 종별이 분류 식별되는 동시에, 그 식별이 확실한 지가 구해지는 것을 특징으로 하는 정보 검출 방법.
제11항에 있어서,

상기 식별 빈도는 임의의 종별의 상기 시간 단위마다의 식별의 확실성을 상기 시간 구간에서 평균한 것인 것을 특징으로 하는 정보 검출 방법.
제8항에 있어서,

상기 식별 빈도는 임의의 종별의 상기 시간 구간에 있어서의 식별 횟수인 것을 특징으로 하는 정보 검출 방법.
제11항에 있어서,

상기 기록 공정에서는, 상기 시간 단위마다의 상기 음성 신호의 종별과 상기 식별이 확실한 지가, 상기 식별 정보로서 상기 식별 정보 축적 수단에 기록되는 것을 특징으로 하는 정보 검출 방법.
소정의 처리를 컴퓨터에 실행시키는 프로그램에 있어서,

정보원에 포함되는 음성 신호의 특징량을 분석하고, 상기 음성 신호의 종별을 소정의 시간 단위마다 분류 식별하는 음성 종별 식별 공정과,

상기 음성 종별 식별 공정에서 분류 식별된 식별 정보를 식별 정보 축적 수단에 기록하는 기록 공정과,

상기 식별 정보 축적 수단으로부터 상기 식별 정보를 판독하고, 상기 음성 신호의 종별마다, 상기 시간 단위보다도 긴 소정의 시간 구간마다의 식별 빈도를 계산하는 식별 빈도 계산 공정과,

상기 식별 빈도를 사용하여, 동일 종별의 연속 구간을 검출하는 연속 구간 검출 공정

을 포함하는 것을 특징으로 하는 프로그램.