KR100380947B1 - 오디오 신호 분석 방법 및 컴퓨터와 기록매체 - Google Patents

오디오 신호 분석 방법 및 컴퓨터와 기록매체 Download PDF

Info

Publication number
KR100380947B1
KR100380947B1 KR10-2000-0002364A KR20000002364A KR100380947B1 KR 100380947 B1 KR100380947 B1 KR 100380947B1 KR 20000002364 A KR20000002364 A KR 20000002364A KR 100380947 B1 KR100380947 B1 KR 100380947B1
Authority
KR
South Korea
Prior art keywords
interval
audio
audio signal
speech
segment
Prior art date
Application number
KR10-2000-0002364A
Other languages
English (en)
Other versions
KR20000076488A (ko
Inventor
펫코빅드러구틴
폰셀레온듈스비트리즈
스리니바센사비싸
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20000076488A publication Critical patent/KR20000076488A/ko
Application granted granted Critical
Publication of KR100380947B1 publication Critical patent/KR100380947B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

본 발명에 따르면, 특정 오디오 프리필터링을 이용하여 후속 정보 검색용 오디오 스트림을 색인하고, 오디오 스트림을 스키밍, 요점 정리 및 요약을 수행하되, 음성 인식 엔진에 의해 발생되는 적절한 음성 세그먼트만을 색인하는 시스템 및 방법이 제공된다. 워드 스폿팅을 색인한 후에 이용된 정보 검색 시스템의 검색 능력 및 재현 능력을 개선하는 특별한 색인 특징이 기술된다. 본 발명은 오디오 스트림을 간격을 두어 변환하는 것을 포함하는데, 각각의 간격은 한 개 이상의 세그먼트를 포함한다. 각각의 간격 세그먼트에 있어서, 특수한 제로 교차율 범위, 특정한 에너지 범위 및 스펙트럼 에너지 농도 범위와 같은 한가지 이상의 선정된 오디오 특징을 세그먼트가 나타내는지의 여부가 결정된다. 오디오 특징은 침묵, 음악, 음성 및 음악 중 음성(歌詞 : speech on music)를 포함하는 각각의 오디오 이벤트를 나타내기 위해 발견적으로 결정된다. 또한, 간격 그룹은 일정한 연속 음성, 결론, 말을 더듬음 및 말의 강조점 등과 같은 발견적으로 사전 정의된 메타 패턴과 일치하는지의 여부가 결정된 다음, 오디오 스트림이 간격 분류 및 메타 패턴 일치에 기초하여 색인되는데, 관련 특징이 정보 검색에 따른 후속 검색 능력을 개선하도록 색인된다. 또한, 음성 인식 엔진에 의해 발생된 장기간 동안의 대안이 후속 재현 능력을 개선하기 위해 각각의 가중치와 함께 색인된다.

Description

오디오 신호 분석 방법 및 컴퓨터와 기록매체{SYSTEM AND METHOD FOR AUTOMATIC AUDIO CONTENT ANALYSIS FOR WORD SPOTTING, INDEXING, CLASSIFICATION AND RETRIEVAL}
본 발명은 전반적으로 비디오로부터 추출된 오디오 스트림을 포함하는 오디오 스트림에 관한 것으로, 특히 오디오 스트림의 후속 검색, 요점 정리(gisting), 요약, 스키밍(skimming), 전반적인 탐색을 지원하기 위해 오디오 스트림을 분류하고 색인하기 위한 시스템 및 방법에 관한 것이다.
일반적으로 컴퓨터 사용, 특히, 멀티미디어 컴퓨터 애플리케이션의 급성장과 함께, 예를 들어, 오디오-비디오 애플리케이션으로부터 다량의 오디오가 계속해서 생성되며, 그 후 이들 오디오는 전자적으로 기억된다. 본 발명에 의해 알 수 있는 바와 같이, 오디오 파일의 수가 늘어남에 따라, 기존의 오디오 파일 디렉토리 또는 액세스용의 그 밖의 다른 기존의 수단만을 이용하여 기억된 오디오 스트림을 신속하고 효과적으로 이용하는 것이 더욱 어려워지고 있다. 예를 들면, 정보를 검색하거나, 오디오 스트림의 요약을 제공하거나 사용자가 오디오 스트림을 스키밍하거나 요점 정리할 수 있도록 하기 위해 사용자 질의에 기초하여, 예를 들어 비디오로부터 도출된 오디오 스트림을 액세스하는 것이 바람직할 수도 있다. 따라서, 본 발명은 사용자가 액세스하고자 하지만 수많은 다른 오디오 스트림과 함께 저장되어 있는 특정 오디오 스트림을 효과적으로 탐색할 필요가 많아지고 있다는 인식에 기초하고 있다.
종래의 정보 검색 기술은 오디오로부터 도출된 것인지의 여부에 관계없이 소스 텍스트(source text)가 잡음 및 오류가 없다는 가정에 기초를 두고 있다. 그러나, 소스 텍스트가 오디오에서 도출될 때, 상기 가정은 무의미한 것이 된다. 이것은, 오디오 스트림을 컴퓨터 저장형 텍스트로 변환하는데 음성 인식 엔진이 이용되는데, 이 음성 인식 엔진의 성질 및 그 작업상 본래의 어려움이 있기 때문이며, 이러한 변환은 오류가 없고 텍스트에 잡음이 유입되지 않은 상태로 달성하는 것이 실제로 중요하다. 예를 들어, 오디오 스트림 내의 소정의 워드가 정확하게 인식될 수 없거나(예를 들면, "land"라고 말한 것을 "lamb"로 변환할 수 있다), 전혀 인식되지 않을 수도 있으며, 이 때문에 정보 검색 시스템의 재현(recall) 능력 및 정확도가 점감(漸減)될 수 있다. "정확도(precision)"는 올바른 문서만을 검색하기 위한 시스템의 능력을 의미하며, 재현 능력(recall)은 가능한 한 많은 올바른 문서를 검색하는 시스템의 능력을 지칭한다. 다행히, 우리는 오디오 스트림을 텍스트로 변환하는데 있어서 음성 인식 엔진의 한계를 밝히는 것이 가능하며, 이러한 한계를 이해하여 정보 검색 시스템의 정확도 및 및 재현 능력을 개선하는 것이 가능하다는 것을 인식하였다.
이러한 사항 이외에, 본 발명은 여러 가지 예에서, 사용자가 오디오 스트림을 듣고자 디지털 방식으로 기억된 오디오 스트림을 재현하기를 원할 수 있지만, 사용자가 전체 오디오 스트림으로부터의 정보를 듣거나 액세스하지 않고 그 특정 부분으로부터의 정보만을 듣거나 액세스하고자 할 수도 있음을 인식하였다. 실제로, 사용자는 오디오 스트림 또는 스트림들의 요약만을 듣거나, 오디오 스트림의 요점만을 이해하기를 원할 수도 있다. 예를 들어, 사용자는 특정 주제로 행해지거나, 특정 사람이 말한 오디오 스트림 부분만을 듣고 싶어하거나, 녹화된 프로그래밍의 경우에, 사용자는 그 프로그래밍의 비상업적인 부분만을 듣고자 할 수 있다. 이와 마찬가지로, 사용자는 오디오를 통해 고속 전진(fast forward)을 원할 수 있다. 예를 들어, 사용자는 관심 있는 부분을 알아들을 수 있는 속도로 유지하면서 오디오 스트림의 덜 관심 있는 부분(예를 들어, 광고 방송)을 빠르게 지나 보내기를 원할 수 있다.
그러나, 일본국 특허 공개 제8063184호 및 제10049189호 및 유럽 특허 공개 제702351호에 기재된 것과 같은 오디오 내용 분석에 관한 과거의 시도는 대체로 상술한 사항에 주안점을 두지 않고, 단순히 음성 인식 컴퓨터 입력 장치의 정확도를 개선하거나, 디지털 방식으로 처리된 음질을 개선하는데에 주안점을 두고 있다. 이러한 노력은 아마도 그들이 원하는 목적 달성에는 효과적일지라도, 컴퓨터에 기억된 오디오 스트림의 후속 탐색, 요점 정리 및 요약을 지원하기 위해서 스트림 내의 오디오 이벤트에 기초한 오디오 스트림의 색인을 고려하고 있지 않아 이러한 문제를 해결할 수는 없을 것이다.
미합중국 특허 제5,199,077호에는 음성 편집 및 색인에 대한 워드 스폿팅이 기재되어 있다. 이 방법은 단일 화자 오디오 또는 비디오 녹화의 키워드 색인에 관한 것이다. 상술한 일본국 특허 공개 제8063184호 및 제10049189호는 음성 인식 정확도를 개선해 나가는 단계로서 오디오 내용 분석에 관한 것이다. 또한, 일본국 특허 공개 제8087292A호는 음성 인식 시스템의 속도를 개선시키기 위해 오디오 분석을 이용한다. 상술한 유럽 특허 공개 제EP702351A호는 미지의 문구(phrases) 및 음성의 인식을 돕기 위해서 오디오 이벤트(audio event)를 식별하여 녹음하는 것을 포함한다. 미합중국 특허 제5,655,058호에는 화자 식별에 기초하여 오디오 데이터를 분절시키기 위한 방법이 기재되어 있고, 유럽 특허 공개 제EP780777A호는 오디오를 색인하기 위해서 발성된 워드를 추출하기 위한 음성 인식 시스템으로 오디오 파일을 처리하는 것이 기재되어 있다.
이러한 시스템에 개시되어 있는 방법은 음성 인식에 관한 정확도 및 성능을 개선하는데 목적을 두고 있다. 개시되어 있는 색인 및 검색 시스템은 화자 인식에 기초를 두거나, 오디오 트랙상의 음성 인식의 직접적인 응용 및 탐색 항목으로서 워드의 이용에 기초를 두고 있다. 이와 대조적으로, 본 발명은 본원에서 알 수 있듯이, 대체로 단일 화자, 즉 음성 세그먼트만으로 이루어져 있는 깨끗한 오디오로 이루어져 있지 않은 현실의 오디오의 색인, 분류 및 요약에 관한 것이다. 이러한 점을 고려하여, 본 발명은 음악 및 잡음이 음성 세그먼트로부터 분절되고, 깨끗한 음성 세그먼트에 적용된 음성 인식이 오디오 분석 결과를 고려하여 이루어진 개선된 검색 시스템을 구축하는 후술하는 시스템 및 방법을 이용하여 이전의 워드 스폿팅 기술을 개선한다.
Erling 등에 의한 IEEE Multimedia 1996에 공개된 "Content-Based Classification, Search, and Retrival of Audio"(이하, "Muselefish"(뮤즈레피쉬)라 칭함)이란 명칭의 문헌에 기재된 방법을 포함하여 오디오의 내용을 분석하기 위한 다른 기술이 공지되어 있다. 그러나, 뮤지레피쉬(Muselefish)가 소리를 분류하는 방법은 발견적으로(heuristically) 결정된 규칙에 의해 이루어지는 것이 아니라, 통계적 분석에 의해 이루어진다. 본 발명에 의해 인식되는 바와 같이, 발견적으로 결정되는 규칙은 소리를 분류하는데 있어서 통계적 분석보다 더 강력한 것이며, 규칙 기반의 분류 방법은 통계적 기반 시스템보다 음성을 보다 더 정확하게 분류할 수 있다. 더욱이, 뮤즈레피쉬 시스템은 짧은 오디오 스트림(15 sec 미만)에서만 이용하고자 하는 것이다. 따라서, 보다 긴 스트림으로부터의 정보 검색에는 부적절하다.
Pfeiffer 등에 의한 ACM Multimedia 96(1996)에 공개된 "Automatic Audio Content Analysis"이란 명칭의 문헌에 기재된 방법을 포함하여 오디오를 색인하기 위한 또 다른 방법(이하, "MoCA(모카)"라고 칭함)이 공지되어 있다. 그러나 다수의 유사한 방법과 마찬가지로, 모카(MoCA)의 방법은 영역 특정적(domain specific), 즉 폭력물(violence)과 같은 특정 타입의 비디오 이벤트(video event)와 관련되는 오디오를 식별하고자 하는 방법이다. 본 발명은 다수의 오디오 및 멀티미디어 응용이 오디오의 내용, 특히 내부의 한 개 이상의 선정된 오디오 이벤트에 기초하여 오디오를 분절하고, 분류하고 탐색하기 위한 보다 일반화된 능력으로부터 이점이 있다고 인식한다.
오디오-비디오 데이터에서 추출된 오디오 스트림을 포함하는 긴 비구조형(unstructured) 오디오 스트림내에서, 워드 스폿팅(word spotting)이라고도 지칭되는 신뢰성 있는 정보 검색을 용이하게 하기 위한 방법이 기재되어 있다. 본 발명은 후술한 다른 응용들 중에서 신뢰성 있는 후속 워드 스폿팅을 촉진하기 위해서, 음성 인식 엔진에 의해 발생되는 적절한 음성 세그먼트만을 색인하기 위한 도메인/애플리케이션 특정 음성 경계부를 식별하기 위해 특별한 오디오 프리필터링(prefiltering)을 이용한다. 이렇게 하기 위해서, 본 발명은 내용 특정적, 응용 특정적, 유형(genre) 특정적인 깨끗한 음성 경계부를 관련 신뢰도(confidence level)로 식별하기 위해 오디오 스트림의 내용을 분석한다. 다음에, 본 발명은 음성 인식 엔진에 의해 발생된 신뢰도를 이용하며, 음성 인식 엔진에 의해 발생된 선택된 오디오 부분(즉, 적절한 음성)만의 사본(transcript)을 색인하기 위해 본 발명의 가중치와 신뢰도를 조합한다. 그러므로, 본 발명은 음성 인식 엔진을 본질적으로 개선할 뿐만 아니라, 오디오 스트림이 색인되는 방식을 개선함으로써 정보 검색 시스템(음성 인식 엔진을 이용할 수 있음)의 정확도 및 재현 능력을 개선할 수 있다.
본 발명은 사용자로 하여금 스트림을 브라우즈(browse : 이곳 저곳 읽는 것)하거나 스킴할 수 있게 하여, 관심 있는 오디오 세그먼트만을 재생 및/또는 정보 검색용 오디오 스트림을 색인할 수 있도록, 오디오 스트림의 시각적(visual) 요약을 사용자에게 후속적으로 제공하기 위해, 비디오로부터 추출된 오디오를 포함하는 오디오 스트림으로 지칭되는 오디오 신호를 분류 및 색인하는 본 발명의 단계에 따라서 프로그램된 범용 컴퓨터로서 구현될 수 있다.
또한, 본 발명은 디지털 처리 장치에 의해 이용되며, 현재 로직을 담당하기 위해 디지털 처리 장치에 의해 실행될 수 있는 명령어 프로그램을 구현하는 제조 물(기계 부품)으로써 실시될 수 있다. 본 발명은 디지털 처리 장치로 본 발명의 방법 단계를 수행하게 하는 소정의 기계 부품으로 실현된다. 다른 특징에 있어서, 디지털 처리 장치로 판독할 수 있고, 컴퓨터 프로그램을 구현하는 컴퓨터 프로그램 제품이 기재되어 있다. 컴퓨터 프로그램 제품은 후술한 논리를 담당하는 프로그램 코드 요소와 컴퓨터 판독가능 매체를 조합한다. 그리고, 본원 명세서에는 논리를 실행하기 위한 컴퓨터 실시 방법이 개시되어 있다.
따라서, 한가지 특징에 있어서, 오디오 신호를 분석하기 위한 컴퓨터 실시 방법은 오디오 신호의, 한 개 이상의 세그먼트에 관한 시계열 시퀀스(sequence)를 각각 포함하는 한 개 이상의 간격 내의 오디오 이벤트를 검출하는 단계를 포함한다. 음성 경계부를 관련된 신뢰도로 식별하도록 오디오 이벤트가 분석된 다음, 본 발명의 방법은 정확도를 개선하기 위해 발견적으로 결정된 규칙을 이용하여 음성 경계부 및 신뢰도에 기초하여 오디오 신호를 색인한다. 또한, 본 발명의 방법은 재현 능력을 개선하기 위해, 관련된 가중(weight)과 함께 오디오 신호내의 적어도 하나의 워드의 대안을 색인하고, 상기 색인을 이용하여, 오디오 신호의 워드 스폿팅, 요약 및 스키밍 중 하나 이상을 행한다.
다른 특징에 있어서, 오디오 신호를 분류 및 색인하기 위한 컴퓨터가 기재되어 있다. 상세하게 후술한 바와 같이, 컴퓨터는 오디오 신호를 간격(interval)으로 변환하기 위한 논리 수단을 포함하는 컴퓨터 이용가능 코드 수단으로 실시하는데, 각각의 간격은 한 개 이상의 세그먼트를 포함한다. 논리 수단은 세그먼트 간격이 오디오 특징이라고도 칭하는 한 개 이상의 선정된 오디오 특징을 나타내는지의 여부를 판정하는데, 각각의 오디오 특징은 적어도 하나의 각각의 오디오 이벤트를 나타낸다. 또한, 논리 수단은 판정 수단에 응답하여 간격을 각각의 오디오 이벤트와 관련시킴으로써 간격을 분류한다. 또한, 적어도 하나의 간격 그룹이 사전 정의된 메타 패턴 세트 내의 메타 패턴과 일치하는지의 여부를 판정하기 위한 논리 수단이 제공되고, 논리 수단은 간격 그룹이 메타 패턴과 일치한다는 것이 결정될 때 간격 그룹을 메타 패턴 분류와 관련시킨다. 이 때, 논리 수단은 간격 분류 및 메타 패턴 분류에 기초하여 오디오 신호를 색인한다.
바람직한 실시예에 있어서, 논리 수단은 신호로부터의 워드를 표현하기 위해 음성 인식 엔진을 적절하게 이용하여 오디오 신호 부분만을 처리한다. 엔진은 관련된 신뢰도를 가지는 인식된 워드 및 이들에 대한 대안을 발생시킨다. 간단한 실시 양태에 있어서, 본 발명은 인식에 대한 신뢰도가 90% 또는 그 이상인 보다 긴 워드(3개의 문자 또는 그 이상)만을 색인한다. 보다 일반적인 범용 해법은 가중치에 기초하여 인식된 워드 및 대안을 색인하기 위한 것인데, 가중치는 인식에 관한 신뢰도, 대안 워드(만일 있다면)의 신뢰도, 인식된 워드의 길이 및 이들 중의 어느 하나에 따라서 변한다.
또한, 바람직한 실시예에 있어서, 각각의 선정된 오디오 특징은 오디오 신호의 적어도 일부분의 제로 교차율(ZCR), 오디오 신호의 적어도 일부분의 에너지, 오디오 신호의 적어도 일부분의 스펙트럼 에너지(SE) 분포 및 주파수(F)들 중 하나에 기초를 둔다. 또한, 바람직한 실시예에 있어서, 사전 정의된 세트의 오디오 이벤트는 음악, 음성, 침묵 및 음악 중 음성을 포함한다. 메타 패턴에 관하여, 사전 정의된 세트의 패턴은 일정한 비구조적인 음성(뉴스 방송 또는 교육 프로그램) 및 음성과의 조합된 음악(광고 방송)을 포함하지만, 이에 제한되지는 않는데, 사전 정의된 세트의 패턴은 발견적으로 정의된다.
또한, 본 발명은 소리에서의 강조부, 소리에서의 머뭇거림 및 소리에서의 결론와 같은 음성중의 "관심있는 이벤트"에 기초하여, 음성을 포함하는 오디오 스트림을 분류 및 색인하는 것을 구상한다. 따라서, 음성으로서 분류되는 적어도 하나의 간격에 관한 일련의 표본들 중 각각 하나의 표본에서의 지배적 주파수(dominant frequency)를 결정하기 위한 수단이 제공된다. 음성 간격은 이들이 지배적 주파수의 상위 N%를 포함할 때, 음성에서의 강조와 관련되는데, N은 발견적으로 결정된 수로서, 바람직하게는 1이다. 한편, 음성 간격은 이들이 지배적 주파수의 하위 N%를 포함할 때 음성에서의 결론과 관련된다. 더욱이, 모두 음성에서의 강조와 관련되는 시계열 간격이 선정된 기간보다 긴 기간으로 판정될 경우, 전체 시퀀스는 음성에서 중요한 아이디어로서 색인된다.
특히 바람직한 실시예에 있어서, 간격을 분류하기 전에 세그먼트를 정규화하기 위한 논리 수단이 제공된다. 더욱이, 논리 수단은 신호의 색인을 이용하여 오디오 신호를 스키밍, 요점 정리 및 요약하기 위해 간격의 색인 및 메타 패턴 분류를 제공한다.
간격의 세그먼트가 한 개 이상의 선정된 오디오 특징을 나타내는지의 여부를 판정하기 위해, 세그먼트에 관련된 한 개 이상의 오디오 특징이 각각의 임계치와 같은지의 여부를 판정하기 위한 수단이 제공된다. 만일 같다면, 오디오 특징과 관련된 카운터는 증가하고, 간격내의 모든 세그먼트가 검사될 경우, 카운터는 간격내의 세그먼트의 수와 비교되어, 상기 간격은 상기 비교에 기초하여 분류된다.
다른 측면으로서, 컴퓨터 프로그램 제품은 디지털 처리 장치로 판독할 수 있는 컴퓨터 프로그램 기억 장치를 포함하며, 프로그램 기억 장치 상에는 프로그램 수단이 있다. 프로그램 수단은, 사용자로 하여금 요약을 이용하여 관심 있는 오디오 타입만을 브라우즈 및/또는 재생할 수 있도록 신호의 후속 요약을 위해, 적어도 하나의 오디오 신호를 색인하는 단계를 수행하는 디지털 처리 장치에 의해 실행될 수 있는 프로그램 코드 요소를 포함한다. 본 발명에 따르면, 상기 방법 단계는 각각의 간격이 한 개 이상의 세그먼트를 포함하고 있는 간격으로 오디오 신호를 변환하고, 세그먼트 기간이 오디오 신호의 적어도 일부분의 제로 교차율, 오디오 신호의 적어도 일부분, 오디오 신호의 적어도 일부분의 주파수 및 오디오 신호의 적어도 일부분의 스펙트럼 에너지 농도를 포함하는 특징 세트로부터 선택된 한 개 이상의 선정된 오디오 특징으로 나타나는지의 여부를 판정하는 것을 포함한다. 본 발명이 의도한 바와 같이, 각각의 오디오 특징은 적어도 음악 및 음성을 포함하는 적어도 하나의 각각의 오디오 이벤트를 나타낸다. 간격은 간격을 각각의 오디오 이벤트 및 간격 분류에 적어도 일부분에 기초하여 색인된 오디오 신호와 관련시킴으로써 분류된다.
도 1은 본 발명을 도시한 개략도,
도 2는 본 발명의 전체 색인 논리를 설명하는 흐름도,
도 3은 세그먼트의 오디오 특징을 결정하기 위한 논리를 설명하는 흐름도,
도 4는 세그먼트가 침묵인지의 여부를 판정하기 위한 논리를 설명하는 흐름도,
도 5는 세그먼트가 음성인지의 여부를 판정하기 위한 논리를 설명하는 흐름도,
도 6은 도 5에 도시된 논리에 연속하는 흐름도,
도 7은 세그먼트가 음악인지의 여부를 판정하기 위한 논리를 설명하는 흐름도,
도 8은 도 7에 도시된 논리에 연속하는 흐름도,
도 9는 세그먼트가 음악 중 음성인지의 여부를 판정하기 위한 논리를 설명하는 흐름도,
도 10은 도 9에 도시된 논리에 연속하는 흐름도,
도 11은 스키밍, 요점 정리, 요약하기 위한 논리를 도시하는 흐름도,
도 12는 워드 및 오디오의 "관심있는 이벤트"에 기초하여 오디오 스트림의 또 다른 분류 및 색인에 대한 논리를 도시하는 흐름도,
도 13은 음성 표본이 음성에서의 강조부, 음성의 최종 아이디어, 음성의 중요 아이디어를 나타내는지의 여부를 판정하기 위한 논리를 도시하는 흐름도,
도 14는 조화음이 존재하는지의 여부를 판정하기 위한 논리를 설명하는 흐름도,
도 15는 색인 오디오 스트림으로부터 발생하는 요약을 도시하는 흐름도,
도 16은 색인되었던 오디오 스트림을 요약하는 스크린을 도시한 개략도.
도면의 주요 부분에 대한 부호의 설명
10 : 오디오 내용 분석 시스템 12 : 컴퓨터
14 : 오디오 엔진 16 : 컴퓨터 디스켓
17 : 플로피 디스크 드라이브 18 : 비디오 모니터
20 : 프린터 22 : 키보드
24 : 마우스 25 : 데이터 송신 경로
26 : 데이터베이스 28 : 오디오 소스
29 : 음성 인식 엔진
이하, 첨부 도면을 참조하여 본 발명의 장점, 구성 및 작용을 포함하는 실시예에 대해 상세하게 설명하고자 한다.
먼저, 도 1을 참조하면, 오디오를 색인, 분류 및 검색하기 위해 오디오 내용(오디오 시간 영상 데이터를 포함함)을 분석하기 위한 참조 번호가 10으로 붙여져 있는 시스템이 도시되어 있다. 도시된 특정한 구조에 있어서, 시스템(10)은 컴퓨터(12)와 같은 디지털 처리 장치를 포함한다. 일실시예에 있어서, 컴퓨터(12)는 도시된 바와 같이 뉴욕주 아몬크에 소재하는 International Business Machines Corporation(IBM)에서 제조한 퍼스널 컴퓨터 또는 컴퓨터(12)는 IBM 네트워크 스테이션을 수반하는 AS400과 같은 상표로 시판되는 컴퓨터를 포함하는 소정의 컴퓨터일 수 있다. 또한, 컴퓨터(12)는 유닉스(Unix) 컴퓨터 또는 OS/2 서버 또는 윈도우 NT 서버 또는 AIX 3. 2. 5.를 가동시키는 주 메모리의 128 MB로 이루어진 IBM RS/6000 250 워크스테이션일 수 있다.
컴퓨터(12)는 컴퓨터(12)내의 프로세서에 의해 일련의 컴퓨터 실행가능 명령어로서 실행될 수 있는 도 1에 개략적으로 도시된 오디오 엔진(14)을 포함한다. 이러한 명령어는, 예를 들어 컴퓨터(12)의 RAM내에 상주할 수 있다.
선택에 따라, 명령어는 컴퓨터(12)의 플로피 디스크 드라이브(17)와 연동할 수 있는 도 1에 도시된 컴퓨터 디스켓(16)과 같은 컴퓨터 판독가능 매체를 가지는 데이터 기억 장치에 포함될 수 있다. 또한, 명령어는 DASD 어레이, 자기 테이프, 통상의 하드디스크 드라이브, 전자 판독 전용 메모리, 광학 기억 장치 또는 그 밖의 다른 적절한 데이터 기억 장치에 기억될 수 있다. 본 발명의 예시적인 실시예에 있어서, 컴퓨터 실행가능 명령어는 C++코드 라인일 수 있다.
또한, 도 1은 시스템(10)이 비디오 모니터(18) 및/또는 프린터(20)와 같은 출력 장치 및 컴퓨터 키보드(22) 및/또는 마우스(24)와 같은 입력 장치를 포함하는 당해 분야에 공지된 주변 컴퓨터 장비를 포함할 수 있다. 다른 컴퓨터 등과 같은그 밖의 다른 출력 장치가 이용될 수 있다. 이와 유사하게, 키보드(22) 및 마우스(24)와 다른 입력 장치가, 예를 들어 트랙볼, 키패드, 터치 스크린 및 음성 인식 장치를 이용할 수 있다.
컴퓨터(12)는 데이터 송신 경로(25)를 경유하여 오디오 데이터를 포함하는 전자적으로 기억된 데이터베이스(26)로 액세스할 수 있다. 오디오 데이터는 적절한 오디오 소스(28)로부터 데이터베이스(26)내에 입력될 수 있다. 오디오 데이터는 예를 들어 방송 네트워크 또는 무선국과 같은 아날로그 또는 디지털형 오디오 소스일 수 있는 오디오 소스(28)로부터 엔진(14)에 직접 입력될 수 있다는 것을 이해해야 한다. 또한, 데이터베이스(26)는 컴퓨터에 국부적으로 기억될 수 있는데, 이 경우, 경로(25)는 내부 컴퓨터 버스이며, 데이터베이스(26)는 컴퓨터(12)와 떨어져 있을 수도 있는데, 이 경우 경로(25)는 인터넷과 같은 근거리 통신망 또는 광역 통신망(wide area network)이다. 설명을 간단하게 하기 위해, 엔진(14)은 음성 인식 엔진(29)을 액세스한다. 음성 인식 엔진(29)은, 예를 들어 본 발명의 참고 문헌으로 이용된 본 발명의 양수인에게 양도된 미합중국 특허 제5,293,584호에 기재된 것과 같은 소정의 적합한 음성 인식 엔진일 수 있다. 음성 인식 엔진(29)은 본 발명의 양수인의 "Large Vocabulary Continuous Speech Recognition" 시스템일 수 있다.
본 발명의 예시적인 응용, 즉 요약 및 스키밍은 도 15를 참조할 수 있다. 블록(300)에서 시작하면, 수신된 오디오 스트림이 후술한 발견적으로 정의된 규칙을 이용하여 색인된다. 그 다음, 블록(302)에서 색인된 오디오의 요약이 사용자가 요구할 때마다 표시된다. 이러한 요약(304)은 도 16의 디스플레이 스크린(306)에 나타나는데, 디스플레이 스크린(306)은 모니터(18)(도 1) 상에 제공될 수 있다는 것을 이해하여야 한다. 도시한 바와 같이, 요약(304)은 잡음, 음성, 음악, 음성에서의 강조부, 웃음 소리, 동물(의 울부짖는) 소리 등을 포함하는 오디오 유형을 포함할 수 있다.
도 15의 블록(308)으로 이동하면, 시청 또는 재생 옵션이 재생 옵션 메뉴(310)(도 16)로부터 사용자에 의해 선택되며, 사용자 선택에 기초하여 선택된 오디오는 슬림화된다. 즉, 선택되지 않은 오디오를 생략하여 재생된다. 도시된 바와 같이, 사용자는 블록(302)에서 선택된 유형의 오디오의 재생을 시계열 시퀀스 또는 관계성, 요컨대 오디오가 실제로 선택된 종류일 가능성이나 신뢰도로 선택할 수 있다. 사용자가 "관계"를 선택할 경우, 프로세스는 사용자가 관심을 갖고 있는 오디오 이벤트만을 재생하기 위해 색인된 오디오를 분석하도록 도 15의 블록(312)으로 이동된다.
재생되는 오디오의 식별부가 스크린(306)상의 재생 윈도우(324)내에 표시될 수 있다. 오디오가 비디오로부터 추출될 경우, 비디오는 윈도우(314)상에 재생될 수 있다. 또한, 사용자는 이전 오디오 클립(clip)을 선택하기 위한 이전 버튼(316), 다음 오디오 클립을 선택하기 위한 다음 버튼(318) 및 선택된 클립을 듣기 위한, 즉 선택된 클립을 재생하기 위한 플레이(play) 버튼(320)을 선택할 수 있다. 그러나, 상술한 바와 같이, 본 발명은 워드 스폿팅에 의한 정보 검색 등 다른 용도도 있다. 용도에 관계없이, 오디오를 효과적으로 색인하기 위한 본 발명의 능력은 개량된 재현 능력으로 다른 애플리케이션의 실행을 보다 용이하게 하며, 워드 스폿팅의 경우에, 보다 정확하게 한다.
따라서, 이하에서 도 2를 참조로 본 발명의 논리에 따른 오디오 스트림 색인에 대해 기술한다. 블록(30)에서 시작하면, 오디오 스트림은 오디오 엔진(14)에 의해 수신된다. 스트림은 짧은 형태의 고속 퓨리에 변환(FFT) 함수를 이용하여 변환된 다음, FFT의 낮은 진폭 잡음 성분은 후술한 단계 전에 신호로부터 필터링된다는 것을 이해해야 한다.
블록(31)으로 이동하면, 스트림은 예를 들어 2 초의 지속 기간의 임의의 연속 간격으로 분할되는데, 각각의 간격은 다시 100 밀리초의 지속 기간의 한 개 이상의 세그먼트로 분할된다. 그러나, 다른 지속 기간의 간격 및 세그먼트가 본 발명의 범위 내에서 이용될 수 있다.
블록(31)으로부터, 논리는 세그먼트가, 보다 상세하게 후술하는 바와 같이 각 세그먼트의 오디오 특징을 결정함으로써 선정된 세트의 오디오 이벤트들 중 하나로서 최적으로 분류될 수 있는지의 여부를 판정하기 위해 각각의 세그먼트를 검사하기 위한 블록(32)으로 이동한다. 본 발명의 바람직한 실시예에 따른 선정된 오디오 이벤트는 침묵, 음성, 음악 중의 음성(speech on music)을 포함한다. 세그먼트가 분류될 수 없으면, 이것은 분류 미정 세그먼트로서 지정된다.
논리는 다음 블록(33)으로 진행하며, 여기서 각각의 간격은 그 간격을 오디오 이벤트들 중 하나의 이벤트와 관련시킴으로써 분류된다. 즉 각각의 간격은 블록(32)에서 얻어진 세그먼트의 검사 결과에 기초하여 상술한 오디오 이벤트들 중 하나의 이벤트와 상관된다. 그 다음, 블록(34)에서, 시계열 시퀀스(소정의 한도에서, 필요하다면, 때때로 누락된 간격)가 한 세트의 발견적으로 사전 정의된 메타 패턴 유형들 중 하나의 유형과 일치하는지의 여부가 결정된다. 오디오 신호 또는 스트림내의 메타 패턴의 존재는 블록(33)에서 얻어진 간격 분류에 기초하여 오디오 스트림에서 식별된다. 예를 들어, 임의의 순서로 음악, 음성 및 음악 중 음성에 관한 30 초 동안의 짧은 교번 순서가 사전 정의된 시판용(commerical) 메타 패턴 유형과 일치할 수 있으며, 따라서 발견적으로 결정되는 임의의 특정 메타 패턴 유형을 구성하는 블록(33)에서 그와 같이 분류될 수 있다. 또는, 음성-음악-음성의 간격 분류 순서는 교육/훈련 유형을 설정하도록 발견적으로 사전 정의된 메타 패턴과 일치할 수도 있다. 만화 영화 및 뉴스와 같은 다른 메타 패턴 유형이 마찬가지로 발견적으로 미리 정의될 수 있다. "방송 뉴스의 쉬는 시간"이라고 하는 메타 패턴을, 4개 만의 상업용 메타 패턴으로 정의하는 등, 메타 패턴의 메타 패턴을 발견적으로 정의하여 둘 수 있다. 따라서, 본 발명의 범위 내에 속하는 다수의 메타 패턴 유형이 발견적으로 정의될 수 있다. 이 때, 메타 패턴은 반드시 다양하게 분류된 간격의 사전 정의된 순서인 것을 알 수 있다.
블록(35)으로부터, 프로세스는 음성 인식 엔진(29)(도 1)으로 오디오 스트림의 선택된 부분을 처리하기 위한 블록(36)으로 이동한다. 음성 인식 엔진(29)은 처리하고자 하는 오디오 스트림의 일부를 한 개 이상의 문자 숫자식(alpha-numeric) 문자로 구성된 워드로 표현된 텍스트로 변환한다. 중요하게도, 전체 오디오 스트림이 블록(36)에서 처리될 필요는 없다. 대신에, 오디오 스트림의 일부만, 예를 들어 블록(35)에서 "뉴스 방송(newscasts)"으로서 분류된 것만 처리를 위해 음성 인식 엔진으로 송신될 수 있다. 여기에서 알 수 있듯이, 몇 가지 상이한 형태의 도메인/응용 음성 경계부를 포함할 수도 있는 긴 비구조적인 오디오 스트림을 음성 인식 엔진으로 처리하면, 음성 인식 엔진의 출력에 오류가 발생하게 할 수 있다. 예를 들어, 음성 인식 엔진은 음성과 음악을 모두 가지고 있는 세그먼트를 텍스트로 변환하고자 할 때 다수의 오류를 발생시킬 수 있다. 따라서, 특정한(적절한) 형태의 도메인/응용 음성 세그먼트만을 처리하는 것은 통상적인 음성 인식 엔진에서의 고유한 결점에 의해 야기된 오류를 감소시킨다.
또한, 블록(36)에서 나타낸 바와 같이, 선택된 오디오 부분은 텍스트로 변환되는 동안, "신뢰도" 가중치 및 "강조" 가중치라 칭하는 두가지 가중치를 이용하여, 워드들 중 적어도 일부, 바람직하게는 모두가 변환된다. 가중은 특정 워드가 후술한 바와 같은 음성에서의 "강조된" 세그먼트로부터 추출되는지의 여부에 일부분 기초를 두고 있다.
그 다음, 블록(37)에서, DO 루프는 다음의 두 기준, 즉, 워드가 적어도 N개의 문자만큼의 길이(여기서, N은 정수로서, 예를 들면, 3)를 가져야 하며, 워드가 적어도 90%의 신뢰도를 가지는 음성 인식 엔진(29)으로부터 리턴되어야 한다는 기준을 만족시키는 워드에 대해서만 실행된다. 신뢰도는, 원한다면 확률 범위일 수 있다. 그러므로, 본 발명은 음성 인식 엔진의 특징을 활용하여 보다 짧게 말한 워드를 텍스트로 변환하는데 있어서의 음성 엔진의 정확도에 비해서 보다 길게 말한 워드를 텍스트로 보다 정확하게 변환한다. 블록(37)에서의 단계는 N 보다 작은 길이의 워드는 색인되지 않는 필터라고 여겨질 수 있다. 대안으로서, 모든 길이의 워드가 블록(37)에서 고려될 수 있는데, 보다 짧은 워드는 나중에 제거되거나 검색시에 비교적 낮은 등급이 매겨진다.
DO 루프는 블록(38)으로 진행하며, 여기서 음성 엔진(39)은 검사중인 워드의 대안에 대해 질의한다. 블록(39)에서, 원한다면 모든 대안이 고려될 수 있겠지만, 검사 중인 워드와 함께 색인될 항목으로서 바람직하게는 전술한 두가지 대안이 식별된다. 검사 중인 워드와 마찬가지로, 가중치가 대안들에 할당된다. 이와 유사하게, 단일 워드 대안이 아닌 대체 워드 래티스(lattice)가 이용될 수 있다. 그 다음, 블록(40)에서, 스트림은, 예를 들어 오카피(Okapi)라는 당해 분야에 공지된 시스템과 같은 정보 검색 시스템에 의한 후속 검색을 위해 각각의 가중과 함께 워드 및 대안을 이용하여 색인된다. 상술한 설명을 염두에 두고서, 질의에 기초한 텍스트의 후속 정보 검색을 지원하기 위해서, 적절한 음성 세그먼트만이 블록(40)에서 색인된다는 것을 알 수 있다.
본 발명에 의해 인식된 검색과 관련하여, 워드 인식 시스템의 어휘에 존재하지 않는 워드는 발생되는 기록에도 존재하지 않을 것이다. 그러므로, 질의가 있을 경우, 어휘에 없는 워드(out-of-vocabulary word)는 어떠한 결과도 리턴하지 못할 것이다. 이 점을 고혀하면, Okapi와 같은 검색 시스템은, 질의가 아무런 결과도 리턴하지 않을 때 검색 시스템이 유사한 분야(예를 들어, 방송 뉴스, 사무 통신 및 의료)의 코퍼스(corpus)에서 파생된 시소러스(thesaurus)를 액세스하여, 질의에서 어휘에 없는 워드를 시소러스의 워드로 확장하거나 대체하도록 변경될 수 있다.
상술한 바와 같이, 가중치는 각각의 워드( 및 만일에 있다면, 대안)에 대해 계산된다. 워드에 할당된 가중치는 음성 인식 엔진에 의해 복귀된 관련 신뢰도, 역 문서 주파수(inverse document freqency) 및 워드가 강조되었는지의 여부를 포함하는 몇 가지 인자에 따라 다르다. 특히 바람직한 실시예에서, 워드의 가중치는 다음과 같이 결정된다.
만일
α1= 0.5 및 α2= 1 + α1(경험적 결정),
ld= 문서 d의 길이, l은 평균 문서 길이,
qk= 질의에 따른 k번째 항목,
Cd(qk)는 문서 "d"의 질의 항목 "k"에 대한 계수,
ECd(qk) = Edk는 문서 "d"의 질의 항목 "k"에 대한 예상 계수,
Cq(qk) = 질의 "q" 내의 k번째 항목의 계수,
Eq(qk) = Eqk질의 "q" 내의 k번째 항목의 예상 계수,
n(qk) = 항목 qk를 포함하는 문서의 수,
n'(qk) = 항목 qk를 포함하는 문서의 예상된 수,
Q' = 상술한 바와 같은 모든 교번 워드를 포함하는 질의 내의 항목의 총 수, N은 문서의 총 수,
pi(qk) = 워드 인식 엔진으로부터 k번째 질의 항목의 i번째 발생의 신뢰도를 나타내는 가중치,
ei(qk) = k번째 질의 항목의 i번째 발생에 따른 강조를 나타내는 가중
일 경우,
k번째 질의 항목에 대한 역 문서 주파수 = idf(qk):
idf(qk) = log {(N-n'(qk)+α1)/(n'(qk) + α1)} 및
질의 "q" = S(d,q)에 대한 문서 "d"의 등급에 대한 관련 스코어:
S(d,q) = {Edk*Eqk*idf(qk)}/{α1+ α2(id/i') + Edk}의 k=1에서 Q'까지의 합,
여기에서,
Edk= 문서 "d"에 대한 {pi(qk)*ei(qk)}의 i=1에서 Q'까지의 곱의 합,
Eqk = 질의 "q"에 대한 {pi(qk)*ei(qk)}의 i=1에서 Q'까지의 곱의 합이다.
질의가 타이핑되고, 모든 항목이 동일한 강조를 가질 때, ei(qk)는 상수, 예를 들어 "e"이다. 한편, 사용자가 항목의 강조를 변경시키고자 할 때, 사용자들은 "+word"와 같은 접두 기호(prefix symbol)내에 타이핑할 수 있는데, 이러한 경우에 ei(qk)는 시스템에 의해 총괄적으로 선택된 0과 1사이의 디폴트 값을 가지고 있다. 질의가 행해지면, 본래 강조된 항목이 있기 때문에, 음성에서 강조를 찾기 위한 아래의 논리가 사용되어 각 항목의 강조 접두사를 결정하며, ei(qk)는 0과 1사이의 값을 갖는다.
도 3은 오디오 스트림으로부터 각각의 세그먼트의 처리를 보다 상세하게 도시한 것이다. 블록(44)에서 시작하여, 각각의 k번째 세그먼트에 대하여 한 개 이상의 소리 특징이 블록(46)에서 결정되어 블록(48)에서 정규화되는 DO 루프가 제공된다. 구체적으로는, 블록(46)에서, 각각의 세그먼트에 대한 제로 교차율(ZCR), 에너지(E) 및 스펙트럼 에너지 농도(RSi) 및 다양한 기정의된 범위 i 내의 주파수가 결정될 수 있다. 후술한 바와 같이, 이러한 오디오 특징의 서브세트의 모두 또는 서브세트만이 이용될 수 있다.
제로 교차율은 세그먼트 내에서 오디오 신호 진폭이 제로 값을 통과하는 횟수를 의미한다. 에너지는 각각의 세그먼트의 오디오 신호 진폭의 제곱의(squared) 합을 의미한다. 이와 대조적으로, 각 세그먼트에 대한 스펙트럼 에너지 농도는, 복수의 RSi 값에 의해 설정된다. RSi 값은 각각 i 번째의 주파수 범위에 대응하며, 세그먼트에 존재하는 i 번째의 주파수 범위 각각의 주파수의 제곱의 합으로 정의된다. 바람직한 실시예에서, 4개의 주파수 범위가 이용된다. 일예로서는 제 1 주파수 범위(R1)는 0-1000 Hz이고, 제 2 주파수 범위(R2)는 1000-8000 Hz이며, 제 3 주파수 범위(R3)는 8000-16,000 Hz이고, 제 4 주파수 범위(R4)는 16,000 Hz를 초과한다.
그러나, 상술한 바람직한 특징 이외의 다른 오디오 특징이 이용될 수 있다. 예를 들면, 휘도(로그 주파수로서 기억된 짧은 형태의 퓨리에 진폭 스펙트럼의 중심)가 대역폭, 하모니시티(harmonicity)(음성의 선 스펙트럼의 완전 고조파 스펙트럼으로부터의 편차) 및 조성(調性 : tonality)과 마찬가지로 이용될 수 있다.
블록(48)에서, 계산된 오디오 특징이 통계적으로 정규화된다. 측정된 오디오 특징의 정규화된 버전은 모든 세그먼트에 걸쳐 측정된 오디오 특징과 이 특징의 평균치 사이의 차 및 모든 세그먼트에 대한 이러한 특징의 표준 편차의 몫(quotient)이다. 예를 들어, 세그먼트에 대한 정규화된 스펙트럼 에너지 농도(NRi)은 다음 식과 같이 제공된다.
NRi= (RSi- mean(RSi)/SRSi
도 4에는, 본 발명이 오디오 세그먼트를 검사하는 논리가 도시되어 있다. 도 4-10에는 음성, 침묵, 음악 등에 대한 여러 가지 검사를 규정하기 위한, 바람직한 임계치(threshold)를 수반하는 바람직한 발견적 방법(heuristics)이 도시되어 있고, 그 밖의 다른 발견적 방법 및/또는 임계치가 규정될 수 있다는 것을 이해하여야 한다. 블록(50)에서 시작하여, 간격내의 각각의 세그먼트에 있어서, DO 루프가 실행된다. 판단 블록(52)에서, 검사 중인 세그먼트의 모든 표본(sample) 주파수와 비교하여 제 1 주파수 대역(R1)에 있는 세그먼트의 주파수 퍼센테이지가 90%를 초과하는지의 여부가 판정된다. 44 KHZ의 바람직한 표본 주파수 및 100 ms의 세그먼트 지속 기간이 이용될 때, 세그먼트당 20개의 표본이 얻어질 수 있다.
세그먼트의 표본 주파수의 90% 이상이 제 1 주파수 대역(R1)내에 있을 경우, 프로세스는 블록(54)을 진행하고, 세그먼트가 "침묵(silence)"으로 표시되거나 또는 분류된다. 블록(54)으로부터 또는 검사 결가가 부정인 경우에는, 판단 블록(52)로부터, 간격내의 최종 세그먼트가 검사되었는지의 여부를 판정하기 위해 판단 블록(56)로 논리가 진행하고, 최종 세그먼트가 검사되지 않은 경우 다음 세그먼트를 얻기 위해 블록(58)으로 논리가 이동하며, 판단 블록(52)으로 귀환한다. 그러나, 최종 세그먼트가 검사되었으면, 논리는 상태(60)에서 종료한다.
도 5는 세그먼트가 음성의 세그먼트인지의 여부를 판정하기 위한 검사를 도시한 것이다. 블록(62)에서 시작하여, 간격내의 각각의 세그먼트에 대해 DO 루프가 실행된다. 판단 블록(64)에서는, 검사중인 세그먼트내의 모든 표본 주파수에 비해서 제 3 주파수 대역(R3)에 있는 세그먼트의 주파수의 비율이 15%를 초과하는지의 여부가 결정된다. 만일 초과한다면, Speedch Freq 카운터가 블록(66)에서 단위분만큼 증가한다.
블록(66)으로부터 또는 검사가 부정인 경우에는 판단 블록(64)로부터, 검사 중인 세그먼트의 제로 교차율(ZCR)이 6을 초과하는지를 판정하기 위해 판단 블록(68)으로 논리가 이동한다. 초과하는 경우, 음성 ZCR 카운터가 블록(70)에서 단위분만큼 증가한다. 블록(70)으로부터 검사가 부정인 경우에는 판단 블록(68)로부터, 간격내의 최종 세그먼트가 검사되었는지의 여부를 판정하기 위해 판단 블록(72)으로 논리가 진행하고, 검사되지 않은 경우, 다음 세그먼트를 얻기 위해 블록(74)으로 논리가 이동하며, 다시 판단 블록(64)로 돌아간다. 그러나, 최종 세그먼트가 검사되었다면, 논리는 도 6으로 진행한다.
본 발명에서 알 수 있는 바와 같이, 오디오 내에 고조파 주파수의 존재(또는 부재)는 오디오가 음악 또는 음성인지의 여부를 판정하는데 이용될 수 있다. 전형적으로, 음의 분석이나 악곡의 구조의 판정을 목적으로 음악적 조성 또는 코드를 분절하기 위해 스펙트럼 분석이 행해진다. 그러나, 본 발명은 음악적 고조파가 검출되지 않는 것을 신뢰할 수 있는 음성 검사의 기준으로 이용한다.
따라서, 도 6에 도시된 바와 같이, 본 발명의 바람직한 실시예에 따른 간격을 음성으로서 분류하기 위해, 세그먼트 간격을 검사한 후, 3가지 상황이 부합되어야 한다. 구체적으로, 판단 블록(73)에서 시작하여, 간격이 도 14에 도시된(후술하는) 논리에 따라서 "고조파"로서 표시되었는지의 여부가 판정된다. 부정인 경우(간격이 음성인 것으로 나타낼 경우), 판단 블록(74)으로 프로세스가 이동하며, 여기서 Speech Freq 주파수 카운터의 값이 간격내의 세그먼트의 수의 40%를 초과하는지의 여부가 판정된다. 다시 말하면, 판단 블록(74)에서, 검사 중인 간격내의 세그먼트의 적어도 40%가 도 5의 판단 블록(64)에서의 상황을 만족시키는지의 여부가 결정된다. 만일 만족시킨다면, 음성에 대해 제 2 검사를 적용하는 것, 즉 음성 ZCR 카운터의 값이 검사 중인 간격내의 세그먼트의 수의 20% 미만인지의 여부를 판정하기 위해 판단 블록(76)으로 논리가 이동한다. 다시 말하면, 판단 블록(76)에서, 검사 중인 간격내의 세그먼트의 20% 이하가 도 5의 판단 블록(68)에서의 상황을 만족시키는지가 판정된다. 도 6의 판단 블록(74)에서의 검사들 중 양자의 검사가 만족되지 않거나, 간격이 판단 블록(73)에서 고조파로 발견될 경우, 논리는 상태(78)에서 종료하고, 그렇지 않은 경우, 간격은 블록(80)에서 음성으로서 분류되어, 종료 전에 색인된다. 지금부터, 도 6의 프로세스의 끝에서 음성 카운터의 값에 기초하여 신뢰도가 발생될 수도 있는데, 신뢰도는, 나중에 간격의 시퀀스를 메타 패턴에 일치시키는데 이용하기 위해 음성으로 분류된 간격이 실제로 음성 및 가능성을 나타낸다는 것을 알수 있다.
지금부터 도 7를 참조하면, 세그먼트가 음악인지의 여부를 판정하기 위한 검사가 도시되어 있다. 블록(82)에서 시작하여, 간격내의 각각의 세그먼트에 대하여 DO 루프가 실행된다. 판단 블록(84)으로 진행하여, 검사중인 세그먼트내의 모든 표본 주파수에 비해서 제 3 주파수 대역(R3)내에 있는 세그먼트의 주파수 퍼센테이지가 15%를 초과하는 지의 여부가 결정된다. 만일 초과하면, 음악 주파수 카운터는 블록(86)에서 단위분 증가한다.
블록(86)으로부터 또는 검사가 부정인 경우에는 판단 블록(84)로부터, 검사 중인 세그먼트의 제로 교차율(ZCR)이 5 미만인지의 여부를 판정하기 위해 판단 블록(88)으로 논리가 이동한다. 만일 미만이면, 음악 ZCR 카운터가 블록(90)에서 단위분 증가한다. 블록(90)으로부터 또는 검사가 부정인 경우에는 판단 블록(88)로부터, 검사중인 세그먼트의 정규화된 제 3 스펙트럼 에너지 농도(NR3)(도 3의 블록(48)에서 결정된 바와 같이)이 100,000을 초과하는지의 여부를 판정하기 위해 판단 블록(92)으로 논리가 진행한다. 만일 초과하면, 음악 스펙트럼 EN 카운터가 블록(94)에서 단위분 증가한다. 블록(94)으로부터 또는 검사가 부정인 경우에는 판단 블록(92)으로부터, 간격내의 최종 세그먼트가 검사되었는지의 여부를 판정하기 위해 판단 블록(96)로 논리가 진행하며, 검사되지 않은 경우, 다음 세그먼트를 얻어서, 블록(98)으로 논리가 이동하여 판단 블록(84)로 돌아간다. 그러나, 최종 세그먼트가 검사되었다면, 논리는 도 8로 진행한다.
세그먼트 간격을 검사한 후, 간격을 음악으로서 분류하기 위해서는, 3가지 상황들 중 어느 하나의 상황이 만족되어야 한다. 특히, 판단 블록(100)에서 시작하여, 음악 주파수 카운터의 값이 간격내의 세그먼트의 수의 80%를 초과하는지의 여부가 판정된다. 만일 초과하면, 간격을 음악으로서 분류하고, 간격을 색인하여 종료하기 위해 블록(102)으로 논리가 이동한다. 그러나, 세그먼트가 판단 블록(100)에서 음악에 대한 제1 검사를 실패할 경우, 음악에 대한 제 2 검사를 적용하기 위해, 즉 음악 ZCR 카운터의 값이 검사 중인 간격내의 세그먼트의 수의 95%를 초과하는지의 여부를 판정하기 위해 판단 블록(104)로 논리가 진행한다. 제 2 검사가 만족되면, 논리는 블록(102)에서 간격을 음악으로서 분류하고, 그렇지 않은 경우, 음악에 대한 제 3 검사를 적용하기 위해 판단 블록(106)으로 논리가 이동한다.
판단 블록(106)에서, 음악 스펙트럼 EN 카운터의 값이 세그먼트의 수의 80%를 초과하는지의 여부가 결정된다. 이러한 검사가 만족될 경우, 간격은 블록(102)에서 음악으로서 분류된다. 3가지 음악 검사 모두가 실패할 때에만, 논리가 세그먼트를 "음악"으로서 분류하지 않고 상태(108)에서 종료된다.
도 9를 지금부터 참조하면, 세그먼트가 음악 중 음성(SOM)인지의 여부를 판정하기 위한 본 원의 검사가 도시되어 있다. 간격내의 각각의 세그먼트에 대해 DO 루프가 실행된다. 판단 블록(112)으로 진행하여, 검사 중인 세그먼트내의 모든 표본 주파수에 비해서 제 3 주파수 대역(R3)내의 세그먼트내의 주파수의 퍼센테이지가 15%를 초과하는지의 여부가 결정된다. 만일 초과하면, SOM 주파수 카운터가 블록(114)에서 단위분 증가한다.
블록(114)으로부터 또는 검사가 부정인 경우에는 판단 블록(112)로부터, 검사중인 세그먼트의 제로 교차율(ZCR)이 5 이상 10 미만인지의 여부를 판정하기 위해 판단 블록(116)으로 논리가 이동한다. 만일 그렇다면, SOM ZCR 카운터는 블록(118)에서 단위분 증가한다. 블록(118)으로부터 또는 검사가 부정인 경우에는 판단 블록(116)로부터, 검사중인 세그먼트의 정규화된 제 3 스펙트럼 에너지 농도(NR3)가 90,000을 초과하는지의 여부를 판정하기 위해 판단 블록(120)으로 논리가 진행한다. 만일 초과하면, SOM 스펙트럼 EN 카운터는 블록(122)에서 단위분 증가한다. 블록(122)으로부터 또는 겸사가 부정인 경우에는 판단 블록(12)로부터, 간격내의 최종 세그먼트가 검사되었는지의 여부를 판정하기 위해 판단 블록(124)으로 논리가 진행하고, 검사되지 않은 경우, 다음 세그먼트를 얻어, 블록(126)으로 논리가 이동하여 판단 블록(112)으로 돌아간다. 최종 세그먼트가 검사되었다면, 논리가 도 10으로 진행한다.
세그먼트 간격을 검사한 후, 간격을 "음악 중 음성"로서 분류하기 위해, 2가지 조건 중 하나의 조건, (이들중 하나는 복합)이 만족되어야 한다. 판단 블록(128)에서 시작하여, SOM ZCR 카운터가 간격내의 세그먼트의 수의 70%를 초과하는지의 여부가 결정된다. 만일 초과하면, 간격을 "음악 중 음성"로서 분류하고, 간격을 색인하여 종료하기 위해 블록(130)으로 논리가 이동한다. 그러나, 세그먼트가 판단 블록(128)에서의 제 1 검사를 실패할 경우, 음악 중 음성에 대한 제 2 복합 검사시의 제 1 부검사(subtest)를 적용하기 위해 판단 블록(132)으로 논리가 진행된다. 특히, 판단 블록(132)에서, 논리는 SOM 주파수 카운터의 값이 검사중인 간격내의 세그먼트의 수의 50% 미만인지의 여부를 판정한다. 제 1 부검사가 만족된 경우, 논리는 SOM ZCR 카운터의 값이 간격내의 세그먼트의 수의 15%를 초과하는지의 여부를 판정하기 위해 판단 블록(134)에서 제 2 부검사로 진행한다. 이러한 부검사가 긍정인 경우, 논리는 SOM 스펙트럼 EN 카운터의 값이 세그먼트의 수의 10%를 초과하는지의 여부를 판정하기 위해 판단 블록(136)으로 이동한다. 제 2 조합 검사에 따른 3가지 부검사 모두가 만족될 때에만, 논리는 간격을 음악 중 음성로서 분류하기 위해 블록(130)으로 이동하고, 판단 블록(132, 134, 136)에서의 부검사들 중 하나의 부검사가 실패할 경우, 간격을 음악 중 음성로서 분류하지 않고 상태(138)에서 논리가 종료한다. 침묵, 음성, 음악 또는 음악 중 음성로서 분류되지 않은 소정의 간격은 간격을 기억하기 전에 미결정으로 분류된다.
도 2와 관련하여 상술한 바와 같이, 오디오 스트림의 간격이 분류되었을 때, 간격의 시계열 그룹은 간격은 그룹이 메타 패턴들 중 하나의 패턴과 일치하는지의 여부를 판정하기 위해 미리 기억된(prestored) 메타 패턴 유형에 대해 일치된다. 그 다음에, 오디오 스트림이 메타 패턴에 기초하여 추가로 색인된다. 도 11은 스트림을 요약하고, 스트림을 스키밍하며, 스트림을 요점 정리하기 위해 색인될 때 사용자가 오디오 스트림을 어떻게 탐색할 수 있는지를 도시한 것이다.
블록(140)에서 시작하여, 사용자 요구 조건이 오디오 스트림에 수신된다. 블록(142)에서, 사용자 요구에 응답하여, 상술한 바와 같이 발생된 오디오 스트림의 색인을 이용하여, 오디오 스트림의 요구된 부분이 검색된다. 예를 들어, 사용자는 시판용이 아닌 교육 오디오를 액세스하기를 원할수도 있으며, "교육 메타 패턴"을 만족시키는 오디오 스트림 부분만이 블록(144)으로 복귀된다. 다시 말하면, 요구 조건 및/또는 이의 색인을 만족시키는 간격 또는 간격들이 블록(144)에서 임의의 순서로 복귀된다.
오디오 스트림의 색인은, 예를 들어 오디오 스트림을 요약하기 위한 사용자 요구 조건에 응답하여 블록(144)에 제공될 수 있다는 것을 이해하여야 한다. 이러한 리스트의 제시가 오디오 스트림의 요약이다. 색인을 이용하여, 사용자는 오디오 스트림의 간격을 통해 스크롤(scoll)할 수 있고, 사용자들이 스트림을 듣고, 스킴 및/또는 요점 정리하고자 하는 것을 선택할 수 있다.
오디오 스트림을 색인하기 위한 상술한 방법 이외에, 도 12 및 도 13은, 특히 음성으로서 분류된 오디오 이벤트내의 발견적으로 정의된 "관심 이벤트"에 의해 오디오를 색인하는데 부가적인 방법이 이용될 수 있다는 것을 도시한 것이다. 도 12의 블록(146)에서 시작하여, 내부에 음성을 가지고 있는 오디오 스트림내의 피치(pitch)의 변경이 검출된다. 제 1 논리 분기(branch) 다음에, 상기 방법은 본 발명의 참고 문헌으로 이용된 본 발명의 양수인에게 양도된 미합중국 특허 제5,293,584호에 기재된 것과 같은 음성 인식 시스템에 음성을 입력시키기 위해 블록(148)으로 이동한다. 블록(150)으로 진행하여, 음성 인식 시스템의 출력(워드)은 오디오 스트림을 색인하는데 이용된다.
블록(150)에서 오디오 스트림을 워드 내용으로 색인하는 외에, 블록(146)으로부터의 논리는 제 2 분기를 통해 블록(152)으로 진행하는데, 여기서 도 13과 관련하여 후술하는 바와 같이 음성내의 "관심 있는 이벤트"가 식별된다. 음성내의 "관심 있는 이벤트"의 구성 요소와, "관심 있는 이벤트"에 대한 검사는 발견적으로 결정된다. 도 12에 도시된 바와 같이, 관심 있는 이벤트는 음성에서의 강조, 음성에서의 머뭇거림 및 음성에서의 결론을 포함할 수 있다.
블록(154)으로 이동하여, 스트림이 음성을 포함할 때의 오디오 스트림은 관심있는 이벤트 간격의 시퀀스에 의해 설정된 메타 패턴으로 색인된다. 이러한 메타 패턴의 예로서, 이하에 후술하는 중요한 아이디어라고 하는 관심있는 이벤트의 메타 패턴이있는데, 이것은 강조 간격의 3 초(또는 그 이상) 시퀀스에 의해 설정된다. 그리고, 블록(156)에서, 오디오 스트림은 내부의 개별 관심 있는 이벤트에 기초하여서도 색인될 수 있다.
도 13을 지금부터 참조하면, 3개의 바람직한 관심 있는 이벤트/메타 패턴의 존재를 판정하기 위한 방법이 도시되어 있다. 블록(160)에서 시작하여, 오디오 스트림의 표본이 얻어진다. 하나의 바람직한 실시예에 있어서, 각각의 표본은 10 밀리초의 지속 기간을 갖는다.
블록(162)으로 진행하여, 각 표본의 지배적 주파수가 결정된다. 지배적 주파수 결정시에, 바람직한 실시예는 다음의 8개 주파수 대역을 고려한다.
R1-100㎐ 내지 3,000㎐, R2-3,000㎐ 내지 4,000㎐,
R3-4,000㎐ 내지 5,000㎐, R4-5,000㎐ 내지 6,000㎐,
R5-6,000㎐ 내지 6,500㎐, R6-6,500㎐ 내지 7,000㎐,
R7-7,000㎐ 내지 7,500㎐, R8-7,500㎐ 내지 8,000㎐.
각각의 표본에 있어서, 지배적 주파수는 다음과 같이 계산된다.
RnFreq = 표본의 총수로 나눈 n(n =1 내지 8)번째 대역내의 주파수의 수, 지배적 주파수 범위가 RnFreq에 대한 (8가지) 값들 중 가장 긴 하나의 값으로서 정의된다.
블록(164)으로 이동하여, 지배적 주파수가 히스토그램(histogram)으로 정규화된다. 오디오 스트림 표본의 지배적 주파수를 결정 및 정규화하면, 주파수의 상위 1%내에 지배적 주파수를 가지고 있는 표본을 식별하기 위해 블록(166)으로 과정이 이동한다.
먼저 판단 블록(168)으로 분기하면, 논리는 오디오 스트림내의 임의의 시퀀스가 하한 1%내에 지배적 주파수를 가지고 있는 100개 이상의 연속 표본을 포함하는지의 여부를 판정한다. 보다 짧거나 긴 기간이 이용될 수 있다는 것을 이해하여야 한다. 이러한 시퀀스가 발견될 경우, 논리는 상태(172)에서 종료하기 전에 음성내의 결론으로서 시퀀스를 분류 및 색인하기 위해 블록(170)으로 진행한다. 그렇지 않으면, 판단 블록(168)에서 논리가 분기하여 상태(172)에서 종료한다.
또한, 논리는 판단 블록(174)으로 분기하는데, 여기서 논리는 오디오 스트림내의 임의의 시퀀스가 상위 1%내에 지배적 주파수를 가지고 있는 100개 이상의 연속 표본을 포함하는지의 여부를 판정한다. 보다 짧거나 긴 기간이 이용될 수 있다는 것을 이해하여야 한다. 이러한 시퀀스가 발견되면, 논리는 상태(172)에서 종료하기 전에 시퀀스를 음성에서의 강조로서 분류 및 색인하기 위해 블록(176)으로 진행한다. 그렇지 않은 경우, 판단 블록(174)내의 논리는 분기하여 상태(172)에서 종료한다.
도 13에 도시된 바와 같이, 음성 시퀀스내에 강조가 발견되면, 논리는 블록(176)에서 판단 블록(178)로 진행하는데, 여기서 강조 시퀀스가 적어도 3 초 지속 기간을 갖는지의 여부가 결정된다. 그러나, 보다 짧거나 긴 지속 기간이 이용될 수 있다. 이러한 긴 강조 시퀀스가 발견되면, 논리는 블록(180)에서이 시퀀스를 중요한 아이디어로서 분류 및 색인한다. 블록(180)으로부터 또는 검사가 부정적인 경우에는 판단 블록(178)로부터, 논리는 상태(172)에서 종료한다.
더욱이, 음성내의 관심 있는 이벤트를 결정하기 위한 발견적 지도법은 피치의 변경율, 진폭 및 진폭의 변경율뿐 만 아니라, 그 밖의 다른 음성 특성을 고려하는 것을 포함할 수 있다.
도 14는 간격이 바람직하게는 도 6의 상술한 검사에 이용하기 위한 "고조파"주파수인지의 여부를 판정하기 위한 논리를 도시한 것이다. 블록(200)에서 시작하여, 간격내의 각각의 세그먼트에 대해 DO 루프가 실행된다. 판단 블록(202)으로 이동하여, 출력 주파수(fR)의 시퀀스가 직전의 세그먼트에 대한 출력 주파수(fR)의 시퀀스와 동일한지의 여부가 결정된다.
본 발명에서 알 수 있듯이, 출력 주파수(fR)와 관련하여, 주파수(f1)는 다음의 관계, f2= (i/i+1) * f1(여기에서, i는 2 이상의 정수)가 참인 상태를 유지할 경우 적어도 하나의 음악적 고조파 주파수(f2)를 갖는다. f1과 f2가 동시에 존재할 때, 출력 주파수(fR)는 관계 fR= f1/i로 주어진다. 이 출력 주파수(FR)이 판단 블록(202)에서 검사시에 이용된다.
판단 블록(202)에서 검사가 부정인 경우, 논리는 최종 세그먼트가 검사되었는지의 여부를 판정하기 위해 판단 블록(204)으로 이동하고, 그렇지 않은 경우 논리는 블록(206)에서 다음 세그먼트를 검색한다. 다시 말하면, 판단 블록(202)에서 검사가 긍정일 때, 논리는 검사중인 세그먼트를 고조파로서 명명하기 위해 블록(208)으로 진행한다.
최종 세그먼트가 검사되었을 때, 논리는 판단 블록(204)에서 판단 블록(210)로 진행한다. 판단 블록(210)에서, "고조파" 세그먼트의 임의의 시퀀스가 선정된 기간, 예를 들어 2 초와 적어도 같은지의 여부가 결정된다. 같지 않은 경우, 논리는 상태(212)에서 종료한다. 같지 않으면, 예를 들어 도 6의 검사에 이용하기 위해 블록(214)에서 간격에 "고조파" 라벨이 붙는다.
본원 명세서에 도시되고 상세하게 기술한 특정한 워드 스폿팅, 색인, 분류 및 검색용 자동 오디오 내용 분석 시스템 및 방법은 본 발명의 상술한 목적을 완전히 달성할 수 있지만, 이것은 본 발명의 바람직한 실시예이므로, 본 발명에 의해 완전하게 심사 숙고된 요지를 나타내는데, 본 발명의 범위는 당해 분야에 숙련된 기술자라면 알 수 있는 그 밖의 다른 실시예를 망라하므로, 본 발명의 범위는 첨부된 특허 청구의 범위로서만 제한된다.

Claims (23)

  1. 오디오 신호를 분석하는 방법에 있어서,
    한 개 이상의 세그먼트의 시계열 시퀀스(temporal sequence)를 각각 포함하는, 오디오 신호의 한 개 이상의 간격 내의 오디오 이벤트를 검출하는 단계와,
    상기 오디오 이벤트를 분석하여 관련된 음성 신뢰도로 음성 경계부를 식별하는 단계와,
    정확도를 개선하기 위해, 발견적으로 결정된 규칙을 이용하여 상기 음성 경계부 및 신뢰도에 기초하여 상기 오디오 신호를 색인하는 단계와,
    재현 능력(recall)을 개선하기 위해, 관련된 가중과 함께 상기 오디오 신호 내의 적어도 하나의 워드의 대안을 색인하는 단계와,
    상기 오디오 신호의 색인을 이용하여 상기 오디오 신호의 워드 스폿팅, 요약 및 스키밍 중 하나 이상을 행하는 단계
    를 포함하는 컴퓨터로 구현하는 오디오 신호 분석 방법.
  2. 적어도 하나의 오디오 신호를 분류 및 색인하기 위한 컴퓨터에서 사용가능한 코드를 가지고 있는 컴퓨터 사용가능 매체를 포함하는 데이터 기억 장치를 포함하는 컴퓨터에 있어서,
    한 개 이상의 세그먼트를 각각 포함하는 간격으로 상기 오디오 신호를 변환하는 논리 수단과,
    상기 간격의 세그먼트가 각각 적어도 하나의 오디오 이벤트를 나타내는 한 개 이상의 선정된 오디오 특징을 나타내는 지의 여부를 판정하는 논리 수단과,
    상기 판정 수단에 응답하여 상기 간격을 각각의 오디오 이벤트와 관련시킴으로써 상기 간격을 분류하는 논리 수단과,
    적어도 하나의 간격 그룹이 사전 정의된 세트의 메타 패턴 내의 메타 패턴과 일치하는 지의 여부를 판정하는 논리 수단과,
    상기 간격 그룹이 메타 패턴과 일치한다고 판정되면 상기 간격 그룹을 메타 패턴 분류와 관련시키는 논리 수단과,
    간격 분류 및 메타 패턴 분류에 기초하여 상기 오디오 신호를 색인하는 논리 수단
    을 포함하는 컴퓨터.
  3. 제 2 항에 있어서,
    상기 오디오 신호로부터의 워드를 변환하기 위해 음성 인식 엔진을 이용하여 상기 오디오 신호의 관련 부분만을 처리하는 논리 수단과,
    상기 워드의 적어도 일부에 대한 대안을 상기 음성 인식 엔진으로부터 수신하는 논리 수단과,
    상기 워드의 적어도 일부 및 대안에 대한 신뢰도를 상기 음성 인식 엔진으로부터 수신하는 논리 수단과,
    적어도 부분적으로는 상기 신뢰도에 기초하여 상기 워드 및 대안을 색인하는 논리 수단
    을 더 포함하는 컴퓨터.
  4. 제 3 항에 있어서,
    상기 대안은 N개의 문자 보다 길고 x%를 초과하는 신뢰도를 갖는 워드에 대해서만 수신되는 컴퓨터.
  5. 제 2 항에 있어서,
    각각의 선정된 오디오 특징은, 상기 오디오 신호의 적어도 일부분의 제로 교차율, 상기 오디오 신호의 적어도 일부분의 에너지, 상기 오디오 신호의 적어도 일부분의 스펙트럼 에너지 농도 및 주파수 중 한 개 이상에 기초를 두고 있는 컴퓨터.
  6. 제 2 항에 있어서,
    상기 간격을 분류하기 전에 상기 세그먼트를 정규화하는 논리 수단을 더 포함하는 컴퓨터.
  7. 제 6 항에 있어서,
    상기 사전 정의된 패턴 세트는 연속적인 음성, 및 음성과 조합된 음악을 포함하며, 발견적으로 정의되는 컴퓨터.
  8. 제 6 항에 있어서,
    상기 오디오 신호의 색인을 이용하여, 오디오 신호를 스키밍, 요점 정리(gisting) 및 요약하기 위해, 상기 간격 및 메타 패턴의 분류의 적어도 일부를 제공하는 논리 수단을 더 포함하는 컴퓨터.
  9. 제 2 항에 있어서,
    상기 간격의 세그먼트가 한 개 이상의 선정된 오디오 특징을 나타내는 지의 여부를 판정하는 논리 수단은
    간격 내의 각각의 세그먼트에 대해, 상기 세그먼트와 관련된 한 개 이상의 오디오 특징이 각각의 임계치와 같은 지의 여부를 판정하기 위한 수단과,
    상기 각각의 특징이 각각의 임계치와 같을 때 상기 한 개 이상의 오디오 특징과 관련된 한 개 이상의 카운터를 각각 증가시키는 수단과,
    상기 한 개 이상의 카운터를 상기 간격 내의 상기 세그먼트의 수와 비교하는 수단을 포함하고,
    상기 간격을 분류하는 논리 수단은 상기 비교 수단에 기초하여 상기 간격의 분류를 행하는 컴퓨터.
  10. 제 2 항에 있어서,
    상기 사전 정의된 오디오 이벤트 세트는 음성에서의 강조, 음성에서의 머뭇거림 및 음성에서의 결론을 더 포함하며, 상기 색인을 위한 논리 수단은 이에 기초하여 오디오 신호를 색인하는 컴퓨터.
  11. 제 10 항에 있어서,
    상기 간격을 분류하기 위한 논리 수단에 의해 음성으로서 분류된 적어도 하나의 간격 내의 한 개 이상의 지배적 주파수(dominant frequency)를 결정하는 수단과,
    한 개 이상의 세그먼트가 상기 지배적 주파수의 상위 N%(N은 수이다)를 포함할 때, 상기 한 개 이상의 세그먼트를 음성에서의 강조와 관련시키는 수단과,
    한 개 이상의 세그먼트가 상기 지배적 주파수의 하위 N%(N은 수이다)를 포함할 때, 상기 한 개 이상의 세그먼트를 음성에서의 결론과 관련시키는 수단
    을 더 포함하는 컴퓨터.
  12. 제 11 항에 있어서,
    모두 음성에서의 강조와 관련된 시계열 세그먼트가 선정된 기간보다 긴 기간을 정의하는 지의 여부를 판정하고, 만일 긴 경우에는 상기 시계열 세그먼트를 음성 중의 중요한 아이디어로서 색인하는 수단을 더 포함하는 컴퓨터.
  13. 오디오 신호를 분석하기 위한 방법에 있어서,
    상기 오디오 신호의 한 개 이상의 세그먼트의 시계열 시퀀스를 각각 포함하는 한 개 이상의 간격 내의 오디오 이벤트를 검출하는 단계와,
    상기 오디오 이벤트에 기초하여 상기 오디오 신호를 색인하는 단계와,
    상기 색인을 이용하여 상기 오디오 신호를 스키밍, 요점 정리 또는 요약하는 단계
    를 포함하는 컴퓨터로 구현하는 오디오 신호 분석 방법.
  14. 제 13 항에 있어서,
    상기 오디오 신호로부터의 워드를 변환하기 위해 음성 인식 엔진을 이용하여 상기 오디오 신호의 관련 부분만을 처리하는 단계와,
    상기 워드의 적어도 일부에 대한 대안을 엔진으로부터 수신하는 단계와,
    상기 워드의 적어도 일부 및 대안에 대한 신뢰도를 엔진으로부터 수신하는 단계와,
    적어도 부분적으로는 신뢰도에 기초하여 상기 워드 및 대안을 색인하는 단계
    를 더 포함하는 컴퓨터로 구현하는 오디오 신호 분석 방법.
  15. 제 13 항에 있어서,
    상기 검출 단계가
    간격의 상기 세그먼트가, 적어도 음악 및 음성을 포함하는 적어도 하나의 각각의 오디오 이벤트를 각각 나타내는 한 개 이상의 선정된 오디오 특징을 나타내는 지의 여부를 판정하는 단계와,
    상기 판정 단계의 판정 수단에 응답하여 상기 간격을 각각의 오디오 이벤트와 관련시킴으로써 상기 간격을 분류하는 단계와,
    적어도 하나의 간격 그룹이 사전 정의된 메타 패턴 세트내의 메타 패턴과 일치하는 지의 여부를 판정하는 단계와,
    상기 간격 그룹이 메타 패턴과 일치한다고 판정될 때, 상기 간격 그룹을 메타 패턴 분류와 관련시키는 단계를 포함하고,
    상기 오디오 신호의 색인 단계는 상기 간격 분류 및 상기 메타 패턴 분류에 기초하여 변환되는
    컴퓨터로 구현하는 오디오 신호 분석 방법.
  16. 제 15 항에 있어서,
    간격의 상기 세그먼트가 한 개 이상의 선정된 오디오 특징을 나타내는 지의 여부를 판정하는 단계는
    상기 간격 내의 각각의 세그먼트에 대해, 상기 세그먼트와 관련된 한 개 이상의 오디오 특징이 각각의 임계치와 같은 지의 여부를 판정하는 단계와,
    상기 각각의 특징이 각각의 임계치와 같을 때, 상기 한 개 이상의 오디오 특징과 관련된 한 개 이상의 카운터를 각각 증가시키는 단계와,
    상기 한 개 이상의 카운터를 상기 간격 내의 세그먼트의 수와 비교하는 단계를 더 포함하고,
    상기 간격 분류 단계에서의 간격 분류는 상기 비교 단계에 기초하여 이루어지는
    컴퓨터로 구현하는 오디오 신호 분석 방법.
  17. 제 16 항에 있어서,
    상기 간격을 분류하는 단계 중에 음성으로서 분류된 적어도 하나의 간격 내의 한 개 이상의 지배적 주파수를 결정하는 단계와,
    한 개 이상의 세그먼트가 상기 지배적 주파수의 상위 N%(N은 수이다)를 포함할 때, 상기 한 개 이상의 세그먼트를 음성에서의 강조와 관련시키는 단계와,
    한 개 이상의 세그먼트가 상기 지배적 주파수의 하위 N%(N은 수이다)를 포함할 때, 상기 한 개 이상의 세그먼트를 음성에서의 결론과 관련시키는 단계
    를 더 포함하는 컴퓨터로 구현하는 오디오 신호 분석 방법.
  18. 제 17 항에 있어서,
    모두 음성에서의 강조와 관련된 시계열 세그먼트가 선정된 기간보다 긴 기간을 정의하는 지의 여부를 판정하고, 만일 긴 경우에는 상기 시계열 세그먼트를 음성 중의 중요한 아이디어로서 정의 및 색인하는 단계를 더 포함하는 컴퓨터로 구현하는 오디오 신호 분석 방법.
  19. 적어도 하나의 오디오 신호를 색인하기 위한 방법을 컴퓨터에서 구현하는 컴퓨터 판독가능한 기록매체에 있어서,
    상기 방법은,
    상기 오디오 신호를 한 개 이상의 세그먼트를 각각 포함하는 간격으로 변환하는 단계와,
    간격의 상기 세그먼트가 상기 오디오 신호의 적어도 일부분의 제로 교차율, 상기 오디오 신호의 적어도 일부분의 에너지, 상기 오디오 신호의 적어도 일부분의 주파수 및 상기 오디오 신호의 적어도 일부분의 스펙트럼 에너지 농도를 포함하는 한 세트의 특징으로부터 선택되고, 적어도의 음악 및 음성을 포함하는 적어도 하나의 각각의 오디오 이벤트를 각각 나타내는 한 개 이상의 선정된 오디오 특징을 나타내는 지의 여부를 판정하는 단계와,
    상기 판정 단계에 응답하여 상기 간격을 각각의 오디오 이벤트와 관련시킴으로써 상기 간격을 분류하는 단계와,
    적어도 부분적으로는 상기 간격 분류에 기초하여 상기 오디오 신호를 색인하는 단계를 포함하는
    컴퓨터 판독가능한 기록매체.
  20. 제 19 항에 있어서,
    상기 방법은
    상기 오디오 신호로부터의 워드를 변환하기 위해, 음성 인식 엔진을 이용하여 상기 오디오 신호의 관련 부분만을 처리하는 단계와,
    상기 워드의 적어도 일부에 대한 대안을 엔진으로부터 수신하는 단계와,
    상기 워드의 적어도 일부 및 대안에 대한 신뢰도를 엔진으로부터 수신하는 단계와,
    적어도 부분적으로는 상기 신뢰도에 기초하여 상기 워드 및 대안을 색인하는 단계
    를 더 포함하는 컴퓨터 판독가능한 기록매체.
  21. 제 19 항에 있어서,
    상기 방법은
    적어도 하나의 간격 그룹이 사전 정의된 메타 패턴 세트 내의 메타 패턴과 일치하는 지의 여부를 판정하는 단계와,
    상기 간격 그룹이 메타 패턴과 일치한다고 판정되면, 상기 간격 그룹을 메타 패턴 분류와 관련시키는 단계를 포함하고,
    상기 오디오 신호의 색인 단계는 적어도 부분적으로는 상기 메타 패턴에 기초하는
    컴퓨터 판독가능한 기록매체.
  22. 제 21 항에 있어서,
    상기 방법은
    상기 간격 내의 각각의 세그먼트에 대해, 상기 세그먼트와 관련된 한 개 이상의 오디오 특징이 각각의 임계치와 같은 지의 여부를 판정하는 단계와,
    상기 각각의 특징이 각각의 임계치와 같을 때, 상기 한 개 이상의 오디오 특징과 관련된 한 개 이상의 카운터를 각각 증가시키는 단계와,
    상기 한 개 이상의 카운터를 상기 간격 내의 세그먼트의 수와 비교하는 단계를 더 포함하고,
    상기 간격 분류 단계에서의 간격 분류는 상기 비교 수단에 기초하여 행해지는
    컴퓨터 판독가능한 기록매체.
  23. 제 22 항에 있어서,
    상기 방법은
    상기 간격을 분류하는 단계중에 음성으로서 분류된 적어도 하나의 간격 내의 한 개 이상의 지배적 주파수를 결정하는 단계와,
    한 개 이상의 세그먼트가 상기 지배적 주파수의 상위 N%(N은 수이다)를 포함할 때, 상기 한 개 이상의 세그먼트를 음성에서의 강조부와 관련시키는 단계와,
    한 개 이상의 세그먼트가 상기 지배적 주파수의 하위 N%(N은 수이다)를 포함할 때, 상기 한 개 이상의 세그먼트를 음성에서의 결론과 관련시키는 단계를 더 포함하는
    컴퓨터 판독가능한 기록매체.
KR10-2000-0002364A 1999-01-19 2000-01-19 오디오 신호 분석 방법 및 컴퓨터와 기록매체 KR100380947B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9/234,663 1999-01-19
US09/234,663 1999-01-19
US09/234,663 US6185527B1 (en) 1999-01-19 1999-01-19 System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Publications (2)

Publication Number Publication Date
KR20000076488A KR20000076488A (ko) 2000-12-26
KR100380947B1 true KR100380947B1 (ko) 2003-04-21

Family

ID=22882300

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0002364A KR100380947B1 (ko) 1999-01-19 2000-01-19 오디오 신호 분석 방법 및 컴퓨터와 기록매체

Country Status (5)

Country Link
US (1) US6185527B1 (ko)
JP (1) JP3531729B2 (ko)
KR (1) KR100380947B1 (ko)
CN (1) CN1290039C (ko)
TW (1) TW469422B (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160039273A (ko) * 2013-07-26 2016-04-08 그린에덴 유.에스. 홀딩스 Ii, 엘엘씨 컨셉 검색 및 탐색 시스템 및 방법
US9971764B2 (en) 2013-07-26 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts
US10061822B2 (en) 2013-07-26 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts and root causes of events

Families Citing this family (226)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US6163510A (en) * 1998-06-30 2000-12-19 International Business Machines Corporation Multimedia search and indexing system and method of operation using audio cues with signal thresholds
US6833865B1 (en) * 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
WO2000045375A1 (en) * 1999-01-27 2000-08-03 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
US6891931B1 (en) * 1999-02-26 2005-05-10 Bellsouth Intellectual Property Corporation Methods and systems for enabling return to same position in a review of messages in a voice mail system using tag or identifier stored in the voice mail system
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6345253B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Method and apparatus for retrieving audio information using primary and supplemental indexes
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US9171545B2 (en) * 1999-04-19 2015-10-27 At&T Intellectual Property Ii, L.P. Browsing and retrieval of full broadcast-quality video
US7877774B1 (en) * 1999-04-19 2011-01-25 At&T Intellectual Property Ii, L.P. Browsing and retrieval of full broadcast-quality video
US6519564B1 (en) * 1999-07-01 2003-02-11 Koninklijke Philips Electronics N.V. Content-driven speech-or audio-browser
US7313808B1 (en) 1999-07-08 2007-12-25 Microsoft Corporation Browsing continuous multimedia content
US7293280B1 (en) * 1999-07-08 2007-11-06 Microsoft Corporation Skimming continuous multimedia content
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
US6876729B1 (en) * 1999-11-16 2005-04-05 Avaya Technology Corp. Bookmarking voice messages
US6925436B1 (en) * 2000-01-28 2005-08-02 International Business Machines Corporation Indexing with translation model for feature regularization
US7010485B1 (en) * 2000-02-03 2006-03-07 International Business Machines Corporation Method and system of audio file searching
US6513003B1 (en) * 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
US6868440B1 (en) * 2000-02-04 2005-03-15 Microsoft Corporation Multi-level skimming of multimedia content using playlists
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US7222163B1 (en) * 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
US8171509B1 (en) 2000-04-07 2012-05-01 Virage, Inc. System and method for applying a database to video multimedia
US7962948B1 (en) 2000-04-07 2011-06-14 Virage, Inc. Video-enabled community building
US7260564B1 (en) * 2000-04-07 2007-08-21 Virage, Inc. Network video guide and spidering
US6760699B1 (en) * 2000-04-24 2004-07-06 Lucent Technologies Inc. Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
US6728676B1 (en) * 2000-10-19 2004-04-27 International Business Machines Corporation Using speech recognition to improve efficiency of an inventory task
US8230323B2 (en) * 2000-12-06 2012-07-24 Sra International, Inc. Content distribution system and method
US20020095330A1 (en) * 2001-01-12 2002-07-18 Stuart Berkowitz Audio Advertising computer system and method
US7072328B2 (en) 2001-01-12 2006-07-04 Voicegenie Technologies Inc. Computer-implemented voice markup language-based server
US7379973B2 (en) * 2001-01-12 2008-05-27 Voicegenie Technologies, Inc. Computer-implemented voice application indexing web site
US7366759B2 (en) * 2001-02-22 2008-04-29 Parity Communications, Inc. Method and system for characterizing relationships in social networks
BR0207553A (pt) * 2001-02-23 2004-09-14 Popcatcher Inc Método e dispositivo para busca e gravação de sinais de mìdia
KR100798524B1 (ko) 2001-02-23 2008-01-28 팝캣처 에이비 매체 신호 검색 및 레코딩 방법 및 장치
US7062442B2 (en) * 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US7072908B2 (en) * 2001-03-26 2006-07-04 Microsoft Corporation Methods and systems for synchronizing visualizations with audio streams
US6907570B2 (en) * 2001-03-29 2005-06-14 International Business Machines Corporation Video and multimedia browsing while switching between views
US8924383B2 (en) * 2001-04-06 2014-12-30 At&T Intellectual Property Ii, L.P. Broadcast video monitoring and alerting system
US7039585B2 (en) 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
US6785656B2 (en) * 2001-06-05 2004-08-31 Xm Satellite Radio, Inc. Method and apparatus for digital audio playback using local stored content
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
US7225126B2 (en) 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
US7031444B2 (en) * 2001-06-29 2006-04-18 Voicegenie Technologies, Inc. Computer-implemented voice markup system and method
JP2004536348A (ja) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド 録音の自動識別
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
US6995309B2 (en) * 2001-12-06 2006-02-07 Hewlett-Packard Development Company, L.P. System and method for music identification
JP3886372B2 (ja) * 2001-12-13 2007-02-28 松下電器産業株式会社 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
KR20030059503A (ko) * 2001-12-29 2003-07-10 한국전자통신연구원 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
US7027983B2 (en) * 2001-12-31 2006-04-11 Nellymoser, Inc. System and method for generating an identification signal for electronic devices
KR20030070179A (ko) 2002-02-21 2003-08-29 엘지전자 주식회사 오디오 스트림 구분화 방법
US8046792B2 (en) * 2002-03-20 2011-10-25 Tvworks, Llc Multi-channel audio enhancement for television
US7489687B2 (en) * 2002-04-11 2009-02-10 Avaya. Inc. Emergency bandwidth allocation with an RSVP-like protocol
US20030229491A1 (en) * 2002-06-06 2003-12-11 International Business Machines Corporation Single sound fragment processing
US6996390B2 (en) * 2002-06-26 2006-02-07 Microsoft Corporation Smart car radio
SE524162C2 (sv) * 2002-08-23 2004-07-06 Rickard Berg Förfarande för att behandla signaler
US7466334B1 (en) 2002-09-17 2008-12-16 Commfore Corporation Method and system for recording and indexing audio and video conference calls allowing topic-based notification and navigation of recordings
AU2003248029B2 (en) * 2002-09-17 2005-12-08 Canon Kabushiki Kaisha Audio Object Classification Based on Statistically Derived Semantic Information
US7359979B2 (en) * 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US20040073690A1 (en) * 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US20040064306A1 (en) * 2002-09-30 2004-04-01 Wolf Peter P. Voice activated music playback system
US8176154B2 (en) 2002-09-30 2012-05-08 Avaya Inc. Instantaneous user initiation voice quality feedback
WO2004036543A2 (en) * 2002-10-18 2004-04-29 Ser Solutions, Inc. Methods and apparatus for audio data monitoring and evaluation using speech recognition
US7076427B2 (en) * 2002-10-18 2006-07-11 Ser Solutions, Inc. Methods and apparatus for audio data monitoring and evaluation using speech recognition
US7133828B2 (en) * 2002-10-18 2006-11-07 Ser Solutions, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
CA2502543C (en) * 2002-10-18 2014-08-05 Ser Solutions, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US7191129B2 (en) * 2002-10-23 2007-03-13 International Business Machines Corporation System and method for data mining of contextual conversations
US20060065102A1 (en) * 2002-11-28 2006-03-30 Changsheng Xu Summarizing digital audio data
FR2850783A1 (fr) * 2003-01-30 2004-08-06 France Telecom Dispositif pour indexer un signal audio continu de duree indeterminee
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
EP1465192A1 (en) * 2003-04-04 2004-10-06 Thomson Licensing S.A. Method for detection of acoustic events in audio signals
US7130623B2 (en) * 2003-04-17 2006-10-31 Nokia Corporation Remote broadcast recording
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
AU2003253233A1 (en) * 2003-08-18 2005-03-07 Nice Systems Ltd. Apparatus and method for audio content analysis, marking and summing
US7584101B2 (en) * 2003-08-22 2009-09-01 Ser Solutions, Inc. System for and method of automated quality monitoring
WO2005041109A2 (en) * 2003-10-17 2005-05-06 Nielsen Media Research, Inc. Methods and apparatus for identifiying audio/video content using temporal signal characteristics
US7379875B2 (en) 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US20050097120A1 (en) * 2003-10-31 2005-05-05 Fuji Xerox Co., Ltd. Systems and methods for organizing data
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
EP1531456B1 (en) * 2003-11-12 2008-03-12 Sony Deutschland GmbH Apparatus and method for automatic dissection of segmented audio signals
DE60318451T2 (de) * 2003-11-12 2008-12-11 Sony Deutschland Gmbh Automatische Zusammenfassung für eine Vorschlagsmaschine von Fernsehprogrammen beruhend auf Verbraucherpräferenzen
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
DE60318450T2 (de) * 2003-11-12 2008-12-11 Sony Deutschland Gmbh Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
GB2409087A (en) * 2003-12-12 2005-06-15 Ibm Computer generated prompting
US20050137867A1 (en) * 2003-12-17 2005-06-23 Miller Mark R. Method for electronically generating a synchronized textual transcript of an audio recording
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
TWI259719B (en) * 2004-01-14 2006-08-01 Mitsubishi Electric Corp Apparatus and method for reproducing summary
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US8064580B1 (en) 2004-09-03 2011-11-22 Confinement Telephony Technology, Llc Telephony system and method with improved fraud control
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
US7818179B2 (en) * 2004-11-12 2010-10-19 International Business Machines Corporation Devices and methods providing automated assistance for verbal communication
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8305507B2 (en) * 2005-02-25 2012-11-06 Samsung Display Co., Ltd. Thin film transistor array panel having improved storage capacitance and manufacturing method thereof
US8005675B2 (en) * 2005-03-17 2011-08-23 Nice Systems, Ltd. Apparatus and method for audio analysis
US7634407B2 (en) * 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US7825319B2 (en) * 2005-10-06 2010-11-02 Pacing Technologies Llc System and method for pacing repetitive motion activities
US20110072955A1 (en) 2005-10-06 2011-03-31 Turner William D System and method for pacing repetitive motion activities
US7688686B2 (en) * 2005-10-27 2010-03-30 Microsoft Corporation Enhanced table of contents (TOC) identifiers
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
KR100695009B1 (ko) * 2005-12-01 2007-03-14 한국전자통신연구원 소프트웨어 기반 프리필터링을 이용한 스트림 데이터 처리시스템 및 그 방법
JP5145939B2 (ja) * 2005-12-08 2013-02-20 日本電気株式会社 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
US7396990B2 (en) * 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US7653342B2 (en) * 2006-02-16 2010-01-26 Dell Products L.P. Providing content to a device when lost a connection to the broadcasting station
CN101063970B (zh) * 2006-04-24 2014-03-26 亿览在线网络技术(北京)有限公司 一种基于音频特征码识别技术的音频文件管理方法和系统
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
US7668721B2 (en) * 2006-05-22 2010-02-23 Microsoft Corporation Indexing and strong verbal content
EP2021979B1 (en) * 2006-05-30 2012-03-21 Yissum Research Development Company of the Hebrew University of Jerusalem Pattern matching
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US7894849B2 (en) * 2006-07-10 2011-02-22 Accenture Global Services Limited Mobile personal services platform for providing feedback
JP4453687B2 (ja) * 2006-08-03 2010-04-21 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
US20080046406A1 (en) * 2006-08-15 2008-02-21 Microsoft Corporation Audio and video thumbnails
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
US7617337B1 (en) 2007-02-06 2009-11-10 Avaya Inc. VoIP quality tradeoff system
WO2008096336A2 (en) * 2007-02-08 2008-08-14 Nice Systems Ltd. Method and system for laughter detection
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
GB2451419A (en) * 2007-05-11 2009-02-04 Audiosoft Ltd Processing audio data
WO2009003055A1 (en) * 2007-06-25 2008-12-31 University Of Southern California Alert when streaming media of live events on computer network
US20090006551A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Dynamic awareness of people
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8209171B2 (en) * 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US20090132252A1 (en) * 2007-11-20 2009-05-21 Massachusetts Institute Of Technology Unsupervised Topic Segmentation of Acoustic Speech Signal
US8185539B1 (en) * 2008-08-12 2012-05-22 Foneweb, Inc. Web site or directory search using speech recognition of letters
CN101493987B (zh) * 2008-01-24 2011-08-31 深圳富泰宏精密工业有限公司 手机声控遥控系统及方法
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
US8229921B2 (en) * 2008-02-25 2012-07-24 Mitsubishi Electric Research Laboratories, Inc. Method for indexing for retrieving documents using particles
GB2457897A (en) * 2008-02-27 2009-09-02 N S C Natural Speech Comm Ltd Audio File Management, Search and Indexing Method and System
US8489992B2 (en) * 2008-04-08 2013-07-16 Cisco Technology, Inc. User interface with visual progression
US8311188B2 (en) * 2008-04-08 2012-11-13 Cisco Technology, Inc. User interface with voice message summary
US8751531B2 (en) * 2008-08-29 2014-06-10 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
JP5472641B2 (ja) * 2008-08-29 2014-04-16 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びプログラム
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US20100161604A1 (en) * 2008-12-23 2010-06-24 Nice Systems Ltd Apparatus and method for multimedia content based manipulation
JP5398602B2 (ja) * 2009-03-20 2014-01-29 本田技研工業株式会社 言語処理装置
KR100999655B1 (ko) * 2009-05-18 2010-12-13 윤재민 디지털 비디오 레코더 시스템 및 그것의 운용방법
US9196254B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for implementing quality control for one or more components of an audio signal received from a communication device
TWI416367B (zh) * 2009-12-16 2013-11-21 Hon Hai Prec Ind Co Ltd 電子裝置及音訊資料的版權保護方法
US8417524B2 (en) * 2010-02-11 2013-04-09 International Business Machines Corporation Analysis of the temporal evolution of emotions in an audio interaction in a service delivery environment
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
EP3418917B1 (en) * 2010-05-04 2022-08-17 Apple Inc. Methods and systems for synchronizing media
US9015046B2 (en) * 2010-06-10 2015-04-21 Nice-Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers
US20110307258A1 (en) * 2010-06-10 2011-12-15 Nice Systems Ltd. Real-time application of interaction anlytics
US9292667B1 (en) 2010-11-10 2016-03-22 Amazon Technologies, Inc. Location based community
US8825661B2 (en) 2010-11-30 2014-09-02 International Business Machines Corporation Systems and methods for two stream indexing of audio content
KR20120064582A (ko) * 2010-12-09 2012-06-19 한국전자통신연구원 멀티미디어 컨텐츠 검색 방법 및 장치
US20120155663A1 (en) * 2010-12-16 2012-06-21 Nice Systems Ltd. Fast speaker hunting in lawful interception systems
EP2659482B1 (en) * 2010-12-30 2015-12-09 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
US8825478B2 (en) 2011-01-10 2014-09-02 Nuance Communications, Inc. Real time generation of audio content summaries
WO2012098425A1 (en) * 2011-01-17 2012-07-26 Nokia Corporation An audio scene processing apparatus
CN102622353B (zh) * 2011-01-27 2013-10-16 天脉聚源(北京)传媒科技有限公司 一种固定音频检索方法
US8719022B2 (en) * 2011-04-29 2014-05-06 Nexidia Inc. Compressed phonetic representation
CN107911743B (zh) * 2011-08-26 2021-02-26 谷歌有限责任公司 用于确定媒体项正被呈现的置信水平的系统和方法
US9443518B1 (en) 2011-08-31 2016-09-13 Google Inc. Text transcript generation from a communication session
CN102572372B (zh) * 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
US9384734B1 (en) * 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
US11089405B2 (en) * 2012-03-14 2021-08-10 Nokia Technologies Oy Spatial audio signaling filtering
JP5242826B1 (ja) * 2012-03-22 2013-07-24 株式会社東芝 情報処理装置及び情報処理方法
CN102664007B (zh) * 2012-03-27 2016-08-31 上海量明科技发展有限公司 用于生成字符标识内容的方法、客户端及系统
US9275139B2 (en) 2012-03-30 2016-03-01 Aurix Limited “At least” operator for combining audio search hits
JP6140579B2 (ja) * 2012-09-05 2017-05-31 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US8612211B1 (en) 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9087508B1 (en) * 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
US20140161263A1 (en) * 2012-12-10 2014-06-12 Microsoft Corporation Facilitating recognition of real-time content
US20150310869A1 (en) * 2012-12-13 2015-10-29 Nokia Corporation Apparatus aligning audio signals in a shared audio scene
US9374629B2 (en) 2013-03-15 2016-06-21 The Nielsen Company (Us), Llc Methods and apparatus to classify audio
US9734208B1 (en) * 2013-05-13 2017-08-15 Audible, Inc. Knowledge sharing based on meeting information
WO2014191054A1 (en) * 2013-05-31 2014-12-04 Longsand Limited Processing of audio data
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US10297287B2 (en) 2013-10-21 2019-05-21 Thuuz, Inc. Dynamic media recording
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
EP2899723A1 (en) * 2013-12-16 2015-07-29 Thomson Licensing Method for accelerated restitution of audio content and associated device
EP3117429A2 (en) * 2014-03-10 2017-01-18 Veritone, Inc. Engine, system and method of providing audio transcriptions for use in content resources
US10229686B2 (en) 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
JP2016126481A (ja) * 2014-12-26 2016-07-11 ブラザー工業株式会社 デバイス制御プログラム、デバイス制御方法及びデバイス制御装置
CN104715033A (zh) * 2015-03-16 2015-06-17 太原理工大学 一种阶梯式音频检索方法
US10789939B2 (en) 2015-06-25 2020-09-29 The University Of Chicago Wearable word counter
US10134424B2 (en) * 2015-06-25 2018-11-20 VersaMe, Inc. Wearable word counter
US10959648B2 (en) 2015-06-25 2021-03-30 The University Of Chicago Wearable word counter
US10178350B2 (en) * 2015-08-31 2019-01-08 Getgo, Inc. Providing shortened recordings of online conferences
US9548046B1 (en) * 2015-10-01 2017-01-17 VersaMe, Inc. Continuous analysis word counter
EP3244408A1 (en) * 2016-05-09 2017-11-15 Sony Mobile Communications, Inc Method and electronic unit for adjusting playback speed of media files
US20170371615A1 (en) * 2016-06-22 2017-12-28 Qualcomm Incorporated Alerting a user to a change in an audio stream
US10642889B2 (en) 2017-02-20 2020-05-05 Gong I.O Ltd. Unsupervised automated topic detection, segmentation and labeling of conversations
WO2018170876A1 (en) * 2017-03-24 2018-09-27 Microsoft Technology Licensing, Llc A voice-based knowledge sharing application for chatbots
CN107086040B (zh) * 2017-06-23 2021-03-02 歌尔股份有限公司 语音识别能力测试方法和装置
CN107390872A (zh) * 2017-07-24 2017-11-24 沙洲职业工学院 一种声控计算机
US10547708B2 (en) 2017-10-25 2020-01-28 International Business Machines Corporation Adding conversation context from detected audio to contact records
US10657202B2 (en) 2017-12-11 2020-05-19 International Business Machines Corporation Cognitive presentation system and method
US11276407B2 (en) 2018-04-17 2022-03-15 Gong.Io Ltd. Metadata-based diarization of teleconferences
KR102036721B1 (ko) * 2018-05-16 2019-10-25 주식회사 한글과컴퓨터 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11375293B2 (en) * 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
CN109547695A (zh) * 2018-12-12 2019-03-29 山东交通学院 基于声音分类算法定向捕捉画面的全息视频监控系统及方法
US10831824B1 (en) * 2019-07-01 2020-11-10 Koye Corp. Audio segment based and/or compilation based social networking platform
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
AU2868092A (en) * 1991-09-30 1993-05-03 Riverrun Technology Method and apparatus for managing information
US5436653A (en) 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5293584A (en) 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5404510A (en) 1992-05-21 1995-04-04 Oracle Corporation Database index design based upon request importance and the reuse and modification of similar existing indexes
GB2285895A (en) * 1994-01-19 1995-07-26 Ibm Audio conferencing system which generates a set of minutes
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
US5787387A (en) 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5764852A (en) 1994-08-16 1998-06-09 International Business Machines Corporation Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events
JPH0863184A (ja) 1994-08-18 1996-03-08 Matsushita Electric Ind Co Ltd 音声認識方法
JPH0887292A (ja) 1994-09-16 1996-04-02 Glory Ltd 単語音声認識装置
US5712953A (en) 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US5794249A (en) 1995-12-21 1998-08-11 Hewlett-Packard Company Audio/video retrieval system that uses keyword indexing of digital recordings to display a list of the recorded text files, keywords and time stamps associated with the system
US6098082A (en) 1996-07-15 2000-08-01 At&T Corp Method for automatically providing a compressed rendition of a video program in a format suitable for electronic searching and retrieval
JPH1049189A (ja) 1996-07-30 1998-02-20 Matsushita Electric Ind Co Ltd 音声認識装置
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160039273A (ko) * 2013-07-26 2016-04-08 그린에덴 유.에스. 홀딩스 Ii, 엘엘씨 컨셉 검색 및 탐색 시스템 및 방법
US9971764B2 (en) 2013-07-26 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts
US10061822B2 (en) 2013-07-26 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts and root causes of events
KR102111831B1 (ko) * 2013-07-26 2020-05-15 그린에덴 유.에스. 홀딩스 Ii, 엘엘씨 컨셉 검색 및 탐색 시스템 및 방법

Also Published As

Publication number Publication date
JP2000259168A (ja) 2000-09-22
US6185527B1 (en) 2001-02-06
CN1261181A (zh) 2000-07-26
KR20000076488A (ko) 2000-12-26
CN1290039C (zh) 2006-12-13
JP3531729B2 (ja) 2004-05-31
TW469422B (en) 2001-12-21

Similar Documents

Publication Publication Date Title
KR100380947B1 (ko) 오디오 신호 분석 방법 및 컴퓨터와 기록매체
US6697564B1 (en) Method and system for video browsing and editing by employing audio
US6714909B1 (en) System and method for automated multimedia content indexing and retrieval
EP1244093B1 (en) Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus and methods and programs for implementing the same
US10133538B2 (en) Semi-supervised speaker diarization
Hauptmann et al. Informedia: News-on-demand multimedia information acquisition and retrieval
JP4981026B2 (ja) 複合ニュース・ストーリーの合成
US8635065B2 (en) Apparatus and method for automatic extraction of important events in audio signals
US6507838B1 (en) Method for combining multi-modal queries for search of multimedia data using time overlap or co-occurrence and relevance scores
KR100388344B1 (ko) 컨텐츠 및 화자 정보를 이용한 오디오 정보 검색 방법 및장치
US7617188B2 (en) System and method for audio hot spotting
EP1571670B1 (en) Systems and methods for generating audio thumbnails
EP1692629B1 (en) System & method for integrative analysis of intrinsic and extrinsic audio-visual data
US6798912B2 (en) Apparatus and method of program classification based on syntax of transcript information
US20050249080A1 (en) Method and system for harvesting a media stream
US20080046406A1 (en) Audio and video thumbnails
US20050004690A1 (en) Audio summary based audio processing
WO1999036863A2 (en) System and method for selective retrieval of a video sequence
US7962330B2 (en) Apparatus and method for automatic dissection of segmented audio signals
US7949667B2 (en) Information processing apparatus, method, and program
Al-Maathidi et al. NNET based audio content classification and indexing system
Clements et al. Phonetic searching of digital audio
Zhang et al. Automatic generation of music thumbnails
Doğan et al. Content-Based Retrieval of Audio in News Broadcasts
Emnett Synthetic News Radio: content filtering and delivery for broadcast audio news

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060310

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee