KR20030017522A - 가사/시각정보와 오디오 재생의 동기화 - Google Patents

가사/시각정보와 오디오 재생의 동기화 Download PDF

Info

Publication number
KR20030017522A
KR20030017522A KR1020027015884A KR20027015884A KR20030017522A KR 20030017522 A KR20030017522 A KR 20030017522A KR 1020027015884 A KR1020027015884 A KR 1020027015884A KR 20027015884 A KR20027015884 A KR 20027015884A KR 20030017522 A KR20030017522 A KR 20030017522A
Authority
KR
South Korea
Prior art keywords
data
voice
audio
timestamp
audio file
Prior art date
Application number
KR1020027015884A
Other languages
English (en)
Inventor
동제 리
카렌 트로바토
무랄리드하만 라마스와미
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20030017522A publication Critical patent/KR20030017522A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/163Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing by receiver means only
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • H04N21/41265The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43079Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on multiple devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Abstract

오디오 재생에 시각정보를 동기시키는 방법은, 표시장치에 연관된 메모리에 기억된 리스트로부터 원하는 오디오 파일을 선택하는 단계; 원격장치가 원하는 오디오 파일의 재생을 시작하게 표시장치에서 원격장치로 신호를 보내는 단계; 상기 시각정보가 상기 원하는 오디오 파일의 재생에 동기하여 표시되게, 타임스탬프 데이터에 따라 상기 원하는 오디오 파일에 연관된 시각정보를 표시장치에 표시하는 단계를 포함하고, 상기 원하는 오디오 파일의 재생 시작과 상기 표시단계의 시작은 표시장치로부터의 신호의 함수이다.

Description

가사/시각정보와 오디오 재생의 동기화{Synchronizing text/visual information with audio playback}
많은 시스템들이 음악이 연주될 때 표시장치에 곡의 가사를 보여줄 수 있다. 가라오케와 관련된 종래의 표시장치는 예들 들면, 통상적으로, 기록된 리릭 데이터(lyric data)에 따라 곡의 가사들을 나타내는 표시장치를 마련한다. 리릭 데이터는 사전설정된 구(phrase) 단위의 형태로 기록되고, 이 구의 세그먼트 위치는 곡의 가사들의 표시된 라인을 다른 라인으로 변경하도록 적응된다.
가라오케 시스템들에서의 문제는 고가의 수동 편집을 요한다는 것이다. 그러므로, 곡의 가사 파일 생성 비용을 보장할만큼 곡이 상업적으로 인기 있지 않다면, 원하는 곡의 가사 파일을 사용자가 얻을 수 없다. 더욱이, 가라오케 시스템들은 통상 휴대형이 아니어서 대형화면을 요한다. 또한, 리릭 표시에 있어서는 통상 특정의 표시장치에 맞추어 표시된다. 이에 따라, 특정의 표시장치에 사용되게 제작된 리릭 데이터가 다른 표시장치(예를 들면, 더 작은 화면을 구비한 다른 표시장치)에 사용한다면, 한 구의 가사들이 1라인 상에 표시되지 않을 수도 있다.
미국특허 6,062,867은 악곡이 진행됨에 따라 표시장치 상에 곡의 가사들의 표시상태가 점차로 변경되는 리릭 표시장치를 개시하고 있다. 리릭의 표시상태는 사전설정된 시간간격에서 사전설정된 분량으로 곡의 단어들 각각에 대해 기억시켜 둔 생성 타이밍 데이터에 근거하여 변경된다.
미국특허 6,053,740은 한 라인 상에 표시할 사전설정된 개수의 단어들을 정의하는 제1 라인 변경 코드와, 라인 상에 표시된 단어들의 세그먼트 위치를 정의하는 제2 라인 변경 코드를 포함하는 리릭 데이터를 기억시킨 리릭 표시장치를 제공한다.
기술의 진보에도 불구하고, 가사 혹은 그 외 다른 시각적 정보를 이에 연관된 오디오에 동기시키는 정확하고 효과적인 장치 및 방법에 대한 필요성이 여전히 존재한다. 단어들의 오디오 버전에 동기하여 곡의 단어들을 나타냄으로써 사용자가 따라 갈 수 있게 하는 표시장치에 대한 필요성도 존재한다.
본 발명은 일반적으로 가라오케 시스템들 등에서 사용하기 위한 곡들의 가사를 시간에 맞추어 표시하는 것에 관한 것으로, 특히 가사 및 시각정보를 오디오 재생에 동기시키는 장치 및 방법에 관한 것이다.
도 1은 일반적인 오디오 데이터의 분류를 도시한 블록도이다.
도 2는 오디오 신호들의 다수의 서로 다른 유형들로부터의 파형 세그먼트들을 도시한 것이다.
도 3은 오디오 특징 추출을 위한 도구들의 구성을 도시한 블록도이다.
도 4a는 2차원 구획된 공간을 도시한 그래프이다.
도 4b는 도 4a에 대응하는 판정 트리를 도시한 블록도이다.
도 5는 휴지부 검출 프로세스의 여러 단들에서의 오디오 신호를 도시한 것이다.
도 6은 본 발명에 따른 분할 프로세스를 도시한 것이다.
도 7은 곡의 음성부분과 비-음성부분을 그래픽으로 나타낸 것이다.
도 8은 샘플 곡의 가사를 도시한 것이다.
도 9a 및 도 9b는 연관된 타임스탬프 파일의 대응하는 버전과 함께 샘플 곡의 가사를 도시한 것이다.
도 10은 본 발명에 따른 타임스탬프 생성 프로세스의 전반적인 개요를 도시한 흐름도이다.
도 11은 본 발명에 따른 타임스탬프 생성 프로세스를 수행하기 위한 기반으로서 사용될 수 있는 각종 입력 요소들을 도시한 흐름도이다.
도 12는 타임스탬프 값들의 조정을 도시한 그래픽도이다.
도 13은 본 발명에 따라 사용하기 위한 휴대 표시장치를 도시한 것이다.
도 14는 본 발명에 따라 가사 및/또는 시각정보를 오디오 재생에 동기시키는 방법을 도시한 흐름도이다.
본 발명의 목적은 오디오 처리 기술을 사용하여 오디오(구체적으로, 음악) 재생에 연관된 가사 혹은 그 외 시각정보를 동기화시킨다. 본 발명은 사용자의 개시에서 얻을 수 있는 단어들 혹은 리릭을 취하고, 단어들이 적용되는 곳을 정하기 위해 곡들을 세그먼트하고, 각 세그먼트의 시작 및 종료 시간을 추출하고, 각 세그먼트에 타임스탬프 값들을 할당하고, 사용자가 따라갈 수 있게 동기하여 단어들을 표시할 수 있다.
본 발명은 가라오케 유형의 응용에 특히 적용할 수 있고, 이 경우 오디오 파일은 곡이며 시각정보는 곡의 가사이다. 타임스탬프 데이터는 시각정보를 대응하는 보이스 및 비-보이스 세그먼트들에 상관시키기 위해서 할당된다. 표시장치는 오디오 파일을 재생할 수 있는 원격장치에서 시작 시퀀스를 개시하고, 오디오 파일의 재생에 동기하여 시각정보를 표시하도록 구성된다. 또한, 휴대장치에 시각정보의 출력을 제공함으로써, 각자는 서로 상이한 뷰를 가질 수 있고, 이에 따라 편리하게 이동할 수 있다.
본 발명의 일 면에서, 표시장치에 연관된 메모리에 기억된 리스트로부터 원하는 오디오 파일을 선택하는 단계; 원격장치가 원하는 오디오 파일의 재생을 시작하게 표시장치에서 원격장치로 신호를 보내는 단계; 상기 시각정보가 상기 원하는 오디오 파일의 재생에 동기하여 표시되게, 타임스탬프 데이터에 따라 상기 원하는 오디오 파일에 연관된 시각정보를 표시장치에 표시하는 단계를 포함하고, 상기 원하는 오디오 파일의 재생 시작과 상기 표시단계의 시작은 표시장치로부터의 신호의 함수이다.
본 발명은 오디오 처리 기술을 사용하여 오디오 재생에 연관된 가사 혹은 그 외 다른 시각 정보를 동기시키는 효과적인 방법을 제공한다. 본 발명의 일 면에 따라서, 오디오 파일은 보이스 구간과 비-보이스 구간으로 세그먼트함으로써 오디오 파일에 연관된 시각정보간에 동기화를 향상시킨다.
이하의 설명은 다음과 같이 구성되어 있다. 먼저, 오디오 신호들의 분류에 사용되는 다양한 시간영역 특징과 스펙트럼 영역 특징에 대해 배경설명을 한다. 이어서, 도 1의 오디오 분류 시스템(40)에 의해 수행되는 각종의 처리단계들 각각에 대해서 개별적으로 설명한다.
구체적으로, 오디오 분류 시스템(40)은 도 2 및 도 3에 관련하여 후술되는 특징 추출 단계(42), 도 4a, 도 4b, 도 5에 관련하여 후술되는 휴지부 검출 단계(44), 도 6에 관련하여 후술되는 오디오 분할 단계 46, 및 도 6에 관련하여 후술되는 오디오 세그먼트 분류 단계(48)로 구성된다.
마지막으로, 가사 및 시각적 정보를 오디오 재생에 동기시키는 것에 대한 설명으로 설명을 마친다.
시간 및 스펙트럼 영역 특징 용어
먼저 도 2 및 도 3에서, 단시간 평균 에너지를 계산하는 도구를 AvgEnergy라 칭한다. AvgEnergy의 식은 다음과 같이 표현된다.
여기서,
W는 처리 윈도우의 크기이고, s(i)는 이산 시간 오디오 보이스이다.
다음의 몇 가지 스펙트럼 특징들처럼, 스펙트럼 중심은 시간축을 따라 프레임 단위로 수행되는 단시간 프리에 변환에 기초하여 계산된다.이 제i 프레임의 단시간 푸리에 변환을 나타낸다고 하면, 이 경우 M은 가장 큰 주파수 대역에 대한 지수(index)이다. 프레임 i의 스펙트럼 중심은 다음과 같이 하여 계산된다.
프레임 i의 FFT의 대역폭은 다음과 같이 하여 계산될 수 있다.
스펙트럼의 롤오프(Rolloff) 주파수(SRF)는 통상 낮은 에너지의 무성음의 음성 구간들에 대해선 매우 높으며 비교적 높은 에너지를 가진 음성 구간들에 대해선 훨씬 낮다. 그러나, 음악과 잡음은 서로 유사한 특성이 없어, 이 때문에 이러한 특징은 음성과 다른 유형들의 오디오 보이스들간을 분별하는데 있어 잠재적으로 유용한 특징이다. SRF의 정의는 다음과 같이 주어진다.
여기서 TH는 0과 1 사이의 임계값이다.
대역 에너지 비(BER)가 서로 상이한 방법들로 정의될 수 있을지라도, 근본적으로 여러 가지 정의들간에는 큰 차이는 없다. BER은 다음과 같이 하여 계산된다.
여기서 h=M/4이다.
델타 스펙트럼 크기는 음성/음악 판별기에 있어서는 매우 적합한 특징이다. 이것은 다음과 같이 주어진다.
제로-크로싱 레이트(ZCR)는 스펙트럼 중심의 상관도이다. 이것은 처리 윈도우 내의 시간영역 제로 크로싱들의 개수로서 정의된다.
이를테면 화자(speaker) 식별, 음성분석, 및 오디오 정보 검색과 같은 많은 응용들에선 피치 윤곽선(pitch contour) 정보가 사용된다. 많은 사용가능한 피치 검출 알고리즘들 중에서도, 고전적인 자기상관 기반의(auto-correlation based) 피치 추적기는 확실성이 있으므로 이것이 이용될 것이다. 대부분의 불필요한 시간 소비적인 자기상관 계산을 피하고 검출 정확도를 최적으로 하기 위해서, 피치 검출 방식에 일련의 수정 방법들이 채택된다.
몇 가지 분류 방법들을 사용하여 13가지 시간 및 스펙트럼 특징들을 여러 가지로 조합한 것들을 평가하였다. 이들 평가에 따르면 2-웨이 음성/음악 판별기의 경우 분류 정확도가 90% 이상인 것으로 나타났으나, 음성, 음악, 및 공존의 음성과 음악을 판별하기 위해 동일 세트의 특징들을 사용하는 3-웨이 분류기의 경우엔 약65%뿐인 것으로 나타났다. 음성 인식 분야에서 널리 사용되는 켑스트럼 기반의 특징들도 조사되었다. 멜-켑스트럼(Mel-cepstral)의 자기상관(AC-Mel) 파라미터들은 음성 내 강세 상태의 분류에 적합한 특징들인 것으로서 제안되었다. 14개의 멜-주파수 켑스트럼 계수들(MFCC)을 사용해서, 오디오 데이터를 7개의 카테고리로 분류할 수 있다. 카테고리는 스튜디오 음성, 필드 음성, 배경음악이 있는 음성, 잡음이 섞인 음성, 음악, 묵음, 및 나머지 오디오 패턴들을 포괄하는 가비지(garbage)이다.
오디오 분류 시스템(40)은 오디오 신호를 각종의 카테고리의 세그먼트들로 분리하도록 오디오 신호를 처리한다. 본 발명에 관련하여 사용되는 연속 GAD를 위한 7가지 오디오 카테고리는 묵음, 단일 화자 음성, 음악, 주변 잡음, 복수 화자들의 음성, 공존하는 음성과 음악, 및 음성과 잡음으로 구성된다. 배경 잡음 카테고리는 전경 사운드가 없는 잡음을 지칭한다. 공존의 음성과 음악 카테고리는 배경음악과 함께 한 노래와 음성을 모두 포함한다. 본 발명에 의해 고찰되는 (묵음을 제외한) GAD의 7개 카테고리에 대한 대표적인 파형들을 도 2에 도시하였다.
쉽게 재사용이 가능하고 확장이 가능한 설계를 용이하게 하고 특징 평가 작업을 보다 쉽게 하기 위해서, 도 3에 도시한 청각 툴박스(20)를 개발하였다. 청각 툴박스(20)는 두 다스(dozen) 이상의 도구들을 구비한다. 각 도구는 오디오 데이터 분석 중에 빈번하게 필요로 되는 하나의 기본 동작을 맡는다. 툴박스(20)를 사용함으로써, 버퍼 관리 및 최적화, 상이한 처리 과정들간의 동기화, 및 제외 처리와 같은 스트림 오디오 데이터의 처리에 관계된 많은 까다로운 작업들이 사용자들에게 아무런 부담이 되지 않게된다. 툴박스(20)에 현재 구현된 연산들은 주파수 영역 연산들, 시간 영역 연산들, 및 이를테면 단시간 평균화, 로그 연산, 윈도우 처리 및 클리핑과 같은 기본적인 수학적 연산들을 포함한다. 모든 도구들 간에는 공통되는 통신협약이 정의되므로, 한 도구로부터의 결과들을 제한없이 다른 유형들의 도구들이 공유할 수 있다. 따라서, 툴박스 내 도구들은 각종의 응용 및 요건을 수용하도록 매우 유통성 있게 구성될 수 있다.
특징추출(42)
도 3은 특징 추출 단계(42)(도 1)에서 6 세트의 음향적 특징들을 추출하는데 사용되는 도구들의 구성을 도시한 것이다. 이러한 구성의 도구들은 MFCC(22), 선형 예측 계수들(LPC)(24), 델타 MFCC(26), 델타 LPC(28), 자기상관 MFCC(30), 및 몇몇의 시간 및 스펙트럼 특징들을 포함한다. 계속되는 3개의 단계 44, 46, 48에서 사용되는 음향적 특징들은 입력된 오디오 원시 데이터(raw data)로부터 시간축을 따라 프레임 단위로 추출됨에 유념한다.
MFCC들(22)은 필터 뱅크 고속 프리에 변환(FFT) 스펙트럼들의 이산 코사인 변환(DCT)을 사용하여 추출된다. 계산은 시간축을 따라 윈도우 내 입력 데이터에 대해 프레임 단위로 수행된다. 스퀘어 및 해밍 윈도우들을 포함하여 몇 가지 유형들의 윈도우들이 사용될 수 있다.
LPC들(24)의 추출은 자기상관 방법을 사용하여 구현된다. 각 처리 단계에서, 12개의 계수들이 추출된다.
델타 MFCC(26), 델타 LPC(28), 및 자기상관 MFCC(30) 특징들은 MFCC(22) 혹은 LPC(24)의 이동에 대한 정량적인 측정들을 제공한다. 이들은 음성 분야에서 일부 응용들에서 채택되었다. 이들 특징들의 정의들은 다음과 같이 주어진다.
여기서,는 각각 프레임 i의 v번째의 MFCC 및 LPC를 나타낸다. L은 상관 윈도우 길이이다. 첨자 l은 상관 래그(correlation lag)의 값이다. 상기 음향적 특징들에 기초하여, 오디오 세그먼트들의 분류에 사용되는 보다 많은 특징들이 인접한 프레임들의 음향적 특징들을 분석함으로써 더 추출될 수 있다.
실험결과에 따르면, 보다 긴 기간, 예를 들면 600ms에 걸친 오디오 데이터의 특성에 대응하는 이들 특징들은 오디오 세그먼트들의 분류에 더 적합하다. 오디오 세그먼트 분류에 사용되는 특징들은, (i) 해당 프레임을 중심으로 어떤 수의 연속한 프레임들에 대한 음향적 특징들의 평균과 편차; (ii) 휴지 레이트(pause rate)(임계치보다 낮은 에너지를 가진 프레임 수와 고찰되는 레임 총 수 간의 비); (iii) 조화성(harmonicity)(유효한 피치값을 갖는 프레임 수와 고찰되는 프레임 총 수 간의 비); 및 (iv) MFCC, 델타 MFCC, 자기상관 MFCC, LPC, 및 델타 LPC의 에너지의 합을 포함한다.
휴지부 검출(44)
휴지부 검출(44)은 입력된 오디오 클립을 비-보이스 세그먼트들과 보이스 세그먼트들로 분리하는 것이다. 여기서, 휴지부는 파열 자음이나 약간 머뭇거림에 의해 야기되는 것이 아니라, 청취자가 사운드 부재 기간인 것으로 판단하는 시간 구간을 의미한다. 따라서 휴지부 검출기가 사람이 인지하는 것과 일치하는 결과를 발생하는 것이 매우 중요하다.
GAD로부터 휴지부 기간들을 검출하는 단계 44에서 3단계 과정이 구현될 수 있다. 구체적으로, 휴지부 검출 프로세스(44)는 (i) 오디오 데이터의 각 프레임을 보이스 혹은 휴지부로서 구획하는 것과, 이에 이어서 (ii) 필-인 프로세스(fill-in process)와, (iii) 스루웨이 프로세스(throwaway process)로 구성된다. 단계 42에서 툴박스에 의해 추출된 특징들에 근거하여, 입력 오디오 데이터는 먼저 프레임별로 보이스 혹은 휴지 프레임으로서 마킹되어 초벌적인 경계들을 얻는다. 프레임별 분류는 도 4b에 도시한 판정 트리 알고리즘을 사용하여 행해질 수도 있다. 판정 트리는 계층적 특징 공간 구획 방법에 기초하여 얻어진다. 도 4a 및 도 4b에, 2차원 특징 공간에 대한 구획결과와 휴지부 검출을 위한 이의 대응하는 판정 트리를 도시하였다. 제1 단계에서 얻어진 결과들은 대개는 비-보이스 음성 및 약간의 머뭇거림도 반영하므로, 휴지부에 대해 사람의 인지에 더 일관되는 결과를 발생하기 위해서 계속되는 두 단계에서 필-인 및 스루웨이 프로세스들이 적용된다.
필-인 프로세스에서, 휴지구간, 즉 필-인 임계치보다 작은 길이를 가진 휴지 프레임들의 연속한 시퀀스는 보이스 세그먼트(voice segment)로서 재표시(relabelling)되고 이웃한 보이스 세그먼트들과 병합된다. 스루웨이 프로세스에서는, 임계 강도 값보다 작은 강도 값을 갖지만 보이스로 표시된 세그먼트는 비-보이스 세그먼트로서 다시 표시된다. 보이스 세그먼트의 강도(strength)는 다음과 같이 정의된다.
여기서 L은 보이스 세그먼트의 길이이고 Ti는 도 4a에 도시한 가장 낮은 보이스 레벨에 대응한다. 곧바로 세그먼트의 길이를 사용하는 대신에 세그먼트 강도를 정의하는 기본적인 생각은, 일시적인 사운드 버스트의 세그먼트들이 스루웨이 프로세스 동안에 비-보이스로서 재표시되지 않도록 보이스의 에너지를 고려하는 것이다.
도 5는 휴지부 검출 알고리즘의 3 단계를 도시한 것이다. 도 5에 4개의 서로 다른 라인 그래프를 도시하였다. 그래프 62는 소스로부터 수신된 원시 오디오 입력신호를 도시한 것이다. 그래프 64는 원시 데이터를 정규화한 것을 도시한 것으로 강한 오디오 신호들의 부분들을 사각파로 나타내었다. 그래프 66에, 사각파들을 전체로서 평가하여 최소 이격된 이웃한 사각파(square wave)들은 합쳐졌다. 그 다음, 그래프 66 내지 68로부터, 각각의 특정의 오디오 신호의 강도가 평가되었으며 그래프 66의 중앙에 있는 한 피크는 오디오 신호가 약하기 때문에 제거되었다.
전술한 바와 같이, 휴지부 검출단(44)은 보이스와 비-보이스이라는 두 종류의 세그먼트들을 제공한다. 비-보이스 세그먼트들은 이미 분류되었으므로 어떤 다른 처리는 필요없다. 그러나, 보이스 세그먼트는 천이점들, 즉 분류 전에 현 신호의 카테고리가 바뀌는 위치들을 마크하기 위해서 추가 처리가 필요하다.
분할(46)
천이점들을 찾기 위해서, 분할 방법(46)은 브레이크 검출 및 브레이크 병합이라는 두 연속한 단계들의 프로세스를 사용한다. 브레이크 검출 단계에서, 보이스 세그먼트에 걸친 큰 검출 윈도우를 이동시키고 각각의 슬라이딩 위치에서 윈도우의 서로 다른 반쪽 부분들의 평균 에너지를 비교한다. 이에 따라 두 유형들의 브레이크가 검출된다.
온셋 브레이크 :인 경우
오프셋 브레이크 :인 경우
여기서는 각각 검출 윈도우의 제1 반 부분과 제2 반 부분의 평균 에너지이다. 온셋 브레이크는 증가된 신호 에너지로 인한 오디오 카테고리의 변경 가능성을 나타낸다. 마찬가지로, 오프셋 브레이크는 에너지가 낮아짐에 기인한 현 신호의 카테고리의 변경을 암시한다. 브레이크 검출 윈도우가 신호를 따라 슬라이딩되기 때문에, 현 신호의 오디오 카테고리의 단일 천이가 몇 개의 계속되는 브레이크들을 발생한다. 이러한 일련의 브레이크들의 병합은 분할 프로세스의 제2 단계에서 달성된다. 이 단계에서, 동일한 유형의 이웃한 브레이크들은 단일의 브레이크로 병합된다. 오프셋 브레이크는 그 바로 다음의 온셋 브레이크가 가까이 있다면 그 온셋 브레이크와 병합된다. 이것은 한 신호의 끝부분과 또 다른 신호의시작 부분사이의 임의의 작은 갭을 메꾸기 위해 행해진다.
도 6은 신호 브레이크들의 검출 및 병합기에 의한 분할 프로세스(46)를 도시한 것이다. 분류기는 오디오 데이터의 연속한 비트-스트림을 겹치지 않는 서로 상이한 세그먼트들로 파싱하되, 각 세그먼트가 그 클래스 면에서 동질의 것이 되도록 파싱한다. 분할-풀링(pooling) 방법은 경계 효과를 감소시키고 사람이 인지하는 것과 일치되는 분류 결과들을 생성하는 효과적인 방법이다. 한 카테고리에서 다른 카테고리로의 천이는 분류 오류를 야기할 수 있기 때문에, 분할-풀링 방법은 이러한 오류를 감소시키는 효과적인 방법을 제공한다. 분할-풀링 방법의 분할 부분은 한 유형의 오디오에서 다른 유형의 오디오로의 천이가 일어나고 있는 보이스 세그먼트들 내 경계들을 찾는데 사용된다. 이 부분은 입력에서 보이스 세그먼트들 내 경계들을 찾기 위해서, 보이스가 얼마나 빨리 변하고 있나를 나타내는 것인, 온셋 및 오프셋 측정들을 사용한다. 분할 처리(46)의 결과는 보다 작은 동질의 보이스 세그먼트들을 제공한다. 분할-풀링 방법의 풀링 성분은 분류(48)에서 사용된다. 이것은 분할된 보이스 세그먼트를 분류하기 위해서 프레임별 분류의 풀링을 포함한다.
오디오 세그먼트 분류(48)
오디오 세그먼트를 분류하기 위해서, 먼저 세그먼트의 각각과 모든 프레임을 분류한다. 프레임들은 도 6에 도시한 바와 같이, 신호에 의해 생성된 에너지 파형(72)을 따라 점차로 이동되는 슬라이딩 윈도우(70)에 의해 정의된다. 그 다음, 프레임 분류 결과들을 통합하여 전체 세그먼트에 대한 분류 라벨을 얻는다.이 통합은 각각의 오디오 카테고리에 할당된 프레임 수를 카운트하는 풀링 프로세스에 의해 수행된다. 카운트할 때 가장 빈번히 나타난 카테고리를 세그먼트에 대한 오디오 분류 라벨로서 취한다. 프레임을 분류하는데 사용되는 특징들은 그 프레임으로부터 올뿐만 아니라 언급한 다른 프레임들로부터도 온다. 분류는 각 카테고리가 다차원 가우스 분포를 갖는다는 가정하에 베이시안 분류기(Bayesian classifier)를 사용하여 수행된다. 프레임 분류를 위한 분류 규칙은 다음과 같이 나타낼 수 있다.
여기서 C는 후보 카테고리들의 총 수이다(이 예에서 C는 6임). 그러나, 바람직한 실시예에서, 후보 카테고리들의 총 수는 2이다. 첫 번째는 "보이스"(단어들 혹은 노래")을 나타낸다. 두 번째는 "비-보이스"(악기, 잡음, 묵음 등과 같은 보이스 이외의 신호). c*는 분류 결과이고, x는 분석되고 있는 프레임의 특징벡터이다. 양m c,S c, 및 pc는 각각 클래스 c의 평균벡터, 공분산 행렬, 및 확률을 나타내며, D2(x,m c,S c)는xm c간 마할라노비스 거리(Mahalanobis distance)를 나타낸다.m c,S c, 및 pc는 알려져 있지 않기 때문에, 이들은 최대 귀납적(MAP) 추정기를 사용하여 결정된다.
분류 알고리즘은 가장 가능성 있는 종별을 정하기 위해서 최소 증분의 시간(예를 들면, 초)을 사용한다. 이것은 보다 짧은 증분으로 발생할 수도 있을 과도적인 종별들의 수를 감소시킨다. 근본적으로, 분류 알고리즘은 평활화 함수(smoothing function)이다.
음성 매핑은 입력된 가사를 확인된 음성 세그먼트들에 매핑시키는 프로세스이다. 가사는 이를테면 각각의 절(verse)의 끝에서와 같이 긴 휴지부들이 발생하는 가외의 공백 라인에서 얻어질 수 있는 것이 이상적이다. 도 7의 예에서는 두 개의 음성 세그먼트들, S1, S2이 있다. 사용자는 도 8과 같이 각 절의 끝을 나타내는 공백 라인(102)과 더불어 가사(100)를 입력하였다. 이어서 단어들에는 후술하는 바와 같이, 도 9a 혹은 도 9b처럼 타임스탬프가 할당될 것이다.
가장 단순한 경우에, "파라그래프"들의 수는 도 7에 도시한 바와 같이 곡의 "음성 유" 부분들이 될 것이다. 따라서, 절 내의 각 라인들을 보기 위한 "타임스탬프"는 선형형태로 제공될 것이다. 분류 변경을 나타내는 타임스탬프는 한 카테고리의 끝과 다른 카테고리의 시작을 정의할 것이다. 곡의 끝에, 표시 화면들을 소거하기위해서 공백의 텍스트, 혹은 예를 들면 "~끝~"과 같은 텍스트 표시자가 있는 타임스탬프를 갖게 하는 것이 바람직하다. 공백 라인들 없이 가사가 입력되었다면, 가사는 활용가능한 음성-세그먼트들에 걸쳐 선형으로 분포된다.
타임스탬프 파일들의 예를 도 9a 및 도 9b에 도시하였다. 도 9a 및 도 9b의 타임스탬프(110)(일반적으로 초로 측정됨)는 곡의 가사(112)의 좌측에 도시되었다.
도 9a에서 타임스탬프들(110)은 실제 경과되는 시간으로서 나타내었다. 즉, 제1 타임스탬프 값이 15이므로, 마이송 시작 후 15초에서, 가사의 첫째 라인이 표시될 것이다. 제1 라인은 5초 동안, 즉 15초의 경과시간부터 20초의 경과시간까지표시될 것이다. 경과시간이 20초가 되면, 가사의 제2 라인이 표시될 것이다. 곡의 나머지 라인들이 나머지 타임스탬프 값들에 따라 순차적으로 표시될 것이다.
대안으로서의 실시예에서, 도 9b에서 타임스탬프들(110)은 지연 시간들로서 도시되었다. 결과는 동일할지라도, 이 경우엔 10초 동안 표시되는 공백 라인이 있고 가사의 제1 라인의 표시는 5초간 표시된다. "표시 후 지연" 루프로 동작하는 시스템들의 경우, 지연들이 즉시 사용될 수 있게 지연들로서 시간들이 산출된다.
가사 표시 타이밍은 표시장치의 능력에 따라 다를 것이다. 즉, 절이 너무 길거나, 화면 길이가 너무 짧다면, 전체 화면이 표시될 수 없고, '누적된 지연'(즉, 지연들의 합)은 단어들이 한번에 전체 페이지로 표시될 경우 다음 페이지로 넘어가기 전에 지연된 시간량과 같다.
본 발명에 따라 타임스탬프 정보를 결정함에 있어 몇 가지 기술들이 사용될 수도 있다. 먼저 도 10은 본 발명에 따른 타임스탬프 생성 프로세스의 전반적인 개요를 도시한 흐름도를 도시한 것이다.
타임스탬프 파일을 생성시키는데에 연관된 두 가지 기본적인 동작이 있다. 첫 번째는 음악(200)을 검색하여 이를 관계된 카테고리들로 분할하는 것이다. 두 번째는 음악(200)에 연관된 가사(210)를 검색하여 선택적으로 가사를 패턴화하는 것이다. 이어서 타임스탬프 파일(230)을 형성하기 위해서 타임스탬프 생성기(220)을 통해 음악(200)을 가사(210)에 매치시킨다. 타임스탬프 파일(230)이 한번 생성될 수 있고, 그러면 선택적으로 다른 사용자들과 공유될 수 있다(예를 들면, 인터넷을 통해서). 타임스탬프 파일(230)은 여기서는 표시 시스템(240)이라 하는 표시장치를 갖춘 장치에 로딩된다.
곡이 선택되었을 때, 표시 시스템(240)은 곡(200)과 동기하여 가사(210)를 표시한다. 표시 시스템(240)은 예를 들면 필립스 전자에서 제작한 Pronto(등록상표)일 수 있다. Pronto(등록상표)는 음악 및 가사와 함께 디스플레이 시퀀스를 동시에 시작되게 하는 적외 방사(IR) 명령을 송신한다. 동시 시작 능력에 의해서, 예를 들면 콤팩트 디스크(CD) 플레이어와 같은 별도의 기존의 원격장치가 제어될 수 있으나 Pronto(등록상표) 상에 표시되는 단어들은 그렇지 않다. 이것은 새로운 재생 시스템을 구입하지 않고도 가사의 동시 표시가 달성될 수 있으므로 잇점이 있다.
타임스탬프 생성 프로세스에 음악의 가사를 제공하는 많은 수단들이 있다. 단어들의 가사 파일이 제공되는 것이 바람직하다. 가사를 배송하는 수단들은 데이터를 읽는 배송 메카니즘, 수동입력, 네트워크에 의한 전송, 무선송신, 착탈가능 기억장치 기술 및 그 외 이 기술에 통상의 지식을 가진 자에게 알려진 수단을 포함한다. 예를 들면, 리릭은 CD-롬 상에 데이터 트랙들로부터의 리릭, 디지털 텔레비전 송신에 포함된 것으로 RDS FM 서브-캐리어, 페이저를 통해 배송되는 데이터, 인터넷으로부터 검색되는 데이터, 스마트미디어, 콤팩트플래시 메모리 카드들 혹은 메모리 스틱스와 같은 착탈가능 매체를 통해 데이터의 전송에 의해 음악을 듣는 자에 의해 수동으로 타입핑된 데이터를 읽고 저장함으로써 배송될 수 있다.
타임스탬프 생성은 각 단어에 문장 혹은 파라그래프의 총 길이에 근거하여 타임스탬프 값을 할당하는 것만큼이나 간단할 수 있다. 더 특징적인 정보를 사용할 수 있게 됨으로써, 이 프로세스는 더 정확한 타임스탬프 정보를 제공할 수도 있다.
음악 리릭의 분석과 같이, 본 발명에 따른 타임스탬프 프로세스의 복잡한 애플리케이션들은 바람직하게는 컴퓨터로 수행된다. 간단한 타임스탬프 생성은 컴퓨터를 필요로 하지 않는다. 결과는 인터넷 서비스 제공자를 통해 서버에 포스트되어 공유될 수 있다.
파싱하는 것과 가사를 분할하는 것은 예를 들면 단어들간 서로 다른 기호들 혹은 간격들 등의 각종의 표시자들에 따라 리릭을 문장들 혹은 파라그래프들로 분할하는 데 사용될 수 있는 두 가지 기술들이다. 대안으로, 파라그래프들을 분류-타임스탬프들에 매핑함에 있어, 컴파일러 기술에서 사용되는 바와 같은 구문 메카니즘이 사용될 수도 있다. 이에 따라 타이밍 안내에 구두점을 사용할 수 있게 된다.
이를 지원하는 저렴한 집적회로 칩을 사용해서, 음악 플레이어들에 의해 직접 타임스탬프 생성 프로세스가 수행될 수도 있을 것으로 생각된다.
본 발명에 따라 타임스탬프 생성 프로세스(154)를 수행하는 기반으로서 사용될 수 있는 여러 가지 방법들을 예시한 흐름도를 도 11에 도시하였다.
가사 세그먼트들(146)과 보이스/비-보이스 세그먼트 타이밍 정보(140)만을 사용할 때, 타임스탬프 값들을 결정하는 알고리즘은 다음과 같이 나타낼 수 있다.
여기서 Ti는 타임스탬프들 생성대상의 세그먼트 내 단어 i에 대한 타임스탬프이고, S 및 E는 음악 분석으로부터 얻어진 세그먼트들에 대한 시작시간 및 종료시간이고, N은 세그먼트 내 단어들의 총 수이다.
발음 사전 세그먼트(150)는 단어들 대신 음절들의 수를 카운트함으로써 보다 정확하게 타임스탬프 값들이 생성되게 한다. 이 경우, N은 음절들의 총 수이고 i는 현재의 단어 전의 음절 수이다.
음악 세그먼트(148)의 노트 트랜스크립션을 사용하면, 세그먼트 시작부터 지나온 전체 노트들의 수를 카운트함으로써(노트들은 음악 세그먼트들의 도입부와 천이부, 즉 보이스가 없는 음악의 세그먼트들을 정상적으로 나타내지 못하기 때문에 전체 노트 자체만을 카운트하는 것은 정확하진 않을 것이다) 타임스탬프 값들이 보다 정확하게 생성될 수 있는데, 이것은 버전마다 크게 바뀔 수 있다. 그러므로, 이 경우, N은 세그먼트 내 전체 노트들의 수가 되고 i는 현재 단어 전의 전체 노트들의 수이다.
자동 음성 인식 소프트웨어(ASR)의 도움으로, 음악에 나타나는 키워드들을 검출하는 것이 가능하다.
템포 및 키워드 기술들(142, 144)은 다른 방법들을 사용하여 위에서 얻어진 결과들을 검증 및 수정하는데 사용될 수 있다. 예를 들면, 템포 및 전체 노트들 방법들은 보이스 세그먼트들이 얼마나 길 수 있는지 검출할 수 있고 나머지 세그먼트들은 비-보이스 세그먼트들인 것으로 취해진다.
특정 방법의 사용은 선택적이며 애플리케이션 요건 및 자원 사용가능성에 달려있다. 예를 들면, 소형 칩에 타임스탬프 생성 프로세스(154)를 구현할 때, 간단한 알고리즘을 사용하고 점선 박스들로 도시된 방법들(142, 144, 148, 150)은 필요로 하지 않은 것이 바람직하다. 그러나, 자원 사용가능성엔 관계가 없고 목적이 가능한 한 정확하게 정보를 생성하는 것이라면(예를 들면, 인터넷 서비스 제공자를 위해서 혹은 상용 가라오케 콤팩트 디스크들을 자동으로 생성하기 위해서), 방법들(142, 144, 148, 150)이 필요할 수도 있다.
도 12는 곡의 실제 단어들에 확실히 대응하도록 타임스탬프 데이터를 리파인하는 방법을 도시한 것이다. 도시된 바와 같이, 도 11에 도시한 방법(144)에 따라 곡으로부터 추출되는 키워드 위치들을 체크하여 이들이 트랜스크립트 내 실제 키워드 위치들에 대응하는지 여부를 판정한다. 타임스탬프 데이터 내 키워드 위치가 트랜스크립트 내 키워드의 실제 위치와 정확하게 맞지 않으면, 그에 따라서 타임스탬프 데이터를 옮길 수도 있다.
구체적으로, 도 12는 곡의 음악/보이스(여기서는 비-음성/음성이라고 함)를 나타내는 3개의 바를 도시한 것이다. 바(160)는 단순히 분석되는 곡의 원시 데이터를 지칭한다. 바(162)는 실제 키워드 위치와 타임스탬프 생성 프로세스에 의해 추출된 키워드 위치간 오일치를 도시한 것이다. 키워드들(K1, K2)의 실제 위치들은 각각 점선으로 표시한 수직선들(166, 168)로 도시되었다. 수직선들(170, 172)은 타임스탬프 데이터에 따른 키워드들(K1, K2)의 위치들을 나타낸다. 따라서, 타임스탬프 데이터의 정확도를 향상시키기 위해서, 키워드들(K1, K2)의 위치들은 바(162)를 참조로 도 12에 도시한 화살표들의 방향들로 조정되어야 한다. 바(164)는 조정 프로세스의 최종 결과를 도시한 것이다. 따라서, 키워드들(K1, K2)에 대한 타임스탬프 데이터는 각각 174, 176으로서 확인된 실제 K1 및 K2 위치들에 대응한다.
일단 가사의 각 부분에 연관된 정확한 타임스탬프가 있으면, Pronto(등록상표)와 같은 휴대형 표시 시스템은 적합한 시간에 가사를 표시할 수 있다.
가사는 가독성, 미려함, 혹은 엔터테인먼트 향상을 위해, 다양한 형태로 화면에 표시될 수 있다. 예를 들면, 문장들은 이들이 표시하기가 보다 쉽도록 워드-랩핑될 수도 있고, 가사는 새로운 라인들이 나타날 때 덮어씌여질 수도 있고, 혹은 화면은 화면 크기에 따라 매 N라인마다 클리어될 수도 있다. 또한 화면의 하부에서 상부로 가사를 워드-랩핑하는 방법도 있다. 예를 들면, 화면은 번갈아 리프레쉬되는 두 개의 반으로 상부와 하부로 분할될 수도 있다. 이것은 사용자에게 현재의 반 페이지를 보는 중에 이전의 반 페이지의 끝부분을 보게 한다. 가사를 이동시키는 스크롤을 갖추게 하는 것이 가능하겠지만, 이것은 디스플레이에서 읽기가 종종 어렵다.
남성과 여성이 함께 부른 리릭을 갖는 곡들에서, 남성이 부른 특정의 단어들과 여성이 부른 특정의 단어들간의 구별이 행해질 수도 있을 것이라 생각된다. 따라서, 리릭을 표시할 때, 여성 혹은 남성이 노래할 차례가 되었을 때 이에 대해 남성 혹은 여성에게 알리기 위해서(예를 들면, 가라오케 상황에서) 폰트 혹은 색 변경과 같은 표시가 표시장치에서 행해질 수 있다.
대안으로, 논리상의 휴지부들(이를테면 마침표 혹은 콤마 다음)에"뉴라인(newline)"(혹은 캐리지 리턴) 문자가 자동으로 첨부되게 할 수도 있다. 마침표의 경우, 문장의 끝을 나타내기 위해 2개의 뉴라인들을 넣을 수도 있는데, 이것은 작곡의 경우 흔히 곡의 절의 끝이기도 하다. 파서 기술에서, 이와 같이 포맷하는 것은 삭제될 수도 있고, 이에 의해서 정확한 삽입 및 포맷이 용이해진다.
비-단어 아이템들(이를테면 화상들)이 디스플레이에 제공될 수도 있다. 비-단어 아이템들은 가사가 없는 타이밍에 기초하여 적합하게 표시될 것이다. 대안으로, 특별한 검출이 사용될 수 있다면(이를테면 드럼 검출) 특별한 비-단어 식별자들(예를 들면, 화상 혹은 드럼의 동화) 혹은 "드럼 솔로"와 같은 특별한 구가 표시될 수도 있다.
또한, 단어들은 이들에 산재된 특별한 사운드들, 화상들, 동화들 혹은 비디오들을 가질 수도 있다. 이들 특별한 "비-단어" 아이템들은 "키 워드"가 검출될 때마다, 특정한 아이템이 삽입될 수 있게 포맷하는 부분으로서 생성될 수 있다. 예를 들면, "소녀"라는 단어가 사용될 때마다, 이 단어에 맞추어 소녀 그림을 표시한다. 비-단어 아이템이 키 워드를 대신할 수도 있고 혹은 단어에 부가하여 표시될 수도 있다.
많은 다른 표현방법들이 이 기술에 숙련된 자에 의해 가능할 수 있다.
도 13에 도시한 바와 같이, 필립스 Pronto(등록상표) 디스플레이(180)는 6행의 가사(182)를 표시할 수 있다. 그러므로, Pronto(등록상표)에 있어서, 한번에 절 전체가 표시될 수 있다. 공백의 라인들은 화면의 끝을 채운다.
Pronto(등록상표)와 같은 휴대형 표시장치들을 이용함으로써, 2인 이상의 사람들이 오디오의 가사를 따라갈 수 있게 복수의 장치들에 같은 시간에 곡의 가사를 표시하는 것이 가능하게 된다. 이 실시예에서, 각각의 동기된 장치는 서버로서 동작하는 장치로부터 "고(go)" 메시지를 수신할 수 있다. 대안으로, 서버는 다른 동기되는 장치들이 가사를 저장할 필요가 없게 하여 귀중한 메모리 공간을 절약하도록 동적으로 모든 다른 동기된 장치들에 가사 및 타이밍을 보낼 수도 있다.
도 14는 본 발명에 따른 오디오 재생에 가사 및/또는 시각정보를 동기시키는 방법을 도시한 흐름도이다. 단계(1405)에서, 사용자는 휴대장치 내 메모리에 기억된 곡들의 리스트로부터 곡명을 선택한다. 선택은 예를 들면 버튼 누름이나 터치-감응 화면을 통해 사용자로부터 휴대장치로 전송될 수 있다. 사용자는 선택으로서 "무작위"를 선택할 수도 있고, 이때 시스템은 한 세트의 알려진 곡들 내에서 무작위로 곡들을 선택할 것이라는 것도 생각된다. 무작위 선택은 한번에 하나, 서로 다른 곡들을 선택하기 위해 난수 발생기를 사용할 수도 있다. 이것은 사용자가 시스템을 정지시키거나 리셋할 때까지 이 단계에서 사용자의 입력을 대신할 수 있다.
휴대장치 내 프로세서는 사용자로부터의 요청을 처리하여 신호(예를 들면, 적외 신호)를 원격장치에 보낸다. 이 신호는 사용자에 의해 선택된 원하는 곡에 대응하는 원하는 오디오 트랙에 맞출 것을 원격장치에 명령한다. 대안으로, 원격장치가 특정의 원하는 오디오 트랙에 자동으로 동조되는 능력이 없다면(예를 들면 트랙 5로 가는 것), 휴대장치는 원격장치를 리셋시키기 위해서 원격장치에 신호를 보낼 것이다. 즉, 원격장치는 정지하여, 재기동한 후 원하는 트랙까지 카운트하라는 명령을 받을 것이다. 이 단계에 의해서 원격장치는 확실하게 휴대장치에 동기할 수 있다.
하나 이상의 파일들이 단일의 휴대장치에 로딩되어 이에 저장되는 것을 생각해 볼 수 있다. 휴대장치는 파일들을 명칭, 분류, 주제, 날짜, 혹은 그 외 다른 기준별로 분류하는 능력을 갖추고 있을 것이다. 휴대장치에 파일들을 로딩하는 것은 장치는 독크함으로써, 아니면 이 기술에 통상의 지식을 가진 자에게 알려진 바와 같은 유선 혹은 무선 기술을 통해 통신함으로써 발생할 수 있다.
일단 원격장치가 원하는 트랙에 도달하면, 휴대장치에 실제로 선택된 곡의 연주를 시작하게 하기 위해서 재생 신호가 휴대장치에 의해 보내진다. 단계(1415)에 나타낸 바와 같이, 원격장치가 선택된 곡의 연주를 실제로 시작하게 하는 짧은 지연 후에, 휴대장치는 연주되는 오디오 버전에 동기하여 가사를 원격장치에 표시하기 시작할 것이다.
단계(1420)는 초기화 단계로서 표시에 사용할 어떤 가사 라인이든 있는지 여부를 판정하기 위해서 휴대장치를 체크하고, 표시 라인 카운터를 제로로 설정하고 표시라인들의 수를 N으로 설정한다. 다음에, 단계(1425)에서, 원하는 곡의 곡명을 표시한다.
단계(1430)에서, 추가 가사 세그먼트들이 있는지 체크한다. 표시목적의 더 이상의 가사 세그먼트들이 없다면, 단계(1435)에 나타낸 바와 같이 방법은 종료한다. 표시한 추가 가사 세그먼트들이 있다면, 방법은 단계(1440)으로 진행하여 가사 세그먼트 및 연관된 지연시간(타임스탬프)을 읽는다. 단계(1445 및 1450)에서, 지연시간이 제로보다 크다면, 지연시간이 지나는 동안 방법을 대기할 것이다. 이지연시간 동안, 가사는 표시장치의 화면에 표시될 것이다.
일단 지연시간이 경과되면, 각각 단계(1455 및 1460)에 나타낸 바와 같이, 모든 표시된 라인들은 화면에서 소거될 것이며, 표시라인 카운터는 제로로 리셋될 것이다.
단계(1445)에서 지연시간이 제로와 같게되면, 방법은 바로 단계들(1465 및 1470)으로 진행할 것이며 여기서 카운터가 표시되고 증분된다.
마지막으로, 단계(1475)에서, 마지막 가사 세그먼트에 도달하였는지 여부에 대해 판정이 행해진다. 마지막 가사 세그먼트에 도달하였다면, 방법은 단계(1480)으로 진행하여 더 이상 표시할 가사가 없음을 나타낸다. 단계(1480)부터, 방법은 단계(1430)에서 표시할 가사가 있는지 여부를 판정하기 위해 또 다른 체크를 수행한다. 추가 가사가 더 이상 없으므로, 단계(1430)에서 질문에 대한 응답은 아니오가 되고 방법은 단계(1435)에서 종료할 것이다.
대신에, 마지막 가사 세그먼트에 도달하지 않았으며 따라서 단계(1475)에서 취해진 질문에 대한 응답이 아니오이면, 방법은 단계(1430)에서 다시 시작을 개시할 것이다.
본 발명의 예시된 실시예들을 첨부한 도면을 참조하여 기술하였으나, 이들 상세한 실시예들에 본 발명은 한정되지 않으며 본 발명의 범위 혹은 정신으로부터 일탈함이 없이 이 기술에 숙련된 자에 의해 각종의 다른 변경 및 수정이 행해질 수 있음을 알 것이다. 예를 들면, 가사에 현재의 위치를 표시하기 위해 이를테면 마커(예를 들면, 바운싱 볼 혹은 음악 노트)와 같은 특징이 디스플레이 부가될 수도있고 혹은 가사가 다양한 언어들로 표시될 수도 있을 것이다. 또한, 이를테면 인터넷 상의 타 사용자들이 타임스탬프된 가사를 사용할 수 있게 할 수도 있다. 모든 이러나 변경 및 수정은 첨부한 청구범위에 정한 바와 같은 본 발명의 범위 내에 포함되게 한 것이다.

Claims (12)

  1. 오디오 재생에 시각정보(visual information)를 동기시키는 방법에 있어서,
    원하는 오디오 파일의 사용자 선택을 수신하는 단계(1410);
    상기 원하는 오디오 파일의 재생을 개시하는 단계(1415); 및
    상기 시각정보가 상기 원하는 오디오 파일의 재생에 동기하여 표시되게, 타임스탬프 데이터(230)에 따라 상기 원하는 오디오 파일에 연관된 시각정보를 표시장치(240)에 표시하는 단계(1465)를 포함하고, 상기 원하는 오디오 파일의 재생 시작과 상기 표시단계의 시작은 상기 표시장치로부터의 신호의 함수인, 오디오 재생 및 시각정보의 동기화 방법.
  2. 제1항에 있어서, 상기 표시장치는 휴대장치(180)를 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
  3. 제1항에 있어서, 상기 신호는, 원격장치가 상기 원하는 오디오 파일을 재생하기에 앞서, 상기 원격장치를 턴 오프 및 턴온하는, 오디오 재생 및 시각정보의 동기화 방법.
  4. 제1항에 있어서, 상기 오디오 파일을 분석하고 상기 오디오 파일에 연관된 시각정보에 대응하는 타임스탬프 데이터(220)를 생성하는 단계를 더 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
  5. 제4항에 있어서, 상기 타임스탬프 데이터는 가사 기반의 프로세스(text based process, 146)를 이용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
  6. 제4항에 있어서, 상기 타임스탬프 데이터는 발음 사전 프로세스(pronunciation dictionary process, 150)를 이용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
  7. 제4항에 있어서, 상기 타임스탬프 데이터는 음악의 노트 트랜스크립션 프로세스(148)를 이용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
  8. 제4항에 있어서, 상기 타임스탬프 데이터는 음악으로부터 추출된 템포정보(142)를 사용하여 생성되는, 오디오 재생 및 시각정보의 동기화 방법.
  9. 제4항에 있어서, 상기 원하는 오디오 파일로부터 추출된 키워드의 위치와 상기 타임스탬프 데이터 내 키워드의 실제 위치를 비교하여, 타임스탬프 데이터 내 키워드의 위치에 매칭되게 상기 추출된 키워드의 위치를 조정하는 단계(160-170)를 더 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
  10. 제1항에 있어서, 원격장치가 기동되도록 상기 표시장치로부터 상기 원격장치로 신호를 전송하는 단계를 더 포함하는, 오디오 재생 및 시각정보의 동기화 방법.
  11. 오디오 소스로부터 타임스탬프 데이터를 생성하는 방법에 있어서,
    상기 소스로부터 보이스 및 비-보이스 데이터를 추출하는 단계(140);
    보이스 및 비-보이스 데이터 내 선택된 정보를 확인하기 위해 보이스 및 비-보이스 데이터를 분석하는 단계로서, 상기 선택된 정보는 타임스탬프들을 생성하는 기초를 제공하는, 상기 분석하는 단계; 및
    상기 선택된 정보 각각에 연관된 타임스탬프 값들을 생성하는 단계(154)를 포함하는, 타임스탬프 데이터 생성방법.
  12. 오디오 재생에 연관된 시각 정보를 동기화시키는 장치에 있어서,
    오디오 데이터로부터 음향적 특징들(acoustic features)을 추출하는 특징 추출장치(42);
    상기 오디오 데이터내 휴지부들을 검출하는 휴지부 검출기 장치(44);
    각 세그먼트가 그 클래스에 대하여 동질이 되도록 오디오 데이터의 연속된 비트-스트림을 서로 다른 비중첩 세그먼트들로 파싱하는 분류기 장치(46); 및
    타임스탬프 값들을 각 세그먼트에 할당하는 타임스탬프 장치(220)를 포함하는, 오디오 재생 및 시작정보 동기화 장치.
KR1020027015884A 2001-03-23 2002-03-22 가사/시각정보와 오디오 재생의 동기화 KR20030017522A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US27831901P 2001-03-23 2001-03-23
US60/278,319 2001-03-23
US09/998,033 US7058889B2 (en) 2001-03-23 2001-11-29 Synchronizing text/visual information with audio playback
US09/998,033 2001-11-29

Publications (1)

Publication Number Publication Date
KR20030017522A true KR20030017522A (ko) 2003-03-03

Family

ID=26959037

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027015884A KR20030017522A (ko) 2001-03-23 2002-03-22 가사/시각정보와 오디오 재생의 동기화

Country Status (7)

Country Link
US (1) US7058889B2 (ko)
EP (1) EP1374219A2 (ko)
JP (1) JP2004521385A (ko)
KR (1) KR20030017522A (ko)
CN (1) CN1463419A (ko)
TW (1) TW550539B (ko)
WO (1) WO2002077966A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100860510B1 (ko) 2007-04-23 2008-09-26 엠엠비 주식회사 모바일 장치에서 시각 효과가 삽입된 슬라이드 쇼의 생성방법
KR20180088824A (ko) * 2015-11-03 2018-08-07 광저우 쿠고우 컴퓨터 테크놀로지 컴퍼니, 리미티드 오디오 데이터 처리 방법 및 장치

Families Citing this family (238)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7277766B1 (en) 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
US7890374B1 (en) 2000-10-24 2011-02-15 Rovi Technologies Corporation System and method for presenting music to consumers
GB2381688B (en) * 2001-11-03 2004-09-22 Dremedia Ltd Time ordered indexing of audio-visual data
GB2381638B (en) * 2001-11-03 2004-02-04 Dremedia Ltd Identifying audio characteristics
US7711774B1 (en) 2001-11-20 2010-05-04 Reagan Inventions Llc Interactive, multi-user media delivery system
US8909729B2 (en) 2001-11-20 2014-12-09 Portulim Foundation Llc System and method for sharing digital media content
US20070022465A1 (en) * 2001-11-20 2007-01-25 Rothschild Trust Holdings, Llc System and method for marking digital media content
US7503059B1 (en) 2001-12-28 2009-03-10 Rothschild Trust Holdings, Llc Method of enhancing media content and a media enhancement system
US8122466B2 (en) 2001-11-20 2012-02-21 Portulim Foundation Llc System and method for updating digital media content
US8504652B2 (en) 2006-04-10 2013-08-06 Portulim Foundation Llc Method and system for selectively supplying media content to a user and media storage device for use therein
KR100563680B1 (ko) * 2001-11-27 2006-03-28 엘지전자 주식회사 재기록 가능 기록매체의 오디오 가사 데이터 기록 관리 및재생방법
KR20030043299A (ko) * 2001-11-27 2003-06-02 주식회사 엘지이아이 오디오 데이터와 부가 데이터간의 동기 기록 관리 및재생방법
AU2003249663A1 (en) * 2002-05-28 2003-12-12 Yesvideo, Inc. Summarization of a visual recording
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
JP2004205605A (ja) * 2002-12-24 2004-07-22 Yamaha Corp 音声および楽曲再生装置およびシーケンスデータフォーマット
US11294618B2 (en) 2003-07-28 2022-04-05 Sonos, Inc. Media player system
US11650784B2 (en) 2003-07-28 2023-05-16 Sonos, Inc. Adjusting volume levels
US10613817B2 (en) 2003-07-28 2020-04-07 Sonos, Inc. Method and apparatus for displaying a list of tracks scheduled for playback by a synchrony group
US8234395B2 (en) 2003-07-28 2012-07-31 Sonos, Inc. System and method for synchronizing operations among a plurality of independently clocked digital data processing devices
US8086752B2 (en) * 2006-11-22 2011-12-27 Sonos, Inc. Systems and methods for synchronizing operations among a plurality of independently clocked digital data processing devices that independently source digital data
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US11106425B2 (en) 2003-07-28 2021-08-31 Sonos, Inc. Synchronizing operations among a plurality of independently clocked digital data processing devices
US11106424B2 (en) 2003-07-28 2021-08-31 Sonos, Inc. Synchronizing operations among a plurality of independently clocked digital data processing devices
KR20050015937A (ko) * 2003-08-05 2005-02-21 삼성전자주식회사 정보 저장 매체, 그 재생 장치 및 방법
WO2005013275A1 (en) * 2003-08-05 2005-02-10 Samsung Electronics Co., Ltd. Information storage medium, and apparatus and method of reproducing information from the same
US20050039128A1 (en) * 2003-08-14 2005-02-17 Ying-Hao Hsu Audio player with lyrics display
JP2007504495A (ja) * 2003-08-26 2007-03-01 クリアプレイ,インク. 音響信号の演奏を制御する方法と装置
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
US20050123886A1 (en) * 2003-11-26 2005-06-09 Xian-Sheng Hua Systems and methods for personalized karaoke
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
EP1542206A1 (en) * 2003-12-11 2005-06-15 Sony International (Europe) GmbH Apparatus and method for automatic classification of audio signals
CN1332365C (zh) * 2004-02-18 2007-08-15 陈德卫 一种实现音频和文本信息同步控制的方法和装置
US9977561B2 (en) 2004-04-01 2018-05-22 Sonos, Inc. Systems, methods, apparatus, and articles of manufacture to provide guest access
US9374607B2 (en) 2012-06-26 2016-06-21 Sonos, Inc. Media playback system with guest access
US8326951B1 (en) 2004-06-05 2012-12-04 Sonos, Inc. Establishing a secure wireless network with minimum human intervention
US8868698B2 (en) 2004-06-05 2014-10-21 Sonos, Inc. Establishing a secure wireless network with minimum human intervention
TW200604922A (en) * 2004-07-23 2006-02-01 Hon Hai Prec Ind Co Ltd Apparatus and method for controlling sounds and images
CN100454296C (zh) * 2004-07-29 2009-01-21 鸿富锦精密工业(深圳)有限公司 声音影像控制装置及方法
CN101079992B (zh) * 2004-07-30 2010-10-06 联发科技股份有限公司 影音信号同步播放装置及其方法
KR100643451B1 (ko) 2004-09-10 2006-11-10 주식회사 팬택 화상 데이터와 텍스트 데이터의 동기화 출력 기능을가지는 화상 단말기 및 그 방법
EP1640989B1 (en) * 2004-09-22 2016-04-27 Yamaha Corporation Electronic music apparatus and music-related data display method
KR100496834B1 (ko) * 2004-10-20 2005-06-22 이기운 휴대용 동영상 멀티미디어 플레이어 및 마이크 타입 영상노래 반주 장치
US7735012B2 (en) * 2004-11-04 2010-06-08 Apple Inc. Audio user interface for computing devices
KR100677156B1 (ko) * 2004-12-08 2007-02-02 삼성전자주식회사 음원 관리 방법 및 그 장치
US7567899B2 (en) 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US20070061364A1 (en) * 2005-08-05 2007-03-15 Realnetworks, Inc., System and method for text-based searching of media content
US8560327B2 (en) * 2005-08-26 2013-10-15 Nuance Communications, Inc. System and method for synchronizing sound and manually transcribed text
JP4994623B2 (ja) * 2005-08-31 2012-08-08 富士通株式会社 テキスト編集・再生装置、コンテンツ編集・再生装置及びテキスト編集・再生方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070061694A1 (en) * 2005-09-09 2007-03-15 Nortrup John H Communication interface for communication impaired individuals
US20070074116A1 (en) * 2005-09-29 2007-03-29 Teleios, Inc. Multi-pane navigation/synchronization in a multimedia presentation system
US20070162839A1 (en) * 2006-01-09 2007-07-12 John Danty Syndicated audio authoring
US8510277B2 (en) * 2006-03-09 2013-08-13 International Business Machines Corporation Informing a user of a content management directive associated with a rating
US9037466B2 (en) * 2006-03-09 2015-05-19 Nuance Communications, Inc. Email administration for rendering email on a digital audio player
KR100684457B1 (ko) * 2006-05-04 2007-02-22 주식회사 모빌리언스 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말
US20080027726A1 (en) * 2006-07-28 2008-01-31 Eric Louis Hansen Text to audio mapping, and animation of the text
US8275243B2 (en) * 2006-08-31 2012-09-25 Georgia Tech Research Corporation Method and computer program product for synchronizing, displaying, and providing access to data collected from various media
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8726154B2 (en) * 2006-11-27 2014-05-13 Sony Corporation Methods and apparatus for controlling transition behavior of graphical user interface elements based on a dynamic recording
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080270913A1 (en) * 2007-04-26 2008-10-30 Howard Singer Methods, Media, and Devices for Providing a Package of Assets
KR100844071B1 (ko) * 2007-05-09 2008-07-07 엘지전자 주식회사 웹페이지 표시가 가능한 이동통신 단말기 및 그 제어방법
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090307207A1 (en) * 2008-06-09 2009-12-10 Murray Thomas J Creation of a multi-media presentation
US8478592B2 (en) * 2008-07-08 2013-07-02 Nuance Communications, Inc. Enhancing media playback with speech recognition
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP2010055259A (ja) * 2008-08-27 2010-03-11 Konica Minolta Business Technologies Inc 画像処理装置、画像処理プログラム及び画像処理方法
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US20100141838A1 (en) * 2008-12-08 2010-06-10 Andrew Peter Steggles Presentation synchronization system and method
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
CN101567184B (zh) * 2009-03-24 2013-07-10 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
JP2010250023A (ja) 2009-04-14 2010-11-04 Fujitsu Ltd テキスト表示機能付情報処理装置、データ取得方法およびデータ取得プログラム
JP5434408B2 (ja) * 2009-05-15 2014-03-05 富士通株式会社 携帯型情報処理装置、コンテンツ再生方法およびコンテンツ再生プログラム
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8620967B2 (en) 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
JP5503738B2 (ja) * 2009-06-13 2014-05-28 ロールスター インコーポレイテッド 別々に記録された場面を順次並置するシステム
US10636413B2 (en) 2009-06-13 2020-04-28 Rolr, Inc. System for communication skills training using juxtaposition of recorded takes
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US20110085782A1 (en) * 2009-10-14 2011-04-14 Ozymandias Wong Method for synchronizing audio data with secondary data
US8886531B2 (en) 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9159338B2 (en) * 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP5855223B2 (ja) * 2011-03-23 2016-02-09 オーディブル・インコーポレイテッドAudible, Inc. 同期されたコンテンツの再生管理
US9774747B2 (en) * 2011-04-29 2017-09-26 Nexidia Inc. Transcription system
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) * 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
CN102270489A (zh) * 2011-07-29 2011-12-07 深圳市有方科技有限公司 应用于语言学习中的字幕显示方法
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US20130295533A1 (en) * 2012-05-03 2013-11-07 Lyrics2Learn, Llc Method and System for Educational Linking of Lyrical Phrases and Musical Structure
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8961183B2 (en) * 2012-06-04 2015-02-24 Hallmark Cards, Incorporated Fill-in-the-blank audio-story engine
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
GB2506613A (en) * 2012-10-03 2014-04-09 Memeplex Ltd User input timing data to generate a video for accompanying an audio track
JP6314837B2 (ja) * 2013-01-15 2018-04-25 ソニー株式会社 記憶制御装置、再生制御装置および記録媒体
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9224374B2 (en) * 2013-05-30 2015-12-29 Xiaomi Inc. Methods and devices for audio processing
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9378651B2 (en) 2013-12-17 2016-06-28 Google Inc. Audio book smart pause
WO2015116678A1 (en) 2014-01-28 2015-08-06 Simple Emotion, Inc. Methods for adaptive voice interaction
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102207208B1 (ko) * 2014-07-31 2021-01-25 삼성전자주식회사 음악 정보 시각화 방법 및 장치
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US20170060531A1 (en) * 2015-08-27 2017-03-02 Fred E. Abbo Devices and related methods for simplified proofreading of text entries from voice-to-text dictation
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN107229629B (zh) * 2016-03-24 2021-03-19 腾讯科技(深圳)有限公司 音频识别方法及装置
CN105788589B (zh) * 2016-05-04 2021-07-06 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10311863B2 (en) * 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10360260B2 (en) * 2016-12-01 2019-07-23 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
US11354510B2 (en) 2016-12-01 2022-06-07 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
CN106649644B (zh) * 2016-12-08 2020-02-07 腾讯音乐娱乐(深圳)有限公司 一种歌词文件生成方法及装置
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110415723B (zh) * 2019-07-30 2021-12-03 广州酷狗计算机科技有限公司 音频分段的方法、装置、服务器及计算机可读存储介质
CN110718239A (zh) * 2019-10-15 2020-01-21 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质
US11350185B2 (en) 2019-12-13 2022-05-31 Bank Of America Corporation Text-to-audio for interactive videos using a markup language
US10805665B1 (en) 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework
US11257480B2 (en) * 2020-03-03 2022-02-22 Tencent America LLC Unsupervised singing voice conversion with pitch adversarial network
CN114064964A (zh) * 2020-07-30 2022-02-18 华为技术有限公司 文本的时间标注方法、装置、电子设备和可读存储介质
CN113206853B (zh) * 2021-05-08 2022-07-29 杭州当虹科技股份有限公司 一种视频批改结果保存改进方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2925754B2 (ja) * 1991-01-01 1999-07-28 株式会社リコス カラオケ装置
USRE37131E1 (en) * 1991-02-19 2001-04-10 Roy J. Mankovitz Apparatus and methods for music and lyrics broadcasting
JP3516406B2 (ja) * 1992-12-25 2004-04-05 株式会社リコス カラオケオーサリング装置
US5608839A (en) 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
JP3144241B2 (ja) * 1994-10-14 2001-03-12 ヤマハ株式会社 カラオケ装置およびカラオケシステム
US5648628A (en) * 1995-09-29 1997-07-15 Ng; Tao Fei S. Cartridge supported karaoke device
JP3226011B2 (ja) * 1995-09-29 2001-11-05 ヤマハ株式会社 歌詞表示装置
JP3008834B2 (ja) * 1995-10-25 2000-02-14 ヤマハ株式会社 歌詞表示装置
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
CA2252490A1 (en) 1996-04-26 1997-11-06 Eloquent A method and system for synchronizing and navigating multiple streams of isochronous and non-isochronous data
US5953005A (en) * 1996-06-28 1999-09-14 Sun Microsystems, Inc. System and method for on-line multimedia access
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US6600874B1 (en) * 1997-03-19 2003-07-29 Hitachi, Ltd. Method and device for detecting starting and ending points of sound segment in video
US6077084A (en) * 1997-04-01 2000-06-20 Daiichi Kosho, Co., Ltd. Karaoke system and contents storage medium therefor
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100860510B1 (ko) 2007-04-23 2008-09-26 엠엠비 주식회사 모바일 장치에서 시각 효과가 삽입된 슬라이드 쇼의 생성방법
KR20180088824A (ko) * 2015-11-03 2018-08-07 광저우 쿠고우 컴퓨터 테크놀로지 컴퍼니, 리미티드 오디오 데이터 처리 방법 및 장치

Also Published As

Publication number Publication date
US20020163533A1 (en) 2002-11-07
US7058889B2 (en) 2006-06-06
WO2002077966A2 (en) 2002-10-03
JP2004521385A (ja) 2004-07-15
TW550539B (en) 2003-09-01
WO2002077966A3 (en) 2003-02-27
CN1463419A (zh) 2003-12-24
EP1374219A2 (en) 2004-01-02

Similar Documents

Publication Publication Date Title
US7058889B2 (en) Synchronizing text/visual information with audio playback
Tzanetakis et al. Marsyas: A framework for audio analysis
US6542869B1 (en) Method for automatic analysis of audio including music and speech
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
US8106285B2 (en) Speech-driven selection of an audio file
US9466275B2 (en) Complexity scalable perceptual tempo estimation
CN103003875B (zh) 用于执行音频和相应文本转录的同步并确定该同步的置信值的方法和系统
EP1531458B1 (en) Apparatus and method for automatic extraction of important events in audio signals
KR100772386B1 (ko) 음악 파일 분류 방법 및 그 시스템
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
Lu Indexing and retrieval of audio: A survey
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
Amaral et al. A prototype system for selective dissemination of broadcast news in European Portuguese
Foote Methods for the automatic analysis of music and audio
KR101302568B1 (ko) 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법
KR101002731B1 (ko) 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법
JP2008250066A (ja) 音声データ処理システム、音声データ処理方法、及びプログラム
Rao et al. Segmentation of TV broadcast news using speaker specific information
Rao et al. Segmentation, indexing and retrieval of TV broadcast news bulletins using Gaussian mixture models and vector quantization codebooks
Chudy et al. Recognising cello performers using timbre models
Ishikura et al. Live version identification with audio scene detection
KR20100056430A (ko) 오디오 데이터의 특징 벡터 추출방법 및 이를 이용한 오디오 데이터의 매칭 방법
Engelmayer Automatic Identification of Musical Versions Using Harmonic Pitch Class Profiles
Chatterjee et al. Segmentation to Sound Conversion
JPH026078B2 (ko)

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application