KR20130042493A - 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템 - Google Patents

오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템 Download PDF

Info

Publication number
KR20130042493A
KR20130042493A KR1020127032786A KR20127032786A KR20130042493A KR 20130042493 A KR20130042493 A KR 20130042493A KR 1020127032786 A KR1020127032786 A KR 1020127032786A KR 20127032786 A KR20127032786 A KR 20127032786A KR 20130042493 A KR20130042493 A KR 20130042493A
Authority
KR
South Korea
Prior art keywords
vocal element
audio signal
vocal
timing
alignment
Prior art date
Application number
KR1020127032786A
Other languages
English (en)
Other versions
KR101413327B1 (ko
Inventor
오그녠 토딕
Original Assignee
샤잠 엔터테인먼트 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 샤잠 엔터테인먼트 리미티드 filed Critical 샤잠 엔터테인먼트 리미티드
Publication of KR20130042493A publication Critical patent/KR20130042493A/ko
Application granted granted Critical
Publication of KR101413327B1 publication Critical patent/KR101413327B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
    • G10H2250/021Dynamic programming, e.g. Viterbi, for finding the most likely or most desirable sequence in music analysis, processing or composition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

대응하는 텍스트 표기와 오디오 동기화를 수행하고 타이밍-동기화의 확신 값들을 결정하는 방법 및 시스템이 제공된다. 오디오 및 대응하는 텍스트(예컨대, 표기(transcript))는 음성 인식을 사용하여 순방향 및 역방향에서 동기화되고 시간-주석 달린 오디오-가사 동기화된 데이터를 출력한다. 동기화의 확신을 정량화 및/또는 적응시키기 위해 메트릭이 연산될 수 있다. 메트릭에 기초하여, 실시예들은 음성 인식 동안에 사용을 위해 동기화된 오디오에 히든 마코프 모델(HMM)들을 가능하게 적응시키기 위해 자동 동기화 프로세스를 향상시키기 위한 방법들을 설명한다. 다른 실시예들은 사용에 적합한 적절한 HMM들을 선택하기 위한 방법들을 설명한다.

Description

오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템{METHODS AND SYSTEMS FOR PERFORMING SYNCHRONIZATION OF AUDIO WITH CORRESPONDING TEXTUAL TRANSCRIPTIONS AND DETERMINING CONFIDENCE VALUES OF THE SYNCHRONIZATION}
음성 인식(speech recognition)(때로는 자동 음성 인식(ASR: automatic speech recognition) 또는 컴퓨터 음성 인식이라고도 함)은 발성된 단어들을 텍스트로 변환한다. 용어 "보이스 인식(voice recognition)"은, 화자(話者)의 고유한 목소리에 기초하여 화자를 구체적으로 식별하기 위해 특정 화자에 대해 인식 시스템이 훈련되는 경우의 음성 인식을 지칭하기 위해 종종 사용된다.
음성 인식 시스템은 일반적으로, 부호들 또는 음량(quantities)들의 시퀀스를 출력하는 통계적 모델인 히든 마코프 모델(HMM: Hidden Markov Model)에 기초하고 있다. 음성 신호(speech signal)는 불연속 정지 신호 또는 단시간 정지 신호로서 보일 수 있으며, 따라서 짧은 시간에 언어는 정지 프로세스로서 근사화될 수 있다. 따라서 언어는 다수의 확률적 프로세스에 대해 마코프(Markov) 모델로서 생각될 수 있을 것이다.
HMM은 각각의 정지 신호에 대해 n-차원 실제값 벡터들(real-valued vectors)의 시퀀스를 출력한다. 상기 벡터들은, 단시간 윈도우(window)의 언어의 푸리에(Fourier) 변환을 고려하고, 상기 변환을 무연관(decorrelation)시키고, 및 제1 (가장 유의미한) 계수를 취함으로써 얻어지는 셉스트럴(cepstral) 계수를 포함한다. HMM은 각각의 관찰된 벡터에 대해 가능성(likelihood)을 제공하는 통계적 분포를 가질 수 있다. 각각의 단어 또는 각각의 음소(phoneme)는 다른 출력 분포를 가질 수 있다. 단어들 또는 음소들의 시퀀스에 대한 HMM은 분리된 단어들 및 음소들에 대해 개별적인 훈련된 HMM을 연결시킴으로써 만들어진다.
음성의 부호화(decoding)(예컨대, ASR에 새로운 발성이 제공되고 가장 적합한 소스 문장을 연산하는 경우)는 주어진 오디오 신호, 예상 문법, 및 대규모 데이터 세트로 훈련되는 HMM들의 세트에 대해 최적의 텍스트 시퀀스를 결정하는 비터비 부호화기(Viterbi decoder)를 사용하여 수행될 수 있다.
일 실시예 측면으로서, 오디오 신호를 처리하는 방법이 제공된다. 상기 방법은 보컬 엘리먼트들을 포함하는 오디오 신호를 수신하는 것과, 보컬 엘리먼트들의 대응하는 텍스트 표기와 보컬 엘리먼트들의 정렬을 수행하는 것을 포함한다. 상기 방법은 또한 상기 정렬에 기초하여, 보컬 엘리먼트들의 부분의 기간에 대해 경과된 시간의 양과 관련된 타이밍 경계 정보를 결정하는 것과, 보컬 엘리먼트들의 상기 부분의 기간에 대한 타이밍 경계 정보에 대해 확실성 레벨을 지시하는 확신 메트릭을 출력하는 것을 포함한다.
일 실시예로서, 순방향에서 처리된 보컬 엘리먼트들과 보컬 엘리먼트들의 대응하는 텍스트 표기들의 순방향 정렬이 수행되고, 역방향에서 처리된 보컬 엘리먼트들과 보컬 엘리먼트들의 대응하는 역방향 텍스트 표기들의 역방향 정렬이 수행된다. 또한, 상기 방법은 순방향에서 처리된 보컬 엘리먼트들의 부분의 기간에 대해 경과된 시간의 양과 관련된 순방향 타이밍 경계 정보를 결정하는 것과, 역방향에서 처리된 보컬 엘리먼트들의 상기 부분의 기간에 대해 경과된 시간의 양과 관련된 역방향 타이밍 경계 정보를 결정하는 것을 포함한다. 이 실시예에서, 상기 확신 메트릭은 예를 들면, 상기 순방향 타이밍 경계 정보와 상기 역방향 타이밍 경계 정보 사이의 비교에 기초하여 출력된다.
또 다른 실시예에서, 오디오 신호는 가사를 포함하는 노래이고, 상기 방법은 보컬 엘리먼트들의 대응하는 텍스트 표기와 상기 오디오 신호를 동기화시키는 것과, 상기 오디오 신호에 관련된 가사의 라인들의 타이밍 정보를 지시하는 시간-주석 달린 동기화된 가사를 출력하는 것을 추가로 포함한다.
또 다른 실시예 측면으로서, 컴퓨팅 디바이스로 하여금 기능들을 수행시키기 위해 컴퓨팅 디바이스에 의해 실행 가능한 명령들을 저장한 컴퓨터 판독 가능한 저장 매체가 제공된다. 상기 기능들은 보컬 엘리먼트들을 포함하는 오디오 신호를 수신하는 기능과, 보컬 엘리먼트들의 대응하는 텍스트 표기들과 보컬 엘리먼트들의 정렬을 수행하는 기능을 포함한다. 상기 기능들은 상기 정렬에 기초하여, 보컬 엘리먼트들의 부분의 기간에 대해 경과된 시간의 양과 관련된 타이밍 경계 정보를 결정하는 것과, 보컬 엘리먼트들의 부분의 기간에 대한 상기 타이밍 경계 정보에 대해 확실성의 레벨을 지시하는 확신 메트릭을 출력하는 기능을 추가로 포함한다.
또 다른 실시예 측면으로서, (예컨대, 멜 주파수 셉스트럴 계수(Mel Frequency Cepstral Coefficients)를 사용하여) 다차원 피처 공간 내 음소들의 통계적 모델링을 포함하는 히든 마코프 모델(HMM: Hidden Markov Model) 데이터베이스(DB), 음성 부호화기가 인식할 수 있는 단어들을 정의하는 옵션인 예상 문법, 단어들을 상기 음소들에 매핑하는 발음사전 DB, 및 음성 부호화기를 포함하는 시스템이 제공된다. 음성 부호화기는 오디오 신호를 수신하고 오디오 신호 내의 보컬 엘리먼트들을 단어들에 매핑하기 위해 상기 HMM, 예상 문법, 및 사전을 액세스한다. 음성 부호화기는 보컬 엘리먼트들의 대응하는 텍스트 표기들과 상기 오디오 신호의 정렬을 추가로 수행하고, 보컬 엘리먼트들의 부분의 기간에 대해 경과된 시간의 양과 관련된 타이밍 경계 정보를 결정한다. 음성 부호화기는 보컬 엘리먼트들의 부분의 기간에 대한 타이밍 경계 정보에 대해 확실성 레벨을 지시하는 확신 메트릭을 추가로 결정한다.
일 실시예에서, 음성 부호화기는 보컬 엘리먼트들의 텍스트 표기들과 상기 오디오 신호를 동기화시키고, 상기 오디오 신호에 관련된 가사의 라인들의 타이밍 경계 정보를 지시하는 시간-주석 달린 동기화된 가사를 출력한다.
전술한 발명의 요약은 단지 설명을 위한 것이며 어떤 식으로든 발명을 한정하는 것을 의도하지 않는다. 전술한 측면들, 실시예들, 및 특징들에 추가하여, 추가의 측면들, 실시예들, 및 특징들은 첨부한 도면들과 이하의 상세한 설명을 참조함으로써 명백해질 것이다.
도 1은 음성 인식을 수행하고 인식된 언어에 텍스트를 동기화시키는 시스템의 일 실시예를 도시하고,
도 2는 음성 인식을 수행하고 인식된 언어에 텍스트를 동기화시키는 또 다른 시스템의 실시예를 도시하고,
도 3은 입력된 가사의 역전(reversing)을 도시하는 개념도를 도시하고,
도 4는 순방향 정렬과 역방향 정렬 사이의 불일치(mismatch)를 판정하는 실시예를 개념적으로 도시하고,
도 5는 동기화되거나 매핑된 라인들의 가외자(outliers)들을 순방향 정렬 또는 역방향 정렬의 어느 하나를 사용하여 결정하는 실시예를 개념적으로 도시하고,
도 6은 오디오 신호들을 처리하는 방법의 실시예의 흐름도이고,
도 7은 오디오 신호들을 처리하는 방법의 또 다른 실시예의 흐름도이고,
도 8은 오디오 신호들을 반복적 방식으로 처리하는 방법의 또 다른 실시예의 흐름도이고,
도 9는 계층적 HMM 훈련 및 모델 선택을 도시하는 블록도이고,
도 10은 특정 실연자(performer)로부터의 기존의 동기화된-가사 데이터를 사용하여 HMM을 적응(adaptation)시키는 방법의 일 실시예의 흐름도를 도시하고,
도 11은 병렬 동기화 시스템의 예를 도시하는 블록도이고,
도 12는 적절한 HMM을 선택하는 시스템의 예를 도시하는 블록도이고,
도 13은 오디오와 가사의 혼합(hybrid) 동기화를 위한 시스템의 예를 도시하는 블록도이다.
이하의 상세한 설명에서, 본 명세서의 일부를 구성하는 첨부 도면들을 참조한다. 도면에서, 유사한 부호들은 문맥이 달리 지시하지 않는 한 통상 유사한 구성요소를 식별한다. 상세한 설명, 도면 및 청구항들에서 기술된 실시예는 한정하는 것을 의도하지 않는다. 다른 실시예들이 이용될 수 있으며, 본 명세서에서 제시된 주제의 범위 또는 사상을 벗어나지 않으면서 다른 변경이 이루어질 수 있다. 본 명세서와 도면에서 일반적으로 기술되는 본 발명의 측면들은 본 명세서에서 명시적으로 고려된 다양한 상이한 구성들로 배열, 치환, 결합, 분리 및 설계될 수 있다.
실시예들에서, 오디오 및 대응하는 텍스트(예컨대, 표기(transcript))는 (어떤 실시예의 경우 음성인식기술을 사용하여) 동기화되고, 그 결과 생성된 타이밍 메타데이터(timing metadata)는, 예컨대, 오디오가 재생되고 있을 때 텍스트의 디스플레이뿐만 아니라 오디오의 브라우징(browsing), 오디오의 문맥상 검색을 가능하게 하는 것과 같은 다수의 상이한 응용에서 사용될 수 있다(예를 들면, 부제, 가라오케식 가사 디스플레이 등).
실시예들은, 타이밍 데이터를 획득하고, 시간-동기화 메타데이터에 대해 확신 플래그(confidence flag)를 연산하고, 및 확신 정보를 사용하여 자동 동기화 프로세스를 향상시키는 방법을 설명한다. 예를 들면, 자동화된 방식으로 획득된 정보는 표기에서의 부정확뿐만 아니라 입력 오디오와 음향 모델들 사이의 있을 수 있는 불일치로 인해 항상 정확한 것은 아니며, 따라서 자동 또는 수동 방법을 사용하여 부정확한 타이밍 메타데이터의 품질을 향상시키기 위해 타이밍 정보의 품질을 기술하는 확신 측정치가 생성된다.
도 1은 음성 인식 기법을 사용하여 자동 동기화를 수행하기 위한 시스템(100)의 일 실시예를 도시한다. 시스템(100)은 오디오 엔진(102)에서 오디오 신호를 수신한다. 오디오 신호는 스피치(speech), 노래 또는 음악 데이터(musical data), TV 신호 등을 포함할 수 있고, 따라서 발성된 또는 노래한 단어들과 수반된 기악(instrumentals) 또는 배경 잡음을 포함할 수 있다. 오디오 엔진(102)은 임의의 기악 또는 배경 잡음을 억압하고 발성되거나 노래한 단어들(예컨대, 보컬(vocals))을 자동음성인식(ASR) 부호화기(104)에 출력한다. 입력 오디오 신호가 뮤지컬 노래인 경우, 발성되거나 노래한 단어들은 예를 들면 그 노래의 가사에 해당할 수 있다.
오디오 엔진(102)은 보컬이 스테레오 신호의 중심에 있고 기악은 중심에 있지 않다는 사실을 레버리지(leverage)하는 기법을 사용하여 오디오 신호의 임의의 기악을 억압할 수 있다. 음악(또는 다른 보컬 아닌 데이터)은 또한 화성적으로 풍부한 영역을 식별하기 위해 주파수 분석 방법을 사용하여 억압되는 것도 가능하다. 일 예로서, 오디오 엔진(102)은 iZotope, Inc.의 Vocal Remover 제품을 사용하여 오디오 신호를 처리할 수 있다. 오디오 엔진(102)은 예를 들면 보컬 데이터 또는 단어들의 발성 표현(spoken utterances)을 나타내는 데이터를 추출하기 위해 비-보컬(non-vocal) 데이터를 억압할 수 있다.
시스템(100)은 또한 오디오 신호의 가사에 대응하는 가사 텍스트 파일을 필터(106)에서 수신한다. 필터(106)는 가사 텍스트를 정화하고 정규화한다. 예를 들면, 필터(106)는 참조 테이블(lookup table)을 사용하여 철자 오류를 정정하고, 발성을 수정하고(예컨대, 'heeeey', 'yeah' 등과 같은 단어들은 더 작은 세트로 축소될 수 있다(예컨대, 'heeeey' 및 'heeey'는 'heey'로 변경됨), 문법적 변경을 수행하고(예컨대, 각 라인의 첫 글자를 대문자로 함), 및 관련 없는 가사 아닌 텍스트(예컨대, 아티스트 및 노래의 제목, 후렴(chorus) 또는 절(verse)과 같은 음악 세그먼트를 잠재적으로 식별하는 태그)를 제거할 수 있다.
문법 프로세서(108)는 필터(106)로부터 가사 텍스트를 수신하고, 오디오 신호의 보컬에 있을 것으로 예상되는 텍스트를 지시하는 "문법(grammars)"을 생성한다. 가사 텍스트는, 시작과 끝에서 삽입된 오디오 신호의 기악(음악만) 부분들의 모델링하는 "단어들(words)"이 동반된 단어들의 시퀀스로 변환된다. 음성 휴지 및 있을 수 있는 배경 반주를 설명하기 위해 가사의 단어들 사이에 옵션인 기악 및/또는 필러 모델(filler model)이 삽입될 수 있다.
ASR 부호화기(104)는 오디오 엔진(102)으로부터 보컬을 수신하고 문법 프로세서(108)로부터 문법을 수신하여 가사 동기화를 수행한다. 정확한 가사가 미리 알려진 일 실시예에서, ASR 부호화기(104)는 오디오와 가사의 강제-정렬을 수행할 것이다. 즉, 문법 내의 예상된 응답이 발성된 대응하는 단어들에 매핑될 것이다. 정확한 가사는 가사 텍스트의 소스에 기초하여 판정될 수 있다. 만일 가사 텍스트가 신뢰된 소스로부터 수신된다면, 정확한 가사는 추정될 수 있고, 가사를 오디오 신호에 매핑하기 위해 강제-정렬이 수행될 수 있다. 이와 같이, 강제 정렬을 사용하면, 분기(branching)가 없도록 문법이 정의된다. 즉, 어떤 가능한 단어들의 시퀀스들만이 인식될 수 있다. 예를 들면, 타임스탬프(timestamp) 또는 카운터(도시되지 않음)를 시스템(100) 내에 또는 ASR 부호화기(104)의 기능으로 포함함으로써, 노래의 경과된 시간의 양에 관련하여 가사의 각 라인에 대해 시작시간과 종료시간에 대한 타이밍 정보가 저장될 수 있다.
ASR 부호화기(104)는 단어의 음성학적 표현(phonetic representaions)(예컨대, 음소)을 정의하는 발음사전 DB(110)을 액세스할 수 있다. 발음사전 DB(110)는 시스템(100)과 분리되어 도시되어 있지만, 다른 실시예에서는, 발음사전 DB(110)은 시스템의 한 구성요소가 되거나 시스템(100)의 구성요소들 내에 포함될 수도 있다.
필터(106)는 가사 텍스트를 정화하고 문법 프로세서(108)를 위해 가사를 준비한다. 문법 프로세서(108)는 정화된 가사로부터 예상 응답(expected response) 문법을 생성할 것이다. 만일 가사가 신뢰되지 않거나 가사 텍스트가 오디오 신호의 단어들과 완전히 일치하지 않을 가능성이 있는 경우라면, 문법 프로세서(108)는 추계적(stochastic) 문법을 생성할 수 있다. 추계적 문법을 생성하기 위해, 문법 프로세서(108)는 가사의 모든 라인들을 병렬로 배치하고 임의의 시퀀스의 가사 라인들이 인식되게 할 수 있다. 문법 프로세서(108)는 문법의 시작과 끝에 그리고 단어들 사이에서 기악을 모델링하는 다수의 및 선택적인 단어들을 삽입할 수 있다. 또한, 비-단어들(음성(vocalizations) 등)의 발생을 모델링하기 위해 필러(filler) 단어 모델들이 사용될 수 있다. 이와 같이, 신뢰되지 않은 가사 소스들의 예에서, 문법은 분기를 허용하는 방식으로 정의될 수 있다(예컨대, 임의의 가사 라인이 임의의 다른 라인을 추종할 수 있다).
오디오 엔진(102)은 (예컨대, 멜 주파수 셉스트럴 계수(MFCC: Mel Frequency Cepstral Coefficients)를 사용하여) 약 10 ms 마다 피처 벡터(feature vectors)를 추출함으로써 억압된 오디오 신호를 분석할 수 있다. ASR 부호화기(104)는 그 다음에 상기 피처 벡터들의 시퀀스를 문법 내에 정의된 예상 응답에 매핑할 수 있다. ASR 부호화기(104)는 단어를 음소로 확장하기 위해 발음사전 DB(110)을 사용함으로써 문법 프로세서(108)에 의해 생성된 단어 문법을 음성학적 문법(phonetic grammar)으로 확장할 것이다. ASR 부호화기(104)는 오디오 신호의 문법을 대응하는 피처 벡터에 매칭하는 단어들의 최적 시퀀스를 음소들로부터 획득하기 위해 (예컨대, MFCC를 사용하여) 피처 공간 내의 각 음소를 통계적으로 기술하는 HMM DB(112)를 사용할 수 있다. HMM DB(112)는 시스템(100)과 분리되어 도시되어 있지만, 다른 실시예에서는, HMM DB(112)는 시스템의 한 구성요소가 되거나 시스템(100)의 구성요소들 내에 포함될 수도 있다.
HMM은 대규모 세트의 관련 데이터에 대해 통상적으로 훈련되며; 가사 동기화의 상황에서는 대규모 세트의 노래들이 될 것이다. 예를 들면 바움-웰치(Baum-Welch) 알고리즘을 사용하여 모델 파라미터들의 추정이 수행될 수 있다. 상기 모델의 파라미터들은 예를 들면 특정 모델에 대응하는 주어진 훈련 사례 세트에 대해 재추정함으로써 결정될 수 있다.
ASR 부호화기(104)는 예를 들면 주어진 오디오 신호, 예상 문법, 및 대규모 데이터 세트에서 훈련되는 HMM 세트에 대해 최적의 텍스트 시퀀스를 결정하는 비터비 부호화 알고리즘를 사용하여 오디오 신호를 부호화하기 위해 DB(112)로부터 HMM을 사용할 수 있다. 이와 같이, ASR 부호화기(104)는 예를 들면, 발성된 단어들을 음성학적 기술(phonetic description)에 매핑하기 위해 음소(phoneme)들의 HMM DB(112)를 사용하고, 단어들을 음성학적 기술에 매핑하기 위해 발음사전 DB(110)를 사용한다.
ASR 부호화기(104)는 오디오 신호의 음성에 대응하는 음성학적 표기와 단어의 시퀀스를 생성하기 위해 오디오 신호에 대해 음성 인식 또는 강제 정렬을 수행할 것이다.
가사 동기화를 수행할 때, ASR 부호화기(104)는 또한 음성학적 기술의 타이밍 분석을 수행할 것이다. 일 예로서, 표 1에는 한 세트의 입력 가사 텍스트와 대응하는 음성학적 표기가 제시되어 있다.
Figure pct00001
음성학적 표기는 표준 사전 표기일 수 있으며, 따라서 예를 들면 단어 "asleep"는 음성학적으로 "AH SH L IY P"로 옮겨지고, 단어 표기의 시작/끝을 나타내거나, 스피치에서 휴지를 나타내거나, 단어들 사이에서 들리는 배경 기악을 나타내기 위해, 마침표와 공간이 명확성을 위해 사용된다. 표 1에서는 편의상 가사 텍스트의 (전체 N 라인 중) 처음 3 라인만 제시되었다.
음성 인식을 수행한 후, 오디오 신호는 입력 가사에 매칭되어 표 2에 예시된 것과 같은 출력 가사를 생성할 수 있다.
Figure pct00002
또한, 표 2에서와 같이 출력 가사와 함께 타이밍 정보가 출력될 수 있다. 타이밍 정보는 오디오 신호가 획득된 노래의 시작부터 경과된 시간의 양, 또는 상기 수신된 오디오 신호의 시작부터 텍스트(예컨대, 가사)의 라인의 시작까지의 경과된 시간의 양, 및 오디오 신호의 시작부터 가사의 라인의 종료까지의 경과된 시간의 양을 지시할 수 있다. 타이밍 정보는 대안으로(또는 추가하여) 가사의 라인, 단어, 또는 음소 동안에 경과된 시간의 양을 포함한다.
표 2에서, 출력된 가사의 제1 라인은 시작시간이 22초이고 종료시간이 24.4이다. 시작시간과 종료시간은 예를 들면 오디오 신호의 시작부터 경과된 시간의 양이다. 표 2에서 출력된 가사의 제2 라인은 시작시간이 24.7초이고 종료시간이 27초이며, 표 2에서 출력된 가사의 제3 라인은 시작시간이 27.4초이고 종료시간으로 30.2초를 갖는다.
타이밍 정보를 결정하기 위해, ASR 부호화기(104)는 오디오 신호가 순방향에서 재생될 때 오디오 신호의 시작부터 오디오 신호의 보컬이 시작하는 시간까지 경과된 시간의 양을 식별한다. 상기 예에서, 타이밍 정보는 라인 레벨에서 지정되고, 따라서 제1 라인은 22초에서 시작하고 24.2초에서 종료한다. 그러나, 타이밍 정보는 단어 레벨에서 제공될 수도 있다.
ASR 부호화기(104)는 음성 인식을 수행하는데 따른 부차적 결과로서 타이밍 정보를 결정할 수 있다. 예를 들면, 비터비(Viterbi) 부호화기는 수직 차원이 HMM 상태를 나타내고 수평 차원이 스피치의 프레임(예컨대, 10 ms)을 나타내는 매트릭스(matrix)를 통한 최적 경로를 결정한다. HMM 상태들의 최적 시퀀스가 결정될 때, 대응하는 음소들 및 단어들의 최적 시퀀스가 이용 가능하다. HMM 상태를 통한 각 통과(pass)는 스피치 프레임을 소비하기 때문에, 상태/음소/단어 레벨에서 타이밍 정보는 자동음성인식의 출력으로서 이용 가능하다.
대안으로, ASR 부호화기(104)는 예를 들면 타이밍 정보를 결정하기 위해 타이머를 포함하거나, 타이머를 액세스하거나, 또는 타이머에 따라 동작될 수 있다.
도 1의 시스템(100)은 다수의 오디오 신호들 또는 노래들에 대해 표 2에 제시된 것과 같이 타이밍 정보를 생성하기 위해 일괄 모드에서(즉, 실시간이 아니라 파일에 저장된 오디오 신호의 기록을 사용하여) 가사와 오디오의 시간-동기화를 수행할 수 있다.
도 1의 시스템(100)의 구성요소들은 엔진(engines), 필터(filters), 프로세서(processors), 및 부호화기(decoders)를 포함하며, 이것들 중 적어도 하나는 상기 구성요소들의 기능을 실행하기 위해 컴퓨팅 장치 또는 프로세서를 포함할 수 있다. 대안으로, 도 1의 시스템(100)의 구성요소들의 적어도 하나는 컴퓨터 소프트웨어에 의해 구현된 기능들을 가질 수 있으며, 이것은 예를 들면 컴퓨팅 장치 또는 프로세서에 의해 실행될 때 컴퓨팅 장치 또는 프로세서에 상기 구성요소들의 기능을 수행시킨다. 이와 같이, 도시되지는 않았지만, 시스템(100)은 또한 컴퓨터 소프트웨어를 저장할 메모리를 포함할 수 있다.
도 2는 음성 인식을 수행하고 인식된 음성에 텍스트를 동기화시키는 또 다른 시스템(200)의 실시예를 도시한다. 시스템(200)의 다수의 구성요소들은 시스템 (100)의 구성요소들과 유사하고, 컴퓨터 하드웨어 또는 소프트웨어로로 구현될 수 있다. 예를 들면, 시스템(200)은 오디오 신호를 수신하고, 오디오 신호의 기악을 억압하고, 오디오 신호의 보컬을 출력하는 오디오 엔진(202)을 포함한다. 오디오 엔진(202)은 보컬을 순방향(직접) 형식으로 및 역방향 형식으로 출력할 수 있다. 순방향 형식은 순방향에서 자연스럽게 발성된 보컬들이고, 역방향 형식은 뒤로 또는 반대 방향으로 역전된 보컬들이다. 보컬을 역방향 형식으로 출력하기 위해, 오디오 엔진(202)은 예를 들면 오디오 신호를 반대 방향으로 재생할 수 있다. 보컬의 역방향 형식은 청취자에게 난해하거나 이해하기 어려울 수 있다; 그러나 보컬들의 역방향 형식은 예를 들면 오디오 신호를 추가로 분석하기 위해 사용될 수 있다. 일 실시예에서, 오디오 엔진(202)은 입력 오디오 신호를 역전시키기 위해 Sound eXchange사의 Sox 소프트웨어를 사용할 수 있다.
시스템은 또한 오디오 엔진(202)으로부터 순방향 및 역방향 오디오 신호를 수신하고, 및 오디오 신호들의 가사 동기화 및 음성 인식을 수행하기 위해 ASR 부호화기(204)를 포함한다.
필터(206)는 오디오 신호의 가사에 대응하는 가사 텍스트를 수신하고, 필터(206)는 상기 가사 텍스트를 정화하고(clean) 정규화하여 직접(또는 순방향으로) 및 역방향으로(또는 뒤로) 텍스트를 출력한다. 필터(206)로부터 출력된 순방향 단어들은 표준 순방향에서(본 명세서에서 쓰인 단어들과 같이) 좌에서 우로 쓰인 가사의 단어들이다. 필터(206)로부터 출력된 역방향 단어들은 역방향으로 우에서 좌로 쓰고/읽혀진 가사의 단어들이며, 따라서 예를 들면 단어들의 순서만이 역전될 수 있다.
문법 프로세서(208)는 순방향 및 역방향에서 가사의 단어들을 수신하고, 순방향 및 역방향에서 단어들에 대응하는 "문법"을 출력한다.
ASR 부호화기(204)는 예를 들면 순방향 및 역방향 문법을 문법 프로세서(208)로부터 수신하고, 또한 사전 DB(210)로부터 순방향 및 역방향 문법에 대한 순방향 및 역방향 사전 단어 대 음소 매핑들을 수신하여 단어들을 음성학적 표기로 매핑한다. ASR 부호화기(204)는 또한 HMM DB(212)로부터 순방향 및 역방향 음소들(예컨대, 한 발화(utterance)와 다른 발화를 구별하는 스피치 또는 사운드의 작은 단위)의 통계적 모델을 수신한다. 역방향 경로에 대한 음향 (HMM) 모델들은 예를 들면 역전된 노래들의 훈련 세트에 대해 훈련될 것이다. 다른 실시예에서, 사전 DB(210)와 HMM DB(212) 중 적어도 하나는 시스템(200)의 구성요소들이거나, 시스템(200)의 구성요소들 내에 포함될 수 있다.
ASR 부호화기(204)는 예를 들면 순방향 또는 역방향에서 오디오 신호와 가사 텍스트의 매핑 또는 동기화를 수행할 수 있다. 동기화를 수행할 때, ASR 부호화기(204)는 또한 전술한 타이밍 정보를 출력할 수 있다. 순방향 동기화의 실시예 방법들이 표 1 및 표 2를 참조하여 위에서 설명되었다.
역방향 동기화를 수행하기 위해, ASR 부호화기(204)는 역방향 오디오, 역방향 문법, 역방향 음성학 사전(예컨대, 단어 "asleep"은 역방향 음성학 사전에서 'P IY L SH AH'로서 전사된다), 및 역방향 HMM(예컨대, 각 음소는 역전된 오디오 데이터에 대해 훈련될 것이며, 따라서 순방향 및 역방향 HMM 세트에서 음소 'ah'에 대한 모델은 다를 수 있다). 아래의 표 3은 역방향 입력 가사와 가사의 역방향 음성학적 표기를 예시한다.
Figure pct00003
표 3에 예시된 역방향 입력 가사들은 표 1의 역방향 입력 가사들이다. 표 3에서, 오디오 신호의 제1 라인은 표 1의 오디오 신호의 마지막 라인이다. 따라서, 가사의 라인들은 역순이고, 또한 라인들의 단어들도 역순이다(예컨대, 표 1의 순서와 역전됨). 또한, 역방향 사전 DB(210)에 의해 매핑된, 가사의 대응하는 음성학적 표기 역시 역순이다(예컨대, 역순으로 우에서 좌로 읽혀짐). 편의상 가사의 3 라인만(총 N 라인 중)이 예시되어 있다.
도 3은 입력된 가사의 역전을 보여주는 개념도를 도시한다. 도면에서, 역방향 가사를 위해, 예를 들면, 순방향에서 라인 N은 역방향에서 제1 라인(라인 1R)이 되고, 순방향에서 라인 N-1은 역방향에서 제2 라인(라인 2R)이 되며, 계속해서 순방향에서 라인 1은 역방향에서 마지막 라인(라인 NR)이 된다.
아래의 표 4는 대응하는 출력 타이밍 정보를 갖는 출력 가사를 지시한다. 순방향에 대해 위에서 설명한 것과 같은 방식으로, 상기 수신된 역전된 오디오 신호의 시작부터 경과된 시간의 양을 지시하는 타이밍 정보가 출력 가사와 함께 역방향에서 출력될 수 있다. 타이밍 정보는 오디오 신호의 시작부터 가사 라인의 시작(라인 시작시간)까지의 경과된 시간의 양으로서, 및 오디오 신호의 시작부터 가사 라인의 종료(라인 종료시간)까지의 경과된 시간의 양으로서 출력될 수 있다.
표 4에서, 역전 출력 가사의 제1 라인은 시작시간이 197.8초이고 종료시간이 200.6초이다. 시작시간과 종료시간은 예를 들면 역전된 오디오 신호의 시작부터의 경과된 시간의 양이다. 역전 출력 가사의 제2 라인은 표 4에서 시작시간이 202.5초이고 종료시간이 203.3초이며, 역전 출력 가사의 제3 라인은 시작시간이 203.6초이고 종료시간이 206초이다.
타이밍 정보를 결정하기 위해, ASR 부호화기(204)는 오디오 신호가 역방향에서 재생될 때 역전 오디오 신호의 시작부터 역전 오디오 신호의 보컬들이 시작하는 시간까지 경과된 시간의 양을 식별한다. 상기 실시예에서, 타이밍 정보는 라인 레벨에서 지정되고, 따라서 라인 N-2는 197.8초에서 시작하여 200.6초에서 종료한다.그러나 타이밍 정보는 단어 레벨에서 제공될 수도 있다.
Figure pct00004
ASR 부호화기(204)는 역전 출력 가사를 단어 및 시간 역전기(214)에 출력한다. 역전 가사의 출력은 역전된 라인들/단어들을 지시하는 WN - i R 상기 라인들/단어들의 대응하는 매핑된 타이밍을 지시하는 TN - i R이다. 단어 및 시간 역전기(214)는 식 (1)에 따라 상기 라인들/단어들을 역전 출력으로부터 순방향으로 역전시키거나 전환할 것이다.
Wi RR = WN - i R, i=1:N 식 (1)
단어 및 시간 역전기(214)의 출력은 Wi RR이고 이것은 상기 역전 정렬의 역전된 출력 텍스트를 지시한다.
i 라인(또는 단어)의 시작에 대한 타이밍 정보는 다음 식 (2)에 의해 계산될 수 있다.
Ti RR = Ttotal - TN - i R 식 (2)
여기서 Ttotal 은 노래 또는 오디오 신호의 기간이고, Ti R은 역전되고 동기화된 가사에서 i 라인의 종료시간이다.
여기서 설명된 실시예에서, 노래의 총 기간(Ttotal)은 228초이다. 표 5는 단어 및 시간 역전기(214)의 출력으로서 데이터 예를 보여준다.
Figure pct00005
ASR 부호화기(204)는 순방향 동기화된 가사 및 대응하는 타이밍 정보, 및 "역전된" 역전 동기화된 가사 및 타이밍 정보를 확신 스코어 엔진(confidence score engine)(216)으로 출력할 수 있다. 확신 스코어 엔진(216)은 순방향 정렬과 역방향 정렬 사이의 불일치를 사용하여 타이밍 정보에 대한 확신 플래그(confidence falg) 또는 스코어(score)를 계산한다.
순방향 정렬과 역방향 정렬 사이의 불일치를 결정하기 위해, 확산 스코어 엔진(216)은 순방향 타이밍 정보와 역방향 타이밍 정보 사이의 차이를 미리 결정된 문턱값(threshold)에 비교하고, 상기 비교 결과에 따라 상기 라인을 낮은 확신 라인 또는 높은 확신 라인으로 표시한다. 라인 타이밍 정보는 Tn BP로서 정의될 수 있으며 여기서 n은 라인 인덱스이고, B는 경계 타입을 정의하고(S는 시작시간 E는 종료시간) P는 통과(pass) 타입(F는 순방향 R은 역방향)이라면, 라인 n에 대한 시작 불일치는 다음 식 (3)에 의해 정해지고:
MMn S = abs(Tn SF - Tn SR) 식 (3)
라인 n에 대한 종료 불일치는 다음 식 (4)에 의해 정해진다:
MMn E = abs(Tn EF - Tn ER) 식 (3)
그 다음에 상기 라인이 낮은 확신 라인 또는 높은 확신 라인으로서 표시되어야(flagged) 하는지 결정하기 위해 불일치 메트릭(mismatch metrics)이 미리 결정된 문턱값에 비교된다.
도 4는 순방향 정렬과 역방향 정렬 사이의 불일치를 결정하는 실시예를 개념적으로 도시한다. 상기 실시예를 사용하면, 시작 및 종료 불일치 메트릭은 제1 라인과 마지막 라인의 라인 경계에 대해 0의 값을 가질 것이다. 제2 라인에 대한 시작 불일치 메트릭은 0의 값을 갖지만, 종료 불일치 메트릭스는 1.5초의 값을 가질 것이다(MMn E = abs(Tn EF - Tn ER), T2 EF = 27, T2 ER = 25.5, 및 MM2 E = abs(27 - 25.5) = 1.5). MM2 E의 값은 문턱값에 비교될 것이며, 만일 1.5초가 문턱값을 초과한다면, 가사의 제2 라인은 낮은 확신 라인으로 표시될 것이다. 순방향 및/또는 역전 정렬된 가사의 제2 라인은 표시될 수 있다.
상기 문턱값은 예를 들면 약 1초와 같이 임의의 값이 될 수 있으며, 어느 정도는 오디오 신호의 타입에 종속할 것이다. 예를 들면, 문턱값은 동적일 수 있으며, 따라서 가사의 라인들이 길이가 더 짧을 수 있는 더 빠른 노래에 대해서는, 문턱값은 감소될 수 있다. 확신 플래그(confidence flag)에 대한 문턱값은 훈련 세트의 예를 기초로 분류 에러(classification error)를 최소화하는 기법을 사용하여 결정될 수 있다. 예를 들면, 다수의 허위 긍정(false positives) 및/또는 허위 부정(false negatives)(즉, 라인이 정확한 경계를 갖지만 낮은 확신으로 표시된 경우, 또는 부정확한 경계를 갖고 높은 확신으로 표시된 경우)이 훈련 세트로서 사용될 수 있다.
또한, 예를 들면, 특정 응용에 대해 더욱 관련 있는 에러를 최소화하기 위해, 양호한 것으로 표시된 불량 경계의 수를 최소화하기 위해(정확성이 요구되는 경우에), 또는 불량한 것으로 표시된 양호한 경계의 수를 최소화하기 위해(추가의 처리 비용이 요구되는 경우에) 문턱값을 결정할 때 비용 함수가 사용될 수 있다.
상기 실시예는 가사의 라인들을 사용하지만, 불일치 메트릭은 또한 단어들 또는 음소들과 같은 콘텐츠의 임의의 입도(granularity) 레벨에서 사용될 수도 있다.
확신 스코어 엔진(206)은 또한 순방향 (또는 역방향) 인식 결과를 분석하고 주어진 노래 또는 오디오 신호의 모든 라인들의 기간들의 분포에 대해 라인 기간의 확률 메트릭을 결정한다. 예를 들면, 이 메트릭은 현대의 서구 노래들의 대칭적인 관념(notion)을 레버리지하고 특정 라인의 기간이 노래 또는 오디오 신호에 대한 라인 기간 모델에 들어맞을 확률을 연산한다. (예컨대, 상기 순방향 및/또는 역방향 정렬에서 취해진) 자동 정렬 프로세스에서 결정된 것과 같이 각 라인의 기간이 주어진다면, 라인 기간의 평균과 표준 편차를 계산함으로써 라인 기간의 매개 모델이 추정될 수 있다. 그 다음, 각 라인에 대해, 만일 평균 기간으로부터의 거리가 문턱값, 예컨대 2개의 표준편차보다 더 크다면, 라인은 낮은 확신 라인으로 표시될 수 있다. 상기 문턱값은 다를 수 있고, 예를 들면 응용 또는 타이밍 경계 정보의 정확성의 요구 레벨에 기초하여 동적일 수 있다.
아래의 표 6은 순방향 정렬에 대한 표 1 및 표 2의 상기 예들을 사용하여 라인 기간, 평균, 및 표준편차를 계산하는 것을 보여준다.
순방향 시간 기간 평균과의 거리 확신 평균 표준편차
라인 1 2.4 0.1 높음 2.5

0.216

라인 2 2.3 0.2 높음
라인 3 2.8 0.3 낮음
확신 스코어는 또한 예를 들면 라인 레벨에 추가하여 또는 대신하여 단어 레벨에서 확신 스코어 엔진(216)으로부터 연산되어 출력될 수도 있다.
다른 실시예에서, 확신 스코어 엔진(216)은 라인 기간의 모델을 생성하고, 라인이 상기 모델로부터 가외자일 확률을 라인 기간들의 비교에 기초하여 추정할 수 있다. 가외자는 예를 들면 라인이 음성 인식 동안에 부정확하게 처리된 것을 지시할 수 있다. HMM 모델들은 일반적으로 정확한 입력 오디오 신호에 대해 훈련되지 않고, 오히려 훈련 데이터에 대해 훈련된다. 따라서, 입력 오디오 신호들은 HMM 모델을 훈련하기 위해 사용된 것들과는 상이할 수 있으며, 이것으로 인해 음성 인식 또는 강제-정렬 동안에 에러가 발생할 수 있다.
따라서, 예를 들면, 순방향 및 역방향에서 정렬의 비교를 수행하는 것을 포함하는 확신 스코어 또는 메트릭을 연산하고, 및 라인-기간 확신 측정을 수행하는 방법들이 제공된다.
도 5는 동기화되거나 매핑된 라인들의 가외자들을 순방향 정렬 또는 역방향 정렬을 사용하여 결정하는 실시예를 개념적으로 도시한다. 도시된 것과 같이, 라인 1, 2, N-1, 및 N 각각은 실질적으로 동일한 타이밍 정보를 갖는다. 그러나, 라인 3은 라인 1의 길이(T1) 또는 라인 2의 길이(T2)와 문턱값 양을 초과한 양만큼 상이한 타이밍 정보(T3)를 갖는다. 따라서, 라인 3은 라인 기간 비교를 사용하여 가외자로서 표시될 수 있다.
일 실시예에서, 라인 기간 분포의 추정은 확신이 추정되고 있는 라인과 같이 동일 타입의 음악 세그먼트(예컨대, 후렴(chorus)만)에 속하는 가사의 라인들에 제한될 수 있다. 예를 들면, 노래는 그 노래의 세그먼트들(절, 후렴, 브리지(bridge))과 라인 기간에 대해 사용된 값에 기초하여 분할될 수 있고, 따라서 확신 스코어를 결정하기 위해 사용된 평균 및 표준편차의 값들이 각각의 세그먼트로부터 획득될 수 있다. 예를 들면, 후렴으로부터 라인의 확신 스코어를 결정할 때, 후렴에 대응하는 가사의 라인 기간 값들이 사용될 수 있다.
따라서 시스템(20)은 순방향 및 역방향에서 동기화된 오디오/가사, 오디오 신호와 관련된 가사의 단어들 또는 가사들의 타이밍 정보, 및 가사의 타이밍 경계 정보 또는 컨텐츠가 확신되거나 신뢰할 수 있는 정도를 지시하는 확신 스코어/플래그를 출력할 수 있다. 확신 스코어는 예를 들면, 순방향 및 역방향 타이밍 경계 정보에 기초하여, 라인 기간 비교를 사용하여, 다수의 HMM을 가지고 수행된 다수의 정렬들의 비교를 사용하여, 등등 다수의 방법으로 결정될 수 있다. 시스템(200)은 데이터를 포함하거나 DB에 출력하고, 따라서 시스템(200)은 노래 또는 오디오 신호를 일괄 모드로 처리하여 한 세트의 음악 및 가사 파일들로부터 한 세트의 시간-주석 달인 가사를 생성할 수 있다.
시스템(200)은 또한 오디오 신호의 예상 텍스트 표기를 오디오 신호에 매핑하기 위해 음성 인식 기법을 사용할 수 있다. 대안으로, (텍스트 표기를 결정하기 위해 음성 인식이 필요 없도록) 정확한 가사가 수신되고 오디오 신호의 보컬 엘리먼트(vocal elements)의 텍스트 표기로서 취해지며, 예를 들면 타이밍 경계 정보를 생성하기 위해 오디오 신호에 대해 상기 가사의 강제 정렬이 수행될 수 있다.
도 6은 오디오 신호를 처리하는 방법(600)의 실시예를 도시하는 흐름도이다. 여기서 설명된 프로세스 외의 다른 프로세스들 및 방법들에 대해, 상기 흐름도는 본 실시예의 가능한 하나의 구현의 기능 및 동작을 보여준다. 이와 관련하여, 각 블록은, 프로세스에서 특정 논리 기능 또는 단계들을 구현하는 프로세서에 의해 실행 가능한 하나 이상의 명령들을 포함하는 프로그램 코드의 모듈, 세그먼트 또는 부분을 나타낼 수 있다. 상기 프로그램 코드는 예를 들면, 디스크 또는 하드 드라이브와 같은 임의의 타입의 컴퓨터 판독 가능한 매체에 저장될 수 있다. 컴퓨터 판독 가능한 매체는 예를 들면, 레지스터 메모리, 프로세서 캐시 및 RAM과 같은 단시간 동안 데이터를 저장하는 컴퓨터 판독 가능한 매체와 같은 일시적이지 않은(non-transitory) 컴퓨터 판독 가능한 매체를 포함할 수 있다. 컴퓨터 판독 가능한 매체는 또한 예를 들면, ROM, 광학 또는 자기 디스크, CD-ROM과 같은 보조 또는 영속 장시간 저장장치와 같은 일시적이지 않은 매체를 포함할 수 있다. 컴퓨터 판독 가능한 매체는 또한 임의의 다른 휘발성 또는 비휘발성 저장 시스템, 또는 다른 컴퓨터 판독 가능한 저장 매체일 수 있다.
또한, 도 6의 각 블록은 프로세스의 특정 논리 기능들을 수행하기 위해 배선된 회로를 나타낼 수 있다. 수반된 기능성에 따라, 실질적으로 동시의 또는 역의 순서를 포함하는, 상기 제시된 또는 논의된 것과 다른 순서로 기능들이 실행될 수 있는 대안적인 구현들이 본 명세서의 실시예들의 범위 내에 포함되며, 이것은 당해 기술분야의 통상적인 당업자라면 이해할 수 있을 것이다.
처음에 방법(600)에서, 입력 신호 및 대응하는 가사 텍스트가 블록 602에서 수신된다. 입력 오디오 신호는 보컬 엘리먼트와 비-보컬 엘리먼트를 포함할 수 있고, 예를 들어 음악 트랙 또는 노래이거나, 단지 음악 트랙 또는 노래의 부분일 수 있다. 이어서, 선택적인 단계로서, 기악(또는 비-보컬들)은 블록 604에서와 같이 억압될 수 있다.
그 다음에, 보컬 엘리먼트와 상기 보컬 엘리먼트의 대응하는 텍스트 표기들과의 정렬이 블록 606에서와 같이 수행될 수 있다. 그 다음에 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양과 관련 있는 타이밍 경계 정보가 블록 608에서와 같이 결정될 수 있다.
그 다음에 보컬 엘리먼트의 상기 부분의 기간에 대해 타이밍 경계 정보에 대한 확신 레벨을 지시하는 확신 메트릭이 블록 610에서와 같이 출력될 수 있다. 상기 확신 메트릭은 예를 들면, 가외자들의 탐색을 위해 보컬 엘리먼트들의 라인 기간들을 비교함으로써, 순방향 및 역방향 정렬 출력을 비교함으로써, 병렬 또는 직렬로 수행된 정렬들을 비교하고 상이한 HMM을 사용함으로써 임의의 다수의 방법들로 결정될 수 있다. 다른 예들도 역시 가능하다.
도 7은 오디오 신호들을 처리하는 방법(700)의 또 다른 실시예의 흐름도를 도시한다. 처음에 방법(700)에서, 블록 702에서와 같이 입력 오디오 신호 및 대응하는 가사가 수신된다. 입력 오디오 신호는 보컬 엘리먼트와 비-보컬 엘리먼트 모두를 포함할 수 있고, 예를 들면 음악 트랙 또는 노래이거나, 단지 음악 또는 노래의 부분일 수 있다. 이어서, 선택적인 단계로서, 블록 704에서와 같이, 기악(비-보컬들)은 억압될 수 있다. 그 다음에 순방향 및 역방향 문법들이 블록 706에서와 같이 가사 텍스트로부터 결정된다.
다음, 순방향에서 처리된 가사 텍스트에 대한 문법들과 상기 보컬 엘리먼트들의 대응하는 음성학 표기들과의 순방향 정렬이 블록 708에서와 같이 수행된다. 상기 순방향 정렬의 일부로서, 동시에 또는 후속적으로, 가사 텍스트에 대응하는 문법들의 라인, 단어 또는 음소의 기간이 결정된다. 상기 기간은 예를 들면, 입력 오디오 신호의 시작부터 경과된 시간의 양을 지시하거나, 상기 문법 라인의 시작부터 문법 라인의 종료까지 경과된 시간의 양을 지시할 수 있다.
또한, 상기 보컬 엘리먼트의 대응하는 음성학적 표기들과 역방향에서 처리된 가사 텍스트에 대한 문법의 역방향 정렬이 블록 710에서와 같이 수행된다. 상기 역방향 정렬의 일부로서, 동시에 또는 후속적으로, 상기 역방향 가사 텍스트에 대응하는 문법들의 라인, 단어 또는 음소의 기간이 결정된다. 상기 순방향 및 역방향 정렬은 예를 들면, 병렬로(동시에 또는 실질적으로 동시에) 또는 직렬 방식으로 수행될 수 있다.
상기 순방향 및 역방향 라인 경계들은 그 다음에 블록 712에서 가사의 각 라인/단어에 대해 불일치를 연산하기 위해 비교된다. 일 예로서, 식 (2) 및 식 (3)에 설명된 시작 및 종료 불일치 메트릭이 연산되고 문턱 값에 비교된다.
수행된 비교에 기초하여, 블록 714에서, 상기 메트릭이 주어진 문턱값 내에 있는지 여부가 결정된다. 만일 상기 메트릭이 문터값 내에 있으면, 가사의 라인은 블록 716에서 높은 확신 라인으로 표시된다. 높은 확신 라인은 라인의 시작 및 종료 시간이 입력 오디오 신호의 보컬 엘리먼트들에 상당히 또는 신뢰성 있게 대응할 높은 신뢰성, 확신, 또는 확률을 갖는다. 만일 상기 메트릭이 문턱 값 내에 있지 않다면, 가사의 라인은 블록 718에서 낮은 확신 라인으로 표시된다. 낮은 확신 라인은 문법들의 라인이 입력 오디오 신호의 보컬 엘리먼트들에 신뢰성 있게 대응할 낮은 신뢰성, 확신 또는 확률을 갖는다.
또 다른 예로서, 블록 720에서, 라인 기간의 확률 메트릭이 블록 722에서 연산되고 문턱값(예컨대, 라인 기간의 2개의 표준편차)에 비교된다. 만일 상기 메트릭이 문턱값 내에 있으면, 가사의 라인은 블록 716에서 높은 확신 라인으로 표시된다. 만일 상기 메트릭이 문턱값 내에 있지 않다면, 가사의 라인은 블록 724에서 낮은 확신 라인으로 표시된다.
이어서, 블록 726에서, 대응하는 텍스트, 타이밍 정보, 및/또는 텍스트의 각 라인의 확신 스코어와 동기화된 오디오가 출력된다. 대응하는 텍스트와 동기화된 오디오는 또한 예를 들면 텍스트의 라인의 기간을 지시하는 시간-주석을 포함할 수 있다. 확신 스코어들은 예를 들면, 여기서 설명된 메트릭들 중 어느 하나의 값을 지시하거나, 낮은 또는 높은 확신 값을 포함할 수 있다.
방법(700)으로부터 출력된 정보는 다수의 상이한 응용들에서 사용될 수 있다. 그와 같은 응용들의 예는 이하에서 설명된다.
일 실시예로서, 도 1의 시스템(100) 또는 도 2의 시스템(200)에서, 히든 마코프 모델들이 자동 음성 인식을 위해 사용되고, 상기 HMM들은 모델들이 눈에 보이지 않는 스피치에 대해 잘 작동하는 일반화뿐만 아니라, 음향 공간의 우수한 커버리지를 제공하는 것을 목표로 하는 대규모(large corpus) 데이터에 대해 훈련될 수 있다.
HMM은 다수 화자들의 모든 변환이 캡처되는 목표를 가지고 대규모 세트의 훈련 데이터에 대해 훈련될 수 있다. 그와 같은 타입의 HMM은 화자 독립적인 것으로 지칭된다. 모델들이 특정 화자에 대응하는 데이터에 대해 훈련되는 경우 대안의 HMM들이 획득될 수 있으며, 그와 같은 HMM들은 화자 종속 시스템으로 지칭된다. 화자 종속 시스템들은 특정 화자에 대한 대량의 훈련 데이터가 훈련 목적으로 수집되는 것을 요구할 수 있다. 그러나, 화자 종속 모델들을 훈련하는 대신에, 적응 기법이 사용될 수 있다. 예를 들면, 화자로부터 소량의 데이터를 사용하면, HMM은 화자의 목소리에 더 잘 맞는 특성으로 변환될 수 있다. 더 많은 데이터가 가용할 때 모델들이 적응되는 점증 적응(incremental adaptation)에 반대인 적응(예컨대, 정적 적응)을 위해 가용한 데이터의 묶음을 갖고 및 알려진 표기(예컨대, 감시 적응(supervised adaptation))를 갖는 데이터를 사용할 때 고품질 결과가 얻어질 수 수 있다. 상기 모델들을 적응시키기 위해, 적응 데이터와 초기 모델 세트 사이의 불일치를 감소시키는 최대우도선형회귀(MLLR: Maximum Likelihood Linear Regre-ssion) 를 사용하여 한 세트의 변형이 연산되는 선형변형(linear transformations)이 사용될 수 있다. 대안으로, 모델 파라미터 분포에 대한 선행 지식이 사용되는 최대 사후(MAP: Maximun a Posteriori) 기법이 사용될 수 있다.
일 실시예에서, 도 6 또는 도 7의 방법들은 반복적 방식으로 수행될 수 있다. 방법(600) 또는 방법(700)은 제1 반복으로 수행되고, 높은-확신 스코어를 갖는 스피치 또는 가사의 라인들(또는 단어들)이 선택되어 저장될 수 있다. HMM들은 그 다음에 감시 적응 기법을 사용하여 높은-확신 스코어를 갖는 가사의 라인들(또는 단어들)의 높은-확신 데이터를 사용하여 적응될 수 있다. 예를 들면, 방법(600) 또는 방법(700)은 가사 라인들에 대해 더 많은 높은-확신 스코어들을 획득하기 위해 재훈련된 HMM을 사용하여 제2 반복으로 수행될 수 있다. 상기 HMM들은 결과로서 생성된 높은-확신 데이터를 가지고 다시 재훈련될 수 있으며, 반복적 동기화 프로세스는 예를 들면 방법(600) 또는 방법(700)으로부터 출력된 높은-확신 라인들을 사용하여 적응을 통해 HMM들을 향상시킴으로써 계속될 수 있다.
도 8은 반복적 방식으로 오디오 신호를 처리하는 방법(800)의 일 실시예의 흐름도를 도시한다. 처음에, 본 명세서에서 설명된 방법들 중 어느 하나를 사용하여 블록 812에서 오디오 및 가사가 정렬된다. 다수의 높은-확신 라인들을 지시하는 확신 스코어 또는 메트릭 값들 외에 시간-주석 달린 오디오 정보가 출력된다. 다음에, 만일 오디오 정렬 프로세스에 의해 블록 804에서 문턱값보다 더 큰 다수의 높은 확신 라인들이 얻어지면(예컨대, 감시 적응을 수행하기 위해 필요한 데이터 양, 예컨대 1분 이상의 오디오 데이터에 기초하는 N), 상기 HMM들은 블록 806에서 상기 높은 확신 라인들로부터의 데이터를 사용하여 적응되고 재훈련된다. 오디오 및 가사는 그 다음에 예를 들면 재훈련된 HMM들을 사용하여 재정렬될 수 있다.
제2 반복 동안의 재정렬 프로세스의 출력은 제1 반복의 정렬 프로세스의 출력과 비교되고, 만일 제2 반복의 다수의 높은 확신 라인들이 더 높다면, 제2 반복의 출력은 시간-주석 달린 오디오 신호로서 저장될 수 있다.
또 다른 실시예에서, 여기서 설명된 방법들은 대응하는 오디오 신호들을 인식하기 위해 사용될 데이터-특유의 HMM들을 훈련하기 위해 사용될 수 있다. 예를 들면, 주어진 노래에 대해 일반적인 HMM을 사용하기보다, 주어진 노래에 대한 가장 적절한 모델의 선택이 이루어질 수 있다. 복수의 HMM들은 노래 메타데이터 정보(예컨대, 장르, 가수, 성별, 템포 등)를 선택 기준으로서 사용하여 훈련 데이터 서브세트(subset)들에 대해 훈련될 수 있다. 도 9는 계층적 HMM 훈련 및 모델 선택을 도시하는 블록도이다. 초기 HMM 훈련 세트(902)는 힙합 장르(904), 팝 장르(906), 록 장르(908), 및 댄스 장르(910)에 대해 훈련된 별도의 모델들을 생성하기 위해 장르 정보를 사용하여 추가로 적응될 수 있다. 장르 HMM들은 느린 힙합 노래(912), 빠른 힙합 노래(914), 느린 댄스 노래(916), 및 빠른 댄스 노래(918)와 같은 특정 템포에 추가로 적응될 수 있다. 또한, 이 HMM들은, 예를 들면 여성 실연자(920)에 의한 느린 댄스 노래 및 남성 실연자(922)에 의한 느린 댄스 노래와 같이, 실연자의 성별에 기초하여 적응될 수 있다. 또한 대응하는 역전 모델들이 예를 들면 역전된 오디오를 갖는 훈련 세트들을 사용하여 훈련될 수 있다.
1회 훈련 프로세스의 결과는 상이한 HMM들의 데이터베이스이며, 상기 HMM의 각각은 예를 들면, 훈련된 데이터의 성별, 특정 장르 및 템포를 지정하는 메타데이터를 포함할 수 있다.
또한, 또 다른 실시예에서, 도 10은 특정 실연자로부터의 기존의 동기화된-가사 데이터를 사용하여 HMM들을 적응시키는 방법(1000)의 일 실시예의 흐름도를 도시한다. 입력 오디오 신호는 노래의 제목, 노래의 아티스트의 이름 등을 지시하는 정보(예컨대, 메타데이터)를 포함할 수 있다. (예를 들면 시스템(100) 또는 시스템(200)과 같은) 시스템은 블록 1002에서 입력 오디오 신호의 아티스트에 의한 노래들에 대한 동기화된 오디오 및 가사가 존재하는지 여부를 결정하기 위해 동기화된 가사의 DB를 검색할 수 있다. 만일 입력 신호의 아티스트에 의한 노래 또는 오디오 샘플에 대한 동기화된 가사가 존재한다면, HMM 모델은, 블록 1004에서, 재훈련되고 상기 아티스트의 오디오 샘플에 적응된다. 만일 입력 신호의 아티스트에 의한 노래 또는 오디오 샘플에 대한 동기화된 가사가 존재하지 않는다면, 블록 1006에서, 표준 HMM이 사용되고, 오디오 및 가사 정렬이 적절한 HMM에 의해 블록 1008에서 수행된다. 방법(1000)을 사용하면, HMM들은 특정 실연자(예컨대, 가수)에 대해 이미 처리된 노래들로부터 동기화된 가사 메타데이터를 사용함으로써 향상될 수 있다. 만일 그와 같은 데이터가 이미 시스템 내에 존재한다면, 상기 데이터는 동기화 프로세스가 수행되기 전에 상기 HMM들의 적응을 수행하기 위해 사용될 수 있다. 이런 방식으로, 화자 독립적 HMM은 특정 화자의 더 나은 모델 특성에 적응될 수 있다.
도 8 내지 도 10의 방법들의 특정 응용 예에서, 비틀스에 의한 특정 노래의 입력 오디오 샘플이 대응하는 가사 텍스트와 함께 수신될 수 있다. 만일 시스템이 비틀스에 대해 10개의 다른 노래들의 오디오-가사 동기화를 수행했다면, 상기 시스템은 먼저 이전에 오디오-가사 동기화된 데이터를 사용하여 일반적(generic) 팝 타입-HMM을 적응시킬 수 있다. 시스템은 그 다음에 상기 적응된 HMM을 예를 들면 오디오-가사 동기화를 위해 사용할 수 있다.
일 실시예에서, 여기서 설명된 방법들 중 어느 방법에서든, 데이터 특유의 HMM들(예컨대, 도 9에 도시되거나 도 10에서와 같이 향상된 것) 중 어느 것이라도 사용될 수 있다. 일 예로서, 상이한 HMM들 각각을 사용하여 병렬 오디오 및 가사 동기화 프로세스가 수행될 수 있다. 결과로서 생성된 확신 정보를 사용하면, 모든 상이한 출력들 중 최선의 결과(예컨대, 최소 개수의 낮은 확신 라인들을 갖는 결과)가 최종 결과로서 선택될 수 있다.
도 11은 병렬 오디오 및 가사 동기화 시스템(1100)을 도시하는 블록도이다. 시스템(1100)은 다수의 정렬기(1,2,...,N)를 포함하고, 각각은 입력 오디오 신호의 사본과 대응하는 가사 텍스트를 수신한다. 정렬기들은 시간-주석 달린 동기화된 오디오 및 가사를 출력하는 동작을 하고, 도 1의 시스템(100) 또는 도 2의 시스템(200) 내의 전술한 구성요소들 중 어느 것을 포함하거나 구성요소들 중 어느 것일 수 있다. 상기 정렬기들 각각은 (도 9에 도시된 상이한 HMM들과 같은) 상이한 HMM 모델들을 사용하여 동작하고, 있을 수 있는 다수의 상이한 HMM들과 동등한 다수의 정렬기가 있을 수 있다.
정렬기들의 출력은 동기화된 가사(SL1, SL2,...,SLN), 타이밍 경계 정보, 및 대응하는 확신 스코어(N1 LowConf, N2 LowConf,...,NN LowConf)를 포함할 것이다. 상기 확신 스코어는 전술한 메트릭들 중 어느 것을 포함하거나 메트릭 중 어느 것일 수 있고, 또한 동기화된 가사 내 다수의 낮은 확신 라인들을 지시할 수 있다. 셀렉터(selector)(1102)는 상기 정렬기들의 출력을 수신하고, 예를 들면 최소 개수의 낮은 확신 라인들을 갖는 출력과 같은 최선의 결과를 갖는 출력을 선택한다.
또 다른 실시예에서, 훈련 세트에 데이터를 할당하기 위해 사용된 기준에 기초하여 최선의 HMM 모델이 선택되고, 선택된 HMM 모델은 오디오 및 가사를 정렬하기 위해 사용될 수 있다. 예를 들면, 입력 오디오 신호는 노래의 타입, 장르, 템포, 실연자의 성별 등을 지시하는 메타데이터를 포함할 수 있고, 그와 같은 정보는 음성 인식 동안에 사용될 (도 9에서 도시된 것과 같은) 특정 HMM을 선택하기 위해 사용될 수 있다. 도 12는 적절한 HMM을 선택하기 위한 실시예 시스템(1200)의 블록도이다. 정렬기(1202)는 입력 오디오 신호 및 가사 텍스트를 수신할 수 있다. 정렬기(1202)는 도 1의 시스템(100) 또는 도 2의 시스템(200)의 구성요소들을 포함하거나 그 구성요소들일 수 있다. 정렬기(1202)는 또한 HMM 셀렉터(1204)로부터 선택된 HMM을 수신할 수도 있다. HMM 셀렉터(1204)는 또한 입력 오디오 신호를 수신하거나 (정렬기(1202)로부터 또는 독립적으로) 입력 오디오 신호의 메타데이터만을 수신하고 상기 메타데이터 정보를 사용하여 HMM DB(1206)로부터 적절한 HMM을 선택하는 것이 가능하다. 예를 들어, 만일 처리되고 있는 오디오 신호가 느린 록 노래인 경우, 메타데이터 데이터는 그와 같은 정보를 지시하고 느린 록 노래에 대해 훈련된 HMM이 선택되어 음성 인식 중에 사용되는 정렬기에 제공될 것이다. 적절한 HMM을 선택하기 위해 백-오프(back-off) 기법이 사용될 수 있으며, 이 기법에서는 먼저 최선의 특화 모델을 찾고, 만일 그와 같은 모델이 존재하지 않는 경우, 계속해서 차선의 특화 모델을 찾는 것이다. 만일 노래에 대한 메타데이터가 알려져 있지 않거나, 만일 어떤 모델도 메타데이터와 일치하지 않으면, 동기화를 위해 일반(generic) HMM이 사용될 것이다.
따라서, 도 8 내지 도 12에 도시된 실시예들을 사용하면, 노래들의 세그먼트 타입(예컨대, 장르)에 대한 기준이 정의될 수 있고, HMM이 특정 타입의 노래에 대해 생성될 수 있고, 후속적으로 음성 인식 동안에 사용을 위해 적절히 선택되는 것이 가능하다.
도 13은 오디오 및 가사의 혼합(hybrid) 동기화를 위한 시스템(1300)이다. 시스템(1300)은 오디오-가사 동기화를 수행하기 위해 정렬기(1302)를 포함하고, 이것은 도 1의 시스템(100) 또는 도 2의 시스템(200)의 임의의 구성요소들이거나 rm 구성요소들을 포함할 수 있다. 정렬기(1302)는 사용자 인터페이스(1304)에 출력하며, 이것은 사용자가 예를 들면 가사 텍스트 또는 타이밍 정보 내 에러를 갖는 가사의 수동 정정을 수행하는 것을 가능하게 한다. 이와 같이, 시스템(1300)은 오디오 및 가사의 자동 동기화를 가능하게 하고 수동 정정에 대비한다. 일 실시예에서, 정렬기(1302)는 예를 들면 사용자에 의한 검토 또는 정정을 위해 사용자 인터페이스(1304)에 낮은 확신을 갖는 것으로 표시된 가사의 라인들을 출력할 수 있다(또는 낮은 확신 라인들을 강조(highlight)할 수 있다).
지금까지 본 발명의 다양한 측면들과 실시예들이 개시되었지만, 다른 측면들과 실시예들이 당업자에게 명백할 것이다. 전술한 다양한 측면들과 실시예들은 단지 설명을 위한 것이고 한정하려는 의도는 없으며 본 발명의 진정한 범위 및 사상은 첨부된 특허청구범위의 청구항들에 의해 표시된다. 다수의 수정 및 변경이 본 발명의 범위와 사상을 벗어나지 않으면서 이루어질 수 있음은 당업자에게 명백할 것이다. 상기 열거한 것들 외에, 본 발명의 범위에 속하는 기능적으로 균등한 방법 및 장치들이 전술한 설명으로부터 당업자에게 명백할 것이다. 그와 같은 수정 및 변경은 첨부된 청구항들의 범위 내에 속하는 것으로 해석되어야 한다.

Claims (30)

  1. 오디오 신호를 처리하는 방법에 있어서,
    보컬 엘리먼트(vocal elements)를 포함하는 오디오 신호를 수신하는 단계;
    프로세서가 상기 보컬 엘리먼트의 대응하는 텍스트 표기(textual transcrip-tion)와 상기 보컬 엘리먼트의 정렬을 수행하는 단계;
    상기 정렬에 기초하여, 상기 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 타이밍 경계 정보를 결정하는 단계; 및
    상기 보컬 엘리먼트의 부분의 기간에 대한 타이밍 경계 정보에 대해 확실성 레벨을 지시하는 확신 메트릭(metric)을 출력하는 단계를 포함하는, 오디오 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 보컬 엘리먼트의 대응하는 텍스트 표기와 상기 보컬 엘리먼트의 정렬을 수행하는 단계는 상기 보컬 엘리먼트의 대응하는 텍스트 표기와 순방향에서 처리된 상기 보컬 엘리먼트의 순방향 정렬을 수행하는 것을 포함하고, 상기 타이밍 경계 정보를 결정하는 단계는 순방향에서 처리된 상기 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 순방향 타이밍 경계 정보를 결정하는 것을 포함하고,
    상기 방법은,
    상기 보컬 엘리먼트의 대응하는 역방향 텍스트 표기와 함께 역방향에서 처리된 상기 보컬 엘리먼트의 역방향 정렬을 수행하는 단계;
    상기 역방향에서 처리된 상기 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 역방향 타이밍 경계 정보를 결정하는 단계; 및
    상기 순방향 타이밍 정보와 상기 역방향 타이밍 정보 사이의 비교에 기초하여, 상기 순방향 타이밍 경계 정보에 대한 확실성 레벨을 지시하는 확신 메트릭을 출력하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  3. 제 2 항에 있어서,
    상기 순방향 타이밍 경계 정보와 상기 역방향 타이밍 경계 정보 사이의 차이를 결정하는 단계;
    미리 정해진 문턱값(threshold)과 상기 차이의 비교를 수행하는 단계; 및
    상기 비교에 기초하여, 상기 보컬 엘리먼트의 부분을 확신 레벨로 표시하는 단계를 포함하는, 오디오 신호 처리 방법.
  4. 제 2 항에 있어서,
    상기 오디오 신호는 노래이고, 상기 보컬 엘리먼트의 부분은 상기 노래의 라인이고, 상기 순방향 타이밍 정보와 상기 역방향 타이밍 정보는 각각 상기 노래의 라인의 시작시간 및 종료시간을 지시하고,
    상기 방법은,
    상기 순방향 타이밍 정보의 시작시간과 상기 역방향 타이밍 정보의 시작시간을 비교하여 시작 불일치 메트릭을 제공하는 단계; 및
    상기 순방향 타이밍 정보의 종료시간과 상기 역방향 타이밍 정보의 종료시간을 비교하여 종료 불일치 메트릭을 제공하는 단계에 의하여, 상기 순방향 타이밍 정보와 상기 역방향 타이밍 정보를 비교하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 보컬 엘리먼트의 복수의 부분들 각각에 대해, 타이밍 경계 정보를 결정하는 단계;
    상기 보컬 엘리먼트의 복수의 부분들에 기초하여 상기 보컬 엘리먼트의 부분의 주어진 기간에 대한 통계 모델을 연산하는 단계;
    상기 보컬 엘리먼트의 복수의 부분들 각각에 대해, 상기 기간이 상기 통계 모델에 맞을 확률을 결정하고 상기 확률을 문턱값과 비교하는 단계; 및
    상기 문턱값보다 낮은 확률을 갖는 상기 보컬 엘리먼트의 부분들에 대해, 상기 보컬 엘리먼트의 부분을 낮은-확신 플래그(flag)로 표시하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  6. 제 1 항에 있어서,
    상기 보컬 엘리먼트의 복수의 부분들 각각에 대해, 타이밍 경계 정보를 결정하는 단계;
    상기 보컬 엘리먼트의 복수의 부분들 각각의 타이밍 경계 정보를 상호 비교하는 단계; 및
    상기 비교에 기초하여, 상기 보컬 엘리먼트의 복수의 부분들의 가외자(outlier)들을 식별하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  7. 제 1 항에 있어서,
    상기 오디오 신호는 보컬 엘리먼트와 비-보컬(non-vocal) 엘리먼트를 포함하고,
    상기 방법은,
    상기 비-보컬 엘리먼트를 억압하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  8. 제 1 항에 있어서,
    상기 오디오 신호는 가사를 포함하는 노래이고,
    상기 방법은,
    상기 보컬 엘리먼트의 대응하는 텍스트 표기를 상기 오디오 신호에 동기화시키는 단계; 및
    상기 오디오 신호에 관련된 상기 가사의 라인들의 타이밍 정보를 지시하는 시간-주석 달린 동기화된 가사를 출력하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  9. 제 1 항에 있어서,
    상기 정렬을 수행하는 단계는 비터비 디코더(Viterbi decoder) 및 히든 마코프 모델(HMM: Hidden Markov Model)을 사용하여 보컬 엘리먼트에 대해 음성 인식을 수행하는 것을 포함하고, 상기 오디오 신호는 아티스트에 의한 음악 트랙이며,
    상기 방법은,
    상기 아티스트의 동기화된 가사를 위해 DB(database)에 액세스하는 단계;
    적응(adaptation) 데이터로서 상기 아티스트의 동기화된 가사를 사용하여 상기 HMM을 적응시켜 갱신된 HMM을 생성하는 단계; 및
    상기 갱신된 HMM을 사용하여 상기 정렬을 반복하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  10. 제 1 항에 있어서,
    상기 오디오 신호는 음악 트랙이고,
    상기 보컬 엘리먼트의 부분은 상기 음악 트랙의 가사의 라인 및 상기 음악 트랙의 가사의 단어로 구성된 그룹에서 선택되는, 오디오 신호 처리 방법.
  11. 제 10 항에 있어서,
    상기 보컬 엘리먼트의 부분의 기간에 대해 타이밍 경계 정보에 대한 확실성 레벨을 지시하는 확신 메트릭을 출력하는 단계는 상기 음악 트랙의 가사의 라인을 높은 확신 라인 또는 낮은 확신 라인으로서 표시하는 것을 포함하는, 오디오 신호 처리 방법.
  12. 제 1 항에 있어서,
    상기 보컬 엘리먼트에 대해 음성 인식을 수행하여 음성학적 표기(phonetic transcriptions)의 시퀀스를 생성하는 단계; 및
    상기 음성학적 표기와 상기 보컬 엘리먼트의 정렬을 수행하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  13. 제 12 항에 있어서,
    상기 정렬을 수행하는 단계는 상기 오디오 신호에 대응하는 가사 텍스트를 수신하는 단계;
    상기 가사 텍스트에 대해 문법을 결정하는 단계; 및
    상기 보컬 엘리먼트의 음성학적 표기를 상기 가사 텍스트의 문법에 매핑(mapping)하는 단계를 포함하는, 오디오 신호 처리 방법.
  14. 제 1 항에 있어서,
    상기 정렬을 수행하는 단계는 HMM을 사용하여 상기 보컬 엘리먼트의 복수의 부분들에 대해 음성 인식을 수행하는 것을 포함하고,
    상기 방법은,
    상기 확신 메트릭이 미리 결정된 문턱값을 초과하는지 판정하는 단계; 및
    상기 미리 결정된 문턱값을 초과하지 않는 확신 메트릭을 갖는 보컬 엘리먼트의 부분들을 포함하는 데이터를 사용하여 상기 HMM을 적응시켜, 갱신된 HMM을 생성하는 단계를 추가로 포함하는, 오디오 신호 처리 방법.
  15. 제 14 항에 있어서,
    상기 정렬을 수행하는 단계, 상기 확신 메트릭을 출력하는 단계, 상기 HMM을 적응시키는 단계, 및 낮은 확신 라인들의 개수의 감소가 더 이상 없을 때까지 반복적인 방식으로 상기 정렬을 반복하는 단계를 수행하는 것을 반복하는 것을 포함하는, 오디오 신호 처리 방법.
  16. 제 1 항에 있어서,
    상기 정렬을 수행하는 단계는 HMM을 사용하여 상기 보컬 엘리먼트에 대해 음성 인식을 수행하는 것을 포함하고,
    상기 방법은,
    상기 오디오 신호의 메타데이터 정보에 기초한 훈련(training) 데이터로 HMM DB를 훈련시키는 단계; 및
    상기 오디오 신호의 메타데이터 정보에 기초하여 상기 정렬을 수행하기 위해 HMM을 선택하는 단계를 포함하는, 오디오 신호 처리 방법.
  17. 제 16 항에 있어서,
    상기 메타데이터 정보는 장르, 아티스트, 성별, 및 템포로 구성된 그룹에서 선택된 정보를 지시하는, 오디오 신호 처리 방법.
  18. 제 1 항에 있어서,
    각각의 정렬에 대해 상이한 HMM을 사용하여 상기 정렬을 복수 횟수 수행하는 단계;
    각각의 정렬에 대하여 상기 확신 메트릭을 결정하는 단계;
    상기 타이밍 경계 정보에 대한 가장 높은 확신 레벨을 지시하는 확신 메트릭을 갖는 정렬을 선택하는 단계; 및
    상기 선택된 정렬에 대응하는 타이밍 경계 정보를 지시하는 시간-주석 달린 동기화된 가사를 출력하는 단계를 추가로 포함하고,
    상기 타이밍 경계 정보는 상기 오디오 신호에 관련된 가사의 라인들에 부속하는, 오디오 신호 처리 방법.
  19. 컴퓨팅 디바이스에 의해 실행 가능한 명령들을 저장한 컴퓨터 판독 가능한 저장매체에 있어서,
    보컬 엘리먼트를 포함하는 오디오 신호를 수신하는 기능;
    상기 보컬 엘리먼트의 대응하는 텍스트 표기와 상기 보컬 엘리먼트의 정렬을 수행하는 기능;
    상기 정렬에 기초하여, 상기 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 타이밍 경계 정보를 결정하는 기능; 및
    상기 보컬 엘리먼트의 부분의 기간에 대한 타이밍 경계 정보에 대해 확실성 레벨을 지시하는 확신 메트릭(metric)을 출력하는 기능을 상기 컴퓨팅 디바이스에 수행시키는 명령을 저장한 컴퓨터 판독 가능한 저장 매체.
  20. 제 19 항에 있어서,
    상기 보컬 엘리먼트의 대응하는 텍스트 표기와 함께 상기 보컬 엘리먼트의 정렬을 수행하는 기능은 상기 보컬 엘리먼트의 대응하는 텍스트 표기와 함께 순방향에서 처리된 상기 보컬 엘리먼트의 순방향 정렬을 수행하는 것을 포함하고, 상기 타이밍 경계 정보를 결정하는 기능은 순방향에서 처리된 상기 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 순방향 타이밍 경계 정보를 결정하는 것을 포함하고,
    상기 명령들은,
    상기 보컬 엘리먼트의 대응하는 역방향 텍스트 표기와 역방향에서 처리된 상기 보컬 엘리먼트의 역방향 정렬을 수행하는 기능;
    상기 역방향에서 처리된 상기 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 역방향 타이밍 경계 정보를 결정하는 기능; 및
    상기 순방향 타이밍 정보와 상기 역방향 타이밍 정보 사이의 비교에 기초하여, 상기 순방향 타이밍 경계 정보에 대한 확실성 레벨을 지시하는 확신 메트릭을 출력하는 기능을 수행하기 위해 추가로 실행 가능한, 컴퓨터 판독 가능한 저장 매체.
  21. 제 20 항에 있어서,
    상기 명령들은,
    상기 순방향 타이밍 경계 정보와 상기 역방향 타이밍 경계 정보 사이의 차이를 결정하는 기능;
    미리 정해진 문턱값과 상기 차이의 비교를 수행하는 기능; 및
    상기 비교에 기초하여, 상기 보컬 엘리먼트의 부분을 확신 레벨로 표시하는 기능을 수행하기 위해 추가로 실행 가능한, 컴퓨터 판독 가능한 저장 매체.
  22. 제 20 항에 있어서,
    상기 오디오 신호는 노래이고, 상기 보컬 엘리먼트의 부분은 상기 노래의 라인이고, 상기 순방향 타이밍 정보와 상기 역방향 타이밍 정보는 각각 상기 노래의 라인의 시작시간 및 종료시간을 지시하고,
    상기 명령들은,
    상기 순방향 타이밍 정보의 시작시간과 상기 역방향 타이밍 정보의 시작시간을 비교하여 시작 불일치 메트릭을 제공하고; 및
    상기 순방향 타이밍 정보의 종료시간과 상기 역방향 타이밍 정보의 종료시간을 비교하여 종료 불일치 메트릭을 제공함으로써, 상기 순방향 타이밍 정보와 상기 역방향 타이밍 정보를 비교하는 기능을 수행하기 위해 추가로 실행 가능한, 컴퓨터 판독 가능한 저장 매체.
  23. 제 19 항에 있어서,
    상기 명령들은,
    상기 보컬 엘리먼트의 복수의 부분들 각각에 대해, 타이밍 경계 정보를 결정하는 기능;
    상기 보컬 엘리먼트의 복수의 부분들에 대한 상기 타이밍 경계 정보의 평균값을 연산하는 기능;
    상기 보컬 엘리먼트의 복수의 부분들 각각에 대해, 상기 보컬 엘리먼트의 부분의 기간이 상기 평균값과 문턱값 이상으로 상이한 지 여부를 판정하는 기능; 및
    상기 문턱값 이상으로 상기 평균값과 상이한 상기 보컬 엘리먼트의 부분들에 대해, 낮은-확신 확률로 상기 보컬 엘리먼트의 부분을 표시하는 기능을 수행하기 위해 추가로 실행 가능한, 컴퓨터 판독 가능한 저장 매체.
  24. 제 19 항에 있어서,
    상기 오디오 신호는 가사를 포함하는 노래이고,
    상기 명령들은,
    상기 보컬 엘리먼트의 대응하는 텍스트 표기를 상기 오디오 신호에 동기화시키는 기능; 및
    상기 오디오 신호에 관련된 상기 가사의 라인들의 타이밍 정보를 지시하는 시간-주석 달린 동기화된 가사를 출력하는 기능을 수행하기 위해 추가로 실행 가능한, 컴퓨터 판독 가능한 저장 매체.
  25. 제 19 항에 있어서,
    상기 정렬을 수행하는 기능은 히든 마코프 모델(HMM)을 사용하여 상기 보컬 엘리먼트에 대해 음성 인식을 수행하는 것을 포함하고,
    상기 명령들은,
    상기 오디오 신호의 메타데이터 정보에 기초하여 HMM을 선택하는 기능을 수행하기 위해 추가로 실행 가능한, 컴퓨터 판독 가능한 저장 매체.
  26. 단어들의 음성학적 모델링(phonetic modeling)을 포함하는 히든 마코프 모델(HMM) DB;
    단어들을 나타내는 문법을 포함하는 발음사전 DB; 및
    오디오 신호를 수신하고, 상기 오디오 신호의 보컬 엘리먼트를 음성학적 기술(phonetic description)에 매핑하기 위해 상기 HMM을 액세스하고, 상기 음성학적 기술을 문법에 매핑하기 위해 상기 발음사전 DB에 액세스하고, 또한 보컬 엘리먼트의 대응하는 텍스트 표기와 상기 문법의 정렬을 추가로 수행하는 음성 부호화기(speech decoder)를 포함하며,
    상기 음성 부호화기는 상기 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 타이밍 경계 정보를 결정하고, 상기 보컬 엘리먼트 부분의 기간에 대한 상기 타이밍 경계 정보에 대해 확실성 레벨을 지시하는 확신 메트릭을 결정하는, 시스템.
  27. 제 26 항에 있어서,
    상기 음성 부호화기는 순방향 및 역방향에서 상기 오디오 신호를 수신하고 상기 오디오 신호의 보컬 엘리먼트를 순방향 및 역방향의 양 방향에서 음성학적 기술에 매핑하기 위해 상기 HMM을 액세스하고 상기 음성학적 기술을 순방향 및 역방향에서 문법에 매핑하기 위해 상기 발음사전 DB에 액세스하고, 또한 상기 보컬 엘리먼트의 대응하는 텍스트 표기와 상기 문법의 정렬을 순방향 및 역방향 양 방향에서 수행하며,
    상기 음성 부호화기는 순방향에서 처리된 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 순방향 타이밍 경계 정보와 역방향에서 처리된 보컬 엘리먼트의 부분의 기간에 대해 경과된 시간의 양에 관련된 역방향 타이밍 경계 정보를 결정하고, 및 상기 순방향 타이밍 경계 정보와 상기 역방향 타이밍 경계 정보 사이의 비교에 기초하여 상기 순방향 타이밍 경계 정보에 대한 확실성 레벨을 지시하는 확신 메트릭을 결정하는, 시스템.
  28. 제 27 항에 있어서,
    상기 오디오 신호의 가사에 대응하는 텍스트를 수신하고, 및 상기 가사에 대응하는 문법을 결정하는 문법 프로세서를 추가로 포함하고,
    상기 음성 부호화기는 상기 오디오 신호의 문법을 상기 가사의 문법과 정렬함으로써 순방향 및 역방향 양 방향에서 상기 보컬 엘리먼트의 대응하는 텍스트 표기과 상기 문법의 정렬을 수행하는, 시스템.
  29. 제 27 항에 있어서,
    상기 음성 부호화기는 상기 순방향 타이밍 정보와 상기 역방향 타이밍 정보 사이의 차이를 결정하고, 및 미리 정해진 문턱값에 대한 상기 차이의 비교에 기초하여 상기 보컬 엘리먼트의 부분을 확신 레벨로 표시하는, 시스템.
  30. 제 26 항에 있어서,
    상기 음성 부호화기는 상기 보컬 엘리먼트의 텍스트 표기를 상기 오디오 신호와 동기화시키고, 및 상기 오디오 신호와 관련된 가사의 라인들의 타이밍 경계 정보를 지시하는 시간-주석 달린 동기화된 가사를 출력하는, 시스템.
KR1020127032786A 2010-05-18 2011-05-16 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템 KR101413327B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/782,469 2010-05-18
US12/782,469 US8543395B2 (en) 2010-05-18 2010-05-18 Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization
PCT/US2011/036601 WO2011146366A1 (en) 2010-05-18 2011-05-16 Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization

Publications (2)

Publication Number Publication Date
KR20130042493A true KR20130042493A (ko) 2013-04-26
KR101413327B1 KR101413327B1 (ko) 2014-06-27

Family

ID=44310876

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127032786A KR101413327B1 (ko) 2010-05-18 2011-05-16 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템

Country Status (6)

Country Link
US (1) US8543395B2 (ko)
EP (1) EP2572354A1 (ko)
KR (1) KR101413327B1 (ko)
CN (1) CN103003875B (ko)
CA (1) CA2798134A1 (ko)
WO (1) WO2011146366A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101959903B1 (ko) * 2017-10-26 2019-03-19 주식회사 마이티웍스 스마트 오디오 장치
KR20190066809A (ko) * 2017-12-06 2019-06-14 김기석 노래방 기기의 가사 표시 방법 및 장치
KR20200095947A (ko) * 2019-02-01 2020-08-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102555701B1 (ko) * 2022-08-25 2023-07-17 (주)마고 인공지능을 이용한 자동 가사 동기화 방법 및 장치

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2738026C (en) 2008-09-22 2017-01-24 Array Biopharma Inc. Substituted imidazo[1,2b]pyridazine compounds as trk kinase inhibitors
DK3106463T6 (da) 2008-10-22 2020-02-24 Array Biopharma Inc Pyrazolo[1,5-]pyrimidinforbindelse som trk-kinasehæmmer
AR077468A1 (es) 2009-07-09 2011-08-31 Array Biopharma Inc Compuestos de pirazolo (1,5 -a) pirimidina sustituidos como inhibidores de trk- quinasa
HUE035337T2 (en) 2010-05-20 2018-05-02 Array Biopharma Inc Macrocyclic compounds as TRK kinase inhibitors
US8781824B2 (en) * 2010-12-31 2014-07-15 Eldon Technology Limited Offline generation of subtitles
US8948892B2 (en) 2011-03-23 2015-02-03 Audible, Inc. Managing playback of synchronized content
US9703781B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Managing related digital content
US9760920B2 (en) 2011-03-23 2017-09-12 Audible, Inc. Synchronizing digital content
US9734153B2 (en) 2011-03-23 2017-08-15 Audible, Inc. Managing related digital content
US9706247B2 (en) 2011-03-23 2017-07-11 Audible, Inc. Synchronized digital content samples
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
WO2012170353A1 (en) 2011-06-10 2012-12-13 Shazam Entertainment Ltd. Methods and systems for identifying content in a data stream
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9715581B1 (en) * 2011-11-04 2017-07-25 Christopher Estes Digital media reproduction and licensing
US9031493B2 (en) 2011-11-18 2015-05-12 Google Inc. Custom narration of electronic books
CN102497401A (zh) * 2011-11-30 2012-06-13 上海博泰悦臻电子设备制造有限公司 车载音乐系统的音乐媒体信息获取方法和系统
KR101921203B1 (ko) * 2012-03-02 2018-11-22 삼성전자 주식회사 녹음 기능이 연동된 메모 기능 운용 방법 및 장치
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
US20130268826A1 (en) * 2012-04-06 2013-10-10 Google Inc. Synchronizing progress in audio and text versions of electronic books
US9367745B2 (en) * 2012-04-24 2016-06-14 Liveclips Llc System for annotating media content for automatic content understanding
US20130283143A1 (en) 2012-04-24 2013-10-24 Eric David Petajan System for Annotating Media Content for Automatic Content Understanding
US9002702B2 (en) 2012-05-03 2015-04-07 International Business Machines Corporation Confidence level assignment to information from audio transcriptions
US9075760B2 (en) 2012-05-07 2015-07-07 Audible, Inc. Narration settings distribution for content customization
US9317500B2 (en) 2012-05-30 2016-04-19 Audible, Inc. Synchronizing translated digital content
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US8972265B1 (en) 2012-06-18 2015-03-03 Audible, Inc. Multiple voices in audio content
US9536439B1 (en) 2012-06-27 2017-01-03 Audible, Inc. Conveying questions with content
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US20140032537A1 (en) * 2012-07-30 2014-01-30 Ajay Shekhawat Apparatus, system, and method for music identification
US10109278B2 (en) 2012-08-02 2018-10-23 Audible, Inc. Aligning body matter across content formats
CN103680561B (zh) * 2012-08-31 2016-08-03 英业达科技有限公司 人声信号与其文字说明资料的同步的系统及其方法
US9047356B2 (en) 2012-09-05 2015-06-02 Google Inc. Synchronizing multiple reading positions in electronic books
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9202520B1 (en) 2012-10-17 2015-12-01 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US8935170B2 (en) 2012-11-27 2015-01-13 Longsand Limited Speech recognition
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
US9472113B1 (en) 2013-02-05 2016-10-18 Audible, Inc. Synchronizing playback of digital content with physical content
US9378739B2 (en) * 2013-03-13 2016-06-28 Nuance Communications, Inc. Identifying corresponding positions in different representations of a textual work
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
EP3005347A1 (en) * 2013-05-31 2016-04-13 Longsand Limited Processing of audio data
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
US10776419B2 (en) 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
CN104252872B (zh) * 2014-09-23 2017-05-24 努比亚技术有限公司 歌词生成方法和智能终端
CN104933463B (zh) * 2015-07-07 2018-01-23 杭州朗和科技有限公司 深度神经网络模型的训练方法和设备
CN105336324B (zh) * 2015-11-17 2018-04-03 百度在线网络技术(北京)有限公司 一种语种识别方法及装置
CN105868318A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种多媒体数据类型预测方法及装置
KR101834854B1 (ko) * 2016-07-28 2018-03-07 한국철도기술연구원 열차간 연결기반 열차자율주행제어시스템을 위한 차상기반 연동시스템 및 그 방법
US10922720B2 (en) 2017-01-11 2021-02-16 Adobe Inc. Managing content delivery via audio cues
US20180366097A1 (en) * 2017-06-14 2018-12-20 Kent E. Lovelace Method and system for automatically generating lyrics of a song
US10839826B2 (en) * 2017-08-03 2020-11-17 Spotify Ab Extracting signals from paired recordings
US11423208B1 (en) * 2017-11-29 2022-08-23 Amazon Technologies, Inc. Text encoding issue detection
US10964311B2 (en) * 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium
CN109102800A (zh) * 2018-07-26 2018-12-28 广州酷狗计算机科技有限公司 一种确定歌词显示数据的方法和装置
WO2020081872A1 (en) * 2018-10-18 2020-04-23 Warner Bros. Entertainment Inc. Characterizing content for audio-video dubbing and other transformations
US11475887B2 (en) * 2018-10-29 2022-10-18 Spotify Ab Systems and methods for aligning lyrics using a neural network
US11308943B2 (en) * 2018-10-29 2022-04-19 Spotify Ab Systems and methods for aligning lyrics using a neural network
US10785385B2 (en) * 2018-12-26 2020-09-22 NBCUniversal Media, LLC. Systems and methods for aligning text and multimedia content
US11114085B2 (en) * 2018-12-28 2021-09-07 Spotify Ab Text-to-speech from media content item snippets
US20220036751A1 (en) * 2018-12-31 2022-02-03 4S Medical Research Private Limited A method and a device for providing a performance indication to a hearing and speech impaired person learning speaking skills
US11087738B2 (en) * 2019-06-11 2021-08-10 Lucasfilm Entertainment Company Ltd. LLC System and method for music and effects sound mix creation in audio soundtrack versioning
US11087744B2 (en) 2019-12-17 2021-08-10 Spotify Ab Masking systems and methods
CN113470662A (zh) * 2020-03-31 2021-10-01 微软技术许可有限责任公司 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2015410C (en) 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US7117231B2 (en) * 2000-12-07 2006-10-03 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7389228B2 (en) * 2002-12-16 2008-06-17 International Business Machines Corporation Speaker adaptation of vocabulary for speech recognition
US20060112812A1 (en) 2004-11-30 2006-06-01 Anand Venkataraman Method and apparatus for adapting original musical tracks for karaoke use
GB0602682D0 (en) * 2006-02-10 2006-03-22 Spinvox Ltd Spinvox speech-to-text conversion system design overview
US8005666B2 (en) 2006-10-24 2011-08-23 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
US7983915B2 (en) 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
JP2009167821A (ja) 2008-01-11 2009-07-30 Toyota Motor Corp 内燃機関の燃料噴射制御装置
JP5046211B2 (ja) 2008-02-05 2012-10-10 独立行政法人産業技術総合研究所 音楽音響信号と歌詞の時間的対応付けを自動で行うシステム及び方法
US20100255827A1 (en) * 2009-04-03 2010-10-07 Ubiquity Holdings On the Go Karaoke
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101959903B1 (ko) * 2017-10-26 2019-03-19 주식회사 마이티웍스 스마트 오디오 장치
KR20190066809A (ko) * 2017-12-06 2019-06-14 김기석 노래방 기기의 가사 표시 방법 및 장치
KR20200095947A (ko) * 2019-02-01 2020-08-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11893813B2 (en) 2019-02-01 2024-02-06 Samsung Electronics Co., Ltd. Electronic device and control method therefor
KR102555701B1 (ko) * 2022-08-25 2023-07-17 (주)마고 인공지능을 이용한 자동 가사 동기화 방법 및 장치

Also Published As

Publication number Publication date
CN103003875B (zh) 2015-06-03
CN103003875A (zh) 2013-03-27
EP2572354A1 (en) 2013-03-27
US20110288862A1 (en) 2011-11-24
KR101413327B1 (ko) 2014-06-27
CA2798134A1 (en) 2011-11-24
US8543395B2 (en) 2013-09-24
WO2011146366A1 (en) 2011-11-24

Similar Documents

Publication Publication Date Title
KR101413327B1 (ko) 오디오와 대응하는 텍스트 표기의 동기화를 수행하고 동기화의 확신 값을 결정하는 방법과 시스템
Stoller et al. End-to-end lyrics alignment for polyphonic music using an audio-to-character recognition model
CN109065031B (zh) 语音标注方法、装置及设备
US6985861B2 (en) Systems and methods for combining subword recognition and whole word recognition of a spoken input
Yazgan et al. Hybrid language models for out of vocabulary word detection in large vocabulary conversational speech recognition
WO1992014237A1 (en) Method for recognizing speech using linguistically-motivated hidden markov models
US8645139B2 (en) Apparatus and method of extending pronunciation dictionary used for speech recognition
JP6578049B2 (ja) 学習データ生成装置及びそのプログラム
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
US9607618B2 (en) Out of vocabulary pattern learning
Wang et al. On the preparation and validation of a large-scale dataset of singing transcription
Akbacak et al. Open-vocabulary spoken term detection using graphone-based hybrid recognition systems
Mesaros et al. Recognition of phonemes and words in singing
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN111105787B (zh) 一种文本匹配方法、设备及计算机可读存储介质
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP6637332B2 (ja) 音声言語コーパス生成装置およびそのプログラム
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5273844B2 (ja) 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
Byrne et al. Automatic generation of pronunciation lexicons for Mandarin spontaneous speech
JP2016080832A (ja) 学習データ生成装置及びそのプログラム
Gibson et al. Error approximation and minimum phone error acoustic model estimation
Mertens et al. Merging search spaces for subword spoken term detection.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee