KR20150108936A - 오디오 인식 방법 및 기기 - Google Patents

오디오 인식 방법 및 기기 Download PDF

Info

Publication number
KR20150108936A
KR20150108936A KR1020157024093A KR20157024093A KR20150108936A KR 20150108936 A KR20150108936 A KR 20150108936A KR 1020157024093 A KR1020157024093 A KR 1020157024093A KR 20157024093 A KR20157024093 A KR 20157024093A KR 20150108936 A KR20150108936 A KR 20150108936A
Authority
KR
South Korea
Prior art keywords
audio
individual
feature information
document
peak value
Prior art date
Application number
KR1020157024093A
Other languages
English (en)
Other versions
KR101625944B1 (ko
Inventor
하이룽 류
다둥 셰
제 허우
빈 샤오
샤오 류
보 천
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20150108936A publication Critical patent/KR20150108936A/ko
Application granted granted Critical
Publication of KR101625944B1 publication Critical patent/KR101625944B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F17/30743
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/005Voice controlled instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

오디오 인식 수행 방법 및 기기는, 인식될 제1 오디오 문서를 수집하는 단계; 상기 제1 오디오 문서에 대한 시간-주파수 분석을 수행하여 상기 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널을 생성하는 단계, 및 상기 제1 미리 설정된 수의 구문 채널의 각각의 위상채널에서 하나 이상의 피크 값 특징점을 추출하는 단계 - 각각의 위상 채널의 상기 하나 이상의 피크 값 특징점은 상기 위상 채널 각각의 피크 값 특징점 시퀀스를 구성함 - 를 포함하는 상기 제1 오디오 문서의 제1 특징 정보의 계산을 개시하는 단계; 및 상기 제1 오디오 문서의 인식 결과를 취득하는 단계 - 상기 인식 결과는 상기 제1 특징 정보에 기초하여 식별되고, 상기 제1 특징 정보는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 계산됨 -를 포함한다.

Description

오디오 인식 방법 및 기기 {METHOD AND DEVICE FOR AUDIO RECOGNITION}
본 발명은 컴퓨팅 기술 분야에 관한 것으로, 특히 오디오 인식 방법 및 기기에 관한 것이다.
관련 출원
본 출원은 2013년 2월 4일에, "Method and Device for Audio Recognition"라는 명칭으로 출원된 중국 특허출원 CN201310042408.0에 대해 우선권을 주장하여, 그 전부는 인용에 의해 본 출원에 포함된다.
인터넷의 발전과 더불어, 인터넷은 사람들의 삶에 필수적인 정보 취득 도구가 되었다. 미지의 오디오 인식을 실현하기 위해 인터넷 장치를 사용하는 것은 새로운 애플리케이션의 추세가 되고 있다. 종래의 오디오 인식 방법은 주로 다음과 같은 단계들을 포함한다: 먼저, 사용자가 수동으로, 예를 들어, 미지의 오디오 문서에 포함된 가사(lyric), 미지의 오디오 문서의 제목, 미지의 오디오 문서의 가수, 등을 입력함으로써, 미지의 오디오 문서의 일부 기본 정보를 입력하고; 두 번째로, 입력된 기본 정보에 기초하여, 미지의 오디오 문서의 전체 정보를 인터넷 기기(단말기 또는 인터넷상의 서버 등)로 검색한다. 이와 같이, 종래의 오디오 인식 방법에서는 수동으로 기본 정보를 입력하는 것이 필수이다. 하지만, 대부분의 환경에서는, 사용자는 미지의 오디오 문서의 기본 정보를 알지 못하거나, 사용자가 가지고 있는, 미지의 오디오 문서의 기본 정보가 부정확하여, 정보를 효과적으로 제공할 수 없다. 예를 들어, 사용자가 주변 환경에서 음악의 작은 일부분을 들을 수는 있지만, 음악에 대한 다른 정보는 몰라서, 효과적인 입력을 실행할 수 없거나; 또는 사용자는 어떤 음악의 리듬의 작은 일부분을 흥얼거릴 수는 있지만, 음악에 대한 다른 정보를 몰라, 효과적인 입력을 수행할 수 없다. 전술한 상황에서, 종래의 오디오 인식 방법으로는 미지의 오디오 문서를 인식할 수 없어, 인터넷 기기의 지능형 기능(intelligent function)을 저하시킨다.
일 측면에서, 오디오 인식 수행 방법은, 하나 이상의 프로세서 및 메모리를 포함하는 기기에서, 오디오 인식 요청에 응답하여 인식될 제1 오디오 문서를 수집하는 단계; 상기 제1 오디오 문서에 대한 시간-주파수 분석을 수행하여 상기 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널(phrase channel)을 생성하는 단계, 및 상기 제1 미리 설정된 수의 구문 채널의 각각의 위상 채널(에서 하나 이상의 피크 값 특징점을 추출하는 단계 - 각각의 위상 채널의 상기 하나 이상의 피크 값 특징점은 상기 위상 채널 각각의 피크 값 특징점 시퀀스를 구성함 - 를 포함하는 상기 제1 오디오 문서의 제1 특징 정보의 계산을 개시하는 단계; 및 상기 제1 오디오 문서의 인식 결과를 취득하는 단계 - 상기 인식 결과는 하나 이상의 미리 설정된 기준에 따라 상기 제1 특징 정보와 매칭되는 제2 특징 정보를 가지는 하나 이상의 제2 오디오 문서를 포함하고, 상기 제1 특징 정보는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 계산됨 - 를 포함한다.
일부 실시예에서, 상기 오디오 인식 수행 방법은 클라이언트 기기 상에서 수행되며, 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스를 서버에 전송하는 단계를 더 포함하고, 상기 서버는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 상기 제1 특징 정보의 계산을 완료한다.
일부 실시예에서, 상기 오디오 인식 수행 방법은, 상기 전송하는 단계 이전에, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 시간 값에 대해 제1 유형의 압축을 수행하고, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 주파수 값에 대해 제2 유형의 압축을 수행하는 단계를 더 포함한다.
일부 실시예에서, 상기 오디오 인식 수행 방법은 서비스 기기에서 수행되며,
복수의 기지(旣知)의 오디오 문서의 데이터베이스를 미리 확립하는 단계를 더 포함하고, 각각의 기지의 오디오 문서는 개개의 유일한 트랙 식별자를 가지며, 상기 미리 확립하는 단계는, 상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보를 계산하는 단계 - 상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보는 상기 각각의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스(audio fingerprint sequence)의 개개의 수집물(collection)을 포함하고, 상기 기지의 오디오 문서 각각에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물 각각은 개개의 해시코드(hashcode)를 가짐 -; 및 개개의 해시코드에 따라 해시 테이블에 상기 복수의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물을 저장하는 단계를 더 포함한다.
일부 실시예에서, 상기 제1 오디오 문서에 대한 인식 프로세스는, 상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각의 피크 값 특징점 시퀀스 내의 피크 값 특징점 각각에 대해 짝짓기 처리를 수행하여, 상기 제1 오디오 문서의 위상 채널 각각의 피크 값 특징점 쌍 시퀀스를 형성하는 단계, 및 상기 제1 오디오 문서의 위상 채널 각각에서 상기 피크 값 특징점 쌍 시퀀스 각각에 해시 계산을 수행하여, 상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각에 대응하는 개개의 오디오 핑거프린트 시퀀스를 취득하는 단계 - 상기 제1 미리 설정된 수의 위상 채널에 대응하는 오디오 핑거프린트 시퀀스들은 함께 상기 제1 오디오 문서의 제1 특징 정보를 구성함 - 를 포함하는, 상기 제1 오디오 문서의 제1 특징 정보의 계산을 계속하는 단계; 상기 제1 특징 정보와, 상기 미리 확립된 데이터베이스(pre-established database)에 저장된 각각의 기지의 오디오 문서의 개개의 특징 정보를 비교하여 개개의 비교 결과를 취득하는 단계; 상기 개개의 비교 결과에 따라 상기 미리 확립된 데이터베이스 내의 각각의 기지의 오디오 문서의 개개의 트랙 식별자(track identifier)에 대해 가중치 부여 처리(weighting processing)를 수행하는 단계; 상기 개개의 트랙 식별자에 대한 가중치(weight score)가 감소하는 순서에 따라, 상기 미리 확립된 데이터베이스에서 제2 미리 설정된 수의 기지의 오디오 문서의 개개의 특징 정보를 선택하여 문서 후보 리스트를 구성하는 단계; 상기 제1 특징 정보와, 상기 문서 후보 리스트 내의 각각의 기지의 오디오 문서의 개개의 특징 정보 사이의 개개의 시간 의존성을 계산하는 단계; 및 상기 문서 후보 리스트에서 상기 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 선택하는 단계 - 상기 제2 특징 정보와 상기 제1 특징 정보 사이의 개개의 시간 의존성은 미리 설정된 임계값을 초과함 - 를 더 포함한다.
일 측면에서, 하나 이상의 프로세서 및 메모리를 포함하는 하나 이상의 기기가 상기 오디오 인식 수행 방법을 수행하도록 구성된다.
본 발명의 실시예를 설명하기 위해, 다음 도면들이 본 발명의 다양한 측면을 설명하는 데 사용된다.
도 1a는 일부 실시예에 따른 오디오 인식 방법의 흐름도이다.
도 1b는 일부 실시예에 따른 도 1a에 도시된 단계 S102의 흐름도이다.
도 1c는 일부 실시예에 따른 도 1b에 도시된 단계 s1021의 흐름도이다.
도 1d는 일부 실시예에 따른 도 1a에 도시된 단계 S103의 흐름도이다.
도 1e는 일부 실시예에 따른 클라이언트 기기에서 수행되는 예시적인 프로세스의 흐름도이다.
도 1f는 일부 실시예에 따른 서버 기기에서 수행되는 예시적인 프로세스의 흐름도이다.
도 2a는 일부 실시예에 따른 오디오 인식 기기의 개략 구성도이다.
도 2b는 일부 실시예에 따른 도 2a에 도시된 계산 모듈의 개략 구성도이다.
도 2c는 일부 실시예에 따른 도 2b에 도시된 시간-주파수 분석 유닛의 개략구성도이다.
도 2d는 일부 실시예에 따른 도 2a에 도시된 인식 모듈의 개략 구성도이다.
도 3a는 일부 실시예에 따른 클라이언트 기기의 블록도이다.
도 3b는 일부 실시예에 따른 서버 기기의 블록도이다.
여러 도면에 걸쳐 유사한 참조 번호는 대응하는 부분을 가리킨다.
본 명세서에서 설명하는 바와 같이, 일부 실시예에서, 오디오 문서의 특징 정보는 오디오 문서의 오디오 핑거프린트이다, 즉 제1 오디오 문서의 제1 특징 정보는 제1 오디오 문서의 오디오 핑거프린트이고; 제2 오디오 문서의 제2 특징 정보는 제2 오디오 문서의 오디오 핑거프린트이다.
일부 실시예에서, 오디오 문서의 오디오 핑거프린트는 오디오 문서의 내용에 기초하고 오디오 문서의 중요한 음향 특성(acoustic characteristics)을 나타내는 컴팩트한 디지털 서명(compact digital signature)을 가리킨다. 오디오 문서의 오디오 핑거프린트는 인식(perception) 또는 내용(content)의 유사성을 요구하며, 구별 가능성(distinguishability), 견고성(robustness), 입도(granularity) 및 다른 기본적인 특징 등의 속성이 있다. 일부 실시예에서, 구별 가능성은, 상이한 오디오 문서의 오디오 핑거프린트는 차이가 커야 하지만, 원래의 레코드(record)와 원래의 오디오 문서의 낮은 충실도 사본(low-fidelity copy)의 오디오 핑거프린트는 차이자 작아야 한다는 속성을 가리킨다. 견고성은 오디오 문서가 많은 유형의 오디오 포맷 변환, 채널 노이즈 간섭 등을 을 경험한 후에도 여전히 인식될 수 있는 속성을 가리킨다. 입도는 매우 짧은 오디오 문서(즉, 오디오 문서의 길이가 예컨대 5s∼10s보다 짧음)에 대해서도 인식을 달성할 수 있는 속성을 가리킨다. 또, 상이한 애플리케이션 시나리오의 오디오 문서의 오디오 핑거프린트는 더 많은 특징을 가질 수 있다. 예를 들어, 클라이언트 측 애플리케이션 시나리오에서, 오디오 문서의 오디오 핑거프린트에 대해 계산의 편의가 요구되므로, 신속 및 실시간으로 오디오 핑거프린트 계산이 제한된 계산 자원으로 클라이언트 기기에서 실현될 수 있다. 다른 예를 들어, 무선 네트워크 애플리케이션 시나리오에서, 데이터 간결성(data compactness)이 오디오 문서의 오디오 핑거프린트에 요구된다, 즉 무선 네트워크의 송신에 적응하도록, 데이터 크기는 작아야 한다.
이하에, 첨부된 도 1a∼도 1f와 조합하여 일부 실시예에 따른 오디오 인식 방법을 자세하게 소개한다.
일부 실시예에 따른 오디오 인식 방법의 흐름도인 도 1a를 참조하기 바란다. 상기 오디오 인식 방법은 다음의 단계 S101∼S105를 포함할 수 있다.
S101, 오디오 인식 요청을 수신한 경우, 인식할 제1 오디오 문서를 수집한다. 예를 들어, 오디오 인식 요청은 클라이언트 기기(예컨대, 스마트폰)에서 사용자에 의해 선택적으로 생성된다. 오디오 인식 요청을 수신한 경우, 클라이언트 기기는 선택적으로 레코딩 기기(예컨대, 내장형 마이크로폰 및 레코더)를 기동하여 주변 환경의 음향(sound)을 포착한다. 일부 실시예에서, 클라이언트 기기는 선택적으로 사용자의 지시로 제1 오디오 문서로서 오디오 클립(audio clip)을 인터넷에서 다운로드한다. 일부 실시예에서, 클라이언트 기기는 선택적으로 사용자의 지시로 제1 오디오 문서로서, 지정된 신호선(예컨대, 오디오 입력선, 또는 오디오 입력 채널)의 오디오 신호를 저장한다. 일부 실시예에서, 클라이언트 기기는, 오디오 인식을 개시하기 위한 미리 설정된 트리거가 충족되는 경우, 자동으로 제1 오디오 문서의 수집을 개시한다. 예를 들어, 미리 설정된 트리거는, 클라이언트 기기가 주변 환경 및/또는 특정한 시간 길이보다 길거나 특정한 음량 레벨 이상인, 특정 오디오 채널로부터 임의의 오디오 신호를 포착하면, 오디오 인식 요청이 트리거된다.
일부 실시예에서, 제1 오디오 문서는 다음 중 하나이다: 영화에서의 오디오 세그먼트, 텔레비전 재생에서의 오디오 세그먼트, 텔레비전 프로그램에서의 오디오 세그먼트, 음악 라디오 방속국에 의해 브로드캐스팅되는 오디오 데이터, 인간에 의해 전달되는 오디오 데이터(흥얼거리는 음악 또는 노래의 세그먼트) 등. 사용자가 미지의 음악 문서의, 노래 제목, 가수, 앨범의 이름 및 오디오 문서의 가사와 같은, 정보를 알고자 하면, 사용자는 오디오 질의 요청(audio quary request)을 개시할 수 있다. 이 단계에서, 사용자에 의해 전송되는 오디오 인식 요청을 수신한 경우, 기기는 인식할 제1 오디오 문서를 수집한다. 일부 실시예에서, 이 단계의 수집 프로세스는 선택적으로 다음 두 가지 구현 모드를 포함할 수 있다:
제1 구현 모드에서, 사용자에 의해 전송되는 오디오 인식 요청을 수신한 경우, 이 단계는 실시간으로 사용자에 의해 인식되도록 요청받은 제1 오디오 문서를 기록하기 위한 기록 기능(recording function)을 시작할 수 있다.
제2 구현 모드에서, 사용자에 의해 전송되는 오디오 인식 요청을 수신한 경우, 이 단계는 사용자에 의해 인식 및 업로드 되도록 요청받은 제1 오디오 문서를 수신할 수 있다.
일부 실시예예서, 제1 오디오 문서는 16 비트 양자화를 사용하는 PCM(Pulse-Code Modulation) 유형의, 8kHz의 샘플링 주파수를 가지는 디지털 오디오 문서이다.
S102, 제1 오디오 문서의 제1 특징 정보를 계산한다.
일부 실시예에서, 제1 오디오 문서의 제1 특징 정보는 제1 오디오 문서의 오디오 핑거프린트이다. 일부 실시예에서, 제1 오디오 문서의 오디오 핑거프린트는 제1 오디오 문서의 내용에 기초하고 제1 오디오 문서의 중요한 음향 특징을 나타내는 컴팩트한 디지털 서명이다. 이 단계에서는 수집된 제1 오디오 문서의 디지털 버전이 제1 오디오 문서의 제1 특징 정보를 취득하기 위한 계산에 사용된다.
일부 실시예에서, 이 단계는 동일한 기기(예컨대, 클라이언트 기기 또는 서버)에서 수행된다. 일부 실시예에서, 이 단계는 협력하여 작업하는 클라이언트와 서버 기기에 의해 수행된다. 이 단계에 대한 더욱 자세한 것은 이하에 설명한다.
S103, 미리 확립된 데이터베이스에서 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 검색하여 취득한다.
일부 실시예에서, 미리 확립된 데이터베이스는 하나 이상의 오디오 문서의 개개의 식별자(identifier), 하나 이상의 오디오 문서의 개개의 특징 정보, 및 하나 이상의 오디오 문서의 개개의 속성 데이터를 저장한다. 일부 실시예에서, 미리 확립된 데이터베이스에 저장된 오디오 문서는, 영화의 오디오 세그먼트, 텔레비전 재생의 오디오 세그먼트, 텔레비전 프로그램의 오디오 세그먼트, 노래, 음악 등을 포함할 수 있다. 일부 실시예에서, 오디오 문서의 개개의 식별자는 TrackID로 표현된다. 예를 들어, 오디오 문서 1의 개개의 식별자는 TrackID-1로 표현될 수 있고, 오디오 문서 2의 개개의 식별자는 TrackID-2로 표현될 수 있으며; 각각의 TrackID는 오직 하나의 개별적인 오디오 문서에 대한 유일한 식별자로서 사용될 수 있다.
일부 실시예에서, 오디오 문서의 특징 정보는 오디오 문서의 핑거프린트이다. 예를 들어, 오디오 문서 1의 특징 정보는 오디오 문서 1의 핑거프린트이고, 오디오 문서 2의 특징 정보는 오디오 문서 2의 핑거프린트이다. 일부 실시예에서, 오디오 문서의 속성 데이터는 다음 데이터: 오디오 문서의 이름, 오디오 문서의 앨범 정보, 오디오 문서의 URL 주소, 및 오디오 문서의 가사 중 적어도 하나를 포함하지만 이에 한정되는 것은 아니다. 이 단계에서는, 일부 실시예에서, 제1 특징 정보와 매칭되는 제2 특징 정보는, 제2 특징 정보가 제1 특징 정보와 동일하다는 것을 의미한다. 일부 실시예에서, 제1 특징 정보와 매칭되는 제2 특징 정보는, 제2 특징 정보와 제1 특징 정보 사이의 유사도(degree of similarity)가 미리 설정된 유사도에 도달한 것을 의미한다. 예를 들어, 미리 설정된 유사도가 90%이고, 제2 특징 정보와 제1 특징 정보 사이의 유사도가 90% 이상에 도달하면, 예를 들어, 인식 기기에 의해 제2 특징 정보는 제1 특징 정보와 매칭되는 것으로 간주된다.
일부 실시예에서, 이 단계는 클라이언트 기기로부터 오디오 인식 요청 및 제1 오디오 문서에 관한 적어도 일부 정보를 수신하는 서버 기기에서 수행된다. 일부 실시예에서, 이 단계는 오디오 인식 요청을 수신한 것과 같은 기기에서 수행된다.
S104, 전술한 하나 이상의 제2 특징 정보에서 각각의 제2 특징 정보에 대응하는 제2 오디오 문서의 속성 데이터를 취득한다.
전술한 단계 S103은 미리 확립된 데이터베이스에서 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 찾아낸다. 일부 실시예에서, 전술한 하나 이상의 제2 특징 정보 내의 특징 정보 각각은 개개의 제2 오디오 문서에 대응한다. 상기 단계 S103에 의해, 상기 제1 오디오 문서와 매칭되는 하나 이상의 제2 오디오 문서가 인식되며, 이는 이 제1 오디오 문서가 인식된 하나 이상의 제2 오디오 문서 중 하나일 수 있거나, 또는 이 제1 오디오 문서가 인식된 제1 오디오 문서(들) 중 적어도 하나일 수 있음을 암시한다. 이 단계에서, 제1 오디오 문서와 매칭되는, 인식된 하나 이상의 제2 오디오 문서의 속성 데이터가 취득된다.
일부 실시예에서, 이 단계는 서버에서 수행된다.
S105, 상기 제2 오디오 문서의 속성 데이터를, 출력을 위한 전술한 제1 오디오 문서의 인식 결과로서 취한다. 예를 들어, 일부 실시예에서, 서버는 전술한 제2 오디오 문서의 속성을 오디오 인식 요청의 결과로서 클라언트 기기에 제공한다.
일부 실시예에서, 이 단계는 제1 오디오 문서의 인식 결과로서 단계 S104에서 취득된 하나 이상의 제2 오디오 문서 내의 모든 오디오의 속성 데이터를 사용할 수 있고, 그 전부를 사용자에게 출력할 수 있다. 일부 실시예에서, 이 단계는 또한 단계 S104에서 취득된 하나 이상의 오디오 문서의 일부만을 선택할 수 있고, 선택된 오디오 문서의 속성 데이터를 전술한 제1 오디오 문서의 인식 결과로서 출력할 수 있다. 전술한 인식 결과에 따르면, 사용자는 질의 요청의 대상인 제1 오디오 문서의 속성 데이터를 알 수 있다. 예를 들어, 사용자는 노래 제목, 가수, 앨범의 이름, 가사 등의, 제1 오디오 문서의 속성 데이터를 알 수 있다.
일부 실시예에서, 오디오 인식 방법은, 오디오 인식 요청을 수신한 경우, 인식할 제1 오디오 문서를 자동으로 수집할 수 있다. 사용자가 인식할 제1 오디오 문서의 기본 정보를 수동으로 입력할 필요가 없으며, 이는 오디오 인식의 지능형 기능을 향상시킨다. 또, 상기 오디오 인식 방법은, 전술한 제1 오디오 문서의 제1 특징 정보를 계산하는 단계; 미리 확립된 데이터베이스에서 전술한 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 검색하여 취득하는 단계; 제1 특징 정보에 기초하여, 미리 설정된 데이터베이스에서 매칭되는 제2 오디오 문서(들)의 속성 정보를 취득하고, 전술한 제2 오디오 문서(들)의 속성 데이터를 전술한 제1 오디오 문서의 인식 결과로서 취하여 출력하는 단계를 포함한다. 본 발명의 실시예는 오디오 인식을 위해 특징 정보를 기초로 하며, 오디오 문서가 결정되는 경우, 그 오디오 문서의 특징 정보도 결정된다. 결정된 특징 정보에 기초하여 오디오 인식을 수행하는 것은 오디오 인식의 정확도를 향상시키고 지능적인 오디오 인식의 기능도 향상시킨다.
다음에 도 1a에 도시된 단계 S102의 오디오 인식 방법의 각 단계를 더욱 자세하게 소개한다.
일부 실시예에 따른 도 1a에 도시된 단계 S102의 흐름도인 도 1b를 참조한다. 단계 S102는 일부 실시예에 따른, 단계 s1201 내지 단계 s1204를 포함할 수 있다.
s1201, 전술한 제1 오디오 문서에 대해 시간-주파수 분석을 수행하여 전술한 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널을 생성한다.
일부 실시예에서, 제1 미리 설정된 수의 값은 실제 현재의 조건에 따라 설정된다. 일부 실시예에서, 제1 미리 설정된 수의 값을 설정하는 구체적인 프로세스는 제1 오디오 문서에 의해 영향을 받는 여러 인자(factor)를 고려한다. 예를 들어, 제1 미리 설정된 수의 값은 제1 오디오 문서의 신호대잡음비(signal to noise ratio), 등에 따라 설정될 수 있다.
일부 실시예에서, 제1 미리 설정된 수는 M으로 표현되고, 여기서 M은 양의 정수이다. 이 단계에서, 시간-주파수 분석은 제1 오디오 문서의 디지털 버전의 시간 도메인 신호에 대해 STFT(Short-Time Fourier Transform)를 수행하는 것을 기초로 할 수 있으며, 이는 제1 오디오 문서의 이차원 시간-주파수 그래프를 생성할 수 있다. 일부 실시예에서, 제1 오디오 문서의 이차원의 시간-주파수 그래프는 M개의 시간-주파수 서브그래프로 분할되며, 각각의 시간-주파수 서브그래프는 제1 오디오 문서의 M개의 위상 채널 개개에 대응한다. 예를 들어, M개의 위상 채널의 M개의 시간-주파수 서브그래프에서, 위상 채널 1은 시간-주파수 서브그래프 1에 대응하고; 위상 채널 2는 시간-주파수 서브그래프 2에 대응하고; 이에 상응하게 위상 채널 M은 시간-주파수 서브그래프 M에 대응한다.
s1202, 제1 미리 설정된 수의 위상 채널의 각각의 위상 채널에서 하나 이상의 피크 값 특징점을 추출하며, 상기 각각의 위상 채널의 하나 이상의 피크 값 특징점은 상기 각각의 위상 채널의 피크 값 특징점 시퀀스를 형성한다.
전술한 바와 같이, M개의 위상 채널에서, 각각의 위상 채널은 개개의 시간-주파수 서브그래프에 대응한다. 이 단계에서, 일부 실시예에서, 각각의 위상 채널의 피크 값 특징점(들)을 추출하는 프로세스는, 1) 상기 각각의 위상 채널에 대응하는 개개의 시간-주파수 서브그래프에서, 각각의 특징점의 에너지 값을 분석하는 단계; 2) 각각의 특징점의 에너지 값에 따라, 주어진 직사각형 이웃 내에서 최대 에너지 값을 가지는 특징점을 피크 값 특징점으로 선택하는 단계를 포함한다. 전술한 단계 1) 및 2)에 따르면, 각각의 위상 채널에 대해 하나 이상의 피크 값 특징점을 추출할 수 있다.
일부 실시예에서, 직사각형 이웃의 크기 파라미터는 실제 필요에 따라 설정된다. 예를 들어, 일부 실시예에서, 직사각형 이웃의 크기를 설정하는 프로세서는 다음 인자: 시간-주파수 서브그래프 내의 특징점의 총수, 시간-주파수 서브그래프 내의 특징점의 분포 조건(distribution condition) 등, 중 하나 이상을 고려한다. 일부 실시예에서, M개의 위상 채널에서, 각각의 위상 채널에 대해 하나 이상의 피크 값 특징점이 추출된다. 구체적으로, 일부 실시예에서, 각각의 위상 채널의 하나 이상의 피크 값 특징점은 첫 번째(제1)에서부터 마지막 피크 값 특징점까지 시간 시퀀스에 따라 저장된다. 동일한 시점에 나타난 피크 값 특징점에 대해, 일부 실시예에서, 그 피크 값 특징점들은 선택적으로 최고 주파수에서부터 최저 주파수까지 그들의 주파수에 따라 저장된다.
일부 실시예에서, 이 단계는 각각 M개의 위상 채널에 대해 각각 M개의 피크 값 특징점을 추출할 수 있다. 예를 들어, M개의 위상 채널에서, 위상 채널 1은 피크 값 특징점 시퀀스 1에 대응하고, 위상 채널 2는 피크 값 특징점 시퀀스 2에 대응하고, 이에 상응하게 위상 채널 M은 피크 값 특징점 시퀀스 M에 대응한다.
논문: "A highly robust audio fingerprinting system" In Proc. of International Conference on Music Information Retrieval (ISMIR), Paris, France, 2002, by J. Haitsma and T. Kalker에 기술되어 있는 바와 같은, 주파수 도메인에서 오디오 핑거프린트를 계산하는 종래의 오디오 인식 기술에서는, 오디오 데이터베이스 내의 샘플과 테스트 샘플 사이의 위상 미스매칭에 대한 해결방안이 오디오 신호의 인접한 프레임 사이에 큰 중첩을 제공함으로써 해결된다. 예를 들어, 전술한 참고문헌에서, 프레임 중첩은 프레임 크기의 31/32이다. 하지만, 단순히 프레임 중첩 크기를 증가시키는 것은 FFT 연산의 시간 및 강도를 증가시킬 수 있고, 또한 핑거프린트 데이터의 부피를 증가시킬 수 있다. 본 발명의 일부 실시예에 따르면, 프레임 중첩 크기는 전술한 종래 기술의 문제를 회피하기 위해, 비교적 작은 크기로 유지될 수 있다. 대신에, 오디오 신호의 2D 주파수-시간 다이어그램은 상이한 위상 평면으로 분할되고, 핑거프린트 정보는 다수의 위상 평면 각각에서 추출된다. 주어진 핑거프린트의 크기에 대해, 본 발명의 재현율(recall rate)은 종래기술의 그것에 비해 향상될 수 있다. 다수의 위상 평면 핑거프린트 추출 및 사용 방법에 대한 더 자세한 것은 이하에 제공한다.
일부 실시예에서, 상이한 위상 채널에 대한 개개의 피크 값의 특징점(들)의 추출, 및 개개의 피크 값 특징점(들)을 상이한 위상 채널에 대해 개개의 피크 값 특징점 시퀀스로의 정렬(sorting)은 클라이언트 기기에서 수행된다. 일부 실시예에서, 클라이언트 기기는 추가 처리를 위해 서버에 개개의 피크 값 특징점 시퀀스를 전송한다. 일부 실시예에서, 클라이언트 기기는 개개의 피크 값 특징점 시퀀스를 서버에 전송하기 이전에 상이한 위상 채널에 대해 암호화 및/또는 압축한다.
s1203, 각각의 전술한 위상 채널의 피크 값 특징점 시퀀스 내의 피크 값 특징점 각각에 대해 짝짓기 처리를 수행하여 상기 위상 채널 각각의 피크 값 특징점 쌍 시퀀스(다시 말해, 피크 값 특징점의 쌍으로 구성되는 시퀀스)를 형성한다.
일부 실시예에서,
Figure pct00001
이 임의의 위상 채널 n의 피크 값 특징점 시퀀스 내의 임의의 피크 값 특징점 k를 표기하는 데 사용되며, 여기서 n은 개개의 위상 채널의 일련번호 또는 개개의 시간-주파수 서브그래프의 일련번호를 나타내고,
Figure pct00002
이며; k는 피크 값 특징점 시퀀스 내의 개개의 피크 값 특징점의 일련번호를 나타내고, k는 양의 정수이며;
Figure pct00003
는 시간-주파수 서브그래프 n에 피크 값 특징점 k가 나타날 때의 시간 값을 나타내고;
Figure pct00004
는 시간-주파수 서브그래프 n에 피크 값 특징점 k가 나타날 때의 주파수 값을 나타낸다.
이 단계에서, 일부 실시예에서, 각각의 위상 채널의 피크 값 특징점 시퀀스 내의 각각의 피크 값 특징점의 짝짓기 처리의 프로세스는, (1) 각각의 위상 채널에 대응하는 시간-주파수 서브그래프에서, 상기 각각의 위상 채널의 피크 값 특징점 시퀀스 내의 각각의 피크 값 특징점을 직사각형 타겟 영역을 선택하기 위한 앵커점(anchor point)으로 취하는 단계를 포함하고; 임의의 시간-주파수 서브그래프의 임의의 피크 값 특징점
Figure pct00005
에 대해, 전술한 직사각형 영역은 다음 조건을 충족한다:
Figure pct00006
Figure pct00007
.
일부 실시예에서,
Figure pct00008
는 피크 값 특징점
Figure pct00009
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 시작 시각을 나타내고,
Figure pct00010
는 피크 값 특징점
Figure pct00011
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 종료 시각을 나타내며;
Figure pct00012
는 피크 값 특징점
Figure pct00013
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 최소 주파수를 나타내고,
Figure pct00014
는 피크 값 특징점
Figure pct00015
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 최대 주파수를 나타낸다.
(2) 직사각형 타켓 영역에서 앵커점 이외의 피크 값 특징점을 선택하여 앵커점과 짯짓기 하며, 앵커점과, 앵커점과 짝짓기 위해 선택된 피크 값 특징점이 피크 값 특징점 쌍을 구성한다.
일부 실시예에서, 앵커점과 짝을 짓기 위해 피크 값 특징점을 선택하는 원리는, 앵커점의 기간(epoch)과의 시간 차가 최소인 기간을 가지는 피크 값 특징점을 선택하여 앵커점과 짝을 짓거나; 또는 최소 에너지 값을 가지는 피크 값 특징점을 선택하고, 직사각형 타겟 영역 내에서, 앵커점을 배제한다.
전술한 처리 단계 (1) 및 (2)를 통해, 각각의 피크 값 특징점
Figure pct00016
이 매칭되는 피크 값 특징점
Figure pct00017
과 쌍으로 제공된다. 일부 실시예에서, n은 위상 채널의 일련번호 또는 시간-주파수 서브그래프의 일련번호를 나타내고,
Figure pct00018
이며; b는 피크 값 특징점 시퀀스 n 내의 매칭되는 피크 값 특징점의 일련번호를 나타내고, b는 양의 정수이며;
Figure pct00019
는 시간-주파수 서브그래프 n에 매칭되는 피크 값 특징점이 나타날 때의 시간을 나타내고;
Figure pct00020
는 매칭되는 피크 값 특징점의 주파수를 나타낸다. 일부 실시예에서, 쿼드러플
Figure pct00021
은 임의의 주어진 위상 채널 n의 피크 값 특징점 시퀀스 내의 피크 값 특징점 k의 임의의 주어진 쌍을 나타내는 데 사용되며, n은 위상 채널의 일련번호 또는 시간-주파수 서브그래프의 일련번호를 나타내고;
Figure pct00022
는 피크 값 특징점 쌍 내의 두 개의 피크 값 특징점 사이의 시간 차를 나타내고,
Figure pct00023
이며;
Figure pct00024
는 피크 값 특징점 쌍 내의 두 개의 피크 값 특징점 사이의 주파수 차를 나타내고,
Figure pct00025
이다.
이 단계는 M개의 피크 값 특징점 시퀀스 내의 각각의 피크 값 특징점의 매칭이 수행되어, M개의 피크 값 특징점 시퀀스를 형성할 수 있도록 한다. 예를 들어, M개의 위상 채널에서, 위상 채널 1은 피크 값 특징점 쌍 시퀀스 1에 대응하고, 위상 채널 2는 피크 값 특징점 쌍 시퀀스 2에 대응하고, 이에 상응하게 위상 채널 M은 피크 값 특징점 쌍 시퀀스 M에 대응한다.
s1204, 각각의 위상 채널에서 전술한 피크 값 특징점 쌍 시퀀스 각각에 대해 해시 계산을 수행하여 각각의 전술한 위상 채널에 대응하는 개개의 오디오 핑거프린트 시퀀스를 취득하며, 제1 미리 설정된 수의 위상 채널에 대응하는 오디외 핑거프린트 시퀀스의 수집물은 함께 전술한 제1 오디오 문서의 제1 특징 정보를 구성한다.
전술한 바와 같이, 쿼드러플
Figure pct00026
은 임의의 주어진 위상 채널 n의 피크 값 특징점 쌍 시퀀스 내의 임의의 주어진 피크 값 특징점 쌍 k를 나타내는 데 사용된다. 상기 쿼드러플의 파라미터는 다음과 같이 이해될 수 있다:
Figure pct00027
는 피크 값 특징점 쌍의 특징 섹션(characteristic section)을 나타내고,
Figure pct00028
는 특징 섹션
Figure pct00029
이 발생한 시각을 나타낸다. 이 단계에서, 특징 섹션
Figure pct00030
에 대한 해시 계산이 수행되고, 특징 섹션
Figure pct00031
은 따라서 고정된 비트 수를 가지는
Figure pct00032
로 표현된다. 구체적으로
Figure pct00033
이다. 이 단계의 계산을 통해, 임의의 위상 채널의 피크 값 특징점 쌍 시퀀스 내의 피크 값 특징점 쌍 중 임의의 쌍은
Figure pct00034
으로 표현될 수 있고, 여기서 n은 위상 채널의 개개의 일련번호 또는 시간-주파수 서브그래프 개개의 일련번호를 나타내고,
Figure pct00035
Figure pct00036
가 나타났을 때의 시각을 나타내고,
Figure pct00037
은 개개의 피크 값 특징점 쌍을 나타내는 오디오 핑거프린트 아이템으로 사용된다.
이 단계를 통해, M개의 피크 값 특징점 쌍 시퀀스에서, 각각의 피크 값 특징점 쌍 시퀀스 내의 각각의 피크 값 특징점 쌍은 개개의 오디오 핑거프린트 아이템에 의해 표현될 수 있고; 각각의 피크 값 특징점 쌍 시퀀스는 오디오 핑거프린트 시퀀스에 대응하고; M개의 피크 값 특징점 쌍 시퀀스는 M개의 오디오 핑거프린트 시퀀스에 대응한다. 예를 들어, 피크 값 특징점 쌍 시퀀스 1는 오디오 핑거프린트 시퀀스 1에 대응하고, 피크 값 특징점 쌍 시퀀스 2는 오디오 핑거프린트 시퀀스 2에 대응하고, 이에 상응하게 피크 값 특징점 쌍 시퀀스 M은 오디오 핑거프린트 시퀀스 M에 대응한다. M개의 오디오 핑거프린트 시퀀스의 수집물은 함께 전술한 제1 오디오 문서의 제1 특징 정보를 구성한다. 즉, 제1 오디오 문서의 제1 특징 정보는 M개의 오디오 핑거프린트 시퀀스의 수집물로서 표현될 수 있다.
일부 실시예에서, 피크 값 특징점의 짝짓기와 피크 값 특징점 쌍에 대한
Figure pct00038
의 계산은 서버에서 수행된다.
도 1b에 도시된 단계 s1021의 흐름도인 도 1c를 참조한다. 단계 s1201은 일부 실시예에 따르면, 이하의 단계 s1211- 단계 s1215를 포함할 수 있다.
s1211, 전술한 제1 오디오 문서에 대해 시간 도메인 프레임 분할 처리를 수행하여, 복수 프레임의 오디오 신호를 형성한다.
이 단계는 윈도 함수(window function)를 프레임 분할의 파라미터로 취하고, 수집된 제1 오디오 문서에 대해 시간 도메인 프레임 분할 처리를 수행하여, 복수 프레임의 오디오 신호를 형성한다. 일부 실시예에서, 윈도 함수는 해닝(Hanning) 윈도 함수, 가우시안(Gaussian) 윈도 함수, 또는 기타 일반적인 윈도 함수이다.
s1212, 오디오 신호의 프레임 각각에 대해 STFT 변환을 수행하여 상기 오디오 신호의 각각의 프레임의 개개의 주파수 스펙트럼을 취득한다.
s1213, 전술한 오디오 신호의 각각의 프레임의 개개의 주파수 스펙트럼에 대응하는 진폭 스펙트럼을 추출한다.
s1214, 전술한 오디오 신호의 각각의 프레임의 시간, 주파수 스펙트럼, 및 진폭 스펙트럼에 기초하여, 전술한 제1 오디오 문서의 시간-주파수 그래프를 그린다. 이 단계에서, 오디오 신호의 각각의 프레임의 시간 시퀀스에 따라, 오디오 신호의 각각의 프레임의 주파수 스펙트럼 및 진폭 스펙트럼이 차례로 그려져서, 제1 오디오 문서의 이차원 시간-주파수 그래프를 형성한다.
s1215, 시간의 모듈로(modulo of time)를 취함으로써, 전술한 제1 오디오 문서의 시간-주파수 그래프를 분할하여, 미리 설정된 수의 시간-주파수 서브그래프를 생성하며, 각각의 미리 설정된 수의 시간-주파수 서브그래프는 전술한 제1 오디오 문서의 개개의 위상 채널에 대응한다.
일부 실시예에서, 제1 미리 설정된 수는 M으로 표현되고, 여기서 M은 양의 정수이다. 이 단계에서, 제1 오디오 문서의 시간-주파수 그래프는 시간 t의 모듈로 M에 따라 분할되어, M개의 시간-주파수 서브그래프를 생성한다. 일부 실시예에서, 구체적인 분할 프로세스는 다음과 같다: (1) 이차원 시간-주파수 그래프에서 매 시각
Figure pct00039
각각에 대응하는 개개의 특징점을 선택하고, 선택된 특징점은 시간-주파수 서브그래프 1을 구성하고; 이차원 시간-주파수 그래프에서 매 시각
Figure pct00040
각각에 대응하는 개개의 특징점을 선택하고, 선택된 특징점은 시간-주파수 서브그래프 2를 구성하고; 이에 상응하게 이차원 시간-주파수 그래프에서 매시간
Figure pct00041
각각에 대응하는 개개의 특징점을 선택하고, 선택된 특징점은 시간-주파수 서브그래프 M에 대응하고, x는 양의 정수이고,
Figure pct00042
이며,
Figure pct00043
는 이차원 시간-주파수 그래프에서 최대 시간점(time point)이다. 일부 실시예에서, 각각의 시간-주파수 서브그래프는 제1 오디오 문서의 개개의 위상 채널에 대응하고, M개의 시간-주파수 서브그래프는 제1 오디오 문서의 M개의 위상 채널에 대응하는 M개의 시간-주파수 서브그래프이다. 예를 들어, 시간-주파수 서브그래프 1은 위상 채널 1에 대응하고, 시간-주파수 서브그래프 2은 위상 채널 2에 대응하고, 이에 상응하게, 시간-주파수 서브그래프 M은 위상 채널 M에 대응한다.
도 1a에 도시된 단계 S103의 흐름도인 도 1d를 참조한다. 일부 실시예에서, 단계 S103은 이하의 단계 s1301- 단계 s1305를 포함할 수 있다.
s1301, 전술한 제1 특징 정보와, 전술한 미리 확립된 데이터베이스에 저장된 개개의 특징 정보를 비교한다.
일부 실시예에서, 미리 확립된 데이터베이스는 하나 이상의 오디오 문서의 개개의 식별자, 하나 이상의 오디오 문서의 개개의 특징 정보, 및 각각의 오디오 문서의 개개의 속성 데이터를 저장한다. 일부 실시예에서, 각각의 오디오 문서의 속성 데이터는 다음 데이터: 오디오 문서의 명칭, 오디오 문서의 앨범 정보, 오디오 문서의 URL 주소, 및 오디오 문서의 가사 중 적어도 하나를 포함한다. 일부 실시예에서, 각각의 오디오 문서의 개개의 식별자는 개개의 TrackID로서 표현될 수 있다. 예를 들어, 오디오 문서 1의 개개의 식별자는 TrackID-1로서 표현될 수 있고, 오디오 문서 2의 개개의 식별자는 TrackID-2로서 표현될 수 있다. 일부 실시예에서, 각각의 유일한 TrackID는 하나의 오디오 문서에 대해 유일한 개개의 식별자로서 사용될 수 있다. 일부 실시예에서, 오디오 문서의 특징 정보는 오디오 문서의 오디오 핑거프린트이다. 예를 들어, 오디오 문서 1의 특징 정보는 오디오 문서 1의 오디오 핑거프린트이고, 오디오 문서 2의 특징 정보는 오디오 문서 2의 오디오 핑거프린트이다. 도 1c에 도시된 실시예에서 설명한 오디오 핑거프린트를 참조하면, 미리 확립된 데이터베이스에 저장된 각각의 오디오 문서의 특징 정보는 오디오 핑거프린트 시퀀스의 개개의 수집물이다. 따라서, TrackID-d에 의해 식별되는 오디오 문서의 하나의 오디오 핑거프린트 아이템은
Figure pct00044
로 표현될 수 있으며, p는 핑거프린트 시퀀스의 수집물 내의 핑거프린트 시퀀스 개개의 일련번호로서 사용되고; i는 핑거프린트 시퀀스 내의 핑거프린트 아이템 개개의 일련번호로서 사용되고;
Figure pct00045
는 핑거프린트 아이템에 나타나는
Figure pct00046
개개의 시간 오프셋으로 사용되다. 일부 실시예에서, 미리 확립된 데이터베이스의 질의 효율성을 향상시키기 위해, 해시 테이블은 전술한 미리 확립된 데이터베이스의 내용을 반전 저장하는 데 사용될 수 있고, 해시 테이블의 구성은 다음과 같이 나타낸다.
Figure pct00047
표 I에서, 키 값(Key value)은 핑거프린트 아이템 내의
Figure pct00048
의 값이고, 그 값은 오디오 문서의 식별자(TrackID) 및 해시코드 값의 출현과 연관된
Figure pct00049
이다.
이 단계에서, 전술한 제1 특징 정보는 전술한 미리 확립된 데이터베이스 내의 각각의 특징 정보와 비교되고, 사실, 제1 특징 정보의 각각의 핑거프린트 아이템 내의
Figure pct00050
값은, 예를 들어 전술한 표 I에 나타낸 해시 테이블과 같은, 해시 테이블 내의 각각의 키 값과 비교된다.
s1302, 비교 결과에 따라 미리 확립된 데이터베이스 내의 각각의 특징 정보에 대응하는 오디오 문서의 개개의 식별자에 대해 가중치 부여 처리를 수행한다.
전술한 단계 s1301에서는, 제1 특성 정보의 각각의 핑거프린트 아이템 내의 해시코드 값을 해시 테이블 내의 키 값과 비교한다. 예를 들어, 제1 특징 정보의 핑거프린트 아이템 내의 해시코드 값이 0x0002라고 가정하면, 단계 s1301에서 이루어진 비교를 통해, 해시 테이블에서 키 값이 0x0002인 행(row)을 발견할 수 있다. 이 단계에서, 가중치 부여 처리는 키 값이 0x0002인 모든 TrackID에 대해 수행된다. 일부 실시예에서, 이 단계의 가중치 부여 처리는 행 0x0002 내의 식별된 TrackID 각각에 대해 TF(Term Frequency)-IDF(Inverse Document Frequency)에 기초한 가중치를 사용하여 수행될 수 있다. 이 단계 후에, 미리 확립된 데이터베이스 내의 각각의 TrackID가 최소 가중치(weight score)인, 대응하는 가중치로 주어질 것이다. 일부 실시예에서 다른 가중치 부여 방법이 사용될 수도 있다.
s1303, 데이터베이스 내의 TrackID에 대한 가중치가 감소하는 순서에 따라, 미리 확립된 데이터베이스에서 제2 미리 설정된 수의 오디오 문서의 개개의 특징 정보를 선택하여 문서 후보 리스트를 구성한다. 일부 실시예에서, TrackID의 가중치가 감소하는 순서에 따라, 모든 가중치 중에서 상위(top) R개의 가중치를 가지는 TrackID들에 의해 식별되는 오디오 문서를 선택하고, 선택된 R개의 오디오 문서의 특징 정보를 사용하여 문서 후보의 리스트를 구성한다. 일부 실시예에서, R은 양의 정수이다.
s1304, 전술한 제1 특징 정보와 전술한 후보 리스트 내의 각각의 오디오 문서의 개개의 특징 정보 사이의 시간 의존성을 계산한다.
전술한 바와 같이, 전술한 제1 특징 정보는 M개의 핑거프린트 시퀀스의 수집물이고, M개의 핑거프린트 시퀀스의 수집물 내의 임의의 주어진 핑거프린트 수집물은
Figure pct00051
로 표현될 수 있다. 전술한 후보 리스트 내에는 R개의 특징 정보가 있고, R개의 특징 정보의 각각의 특징 정보는 핑거프린트 시퀀스의 개개의 수집물로서 사용되는 R개의 특징 정보의 각각의 특징 정보를 가진다. 예를 들어, 전술한 후보 리스트의 특징 정보 A는 p개의 핑거프린트 시퀀스를 구성하는 수집물 A이다. 수집물 A의 주어진 핑거프린트 아이템은
Figure pct00052
로서 표현될 수 있다. 이 단계에서, 시간 의존성을 계산하는 프로세스는 다음을 포함할 수 있다: (1) 식
Figure pct00053
을 사용하여 제1 특징 정보에 포함된 핑거프린트 아이템과 전술한 후보 리스트 내의 각각의 특징 정보에 포함된 개개의 핑거프린트 아이템 사이의 시간 차를 차례로 계산한다; (2) 후보 리스트에 포함된 각각의 특징 정보에 대해, 상기 각각의 특징 정보에 대해 동일한 시간 차가 발생하는는 횟수를 계산(accounting)한다. 예를 들어, 전술한 후보 리스트 내의 특징 정보 A에 대해, 계산은, 단계 (1)에서의 계산 결과에 기초하여
Figure pct00054
= 20은 20회 발생하고,
Figure pct00055
= 30은 40회 발생하고,
Figure pct00056
=35는 50회 발생한다는 것을 보여준다. (3) 전술한 후보 리스트에 포함된 특징 정보 각각에 대해, 전술한 후보 리스트의 상기 각각의 특징 정보와 제1 특징 정보 사이의 개개의 시간 의존성을 나타내기 위해 단계 (2)에서 취득한 최대 카운트 량의 상이한 카운트를 선택한다. 전술한 예에 따르면, 후보 리스트 내의 특징 정보와 제1 특징 정보 사이의 시간 의존성의 메트릭 값(metric value)은 L = 50(즉, 20, 40, 및 50 중에서 최대 카운트)이다.
상기 단계 (1)∼(3)에 따르면, 후보리스트 내의 R개의 특징 정보의 각각의 특징 정보와 제1 특징 정보 사이의 시간 의존성 L의 메트릭 값이 계산에 의해 취득될 수 있다.
s1305, 전술한 후보 리스트에서 전술한 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 선택하며, 전술한 제2 특징 정보와 전술한 제1 특징 정보 사이의 시간 의존성은 미리 설정된 임계값을 초과한다.
일부 실시예에서, 전술한 후보 리스트는 시간 의존성 값이 감소하는 순서에 따라 정렬되고, 그 후 전술한 제1 특징 정보와 매칭되는 하나 이상의 제2 특성 정보가 전술한 후보 리스트에서 선택되며, 전술한 제2 특징 정보와 전술한 제1 특징 정보 사이의 개개의 시간 의존성은 미리 설정된 임계값을 초과한다. 일부 실시예에서, 미리 설정된 임계값은 현재의 상황에 따라 설정된다. 유의할 것은, 후보 리스트의 정렬 후에, 제1 특징 정보와 후보 리스트 내의 모든 특징 정보 사이의 개개의 시간 의존성이 미리 설정된 임계값을 초과하면, 전술한 미리 확립된 데이터베이스 내에는 제1 특징 정보와 매칭되는 특징 정보가 없는 것으로 결정되고, 제1 오디오 문서를 인식할 수 없다는 것이다.
일부 실시예에서, 오디오 인식 방법은, 오디오 인식 요청을 수신한 때, 인식할 제1 오디오 문서를 자동으로 수집할 수 있다. 인식할 제1 오디오 문서의 기본 정보를 수동을 입력할 필요가 없고, 따라서, 이는 오디오 인식의 지능형 기능을 향상시킨다. 또, 상기 오디오 인식 방법은, 전술한 제1 오디오 문서의 제1 특징 정보를 계산하는 단계; 제1 특징 정보에 기초하여, 미리 확립된 데이터베이스에서 매칭되는 제2 오디오 문서의 속성 데이터를 검색하고, 전술한 제2 오디오의 문서 속성 데이터를, 사용자에게 출력하기 위한 전술한 제1 오디오 문서의 인식 결과로 취하는 단계를 포함한다. 본 발명의 실시예는 오디오 인식을 위한 특징 정보를 사용한다. 오디오 문서가 식별되는 경우, 그 오디오 문서의 특징 정보도 결정된다. 결정된 특성 정보에 기초하여 오디오 인식을 수행하는 것은 오디 인식의 정확도를 향상시키고 오디오 인식의 지능형 기능을 향상시킨다.
본 발명의 실시예는, 도 1a∼도 1d에 도시된 전술한 예에서 오디오 인식 방법의 프로세스를 수행하는 데 사용되는, 일종의 오디오 인식 시스템을 제공한다. 전술한 오디오 인식 방법의 여러 가능한 구현 모드가 있다. 예를 들어, 제1 가능한 구현 모드에서, 전술한 오디오 인식 시스템은, 도 1a∼도 1d에 도시된 실시예의 프로세스 전부를 수행하는 데 사용될 수 있는, 독립적인 통합형 기기(independent integrated device)에 의해 수행될 수 있다. 오디오 인식 처리를 실현하기 위해, 일부 실시예에서, 전술한 오디오 인식 기기장치는, 클라이언트 단말기 또는 서버 장치가 될 수 있다.
제2 가능한 구현 모드에서, 전술한 오디오 인식 방법은 제1 분산형 기기(distributed device) 및 제2 분산형 기기에 의해 함께 수행될 수 있다. 제1 분산형 기기 및 제2 분산형 기기는, 오디오 인식 프로세스를 실현하기 위해, 도 1a∼도 1d에 도시된 실시예의 모든 프로세스를 수행하기 위해 협력한다. 해당 기술 분야의 당업자는, 제1 분산형 기기 및 제2 분산형 기기를 포함하는 전술한 오디오 인식 시스템이 사용되는 경우, 제1 분산형 기기 및 제2 분산형 기기는 협력 프로세스 중에 일부 기술적인 처리 수단을 활용할 수 있다. 데이터 등에 대해 압축 처리를 수행하여 협력 프로세스 중에 전송되는 데이터 크기를 줄여 협력 작업의 효율성 및 속도를 향상시킨다는 것을 알 수 있을 것이다.
도 1e에 도시된 바와 같이, 클라이언트 기기는 선택적으로 오디오 인식 시에 단계 120∼134 중 하나 이상을 가지는 프로세스를 선택적으로 수행한다. 도 1e의 단계에 대한 더 자세한 것은 앞의 도 1a∼도 1d 및 그 설명에 제공되어 있다.
일부 실시예에서, 클라이언트 기기는 오디오 인식 요청에 응답하여 인식할 제1 오디오 문서를 수집한다(120). 그 후, 클라이언트 기기는 제1 오디오 문서의 제1 특징 정보의 계산을 개시(122)하며, 전술한 제1 오디오 문서에 대해 시간-주파수 분석을 수행하여 제1 오디오 문서에 대해 제1 미리 설정된 수의 위상 채널을 생성하는 단계(124) 및 제1 미리 설정된 수의 위상 채널의 각각의 위상 채널에서 하나 이상의 피크 값 특징점을 추출하며(126), 각각의 위상 채널의 하나 이상의 피크 값 특징점은 상기 각각의 위상 채널의 피크 값 특징점 시퀀스를 구성한다. 클라이언트 기기는 그 후 서버에, 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스를 전송한다. 일부 실시예에서, 클라이언트 기기는, 상기 전송하는 단계 이전에, 개개의 피크 값 특징점 시퀀스에 대한 개개의 시간 값에 대해 제1 유형의 압축 및 개개의 피크 값 특징점 시퀀스에 대한 개개의 주파수 값에 대해 제2 유형의 압축을 실행한다(130). 일부 실시예에서, 제1 유형의 압축은 simple9 압축이고, 제2 유형의 압축은 고정 비트 압축(fixed bit compression)이다. 클라이언트 기기는 서버로부터 인식 결과를 수신하며, 서버는 제1 미리 설정된 수의 위상 채널의 수신된 개개의 피크 값 특징점 시퀀스에 기초하여 제1 특징 정보의 계산을 완료하고 계산된 제1 특징 정보에 기초하여 인식을 수행한다. 클라이언트 기기는 서버로부터 인식 결과를 수신하고(132) 그 결과를 사용자에게 제시한다(134).
도 1f에 도시된 바와 같이, 본 발명의 일부 실시예에 따라, 서버는 선택적으로 기지의 오디오 문서에 대해 미리 확립된 데이터베이스를 준비할 때 단계 140∼152 중 하나 이상, 및 오디오 인식 성능을 가지는 프로세스를 수행한다. 도 1f의 단계들에 대한 더 자세한 것은 앞의 도 1a∼도 1d와 관련하여 제공되어 있다.
도 1f에 도시된 바와 같이, 일부 실시예에서, 서버는 복수의 기지의 오디오 문서의 데이터베이스를 미리 확립하며(140), 각각의 기지의 오디오 문서는 개개의 유일한 추적 식별자(예컨대, TrackID)를 가진다. 일부 실시예에서, 데이터베이스를 미리 확립하기 위해, 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보를 계산한다(142). 일부 실시예에서, 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보를 계산하는 방법은 제1 오디오 문서의 제1 특징 정보의 계산과 관련하여 앞서 설명한 것과 동일하다. 일부 실시예에서, 기지의 오디오 문서 각각에 대한 개개의 특징 정보는 상기 기지의 오디오 문서 각각에 대한 오디오 핑거프린트 시퀀스 개개의 수집물을 포함하고, 상기 기지의 오디오 문서 각각에 대한 각각의 오디오 핑거프린트 시퀀스 개개의 수집물은 해시코드를 가진다. 서버는 그들 개개의 해시코드에 따라 해시 테이블에 복수의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스 개개의 수집물을 저장한다(144). 계속되는 오디오 인식 중에, 서버는 클라이언트 기기로부터, 인식할 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스를 수신한다(146). 일부 실시예에서, 서버는 개개의 피크 값 특징점 시퀀스에 대한 개개의 시간 값에 대해 제1 유형의 압축해제 및 클라이언트 기기로부터 수신된 개개의 피크 값 특징점 시퀀스에 대한 개개의 주파수 값에 대해 제2 유형의 압축해제를 수행한다(148). 서버는 그 후 제1 오디오 문서의 전술한 위상 채널 각각의 피크 값 특징점 시퀀스 내의 피크 값 특징점 각각에 대한 짝짓기 처리를 수행하여 제1 오디오 문서에 대한 상기 각각의 위상 채널의 피크 값 특징점 쌍 시퀀스를 형성한다(150). 서버는 그 후 제1 오디오 문서의 각각의 위상 채널에서 전술한 피크 값 특징점 쌍 시퀀스 각각에 대해 해시 계산을 수행하여 제1 오디오 문서의 전술한 위상 채널 각각에 대응하는 개개의 오디오 핑거프린트 시퀀스를 취득하며,(152) 제1 미리 설정된 수의 위상 채널에 대응하는 오디오 핑거프린트 시퀀스들은 함께 전술한 제1 오디오 문서의 제1 특징 정보를 구성한다. 서버는 그 후 미리 확립된 데이터베이스에서 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 검색하여 취득한다. 서버는 그 후 전술한 제2 오디오 문서의 속성 데이터를 전술한 제1 오디오 문서의 인식 결과로 취하여 클라이언트 기기에 전송한다.
이하에는 도 2a∼도 2d에 기초하여 일부 실시예에 따른 오디오 인식 기기를 자세하게 소개한다. 이하의 오디오 인식 기기는 상기한 오디오 인식 방법에 적용될 수 있다.
일부 실시예에 따른 오디오 인식 기기의 개략 구성도인 도 2a를 참조하기 바라며, 이 기기는 수집 모듈(101M), 계산 모듈(102M), 인식 모듈(103M), 취득 모듈(104M) 및 결과 출력 모듈(105M)을 포함할 수 있다.
수집 모듈(101M)은 오디오 인식 요청을 수신한 경우 인식될 제1 오디오 문서를 수집하도록 구성된다.
일부 실시예에서, 제1 오디오 문서는 다음 중 하나이다: 영화에서의 오디오 세그먼트, 텔레비전 재생에서의 오디오 세그먼트, 텔레비전 프로그램에서의 오디오 세그먼트, 음악 라디오 방속국에 의해 브로드캐스팅되는 오디오 데이터, 인간에 의해 전달되는 오디오 데이터(흥얼거리는 음악 또는 노래의 세그먼트) 등. 사용자가 미지의 음악 문서의, 노래 제목, 가수, 앨범의 이름 및 오디오 문서의 가사와 같은, 정보를 알고자 하면, 사용ㅇ자는 오디오 질의 요청을 개시할 수 있다. 사용자에 의해 전송되는 오디오 인식 요청을 수신한 경우, 수집 모듈(101M)은 인식할 제1 오디오 문서를 수집한다. 일부 실시예에서, 수집 모듈(101M)은 선택적으로 다음 두 가지의 구현 모드를 포함할 수 있다:
제1 구현 모드에서, 사용자에 의해 전송되는 오디오 인식 요청을 수신한 경우, 수집 모듈(101M)은 실시간으로 사용자에 의해 인식되도록 요청받은 제1 오디오 문서를 기록하기 위한 기록 기능을 시작할 수 있다.
제2 구현 모드에서, 사용자에 의해 전송되는 오디오 인식 요청을 수신한 경우, 수집 모듈(101M)은 사용자에 의해 인식 및 업로드되도록 요청받은 제1 오디오 문서를 수신할 수 있다.
일부 실시예예서, 제1 오디오 문서는 16비트 양자화를 사용하는 PCM(Pulse-Code Modulation) 유형의, 8kHz의 샘플링 주파수를 가지는 디지털 오디오 문서이다.
계산 모듈(102M)은 제1 오디오 문서의 제1 특징 정보를 계산하도록 구성된다.
일부 실시예에서, 제1 오디오 문서의 제1 특징 정보는 제1 오디오 문서의 오디오 핑거프린트이다. 일부 실시예에서, 제1 오디오 문서의 오디오 핑거프린트는 제1 오디오 문서의 내용에 기초하고 제1 오디오 문서의 중요한 음향 특징을 나타내는 컴팩트한 디지털 서명이다. 수집된 제1 오디오 문서의 디지털 버전이 계산 모듈(102M)에 의해 제1 오디오 문서의 제1 특징 정보를 취득하기 위한 계산에 사용된다.
인식 모듈(103M)은 미리 확립된 데이터베이스에서 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 검색하여 취득하도록 구성된다.
일부 실시예에서, 미리 확립된 데이터베이스는 하나 이상의 오디오 문서의 개개의 식별자, 하나 이상의 오디오 문서의 개개의 특징 정보, 및 하나 이상의 오디오 문서의 개개의 속성 데이터를 저장한다. 일부 실시예에서, 미리 확립된 데이터베이스에 저장된 오디오 문서는, 영화의 오디오 세그먼트, 텔레비전 재생의 오디오 세그먼트, 텔레비전 프로그램의 오디오 세그먼트, 노래, 음악 등을 포함할 수 있다. 일부 실시예에서, 오디오 문서의 개개의 식별자는 TrackID로 표현된다. 예를 들어, 오디오 문서 1의 개개의 식별자는 TrackID-1로 표현될 수 있고, 오디오 문서 2의 개개의 식별자는 TrackID-2로 표현될 수 있으며; 각각의 TrackID는 오직 하나의 개개의 오디오 문서에 대한 유일한 식별자로서 사용될 수 있다.
일부 실시예에서, 오디오 문서의 특징 정보는 오디오 문서의 핑거프린트이다. 예를 들어, 오디오 문서 1의 특징 정보는 오디오 문서1의 핑거프린트이고, 오디오 문서 2의 특징 정보는 오디오 문서2의 핑거프린트이다. 일부 실시예에서, 오디오 문서의 속성 데이터는 다음 데이터: 오디오 문서의 이름, 오디오 문서의 앨범 정보, 오디오 문서의 URL 주소, 및 오디오 문서의 가사 중 적어도 하나를 포함하지만 이에 한정되는 것은 아니다. 일부 실시예에서, 제1 특징 정보와 매칭되는 제2 특징 정보는 제2 특징 정보가 제1 특징 정보와 동일하다는 것을 의미한다. 일부 실시예에서, 제1 특징 정보와 매칭되는 제2 특징 정보는, 제2 특징 정보와 제1 특징 정보 사이의 유사도가 미리 설정된 유사도에 도달한 것을 의미한다. 예를 들어, 미리 설정된 유사도가 90%이고, 제2 특징 정보와 제1 특징 정보 사이의 유사도가 90% 이상에 도달하면, 예를 들어, 인식 모듈(103M)에 의해 제2 특징 정보는 제1 특징 정보와 매칭되는 것으로 간주된다.
취득 모듈(104M)은, 전술한 하나 이상의 제2 특징 정보에서 각각의 제2 특징 정보에 대응하는 제2 오디오 문서의 속성 데이터를 취득한다.
전술한 인식 모듈(103M)은 미리 확립된 데이터베이스에서 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 찾아낸다. 일부 실시예에서, 전술한 하나 이상의 제2 특징 정보 내의 각각의 특징 정보는 개개의 제2 오디오 문서에 대응한다. 전술한 인식 모듈(103M)에 의해, 제1 오디오 문서와 매칭되는 하나 이상의 제2 오디오 문서가 인식되며, 이는 이 제1 오디오 문서가 인식된 하나 이상의 제2 오디오 문서 중 하나일 수 있거나, 또는 이 제1 오디오 문서가 인식된 제1 오디오 문서(들) 중 적어도 하나일 수 있음을 암시한다. 제1 오디오 문서와 매칭되는, 인식된 하나 이상의 제2 오디오 문서의 속성 데이터는 취득 모듈(104M)에 의해 취득된다.
결과 출력 모듈(105M)은 전술한 제2 오디오 문서의 속성 데이터를, 출력을 위한 언급한 제1 오디오 문서의 인식 결과로서 취한다. 예를 들어, 일부 실시예에서, 서버는 전술한 제2 오디오 문서의 속성 데이터를 오디오 인식 요청의 결과로서 클라언트 기기에 제공한다.
일부 실시예에서, 결과 출력 모듈(105M)은 제1 오디오 문서의 인식 결과로서 취득 모듈(104M)에서 취득된 하나 이상의 제2 오디오 문서 내의 모든 오디오의 속성 데이터를 사용할 수 있고, 그 전부를 사용자에게 출력할 수 있다. 일부 실시예에서, 취득 모듈(104M)에 의해 취득된 하나 이상의 오디오 문서의 일부만을 선택할 수 있고, 선택된 오디오 문서의 속성 데이터를 전술한 제1 오디오 문서의 인식 결과로서 출력할 수 있다. 전술한 인식 결과에 따르면, 사용자는 질의 요청의 대상인 제1 오디오 문서의 속성 데이터를 알 수 있다. 예를 들어, 사용자는 노래 제목, 가수, 앨범의 이름, 가사 등의, 제1 오디오 문서의 속성 데이터를 알 수 있다.
일부 실시예에서, 오디오 인식 방법은, 오디오 인식 요청을 수신한 경우, 인식할 제1 오디오 문서를 자동으로 수집할 수 있다. 사용자가 인식할 제1 오디오 문서의 기본 정보를 수동으로 입력할 필요가 없으며, 이는 오디오 인식의 지능적인 기능을 향상시킨다. 또, 상기 오디오 인식 방법은, 전술한 제1 오디오 문서의 제1 특징 정보를 계산하는 단계; 미리 확립된 데이터베이스에서 전술한 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 검색하여 취득하는 단계; 제1 특징 정보에 기초하여, 미리 설정된 데이터베이스에서 매칭되는 제2 오디오 문서(들)의 속성 정보를 취득하고, 전술한 제2 오디오 문서(들)의 속성 데이터를 전술한 제1 오디오 문서의 인식 결과로서 취하여 출력하는 단계를 포함한다. 본 발명의 실시예는 오디오 인식을 위해 특징 정보를 기초로 하며, 오디오 문서가 결정되는 경우, 그 오디오 문서의 특징 정보도 결정된다. 결정된 특징 정보에 기초하여 오디오 인식을 수행하는 것은 오디오 인식의 정확도를 향상시키고 지능적인 오디오 인식의 기능도 향상시킨다.
이하에서는 도 2a에 도시된 오디오 인식 기기의 각 모듈을 자세하게 소개한다.
도 2a에 도시된 계산 모듈의 개략 구성도인 도 2b를 참조하기 바란다. 일부실시예에서, 이 계산 모듈(102M)은 시간-주파수 분석 유닛(1201M), 특징 추출 유닛(1202M), 짝짓기 처리 유닛(1203M), 및 계산 유닛(1204M)을 포함할 수 있다.
시간-주파수 분석 유닛(1201M)은, 전술한 제1 오디오 문서에 대해 시간-주파수 분석을 수행하여 전술한 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널을 생성하도록 구성된다.
일부 실시예에서, 제1 미리 설정된 수의 값은 실제 현재의 조건에 따라 설정된다. 일부 실시예에서, 제1 미리 설정된 수의 값을 설정하는 구체적인 프로세스는 제1 오디오 문서에 의해 영향을 받는 여러 인자(factor)를 고려한다. 예를 들어, 제1 미리 설정된 수의 값은 제1 오디오 문서의 신호대잡음비, 등에 따라 설정될 수 있다.
일부 실시예에서, 제1 미리 설정된 수는 M으로 표현되고, 여기서 M은 양의 정수이다. 이 단계에서, 시간-주파수 분석은 제1 오디오 문서의 디지털 버전의 시간 도메인 신호에 대해 STFT(Short-Time Fourier Transform)를 수행하는 것을 기초로 할 수 있으며, 이는 제1 오디오 문서의 이차원 시간-주파수 그래프를 생성할 수 있다. 일부 실시예에서, 제1 오디오 문서의 이차원 시간-주파수 그래프는 M개의 시간-주파수 서브그래프로 분할되며, 각각의 시간-주파수 서브그래프는 제1 오디오 문서의 M개의 위상 채널의 개개의 채널에 대응한다. 예를 들어, M개의 위상 채널의 M개의 시간-주파수 서브그래프에서, 위상 채널 1은 시간-주파수 서브그래프 1에 대응하고; 위상 채널 2는 시간-주파수 서브그래프 2에 대응하고; 이에 상응하게 위상 채널 M은 시간-주파수 서브그래프 M에 대응한다.
특징 추출 유닛(1202M)은, 제1 미리 설정된 수의 위상 채널의 각각의 위상 채널에서 하나 이상의 피크 값 특징점을 추출하며, 상기 각각의 위상 채널의 하나 이상의 피크 값 특징점은 상기 각각의 위상 채널의 피크 값 특징점 시퀀스를 형성한다.
전술한 바와 같이, M개의 위상 채널에서, 각각의 위상 채널은 개개의 시간-주파수 서브그래프에 대응한다. 이 단계에서, 일부 실시예에서, 각각의 위상 채널의 피크 값 특징점(들)을 추출하는 프로세스는, 1) 상기 각각의 위상 채널에 대응하는 개개의 시간-주파수 서브그래프에서, 각각의 특징점의 에너지 값을 분석하는 단계; 2) 각각의 특징점의 에너지 값에 따라, 주어진 직사각형의 이웃 내에서 최대 에너지 값을 가지는 특징점을 피크 값 특징점으로 선택하는 단계를 포함한다. 전술한 단계 1) 및 2)에 따르면, 각각의 위상 채널에 대해 하나 이상의 피크 값 특징점을 추출할 수 있다.
일부 실시예에서, 직사각형 이웃의 크기 파라미터는 실제 필요에 따라 설정된다. 예를 들어, 일부 실시예에서, 직사각형 이웃의 크기를 설정하는 프로세서는 다음 인자: 시간-주파수 서브그래프 내의 특징점의 총수, 시간-주파수 서브그래프 내의 특징점의 분포 조건 등, 중 하나 이상을 고려한다. 일부 실시예에서, M개의 위상 채널에서, 각각의 위상 채널에 대해 하나 이상의 피크 값 특징점이 추출된다. 구체적으로, 일부 실시예에서, 각각의 위상 채널의 하나 이상의 피크 값 특징점은 첫 번째(제1)에서부터 마지막 피크 값 특징점까지 시간 시퀀스에 따라 저장된다. 동일한 시점에 나타난 피크 값 특징점에 대해, 일부 실시예에서, 그 피크 값 특징점들은 선택적으로 최고 주파수에서부터 최저 주파수까지 그들의 주파수에 따라 저장된다.
일부 실시예에서, 이 단계는 각각 M개의 위상 채널에 대해 각각 M개의 피크 값 특징점을 추출할 수 있다. 예를 들어, M개의 위상 채널에서, 위상 채널 1은 피크 값 특징점 시퀀스 1에 대응하고, 위상 채널 2는 피크 값 특징점 시퀀스 2에 대응하고, 상응하게 위상 채널 M은 피크 값 특징점 시퀀스 M에 대응한다.
짝짓기 처리 유닛(1203M)은, 각각의 전술한 위상 채널의 피크 값 특징점 시퀀스 내의 피크 값 특징점 각각에 대해 짝짓기 처리를 수행하여 상기 위상 채널 각각의 피크 값 특징점 쌍 시퀀스(다시 말해, 피크 값 특징점의 쌍으로 구성되는 시퀀스)를 형성한다.
일부 실시예에서,
Figure pct00057
이 임의의 위상 채널 n의 피크 값 특징점 시퀀스 내의 임의의 피크 값 특징점 k를 표기하는 데 사용되며, 여기서 n은 개개의 위상 채널의 일련번호 또는 개개의 시간-주파수 서브그래프의 일련번호를 나타내고,
Figure pct00058
이고; k는 피크 값 특징점 시퀀스 내의 개개의 피크 값 특징점의 일련번호를 나타내고, k는 양의 정수이고;
Figure pct00059
는 시간-주파수 서브그래프 n에 피크 값 특징점 k가 나타날 때의 시간 값을 나타내고;
Figure pct00060
는 시간-주파수 서브그래프 n에 피크 값 특징점 k가 나타날 때의 주파수 값을 나타낸다.
이 단계에서, 일부 실시예에서, 각각의 위상 채널의 피크 값 특징점 시퀀스 내의 각각의 피크 값 특징점의 짝짓기 처리의 프로세스는, (1) 각각의 위상 채널에 대응하는 시간-주파수 서브그래프에서, 상기 각각의 위상 채널의 피크 값 특징점 시퀀스 내의 각각의 피크 값 특징점을 직사각형 타겟 영역을 선택하기 위한 앵커점으로 취하고; 임의의 시간-주파수 서브그래프의 임의의 피크 값 특징점
Figure pct00061
에 대해, 전술한 직사각형 영역은 아래의 조건을 충족한다:
Figure pct00062
Figure pct00063
.
일부 실시예에서,
Figure pct00064
는 피크 값 특징점
Figure pct00065
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 시작 시각을 나타내고,
Figure pct00066
는 피크 값 특징점
Figure pct00067
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 종료 시각을 나타내며;
Figure pct00068
는 피크 값 특징점
Figure pct00069
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 최소 주파수를 나타내고,
Figure pct00070
는 피크 값 특징점
Figure pct00071
을 앵커점으로 취함으로써 선택되는 직사각형 타켓 영역의 최대 주파수를 나타낸다.
(2) 직사각형 타켓 영역에서 앵커점 이외의 피크 값 특징점을 선택하여 앵커점과 짯짓기 하며, 앵커점과, 앵커점과 짝짓기 위해 선택된 피크 값 특징점이 피크 값 특징점 쌍을 구성한다. 일부 실시예에서, 앵커점과의 짝짓기를 위해 피크 값 특징점을 선택하는 원리는, 앵커점의 기간(epoch)과의 시간 차가 최소인 기간을 가지는 피크 값 특징점을 선택하여 앵커점과 짝을 짓거나; 또는 최소 에너지 값을 가지는 피크 값 특징점을 선택하고, 직사각형 타겟 영역 내의, 앵커점을 배제한다.
전술한 처리 단계 (1) 및 (2)를 통해, 각각의 피크 값 특징점
Figure pct00072
이 매칭되는 피크 값 특징점
Figure pct00073
과 쌍으로 제공된다. 일부 실시예에서, n은 위상 채널의 일련번호 또는 시간-주파수 서브그래프의 일련번호를 나타내고,
Figure pct00074
이고; b는 피크 값 특징점 시퀀스 n 내의 매칭되는 피크 값 특징점의 일련번호를 나타내고, b는 양의 정수이며;
Figure pct00075
는 시간-주파수 서브그래프 n에 매칭되는 피크 값 특징점이 나타날 때의 시간을 나타내고;
Figure pct00076
는 매칭되는 피크 값 특징점의 주파수를 나타낸다. 일부 실시예에서, 쿼드러플
Figure pct00077
이 임의의 주어진 위상 채널 n의 피크 값 특징점 시퀀스 내의 피크 값 특징점 k의 임의의 주어진 쌍을 나타내는 데 사용되며, n은 위상 채널의 일련번호 또는 시간-주파수 서브그래프의 일련번호를 나타내고;
Figure pct00078
는 피크 값 특징점 쌍 내의 두 개의 피크 값 특징점 사이의 시간 차를 나타내고,
Figure pct00079
이며;
Figure pct00080
는 피크 값 특징점 쌍 내의 두 개의 피크 값 특징점 사이의 주파수 차를 나타내고,
Figure pct00081
이다.
짝짓기 처리 유닛(1203M)은 M개의 피크 값 특징점 시퀀스 내의 각각의 피크 값 특징점의 매칭이 수행되어, M개의 피크 값 특징점 시퀀스를 형성할 수 있도록 한다. 예를 들어, M개의 위상 채널에서, 위상 채널 1은 피크 값 특징점 쌍 시퀀스 1에 대응하고, 위상 채널 2는 피크 값 특징점 쌍 시퀀스 2에 대응하고, 이에 상응하게, 위상 채널 M은 피크 값 특징점 쌍 시퀀스 M에 대응한다.
계산 유닛(1204M)은, 각각의 위상 채널에서 전술한 피크 값 특징점 쌍 시퀀스 각각에 대해 해시 계산을 수행하여 각각의 전술한 위상 채널에 대응하는 개개의 오디오 핑거프린트 시퀀스를 취득하며, 제1 미리 설정된 수의 위상 채널에 대응하는 오디외 핑거프린트 시퀀스의 수집물은 함께 전술한 제1 오디오 문서의 제1 특징 정보를 구성한다.
전술한 바와 같이, 쿼드러플
Figure pct00082
은 임의의 주어진 위상 채널 n의 피크 값 특징점 쌍 시퀀스 내의 임의의 주어진 피크 값 특징점 쌍 k를 나타내는 데 사용된다. 상기 쿼드러플의 파라미터는 다음과 같이 이해될 수 있다:
Figure pct00083
는 피크 값 특징점 쌍의 특징 섹션을 나타내고,
Figure pct00084
는 특징 섹션
Figure pct00085
이 발생한 시각을 나타낸다. 이 단계에서, 특징 섹션
Figure pct00086
에 대한 해시 계산이 수행되고, 특징 섹션
Figure pct00087
은 따라서 고정된 비트 수를 가지는
Figure pct00088
로 표현된다. 구체적으로
Figure pct00089
이다.
계산 모듈(1204M)의 계산을 통해, 임의의 위상 채널의 피크 값 특징점 쌍 시퀀스 내의 피크 값 특징점 쌍 중 임의의 쌍은
Figure pct00090
으로 표현될 수 있고, 여기서 n은 위상 채널의 개개의 일련번호 또는 시간-주파수 서브그래프 개개의 일련번호를 나타내고,
Figure pct00091
Figure pct00092
가 나타났을 때의 시각을 나타내고,
Figure pct00093
은 개개의 피크 값 특징점 쌍을 나타내는, 오디오 핑거프린트 아이템으로 사용된다.
계산 모듈(1204M)의 계산을 통해, M개의 피크 값 특징점 쌍 시퀀스에서, 각각의 피크 값 특징점 쌍 시퀀스 내의 각각의 피크 값 특징점 쌍은 개개의 오디오 핑거프린트 아이템에 의해 표현될 수 있고; 각각의 피크 값 특징점 쌍 시퀀스는 오디오 핑거프린트 시퀀스에 대응하고; M개의 피크 값 특징점 쌍 시퀀스는 M개의 오디오 핑거프린트 시퀀스에 대응한다. 예를 들어, 피크 값 특징점 쌍 시퀀스 1는 오디오 핑거프린트 시퀀스 1에 대응하고, 피크 값 특징점 쌍 시퀀스 2는 오디오 핑거프린트 시퀀스 2에 대응하고, 이에 상응하게 피크 값 특징점 쌍 시퀀스 M은 오디오 핑거프린트 시퀀스 M에 대응한다. M개의 오디오 핑거프린트 시퀀스의 수집물은 함께 전술한 제1 오디오 문서의 제1 특징 정보를 구성한다. 즉, 제1 오디오 문서의 제1 특징 정보는 M개의 오디오 핑거프린트 시퀀스의 수집물로서 표현될 수 있다.
도 2b에 도시된 시간-주파수 분석 유닛의 개략 구성도인 도 2c를 참조한다. 이 시간-주파수 분석 유닛(1201M)은 프레이밍 처리 서브 유닛(framing processing subunit)(1211M), 변환 서브유닛(1212M), 진폭 추출 서브유닛(1213M), 그리기 서브유닛(draw subunit)(1214M), 및 분할 서브유닛(split subunit)(1215M)을 포함할 수 있다.
프레이밍 처리 서브 유닛(1211M)은, 전술한 제1 오디오 문서에 대해 시간 도메인 프레임 분할 처리를 수행하여, 복수 프레임의 오디오 신호를 형성하도록 구성된다.
프레이밍 처리 서브 유닛(1211M)은 윈도 함수(window function)를 프레임 분할의 파라미터로 취하여, 수집된 제1 오디오 문서에 대해 시간 도메인 프레임 분할 처리를 수행하여, 복수 프레임의 오디오 신호를 형성한다. 일부 실시예에서, 윈도 함수는 해닝(Hanning) 윈도 함수, 가우시안(Gaussian) 윈도 함수, 또는 기타 일반적인 윈도 함수이다.
변환 서브유닛(1212M)은, 오디오 신호의 프레임 각각에 대해 STFT 변환을 수행하여 상기 오디오 신호의 각각의 프레임의 개개의 주파수 스펙트럼을 취득하도록 구성된다.
진폭 추출 서브유닛(1213M)은, 각각의 전술한 오디오 신호의 프레임 개개의 주파수 스펙트럼에 대응하는 진폭 스펙트럼을 추출하도록 구성된다.
그리기 서브유닛(1214M)은, 전술한 오디오 신호의 프레임 각각의 시간, 주파수 스펙트럼, 및 진폭 스펙트럼에 기초하여, 전술한 제1 오디오 문서의 시간-주파수 그래프를 그리도록 구성된다. 이 단계에서, 오디오 신호의 각각의 프레임의 시간 시퀀스에 따라, 오디오 신호의 각각의 프레임의 주파수 스펙트럼 및 진폭 스펙트럼이 차례로 그려져서, 제1 오디오 문서의 이차원 시간-주파수 그래프를 형성한다.
분할 서브유닛(1215M)은, 시간의 모듈로(modulo)를 취함으로써, 전술한 제1 오디오 문서의 시간-주파수 그래프를 분할하여, 미리 설정된 수의 시간-주파수 서브그래프를 생성하도록 구성되며, 각각의 미리 설정된 수의 시간-주파수 서브그래프는 전술한 제1 오디오 문서의 개개의 위상 채널에 대응한다.
일부 실시예에서, 제1 미리 설정된 수는 M으로 표현되고, 여기서 M은 양의 정수이다. 분할 서브유닛(1215M)은 제1 오디오 문서의 시간-주파수 그래프를 시간 t의 모듈로 M에 따라 분할되어, M개의 시간-주파수 서브그래프를 생성한다. 일부 실시예에서, 구체적인 분할 프로세스는 다음과 같다: (1) 이차원 시간-주파수 그래프에서 매시간
Figure pct00094
각각에 대응하는 개개의 특징점을 선택하고, 선택된 특징점은 시간-주파수 서브그래프 1을 구성하고; 이차원 시간-주파수 그래프에서 매시간
Figure pct00095
각각에 대응하는 개개의 특징점을 선택하고, 선택된 특징점은 시간-주파수 서브그래프 2를 구성하고; 이에 상응하게 이차원 시간-주파수 그래프에서 매시간
Figure pct00096
각각에 대응하는 개개의 특징점을 선택하고, 선택된 특징점은 시간-주파수 서브그래프 M에 대응하고, x는 양의 정수이고,
Figure pct00097
이며,
Figure pct00098
는 이차원 시간-주파수 그래프에서 최대 시간점이다. 일부 실시예에서, 각각의 시간-주파수 서브그래프는 제1 오디오 문서의 개개의 위상 채널에 대응하고, M개의 시간-주파수 서브그래프는 제1 오디오 문서의 M개의 위상 채널에 대응하는 M개의 시간-주파수 서브그래프이다. 예를 들어, 시간-주파수 서브그래프 1은 위상 채널 1에 대응하고, 시간-주파수 서브그래프 2은 위상 채널 2에 대응하고, 이에 상응하게, 시간-주파수 서브그래프 M은 위상 채널 M에 대응한다.
도 2a에 도시된 인식 모듈의 개략 구성도인 도 2d를 참조하며, 이 인식 모듈(103M)은 일부 실시예에 따라 특징 비교 유닛(1301M), 가중치 부여 처리 유닛(1302M), 후보 리스트 생성 유닛(1303M), 의존성 계산 유닛(1304M), 및 매칭 유닛(1305M)을 포함할 수 있다.
특징 비교 유닛(1301M)은, 전술한 제1 특징 정보와, 전술한 미리 확립된 데이터베이스에 저장된 각각의 특징 정보를 비교하도록 구성된다.
일부 실시예에서, 미리 확립된 데이터베이스는 하나 이상의 오디오 문서의 개개의 식별자, 하나 이상의 오디오 문서의 개개의 특징 정보, 및 각각의 오디오 문서의 개개의 속성 데이터를 저장한다. 일부 실시예에서, 각각의 오디오 문서의 속성 데이터는 다음 데이터: 오디오 문서의 명칭, 오디오 문서의 앨범 정보, 오디오 문서의 URL 주소, 및 오디오 문서의 가사 중 적어도 하나를 포함한다. 일부 실시예에서, 각각의 오디오 문서의 개개의 식별자는 개개의 TrackID로서 표현될 수 있다. 예를 들어, 오디오 문서 1의 개개의 식별자는 TrackID-1로서 표현될 수 있고, 오디오 문서 2의 개개의 식별자는 TrackID-2로서 표현될 수 있다. 일부 실시예에서, 각각의 유일한 TrackID는 하나의 오디오 문서에 대해 유일한 개개의 식별자로서 사용될 수 있다. 일부 실시예에서, 오디오 문서의 특징 정보는 오디오 문서의 오디오 핑거프린트이다. 예를 들어, 오디오 문서 1의 특징 정보는 오디오 문서 1의 오디오 핑거프린트이고, 오디오 문서 2의 특징 정보는 오디오 문서 2의 오디오 핑거프린트이다. 도 1c에 도시된 실시예에서 설명한 오디오 핑거프린트를 참조하면, 미리 확립된 데이터베이스에 저장된 각각의 오디오 문서의 특징 정보는 오디오 핑거프린트 시퀀스 개개의 수집물이다. 따라서, TrackID-d에 의해 식별되는 오디오 문서의 하나의 오디오 핑거프린트 아이템은
Figure pct00099
로 표현될 수 있으며, p는 핑거프린트 시퀀스의 수집물 내의 핑거프린트 시퀀스 개개의 일련번호로서 사용되고; i는 핑거프린트 시퀀스 내의 핑거프린트 아이템 개개의 일련번호로서 사용되고;
Figure pct00100
는 핑거프린트 아이템에 나타나는
Figure pct00101
개개의 시간 오프셋으로 사용되다. 일부 실시예에서, 미리 확립된 데이터베이스의 질의 효율성을 향상시키기 위해, 해시 테이블은 전술한 미리 확립된 데이터베이스의 내용을 반전 저장하는 데 사용될 수 있고, 해시 테이블의 구성은 상기한 표 I에 나타나 있다.
특징 비교 유닛(1301M)은, 전술한 제1 특징 정보와 전술한 미리 확립된 데이터베이스 내의 각각의 특징 정보를 비교하고, 실제로, 제1 특징 정보의 각각의 핑거프린트 아이템 내의
Figure pct00102
값과, 예를 들어 전술한 표 I에 나타낸 해시 테이블과 같은, 해시 테이블 내의 각각의 키 값을 비교한다.
가중치 부여 처리 유닛(1302M)은, 비교 결과에 따라 미리 확립된 데이터베이스 내의 각각의 특징 정보에 대응하는 오디오 문서의 개개의 식별자에 대해 가중치 부여 처리를 수행하도록 구성된다.
전술한 특징 비교 유닛(1301M)은, 제1 특성 정보의 각각의 핑거프린트 아이템 내의 해시코드 값을 해시 테이블 내의 키 값과 비교한다. 예를 들어, 제1 특징 정보의 핑거프린트 아이템 내의 해시코드 값이 0x0002라고 가정하면, 특징 비교 유닛(1301M)에 의해 이루어진 비교를 통해, 해시 테이블에서 키 값이 0x0002인 행(row)을 발견할 수 있다. 가중치 부여 처리 유닛(1302M)에 의해 수행되는 가중치 부여 처리는, 키 값이 0x0002인 모든 TrackID에 대해 수행된다. 일부 실시예에서, 가중치 부여 처리는 가중치 부여 처리 유닛(1302M)에 의해, 행 0x0002 내의 식별된 TrackID 각각에 대해 TF(Term Frequency)-IDF(Inverse Document Frequency)에 기초한 가중치를 사용하여 수행될 수 있다. 가중치 부여 처리 후에, 미리 확립된 데이터베이스 내의 각각의 TrackID는 최소 가중치(weight score)인, 대응하는 가중치로 주어질 것이다. 일부 실시예에서 다른 가중치 부여 방법이 사용될 수도 있다.
후보 리스트 생성 유닛(1303M)은, 데이터베이스 내의 TrackID에 대한 가중치가 감소하는 순서에 따라, 미리 확립된 데이터베이스에서 제2 미리 설정된 수의 오디오 문서의 개개의 특징 정보를 선택하여 문서 후보 리스트를 구성하도록 구성된다. 일부 실시예에서, TrackID의 가중치가 감소하는 순서에 따라, 후보 리스트 생성 유닛(1303M)은 모든 가중치 중에서 상위(top) R개의 가중치를 가지는 TrackID들에 의해 식별되는 오디오 문서를 선택하고, 선택된 R개의 오디오 문서의 특징 정보를 사용하여 문서 후보의 리스트를 구성한다. 일부 실시예에서, R은 양의 정수이다.
의존성 계산 유닛(1304M)은, 전술한 제1 특징 정보와, 전술한 후보 리스트 내의 각각의 오디오 문서의 개개의 특징 정보 사이의 시간 의존성을 계산하도록 구성된다.
전술한 바와 같이, 전술한 제1 특징 정보는 M개의 핑거프린트 시퀀스의 수집물이고, M개의 핑거프린트 시퀀스의 수집물 내의 임의의 주어진 핑거프린트 수집물은
Figure pct00103
으로 표현될 수 있다. R개의 특징 정보의 각각의 특징 정보가 핑거프린트 시퀀스 개개의 수집물로서 사용되는 R개의 특징 정보의 각각의 특징 정보와 함께, 전술한 후보 리스트 내에 포함된 R개의 특징 정보가 있다. 예를 들어, 전술한 후보 리스트의 특징 정보 A는 p개의 핑거프린트 시퀀스를 구성하는 수집물 A이다. 수집물 A의 주어진 핑거프린트 아이템은
Figure pct00104
으로서 표현될 수 있다. 시간 의존성을 계산하는 프로세스는 다음을 포함할 수 있다: (1) 식
Figure pct00105
을 사용하여, 제1 특징 정보에 포함된 핑거프린트 아이템과 전술한 후보 리스트 내의 각각의 특징 정보에 포함된 개개의 핑거프린트 아이템 사이의 시간 차를 차례로 계산한다; (2) 후보 리스트에 포함된 각각의 특징 정보에 대해, 상기 각각의 특징 정보에 대해 동일한 시간 차가 발생하는는 횟수를 계산(accounting)한다. 예를 들어, 전술한 후보 리스트 내의 특징 정보 A에 대해, 계산은, 단계 (1)에서의 계산 결과에 기초하여
Figure pct00106
= 20은 20회 발생하고,
Figure pct00107
= 30은 40회 발생하고,
Figure pct00108
=35는 50회 발생한다는 것을 보여준다; (3) 전술한 후보 리스트에 포함된 특징 정보 각각에 대해, 전술한 후보 리스트의 상기 각각의 특징 정보와 제1 특징 정보 사이의 개개의 시간 의존성을 나타내기 위해 단계 (2)에서 취득한 상이한 카운트들에서 최대 카운트량을 선택한다. 전술한 예에 따르면, 후보 리스트 내의 특징 정보와 제1 특징 정보 사이의 시간 의존성의 메트릭 값은 L = 50(즉, 20, 40, 및 50 중에서 최대 카운트).
상기 단계 (1)∼(3)에 따르면, 후보리스트 내의 R개의 특징 정보의 각각의 특징 정보와, 제1 특징 정보 사이의 시간 의존성 L의 메트릭 값이 계산에 의해 취득될 수 있다.
매칭 유닛(1305M)은, 전술한 후보 리스트에서 전술한 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 선택하도록 구성되며, 전술한 제2 특징 정보와 전술한 제1 특징 정보 사이의 시간 의존성은 미리 설정된 임계값을 초과한다.
일부 실시예에서, 전술한 후보 리스트를 시간 의존성 값이 감소하는 순서에 따라 정렬한 다음, 전술한 제1 특징 정보와 매칭되는 하나 이상의 제2 특성 정보를 전술한 후보 리스트에서 선택하며, 전술한 제2 특징 정보와 전술한 제1 특징 정보 사이의 개개의 시간 의존성은 미리 설정된 임계값을 초과한다. 일부 실시예에서, 미리 설정된 임계값은 현재의 상황에 따라 설정된다. 유의할 것은, 후보 리스트의 정렬 후에, 제1 특징 정보와 후보 리스트 내의 모든 특징 정보 사이의 개개의 시간 의존성이 미리 설정된 임계값을 초과하면, 전술한 미리 확립된 데이터베이스 내에는 제1 특징 정보와 매칭되는 특징 정보가 없는 것으로 결론이 나고, 제1 오디오 문서를 인식할 수 없다는 것이다.
도 2a∼도 2d에 도시된 실시예에서, 전술한 오디오 인식 기기의 제1 가능한 구현 모드에서, 전술한 수집 모듈(101M), 전술한 계산 모듈(102M), 전술한 인식 모듈(103M), 전술한 취득 모듈(104M) 및 전술한 결과 출력 모듈(105M)은 동일한 기기에 통합되어 전술한 오디오 인식 기기를 구성할 수 있다.
전술한 오디오 인식 기기의 제2 가능한 구현 모드에서, 전술한 수집 모듈(101M)은 제1 분산형 기기에 위치할 수 있고, 전술한 계산 모듈(102M), 전술한 인식 모듈(103M), 전술한 취득 모듈(104M) 및 전술한 결과 출력 모듈(105M)은 제2 분산형 기기에 위치할 수 있고, 제1 분산형 기기와 제2 분산형 기기는 공통으로 전술한 오디오 인식 기기를 구성하거나; 또는 전술한 수집 모듈(101M), 전술한 계산 모듈(102M)은 제1 분산형 기기에 위치할 수 있고, 전술한 인식 모듈(103M), 전술한 취득 모듈(104M) 및 전술한 결과 출력 모듈(105M)은 제2 분산형 기기에 위치할 수 있고, 제1 분산형 기기와 제2 분산형 기기는 공통으로 전술한 오디오 인식 기기를 구성하거나; 또는 전술한 수집 모듈(101M), 전술한 계산 모듈(102M) 내의 시간-주파수 분석 유닛(1201M) 및 특징 추출 유닛(1202M)이 제1 분산형 기기에 위치할 수 있고, 전술한 계산 모듈(102M) 내의 짝짓기 처리 유닛(1203M) 및 계산 유닛(1204M), 전술한 인식 모듈(103M), 전술한 취득 모듈(104M) 및 전술한 결과 출력 모듈(105M)은 제2 분산형 기기에 위치할 수 있고, 제1 분산형 기기와 제2 분산형 기기는 공통으로 전술한 오디오 인식 기기를 구성한다.
도 3a는 일부 실시예에 따른 전술한 오디오 인식 프로세스에 참여하는 예시적인 클라이언트 기기(300a)의 블록도이다. 일부 실시예에서, 클라이언트 기기 (300a)는 하나 이상의 프로세서(302a), 하나 이상의 프로세서(302a)에 의한 실행을위한 프로그램 명령어를 저장하는 메모리(304a), 입/출력 인터페이스(306a) 및 네트워크 인터페이스(308a)와 같은 하나 이상의 통신 인터페이스, 및 이러한 구성요소를 상호연결하는 하나 이상의 통신 버스(310a)를 포함한다.
일부 실시예에서, 입/출력 인터페이스(306a)는 디스플레이와, 키보드, 마우스 또는 트랙 패드와 같은, 입력 기기를 포함한다. 일부 실시예에서, 통신 버스(310a)는 시스템 구성요소 사이의 상호연결 및 통신을 제어하는 회로(때로는 칩셋이라고 함)를 포함한다. 일부 실시예에서, 메모리(304a)는 DRAM, SRAM, DDR RAM 등의 랜덤 액세스 반도체 메모리 장치(random access solid state memory device)와 같은 고속 랜덤 액세스 메모리를 포함하고; 선택적으로, 하나 이상의 자기 디스크 저장 장치, 광디스크 저장 장치, 플래시 메모리 장치 또는 다른 비휘발성 반도체 저장 장치와 같은 비휘발성 메모리를 포함한다. 일부 실시예에서, 메모리(304a)는 하나 이상의 프로세서(302a)와 떨어져 위치하는 하나 이상의 저장 장치를 포함한다. 일부 실시예에서, 메모리(304a) 또는 대안으로 메모리(304a) 내의 비휘발성 메모리 장치(들)은 비일시적인 컴퓨터로 판독 가능한 저장 매체를 포함한다.
일부 실시예에서, 메모리(304a) 또는 대안으로 메모리(304a) 내의 비일시적인 컴퓨터로 판독 가능한 저장 매체는 다음의 프로그램, 모듈 및 데이터 구조, 명령어, 또는 이들의 서브셋을 포함한다: 다양한 기본 시스템을 서비스를 처리하고 하드웨어 종속적인 작업(task)들을 수행하기 위한 프로시저(procedure)를 포함하는운영체제(312a); 하나 이상의 입력 및 출력 기기를 통해 다양한 기본적인 입출력 기능을 처리하기 위한 프로시저를 포함하는 절차를 포함하는 I/O 모듈(314a); 하나 이상의 네트워크 통신 인터페이스(308a)(유선 또는 무선), 및 예를 들어, 인터넷, 다른 광역 네트워크(wide area networks), 근거리 네트워크(local area networks), 대도시 네트워크(metropolitan area networks) 등과 같은, 하나 이상의 통신 네트워크를 통해 다른 머신(예컨대, 서버(300b))과의 통신에 사용되는 통신 모듈(316a); 및 오디오 인식의 각종 기능을 제어하는 동작 제어 모듈(318a).
일부 실시예에서, 동작 제어 모듈(318a)은 다음의 그 서브모듈, 또는 서브세트 또는 수퍼세트(superset)를 더 포함한다: 수집 모듈(320), 시간-주파수 분석 모듈(322), 특징 추출 모듈(324), 압축 모듈(326), 전송 모듈 328), 수신 모듈(330) 결과 제시 모듈 (332). 일부 실시예에서, 동작 제어 모듈(318a)은 선택적으로 본 명세서에 기재된 다른 관련된 기능성을 제공하기 위해 하나 이상의 다른 모듈을 포함한다. 서브모듈의 구조, 기능 및 상호작용, 그리고 동작 제어 모듈(318a)의 데이터 구조는 도 1a∼도 2d 및 그 설명과 관련하여 제공되어 있다.
도 3b는 일부 실시예에 따른 전술한 오디오 인식 프로세스에 참여하는 예시적인 서버 기기(300b)의 블록도이다. 일부 실시예에서, 클라이언트 기기(300b)는 하나 이상의 프로세서(302b), 하나 이상의 프로세서(302b)에 의한 실행을 위한 프로그램 및 명령어를 저장하는 메모리(304b), 입/출력 인터페이스(306b) 및 네트워크 인터페이스(308b)와 같은 하나 이상의 통신 인터페이스, 및 이러한 구성요소를 상호연결하는 하나 이상의 통신 버스(310b)를 포함한다.
일부 실시예에서, 입/출력 인터페이스(306b)는 디스플레이와, 키보드, 마우스 또는 트랙 패드와 같은 입력 기기를 포함한다. 일부 실시예에서, 통신 버스(310b)는 시스템 구성요소 사이의 상호연결 및 통신을 제어하는 회로(때로는 칩셋이라고 함)를 포함한다. 일부 실시예에서, 메모리(304b)는, DRAM, SRAM, DDR RAM 또는 랜덤 액세스 반도체 메모리 장치와 같은, 고속 랜덤 액세스 메모리를 포함하고; 선택적으로, 하나 이상의 자기 디스크 저장 장치, 광디스크 저장 장치, 플래시 메모리 장치 또는 다른 비휘발성 반도체 저장 장치와 같은, 비휘발성 메모리를 포함한다. 일부 실시예에서, 메모리(304b)는 하나 이상의 프로세서(302b)와 떨어져 위치하는 하나 이상의 저장 장치를 포함한다. 일부 실시예에서, 메모리(304b) 또는 대안으로 메모리(304b) 내의 비휘발성 메모리 장치(들)은 비일시적인 컴퓨터로 판독 가능한 저장 매체를 포함한다.
일부 실시예에서, 메모리(304b) 또는 대안으로 메모리(304b) 내의 비일시적인 컴퓨터로 판독 가능한 저장 매체는 다음의 프로그램, 모듈 및 데이터 구조, 명령어, 또는 이들의 서브셋을 포함한다: 다양한 기본 시스템을 서비스를 처리하고 하드웨어 종속적인 작업들을 수행하기 위한 프로시저를 포함하는 운영체제(312b); 하나 이상의 입력 및 출력 기기를 통해 다양한 기본적인 입출력 기능을 처리하기 위한 프로시저를 포함하는 절차를 포함하는 I/O 모듈(314b); 하나 이상의 네트워크 통신 인터페이스(308b)(유선 또는 무선), 및 예를 들어, 인터넷, 다른 광역 네트워크, 근거리 네트워크, 대도시 네트워크 등과 같은, 하나 이상의 통신 네트워크를 통해 다른 머신(예컨대, 클라이언트 기기(300a))과의 통신에 사용되는 통신 모듈(316b); 및 오디오 인식의 각종 기능을 제어하는 동작 제어 모듈(318b).
일부 실시예에서, 동작 제어 모듈(318b)은 다음의 그 서브모듈, 또는 서브세트 또는 수퍼세트를 더 포함한다: 수신 모듈(334), 압축해제 모듈(336), 데이터베이스 확립 모듈(338), 짝짓기 모듈(340), 해시 계산 모듈(342), 인식 모듈(344), 취득 모듈(346), 및 결과 출력 모듈(348). 일부 실시예에서, 동작 제어 모듈(318b)은 미리 확립된 데이터베이스(350) 및 본 명세서에 기재된 다른 관련된 기능성을 제공하기 위한 하나 이상의 다른 모듈을 더 포함한다. 서브모듈의 구조, 기능 및 상호작용, 그리고 동작 제어 모듈(318b)의 데이터 구조는 도 1a - 도 2d 및 그 부수하는 설명과 관련하여 제공되어 있다.
도 7a 및 도 7b는 단지 클라이언트 기기 및 오디오 인식을 수행하는 서버에 대한 예시일 뿐이다. 당업자는 클라이언트 기기 및 서버의 구체적인 실시예는 도시된 것보다 많거나 적은 구성요소를 포함할 수 있다는 것을 알 것이다. 하나 이상의 모듈은 서브모듈로 분할될 수 있고 및/또는 하나 이상의 기능은 도시된 것과 다른 모듈에 의해 제공될 수 있 다.
이상의 설명은 구체적인 실시예를 참조하여 제공되었다. 그러나 이상의 예시적인 논의는 총망라하거나 정확히 개시된 형태로 한정하려는 것이 아니다. 이상의 교시에 비추어 많은 수정예 및 변형예가 가능하다. 실시예들은 개시된 원리 및 그 실제 애플리케이션을 가장 잘 설명하기 위해 선택 및 설명되었고, 따라서 다른 사람이 개시 내용 및 의도하는 특정 용도에 적합한 다양한 수정예를 갖는 실시예를 가장 잘 이용할 수 있도록 한다.

Claims (20)

  1. 하나 이상의 프로세서 및 메모리를 포함하는 기기에서,
    오디오 인식 요청에 응답하여 인식될 제1 오디오 문서를 수집하는 단계;
    상기 제1 오디오 문서에 대한 시간-주파수 분석을 수행하여 상기 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널(phase channel)을 생성하는 단계; 및
    상기 제1 미리 설정된 수의 구문 채널의 각각의 위상 채널에서 하나 이상의 피크 값 특징점을 추출하는 단계 - 각각의 위상 채널의 상기 하나 이상의 피크 값 특징점은 상기 위상 채널 각각의 피크 값 특징점 시퀀스를 구성함 -
    를 포함하는 상기 제1 오디오 문서의 제1 특징 정보의 계산을 개시하는 단계; 및
    상기 제1 오디오 문서의 인식 결과를 취득하는 단계 - 상기 인식 결과는 하나 이상의 미리 설정된 기준에 따라 상기 제1 특징 정보와 매칭되는 제2 특징 정보를 가지는 하나 이상의 제2 오디오 문서를 포함하고, 상기 제1 특징 정보는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 계산됨 -
    를 포함하는 오디오 인식 수행 방법.
  2. 제1항에 있어서,
    상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스를 서버에 전송하는 단계를 더 포함하고,
    상기 서버는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 상기 제1 특징 정보의 계산을 완료하는, 오디오 인식 수행 방법.
  3. 제2항에 있어서,
    상기 전송하는 단계 이전에, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 시간 값에 대해 제1 유형의 압축을 수행하고, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 주파수 값에 대해 제2 유형의 압축을 수행하는 단계를 더 포함하는 오디오 인식 수행 방법.
  4. 제1항에 있어서,
    복수의 기지(known)의 오디오 문서의 데이터베이스를 미리 확립하는 단계를 더 포함하고, 각각의 기지의 오디오 문서는 개개의 유일한 트랙 식별자를 가지며,
    상기 미리 확립하는 단계는,
    상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보를 계산하는 단계 - 상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보는 상기 각각의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물(collection)을 포함하고, 상기 기지의 오디오 문서 각각에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물 각각은 개개의 해시코드를 가짐 -; 및
    개개의 해시코드에 따라 해시 테이블에 상기 복수의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물을 저장하는 단계
    를 더 포함하는, 오디오 인식 수행 방법.
  5. 제4항에 있어서,
    상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각의 피크 값 특징점 시퀀스 내의 피크 값 특징점 각각에 대해 짝짓기 처리를 수행하여, 상기 제1 오디오 문서의 위상 채널 각각의 피크 값 특징점 쌍 시퀀스를 형성하는 단계; 및
    상기 제1 오디오 문서의 위상 채널 각각에서 상기 피크 값 특징점 쌍 시퀀스 각각에 해시 계산을 수행하여, 상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각에 대응하는 개개의 오디오 핑거프린트 시퀀스를 취득하는 단계 - 상기 제1 미리 설정된 수의 위상 채널에 대응하는 오디오 핑거프린트 시퀀스들은 함께 상기 제1 오디오 문서의 제1 특징 정보를 구성함 -
    를 포함하는, 상기 제1 오디오 문서의 제1 특징 정보의 계산을 계속하는 단계를 더 포함하는 오디오 인식 수행 방법.
  6. 제5항에 있어서,
    상기 제1 특징 정보와, 상기 미리 확립된 데이터베이스에 저장된 각각의 기지의 오디오 문서의 개개의 특징 정보를 비교하여 개개의 비교 결과를 취득하는 단계;
    상기 개개의 비교 결과에 따라 상기 미리 확립된 데이터베이스 내의 각각의 기지의 오디오 문서의 개개의 트랙 식별자(track identifier)에 대해 가중치 부여 처리(weighting processing)를 수행하는 단계; 및
    상기 개개의 트랙 식별자에 대한 가중치(weight score)가 감소하는 순서에 따라, 상기 미리 확립된 데이터베이스에서 제2 미리 설정된 수의 기지의 오디오 문서의 개개의 특징 정보를 선택하여 문서 후보 리스트를 구성하는 단계를 더 포함하는 오디오 인식 수행 방법.
  7. 제6항에 있어서,
    상기 제1 특징 정보와, 상기 문서 후보 리스트 내의 각각의 기지의 오디오 문서의 개개의 특징 정보 사이의 개개의 시간 의존성을 계산하는 단계; 및
    상기 문서 후보 리스트에서 상기 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 선택하는 단계 - 상기 제2 특징 정보와 상기 제1 특징 정보 사이의 개개의 시간 의존성은 미리 설정된 임계값을 초과함 - 를 더 포함하는 오디오 인식 수행 방법.
  8. 하나 이상의 프로세서; 및
    명령어가 저장되어 있는 메모리
    를 포함하고,
    상기 명령어는, 하나 이상의 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    오디오 인식 요청에 응답하여 인식될 제1 오디오 문서를 수집하는 동작;
    상기 제1 오디오 문서에 대해 시간-주파수 분석을 수행하여 상기 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널을 생성하는 동작; 및
    상기 제1 미리 설정된 수의 구문 채널의 각각의 위상채널에서 하나 이상의 피크 값 특징점을 추출하는 동작 - 각각의 위상 채널의 상기 하나 이상의 피크 값 특징점은 상기 위상 채널 각각의 피크 값 특징점 시퀀스를 구성함 -
    을 포함하는 상기 제1 오디오 문서의 제1 특징 정보의 계산을 개시하는 동작; 및
    상기 제1 오디오 문서의 인식 결과를 취득하는 동작 - 상기 인식 결과는 하나 이상의 미리 설정된 기준에 따라 상기 제1 특징 정보와 매칭되는 제2 특징 정보를 가지는 하나 이상의 제2 오디오 문서를 포함하고, 상기 제1 특징 정보는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 계산됨 -
    을 포함하는 동작들을 수행하도록 하는, 오디오 인식 수행 시스템.
  9. 제8항에 있어서,
    상기 동작들은,
    상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스를 서버에 전송하는 동작을 더 포함하고,
    상기 서버는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 상기 제1 특징 정보의 계산을 완료하는, 오디오 인식 수행 시스템.
  10. 제9항에 있어서,
    상기 동작들은,
    상기 전송하는 동작 이전에, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 시간 값에 대해 제1 유형의 압축을 수행하고, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 주파수 값에 대해 제2 유형의 압축을 수행하는 동작을 더 포함하는, 오디오 인식 수행 시스템.
  11. 제8항에 있어서,
    상기 동작들은,
    복수의 기지의 오디오 문서의 데이터베이스를 미리 확립하는 동작 - 각각의 기지의 오디오 문서는 개개의 유일한 트랙 식별자를 가짐 -을 더 포함하고,
    상기 미리 확립하는 동작은,
    상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보를 계산하는 동작 - 상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보는 상기 각각의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물을 포함하고, 상기 각각의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물 각각은 개개의 해시코드를 가짐 -; 및
    개개의 해시코드에 따라 해시 테이블에 상기 복수의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물을 저장하는 동작
    을 더 포함하는, 오디오 인식 수행 시스템.
  12. 제11항에 있어서,
    상기 동작들은,
    상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각의 피크 값 특징점 시퀀스 내의 피크 값 특징점 각각에 대해 짝짓기 처리를 수행하여, 상기 제1 오디오 문서의 위상 채널 각각의 피크 값 특징점 쌍 시퀀스를 형성하는 동작; 및
    상기 제1 오디오 문서의 위상 채널 각각에서 상기 피크 값 특징점 쌍 시퀀스 각각에 해시 계산을 수행하여, 상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각에 대응하는 개개의 오디오 핑거프린트 시퀀스를 취득하는 동작 - 상기 제1 미리 설정된 수의 위상 채널에 대응하는 오디오 핑거프린트 시퀀스들은 함께 상기 제1 오디오 문서의 제1 특징 정보를 구성함 -
    을 포함하는, 상기 제1 오디오 문서의 제1 특징 정보의 계산을 계속하는 동작을 더 포함하는, 오디오 인식 수행 시스템.
  13. 제12항에 있어서,
    상기 동작들은,
    상기 제1 특징 정보와, 상기 미리 확립된 데이터베이스에 저장된 각각의 기지의 오디오 문서의 개개의 특징 정보를 비교하여 개개의 비교 결과를 취득하는 동작;
    상기 개개의 비교 결과에 따라 상기 미리 확립된 데이터베이스 내의 각각의 기지의 오디오 문서의 개개의 트랙 식별자에 대해 가중치 부여 처리를 수행하는 동작; 및
    상기 개개의 트랙 식별자에 대한 가중치가 감소하는 순서에 따라, 상기 미리 확립된 데이터베이스에서 제2 미리 설정된 수의 기지의 오디오 문서의 개개의 특징 정보를 선택하여 문서 후보 리스트를 구성하는 동작을 더 포함하는, 오디오 인식 수행 시스템.
  14. 제13항에 있어서,
    상기 동작들은,
    상기 제1 특징 정보와, 상기 문서 후보 리스트 내의 각각의 기지의 오디오 문서의 개개의 특징 정보 사이의 개개의 시간 의존성을 계산하는 동작; 및
    상기 문서 후보 리스트에서 상기 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 선택하는 동작 - 상기 제2 특징 정보와 상기 제1 특징 정보 사이의 개개의 시간 의존성은 미리 설정된 임계값을 초과함 - 을 더 포함하는, 오디오 인식 수행 시스템.
  15. 명령어가 저장되어 있는, 비일시적인 컴퓨터 판독 가능한 매체로서,
    상기 명령어는 하나 이상의 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    오디오 인식 요청에 응답하여 인식될 제1 오디오 문서를 수집하는 동작;
    상기 제1 오디오 문서에 대해 시간-주파수 분석을 수행하여 상기 제1 오디오 문서에 대한 제1 미리 설정된 수의 위상 채널을 생성하는 동작; 및
    상기 제1 미리 설정된 수의 구문 채널의 각각의 위상채널에서 하나 이상의 피크 값 특징점을 추출하는 동작 - 각각의 위상 채널의 상기 하나 이상의 피크 값 특징점은 상기 위상 채널 각각의 피크 값 특징점 시퀀스를 구성함 -
    을 포함하는 상기 제1 오디오 문서의 제1 특징 정보의 계산을 개시하는 동작; 및
    상기 제1 오디오 문서의 인식 결과를 취득하는 동작 - 상기 인식 결과는 하나 이상의 미리 설정된 기준에 따라 상기 제1 특징 정보와 매칭되는 제2 특징 정보를 가지는 하나 이상의 제2 오디오 문서를 포함하고, 상기 제1 특징 정보는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 계산됨 -
    을 포함하는 동작들을 수행하도록 하는, 컴퓨터 판독 가능형 매체.
  16. 제15항에 있어서,
    상기 동작들은,
    상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스를 서버에 전송하는 동작을 더 포함하고, 상기 서버는 상기 제1 미리 설정된 수의 위상 채널의 개개의 피크 값 특징점 시퀀스에 기초하여 상기 제1 특징 정보의 계산을 완료하는, 컴퓨터 판독 가능형 매체.
  17. 제16항에 있어서,
    상기 동작들은,
    상기 전송하는 동작 이전에, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 시간 값에 대해 제1 유형의 압축을 수행하고, 상기 개개의 피크 값 특징점 시퀀스에 대한 개개의 주파수 값에 대해 제2 유형의 압축을 수행하는 동작을 더 포함하는, 컴퓨터 판독 가능형 매체.
  18. 제15항에 있어서,
    상기 동작들은,
    복수의 기지의 오디오 문서의 데이터베이스를 미리 확립하는 동작을 더 포함하고, 각각의 기지의 오디오 문서는 개개의 유일한 트랙 식별자를 가지며,
    상기 미리 확립하는 동작은,
    상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보를 계산하는 동작 - 상기 복수의 기지의 오디오 문서 각각에 대한 개개의 특징 정보는 상기 각각의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물을 포함하고, 상기 각각의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물 각각은 개개의 해시코드를 가짐 -; 및
    개개의 해시코드에 따라 해시 테이블에 상기 복수의 기지의 오디오 문서에 대한 오디오 핑거프린트 시퀀스의 개개의 수집물을 저장하는 동작
    을 더 포함하는, 컴퓨터 판독 가능형 매체.
  19. 제18항에 있어서,
    상기 동작들은,
    상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각의 피크 값 특징점 시퀀스 내의 피크 값 특징점 각각에 대해 짝짓기 처리를 수행하여, 상기 제1 오디오 문서의 위상 채널 각각의 피크 값 특징점 쌍 시퀀스를 형성하는 동작; 및
    상기 제1 오디오 문서의 위상 채널 각각에서 상기 피크 값 특징점 쌍 시퀀스 각각에 해시 계산을 수행하여, 상기 제1 오디오 문서의 제1 미리 설정된 수의 위상 채널 각각에 대응하는 개개의 오디오 핑거프린트 시퀀스를 취득하는 동작 - 상기 제1 미리 설정된 수의 위상 채널에 대응하는 오디오 핑거프린트 시퀀스들은 함께 상기 제1 오디오 문서의 제1 특징 정보를 구성함 -
    을 포함하는, 상기 제1 오디오 문서의 제1 특징 정보의 계산을 계속하는 동작을 더 포함하는, 컴퓨터 판독 가능형 매체.
  20. 제19항에 있어서,
    상기 동작들은,
    상기 제1 특징 정보와, 상기 미리 확립된 데이터베이스에 저장된 각각의 기지의 오디오 문서의 개개의 특징 정보를 비교하여 개개의 비교 결과를 취득하는 동작;
    상기 개개의 비교 결과에 따라 상기 미리 확립된 데이터베이스 내의 각각의 기지의 오디오 문서의 개개의 트랙 식별자에 대해 가중치 부여 처리를 수행하는 동작;
    상기 개개의 트랙 식별자에 대한 가중치가 감소하는 순서에 따라, 상기 미리 확립된 데이터베이스에서 제2 미리 설정된 수의 기지의 오디오 문서의 개개의 특징 정보를 선택하여 문서 후보 리스트를 구성하는 동작;
    상기 제1 특징 정보와, 상기 문서 후보 리스트 내의 각각의 기지의 오디오 문서의 개개의 특징 정보 사이의 개개의 시간 의존성을 계산하는 동작; 및
    상기 문서 후보 리스트에서 상기 제1 특징 정보와 매칭되는 하나 이상의 제2 특징 정보를 선택하는 동작 - 상기 제2 특징 정보와 상기 제1 특징 정보 사이의 개개의 시간 의존성은 미리 설정된 임계값을 초과함 - 을 더 포함하는, 컴퓨터 판독 가능형 매체.
KR1020157024093A 2013-02-04 2013-10-16 오디오 인식 방법 및 기기 KR101625944B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310042408.0A CN103971689B (zh) 2013-02-04 2013-02-04 一种音频识别方法及装置
CN201310042408.0 2013-02-04
PCT/CN2013/085309 WO2014117542A1 (en) 2013-02-04 2013-10-16 Method and device for audio recognition

Publications (2)

Publication Number Publication Date
KR20150108936A true KR20150108936A (ko) 2015-09-30
KR101625944B1 KR101625944B1 (ko) 2016-05-31

Family

ID=51241107

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157024093A KR101625944B1 (ko) 2013-02-04 2013-10-16 오디오 인식 방법 및 기기

Country Status (7)

Country Link
JP (1) JP6090881B2 (ko)
KR (1) KR101625944B1 (ko)
CN (1) CN103971689B (ko)
BR (1) BR112015018597A2 (ko)
CA (1) CA2899657C (ko)
TW (1) TWI494917B (ko)
WO (1) WO2014117542A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150016225A (ko) * 2012-03-29 2015-02-11 스뮬, 인코포레이티드 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
CN107851442B (zh) * 2015-04-13 2021-07-20 日本电信电话株式会社 匹配装置、判定装置、它们的方法、程序及记录介质
EP3304251B1 (en) * 2015-06-03 2023-10-11 Razer (Asia-Pacific) Pte. Ltd. Haptics devices and methods for controlling a haptics device
CN105139866B (zh) * 2015-08-10 2018-10-16 泉州师范学院 南音的识别方法及装置
CN106558318B (zh) * 2015-09-24 2020-04-28 阿里巴巴集团控股有限公司 音频识别方法和系统
CN105632513A (zh) * 2015-12-18 2016-06-01 合肥寰景信息技术有限公司 一种网络社区的语音过滤方法
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和系统
CN105589970A (zh) * 2015-12-25 2016-05-18 小米科技有限责任公司 音乐搜索方法和装置
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN105868397B (zh) 2016-04-19 2020-12-01 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置
CN105825850B (zh) * 2016-04-29 2021-08-24 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN108205546B (zh) * 2016-12-16 2021-01-12 北京酷我科技有限公司 一种歌曲信息的匹配系统及方法
CN106708465A (zh) * 2016-12-16 2017-05-24 北京小米移动软件有限公司 智能鞋的控制方法及装置
CN110322897B (zh) 2018-03-29 2021-09-03 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
CN110209872B (zh) * 2019-05-29 2021-06-22 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN111161758B (zh) * 2019-12-04 2023-03-31 厦门快商通科技股份有限公司 一种基于音频指纹的听歌识曲方法、系统及音频设备
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质
CN113268630B (zh) * 2021-06-08 2023-03-10 腾讯音乐娱乐科技(深圳)有限公司 一种音频检索方法、设备及介质
CN113836346B (zh) * 2021-09-08 2023-08-08 网易(杭州)网络有限公司 为音频文件生成摘要的方法、装置、计算设备及存储介质
CN115956270A (zh) * 2022-10-10 2023-04-11 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质
CN115910042B (zh) * 2023-01-09 2023-05-05 百融至信(北京)科技有限公司 识别格式化音频文件的信息种类的方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62159195A (ja) * 1986-01-06 1987-07-15 沖電気工業株式会社 音声パタン作成方法
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
KR100820385B1 (ko) * 2002-04-25 2008-04-10 랜드마크 디지털 서비시즈 엘엘씨 확실하고 불변적인 오디오 패턴 매칭방법
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
JP2006106535A (ja) * 2004-10-08 2006-04-20 Nippon Telegr & Teleph Corp <Ntt> 音響信号蓄積検索装置、及び音響信号蓄積検索プログラム
US20070195963A1 (en) * 2006-02-21 2007-08-23 Nokia Corporation Measuring ear biometrics for sound optimization
US7921116B2 (en) * 2006-06-16 2011-04-05 Microsoft Corporation Highly meaningful multimedia metadata creation and associations
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及系统装置
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
JP5907511B2 (ja) * 2010-06-09 2016-04-26 アデルフォイ リミテッド オーディオメディア認識のためのシステム及び方法
TWI426501B (zh) * 2010-11-29 2014-02-11 Inst Information Industry 旋律辨識方法與其裝置
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
CN102063904B (zh) * 2010-11-30 2012-06-27 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别系统
US20120296458A1 (en) * 2011-05-18 2012-11-22 Microsoft Corporation Background Audio Listening for Content Recognition
CN102332262B (zh) * 2011-09-23 2012-12-19 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150016225A (ko) * 2012-03-29 2015-02-11 스뮬, 인코포레이티드 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환

Also Published As

Publication number Publication date
JP6090881B2 (ja) 2017-03-08
WO2014117542A1 (en) 2014-08-07
TWI494917B (zh) 2015-08-01
JP2016512610A (ja) 2016-04-28
CN103971689A (zh) 2014-08-06
CA2899657A1 (en) 2014-08-07
BR112015018597A2 (pt) 2017-07-18
KR101625944B1 (ko) 2016-05-31
CA2899657C (en) 2017-08-01
TW201432674A (zh) 2014-08-16
CN103971689B (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
KR101625944B1 (ko) 오디오 인식 방법 및 기기
US9373336B2 (en) Method and device for audio recognition
Haitsma et al. A highly robust audio fingerprinting system with an efficient search strategy
KR101578279B1 (ko) 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템
JP5813221B2 (ja) オーディオ信号を用いたコンテンツ認識装置及び方法
Haitsma et al. A highly robust audio fingerprinting system.
US11482242B2 (en) Audio recognition method, device and server
RU2647696C2 (ru) Мобильный видеопоиск
JP5150266B2 (ja) オーディオ信号において繰り返されるマテリアルの自動識別
US8699862B1 (en) Synchronized content playback related to content recognition
JP5031217B2 (ja) 複数同期データストリームのためのデータベースルックアップ高速化のためのシステムおよび方法
US8886635B2 (en) Apparatus and method for recognizing content using audio signal
EP2791935B1 (en) Low complexity repetition detection in media data
KR20180120146A (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
US20130275421A1 (en) Repetition Detection in Media Data
KR100676863B1 (ko) 음악 검색 서비스 제공 시스템 및 방법
KR102614021B1 (ko) 오디오 컨텐츠 인식 방법 및 장치
CN111161758B (zh) 一种基于音频指纹的听歌识曲方法、系统及音频设备
CN101651694A (zh) 提供音频相关信息的方法、系统、客户端及服务器
US9224385B1 (en) Unified recognition of speech and music
CN110047497B (zh) 背景音频信号滤除方法、装置及存储介质
CN109644283A (zh) 基于音频能量特性的音频指纹识别
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
JP2006243887A (ja) 情報検索装置および方法ならびにコンピュータプログラム
KR101194540B1 (ko) 음악의 비-텍스트 정보 추출 및 이를 이용한 음악 검색 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190516

Year of fee payment: 4