KR20220137794A - 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 - Google Patents
분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 Download PDFInfo
- Publication number
- KR20220137794A KR20220137794A KR1020227033841A KR20227033841A KR20220137794A KR 20220137794 A KR20220137794 A KR 20220137794A KR 1020227033841 A KR1020227033841 A KR 1020227033841A KR 20227033841 A KR20227033841 A KR 20227033841A KR 20220137794 A KR20220137794 A KR 20220137794A
- Authority
- KR
- South Korea
- Prior art keywords
- media
- query
- media data
- classifier
- classification
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
뉴럴 네트워크 기반의 분류기 시스템은 미디어 신호를 포함하는 쿼리를 수신 할 수 있고, 이에 응답하여, 특정 수신된 쿼리는 기지의 미디어 타입 또는 미디어 분류에 대응한다는 표시를 제공할 수있다. 뉴럴 네트워크 기반의 분류기 시스템은 다양한 모델을 선택하고 적용하여 미디어 분류를 용이하게 한다. 예시적인 실시 예에서, 미디어 쿼리를 분류하는 단계는 제 1 디바이스로부터 디지털 미디어 데이터 및 컨텍스트 파라미터에 액세스하는 단계를 포함한다. 네트워크 기반의 분류기 시스템과 함께 사용하기 위한 모델은 컨텍스트 파라미터에 기초하여 선택될 수 있다. 예시적인 실시예에서, 네트워크 기반의 분류기 시스템은 선택된 모델 및 디지털 미디어 데이터에 대응하는 스펙트럼 특징을 이용하여 디지털 미디어 데이터에 대한 미디어 타입 확률지수를 제공한다. 예시적인 실시예에서, 디지털 미디어 데이터는 오디오 또는 비디오 신호 샘플을 포함한다.
Description
본 출원은 다음의 미국 특허 출원 문서: 2016년 1월 3일자로 출원되고 발명의 명칭이 "SYSTEMS AND METHODS FOR MEDIA CLASSIFICATION"인 미국 가출원 제62/274,362호; 2016년 6월 17일자로 출원되고 발명의 명칭이 "RESPONDING TO REMOTE MEDIA CLASSIFICATION QUERIES USING CLASSIFIER MODELS AND CONTEXT PARAMETERS"인 미국 특허 출원번호 제15/185,616호; 및 2016년 6월 17일자로 출원되고 발명의 명칭이 "MODEL-BASED MEDIA CLASSIFICATION SERVICE USING SENSED MEDIA NOISE CHARACTERISTICS"인 미국 특허 출원번호 제15/185,654호의 우선권을 주장한다. 상술한 미국 가출원 및 비가출원 각각의 전체 내용은 본 명세서에 참조로서 합체되어 있다.
엔터테인먼트, 뉴스 및 기타 통신 소스들에 의해 제공되는 미디어 컨텐츠는 오늘날의 현대 사회에서 보편적이다. 자신의 노력 없이도 개인은 공공 장소에서 끊임없이 광고를 보거나 레스토랑이나 대기실과 같은 공간에서 주변 오디오 또는 비디오 엔터테인먼트를 시청한다. 어떤 경우에는, 개인이 특정 라디오나 텔레비전 방송에 맞추거나 소셜 미디어 또는 기타 소스로부터 인터넷을 통해 스트리밍된 미디어를 수신하는 등에 의해 다양한 소스로부터 자신의 미디어 컨텐츠를 수신한다.
휴대폰, 텔레비전 또는 태블릿 컴퓨터를 포함한 휴대가능하거나 고정된 전자디바이스는 직간접적으로 미디어 컨텐츠를 수신할 수 있다. 예를 들어, 텔레비전은 사용자의 미디어 요청에 응답하여 인터넷을 통해 스트리밍 오디오 및/또는 비디오 컨텐츠를 수신할 수 있다. 일예로, 스마트폰은 온보드 마이크 또는 카메라를 사용하여 주변 미디어에 대한 정보를 수신하도록 구성될 수 있다. 일부 예에서, 식별 서비스를 제공하는 제 3 자와 통신하기 위해 앱을 사용하는 것과 같이, 주변 미디어의 샘플의 소스 또는 다른 특성을 식별하기 위해 사용자가 스마트폰을 명령할 수 있다.
본 발명의 내용에 포함됨.
본 발명의 내용에 포함됨.
본 발명의 내용에 포함됨.
일부 실시예는 첨부도면에 예시로서 도시되며 이에 국한되지 않는다.
도 1은 전반적으로 미디어 정보를 수신 및 분석하도록 구성된 시스템의 예시적인 실시예를 도시한다.
도 2는 전반적으로 미디어 분류를 제공하는 것을 포함할 수 있는 방법의 흐름도를 도시한다.
도 3은 전반적으로 모바일 디바이스의 일부 구성요소들의 블록도를 도시한다.
도 4는 전반적으로 쿼리 음향파형 및 컨텍스트 센서신호를 포함하는 예시적인 실시예를 도시한다.
도 5는 전반적으로 미디어 프로세서 회로의 블록도를 도시한다.
도 6은 전반적으로 분류 모델을 저장하기 위한 데이터베이스의 블록도를 도시한다.
도 7은 전반적으로 분류 네트워크를 사용하여 미디어 컨텐츠를 식별하기 위한 예시적인 실시예를 도시한다.
도 8은 전반적으로 오디오 타입 확률지수를 결정하는 것을 포함하는 예시적인 실시예를 도시한다.
도 9는 전반적으로 컨텍스트 파라미터들에 기초하여 분류 모델을 선택하는 것을 포함하는 예시적인 실시예를 도시한다.
도 10은 전반적으로 업데이트된 분류 모델을 선택하는 것을 포함하는 예시적인 실시예를 도시한다.
도 11은 전반적으로 업데이트된 분류 모델을 적용할 시기를 결정하는 것을 포함하는 예시적인 실시예를 도시한다.
도 12는 전반적으로 미디어 쿼리 식별 시스템을 트레이닝하는 것을 포함하는 예시적인 실시예를 도시한다.
도 13은 전반적으로 미디어 쿼리를 분류할지 여부를 결정하는 것을 포함하는 예시적인 실시예를 도시한다.
도 14는 몇몇 예에 따라 기계판독가능매체로부터 명령을 판독하고 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행할 수 있는 기계의 구성요소를 도시한 블록도이다.
도 1은 전반적으로 미디어 정보를 수신 및 분석하도록 구성된 시스템의 예시적인 실시예를 도시한다.
도 2는 전반적으로 미디어 분류를 제공하는 것을 포함할 수 있는 방법의 흐름도를 도시한다.
도 3은 전반적으로 모바일 디바이스의 일부 구성요소들의 블록도를 도시한다.
도 4는 전반적으로 쿼리 음향파형 및 컨텍스트 센서신호를 포함하는 예시적인 실시예를 도시한다.
도 5는 전반적으로 미디어 프로세서 회로의 블록도를 도시한다.
도 6은 전반적으로 분류 모델을 저장하기 위한 데이터베이스의 블록도를 도시한다.
도 7은 전반적으로 분류 네트워크를 사용하여 미디어 컨텐츠를 식별하기 위한 예시적인 실시예를 도시한다.
도 8은 전반적으로 오디오 타입 확률지수를 결정하는 것을 포함하는 예시적인 실시예를 도시한다.
도 9는 전반적으로 컨텍스트 파라미터들에 기초하여 분류 모델을 선택하는 것을 포함하는 예시적인 실시예를 도시한다.
도 10은 전반적으로 업데이트된 분류 모델을 선택하는 것을 포함하는 예시적인 실시예를 도시한다.
도 11은 전반적으로 업데이트된 분류 모델을 적용할 시기를 결정하는 것을 포함하는 예시적인 실시예를 도시한다.
도 12는 전반적으로 미디어 쿼리 식별 시스템을 트레이닝하는 것을 포함하는 예시적인 실시예를 도시한다.
도 13은 전반적으로 미디어 쿼리를 분류할지 여부를 결정하는 것을 포함하는 예시적인 실시예를 도시한다.
도 14는 몇몇 예에 따라 기계판독가능매체로부터 명령을 판독하고 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행할 수 있는 기계의 구성요소를 도시한 블록도이다.
예시적인 실시예에서, 기계는 오디오 또는 비디오 컨텐츠를 식별하기 위해 1명 이상의 사용자 또는 사용자 디바이스와 상호작용하도록 구성될 수 있다. 한 가지 접근법은 매치를 식별하기 위한 시도로, 예를 들어, 오디오 신호 샘플의 쿼리 지문을 데이터베이스 내의 다양한 기준 오디오 샘플 지문과 비교함으로써 오디오 샘플에 기초하여 오디오 지문 또는 분류를 수행하도록 기계를 구성하는 것이다. 대형 데이터베이스를 사용하여 쿼리를 수행할 때, 이러한 오디오 지문은 계산상 비용이 많이 들고 시간 소모적일 수 있다. 여기에 기술된 다양한 시스템 및 기술은 특정 환경, 미디어 타입 또는 다른 시나리오에 대해 튜닝된 분류 모델을 사용하는 것과 같이 분류 서비스를 수행하는 코스트 및 비용을 줄이는데 사용될 수 있다. 예시적인 실시예에서, 미디어 쿼리에 관한 컨텍스트 정보는 다수의 상이한 이용 가능한 분류 모델들로부터 한 분류 모델을 선택하는 것을 돕는데 사용될 수 있다. 예시적인 실시예에서, 컨볼루션 뉴럴 네트워크-기반 미디어 분류기와 같은, 분류기 시스템에 의해 적용되는 몇몇 분류 모델은 다른 모델보다 더 효율적으로 미디어 분류 결과를 산출할 수 있다.
도 1은 일반적으로 미디어 정보를 수신 및 분석하도록 구성된 시스템의 예시적인 실시예를 도시한다. 도 1은, 몇몇 예시적인 실시예에 따라, 미디어 분류에 적합한 네트워크 환경(100)을 나타내는 네트워크 다이어그램을 포함한다. 네트워크 환경(100)은 네트워크(190)를 통해 서로 통신가능하게 결합될 수 있는 미디어 프로세서 회로(110), 데이터베이스(115), 및 제 1 및 제 2 모바일 디바이스(130 및 150)를 포함한다. 미디어 프로세서 회로(110)는 데이터베이스(115)와 함께 또는 없이 클라우드(118)(예를 들어, 미디어 프로세싱 서비스를 제공하기 위한 서버로서 별개로 또는 집합적으로 기능하도록 구성된 지리적으로 분산된 다수의 기계를 포함하는 오디오 프로세싱 클라우드)의 일부를 형성할 수 있다. 클라우드(118)는 예를 들어 네트워크 기반의 오디오 프로세싱 서비스를 제 1 및 제 2 모바일 디바이스(130 및 150)에 제공하도록 구성된 클라우드 기반 서버 시스템으로서 네트워크 기반 미디어 분류기(105)를 포함하는 시스템의 전부 또는 일부를 형성할 수 있다. 미디어 프로세서 회로(110) 및 제 1 및 제 2 모바일 디바이스(130 및 150)는 본 명세서에서 추가로 설명되는 바와 같이 각각 특수용(예를 들어, 전문화된) 컴퓨터 시스템에서 전체적으로 또는 부분적으로 구현될 수 있다.
예시적인 실시예에서, 네트워크 환경(100)은 오디오 또는 비디오 데이터에 대한 분류 서비스를 수행하도록 구성된다. 즉, 제 1 및 제 2 모바일 디바이스(130 및 150) 중 하나로부터의 오디오 또는 비디오 정보의 샘플과 같은 일부 입력 미디어에 응답하여, 클라우드(118)의 다양한 구성요소가 입력 미디어의 클래스 또는 분류의 표시를 제공하는데 사용될 수 있다. 분류는 미디어와 관련된 몇몇 특성을 포함할 수 있다. 입력 미디어가 오디오 신호를 포함하는 예시적인 실시예에서, 분류는 오디오 신호에 대응하는 저자 또는 아티스트의 표시, 앨범 이름, 소스, 박자, 기분, 또는 다른 정량적 또는 정성적 특징을 포함할 수 있다. 예시적인 실시예에서, 입력 미디어는 노래의 적어도 일부이고, 네트워크 기반 미디어 분류기(105)는 노래의 제목, 아티스트, 노래와 관련된 다양한 녹음명 및/또는 앨범명, 또는 노래에 대한 또는 노래와 관련된 기타 정보의 표시를 제공할 수 있다.
도 1의 예시적인 실시예에서, 네트워크 기반 미디어 분류기(105) 및/또는 제 1 및 제 2 모바일 디바이스(130 및 150) 중 하나가 가령 인트라넷 또는 인터넷을 통해 다른 소스로부터의 입력 미디어 쿼리에 액세스하도록 구성된다. 예시적인 실시예에서, 네트워크 기반 미디어 분류기(105)는 텔레비전, 라디오 또는 기타 신호들과 같은 방송 신호들을 수신하도록 구성된 트랜시버 또는 수신기로부터 미분류된 미디어 데이터를 수신한다.
프로세서 회로는 입력 미디어 쿼리를 분석하여 쿼리에 대응하는 컨텍스트 파라미터를 액세스하거나 식별하도록 구성될 수 있다. 프로세서 회로는 클라우드(118)에 미디어 프로세서 회로(110)를 포함할 수 있거나, 프로세서 회로는 제 1 및 제 2 모바일 디바이스(130 및 150) 중 하나에서 구현될 수 있다. 예시적인 실시예에서, 프로세서 회로는 네트워크 기반 미디어 분류기(105)의 또 다른 부분에, 또는 네트워크 기반 미디어 분류기(105) 및/또는 제 1 및 제 2 모바일 디바이스(130 및 150)와 통신 가능하게 결합된 다른 위치에 배치될 수 있다. 예시적인 실시예에서, 컨텍스트 파라미터를 식별하도록 구성된 프로세서 회로는 오디오 분류 서비스를 수행하는데 사용되는 것과 같거나 다른 프로세서 회로일 수 있다.
컨텍스트 파라미터는 추가로 또는 대안으로 입력 미디어 쿼리 이외의 곳에서 액세스될 수 있다. 예를 들어, 컨텍스트 파라미터는 쿼리와(예를 들어, 일시적으로) 일치하는 감각 또는 환경 정보와 같은 입력 미디어 쿼리에 관한 정보를 포함할 수 있다. 예시적인 실시예에서, 컨텍스트 파라미터는 (예를 들어, 제 1 모바일 디바이스(130)에 의해) 쿼리가 샘플링된 위치에 해당하는 위치정보를 포함한다. 예시적인 실시예에서, 컨텍스트 파라미터는 쿼리를 획득하거나 준비하는 디바이스 또는 사용자에 해당하는 디바이스 식별정보 또는 사용자 식별정보를 포함한다. 본 명세서에서 더 논의되는 바와 같이, 다른 컨텍스트 파라미터가 추가로 또는 대안으로 사용될 수 있다.
예시적인 실시예에서, 프로세서 회로는 미디어 쿼리의 스펙트럼 피쳐를 결정하도록 구성될 수 있다. 스펙트럼 피쳐는 쿼리와 관련된 지문의 전부 또는 일부를 형성할 수 있다. 컨텍스트 파라미터에 기초하거나 이를 사용하여, 프로세서 회로는 스펙트럼 피쳐를 처리하는데 사용하기 위한 분류 모델을 선택하여 쿼리에 대응하는 미디어 타입의 표시를 제공하도록 구성될 수 있다. 예시적인 실시예에서, 프로세서 회로(예를 들어, 미디어 프로세서 회로(110))는 선택된 분류 모델 및 결정된 스펙트럼 피쳐를 사용하여 쿼리에 대한 미디어 타입 확률지수를 결정한다. 예시적인 실시예에서, 확률지수는 미디어 데이터가 특정한 노래, 아티스트 또는 앨범과 같은 특정의 공지된 미디어에 해당하는 우도(likelihood)의 표시를 포함한다. 예시적인 실시예에서, 확률지수가 소정의 특정 임계 우도를 초과하면, 프로세서 회로는 확률지수 없이 미디어 타입 표시를 반환할 수 있다.
도 1의 예시적인 실시예로 돌아가면, 제 1 및 제 2 사용자(132 및 152)가 도시되어 있다. 제 1 및 제 2 사용자(132 및 152) 중 하나 또는 둘 모두는 인간 사용자(예를 들어, 인간), 기계 사용자(예를 들어, 제 1 또는 제 2 모바일 디바이스(130 또는 150)와 상호작용하는 소프트웨어 프로그램에 의해 구성된 컴퓨터), 또는 이들의 임의의 적절한 조합(예를 들어, 사람이 감독하는 기계 또는 기계에 의해 보조되는 사람)일 수 있다. 제 1 사용자(132)는 제 1 모바일 디바이스(130)와 관련되며 제 1 모바일 디바이스(130)의 사용자일 수 있다. 예를 들어, 제 1 모바일 디바이스(130)는 제 1 사용자(132)와 연관된 사용자 프로파일 데이터에 속하거나 사용자 프로파일 데이터를 갖는 컴퓨터, 차량용 컴퓨터, 태블릿 컴퓨터, 네비게이션 장치, 휴대용 미디어 장치, 스마트폰, 또는 웨어러블 장치(예를 들어, 스마트 시계, 스마트 안경, 스마트 의류, 또는 스마트 쥬얼리)일 수 있다. 마찬가지로, 제 2 사용자(152)는 제 2 모바일 디바이스(150)와 관련되며 제 2 모바일 디바이스(150)의 사용자일 수 있다. 예시적인 실시예에서, 제 1 및 제 2 사용자(132 및 152) 및/또는 제 1 및 제 2 모바일 디바이스들(130 및 150) 각각은 네트워크 기반 미디어 분류기(105)에 의한 사용을 위해 다양한 상이한 분류 모델들과 관련될 수 있다.
예시적인 실시예에서, 제 1 및 제 2 모바일 디바이스들(130 및 150) 중 하나 또는 둘 모두는 마이크 또는 다른 미디어 센서 입력을 사용하여 분류되지 않은 미디어를 수신하도록 구성될 수 있다. 예시적인 실시예에서, 미분류된 미디어는 장치의 네이티브 소스(예를 들어, 사운드 카드 또는 제 1 모바일 디바이스(130) 또는 제 2 모바일 디바이스(150)의 다른 고유 구성요소) 또는 제 1 또는 제 2 모바일 디바이스(130 또는 150)의 디바이스 출력단자(예를 들어, 비디오 아웃, 라인 아웃(line out), 헤드폰 잭(headphone jack) 등)로부터 또는 기타 다른 장치로부터 샘플링될 수 있다. 미분류 미디어는 (예를 들어, 제 1 또는 제 2 모바일 디바이스(130 또는 150)에 탑재된 회로에 의해) 샘플링될 수 있고 미디어 식별 서비스에 대한 요청으로 네트워크 기반 미디어 분류기(105)에 전달될 수 있다.
도 1과 관련하여 도시되거나 설명된 시스템, 기계, 디바이스 또는 관련 데이터베이스 중 어느 하나는, 본 명세서에서 시스템 또는 기계에 대해 기술된 기능들 중 하나 이상을 수행하기 위해 변경된 (예를 들어, 애플리케이션의 하나 이상의 소프트웨어 모듈, 운영 시스템, 펌웨어, 미들웨어 또는 기타 프로그램과 같이 소프트웨어에 의해 구성되거나 프로그래밍된) 특수용 (가령, 특수 또는 기타 비일반) 컴퓨터를 포함하거나 그렇지 않으면 이들을 사용하여 구현될 수 있다. 본 명세서에 기술된 방법들 중 어느 하나 이상의 방법을 구현하도록 구성된 특수용 컴퓨터 시스템의 예시적인 실시예가 이하 도 12에서 논의된다. 이러한 특수용 컴퓨터의 기술 분야에서, 본 명세서에서 논의된 기능을 수행하기 위해 본 명세서에서 언급된 구조로 변경된 특수용 컴퓨터는 본 명세서에서 논의된 구조가 결여 된 다른 특수용 컴퓨터에 비해 기술적으로 개선되거나 또는 그렇지 않으면 본 명세서에 기술된 기능을 수행할 수 없다. 따라서, 본 명세서에 언급된 시스템 및 방법에 따라 구성된 특수용 기계는 유사한 특수용 기계의 기술에 대한 개선을 제공한다.
적어도 이하 도 6에서 더 언급되는 데이터베이스(115)는 다양한 방식으로, 가령, 텍스트 파일, 테이블, 스프레드 시트, 관계형 데이터베이스(예를 들어, 객체-관계형 데이터베이스), 트리플 스토어, 계층적 데이터 저장소, 또는 이들의 임의의 적절한 조합으로 데이터를 저장할 수 있다. 네트워크(190)는 시스템, 기계, 데이터베이스 및 디바이스(예를 들어, 미디어 프로세서 회로(110)와 제 1 모바일 디바이스(130) 사이) 간의 통신을 가능하게 하는 임의의 네트워크일 수 있다. 네트워크(190)는 유선 네트워크, 무선 네트워크(예를 들어, 모바일 또는 셀룰러 네트워크), 또는 이들의 조합일 수 있다. 네트워크(190)는 사설 네트워크, 공중 네트워크(예를 들어, 인터넷), 또는 이들의 조합을 구성하는 하나 이상의 부분을 포함할 수 있다.
네트워크(190)는 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷, 이동전화 네트워크(예를 들어, 셀룰러 네트워크), 유선 전화 네트워크(가령, POTS(Plain Old Telephone System) 네트워크), 무선 데이터 네트워크(가령, WiFi 네트워크 또는 WiMax 네트워크), 또는 이들의 조합을 포함하는 하나 이상의 부분을 포함할 수 있다. 네트워크(190)의 임의의 하나 이상의 부분은 전송 미디어를 통해 정보를 전달할 수 있다. 본 명세서에서 사용된 바와 같이, "전송 미디어"는 기계가(예를 들어, 그러한 기계의 하나 이상의 프로세서가) 실행하기 위한 명령어를 통신할(가령, 전송할) 수 있는 임의의 무형의(예를 들어, 일시적인) 미디어를 지칭하며, 이런 소프트웨어의 통신을 용이하게 하도록 디지털 또는 아날로그 통신 신호 또는 기타 무형의 미디어를 포함할 수 있다.
도 2는 일반적으로 미디어 분류를 제공하는 단계를 포함할 수 있는 방법의 흐름도를 도시한다. 도 2의 예시적인 실시예는, 예를 들어, 네트워크 환경(100)을 사용하여 미디어 데이터(201)에 대한 미디어 분류를 결정하기 위한 방법(200)의 흐름도를 전반적으로 도시한다. 미디어 데이터(201)는 제 1 및 제 2 모바일 디바이스(130 및 150) 중 하나 또는 다른 소스로부터 수신된 미디어 쿼리일 수 있다. 방법(200)은 단계(202)에서 미디어 트레이닝 데이터를 획득하고, 단계(204)에서 획득 된 미디어 트레이닝 데이터를 분석한다. 방법(200)은 단계(206)에서, 다양한 트레이닝 데이터를 사용하여 미디어 데이터(201)(예를 들어, 오디오 및/또는 비디오 정보를 포함하는 미디어 쿼리)를 분류하는 단계를 더 포함한다. 단계(210)에서, 방법(200)은 미디어 분류의 표시를 제공하거나 미디어 데이터(201)가 소정의 특정 미디어에 대응하는 우도의 표시를 제공하는 단계를 포함한다.
예시적인 실시예에서, 방법(200)은 단계(206)에서 컨텍스트 파라미터(203)를 사용하는 단계를 포함한다. 단계(206)에서, 미디어 데이터(201) 및 컨텍스트 파라미터(203)는 함께 사용되어 다양한 트레이닝 데이터를 사용해 미디어 데이터를 분류한다.
방법(200)에서, 다양한 디지털 신호 처리(DSP) 방법을 사용하여 미디어 데이터(예를 들어, 트레이닝 데이터 또는 쿼리 데이터)로부터 피쳐를 추출할 수 있다. 예를 들어, 추출 가능한 다른 피쳐들 중에서 MFCC(Mel Frequency Cepstral Coefficient), 스펙트럼 평탄도, 평균값, 제로 크로싱, 스펙트럼 중심, 코드 클래스 또는 퍼커션(percussiveness)이 사용될 수 있다. 다양한 디지털 신호 처리 피쳐 추출 방법 및 당업계에 공지된 표준(예를 들어, MPEG-7)이 사용될 수 있다. 추출 된 피쳐는 예를 들어 단계(206)에서 트레이닝된 분류기를 사용하여 미디어 데이터의 비교 분석을 수행하는데 사용될 수 있다. 예시적인 실시예에서, 트레이닝 데이터는 식별된 기준에 대한 기준 표준 또는 모델을 설정하기 위해 사용되며, 미디어 데이터(201)를 평가하는데 사용될 수 있다.
도 2의 예시적인 실시예에서, 단계(202)에서 획득된 미디어 데이터의 트레이닝 세트는 하나 이상의 오디오 신호 샘플(예를 들어, 작곡의 레코딩) 및 하나 이상의 오디오 신호 샘플 각각에 대응하는 하나 이상의 편집 형성된 특성을 포함한다. 예시적인 실시예에서, 여러 특성들이 함께 고려되어 미디어 데이터의 트레이닝 세트에 대응하는 미디어 프로파일 또는 지문이 될 수 있다. 예시적인 실시예에서, 트레이닝 데이터에 대한 특성은 (예를 들어, 컴팩트 디스크 데이터베이스(CDDB) 또는 다른 유사한 자원을 사용하여) 미디어 데이터를 다른 기존의 미디어 정보와 연관시킴으로써 자동으로 정의된다. 예시적인 실시예에서, 트레이닝 데이터에 대한 특성은 한 명 이상의 사람에 의해 정의되거나 데이터베이스(115)에 포함하기 위해 미디어를 평가하는 많은 사람들로부터 규합된다. 예시적인 실시예에서, 트레이닝 데이터에 대한 특성은 규합된 최종 사용자의 다양한 분석 및/또는 컨텐츠와 관련된 편집 생성된 태그 또는 문장을 이용해 생성되거나, 출처가 트레이닝 프로세스와 별개일 수 있는 데이터 세트에 기타 데이터 마이닝 방법이 적용될 수 있다.
단계(204)에서, 트레이닝 데이터로부터 미디어를 분석하는 단계는 미디어 데이터의 트레이닝 세트로부터 다양한 스펙트럼 피쳐를 추출하는 단계를 포함할 수 있다. 예시적인 실시예에서, 추출된 피쳐는 편집해 할당된 카테고리에 대하여 평가되고 'n'개의 카테고리 각각에 대해 적어도 하나의 모델을 포함하는 것과 같은 'n'개의 분류 모델을 생성하도록 상관된다. 따라서, 이 예에서, 각각의 분류 모델은 그 카테고리에 전형적으로 추출된 피쳐를 갖는 카테고리의 상관 세트일 수 있다. 이러한 분류 모델은(예를 들어, 미디어 프로세서 회로(110)에 의해 구현되는) 분류기와 공유될 수 있고, 하나 이상의 분류 모델이 미디어 데이터(201)를 분류하기 위한 비교 또는 참조 표준의 기초로서 제공될 수 있는 단계(206)에 적용될 수 있다.
단계(206)에서, 트레이닝 데이터를 사용하여 미디어 데이터(201)를 분류하는 단계는 쿼리 미디어 데이터(201)로부터 다양한 스펙트럼 피쳐를 추출하는 단계를 포함할 수 있다. 추출된 피쳐는 단계(204)로부터 분류 모델과 비교되거나 분류 모델을 이용해 처리될 수 있다. 단계(206)에서 미디어를 분류하는 단계는 단계(216)에서 미디어 데이터(201)를 변환하는 단계 또는 단계(226)에서 하나 이상의 분류 모델을 적용하는 단계를 포함할 수 있다. 예시적인 실시예에서, 미디어 데이터(201)를 분류하는 단계는 이전에 분석된 트레이닝 데이터에 대해 훈련된 컨볼루션 뉴럴 네트워크를 이용하는 단계를 포함할 수 있다. 컨볼루션 뉴럴 네트워크는 하나 이상의 시간 윈도우(예를 들어, 수 밀리 초 내지 수 초)에 걸쳐 샘플링된 미디어 데이터(201)로부터 미디어 신호 피쳐를 이용한 프로세서 구현 분류기일 수 있다. 분류기는 신호 이벤트 또는 스펙트럼 피쳐가 미디어 데이터(201)에 존재하는지 여부를 감지하도록 구성될 수 있다. 컨볼루션 뉴럴 네트워크는 일반적으로 특정 미디어 이벤트(가령, 휘파람, 개 짖는 소리, 음악의 유무) 및 상황(가령, 특정 기록장치/마이크, 환경 소음)에 대해 조정될 수 있는 수 천개에서 수 백만 개의 파라미터를 포함한다.
단계(216)에서, 다양한 기능들이 미디어 데이터(201)에 적용될 수 있다. 예를 들어, 미디어 데이터(201)로부터 데이터 시리즈를 주파수 도메인으로 변환하기 위해 상수 Q 변환이 적용될 수 있다. 다양한 스펙트럼 피쳐가 미디어 데이터(201)에서 식별되어 상이한 미디어 타입을 식별할 수 있다. 로컬 콘트라스트 정규화(normalization normalization)가 수행될 수 있고, 그 후 결과 데이터가 컨볼루션 뉴럴 네트워크에 적용될 수 있다. 미디어 데이터(201)가 오디오 신호를 포함하는 경우, 로컬 콘트라스트 정규화 프로세스는 오디오 신호의 전체 볼륨 변화에 불변하고, 어느 정도, 외부 사운드 또는 시끄러운 사운드에 의한 차폐에 불변으로 분류를 하는 것을 도울 수 있다.
단계(226)에서, 분류 모델은 컨벌루션 뉴럴 네트워크에 대한 입력으로서 변환된 미디어 데이터를 사용하여 적용될 수 있다. 컨볼루션 뉴럴 네트워크는 (예를 들어, 수 초의 시간 윈도우에 걸쳐) 변환된 미디어 데이터(201)의 다양한 피쳐를 분석하여 소정의 특정 피쳐 또는 이벤트가 존재하는지 여부를 식별하려고 시도할 수 있다. 이러한 컨볼루션 뉴럴 네트워크는 특정 미디어 이벤트(예를 들어, 휘파람 소리, 개 짖는 소리, 음악의 유무 등)에 맞춰 튜닝(예를 들어, 가중화)될 수 있는 수 천에서 수백 만 개의 파라미터를 포함하거나 특정 상황(예를 들어, 환경적 소음 등을 받는 모바일 디바이스로 획득한 미디어)에 대해 튜닝될 수 있다. 다른 분류 모델은 튜닝된 파라미터의 고유 조합과 연관될 수 있다.
예시적인 실시예에서, 단계(226)에서 분류 모델을 적용하는 단계는 쿼리에서 다양한 이벤트 또는 특성을 검출하는 단계를 포함한다. 예를 들어, 미디어 프로세서 회로(110)는 미디어 데이터(201)의 추출된 피쳐들과 'n개' 분류 모델의 피쳐들 사이의 유사성들에 기초로 각 피쳐 또는 카테고리에 대한 값을 할당하는 단계를 포함하여 'n개' 카테고리에 걸쳐 프로파일을 주어진 쿼리에 대해 채우도록 구성될 수 있다. 예시적인 실시예에서, 단계(226)에서 분류 모델을 적용하는 단계는 청각적 이벤트(예를 들어, 호각 소리, 개 짖는 소리, 음악의 유무 등)와 같은 특정 이벤트를 쿼리가 포함하는지(또는 포함할 것 같은) 여부를 검출하는 단계를 포함한다. 분류기는 선택적으로 이산 오디오 샘플들을 분류하는데 사용될 수 있거나, 예를 들어 일련의 샘플들을 순차적으로 또는 지정된 간격으로 처리함으로써 실질적으로 연속적으로 수신된 오디오 스트림을 분류하는데 사용될 수 있다.
예시적인 실시예에서, 컨텍스트 파라미터(203)는 분류 프로세스를 트리거하는데 사용될 수 있다. 추가로 또는 대안으로, 분류 모델은 컨텍스트 파라미터(203)에 기초하여 사용하도록 선택될 수 있다. 예시적인 실시예에서, 컨텍스트 파라미터(203)는 가령 주파수 컨텐츠, 진폭 또는 미디어 데이터(201) 신호의 일부 다른 특성에서 변화를 식별함으로써 미디어 데이터(201) 그 자체로부터 도출될 수 있다. 예시적인 실시예에서, 컨텍스트 파라미터(203)는 미디어 데이터(201)와 연관된 다른 소스 또는 센서로부터의 신호에 기초할 수 있다. 예를 들어, 컨텍스트 파라미터(203)는 가속도계, 위치센서, 시계 또는 타이머 회로로부터의 신호 또는 미디어 데이터(201)에 대응하는 다른 컨텍스트 제공 표시를 포함할 수 있다.
예시적인 실시예에서, 미디어 프로세서 회로(110)(또는 가령 네트워크 기반 미디어 분류기(105)에 대한 입력 디바이스와 관련된 다른 프로세서 회로)는 특정 이벤트에 대한 미디어 데이터(201)를 모니터링하도록 구성될 수 있다. 미디어 데이터(201)는 연속적으로 또는 간헐적으로 샘플링되는 오디오 스트림과 같은 미디어 스트림을 나타낼 수 있다. 이 예에서, 미디어 프로세서 회로(110)는 예를 들어 단계(206)에서 다양한 간격으로 미디어 분류가 수행될 수 있는 "올웨이즈 온(always on)" 모드로 동작하도록 구성될 수 있거나, 미디어 데이터(201)에서의 특정 임계치 변화 또는 컨텍스트 파라미터(203)에서의 특정 임계치 변화를 초과하는 트리거링 이벤트와 같이 소정 트리거링 이벤트에 응답하여 수행될 수 있다.
예시적인 실시예에서, 미디어 프로세서 회로(110)(또는 네트워크 기반 미디어 분류기(105)에 대한 입력 디바이스와 관련된 바와 같은 다른 프로세서 회로)는 고정된 오디오 세그먼트 또는 샘플을 스캔하여 샘플이 음악, 음성 또는 기타 다른 미디어 타입을 포함하는지 여부를 결정하는 것과 같이 하나 이상의 샘플 특성을 식별할 수 있다. 특정 이벤트가 검출되면, 단계(206)에서, 미디어 분류 요청이 개시될 수 있다. 예를 들어, 미디어 프로세서 회로(110)는 베이비 모니터의 오디오 채널을 모니터링하도록 구성될 수 있다. 분류기가 오디오 채널에서 신호의 주파수 내용의 변화를 식별하면, 신호는 단계(206)에서 분류되어 (예를 들어, 말하거나 바스락거리는 것처럼 기타 소음과 식별되는 것으로) 아기의 울음 소리를 포함하거나, 포함할 가능성이 있는지 여부를 결정할 수 있다. 예를 들어, 단계(210)에서 아기의 울음 소리가 긍정적으로 표시되면, 보모에게 알릴 수 있다.
단계(206)에서, 미디어 데이터(201)를 분류하는 단계는 미디어 데이터(201)에 대한 미디어 타입 확률지수를를 제공하는 단계를 포함할 수 있다. 미디어 타입 확률지수는 미디어 데이터(201)가 특정 미디어 타입에 해당하는 표시 또는 가능성을 포함한다. 예를 들어, 네트워크 기반 미디어 분류기(105)는 미디어 데이터(201)를 수신하거나 쿼리한 다음 수신된 쿼리를 특정 주파수 또는 스펙트럼 공간으로 변환하도록 구성될 수 있다. 그 다음, 미디어 프로세서 회로(110)는 컨볼루션 뉴럴 네트워크를 적용하여 쿼리가 특정 미디어 타입에 해당할 확률 또는 우도의 표시를 생성할 수 있다. 예시적인 실시예에서, 결과는 오디오 샘플이 음성, 음악 또는 이들의 조합에 해당하는 상대 우도의 표시를 포함한다. 뉴럴 네트워크의 다른 결과를 기반으로, 상기 결과가 오디오 샘플이 특정 노래와 같은 몇몇 특정 오디오 특성 또는 분류에 해당할 가능성을 나타낼 수 있다. 뉴럴 네트워크의 출력은 오디오 이벤트 확률, 또는 특정 쿼리가 특정되거나 지정된 오디오 타입에 해당할 가능성이 얼마나 되는지를 나타내는 표시를 포함할 수 있다.
예시적인 실시예에서, 단계(206)에서, 미디어를 분류하는 단계는 특정 샘플 또는 사용자에 대한 이용 가능하거나 잠재적인 분류의 범위를 좁히기 위해 분류 모델을 사용하는 단계를 포함한다. 예를 들어, 분류 모델은 컨벌루션 뉴럴 네트워크에서 이용 가능한 경로를 제한하기 위해 다양한 가중치 또는 다른 수단을 포함할 수 있다. 예시적인 실시예에서, 제 1 및 제 2 사용자들(132 또는 152) 및/또는 그들의 각각의 디바이스들(130 또는 150)은 상이한 분류 모델들과 연관될 수 있으며, 상기 모델들에 미디어 프로세서 회로(110)가 적용되어 미디어를 보다 효율적으로 분류할 수 있다. 예시적인 실시예에서, 분류 모델은 소스 디바이스 또는 사용자 히스토리에 대한 몇몇 선험적 지식에 기초하여 선택될 수 있다. 예를 들어, 다수의 상이한 이용 가능한 분류 모델 중에서 특정 분류 모델은 쿼리가 이동전화의 마이크로부터 샘플링된 오디오 신호를 포함할 때 사용되도록 선택될 수 있다.
예시적인 실시예에서, 제 1 쿼리는 클래식 음악을 포함하는 미디어 데이터(201)를 포함하고, 제 1 쿼리는 상기 쿼리가 클래식 음악을 포함하는 것을 나타내는 제 1 파라미터에 대응한다. 제 1 쿼리는 제 1 분류 모델에 의해 구성된 뉴럴 네트워크를 사용하여 처리될 수 있고, 제 1 분류 모델은 다양한 가중치, 필터 또는 클래식 음악의 다른 특성들을 식별하도록 선택되건 구성된 네트워크의 다른 구성요소로 인해 클래식 음악을 보다 효율적으로 식별하도록 네트워크를 "튜닝"할 수 있다. 팝 음악을 인식하기 위해 튜닝된 것과 같이 제 2 분류 모델은 제 1 쿼리를 성공적으로 또는 효율적으로 식별하지 못할 수 있다. 마찬가지로, 구어체 내용을 포함하는 제 2 쿼리는, 클래식 음악에 대해 튜닝된 제 1 분류 모델 또는 팝 음악에 대해 튜닝된 제 2 분류 모델 중 하나를 사용하여 성공적으로 또는 효율적으로 분류되지 않을 수 있다.
디바이스 상에 로컬로 저장된 모델을 로딩하거나 네트워크 기반 미디어 분류 기(105)를 통해 모델을 수신하는 것과 같은 다양한 분류 모델들이 단계(210)에서 미디어 분류를 제공하기 위해 적용될 수 있다. 다수의 모델들이 선택적으로 사용되거나 시리즈로 적용된다. 예시적인 실시예에서, 모델은 특정 클래스의 입력 디바이스(예를 들어, 쿼리 또는 미디어 데이터(201)를 수신 또는 제공하는데 사용되는 디바이스)에 특정될 수 있다. 예를 들어, 휴대폰의 마이크로부터 수신되면 음성 및 음악을 분류하도록 제 1 모델을 구성할 수 있다. 제 2 모델은 휴대폰의 고유의 사운드 보드로부터 수신된 음성 및 음악을 분류하도록 구성될 수 있다. 제 3 모델은 쿼리 데이터가 음성 및 음악 중 하나 또는 모두를 포함하는지 여부를 식별하도록 구성될 수 있다. 제 4 모델은 텔레비전 방송 소스로부터의 오디오를 분류하도록 구성될 수 있다. 하나 이상의 컨텍스트 파라미터들에 기초한 것과 같이, 검출된 상황 또는 컨텍스트에 따라, 하나 이상의 분류 모델이 방법(200)에서 사용하기 위해 선택될 수 있다. 일부 예시적인 실시예에서, 모델은 다른 기준 중에서 소스 장치를 검출하거나, 경쟁 모델의 품질을 비교하거나, 분석될 쿼리의 일부 분석에 의해 자동으로 선택된다.
도 3은 일반적으로 모바일 디바이스의 일부 구성요소들의 블록도를 도시한다. 예시적인 실시예에서, 도 3은 제 1 모바일 디바이스(130)의 다양한 구성요소에 대응하는 블록도를 도시한다. 제 2 모바일 디바이스(150)는 선택적으로 동일하거나 유사한 구성요소를 포함할 수 있다. 도 3의 예시적인 실시예에서, 제 1 모바일 디바이스(130)는 제 1 프로세서 회로(310), 트랜시버 회로(320), 가속도계(330) 및 오디오 재생회로(340)를 포함한다. 예시적인 실시예는 마이크(350), 위치센서(360), 신호 피쳐 생성기(370), 및 클래스 아카이브(380)를 포함할 수 있다. 제 1 모바일 디바이스(130)의 다양한 구성요소들은 (예를 들어, 버스, 공유 메모리, 또는 스위치를 통해) 서로 통신하도록 구성될 수 있다.
트랜시버 회로(320)는 예를 들어 유선 또는 무선 통신 프로토콜을 사용하여 제 1 모바일 디바이스(130)와 네트워크(190) 간의 통신을 가능하게 하도록 구성될 수 있다. 예시적인 실시예에서, 트랜시버 회로(320)는 네트워크(190)와의 WiFi 또는 셀룰러 네트워크 통신을 위해 구성된다. 예시적인 실시예에서, 트랜시버 회로(320)는 텔레비전 신호, 라디오 신호 또는 디지털 또는 아날로그 미디어 신호 정보를 포함하는 기타 신호와 같은 방송신호를 수신하도록 구성된다.
예시적인 실시예에서, 오디오 재생 회로(340), 마이크(350), 위치센서(360), 신호 피쳐 생성기(370) 및 클래스 아카이브(380)는 모바일 하드웨어 디바이스 또는 하나 이상의 기타 디바이스에 실행되거나 예시된 애플리케이션(390)의 전부 또는 일부를 형성 할 수 있다. 일예로, 애플리케이션(390)은 제 1 모바일 디바이스(130) 상에 저장(예를 들어, 설치)되고 제 1 프로세서 회로(310)와 같은 하나 이상의 프로세서 회로에 의해 제 1 모바일 디바이스(130)에 의해 실행 가능하다. 예시적인 실시예에서, 애플리케이션(390)은 적어도 부분적으로 클라우드(118)에 저장되고, 애플리케이션(390)은 제 1 모바일 디바이스(130)의 하나 이상의 구성요소와 인터페이스한다. 예시적인 실시예에서, 제 1 모바일 디바이스 내의 하나 이상의 프로세서 회로(130)는 애플리케이션(390), 트랜시버 회로(320), 가속도계(330), 또는 이들의 임의의 적절한 조합에 (가령, 일시적으로 또는 영구적으로) 포함될 수 있다. 예시적인 실시예에서, 제 1 모바일 디바이스(130)는 애플리케이션(390)을 통해 네트워크 기반 미디어 분류기(105)와 상호 작용하여 제 1 모바일 디바이스(130)에 표현된 미디어(예를 들어, 재생되는 미디어) 또는 제 1 모바일 디바이스 부근에 표현된 미디어(예를 들어, 수신되거나 감지될 수 있는 미디어)를 분류하도록 구성된다.
도 3의 예시적인 실시예에서, 제 1 모바일 디바이스(130)는 미디어 정보를 샘플링하거나 수신하도록 구성된 다양한 입력을 포함한다. 예를 들어, 오디오 신호 정보는 오디오 재생 회로(340)로부터 샘플링될 수 있거나, 오디오 신호 정보는 마이크(350)을 사용하여 수신될 수 있다. 예시적인 실시예에서, 제 1 모바일 디바이스(130)는 대응하는 하나 이상의 컨텍스트 파라미터를 식별 또는 제공하는데 사용될 수 있는 하나 이상의 센서 또는 입력부를 더 포함한다. 예를 들어, 위치센서(360)는 GPS 센서, WiFi 트랜시버 또는 제 1 모바일 디바이스(130)의 위치에 관한 정보를 결정 또는 제공하도록 구성될 수 있는 다른 센서를 포함할 수 있다. 예시적인 실시예에서, 제 1 모바일 디바이스(130)는 프로그래밍 또는 사용자 입력에 의해 하나 이상의 컨텍스트 파라미터와 관련된다.
신호 피쳐 생성기(370)는 제 1 모바일 디바이스(130), 네트워크 기반 미디어 분류기(105), 또는 제 1 모바일 디바이스(130) 또는 네트워크 기반 미디어 분류기(105)와 통신 가능하게 결합된 어떤 다른 위치 또는 디바이스에 포함될 수 있다. 신호 피쳐 생성기(370)는 제 1 모바일 디바이스(130)에 의해 제공된 미디어 신호로부터 스펙트럼, 시간 또는 다른 피쳐와 같은 다양한 미디어 데이터 피쳐를 식별하거나 추출하도록 구성될 수 있다. 예를 들어, 신호 피쳐 생성기(370)는 오디오 재생 회로(340) 또는 마이크(350)으로부터 오디오 샘플을 수신할 수 있고, 그런 후 디지털 신호 처리(DSP) 방법을 사용하여 오디오 샘플로부터 다양한 피쳐를 추출할 수 있다. 예시적인 실시예에서, 다른 피쳐들 중에서 MFCC, 스펙트럼 평탄도, 평균값, 제로 크로싱, 스펙트럼 중심, 코드 클래스 또는 퍼큐션은 미디어 샘플을 기초로 신호 피쳐 생성기(370)에 의해 결정되거나 제공될 수 있다. 신호 피쳐 생성기(370)를 사용하여 추출되거나 식별된 다양한 피쳐는 식별되거나 분류될 신호에 고유하게 해당하는 지문으로 간주될 수 있다.
클래스 아카이브(380)는 쿼리 미디어를 분류하기 위해(예를 들어, 네트워크 기반 미디어 분류기(105)의 다른 구성요소와 협력하여) 어플리케이션(390)에 의해 적용될 수 있는 분류, 분류 모델 또는 기타 정보의 하나 이상의 다른 표시를 포함할 수 있다. 분류, 분류 모델 또는 기타 정보는 제 1 사용자(132) 및/또는 제 1 모바일 디바이스(130)와 연관될 수 있으며, 미디어 샘플을 식별하거나 분류하기 위해 컨볼루션 뉴럴 네트워크에서 검색 범위를 좁히는데 적용될 수 있다. 예시적인 실시예에서, 클래스 아카이브(380)는 제 1 사용자(132) 및/또는 제 1 모바일 디바이스(130)와 연관된 하나 이상의 분류 모델을 데이터베이스(115)로부터 검색하기 위해 네트워크 기반 미디어 분류기(105)에 의해 적용된 사용자 식별코드를 포함한다. 예시적인 실시예에서, 클래스 아카이브(380)는 제 1 모바일 디바이스(130)에 의해 제공된 미디어를 분류하기 위해 어플리케이션(390) 및/또는 네트워크 기반 미디어 분류기(105)에 의해 적용될 수 있는 다양한 분류 모델을 포함한다.
도 4는 일반적으로 쿼리 음향 파형 및 컨텍스트 센서신호를 포함하는 예를 도시한다. 쿼리 음향 파형은 식별되거나 분류되도록 지시된 미디어 데이터(201)의 전부 또는 일부를 포함할 수 있다. 예시적인 실시예에서, 쿼리 음향 파형(410)은 오디오 재생 회로(340) 또는 제 1 모바일 디바이스(130)의 마이크(350)을 사용하여 수신될 수 있다.
도 4는 제 1 모바일 디바이스(130)로부터 수신될 수 있는 바와 같이 컨텍스트 센서신호(420)를 포함하거나, 제 1 모바일 디바이스(130) 및/또는 사용자에 관한 정보를 사용하여 결정될 수 있다. 예컨대, 컨텍스트 센서신호(420)는 제 1 모바일 디바이스(130)의 위치를 나타내는 위치센서(360)로부터의 정보를 포함할 수 있다. 예시적인 실시예에서, 오디오 샘플(412)은 쿼리 음향 파형(410)의 세그먼트를 포함할 수 있다. 오디오 샘플(412)은 예를 들어 방법(200)에 따라 분류를 위한 미디어 데이터(201)로서 사용될 수 있다.
컨텍스트 센서신호(420)는 쿼리 음향 파형(410)에 대응하는 컨텍스트 정보를 나타낼 수 있다. 예를 들어, 컨텍스트 센서신호(420)는 쿼리 음향 파형(410)과 동시에 수신될 수 있다. 도 4에 도시된 바와 같이, 컨텍스트 센서신호(420)는 제 1 모바일 디바이스(130)의 가속도계(330)를 사용하여 결정될 수 있는 위치정보를 포함한다. 컨텍스트 센서신호(420)는 예를 들어, 제 1 모바일 디바이스(130)가 휴지상태(신호 낮음)이거나 동작 중(신호 높음)인지를 나타내는 이진수를 포함한다. 컨텍스트 정보는 다양한 간격으로 컨텍스트 센서신호(420)로부터 샘플링될 수 있거나, 컨텍스트 정보는 컨텍스트 센서신호(420)에 변화가 식별될 때 샘플링될 수 있다. 예를 들어, 제 1 컨텍스트 데이터(421)는 컨텍스트 센서신호(420)에서 제 1 상태 변화에 해당할 수 있다. 제 2 및 제 3 컨텍스트 데이터(422 및 423)는 예를 들어, 소정의 임계 컨텍스트 이벤트가 식별된 후에 컨텍스트 센서신호(420)의 주기적인 샘플에 해당할 수 있다. 본 명세서에서 더 논의되는 바와 같이, 다른 컨텍스트 정보가 추가로 또는 대안으로 사용될 수 있다.
도 5는 전반적으로 미디어 프로세서 회로(110)와 같은 미디어 프로세서 회로의 블록도를 도시한다. 미디어 프로세서 회로(110)는 제 1 모바일 디바이스(130)의 구성요소와 함께 또는 독립적으로 동작할 수 있는 다양한 구성요소를 포함할 수 있다(예를 들어, 도 3 참조). 도 5의 예시적인 실시예에서, 미디어 프로세서 회로(110)는 쿼리 수신기(510), 분류 모델 선택기(520) 및 미디어 타입 확률지수 생성기(530)를 포함한다. 예시적인 실시예에서, 미디어 프로세서 회로(110)는 신호 피쳐 생성기(570)를 더 포함한다.
예시적인 실시예에서, 쿼리 수신기(510), 분류 모델 선택기(520) 및 미디어 타입 확률지수 생성기(530)는 네트워크 기반 미디어 분류기(105)에 저장되고(예를 들어, 설치되고) 미디어 분류 서비스를 수행하기 위해 미디어 프로세서 회로(110)에 의해 또는 하나 이상의 다른 프로세서 회로에 의해 실행될 수 있는 애플리케이션(590)의 전부 또는 일부를 형성할 수 있다. 예시적인 실시예에서, 애플리케이션(590)은 클라우드(118)에 적어도 부분적으로 저장되고, 애플리케이션(590)은 제 1 및 제 2 모바일 디바이스(130 및 150)의 구성요소 중 하나 이상과 인터페이스한다.
쿼리 수신기(510)는 분류를 위해 표시된 미디어 데이터(201)와 같은 쿼리 미디어를 수신하도록 구성될 수 있다. 예시적인 실시예에서, 쿼리 수신기(510)는 제 1 및 제 2 모바일 디바이스들(130 및 150) 중 하나로부터 미디어 데이터(201)를 수신한다. 쿼리 수신기(510)는 가령 미디어 데이터(201)가 미디어 프로세서 회로(110)에 의해 처리될 수 있는 쿼리 포맷 또는 쿼리 신호 컨텐트 품질을 포함하는지 검증함으로써 미디어 프로세서 회로(110)의 다른 구성요소들에 대한 게이트로서 선택적으로 작용한다. 예시적인 실시예에서, 쿼리 수신기(510)는 미디어 데이터(201)와 관련된 하나 이상의 컨텍스트 파라미터를 수신하도록 구성된다.
미디어 프로세서 회로(110)는 신호 피쳐 생성기(570)를 포함할 수 있다. 신호 피쳐 생성기(570)는 제 1 모바일 디바이스(130)의 신호 피쳐 생성기(370)와는 별개일 수 있거나 또는 제 1 모바일 디바이스(130)의 신호 피쳐 생성기(370)와 협력하여 동작하도록 구성될 수 있다. 신호 피쳐 생성기(570)는 오디오 신호 샘플 또는 비디오 신호 샘플(예를 들어, 쿼리 미디어 샘플)에 대응하는 스펙트로그램 또는 다른 스펙트럼 컨텐츠 정보를 생성하도록 구성된 코드 또는 처리 모듈을 포함할 수 있다. 신호 피쳐 생성기(570)는 쿼리 수신기(510)에 의해 수신된 미디어 데이터(201)로부터 다양한 피쳐를 식별하거나 추출하도록 구성될 수 있다. 예를 들어, 신호 피쳐 생성기(570)는 쿼리 수신기(510)로부터 오디오 신호 샘플을 수신할 수 있고, 그 다음에 디지털 신호 처리(DSP) 방법을 이용해 오디오 신호 샘플로부터 다양한 피처들을 추출할 수 있다. 다른 피쳐들 중에, MFCC, 스펙트럼 평탄도, 평균값, 제로 크로싱, 스펙트럼 중심, 코드 클래스 또는 퍼쿠션은 신호 피쳐 생성기(370)에 의해 결정될 수 있다.
분류 모델 선택기(520)는 미디어 샘플 분류에 사용하기 위한 분류 모델을 선택하기 위해 적어도 하나의 컨텍스트 파라미터(예를 들어, 쿼리 수신기(510)를 사용하여 수신된 컨텍스트 파라미터)에 관한 정보를 사용하도록 구성된 소프트웨어 코드 또는 처리 모듈 또는 회로를 포함할 수 있다. 적어도 하나의 컨텍스트 파라미터는 분류 모델 선택기(520)에 의해 또는, 예를 들어, 쿼리 미디어가 음악, 음성 또는 음악과 음성의 조합을 포함하는지 여부를 결정하기 위해 피식별 쿼리 미디어를 분석하는 것과 같이 또 다른 모듈에 의해 선택적으로 도출될 수 있다.
예시적인 실시예에서, 분류 모델 선택기(520)는 데이터베이스(115)와 통신하여 데이터베이스(115)로부터 하나 이상의 분류 모델을 검색한다. 데이터베이스(115)의 예는 아래 도 6에서 기술되어 있다. 분류 모델 선택기(520) 및/또는 데이터베이스(115)는, 예를 들어, 피식별 쿼리와 관련된 컨텍스트 파라미터(들) 및/또는 스펙트럼 피쳐(예를 들어, 신호 피쳐 생성기(370 또는 570))를 기반으로 사용을 위한 다양한 분류 모델들에 대한 추천을 제공할 수 있다.
미디어 타입 확률지수 생성기(530)는 신호 피쳐 생성기들(370 및/또는 570)로부터의 스펙트럼 피쳐 정보를 분류기 네트워크에 적용하여 쿼리가 특정 미디어 타입에 해당하는 확률지수 또는 우도를 생성하도록 구성된다. 예시적인 실시예에서, 미디어 타입은 미디어 카테고리(예를 들어, 구어(口語), 음악, 클래식 음악, 뉴스 방송 등)를 포함할 수 있거나, 미디어 타입은 노래, TV 프로그램(예를 들어, 특정 에피소드의 표시 포함) 또는 공연자와 같은 특정 소스 또는 특정 제작물의 표시를 포함할 수 있다. 즉, 예시적인 실시예에서, 미디어 타입 확률지수 생성기(530)는 쿼리가 특정 아티스트가 부른 특정 노래의 특정 레코딩에 해당할 우도의 표시를 제공할 수 있다. 다른 예시적인 실시예에서, 미디어 타입 확률지수 생성기(530)는 쿼리가 지정된 아티스트에 해당할 우도의 표시를 제공할 수 있다.
도 6은 전반적으로 분류 모델을 저장하기 위한 데이터베이스의 블록도를 도시한다. 도 6의 블록도는 데이터베이스(115)에 해당할 수 있다. 데이터베이스(115)는 무엇보다도 미디어 프로세서 회로(110) 및/또는 네트워크(190)와 통신 가능하게 연결되어 미디어를 분류하기 위한 다양한 분류 모델 및 뉴럴 네트워크 데이터(621)를 제공할 수 있다. 뉴럴 네트워크 데이터(621)는 컨볼루션 뉴럴 네트워크 또는 모델 기반 분류 서비스를 제공할 수 있는 몇몇 다른 유사한 도구에서 사용하기 위한 다양한 구조적, 필터 또는 가중 정보를 포함할 수 있다.
예시적인 실시예에서, 도 6의 데이터베이스(115)는 다수의 분류 모델들(601, 602, 및 603)을 포함한 분류기(610)를 포함한다. 제 1 분류 모델(601)은 다수의 파라미터(PARAM [1], PARAM [2], ..., PARAM [n])의 함수이다. 즉, 컨텍스트 파라미터를 포함하지만 이에 국한되지 않는 파라미터 세트가 주어지면, 분류기(610)는 미디어 프로세서 회로(110)에 의한 사용을 위해 대응하는 분류 모델을 반환할 수 있다. 파라미터는 컨텍스트 파라미터, 스펙트럼 피쳐, 또는 하나 이상의 쿼리, 디바이스, 사용자 또는 기타 입력과 관련된 기타 정보에 해당할 수 있다. 제 2 분류 모델(602)은 동일하거나 상이한 다수의 파라미터의 함수일 수 있다. 분류기(610)는 파라미터들의 상이한 조합에 대응하는 n 개의 분류 모델을 포함할 수 있다. 예시적인 실시예에서, 파라미터들의 특정 조합은 다수의 상이한 분류 모델들을 반환할 수 있다. 예시적인 실시예에서, 파라미터들의 특정 조합은 몇몇 상이한 분류 모델들이 선택되고 연속적으로 적용될 수 있음을 나타낼 수 있다.
예시적인 실시예에서, 데이터베이스(115)는 적어도 하나의 파라미터가 변경될 때마다 미디어 프로세서 회로(110)에 의해 쿼리될 수 있다. 예를 들어, 제 1 모바일 디바이스(130)로부터 수신된 컨텍스트 파라미터의 변화에 응답하여, 미디어 프로세서 회로(110)는 데이터베이스(115)에 쿼리하여 업데이트된 분류 모델이 변경된 컨텍스트 파라미터에 의해 표시되는지를 결정할 수 있다. 업데이트된 분류 모델이 표시되지 않으면, 미디어 프로세서 회로(110)는 이전에 수신된 모델을 사용하여 미디어 분류 서비스를 수행할 수 있다. 업데이트된 분류 모델이 표시되면, 분류기(610)는 현재의 또는 후속하는 분류 연산에서 사용하기 위해 새로운 분류 모델에 관한 정보를 미디어 프로세서 회로(110)에 전송할 수 있다.
도 7은 전반적으로 미디어 컨텐츠를 식별하기 위해 분류 네트워크를 사용하는 예를 도시한다. 도 7은 특정 미디어 타입에 대해 튜닝된 컨벌루션 뉴럴 네트워크와 같은 분류 네트워크를 사용하여 미디어를 분류하는 예(700)를 포함한다. 예시적인 실시예에서, 제 1 사용자(132) 및 제 1 모바일 디바이스(130)가 제 1 위치(701)(예를 들어, 음악회장)와 제 2 위치(702)(예를 들어, 음악회장 외부의 거리) 사이를 이동하는 것으로 도시되어 있다. 도 7의 예시적인 실시예에서, 제 1 모바일 디바이스(130)는 제 1 오디오 데이터(711)를 샘플링하도록 구성될 수 있다. 예시적인 실시예에서, 제 1 오디오 데이터(711)는 제 1 위치(701)에서 재생되는 라이브 뮤직을 나타낸다.
제 1 모바일 디바이스(130)는 제 1 컨텍스트 데이터(712)를 식별하도록 더 구성될 수 있다. 예시적인 실시예에서, 제 1 컨텍스트 데이터(712)는 제 1 위치(701)를 식별하는 하나 이상의 GPS 위치정보, 제 1 사용자(132)에 대한 사용자 정보(예를 들어, 캘린더 엔트리 정보, 소유된 음악 라이브러리 정보, 플레이리스트 또는 청취 이력 등), 또는 제 1 위치(701) 및 제 1 사용자(132) 중 하나 이상을 식별하는데 사용될 수 있는 기타 정보를 포함할 수 있다.
예시적인 실시예에서, 미디어 식별 쿼리는 제 1 모바일 디바이스(130)에 의해 생성되어 제 1 위치(701)에서 오디오 컨텐트를 식별할 수 있다. 미디어 식별 쿼리는 가령 제 1 위치(701)의 주변 음향 내용에 있어 감지된 변화 또는 특정 스케줄을 기초로 제 1 모바일 디바이스(130)에 의해 자동으로 생성될 수 있거나, 상기 쿼리는 제 1 모바일 디바이스(130)에(예를 들어, 제 1 사용자(132)로부터 수신된) 사용자 입력에 응답해 생성될 수 있다.
가령 애플리케이션(390)을 이용한 제 1 모바일 디바이스(130)는 제 1 오디오 데이터(711)를 네트워크 기반 미디어 분류기(105)에 제공하도록 구성될 수 있다. 예시적인 실시예에서, 제 1 모바일 디바이스(130)는 제 1 컨텍스트 데이터(712)를 네트워크 기반 미디어 분류기(105)에 추가로 제공한다. 네트워크 기반 미디어 분류기(105)에서, 제 1 분류 모델(715)은 데이터베이스(115)로부터 검색될 수 있고, 그런 후 미디어 프로세서 회로(110)를 사용하여 제 1 오디오 데이터(711)에 대응하는 미디어 타입 확률지수를 제공하도록 적용될 수 있다. 제 1 컨텍스트 데이터(712)는 n개의 이용 가능한 분류 모델 중 어느 하나 이상이 제 1 오디오 데이터(711)와 함께 사용되도록 선택되는지에 영향을 줄 수 있다. 예시적인 실시예에서, 미디어 프로세서 회로(110)는 제 1 위치(701)에서 재생되는 노래에 대응하는 것과 같은 미디어 컨텐츠(718)의 제 1 표시를 제 1 오디오 데이터(711)에서 식별하기 위해 컨볼루션 뉴럴 네트워크에 제 1 분류 모델(715)을 적용한다. 예시적인 실시예에서, 제 1 분류 모델(715)을 적용하는 단계는 제 1 오디오 데이터(711)를 처리하고 식별하기 위해 미디어 프로세서 회로(110)를 사용하는 것과 같이 컨볼루션 뉴럴 네트워크에 있는 다양한 가중치 또는 다른 파라미터를 적용하는 단계를 포함한다.
도 7의 예시적인 실시예에서, 제 1 사용자(132)는 제 1 위치(701)에서 제 2 위치(702)로 전이 또는 재배치된다. 제 1 컨텍스트 데이터(712)로부터 제 2 컨텍스트 데이터(722)로의 변화에 의해 표시된 것과 같이 검출된 위치 변화에 응답하여, 제 1 모바일 디바이스(130)는 새로운 환경을 나타내는, 즉 제 2 위치(702)를 나타내는 제 2 오디오 데이터(721)를 샘플링할 수 있다. 오디오 데이터의 샘플링 및 재샘플링은 다양한 방식으로 트리거될 수 있다. 예시적인 실시예에서, 샘플링은 제 1 사용자(132)의 위치 또는 컨텍스트의 검출된 변화에 응답하여 자동으로 수행될 수 있다. 예시적인 실시예에서, 샘플링은 제 1 모바일 디바이스(130)에서의 사용자 입력에 응답하여 수행될 수 있다. 예시적인 실시예에서, 샘플링은 주기적으로 또는 소정의 특정 간격으로 수행될 수 있다. 샘플링은 제 1 사용자(132) 및/또는 제 1 모바일 디바이스(130)와 관련된 다른 검출된 변화들에 응답하여 트리거될 수 있다.
가령 제 2 컨텍스트 데이터(722)와 함께, 제 2 오디오 데이터(721)가 네트워크 기반 미디어 분류기(105)에 제공될 수 있다. 네트워크 기반 미디어 분류기(105)는 컨볼루션 뉴럴 네트워크를 이용하여 제 2 오디오 데이터(721)에 대한 미디어 타입의 표시를 생성하기 위해 제 2 분류 모델(725)과 같은 다른 분류 모델을 선택적으로 식별할 수 있다. 예시적인 실시예에서, 미디어 프로세서 회로(110)는 분류 네트워크(730)에서 제 2 분류 모델(725)을 적용하여 제 2 위치(702)에서 재생되는 상이한 제 2 노래에 대응하는 것과 같은, 제 2 오디오 데이터(721)에 있는 미디어 컨텐츠(728)의 제 2 표시를 식별한다. 도 7의 예시적인 실시예에서, 다른 제 2 노래는 인근 식당의 옥외 스피커 시스템에 의해 재생될 수 있다.
도 8-11은 무엇보다도 미디어 타입 확률의 결정, 분류 네트워크(예를 들어, 다양한 미디어를 식별하도록 트레이닝된 컨볼루션 뉴럴 네트워크)에 사용하기 위한 상이한 분류 모델의 선택, 및 컨텍스트 파라미터의 사용 예를 전반적으로 도시한다. 도 12 및 도 13은 뉴럴 네트워크를 트레이닝하고, 가령 피식별 미디어 쿼리의 하나 이상의 특성에 기초하여 컨볼루션 뉴럴 네트워크를 사용한 미디어 분류 서비스를 제공하기 위한 컴퓨팅 자원을 언제 소비할지 또는 소비할지 여부를 결정하는 예를 도시한다. 각 방법은 본 명세서에 기술된 시스템, 방법 또는 디바이스를 사용하여 실행할 수 있는 코드를 사용하여 구현될 수 있다.
도 8은 오디오 타입 확률지수를 결정하는 단계를 포함한 예시적인 실시예를 전반적으로 도시한다. 예시적인 실시예는 다수의 상이한 단계 또는 동작을 포함하는 제 1 프로세스(800)를 포함할 수 있다. 단계(810)에서, 예시적인 실시예는 피식별 쿼리 사운드를 나타내는 오디오 데이터 또는 오디오 신호에 액세스하는 단계를 포함한다. 오디오 데이터에 액세스하는 단계는 무엇보다도 다른 디바이스들 중에서 휴대폰, 텔레비전 또는 태블릿 컴퓨터를 포함한 다양한 휴대용 또는 고정식 전자 디바이스를 사용하여 오디오 샘플을 수신하거나 식별하는 단계를 포함할 수 있다. 예시적인 실시예에서, 오디오 데이터에 액세스하는 단계는 오디오 재생 회로(340)를 모니터링하거나 제 1 모바일 디바이스(130)의 마이크(350)을 사용하여 주변 오디오 정보를 샘플링하는 단계를 포함한다.
단계(820)에서, 예시적인 실시예는 제 1 컨텍스트 파라미터에 액세스하는 단계를 포함한다. 제 1 컨텍스트 파라미터는 단계(810)로부터의 쿼리 사운드에 대응할 수 있고/있거나 컨텍스트 파라미터는 디바이스, 사용자에 대응할 수 있거나, 그렇지 않으면, 단계(810)에서 액세스된 쿼리 사운드와 연관될 수 있다. 쿼리에 대응하는 컨텍스트 파라미터 사운드는 쿼리 사운드와 실질적으로 동시에 또는 바로 전후에 수신되는 시간가변 컨텍스트 신호 정보를 포함할 수 있다. 이러한 방식으로, 컨텍스트 파라미터는 쿼리 사운드가 액세스되는 위치 또는 시간에서 또는 위치 또는 시간 근처에서 발생하고 있는 것이거나 발생할 수 있는 것에 관한 정보를 제공 할 수 있다. 예시적인 실시예에서, 쿼리 사운드에 대응하는 컨텍스트 파라미터는 무엇보다도 사용자 식별 또는 디바이스 타입에 관한 정보를 포함할 수 있는 것처럼 실질적으로 시간 불변일 수 있다.
예시적인 실시예에서, 단계(820)에서, 제 1 컨텍스트 파라미터에 액세스하는 단계는 제 1 모바일 디바이스(130)의 위치센서(360)로부터 위치정보를 수신하는 단계를 포함한다. 예를 들어, 제 1 컨텍스트 파라미터는 위치센서(360)를 이용해 결정된 위치정보(예를 들어, GPS 또는 기타 좌표)를 포함할 수 있다. 위치정보는 위치가 결정되었을 때 기록되거나 샘플링되는 특정 쿼리 사운드와 관련될 수 있다.
단계(830)에서, 예시적인 실시예는 오디오 데이터, 예를 들어, 단계(810)에서 액세스된 오디오 데이터의 스펙트럼 피쳐들을 결정하는 단계를 포함한다. 스펙트럼 피쳐들을 결정하는 단계는 무엇보다도 디지털 신호 처리(DSP) 방법들을 이용하여 MFCC, 스펙트럼 평탄도, 평균값, 제로 크로싱, 스펙트럼 중심 또는 다른 추출 가능한 피쳐를 식별하는 단계를 포함할 수 있다. 다양한 디지털 신호 처리 특징 추출 방법 및 표준(예를 들어, MPEG-7)이 사용될 수 있다. 단계(830)에서 스펙트럼 피쳐를 결정하는 단계는 제 1 모바일 디바이스(130)의 제 1 프로세서 회로(310), 네트워크 기반 미디어 분류기(105)의 미디어 프로세서 회로(110), 또는 분류될 디지털 오디오 샘플을 수신하고 분석하기 위한 다른 프로세서 또는 회로 중 하나 이상을 사용하는 단계를 포함할 수 있다. .
단계(835)에서, 예시적인 실시예는 쿼리 사운드 특성에 기초하여 또는 컨텍스트 파라미터 특성에 기초하여 쿼리 사운드가 긍정적으로 분류될 수 있는 우도를 결정하는 단계를 포함할 수 있다. 쿼리 사운드 및/또는 컨텍스트 파라미터는 쿼리가 분류될 수 있는 우도의 표시를 제공하기 위해 특정 임계 특성 또는 임계 피쳐에 사용되거나 이에 비교될 수 있는 특성 또는 피쳐를 식별하기 위해(예를 들어, 제 1 모바일 디바이스(130)의 제 1 프로세서 회로(310), 네트워크 기반 미디어 분류기(105)의 미디어 프로세서 회로(110) 또는 분류될 디지털 오디오 샘플을 수신하고 분석하기 위한 기타 다른 프로세서 또는 회로를 이용해) 선택적으로 분석될 수 있다. 예시적인 실시예에서, 단계(835)는 단계(830)에서 결정된 스펙트럼 피쳐(들)을 사용하여 쿼리 사운드가 긍정적으로 식별될 수 있는 우도를 결정하는 단계를 포함할 수 있다.
단계(835)는 다음의 단계들(820 및 830)로 예시되어 있으나, 단계(835)에서의 결정은 쿼리 사운드의 획득 직후에(예를 들어, 단계(810)에 뒤이어서) 실질적으로 수행될 수 있거나, 실질적으로 컨텍스트 파라미터의 획득(예를 들어, 후속 단계(820)) 바로 직후에 상기 컨텍스트 파라미터에 대해 수행될 수 있다. 단계(835)의 결과를 기초로, 프로세스(800)는 단계(840)를 계속할 수 있다. 예를 들어, 단계(835)에서 결정된 우도가 쿼리 사운드가 식별될 수 있는 특정 임계 우도보다 높으면, 프로세스(800)는 쿼리 사운드를 분류하는데 사용하기 위한 분류 모델을 선택하는 단계와 함께 단계(840)에서 계속될 수 있다. 단계(835)에서 결정된 우도가 특정 임계 우도보다 낮으면, 프로세스(800)는 가령 미디어 분류 프로세스에 사용하기 위해 양호한 품쿼리 신호를 획득하려는 시도로 쿼리 사운드 및/또는 컨텍스트 파라미터 중 하나 이상을 종료하거나 재샘플링할 수 있다. 가령 미디어 쿼리의 특성에 기초하여 분류를 진행할지 여부를 결정하는 단계를 포함하는 예시적인 실시예가 본 명세서에서 도 13의 설명에 포함된다.
단계(840)에서, 예시적인 실시예는 예를 들어, 오디오 데이터를 식별하거나 분류하기 위해 사용될 오디오 데이터와 함께 사용하기 위한 분류 모델을 선택하는 단계를 포함한다. 예시적인 실시예에서, 단계(840)에서 분류 모델을 선택하는 단계는 적어도 하나의 컨텍스트 파라미터를 사용하는 단계를 포함한다. 적어도 하나의 컨텍스트 파라미터는 분류 모델을 선택하거나 식별하는데 사용되는 다수의 파라미터들 중 하나 일 수 있다(예컨대, 도 6의 예시적인 실시예에서 분류 모델(601-603) 참조). 예시적인 실시예에서, 미디어 프로세서 회로(110)는 네트워크 기반 미디어 분류기(105) 내의 데이터베이스(115)로부터 분류 모델을 검색하도록 구성된다. 검색된 분류 모델은 오디오 데이터에 기초하여 쿼리 사운드를 식별하거나 분류하기 위해 (가령, 상기 검색된 모델에 의해) 튜닝될 수 있는 뉴럴 네트워크와 함께 사용하기 위한 파라미터를 포함할 수 있다.
단계(850)에서, 예시적인 실시예는 제 1 분류 모델을 사용하여 쿼리 사운드에 대한 오디오 타입 확률지수를 결정하는 단계를 포함한다. 예시적인 실시예에서, 오디오 타입 확률지수를 결정하는 단계는, 오디오 타입 또는 오디오 데이터가 특정 오디오 타입이거나 오디오 컨텐츠에 해당할 가능성이 있는지 나타내는 확률지수를 식별하기 위해 뉴럴 네트워크에 있는 하나 또는 다수의 노드들에(예를 들어, 단계 830에서 결정된) 다양한 스펙트럼 피쳐들의 비교 분석을 수행하는 단계를 포함한다. 예시적인 실시예에서, 오디오 타입 확률지수를 결정하는 단계는 오디오 데이터, 제 1 분류 모델 및 트레이닝된 분류기 네트워크를 이용하는 단계를 포함한다. 예시적인 실시예에서, 오디오 타입 확률지수를 결정하는 단계는 제목, 아티스트, 소스에 의해 쿼리 사운드를 분류 또는 식별하는 단계를 포함하거나, 그렇지 않으면, 쿼리 사운드와 특정한 특성 간의 상관관계를 긍정적으로 식별하는 단계를 포함한다.
단계(860)에서, 예시적인 실시예는 단계(850)에서 결정된 바와 같은 오디오 타입 확률지수가 쿼리 사운드가 성공적으로 분류되었거나 성공적으로 분류되지 못한 것을 나타내는지 여부, 즉 쿼리가 적절히 식별되었거나, 잘못 식별되었거나, 식별되지 않았는지 여부에 대한 정보를 저장하는 단계를 포함할 수 있다. 단계(860)는 정상적인 시스템 사용 중에 또는 트레이닝 프로세스 동안 선택적으로 수행될 수 있다. 트레이닝 프로세스의 일례가 아래 도 12에 예시되어 있다.
단계(860)에서, 분류 동작이 성공적인지 여부는, 예를 들어, 쿼리 사운드, 컨텍스트 파라미터 및/또는 오디오 타입 확률지수 중 하나 이상의 특성들이 특정 임계치 특성을 초과하는지 식별함으로써(즉, 객관적 측정을 이용해) 자동으로 결정될 수 있다. 예시적인 실시예에서, 분류 동작이 성공적인지 여부는 사용자가 분류기의 결과를 수락 또는 거절하는지 여부에 대한 쿼리에 응답하여 사용자에 의해 표시될 수 있다.
쿼리 사운드는 여러 이유로 인해 성공적으로 분류되거나 미식별될 수 있다. 예를 들어, 품질이 좋지 않거나 노이즈가 많은 미디어 신호는 분석하기가 어려울 수 있거나, 가령 노이즈 또는 기타 신호 이상으로 인한 마스킹으로 인해 내재한 미디어 신호 컨텐츠와 정확하게 일치하지 않는 신호 지문이나 스펙트럼 피쳐를 생성할 수 있다. 미디어 신호가 마이크와 같은 환경 센서를 사용하여 감지되는 경우 미디어 신호에 노이즈가 도입될 수 있거나, 전기 또는 전자기 노이즈 또는 기타 수단을 통해 노이즈가 도입될 수 있다. 품질이 좋지 않거나 노이즈가 많은 컨텍스트 파라미터는 시끄럽거나 오역을 유발하는 예외를 포함하는 경우에도 마찬가지로 분석하기가 어려울 수 있다. 쿼리 사운드 및/또는 컨텍스트 파라미터 중 하나 이상이 노이즈가 있거나 부정확한 경우, 단계(840)에서 선택된 분류 모델은 부적절할 수 있고, 결과적으로, 결정된 오디오 타입 확률지수가 떨어질 수 있다.
예시적인 실시예에서, 단계(860)에 저장된 정보는 쿼리 사운드를 분류하거나 식별하는데 있어서 성공(또는 성공의 결여)에 관한 상대 또는 절대 정보를 포함하고, 쿼리 사운드, 컨텍스트 파라미터 또는 사용된 분류 모델(들)과 성공 간에 일치에 대한 정보를 선택적으로 포함한다. 저장된 정보는 나중에 검색될 수 있고, 가령 새 쿼리 사운드의 분류가 성공할 우도를 식별하는데 사용하기 위해 새 쿼리 사운드, 컨텍스트 파라미터 또는 모델과 비교된다. 성공 우도가 너무 낮으면, 분류 프로세스는 다른 작업에 대한 계산 자원 또는 능력을 유지하도록 중지될 수 있다.
도 9는 전반적으로 컨텍스트 파라미터들에 기초하여 분류 모델을 선택하는 단계를 포함한 예시적인 실시예(900)를 도시한다. 예시적인 실시예는 분류 네트워크에서 사용하기 위해 이용 가능한 다수의 상이한 분류 모델 중에서 선택하는 단계를 포함할 수 있다.
단계(910)에서, 예시적인 실시예는 쿼리 사운드에 대응하는 제 1 및 제 2 컨텍스트 파라미터를 액세스하는 단계를 포함한다. 제 1 및 제 2 컨텍스트 파라미터는 (예를 들어, 위치 정보 또는 좌표, 타임 스탬프 정보, 사용자 프로파일 정보 등 모두를 포함할 수 있는) 동일한 타입 또는 포맷일 수 있거나, 컨텍스트 파라미터들이 다를 수 있다. 제 1 및 제 2 컨텍스트 파라미터들 중 하나 또는 둘 모두는 피식별 오디오 샘플 또는 쿼리 사운드를 사용하여 결정되거나, 또는 이로부터 도출될 수 있다. 컨텍스트 파라미터들 중 하나 또는 둘 모두는 센서 정보, 사용자 정보, 또는 오디오 샘플의 특성을 나타낼 수 있거나 오디오 샘플과 연관된 사용자 또는 디바이스의 특성을 나타낼 수 있는 기타 정보에 기초하여 결정될 수 있다. 예시적인 실시예에서, 미디어 프로세서 회로(110) 및/또는 제 1 프로세서 회로(310)는 단계(910)에서 제 1 및 제 2 컨텍스트 파라미터에 액세스할 수 있다.
단계(920)에서, 예시적인 실시예는 제 1 및 제 2 컨텍스트 파라미터들 각각과 관련된 검색 범위 특성을 결정하는 단계를 포함한다. 예를 들어, 제 1 검색 범위는 제 1 컨텍스트 파라미터와 연관될 수 있고, 상이한 제 2 검색 범위는 제 2 컨텍스트 파라미터와 연관될 수 있다. 예시적인 실시예에서, 제 1 컨텍스트 파라미터는 제 1 모바일 디바이스(130)에 대한 GPS 좌표를 포함한다. GPS 좌표와 연관된 제 1 검색 범위는 예를 들어 GPS 좌표가 제 1 위치(701)에 대응한다고 결정될 수 있다면 상대적으로 좁을 수 있다. 이 경우, 검색 범위 특성은 선택적으로(예를 들어, 제 1 위치(701) 또는 제 1 위치(701)에 관한 다른 이전의 또는 프로그램된 정보와 연관된 이벤트의 캘린더에 의해 결정될 수 있는 바와 같이) 제 1 위치(701)와 연관되는 것으로 알려진 미디어 컨텍스트만을 포함하도록 좁혀질 수 있다.
예시적인 실시예에서, 제 2 컨텍스트 파라미터는 쿼리 데이터를 획득하는데 사용된 디바이스 타입의 표시를 포함한다. 이 예에서, 제 2 컨텍스트 파라미터는 제 1 모바일 디바이스(130)를 이용하여 관심있는 오디오 데이터 또는 쿼리 사운드가 획득되었음을 나타내는 정보를 포함할 수 있다. 예를 들어, 쿼리 사운드의 소스에 관한 정보를 이용하여, 검색 범위 특성을 좁히거나 모바일 디바이스가 수신할 가능성이 가장 높은 미디어를 식별하도록 튜닝될 수 있다. 추가로 또는 대안으로, 모바일 디바이스로부터 샘플링된 스펙트럼 정보를 최적화하도록 하나 이상의 전처리 필터가 튜닝될 수 있다.
단계(930)에서, 예시적인 실시예는 제 1 및 제 2 컨텍스트 파라미터들 중 하나를 선택하는 단계를 포함한다. 컨텍스트 파라미터들 중 선택된 하나는 단계(940)에서 분류 모델을 선택하는데 사용될 수 있다(예를 들어, 도 8의 단계(840) 참조). 즉, 단계(940)에서의 특정 분류 모델의 선택은 컨텍스트 파라미터들 중 선택된 하나에 기초하거나 적어도 부분적으로 컨텍스트 파라미터들 중 하나에 의해 통보될 수 있다.
예시적인 실시예에서, 사용을 위해 선택되는 컨텍스트 파라미터는 상대적으로 더 좁은 검색 범위에 대응하는 컨텍스트 파라미터일 수 있다. 검색 범위가 좁아지면, 미디어 분류를 수행하는데 더 집중할 수 있으므로 처리 자원이 덜 소모된다. 따라서, 상기 예시적인 실시예에서, GPS 좌표가 예를 들어, 모바일 디바이스에 의해 샘플링될 수 있거나 샘플링될 가능성이 있는 임의의 미디어 또는 모든 미디어에 비해 가능성 있는 미디어 분류의 더 작은 또는 보다 좁은 세트에 대응할 때, 제 1 컨텍스트 파라미터가 선택될 수 있다.
단계(940)에서 분류 모델을 선택하는 단계는 제 1 및 제 2 컨텍스트 파라미터들 중 선택된 하나를 사용하는 단계를 포함할 수 있다. 일부 예에서, 상이한 가중치는 상이한 컨텍스트 파라미터와 연관될 수 있고, 다중 컨텍스트 파라미터는 분류 모델을 선택하는데 사용될 수 있다(예를 들어, 다중 분류 모델을 포함하는 분류기(610)에서의 도 6을 참조하고, 각각의 상이한 모델은 여러 다른 파라미터의 함수일 수 있다). 단계(940)에서 분류 모델을 선택하는 단계는 선택된 분류 모델을 검색하고 미디어 타입의 표시를 제공하도록 구성된 뉴럴 네트워크의 컨텍스트에서 선택된 분류 모델을 적용하기 위해 미디어 프로세서 회로(110)를 사용하는 단계를 포함할 수 있다.
도 10은 전반적으로 업데이트된 분류 모델을 선택하는 단계를 포함하는 예시적인 실시예(1000)를 도시한다. 예시적인 실시예는 업데이트된 컨텍스트 파라미터 정보를 수신하고 파싱하는 단계를 포함할 수 있다. 도 10의 일부는, 도 7에 도시된 예시적인 실시예와 전반적으로 일치한다.
단계(1010)에서, 예시적인 실시예는 분류 모델 업데이트 트리거를 식별하는 단계를 포함할 수 있다. 업데이트 트리거를 식별하는 단계는 무엇보다도 쿼리 사운드 특성이 변경되었음을 결정하는 단계(가령, 톤, 진폭, 음색, 퍼쿠션 또는 기타 품질 중 하나 이상이 이전 쿼리 사운드 또는 샘플과 다른 것으로 결정하는 단계), 업데이트 간격이 경과했는지 여부를 결정하는 단계, 또는 쿼리 사운드와 연관된 컨텍스트 파라미터가 특정 임계치 이상으로 변경되었다고 결정하는 단계를 포함할 수 있다. 다시 도 4의 예를 참조하면, 가령 컨텍스트 센서 신호(420)의 상태의 변화와 관련 될 수 있는, 예를 들어 제 1 컨텍스트 데이터(421)에 기초하여 업데이트 트리거가 제공될 수 있다. 예시적인 실시예에서, 분류 모델 업데이트 트리거는 소스 디바이스에 의해(가령, 제 1 또는 제 2 모바일 디바이스(130 또는 150)에 의해), 미디어 프로세서 회로(110)에 의해, 소스 디바이스 및/또는 네트워크 기반 미디어 분류기(105)로의 사용자 입력에 의해 식별될 수 있다.
도 10의 단계(1020)에서, 예시적인 실시예는 적어도 하나의 업데이트된 컨텍스트 파라미터를 수신하는 단계를 포함한다. 예를 들어, 분류 모델 업데이트 트리거를 식별하는 단계에 응답하여, 미디어 프로세서 회로(110) 또는 다른 구성요소는 분류 모델 업데이트가 요구되는지 또는 요망되는지 여부를 평가하기 위해 업데이트된 컨텍스트 파라미터를 요청할 수 있다. 단계(1020)에서, 예시적인 실시예는 연속적 또는 간헐적인 쿼리 스트림의 변화에 기초하여 업데이트된 컨텍스트 파라미터를 수신하는 단계, 또는 디바이스 상태에 있어 감지된 변화(예를 들어, 위치 변화 또는 사용자의 변화)에 기초하여 업데이트된 컨텍스트 파라미터를 수신하는 단계를 포함할 수 있다. 도 7과 관련해, 예를 들어, 업데이트된 컨텍스트 파라미터를 수신하는 단계는 제 1 컨텍스트 데이터(712) 및 상이한 제 2 컨텍스트 데이터(722)를 수신하고 인식하기 위해 제 1 모바일 디바이스(130)(또는 다른 디바이스 또는 프로세스)를 사용하는 단계를 포함할 수 있다.
하나 이상의 컨텍스트 파라미터 업데이트가 식별되면, 단계(1030)에서, 예시적인 실시예는 분류 모델을 선택하는데 사용하기 위해 업데이트된 컨텍스트 파라미터 중 적어도 하나를 선택하는 단계를 포함한다. 예시적인 실시예에서, 가령 네트워크 기반 미디어 분류기(105)에 의해 수행되는 검색의 범위를 좁히기 위해, 미디어의 더 좁은 분류에 대응하는 컨텍스트 파라미터가 단계(1030)에서 선택된다. 단계(1040)에서, 예시적인 실시예는 업데이트된 컨텍스트 파라미터(들)에 기초하여 분류 모델을 생성한다. 선택된 분류 모델은 업데이트된 컨텍스트 파라미터(들)와 관련된 쿼리 미디어를 분류하기 위해 상술한 바와 같이 적용될 수 있다.
도 11은 전반적으로 업데이트된 분류 모델을 적용할 시기를 결정하는 단계를 포함하는 예시적인 실시예(1100)를 도시한다. 예를 들어, 컨텍스트 파라미터를 업데이트할 때 자원을 소비할 것인지 또는 언제 소비할 것인지를 결정하거나 업데이트된 분류 모델을 검색하거나 적용하기 위해 다양한 고려사항들을 평가할 수 있다.
단계(1110)에서, 미디어 프로세서 회로(110)와 같은 프로세서 회로는 이전 쿼리가 분류된 이후 지정된 지속기간이 경과했는지 여부를 결정할 수 있다. 지정된 기간은 쿼리들 간의 최소 "재시도" 또는 "재분류" 간격을 나타낼 수 있다. 단계(1105)에서, 지정된 지속기간이 경과되지 않은 경우, 시스템은 특정 업데이트 간격 동안 일시중지될 수 있다. 업데이트 간격의 만료시 쿼리를 진행할 수 있다.
단계(1120)에서, 미디어 프로세서 회로(110), 제 1 프로세서 회로(310) 또는 기타 프로세서는 품질에 대한 쿼리를 분석하는데 사용될 수 있다. 쿼리가 분류 네트워크에서 사용하기에 너무 시끄럽거나 너무 조용한 것으로(즉, 쿼리가 신호 내용이 불충분한 것으로) 여겨지는 오디오 신호 정보를 포함하면, 방법은 단계(1105)로 되돌아갈 수 있다. 가령 노이즈 또는 진폭 레벨이 변경되었는지 확인하기 위해 쿼리를 다시 샘플링할 수 있다. 일부 예에서 일부 네트워크 또는 분류 모델은 노이즈에 더 많은 허용오차가 있을 수 있다. 다른 예들에서, 우선순위 표시 또는 사용자 오버라이드(user-override)가 제공되어 네트워크가 노이즈 신호를 처리하도록 할 수 있다.
쿼리가 충분한 최소 신호 품질을 갖는 것으로 결정되면, 단계(1130)에서, 예시적인 실시예는 쿼리 자체가 소정의 임계치보다 더 많이 변했었는지 여부를 결정하는 단계를 포함할 수 있다. 쿼리 자체가 이전 쿼리(예를 들어, 주파수 내용, 음색, 퍼쿠션 또는 기타 양적 또는 질적 측정)로부터 적절히 변경되지 않은 경우, 시스템은 이전 쿼리가 여전히 현재의 피식별 쿼리 컨텐츠를 나타낼 수 있다고 가정할 수 있으며, 재분류를 방지하거나 지연시킬 수 있다. 예시적인 실시예는 단계(1105)로 돌아가 일시정지하는 것을 포함할 수 있고, 새로운 쿼리가 트리거 이벤트의 특정 간격 또는 식별 후에 생성될 수 있다.
쿼리가 이전 쿼리와 충분히 다르다면, 단계(1140)에서, 예시적인 실시예는 쿼리와 연관된 컨텍스트 파라미터가 지정된 임계치 이상으로 변경되었는지 여부를 결정하는 단계를 포함할 수 있다. 컨텍스트 파라미터가 변경되지 않았거나 새로운 컨텍스트 파라미터가 이용 가능하지 않은 경우, 예시적인 실시예는 쿼리에 이전 분류 모델을 선택하거나 적용함으로써 단계(1145)에서 계속될 수 있다. 컨텍스트 파라미터가 지정된 임계치보다 많이 변경된 것으로 판단되거나 새로운 컨텍스트 파라미터가 이용가능한 경우, 예시적인 실시예는 변경된 또는 새로운 컨텍스트 파라미터 자체가 소정의 최소 신호 품질을 만족하는지 여부를 결정함으로써 단계(1150)에서 계속될 수 있다. 예를 들어, 컨텍스트 파라미터가 노이즈를 포함하거나 미지의 컨텍스트를 나타내는 경우, 이전의 분류 모델이 (예를 들어, 단계(1145에서)) 사용될 수 있다. 그러나, 컨텍스트 파라미터가 품질 임계치를 만족하면, 예시적인 실시예는 쿼리를 분류하기 위해 새로운 컨텍스트 파라미터에 기초하여 새로운 분류 모델을 선택 및 적용함으로써 단계(1160)에서 계속될 수 있다.
도 12는 전반적으로 미디어 쿼리 식별 시스템을 트레이닝하는 단계를 포함하는 예시적인 실시예(1200)를 도시한다. 예시적인 실시예는 하나 이상의 입력 신호 특성의 변화에 대한 허용오차를 식별하는 프로세스를 포함할 수 있다. 예를 들어,이 프로세스는 미디어 쿼리 신호에서 얼마나 많은 노이즈가 허용될 수 있는지를 결정하는데 사용될 수 있다. 순전히 또는 예상된 미디어 쿼리 및/또는 컨텍스트 파라미터로부터의 노이즈량 또는 변화량을 허용오차라 한다. 입력 신호에 너무 많은 노이즈가 있는 경우, 노이즈 레벨이 지정된 허용오차 임계치를 초과하고, 노이즈 입력 신호를 기반으로 한 미디어 타입 분류가 정확하지 않을 수 있다. 가령 쿼리를 식별하거나 분류하기 기 위한 시도가 행해지기 전에, 노이즈 신호가 조기에 식별될 수 있는 경우, 시스템은 미디어 분류 서비스를 억제시킴으로써 컴퓨팅 자원 및/또는 전원을 보존할 수 있다. 특정 임계치 미만의 노이즈(또는 다른 신호 이상 특성)가 미디어 쿼리에 있으면, 시스템은 합리적인 성공 우도로 미디어 분류 프로세스를 수행할 수 있다. 즉, 입력 신호가 특정 노이즈 허용오차 임계치 미만인 노이즈(또는 다른 신호 이상 특성)을 갖는 경우, 시스템은 입력 신호의 미디어 분류를 진행할 수 있다.
단계(1210)에서, 예시적인 실시예는 트레이닝을 위해 미디어 쿼리에 액세스하는 단계를 포함한다. 단계(1220)에서, 예시적인 실시예는 트레이닝을 위해 컨텍스트 파라미터에 액세스하는 단계를 포함한다. 예시적인 실시예에서, 액세스된 미디어 쿼리 및/또는 컨텍스트 파라미터는 가령 미디어 분류 시스템을 트레이닝하는 일을 맡은 개인 또는 기계에 의해 사전선택될 수 있다. 단계(1212)에서, 미디어 트레이닝 파라미터가 도입될 수 있다. 미디어 트레이닝 파라미터를 도입하는 단계는 무엇보다도 노이즈 특성, 주파수 프로파일, 주파수 필터 또는 원래의 미디어 쿼리의 다른 특성을 추가 또는 변경하는 단계를 포함할 수 있다. 즉, 단계(1212)에서 미디어 트레이닝 파라미터를 도입하는 단계는 단계(1214)에서 업데이트된 미디어 쿼리를 제공하기 위해 원래의 미디어 쿼리의 컨텐츠 또는 하나 이상의 특성을 의도적으로 변경하는 단계를 포함할 수 있다. 예시적인 실시예에서, 미디어 트레이닝 파라미터는 지정된 허용오차 임계치에 해당하거나, 미디어 트레이닝 파라미터는 가령 분류 시스템으로 하나 이상의 새로운 조건을 테스트하거나 트레이닝시키기 위해 이전 허용오차 임계치를 초과하도록 선택될 수 있다.
단계(1222)에서, 컨텍스트 트레이닝 파라미터는 단계(1220)에서 액세스된 컨텍스트 파라미터에 유사하게 도입될 수 있다. 컨텍스트 트레이닝 파라미터를 도입하는 단계는 원래 컨텍스트 파라미터의 컨텐츠 또는 하나 이상의 특성을 의도적으로 변경하여 단계(1214)에서 업데이트된 컨텍스트를 제공하는 단계를 포함할 수 있다. 일부 실시예에서, 미디어 트레이닝 파라미터 및 컨텍스트 트레이닝 파라미터 중 적어도 하나가 사용되지 않고, 단계(1214)에서 제공되는 업데이트된 미디어 쿼리는 단계(1210)에서 액세스된 원래의 미디어 쿼리와 동일하거나, 단계(1224)에서 제공된 업데이트된 컨텍스트 파라미터는 단계(1220)에서 액세스된 원래 컨텍스트 파라미터와 동일하다.
단계(1230)에서, 제 1 분류 모델이 선택될 수 있다. 제 1 분류 모델은 미디어 쿼리, 업데이트된 미디어 쿼리, 컨텍스트 파라미터 또는 업데이트된 컨텍스트 파라미터 중 하나 이상에 기초하여 선택될 수 있다. 예시적인 실시예에서, 분류 모델은 시스템을 트레이닝시키는 일을 맡은 사용자에 의해 선택될 수 있거나, 기계에 의해 자동으로 선택될 수 있다. 단계(1240)에서, 예시적인 실시예는 제 1 분류 모델을 사용하여 업데이트된 미디어 쿼리를 분류하려고 시도할 수 있다. 단계(1240)는 미디어 쿼리에 대응하는 (예를 들어, 미디어 소스, 기원 또는 다른 식별 특성의 표시를 포함한) 하나 이상의 미디어 타입의 표시를 제공하는 단계를 포함할 수 있거나, 미디어 쿼리가 특정 미디어 타입에 해당할 우도를 제공하는 단계를 포함할 수 있다.
단계(1250)에서, 예시적인 실시예는 가령 단계(1210)에서 액세스된 원래의 미디어 쿼리에 대한 선험적인 정보에 기초하여 미디어 쿼리가 성공적으로 식별되었는지 여부를 결정하는 단계를 포함할 수 있다. 미디어 쿼리가 성공적으로 식별되면, 예시적인 실시예는 허용오차 임계치를 업데이트하면서 단계(1260)에서 계속될 수 있다. 예를 들어, 단계(1260)에서, 가령 다른 미디어 쿼리에 대한 나중의 분류 작업에서 사용하기 위해, 허용오차 임계치는 단계(1212)에서 도입된 미디어 트레이닝 파라미터에 대응하도록 업데이트될 수 있다. 예시적인 실시예에서, 단계(1212)에 도입된 미디어 트레이닝 파라미터는 제 1 노이즈 프로파일을 포함하고, 상기 제 1 노이즈 프로파일을 갖는 미디어 쿼리가 단계(1250)에서 성공적으로 분류되면, 동일 또는 다른 미디어 쿼리를 위한 나중 분류 작업에 사용하기 위해 상기 제 1 노이즈 프로파일에 대응하는 허용오차 임계치가 선택될 수 있다.
단계(1250)에서, 미디어 쿼리가 성공적으로 식별되지 않으면, 예시적인 실시예는 미디어 트레이닝 파라미터 및 컨텍스트 트레이닝 파라미터 중 하나 또는 둘 모두를 업데이트하여 단계(1270)에서 계속될 수 있다. 예시적인 실시예에서, 단계(1270)에서 트레이닝 파라미터들을 업데이트하는 단계는 이전에 사용된 허용오차와는 다른 허용오차 임계치에 해당하는 트레이닝 파라미터를 추가 분석을 위해 선택하는 단계를 포함한다. 예시적인 실시예에서, 단계(1270)에서, 가령 다른 미디어 쿼리들에 대한 나중의 분류 작업에 사용하기 위한 허용오차 임계치는 성공적인 분류를 산출하기 위해 이전에 알려져 있는 미디어 트레이닝 파라미터에 대응하도록 업데이트될 수 있다. 예시적인 실시예에서, 단계(1212)에서 도입된 미디어 트레이닝 파라미터는 제 1 노이즈 프로파일을 포함하고, 제 1 노이즈 프로파일을 갖는 미디어 쿼리가 단계(1250)에서 성공적으로 분류되지 않을 경우, 동일 또는 다른 미디어 쿼리에 대한 나중의 분류 작업에 사용하기 위해. 상이한 제 2 노이즈 프로파일에 대응하는 허용오차 임계가 선택될 수 있다
도 13은 일반적으로 미디어 쿼리를 분류할지 여부를 결정하는 단계를 포함하는 예시적인 실시예(1300)를 도시한다. 예시적인 실시예에서, 미디어 쿼리는 이전에 획득되거나 액세스될 수 있거나, 미디어 쿼리는 주기적으로 또는 간헐적으로 수신될 수 있다. 단계(1310)에서, 이 예는 이전의 분류 이벤트로부터의 특정 시간과 같은 특정 최소 지속기간 또는 업데이트 간격 동안 일시정지를 포함할 수 있다. 예를 들어, 업데이트 간격이 경과한 후, 또는 미디어 분류에 대한 사용자 요청에 응답하여, 미디어 쿼리의 노이즈 특성이 단계(1320)에서 식별될 수 있다. 예시적인 실시예에서, 노이즈 특성은 가령 네트워크 기반 미디어 분류기(105)에 대한 입력 디바이스와 연결될 수 있는 미디어 프로세서 회로(110)를 사용하여 또는 몇몇 다른 프로세서 회로를 사용하여 식별될 수 있다. 예를 들어, 제 1 모바일 디바이스(130)의 제 1 프로세서 회로(310)는 상기 제 1 모바일 디바이스(130)에 의해 수신되거나 준비된 미디어 쿼리의 노이즈 특성을 식별하는데 사용될 수 있다. 단계(1320)에서 식별된 노이즈 특성을 기초로, 미디어 분류 시스템은 미디어 분류 프로세스를 개시하거나 억제하도록 야기될 수 있다. 예를 들어, 하나 이상의 프로세서 회로의 처리 용량을 다른 작업을 위해 보존하기 위해, 미디어 분류 프로세스가 진행되는 것을 억제하거나 방지하는 것이 유리할 수 있다.
단계(1330)에서, 예시적인 실시예는 단계(1320)에서 식별된 노이즈 특성을 특정 노이즈 허용오차 임계치와 비교하는 단계를 포함한다. 노이즈 허용오차 임계치는, 사용자에 의해, 프로그래머에 의해, 특정될 수 있거나, 노이즈 허용오차 임게치는 다양한 네트워크 트레이닝 동작을 이용하는 시스템에 의해 학습될 수 있다(예를 들어, 도 12의 실시예를 참조). 단계(1332)에서, 식별된 노이즈 특성이 (예를 들어, 미디어 프로세서 회로(110)에 의해, 제 1 프로세서 회로(310)에 의해, 또는 네트워크 환경(100) 내의 디바이스와 연관된 다른 프로세서 회로에 의해) 특정 노이즈 허용오차 임계치를 초과하한다고 판단되면, 쿼리는 분류하기에 너무 노이즈가 많은 것으로 간주될 수 있고, 상기 예는 업데이트 간격 동안 일시 정지하기 위해 단계(1310)으로 되돌아갈 수 있다. 업데이트 간격이 경과한 후에, 상기 예는 가령 상이한 노이즈 특성을 갖는 후속 쿼리를 샘플링하거나 획득함으로써 계속될 수 있으며, 상기 예는 상기 상이한 노이즈 특성이 분류에 더 적합한지 여부를 결정하기 위해 후속 쿼리를 분석하는 단계를 포함할 수 있다. 단계(1332)에서, 식별된 노이즈 특성이 지정된 노이즈 허용오차 임계치를 초과하지 않으면, 상기 예는 쿼리를 분류하면서 단계(1350)에서 계속될 수 있다. 예를 들어, 실시예는 도 8의 예의 단계(840)에서 쿼리와 함께 사용하기 위한 분류 모델을 선택함으로써 계속될 수 있다.
단계(1340)에서, 예시적인 실시예는 단계(1320)에서 식별된 노이즈 특성을 이전 분류 시도가 동일하거나 유사한 노이즈 특성을 갖는 쿼리에 대한 경우인 이전 분류 시도의 결과와 비교하는 단계를 포함한다. 이전의 분류 시도가 동일하거나 유사한 노이즈 특성을 갖는 쿼리를 식별 또는 분류하는데 성공적이지 않은 경우, 쿼리 분류가 방지될 수 있고 예시적인 실시예는 단계(1310)으로 되돌아갈 수 있다. 단계(1342)에서, 동일하거나 유사한 노이즈 특성을 갖는 쿼리를 식별하거나 분류할 때 이전의 분류 시도가 성공적이면, 도 8의 예에서 단계(840)과 같이 쿼리 분류 프로세스가 시작되거나 계속될 수 있다.
도 13의 예시적인 실시예는 쿼리의 노이즈 특성을 언급하나, 다른 특성도 유사하게 분석될 수 있다. 예를 들어, 노이즈 특성 대신에, 주파수 컨텐츠 특성이 식별되어 쿼리를 분류할지 여부를 결정하는데 사용될 수 있다. 예시적인 실시예에서, 컬러 컨텐츠 특성과 같은 시각적 특성이 식별될 수 있고, 시각적 미디어 또는 비디오 정보를 포함하는 쿼리를 분류할지 여부를 결정하는데 사용될 수 있다. 다른 미디어 특성도 유사하게 분석되어 미디어 분류 프로세스를 개시하거나 억제하는 게이트로 사용될 수 있다.
도 14는 기계판독가능매체로부터 명령을 판독하고 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행할 수 있는, 몇몇 예에 따른, 기계의 구성요소를 도시하는 블록도이다. 도 14의 예시적인 실시예에서, 일부 예시적인 실시예에 따른 기계(1400)는 기계판독가능매체(1422)(예를 들어, 비일시적인 기계판독가능매체, 기계판독가능 저장매체, 컴퓨터 판독가능 저장매체, 또는 이들의 임의의 적절한 조합)로부터 명령어(1424)를 판독하고 본원에서 논의된 방법 중 어느 하나 이상을 전체적으로 또는 부분적으로 수행할 수 있다. 도 14는 컴퓨터 시스템(예를 들어, 컴퓨터)의 예시적인 형태의 기계(1400)를 나타내며, 상기 컴퓨터 시스템 내에 기계(1400)가 본 명세서에 논의된 임의의 하나 이상의 방법들을 수행하게 하는 명령어(1424)(예를 들어, 소프트웨어, 프로그램, 애플리케이션, 애플릿, 앱, 또는 기타 실행가능한 코드)가 전체적으로 또는 부분적으로 실행될 수 있다.
예시적인 실시예에서, 기계(1400)는 독립형 디바이스로서 동작하거나 다른 기계들에 통신가능하게 결합(예를 들어, 네트워크화)될 수 있다. 네트워크 배치에서, 기계(1400)는 서버-클라이언트 네트워크 환경에서 서버 기계 또는 클라이언트 기계의 용량에서 또는 분산(예컨대, 피어-투-피어) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 기계(1400)는 서버 컴퓨터, 클라이언트 컴퓨터, 퍼스널 컴퓨터(PC), 태블릿 컴퓨터, 랩톱 컴퓨터, 넷북, 휴대폰, 스마트폰, 셋톱 박스(STB), 개인휴대정보 단말기(PDA), 웹 애플리케이션, 네트워크 라우터, 네트워크 스위치, 네트워크 브릿지, 또는 상기 기계가 취할 수 있는 동작을 지정하는 명령어(1424)를 순차적으로 또는 다른 방법으로 실행할 수 있는 기타 기계일 수 있다. 또한, 단지 하나의 기계만이 도시되어 있지만, "기계"라는 용어는 본 명세서에서 논의된 임의의 하나 이상의 방법의 전부 또는 일부를 수행하기 위해 개별적으로 또는 공동으로 명령(1424)을 실행하는 임의의 기계들의 집합을 포함하는 것으로 이해되어야 한다. 예시적인 실시예에서, 기계(1400)는 네트워크 기반 미디어 분류기(105)에 대한 입력으로서 사용될 수 있는 디바이스를 포함하거나, 기계(1400)는 네트워크(100)의 전부 또는 일부를 포함할 수 있다.
도 14의 예시적인 실시예에서, 기계(1400)는 버스(1408)를 통해 서로 통신하도록 구성되는 프로세서 회로(1402)(예를 들어, 하나 이상의 중앙처리장치(CPU), 하나 이상의 GPU, 하나 이상의 디지털 신호 프로세서(DSP), 하나 이상의 주문형 집적회로(ASICs), 하나 이상의 무선주파수 집적회로(RFICs), 도는 이들의 임의의 적절한 조합), 메인 메모리(1404) 및 정적 메모리(1406)를 포함한다. 프로세서 회로(1402)는 상기 프로세서 회로(1402)가 본원에 기술된 임의의 하나 이상의 방법을 전체적으로 또는 부분적으로 수행하도록 구성될 수 있는 명령들(1424)의 일부 또는 전부에 의해 일시적으로 또는 영구적으로 구성가능한 고체상태 디지털 마이크로회로(예를 들어, 전자, 광학 또는 둘 모두)를 포함한다.
기계(1400)는 그래픽 또는 비디오를 디스플레이할 수 있는 그래픽 디스플레이(1410)를 포함할 수 있고, 기계(1400)는 문자숫자 입력 디바이스(1412)(예컨대, 키보드 또는 키패드), 포인터 입력 디바이스(1414), 데이터 스토리지(1416), 오디오 생성 디바이스(1418)(예를 들어, 사운드카드, 증폭기, 스피커, 헤드폰 잭, 또는 이들의 임의의 적절한 조합), 또는 네트워크 인터페이스 장치(1420)를 포함할 수 있다.
예시적인 실시예에서, 데이터 스토리지(1416)(예를 들어, 데이터 스토리지 디바이스)는 본 명세서에 기술된 방법 또는 기능 중 임의의 하나 이상을 구현하는 명령어(1424)가 저장된 기계판독가능매체(1422)(예를 들어, 실제적 및 비일시적 기계판독가능 저장매체)를 포함한다. 명령어(1424)는 또한 기계(1400)에 의한 실행 전 또는 실행 중에 메인 메모리(1404) 내에, 정적 메모리(1406) 내에, 프로세서 회로(1402) 내에(예를 들어, 프로세서의 캐시 메모리 내에) 또는 이들의 임의의 적절한 조합 내에서 전체적으로 또는 적어도 부분적으로 상주될 수 있다. 따라서, 메인 메모리(1404), 정적 메모리(1406) 및 프로세서 회로(1402)는 기계판독가능매체(예를 들어, 실제적 및 비일시적 기계판독가능매체)로 간주될 수 있다. 명령어(1424)는 네트워크 인터페이스 장치(1420)를 통해 네트워크(190)를 통해 송수신될 수 있다. 예를 들어, 네트워크 인터페이스 장치(1420)는 임의의 하나 이상의 전송 프로토콜들(예를 들어, HTTP)을 사용하여 명령어(1424)를 통신할 수 있다.
예시적인 실시예에서, 기계(1400)는 본 명세서에서 논의된 바와 같이 휴대용 컴퓨팅 디바이스(예를 들어, 스마트폰, 태블릿 컴퓨터 또는 웨어러블 디바이스)이고, 하나 이상의 추가 입력 구성요소(1430)(예를 들어, 센서 또는 게이지)를 가질 수 있다. 이러한 입력 구성요소(1430)의 예로는 이미지 입력 구성요소(예를 들어, 하나 이상의 카메라), 오디오 입력 구성요소(예를 들어, 하나 이상의 마이크), 방향 입력 구성요소(예를 들어, 나침반), 위치 입력 구성요소(예를 들어, GPS 수신기), 배향 구성요소(예를 들어, 자이로 스코프), 동작 감지 구성요소(예를 들어, 하나 이상의 가속도계), 고도감지 구성요소(예를 들어, 고도계), 생체인식 입력 구성요소(예를 들어, 심장 박동 감지기 또는 혈압 감지기), 및 가스 검출 구성요소(예를 들어, 가스 센서))를 포함할 수 있다. 이러한 입력 구성요소 중 하나 이상으로 수집된 입력 데이터는 여기에 설명된 구성요소 중 어느 하나에서 액세스하여 사용할 수 있다.
본 명세서에 사용된 "메모리"라는 용어는 데이터를 일시적으로 또는 영구적으로 저장할 수 있는 기계판독가능매체를 지칭하며, 랜덤 액세스 메모리(RAM), 읽기전용 메모리(ROM), 버퍼 메모리, 플래시 메모리 및 캐시 메모리를 포함하도록 취해질 수 있으나 이에 국한되지 않는다. 기계판독가능매체(1422)가 단일 매체인 예시적인 실시예로 도시되었지만, "기계판독가능매체"라는 용어는 명령어를 저장할 수 있는 단일 매체 또는 다중 매체(예를 들어, 중앙집중식 또는 분산형 데이터베이스, 또는 연관된 캐시 및 서버)를 포함할 수 있다. "기계판독가능매체"라는 용어는 또한 기계(1400)에 의한 실행을 위해 명령어(1424)를 저장할 수 있는 임의의 매체 또는 다중 매체의 조합을 포함하도록 취해져야하므로, 기계(1400)(예컨대, 프로세서 회로(1402))의 하나 이상의 프로세서들에 의한 실행시 명령어(1424)로 인해 기계(1400)는 본원에 기술된 방법 중 어느 하나 이상을 전체적으로 또는 부분적으로 수행한다. 따라서, "기계판독가능매체"는 단일 저장장치 또는 디바이스뿐만 아니라 다수의 저장장치 또는 디바이스를 포함한 클라우드 기반 스토리지 시스템 또는 스토리지 네트워크를 지칭한다. 따라서, "기계판독가능한 미디어"라는 용어는 고체상태 메모리 칩, 광디스크, 자기 디스크, 또는 이들의 임의의 적절한 조합의 예시적인 실시예 형태로 하나 이상의 실제적 및 비일시적 데이터 저장소(예를 들어, 데이터 볼륨)를 포함하도록 해석되나, 이에 국한되지 않는다. 본 명세서에서 사용된 바와 같이, "비일시적" 기계판독가능매체는 특히 전파신호 그 자체를 포함하지 않는다. 일부 예시적인 실시예에서, 기계(1400)에 의한 실행을 위한 명령어(1424)가 반송파 매체에 의해 통신될 수 있다. 그러한 반송파 매체의 예로는 저장매체(예를 들어, 한 장소에서 다른 장소로 물리적으로 이동되는 고체상태 메모리와 같은 비일시적 기계판독가능 저장매체) 및 일시적인 매체(예를 들어, 명령어(1424)를 보내는 전파신호)를 포함한다.
일부 예들은 본 명세서에서 모듈들을 포함하는 것으로서 기술된다. 모듈은 소프트웨어 모듈(예를 들어, 기계판독가능매체 또는 전송 매체에 저장되거나 구현 된 코드), 하드웨어 모듈 또는 이들의 임의의 적절한 조합을 구성할 수 있다. "하드웨어 모듈"은 소정 동작을 수행할 수 있는 실제적(예를 들어, 비일시적) 물리적 구성요소(예를 들어, 하나 이상의 프로세서 세트)로서, 특정 물리적 방식으로 구성 또는 배열될 수 있다. 다양한 예시적인 실시예에서, 하나 이상의 컴퓨터 시스템 또는 하나 이상의 하드웨어 모듈은 상기 모듈에 대해 본 명세서에서 설명된 동작을 수행하도록 동작하는 하드웨어 모듈로서 소프트웨어(예를 들어, 애플리케이션 또는 그 일부)에 의해 구성될 수 있다.
본 명세서에서 논의된 하나 이상의 프로세서 회로는 "클라우드 컴퓨팅" 환경에서 또는 (예를 들어, "서비스로서의 소프트웨어"(SaaS) 구현 내에서) 서비스로서 동작을 수행할 수 있다. 예를 들어, 본 명세서에서 논의된 임의의 하나 이상의 방법 내의 적어도 일부 동작은 (예를 들어, 프로세서를 포함하는 기계들의 예로서) 컴퓨터 그룹에 의해 수행될 수 있고, 이러한 동작은 네트워크(예를 들어, 인터넷) 및 하나 이상의 적절한 인터페이스(예를 들어, 응용 프로그램 인터페이스(API))를 통해 액세스될 수 있다. 소정 동작의 성능은 단일 기계 내에만 존재하는지 또는 예를 들어, 도 1의 네트워크(100)에서 다수의 기계들에 걸쳐 배포되었던 간에, 하나 이상의 프로세서들 사이에 분산될 수 있다. 일부 예시적인 실시예에서, 하나 이상의 프로세서 또는 하드웨어 모듈(예를 들어, 프로세서 구현 모듈)은 단일 지리적 위치(예를 들어, 가정 환경, 사무실 환경 또는 서버 팜 내)에 위치할 수 있다. 다른 예시적인 실시예에서, 하나 이상의 프로세서 또는 하드웨어 모듈은 다수의 지리적 위치에 걸쳐 분산될 수 있다.
몇가지 추가적인 예가 뒤 따른다. 실시예 1은 가령 미디어를 분류하는 방법을 포함하거나 사용할 수 있는 (예를 들어, 장치, 방법, 단계를 수행하기 위한 수단 또는, 기계에 의해 수행시, 기계가 동작을 수행하도록 구성할 수 있는 명령어를 포함하는 기계판독가능 메모리와 같은) 주제를 포함하거나 사용할 수 있으며, 상기 방법은 하나 이상의 프로세서 회로를 이용해, 피식별 미디어 쿼리를 나타내며 제 1 원격 디바이스에 의해 제공된 디지털 미디어 데이터에 액세스하는 단계; 상기 하나 이상의 프로세서 회로를 이용해, 피식별 미디어 쿼리에 대응하며 동일한 제 1 원격 디바이스에 의해 제공된 제 1 컨텍스트 파라미터에 액세스하는 단계; 상기 하나 이상의 프로세서 회로를 이용해, 디지털 미디어 데이터에 대응하는 스펙트럼 피쳐를 결정하는 단계; 및 상기 하나 이상의 프로세서 회로를 이용해, 데이터베이스에 저장되며 상기 데이터베이스에 저장된 복수의 상이한 분류 모델들 중 하나인 제 1 분류 모델을 선택하는 단계를 포함하고, 상기 선택하는 단계는 제 1 컨텍스트 파라미터에 기초한다. 실시예 1은 하나 이상의 프로세서 회로를 사용하여, 제 1 분류 모델 및 디지털 미디어 데이터에 대응하는 결정된 스펙트럼 피쳐를 사용하여 미디어 쿼리에 대한 미디어 타입 확률지수를 결정하는 단계를 더 포함할 수 있으며, 결정된 미디어 타입 확률지수는 미디어 쿼리가 복수의 상이한 미디어 특성 중 적어도 하나의 미디어 특성에 해당할 우도를 나타낸다. 실시예 1은 제 1 원격 디바이스에서 미디어 타입 확률지수 및 하나 이상의 미디어 특성 중 하나 또는 둘 다를 수신하는 단계를 더 포함할 수 있다.
실시예 2는 실시예 1의 주제를 포함하거나 사용하거나 선택적으로 이 주제와 결합될 수 있으며, 하나 이상의 프로세서 회로를 사용하여 디지털 미디어 데이터의 변경 또는 제 1 컨텍스트 파라미터의 변경을 식별하는 단계, 및, 응답으로, 상기 복수의 상이한 분류 모델 중에서 다른 제 2 분류 모델을 선택하는 단계, 및 상기 하나 이상의 프로세서 회로를 사용하여 상기 상이한 제 2 분류 모델을 이용해 업데이트된 미디어 타입 확률지수를 결정하는 단계를 더 포함한다.
실시예 3은 실시예 1 또는 2의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 복수의 상이한 분류 모델 중에서 제 1 분류 모델을 선택하는 단계는 결정된 스펙트럼 피쳐들 중 하나 이상을 선택하는 단계 및 뉴럴 네트워크의 제 1 부분과 함께 상기 선택된 하나 이상의 피쳐들에 관한 정보를 이용하는 단계를 포함하고, 상기 미디어 타입 확률지수를 결정하는 단계는 뉴럴 네트워크의 출력을 이용하는 단계를 포함하는 동작을 더 포함한다.
실시예 4는 실시예 1-3의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 미디어 타입 확률지수를 결정하는 단계는 디지털 미디어 데이터가 특정 오디오 이벤트 또는 지정된 비주얼 이벤트에 대응할 우도를 나타내는 표시를 제공하기 위해 선택된 제 1 분류 모델을 갖는 뉴럴 네트워크를 사용하는 단계를 포함하고, 상기 뉴럴 네트워크는 상기 지정된 오디오 이벤트 또는 상기 특정 비주얼 이벤트에 관한 선험적 정보를 사용하여 미리 트레이닝되는 동작을 더 포함한다.
실시예 5는 실시예 1-4 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 1 컨텍스트 파라미터에 액세스하는 단계는 디지털 미디어 데이터가 모바일 디바이스의 마이크에 의해 수신된 오디오 데이터를 포함하는 것을 나타내는 컨텍스트 파라미터에 액세스하는 단계를 포함하고, 제 1 분류 모델을 선택하는 단계는 모바일 디바이스에 대한 음성/음악 분류 모델을 선택하는 단계를 포함하며, 미디어 타입 확률지수를 결정하는 단계는 모바일 디바이스용의 선택된 음성/음악 분류 모델을 이용하는 단계 및 모바일 디바이스의 마이크에 의해 수신된 오디오 데이터를 포함하는 디지털 미디어 데이터에 대응하는 결정된 스펙트럼 피쳐를 이용하는 단계를 포함하는 동작을 더 포함한다.
실시예 6은 실시예 1-5 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 상기 제 1 컨텍스트 파라미터에 액세스하는 단계는 디지털 미디어 데이터가 텔레비전 방송으로부터 수신된 오디오 데이터를 포함하는 것을 나타내는 컨텍스트 파라미터에 액세스하는 단계를 포함하고, 제 1 분류 모델을 선택하는 단계는 텔레비전 방송에 대한 음성/음악 분류 모델을 선택하는 단계를 포함하고, 오디오 타입 확률지수를 결정하는 단계는 텔레비전 방송을 위해 상기 선택된 음성/및 음악 분류 모델을 이용하는 단계 및 상기 텔레비전 방송으로부터 수신된 상기 오디오 데이터를 포함하는 상기 디지털 미디어 데이터에 대응하는 상기 결정된 스펙트럼 피쳐들을 이용하는 단계를 포함하는 동작을 더 포함한다.
실시예 7은 실시예 1-6 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 1 컨텍스트 파라미터에 액세스하는 단계는 디지털 미디어 데이터의 소스 타입의 표시에 액세스하는 단계를 포함하고, 상기 소스 타입은 모바일 디바이스, 방송 비디오 또는 방송 오디오 스트림, 로컬 신호 소스, 또는 마이크 신호 소스 중 하나 이상을 포함하는 동작을 더 포함한다.
실시예 8은 실시예 1-7 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 하나 이상의 프로세서 회로를 사용하여, 피식별 미디어 쿼리에 대응하며 동일한 제 1 원격 디바이스 또는 다른 디바이스에 의해 제공되는 제 2 컨텍스트 파라미터에 액세스하는 단계, 상기 하나 이상의 프로세서 회로를 사용하여, 각각의 상기 제 1 및 제 2 컨텍스트 파라미터와 각각 관련된 검색 범위 특성을 결정하는 단계, 및 데이터베이스로부터 그리고 하나 이상의 프로세스 회로들을 이용하여 더 좁은 검색 범위와 관련된 제 1 및 제 2 컨텍스트 파라미터 중 하나를 선택하는 단계를 더 포함하고, 상기 제 1 분류 모델을 선택하는 단계는 더 좁은 검색 범위와 관련된 제 1 및 제 2 컨텍스트 파라미터 중 상기 선택된 하나를 사용하는 단계를 포함한다.
실시예 9는 실시예 1-8 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 하나 이상의 프로세서 회로를 사용하여 피식별 미디어 쿼리에 대응하는 제 2 컨텍스트 파라미터에 액세스하는 단계, 하나 이상의 프로세서 회로를 사용하여 각각의 상기 제 1 및 제 2 컨텍스트 파라미터와 각각 관련된 신호 품질 특성을 결정하는 단계, 및 하나 이상의 프로세서 회로들을 사용하여 결정된 상기 신호 품질 특성을 기초로 상기 제 1 및 제 2 컨텍스트 파라미터들 중 하나를 선택하는 단계를 더 포함하고, 상기 제 1 분류 모델을 선택하는 단계는 상기 제 1 및 제 2 컨텍스트 파라미터들 중 상기 선택된 하나를 사용하는 단계를 포함한다.
실시예 10은 실시예 1-9 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 미디어 쿼리에 대응하는 제 1 컨텍스트 파라미터에 액세스하는 단계는 피식별 미디어 쿼리와 일시적으로 일치하는 컨텐츠 정보에 액세스하는 단계를 포함하는 동작을 더 포함한다.
실시예 11은 실시예 1-10 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 1 컨텍스트 파라미터에 액세스하는 단계는 디지털 미디어 데이터 그 자체의 샘플링된 부분의 결정된 특성을 이용하여 제 1 컨텍스트 파라미터를 결정하는 단계를 포함하는 동작을 더 포함한다.
실시예 12는 실시예 11의 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 미디어 데이터 자체를 사용하여 제 1 컨텍스트 파라미터를 결정하는 단계는 미디어 데이터 그 자체가 이전에 녹음된 음악, 라이브 뮤직, 음성, 텔레비전 오디오, 영화 오디오, 게임 오디오 또는 기타 오디오 중 하나 이상을 포함하는지 여부를 결정하는 단계를 포함하는 동작을 포함하거나 사용한다.
실시예 13은 실시예 1-12 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 1 컨텍스트 파라미터에 액세스하는 단계는 제 1 원격 디바이스와 관련된 센서 디바이스로부터 컨텍스트 정보를 수신하는 단계를 포함하고, 상기 센서 디바이스는 GPS 또는 위치 센서, 가속도계, 마이크, 시계 또는 타이머 회로, 또는 사용자 입력 중 하나 이상을 포함하는 동작을 더 포함한다.
실시예 14는 실시예 1-13 중 적어도 하나의 대상을 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 초기에 디지털 미디어 데이터가 액세스된 이후에 임계치 변화가 미디어 쿼리에 발생했는지를 결정하기 위해 디지털 미디어 데이터에 대응하는 결정된 스펙트럼 피쳐를 분석하는 단계 및 임계치 변화가 발생하지 않은 경우 미디어 타입 확률지수 결정을 억제하는 단계를 더 포함한다.
실시예 15는 실시예 1-14 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 액세스하는 단계는 연속적인 쿼리 사운드 소스로부터 주기적으로 또는 간헐적으로 오디오 데이터를 샘플링하는 단계를 포함하고, 상기 미디어 타입 확률지수를 결정하는 단계는 주기적으로 또는 간헐적으로 샘플링된 오디오 데이터 각각에 대한 오디오 타입 확률지수를 결정하는 단계를 포함하는 동작을 더 포함한다.
실시예 16은 실시예 1-15 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 검색 깊이 파라미터를 결정하는 단계를 더 포함하고, 상기 미디어 타입 확률지수를 결정하는 단계는 상기 미디어 타입 확률지수를 결정하는데 소모되는 프로세서 회로 자원량을 결정하기 위해 검색 깊이 파리미터를 사용하는 단계를 포함한다.
실시예 17은 실시예 1-16 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 액세스하는 단계는 미디어 데이터의 신호 품질을 분석하는 단계를 더 포함하며, 신호 품질이 불충분한 경우, 미디어 쿼리의 다른 부분에 대응하는 디지털 미디어 데이터를 재샘플링하는 단계를 포함하는 동작을 더 포함한다.
실시예 18은 실시예 1-17 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 1 분류 모델을 선택하는 단계는 이전에 특정 사용자와 연관된 복수의 분류 모델들 중에서 모델을 선택하는 단계를 포함하는 경우를 더 포함한다.
실시예 19는 실시예 1-18 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 미디어 쿼리와 연관된 미디어 타입 확률지수를 결정하는 단계는 미디어 타입 확률지수 및/또는 적어도 하나의 미디어 특성을 제공하는 컨볼루션 뉴럴 네트워크에 대한 입력으로서 스펙트럼 피쳐를 사용하는 단계를 포함하는 동작을 더 포함한다.
실시예 20은 기계의 적어도 하나의 프로세서에 의한 실행시, 상기 기계가: 원격 디바이스로부터, 피식별 미디어 쿼리를 나타내는 디지털 미디어 데이터를 수신하는 단계; 상기 원격 디바이스로부터, 피식별 미디어 쿼리에 대응하는 제 1 컨텍스트 파라미터를 수신하는 단계; 상기 수신된 제 1 컨텍스트 파라미터에 기초하며, 상기 데이터베이스에 저장된 복수의 상이한 분류 모델들 중 하나인 제 1 분류 모델을 데이터베이스로부터 선택하는 단계; 상기 선택된 제 1 분류 모델을 적용하기 위해 뉴럴 네트워크를 사용하여 미디어 쿼리에 대한 미디어 타입 확률지수를 결정하는 단계; 상기 결정된 미디어 타입 확률지수를 사용하여 상기 미디어 쿼리에 대한 적어도 하나의 미디어 특성을 결정하는 단계; 및 상기 원격 디바이스에 상기 미디어 쿼리에 대한 적어도 하나의 미디어 특성을 제공하는 단계를 포함하는 동작을 수행하게 하는 명령어를 포함하는 실체적이고 비일시적인 컴퓨터 판독가능 저장매체를 포함할 수 있거나 또는 사용할 수 있는 주제(예를 들어, 장치, 방법, 동작을 수행하기 위한 수단, 또는 기계에 의한 수행시 동작을 수행하도록 기계를 구성할 수 있는 명령어를 포함하는 기계판독가능 메모리)를 포함하거나 사용할 수 있다.
실시예 21은 실시예 20의 주제를 포함하거나 사용하거나 또는 선택적으로 예 20의 주제와 결합될 수 있으며, 동작은: 동일한 또는 다른 원격 디바이스로부터, 동일하거나 상이한 피식별 미디어 쿼리에 대응하는 연이은 제 2 컨텍스트 파라미터를 수신하는 단계; 상기 수신된 제 2 컨텍스트 파라미터에 기초하며, 상기 데이터베이스로부터 제 2 분류 모델을 선택하는 단계; 및 상기 선택된 제 2 분류 모델을 적용하기 위해 상기 뉴럴 네트워크를 사용하여 동일하거나 상이한 피식별 미디어 쿼리에 대해 업데이트된 미디어 타입 확률지수를 결정하는 단계를 포함하는 동작을 더 포함한다.
실시예 22는 실시예 20 및 21 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 동작은: 원격 디바이스의 상태 변화 표시를 수신하는 단계; 상기 식별 정보를 수신한 것에 응답하여, 동일하거나 상이한 피식별 미디어 쿼리에 대응하는 연이은 제 2 컨텍스트 파라미터에 액세스하는 단계; 상기 수신된 제 2 컨텍스트 파라미터에 기초하며, 상기 데이터베이스로부터 제 2 분류 모델을 선택하는 단계; 및 상기 선택된 제 2 분류 모델을 적용하기 위해 상기 뉴럴 네트워크를 사용하여 동일하거나 상이한 미디어 쿼리에 대한 업데이트된 미디어 타입 확률지수를 결정하는 단계를 포함하는 동작을 더 포함한다.
실시예 23은 실시예 22의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 원격 디바이스의 상태 변화 표시를 수신하는 동작은 상기 디바이스에 대응하는 환경 특성의 변화에 대해 감지된 정보를 수신하는 단계를 포함하는 동작을 포함하거나 사용한다.
실시예 24는 실시예 20-23 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 동작은 미디어 쿼리와 관련된 노이즈 특성을 결정하는 단계; 및 결정된 노이즈 특성이 특정 임계 노이즈 수준을 초과하는 미디어 쿼리와 관련된 노이즈 레벨을 나타내면, 제 1 컨텍스트 파라미터에 액세스하거나, 데이터베이스로부터 제 1 분류 모델을 선택하거나, 또는 미디어 타입 확률지수를 결정하기 위한 하나 이상의 동작을 억제하는 단계를 더 포함하는 동작을 더 포함한다.
실시예 25는 실시예 20-24 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 상기 동작은 미디어 쿼리와 관련된 스펙트럼 특성을 결정하는 단계; 및 상기 결정된 스펙트럼 특성에 기초하여, 제 1 컨텍스트 파라미터에 액세스하거나, 데이터베이스로부터 제 1 분류 모델을 선택하거나, 또는 미디어 타입 확률지수를 결정하기 위한 하나 이상의 동작을 선택적으로 억제하는 단계를 더 포함하는 동작을 더 포함한다.
실시예 26은 제 1 프로세서 회로, 피식별 미디어 쿼리를 나타내는 디지털 미디어 데이터를 수신하도록 구성된 제 1 센서 및 모바일 디바이스에 관한 제 1 컨텍스트 정보를 감지하도록 구성된 제 2 센서를 포함하는 모바일 디바이스를 구비한 시스템으로서, 상기 제 1 프로세서 회로는 상기 디지털 미디어 데이터 및 상기 제 1 컨텍스트 정보를 원격 미디어 분류기에 전송하도록 구성되는 시스템을 포함하거나 사용할 수 있는 주제(예를 들어, 장치, 방법, 동작을 수행하기 위한 수단, 또는 기계에 의한 수행시 기계가 동작을 수행하도록 구성할 수 있는 명령어를 포함하는 기계판독가능 메모리)를 포함하거나 사용할 수 있다. 실시예 26에서, 시스템은 원격 미디어 분류기와 연관된 제 2 프로세서 회로를 더 포함할 수 있으며, 제 2 프로세서 회로는 모바일 디바이스로부터 디지털 미디어 데이터 및 제 1 컨텍스트 정보를 수신하도록 구성되며, 제 2 프로세서 회로는 상기 제 2 프로세서 회로가 상기 수신된 디지털 미디어 데이터 및 상기 제 1 컨텍스트 정보에 기초하여 복수의 상이한 분류 모델들을 포함하는 데이터베이스로부터 제 1 분류 모델을 선택하는 단계; 상기 선택된 제 1 분류 모델 및 상기 디지털 미디어 데이터를 사용하여 피식별 미디어에 대한 미디어 특성을 결정하는 단계; 및 상기 결정된 미디어 특성을 상기 모바일 디바이스에 제공하는 단계를 포함한 동작을 수행하게 하는 명령어를 실행하도록 구성된다.
실시예 27은 실시예 26의 주제에 선택적으로 결합되거나 사용될 수 있으며, 제 1 프로세서 회로가 특정 간격으로 원격 미디어 분류기에 대한 일련의 데이터 전송을 조정하도록 구성되고, 상기 데이터 전송은 상기 제 1 센서를 사용하여 샘플링된 디지털 미디어 데이터의 각각의 샘플 및 상기 제 2 센서를 사용하여 감지된 컨텍스트 정보의 대응하는 샘플을 포함하고, 상기 제 2 프로세서 회로는 상기 제 2 프로세서 회로가 상기 샘플링된 디지털 미디어 데이터 및 대응하는 샘플링된 컨텍스트 정보의 대응하는 쌍에 기초하며, 상기 데이터베이스로부터 상이한 제 2 분류 모델을 선택하는 단계; 및 상기 선택된 다른 제 2 분류 모델을 사용하여 상기 미디어 특성을 결정하는 단계를 더 포함하게 하는 동작을 수행하게 하는 명령어를 실행하도록 구성되는 동작을 포함하거나 사용한다.
실시예 28은 실시예 26 및 27 중 적어도 하나의 주제를 선택적으로 포함하거나 이용하거나 또는 선택적으로 결합될 수 있으며, 모바일 디바이스는 상기 모바일 디바이스에 대한 상이한 제 2 컨텍스트 정보를 감지하도록 구성된 제 3 센서를 더 포함하고, 상기 제 1 및 제 2 프로세서 회로 중 하나는 상기 데이터베이스로부터 상기 제 1 분류 모델을 선택하는데 사용하기 위해 상기 제 1 및 다른 제 2 컨텍스트 정보 중 하나를 선택하도록 구성되는 동작을 더 포함한다.
실시예 29는 실시예 26-28 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 모바일 디바이스가 디지털 미디어 데이터 및 상기 제 1 컨텍스트 정보 중 하나 또는 둘 다에 대한 노이즈 특성을 식별하도록 구성된 스펙트럼 분석 회로를 더 포함하고, 상기 제 1 프로세서 회로는 상기 식별된 노이즈 특성이 특정 임계 노이즈 레벨 미만의 노이즈 레벨을 나타내면 상기 디지털 미디어 데이터 및 상기 제 1 콘텍스트 정보를 상기 원격 미디어 분류기로 전송하도록 구성되는 동작을 더 포함한다.
실시예 30은 실시예 26-29 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 모바일 디바이스가 디지털 미디어 데이터의 주파수 특성을 식별하도록 구성된 스펙트럼 분석 회로를 더 포함하는 것을 포함하고, 상기 제 1 프로세서 회로는 상기 식별된 주파수 특성이 지정된 주파수 특성 조건을 만족할 때 상기 디지털 미디어 데이터 및 상기 제 1 컨텍스트 정보를 상기 원격 미디어 분류기로 전송하도록 구성되는 동작을 더 포함한다.
실시예 31은 실시예 26-30 중 적어도 하나의 대상을 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 2 센서는 상기 디지털 미디어 데이터와 관련된 주변 노이즈 특성을 감지하도록 구성된 마이크를 포함하고, 상기 제 2 프로세서 회로는 상기 디지털 미디어 데이터와 관련된 상기 감지된 주변 노이즈 특성을 사용하여 상기 데이터베이스로부터 상기 제 1 분류 모델을 선택하는 단계를 수행하도록 구성되는 동작을 더 포함한다.
실시예 32는 실시예 26-31 중 적어도 하나의 대상을 포함하거나 사용하거나, 선택적으로 결합될 수 있으며, 제 2 센서는 모바일 디바이스의 위치에 관한 정보를 감지하도록 구성되는 위치 센서를 포함하고, 상기 제 2 프로세서 회로는 상기 모바일 디바이스의 위치에 관한 상기 감지된 정보를 사용하여 상기 데이터베이스로부터 상기 제 1 분류 모델을 선택하는 단계를 수행하도록 구성되는 동작을 더 포함한다.
실시예 33은 제 1 디바이스와 연관된 하나 이상의 프로세서 회로를 사용하여 피식별 미디어 쿼리를 나타내는 디지털 미디어 데이터에 액세스하는 단계, 상기 제 1 디바이스와 연관된 하나 이상의 프로세서 회로를 사용하여 디지털 미디어 데이터에 대응하는 노이즈 특성을 결정하는 단계, 상기 결정된 노이즈 특성이 상기 디지털 미디어 데이터에 대응하는 노이즈의 특정 임계치 미만인 것을 나타내면, 상기 디지털 미디어 데이터를 디지털 미디어 데이터의 소스 특성을 식별하도록 구성된 원격 미디어 분류회로로 전송하는 단계, 및 그렇지 않으면, 원격 미디어 분류회로로 상기 디지털 미디어 데이터의 송신을 억제하는 단계를 포함하거나 사용할 수 있는 주제(예를 들어, 장치, 방법, 동작을 수행하기 위한 수단, 또는 기계에 의한 수행시 동작을 수행하도록 기계를 구성할 수 있는 명령어를 포함하는 기계판독가능 메모리)를 포함하거나 사용할 수 있다.
실시예 34는 실시예 33의 주제를 포함하거나 사용하거나, 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 액세스하는 단계는 모바일 디바이스의 마이크를 사용하여 오디오 신호를 수신하는 단계를 포함하고, 노이즈 특성을 결정하는 단계는 하나 이상의 프로세서 회로를 사용하여 수신된 오디오 신호의 노이즈 특성을 결정하는 단계를 포함하는 동작을 더 포함한다.
실시예 35는 실시예 33 또는 34의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 1 디바이스와 연관된 하나 이상의 프로세서 회로를 사용하여, 피식별 미디어 쿼리에 대응하는 제 1 컨텍스트 파라미터에 액세스하는 단계, 및 상기 제 1 디바이스와 연관된 하나 이상의 프로세서 회로를 사용하여, 상기 제 1 컨텍스트 파라미터에 대응하는 신호 품질 특성을 결정하는 단계를 더 포함한다. 실시예 35에서, 상기 제 1 컨텍스트 파라미터에 대응하는 결정된 신호 품질 특성이 특정 임계 신호 품질 미만인 경우, 실시예는 원격 미디어 분류회로에 디지털 미디어 데이터의 송신을 억제하는 단계를 포함할 수 있다.
실시예 36은 실시예 33-35 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 임계 노이즈 특성의 데이터베이스로부터 노이즈의 지정된 임계치를 검색하는 단계를 더 포함하며, 상기 데이터베이스는 뉴럴 네트워크 기반 분류기 시스템을 사용하여 동일하거나 유사한 미디어 쿼리를 사전에 트레이닝함으로써 구축되고, 상기 데이터베이스는 제 1 디바이스 또는 원격 미디어 분류회로에 저장된다.
실시예 37은 실시예 33-36 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 디지털 미디어 데이터를 미디어 분류회로로 송신하는 단계는 컨벌루션 뉴럴 네트워크 분류기 시스템의 입력에 디지털 미디어 데이터를 제공하는 단계를 포함하는 동작을 더 포함한다.
실시예 38은 실시예 33-37 중 적어도 하나의 대상을 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 결정된 노이즈 특성이 제 1 특정 노이즈 임계 범위에 해당하면, 미디어 분류회로를 사용하여 제 1 검색 깊이를 갖는 제 1 미디어 분류 프로세스를 개시하는 단계, 및 결정된 노이즈 특성이 더 큰 제 2 노이즈 임계 범위에 해당하면, 미디어 분류회로를 사용하여 상이한 제 2 검색 깊이를 갖는 제 2 미디어 분류 프로세스를 개시하는 단계를 더 포함한다.
실시예 39는 실시예 33-38 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 대응하는 결정된 노이즈 특성에 기초하여 미디어 분류 검색 깊이를 선택하는 단계를 포함하고, 상기 선택된 미디어 분류 검색 깊이는 경과된 최대 처리시간 또는 상기 디지털 미디어 데이터의 소스 특성을 식별하기 위해 상기 미디어 분류회로에 의해 소비된 최대 처리노력을 나타내는 동작을 더 포함한다.
실시예 40은 실시예 33-39 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 원격 미디어 분류회로를 사용하여 디지털 미디어 데이터에 대응하는 결정된 노이즈 특성을 성공적으로 분류된 다른 미디어 데이터와 성공적으로 분류되지 못한 다른 미디어 데이터에 대응하는 노이즈 특성과 비교하는 단계, 및 상기 결정된 노이즈 특성이 성공적으로 분류되지 못한 다른 미디어 데이터에 대응하는 노이즈 특성보다 성공적으로 분류된 다른 미디어 데이터에 대응하는 노이즈 특성에 더 가깝게 일치하면, 디지털 미디어 데이터를 미디어 분류회로로 전송하는 단계를 더 포함한다.
실시예 41은 실시예 33-40 중 적어도 하나의 대상을 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 미디어 분류회로로의 디지털 미디어 데이터 전송을 억제하는 단계는 다른 피식별 미디어 쿼리를 나타내는 연이은 디지털 미디어 데이터에 액세스하는 단계, 상기 연이은 디지털 미디어 데이터에 대응하는 업데이트된 노이즈 특성을 결정하는 단계, 및 상기 업데이트된 노이즈 특성이 노이즈의 지정된 노이즈 임계치 미만인지 여부를 결정하는 단계를 포함하는 동작을 더 포함한다.
실시예 42는 실시예 33-41 중 적어도 하나의 주제를 포함하거나 사용하거나, 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 액세스하는 단계는 제 1 디바이스를 사용해 미디어 쿼리에 대응하는 오디오 샘플을 액세스하는 단계를 포함하고, 상기 노이즈 특성을 결정하는 단계는 상기 오디오 샘플에 대한 노이즈 특성을 결정하는 단계를 포함하며, 상기 디지털 미디어 데이터를 상기 미디어 분류회로에 전송하는 단계는 상기 오디오 샘플의 전부 또는 일부를 상기 미디어 분류회로에 전송하는 단계를 포함하는 동작을 더 포함한다.
실시예 43은 예 33-42 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 액세스하는 단계는 미디어 쿼리에 대응하는 비디오 신호 샘플에 액세스하는 단계를 포함하고, 상기 노이즈 특성을 결정하는 단계는 상기 비디오 신호 샘플의 시각적 특성을 결정하는 단계를 포함하며, 상기 디지털 미디어 데이터를 상기 미디어 분류회로에 전송하는 단계는 상기 비디오 신호 샘플의 전부 또는 일부를 상기 미디어 분류회로에 전송하는 단계를 포함하는 동작을 더 포함한다.
실시예 44는 예 33-43 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 1 디바이스에서 그리고 미디어 분류회로로부터, 디지털 미디어 데이터의 소스 특성의 표시를 수신하는 단계 및 상기 디지털 미디어 데이터의 소스 특성의 표시를 모바일 디바이스의 사용자에게 디스플레이하는 단계를 더 포함한다.
실시예 45는 기계의 적어도 하나의 프로세서에 의한 실행시, 상기 기계가: 하나 이상의 프로세서 회로를 사용하여 피식별 미디어 쿼리를 나타내는 디지털 미디어 데이터에 액세스하는 단계; 상기 하나 이상의 프로세서 회로를 사용하여, 상기 디지털 미디어 데이터의 스펙트럼 특성에 기초한 뉴럴 네트워크 분류기에 의해 미디어 쿼리가 성공적으로 식별될 수 있는 우도를 결정하는 단계; 상기 결정된 우도가 특정 임계 우도보다 큰 경우, 상기 디지털 미디어 데이터를 상기 뉴럴 네트워크 분류기의 제 1 입력부에 제공하는 단계; 상기 디지털 미디어 데이터에 응답하여 상기 뉴럴 네트워크 분류기로부터 상기 미디어 쿼리에 대한 미디어 타입 확률지수를 수신하는 단계; 및 상기 미디어 타입 확률지수에 관한 정보를 원격 디바이스에 제공하여 상기 원격 디바이스의 사용자에게 미디어 타입의 표시를 제공하는 단계를 포함하는 동작을 수행하게 하는 명령어를 포함하는 실체적인 비일시적 컴퓨터 판독가능 저장매체를 포함하거나 사용할 수 있는 주제(예를 들어, 디바이스, 방법, 동작을 수행하기 위한 수단 또는 기계에 의한 수행시 동작을 수행하도록 기계를 구성할 수 있는 명령어를 포함하는 기계판독가능 메모리)를 포함하거나 사용할 수 있다.
실시예 46은 실시예 45의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 대응하는 신호 노이즈 특성을 결정하는 단계, 및 미디어 쿼리가 뉴럴 네트워크 분류기에 의해 성공적으로 식별될 수 있을 우도를 결정하는 단계는 결정된 신호 노이즈 특성에 기초하여 우도를 결정하는 단계를 더 포함한다.
실시예 47은 실시예 45 또는 46의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 디지털 미디어 데이터에 대응하는 주파수 컨텐츠 특성을 결정하는 단계, 및 미디어 쿼리가 뉴럴 네트워크 분류기에 의해 성공적으로 식별될 수 있을 우도를 결정하는 단계는 결정된 주파수 컨텐츠 특성에 기초하여 우도를 결정하는 단계를 포함하는 동작을 더 포함한다.
실시예 48은 실시예 45-47 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 미디어 쿼리와 연관된 컨텍스트 파라미터에 액세스하는 단계를 더 포함하고, 컨텍스트 파라미터 및 디지털 미디어 데이터는 원격 디바이스로부터 액세스되며, 우도를 결정하는 단계는 네트워크 노드 가중화 모델에 기초하여 구성된 뉴럴 네트워크 분류기에 의해 상기 미디어 쿼리가 성공적으로 식별될 수 있을 우도를 결정하는 단계를 포함하며, 상기 가중화 모델은 액세스된 컨텍스트 파라미터에 기초하여 선택되는 동작을 더 포함한다.
실시예 49는 피식별 미디어 쿼리를 나타내는 디지털 미디어 데이터를 수신하도록 구성된 제 1 센서 및 원격 미디어 분류회로에 디지털 미디어 데이터를 전송하도록 구성된 제 1 프로세서 회로를 포함하는 모바일 디바이스를 포함하는 시스템을 포함하거나 사용할 수 있는 주제(예를 들어, 장치, 방법, 동작을 수행하기 위한 수단, 또는 기계에 의한 수행시 동작을 수행하도록 기계를 구성할 수 있는 명령어를 포함하는 기계판독가능 메모리)를 포함하거나 사용할 수 있다. 실시예 49에서, 시스템은 원격 미디어 분류기 회로와 연관된 제 2 프로세서 회로를 더 포함할 수 있고, 제 2 프로세서 회로는 모바일 디바이스로부터 디지털 미디어 데이터를 수신하도록 구성되며, 제 2 프로세서 회로는 상기 제 2 프로세서 회로가: 상기 디지털 미디어 데이터에 대응하는 스펙트럼 특성을 결정하는 단계; 및 상기 디지털 미디어 데이터에 대응하는 결정된 스펙트럼 특성에 기초하여, 상기 제 2 프로세서 회로에 의해 적어도 부분적으로 실행되는 컨볼루션 뉴럴 네트워크 기반 미디어 분류기를 인에이블하거나 억제하는 단계; 및 상기 디지털 미디어 데이터를 입력으로 사용하는 단계를 포함하는 동작을 수행하게 하는 명령어를 실행하도록 구성되고, 상기 컨볼루션 뉴럴 네트워크 기반 미디어 분류기는 상기 디지털 미디어 데이터가 특정 미디어 분류에 일치할 우도의 표시를 상기 모바일 디바이스에 통신하도록 구성된다.
실시예 50은 실시예 49의 주제를 포함하거나 사용하거나 또는 선택적으로 결합될 수 있으며, 모바일 디바이스는 피식별 미디어 쿼리에 대응하는 제 1 컨텍스트 정보를 감지하도록 구성된 제 2 센서를 더 포함하고, 제 1 프로세서 회로는 디지털 미디어 데이터 및 상기 제 1 컨텍스트 정보를 상기 원격 미디어 분류회로로 전송하도록 구성되는 경우를 더 포함한다. 실시예 50에서, 제 2 프로세서 회로가 컨벌루션 뉴럴 네트워크 기반 미디어 분류 프로세스를 인에이블시키면, 제 2 프로세서 회로의 동작은 복수의 상이한 분류 모델을 포함하는 데이터베이스로부터 컨벌루션 뉴럴 네트워크에 의해 사용하기 위한 제 1 분류 모델을 선택하는 단계를 더 포함할 수 있으며, 상기 선택하는 단계는 수신된 디지털 미디어 데이터 및 모바일 디바이스에 관한 상기 제 1 컨텍스트 정보에 기초한다.
실시예 51은 실시예 49 또는 50의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 제 2 프로세서 회로는 상기 제 2 프로세서 회로가: 복수의 노드 가중화 모델을 포함하는 데이터베이스로부터 뉴럴 네트워크 노드 가중화 모델을 선택하는 단계를 더 포함하는 동작을 수행하게 하는 명령어를 실행하도록 구성되고, 선택된 모델은 디지털 미디어 데이터가 특정 미디어 분류에 대응할 우도의 표시를 제공하기 위해 컨볼루션 뉴럴 네트워크 기반의 미디어 분류기에 의한 사용을 위한 것이며, 상기 모델을 선택하는 단계는 디지털 미디어 데이터에 대응하는 결정된 스펙트럼 특성을 사용하는 단계를 포함하고, 상기 선택된 모델은 상기 컨볼루션 뉴럴 네트워크 기반 미디어 분류기에 있는 하나 이상의 노드의 가중화 특성을 정의하는 동작을 더 포함한다.
실시예 52는 실시예 49-51 중 적어도 하나의 주제를 포함하거나 사용하거나 선택적으로 결합될 수 있으며, 식별된 신호 노이즈 특성이 상기 디지털 미디어 데이터 내의 노이즈의 특정 임계치 미만인 것을 나타내는 경우에만 모바일 디바이스의 제 1 프로세서 회로는 디지털 미디어 데이터의 신호 노이즈 특성을 식별하고 상기 디지털 미디어 데이터를 상기 원격 미디어 분류회로로 전송하도록 더 구성되는 동작을 더 포함한다.
이 상세한 설명은 상세한 설명의 일부를 형성하는 첨부도면에 대한 참조를 포함한다. 도면은 예로써 본 발명이 실시될 수 있는 특정 실시예를 나타낸다. 이들 실시예를 본 명세서에서 "예"라 한다. 이러한 실시예는 도시되거나 설명된 것 이외의 요소를 포함할 수 있다. 그러나, 본 발명자는 도시되거나 설명된 요소들만 제공되는 예를 또한 고려한다. 본원의 발명자는 도시되거나 기술된 특정 예(또는 그 하나 이상의 태양) 또는 다른 예(또는 그 하나 이상의 태양)에 관하여 도시되거나 기술된 이들 요소(또는 그 하나 이상의 태양)의 임의의 조합 또는 순열을 사용한 예를 고려한다.
본 문서에서, 용어 "a" 또는 "an"은 특허문헌에서 통상적으로 사용되는 바와 같이, "적어도 하나" 또는 "하나 이상"의 임의의 다른 경우 또는 용도와 별개로 하나 이상을 포함하는데 사용된다. 이 문서에서 "또는"은 달리 명시되지 않는 한 비배타적이거나, "A 또는 B"가 "A는 아니지만 B", "B는 아니지만 A" 및 "A와 B"를 포함하게 의미하도록 사용된다. 이 문서에서, "포함하는" 및 "~에 있어"이라는 용어는 각각의 용어 "구비하는" 및 "~에 있어서"의 평이한 영어식 표현으로 사용된다.
다양한 일반적 및 특정 실시예가 본 명세서에 기술되었으나, 본 개시의 폭넓은 범위를 벗어나지 않으면서 이들 실시예에 대해 다양한 수정 및 변경이 이루어질 수 있음이 명백할 것이다. 따라서, 명세서 및 도면은 제한적인 의미라기보다는 예시적인 것으로 간주되어야 한다. 본 출원의 일부를 형성하는 첨부도면은 주제가 실시될 수 있는 특정 실시예를 설명하기 위한 것이지 한정하기 위한 것은 아니다. 도시된 실시예는 당업자가 본 명세서에 개시된 교시를 실시할 수 있도록 충분히 상세하게 기술되어 있다. 본 개시의 범위를 벗어남이 없이 구조적 및 논리적 대체 및 변경이 이루어질 수 있도록 다른 실시예가 사용될 수 있거나 이로부터 유도될 수 있다. 따라서, 본 발명의 상세한 설명은 제한적인 의미로 받아들여서는 안되며, 다양한 실시예들의 범위는 청구항에 권리 부여된 등가물의 전체 범위와 함께 청구 범위의해서만 정의된다. 특정 실시예 또는 예가 본 명세서에 도시되고 설명되었지만, 동일한 목적을 달성하도록 계산된 임의의 구성도 도시된 특정 실시예를 대체할 수 있음을 이해해야 한다. 본 개시는 다양한 실시예의 임의의 및 모든 개조 또는 변형을 포함하도록 의도되어 있다. 상기 실시예의 조합 및 본원에서 구체적으로 기술되지 않은 다른 실시예는 상기 설명을 검토하면 당업자에게 명백할 것이다.
Claims (15)
- 식별되는 제1 미디어 쿼리를 나타내는 제1 디지털 미디어 데이터에 접근하는 오디오 재생 회로;
제1 프로세서 회로로서:
제1 디지털 미디어 데이터에 대응하는 제1 노이즈 특성을 결정하고;
제2 미디어 쿼리를 위한 이전 분류 시도가 성공적이었는지 여부를 결정하는 제1 프로세서 회로; 및
트랜시버 회로로서:
이전 분류 시도가 성공적인데 응답하여, 제1 디지털 미디어 데이터를 제1 디지털 미디어 데이터의 미디어 타입을 식별하는 원격 미디어 분류기로 송신하고;
이전 분류 시도가 성공적이지 않은데 응답하여, 제1 디지털 미디어 데이터의 원격 미디어 분류기로의 송신을 억제하는 트랜시버 회로를 포함하고,
제2 미디어 쿼리는 제1 노이즈 특성과 유사한 제2 노이즈 특성을 가지는 제2 디지털 미디어 데이터가 나타내는 장치. - 청구항 1에 있어서,
제1 디지털 미디어 데이터에 접근하기 위하여, 오디오 재생 회로는 마이크로폰을 통해 캡처되는 오디오 신호를 수신하는 장치. - 청구항 1에 있어서,
제1 프로세서 회로는:
제1 미디어 쿼리에 대응하는 제1 컨텍스트 파라미터에 접근하고;
제1 컨텍스트 파라미터에 대응하는 신호 품질을 결정하고,
트랜시버 회로는, 신호 품질이 신호 품질 임계치 미만인데 응답하여, 제1 디지털 미디어 데이터의 원격 미디어 분류기로의 송신을 억제하는 장치. - 청구항 1에 있어서,
제1 프로세서 회로는:
허용오차 임계치의 데이터베이스에서 허용오차 임계치를 검색하고;
제1 노이즈 특성이 허용오차 임계치 미만인지 여부를 결정하고,
허용오차 임계치는 원격 미디어 분류기의 미디어 분류를 신뢰할 수 없는 노이즈 레벨을 나타내고, 데이터베이스는 뉴럴 네트워크 기반 원격 미디어 분류기로 미디어 쿼리의 이전 트레이닝에 의해 확립되는 장치. - 청구항 1에 있어서,
제1 디지털 미디어 데이터를 원격 미디어 분류기로 송신하기 위하여, 트랜시버 회로는 컨볼루션 뉴럴 네트워크 분류기의 입력으로 제1 디지털 미디어 데이터를 송신하는 장치. - 청구항 1에 있어서,
제1 프로세서 회로는 원격 미디어 분류기로부터, 제1 디지털 미디어 데이터의 미디어 특성을 수신하는 장치. - 청구항 1에 있어서,
제1 디지털 미디어 데이터에 접근하기 위하여, 오디오 재생 회로는 제1 미디어 쿼리에 대응하는 비디오 신호 샘플에 접근하고;
제1 노이즈 특성을 결정하기 위하여, 제1 프로세서 회로는 비디오 신호 샘플의 시각적 특성을 결정하고;
제1 디지털 미디어 데이터를 원격 미디어 분류기에 송신하기 위하여, 트랜시버 회로는 비디오 신호 샘플의 전부 또는 일부를 원격 미디어 분류기에 송신하는 장치. - 식별되는 제1 미디어 쿼리를 나타내는 제1 디지털 미디어 데이터에 접근하는 단계;
프로세서 회로로 명령어를 실행함으로써, 제1 디지털 미디어 데이터에 대응하는 제1 노이즈 특성을 결정하는 단계;
프로세서 회로로 명령어를 실행함으로써, 제2 미디어 쿼리를 위한 이전 분류 시도가 성공적이었는지 여부를 결정하는 단계; 및
이전 분류 시도가 성공적인데 응답하여, 제1 디지털 미디어 데이터를 제1 디지털 미디어 데이터의 미디어 타입을 식별하는 원격 미디어 분류기로 송신하는 단계; 및
이전 분류 시도가 성공적이지 않은데 응답하여, 제1 디지털 미디어 데이터의 원격 미디어 분류기로의 송신을 억제하는 단계를 포함하고,
제2 미디어 쿼리는 제1 노이즈 특성과 유사한 제2 노이즈 특성을 가지는 제2 디지털 미디어 데이터가 나타내는 방법. - 청구항 8에 있어서,
제1 디지털 미디어 데이터에 접근하는 단계는 마이크로폰을 통해 캡처되는 오디오 신호를 수신하는 단계를 포함하는 방법. - 청구항 8에 있어서,
제1 미디어 쿼리에 대응하는 제1 컨텍스트 파라미터에 접근하는 단계;
제1 컨텍스트 파라미터에 대응하는 신호 품질을 결정하는 단계;
신호 품질이 신호 품질 임계치 미만인데 응답하여, 제1 디지털 미디어 데이터의 원격 미디어 분류기로의 송신을 억제하는 단계를 더 포함하는 방법. - 청구항 8에 있어서,
허용오차 임계치의 데이터베이스에서 허용오차 임계치를 검색하는 단계;
제1 노이즈 특성이 허용오차 임계치 미만인지 여부를 결정하는 단계를 더 포함하고,
허용오차 임계치는 원격 미디어 분류기의 미디어 분류를 신뢰할 수 없는 노이즈 레벨을 나타내고, 데이터베이스는 뉴럴 네트워크 기반 원격 미디어 분류기로 미디어 쿼리의 이전 트레이닝에 의해 확립되는 방법. - 청구항 8에 있어서,
제1 디지털 미디어 데이터를 원격 미디어 분류기로 송신하는 단계는 컨볼루션 뉴럴 네트워크 분류기의 입력으로 제1 디지털 미디어 데이터를 송신하는 단계를 포함하는 방법. - 청구항 8에 있어서,
제1 프로세서 회로는 원격 미디어 분류기로부터, 제1 디지털 미디어 데이터의 미디어 특성을 수신하는 단계를 더 포함하는 방법. - 청구항 8에 있어서,
제1 디지털 미디어 데이터에 접근하는 단계는 제1 미디어 쿼리에 대응하는 비디오 신호 샘플에 접근하는 단계를 포함하고,
제1 노이즈 특성을 결정하는 단계는 비디오 신호 샘플의 시각적 특성을 결정하는 단계를 포함하고,
제1 디지털 미디어 데이터를 원격 미디어 분류기에 송신하는 단계는 비디오 신호 샘플의 전부 또는 일부를 원격 미디어 분류기에 송신하는 단계를 포함하는 방법. - 실행시, 프로세서 회로가 청구항 8 내지 청구항 14 중 어느 하나의 항의 방법을 수행하게 하는 컴퓨터 판독가능한 명령어를 포함하는 실체적 컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662274362P | 2016-01-03 | 2016-01-03 | |
US62/274,362 | 2016-01-03 | ||
US15/185,616 US10902043B2 (en) | 2016-01-03 | 2016-06-17 | Responding to remote media classification queries using classifier models and context parameters |
US15/185,654 | 2016-06-17 | ||
US15/185,616 | 2016-06-17 | ||
US15/185,654 US10678828B2 (en) | 2016-01-03 | 2016-06-17 | Model-based media classification service using sensed media noise characteristics |
PCT/US2016/068898 WO2017117234A1 (en) | 2016-01-03 | 2016-12-28 | Responding to remote media classification queries using classifier models and context parameters |
KR1020207019482A KR102450993B1 (ko) | 2016-01-03 | 2016-12-28 | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207019482A Division KR102450993B1 (ko) | 2016-01-03 | 2016-12-28 | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220137794A true KR20220137794A (ko) | 2022-10-12 |
KR102571011B1 KR102571011B1 (ko) | 2023-08-25 |
Family
ID=59226362
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187022348A KR102132888B1 (ko) | 2016-01-03 | 2016-12-28 | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 |
KR1020207019482A KR102450993B1 (ko) | 2016-01-03 | 2016-12-28 | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 |
KR1020227033841A KR102571011B1 (ko) | 2016-01-03 | 2016-12-28 | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187022348A KR102132888B1 (ko) | 2016-01-03 | 2016-12-28 | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 |
KR1020207019482A KR102450993B1 (ko) | 2016-01-03 | 2016-12-28 | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 |
Country Status (4)
Country | Link |
---|---|
US (3) | US10902043B2 (ko) |
EP (2) | EP4024233A1 (ko) |
JP (2) | JP6730435B2 (ko) |
KR (3) | KR102132888B1 (ko) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10372757B2 (en) | 2015-05-19 | 2019-08-06 | Spotify Ab | Search media content based upon tempo |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
WO2017214411A1 (en) | 2016-06-09 | 2017-12-14 | Tristan Jehan | Search media content based upon tempo |
WO2017214408A1 (en) * | 2016-06-09 | 2017-12-14 | Tristan Jehan | Identifying media content |
KR102497299B1 (ko) * | 2016-06-29 | 2023-02-08 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US9972320B2 (en) * | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10032256B1 (en) * | 2016-11-18 | 2018-07-24 | The Florida State University Research Foundation, Inc. | System and method for image processing using automatically estimated tuning parameters |
US10460727B2 (en) * | 2017-03-03 | 2019-10-29 | Microsoft Technology Licensing, Llc | Multi-talker speech recognizer |
US11134279B1 (en) * | 2017-07-27 | 2021-09-28 | Amazon Technologies, Inc. | Validation of media using fingerprinting |
US10761802B2 (en) * | 2017-10-03 | 2020-09-01 | Google Llc | Identifying music as a particular song |
CN108038122B (zh) * | 2017-11-03 | 2021-12-14 | 福建师范大学 | 一种商标图像检索的方法 |
WO2019135621A1 (ko) * | 2018-01-04 | 2019-07-11 | 삼성전자 주식회사 | 영상 재생 장치 및 그의 제어 방법 |
US11500904B2 (en) | 2018-06-05 | 2022-11-15 | Amazon Technologies, Inc. | Local data classification based on a remote service interface |
US11443058B2 (en) * | 2018-06-05 | 2022-09-13 | Amazon Technologies, Inc. | Processing requests at a remote service to implement local data classification |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
JP7326667B2 (ja) * | 2018-07-31 | 2023-08-16 | マーベル アジア ピーティーイー、リミテッド | ストレージエッジにおけるメタデータ生成 |
WO2020028583A1 (en) * | 2018-07-31 | 2020-02-06 | Marvell World Trade Ltd. | Systems and methods for generating metadata describing unstructured data objects at the storage edge |
US10846588B2 (en) * | 2018-09-27 | 2020-11-24 | Deepmind Technologies Limited | Scalable and compressive neural network data storage system |
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
US11609942B2 (en) * | 2018-11-15 | 2023-03-21 | Microsoft Technology Licensing, Llc | Expanding search engine capabilities using AI model recommendations |
KR102691543B1 (ko) | 2018-11-16 | 2024-08-02 | 삼성전자주식회사 | 오디오 장면을 인식하는 전자 장치 및 그 방법 |
CN111276159A (zh) * | 2018-12-05 | 2020-06-12 | 阿里健康信息技术有限公司 | 一种婴儿发音分析方法及服务器 |
US20200293860A1 (en) * | 2019-03-11 | 2020-09-17 | Infineon Technologies Ag | Classifying information using spiking neural network |
CN111488400B (zh) * | 2019-04-28 | 2021-03-30 | 北京京东尚科信息技术有限公司 | 数据分类方法、装置和计算机可读存储介质 |
CN110377786A (zh) * | 2019-07-24 | 2019-10-25 | 中国传媒大学 | 音乐情感分类方法 |
US11954610B2 (en) | 2019-08-09 | 2024-04-09 | GE Precision Healthcare LLC | Active surveillance and learning for machine learning model authoring and deployment |
CN112447187B (zh) | 2019-09-02 | 2024-09-06 | 富士通株式会社 | 声音事件的识别装置和方法 |
CN111061909B (zh) * | 2019-11-22 | 2023-11-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏分类方法和装置 |
US11356167B1 (en) * | 2020-04-14 | 2022-06-07 | Anokiwave, Inc. | Selective calibration of signal processing integrated circuits in a phased array system |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
CN111428273B (zh) * | 2020-04-23 | 2023-08-25 | 北京中安星云软件技术有限公司 | 基于机器学习的动态脱敏方法及装置 |
US11550904B2 (en) * | 2020-08-25 | 2023-01-10 | Robert Bosch Gmbh | System and method for improving measurements of an intrusion detection system by transforming one dimensional measurements into multi-dimensional images |
US11595720B2 (en) * | 2020-09-22 | 2023-02-28 | Thomas Michael Gallagher | Systems and methods for displaying a context image for a multimedia asset |
US11948598B2 (en) * | 2020-10-22 | 2024-04-02 | Gracenote, Inc. | Methods and apparatus to determine audio quality |
US11410677B2 (en) * | 2020-11-24 | 2022-08-09 | Qualcomm Incorporated | Adaptive sound event classification |
KR102470637B1 (ko) * | 2020-11-26 | 2022-11-25 | (주)심플랫폼 | 클라우드 기반 디바이스 인공지능 설정 시스템 및 방법 |
JPWO2022259589A1 (ko) * | 2021-06-08 | 2022-12-15 | ||
US11974012B1 (en) | 2023-11-03 | 2024-04-30 | AVTech Select LLC | Modifying audio and video content based on user input |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070117660A (ko) * | 2005-03-10 | 2007-12-12 | 콸콤 인코포레이티드 | 컨텐트 적응적 멀티미디어 처리 |
US20110161076A1 (en) * | 2009-12-31 | 2011-06-30 | Davis Bruce L | Intuitive Computing Methods and Systems |
US20120069767A1 (en) * | 2009-06-23 | 2012-03-22 | Minde Tor Bjoern | Method and an arrangement for a mobile telecommunications network |
US20130185063A1 (en) * | 2012-01-13 | 2013-07-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2015030796A1 (en) * | 2013-08-30 | 2015-03-05 | Intel Corporation | Extensible context-aware natural language interactions for virtual personal assistants |
KR20150083580A (ko) * | 2014-01-10 | 2015-07-20 | 한국전자통신연구원 | 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법 |
US20150332667A1 (en) * | 2014-05-15 | 2015-11-19 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5285498A (en) | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
CA2135415A1 (en) | 1993-12-15 | 1995-06-16 | Sean Matthew Dorward | Device and method for efficient utilization of allocated transmission medium bandwidth |
US5404377A (en) | 1994-04-08 | 1995-04-04 | Moses; Donald W. | Simultaneous transmission of data and audio signals by means of perceptual coding |
SE515674C2 (sv) | 1997-12-05 | 2001-09-24 | Ericsson Telefon Ab L M | Apparat och metod för brusreducering |
US7966078B2 (en) * | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US7068723B2 (en) | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
JP4352790B2 (ja) | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
EP1542206A1 (en) | 2003-12-11 | 2005-06-15 | Sony International (Europe) GmbH | Apparatus and method for automatic classification of audio signals |
DE602005008041D1 (de) | 2004-04-29 | 2008-08-21 | Koninkl Philips Electronics Nv | Verfahren und system zur klassifizierung eines audiosignals |
DE102004036154B3 (de) | 2004-07-26 | 2005-12-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm |
US8005675B2 (en) | 2005-03-17 | 2011-08-23 | Nice Systems, Ltd. | Apparatus and method for audio analysis |
WO2006132596A1 (en) | 2005-06-07 | 2006-12-14 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio clip classification |
JP2007058532A (ja) | 2005-08-24 | 2007-03-08 | Sony Corp | 情報処理システム、情報処理装置および方法、プログラム、並びに、記録媒体 |
US20070083365A1 (en) | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
US9123350B2 (en) | 2005-12-14 | 2015-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
US8364467B1 (en) * | 2006-03-31 | 2013-01-29 | Google Inc. | Content-based classification |
JP2008227579A (ja) | 2007-03-08 | 2008-09-25 | Advanced Telecommunication Research Institute International | 無線装置およびそれを備えた無線通信ネットワーク |
JP2008243104A (ja) | 2007-03-29 | 2008-10-09 | Clarion Co Ltd | 楽曲分類装置、および楽曲分類方法 |
US20080300702A1 (en) | 2007-05-29 | 2008-12-04 | Universitat Pompeu Fabra | Music similarity systems and methods using descriptors |
CN102077275B (zh) * | 2008-06-27 | 2012-08-29 | 皇家飞利浦电子股份有限公司 | 用于从声学数据生成词条的方法和设备 |
WO2010001393A1 (en) | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
EP2159720A1 (en) * | 2008-08-28 | 2010-03-03 | Bach Technology AS | Apparatus and method for generating a collection profile and for communicating based on the collection profile |
JP5482655B2 (ja) * | 2008-09-01 | 2014-05-07 | 日本電気株式会社 | 画像同一性尺度算出システム |
US8560313B2 (en) | 2010-05-13 | 2013-10-15 | General Motors Llc | Transient noise rejection for speech recognition |
DE112009005215T8 (de) | 2009-08-04 | 2013-01-03 | Nokia Corp. | Verfahren und Vorrichtung zur Audiosignalklassifizierung |
CN102498515B (zh) | 2009-09-17 | 2014-06-18 | 延世大学工业学术合作社 | 处理音频信号的方法和设备 |
US9031243B2 (en) | 2009-09-28 | 2015-05-12 | iZotope, Inc. | Automatic labeling and control of audio algorithms by audio recognition |
CN102044244B (zh) | 2009-10-15 | 2011-11-16 | 华为技术有限公司 | 信号分类方法和装置 |
CN102714034B (zh) | 2009-10-15 | 2014-06-04 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
US9112989B2 (en) | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
CN103038765B (zh) * | 2010-07-01 | 2017-09-15 | 诺基亚技术有限公司 | 用于适配情境模型的方法和装置 |
US8762144B2 (en) * | 2010-07-21 | 2014-06-24 | Samsung Electronics Co., Ltd. | Method and apparatus for voice activity detection |
WO2012147256A1 (ja) | 2011-04-25 | 2012-11-01 | パナソニック株式会社 | 画像処理装置 |
CN102982804B (zh) | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
CN103918247B (zh) * | 2011-09-23 | 2016-08-24 | 数字标记公司 | 基于背景环境的智能手机传感器逻辑 |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9098576B1 (en) * | 2011-10-17 | 2015-08-04 | Google Inc. | Ensemble interest point detection for audio matching |
JP5836095B2 (ja) | 2011-12-05 | 2015-12-24 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US11321772B2 (en) * | 2012-01-12 | 2022-05-03 | Kofax, Inc. | Systems and methods for identification document processing and business workflow integration |
KR101343768B1 (ko) | 2012-04-19 | 2014-01-16 | 충북대학교 산학협력단 | 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법 |
US9218543B2 (en) * | 2012-04-30 | 2015-12-22 | Hewlett-Packard Development Company, L.P. | Selecting classifier engines |
US20140019390A1 (en) * | 2012-07-13 | 2014-01-16 | Umami, Co. | Apparatus and method for audio fingerprinting |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9311931B2 (en) | 2012-08-09 | 2016-04-12 | Plantronics, Inc. | Context assisted adaptive noise reduction |
US9305559B2 (en) | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
US10423973B2 (en) * | 2013-01-04 | 2019-09-24 | PlaceIQ, Inc. | Analyzing consumer behavior based on location visitation |
IN2013DE00589A (ko) | 2013-02-28 | 2015-06-26 | Samsung India Electronics Pvt Ltd | |
CN104347067B (zh) | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
US9437189B2 (en) * | 2014-05-29 | 2016-09-06 | Google Inc. | Generating language models |
US9465994B1 (en) | 2015-02-23 | 2016-10-11 | Amazon Technologies, Inc. | Predicting performance and success of large-scale vision algorithms |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US9697825B2 (en) * | 2015-04-07 | 2017-07-04 | Nexidia Inc. | Audio recording triage system |
US9443517B1 (en) | 2015-05-12 | 2016-09-13 | Google Inc. | Generating sounds for detectability by neural networks |
US20170017576A1 (en) * | 2015-07-16 | 2017-01-19 | Qualcomm Incorporated | Self-adaptive Cache Architecture Based on Run-time Hardware Counters and Offline Profiling of Applications |
US20170032247A1 (en) | 2015-07-31 | 2017-02-02 | Qualcomm Incorporated | Media classification |
US10417579B2 (en) * | 2015-09-25 | 2019-09-17 | Mcafee, Inc. | Multi-label classification for overlapping classes |
US10902043B2 (en) | 2016-01-03 | 2021-01-26 | Gracenote, Inc. | Responding to remote media classification queries using classifier models and context parameters |
-
2016
- 2016-06-17 US US15/185,616 patent/US10902043B2/en active Active
- 2016-06-17 US US15/185,654 patent/US10678828B2/en active Active
- 2016-12-28 EP EP22158366.9A patent/EP4024233A1/en active Pending
- 2016-12-28 KR KR1020187022348A patent/KR102132888B1/ko active IP Right Grant
- 2016-12-28 JP JP2018534631A patent/JP6730435B2/ja active Active
- 2016-12-28 KR KR1020207019482A patent/KR102450993B1/ko active IP Right Grant
- 2016-12-28 EP EP16882570.1A patent/EP3398048B1/en active Active
- 2016-12-28 KR KR1020227033841A patent/KR102571011B1/ko active IP Right Grant
-
2020
- 2020-07-02 JP JP2020114761A patent/JP6916352B2/ja active Active
-
2021
- 2021-01-25 US US17/157,796 patent/US20210149939A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070117660A (ko) * | 2005-03-10 | 2007-12-12 | 콸콤 인코포레이티드 | 컨텐트 적응적 멀티미디어 처리 |
US20120069767A1 (en) * | 2009-06-23 | 2012-03-22 | Minde Tor Bjoern | Method and an arrangement for a mobile telecommunications network |
US20110161076A1 (en) * | 2009-12-31 | 2011-06-30 | Davis Bruce L | Intuitive Computing Methods and Systems |
US20130185063A1 (en) * | 2012-01-13 | 2013-07-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
WO2015030796A1 (en) * | 2013-08-30 | 2015-03-05 | Intel Corporation | Extensible context-aware natural language interactions for virtual personal assistants |
KR20150083580A (ko) * | 2014-01-10 | 2015-07-20 | 한국전자통신연구원 | 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법 |
US20150332667A1 (en) * | 2014-05-15 | 2015-11-19 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
Also Published As
Publication number | Publication date |
---|---|
KR102132888B1 (ko) | 2020-07-20 |
JP6730435B2 (ja) | 2020-07-29 |
US20170193097A1 (en) | 2017-07-06 |
KR20180120146A (ko) | 2018-11-05 |
EP4024233A1 (en) | 2022-07-06 |
JP2020184085A (ja) | 2020-11-12 |
EP3398048A4 (en) | 2019-06-05 |
JP6916352B2 (ja) | 2021-08-11 |
US10678828B2 (en) | 2020-06-09 |
KR102571011B1 (ko) | 2023-08-25 |
US20170193362A1 (en) | 2017-07-06 |
KR102450993B1 (ko) | 2022-10-06 |
EP3398048A1 (en) | 2018-11-07 |
KR20200100677A (ko) | 2020-08-26 |
US20210149939A1 (en) | 2021-05-20 |
JP2019508787A (ja) | 2019-03-28 |
EP3398048B1 (en) | 2023-07-26 |
US10902043B2 (en) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102450993B1 (ko) | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 | |
US11762494B2 (en) | Systems and methods for identifying users of devices and customizing devices to users | |
CN107928673B (zh) | 音频信号处理方法、装置、存储介质和计算机设备 | |
US10819811B2 (en) | Accumulation of real-time crowd sourced data for inferring metadata about entities | |
CN112074900B (zh) | 用于自然语言处理的音频分析 | |
US9159324B2 (en) | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context | |
US10643620B2 (en) | Speech recognition method and apparatus using device information | |
CN110622155A (zh) | 将音乐识别为特定歌曲 | |
CN105874732B (zh) | 用于识别音频流中的一首音乐的方法和装置 | |
US9224385B1 (en) | Unified recognition of speech and music | |
KR20130117844A (ko) | 환경 사운드 인식용 시스템 및 방법 | |
US20140379346A1 (en) | Video analysis based language model adaptation | |
CN110689896A (zh) | 追溯性声音识别系统 | |
WO2017117234A1 (en) | Responding to remote media classification queries using classifier models and context parameters | |
JP6731802B2 (ja) | 検出装置、検出方法及び検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |