KR20230079186A

KR20230079186A - 의미론적으로 관련된 컨텐츠를 추천하는 시스템 및 방법

Info

Publication number: KR20230079186A
Application number: KR1020237014814A
Authority: KR
Inventors: 조셉 마이클 윌리엄 라이스크; 나딘 크로허; 안젤로스 피크라키스
Original assignee: 이모셔널 퍼셉션 에이아이 리미티드
Priority date: 2020-10-02
Filing date: 2021-10-01
Publication date: 2023-06-05
Also published as: US20220107800A1; BR112023006164A2; GB202015695D0; US11977845B2; MX2023003827A; EP4205035A1; US20220107975A1; US20220108175A1; AU2021351207A1; WO2022069904A1; GB2599441B; CA3194565A1; US11544565B2; GB2599441A

Abstract

데이터 파일의 추출 가능한 측정 가능한 속성에서 파생된 특성 벡터는 해당 데이터 파일의 의미론적 특성에 매핑된다. 특성 벡터는 특성 공간에서 쌍별 유사성/비유사성을 의미론적 공간에서 해당 쌍별 의미론적 유사성/비유사성을 향해 매핑하는 파일 쌍을 사용하여 ANN의 쌍별 교육에 따라 훈련된 인공 신경망의 출력이고 데이터 파일의 의미론적 특성을 보존하고 나타낸다. 시스템 및 방법은 생성된 특성 벡터 사이의 비교에 기초하여 평가하고 순위를 매긴 다음 데이터 파일을 포함하는 사용자로부터의 질의로부터 데이터베이스의 후보 파일을 의미론적으로 닫거나 의미론적으로 이질화하는 것을 추천 및/또는 필터링한다. 분류 및 추천 시스템 및 방법의 적용은 음악, 비디오, 이미지 데이터 및/또는 텍스트 파일 형태의 미디어를 포함하는 미디어 또는 검색 도구 및 소셜 미디어 플랫폼에 적용된다.

Description

의미론적으로 관련된 컨텐츠를 추천하는 시스템 및 방법

본 발명은 일반적으로 데이터 파일로부터 추출된 특성으로부터 유도된 특성-기반 파일 벡터를 생성하고 특성-기반 파일 벡터가 데이터 파일의 의미론적 특성을 보존하고 나타내는 인공 지능 및 신경망에 관한 것이다. 보다 상세하게는, 본 발명은 사용자로부터의 질의에 응답하여, 특히 소셜 미디어 플랫폼 또는 검색 엔진과 같은 인터넷-기반 플랫폼에서 질의에 대한 배타적이지는 않지만 데이터베이스에서 의미론적으로 닫히거나 의미론적으로 상이한 후보 파일을 평가하고 순위를 매긴 다음 추천 및/또는 필터링하기 위한 시스템 및 방법에 관한 것이다. 보다 구체적으로, 분류 및 추천 시스템 및 방법의 애플리케이션은 음악, 비디오 및/또는 이미지 데이터 파일 형태의 미디어에 적용되지만, 애플리케이션이 널리 적용 가능하고 개인 보고서를 포함하는 스피치(speech) 및 텍스트 데이터 파일의 평가에 애플리케이션을 찾는다.

통상적으로 인공 신경망 아키텍처에 기초하는 인공 지능(artificial intelligence) "AI"에 대한 가장 도전적인 장기 목적들 중 하나는 인간의 지적 행동을 복제하는 것이다. 이것은 특히 사람의 의견이 자극에 대한 주관적 반응에 기초하고 AI에서의 기존의 접근 방식이 감정적 관점 반응과 잘 상관되지 않기 때문에 복잡한 제안이다. 오히려, AI에서의 컴퓨팅 아키텍처에 대한 근거는 객관적으로 식별 가능한 특성들을 갖는 대량의 데이터의 동화에 기초한 가장 가능성 있는 반응의 함축이다.

심층 신경망(deep neural network) "DNN"의 정밀화, 즉 훈련은 이해되는 바와 같이 네트워크에서 사용될 가중치들의 DNN의 계산에 필요한 그래디언트를 계산하기 위해, 에러들의 "역전파(backpropagation)", 즉 역방향 전파의 개념에 종종 기초한다. 따라서, DNN은, 이해되는 바와 같이, 그의 계층들을 통해 이동하고, 선형 관계인지 또는 비선형 관계인지에 관계없이 입력을 출력으로 전환하는 정확한 수학적 조작을 발견 위한 시도로서 각각의 출력의 확률을 계산한다.

AI 대 음악 해석에서의 현재의 제한된 접근 방식의 실제 예로서, 상이한 음악들 사이의 인식된 유사성의 식별은 의미상 인식된 유사성들에 관련되기보다는 절대 유사성들로 제한된다. 이것은, 제 1 검사에서, 문제가 되지 않을 수 있지만, 지적 및 실제 입장에서는, 사람의 마음에서 생성, 인식 및 경험되는 것을 제외하고는 음악과 같은 것이 없기 때문에 기본적인 문제가 남아 있다. 환언하면, "음악은 본질적으로 존재하지 않는데... 그 이유는 음악도 언어도 순수한 표면 형태로서 연구될 수 없기 때문이며, 이는 둘 다의 인식이 표면 형태에 포함되지 않는 정보를 생성하기 때문이다". 이 제안은 논문 "음악의 부재에 관하여: 음악 이론이 상상의 산물인 이유(On the non-existence of music: why music theory is a figment of the imagination)" by Geraint A. Wiggins et al in ESCOM European Society for the Cognitive Sciences of Music, Music Scienti, Discussion Form　5, 2010, pages 231-255에서 확립된다.

따라서, 처음부터 (측정된 파라미터들의 해석에 기초한) 절대성의 정도에 기초하는 기존의 AI 모델링은, 음악 검색 도구의 예시적인 맥락에서, 일관성 없고/없거나 가짜 결과들을 생성할 결과로 치명적으로 결함이 있다.

정의된 시작 지점(예를 들어, 음악 작품의 향기 또는 조성, 리듬 및 음색의 특정 설명)에 관하여, 주관적인 속성들, 품질들 또는 특성들의 허용가능하게 가까운 세트를 갖는다는 관점에서 완전히 관련되지 않거나 다른 방식으로 잠재적으로 서로 관련되는 검색가능한 전자 이미지들 및/또는 데이터의 관련성을 찾아내고 평가하기 위해, 그림들 또는 사진들 또는 실제로 의료 CT 스캔들과 같은 이미지의 해석들, 또는 (냄새의 설명, 의료 보고서 또는 픽션의 작품에서의 플롯의 윤곽과 같은) 다른 순전히 서술적인 표현들과 같은, 다른 형태의 표현의 식별 및 분류에 동일한 문제들이 존재한다.

실제로, 기존 AI 시스템들은 의미상 관련된 속성들을 해결할 수 없고, 따라서 의미 유사성들을 간과하면서 인식적으로 구별되는 비유사성들이 밀접하게 관련된다는 것을 허락하거나 제안할 수 있다.

음악, 영화 및 게임 산업 - 및 특히 컨텐츠의 제공에 관한 양태들 -이 진화하고 있다. 이와 관련하여, 스트리밍되거나 다운로드된 디지털 파일들로서의 (예를 들어) 음악 또는 사운드트랙들의 판매 또는 배포가 그러한 시장들에서 지배적이 되고 있다. 이것은 확립된, 그러나 지금은 줄어드는 커스텀 소매 아웃렛들을 통한 컴팩트 디스크 및 DVD 기술들(또는 역사적으로 비닐 디스크들)의 판매와 대조적이다.

음악 판매가 사실상 상업적이고 컨텐츠가 인식적이며 심미적이지만, 개인의 특정의 취향에 맞춰진 공통의 음악 특성을 공유하는 트랙을 찾아내는 기존의 간단하고 신뢰성있는 메커니즘이 없다. 이 진술을 한정하기 위해, 음악은 그의 장르, 예를 들어, 단지 몇 개만 예를 들자면, 재즈, 록, 클래식 및 블루스와 관련하여 광범위하게 분류되지만, 이들 장르 각각 내에는 보통 방대한 수의 하위 카테고리 또는 하위 종이 존재한다. 예를 들어, 프리-펑크, 크로스오버, 하드 밥 및 스윙을 포함하는 적어도 30개의 상이한 형태의 재즈가 명백히 존재한다. 이러한 하위 종들은 속을 정의하는 사용자 구별 가능 구성 아키텍처들에서 일부 중요한 유사성들을 공유할 수 있지만, 종종, 충분히 청각적으로 또는 음악적으로 두드러지는 상당한 비유사성들도 존재한다. 추가 맥락을 제공하기 위해, 2개의 상이한 종의 재즈는 특정 청취자가 하나를 좋아하는 반면 다른 하나는 좋아하지 않는다고 결론을 내리도록 인식적으로 매우 심하게 청각적으로 상이할 수 있다. 동일한 (그러나 반대인) 토큰에 의해, 청취자는 실제로 이들 2개의 상이한 오디오 트랙이 음악 공간에서의 그들의 근접성 면에서 실질적으로 동일할 때 [음악 공간에서 그리고 음악적 의미에서] 그의 청취 특성들이 하드 록에 의해 편성된 것들과 상이해야 한다는 결함 있는 인식에 기초하여 고전 음악을 조기에 무시할 수 있다(또는 단순히 단지 그것을 인식하지 못할 수 있다).

통상적으로 각각이 수백만 개의 노래를 포함하는 온라인 음악 라이브러리들 - iTunes®및 Tidal®음악 라이브러리들 각각은 약 오천만 개의 트랙을 포함한다고 주장됨 -에서는, 잠재적으로 완전히 상이한 장르들에 걸쳐 있는 무수한 트랙들 사이의 사용자-인식 공통 음악 테마들, 특성들 또는 특징들을 식별하기 위해 이 데이터베이스들이 어떻게 효과적으로 검색될 수 있는지에 관한 문제가 존재한다. 결과적으로, 유사한 음악에 대한 검색은 - 그리고, 지금까지, 실제로 빈번하게 - 전체 장르들(또는 장르의 적어도 하위-종들)을 고려하지 못하고/못하거나 상이한 장르들로부터의 상이한 트랙들에서 극도로 관련된 음악 컨텐츠를 함께 연관시키지 못한다. 상업 라이브러리는 추천이 동일한 노래를 들은 다른 사용자들의 재생 목록들에 기초하여 이루어지는 "협업 필터링"을 사용할 수 있지만, 이 접근 방식은 저장된 사용자 데이터 및 통계적 사용에 크게 의존한다. 협업 필터링은 라이브러리의 청취자/사용자의 개인적 선호를 반영할 수 있지만, 이용가능한 사용자 데이터의 양에 의해 제한되므로, 그 자체로는 완전한 솔루션이 아니다.

또한, 새로운(알려지지 않거나 거의 알려지지 않은 의미임) 아티스트[즉, 녹음 스튜디오 또는 라벨에 의해 잠재적으로 서명된 초보자, 신참 또는 "뉴비"]가 그들의 제 1 오디오 트랙 또는 제 1 앨범을 발매할 때 발생하는 "콜드 스타트"의 문제가 있다. 문제는 아티스트가 알려지지 않고, 따라서 온라인 또는 다른 곳, 예를 들어 라디오 에테르 또는 텔레비전을 통한 프로모션으로부터 획득된 청취자들을 따라 효과적이지 않다는 것이다. 이것을 다르게 표현하면, 청취 이력의 결여는 협업 필터링을 통하는 것과 같이 추천을 하는 것, 또는 뉴비에 대한 평판 및 추종을 확립하는 것 둘 다에 장애물을 제공한다. 배포자, 예를 들어 레코드 라벨에 대한 문제점들은 그들이 새로운 아티스트의 인식을 어떻게 제기하는지, 그들이 새로운 아티스트의 음악의 본질[사용자가 인식 할 수 있기 때문에 거의 가변적임]을 어떻게 분류하는지, 그리고 실제로, 그들이 음악이 상업화의 이유로 최대 노출을 보장하기 위해 청취, 다운로드 또는 스트리밍되도록 음악을 기존의 음악 라이브러리에 어떻게 링크/삽입하는가이다. 청취 및/또는 스트리밍 공중 국 또는 라디오 국에 대한 문제점은, 이들 뉴비의 맥락에서, '그들이 무엇을 알지 못하는지를 그들이 알지 못하고' 따라서 뉴비의 음악 세계로의 초기 시도를 무작위로 찾을 확률이 낮고 판단보다 행운에 더 기초한다는 것이다.

배포자의 경우, 아티스트의 음악 트랙들에 대한 효과적인 노출 및 평가는 판매 가능성의 증가와 일치한다. 실제로, 상업적 관점에서, "느린 연소(slow burn)"를 피하고, 따라서 새로운 아티스트의 평판을 빠르게 성장시키는 것이 또한 바람직하다.

요약하면, 새로운 아티스트는 증명되지 않고 새로운 제품으로 시장에 진입해야 한다. 이와 달리, 기존 아티스트들의 팬들은 변함없이 따를 것인데, 즉 그러한 기존 아티스트들로부터 새로 발매된 음악이 좋은지 나쁜지에 관계없이 그러한 새로 발매된 음악을 모니터링할 뿐만 아니라 일반적으로 구매하려고 할 것이다. 실제로, 악평에도 불구하고, 인기있는 아티스트로부터 새로 발매된 음악은 스트리밍되고, 청취되고/되거나, 구매되어, "콜드 스타트" 문제가 확립된 추종 및 청취자 베이스를 갖는 기존의 아티스트들에 대해서는 존재하지 않는다. 따라서, 콜드-스타트 문제는 음악의 보급 및 또한 새로운 형태의 음악의 잠재적 진화를 억압한다.

또한, 사용자 인식 및 음악 감상의 성질은 빠르게 이용되는 개인 특성이다. 특히, 청취자는 트랙이 재생/청취되는 트랙(또는 그의 섹션)의 수초 내에 마음에 드는지 그리고 그들의 개별 취향에 바람직한지에 대해 평가할 것이다. 결과적으로, 예를 들어 다운로드 가능한 앱으로서 실현되는 임의의 트랙 발견 추천 스킴은 (추천을 식별하는 관점에서) 본질적으로 빠르고, 또한 그것이 행하는 임의의 추천이 사용자 인식 음악 가치들, 즉 개인 음악 취향들을 만족시킬 필요가 있다는 점에서 신뢰성 있어야 한다. 식별된 공통 관심사들 또는 상황들(예를 들어, 나이 범위 30-40이고, 결혼하여 2명의 어린이를 갖고, 회계사로서 일하고, 뉴욕주, 스테이튼 아일랜드에 있는 양도담보 건물에서 살고 있음)을 갖는 다른 사용자들에 의한 인구통계학적 데이터의 통계적 분석을 이용하는 기존의 시스템들의 그것들과 같은, 외견상 무작위 트랙들을 비평하는 임의의 트랙 발견 추천 도구는 궁극적으로 열악하고 그것의 사용은 무시되거나 고려되지 않는다. 따라서, 장르에 관계없이, 음악학적으로 유사한 오디오 트랙들의 인식적 분류는 효과적인 오디오 트랙 발견 기술들에 대한 중요한 고려사항이다.

전술한 문제들은 Shazam®및 SoundHound®와 같은 기존 앱들에 의해 해결되지 않는데, 그 이유는 이러한 앱들이 실시간으로 샘플링되는 오디오 트랙의 식별에 초점을 맞추거나, 이러한 앱들이 커뮤니티 내의 다른 사람들이 발견하고 있는 트랙들을 목록화하기 때문이다. SoundHound®의 경우, 노래를 식별하려고 시도하기 위해 노래를 부르거나 흥얼거릴 수 있다. 따라서, 이러한 앱들은 재생되고/샘플링되는 트랙을 식별하거나, 보고된 구체적인 숫자들에 기초하여, 종종 지나치게 관련되지 않은 잠재적인 추가 청취의 추천을 행할 수 있다. 이러한 기존의 앱들은 음악 라이브러리 내의 무수한 트랙들 내로의 음악학적 유사성들의 인식을 제공하지 않는다.

음악 산업이 직면하는 다른 문제들은, 특히 개인/개인 레벨에서, 청취자/사용자 경험을 어떻게 가장 잘 증대시키는가이다. 사실상, 음악과 이벤트 사이의 상황적 관련성 또는 관계는 인식을 유발하거나 상보적인 감정적 반응, 예를 들어, TV 광고에서 발생하는 영화 또는 제품 연상 동안의 공포 또는 서스펜스의 느낌을 유발한다는 것이 오랫동안 인식되어 왔다.

음악 컨텐츠의 적절한 사용이 청취자의 감정적, 생리적 및/또는 심리적 관여를 지원하고, 따라서 청취자의 감각적 경험을 증진시킨다는 것이 인식되었기 때문에, 일반적인 음악 특성들의 식별이 바람직하다. 이는, 예를 들어, 게임 개발자들 및/또는 광고 또는 영화 예고편 제작자들/편집자들과 관련되며, 이들은 (반드시 절대 오디오 전력 출력 레벨의 맥락에서는 아니고, 드라마 및 긴급성의 개발의 증가하는 의미의 맥락에서) 증가하는 음악 강도와 같이 관련 음악 테마들을 비디오 출력과 정렬하는 적절한 멀티미디어 제품을 신속하게 컴파일링하는 작업을 한다. 검토를 위한 적어도 하나의 결과적인 "증명"을 제공함에 있어서, 개발자 또는 편집자는 잠재적으로 적절한 음악을 식별한 후에 선택된 음악을 비디오에 피팅/정렬하는 데 상당한 시간을 이미 소비하였다. 상업적으로 사용 가능한 오디오 트랙을 식별해야 하는 것을 지연시키기 위해, 컨텐츠 개발자들은 현재 쉽게 획득될 수 없는 권리를 갖는 종종 잘 알려진 트랙들인 소위 "템프 트랙들(temp tracks)"을 사용할 수 있지만, 이것은 단지 스톱-갭 수단(stop-gap measure)인데, 그 이유는 사용권이 획득될 수 있는 적합한 상업적으로 사용 가능한 트랙을 식별하기 위해 검색이 요구되기 때문이다. 그 후, 명령 클라이언트가 편집이 그들의 원래의 짧은 시간에 맞는지 여부를 평가해야 하는 것으로부터 추가의 시간 지연들이 발생한다. 따라서, 효과적인 트랙 검색 도구는 예를 들어 (작업 레이트들을 촉진하기 위해 음악에 순환 연습을 안무하는 "스핀" 클래스들 내에서 발생하는 것과 같은) 음악 프로그램의 시각적 시퀀스 또는 빌딩과의 정렬을 위한 대안 음악 트랙들의 선택의 식별을 용이하게 할 것이다.

동일하거나 관련된 이미지들을 제시하는 웹사이트들을 식별하는 것을 포함하여, 동일하거나 유사한 시각적 특성들을 갖는 이미지들을 검색하기 위한 기술이 웹 상에 존재한다. 예를 들어, Google®은 업로드된 이미지가 서버에서 구성 비트들의 그룹들로 분명히 분해되고, 그 비트들의 그룹들이 정의된 파라미터 공간 내의 소정 형태의 논리적 거리 척도에 따라 관련된 이미지들을 식별하기 위해 검색되는 "역 이미지 검색"(https://support.google.com/websearch/answer/1325808?hl=en 참조)이라고 하는 컴퓨터 프로그램 애플리케이션[때때로, 용어 "앱"으로 단축됨]을 지원한다. 이어서, 식별된 관련 이미지들은 앱을 사용하고 원래 이미지를 업로드한 사용자에게 제공된다.

이미지 비교는 복잡한 계산들(통상적으로 신경망에 기초함)을 요구하지만, 기본 소스 문서는 형상들, 컬러(들) 및/또는 치수들, 예컨대 각도들 또는 길이들로 분해될 수 있다는 것이 관찰된다. 이 인자들 중 하나 이상의 대비는, 예를 들어, 상대적 스케일링을 통해, 연관성이 확립되는 것을 허용한다. 이와 달리, 음악 특성들의 비평은, 다시 신경망을 사용하지만, 지금까지 일반적으로 음악 구조들의 인식적으로 더 미묘한 차이들을 해결하는 데 있어서의 어려움들에 의해 방해되었다.

본 발명의 제 1 양태에 따라, 데이터베이스 내의 복수의 후보 데이터 파일 중 적어도 일부에 대한 소스 데이터 파일의 의미론적 근접성을 평가하고, 상기 평가에 응답하여, 적어도 하나의 의미론적으로 근접한 후보 데이터 파일을 상기 데이터베이스로부터 식별하는 목록을 생성하는, 방법으로서, 특성을 추출하기 위해 상기 소스 파일을 처리하는, 단계; 상기 추출된 특성들로부터 특성 공간 내의 파일 벡터를 계산하는 단계로서, 상기 파일 벡터는 상기 소스 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 표현하는, 단계; 상기 파일 벡터를 복수의 특성 벡터와 비교하는 단계로서, 상기 복수의 후보 데이터 파일 중 상기 적어도 일부의 각각은 상기 복수의 특성 벡터의 연관된 특성 벡터를 갖는, 단계; 상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하는, 단계; 상기 소스 데이터 파일의 컨텐츠의 상기 측정된 분리 및 의미론적 근접성에 기초하여 상기 목록을 생성하는, 단계; 및 상기 목록을 추천 사항으로 제공하는 단계를 포함하는, 방법이 제공된다.

상기 소스 데이터 파일은 상기 데이터베이스 내의 모든 후보 데이터 파일과 비교될 수 있다.

상기 파일 벡터 및 각각의 특성 벡터는 트레이닝 파일 쌍을 사용하여 트레이닝된 인공 신경망 "ANN"의 쌍별 트레이닝에 따라 의미론적 공간에서 해당 쌍의 의미론적 유사성/비유사성을 향한 특성 공간에서 쌍별 유사성/상이성을 매핑하는 ANN으로부터의 출력이어서 특성 공간에서 거리 측정에 의해 반영된 특성 평가에 대해 정량화된 의미론적 비유사성 거리 측정에 반영된 의미론적 인식을 쌍별로 평가함으로써 의미론적 평가를 보존한다.

상기 데이터베이스는 각각의 후보 파일의 컨텐츠를 식별하는 디스크립터 또는 코드에 대해 상호 참조되는 후보 파일에 대한 특성 벡터를 포함할 수 있다.

일 실시예에서, 상기 방법은 상기 디스크립터 또는 코드가 소스 데이터 파일의 컨텐츠가 유통 또는 출판에 적합하지 않음을 나타내는 경우 상기 소스 데이터 파일의 업로드를 방지하는 단계를 포함한다.

상기 방법은 상기 소스 파일의 출처 또는 사용자 식별을 식별하는 보고서를 후속적으로 생성할 수 있다.

일 실시예에서, 상기 방법은 추천을 구체화하기 위해 배열된 예측자에게 목록 상의 후보 파일을 공급하는 단계; 상기 예측자에 사용자 데이터 및 컨텐츠와 관련된 미디어 정보 중 적어도 하나를 입력하는 단계; 및 상기 목록 및 상기 사용자 데이터 및/또는 미디어 정보를 고려하여 후보 데이터 파일의 수정된 목록을 생성하는 단계를 포함한다.

일 실시예에서, 상기 방법은 상기 소스 데이터 파일에 대한 내장물로서 파일 벡터를 계산하는 단계; 상기 파일 벡터에 대한 결정된 거리 척도가 미리 정의된 임계값을 초과하지 않는 다수의 근접 이웃 후보 파일을 검출하는 단계; 각각의 특성 벡터를 반영하는 상기 후보 파일에 대한 하나 또는 그 초과의 텍스트 설명을 조합하는 단계; 상기 임계 거리 내의 후보 파일과 연관된 설명으로부터 대표적인 복합 텍스트 설명을 생성하는 단계; 및 상기 대표적인 복합 텍스트 설명을 사용할 수 있는 단계를 더 포함한다.

상기 데이터 파일은 음악, 동영상, 이미지 데이터, 스피치, 및 텍스트 파일 중 적어도 하나의 형태로 컨텐츠를 포함할 수 있다.

본 발명의 다른 양태에서, 재생 목록 생성 방법으로서, 속성을 추출하기 위해 소스 파일을 처리하는 단계; 상기 추출된 속성들로부터 특성 공간 내의 파일 벡터를 계산하는 단계로서, 상기 파일 벡터는 상기 소스 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 표현하는, 단계; 파일 벡터를 복수의 특성 벡터와 비교하는 단계로서, 각각의 특성 벡터는 데이터베이스의 복수의 후보 데이터 파일 중 하나의 후보 데이터 파일과 연관되는, 단계; 상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 데이터 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하는, 단계; 및 상기 소스 데이터 파일과 최종 데이터 파일 사이의 후보 데이터 파일을 선택하여 상기 재생 목록을 통해 점진적 전환을 플로팅하는 단계로서, 상기 재생 목록의 연속 데이터 파일 사이의 전환은 인접한 데이터 파일 사이의 전환 및 의미론적 거리가 임계 거리 내에 있고 상기 재생 목록을 통한 이동 방향은 의미상 최종 데이터 파일을 향하는, 단계를 포함하는, 재생 목록 생성 방법이 제공된다.

상기 인접한 파일 사이의 전환은 연속적인 다차원 특성 공간에서 가장 짧게 측정된 분리일 수 있다.

상기 인접한 파일 사이의 각각의 전환은 상기 데이터베이스 내의 후보 데이터 파일의 서브세트에 대한 측정된 분리를 평가할 수 있다.

재생목록 생성 방법에서, 상기 파일 벡터 및 각각의 특성 벡터는 트레이닝 파일 쌍을 사용하여 트레이닝된 인공 신경망 "ANN"의 쌍별 트레이닝에 따라 의미론적 공간에서 해당 쌍의 의미론적 유사성/비유사성을 향한 특성 공간에서 쌍별 유사성/상이성을 매핑하는 ANN으로부터의 출력이어서 특성 공간에서 거리 측정에 의해 반영된 특성 평가에 대해 정량화된 의미론적 비유사성 거리 측정에 반영된 의미론적 인식을 쌍별로 평가함으로써 의미론적 평가를 보존한다.

본 발명의 또 다른 양태에서, 의미 품질 기반 파일 추천 제공 방법으로서, 사용자에 의해 소비된 최근 소비된 참조 데이터 파일을 식별하는 단계; 상기 참조 데이터 파일을 처리하여 그로부터 특성을 추출하는 단계; 상기 추출된 특성으로부터 특성 공간의 제 1 파일 벡터를 계산하는 단계로서, 상기 제 1 파일 벡터는 상기 기준 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 표현하는, 단계; 상기 참조 데이터 파일에 대한 의미론적 근접성의 관점에서 새로운 데이터 파일을 평가하는 단계로서, 상기 평가는 상기 제 1 파일 벡터와 새로운 데이터 파일의 특성으로부터 유도된 다른 제 2 파일 벡터 사이의 상대적 비교에 기초하고 상기 제 2 파일 벡터도 보존하고 새로운 데이터 파일 컨텐츠의 의미론적 특성을 나타내는, 단계; (a) 사용자에 대해 획득된 사용자 데이터, 및 (b) 후보 파일 데이터 내의 특성 벡터 중 적어도 하나의 가용성 및 범위를 결정하는 단계로서, 상기 특성 벡터는 그 안의 의미론적 품질을 반영하는, 단계; 상기 참조 데이터 파일과 상기 새로운 데이터 파일 사이에서 평가된 의미론적 근접성의 컨텐츠-기반 접근 방식; 및 예측 모델, 강화 학습 "RL" 알고리즘 또는 휴리스틱 처리 기능 중 하나에 기반한 예측 접근 방식으로서, 상기 예측 접근 방식은 후보 파일 데이터의 사용자 데이터 및 특성 벡터의 가용성의 충분성에 기반하는, 예측 접근 방식 사이의 확률적 가중치를 기반으로 상기 파일 추천을 제공하는 단계를 포함하는, 파일 추천 제공 방법이 제공된다.

상기 컨텐츠-기반 접근 방식과 예측 접근 방식 간의 확률적 가중치는 시간에 따라 변할 수 있다.

초기에, 상기 컨텐츠-기반 접근 방식은 절대적일 수 있다.

본 발명의 추가 양태에서, 데이터베이스에 저장된 복수의 후보 데이터 파일 중 적어도 일부에 대한 소스 데이터 파일의 의미론적 근접성을 평가하는 시스템으로서, 소스 파일을 처리하여 특성을 추출하도록, 상기 추출된 특성으로부터 특성 공간의 파일 벡터를 계산하고, 상기 파일 벡터는 상기 소스 데이터 파일의 컨텐츠의 의미론적 특성을 보존하고 표현하도록; 상기 파일 벡터를 복수의 특성 벡터와 비교하고, 상기 복수의 특성 벡터의 각각의 특성 벡터는 상기 복수의 저장된 후보 데이터 파일 중 특정 후보 데이터 파일과 연관하도록; 상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하도록; 상기 소스 데이터 파일 컨텐츠의 상기 측정된 분리 및 의미론적 근접성에 기초하여 목록을 생성하고, 상기 목록은 상기 소스 데이터 파일과 관련하여 상기 데이터베이스로부터 적어도 하나의 의미론적으로 가까운 후보 데이터 파일을 식별하도록; 그리고 목록을 추천 사항으로 제공하도록; 배열된 처리 지능을 포함하는, 시스템이 제공된다.

상기 시스템 지능은 상기 소스 데이터 파일을 상기 데이터베이스 내의 모든 후보 데이터 파일과 비교할 수 있다.

상기 데이터베이스는 각각의 후보 파일의 컨텐츠를 식별하는 디스크립터 또는 코드에 상호 참조되는 후보 파일에 대한 특성 벡터를 포함할 수 있다.

상기 시스템 지능은 상기 디스크립터 또는 코드가 소스 파일의 컨텐츠가 유통 또는 출판에 적합하지 않음을 나타내는 경우 상기 소스 데이터 파일의 업로드를 방지하도록 배열될 수 있다.

상기 시스템 지능은 상기 소스 파일의 출처 또는 사용자 식별을 식별하는 보고서를 생성하도록 더 배열될 수 있다. 이 정보는 등록 및 로그인 세부 정보 또는 MAC 주소를 포함한 사용자 자격 증명에서 얻을 수 있다.

상기 데이터베이스는 상기 소스 데이터 파일을 업로드하도록 배열된 사용자 장치에 대해 원격일 수 있다.

상기 시스템은 상기 추천을 세분화하도록 배열된 예측자를 포함할 수 있고, 상기 예측자는 상기 목록 상의 후보 데이터 파일에 응답하는 제 1 입력; 및 컨텐츠에 관한 사용자 데이터 및 미디어 정보 중 적어도 하나에 응답하는 적어도 제 2 입력을 포함하고, 상기 예측자는 상기 목록과 사용자 데이터 및/또는 미디어 정보에 대해 갖는 후보 데이터 파일의 수정된 목록을 생성하도록 배열된다.

특별한 실시예에서, 상기 시스템 지능은 파일 벡터를 상기 소스 데이터 파일에 대한 내장물로서 계산하도록, 상기 파일 벡터에 대한 결정된 거리 척도가 미리 정의된 임계값을 초과하지 않는 다수의 근접 이웃 후보 파일을 검출하도록, 그에 대한 각각의 특성 벡터를 반영하는 상기 후보 파일에 대한 하나 또는 그 초과의 텍스트 설명을 조립하도록, 임계 거리 내의 후보 파일과 연관된 설명으로부터 대표적인 복합 텍스트 설명을 생성하도록, 그리고 대표 복합 텍스트 설명을 사용할 수 있도록 배열된다.

상기 시스템 지능은 네트워크를 통해 사용자 장치에 원격으로 그리고 선택적으로 연결된 서버-측 구성요소일 수 있다. 시스템 지능은 분산될 수 있지만 소프트웨어 또는 소프트웨어와 하드웨어의 조합으로 실현될 수도 있다.

본 발명의 다른 양태에서, 데이터베이스에 저장된 후보 파일로부터 재생 목록를 생성하기 위한 프로세서로서, 컨텐츠로부터 특성을 추출하기 위해 소스 데이터 파일을 처리하도록; 상기 추출된 특성으로부터 특성 공간의 파일 벡터를 계산하고, 상기 파일 벡터는 소스 데이터 파일의 컨텐츠의 의미론적 특성을 보존하고 나타내도록; 상기 파일 벡터를 복수의 특성 벡터와 비교하고, 각각의 특성 벡터는 복수의 후보 데이터 파일 중 후보 데이터 파일과 연관되도록; 상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 데이터 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하도록; 그리고 상기 소스 데이터 파일과 최종 데이터 파일 사이의 후보 데이터 파일을 선택하여 상기 재생 목록을 통한 점진적 전환을 플롯하고, 재생 목록의 연속 데이터 파일 사이의 전환은 인접한 데이터 파일 사이의 전환 및 의미론적 거리가 임계 거리 내에 있고 재생 목록을 통한 이동 방향은 의미상 최종 데이터 파일을 향하도록 배열된, 프로세서가 제공된다.

인접한 파일들 사이의 전환은 연속적인 다차원 특성 공간에서 가장 짧게 측정된 분리인 것으로 프로세서에 의해 평가될 수 있다.

인접한 파일 사이의 각각의 전환은 상기 데이터베이스의 후보 데이터 파일의 서브세트에 대한 측정된 분리를 기반으로 평가될 수 있다.

본 발명의 또 다른 양태에서, 의미론적 품질을 기반으로 파일 추천을 제공하도록 배열된 처리 지능을 포함하는 시스템으로서, 시스템 지능은 참조 데이터 파일을 처리하여 그로부터 특성을 추출하도록; 상기 추출된 속성들로부터 특성 공간 내의 제 1 파일 벡터를 계산하고, 상기 제 1 파일 벡터는 상기 참조 데이터 파일의 컨텐츠의 의미론적 특성을 보존하고 나타내도록; 상기 참조 데이터 파일에 대한 의미론적 근접성의 관점에서 새로운 데이터 파일을 평가하고, 상기 평가는 제 1 파일 벡터와 새로운 데이터 파일의 특성으로부터 유도된 상이한 제 2 파일 벡터 사이의 상대적 비교에 기초하고 상기 제 2 파일 벡터는 또한 새로운 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 나타내도록; (a) 사용자에 대해 획득된 사용자 데이터, 및 (b) 후보 파일 데이터 내의 특성 벡터 중 적어도 하나의 가용성 및 범위를 결정하고, 상기 특성 벡터는 그 안의 의미론적 품질을 반영하도록; 상기 참조 데이터 파일과 상기 새로운 데이터 파일 사이에서 평가된 의미론적 근접성의 컨텐츠-기반 접근 방식과 예측 모델, 강화 학습 "RL" 알고리즘 또는 휴리스틱 처리 기능 중 하나에 기반한 예측 접근 방식으로서, 상기 예측 접근 방식은 후보 파일 데이터의 사용자 데이터 및 특성 벡터의 가용성의 충분성에 기반하는, 예측 접근 방식 사이의 확률적 가중치를 기반으로 파일 추천 사항을 제공하도록 배열되는, 시스템이 제공된다,

상기 시스템 지능은 상기 컨텐츠-기반 접근 방식과 상기 예측 접근 방식 사이의 확률적 가중을 시간에 따라 변화시키도록 배열될 수 있다.

상기 시스템 지능은 초기에 상기 컨텐츠-기반 접근 방식을 절대적으로 만들 수 있다.

상기 시스템 지능은 네트워크를 통해 사용자 장치에 원격으로 그리고 선택적으로 연결된 서버-측 구성요소일 수 있다. 대안적으로, 상기 시스템 지능은 적어도 부분적으로 사용자 장치에 위치한다.

설명된 다양한 실시예 및 양태에 따르면, 특성 벡터는 데이터 파일의 추출 가능한 측정 가능한 특성으로부터 도출되고 해당 데이터 파일에 대한 의미론적 특성에 맵핑된다. 특성 벡터는 특성 공간에서 쌍별 유사성/비유사성을 의미 공간에서 해당 쌍별 의미적 유사성/비유사성을 향해 매핑하는 파일 쌍을 사용하여 ANN의 쌍별 교육에 따라 훈련된 인공 신경망의 출력이고, 데이터 파일의 의미론적 특성이 보존되고 나타난다. 시스템 및 방법은 생성된 특성 벡터 사이의 비교에 기초하여 순위를 매긴 다음 데이터 파일을 포함하는 사용자로부터의 질의로부터 데이터베이스의 후보 파일을 의미론적으로 닫거나 의미론적으로 이질화하는 것을 추천 및/또는 필터링한다. 분류 및 추천 시스템 및 방법의 적용은 음악, 비디오, 이미지 데이터 및/또는 텍스트 파일 형태의 미디어를 포함하는 미디어 또는 검색 도구 및 소셜 미디어 플랫폼에 적용된다.

처리 지능 기능은 해당 콘텐츠에 대해 추출된 측정 가능한 특성에 대한 특성 공간의 관련 특성 분리 거리와 의미 공간의 해당 콘텐츠에 대한 정량화된 의미 상이성 측정을 연관시키는 기능을 한다.

기본적으로 이 접근 방식은 하드 및/또는 절대 데이터 값에 기반한 접근 방식을 사용하는 현재 데이터 과학 접근 방식과 다르다. 오히려, 시스템은 벡터 공간에서 동일한 쌍-대조 소스 파일들 사이의 의미론적 공간에서 표현된 유사성/비유사성에 대한 인간의 인식으로 되돌아가 쌍-대조 소스 파일의 추출된 측정 가능 속성의 비유사성을 평가하는 신경망의 가중 출력 결과를 사용한다. 이러한 의미론적 공간은 주관적 설명 맥락이 맥락을 나타내는 측정 가능한 벡터로 매핑되지만 이제 조작 가능한 수학적 형식으로 표현되는 다른 벡터 공간이다. 즉, 내장 프로세스는 의미론적으로 유사한 주관적 설명이 결과 벡터(의미론) 공간에서 상응하는 유사한 것으로 표시되도록 설계된다. 내장물을 사용하면 시스템 지능에 코딩되지 않은/원시 데이터 파일로 제공되는 사용자 질의에 대한 개선되고 신뢰할 수 있는 권장 사항 및 응답이 허용된다.

유리하게는, 본 발명은 데이터 분류를 위한 혁신적인 방법론, 특히 원본 데이터와 가능한 관련 검색 데이터, 예를 들어 청취자의 관심을 보증할 가능성이 있는 오디오 또는 오디오 파일의 섹션 감지를 제공한다. 이 접근 방식은 이미지, 비디오, 텍스트 및 스피치 데이터 파일 또는 이러한 파일 형식 중 둘 이상의 조합에 동일하게 적용된다.

무엇보다도 바람직한 실시예는 파일의 섹션에서 식별 가능한 특성을 제거함으로써 파일을 일관되게 특성화할 수 있는 트랙 파인더 또는 트랙 추천 도구를 제공하고, 그런 다음 일반적으로 이러한 특징 및/또는 주관적 품질을 공유하는 다른 파일을 식별할 수 있다.

원본 파일을 미묘하게 또는 크게 변경할 수 있는 변형을 포함하여 평가할 수 있는 파일의 수를 감안할 때 데이터 라이브러리(수백 또는 수천 개의 파일이 포함된 개인용 파일이든 상업적 스트리밍, 다운로드 또는 참조를 위한 수백만 개의 파일이 있는 상업용 라이브러리이든) 내에서 현재 본 발명은 품질에서 인식된 유사성의 순위를 기반으로 파일에 대한 검색 결과를 연마하는 유용하고 효과적인 추천 도구를 제공하므로 임의의 범주화를 무시하고 인식하는 품질/유사성에 집중할 수 있다.

따라서 다양한 실시예의 검색 및 추천 도구는 사용자의 특정하고 주관적인 취향과 일치하는 새로운 콘텐츠(새로운 데이터 파일에서)를 식별하기 위해 파일의 광범위한 검토에 대한 필요성을 유익하게 감소시키고, 즉, 후보 데이터 파일에서 사용자 지향적인 지각 관련 데이터를 식별함으로써 검색 및 추천 도구는 검색 공간을 줄인다. 더욱이, 객관적이고 기술적으로 검증된 평가를 통해, 본 발명의 실시예는 라이브러리, 특히 가입자가 평가할 수 있는 온라인 라이브러리 또는 서버 스토어를 통해 저장되거나 평가 가능한 더 넓은 범위의 콘텐츠에 대한 증가되고 더 빠른 평가를 제공하여 검증된 권장 사항을 통해 최종 사용자 선택 및 콘텐츠에 대한 최종 사용자 평가를 모두 개선한다. 따라서 본 발명의 실시예는 새로운 파일, 예술가, 제작자 또는 연구를 위한 방법을 파일 콘텐츠의 지각적으로 유사한 특성에 기초하여 보다 선택적이고 아마도 보다 수용적인 사용자 기반으로 홍보함으로써 콜드 스타트의 문제를 완화할 수 있다.

이 원칙은 음악, 이미지, 텍스트 및/또는 비디오를 포함하여 컴퓨터 구현 데이터 분석의 소스 역할을 하는 맥락상 설명 가능한 다른 주관적 저작물의 식별에 적용된다.

첨부된 청구항들 및 이하의 설명에 개설된 본 발명의 다양한 양태들 및 실시예들은, 다운로드가능한 코드 또는 웹-기반의 앱을 포함하는 하드웨어 솔루션 및/또는 소프트웨어로서 구현될 수 있다.

본 발명의 예시적인 실시예들이 이제 첨부 도면들을 참조하여 설명될 것이다. 도면들에서:
도 1은 본 발명에 따른, 파일들, 특히 오디오 파일들의 비유사성을 평가하기 위한 바람직한 프로세스, 및 인공 신경망이 훈련될 수 있는 프로세스의 흐름도를 나타낸다.
도 2는 바람직한 실시예에 따른 인공 신경망을 훈련하기 위한 시스템 아키텍처의 개략도이다.
도 3은 소스 파일들 사이의 특성 유사성들 및 특성 비유사성들을 식별하기 위해 특성 벡터 공간과 의미 벡터 공간을 동화시키도록 도 2의 신경망을 훈련하는 바람직한 프로세스에 관한 흐름도이다.
도 4는 오디오 트랙에 대한 통상적인 멜-스펙트럼(mel-spectrum)의 표현이다.
도 5는 멜-스펙트럼 해석에 할당된 인공 신경망 내의 컨볼루션 및 풀링 계층들을 예시한다.
도 6은 도 2의 다양한 ANN 체인들 내에서 이용되는 인공 신경망의 표현이다.
도 7은, 특히 오디오 파일과 관련하여, 감정적 인식 파일 비유사성의 척도를 평가하기 위해 바람직한 실시예에 의해 이용되는 흐름 프로세스이다.
도 8은 바람직한 실시예에 따른 벡터 표현을 포함하는 평가 가능한 데이터베이스를 포함하는 네트워크 아키텍처이다.
도 9는 예시적인 비디오 파일 평가의 맥락에서 2개의 예시적인 내장물(embedding)을 도시한다.
도 10은 도 7의 바람직한 방법을 구현하는 추천 시스템의 기능적 아키텍처를 도시한다.
도 11은 본 발명의 일 실시예에 따른 다중 추천 계층을 포함하는 하이브리드 추천 시스템의 기능적 아키텍처를 도시한다.
도 12는 본 발명의 일 실시예에 따른 다중 추천 계층을 포함하는 대체 하이브리드 추천 시스템의 기능적 아키텍처를 도시한다.
도 13 및 도 14는 본 발명의 실시예에 따른 파일-중심 및 사용자-중심 추천 시스템의 기능적 아키텍처를 도시한다.
도 15는 본 발명의 양태에 따른 태깅 시스템 및 컨텐츠 필터의 기능도를 도시한다.
도 16은 소스-타겟 재생목록 생성 시스템의 기능적 아키텍처를 도시한다.

(예를 들어) 오디오 트랙들 사이의 의미 유사성들 또는 비유사성들을 평가하는 웹-브라우저 또는 로컬 앱을 통해 평가되는 것과 같은 도구를 제공하기 위해, 의미론적 공간에서 제 1 메트릭을 제공하도록 처리된 의미론적 의미와 (다른 차원 공간들이 사용될 수 있더라도) 유클리드 공간과 같은 상이한 측정가능 공간에서의 동일한 데이터 소스의 컨텐츠에 대한 추출된 측정가능 특성들 사이의 유사성들을 식별하기 위해 심층 학습 및 인공 지능을 사용할 필요가 있다는 점이 인식되었다. 이 프로세스는 하나의 공간에서의 의미론적 의미의 유사성과 다른 공간에서의 추출된 측정가능 특성의 유사성 간의 변환 매핑을 효과적으로 제공한다.

특히, (특히 디지털 오디오 파일, 이미지 파일 또는 디지털 형태의 다른 인식적 심미적 생성의 예시적인 의미에서의) 감정적 인식 유사성 또는 비유사성의 척도는 단지 하드 데이터 필드들, 예를 들어 신호 품질의 양자화된 표현들로부터 도출될 수 없는 것으로 인식되었는데, 이는 그러한 하드 데이터가 인간 검토자, 예를 들어 청취자에 의해 경험되는 어떠한 해석도 제공하지 않기 때문이다. 환언하면, 고립된 특징 추출은 감정적으로 인식된 유사성 또는 비유사성의 충분히 정확한 객관적 평가를 제공하지 못하는데, 이는 신호 품질들의 양자화된 표현들(고립되거나 그룹화되는지에 관계없음)이 감정적 실세계로의 어떠한 관계도 제공하지 못하기 때문이다.

따라서, 본 발명은, 초기에, [결함이 있는 더 일찍 완전히 분리되고 객관적으로 평가된 접근 방식들에 비해] 의미론적 공간에서 표현된 주관적으로 도출된 컨텐츠 설명들을 유클리드 공간에서 표현된 대조된 파일들의 동일한 쌍에 대해 추출된 측정가능 특성들에 매핑, 즉, 연관 또는 결합하도록 기능적으로 배열되는 하나 이상의 훈련된 인공 신경망 ANN들의 상황에서 기능하고, 이에 의해, 특히 주관적으로 평가된/인식된 데이터, 예를 들어, 음악에서의 유사성 또는 비유사성의 인간 직관 및/또는 인간 감정적 인식과 특징 추출 사이에 현재 존재하는 분리를 정정한다.

신경망 기능들의 효과는 2개의 독립 벡터를 생성하는 것이며, 이들 둘 다는 디지털 오디오 및/또는 이미지 데이터 및/또는 문학 작품에서, 그러나 상이한 벡터 공간들에서 감정적으로 인식가능하거나 문서화된 비유사성들을 표현하는 것을 의도한다. 의미론적 공간에서의 제 1 벡터는 소스 파일들의 인간 설명들에 기초하고, 따라서 상당히 더 높은 상황 가중치를 갖는다. 따라서, 제 1 벡터는 예를 들어 유클리드 공간에서 제 2 벡터를 평가하고 정정하기 위해 사용되고, 이에 의해 상이한 신경망의 출력의 - ANN에서의 가중치들의 변경을 통한 - 제 1 신경망의 의미상의 결과로의 수렴을 허용한다. 유클리드 벡터는 또한, 인공 신경망에서의 심층 학습 동안, 원래의 소스 데이터로부터 추출된 선택된 주관적 특성들, 예를 들어, 노래들의 쌍별 비교로부터 도출된다.

훈련에 이어서, 수렴 프로세스는 궁극적으로 임의의 데이터 파일이 다른 사전 평가된 데이터 파일들에 대해 평가되어 의미 및 감정적으로 인식 가능한 컨텐츠 내의 유사성을 평가할 수 있게 하는 ANN 내의 변환 기능을 제공한다.

이와 같이, 적어도 인공 신경망에 대한 훈련 단계 동안, 공통 소스에 대해 2개의 독립 벡터가 생성된다. 제 1 벡터는 (통상적으로) 소스 데이터/파일에 대한 연관된 메타데이터에 의미상 기초하고 이로부터 도출되며, 제 2 벡터는 소스/데이터 파일의 메인 컨텐츠(예를 들어, 페이로드)로부터 추출된다. 이들 2개의 벡터 - 제 1는 인간의 판단에 기초하고 두 번째는 단단하고 식별가능하며 절대적인 측정가능 특성으로부터 추출됨 -가 동일해야 하지만, 이들은 동일하지 않을 수 있다. 결과적으로, 감정적/인식적 비유사성 또는 근접성을 평가하는 진정으로 대표적인 예측 도구를 생성하기 위해, 절대적 측정가능 특성들의 처리가 결국 인간 결정, 즉, 의미상의 품질들의 처리과 동일한 결과를 초래할 필요가 있다. 진정한 감정적 인식을 반영하기 위해, 인간의 판단에 관한 평가는 더 중요하고, 둘 다 공통 소스로부터 획득되는 식별가능하고 측정가능한 유형의 특성들의 절대 평가를 능가한다. 식별가능하고 측정가능한 유형의 특성들을 처리하는 인공 신경망에서의 적용된 가중치들 및 바이어스 값들에서의 변화를 강제하는 것은, 인간 지능, 판단 및 인식 추론에 의해 반영된 바와 같이, 현실과의 더 밀접한 정렬을 획득한다.

1. 의미론적 공간에서의 문맥 설명의 유사성/비유사성 평가

파일의 성질의 초기 의미상의 설명, 예를 들어, 문장 내의 문맥 및 특정 단어들의 사용을 포함하는 문맥 작성된 설명은 먼저, 예를 들어, 자연어 처리 "NLP" 기술들 등을 사용하여 다차원 의미 벡터로 변환되거나 "내장"된다. 문맥 작성된 설명은 주관적, 인식적 및/또는 감정적 기반인 인간 판단의 메트릭에 해당한다.

(예를 들어) Google®및 특히 Tensorflow^TM-허브로부터의 범용 문장 인코더에 의해 지원되는 NLP는 텍스트를 텍스트 분류, 의미 유사성, 클러스터링 및 다른 자연 언어 처리 작업들에 사용될 수 있는 고차원 벡터들로 인코딩한다. 실제적인 조건에서, 2개의 의미상 유사한 설명들의 NLP 처리는 유사한 벡터 표현들을 산출할 것이다.

상이한 주석자들로부터의 텍스트 설명들에서는 소정의 다양성이 있을 수 있지만, 이들은 착수되는 처리의 성질이 주어지면 통계적으로 중요한 것으로 간주되지 않는다.

텍스트와 벡터 표현 사이의 통근 프로세스의 선택은 설계 옵션인데, 예를 들어, Tensorflow^TM를 사용하는 처리는 변환기 인코더 또는 대안적으로 심층 평균 네트워크(DAN)를 이용한 훈련에 기초할 수 있다. 의미론적 공간에서, 연관된 벡터는 전체 훈련의 관점에서 기술적으로 중요하다.

의미 벡터화 프로세스는 수치 표현으로 변환될 수 있는 의미상의 속성들 및 대응하는 심미적 설명자들을 갖는 그림 또는 영화 형태의 이미지 데이터와 같은 다른 형태들의 미디어 데이터에 적용가능하다.

훈련 시퀀스 동안, NLP 도출 다차원 벡터는, 쌍별로, 다른 NLP 도출 벡터들과 비교되어, 의미 벡터 공간에서, 쌍별 의미상의 근접성의 분리 거리 표현을 식별한다. 이것은 먼저 쌍별 근접성의 사용자-중심적 인식을 확립한다. 이러한 의미에서, "의미상의" 및 "의미론적 공간" 등의 용어들의 사용은 임의의 대응하는 벡터 또는 값의 원점이 파일, 예를 들어, 오디오 트랙의 컨텐츠의 인간의 인식적 또는 감정적(즉, 의미상의) 품질들에 대한 주관적으로 준비된 설명으로부터 유래한다는 것을 반영한다는 점이 이해될 것이다.

NPL의 바람직한 사용은 의미론적 공간에서 텍스트 설명자들과 벡터 값 사이의 초기 매핑을 제공한다. 동일한 원리가 다른 미디어, 예를 들어, 비디오, 영화들, 그림들, (컬러들 및 패턴들 및 커버링들에 대한 텍스처 등과 관련된 특성들을 갖는) 의류 및 장식의 예시적인 의미에서의 패션의 분류는 물론, 이미지들을 포함할 수 있는 의료 기록들에 적용될 수 있다.

음악학의 관점에서 맥락을 제공하기 위해, Rimsky-Korsakov의 "Flight Of The Bumblebee"를 제 1 오디오 훈련 트랙으로서 취하면, 이 오디오 트랙은 2개의 단어 차원에서 "frenetic" 및 "light"로서 설명될 수 있고, NLP는 이들 2개의 NLP-분해된 용어만을 포함하는 트랙들에 대해 1004512112의 벡터 표현을 부여한다. 물론, 언어 차원들의 수는 2개보다 많을 수 있고, 따라서 오디오 트랙의 설명은, 예를 들어, (i) 황혼, 동풍, 구름 등과 같은 시간적 이벤트들, 및/또는 (ii) 느낌들, 및/또는 (iii) 테마들, 예를 들어, 페리-테일(fairy-tale) 또는 사실 및/또는 (iv) 환경들과 함께 발생하는 다른 의미상의 연관성들을 포함하도록 확장될 수 있다.

벡터 "1004512112"는 임의의 예로서 제공될 뿐이며, 사실상, 생성된 다차원 벡터는 완전히 다른 형태를 취할 수 있는데, 이는 특히 단어/문장 차원들의 수가 오디오 트랙에 대한 설명적 문장으로부터 도출될 수 있는 의미상의 연관성들에 의해서만 제한되기 때문이다.

프로세스는 많은 수의 독립 샘플, 예를 들어, 통상적으로 수천개 및 바람직하게는 적어도 약 만개 이상에 대해 반복되어, 상황적 예를 제공하는 데 사용되는 오디오 트랙-발견 애플리케이션을 위한 다차원 행렬을 조립한다. 그러므로, 의미 유사성/비유사성은 전술한 Flight Of The Bumblebee, 말하자면 Delta Heavy에 의한 전자 노래 "White Flag" 또는 Green Day에 의해 연주되는 "Boulevard of Broken Dreams"와 같은 모든 훈련 트랙들 사이에 확립된다. 그러나, 훈련 세트의 크기는 처리 용량, 시간 및 원하는 레벨의 달성 가능한 신뢰도/정확도에 의해 구동되는 설계 옵션이다. 모든 쌍들을 평가하기보다는, 하나의 옵션은 ANN을 훈련하기 위해 쌍별 거리 척도들의 극단적인 변동들을 선택하는 것이다.

바람직한 실시예에서, 결과적인 의미상의 제 1 벡터는 (정확한 수는 구현 선택 및 원하는 정확도를 반영하지만) 적어도 64개의 개별 차원 컴포넌트의 배수로부터 조립될 것이다. Tensorflow^TM 범용 문장 인코더를 사용할 때, 의미 설명의 처리는 (의미론적 공간에서) 512 차원의 벡터를 산출한다. 결과적으로, 정확한 의미 벡터 길이는 설계 옵션이며, 변할 수 있다.

시스템이 비유사성을 쌍별로 평가되는 것으로 간주하기 때문에 의미 벡터 및 특성 벡터(아래에 더 상세히 설명됨)가 동일한 크기인지는 중요하지 않다.

2. 추출된 특성들에 기초한 거리 평가

(바로 위에 개설되고 아래의 섹션 3에서 상세히 설명되는 쌍별 의미 근접성을 위해 사용되는 파일의 의미상의 설명들과 대조적으로) 도출된 "특성들"에 기초하여 제 2 훈련 프로세스에서 제 2 독립 벡터를 생성함에 있어서, 신경망의 계층들 내의 노드들에 적용되는 가중 인자들은 역전파에 의해 변경되어 (통상적으로 유클리드) 특성 거리 공간에서의 결과들을 (의미론적 공간에서의) 의미 (통상적으로 유클리드) 분리 거리들의 결과들을 향해, 따라서 본질적으로 원래의 의미 설명(들)으로 다시 수렴시킨다.

전술한 바와 같이, 제 1 및 제 2 벡터들에 대한 벡터 공간은 공통 소스 및 하나의 파일로부터, 처리될 입력 데이터의 입력 품질들이 상이하다는 점에서 상이하다. 따라서, NLP에 의한 주관적인 설명 자료의 처리는 의미론적 공간(또는 의미 거리 공간)에서 제 1 벡터를 산출하는 것으로 간주될 수 있는 반면, 식별된 특성들에 관한 절대값들의 처리(심지어 이러한 특성들은 신호 특성들에 대해 상이한 선택가능한 수치 항들로 표현될 수 있음)은 ANN의 출력으로서 "특성 공간"에서 제 2 벡터를 산출한다.

바람직한 실시예에서, 쉽게 인식되는 대안들, 즉 비유클리드 기하 구조들과 달리 유클리드 공간이 사용된다.

인공 신경망은 소스 파일의 측정가능 특성들을 그의 조작가능한 벡터 표현으로 변환하는 기능을 한다. 이 변환은 제 2 독립적으로 생성된 벡터, 즉 제 2 벡터를 생성한다. 이 변환은 "특징 추출"로서 간주될 수 있다. 바람직한 실시예에서(오디오 처리의 예시적인 경우에), 특징 추출은 Pomepu Fabra University의 Music Technology Group에 의해 개발된 Essentia^TM 애플리케이션을 이용하여 달성된다(https://essentia.upf.edu/documentation/streaming_extractor_music.html 참조).

Essentia^TM(또는 그의 기능적 등가물)은 소스 트랙의 대역 에너지들, 대역 히스토그램들 및 다른 측정가능한 음악 품질들과 같은 다수의 오디오 설명자를 식별하기 위해 소스 오디오 파일의 분석을 위한 기초를 제공하는 기존 라이브러리이다. Essentia^TM에서, 이들 오디오 설명자는 최대 127개에 달한다. 오디오 설명자들은 각각 오디오 신호의 측정가능한 파라미터의 양자화된 표현인 것으로 간주될 수 있다.

오디오 파일의 예시적인 상황으로 돌아가서, Essentia^TM 뒤의 처리 지능 - 동등한 분류 메커니즘들과 유사한 방식으로 -은 소스 파일로부터의 특징 추출을 제공한다. 서브세트 내의 오디오 설명자들 중 적절한 것들의 선택은 각각의 오디오 트랙의 더 넓은 음악 양태 또는 품질을 정의하는데, 예를 들어, [명목상] 오디오 설명자 빈들 1, 15, 32, 33 및 108로부터의(Essentia 내의 127개의 오디오 설명자들의 가능한 전체 범용 세트로부터의) 측정된 양자화된 표현들의 제 1 서브세트는 "리듬"을 정의하기 위해 프로그래머에 의해 조합될 수 있는 반면, 오디오 설명자들 5-21, 43, 45, 50, 71-77 및 123-127로부터의 측정된 양자화된 표현들의 서브세트는 "음색" 및 제3 상이한 서브세트 조성, 즉 연주의 조성 품질을 정의할 수 있다. 따라서, 서브세트들은 샘플링된 소스 오디오 트랙의 음악학에서 추가적인 의미상의 특성들을 제공한다.

비디오 또는 이미지 파일과 같은 다른 형태의 소스 파일의 경우, 대안적인 측정가능한 파라미터들은 소스 파일로부터 파싱되어 대안적인 사용가능한 품질들을 정의한다.

표시된 바와 같이, 오디오 및 특히 오디오 특성들과 관련하여, 음악은 음색, 리듬, 조성 및 텍스처를 이용하여 설명될 수 있다. 음색, 리듬 및 조성의 특성들이 특히 중요하다.

3. 측정가능한 음악적 특성들

이와 관련하여, 다음이 이해될 것이다:

"텍스처"는 일반적으로 스펙트럼 컨텐츠의 시간적 진화와 관련된 시간-주파수 공간 내의 이차원 패턴들에 의해 반영된다. 따라서, 텍스처는 주파수 도메인을 시간 도메인에 대해 플로팅하는 멜-스펙트로그래프 또는 멜-스펙트럼에서 보여진다. 이러한 멜-스펙트럼 내에서, 진화하는 텍스처는, 예를 들어, (i) 높은/중간 범위 주파수들에서의 중단된 수평 스펙트럼 라인들, (ii) 중간 및 높은 주파수 범위를 늘리는 평행한 수직 스펙트럼 라인들, 및 (iii) 낮은-중간 주파수 범위에서의 상향 또는 하향 단계들과 같은, 시간에 따라 진화하는 패턴들을 식별함으로써 (후술되는 바와 같이) 신경망에 의해 학습될 수 있다. 따라서, 텍스처는, 본 발명의 맥락에서, 특성 공간에서 추가의 측정가능한 메트릭의 제공을 통해 트랙 유사성/비유사성을 평가하는 데 사용 가능한 추가의 상보적인 의미 특성을 제공한다.

"RHYTHM"은 그들의 상대적 지속기간 및 상대적 강조에 따라 음표들의 배열로서 간주될 수 있다(https://www.naxos.com/education/glossary.asp?char=P-R# 참조). 이해되는 바와 같이, 리듬은 다음과 같은 (그러나 이에 제한되지 않는) 용어들로 표현될 수 있다.

i) 평균 및 분산을 반영하는 집계들을 갖는 비트들 및 음악 스펙트로그램으로부터 계산된 비트 라우드니스(beats loudness)(https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html 및 https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html 참조)

ii) 분당 비트수 "BPM"(https://see essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html 및 https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html 참조);

iii) 제 1 및 제 2 피크 높이들 및 확산을 반영하는 집계들을 갖는 신호로부터 계산된 BPM(https://essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html, 및 https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html 참조);

iv) 댄스 가능성(https://essentia.upf.edu/documentation/reference/std_Danceability.html 참조);

v) 개시 레이트(https://essentia.upf.edu/documentation/reference/std_OnsetRate.html 참조); 및

vi) 6개의 대역에 걸친 평균값들 및 분산에 의해 반영된 비트들 및 음악 스펙트로그램으로부터 계산된 대역별 비트 라우드니스(https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html 및 https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.html 참조).

리듬의 속성은, Essentia 용어로, 6개의 측정가능 속성들의 세트로서 제안되지만, 실제로, (예를 들어) 특정 음악 속성들의 평균 및 분산 값들에 대한 참조들에 의해 반영된 바와 같이, 6개보다 많은 측정가능 속성들이 이 특성에 기여할 수 있다는 것이 이해될 것이다. 따라서, 당업자라면, 특성 리듬을 위해 컴파일되는 다차원 벡터가 제안된 Essentia 파라미터들과 다를 수 있고, 리듬의 음악학적으로 작업가능한 정의를 제공하는 다른 측정가능 속성들로부터 형성될 수 있다는 것을 이해할 것이다. 바람직한 실시예에서, 명목상 19개의 측정가능 속성들이 리듬의 개념에 할당되지만, 다른 수의 속성들이 사용될 수 있다.

"조성"는 인식된 관계들, 안정성들, 매력들 및 지향성의 계층구조에서 음악 작품의 피치들 및/또는 코드들의 배열이다. 이 계층구조에서, 가장 큰 안정성을 갖는 단일 피치 또는 트라이애딕 코드(triadic chord)를 토닉(tonic)이라고 한다. 따라서, 조성은 하나의 톤(토닉)이 나머지 톤들에 대한 중심점이 되고 나머지 톤들이 토닉에 대한 그들의 관계의 관점에서 정의될 수 있는 톤들(예를 들어, 메이저 또는 마이너 스케일의 톤들)의 조직화된 시스템이다. 하모니는 인식적 조성 품질이다.

이해되는 바와 같이, 조성은 다음과 같은 (그러나 이들로 제한되지 않는) 용어들로 표현될 수 있다.

i) 스펙트럼의 HPCP(Harmonic Pitch Class Profiles)로부터 계산된 코드 변화율들(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html 참조);

ii) HPCP로부터 계산된 코드 수 레이트(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html 참조);

iii) 평균 및 분산을 반영하는 집계들을 갖는 HPCP로부터 계산된 코드 강도(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html 참조);

iv) 평균 및 분산을 반영하는 집계들을 갖는 HPCP로부터 계산된 HCPC 엔트로피(https://essentia.upf.edu/documentation/reference/std_HPCP.html, 및 https://essentia.upf.edu/documentation/reference/std_Entropy.html 참조);

v) HPCP 로부터 계산된 키 강도(https://essentia.upf.edu/documentation/reference/std_KeyExtractor.html 참조);

vi) HPCP로부터 계산된 온음계 강도의 튜닝(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.html 참조);

vii) HPCP로부터 계산된 동일한 템퍼링된 편차의 튜닝(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.html 참조);

viii) HPCP로부터 계산된 템퍼링되지 않은 에너지 비율의 튜닝(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.html 참조); 및

ix) HPCP로부터 계산된 코드 히스토그램(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.html 참조).

조성의 특성은, Essentia의 용어로, 10개의 측정가능한 속성들의 세트로서 제안되지만, 실제로, 특정 음악 속성들의 평균 및 분산 값들에 대한 참조들에 의해 반영된 바와 같이, 10개보다 많은 측정가능한 속성들이 이 특성에 기여할 수 있다는 것을 알 것이다. 따라서, 당업자라면, 특성 조성을 위해 컴파일되는 다차원 벡터가 제안된 Essentia 파라미터와 다를 수 있고 조성의 음악학적으로 작업가능한 정의를 제공하는 다른 측정가능 속성으로부터 형성될 수 있다는 것을 이해할 것이다. 바람직한 실시예에서, 명목상 33개의 측정가능 속성들이 조성의 개념에 할당되지만, 다른 수의 속성들이 사용될 수 있으며, 이들은 양자화된 측정의 더 크거나 더 작은 입도의 적용으로부터 획득된다. 예를 들어, "코드 히스토그램"은 23차원 벡터로서 구현된다.

다른 측정가능 속성 "코드 강도"에 대한 Essentia의 취급에 관하여, 이것은 이동 윈도우(프레임)로 오디오 파일을 파싱하고, 각각의 윈도우(프레임)로부터 값을 추출하여 (프레임 당 하나의 수로) 수들의 시퀀스를 산출하는 것을 통해 계산된다. 시퀀스는 이어서 그의 평균 및 분산을 계산하는 데 사용된다. 따라서, 바람직한 실시예에서, 측정치 "코드 강도"는 단지 2개의 수, 즉 전술한 시퀀스의 평균 및 분산으로 합리화된다. 이 예는, 비록 특성, 예를 들어, 리듬 또는 조성을 반영하기 위해 생성되는 다차원 벡터가 특성의 사용자 수용 가능한 정의를 제공하기에 충분한 스펙트럼 정보를 포함하더라도, 식별된 특성의 평가에 사용되는 측정값들이 Essentia에서 이루어진 추천들로부터 어떻게 벗어날 수 있는지를 보여준다.

"TIMBRE"는 비교적 난해한 척도이고, 결국 사운드의 스펙트로그램을 통해 측정될 수 있는 사운드의 복잡성에서 나타난다. 음색은 음표, 사운드 또는 톤의 인식된 사운드 품질이다. 음색은 합창단 음성 및 현악기, 관악기 및 타악기와 같은 악기와 같은, 상이한 사운드 생성 유형들을 구분한다. 그것은 또한 청취자들이 동일한 카테고리 내의 상이한 악기들(예를 들어, 오보에 및 클라리넷, 둘 다 목관악기들)을 구별하는 것을 가능하게 한다. 음색의 인식을 나타내는 사운드의 물리적 특성들은 사운드 스펙트럼 및 신호 엔벨로프를 포함하며, 음색은 사운드들이 동일한 피치 및 라우드니스를 갖는 경우들에서도 사운드들을 분해하는 능력을 허용한다.

이해하는 바와 같이, 음색은 다음과 같은 (그러나 이것으로 제한되지 않는) 용어로 표현될 수 있다.

i) 식별된 바크 주파수 범위들에 대한 평균 및 분산에 걸친 집계들을 갖는 바크밴드 필터링된 스펙트로그램으로부터 계산된 barkbands_crest(https://essentia.upf.edu/documentation/reference/streaming_Crest.html 및 https://en.wikipedia.org/wiki/Bark_scale#Bark_scale_critical_bands 참조);

ii) 식별된 바크 주파수 범위들에 대한 평균 및 분산에 걸친 집계들을 갖는 바크밴드 필터링된 스펙트로그램으로부터 계산된 barkbands_f1atness_db(https://essentia.upf.edu/documentation/reference/std_FlatnessDB.html 참조);

iii) 식별된 바크 주파수 범위들에 대한 평균에 걸친 집계들을 갖는 바크밴드 필터링된 스펙트로그램으로부터 계산된 barkband_kurtosis(https://essentia.upf.edu/documentation/reference/std_DistributionShape.html 참조);

iv) 식별된 바크 주파수 범위들에 대한 평균 및 분산에 걸친 집계들을 갖는 바크밴드 필터링된 스펙트로그램으로부터 계산된 barkband_skewness(https://essentia.upf.edu/documentation/reference/std_DistributionShape.html 참조);

v) 식별된 바크 주파수 범위들에 대한 평균에 걸친 집계들을 갖는 바크밴드 필터링된 스펙트로그램으로부터 계산된 barkband_spread(평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 복잡도 참조(https://essentia.upf.edu/documentation/reference/std_DistributionShape.html 참조));

vi) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 불협화음(https://essentia.upf.edu/documentation/reference/std_Dissonance.html 참조);

vii) 오디오 신호의 RMS 엔벨로프로부터 계산된 dynamic_complexity(https://essentia.upf.edu/documentation/reference/std_DynamicComplexity.html 참조);

viii) 평균에 걸친 집계를 갖는 오디오 신호의 스펙트로그램으로부터 계산된 고주파수 컨텐츠(https://essentia.upf.edu/documentation/reference/std_HFC.html 참조);

ix) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 피치 현저성(https://essentia.upf.edu/documentation/reference/std_PitchSalience.html 참조);

x) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 복잡도(https://essentia.upf.edu/documentation/reference/std_SpectralComplexity.html 참조);

xi) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 에너지 고주파수들(https://essentia.upf.edu/documentation/reference/std_EnergyBand.html 참조);

xii) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 에너지 저주파수들(https://essentia.upf.edu/documentation/reference/std_EnergyBand.html 참조):

xiii) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 에너지 중간-고주파수들(https://essentia.upf.edu/documentation/reference/std_EnergyBand.html 참조);

xiv) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 에너지 중간-저주파수들( https://essentia.upf.edu/documentation/reference/std_EnergyBand.html참조);

xv) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 엔트로피(https://essentia.upf.edu/documentation/reference/std_Entropy.html 참조);

xvi) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 플럭스(https://essentia.upf.edu/documentation/reference/streaming_Flux.html 참조);

xvii) 평균값에 걸친 집계를 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 첨도(https://essentia.upf.edu/documentation/reference/std_DistributionShape.html 참조);

xviii) 평균 및 분산을 반영하는 집계들을 갖는 오디오 신호의 스펙트로그램으로부터 계산된 스펙트럼 강한 피크(https://essentia.upf.edu/documentation/reference/std_StrongPeak.html 참조);

xix) 오디오 신호로부터 계산되고 평균 및 분산에 걸친 집계들을 갖는 제로 크로싱(https://essentia.upf.edu/documentation/reference/std_ZeroCrossingRate.html 참조);

xx) 평균에 걸친 집계를 갖는 오디오 신호의 스펙트로그램으로부터 계산된 MFCC들(https://essentia.upf.edu/documentation/reference/std_MFCC.html 참조); 및

xxi) 오디오 신호로부터 계산되고 피크들 및 밸리들 둘 다의 평균 및 분산에 걸친 집계들을 갖는 스펙트럼 콘트라스트(https://essentia.upf.edu/documentation/reference/std_SpectralContrast.html 참조).

음색의 특성이, Essentia의 용어로, 21개의 측정가능 속성들의 세트로서 제안되지만, 실제로, 특정 음악 속성들의 평균 및 분산 값에 대한 참조에 의해 반영되는 바와 같이, 21개 초과의 측정가능 속성들이 이 특성에 기여할 수 있다는 것을 알 것이다. 따라서, 당업자는 특성 음색에 대해 컴파일되는 다차원 벡터가 제안된 Essentia 파라미터들과 다를 수 있고 음색의 음악학적으로 작업가능한 정의를 제공하는 다른 측정가능 속성들로부터 형성될 수 있다는 것을 이해할 것이다. 바람직한 실시예에서, 명목상 75개의 측정가능 속성들이 음색의 개념에 할당되지만, 다른 수의 속성들이 사용될 수 있고, 이들은, 전술한 바와 같이 그리고 음악학자에 의해 이해되는 바와 같이, 측정에서의 보다 큰 입도의 적용으로부터 획득된다.

오디오 트랙 평가 및 트랙-발견의 맥락에서, 조성, 리듬 및 음색의 특성들은 중요하게도 소스 파일의 주관적인 품질들의 측정이 객관적으로 평가될 수 있는 기초를 제공한다. 이러한 특성들은 전술한 바와 같이 Essentia^TM 속성들 또는 그러한 Essentia^TM 신호 속성들의 서브세트로부터 또는 적절한 오디오 설명자들을 식별하는 등가 라이브러리로부터 도출될 수 있다. 실제로, 이해되는 바와 같이, 본 발명은 리듬, 조성 및 음색의 특성들에 대한 19개, 33개 및 75개의 양자화된 표현을 선택하며, 이들 중 일부는 Essentia^TM 도구 상자와 중복되는 반면, 다른 것들은 변형 또는 상이한 신호 척도들이다. 결과적으로, 양자화된 표현들의 수는 고정되지 않고, 오히려 평가되고 있는 특정 특성들을 정의하기 위해 어떤 신호 속성들이 요구되는지에 관한 음악학자의 믿음에 따라 가변적이다.

상기를 고려하면, 통상의 디스크립터가 동화 프로세스에서 사용하기 위한 적당한 특성을 정의하기 위해 어떻게 - 또는 실제로 어느 - 측정가능 속성들을 선택하는지는 설계 옵션이다. 리듬의 특성은, 예를 들어, Essentia 측정들 중 특정한 것을 포함하거나 배제하는 것으로 검토될 수 있으므로, 일부 관점들에서, 평가된 특성들은 사실상 기술적이고 기존의 기술적 프로세스들에 의해 측정가능하지만, "특성"에 이르는 것의 일관된 정의의 결여는 놀라운 것이 아니지만 기술적으로 관련성이 없다는 것이 이해된다. 오히려, 파일의 컨텐츠의 특성들은 어느 정도 난해할 뿐만 아니라 주관적이다. 그러나, 특성 공간에서 확정적이지만 주관적으로 조립된 측정가능물들을 의미론적 공간에서 독립적이지만 완전히 관련있고 대응하는 의미상의 평가로 매핑하는 것이 중요하다.

4. 인공 신경망(ANN)

본 발명의 다양한 양태들 및 실시예들의 개념들에 따르면, 특성 공간에서의 쌍별 유사성/비유사성은 의미론적 공간에서의 초기 의미 유사성/비유사성(예를 들어, 표현적 및 주관적 언어 서술자들)에 다시 매핑된다. 이것은 병렬로 동작하는 다수의 신경망을 수반할 수 있는 다중 스테이지 프로세스이다. 다수의 병렬 ANN의 사용은 음악 양식의 제어를 허용하는 반면, 단일 ANN의 사용이 가능하다. 본 발명의 양태들은 추출된 특성들을 처리하고 특성 공간에서 비유사성을 평가하는 신경망의 훈련과 관련된다.

도 1은 본 발명에 따른 파일들(및 특히 오디오 파일들)의 비유사성을 평가하기 위한 바람직한 프로세스(100) 및 인공 신경망이 훈련될 수 있는 프로세스의 흐름도를 나타낸다. 따라서, 도 1은 섹션 "1: 의미론적 공간에서의 상황 설명의 유사성/유사성 평가"와 관련하여 전술한 프로세스에 대응하고 그에 대해 부연한다.

오디오 파일들이 기본 프로세스의 예로서 사용되는데, 이는 오디오 파일들, 특히 음악 파일들이 적용된 개별적인 인간 인식으로부터 주관적으로 해석될 수 있기 때문이다.

수백(및 바람직하게는 수천) 개의 소스 파일의 훈련 세트로서, 파일들의 쌍들이 선택되고(102), ANN 평가를 통해 의미상 대조된다. 제 1 경로에서, NLP를 사용하여, 인공 신경망은 각각의 파일, 예를 들어, 쌍의 각각의 오디오 트랙에 대한 연관된 텍스트 메타데이터에서(또는 수반되는 설명으로서) 전달되는 의미론적 의미에 대한 대표적인 벡터를 추출(104), 즉, 생성/내장 처리한다. 이것은, 통상적으로, 도출된 의미론적 의미를 평가될 수 있는 조작가능 값으로서 표현하는 Tensorflow^TM(또는 기타)로부터의 512차원 벡터의 생성(106)을 유발한다.

따라서, ANN은 훈련 세트 내의 모든 N개의 파일들 사이의 벡터 분리 거리들을 효과적으로 표로 작성할 수 있고, 여기서 N은 통상적으로 500개 초과의 파일들이고, 일반적으로 수천 개보다 훨씬 더 많다. 더 많은 수의 샘플들이 처리 복잡도를 증가시키더라도, 훈련 시퀀스 내의 샘플들이 많을수록, 입도 및 연관된 신뢰도가 더 크다. 요약하면, 샘플이 많을수록 더 양호하다. 그러나, ANN을 훈련하기 위한 옵션으로서, 프로세스는 거리 분리들이 그것들이 매우 유사하거나 매우 유사하지 않음을 나타내는 쌍들의 하위 선택을 행할 수 있는데, 즉 훈련은 극단적인 조건들에 기초할 수 있다.

이 시점에서, 상대 거리 분리의 표 작성은, 절대 거리들이 분리 거리 값들(예를 들어, 5개의 측정 단위들, 57개의 측정 단위들 또는 1013개의 단위들)에 관하여 존재하지만, 이들이 다차원 공간에서 유사성/의미 근접성의 스케일링된 값을 반영하지 않는다는 점에서 추상적이다. N이 충분히 크다고 가정하면, 각각의 파일(트랙)에 대해 그러한 N개의 파일(여기서, 양의 정수이고, m<<N임)이 유사하거나 유사하지 않을 적어도 합리적으로 특정한 수 m이 존재한다는 것이 인식되었다.

바람직한 실시예에서, 훈련 세트 내의 각각의 소스 파일, 예를 들어, 노래 "A"에 대해, 의미 거리 벡터 공간 내의 임의의 수, 말하자면 10개의 가장 가까운 벡터들이 선택되고; 이것은 의미상 밀접하게 관련된 노래들의 그룹 또는 클러스터를 형성한다. 통계적으로, 수천 또는 아마도 수만 개의 소스 파일들의 훈련 세트에서, 모집단의 0.1%(동등한 것으로서)를 함께 클러스터링하는 것은 가능성 있는 의미상의 근접성의 측면에서 통계적으로 수용가능하다. 실제로, 합리적인 훈련 시퀀스에서의 노래들의 모집단에 대해, 근접도는 약 0.05%와 약 1% 사이의 범위 내에 있는 것으로 보일 수 있지만, 퍼센트 값들이 증가하면 오디오 비유사성의 가능한 사용자 인식이 증가할 것이다.

노래 "A"에 대해, 시스템 지능은 "m"(예를 들어, 10, 여기서 m≥l)개의 가장 가까운 노래들을 사용자에 인식적으로 가깝다는 의미에서 의미상 유사한 것으로서 간주하도록 배열된다. 이것은 노래 "A"에 대한 벡터 주위의 이러한 m개의 노래 사이의 거리를 0으로 설정한 후에 데이터 레코드에 기록함으로써 반영된다. 가장 가까운 m개 밖의 모든 노래들에 대해, 시스템 지능은 이러한 노래들을 유사하지 않은 것으로, 즉 이러한 다른(m이 아닌) 노래들을 사용자에 인식적으로 멀리 떨어져 있다는 의미에서 의미상 유사하지 않은 것으로 간주하도록 배열된다. 결과적으로, 유사하지 않은 노래들은 노래 "A"에 대해 1의 거리를 갖는 것으로 식별된다. 따라서, 각각의 평가된 오디오 트랙에 대해, 2*m 쌍의 레코드가 시스템에 의해 생성되어 검색 가능하고 평가 가능한 레코드로서 저장된다. m의 동일한 값의 선택은 신경망의 훈련이 (유사성 또는 비유사성의 관점에서) 다른 것의 하나의 극단에 의해 편향되지 않는 것을 보장한다.

ANN에 대한 처리 부담은, 대부분의 경우에, 이해되는 바와 같이, 훈련 프로세스의 소정 시점에서 합리화될 수 있다(114). 구체적으로, ANN의 최적화된 훈련은 대량의 유사한 값들로보다는 극단적인 경우들로의 훈련을 통해 달성된다. 결과적으로, 임의의 쌍별 연관에 대해, 가장 멀리 떨어진 분리 거리 및 가장 가까운 분리 거리를 취하는 것은 ANN 내의 뉴런들에 적용되는 적용 가중치들을 정밀화하기 위한 시간을 감소시킨다.

따라서, 섹션 1: 의미론적 공간에서의 상황 설명의 유사성/비유사성 평가에서 전술한 바와 같이, "제 1 벡터" 형태의 제 1 의미상의 기준은 ANN 훈련을 위한 기준으로서 확립된다.

원래의 소스 파일들(예로서, 오디오 트랙들)로 돌아가면, 사정 및 평가를 위한 제 2 경로(126)는 N개의 파일(예로서,N개의 오디오 트랙)의 전체 훈련 공간에 걸쳐 표시 패턴들을 쌍별로 다시 찾는다. 특히, 위의 섹션 2: 추출된 특성들에 기초하는 거리 평가에 나타난 바와 같이, 프로세스는 소스(오디오) 파일 쌍들을 파싱하여, [오디오/음악의 특정 예시적인 맥락에서] 위의 섹션 3: 의미 특성들에서 설명된 바와 같은 신호 품질들의 양자화된 표현들의 빈들을 생성함으로써 신호 속성들의 특징 추출(130)을 수행한다. 이어서, 신호 품질들의 양자화된 표현들의 개별 빈들이 적절히 식별되고, 선택적으로 함께 그룹화되어(132), 특성 공간에서 더 절대적인 조건들에서 평가되고 조작될 수 있는 의미상의/주관적인 음악 특성들, 즉 리듬, 조성, 음색 및 텍스처를 정의한다.

도 2, 및 도 3의 프로세스를 참조한다.

도 2는 바람직한 실시예에 따른 인공 신경망들을 포함하는 시스템을 훈련하기 위한 시스템 아키텍처의 개략도이다. 도 3은 소스 파일들 사이의 특성 유사성 들 및 속성 비유사성들을 식별하기 위해 특성 벡터 공간과 의미 벡터 공간을 동화시키도록 도 2의 신경망을 훈련하는 바람직한 프로세스에 관한 흐름도이다.

쌍별로, N개의 파일들 중 2개의 파일들(예를 들어, 디지털 오디오 파일들(302, 304))이 파일들의 훈련 데이터베이스(306)로부터 선택되고, 시스템(300)에 의해 평가 및 해석된다. 시스템(300)은 서버 또는 상호작용 프로세서들의 분산 시스템에 의해 지원되는 것과 같은 더 일반적인 시스템 지능 내에서 구현될 수 있고, 복수의 인공 신경망을 포함한다.

전술한 바와 같이, (이것이 오디오 파일 처리의 예시적인 경우의 상황이든 또는 픽처와 같은 소스 파일의 상이한 포맷에 대한 것이든 간에 Essentia 또는 그의 기능적 등가물과 같은) 특징 추출기(301)에서의 각각의 선택된 오디오 파일의 초기 처리는 신호 품질들의 양자화된 표현들의 빈들을 생성하며, 이러한 빈들은 상이한 의미 특성들(P), 예를 들어 음색 "PTi", 조성 "PTo" 및 리듬 PR을 수치 항들로 표현하는 복수의 각각의 출력을 정의하도록 선택 가능하게 그룹화된다. 각각의 오디오 트랙에 대한 이러한 주관적인 특성들 각각에 대한 값 표현들(예를 들어, 트랙 2로부터 추출된 조성의 특성에 대한 PTo₂)은 각각의 특성에 대한 평가 프로세스에서 가중치 최적화를 위해 전용 병렬 신경망에 입력으로서 공통으로 적용된다.

오디오 파일 및 트랙 발견 시스템의 예시적인 맥락에서, 리듬 "NN_R"(310), 조성 NN_TO(312), 음색 NN_TI(314) 및 음악 텍스처 NN_TX(318)에 대한 독립적인 ANN들이 있다.

음악 텍스처는 특수한 경우이며, 상이한 프로세스 흐름을 필요로 한다. 음악 텍스처는 이하에서 더 상세히 논의된다.

이미지들과 같은 다른 훈련 데이터의 처리 및 평가를 위해, 더 많거나 더 적은 병렬 ANN 체인들이 존재할 수 있다. 도 2에서 번호 4로 도시된 ANN 체인들은 독립적인 처리 경로들, 분기들 또는 통로들 및 따라서 네트워크의 서브네트워크들로서 간주될 수 있다. 이 숫자는 의미상 구별가능한 특성들의 수에만 관련된다. 실제로, 시스템은 평가에 적합한 복합 결과에 도달하기 위해 다수의 패스들에서 데이터를 처리하는 단일 체인만으로 동작할 수 있다.

따라서, 리듬 "NN_R"(310)에 대한 ANN은 특성 리듬의 입력 표현만을 수신하고, 이것은 (바람직한 실시예에서) 19개의 성분들, 즉 19개의 추출된 신호 속성들의 벡터로부터 조립된다. 따라서, 조성 "NN_TO"(312)에 대한 ANN은 특성 조성의 입력 표현만을 수신하고, 이것은 (바람직한 실시예에서) 33개의 성분, 즉 33개의 추출된 신호 속성들의 벡터로부터 조립된다. 따라서, 음색 "NN_TI"(314)에 대한 ANN은 특성 조성의 입력 표현만을 수신하고, 이것은 (바람직한 실시예에서) 75개의 성분, 즉 75개의 추출된 신호 속성들의 벡터로부터 조립된다.

전술한 바와 같이, 각각의 특성의 정의는 각각의 빈에 대한 추출된 신호 표현의 수 및/또는 속성 특성과 관련하여 달라질 수 있다. 따라서, 오디오 파일들의 명백한 상황 및 Essentia의 사용에서, (예를 들어, 음색에 대한 barkbands_flatness_db 및 dynamic_complexity를 포함하는) 이용가능한 속성 신호 빈들 모두가 사용될 수 있거나, 일부가 사용될 수 있거나, 그 수를 대신하여 또는 기타의 방식으로 전술되지 않은 다른 것들이 사용될 수 있다. 따라서, "특성"의 정의는 (어느 정도) 주관적이지만, 이러한 주관성은 속성의 정의에 대한 일관된 접근 방식이 채택되는 경우에는 무관하다. 즉, 프로그래머는 신호 속성에 대한 원하는 측정치를 식별하고 선택함으로써 주관적인 특성을 어떻게 정의할지를 결정할 수 있다.

따라서, 리듬 "NN_R"(310), 조성 NN_TO(312), 음색 NN_TI(314) 및 음악 텍스처 NN_TX(318)에 대한 ANN들은 이 특성들의 차이들을 설명하는 가중 값들을 결정하고 정밀화하며, 가중치들 및 바이어스들은 각각의 훈련가능한 파라미터에 대한 적절한 조정들을 찾는 작업을 하는 역전파 알고리즘 및 훈련 세트의 전체를 수반하는 반복 프로세스에 의해 정밀화된다. 역전파의 프로세스는 당업자에 의해 이해되며, 따라서 이것은 정렬될 것의 의도 및 본 명세서에 설명된 바와 같은 아키텍처 및 프로세스에 의해 달성되는 목적들 및 이점들을 지향하는 것과 관련된다.

음악 텍스처의 문제는 또한 (쌍별로 비교한 각 트랙의 측정가능 특성들의 벡터 표현들로부터 도출된) 컨텐츠 특성 메트릭을 (쌍별로 비교한 각 트랙의 의미 설명들의 벡터 표현들로부터 도출된) 의미상 메트릭에 동화시키는 것을 도울 수 있다는 것이 인식되었다.

따라서, 본 발명의 실시예들에 의해 채택된 접근 방식은 엄격한 기계 학습에 비해 인간의 감정적 인식의 중요성을 강조하고, 이에 의해 절대 수치 데이터의 해석에 기초한 통계적 매핑보다는 인간의 인식에 대한 ANN의 동작을 가중한다.

도 4를 간단히 참조하면, 오디오 트랙에 대한 통상적인 멜 스펙트럼(500)이 도시된다. 이해되는 바와 같이, 멜-스펙트로그래프(상호교환가능하게 멜-스펙트럼으로 알려지거나 지칭됨)는 인간 청각 시스템의 해상도와 대략 유사한 의사-로그 간격(quasi-logarithmic spacing)이고, 따라서 음악의 더 "생물학적으로 영감을 받은" 인식 척도이다. 멜-스펙트럼은 주파수의 비선형 멜 스케일의 로그 전력 스펙트럼의 선형 코사인 변환에 기초하는, 주파수 스펙트럼에 걸친 사운드의 단기 전력 스펙트럼의 표현이다. 멜-스펙트럼에서, (공칭상) 50Hz 내지 100Hz의 주파수 빈 내의 전력 스펙트럼의 고려는 더 높은 주파수, 예를 들어, 400Hz 내지 800Hz 뿐만 아니라 10kHz 내지 20kHz에서 더 큰 주파수 범위에 걸친 전력 스펙트럼의 고려와 동등할 것이다. 멜-스펙트럼이 어떻게 생성되는지의 프로세스는 잘 알려져 있는데, 그 이유는 이들 주파수 빈들이 음악 해석 용어들에서 인식적으로 동일하게 중요하기 때문이다.

더욱이, 오디오 트랙들은 섹션별로 변하고 따라서 멜-스펙트럼에 영향을 줄 수 있는 음악 테마들을 가질 수 있다는 점에 유의하지만, 바람직한 실시예의 설명을 위해, 오디오 내의 테마 및 따라서 발췌된 윈도우가 비교적 일정한 것으로 가정된다. 물론, 대안은 퀸의 "보헤미안 랩소디"와 같은 오디오 트랙을, 의미론적 공간에서 개별 평가 프로세스를 각각 받는 섹션들로 분할하는 것이다.

멜-스펙트럼은 단지 부분 샘플일 뿐만 아니라, 시간 도메인 및 주파수 도메인 모두에서 차원들을 가진다는 점에서 본질적으로 복잡하다. 시간 도메인 및 주파수 도메인 성분들의 결과적인 2차원 행렬 내에서, 테마는 관심 패턴들의 격리에 의해 식별될 수 있다. 이러한 관심 패턴들은 (가로 좌표로서) 시간에 대한 주파수(세로 좌표)의 플롯의 스펙트럼 성분들: i) 중간 및 높은 주파수 범위에 걸쳐 신장하는 평행한 수직선들(502); ii) 높은-중간 주파수 범위에서 중단된 수평선들(504); iii) 낮은-중간 주파수 범위에서의 상승(506) 또는 하강(508) 단계들 내에서 관찰될 수 있다. 이해하는 바와 같이, 이러한 발견 가능한 멜 스펙트럼을 갖는 다른 패턴들도 존재한다.

따라서, 특성 텍스처는 멜-스펙트럼의 분석, 특히 도 2의 시스템(300)의 훈련에 사용되는 특성 공간에서의 추가적인 벡터 성분들을 제공하는 ANN에 의한 패턴들 및 트렌드들의 식별로부터 도출될 수 있다.

훈련 시퀀스/훈련 데이터 세트에서 사용된 각 트랙에 대한, 텍스처에 대한 기여를 포함하는 각 ANN으로부터의 출력은 그 후 출력으로서, 특성 공간에서, 각 트랙에 대한 각 특성에 대한 다수의 출력(OR_x, OTO_x, OTI_x 및 OTX_x)(여기서 x는 관련된 트랙 번호, 즉 트랙 1 또는 트랙 2를 나타냄)으로부터 연결되거나 달리 조립된 다차원 출력 벡터로 조립된다. 각각의 출력 벡터의 정확한 길이는 설계 자유도에 개방되어 있으며, 유의할 점은 그의 길이는 특성 공간에서의 객관적인 평가 및 차별화를 가능하게 하기에 충분하도록 선택된다는 것이다. 바람직한 실시예에서, 각각의 ANN 체인으로부터의 각각의 본질적으로 병렬 처리된 출력은 리듬, 조성, 음색 및 텍스처의 특성들(이들 중 후자는 아래에 설명되는 바와 같이 상이한 처리를 필요로 함) 각각에 대해 64차원 출력 벡터 OR_x, OTO_x, OTI_x 및 OTX_x를 제공한다.

다시 도 2를 참조하면, 선택된 파일 쌍들(이 예시적인 경우에서는 디지털 오디오 트랙들)(302, 304) 각각에 대해 멜 스펙트럼(500)이 생성된다. 이 프로세스는 당업자에 의해 잘 이해된다. 양 트랙은 먼저 컨볼루션 신경망 "CNN"(320) 내에서 처리되고, 이어서 각 트랙에 대한 개별 벡터 출력은 텍스처 평가를 위해 할당된 ANN(NN_Tx(316))으로 처리 및 해석된다. 따라서, NN_Tx(316)는 리듬, 조성 및 음색에 대한 벡터들의 평가 및 내장을 담당하는 다른 신경망들과 병렬이다. NN_Tx(316)로부터의 트랙 1 및 트랙 2에 대한 각각의 벡터 출력(0TX₁, 0TX₂)은, 바람직한 형태에서, 또한 64차원 벡터이고, 이들 출력 각각은 이어서 트랙 1 및 트랙 2 각각에 대한 256차원 벡터를 생성하기 위해 각각의 트랙에 대한 3개의 다른 벡터(OR_x, OTO_x, OTI_x로 표시됨)와 연결되거나 다른 방식으로 조립된다. 이 256차원 벡터 - 다시, 정확한 길이는 전술한 바와 같이 설계 옵션임 -는 상기한 "유클리드 공간에서의 제 2 벡터"이다.

시스템 지능은 (4개의 출력 OR_x, OTO_x, OTI_x 및 OTX_x로부터 조립된 바와 같은 쌍을 이룬 트랙들 각각에 대한 조립된 복합 제 2 벡터들 사이에서 발생하는) 특성 공간에서의 거리 척도들을 의미론적 공간에서의 대응하는 거리 척도들과 함께 평가하도록 기능하는 비교기(330)를 포함한다. 따라서, 시스템 지능은 2개의 공간들 간의 연관성을 확립한다. 시스템이 벡터들 사이의 거리들을 비교하기 위해 동작하는 방법의 예로서, 시스템 지능은 제곱-절대 거리 계산을 이용할 수 있다.

그 다음, 시스템 지능은 동작 뷰로 제 1 벡터와 제 2 벡터를 대조하여, 제 2 벡터가 제 1 벡터의 근접성 평가와 정렬되게 하는 기능을 한다. 즉, 시스템 지능은 (텍스트 평가에 기초하는) 의미 거리와 특성 거리를 대조한다. 즉, (소스 파일들의 인간 설명들에 기초한) 의미론적 공간에서의 제 1 벡터는 특성 공간에서 (컨텐츠의 추출된 측정가능 특성들과 연관된) 제 2 벡터를 평가하고 정정하기 위해 사용되고, 그에 의해 제 2 신경망의 출력의 - ANN에서의 가중치들의 변경을 통한 - 제 1 신경망의 의미상의 결과로의 수렴을 허용한다. 그 목적은 재결합된 연결된 출력[그리고, 특히, 훈련 트랙들 사이의 차이들(330)에 관한 평가된 유클리드 특성 벡터]이 또한 0 내지 1의 스케일로 표현되고, 리듬 "NN_R"(310), 조성 NN_TO(312), 음색 NN_TI(314) 및 음악 텍스처 NN_Tx(318)에 대한 ANN들 각각에서의 신경망 가중치들이 조정되어, 유클리드 특성 거리 척도(330)가 의미 양자화된 거리로 되는 경향이 있도록, 즉, 바람직하게는 복제되도록 하는 것이다. 양자화 접근 방식에서 하드 레벨들보다는 다른 스케일링이 적용될 수 있다.

특히, 리듬 "NN_R"(310), 조성 NN_TO(312), 음색 NN_TI(314) 및 음악 텍스처 NN_Tx(318)에 대한 ANN들 각각에 적용된 가중 인자들은 이해된 역전파의 프로세스에 의해 조정되어, 비교 쌍별 트랙들/파일들 사이의 유클리드 특성 거리 척도(330)의 결과가 의미론적 공간에서의 거리 척도들을 향하는 경향이 있고 - 그리고 이상적으로는 결국 그에 대한 높은 정확도와 상관되게 한다. 따라서, 이해되는 바와 같이, 역전파의 프로세스는 식별가능한 파일 특성들을 정의하기 위해 사용되는 대조적인 객관적으로 측정가능 신호 속성들에 기초하여 적용된 가중치들을 조정함으로써 각각의 신경망을 훈련한다.

2개의 독립적인 경로 - 제 1는 의미론적 공간에서 완전히 처리되고 두 번째는 주관적으로 평가된 특성들의 측정가능한 품질들에 기초하여 측정된 특성 공간 내로 푸시됨 - 를 평가하는 것의 효과는 근접성 또는 비유사성의 인간의 인식과 더 가깝게 정렬하는 감정적-인식 시스템을 생성한다. 상이한 음악 장르들 사이의 트랙들을 찾는 예시적인 상황에서, 효과는, 심지어 상이한 트랙들이, 초기 검사시에, 객관적으로 근본적으로 구별되고 관련없는 음악 장르들인 것으로 보일 때에도, 그러한 트랙들 사이에 정량적으로 더 많을 뿐만 아니라 정성적으로 더 양호한 연관들이 이루어진다는 것이다. 이것은 관련 컨텐츠를 신규 또는 기존 사용자들에게 푸시할 수 있는 개선되고 신뢰성 있는 추천 도구를 제공하는 애플리케이션에서의 콜드 스타트와 같은 문제들을 해결하는데 있어서 단계-진행을 나타낸다. 실제로, 프로세스 및 시스템의 아키텍처는 의미론적 의미의 언어 독립적 내장을 허용하는 정도까지 감정적으로 인식적이다. 이것은, 예를 들어, 중국어 및 영어가 의미 해석 또는 결과에 영향을 미치지 않고 오버레이될 수 있다는 것을 의미한다.

객관적인 유클리드 공간에서 오디오 작품의 의미론적 특성들의 평가에 대한 추가적인 성분으로서, 멜-스펙트로그래프가 컨볼루션 신경망 "CNN"을 통해 처리되어 음악 "텍스처"의 주관적이지만 상보적인 개념을 나타내는 벡터 성분을 생성한다.

도 5는 멜-스펙트럼 해석, 특히, 평가중인 트랙들에서 중요한 음악 패턴들 및 트렌드들을 식별하는데 필요한 심층 학습에 할당된 인공 신경망 내의 컨볼루션 및 풀링 계층들을 예시한다. 컨볼루션 처리는 스펙트럼 입력 행렬(600)의 2차원 성 질을 다룬다.

나타낸 바와 같이, 멜-스펙트럼은 특성 공간에서의 특성들의 유사성/비유사성 평가를 위한 추가 성분으로서 역할을 하는 텍스처를 반영하는 시변 패턴들을 포함한다. 2차원 멜-스펙트로그램에서 이러한 텍스처 트렌드들을 식별하기 위해, 컨볼루션 신경망 내의 필터들은 멜-스펙트로그램으로 패턴들을 식별하도록, 특히 입력 행렬 내의 패턴들/트렌드들의 식별의 높은 신뢰도를 반영하는 필터 출력들을 생성하는 이러한 필터들 각각 내에서 최적화된 파라미터 값들을 식별하도록 훈련된다. 이와 같이, 각각의 필터 내의 파라미터들은, ANN들의 동작의 성질에 의해 이해되는 바와 같이, 각각의 필터가 조사 중인 트랙들의 멜-스펙트럼 내에 포함된 바람직한 주관적인 특성들, 예를 들어, 리듬 및/또는 멜로디 패턴들에 관련된 특정 입력을 검출하게 하도록 조정될 것이다.

이와 관련하여, 텍스처에 대한 ANN에서의 처리의 체인은 순차적 컨볼루션 계층들을 포함한다. 예를 들어, 계층 1, 3 및 5는 각각 128, 128 및 64개의 뉴런을 갖는 컨볼루션 계층으로서 구현될 수 있으며, 각각의 필터는 3의 커널 크기[즉, 필터 행렬의 크기]를 갖는다. 훈련 동안, 스펙트럼 입력 행렬(600)에 걸쳐 단계별로, [처음에 훈련되지 않은, 이어서 수정된 파라미터 세트를 갖는] 필터(602)가 진행된다. 필터(602)를 입력 데이터에 적용함으로써, 출력 행렬(604)은 오버레이된 행렬 내의 입력 값들 사이에 양의 매칭 결과들을 산출한다. 예를 들어, 단순한 예로서:

2-D 행렬의 샘플 필터 #1 수율(매치)

(위치 n)

반복 스테이지에서, 필터 내의 파라미터들의 값들은 이후 변경되고, 2D 입력은 새로운 필터 계수들이 예를 들어, 동일한 입력 데이터에 대한 매치들에 대해 더 양호한 또는 더 열등한 결과를 산출하는지의 여부를 결정하기 위해 재실행된다.

2-D 행렬의 샘플 필터 #2 수율(매치)

(위치 n)

2D 입력 데이터 내의 모든 가능한 필터 위치를 통해 진행함에 있어서, 양의 수율 결과의 추가 결과 행렬(604)이 개발되고; 이것은 매치를 최대화하기 위해 필터 계수/파라미터를 최적화하려고 시도하는 ANN을 나타낸다. 도 5에서, 결과 행렬은 필터(602)와의 더 높은 상관 - 따라서, 입력 데이터에서 관심 패턴의 식별의 높은 매치 및 더 높은 가능성 -이 0들 및 1들에 의해 표시된 더 불량한 매치들에 비해 4의 값들로 경험된다는 것을 식별한다.

임의의 CNN에서와 같이, 더 많은 필터들을 이용하여, 더 많은 패턴들을 식별할 수 있지만, 이것은 더 많은 파라미터들을 요구하고 더 많은 훈련 데이터에 대한 필요성을 희생하여 발생한다.

바람직하게는, 편의상, 각각의 컨볼루션 다음에 2x2 행렬/커널과 같은 적절한 커널 크기를 갖는 최대 풀링 계층이 이어진다. 최대-풀링 접근 방식의 효과는, 결과 행렬(606)이 연속적인 컨볼루션 단계에서 처리될 새로운 더 작은 입력 행렬을 생성하도록 데시메이트되는 도 5의 하부에 도시되어 있다. 이해되는 바와 같이, 최대 풀링은 출력들의 블록을 살펴본 다음, 더 낮은 값들이 후속 처리에서 통계적으로 관련되지 않는다는 가정하에 분석된 블록에서 최고 값을 제외한 모든 값을 거부한다. 도 5에서, 선행 컨볼루션 스테이지로부터의 4x4 입력 행렬에 2x2 최대 풀링 접근 방식을 적용하여 4개의 독립 블록을 산출하고, 이들 블록 각각은 4개의 (수율) 값을 포함한다. 그 다음, 최대 풀링 결과는 가장 높은 수율 값들만이 유지되는 제 1 2x2 최대 풀링 행렬(608)이다. 그 다음, 이 제 1 2x2 최대 풀링 행렬(608)은 연속 컨볼루션 계층에 입력된다. 결과적으로, 최대 풀링은 ANN의 상이한(연속적인) 계층들에 대한 차원수를 감소시키기 위해 행렬의 동작 크기를 감소시킨다.

최대-풀링 접근 방식의 이용은, 학습을 요구하는 파라미터를 도입하는 각각의 뉴런에 의해, 입력 행렬 크기의 제한이 (그렇지 않으면 파라미터들/가중치들을 계산하는데 있어서 부적절한 입도 및 부정확성을 완화시킬 것이 요구되는) 데이터의 양을 감소시키기 때문에 계산 효율을 증가시킨다.

따라서, CNN은 최대-풀링 계층에 의해 통상적으로 산재된 여러 컨볼루션 계층들을 포함한다.

마지막 최대 풀링 계층의 출력은 평탄화되는데, 즉, 모든 행렬 열들은 텍스처 평가를 위한 전용 신경망, 즉, 음악 텍스처 NN_Tx(318)에 대한 입력으로서 작용하는 단일 벡터를 형성하도록 연결된다.

특히 도 6과 관련하여 도시된 ANN들의 일반적인 형태 및 동작을 논의하기 전에, CNN(230)으로부터의 평탄화된 출력은 바람직하게는 최적화된 심층 학습을 위한 교정된 선형 유닛("ReLU") 활성화 함수를 갖는 전용 텍스처 신경망 NN_Tx(318)의 256개의 뉴런 은닉 계층에 대한 입력의 (예를 들어) 64차원 벡터로서 적용된다는 것에 주목한다. 텍스처 신경망(NN_Tx)(318)은 그의 출력에서 멜-스펙트럼 성분(OTX1, 0TX₂) 각각을 나타내는 (활성화된 선형 함수의 형태의) 64차원 벡터를 제공하며, 이들 벡터(0TX₁, 0TX₂)는 파일의 평가된 특성들, 즉 조성, 음색 및 리듬 각각을 나타내는 다른 출력 벡터들과 조립된다. 그 다음, 2개의 쌍별 파일들 각각에 대한 결과적인 256차원 벡터들은, 위에서 표시되고 도 2에 표현된 바와 같이, 유클리드 공간에서 거리 평가의 대상이 된다.

CNN의 초기/상위 컨볼루션 계층들은 [CNN에서의 입력인] 멜-스펙트럼에서 이러한 관심 패턴들의 식별을 허용하는 사용가능한 파라미터 함수들을 정의하기 위해 신경 노드들에 걸쳐 적용될 필터 가중을 식별하는 기능을 한다. 따라서, 필터 행렬의 파라미터들(612-620)에 대한 값들은 출력을 최적화하기 위해 대안 값들의 실행 가능성을 테스트하는 반복 및 역전파에 의해 학습되며, 최적화는 소스 입력 데이터 및 훈련 세트의 가변 소스 입력들에 걸친 연속 패스들 동안 개발된다.

도 6은 도 2의 다양한 ANN 특성 처리 체인들 내에서 이용되는 인공 신경망(700)의 표현이다.

리듬 "NN_R"(310), 조성 NN_TO(312), 음색 NN_TI(314) 및 음악 텍스처(컨볼루션 처리후) NN_TX(318)에 대한 ANN들 각각은 멀티-뉴런 입력 계층 또는 레벨(702)에 이어, 멀티-뉴런 입력 계층 또는 레벨(702)과 적어도 동일한 수의 개별 뉴런들(704-718)을 포함하는 적어도 하나의 그리고 일반적으로 복수의 (제 1 내지 제k) 은닉 뉴런 계층들을 포함한다. k 번째 은닉 계층은 출력 레벨(720)을 제공하며, 출력 내의 뉴런들의 수는 일반적으로 이전의 k 번째 은닉 레벨 내의 뉴런들의 수보다 적다.

기본 뉴런 매핑의 관점에서, (제 1 입력 계층에서와 같이) 각각의 신경으로부터의 출력은 바로 후속하는 (예를 들어, 제 1 은닉) 계층 내의 각각의 신경으로의 입력으로서 다대다 기반으로 매핑된다. k 번째 은닉 계층, 즉, 각각의 ANN의 끝에서 제 2 계층은, 출력 O₁ 내지 O_m이 (https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6에 설명된 것과 같은) 선형 함수이도록 다수의 입력을 그의 출력들(O1 내지 O_m) 각각에 다대일로 매핑한다.

(리듬, 조성 및 음색의 경우에) 각각의 식별된 특성 또는 (텍스처에 대한) CNN 함수로부터의 평탄화된 출력에 대해 추출된 각각의 양자화된 신호 표현은 입력 계층(702)의 뉴런들 중 하나에 입력(i₁ 내지 i_n)으로서 제공된다.

뉴런(712)을 예로 들면, 도 6(좌측, 박스 표현)에서, 뉴런은 합산 함수(730)에서 함께 합산되는 복수의 가중된 입력들(w _i,1, w _i,2, w _i,3, w _i,r)을 수신함을 알 수 있다. 합산 함수는, 실제로, 일반적으로 각각의 계층에서의 각각의 뉴런에 대해서만 학습된 상수인 2차 바이어스 입력 b_i를 포함한다. 처리 지능이 영향 인자로서 쌍별 유클리드 특성 거리 척도(330)를 취하는 역전파 프로세스 및 특히 이것이 의미론적 공간에서 대응하는 쌍별 타겟 거리에 동화/매핑되는 방법을 통해 추정한 후에 수정하는 것은 가중치들(w _i) 및 바이어스(b _i)이다. 합산 함수(730)로부터의 출력 a_i는 비선형 활성화 함수 f(참조번호 734)에 종속된다. 뉴런 y_i의 출력은 다음 계층으로 전파된다.

쌍별 오디오 데이터 신호 비교의 예시적인 의미에서, 입력 i₁ 내지 i_n은 음색, 조성, 리듬과 관련하여 전술한 바와 같이 Essentia 특징 세트로부터 도출될 수 있는 반면, CNN 멜 스펙트럼은 텍스처 전용 인공 신경망 NN_Tx에 대한 뉴런 입력을 제공한다. 최종 출력들(o₁ 내지 o_m)은 각각의 특정 특성, 예를 들어, 음색 0TI₁ 및 텍스처 0TX₂에 대한 64차원 내장 벡터를 형성한다.

도 6의 바람직한 구현과 관련하여, 적어도 2개의 은닉 계층이 존재한다. 제 1 은닉 계층은 512개의 뉴런을 포함한다. 제 2 은닉 계층은 1024개의 뉴런을 포함한다. 이 은닉 계층들 둘 다에서의 활성화 함수는, 바람직하게는, https://en.wikipedia.org/wiki/Rectifier_(neural_networks)에 설명된 것과 같은 ReLU 함수이다.

이제 도 3을 상세히 참조하면, 도 2의 시스템이 훈련되는 훈련 프로세스가 일반적인 용어들로 제시된다.

오디오 트랙들(또는 쌍들의 선택된 서브세트)의 범용 훈련 세트로부터, 의미 및 음악 특성 비교를 위한 트랙들의 쌍이 선택된다(402). 양 트랙은 이어서 특성들, 예컨대, 리듬 등을 정의하기 위하여 사용될 수 있는 측정가능한 설명자들의 다수의 세트들을 식별하기 위하여 특징 추출(404)을 거친다. 위에서 나타낸 바와 같이, 텍스처는 멜 스펙트럼의 성질이 주어지면 수정된 프로세스를 따른다. 각각의 쌍에 대해, 특성들은 네트워크를 훈련하고, 리듬 "NN_R"(310), 조성 NN_TO(312), 음색 NN_TI(314) 및 음악 텍스처 NN_Tx(318)에 대한 병렬 인공 신경망들 각각에서 적용된 가중치들 및 바이어스 값들을 정밀화(406)하기 위해 시스템 지능에 의해 일반적으로 처리된다. ANN 처리가 CNN을 수반했는지 여부와는 무관하게, 다수의 병렬 신경망들 각각은 고려중인 파일들의 쌍 각각에 대한 (통상적으로 유클리드) 특성 공간 내의 내장된 벡터 출력(350, 352)[기여 벡터들(OR_x, OTO_x, OTI_x 및 OTX_x)로부터 조립됨]에 기여(408)하도록 동작한다. 이어서, 파일들 각각에 대한 벡터 출력들(350, 352) 사이의 유클리드 특성 거리의 평가/결정(410)이 수행된다. 신경망들에 의해 계산된 결정된 유클리드 거리는 이후 (도 1과 관련하여 설명된 바와 같이) 동일한 파일들 사이의 (의미론적 공간에서의) 의미 거리와 매핑/대조된다.

특성 거리와 양자화된 의미 거리 사이에 일반적인 수치 대응(416)이 있다고 평가(418)되는 경우 - 이는 처음 수십/수백의 쌍별 비교를 이용하는 훈련의 시작에서의 초기 가중치들 및 바이어스 값들에 대해 가능하지 않음 -, 기여 ANN들에서의 가중치들 및 바이어스들이 동의가능한 규칙을 만족시키는지에 대한 결정이 이루어질 수 있다. 이것은 모든 쌍별 비교 옵션들을 소진하지 않고 ANN 훈련의 커팅 쇼트(cutting short) 허용할 수 있지만, 각각의 NN에서의 최적화는 쌍별 평가들 및 가중치 및 바이어스 수정들의 수가 계속 증가함에 따라 개선될 것이다.

실용적인 관점에서, 시스템은 통상적으로 전체 훈련 세트를 통해 여러 런들 또는 "에포크들"을 착수하도록 배열된다. (a) 훈련 손실이 여러 에포크에 걸쳐 개선되지 않거나, (b) (보이지 않는 데이터에 관한) 확인 손실이 개선되지 않을 때 훈련이 중단될 수 있다. 또한, 훈련 손실이 개선되지만 확인 손실이 개선되지 않는 경우, 이것은 오버피팅을 나타낸다는 점에 유의한다.

그러나, 훈련의 시작에서, 정밀화된 필터 가중치들 w _i 및 바이어스 b _i 값들을 사용하는 파라미터 식별에 관하여 ANN 동작의 정밀화에 대한 요건 및 상당한 차이들이 있을 가능성이 있을 것이다. 이것은 ANN 성능을 최적화하기 위한 훈련 데이터의 전체 모집단의 사용을 통해 달성된다. 결과적으로, 훈련 프로세스는 훈련 세트 내의 모든 멤버들에 대한 쌍별 평가의 경로를 복제한다. 이것은 결정 블록(414) 및 그로부터의 부정적 또는 긍정적 경로들에 의해 표현된다.

파일 애프터 파일에 대해 반복된 근접 대응(양자화된 의미 거리와 벡터 출력들(350, 352)로부터 획득된 (통상적으로-사용된) 특성 거리 사이의 긍정적인 경로)이 존재하는 경우, 가중치들 및 바이어스들의 최적화는 (적어도 인식가능하고 수용가능한 정도로) 달성된 것으로 가정될 수 있다.

의미론적 공간과 특성 공간에서 거리 척도들 사이에 상당한 수치 불일치가 존재하는 경로(즉, 부정적인 결과(420))로 돌아가면, 필터 파라미터들 및 특히 신경망들 중 하나 이상에서 적용된 가중치들 및 바이어스가 조정될 필요가 있다. 이러한 조정의 목적은 특성 공간에서의 벡터 거리 비유사성 척도들과 의미론적 공간에서의 연관된, 즉 대응하는 거리 비유사성 척도들 사이의 수치 수렴을 실현하는 것이다. 이와 관련하여, (비교된 트랙들이 동일한 노래의 커버 버전들이더라도) 트랙들의 유사하지 않은 쌍들 사이에 인식적 차이들 및 절대 차이들이 존재하기 때문에, 특성 공간의 값들은 의미 거리 공간에서 0 및 1의 하드 값들로부터 언제나 변할 것이라는 점에 유의한다. 각각의 에포크 후의 손실 또는 오버피팅을 체크하는 것은 통상적인 접근 방식이다.

따라서, 시스템에서의 처리 지능은 역전파를 통해 가중치 및 바이어스를 조정하여(422) 의미 및 특성(수치 기반) 거리들 간의 수렴을 추구한다. 이어서, 이러한 조정된 가중치들은 훈련 세트 내의 파일들의 다음 쌍에 대한 정렬을 개선하기 위해 도 2에 도시된 바와 같이 다양한 신경망들 내의 뉴런들에 적용된다.

ANN의 훈련은 쌍별 비교 기반으로 트랙 비유사성을 반영하는 특성 거리 공간에서의 거리 값을 산출한다. 결과적으로, 일단 훈련되면, 특성 거리 공간에서의 임의의 거리는 의미론적 공간에서의 실제 인식가능한 차이들에 정확하고 신뢰성 있게 매핑된다. ANN들의 뉴런들에서의 가중치들 및 바이어스들의 변경은 특성 공간이 추상적인 의미론적 공간으로 매핑되는 변환 함수 또는 메커니즘이다.

훈련 세트가 소진되면, 신경망은 최적화된 것으로 평가된다. 이것은 결정 블록 414로부터의 긍정 경로(424)에 의해 반영된다.

이해되는 바와 같이, 각각의 추출된 특성에 대한 각각의 처리 체인은 기계이다. 오디오 평가의 본 예시적인 경우에, 4개의 기계들: 리듬, 조성, 음색 및 텍스처에 대해 각각 하나씩이 있다. 훈련 프로세스를 최적화하기 위해, 독립 기계들 각각은 특성 공간에서 최종 벡터 표현(350, 352)에 독립적인 분리된 기여를 한다는 것이 인식되었다. 결과적으로, 바람직한 접근 방식은, 의미론적 공간에서의 의미 평가와 관련하여 쌍별 평가 기반으로, 이러한 효과적으로 병렬인 개별 기계들 각각 사이에 중요도의 가중을 채택하는 것이다. 다시 말해, 훈련 프로세스는 각각의 ANN에 대한 각각의 입력 내의 특정 오디오 설명자들(각각의 특성과 연관됨) 사이의 상대적 중요도를 결정한다. 이것은, 각각의 기계가 (의미론적 공간에서) 원하는 인간 주관적 평가를 반영하는 최종 결과를 변경하는데 있어서 특정한 기여하는 추출된 측정가능한 값들 중 어느 것이 가장 큰 영향을 갖는지를 학습한다는 것을 의미한다. 이를 달성하기 위해, 시스템은 각각의 기계에서 2개의 트랙을 평가하도록 동작한다. 이어서, 각각의 기계는 특정 기계에 의해 평가되는 각각의 특성을 정의하는 데 사용되는 양자화된 표현들의 세트 사이의 유사성 또는 비유사성을 식별하도록 구성된다. 기계는, 역전파 프로세스에서 그의 바이어스들 및 가중 인자들을 조정할 때, (특성 거리 공간에서) 유사성이 있는 경우, 특성(예를 들어, 리듬)을 다운플레이하도록, 즉, 특성의 상대적 중요성을 감소시키도록 동작하며, 대응하는 특성은, 바람직한 실시예에서, 의미론적 공간에서 특정 쌍별 비교로 동시에 평가된다. 다시 말해, 식별된 비유사성은 의미론적 공간에서 평가된 쌍별 오디오 트랙들 사이의 의미 평가 및 의미 차이들과의 더 나은 정렬을 가져오는 바이어스들 및 가중치들의 세트를 생성하는 데 기여하지 않는다. 이와 같이, 각각의 기계에 걸쳐, 시스템 지능은 특정 기계들에서 (양 트랙에서의) 다른 특성들을 암시적으로 가중하는데, 그 이유는 이들 다른 특성들이 의미 평가와 정렬하는데 더 큰 영향을 갖는 것으로 평가되기 때문인데, 즉 리듬 벡터 성분들 OR_x는 조성 벡터 성분들 OTO_x에 비해 오디오 컨텐츠의 품질들의 인간 인식에 더 큰 기여를 하는 것으로 시스템에 의해 평가될 수 있기 때문이다. 실제로, 이 원리를 개개의 양자화 표현으로 확장하면, 비교 쌍별 트랙에서 개개의 양자화된 표현들(특성 음색에 Essentia에서 기여하는 barkbands_crest 값 등) 간의 기계-식별된 비유사성은 이러한 개개의 양자화된 표현이 특성-기반 벡터를 의미-기반 값에 정렬할 때 덜 중요하다는 것을 의미한다.

신경망의 결과적인 변환 함수의 정확도가 훈련 데이터의 강건성 및 특히 행렬의 사이즈에 의해 좌우되며, 따라서, 10,000개의 오디오 파일들이 평가되어 대응적으로 10,000개의 벡터들을 생성할 수 있지만, NLP에 의해 훨씬 더 적거나 훨씬 더 많이 비평되어 내장을 제공할 수 있다는 것이 인식된다는 것이 이해될 것이다.

비교 라이브러리를 구축하기 위해, 훈련 세트 내의 파일들 각각이 그 트랙에 대한 유클리드 벡터를 생성하기 위해 ANN들을 통해 비교하지 않는 방식으로 간단히 처리(426)될 필요가 있다. 이 벡터는 그 후 파일 이름, 예를 들면, 노래 제목 및 아티스트 또는 다른 형태의 식별자에 상호 참조된 값으로서 데이터베이스에 저장될 수 있다(430). 벡터가 특정의 파일 특성에 기인하는 개별 성분으로 이루어져 있기 때문에, 특정의 식별된 특성을 검색하는 것을 가능하게 하기 위해 벡터 자체가 파싱될 수 있다. 예를 들어, 리듬에서의 공통성이 오버라이딩 요건이면, 이러한 특정 기여(바람직하지만 예시적인 경우) 64차원 출력 OR_x에서의 소스 및 기준 파일들 사이의 임의의 수치적 근접성은 리듬에서의 의미 근접성에 의해 결정된다.

다시 말해, 리듬 "NN_R"(310), 조성 NN_TO(312), 음색 NN_TI(314) 및 음악 텍스처 NN_TX((318)에 대한 개별 인공 신경망들이 최적화되었을 때, (예시적인) 오디오 트랙의 측정가능 특성들은 설정된 최적화된 가중치들 및 바이어스들을 갖는 다양한 NN을 통해 오디오 트랙의 샘플(예를 들어, 부분적 또는 전체 노래)을 처리함으로써 생성된 다차원 벡터에 신뢰성 있게 반영된다. 결과적으로, 절대값 스케일에 기초하여, 실제 인식가능한 비유사성들 또는 유사성들은 훈련 데이터 세트에서 사용되지 않은 새로운 트랙들을 포함하는 트랙에 대한 트랙에 대해 평가될 수 있다. 따라서, 이 시점에서, 훈련에 사용되는 의미 거리들은 무시될 수 있는데, 그 이유는 의미론적 공간이 이제 절대 스케일로 매핑되었기 때문이며, 이 경우 가까운 수치 값들은 정확하게 상황 유사성을 표현하는 반면, 큰 수치 거리는 사용자-구별 가능 비유사성을 표현한다.

도 7은, 특히 오디오 파일과 관련하여, 감정적 인식 파일 비유사성의 척도를 평가하기 위해 바람직한 실시예에 의해 이용되는 흐름 프로세스(800)이다.

도 2의 신경망이 훈련되면, 오디오 트랙(또는 파일의 적절한 카테고리)이 선택된다(802). 선택은 통상적으로 음악 라이브러리 또는 서비스의 소유자 또는 가입자와 같은 사용자에 의한 것이다. 대안으로서, 선택은 원래의 작품을 포함하는 음악 또는 파일의 업로드의 형태일 수 있다. 선택된 또는 업로드된 "제 1" 오디오 파일은 그 후 조성 등과 같은 식별가능한 특성들의 특징 추출(804)을 획득하도록 처리된다. 도 2의 신경망은 이후 최적화된 가중치들 및 바이어스들을 사용하여 추출된 특징들을 처리하여(806), 해당 특정 파일의 복수의 사용자-구별가능한 또는 사용자-선택가능한, 시스템 측정가능 특성들을 나타내는 제 1 파일 벡터(V_FILE)를 (유클리드 특성 공간 또는 소정의 다른 적절한 특성 공간에서) 생성한다(808). 제 1 오디오 파일에 대한 파일 벡터(V_FILE)를 (그러한 다른 파일들에 대한) 파일 식별자들 및 연관된 파일 벡터들 둘 다에 의해 인덱싱되는 라이브러리로 참조하는 것(810)은 그러한 라이브러리 기반 파일들이 제 1 오디오 파일에 대한 의미 유사성의 내림차순으로 열거될 수 있게 한다(812). 이것은 kNN 분석의 사용으로 달성되거나 그에 의해 보완될 수 있다.

도 8은 본 발명의 양태들에 따른 파일 유사성/비유사성 척도를 반영하는 벡터 표현들을 포함하는 평가 가능한 데이터베이스(902)를 포함하는 시스템 또는 네트워크 아키텍처(900)이다.

통상적으로, (인터넷과 같은) 네트워크(902)는 통신들이 서버(904), 홈 컴퓨터(906) 및 스마트폰(908)과 같은 장치들 사이에서 전달되는 것을 허용한다. 이러한 3 가지 장치 카테고리는 제한적인 것이 아니라, 시스템(900) 내의 처리 지능 및 시스템(900)의/으로의 평가 포인트들 모두를 나타낸다. 서버(904)는 통상적으로 특히 도 2 및 도 6과 관련하여 전술한 인공 신경망(905)을 지원한다. 그러나, 시스템 지능은 클라우드 기반이거나 복수의 상호접속된 서버들 사이에 분산되는 것을 포함하여 더 분산될 수 있다. 단지 명료성을 위해, 시스템 지능은 서버 내의 블록으로서 간단히 도시되지만, 컴퓨팅 능력은 또한 스마트폰 및 컴퓨터 내에 있다는 것을 쉽게 알 것이다. 서버는, 다른 상호작용 유닛들과 마찬가지로, 예를 들어, 웹 기반 평가를 지원하고/하거나 서버 또는 다른 서비스 제공자(912)에 의해 관리되는 서비스들에 대한 사용자의 등록을 제어하고/하거나 통신 프로토콜들을 지원하기 위한 일반 제어 펌웨어 및 소프트웨어(914)를 포함할 것이다. 서버는, 예컨대, LAN 또는 WAN을 통해 서버에 결합된 소스 데이터베이스(306)에 로드되거나 그로부터 추출되는 평가 및 정보를 조절할 수 있다. 이러한 평가는 컴퓨터(906), 스마트폰(908) 등에 의한 것일 수 있다.

소스 데이터베이스는, 사실상, 오디오 파일들의 카탈로그와 같은, 기존의 파일들의 라이브러리일 수 있다. 따라서, 소스 데이터베이스 내의 파일들은, 시간이 지남에 따라, 서버에 의해 추출되고 처리되어 (트랙 이름 및 아티스트와 같은) 파일 아이덴티티들(920)과 감정적으로 인식된 의미 품질들과 정렬된 파일 특성들을 나타내는 생성된 유클리드 벡터 척도들(V_FILE)922) 사이의 상호 참조를 생성할 수 있다.

예를 들어, 스마트폰 상의 그래픽 사용자 인터페이스 "GUI"의 터치스크린과 같은 사용자 인터페이스(930)의 제공은 본 발명에 따라 가까운 의미 특성들을 공유하는 트랙들을 검색하는 것을 허용하는 검색 도구 소프트웨어 애플리케이션에 대한 평가를 제공한다. 소프트웨어는 국지적이거나, 서버(904), 데이터베이스들(306) 또는 (컨텐츠에 대한 평가를 갖는 소셜 미디어 회사들과 같은) 서비스 제공자들과의 상호작용을 허용하는 웹 브라우저를 통해 평가될 수 있다. 대안적으로, 소프트웨어는 웹 기반 서비스로서 호스팅될 수 있다. 바람직하게는, GUI(930)는 선택 가능한 특성들 또는 청취/검색 선호들과 관련된 다수의 "소프트" 슬라이더 제어들을 사용자에게 제공하며, 예를 들어 제 1 슬라이더는 리듬과 관련될 수 있다. 따라서, 슬라이더 위치들은 사용자에 의해 변경되어, 최종 내장 벡터 출력(350, 352) 내의 개별 기여 다차원 벡터들(OR_x, OTO_x, OTI_x 및 OTX_x)에 상관되는 검색 파라미터들을 반영할 수 있다. 따라서, GUI 상의 슬라이더들의 설정은 시스템 내에 저장된 처리된 트랙들(920) 내의 특정 벡터 양태들을 목표로 한다.

이제 파일을 정의하는 선택된 추출 특성에 기초한 예시적인 비디오 파일 평가의 맥락에서 2개의 예시적인 내장을 도시하는 도 9를 참조한다. 도면 상부에 도시된 제 1 내장("내장 1")(950)은 색상(952), 제 1 데이터 파일에서 추출된 객체(954), 텍스처(956) 및 기타(958)의 존재에 대한 측정된 특성에 대한 연결된 기여로부터 조합된 예시적인 다차원 벡터 "101-1101-11101101---"을 갖는다. "기타(OTHER)"라는 용어는 다른 특성이 측정될 수 있고 다차원 벡터가 비트 길이로 확장될 수 있음을 나타내는 데 사용되었다. 도면 하단에 도시된 제 2 내장("내장 2")(960)은 예시적으로 생성된 다차원 벡터 "111-11101-10001111---"를 색상, 제 2 다른 데이터 파일에 대한 개체, 텍스처 및 기타 속성의 존재에 대응하는 추출된 측정된 특성에 대한 연결 기여로부터 조립한다. 또한, 위에서 나타낸 바와 같이, 개별 양자화된 차원은, 전체 의미 표현의 관점에서, 특정 사용자에 대한 각각의 파일을 범주화할 때 다른 양자화된 차원에 비해 더 크거나 작은 중요성을 가질 수 있다. 예를 들어, [예시적인 비디오 시나리오의 맥락에서] 특성 색상은 [상대적 중요성의 관점에서] 사용자의 검색 목적 또는 해당 파일의 사용자 분류에 [빠르게 움직이는 진화를 제안하는] "객체의 존재" 특성보다 덜 중요할 수 있다. 또한, 표시된 대로, 개별 벡터의 길이가 공통일 이유가 없다.

전술한 바와 같이 이해될 수 있는 바와 같이, 각각의 파일 벡터는 의미론적 품질에 관한 표현이지만 다차원 특성 공간으로 표현된다. 따라서 각각의 파일 벡터(V_FILE)는 의미론적 표현이다.

이제 도 10 내지 도 15를 참조하면, 이들 도면은 상이한 기술적 목적을 갖는 다르게 배열된 시스템에 의한 제품 및 사용자와의 시스템 상호작용 측면에서 내장된 벡터(또는 "내장물")의 사용을 예시한다. 사실, 도 10은 도 7에 도시된 프로세스와 밀접하게 정렬되고 이를 대표한다.

모든 경우에, 각각의 내장물은 도 7의 프로세스에 의해 도출된 파일 벡터(V_FILE)이다. 특정 데이터 파일에 대한 추출된 파일 특성으로부터 얻은 특정 데이터 파일에 대한 상이성/유사성 척도의 의미론적 인식의 수치적 평가를 반영한다. 내장물인 다차원 벡터는 도 1 내지 도 6 및 도 8의 훈련된 신경망에서 제공된 파일의 처리로부터 얻어진다. 여기에 표시된 바와 같이, 데이터 파일과 연관된 벡터(V_FILE)는 특정 파일의 복수의 사용자 식별 가능 또는 사용자 선택 가능 시스템 측정 가능 특성의 의미론적 표현이다. 연결은 파일 메타데이터에 캡처되는 것이 바람직하지만, 더 느슨할 수 있으며 테이블에서 적절하게 평가할 수 있는 상호 참조 또는 데이터베이스에 대한 링크일 수 있다. 그러나 파일 벡터(V_FILE)를 메타데이터에 직접 통합하는 것이 바람직하다.

경우에 따라, 사용자의 초기 질의에 파일 벡터(V_FILE)가 포함될 필요가 없다. 오히려, 초기 질의는 텍스트 설명 또는 버진(vergin)(예: 처리되지 않은) 원시 데이터 파일과 같은 다양한 형식을 취할 수 있다. 물론, 질의는 (도 7의 단계 808에서 생성된 바와 같이) 파일 벡터(V_FILE)를 이미 포함하는 파일의 형태를 취할 수도 있다.

임의의 버진 파일은 사용자 장치(스마트폰 또는 컴퓨터와 같은 "클라이언트 측")에서 로컬로 처리되거나 서버 또는 네트워크(902)(도 9의 902)를 통해 평가되는 다른 중간 처리 엔티티의 서버 측에서 원격으로 처리될 수 있다. 8). 로컬 처리를 위해 로컬 장치는 로컬 평가를 허용하기 위해 적응된 버전의 훈련 프로세스/훈련된 네트워크를 다운로드하지만, 사용자 장치는 특정 사이트와 상호 작용하고 자바스크립트 등을 사용할 수 있다. 공통 스레드(thread)는 버진 파일의 처리가 측정 가능한 특성 공간에서 파일 벡터(V_FILE)를 생성하고 시스템의 처리 지능(이것이 사용자 장치, 서버 또는 다른 위치에 있는지 여부)이 버진 데이터에서 측정 가능한 속성을 추출하는 기능을 하고 파일을 만들고 훈련된 신경망을 통해 추출된 특성을 적용하여 버진 데이터 파일에 대한 특성 공간에서 현실적인 의미론적 평가를 생성한다.

단지 도 10의 설명을 위해, 사용자(1002)로부터의 질의(1000)는 버진, 즉 이전에 평가되지 않은 음악 데이터 파일(1004)의 예시적인 형태를 취하는 것으로 가정되지만, 파일은 버진 비디오 클립/파일, 스피치, 또는 버진 텍스트 파일일 수 있다. 버진 데이터 파일은 유사성/비유사성 파일 벡터(V_FILE)을 제공하도록 훈련된 ANN(1006)에서 시스템의 적절한 처리 지점 어딘가에서 처리된다. 이 벡터는 기준 벡터(1010)(및 관련 사용자 소비 관련 데이터)의 데이터베이스(1026) 내에 문맥적으로 배치될 수 있는 버진 파일과 연관되거나 내장되고 따라서 사용자 소비자 데이터의 하나 또는 그 초과의 관련 후보 파일(1014-1022)에 의해 의미론적으로 관련된 클러스터(1012)에 둘러싸인다. 질의(1028)에 대해 새로 생성된 벡터에 대해 데이터베이스에 미리 저장된 후보 파일의 각각의 기준 벡터를 비교 및 대조함으로써, 질의에 대해 파일을 얻는 이들 후보 파일의 의미론적 거리(d)[각각의 벡터 사이의 절대 측정에 기초함]의 상대적 수치 순서는 설정될 수 있고 데이터베이스에서 k개의 가장 유사한/가장 가까운 타겟 파일(1030-1034)이 식별되고 사용자(1002)에게 전달된다(1030). 증가하는 수치적으로 평가된 벡터 거리 변화에 따라 데이터베이스의 참조 데이터 파일의 증가하는 개수의 순서[데이터 및 벡터와 관련된 질의가 시스템에 의해 데이터베이스에 저장되는 것을 추정함]는 이에 따라 데이터베이스의 모든 파일 간의 사용자 지각 유사성/비유사성을 반영한다.

따라서 k개의 가장 근접하게 식별된 후보 파일은 평가가 실제 세계 인식과 제안된 인공 현실 간의 정렬을 개선하여 의미론적 격차를 줄이는 프로세스를 기반으로 하는 데이터의 수치적 특성화를 기반으로 하는 개선된 추천 프로세스를 나타낸다.

데이터베이스(1026)의 참조 파일/기준 벡터는 더 분할되거나 재배열될 수 있다. 의미론적 유사성/비유사성은 각각의 파일 벡터(V_FILE) 사이의 전체 연결된 길이에 걸쳐 평가된 정량화된 차이에 의해 반영될 수 있지만, 더 높은 사용자 선택 관련성의 하나 또는 그 초과의 특정 추출 특성/특성들을 반영하는 연결된 벡터의 하나 또는 그 초과의 선택된 부분에 대해 평가될 수도 있으며, 예를 들어, 사용자에게는 소리의 존재 여부보다 색상이 더 중요하거나 파일의 나이가 더 중요할 수 있다.

사용자(1002)에 대해 원격으로 도시되고 서버를 통해 평가되는 것으로 설명되지만, 참조 데이터베이스는 예를 들어 사용자에게 로컬일 수 있고, 예를 들어, 사용자 컴퓨터의 로컬 하드 드라이브에 저장됨에 유의하시오.

따라서, 도 10에서, 애플리케이션은 추천의 관련성이 질의 항목(예: 사용자가 제공한 미디어 파일 또는 사용자가 마지막으로 소비한 미디어 항목)에 대해 의미론적 유사성에 의해서만 결정되는 것을 가정한다. 이 접근 방식은 다른 사용자 및 미디어 항목 정보가 관련이 없는, 예를 들어, 음악 산업 전문가가 임시 트랙을 대체할 로열티 없는 노래를 찾고 있고 사용자의 인구 통계에 관련된 또는 이전 검색과 관련된 정보가 관련이 없는 경우, 애플리케이션 시나리오에서 유지된다.

도 11에서, 시스템은 의미론적 표현(즉, 내장된 파일 벡터(V_FILE))을 사용하여 결과를 세분화하고 사용자에게 제공되는 추천 사항을 더욱 개선하는 2차 검색의 대상이 되는 일련의 후보를 생성한다.

도 10의 접근 방식과는 대조적으로, 사용자(1002)는 예를 들어, 서버에서 지원하는 로그인 절차를 통해 서비스에 등록한다. 이 프로세스에서, 사용자(1002)는 소비된 컨텐츠와 관련되지 않은 독립적인 사용자 속성에 관한 사용자 데이터(1102)를 입력한다. 이러한 사용자 속성에는 한 쌍의 주지된 예시적인 속성의 이름을 지정하기 위해 연령 및 성별과 같은 인구 통계 데이터가 포함될 수 있다. 이러한 속성은 시스템 및 일반적으로 서버 측에 저장되지만 시스템 지능에서 사용하기 위해 로컬로 캐시되고 사용자 로그인 시 업로드될 수도 있다. 등록 프로세스를 통해 서버는 사용자 로그인 빈도, 사용자의 지리적 위치(도메인을 통해) 및 평가한 컨텐츠의 지리적 위치, 사용자가 평가한 컨텐츠의 시청 시간, 본 컨텐츠 구매 내역을 식별할 수 있다. 따라서 등록 프로세스를 통해 데이터 파일, 예를 들어, 영화 또는 음악 장르, 스트리밍된 TV 프로그램, 다운로드한 책 등의 유형의 소비 이력을 포함하여 프로필을 설정할 수 있다. 프로필 획득은 숙련된 사용자에게 잘 알려져 있으며 본 발명의 이해를 위해 추가 설명이 필요하지 않았다. 사용자 데이터는 사용자가 이미 등록한 플랫폼의 타사 데이터베이스에서 얻을 수 있다.

이 양태에서, 추천은 직접 업로드된 사용자 질의에 대한 응답이 아니라 시스템 지능(사용자에 대해 로컬이든 이질적이든)에 의해 능동적으로 이루어질 수 있다.

궁극적으로, 시스템 지능은 2단계 선택 프로세스이기는 하지만 사용자에게 추천되는 소모성 파일 목록을 제공하도록 구성된다. 이를 위해, 시스템은 초기에 N 소비 파일의 기록된 사용자 소비 이력(1104)을 식별한다. N개의 소비된 파일들 각각은 도 2의 훈련된 신경망에 의해 생성되고 시스템 지능에 의해 알려지거나(예: 사전 저장됨) 계산 가능한 연관/내장된 파일 벡터(V_FILE)을 갖는다. 즉, 역사적으로 소비된 N개의 파일 각각은 고유한 조작 가능한 특성 벡터에 반영된 의미론적 표현을 갖는다. N≥1인 N개의 소비된 파일 세트에 대해, 시스템 지능은 N개의 소비된 파일 각각과 의미상 유사한 M개의 파일을 선택한다. 처리 지능은 데이터베이스에 저장된 제품, 즉 추천되는 후보 파일에 대한 다른 모든 참조 파일 벡터(V_FILE)에 상대적인 소비 파일 각각의 파일 벡터(V_FILE) 각각에서 측정된 상대적 정량적 거리에 의해 평가되는 선택을 작동한다. 따라서 시스템 지능은 사용자에게 추천하기 위한 후보 파일의 초기 풀로서 M*N 후보 파일 세트(여기서 1≤M≤N)를 생성한다. M 파일의 N 세트 각각에 대해, 각각의 소비된 파일에 상대적인 순서는 바람직하게는 가까운 것부터 먼 것으로 순서가 지정되는 의미론적으로 유사한 파일의 목록을 생성한다. 순서(ordering)는 프로세스에서 식별된 모든 M*N 파일에 대한 절대 상대 거리 측정의 순서를 기반으로 하거나 순서는 역사적으로 소비된 각각의 파일 주위의 그룹에 있을 수 있다(의미론적 근접성이 다른 파일 품질, 예를 들어 모범적인 음악 사례의 음조 및 음색과 연결될 수 있다는 사실을 반영함).

프로세스는 특정 사용자 질의(예: 시스템 지능에 파일 제공)에 의해 트리거될 필요는 없지만 일반적으로 프로세스는 사용자 상호 작용에 의해 트리거된다.

이러한 M*N 후보 파일은 미리 훈련된 예측 모델, 강화 학습 "RL" 알고리즘 또는 휴리스틱 처리 기능(1110)(집합적으로 "예측자(predictor)"라고 함)에 대한 제 1 입력을 제공한다.

예측자(1110)에 대한 제 2 입력으로서, 시스템 지능은 등록 또는 로그인 프로세스로부터 획득된 저장된 사용자 데이터를 적용한다. 예측자(1110)에 대한 제 3 입력으로서, 미디어 정보가 적용되며, 미디어 정보는 컨텐츠, 예를 들어, 작곡가, 작가 또는 감독 세부 정보, 제작 또는 배포 날짜, 장르(오디오 또는 영화 파일의 경우)와 관련되고 상호 참조되는 설명 설명자와 관련된다. 다른 미디어 데이터는 쉽게 평가되며 해시태그, 다운로드 속도 또는 절대 다운로드 수 및 시스템 사용자 기반의 글로벌 피드백을 포함하여 다양한 형태의 설명자를 취할 수 있다.

예측자(1110)는 시간 경과에 따른 사용자와의 상호 작용에 기초하여, 특히 시간 경과에 따라 3개의 입력에 적용된 다양한 학습 가중치를 통해 점수(1112)를 계산하도록 배열된다. 사용자 선호도를 반영하기 위해 예측자에 대한 세 가지 입력에 적용되는 가중 학습 프로세스는 숙련된 수신자에게 알려진 프로세스입니다. 상황별 산적 알고리즘(리 리홍(Li, Lihong), 등 "개인 뉴스 기사 추천에 대한 맥락적 산적 접근 방식." 제 19차 월드와이드웹 국제학술대회 간행물. 2010년)이다. 3개의 입력의 가중을 고려하여 예측자(1110)에 대한 점수의 숫자 순서화는 사용자(1002)에게 추천 목록(1030)으로서 k개의 출력하기 위한 의미론적으로 근접하고 관련된 후보 파일의 정제된 목록을 제공한다(여기서 k<N*M). 추천 목록(1030)은 사용자 장치에서 직접 인스턴스화 또는 검토를 위한 데이터 파일이거나 데이터 파일에 대한 링크일 수 있다. 추천 목록은 객관적으로 평가 가능한 특성 기반 벡터를 의미론적 현실과 정렬하는 방식으로 정보를 코딩하는 조작 파일 벡터를 사용하여 프로세스가 기술적으로 의미론적 격차를 줄이기 때문에 관련 자료의 세련되고 더 정확한 반영을 나타낸다.

도 11의 요약에서, 의미론적 유사성은 사용자에 대한 추천의 관련성을 결정할 여러 요인 중 하나로 가정된다. 다른 요인에는 다수의 다른 옵션 중에서 사용자 인구 통계, 미디어 항목 및 사용자의 지리적 위치, 미디어 항목 인기도(예: 조회수 또는 사용자 보고 좋아요 수), 미디어 항목 메타 데이터(예: 해시태그), 미디어 항목에 대한 이전 사용자 피드백(예: 시청 시간, 구매)이 포함될 수 있다. N개의 이전에 소비된 항목의 의미론적 표현은 각각에 대해 M개의 의미론적으로 유사한 항목을 식별하는 데 사용된다. 결과 N*M 항목은 후보를 나타낸다. 그런 다음 사전 훈련된 예측 모델, 강화 학습 에이전트 또는 휴리스틱을 사용하여 사용 가능한 모든 사용자 및 미디어 항목 정보를 고려하여 각 후보에 대한 점수를 결정할 수 있으며, 여기서 후자는 의미론적 표현을 포함할 수 있다. 마지막으로 시스템 지능은 k < N*M인 예측 점수를 기반으로 k개의 미디어 항목을 추천하는 기능을 한다.

도 11 및 12의 맥락에서 설명된 다양한 애플리케이션의 사용자 데이터 및 본 문서의 다른 곳은 파일 컨텐츠에서 파생되지 않은 데이터에 관한 것이다.

사용자 질의는 예를 들어, '소비를 위해 의미론적으로 관련된 파일의 지속적인 흐름을 제공하는' 문구, 비디오, 이미지, 스피치 또는 단순한 요청의 형태를 취할 수 있다. 작은 사용자 지시에 기초한 추천의 공급은 시스템과 관찰된 사용자 상호 작용, 예를 들어, 특정 사용자의 소비 내역에서 획득한 녹화된 파일 다운로드 또는 시청 행동에 기초할 수 있다.

이제, 도 12를 참조하면, 그것의 접근 방식은 도 11에서 상술한 것과 유사하지 않은데, 이는 의미론적 유사성이 사용자에 대한 추천의 관련성을 결정하는 여러 요소 중 하나로 취급되기 때문이다. 그러나 이 해법에서 후보 세트는 전체 참조 데이터베이스이거나 휴리스틱 사전 선택의 일부 형식이 적용된다(즉, 참신함 또는 후보 파일의 무작위 선택을 기반으로 함). 다시, 사용자 프로필이 설정되고 사용자 데이터(1102)가 시스템에 저장된다.

예측자(1212)에 의해 고려된 입력의 관점에서, 소비 이력으로부터의 추가적인 미디어 정보는 특정 사용자-선택 선호도를 포함할 수 있다. 예를 들어 추가 미디어 정보에는 다음이 포함될 수 있다:

* 음악: 장르 및 음색, 아티스트, 제작 연도 및 악기, 레이블 등.

* 동영상: 장르, 화면 비율, 프로그램의 특성(예: 다큐멘터리 또는 영화 또는 예고편), 감독, 배우, 방송의 원래 형식(예: TV 또는 기타 녹화된 라이브 공연),

* 이미지의 경우: 사진의 특성(예: 스포츠 또는 시골 지역), 픽셀 수, 컬러 또는 흑백, 해시태그 및 작성자 신원,

* 의료 기록과 같은 텍스트: 저자 및 생성 날짜.

사용자 피드백에는 사용자 평가, 사용자 상호 작용(예: 파일 공유 및 메시징) 및 이전 파일과의 사용자 상호 작용 시스템에 의한 시간 제한 관찰이 포함될 수 있다. 후자의 관점에서, 사용자가 파일을 건너뛰면, 이는 파일이 사용자 또는 당시 사용자의 기분과 관련이 없음을 나타낸다.

도 12에서, 예측자는 후보(파일 벡터 형태의 의미론적 표현 포함), 사용자 및 사용자의 소비 이력(다시 파일 벡터 형식의 의미론적 표현 포함)에 대한 이용 가능한 정보를 고려하여 각각의 후보에 대한 점수를 예측한다. 마지막으로, 예측자로부터 예측된 점수에 기초하여 k개의 미디어 아이템이 사용자(1002)에게 추천된다.

도 13 및 도 14를 참조하면, 추천에 대한 이러한 접근 방식은 시스템 지능이 새 사용자 또는 새 파일에 관한 정보가 없거나 매우 제한적인 "콜드 스타트(cold start)"를 기반으로 한다. 이와 관련하여, 기존 예측 모델은, 일반적으로 새로운 소셜 미디어 플랫폼을 구독한 새로운 사용자 또는 새로운 특정 미디어 항목에 대해 이용 가능한 데이터가 적거나 없을 때, 예를 들어, 미디어 항목이 최근에야 라이브러리에 추가되었고 충분한 수의 사용자가 아직 소비 및/또는 평가하지 않을 때, 정밀도가 부족하다.

미디어 아이템 콜드 스타트 시나리오가 도 13에 도시된다. 새로운 비디오의 예시적인 경우에 대해, 예측자(1306)를 사용하여 새로운 비디오의 추천을 허용하기 위한 배경 지식이 없다. 시스템 지능이 확률(p)을 가지고 추천하기 위해 요청될 때마다, 시스템은 사용자 피드백이 거의 없는 비디오 풀에서 사용자가 이전에 소비한 비디오와 의미론적으로 유사한(파일 벡터를 사용하여 평가) 새 비디오를 추천하는 순순한 컨텐츠-기반 접근 방식이다. 확률(1-p)의 경우 예측자는 많은 양의 사용자 데이터가 존재하는 비디오 풀에서 추천 목록을 생성한다. 컨텐츠-기반 접근 방식이 확률적으로 선택될 때마다, 예측자의 성능을 향상시키기 위해 다음 추천 주기에서 예측자가 해석할 수 있는 새로운 데이터 포인트를 생성한다.

도 14를 참조하면. 사용자 콜드 스타트에 대한 그것의 적용 가능성에서, 시스템 지능은 추천(1402)에 대한 사용자로부터의 요청을 처리한다. 시스템은 확률론적 접근 방식을 구현하도록 배열된다. 시스템은 참조 데이터베이스에서 파일의 의미론적 품질을 숫자로 나타내는 관련 파일 벡터를 갖는 파일을 사용할 수 있다. 시작 측면에서, 시스템 지능은 최근에 소비된 파일, 예를 들어, 시스템 사용자의 영역 내에서 적중률과 재생 시간이 높은 미디어 파일을 식별한다. 그러므로 추천 목록은 추천이 의미론적으로 유사한 파일에서 사용자가 보고/다운로드한 현재 "인기 있는(hot)" 주제 파일로 흐를 수 있는 순전히 컨텐츠-중심 접근 방식(1404)에 기초하여 처음에 사용자에게 제공된다. 컨텐츠-중심 접근 방식은 미리 결정된 데이터 포인트 임계값에 도달한 시점에서 종료될 수 있다. 사용자는 정해진 수의 데이터 파일을 받았고 이를 소비하였다. 컨텐츠 중심 접근 방식은 예측자에서 응답을 생성하고 따라서 제한된 의미론적 환경에 갇히는 것을 피하기 위해 무작위 파일을 후보 파일에 주입하는 탐색 구성 요소를 가질 수 있다.

특정 사용자 데이터로부터 획득한 지식이 증가함에 따라, 예측자(1406)는 효과적인 추천에 대한 대체 경로를 제시한다. 예측자(1406)는 다수의 파일 벡터(V_FILE)의 상대적인 대조에서 반영되는 바와 같이 의미론적인 거리에 기초하여, 추천(1402)에 대한 요청에 응답하여 획득된 사용자 데이터 및 정렬된 후보 파일 세트를 해결하도록 배열되거나 증가할 수 있다. 사용자 데이터는 사용자에 대한 지리적 위치 데이터 또는 소비된 파일의 출처를 더 포함할 수 있지만 이에 제한되지 않는다.

도 14의 시스템 지능은 이에 따라 (a) 순전히 컨텐츠-기반 접근 방식(1404) 및 (b) 예를 들어, 사용자가 L 파일 항목을 사용한 후, 시간에 따라 확률적으로 다르게 가중된 것으로 예측자(1306)를 통해 대안적이지만 잠재적으로 보완적인 기여를 취급한다. 초기에, 콜드 스타트 이후에 사용자가 감지할 수 있는 추천(1408)을 할 확률(p)은 순전히 컨텐츠-기반 접근 방식(1404)의 더 높은 의존도, 가중치 및 사용을 선호한다. 이 시점에서, p는 1의 값을 취할 수 있으므로 추천이 처음부터 완전히 컨텐츠 기반이고; 이는 충분한 사용자 소비가 추천 사항에 의미 있고 신뢰할 수 있는 기여를 제공할 때 추천 사항에 영향을 미치는 관점에서 데이터 세트를 추가로 조사하고 평가할 수 있는 능력을 가진 예측자를 남겨 둔다. 시간이 지나면서 구체적이고 충분한 사용자 데이터를 획득하면, [예측 기능 또는 협업 필터링 기반] 예측자의 출력에서 처리 및 추천이 더 관련성이 높은 것으로 시스템에서 인식된다. 따라서, 시스템 지능은 예측자의 평가에 의해 영향을 받는 추천 사항의 확률(1-p)을 시간이 지남에 따라 더 우세한 것으로 평가하도록 배열된다. 하드 임계값을 강제 사용하는 경우 p 값을 0으로 설정할 수 있다.

요컨대, 도 14에 도시된 프로세스를 지원하는 시스템 지능은 예를 들어, p의 확률로 이전에 소비된 아이템과의 의미론적 유사성에 기초하여 "새로운(new)" 파일(예를 들어, 미디어 아이템)을 추천할지 또는 확률 1-p(여기서 0<p<1)로 충분한 데이터를 사용할 수 있는 후보 세트 중에서 항목을 추천하는 예측 또는 협업 필터링 기반 메커니즘을 사용할지 여부를 결정하기 위해 새로이 확립된 사용자 계정으로부터의 각각의 새로운 조회에서 배열될 수 있다.

이제 도 15로 돌아가면, 기본 아키텍처는 이미 도 10에서 설명한 것과 유사하다. 데이터 파일(1502)과 같은 질의는 특성 공간에서 표현된 대응하는 벡터와 함께 의미론적인 디스크립터를 유지하는 벡터 표현을 생성하기 위해 특성을 추출하는 훈련된 신경망(1504)을 통해 사용자 장치(도시안됨)로부터 전달된다. 시스템은 기준 벡터의 데이터베이스(1506)를 포함하지만, 이 데이터베이스(1506)는 또한 텍스트 설명에 대한 벡터를 상호 참조하기도 한다. 일관되게, 시스템의 처리 지능은 질의와 연관된 파일 벡터(도 15에서 원으로 도시됨)에 대해 의미론적으로 가까운 후보 파일(도 15에서 삼각형으로 도시됨)을 식별하도록 배열된다. 다시 말하지만, 벡터 비교는 식별된 거리를 기준으로 의미론적으로 가까운 파일을 정렬하는 기능으로 이어지며, 벡터 사이의 거리가 멀수록 컨텐츠의 비유사성 수준이 높아진다. 그런 다음 비록 이제 이것이 질의를 생성한 사용자 및/또는 정부 기관의 보안 컴퓨터를 포함하여 제3자에게 전달되는 단일 출력 또는 메시지일 수 있지만, 시스템 지능이 추천 사항을 제시한다. 텍스트 설명은 쌍별 거리를 평가하고 각각의 쌍의 트레이닝 파일에 대해 추출된 특성에 대한 쌍별 거리에 대해 유지되도록 하기 위해 의미론적 벡터를 생성하기 위해 NLP에 종속되기 때문에 원본 트레이닝 세트 내에 존재한다.

도 15는 ANN이 파일로 제시된 질의를 다른 의미론적 표현 및 특히 데이터베이스의 텍스트 설명에 정렬되는 벡터로 코딩할 수 있다는 전제에서 작동한다.

제 1 단계에서, 도 7의 알고리즘은 의미론적 공간에서 새로운 질의의 내장을 계산하고, 이어서 전형적으로 유클리드 거리를 사용하여, 계산된 유클리드 거리가 미리 정의된 임계값을 초과하지 않는 다수의 가까운 이웃 후보 파일을 검출한다. 제 2 단계에서는 질의에 대해 생성된 파일 벡터와 데이터베이스의 상호 참조를 기반으로 후보 파일에 대한 하나 또는 그 초과의 텍스트 설명이 조립된다. 후보 파일에 대한 검색된 텍스트 설명은 주어진 벡터적 근접성에서 일반적으로 새 질의의 개체를 상이하고 보완적인 방식으로 설명한다.

처리 지능은 인접 후보 파일의 텍스트 설명에 응답하여 기성품 요약 알고리즘과 같은 자연어 처리 기술을 적용하여 임계 거리 내의 후보 파일과 관련된 모든 검색된 설명에서 하나의 대표적인 복합 텍스트 설명을 생성한다. 이 복합 텍스트 설명은 서버 측 시스템 지능에서 질의 발신자 또는 사법 당국을 포함한 소셜 미디어 플랫폼의 제3자 게이트키퍼에게 전달된다.

이 설정의 중요한 애플리케이션 맥락은 소셜 미디어 플랫폼에 게시될 수 있는 부적절한 이미지 또는 비디오와 같은 불법 컨텐츠를 감지하는 것이다. 여기에서, 미디어 항목은 의미상 가까운 참조 파일의 주석을 기반으로 잠재적으로 불법인 것으로 표시될 뿐만 아니라 생성된 설명은 사용자 지침 위반 유형, 예를 들어, "포르노(porn)" 및/또는 폭력적이거나 비뚤어진 성격의 법적 제한 컨텐츠에 대한 힌트를 제공한다. 컨텐츠가 불법이라는 의혹이 있는 경우 원래 질의와 관련하여 생성된 모든 설명 및 파일을 당국에 전달할 수 있다. 이러한 시스템은 불법 컨텐츠를 조기에 포착할 수 있으며 컨텐츠 관리자가 소셜 미디어 사이트에서 이러한 불법 컨텐츠, 특히 공격적인 이미지에 노출되는 것을 방지할 수 있다. 실제로, 시스템 지능은 질의의 의미론적 평가와 알려진 파일 벡터에 대해 평가할 수 있는 파일 벡터의 생성을 기반으로 컨텐츠 업로드 및 저장을 즉시 중지하는 필터 역할을 한다. 사실, 질의를 위한 벡터의 생성 및 다른 벡터와의 비교는 이웃 후보 파일이 될 특정 컨텐츠를 검토하거나 저장할 필요를 없애준다. 시스템이 벡터에 대한 참조와 간단한 텍스트 설명 또는 적용된 시스템 필터에 대한 경고 코드를 갖는 것만으로 충분하다.

이제 도 16을 참조하면, 본 명세서에 기술된 벡터 생성 방식은 연속 파일들 사이의 전환이 지각적으로 허용되는 논리 경로를 따라 소스 데이터 파일과 최종 데이터 파일 사이의 재생 목록의 점진적인 전환을 허용한다. 이러한 맥락에서, 음악적 예로서, 헤비 메탈 노래에서 합창 음악으로의 전환은 인접한 파일 사이의 전환 및 의미론적 거리가 임계 거리 내에 있고, 이동 방향은 최종 데이터 파일을 향한다(이로부터 멀지 않음). 이와 관련하여, 종점에 대한 벡터 거리는 단계적 계획을 생성하는 각각의 단계에서 평가된다.

추가 응용 프로그램 컨텍스트 측면에서 재생 목록은 유사한 특성을 가진 미디어 항목을 그룹화하는 것을 목표로 한다. 그러나 실제 DJ와 VJ는 종종 단일 세션에서 여러 장르를 통과하면서 연속 항목 간에 "부드러운" 전환을 유지한다. 의미론적 공간에서 일련의 미디어 항목 배열을 사용하여 소스 및 타겟 파일의 연속을 지정하여 이러한 동작을 알고리즘적으로 시뮬레이션할 수 있다. 표준 그래프 이론 방법을 적용하여 경로의 미디어 항목 수 또는 소스와 종점 사이의 전환 시간을 포함하여 사전 지정된 조건 세트에서 다른 미디어 항목을 통해 소스에서 타겟으로의 경로를 결정할 수 있다. 시스템 지능의 경로 찾기 메커니즘이 연속 항목 사이의 의미론적 공간에서 유클리드 거리가 적용된 제한 하에서 최소화되도록 구성되면, 미디어 항목 사이에서 자동으로 결정된 전환에서 향상된 "부드러움"이 달성된다.

특히, 도 10 내지 16(본원에 기술된 전체 실시예 및 양태에 적용 가능하지만)과 관련하여 설명된 실시예는 훈련된 신경망으로부터의 출력에 대한 의미론적 지각의 신뢰할 수 있는 상관관계를 허용하는 방식으로 의미론적 갭을 닫는 문제, 특히 잘못된 추천을 제거하거나 최종 사용자가 제어, 검증 또는 평가할 수 있는 능력이 없는 제시된 결과에서 처음부터 추천 사항의 정확성을 향상시키는 문제를 다룬다. 시스템 및 방법론은 의미론적 거리의 거리에 기인하지만 특성 공간에서 측정되는 측정 가능한 값이 있는 연속적인 다차원 공간을 생성하고 이러한 거리는 각각의 광범위한 파일 데이터베이스의 파일의 개별 파일에 대해 정의되고 다수의 개별 파일의 관점에서 측정된다. 모든 파일에 대한 결과 벡터는 데이터베이스 내에서 시작점으로 간주되는 관점에 관계없이 데이터베이스 전체에 대한 설명을 제공한다. 이와 같이, 데이터베이스의 선택된 파일 세트의 크기에 관계없이 파일 벡터는 인식된 유사성 또는 인식된 비유사성에 관계없이 파일 간의 관계를 설명한다. 이것은 인간 프로그래머가 데이터 파일 모음에 대해 달성할 수 있는 최상의 파일에 단순히 명목상 태그를 할당하는 것과는 다르다. 파일 벡터는 2개, 3개, 10개 또는 수백 개의 서로 다른 품질을 가진 파일이 서로에 대해 매핑되고 인식된 의미론적 유사성의 영향에 따라 가중치가 부여되는 방식을 이해할 수 있게 한다. 본 발명에 의해 다루어지는 문제를 단지 3차원으로 시각화할 때, 소셜 미디어 플랫폼의 데이터베이스에 저장된 바와 같이 다차원 공간의 50개, 일백 개, 일천 개, 또는 전형적으로 수 백만개의 파일은 고사하고예를 들어, 3차원 공간에 있는 10개의 데이터 파일(각각 여러 품질을 가짐) 사이의 상대 관계[원으로 표현된 데이터 파일 사이의 라인 거리로 아래 다이어그램에 표시되고 다이어그램에서 오직 하나의 이러한 관계가 5개의 데이터 포인트에 표시됨]를 인식하는 것이 단순히 불가능하다는 것이 곧 명백해진다.

Claims

데이터베이스 내의 복수의 후보 데이터 파일 중 적어도 일부에 대한 소스 데이터 파일의 의미론적 근접성을 평가하고, 상기 평가에 응답하여, 적어도 하나의 의미론적으로 근접한 후보 데이터 파일을 상기 데이터베이스로부터 식별하는 목록을 생성하는, 방법으로서,
특성을 추출하기 위해 상기 소스 파일을 처리하는, 단계;
상기 추출된 특성들로부터 특성 공간 내의 파일 벡터를 계산하는 단계로서, 상기 파일 벡터는 상기 소스 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 표현하는, 단계;
상기 파일 벡터를 복수의 특성 벡터와 비교하는 단계로서, 상기 복수의 후보 데이터 파일 중 상기 적어도 일부의 각각은 상기 복수의 특성 벡터의 연관된 특성 벡터를 갖는, 단계;
상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하는, 단계;
상기 소스 데이터 파일의 컨텐츠의 상기 측정된 분리 및 의미론적 근접성에 기초하여 상기 목록을 생성하는, 단계; 및
상기 목록을 추천 사항으로 제공하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 소스 데이터 파일은 상기 데이터베이스 내의 모든 후보 데이터 파일과 비교되는, 방법.
제 1 항 또는 제 2 항에 있어서,
상기 파일 벡터 및 각각의 특성 벡터는 트레이닝 파일 쌍을 사용하여 트레이닝된 인공 신경망 "ANN"의 쌍별 트레이닝에 따라 의미론적 공간에서 해당 쌍의 의미론적 유사성/비유사성을 향한 특성 공간에서 쌍별 유사성/상이성을 매핑하는 ANN으로부터의 출력이어서 특성 공간에서 거리 측정에 의해 반영된 특성 평가에 대해 정량화된 의미론적 비유사성 거리 측정에 반영된 의미론적 인식을 쌍별로 평가함으로써 의미론적 평가를 보존하는, 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 데이터베이스는 각각의 후보 파일의 컨텐츠를 식별하는 디스크립터 또는 코드에 대해 상호 참조되는 후보 파일에 대한 특성 벡터를 포함하는, 방법.
제 4 항에 있어서,
상기 디스크립터 또는 코드가 소스 데이터 파일의 컨텐츠가 유통 또는 출판에 적합하지 않음을 나타내는 경우 상기 소스 데이터 파일의 업로드를 방지하는 단계를 더 포함하는, 방법.
제 5 항에 있어서,
상기 소스 파일의 출처 또는 사용자 식별을 식별하는 보고서를 생성하는 단계를 더 포함하는, 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
추천을 구체화하기 위해 배열된 예측자에게 목록 상의 후보 파일을 공급하는 단계;
상기 예측자에 사용자 데이터 및 컨텐츠와 관련된 미디어 정보 중 적어도 하나를 입력하는 단계; 및
상기 목록 및 상기 사용자 데이터 및/또는 미디어 정보를 고려하여 후보 데이터 파일의 수정된 목록을 생성하는 단계를 더 포함하는, 방법.
제 7 항에 있어서,
상기 예측자는
예측 모델;
강화 학습 "RL" 알고리즘; 및
휴리스틱 처리 기능 중 하나를 기초로 하여 작동하는, 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 소스 데이터 파일에 대한 내장물로서 파일 벡터를 계산하는 단계;
상기 파일 벡터에 대한 결정된 거리 척도가 미리 정의된 임계값을 초과하지 않는 다수의 근접 이웃 후보 파일을 검출하는 단계;
각각의 특성 벡터를 반영하는 상기 후보 파일에 대한 하나 또는 그 초과의 텍스트 설명을 조합하는 단계;
상기 임계 거리 내의 후보 파일과 연관된 설명으로부터 대표적인 복합 텍스트 설명을 생성하는 단계; 및
상기 대표적인 복합 텍스트 설명을 사용할 수 있는 단계를 포함하는, 방법.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 데이터 파일은
음악,
동영상,
이미지 데이터,
스피치, 및
텍스트 파일 중 적어도 하나의 형태로 컨텐츠를 포함하는, 방법.
재생 목록 생성 방법으로서,
속성을 추출하기 위해 소스 파일을 처리하는 단계;
상기 추출된 속성들로부터 특성 공간 내의 파일 벡터를 계산하는 단계로서, 상기 파일 벡터는 상기 소스 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 표현하는, 단계;
파일 벡터를 복수의 특성 벡터와 비교하는 단계로서, 각각의 특성 벡터는 데이터베이스의 복수의 후보 데이터 파일 중 하나의 후보 데이터 파일과 연관되는, 단계;
상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 데이터 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하는, 단계; 및
상기 소스 데이터 파일과 최종 데이터 파일 사이의 후보 데이터 파일을 선택하여 상기 재생 목록을 통해 점진적 전환을 플로팅하는 단계로서, 상기 재생 목록의 연속 데이터 파일 사이의 전환은 인접한 데이터 파일 사이의 전환 및 의미론적 거리가 임계 거리 내에 있고 상기 재생 목록을 통한 이동 방향은 의미상 최종 데이터 파일을 향하는, 단계를 포함하는, 재생 목록 생성 방법.
제 11 항에 있어서,
상기 인접한 파일 사이의 전환은 연속적인 다차원 특성 공간에서 가장 짧게 측정된 분리인, 재생 목록 생성 방법.
제 11 항 또는 제 12 항에 있어서,
상기 인접한 파일 사이의 각각의 전환은 상기 데이터베이스 내의 후보 데이터 파일의 서브세트에 대한 측정된 분리를 평가하는, 재생목록 생성 방법.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 데이터 파일은
음악,
비디오, 및
이미지 데이터 중 적어도 하나의 형태의 컨텐츠를 포함하는, 재생목록 생성 방법.
제 11 항 내지 제 14 항 중 어느 한 항에 있어서,
상기 파일 벡터 및 각각의 특성 벡터는 트레이닝 파일 쌍을 사용하여 트레이닝된 인공 신경망 "ANN"의 쌍별 트레이닝에 따라 의미론적 공간에서 해당 쌍의 의미론적 유사성/비유사성을 향한 특성 공간에서 쌍별 유사성/상이성을 매핑하는 ANN으로부터의 출력이어서 특성 공간에서 거리 측정에 의해 반영된 특성 평가에 대해 정량화된 의미론적 비유사성 거리 측정에 반영된 의미론적 인식을 쌍별로 평가함으로써 의미론적 평가를 보존하는, 재생 목록 생성 방법.
의미 품질 기반 파일 추천 제공 방법으로서,
사용자에 의해 소비된 최근 소비된 참조 데이터 파일을 식별하는 단계;
상기 참조 데이터 파일을 처리하여 그로부터 특성을 추출하는 단계;
상기 추출된 특성으로부터 특성 공간의 제 1 파일 벡터를 계산하는 단계로서, 상기 제 1 파일 벡터는 상기 기준 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 표현하는, 단계;
상기 참조 데이터 파일에 대한 의미론적 근접성의 관점에서 새로운 데이터 파일을 평가하는 단계로서, 상기 평가는 상기 제 1 파일 벡터와 새로운 데이터 파일의 특성으로부터 유도된 다른 제 2 파일 벡터 사이의 상대적 비교에 기초하고 상기 제 2 파일 벡터도 보존하고 새로운 데이터 파일 컨텐츠의 의미론적 특성을 나타내는, 단계;
(a) 사용자에 대해 획득된 사용자 데이터, 및 (b) 후보 파일 데이터 내의 특성 벡터 중 적어도 하나의 가용성 및 범위를 결정하는 단계로서, 상기 특성 벡터는 그 안의 의미론적 품질을 반영하는, 단계;
상기 참조 데이터 파일과 상기 새로운 데이터 파일 사이에서 평가된 의미론적 근접성의 컨텐츠-기반 접근 방식; 및
예측 모델, 강화 학습 "RL" 알고리즘 또는 휴리스틱 처리 기능 중 하나에 기반한 예측 접근 방식으로서, 상기 예측 접근 방식은 후보 파일 데이터의 사용자 데이터 및 특성 벡터의 가용성의 충분성에 기반하는, 예측 접근 방식 사이의 확률적 가중치를 기반으로 상기 파일 추천을 제공하는 단계를 포함하는, 파일 추천 제공 방법.
제 16 항에 있어서,
상기 컨텐츠-기반 접근 방식과 예측 접근 방식 간의 확률적 가중치는 시간에 따라 변하는, 파일 추천 제공 방법.
제 16 항에 있어서,
초기에 상기 컨텐츠-기반 접근 방식은 절대적인, 파일 추천 제공 방법.
데이터베이스에 저장된 복수의 후보 데이터 파일 중 적어도 일부에 대한 소스 데이터 파일의 의미론적 근접성을 평가하는 시스템으로서,
소스 파일을 처리하여 특성을 추출하도록,
상기 추출된 특성으로부터 특성 공간의 파일 벡터를 계산하고, 상기 파일 벡터는 상기 소스 데이터 파일의 컨텐츠의 의미론적 특성을 보존하고 표현하도록;
상기 파일 벡터를 복수의 특성 벡터와 비교하고, 상기 복수의 특성 벡터의 각각의 특성 벡터는 상기 복수의 저장된 후보 데이터 파일 중 특정 후보 데이터 파일과 연관하도록;
상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하도록;
상기 소스 데이터 파일 컨텐츠의 상기 측정된 분리 및 의미론적 근접성에 기초하여 목록을 생성하고, 상기 목록은 상기 소스 데이터 파일과 관련하여 상기 데이터베이스로부터 적어도 하나의 의미론적으로 가까운 후보 데이터 파일을 식별하도록; 그리고
목록을 추천 사항으로 제공하도록; 배열된 처리 지능을 포함하는, 시스템.
제 19 항에 있어서,
상기 시스템 지능은 상기 소스 데이터 파일을 상기 데이터베이스 내의 모든 후보 데이터 파일과 비교하도록 배열되는, 시스템.
제 19 항 또는 제 20 항에 있어서,
상기 파일 벡터 및 각각의 특성 벡터는 트레이닝 파일 쌍을 사용하여 트레이닝된 인공 신경망 "ANN"의 쌍별 트레이닝에 따라 의미론적 공간에서 해당 쌍의 의미론적 유사성/비유사성을 향한 특성 공간에서 쌍별 유사성/상이성을 매핑하는 ANN으로부터의 출력이어서 특성 공간에서 거리 측정에 의해 반영된 특성 평가에 대해 정량화된 의미론적 비유사성 거리 측정에 반영된 의미론적 인식을 쌍별로 평가함으로써 의미론적 평가를 보존하는, 시스템.
제 19 항 내지 제 21 항 중 어느 한 항에 있어서,
상기 데이터베이스는 각각의 후보 파일의 컨텐츠를 식별하는 디스크립터 또는 코드에 상호 참조되는 후보 파일에 대한 특성 벡터를 포함하는, 시스템.
제 22 항에 있어서,
상기 시스템 지능은 상기 디스크립터 또는 코드가 소스 파일의 컨텐츠가 유통 또는 출판에 적합하지 않음을 나타내는 경우 상기 소스 데이터 파일의 업로드를 방지하도록 배열되는, 시스템.
제 22 항에 있어서,
상기 시스템 지능은 상기 소스 파일의 출처 또는 사용자 식별을 식별하는 보고서를 생성하도록 배열되는, 시스템.
제 19 항 내지 제 23 항 중 어느 한 항에 있어서,
상기 데이터베이스는 상기 소스 데이터 파일을 업로드하도록 배열된 사용자 장치에 대해 원격인, 시스템.
제 19 항 내지 제 25 항 중 어느 한 항에 있어서,
상기 추천을 세분화하도록 배열된 예측자를 더 포함하고,
상기 예측자는:
상기 목록 상의 후보 데이터 파일에 응답하는 제 1 입력; 및
컨텐츠에 관한 사용자 데이터 및 미디어 정보 중 적어도 하나에 응답하는 적어도 제 2 입력을 포함하고,
상기 예측자는 상기 목록과 사용자 데이터 및/또는 미디어 정보에 대해 갖는 후보 데이터 파일의 수정된 목록을 생성하도록 배열되는, 시스템.
제 26 항에 있어서,
상기 예측자는
예측 모델;
강화 학습 "RL" 알고리즘; 및
휴리스틱 처리 기능 중 하나를 기초로 하여 작동하는, 시스템.
제 19 항 내지 제 27 항 중 어느 한 항에 있어서,
상기 시스템 지능은:
파일 벡터를 상기 소스 데이터 파일에 대한 내장물로서 계산하도록,
상기 파일 벡터에 대한 결정된 거리 척도가 미리 정의된 임계값을 초과하지 않는 다수의 근접 이웃 후보 파일을 검출하도록;
그에 대한 각각의 특성 벡터를 반영하는 상기 후보 파일에 대한 하나 또는 그 초과의 텍스트 설명을 조립하도록;
임계 거리 내의 후보 파일과 연관된 설명으로부터 대표적인 복합 텍스트 설명을 생성하도록; 그리고
대표 복합 텍스트 설명을 사용할 수 있도록 배열되는, 시스템.
제 19 항 내지 제 28 항 중 어느 한 항에 있어서,
상기 데이터 파일은
음악,
동영상,
이미지 데이터,
스피치, 및
텍스트 파일 중 적어도 하나의 형태로 컨텐츠를 포함하는, 시스템.
제 19 항 내지 제 29 항 중 어느 한 항에 있어서,
상기 시스템 지능은 네트워크를 통해 사용자 장치에 원격으로 그리고 선택적으로 연결된 서버-측 구성요소인, 시스템.
데이터베이스에 저장된 후보 파일로부터 재생 목록를 생성하기 위한 프로세서로서,
컨텐츠로부터 특성을 추출하기 위해 소스 데이터 파일을 처리하도록;
상기 추출된 특성으로부터 특성 공간의 파일 벡터를 계산하고, 상기 파일 벡터는 소스 데이터 파일의 컨텐츠의 의미론적 특성을 보존하고 나타내도록;
상기 파일 벡터를 복수의 특성 벡터와 비교하고, 각각의 특성 벡터는 복수의 후보 데이터 파일 중 후보 데이터 파일과 연관되도록;
상기 복수의 후보 데이터 파일 중 적어도 일부의 각각의 특성 벡터에 대한 상기 소스 데이터 파일의 파일 벡터 사이의 연속적인 다차원 특성 공간에서 측정된 분리를 결정하도록; 그리고
상기 소스 데이터 파일과 최종 데이터 파일 사이의 후보 데이터 파일을 선택하여 상기 재생 목록을 통한 점진적 전환을 플롯하고, 재생 목록의 연속 데이터 파일 사이의 전환은 인접한 데이터 파일 사이의 전환 및 의미론적 거리가 임계 거리 내에 있고 재생 목록을 통한 이동 방향은 의미상 최종 데이터 파일을 향하도록 배열된, 프로세서.
제 31 항에 있어서,
인접한 파일들 사이의 전환은 연속적인 다차원 특성 공간에서 가장 짧게 측정된 분리인 것으로 프로세서에 의해 평가되는, 프로세서.
제 31 항 또는 제 32 항에 있어서,
인접한 파일 사이의 각각의 전환은 상기 데이터베이스의 후보 데이터 파일의 서브세트에 대한 측정된 분리를 평가하는, 프로세서.
제 31 항 내지 제 33 항 중 어느 한 항에 있어서,
상기 데이터 파일은
음악,
비디오 및
이미지 데이터 중 적어도 하나의 형태의 컨텐츠를 포함하는, 프로세서.
의미론적 품질을 기반으로 파일 추천을 제공하도록 배열된 처리 지능을 포함하는 시스템으로서, 시스템 지능은:
참조 데이터 파일을 처리하여 그로부터 특성을 추출하도록;
상기 추출된 속성들로부터 특성 공간 내의 제 1 파일 벡터를 계산하고, 상기 제 1 파일 벡터는 상기 참조 데이터 파일의 컨텐츠의 의미론적 특성을 보존하고 나타내도록;
상기 참조 데이터 파일에 대한 의미론적 근접성의 관점에서 새로운 데이터 파일을 평가하고, 상기 평가는 제 1 파일 벡터와 새로운 데이터 파일의 특성으로부터 유도된 상이한 제 2 파일 벡터 사이의 상대적 비교에 기초하고 상기 제 2 파일 벡터는 또한 새로운 데이터 파일 컨텐츠의 의미론적 특성을 보존하고 나타내도록;
(a) 사용자에 대해 획득된 사용자 데이터, 및 (b) 후보 파일 데이터 내의 특성 벡터 중 적어도 하나의 가용성 및 범위를 결정하고, 상기 특성 벡터는 그 안의 의미론적 품질을 반영하도록;
상기 참조 데이터 파일과 상기 새로운 데이터 파일 사이에서 평가된 의미론적 근접성의 컨텐츠-기반 접근 방식과 예측 모델, 강화 학습 "RL" 알고리즘 또는 휴리스틱 처리 기능 중 하나에 기반한 예측 접근 방식으로서, 상기 예측 접근 방식은 후보 파일 데이터의 사용자 데이터 및 특성 벡터의 가용성의 충분성에 기반하는, 예측 접근 방식 사이의 확률적 가중치를 기반으로 파일 추천 사항을 제공하도록 배열되는, 시스템,
제 35 항에 있어서,
상기 시스템 지능은 상기 컨텐츠-기반 접근 방식과 상기 예측 접근 방식 사이의 확률적 가중을 시간에 따라 변화시키도록 배열되는, 시스템.
제 36 항에 있어서,
상기 시스템 지능은 초기에 상기 컨텐츠-기반 접근 방식을 절대적으로 만드는, 시스템.
제 36 항 또는 제 37 항에 있어서,
상기 시스템 지능은 네트워크를 통해 사용자 장치에 원격으로 그리고 선택적으로 연결된 서버-측 구성요소인, 시스템.
제 19 항 내지 제 30 항 중 어느 한 항에 있어서,
상기 시스템 지능은 적어도 부분적으로 사용자 장치에 위치하는, 시스템.