KR102573612B1

KR102573612B1 - 지리적으로 분산된 연주자로부터 캡처된 콘텐츠에 기반하여 조율된 오디오비주얼 작품을 자동 생성하는 기법

Info

Publication number: KR102573612B1
Application number: KR1020177034851A
Authority: KR
Inventors: 케빈 성; 보나 김; 존 몰도버; 존 심민; 지니 양; 페리 쿡
Original assignee: 스뮬, 인코포레이티드
Priority date: 2015-06-03
Filing date: 2016-06-03
Publication date: 2023-08-31
Also published as: AU2016270352A1; US20160358595A1; WO2016196987A1; US11158296B2; US10424283B2; CN108040497B; US11756518B2; GB2554322B; US9911403B2; KR20180027423A; CN108040497A; GB2554322A; GB2554322A8; GB201719624D0; US20200286457A1; AU2016270352B2; US20180350338A1; US20220223128A1

Abstract

연주와 동기화된 비디오와 함께 사용자의 보컬 오디오는 캡처되고 다른 사용자의 오디오비주얼 컨트리뷰션과 조율되어 합성 듀엣 스타일 또는 글리 클럽 스타일(glee club-style) 또는 창유리형 뮤직 비디오 유형의(window-paned music video-style) 오디오비주얼 연주를 형성한다. 어떤 경우에는, 백킹 트랙의 가청 렌더링에 대응하여 가사를 노래방 스타일로 프리젠테이션하는 맥락에서 개별 사용자의 보컬 연주가 모바일 장치, 텔레비전 유형의 디스플레이 및/또는 셋톱 박스 장비에서(연주와 동기화된 비디오와 함께) 캡처된다. 다수의 보컬리스트의 컨트리뷰션들은, 주어진 연주 타임라인을 따르는 임의의 주어진 시간에 하나 이상의 컨트리뷰터의 연주와 동기화된 비디오를 프리젠테이션을 위해 선택하는 방식으로, 조율되고 믹스된다. 선택은, 피치 트랙, 백킹 오디오(backing audio), 가사, 섹션 및/또는 보컬 파트와 같은 연주 스코어의 다른 코딩된 특징에 대응하여 비주얼 레이아웃의 시퀀스를 코딩하는 시각적 진행(visual progression)과 부합한다.

Description

지리적으로 분산된 연주자로부터 캡처된 콘텐츠에 기반하여 조율된 오디오비주얼 작품을 자동 생성하는 기법

본 발명은 일반적으로 오디오비주얼 연주(audiovisual performance)의 캡처 및/또는 처리에 관한 것으로, 특히, 보컬 연주 캡처의 휴대용 장치 구현과 관련하여 사용하기에 적합한 기술에 관한 것이다.

휴대폰 및 기타 휴대용 컴퓨팅 장치의 사용자 기반(installed base)은 그 개수 및 계산력이 매일 증가한다. 이들은, 도처에 존재하며(hyper-ubiquitous) 전 세계 사람들의 생활 방식에 깊게 뿌리내려, 거의 모든 문화 및 경제적 장벽을 초월한다. 계산상, 오늘날의 휴대폰은 10년 미만 전의 데스크탑 컴퓨터에 필적하는 속도 및 저장 능력을 제공하므로, 실시간 사운드 합성 및 기타 음악 애플리케이션에 매우 적합하다. 그 일부 결과로, Apple Inc.에서 제공하는 iPhone^® 핸드헬드 디지털 장치와 같은 일부 최신 휴대폰은 오디오 및 비디오 재생을 지원한다.

전통적인 음향 악기처럼 휴대폰은 친숙한 사운드 생성 및 캡처 장치일 수 있다. 그러나 대부분의 전통적인 악기와 비교하면 음향 대역폭과 파워가 다소 제한적이다. 그러나 이러한 단점에도 불구하고, 휴대폰은 편재성(ubiquity), 수적 강점 및 고도의 이동성(ultramobility)이 있어, 언제 어디에서나 연주를 위해(적어도 이론상) 아티스트들을 함께 모으는 것이 가능하다. 모바일 음악 분야는 여러 연구 기관에서 연구되었다. 실제로 Smule Ocarina™, Smule Magic Piano 및 Smule Sing! Karaoke™(모두 Smule, Inc.에서 구입 가능)과 같은 애플리케이션에 의한 최근의 경험은 첨단 디지털 음향 기술이 매력적인 사용자 경험을 제공하는 방식으로 제공될 수 있음을 보여주었다.

디지털 음향 연구원들이 그들의 혁신 기술을, 프로세서, 메모리 및 기타 제한된 계산 자원에 의해 부과된 실세계 제약 내에서 그리고/또는 무선 네트워크의 통신 대역폭 및 전송 지연 제약 내에서 동작가능한 플랫폼들 및 iPhone® 핸드헬드 와 같은 최신 핸드헬드 장치에 배포할 수 있는 상용 애플리케이션으로 전환하고자 함에 따라, 상당한 현실적인 과제가 존재한다. 특히 비디오와 관련하여, 개선된 기술 및 기능적 능력이 요구된다.

모바일 장치 플랫폼 및 애플리케이션 실행 환경에 의해 부과된 많은 실질적인 제한에도 불구하고, 보컬 음악을 포함한 오디오비주얼 연주는 강력한 사용자 경험을 창출하는 방식으로 다른 사용자의 오디오비주얼 연주와 함께 캡처되고 조율될 수 있음이 밝혀졌다. 어떤 경우에는, 백킹 트랙(backing track)의 가청 렌더링(audible rendering)에 대응하여 가사를 노래방 스타일로 프리젠테이션하는 맥락에서 개별 사용자의 보컬 연주가 모바일 장치에서(연주와 동기화된 비디오와 함께)캡처된다. 어떤 경우에는, 가사의 노래방 스타일의 프리젠테이션과 관련하여 피치 큐(pitch cue)가 보컬리스트에게 제공될 수 있으며, 선택적으로 지속적인 자동 피치 보정(또는 피치가 화성으로 시프팅)이 제공될 수 있다.

본 발명의 일부 실시예에서, 지리적으로 분산된 연주자의 컨트리뷰션으로부터 조율된 오디오비주얼 작품을 준비하는 방법은 통신 네트워크를 통해, 시드의 제각기의 가청 렌더링과 시간적으로 대응하여 제각기의 원격 장치에서 캡처된 연주의 복수의 오디오비주얼 인코딩을 수신하는 단계 - 상기 수신된 오디오비주얼 인코딩은 각각 제각기의 연주자 보컬 및 시간적으로 동기화된 비디오를 포함함 - 와, 상기 시드와 시간적으로 대응하여, 제각기의 상기 비디오가 시각적으로 렌더링 가능한 비주얼 셀의 개수 및 배열을 각각 지정하는 일련의 템플릿형 스크린 레이아웃을 인코딩하는 시각적 진행을 검색하는 단계와, 상기 제각기의 연주자 보컬 및 조율된 비디오를 포함하는 상기 캡처된 연주 중 개별 연주를 상기 비주얼 셀 중 제각기의 비주얼 셀에 연관시키는 단계와, 상기 시각적 진행 및 상기 연관에 따라, 상기 조율된 오디오비주얼 작품을 상기 캡처된 연주의 오디오 믹스 및 조율된 비주얼 프리젠테이션으로서 렌더링하는 단계를 포함한다.

일부 경우 또는 실시예에서, 상기 템플릿형 스크린 레이아웃 중 연속하는 스크린 레이아웃은 비주얼 셀의 공간 배열 또는 개수, 또는 공간 배열과 개수 모두를 변화시킨다. 일부 경우 또는 실시예에서, 상기 오디오 믹스는, 상기 시각적 진행의 주어진 시점에서 유효한(operant) 특정 템플릿형 스크린 레이아웃에 대응하여, 당시의 유효한 상기 템플릿형 스크린 레이아웃의 비주얼 셀에 연관된 캡처된 연주 중 제각기의 연주에 대한 연주자 보컬을 포함한다. 일부 경우 또는 실시예에서, 상기 오디오 믹스의 주어진 시점에서, 상기 포함된 연주자 보컬은 오직 상기 템플릿형 스크린 레이아웃의 비주얼 셀과 연관된 제각기의 캡처된 연주에 대한 연주자 보컬이다.

일부 경우 또는 실시예에 이용된 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 음악 섹션들 사이의 경계와 시간적으로 일치한다. 일부 경우 또는 실시예에 이용되는 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 제1 보컬 파트, 제2 보컬 파트 및 멀티-보컬리스트 파트의 세트로부터 선택된 제각기의 파트들 사이의 변화와 시간적으로 일치한다. 일부 경우 또는 실시예에 이용되는 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 상기 시드의 대응하는 기본 노래(underlying song)의 N 번째(N≥1) 비트 케이던스와 시간적으로 일치한다. 일부 경우 또는 실시예에 이용되는 시각적 진행에서, 적어도 일부 연속적인 템플릿형 스크린 레이아웃에서의 상기 비주얼 셀의 개수는 상기 시드의 대응하는 기본 노래의 강도에 대응하여 증가한다. 일부 경우 또는 실시예에 이용되는 시각적 진행에서, 적어도 일부 비주얼 셀의 상기 공간 배열 또는 크기 조율은 하나의 템플릿형 스크린 레이아웃으로부터 다음의 연속된 템플릿형 스크린 레이아웃으로 변한다.

일부 실시예에서, 이 방법은 상기 시드에 대응하는 구조화된 음악 배열(structured musical arrangement)로부터 상기 시각적 진행을 생성하는 단계를 더 포함한다. 일부 경우 또는 실시예에서, 상기 구조화된 음악 배열은, 연주자 보컬용 피치트랙과 연주자 보컬용 가사 중 하나 또는 둘 모두에 대응하는 음악 섹션의 인코딩을 포함한다. 일부 경우 또는 실시예에 이용되는 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 상기 구조화된 음악 배열의 상기 음악 섹션 사이의 경계와 시간적으로 일치한다. 일부 경우 또는 실시예에서, 상기 구조화된 음악 배열은 백킹 트랙(backing track)의 인코딩을 포함한다. 일부 경우 또는 실시예에 이용되는 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 상기 백킹 트랙으로부터 계산에 의해 추출된 N 번째(N≥1) 비트 케이던스와 시간적으로 일치한다.

일부 경우 또는 실시예에서, 상기 템플릿형 스크린 레이아웃은 각각, 상기 연주자 각각의 보컬에 대응하여 캡처된 비디오가 렌더링되는 비주얼 셀 세트에 대한 시각적 범위를 정의한다. 일부 경우 또는 실시예에서, 상기 템플릿형 스크린 레이아웃은, 적어도 하나의 한 명의 연주자 레이아웃과, 적어도 하나의 두 명의 연주자 레이아웃과, 복수의 세 명 및 네 명의 연주자 레이아웃과, N≥4인 경우, 연주자 숫자 N 중 적어도 하나의 숫자에 대해, 복수의 N 명의 연주자 레이아웃을 포함한다.

일부 실시예에서, 이 방법은 상기 검색된 시각적 진행에 대응하여, 제1 템플릿형 스크린 레이아웃으로부터 다음의 연속된 템플릿형 스크린 레이아웃으로 변하는 단계를 더 포함하되, 특정 연주자의 보컬과 대응하여 캡처된 비디오에 대해, 상기 변화는 상기 제1 레이아웃의 제1 비주얼 셀로부터 상기 다음의 연속된 템플릿형 레이아웃의 비주얼 셀로의 변화이다. 일부 경우 또는 실시예에서, 제1 비주얼 셀로부터 제2 비주얼 셀로의 변화는 슬라이딩 변화와, 페이드 인 또는 페이드 아웃 변화와, 스케일링 변화와, 크로핑 변화 중 하나 이상을 포함한다.

일부 경우 또는 실시예에서, 상기 렌더링은 상기 통신 네트워크를 통한 저장 또는 전송에 적합한 오디오비주얼 인코딩 또는 컨테이너 포맷이다. 일부 경우 또는 실시예에서, 상기 렌더링은 디스플레이 및 오디오 변환이다.

일부 실시예에서, 이 방법은 상기 오디오 믹스에서, 당시의 유효한 상기 템플릿형 스크린 레이아웃의 특정 비주얼 셀에 연관된 캡처된 연주에 대한 연주자 보컬의 오디오 진폭을 스케일링하는 단계를 더 포함하되, 특정 연주자의 보컬에 대한 상기 스케일링된 진폭은 상기 특정 연주자의 비디오가 연관되는 상기 특정 비주얼 셀의 크기에 대응한다. 일부 실시예에서, 이 방법은 상기 오디오 믹스에서, 당시의 유효한 상기 템플릿형 스크린 레이아웃의 특정 비주얼 셀에 연관된 캡처된 연주에 대한 연주자 보컬을 좌우로 패닝하는 단계를 더 포함하되, 특정 연주자의 보컬에 대한 상기 패닝은 상기 특정 연주자의 비디오가 연관되는 상기 특정 비주얼 셀의 측방 위치(lateral placement)에 대응한다.

일부 실시예에서, 이 방법은 상기 조율된 오디오비주얼 작품의 인코딩을 상기 지리적으로 분산된 연주자 중 한 명 이상에게 전송하는 단계를 더 포함한다. 일부 실시예에서, 이 방법은 상기 통신 네트워크를 통해, 백킹 트랙의 가청 렌더링에 대해 제1 원격 장치에서 캡처된 시간적으로 동기화된 비디오 및 제1 연주자 보컬을 포함하는 시드 연주의 오디오비주얼 인코딩을 수신하는 단계를 더 포함하되, 상기 시드는 상기 제1 연주자의 상기 시드 연주를 포함한다.

본 발명에 따른 이들 및 다른 실시예는 상세한 설명 및 첨부된 청구 범위를 참조하여 이해할 수 있을 것이다.

본 발명은 첨부 도면을 참조하여 예를 통해 설명되지만 이에 한정되는 것은 아니며, 동일한 참조번호는 일반적으로 유사한 요소 또는 특징을 나타낸다.
도 1은 시드 연주(seed performance)가 캡처되고 추가 연주자의 컨트리뷰션과 믹스되는, 본 발명의 일부 실시예들에 따른 예시적인 휴대폰 유형의 휴대용 컴퓨팅 장치들과 콘텐츠 서버 사이의 정보 흐름을 도시한 것이다.
도 2는 본 발명의 일부 실시예에 따른, 오디오비주얼 콘텐츠 캡처에 이용되며 오디오비주얼 연주 첨부를 위해 콘텐츠 서버를 사용하는 예시적인 휴대폰 유형의 휴대용 컴퓨팅 장치들 사이의 정보 흐름을 도시한 것이다.
도 3은 다수의 오디오비주얼 연주의 조율에 이용되는 시각적 진행을 코딩하기 위해 본 발명의 일부 실시예에 따라 채용될 수 있는 다양한 수의 보컬리스트에 대한 템플릿형 스크린 레이아웃을 도시한 것이다.
도 4a, 도 4b 및 도 4c는 본 발명의 일부 실시예에 따라 복수의 참여 보컬리스트에 대한 비디오가 스코어에 대응하여 코딩되는 시각적 진행을 사용하여 조율되는, 조율된 오디오비주얼 연주 타임 라인을 따른 보컬 연주와 동기화된 비디오의 연속적인 스냅 샷이다.
도 5는 본 발명의 일부 실시예에 따른, 템플릿형 스크린 레이아웃의 시각적 진행이 가사, 보컬 큐 및/또는 캡처된 사용자 보컬의 연속적인 피치 보정을 위한 피치 트랙, 및 백킹 트랙에 추가로(그러나 이에 대응하여) 코딩되는 스코어 코딩(score coding)을 도시한 것이다.
도 6은 본 발명의 일부 실시예에 따른, 스코어 코딩된 피치 보정 세팅에 기초하여 캡처된 오디오비주얼 연주, 선택적 실시간 연속 피치 보정 및 화성 생성을 나타내는 흐름도이다.
도 7은 본 발명의 일부 실시예에 따른, 캡처된 오디오비주얼 연주의 처리를 용이하게 하기 위해 예시적인 휴대폰 유형의 휴대용 컴퓨팅 장치에서 실행 가능한 소프트웨어 컴포넌트 및 하드웨어 컴포넌트의 기능 블록도이다.
도 8은 본 발명의 일부 실시예에 따른 오디오비주얼 캡처를 포함하는 소프트웨어 구현의 실행을 위한 플랫폼으로서 기능할 수 있는 모바일 장치의 특징부를 도시한 것이다.
도 9는 본 발명의 일부 실시예에 따른 예시적인 장치들의 협력을 나타내는 네트워크 다이어그램이다.
당업자는, 도면의 요소 또는 특징이 단순하고 명료하도록 도시되었으며 반드시 축척으로 도시된 것은 아니라는 것을 이해할 것이다. 예를 들어, 도시된 요소 또는 특징 중 일부의 치수 또는 중요부는 본 발명의 실시예에 대한 이해를 돕기 위해 다른 요소 또는 특징과 비교하여 과장될 수 있다.

휴대용 컴퓨팅 장치 및 거실 스타일 엔터테인먼트 장치 상에서 오디오비주얼 연주의 캡처, 피치 보정, 화성붙임(harmonization), 인코딩 및/또는 렌더링을 용이하게 하기 위한 기법이 개발되었다. 연주와 동기화된 비디오와 함께 보컬 오디오가 캡처되고 다른 사용자의 오디오비주얼 컨트리뷰션과 조율되어 듀엣 스타일 또는 글리 클럽 스타일 또는 창유리형 뮤직 비디오 유형의의 오디오비주얼 연주를 형성한다. 어떤 경우에는, 백킹 트랙의 가청 렌더링에 대응하여 가사를 노래방 스타일로 프리젠테이션하는 맥락에서 개별 사용자의 보컬 연주가 모바일 장치, 텔레비전 유형의 디스플레이 및/또는 셋톱 박스 장비에서(연주와 동기화된 비디오와 함께) 캡처된다. 어떤 경우에는, 가사의 노래방 스타일의 프리젠테이션과 관련하여 피치 큐가 보컬리스트에게 제공될 수 있으며, 선택적으로 지속적인 자동 피치 보정(또는 피치가 화성으로 시프팅)이 제공될 수 있다.

다수의 보컬리스트의 컨트리뷰션들은, 주어진 연주 타임라인을 따르는 임의의 주어진 시간에 하나 이상의 컨트리뷰터의 연주와 동기화된 비디오를 프리젠테이션을 위해 선택하는 방식으로, 조율되고 믹스된다. 선택은, 피치 트랙, 백킹 오디오, 가사, 섹션 및/또는 보컬 파트와 같은 연주 스코어의 다른 코딩된 특징에 대응하여 비주얼 레이아웃의 시퀀스를 코딩하는 시각적 진행과 부합한다. 이러한 레이아웃에서 개별 비주얼 셀의 개수, 시각적 배열 및 크기는 주어진 조율된 연주의 과정에서 변한다.

일반적으로, 주어진 노래에서, 노래의 음악 구조의 특징이 비주얼 레이아웃의 맵핑된 시퀀스를 만드는 데 사용된다. 예를 들어, 일부 경우, 상황 또는 실시예에서, {버스(verse), 코러스(chorus), 버스(verse), 코러스(chorus), 브리지(bridge)...}와 같은 노래 형식이 맵핑을 제한하는 데 사용된다. 듀엣에서와 같은 일부 경우에는, 보컬 파트 시퀀싱(예컨대, 당신이 한 줄 노래하고, 내가 한 줄 노래하고, 당신이 두 단어 노래하고, 내가 세 단어 노래하고, 우리가 함께 노래하기...)이 비주얼 레이아웃의 시퀀스를 생성하는데 사용되는 구조적 정보를 제공한다. 일부 경우에,(예컨대, 음향 파워, 템포 또는 다른 측정치로 측정된) 노래의 세기를 형성하는 상황 또는 실시예는 결과적으로 측정된 세기에 대응하여 점점 더 많은 수의 보컬리스트를 추가하는 일련의 시각 레이아웃을 초래할 수 있다.

일부 경우, 상황 또는 실시예에서, 특정 컨트리뷰션의 선택, 조율된 스크린 레이아웃의 특정 비주얼 셀에 대한 비디오의 맵핑 및/또는 특정 연주와 동기화된 비디오 및/또는 오디오의 현저한 프리젠테이션은, 적어도 부분적으로, 캡처된 보컬 오디오에서 추출된(또는 계산된) 계산에 의해 정의된 오디오 특징부에 기초할 수 있다. 마찬가지로, 일부 경우, 상황 또는 실시예에서, 특정 컨트리뷰션의 선택, 조율된 스크린 레이아웃의 특정 비주얼 셀에 대한 비디오의 맵핑 및/또는 특정 연주와 동기화된 비디오 및/또는 오디오의 현저한 프리젠테이션은 적어도 부분적으로 캡처된 비디오에서 추출된(또는 계산된) 계산에 의해 정의된 비디오 특징부에 기초할 수 있다.

특정 연주와 동기화된 비디오의 포지셔닝 및/또는 프로미넌스(prominence)에 대응하여, 오퍼레이티브 오디오 믹스 세팅이 적절히 조율될 수 있다. 예를 들어, 일부 경우, 상황 또는 실시예에서, 공간화 필터(spatialization filter)를 이용하여 캡처된 오디오를 대응하는 비디오를 위한 현재 스크린 레이아웃 위치에 대응하여 좌우로 패닝(pan)할 수 있다. 마찬가지로, 공간화 필터는(i) 대응하는 비디오가 제시되는 특정 비주얼 셀의 상위(또는 하위)의 현재 스크린 레이아웃 위치 및/또는 (ii) 보컬리스트 스태킹의 겉보기 깊이에 대응하여 캡처된 오디오를 변경하는 데 사용될 수 있다. 예를 들어, 코러스에 맵핑된 캡처된 보컬의 경우, 일부 실시예는 보다 작은(그리고 외관상 보다 먼) 비주얼 셀에 비디오가 제시되는 보컬에 더 큰 잔향(reverberation)을 적용한다.

선택적으로, 어떤 경우 또는 실시예에서, 보컬 오디오는 모바일 장치에서(또는 보다 일반적으로는 휴대폰, 개인 휴대 정보 단말기, 랩톱 컴퓨터, 노트북 컴퓨터, 패드형 컴퓨터 또는 넷북과 같은 휴대용 컴퓨팅 장치에서) 피치 보정 설정에 따라서 실시간으로 피치 보정될 수 있다. 경우에 따라, 피치 보정 설정은 보컬 연주 또는 그 일부에 대한 특정 키 또는 스케일을 코딩한다. 경우에 따라, 피치 보정 설정은 가사 및 백킹 트랙과 함께 제공되거나 이와 연관된 스코어 코딩된 멜로디 및/또는 화성 시퀀스를 포함된다. 화성 노트 또는 코드(harmony notes or chords)는 명시적 타겟으로서 또는 원한다면 스코어 코딩된 멜로디 또는 보컬리스트가 소리 낸 실제 피치에 대해 코딩될 수 있다. 기계가 사용할 수 있는 악기 디지털 인터페이스 스타일(MIDI 스타일) 코딩이 가사, 백킹 트랙, 노트 타겟, 보컬 파트(예컨대, 보컬 파트 1, 보컬 파트 2,... 함께), 음악 섹션 정보(예컨대, 인트로/아우트로, 버스(verse), 프리코러스, 코러스, 브리지, 트랜지션 및/또는 기타 섹션 코딩) 등에 이용될 수 있다. 일부 경우 또는 실시예에서, 종래의 MIDI 스타일 코딩은, 도시된 바와 같이 그리고 본원에 기술된 바와 같이, 일련의 템플릿 스크린 레이아웃의 비주얼 셀에 대한 맵핑의 스코어 정렬된 시각적 진행을 인코딩하도록 확장될 수 있다.

피치 보정된 보컬, 연주와 동기화된 비디오 및 스코어 코딩된 화성 믹스의 강력하고 혁신적인 특성에 기반하여, 사용자/보컬리스트는 자신의 보컬 연주 공유와 관련된 자연스러운 수줍음 또는 불안을 극복할 수 있다. 대신 지리적으로 분산된 보컬리스트도 친구 및 가족과 공유하거나 소셜 뮤직 네트워크의 일부로서 보컬 연주에 협력하고 기여하도록 격려받는다. 일부 구현예에서 이러한 상호 작용은 소셜 네트워크 및/또는 전자 메일을 통한 성과 공유 및 그룹 성과에 참여하기 위한 초대를 통해 촉진된다. 전술한 휴대용 컴퓨팅 장치와 같은 클라이언트에서 캡처된 업로드된 보컬을 사용하면, 콘텐츠 서버(또는 서비스)는 다수의 컨트리뷰팅 보컬리스트의 업로드된 오디오비주얼 콘텐츠를 조작하고 믹싱함으로써 그러한 조율된 연주를 이뤄낼 수 있다. 특정 시스템의 목표 및 구현에 따라, 업로드는, 비디오 콘텐츠 외에도, 피치 보정된 보컬 연주(화성 유무와 상관없이), 드라이(즉, 보정되지 않은) 보컬 및/또는 사용자 키 및/또는 피치 보정 선택의 컨트롤 트랙 등을 포함할 수 있다.

소셜 뮤직은 다양한 방법으로 달성될 수 있다. 예를 들어, 일부 구현 예에서, 휴대용 컴퓨팅 장치에서 백킹 트랙에 대해 캡처되고 스코어 코딩된 멜로디 및/또는 화성 큐에 따라 통상적으로 피치 보정된 제1 사용자의 보컬 연주가 시드 연주로서 다른 잠재적인 보컬 연주자에게 제공된다. 연주와 동기화된 비디오 또한 캡처되어 피치 보정된 캡처된 보컬과 함께 제공될 수 있다. 제공된 보컬은 통상적으로 백킹 인스트루멘탈/보컬과 믹싱되어 제2의(그리고 잠재적으로 연속하는) 사용자의 보컬의 캡처를 위한 백킹 트랙을 형성한다. 흔히 연속하는 보컬 컨트리뷰터들은 지리적으로 떨어져 있고 서로(적어도 사전에는)알지 못하지만, 이들 보컬의 친밀감은 공동 경험 자체와 함께 이 거리를 최소화하는 경향이 있다. 연속하는 보컬 연주 및 비디오가(예컨대, 각각의 휴대용 컴퓨팅 장치에서) 캡처되어 소셜 뮤직 경험의 일부로서 합쳐짐에 따라, 각각의 보컬이 캡처되는 백킹 트랙이 이전에 캡처된 다른 컨트리뷰터의 보컬을 포함하도록 진화할 수 있다. 일반적으로 말하면, 제1, 제2 또는 제N 세대의 오디오비주얼 연주가 시드로서 이용될 수 있지만, 설명의 단순화를 위해, 본 명세서의 많은 예들 및 예시들은 제1 세대 시드를 가정한다.

일부 경우에, 매혹적인 비주얼 애니메이션 및/또는 청취자 코멘트 및 순위를 위한 설비뿐만 아니라 듀엣, 글리 클럽 또는 합창 그룹 형성 또는 첨부 로직(accretion logic)이 백킹 인스트루멘탈 및/또는 보컬과 믹싱된(예컨대, 다른 유사하게 구성된 모바일 장치에서 캡처되고 피치 보정된)보컬 연주의 가청 렌더링과 관련하여 제공된다. 합성된 화성 및/또는 추가 보컬(예컨대, 여전히 다른 위치에 있는 다른 보컬리스트로부터 캡처된 보컬 및 선택적으로 다른 보컬과 조화되도록 피치 시프트된 보컬)이 믹스에 포함될 수도있다. 캡처된 보컬 연주(또는 결합된 연주에 대한 개인 컨트리뷰션)의 지오코딩(geocoding) 및/또는 청취자 피드백은, 지구상의 특정 지리적 장소로부터 출발하여 사용자가 조작가능한 연주 또는 보증을 암시하는 방식으로 애니메이션 또는 표시 효과를 용이하게 할 수 있다. 이러한 방식으로, 설명된 기능의 구현은 평범한 모바일 장치를 글로벌 연결성, 협업 및 커뮤니티 감각을 키우는 사회적 도구로 변환할 수 있다.

노래방 스타일 보컬 연주 캡처

본 발명의 실시예가 이에 한정되는 것은 아니지만, 휴대폰 유형 및/또는 텔레비전 유형의 오디오비주얼 장비를 이용한 피치 보정된 노래방 스타일의 보컬 캡처는 유용한 서술적 문맥을 제공한다. 예를 들어, 도 1에 도시된 바와 같은 일부 실시예들에서, 애플사의 아이폰(iPhone^®) 핸드헬드(또는 보다 일반적으로는 핸드헬드(101))는 콘텐츠 서버(110)와 협력하여 실행되는 소프트웨어를 호스팅하여 보컬 캡처 및 연속적인 실시간, 캡처된 보컬의 스코어 코딩된 피치 보정 및 화성붙임을 제공한다. 연주와 동기화된 비디오는 텔레비전 또는 다른 오디오비주얼 미디어 장치 또는 연결된 셋톱 박스 장비(도 1에 별개로 도시되지 않음)(예컨대, 애플 TV™ 장치)에 의해 제공되거나 또는 이들에 연결된 카메라를 사용하여 캡처될 수 있다. 연주와 동기화된 비디오는 또한 또는 대안적으로 핸드헬드(101)에 의해 제공된 온보드 카메라를 사용하여 캡처될 수 있다.

노래방 스타일 애플리케이션(예컨대, Smule, Inc.에서 제공하는 Sing! Karaoke™ 애플리케이션)과 같이, 인스트루멘탈 및/또는 보컬의 백업 트랙은 노래하는 사용자/보컬리스트에게 들리도록 렌더링될 수 있다. 이 경우, 사용자가 노래방 스타일의 보컬 연주를 용이하게 하기 위해 가청 렌더링에 대응하여 가사가 디스플레이될 수 있다(102). 도 1의 도시된 구성에서, 가사, 타이밍 정보, 피치 및 화성 큐, 백킹 트랙(예컨대, 인스트루멘탈/보컬), 성능 조율된 비디오 등은 모두 네트워크 접속된 콘텐츠 서버(110)로부터 공급될 수 있다. 일부 경우 또는 상황에서, 백킹 오디오 및/또는 비디오는, 핸드헬드, 셋톱 박스, 미디어 스트리밍 장치 등에 상주하거나 이들이 액세스할 수 있는 iTunes™ 라이브러리 또는 다른 오디오비주얼 콘텐츠 저장소와 같은 미디어 저장소로부터 렌더링될 수 있다.

단순화를 위해, 무선 로컬 영역 네트워크는 핸드헬드(101), 임의의 오디오비주얼 및/또는 셋톱 박스 장비 및 콘텐츠 서버(110)와 같은 호스팅 서비스 플랫폼에 대한 광역 네트워크 게이트웨이 사이에 통신을 제공하는 것으로 가정될 수 있다. 도 9는 예시적인 네트워크 구성을 나타낸다. 그러나, 본 명세서의 설명에 기초하여, 당업자라면 802.11 Wi-Fi, 블루투스™, 4G-LTE 무선, 유선 데이터 네트워크, 예컨대 HDMI, AVI, Wi-Di 표준 또는 설비에 일치하는 유선 또는 무선 오디오비주얼 인터커넥트를 포함하는 임의의 다양한 데이터 통신 설비가 따라 개별적으로 또는 조합하여 이용되어 본원에 설명된 통신 및/또는 오디오비주얼 렌더링을 용이하게 할 수 있다는 것을 이해할 것이다.

다시 도 1의 예를 참조하면, 사용자 보컬(103)은 핸드헬드(101)에서 캡처되고, 핸드헬드에서 또는 오디오비주얼 디스플레이 및/또는 셋톱 박스 장비(구체적으로 도시되지 않음)의 컴퓨터 기능을 이용하여 연속적으로 그리고 실시간으로 선택적으로 피치 보정되며, 백킹 트랙이 들리도록 렌더링되고(104) 백킹 트랙과 믹싱되어 사용자에게 자신의 보컬 연주의 향상된 음질의 연주를 제공할 수 있다. 캡처된 보컬(103) 및 가청 렌더링(104)은 핸드헬드(101)의 마이크로폰 및 스피커 기능을 중심으로 하는 편리한 시각적 기호를 사용하여 도시되었지만, 당업자라면, 많은 경우 마이크로폰 및 스피커 기능은 부착되거나 무선으로 연결된 이어 버드, 헤드폰, 스피커, 피드백 격리 마이크 등을 사용하여 제공될 수 있다는 것을 알 수 있을 것이다.

따라서, 특별히 한정하지 않는 한, 보컬 캡처 및 가청 렌더링은 특정 오디오 변환기 구성에 제한없이 광범위하게 이해되어야 한다.

피치 보정은, 제공될 경우, 연속 피치 보정 알고리즘에 현재의 키 또는 스케일 내 타겟 노트의 연주와 동기화된 시퀀스를 제공하는 스코어 코딩된 노트 세트 또는 큐(예컨대, 피치 및 화성 큐(105))에 기초한다. 연주와 동기화된 멜로디 타겟에 부가하여, 스코어 코딩된 화성 노트 시퀀스(또는 세트)는 사용자가 캡처한 보컬의 화성 버전으로 전환하기 위해 (일반적으로 리드 멜로디 노트 트랙에 대한 오프셋으로서 코딩되고 전형적으로 그 선택된 부분에 대해서만 스코어링된)추가 타겟을 피치 시프팅 알고리즘에 제공할 수 있다. 경우에 따라, 피치 보정 세팅은 특정 백킹 트랙과 관련된 보컬을 처음 수행한(또는 보급한) 아티스트와 같은 특정 아티스트의 특징일 수 있다.

또한, 가사, 멜로디 및 화성 트랙 노트 세트 및 관련 타이밍 및 제어 정보는 백킹 트랙과 함께 제공하기 위한 적절한 컨테이너 또는 객체(예컨대, 뮤지컬 악기 디지털 인터페이스, MIDI 또는 자바 스크립트 오브젝트 노테이션(Java Script Object Notation), json, 타입 포맷)으로 코딩된 스코어로서 캡슐화될 수 있다. 이러한 정보를 사용하면, 핸드헬드(101), 오디오비주얼 디스플레이 및/또는 셋톱 박스 장비, 또는 둘 모두는, 사용자에 의한 노래방 스타일 보컬 연주를 용이하게 하기 위해 백킹 트랙의 가청 연주에 대응하여 가사 트랙 및 심지어 타겟 노트, 화성 및 현재 검출된 보컬 특징부와 관련된 비주얼 큐를 디스플레이할 수 있다. 따라서 야심찬 보컬리스트가 Anna Kendrick에 의해 대중화된 "When I'm Gone"을 선택하면, (이전에 다운로드에 기초하여 이용 가능하지 않거나 캐싱되지 않았다면) 콘텐츠 서버(110)에서 gone.json 및 gone.m4a가 다운로드될 수 있고, 이어서 배경 뮤직, 동기화된 가사 및 상황 또는 실시예에 따라서는 사용자가 노래하는 동안 연속적인 실시간 피치 보정을 위한 스코어 코딩된 노트 트랙을 제공하는데 사용될 수 있다.

선택적으로, 적어도 특정 실시예 또는 장르에 있어서, 화성 노트 트랙은 캡처된 보컬로의 화성 시프트를 위해 스코어 코딩될 수 있다. 전형적으로, 캡처된 피치 보정된(아마도 조화된) 보컬 연주는 연주와 동기화된 비디오와 함께 핸드헬드 장치 또는 셋톱 박스에 하나 이상의 오디오비주얼 파일로서 로컬로 저장되고, 이어서 콘텐츠 서버(110)에 MPEG-4 컨테이너 파일로서 업로드(106)하기 위해 압축 및 인코딩된다. MPEG-4는 인터넷, 모바일 네트워크 및 고급 방송 애플리케이션을 위한 디지털 멀티미디어 콘텐츠의 코딩된 표현 및 전송을 위한 국제 표준이다. 필요한 경우, 다른 적절한 코덱, 압축 기법, 코딩 포맷 및/또는 컨테이너가 사용될 수 있다.

구현에 따라, 드라이 보컬 및/또는 피치 정정된 보컬의 인코딩이 콘텐츠 서버(110)에 업로드될 수 있다(106). 일반적으로, 이미 피치 보정되었든 콘텐츠 서버(110)에서 피치 보정되었든 (예컨대, MPEG-4 컨테이너 또는 다른 식으로 인코딩된) 이러한 보컬은, 예컨대 백킹 오디오 및 다른 캡처된 (그리고 가능하게는 피치 시프팅된) 보컬 연주와 믹싱되어(111), 특정 타겟 또는 네트워크(예컨대, 핸드헬드(120), 오디오비주얼 디스플레이 및/또는 셋톱 박스 장비, 소셜 미디어 플랫폼 등)의 능력이나 한계에 따라 선택된 품질 또는 코딩 특성의 파일 또는 스트림을 생성할 수 있다.

본 명세서에서 더 상세하게 설명되는 바와 같이, (연주와 동기화된 비디오를 포함하는)다수의 보컬리스트의 연주는 듀엣 스타일의 연주, 글리 클럽, 창유리형 뮤직 비디오 유형의 구성 또는 보컬 잼 세션으로서 제시하기 위해 합쳐지거나 결합될 수 있다. 일부 실시예에서, 연주와 동기화된 비디오 컨트리뷰션(예컨대, 도 1의 예시에서, 핸드헬드(101)에서 캡처된 시드 연주를 포함하거나 오디오비주얼 및/또는 셋톱 박스 장비를 사용하는 연주와 동기화된 비디오(122))이 결과의 믹싱된 오디오비주얼 연주 렌더링(123)에 제시될 수 있는데, 믹싱된 오디오비주얼 연주 렌더링(123) 동안 스크린 포지셔닝, 사이징, 또는 다른 비주얼 프로미넌스가 동적으로 변한다. 포지셔닝, 사이징 또는 다른 비주얼 프로미넌스는 본원에 보다 자세히 설명하는 일련의 템플릿 기반 스크린 레이아웃에 적어도 부분적으로 기초한다.

초기 설명을 단순화하기 위해, 도 1은 콘텐츠 서버(110)(또는 서비스 플랫폼)에 업로드되는 최초 시드 연주(106)의 연주와 동기화된 오디오(103) 및 비디오(105) 캡처를 나타내는데, 이 시드 연주(106)는, 하나 이상의 잠재적인 컨트리뷰팅 보컬리스트 또는 연주자에게 배포되고 다른 컨트리뷰팅 보컬리스트 또는 연주자(#2, #3... #N)가 이에 대해 추가적인 오디오비주얼(AV) 연주를 캡처하게 하는 시드 연주 역할을 한다. 도 1은 콘텐츠 서버(110)에서 오디오 믹스 및 비주얼 배열(111)을 위해 다른 캡처된 AV 연주 #2, #3... #N를 제공하여 연주와 동기화된 비디오(122)를 생성하는 것을 나타낸다.

도 2는 배경 인스트루멘탈/보컬(107), 가사/타이밍 정보(108), 피치 및 화성 큐(109) 및 시드 연주(106)를 추가 보컬 또는 연주자(#2... #N)에게 제공하는 것을 확대하여 자세히 도시한 것이다. 이러한 보컬리스트 또는 연주자는 일반적으로 지리적으로 분산되어 있으며 어떤 경우에는 직접 만난 적이 없다. 첫 번째 또는 시드, 연주자, 오디오(103.2... 103.N) 및 비디오(105.2... 105.N)와 마찬가지로 두 번째 내지 N 번째 연주자에 대한 캡처는 핸드헬드, 오디오비주얼 디스플레이 및/또는 셋탑 박스 장비 또는 이들 둘 모두를 이용하여 전술한 방식으로 노래방 스타일로 제공될 수 있다. 도 1 및 도 2의 예시는 핸드헬드(101) 또는 거실 스타일의 오디오비주얼 디스플레이 및/또는 셋톱 박스 장비를 사용하는 초기 시드 연주 캡처를 가정하지만, 당업자는 일부 경우 또는 실시예에서 스튜디오 장비 또는 심지어 기존의 뮤직 비디오 콘텐츠가 시드 연주(106)로서 사용될 수 있다는 것을 알 수 있을 것이다.

제2 내지 제N 연주자의 보컬을 포함하는 캡처된 AV 연주(#2... #N)가 콘텐츠 서버(110)에 공급되고, 여기서 이들은 다른 AV 연주(통상적으로는 시드 연주를 포함함)와 결합되고 (예컨대, 핸드헬드(120)에서)연주와 동기화된 오디오비주얼 합성물(122)로서 제공되거나 제시된다. 다시 도 1을 참고하면, 일반적으로 연주 비주얼(및 대응 오디오)의 개수, 레이아웃, 개별 연주자 비주얼 포지셔닝 및/또는 프로미넌스 등은 모두 코딩된 시각적 진행에 따라 믹싱된 오디오비주얼 연주 렌더링(123)에 걸쳐 변할 수 있다.

도 1의 예시에서, (AV 연주를 캡처한 둘, 셋 또는 그 이상의 연주자, 예컨대 #2, #3... 중) 두 연주자가 코딩된 시각적 진행의 현재 상태에 기초하여 선택된다. 그러나, 당업자는 코딩된 비주얼 진행에 기초하여 언제라도, 연주자의 상이한 수, 선택, 구성 및/또는 비주얼 레이아웃이 믹싱된 오디오비주얼 연주 렌더링(123)에 나타날 수 있음을 이해할 것이다. 일반적으로, 코딩된 시각적 진행은 보컬 파트 시퀀싱 또는 AV 연주가 캡처된 하부 배경 트랙의 다른 뮤지컬 구조와 시간 정렬되도록 코딩되거나, 제시된 연주자의 수 및 스크린 상의 위치 레이아웃의 변화에 대해 선택적이다. 특정 연주자는, 일부 경우 또는 실시예에서, 대응하는 보컬(또는 비디오)의 오디오(또는 비주얼) 특징부 분석에 기초하여 포함하도록 선택될 수 있다(또는 프로미넌스에 대해 선택될 수 있다).

본 발명의 일부 실시예에서, 소셜 네트워크 구조는 지리적으로 분산된 보컬들의 짝짓기 또는 그룹화를 용이하게 할 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 제1 보컬리스트는 연주한 보컬 오디오를 연주와 동기화된 비디오와 함께 캡처하여 콘텐츠 서버 또는 서비스 플랫폼에 업로드(106)할 수 있다. 이러한 캡처된 오디오비주얼 콘텐츠는 콘텐츠 서버가 중재하는 오픈 콜을 통해 또는 제1 보컬리스트가 시작한 전자 통신을 통해 차례로 제1 보컬리스트의 소셜 미디어 연락처로 배포될 수 있다. 이러한 방식으로, 제1 보컬리스트 자신(및/또는 이를 대신하는 콘텐츠 서버 또는 서비스 플랫폼)은 조율된 오디오비주얼 연주에 참여하도록 다른 사람들을 초대할 수 있다.

예시되고 설명된 것과 같은 오디오비주얼 캡처는 최초 또는 이전의 컨트리뷰터로부터 캡처된 보컬(일반적으로 피치 보정된 보컬) 및 연주와 동기화된 비디오를 포함할 수 있다. 이러한 오디오비주얼 캡처는 다른(가능하게는 원격) 사용자/보컬리스트(예컨대, 다른 캡처된 AV 연주 #2, #3... #N 참조)로부터의 다음 오디오비주얼 캡처를 위한 백킹 오디오비주얼 트랙일 수 있다(또는 그 기초를 형성할 수 있다). 일반적으로, 이후에 수행되는 오디오비주얼 콘텐츠의 캡처는 로컬로 또는 다른 (지리적으로 분리된) 핸드헬드 장치에서 또는 다른 (지리적으로 분리된) 오디오비주얼 및/또는 셋톱 박스 구성을 사용하여 수행될 수 있다. 일부 경우 또는 실시예에서, 특히 거실 스타일, 오디오비주얼 디스플레이 및/또는 셋톱 박스 구성(예컨대, 네트워크에 연결된 애플 TV 장치 및 TV 모니터를 사용)과 함께, 추가 연주자의 초기 및 연속 오디오비주얼 캡처는 일반적인(및 함께 배치된) 핸드헬드 장치 세트 및 오디오비주얼 및/또는 셋톱 박스 장비를 사용하여 수행될 수 있다.

백킹 트랙의 제공 및 사용이 본 명세서에서 도시되고 설명되는 경우, 캡처되고, 피치 보정된(및, 반드시는 아니지만 가능하게는 화성이 붙여진) 보컬은 그 자신이 믹싱되어 후속 보컬 캡처를 자극하거나, 안내하거나 또는 배경을 이루는데 사용되는 "백킹 트랙"을 생성할 수 있음을 이해할 것이다. 또한, 추가적인 보컬이 특정 부분(예컨대, 테너, 듀엣에서의 부분 B 등)을 노래하거나 또는 단순히 노래하도록 초대될 수 있고, 그 다음에 콘텐츠 서버(110)가 이들의 캡처된 보컬을 피치 시프트하여 듀엣, 콰르텟 또는 가상 글리 클럽 내의 하나 이상의 위치로 배치할 수 있다. 연주 첨부의 이들 및 다른 측면은, 본원 출원인이 공동출원인이고 발명자가 Cook, Lazier, Lieber, 및 Kirk이며 발명의 명칭이 "COORDINATING AND MIXNG VOCALS CAPTURED FROM GEOGRAPHICALLY DISTRIBUTED PERFORMERS"인 미국특허 제8,983,829호에 상세히 기술되어 있다.

시각적 진행 및 템플릿형 스크린 레이아웃

도 3은 복수의 오디오비주얼 연주를 조율하는데 유용한 시각적 진행을 코딩하기 위해, 본 발명의 일부 실시예에 따라 사용될 수 있는 다양한 수의 보컬리스트를 위한 템플릿형 화면 레이아웃을 나타낸다. 예시적인 레이아웃은 믹스, 멀티 연주자, 오디오비주얼 연주(믹싱된 AV 연주 렌더링(123)을 상기하라. 도 1 참고)의 과정에서 사용하도록 예시되어 있다. 한 명의 보컬리스트(131) 및 다수의 보컬리스트 레이아웃(132, 133, 134, 135, 136, 138...)이 도시되어 있고 적어도 일부 보컬리스트의 수 및 다수의 대안적인 레이아웃을 포함하고 있다. 예를 들어 5명의 보컬리스트 레이아웃에 대해, 3개의 대안적인 레이아웃(135.1, 135.2 및 135.3)이 도시되어 있다.

일반적으로, 본 발명에 따른 실시예는 믹싱된 AV 연주 렌더링 타임라인에 걸쳐, 결과의 믹싱된 AV 연주 렌더링에 시각적 관심이 가도록 주어진 연주자의 수에 대해 복수의 레이아웃 변화를 포함하는, 다양한 레이아웃을 이용할 것이다. 도 4a, 도 4b 및 도 4c는 조율된 AV 연주 타임 라인(130)을 따라 채용된 일련의 레이아웃(122A, 122B 및 122C)을 도시한 것이다. 일부 경우에, 주어진 수의 연주자에 대한 레이아웃 변화 중 하나 이상은 다른 사람보다 가장(또는 보다 많이) 눈에 띄는 특정 보컬리스트(또는 특정 보컬리스트들)를 중요시하는 경향이 있다. 다시 도 3을 참조하면, 이 프로미넌스의 예는 도시된 5, 6 및 8명의 보컬리스트 레이아웃 각각에서 레이아웃(135.1, 136.1 및 138.1)을 포함한다. 전술한 바와 같이, 특정 연주자의 비주얼 프로미넌스는 오디오 파워, 스펙트럼 플럭스(spectral flux) 및 스코어 기반 품질 메트릭(quality metric)과 같은 오디오 특징부 분석에 따라 결정될 수 있다. 일부 경우 또는 실시예에서, 시드 연주자는 눈에 띄는 시각적 위치를 제공받을 수 있다.

특정 예시적인 레이아웃이 도시되었지만, 본 개시의 이점을 갖는 당업자는 다수의 적합한 변형을 이해할 것이다. 간략화를 위해 일반적으로 직사각형 창을 갖는 정사각형 폼 팩터가 도시되었지만, 일부 경우 또는 실시예에서는 다른 폼 팩터 및 창 구조가 이용될 수도 있음에 주의하라. 예를 들어, 가로형, 세로형 및 레터 박스 폼 팩터가 많은 핸드헬드 장치 배치에서 바람직할 것이다.

스코어 코딩된 시각적 진행 및 피치 트랙

도 5는 본 발명의 일부 실시예에 따른 스코어 코딩을 도시한 것으로서, 여기서 템플릿형 스크린 레이아웃의 시각적 진행이 가사(108), 보컬 큐 및/또는 캡처된 사용자 보컬의 연속 피치 보정용 피치 트랙(109), 및 백킹 트랙(107)에 더하여(그러나 일반적으로는 시간 일치하게) 코딩된다. 일반적으로, 스코어 코딩된 시각적 진행(151)은 시간에 따라 변하는 연주자의 수를 코딩하고, 시간에 따라 변하는 연주자의 수에 대응하는 비주얼 레이아웃(153)의 시퀀스(152)에 대해 선택적이다.

공통으로 사용되는 음악 작곡 스타일에 대응하여, 전체 스코어가 음악 섹션(여기 도 5의 예에서, 버스, 버스, 프리코러스, 코러스...)으로 분해되고 보컬리스트 수는 통상의 섹션의 과정에서 커지는(build) 경향이 있다. 예를 들어, 버스(161)에서, 보컬리스트의 수는 1에서부터 2로, 4로, 6으로(그 다음에 5, 그 다음에 6) 그리고 마지막으로 8명의 보컬리스트까지 많아진다. 시간에 따라 변하는 연주자의 수에 대응하는 비주얼 레이아웃(153)의 예시적인 선택은 시퀀스(152)의 일부로서 도시되어 있다. 템플릿형 스크린 레이아웃들 중 연속하는 레이아웃은 비주얼 셀의 공간 배열 또는 개수 또는 공간 배열와 수 모두를 바꾼다.

일반적으로, 전체 믹싱된 AV 연주 렌더링(123)(도 1 참조) 내에서의 오디오 믹스는, 시각적 진행에서 주어진 시점에서의 유효한 특정 템플릿형 스크린 레이아웃에 대응하여, 당시의 유효한 템플릿형 스크린 레이아웃의 비주얼 셀에 연관된 캡처된 연주들 중 제각기의 연주에 대한 연주자 보컬들을 포함한다. 일부 경우 또는 실시예에서, 스코어 및 대응하는 오디오 믹스 내의 주어진 시점(예컨대, 시점(P1))에서, 포함된 연주자 보컬은 당시의 유효한 템플릿형 스크린 레이아웃(예컨대, 레이아웃(L1))의 비주얼 셀에 연관된 제각기의 캡처된 연주에 대한 이들 연주자 보컬이다. 따라서, 시점(P1) 및 대응하는 레이아웃(L1)의 경우에, 믹스된 AV 연주 내 6명의 연주자에 대한 6개의 보컬이 연주와 동기화된 비주얼과 함께 렌더링되고, 연주자(1)(통상적으로 시드 연주자)는 레이아웃(L1)의 눈에 띄는 위치(1)에서 시각적으로 중요시된다.

본 발명의 이점을 갖는 당업자라면 알 수 있듯이, 하나의 템플릿형 스크린 레이아웃으로부터 다른 레이아웃으로의 적어도 일부 전환은 음악 섹션 사이의 경계와 시간적으로 일치하며, 이 때 다른 것은 주어진 섹션의 내부에 있다. 예를 들어, 하나의 템플릿형 스크린 레이아웃으로부터 다른 레이아웃으로의 전환은 제1 보컬 파트, 제2 보컬 파트 및 멀티 보컬리스트 파트와 같은 제각기의 파트 사이의 전이와 시간적으로 일치할 수 있다. 마찬가지로 하나의 템플릿형 스크린 레이아웃으로부터 다른 레이아웃으로의 전환은 도 5에 도시된 바와 같이 버스(verse)(161)와 같은 주어진 섹션 내의 내부 마커와 시간적으로 일치할 수 있다. 구체적으로, 일부 경우 또는 실시예에 사용된 시각적 진행은, 특히 주어진 섹션 내에서, 연주의 대응하는 기본 노래의 N번째(N≥1) 비트 케이던스(cadence)와 시간적으로 일치할 수 있다.

일부 경우 또는 실시예에서 사용되는 시각적 진행에서, 적어도 일부 연속적인 템플릿형 스크린 레이아웃에서의 비주얼 셀의 수는 시드의 대응하는 기본 노래의 빌드 강도에 대응하여 증가한다. 일반적으로 적어도 일부 비주얼 셀의 공간 배열 또는 크기는 하나의 템플릿형 스크린 레이아웃으로부터 다음에 이어지는 템플릿형 스크린 레이아웃으로 변경된다. 본 발명의 일부 실시예에서, 도 5에 도시된 바와 같은 시각적 진행(151)의 컴퓨터 판독 가능 코딩은, 백킹 트랙에 대응하는 구조화된 음악 배열 또는 시드 연주으로부터 준비된다.

도 6은 본 발명의 일부 실시예에 따른, 스코어 코딩된 피치 보정 세팅에 기초하여 캡처된 오디오비주얼 연주, 선택적 실시간 연속 피치 보정 및 화성 생성을 나타내는 흐름도이다. 도시된 구성에서, 사용자/보컬리스트는 백킹 트랙 노래방 스타일에 따라 노래한다. 마이크로폰 입력(601)으로부터 캡처된 보컬(651)은 하나 이상의 음향 변환기(202)에서 청각적으로 렌더링되는 백킹 트랙과의 믹싱(653)을 위해 실시간으로 연속적으로 피치 보정되고(652) 화성붙임된다(655).

피치 보정 및 추가된 화성 모두는 음악 스코어의 피치 트랙(609)에 대응하도록 선택되는데, 이것은 도시된 구성에서, 백킹 트랙(607)의 오디오 인코딩 및 가사(608)와 함께, 보컬 캡처 및 특징부 보정이 수행되는 장치에(예컨대, 도 1을 참고하면 콘텐츠 서버(110)로부터 핸드헬드(101) 또는 셋톱 박스(120)로) 무선으로 전달된다. 본원에 설명된 기법의 일부 실시예에서, 음악 스코어의 피치 트랙(609)에 기초하여 (현재 스케일 또는 키에서)사용자/보컬리스트가 소리 낸 것과 가장 가까운 노트가 결정된다. 이 가장 가까운 노트는 일반적으로는 스코어 코딩된 보컬 멜로디에 대응하는 주 피치일 수 있지만, 반드시 그렇지는 않다. 실제로는, 일부 경우에, 사용자/보컬리스트가 화성을 노래하려는 경향이 있을 수 있고, 소리 낸 노트가 화성 트랙에 보다 더 가까울 수도 있다.

따라서, 주어진 보컬 연주가 멜로디나 또는 화성에 보다 더 가깝다는 컴퓨터 판정은 결국, 예컨대 멀티연주자 비주얼 레이아웃의 중요 위치 내의 대응하는 비주얼 프로미넌스(도 3의 레이아웃(135.1, 136.1 및 138.1 및 도 5에 도시된 비주얼 레이아웃의 시퀀스(152)의 레이아웃(L1) 내 연주자 1)의 판정이 될 수 있다. 일부 모드 또는 실시예에서, 멜로디(또는 피치 보정)로 결정된 보컬에 대응하는 연주와 동기화된 비디오는 일반적으로 보다 두드러진 방식으로 시각적으로 제시될 수 있지만, 화성으로 결정된(또는 피치시프트된) 보컬에 대응하는 연주와 동기화된 비디오는 보다 작은 프로미넌스로 시각적으로 표시될 수 있다.

도 6의 계산 흐름에서, 피치 보정되거나 시프트된 보컬은 청각적으로 렌더링된 백킹 트랙과의 믹싱(653)을 위해 결합되거나(654) 취합될 수 있고/있거나 콘텐츠 서버(110) 또는 원격 장치(예컨대, 핸드헬드(120 또는 620) 텔레비전 및/또는 셋탑 박스 장비, 또는 일부 다른 미디어 가능 컴퓨터 시스템(611))로 전달될 수 있다. 일부 실시예에서, 피치 보정 또는 보컬의 시프팅 및 원하는 시각적 프로미넌스의 결과적인 결정은 콘텐츠 서버(110)에서 수행될 수 있다.

핸드헬드 장치에서의 오디오비주얼 캡처

도 7은 본 발명의 일부 실시예에 따른, 캡처된 오디오비주얼 연주의 처리를 용이하게 하기 위해 예시적인 휴대폰 유형의 휴대용 컴퓨팅 장치에서 실행 가능한 하드웨어 및 소프트웨어 컴포넌트의 기능 블록도이다. 일부 실시예(도 1 참조)에서, 보컬 오디오 및 연주와 동기화된 비디오의 캡처는 텔레비전 타입 디스플레이 및/또는 셋탑 박스 장비의 설비를 사용하여 수행될 수 있다. 그러나, 다른 실시예에서는, 핸드헬드 장치(예컨대, 핸드헬드 장치(101))가 보컬 오디오 및 연주와 동기화된 비디오 양자의 캡처를 자체적으로 지원할 수 있다. 따라서, 도 7은 보컬 오디오 및 연주와 동기화된 비디오를 캡처하고, (로컬로 및/또는 원격 타깃 장치에서)가청 렌더링을 위해 피치 보정되고 선택적으로 화성화된 보컬을 생성하고, 콘텐츠 서버 또는 서비스 플랫폼(110)과 통신하기 위한, 휴대폰 유형의 핸드헬드 장치(101)에 적합한 특정 구현예에 따른 기본 신호 처리 흐름(750)을 나타낸다.

본 명세서의 설명에 기초하여, 당업자는 도 7에 도시된 신호 처리 흐름(750)을 제공하기 위해 신호 처리 기술(샘플링, 필터링, 데시메이션 등) 및 데이터 표현을 실행가능한 소프트웨어의 기능 블록(예컨대, 디코더(들)(752), 디지털-아날로그(D/A) 변환기(751), 캡처(753) 및 인코더(755))에 적절히 할당하는 것을 알 수 있을 것이다. 마찬가지로, 도 6과 관련하여, 신호 처리 흐름(650) 및 (화성 노트 타겟을 포함하는)예시적인 스코어 코딩된 노트 타겟을 위해, 당업자는 신호 처리 기술 및 데이터 표현을 핸드헬드(101) 또는 다른 휴대용 컴퓨팅 장치의 실행 가능한 소프트웨어로서 적어도 부분적으로 구현되는 도 6의 기능 블록 및 신호 처리 구성(예컨대, 디코더(656), 캡처(651), 디지털-아날로그(D/A) 변환기(656), 믹서(653, 654) 및 인코더(657))에 적절히 할당하는 것을 알 수 있을 것이다.

당업자라면 알 수 있듯이, 피치 검출 및 피치 보정은 음악 및 음성 코딩 분야에서 풍부한 기술 이력을 갖고 있다. 사실, 다양한 특징부 피킹(feature picking), 시간 도메인 및 심지어 주파수 도메인 기술이 당 업계에서 사용되고 있으며, 본 발명에 따른 일부 실시예에서 사용될 수 있다. 이를 염두에 두고, 본 발명에 따른 비주얼 프로미넌스 기법은 임의의 피치 검출 또는 피치 보정 기술과 독립적이라는 것을 인식하면, 본 설명은 본 설명에 따른 다양한 설계 또는 구현예에 적합할 수 있는 다양한 신호 처리 기법들을 모두 망라하려고 하지는 않는다. 대신에, 본 발명에 따른 일부 실시예에서 피치 검출 방법은 평균 크기 차이 함수(AMDF)를 계산하고 피치 주기의 추정에 대응하는 피크를 선택하는 로직을 실행한다는 점에 단순히 주목한다. 이러한 추정을 바탕으로 피치 시프트 중첩 추가(PSOLA) 기법을 사용하여 피치 이동 변형을 생성하기 위해 파형의 재샘플링을 용이하게 하면서 스플라이스의 비주기적인 영향을 줄인다. AMDF/PSOLA 기술은 본원 출원인이 공동출원인이고 발명자가 Cook, Lazier, Lieber, 및 Kirk이며 발명의 명칭이 "COORDINATING AND MIXNG VOCALS CAPTURED FROM GEOGRAPHICALLY DISTRIBUTED PERFORMERS"인 미국특허 제8,983,829호에 상세히 기술되어 있다.

예시적인 모바일 장치 및 네트워크

도 8은, 본 발명의 일부 실시예에 따른, 오디오비주얼 캡처를 포함한 소프트웨어 구현예의 실행을 위한 플랫폼 역할을 할 수 있는 모바일 장치의 특징부를 도시한 것이다. 구체적으로 도 8은, 본 발명의 일부 실시예들에 따른 소프트웨어 구현들의 실행을 위한 플랫폼으로서 기능할 수 있는 모바일 장치의 특징부들을 도시한다. 더 구체적으로, 도 8은, 일반적으로 iPhone™ 모바일 디지털 장치의 상업적으로 이용가능한 버전들에 따른 모바일 장치(800)의 블록도이다. 본 발명의 실시예들이 iPhone 활용들 또는 애플리케이션들에(또는 심지어, iPhone-타입 장치들에도) 제한되지 않지만, iPhone 장치 플랫폼은 그의 풍부한 센서 보완물, 멀티미디어 설비들, 애플리케이션 프로그래머 인터페이스들 및 무선 애플리케이션 전달 모델과 함께, 특정한 구현들을 활용할 높은 능력의 플랫폼을 제공한다. 본 명세서의 설명에 기초하여, 당업자들은, 본 명세서에서 설명되는 창작적 기술들의 주어진 구현 또는 활용에 (현재 또는 추후에) 적합할 수 있는 광범위한 추가적인 모바일 장치 플랫폼들을 인식할 것이다.

간략하게 요약하면, 모바일 장치(800)는, 사용자와의 햅틱 및/또는 촉각 접촉에 감응할 수 있는 디스플레이(802)를 포함한다. 터치-감응 디스플레이(802)는 다수의 동시 터치 포인트들을 프로세싱하는 멀티-터치 특징들을 지원할 수 있고, 이는 각각의 터치 포인트의 압력, 정도 및/또는 위치와 관련된 데이터의 프로세싱을 포함한다. 이러한 프로세싱은 다수의 손가락들, 및 다른 상호작용들과의 상호작용들 및 제스쳐들을 용이하게 한다. 물론, 예를 들어, 스타일러스 또는 다른 포인팅 장치를 이용하여 접촉이 행해지는 디스플레이와 같은 다른 터치-감응 디스플레이 기술들 또한 이용될 수 있다.

통상적으로, 다양한 시스템 오브젝트들에 대한 사용자 액세스를 제공하고, 정보를 전달하기 위하여, 모바일 장치(800)는 터치-감응 디스플레이(802) 상에 그래픽 사용자 인터페이스를 제시한다. 몇몇 구현들에서, 그래픽 사용자 인터페이스는 하나 이상의 디스플레이 오브젝트들(804, 806)을 포함할 수 있다. 도시된 예에서, 디스플레이 오브젝트들(804, 806)은 시스템 오브젝트들의 그래픽 표현들이다. 시스템 오브젝트들의 예들은, 장치 기능들, 애플리케이션들, 윈도우들, 파일들, 경보들, 이벤트들, 또는 다른 식별가능한 시스템 오브젝트들을 포함한다. 본 발명의 몇몇 실시예들에서, 애플리케이션들은 실행되는 경우, 본 명세서에서 설명되는 디지털 음향 기능 중 적어도 일부를 제공한다.

통상적으로, 모바일 장치(800)는, 예를 들어, 사용자가 모바일 장치(800) 및 그의 연관된 네트워크-인에이블드 기능들을 갖고 이동할 수 있도록 모바일 라디오 및 무선 인터네트워킹 기능 둘 모두를 포함하는 네트워크 접속을 지원한다. 몇몇 경우들에서, 모바일 장치(800)는 (예를 들어, Wi-Fi, 블루투스 등을 통해) 인근의 다른 장치들과 상호작용할 수 있다. 예를 들어, 모바일 장치(800)는 하나 이상의 장치들에 대한 피어들 또는 기지국과 상호작용하도록 구성될 수 있다. 따라서, 모바일 장치(800)는 다른 무선 장치들에 대한 네트워크 액세스를 승인 또는 거부할 수 있다.

모바일 장치(800)는, 다양한 입/출력(I/O) 장치들, 센서들 및 트랜스듀서들을 포함한다. 예를 들어, 본 명세서의 다른 곳에서 설명된 바와 같은 보컬 연주들의 캡처 및 반주들과 믹싱되고 피치-보정된 보컬 연주의 가청 렌더링과 같은 오디오를 용이하게 하기 위한 스피커(860) 및 마이크로폰(862)이 통상적으로 포함된다. 본 발명의 몇몇 실시예들에서, 스피커(860) 및 마이크로폰(862)은 본 명세서에서 설명되는 기술들에 대한 적절한 트랜스듀서들을 제공할 수 있다. 스피커 폰 기능들과 같은 핸즈프리 음성 기능을 용이하게 하기 위해 외부 스피커 포트(864)가 포함될 수 있다. 헤드폰들 및/또는 마이크로폰의 이용을 위해 오디오 잭(866)이 또한 포함될 수 있다. 몇몇 실시예들에서, 본 명세서에서 설명되는 기술들에 대한 트랜스듀서로서 외부 스피커 및/또는 마이크로폰이 이용될 수 있다.

다른 센서들이 또한 이용되거나 제공될 수 있다. 모바일 장치(800)의 사용자 위치의 검출을 용이하게 하기 위해 근접도 센서(868)가 포함될 수 있다. 몇몇 구현들에서, 터치-감응 디스플레이(802)의 밝기를 조정하는 것을 용이하게 하기 위해 주위 광 센서(870)가 활용될 수 있다. 방향 화살표(874)로 표시된 바와 같이, 모바일 장치(800)의 이동을 검출하기 위해 가속도계(872)가 활용될 수 있다. 따라서, 디스플레이 오브젝트들 및/또는 미디어는 검출된 배향, 예를 들어, 초상 또는 경치에 따라 제시될 수 있다. 몇몇 구현들에서, 모바일 장치(800)는, 본 명세서에서 설명되는 지오코딩들을 용이하게 하기 위해 글로벌 포지셔닝 시스템(GPS) 또는 다른 포지셔닝 시스템들(예를 들어, Wi-Fi 액세스 포인트들, 텔레비젼 신호들, 셀룰러 그리드들, URL들(Uniform Resource Locators)을 이용한 시스템들)에 의해 제공되는 것과 같은 포지셔닝 능력을 지원하기 위한 회로 및 센서들을 포함할 수 있다. 모바일 장치(800)는 또한 카메라 렌즈 및 이미징 센서(880)를 포함한다. 몇몇 구현들에서, 카메라 렌즈 및 센서(880)의 예는 모바일 장치(800)의 전면 및 후면 상에 위치한다. 카메라는 캡처된 피치-보정된 보컬들과 연관된 스틸 이미지들 및/또는 비디오를 캡처할 수 있다.

모바일 장치(800)는 또한, 802.11b/g/n/ac 통신 장치 및/또는 Bluetooth™ 통신 장치(888)와 같은 하나 이상의 무선 통신 서브시스템들을 포함할 수 있다. 다른 802.x 통신 프로토콜들(예를 들어, WiMAX, Wi-Fi, 3G), 4세대 프로토콜 및 변조(4G-LTE), 코드 분할 다중 접속(CDMA), 모바일 통신용 범용 시스템(GSM), 향상된 데이터 GSM 환경(EDGE) 등을 포함하는 다른 통신 프로토콜들이 또한 지원될 수 있다. 다른 컴퓨팅 장치들, 예를 들어, 다른 통신 장치들(800), 네트워크 액세스 장치들, 개인용 컴퓨터, 프린터, 또는 데이터를 수신 및/또는 송신할 수 있는 다른 프로세싱 장치들에 대한 유선 접속을 설정하기 위해, 예를 들어, 범용 직렬 버스(USB) 포트, 또는 도킹 포트 또는 몇몇 다른 유선 포트 접속과 같은 포트 장치(890)가 포함되고 이용될 수 있다. 포트 장치(890)는 또한, 모바일 장치(800)가, 예를 들어, TCP/IP, HTTP, UDP 및 임의의 다른 공지된 프로토콜과 같은 하나 이상의 프로토콜들을 이용하여 호스트 장치와 동기화하도록 허용할 수 있다.

도 9는 본 발명의 일부 실시예에 따른 예시적인 장치의 협업을 나타내는 네트워크 다이어그램이다. 구체적으로, 도 9는, 본 명세서의 기능 설명들에 따라 오디오비주얼 캡처(103, 103.2 ... 103.N)로 구현되고 보컬 오디오 및 비디오 캡처 코드, 사용자 인터페이스 코드, 피치 보정 코드, 오디오 렌더링 파이프라인 및 재생 코드로 프로그래밍된 모바일 장치(800)와 같은 핸드헬드 장치 또는 휴대용 컴퓨팅 장치의 각각의 예들을 도시한다. 첫 번째 장치 예는, 예컨대 시드 연주의 보컬 오디오 및 연주와 동기화된 비디오 캡처(103)에 사용된 것으로 도시되었지만, 장치 예(520)는 연주와 동기화된 비디오에 대해 동적 비주얼 프로미넌스와 혼합된 오디오비주얼 연주에 대한 프리젠테이션 또는 재생 모드에서 동작한다. 추가적인 텔레비전 유형의 디스플레이 및/또는 셋탑 박스 장비(920A)가 마찬가지로 프리젠테이션 또는 재생 모드에서 동작하고 있지만, 본 명세서의 다른 부분에서 설명하듯이, 이러한 장비는 보컬 오디오 및 연주와 동기화된 비디오 캡처 설비의 일부로서 동작할 수도 있다. 전술한 장치들 각각은, 콘텐츠 서버(110)에 대해 본 명세서에서 설명되는 기능 및/또는 스토리지를 호스팅하는 서버(912) 또는 서비스 플랫폼과 무선 데이터 전송 및/또는 중재 네트워크들(904)을 통해 통신한다. 본 명세서에 기술된 템플릿 스크린 레이아웃의 시각적 진행에 기초하여 믹싱된 AV 연주 렌더링을 제시하기 위해 연주와 동기화된 비디오와 믹싱된 캡처된 특징부 보정된 보컬 연주가 랩탑 컴퓨터(911)에서 (선택적으로) 스트리밍되어 오디오비주얼로 렌더링될 수 있다.

다른 실시예들

본 발명(들)이 다양한 실시예들을 참조하여 설명되지만, 이러한 실시예들은 예시적이고 본 발명(들)의 범주가 이들에 제한되지 않음을 이해할 것이다. 다수의 변형들, 변화들, 추가들 및 개선들이 가능하다. 예를 들어, 특정 템플릿형 스크린 레이아웃, 전이 및 오디오 믹싱 기법이 도시되고 설명되었지만, 당업자는 주어진 배치, 구현, 음악 장르 또는 사용자 인구통계에 적합한 다수의 변형 및 수정을 이해할 수 있을 것이다. 마찬가지로, 노래방 스타일 인터페이스에 따라 캡처되는 피치 보정 보컬 연주들이 설명되었지만, 다른 변형들 및 수정들이 인식될 것이다. 또한, 특정한 예시적인 신호 프로세싱 기술들이 특정한 예시적인 애플리케이션들 및 장치/시스템 구성의 상황에서 설명되었지만, 당업자들은, 다른 적절한 신호 프로세싱 기술들 및 효과들을 수용하기 위해, 설명된 기술들을 변형하는 것이 간단함을 인식할 것이다.

본 발명에 따른 실시예들은, 명령 시퀀스들 및 소프트웨어의 다른 기능 구성들로서 머신-판독가능 매체에 인코딩되는 컴퓨터 프로그램 제품의 형태를 취할 수 있고 그리고/또는 컴퓨터 프로그램 제품으로서 제공될 수 있으며, 그 다음, 소프트웨어는, 본 명세서에서 설명되는 방법들을 수행하기 위해 (iPhone 핸드헬드, 모바일 또는 휴대용 컴퓨팅 장치, 또는 콘텐츠 서버 플랫폼과 같은) 연산 시스템에서 실행될 수 있다. 일반적으로, 머신 판독가능 매체는, 머신(예를 들어, 컴퓨터, 모바일 장치 또는 휴대용 컴퓨팅 장치의 연산 설비들 등) 뿐만 아니라 정보의 송신에 따른 유형의 스토리지에 의해 판독가능한 형태(예를 들어, 애플리케이션들, 소스 또는 오브젝트 코드, 기능적으로 설명적인 정보 등)로 정보를 인코딩하는 유형의 물품들을 포함할 수 있다. 머신-판독가능 매체는, 자기 저장 매체(예를 들어, 디스크들 및/또는 테이프 스토리지); 광학 저장 매체(예를 들어, CD-ROM, DVD 등); 자기-광학 저장 매체; 판독 전용 메모리(ROM); 랜덤 액세스 메모리(RAM); 소거가능한 프로그래머블 메모리(예를 들어, EPROM 및 EEPROM); 플래쉬 메모리; 또는 전자적 명령들, 동작 시퀀스들, 기능적으로 설명적인 정보 인코딩들 등을 저장하기에 적합한 다른 타입들의 매체를 포함할 수 있지만, 이에 제한되는 것은 아니다.

일반적으로, 단일 인스턴스로서 본 명세서에서 설명되는 컴포넌트들, 동작들 또는 구조들에 대해 복수의 인스턴스들이 제공될 수 있다. 다양한 컴포넌트들, 동작들 및 데이터 스토어들 사이의 경계들은 다소 임의적이고, 특정한 동작들은 특정한 예시적인 구성들의 상황에서 예시된다. 기능의 다른 할당들이 고안되고, 본 발명(들)의 범주에 속할 수 있다. 일반적으로, 예시적인 구성들에서 별개의 컴포넌트들로 제시된 구조들 및 기능은 결합된 구조 또는 컴포넌트로서 구현될 수 있다. 유사하게, 단일 컴포넌트로서 제시된 구조들 및 기능은 별개의 컴포넌트들로서 구현될 수 있다. 이러한 그리고 다른 변형들, 변화들, 추가들 및 개선들은 본 발명(들)의 범주에 속할 수 있다.

Claims

컴퓨팅 장치에 의해 수행되는, 지리적으로 분산된 연주자의 컨트리뷰션으로부터 조율된 오디오비주얼 작품(audiovisual work)을 준비하는 방법으로서,
통신 네트워크를 통해, 시드의 제각기의 가청 렌더링과 시간적으로 대응하여 제각기의 원격 장치에서 캡처된 연주의 복수의 오디오비주얼 인코딩을 수신하는 단계 - 상기 수신된 오디오비주얼 인코딩은 각각 제각기의 연주자 보컬 및 시간적으로 동기화된 비디오를 포함함 - 와,
상기 시드와 시간적으로 대응하여, 제각기의 상기 비디오가 시각적으로 렌더링 가능한 비주얼 셀의 개수 및 배열을 각각 지정하는 일련의 템플릿형 스크린 레이아웃을 인코딩하는 시각적 진행(visual progression)을 검색하는 단계와,
상기 제각기의 연주자 보컬 및 조율된 비디오를 포함하는 상기 캡처된 연주 중 개별 연주를 상기 비주얼 셀 중 제각기의 비주얼 셀에 연관시키는 단계와,
상기 시각적 진행 및 상기 연관에 따라, 상기 조율된 오디오비주얼 작품을 상기 캡처된 연주의 오디오 믹스 및 조율된 비주얼 프리젠테이션으로서 렌더링하는 단계를 포함하는
방법.
제1항에 있어서,
상기 템플릿형 스크린 레이아웃 중 연속하는 스크린 레이아웃은 비주얼 셀의 공간 배열 또는 개수, 또는 공간 배열과 개수 모두를 변화시키는
방법.
제1항에 있어서,
상기 오디오 믹스는, 상기 시각적 진행의 주어진 시점에서 유효한(operant)특정 템플릿형 스크린 레이아웃에 대응하여, 당시의 유효한 상기 템플릿형 스크린 레이아웃의 비주얼 셀에 연관된 캡처된 연주 중 제각기의 연주에 대한 연주자 보컬을 포함하는
방법.
제3항에 있어서,
상기 오디오 믹스의 주어진 시점에서, 상기 포함된 연주자 보컬은 오직 상기 당시의 유효한 템플릿형 스크린 레이아웃의 비주얼 셀과 연관된 제각기의 캡처된 연주에 대한 연주자 보컬인
방법.
제1항에 있어서,
상기 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 음악 섹션들 사이의 경계와 시간적으로 일치하는
방법.
제5항에 있어서,
상기 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 제1 보컬 파트, 제2 보컬 파트 및 멀티-보컬리스트 파트의 세트로부터 선택된 제각기의 파트들 사이의 변화와 시간적으로 일치하는
방법.
제5항에 있어서,
상기 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 상기 시드의 대응하는 기본 노래(underlying song)의 N 번째(N≥1) 비트 케이던스와 시간적으로 일치하는
방법.
제2항에 있어서,
상기 시각적 진행에서, 적어도 일부 연속적인 템플릿형 스크린 레이아웃에서의 상기 비주얼 셀의 개수는 상기 시드의 대응하는 기본 노래의 강도에 대응하여 증가하는
방법.
제2항에 있어서,
상기 시각적 진행에서, 적어도 일부 비주얼 셀의 상기 공간 배열 또는 크기 조율은 하나의 템플릿형 스크린 레이아웃으로부터 다음의 연속된 템플릿형 스크린 레이아웃으로 변하는
방법.
제1항에 있어서,
상기 시드에 대응하는 구조화된 음악 배열(structured musical arrangement)로부터 상기 시각적 진행을 생성하는 단계를 더 포함하는
방법.
제10항에 있어서,
상기 구조화된 음악 배열은, 연주자 보컬용 피치트랙과 연주자 보컬용 가사 중 하나 또는 둘 모두에 대응하는 음악 섹션의 인코딩을 포함하는
방법.
제11항에 있어서,
상기 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 상기 구조화된 음악 배열의 상기 음악 섹션 사이의 경계와 시간적으로 일치하는
방법.
제10항에 있어서,
상기 구조화된 음악 배열은 백킹 트랙(backing track)의 인코딩을 포함하는
방법.
제13항에 있어서,
상기 시각적 진행에서, 하나의 템플릿형 스크린 레이아웃으로부터 다른 스크린 레이아웃으로의 적어도 일부 변화가 상기 백킹 트랙으로부터 계산에 의해 추출된 N 번째(N≥1) 비트 케이던스와 시간적으로 일치하는
방법.
제1항에 있어서,
상기 템플릿형 스크린 레이아웃은 각각, 상기 연주자 각각의 보컬에 대응하여 캡처된 비디오가 렌더링되는 비주얼 셀 세트에 대한 시각적 범위를 정의하는
방법.
제15항에 있어서,
상기 템플릿형 스크린 레이아웃은,
적어도 하나의 한 명의 연주자 레이아웃과,
적어도 하나의 두 명의 연주자 레이아웃과,
복수의 세 명 및 네 명의 연주자 레이아웃과,
N≥4인 경우, 연주자 숫자 N 중 적어도 하나의 숫자에 대해, 복수의 N 명의 연주자 레이아웃을 포함하는
방법.
제1항에 있어서,
상기 검색된 시각적 진행에 대응하여, 제1 템플릿형 스크린 레이아웃으로부터 다음의 연속된 템플릿형 스크린 레이아웃으로 변하는 단계를 더 포함하되, 특정 연주자의 보컬과 대응하여 캡처된 비디오에 대해, 상기 변화는 상기 제1 레이아웃의 제1 비주얼 셀로부터 상기 다음의 연속된 템플릿형 레이아웃의 제2 비주얼 셀로의 변화인
방법.
제15항에 있어서,
제1 비주얼 셀로부터 제2 비주얼 셀로의 변화는
슬라이딩 변화와,
페이드 인 또는 페이드 아웃 변화와,
스케일링 변화와,
크로핑 변화 중 하나 이상을 포함하는
방법.
제1항에 있어서,
상기 렌더링은 상기 통신 네트워크를 통한 저장 또는 전송에 적합한 오디오비주얼 인코딩 또는 컨테이너 포맷인
방법.
제1항에 있어서,
상기 렌더링은 디스플레이 및 오디오 변환인
방법.
제1항에 있어서,
상기 오디오 믹스에서, 당시의 유효한 상기 템플릿형 스크린 레이아웃의 특정 비주얼 셀에 연관된 캡처된 연주에 대한 연주자 보컬의 오디오 진폭을 스케일링하는 단계를 더 포함하되, 특정 연주자의 보컬에 대한 상기 스케일링된 진폭은 상기 특정 연주자의 비디오가 연관되는 상기 특정 비주얼 셀의 크기에 대응하는
방법.
제1항에 있어서,
상기 오디오 믹스에서, 당시의 유효한 상기 템플릿형 스크린 레이아웃의 특정 비주얼 셀에 연관된 캡처된 연주에 대한 연주자 보컬을 좌우로 패닝하는 단계를 더 포함하되, 특정 연주자의 보컬에 대한 상기 패닝은 상기 특정 연주자의 비디오가 연관되는 상기 특정 비주얼 셀의 측방 위치(lateral placement)에 대응하는
방법.
제1항에 있어서,
상기 조율된 오디오비주얼 작품의 인코딩을 상기 지리적으로 분산된 연주자 중 한 명 이상에게 전송하는 단계를 더 포함하는
방법.
제1항에 있어서,
상기 통신 네트워크를 통해, 백킹 트랙의 가청 렌더링에 대해 제1 원격 장치에서 캡처된 시간적으로 동기화된 비디오 및 제1 연주자 보컬을 포함하는 시드 연주의 오디오비주얼 인코딩을 수신하는 단계를 더 포함하되,
상기 시드는 상기 제1 연주자의 상기 시드 연주를 포함하는
방법.