KR20170081160A

KR20170081160A - 텍스트형 메시지를 음악 작품으로 자동 변환하는 시스템 및 방법

Info

Publication number: KR20170081160A
Application number: KR1020177004986A
Authority: KR
Inventors: 매튜 마이클 설레틱; 보 바질레프스키; 제임스 밋?; 제임스 밋?M; 리키 코박; 패트릭 우드워드; 토마스 웹; 라이언 그로브스
Original assignee: 지아, 인크.
Priority date: 2014-08-22
Filing date: 2015-08-24
Publication date: 2017-07-11
Also published as: JP2017532608A; CA2958251A1; US10529310B2; US20160055838A1; US9570055B2; WO2016029217A1; EP3183550B1; US20170154615A1; CN107076631A; EP3183550A4; EP3183550A1

Abstract

텍스트형 메시지를 음악 메시지로 변환하는 방법은, 텍스트 입력을 수신하는 단계와, 음악 입력 선택을 수신하는 단계를 포함한다. 상기 방법은 텍스트 특성을 결정하도록 텍스트 입력을 분석하는 단계와, 음악 특성을 결정하도록 음악 입력 선택에 대응하는 음악 입력을 분석하는 단계를 포함한다. 상기 적어도 하나의 텍스트 특성 및 적어도 하나의 음악 특성에 기초하여, 상기 방법은 합성기 입력을 발생시키도록 텍스트 입력을 음악 입력과 상관시키는 단계와, 상기 합성기 입력을 음성 합성기에 송신하는 단계를 또한 포함한다. 상기 방법은 상기 음성 합성기로부터 텍스트 입력의 음성 렌더링을 수신하는 단계와, 상기 음성 렌더링 및 음악 입력으로부터 음악 메시지를 발생시키는 단계와, 음악 메시지를 출력하는 단계를 포함한다.

Description

텍스트형 메시지를 음악 작품으로 자동 변환하는 시스템 및 방법 {SYSTEM AND METHOD FOR AUTOMATICALLY CONVERTING TEXTUAL MESSAGES TO MUSICAL COMPOSITIONS}

관련 출원의 상호 참조

본 출원은 2014년 8월 22일 출원된 미국특허가출원 제62/040,842호와, 2015년 2월 27일 출원된 미국특허가출원 제62/121,803호에 기초한 우선권을 주장하며, 두 출원 내용 전체가 모두 본 발명에 참고자료로 포함된다.

기술 분야

본 개시는 음악 생성 분야에 관한 것이고, 특히, 텍스트를 음악 작품(musical composition)으로 변환하는 시스템에 관한 것이다.

기록된 텍스트를 통한 통신이 오늘날 사회에서 일반화되어 있다. 이러한 텍스트형 통신은 현재 및 차후에 가용한 다른 방법들 중에서도 이메일, MMS 메시지, SMS 메시지, 인스턴트 메시징, 온라인 채팅, 다양한 소셜 미디어 수단, 가령, Twitter^® 및 Facebook^® 메시징을 통해 하나 이상의 수신자에게 전송될 수 있다(또는 그렇지않을 경우 가용해질 수 있다).

텍스트 통신이 점점 더 유비쿼터스화되고 있기 때문에, 이러한 형태의 메시징이 그 원래의 매력을 조금 잃고 있다. 일부 텍스트 통신 애플리케이션은 이러한 매력의 일부분을 다시 얻으려는 시도로 추가적인 특징들을 도입하고 있다. 예를 들어, 소정의 텍스트 플랫폼들에 의해 사용자가 자신의 메시지에 이모티콘 또는 다른 그래픽(가령, GIF 파일)을 추가할 수 있다. 그렇기는 하지만, 점차적으로 만연하는 이용 때문에, 그래픽 역시 점차 그 매력 중 일부를 잃고 있다. 더욱이, 기존에 존재하는 그래픽 및 이모티콘의 수가 실제적으로 제한되고 스크래치로부터 이러한 그래픽 향상의 생성이 보통의 사용자에게 어렵거나 비현실적일 수 있다. 마찬가지로, 일부 애플리케이션들은 오디오/음악 파일을 소정의 포맷을 이용하여 전송되는 메시지로 임베딩하기 위한 제한된 옵션들을 사용자에게 제공하고 있다.

더욱 생산적이고 재밌는 방식으로 다양한 매체를 통해 텍스트-기반 통신을 구성 및 전송하기 위해 편리한 플랫폼을 사용자에게 제공하는 것이 바람직할 것이다.

일 실시예에서, 본 개시는 텍스트형 메시지를 음악 메시지로 자동 변환하기 위한 컴퓨터에 의해 구현되는 방법을 설명한다. 상기 컴퓨터에 의해 구현되는 방법은, 텍스트 입력을 수신하는 단계와, 음악 입력 선택을 수신하는 단계를 포함한다. 상기 방법은 상기 텍스트 입력의 적어도 하나의 텍스트 특성을 결정하도록, 하나 이상의 프로세서를 통해, 상기 텍스트 입력을 분석하는 단계와, 음악 입력의 적어도 하나의 음악 특성을 결정하도록, 음악 입력 선택에 대응하는 음악 입력을, 하나 이상의 프로세서를 통해 분석하는 단계를 또한 포함한다. 상기 적어도 하나의 텍스트 특성 및 적어도 하나의 음악 특성에 기초하여, 상기 방법은 상기 하나 이상의 프로세서를 통해, 합성기 입력을 발생시키도록 상기 텍스트 입력을 음악 입력과 상관시키는 단계와, 상기 합성기 입력을 음성 합성기에 발신하는 단계를 또한 포함한다. 상기 방법은 상기 음성 합성기로부터 상기 텍스트 입력의 음성 렌더링을 수신하는 단계와, 상기 텍스트 입력 및 음악 입력의 음성 렌더링으로부터 음악 메시지를 발생시키는 단계와, 음악 메시지를 출력하는 단계를 포함한다.

다른 실시예에서, 본 개시는 적어도 하나의 프로세서와, 컴퓨터 판독가능 명령어를 저장하는 적어도 하나의 메모리를 포함하는 장치를 설명한다. 실행될 때, 상기 명령어는, 텍스트 입력을 수신하는 단계와, 음악 입력 선택을 수신하는 단계를 장치로 하여금 수행하게 한다. 명령어는 상기 텍스트 입력의 적어도 하나의 텍스트 특성을 결정하도록, 적어도 하나의 프로세서를 통해, 상기 텍스트 입력을 분석하는 단계와, 음악 입력의 적어도 하나의 음악 특성을 결정하도록, 음악 입력 선택에 대응하는 음악 입력을, 적어도 하나의 프로세서를 통해 분석하는 단계를 장치로 하여금 또한 수행하게 한다. 상기 적어도 하나의 텍스트 특성 및 적어도 하나의 음악 특성에 기초하여, 상기 명령어는 상기 적어도 하나의 프로세서를 통해, 합성기 입력을 발생시키도록 상기 텍스트 입력을 음악 입력과 상관시키는 단계와, 상기 합성기 입력을 음성 합성기에 발신하는 단계를 장치로 하여금 또한 수행하게 한다. 상기 명령어는 상기 음성 합성기로부터 상기 텍스트 입력의 음성 렌더링을 수신하는 단계와, 상기 텍스트 입력 및 음악 입력의 음성 렌더링으로부터 음악 메시지를 발생시키는 단계와, 음악 메시지를 출력하는 단계를 상기 장치로 하여금 또한 수행하게 한다.

다른 실시예에서, 본 개시는 명령어를 저장하는 비-일시적 컴퓨터 판독가능 매체를 설명하며, 실행될 때 상기 명령어는, 텍스트 입력을 수신하는 단계와, 음악 입력 선택을 수신하는 단계를 장치로 하여금 수행하게 한다. 상기 명령어는 상기 텍스트 입력의 적어도 하나의 텍스트 특성을 결정하도록, 하나 이상의 프로세서를 통해, 상기 텍스트 입력을 분석하는 단계와, 음악 입력의 적어도 하나의 음악 특성을 결정하도록, 음악 입력 선택에 대응하는 음악 입력을, 하나 이상의 프로세서를 통해 분석하는 단계를 상기 장치로 하여금 또한 수행하게 한다. 상기 명령어는 상기 적어도 하나의 텍스트 특성 및 적어도 하나의 음악 특성에 기초하여, 상기 하나 이상의 프로세서를 통해, 합성기 입력을 발생시키도록 상기 텍스트 입력을 음악 입력과 상관시키는 단계와, 상기 합성기 입력을 음성 합성기에 발신하는 단계를 상기 장치로 하여금 또한 수행하게 한다. 상기 명령어는 상기 음성 합성기로부터 상기 텍스트 입력의 음성 렌더링을 수신하는 단계와, 상기 텍스트 입력 및 음악 입력의 음성 렌더링으로부터 음악 메시지를 발생시키는 단계와, 음악 메시지를 출력하는 단계를, 상기 장치로 하여금 또한 수행하게 한다.

도 1은 본 개시에 따라 음악 메시징 시스템을 실시할 수 있는 네트워크 구조의 일 예시 실시예를 도시하고,
도 2는 본 개시에 따라 음악 메시징 시스템을 작동하는 방법의 일 실시예의 흐름도이며,
도 3은 본 개시에 따른 재생 슬라이더 바의 일 실시예를 도시하고,
도 4는 본 개시의 시스템 및 프로세스를 뒷받침하는 디바이스의 블록도다.

명세서에서는 예시적인 실시예가 설명될 뿐, 발명은 다른 다양한 형태로 구체화될 수 있고 명세서에서 제시되는 실시예에 국한되지 않는다. 따라서, 본 발명은 전적으로 하드웨어적인 실시예, 전적으로 소프트웨어적인 실시예, 또는 소프트웨어 및 하드웨어 형태를 조합한 실시예의 형태를 취할 수 있다.

명세서 및 청구범위를 통틀어, 다음의 용어들은 달리 명확히 언급하지 않을 경우 여기서 명백하게 관련된 의미를 취한다. "일 실시예에서"라는 용어는 반드시 동일한 실시예를 지칭하는 것이 아니다. 더욱이, "다른 실시예에서"라는 용어는 반드시 상이한 실시예를 지칭하는 것이 아니다. 따라서, 아래 설명되듯이, 발명의 다양한 실시예는 발명의 범위 또는 사상으로부터 벗어나지 않으면서, 쉽게 조합될 수 있다.

추가적으로, 여기서 사용되듯이, "또는"은 포괄적인 "or" 연산자로서, 달리 명확히 언급되지 않을 경우 "및/또는"과 동등한 의미를 가진다. "~에 기초한"은 배타적인 표현이 아니며, 달리 명확히 언급하지 않을 경우, 설명되지 않은 추가 요인들에 기초할 수 있다. 추가적으로, 명세서를 통틀어, "일", "하나", "상기"의 의미는 복수의 대상을 포함한다. "내"(in)의 의미는 "내"를 포함하고, 복수의 대상을 포함한다. "내"(in)의 의미는 "내"(in)와 "상"(on)을 포함한다.

본 개시는 SMS, MMS, 이메일과 같은 다양한 메시징 포맷을 통해 사용자에게 전송될 수 있는 가청 음악 및/또는 비디오 작품들을 지닌 메시지를 생성하기 위한 시스템 및 방법에 관한 것이다. Twitter^®, Facebook^®, Instagram^®, 또는 그외 다른 적절한 매체 공유 시스템과 같이, 다양한 소셜 미디어 플랫폼 및 포맷을 통해 이러한 음악 작품 메시지를 발신하는 것이 또한 가능할 수 있다. 소정의 실시예에서, 개시되는 음악 메시징 시스템은 무한하게 변화하는 사용자 입력에 기초하여 원본 작업을 자동 생성 및 발신할 수 있는 직관적이고 편리한 방식을 사용자에게 제공한다. 예를 들어, 개시되는 음악 메시징 시스템은 사전에 녹음된 또는 사용자에 의해 녹음 및 제공되는 음악 저작물 또는 멜로디의 사용자 선택과 함께, 텍스트 체인 형태로 사용자로부터 텍스트형 입력을 수신할 수 있다. 이러한 입력들이 수신되면, 음악 메시징 시스템은 사용자에 의한 텍스트 입력의 음악적-개선 버전을 제공하고자 음악적 저작물의 버전과 쌍을 이루는 텍스트 체인의 음성 렌더링(vocal rendering)을 생성하기 위해 선택된 음악 저작물 및 텍스트 체인 모두를 분석(analyze) 및 정밀분석(parse)할 수 있다. 음악 메시징 시스템의 출력은 선택된 음악 저작물의 사용자 인지를 유지하면서 실질적인 다양한 음악적 출력을 제공할 수 있다. 그 후 사용자는, 선정할 경우, 소셜 미디어, SMS 또는 MMS 메시징, 또는 그외 다른 형태의 파일 공유 또는 전자 통신을 통해 타자와 음악 메시지를 공유할 수 있다.

일부 실시예에서, 사용자는 음악적으로 향상된 텍스트에 동반할 비디오를 추가로 레코딩할 수 있다. 비디오는 시스템에 의해 생성되는 음악 메시지에 비디오를 효과적으로 매칭시키기 위해, 사용자에 의해 제공되는 텍스트 입력의 음성 렌더링과 함께 실시간으로 레코딩될 수 있다. 다른 실시예에서, 기-레코딩된 비디오가 선택되어 음악 메시지에 매칭될 수 있다. 이러한 실시예에서, 시스템 결과는, 어떤 전문적인 기술적 숙련도 또는 지식을 거의 또는 전혀 필요로하지 않으면서, 네트워크를 통해 서버에 연결되는 스마트폰 또는 태블릿과 같은 클라이언트 장치만을 이용하여 생성된 원본 리릭 비디오(lyric video)다. 이러한 음악 메시징 시스템과, 이러한 시스템을 구현하는 방법이 아래에서 상세하게 설명된다.

도 1은 개시되는 음악 메시징 시스템(100)을 구현할 수 있는 네트워크 구조의 일 예시 실시예를 도시한다. 그러나, 도시되는 구성요소들 전부가 음악 메시징 시스템 구현에 요구되는 것은 아니며, 발명의 사상 또는 범위로부터 벗어나지 않으면서 구성요소들의 배열 및 유형의 변화가 가능하다. 도 1을 참조하면, 음악 메시징 시스템(100)의 도시되는 실시예는 근거리 네트워크(LAN), 광역 네트워크(WAN)(집합적으로 네트워크(106)), 무선 네트워크(110), 클라이언트 장치(101-105), 서버(108), 미디어 데이터베이스(109), 및 주변 입력/출력(I/O) 장치(111, 112, 113)를 포함한다. 클라이언트 장치의 몇몇 예들이 예시되지만, 클라이언트 장치(101-105)들이 네트워크(106), 무선 네트워크(110), 등과 같은 네트워크를 통해 오디오, 비디오, 또는 텍스트형 데이터를 처리 및 발신할 수 있는 실질적으로 임의의 컴퓨팅 장치를 포함할 수 있다고 여기서 고려된다. 일부 실시예에서, 무선 네트워크(110) 및 네트워크(106) 중 적어도 하나는 디지털 통신 네트워크일 수 있다. 클라이언트 장치(101-105)는 휴대형으로 구성되는 장치를 또한 포함할 수 있다. 따라서, 클라이언트 장치(101-105)는 다른 컴퓨팅 장치에 연결할 수 있고 정보를 수신할 수 있는 실질적으로 임의의 휴대형 컴퓨팅 장치를 포함할 수 있다. 이러한 장치들은 셀룰러 전화, 스마트 폰, 디스플레이 페이저, RF 장치, 적외선(IR) 장치, PDA, 핸드헬드 컴퓨터, 랩탑 컴퓨터, 웨어러블 컴퓨터, 태블릿 컴퓨터, 앞선 장치들 중 하나 이상을 조합한 일체형 장치, 등과 같은 휴대형 장치를 포함한다.

클라이언트 장치(101-105)는 트랙 정보 및 소셜 네트워킹 정보를 포함한 정보를 발신 및 수신할 수 있도록 네트워크를 통해 통신할 수 있는, 그리고, 가청가능하게 발생되는 트랙 검색 질의를 수행할 수 있는, 등의 실질적으로 임의의 컴퓨팅 장치를 또한 포함할 수 있다. 이러한 장치들의 세트는 개인용 컴퓨터, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그래머블 소비자 전자 장치, 네트워크 PC 등과 같은 유선 또는 무선 통신 매체를 이용하여 통상적으로 연결되는 장치들을 포함할 수 있다. 일 실시예에서, 클라이언트 장치(101-105) 중 적어도 일부는 유선 및/또는 무선 네트워크를 통해 작동할 수 있다.

클라이언트 장치(101-105)는 웹-가능형(web-enabled)일 수 있고, 웹 페이지, 웹-기반 메시지, 등을 수신 및 발신하도록 구성되는 브라우저 애플리케이션을 포함할 수 있다. 브라우저 애플리케이션은 그래픽, 텍스트, 멀티미디어, 비디오, 등을 수신 및 디스플레이하도록 구성될 수 있고, 무선 애플리케이션 프로토콜 메시지(WAP), 등을 포함한, 실질적으로 임의의 웹-기반 언어를 이용할 수 있다. 일 실시예에서, 브라우저 애플리케이션은 HDML(Handheld Device Markup Language), WML(Wireless Markup Language), WMLScript, JavaScript, SMGL(Standard Generalized 25 Markup Language), HTML(HyperText Markup Language), XML(eXtensible Markup Language), 등을 이용하도록, 그리고, 다양한 콘텐트를 디스플레이 및 발신하도록, 구현된다. 일 실시예에서, 클라이언트 장치의 사용자는 메시지를 발신 및/또는 수신할 수 있도록 텍스트 메시징 클라이언트, 이메일 클라이언트, 등과 같은 메시징 클라이언트와 상호작용을 위해 브라우저 애플리케이션을 이용할 수 있다.

클라이언트 장치(101-105)는 다른 컴퓨팅 장치로부터 콘텐트를 수신하도록 구성되는 적어도 하나의 다른 클라이언트 애플리케이션을 또한 포함할 수 있다. 클라이언트 애플리케이션은 텍스트형 콘텐트, 그래픽 콘텐트, 오디오 콘텐트, 비디오 콘텐트, 등과 같은 멀티미디어 콘텐트를 제공 및 수신하는 기능을 포함할 수 있다. 클라이언트 애플리케이션은, 유형, 기능, 명칭, 등을 포함한, 자신을 식별하는 정보를 또한 제공할 수 있다. 일 실시예에서, 클라이언트 장치(101-105)는 전화 번호, MIN(Mobile Identification Number), ESN(electronic serial number), 또는 다른 모바일 장치 식별자를 포함한, 다양한 메커니즘들 중 임의의 메커니즘을 통해 자신을 독자적으로 식별할 수 있다. 이 정보는 모바일 장치가 이용할 수 있는 콘텐트 포맷을 또한 표시할 수 있다. 이러한 정보는 서버(108) 또는 다른 컴퓨팅 장치에 발신되는, 예를 들어, 네트워크 패킷 또는 다른 적절한 형태로 제공될 수 있다. 미디어 데이터베이스(109)는 음악 클립 및 파일, 등과 같은 다양한 매체를 저장하도록 구성될 수 있고, 미디어 데이터베이스에 저장된 정보는 서버(108)에 의해 액세스될 수 있고, 또는 다른 실시예에서, 네트워크(106) 또는 무선 네트워크(110)를 통해 다른 컴퓨팅 장치에 의해 직접 액세스될 수 있다.

클라이언트 장치(101-105)는 서버(108)와 같은 다른 컴퓨팅 장치에 의해 관리될 수 있는 사용자 계정에 최종 사용자가 로그인 할 수 있게 하는 클라이언트 애플리케이션을 포함하도록 또한 구성될 수 있다. 이러한 사용자 계정은, 예를 들어, 트랙 또는 멀티트랙 레코딩 또는 비디오의 제출, 트랙 또는 레코딩의 검색, 멀티미디어 트랙 또는 기타 레코딩의 다운로드, 및 온라인 음악 커뮤니티 참여와 같은, 하나 이상의 소셜 네트워킹 활동에 최종-사용자가 참가할 수 있도록 구성될 수 있다. 그러나, 다양한 네트워크 활동 참가가 사용자 계정에 로그인없이 또한 수행될 수 있다.

무선 네트워크(110)는 클라이언트 장치(103-105) 및 그 구성요소들을 네트워크(106)와 연결시키도록 구성된다. 무선 네트워크(110)는 클라이언트 장치(103-105)를 위한 인프러스트럭처-지향 연결을 제공하도록 독립형 ad-hoc 네트워크, 등의 위에 또한 놓일 수 있는 다양한 무선 서브-네트워크 중 임의의 네트워크를 포함할 수 있다. 이러한 서브-네트워크는 메시 네트워크, 무선 LAN(WLAN) 네트워크, 셀룰러 네트워크, 등을 포함할 수 있다. 무선 네트워크(110)는 무선 라디오 링크 또는 다른 적절한 무선 통신 프로토콜에 의해 연결되는 단말, 게이트웨이, 라우터, 등의 자율 시스템(autonomous system)을 더 포함할 수 있다. 이러한 커넥터들은 무선 네트워크(110)의 토폴로지가 급속하게 변할 수 있도록, 자유롭게 그리고 무작위적으로 이동하고 자신을 임의적으로 조직할 수 있도록 구성될 수 있다.

무선 네트워크(110)는 셀룰러 시스템용 2세대(2G), 3세대(3G), 4세대(4G), 및 4G LTE(Long Term Evolution) 라디오 액세스, WLAN, WR(Wireless Router) 메시 및 기타 적절한 액세스 기술을 포함한 복수의 액세스 기술들을 또한 이용할 수 있다. 2G, 3G, 4G, 4G LTE와 같은 액세스 기술과, 미래의 액세스 네트워크는 다양한 수준의 이동성을 가진 클라이언트 장치(103-105)와 같은, 모바일 장치를 위한 광역 커버리지를 실현시킬 수 있다. 예를 들어, 무선 네트워크(110)는 GSM(Global System for Mobil communication), GPRS(General Packet Radio Services), EDGE(Enhanced Data GSM Environment), WCDMA(Wideband Code Division Multiple Access), 등과 같은 라디오 네트워크 액세스를 통해 라디오 연결을 실현시킬 수 있다. 본질적으로, 무선 네트워크(110)는 클라이언트 장치(103-105)와 다른 컴퓨팅 장치, 네트워크, 등과의 사이에서 정보를 전달할 수 있는, 실질적으로 임의의 무선 통신 메커니즘을 포함할 수 있다.

네트워크(106)는 네트워크 장치를 서버(108), 클라이언트 장치(101-102)를 포함한 다른 컴퓨팅 장치와 연결하도록, 그리고, 무선 네트워크(110)를 통해 클라이언트 장치(103-105)에 연결하도록 구성된다. 네트워크(106)는 하나의 전자 장치로부터 다른 전자 장치로 정보를 전송하기 위한 임의의 형태의 컴퓨터 판독가능 매체를 이용하도록 실현된다. 또한, 네트워크(106)는 근거리 네트워크(LAN), 광역 네트워크(WAN), 직접 연결, 가령, 범용 시리얼 버스(USB) 포트, 다른 형태의 컴퓨터 판독가능 매체, 또는 이들의 조합, 등을 통한 것과 같은 직접 연결에 추가하여, 인터넷을 포함할 수 있다. 상이한 아키텍처 및 프로토콜에 기초한 것들을 포함한 상호연결된 LAN 세트 상에서, 라우터는 LAN들 간에 링크로 작용하여, 일 측으로부터 타 측으로 메시지를 발신할 수 있게 한다. 추가적으로, LAN 내의 통신 링크는 트위스티드 와이어 페어 또는 동축 케이블을 통상적으로 포함하며, 네트워크 간의 통신 링크들은 아날로그 전화선, T1, T2, T3, 및 T4를 포함하는 풀 또는 부분 전용 디지털 라인, ISDN(Integrated Services Digital Networks), DSL(Digital Subscriber Lines), 위성 링크를 포함한 무선 링크, 또는 당 업자에게 알려진 기타 통신 링크를 이용할 수 있다. 더욱이, 원격 컴퓨터 및 기타 관련 전자 장치들이 모뎀 및 임시 전화 링크를 통해 LAN 또는 WAN에 원격으로 연결될 수 있다. 본질적으로, 네트워크(106)는 컴퓨팅 장치들 간에 정보를 전달할 수 있는 임의의 통신 방법을 포함한다.

소정의 실시예에서, 클라이언트 장치(101-105)는 예를 들어, 피어-투-피어 구조를 이용하여, 직접 통신할 수 있다.

추가적으로, 통신 매체는 컴퓨터-판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 기타 전송 메커니즘을 담으며, 임의의 정보 전달 매체를 포함한다. 예를 들어, 통신 매체는 유선 매체, 가령, 트위스티드 페어, 동축 케이블, 광섬유, 도파관, 및 기타 유선 매체와, 무선 매체, 가령, 음향, RF, 적외선, 및 기타 무선 매체를 포함한다.

I/O 장치(111-113)를 포함한, 다양한 주변 장치들이 클라이언트 장치(101-105)에 부착될 수 있다. 예를 들어, 멀티-터치, 압력 패드(113)가 사용자로부터 물리적 입력을 수신할 수 있고, 주변 장치로(그러나 USB에 제한되지 않음) 분포될 수 있으며, ZIGBEE, BLUETOOTH, 또는 다른 적절한 연결을 포함한, 그러나 이에 제한되지 않는, 다른 인터페이스 프로토콜이 또한 사용될 수 있다. 압력 패드(113)의 외부 및 인터페이스 프로토콜을 통해 전송되는 데이터는 예를 들어, MIDE 포맷 데이터를 포함할 수 있으나, 다른 포맷의 데이터도 이러한 연결을 통해 운반될 수 있다. 대안으로서 유사한 압력 패드가 모바일 장치(104 또는 105)와 같은 클라이언트 장치와 본체 통합될 수 있다. 헤드셋(112)이 클라이언트 장치의 오디오 포트 또는 다른 유선 또는 무선 I/O 인터페이스에 부착될 수 있어서, 시스템의 다른 가청 출력과 함께, 구성되는 메시지의 재생을 사용자가 들을 수 있는 예시적 배열을 제공할 수 있다. 마이크로폰(111)이 또한 오디오 입력 포트 또는 다른 연결을 통해 클라이언트 장치(101-105)에 부착될 수 있다. 헤드셋(112) 및 마이크로폰(111)에 추가하여, 또는 대안으로서, 하나 이상의 스피커 및/또는 마이크로폰이 클라이언트 장치(101-105) 중 하나 이상에 또는 다른 주변 장치(111-113)에 통합될 수 있다. 또한, 외부 장치가 압력 패드(113) 및/또는 클라이언트 장치(101-105)에 연결되어, 사운드 샘플, 파형, 신호, 또는, 외부 제어에 의해 재현될 수 있는 기타 음악 입력의 외부 소스를 제공할 수 있다. 이러한 외부 장치는 외부 장치로부터 오디오 재생을 트리거링하기 위해 클라이언트 장치(103) 및/또는 압력 패드(113)가 MIDI 이벤트 또는 다른 데이터를 루팅하여 전달받을 수 수 있는 MIDI 장치일 수 있다. 그러나, MIDI 와는 다른 포맷이 이러한 외부 장치에 의해 또한 이용될 수 있다.

도 2는 도 1에 도시되는 구성요소들을 참조하여, 음악 메시징 시스템(100)을 작동하기 위한 방법(200)의 일 실시예를 도시하는 흐름도다. 단계(202)에서 시작되어, 시스템은 단계(204)에서 텍스트 입력을 수신할 수 있다. 사용자가 발신하고자하는 메시지의 텍스트 입력이 PC, 태블릿 또는 스마트폰, 도 1을 참조하여 설명되는 클라이언트 장치(101-105) 중 그외 다른 클라이언트 장치, 또는, 다른 적절한 장치와 같은 전자 장치를 통해 사용자에 의해 입력될 수 있다. 텍스트는 이러한 장치들 중 임의의 장치에서 통상적인 방식(가령, 연식 또는 기계식 키보드, 터치-스크린 키보드를 이용한 수동 입력, 스피치-텍스트 변환)으로 입력될 수 있다. 일부 실시예에서, 텍스트 입력은 클라이언트 장치(101-105)를 이용하여 액세스되는 특화 사용자 인터페이스 애플리케이션을 통해 제공된다. 대안으로서, 텍스트 입력이 클라이언트 장치(101-105)를 이용하여 텍스트-기반 메시지를 전송하기 위한 일반적 애플리케이션을 통해 전달될 수 있다.

결과적인 텍스트 입력은 단계(204)에서 서버(108)에 의해 수신되도록 무선 통신 네트워크(110) 및/또는 네트워크(106)를 통해 송신될 수 있다. 단계(206)에서, 시스템은 텍스트 입력의 소정의 특성을 결정하기 위해 서버(108)를 이용하여 텍스트 입력을 분석한다. 그러나, 일부 실시예에서, 텍스트 메시지 분석이, 대안으로서, 서버(108) 대신에 또는 서버(108)에 병렬로, 클라이언트 장치(101-105) 자체 상에서 이루어질 수 있다. 텍스트 입력의 분석이 다양한 데이터 처리 기술 및 과정을 포함할 수 있다. 예를 들어, 일부 실시예에서, 텍스트 입력은 스피치 파서(speech parser)를 이용하여 텍스트의 스피치 요소로 분석된다. 예를 들어, 일부 실시예에서, 스피치 파서는 중요한 단어(가령, 사랑, 분노, 광기)를 식별할 수 있고, 구절 경계(가령, "I miss you." "I love you". "Let's meet". "That was an awesome concert.")를 정할 수 있으며, 및/또는 속어(가령, chill(진정), hang(저주))를 식별할 수 있다. 중요하다고 간주되는 단어들은 지역 또는 언어별로 다를 수 있고, 동시대 문화와 일치하도록 시간에 걸쳐 업데이트될 수 있다. 마찬가지로, 속어들이 지리적으로 그리고 시간상으로 변할 수 있어서, 음악 메시징 시스템(100)이 업데이트가능하고 맞춤화가능하다. 텍스트입력에 사용되는 마침표 또는 다른 부호들이 또한 식별될 수 있고, 텍스트의 분석에 영향을 미칠 수 있는 소정의 무드 또는 톤에 기인할 수 있다. 예를 들어, 감탄 후보는 행복 또는 긴급성을 표시할 수 있고, "슬픈-얼굴" 이모티콘은 슬픔 또는 비애를 표시할 수 있다. 일부 실시예에서, 텍스트 입력에 운반되는 메시지는 단어를 음절로 잘라냄으로써, 그리고 그 후 음절을 일련의 음소로 나눔으로써, 그 구성요소 조각들로 또한 처리될 수 있다. 일부 실시예에서, 음소는 텍스트 입력 내 메시지의 오디오 재생을 생성하는데 사용된다. 텍스트 입력 분석에 사용되는 추가적인 기술은 아래에서 더 상세히 설명된다.

단계(208)에서, 시스템은 클라이언트 장치(101-105)로부터 전송되는 음악 입력의 선택을 수신한다. 일부 실시예에서, 사용자 인터페이스는 하나 이상의 악구(musical phrases)를 포함할 수 있는, 기-레코딩되어 분류된 음악 저작물 또는 음악 저작물의 클립의 리스트 또는 라이브러리로부터 음악 입력을 선택하도록 구현될 수 있다. 이러한 범주에서, 악구는 언어의 구 또는 문장과 유사한 완전한 음악적 "사상"(thought)을 나타내는 음표들 또는 연결 음들의 그룹이다. 기-레코딩된 음악 저작물 또는 악구들 간의 사용자 선택을 돕기 위해, 가용한 음악 저작물 또는 악구의 리스트는, 사용자 인터페이스를 통해 사용자에게 제공될 수 있는 단 몇가지의 가능한 정보 조각을 거명하자면, 예를 들어, 곡명, 아티스트, 쟝르, 및/또는 악구에 의해 설정된 무드(mood)의 텍스트-기반 설명을 포함할 수 있다. 가용 음악 저작물 또는 악구의 리스트에 기초하여, 사용자는 텍스트 입력과 조합할 음악 메시징 시스템의 요망 음악 저작물 또는 클립을 선정할 수 있다. 일 실시예에서, 사용자가 선정할 수 있는, 기-레코딩된 및 선택된 악구가 20개 이상 존재할 수 있다.

일부 실시예에서, 기-레코딩된 음악 저작물 또는 악구가 임의의 적절한 컴퓨터 판독가능 포맷으로 서버(108) 또는 미디어 데이터베이스(109) 상에 저장되고, 무선 네트워크(106) 및/또는 네트워크(110)를 통해 클라이언트 장치(101-105)를 경유하여 액세스될 수 있다. 대안으로서, 다른 실시예에서, 기-레코딩된 음악 저작물은 직접, 클라이언트 장치(101-105) 또는 다른 로컬 메모리 장치, 가령, 플래시 드라이브 또는 다른 컴퓨터 메모리 장치에 저장된다. 저장 위치에 관계없이, 기-레코딩된 음악 저작물의 리스트가 시간에 따라 업데이트될 수 있어서, 새 옵션 및 추가 선정을 사용자에게 제공하기 위해 음악 저작물을 제거 또는 추가할 수 있다.

개별 사용자들이 음악 메시징 시스템과 관련하여 사용하기 위한 자체 멜로디를 생성하는 것이 또한 고려된다. 하나 이상의 멜로디가, 본 특허출원의 양수인에게 양도된 미국특허 제8,779,268호(발명의 명칭: "Method for Producing a More Harmonious Musical Accompaniment Graphical User Interface for a Display Screen System and Method that Ensures Harmonious Musical Accompaniment")에 개시된 기술을 이용하여 생성될 수 있다. 이러한 특허 개시는 그 내용 전체가 본 발명에 포함된다.

추가의 실시예에서, 음악 입력 옵션의 리스트 내 개별 엔트리들이, 사용자를 위한 프리뷰로, 클라이언트 장치(101-105)를 통해, 기-레코딩된 음악 저작물 또는 음악 저작물의 클립을 제공하도록 선택가능하다. 이러한 실시예에서, 음악 저작물과 관련된 사용자 인터페이스는 오디오 재생 기능을 포함하여, 사용자가 음악 입력으로 음악 저작물들 중 하나의 선택과 관련된 음악 클립을 들을 수 있다. 일부 실시예에서, 이러한 재생 기능은 음악 저작물 또는 클립의 재생 진행을 그래픽으로 나타내는 재생 슬라이더 바와 연관될 수 있다. 사용자가 사용자에 의해 생성된 하나 이상의 멜로디로부터 또는 시스템 내에 저장된 기-레코딩된 음악 저작물로부터 멜로디를 선택하는지 여부에 관계없이, 사용자에게는 음악 입력을 규정하기 위해 음악 저작물 내에 시작 및 종료 지점을 선택하는 기능이 제공될 수 있다.

재생 슬라이더 바(300)의 한가지 예시 예가 도 3에 도시된다. 도시되는 재생 슬라이더 바(300)는 시작부(302), 종료부(304), 및 시작부와 종료부 사이에 배치되는 진행 바(306)를 포함한다. 그러나, 다른 실시예에서 다른 적절한 구조가 고려된다. 도 3에 도시되는 실시예에서, 선택되는 음악 저작물 또는 클립의 총 길이는 종료부(304)에 도시되는 바와 같이 14.53초지만, 다른 적절한 길이의 음악 저작물 또는 클립이 고려될 수 있다. 선택된 음악이 재생을 통해 진행됨에 따라, 진행 인디케이터(308)는 진행 바(306)를 따라 시작부(302)로부터 종료부(304)까지 이동한다. 도시되는 실시예에서, 진행 인디케이터(308)가 거쳐감에 따라 진행 바는 "채워져서"(fill-in), 시작부(302)와 진행 인디케이터 사이에 배치되는 재생된 부분(310)과, 진행 인디케이터와 음악 클립의 종료부(304) 사이에 배치되는 미재생 부분(312)으로 나타나게 된다. 도 3에 도시되는 실시예에서, 진행 인디케이터(308)는 진행 바(306)를 따라 선택된 음악 클립의 6.10초 표시까지 진행하였다. 도 3에 도시되는 실시예에서 진행 인디케이터(308)가 진행 바를 거쳐감에 따라 진행 바(306)가 채워지는 것을 볼 수 있으나, 음악 저작물 또는 클립의 재생 진행을 표시하기 위한 다른 적절한 메커니즘이 또한 여기서 고려될 수 있다.

도 3에 도시되는 실시예와 같은 일부 실시예에서, 사용자는 진행 바(306)를 따라 선택된 악구/멜로디의 서브세트 주위로, 제 1 괄호(314) 및 제 2 괄호(316)와 같은, 괄호를 배치할 수 있다. 괄호(314, 316)는 도 2의 단계(208)에서 음악 입력으로 사용될 음악 저작물 또는 클립의 부분들을 표시한다. 예를 들어, 제 1 괄호(314)는 선택된 음악 입력의 시점을 표시할 수 있고, 제 2 괄호는 종점을 표시할 수 있다. 사용자 재생 및 악구의 서브세트 선택을 도울 수 있는 다른 잠재적 사용자 인터페이스가, 도 3의 재생 슬라이더 바(300)의 실시예를 대신하여 또는 이와 연계하여 사용될 수 있다.

사용자가 음악 저작물, 악구, 또는 멜로디를 먼저 선택하고, 그 후, 나중에 요망되는 텍스트를 입력하는 것이 가능하고, 또는 그 역도 가능하며, 그러면서도 본 발명의 본질을 여전히 유지할 수 있다.

사용자가 사용자의 음악 메시지를 위한 음악 입력으로 사용될 요망 음악 저작물 또는 클립을 선택하면, 클라이언트 장치(101-105)는 무선 네트워크(106) 및/또는 네트워크(110)를 통한 선택을 송신하며, 이는 도 2의 단계(208)에서 음악 입력으로 서버(108)에 의해 수신된다. 도 2의 단계(210)에서, 음악 입력이 분석 및 처리되어, 음악 메시지로 사용하기 위한 원본 음악 작품을 생성하기 위해 음악 입력을 텍스트 입력과 더 효과적으로 매칭시킬 수 있도록 음악 입력과 관련된 소정의 특성 및 패턴을 식별할 수 있다. 예를 들어, 일부 실시예에서, 음악 저작물의 분석 및 처리는 음악 저작물의 "단순화"(reducing) 및 "장식"(embellishing)을 포함한다. 일부 실시예에서, 선택된 음악 저작물은 구조적으로 중요한 음표, 리듬 서명(rhythmic signatures), 악구 경계와 같은 특징들에 대해 정밀분석된다. 앞서 설명된 텍스트 또는 스피치 파서를 이용하는 실시예에서, 텍스트 또는 스피치 분석 결과 역시 음악 저작물 분석의 요인이 될 수 있다. 분석 및 처리 중 각각의 음악 저작물 또는 클립은 선택적으로 장식되거나 단순화될 수 있고, 따라서, 원본 멜로디의 사상 및 인지를 여전히 유지하면서도, 음악적 방식으로 악구에 다수의 음표를 추가할 수 있고, 또는, 음표를 제거(단순화)할 수 있다. 이러한 장식 또는 단순화는 경계부를 정렬시킴으로써 텍스트 입력의 텍스트형 구를 악구와 정렬시키기 위해, 그리고, 입력 텍스트의 자연스런 음악적 표현을 도출하도록 음표에 개별 단어들의 음절을 정렬시키는데 필요한 음악적 재료를 제공하기 위해, 수행된다. 기-레코딩된 음악 저작물의 분석의 일부 또는 전부가 이미 완료되어, 음악 작품 완성에 사용하기 위해 미디어 데이터베이스(109)로부터 기분석된 데이터를 음악 메시징 시스템이 단지 불러들이기만 하면 된다. 텍스트 입력과 매칭을 위한, 그리고 음악 메시지에 사용하기 위한, 준비사항으로서 음악 저작물 분석 프로세스가 아래에서 더 상세하게 제시된다.

음악 입력의 분석에 추가하여, 단계(212)에서, 텍스트 입력 및 음악 입력이 단계(206, 210)에서의 텍스트 입력 및 음악 입력 모두의 분석에 기초하여 서로 상관된다. 구체적으로, 일부 실시예에서, 선택된 그리고 분석된 음악 저작물의 음표들이, 아래에서 더 상세히 설명되는 바와 같이, 입력 텍스트의 하나 이상의 음소에 지능적으로 그리고 자동적으로 할당된다. 일부 실시예에서, 입력 텍스트 메시지를 음악 입력 멜로디에 상관시키는 결과적 데이터는 그 후 음성 합성기(voice synthesizer)에 입력을 위해 단계(214)에서 합성기 입력으로 포매팅된다. 텍스트 음절-멜로디 음표 쌍 형태로 포매팅된 합성기 입력은, 단계(216)에서 음성 합성기에 발신되어, 텍스트 입력 및 음악 입력의 특성을 통합하는 원본 음악 메시지에 사용하기 위해 텍스트 입력의 음성 렌더링을 생성할 수 있다. 음악 메시지 또는 음성 렌더링은 그 후 단계(218)에서 서버(108)에 의해 수신된다. 일부 실시예에서, 음악 메시지는 선택되는 음악 입력의 음악에 맞게 설정된 텍스트 입력에서 사용자에 의해 입력되는 텍스트 메시지의 음성 렌더링을 포함한 오디오 파일 형태로 수신된다. 일부 실시예에서, 음성 합성기는 음악 입력의 음악 부분과 텍스트 입력의 음성 렌더링을 포함한 전체 음악 메시지를 발생시킬 수 있다. 다른 실시예에서, 음성 합성기는 앞서 설명된 텍스트 입력 및 음악 입력을 분석함으로써 발생된, 합성기 입력에 기초하여 생성된 입력 텍스트의 음성 렌더링만을 발생시킬 수 있다. 이러한 실시예에서, 음악 입력에 기초한 음악 렌더링 또는 음악 입력 자체가 음성 렌더링과 조합되어, 음악 메시지를 발생시킬 수 있다.

음성 합성기는 임의의 적절한 음성 렌더러(vocal renderer)일 수 있다. 일부 실시예에서, 음성 합성기는 보안성, 부하 분배(load balancing), 및 들어오는 메시지 수용 기능 및 나가는 음악적-개선된 메시지 발신 기능을 제공하는 웹 서버로부터의 지원을 이용한 클라우드-기반이다. 다른 실시예에서, 음성 렌더러는 국부적으로 서버(108) 자체에서 또는 클라이언트 장치(101-105) 상에서 구동된다. 일부 실시예에서, 음성 합성기는 텍스트-스피치 변환과 노래 스피치 합성을 제공하도록 포매팅된 메시지 데이터를 렌더링한다. 일 실시예에서, 음성 렌더러는 다양한 음성의 선택, (HMM-기반, 다이폰 또는 유닛-선택 기반을 포함한, 그러나 이에 제한되지 않는) 다양한 음성 합성기, 또는 사람 언어의 선택을 사용자에게 제공할 수 있다. 노래하는 음성의 선택의 일부 예는 성별(가령, 남성/여성), 연령(가령, 나이 적은 사람/나이 많은 사람), 국적 또는 액센트(가령, 미국 액센트/영국 액센트), 또는 다른 구별되는 음성 특성(가령, 술취하지 않은/술취한, 소리지르는/속삭이는, 유혹적인, 불안해하는, 로봇같은, 등)이다. 일부 실시예에서, 이러한 음성 선정은 하나 이상의 음성 모델, 음높이(pitch), 억양, 및 예민하게 상이한 노래 속성으로 나타나는 기타 변수들을 이용하여 하나 이상의 스피치 합성기를 통해 구현된다. 일부 실시예에서, 음성 합성기의 선택은 무드, 톤, 또는 쟝르를 표시하는 특정 단어 또는 음악 스타일에 대한 텍스트 입력 및/또는 음악 입력의 분석에 기초하여 시스템에 의해 자동적으로 이루어진다. 소정의 실시예에서, 음성 합성기가 음악 메시지를 발생시킨 후, 시스템은 멜로디에 동반할 화음(harmonization)을 제공할 수 있다. 이러한 동반은 앞서 참고자료로 포함된 미국특허 제8,779,268호에 개시된 방식으로 메시지에 추가될 수 있다.

일부 실시예에서, 사용자는 단계(219)에서 음악 메시지에 그래픽 요소를 추가하는 옵션을 가진다. 선택될 경우, 그래픽 요소는 미디어 데이터베이스(109)에, 또는 클라이언트 장치(101-105) 자체 상에, 또는 둘 모두에 저장된 기-존재 요소들의 라이브러리로부터 선정될 수 있다. 다른 실시예에서, 사용자는 음악 텍스트 메시지에 포함을 위해 자체 그래픽 요소를 생성할 수 있다. 또 다른 실시예에서, 그래픽 요소는 사용자가 구체적으로 선택할 필요없이 자동적으로 발생된다. 음악 메시지와 함께 이용을 위해 발생될 수 있는 그래픽의 소정의 예는 음악 메시지 내 음악에 대응하는 칼라 및 광 플래시, 사용자에 의해 입력되는 텍스트형 메시지의 일부 또는 전부를 자세히 설명하는 애니메이션화된 그림 또는 문자, 또는, 텍스트 입력의 분석에 의해 결정되는, 텍스트 입력 자체의 톤과, 또는, 선택된 음악 저작물의 톤과 대응하도록 자동 결정된 다른 애니메이션 또는 칼라다. 사용자가 그래픽 요소를 선택 또는 생성할 경우, 이 선택을 표시하는 그래픽 입력이 단계(220)에서 서버(108)에 송신되어 서버(108)에 의해 수신된다. 그 후 그래픽 요소는 사용자에 의해 선택된 기-존재 요소들을 이용하여, 텍스트 입력 및/또는 음악 입력의 분석에 기초하여 시스템에 의해 선정되는 자동 요소를 이용하여, 또는 사용자에 의해 제공되는 그래픽 요소를 이용하여 단계(222)에서 발생된다.

일부 실시예에서, 사용자는 단계(224)에서, 음악 메시지와 함께 비디오 요소를 포함함을 선정할 수 있다. 사용자가 비디오 요소 포함을 선정할 경우, 사용자 인터페이스는 스마트폰 또는 다른 장치 상의 전방 또는 후방카메라와 같이, 비디오 입력을 캡처하기 위해 클라이언트 장치(101-105)에 통합된 하나 이상의 카메라를 활성화시킬 수 있다. 사용자는 클라이언트 장치 상의 사용자 인터페이스를 조작하여 음악 메시지에 포함될 비디오 입력을 레코딩할 수 있다. 일부 실시예에서, 클라이언트 장치(101-105) 상에 디스플레이되는 사용자 인터페이스는 사용자가 음악 메시지의 특정 부분과 비디오 입력의 특정 특징부를 어울리게 할 수 있도록, 비디오 입력을 캡처하면서 음악 메시지의 재생을 제공할 수 있다. 이러한 일 실시예에서, 사용자 인터페이스는 비디오 캡처 중 음악 메시지의 진행의 시각적 표현을 사용자에게 제공하도록, 재생 중 텍스트를 따라 이동하는 진행 인디케이터와 함께 스크린 상에 텍스트 입력의 텍스트를 디스플레이할 수 있다. 또 다른 실시예에서, 사용자 인터페이스는 음악 메시지의 재생 전체를 통틀어 요망되는 대로 비디오 캡처를 정지 및 시작하는 기능을 사용자에게 제공하며, 이와 동시에 음악 메시지의 재생을 중단할 수 있다. 이 기능을 제공하는 한가지 이러한 방식은 사용자가 터치 스크린 또는 클라이언트 장치(101-105)의 다른 입력부를 터치하고 있을 때 비디오를 캡처함으로써, 그리고, 사용자가 터치스크린 또는 다른 입력부에서 힘을 거둘 때 비디오 캡처를 적어도 일시적으로 중지함으로써, 실현된다. 이러한 실시예에서, 시스템은 음악 메시지의 제 1 부분 동안 비디오 입력의 소정의 부분들을 사용자가 캡처할 수 있게 하고, 원할 때 음악 메시지의 비디오 캡처 및 재생을 중단할 수 있게 하며, 그 후, 음악 메시지의 제 2 부분에 대응하도록 비디오 입력의 다른 부분의 캡처를 계속할 수 있게 한다. 비디오 캡처 완료 후, 사용자 인터페이스는 비디오 입력의 일부분 또는 전체를 다시 캡처함으로서 비디오 입력의 편집 옵션을 제공한다.

일부 실시예에서, 비디오 입력의 캡처 및 편집이 완료되면, 단계(226)에서 처리를 위해 비디오 입력이 서버(108)에 송신되어 서버(108)에 의해 수신된다. 비디오 입력은 그 후 단계(228)에서 비디오 요소를 발생시키도록 처리될 수 있고, 그 후 비디오 요소가 음악 메시지에 통합된다. 완료되면, 비디오 요소는 사용자가 비디오 입력의 부분들을 캡처한 순서와 대응하는 음악 메시지와 함께 동기화 및 재생될 수 있다. 다른 실시예에서, 처리 및 비디오 요소 발생은 서버(108)에 비디오 입력을 송신할 필요없이, 클라이언트 장치(101-105) 자체 상에서 완료될 수 있다.

사용자가 음악 메시지에 그래픽 또는 비디오 요소를 추가하지 않는다고 선정할 경우 또는 비디오 및/또는 그래픽 요소가 발생되어 음악 메시지에 포함되면, 음악 메시지가 단계(230)에서 네트워크(110) 및/또는 무선 네트워크(110)를 통해 클라이언트 장치(101-105)로 송신 또는 출력된다. 모든 또는 대부분의 설명되는 단계들이 클라이언트 장치(104)와 같은 단일 장치 상에서 실행되는 실시예에서, 음악 메시지는 스피커 및/또는 시각적 디스플레이와 조합된 스피커로 출력될 수 있다. 이 시점에서, 일부 실시예에서, 시스템은 단계(232)에서 음악 메시지의 미리보기 옵션을 사용자에게 제공할 수 있다. 사용자가 메시지 프리뷰를 선정할 경우, 음악 메시지는 사용자의 리뷰를 위해 클라이언트 장치(101-105)를 통해 단계(234)에서 재생된다. 이러한 실시예에서, 사용자가 음악 메시지에 만족하지 못하거나 어떠한 이유로 다른 메시지를 생성하고자 할 경우, 사용자에게는 전송없이 음악 메시지를 취소하거나 메시지를 편집하는 옵션이 제공된다. 그러나, 사용자가 음악 메시지를 승인하거나 또는 음악 메시지 미리보기를 택하지 않을 경우, 사용자는 단계(235)에서 음악 메시지를 선택된 메시지 수신자에게 발신할 수 있다. 앞서 논의한 바와 같이, 음악 메시지는 메시징 서비스/포맷이 오디오 및/또는 비디오 파일의 전송, 운반, 및 재생을 지원하는 한, SMS 또는 MMS 메시징, 이메일, Facebook^®, Twitter^®, 및 Instagram^®과 같은 다양한 통신 및 소셜 미디어 플랫폼을 이용하여 하나 이상의 메시지 수신자에게 발신될 수 있다.

다음은 음악 메시지 생성을 위해 사용자에 의해 제공되는 음악 입력 및 텍스트 입력을 분석 및 처리하는데 사용되는 방법의 더욱 상세한 설명을 제공한다. 구체적으로, 여기서 제공되는 세부사항은 도 2에 도시되는 음악 메시징 시스템(100)을 작동하기 위한 방법(200)의 단계(206, 210-214)들을 수행하는 적어도 하나의 실시예에 속한다. 그러나, 도 2의 단계들을 수행하기 위나 다른 대안의 방법들이 여기서 고려될 수 있다. 음악 메시징 시스템은 사용자로부터 사용자의 클라이언트 장치를 통해 음악 입력의 선택 및 텍스트 입력의 수신에 따라 자동적으로 다음 작동을 수행할 수 있다. 여기서 개시되는 방법은 텍스트형 입력을 음악 입력과 상관시킴과 관련된 기술적 문제점에 대한 기술적 해법을 제공하여, 두 입력의 상관성의 음악적 출력이 효과적으로 매칭되게 된다. 더욱이, 여기서 설명되는 방법 및 특징들은 여기서 설명되는 작동 및 시스템없이 가능할 수 있었던 것보다 컴퓨터를 더욱 활용하고 기능성있게 만드는 방식으로 소정 유형의 정보를 처리하도록 컴퓨터 또는 서버의 기능적 능력을 개선시키도록 작동할 수 있다.

음악 메시징 시스템은 시스템 유연성, 확장성, 및 유효성을 보장하는 방식으로 텍스트 및 음악 입력을 수집 및 조작한다. 일부 실시예에서, 텍스트 입력 및 음악 입력에 관한 데이터 지점의 수집 및 분석은 음악 및 텍스트 입력을 효과적으로 상관시키는 컴퓨터 및 시스템의 기능을 개선시키도록 구현된다. 도 2의 단계(206)에서와 같이 텍스트 입력을 분석 및 처리함에 있어서 시스템에 의해 결정 및 사용되는 일부 데이터 지점은 텍스트 입력에 포함된 문자수 또는 문자 카운트("CC") 및 단어 수 또는 단어 카운트("WC")다. CC 및 WC를 결정하기 위해 임의의 적절한 방법이 사용될 수 있다. 예를 들어, 일부 실시예에서, 문자 그룹들 간의 공백을 카운팅함으로써, 또는, 언어 선택 또는 특정 언어 내 알려진 단어들의 데이터베이스를 참조함으로써 문자들의 그룹에서 단어를 인지함으로써, 시스템이 WC를 결정한다. 텍스트 입력 분석 중 시스템에 의해 결정되는 다른 데이터 지점들은 음절 수 또는 음절 카운트("TC")와 문장 수 또는 문장 카운트("SC")다. TC 및 SC는 임의의 적절한 방식으로, 예를 들어, SC를 위해 마침표 및 공백을 분석함으로써, 또는, 미디어 데이터베이스(109)에 저장된 단어 데이터베이스 또는 그외 다른 곳을 참조하여 단어를 음절로 분석함으로써, 결정될 수 있다. 사용자에 의해 클라이언트 장치(101-105)를 통해 공급되는 텍스트 입력을 수신하면, 시스템은 입력 텍스트를 분석 및 정밀분석하여, CC, WC, TC, 및 SC와 같은 값들을 결정할 수 있다. 일부 실시예에서, 이러한 정밀 분석은 서버(108)에서 수행되지만, 일부 실시예에서, 입력 텍스트의 정밀 분석이 클라이언트 장치(101-105) 상에서 수행된다. 일부 실시예에서, 분석 중, 시스템은 분석 중 이루어진 결정을 표시하기 위해 각각의 단어, 음절, 및 문장의 시작부 및 종료부에 코딩된 시작 플래그 및 종료 플래그를 삽입한다. 예를 들어, 문장의 시작부에서 시작 플래그의 위치는 문장 시작부("SS")로 지칭될 수 있고, 문장의 종료부에서 종료 플래그의 위치는 문장 종료부("SE")로 지칭될 수 있다. 추가적으로, 분석 중, 텍스트 입력의 단어 또는 음절이 텍스트형 강조를 위해 플래그될 수 있다. 단어 또는 음절이 텍스트형 강조를 수신해야만 하는 이러한 상황을 인지하기 위한 시스템 방법은 언어에 기초할 수 있고 또는 문화-특이적일 수 있다.

일부 실시예에서, 입력 텍스트에 대한 시스템에 의해 수행되는 다른 분석은 CC 및 WC 각각의 구 클래스(phrase class: "PC")를 결정하고 있다. 문자 카운트의 구 클래스는 CCPC로 지칭될 것이고, 단어 카운트의 구 클래스는 WCPC로 지칭될 것이다. 구 클래스의 값은 CC 또는 WC의 값들의 증가하는 세트를 나타내는 순차적으로 인덱싱된 그룹 세트다. 예를 들어, 0의 CC를 가진 텍스트 입력은 1의 CCPC를 가질 수 있고, 0의 WC를 가진 텍스트 입력은 1의 WCPC를 가질 수 있다. 더욱이, 1과 6 사이의 CC를 가진 텍스트 입력은 2의 CCPC를 가질 수 있고, 1의 WC를 가진 텍스트 입력은 2의 WCPC를 가질 수 있다. CCPC 및 WCPC는 각각 CC 또는 WC가 증가함에 따라 순차적으로 증가한다.

아래에서 표 1은 텍스트 입력 내 CC 및 WC에 기초하여 CCPC 및 WCPC의 가능한 분류를, 단지 예시적이고 비제한적인 용도로, 도시한다.

PC	CC	WC	설명
1	0	0	텍스트 입력 없음
2	1-6	1	단어 하나
3	7-9	2-3	매우 짧음
4	10-25	4-8	짧음
5	25-75	9-15	중간
6	75-125	15-20	김
7	125+	20+	매우 김

CCPC 및 WCPC에 기초하여, 시스템은 사용자에 의한 전체 텍스트 입력에 대한 전체 구 클래스를, 또는 사용자 구 클래스("UPC")를 결정할 수 있다. 이러한 결정은 CCPC 및 WCPC의 상이한 값에 각각 상이한 가중치를 부여함으로써 이루어질 수 있다. 일부 실시예에서, UPC를 결정함에 있어서 CCPC보다 WCPC에 더 큰 가중치가 부여되지만, 다른 가중치 또는 동일한 가중치가 사용될 수도 있다. 한 예는 다음 수식에 의해 표현되는 바와 같이 40% 가중치를 CCPC에 그리고 60% 가중치를 WCPC에 부여한다:

수식 1 UPC = 0.4(CCPC) + 0.6(WCPC)

따라서, 이 예시 수식 1 및 구 클래스의 예시 표 1에 기초하여, 27의 CC 및 3의 WC를 가진 텍스트 입력이 5의 CCPC 및 3의 WCPC를 가질 것이며, 따라서 다음과 같이 3.8의 UPC를 나타낼 것이다:

수식 2 UPC = 0.4(5) + 0.6(3) = 3.8

여기서 설명되는 구 클래스 시스템 및 가중 시스템은 무드, 쟝르, 스타일, 등과 같이, 선택된 음악 입력에 관련된 여러 요인들, 또는, 텍스트 입력의 분석 중 결정되는 중요한 단어 또는 구와 같이, 텍스트 입력에 관련된 다른 요인들에 기초하여 변화가능하다.

유사한 방식으로, 사용자에 의해 선택 또는 제공되는 음악 입력이 도 2의 단계(210)에서와 같이, 분석 및 처리 중 정밀분석될 수 있다. 일부 실시예에서, 시스템은 다양한 데이터 지점을 결정하기 위해 사용자에 의해 선택 또는 제공되는 음악 입력을 정밀 분석한다. 분석에서 결정되는 일 데이터 지점은 특정 음악 입력 내 음표 수 또는 음표 카운트("NC")다.

음악 입력에 해대 행해지는 분석의 다른 결과물은 음악 입력 전체에 걸쳐 악구의 시작부 및 종료부의 결정을 포함한다. 악구가 음악적 사상을 운반하는 음표들의 그룹이라는 점에서 악구는 언어의 문장과 유사하다. 따라서, 일부 실시예에서, 선택된 음악 입력의 분석 및 처리는 음악 입력 내 각각의 식별되는 악구의 시작 및 종료를 플래그하는 과정을 수반한다. 앞서 설명된 텍스트 입력의 구 클래스(UPC)와 유사하게, 예를 들어, 음악 입력에서 식별되는 악구의 수 및 음표 카운트에 기초하여, 소스 구 클래스("SPC")로 지칭되는 소스 음악 입력의 구 클래스가 결정될 수 있다.

각각의 악구의 시작은 구 시작부("PS")로 지칭될 수 있고, 각각의 악구의 종료는 구 종료("PE")로 지칭될 수 있다. 음악 입력의 PS 및 PE는 텍스트 입력의 문장 시작(SS) 및 문장 종료(SE)와 유사하다. 일부 실시예에서, 음악 입력으로 사용자에 의해 선택될 수 있는, 서버(108) 또는 클라이언트 장치(101-105) 상에 기-레코딩되어 저장된 음악 저작물과 관련된 PS 및 PE가 미리 결정될 수 있다. 이러한 실시예에서, 음악 입력에 대한 PS 및 PE 위치가 미리 결정되고, 음악 입력의 분석은 미디어 데이터베이스(109)와 같은 스토어 위치로로부터 이러한 정보의 불러들이기를 수반한다. 그러나 다른 실시예에서, 또는, 음악 입력이 사용자에 의해 제공될 뿐 기-레코딩되어 저장되어 있지 않은 실시예에서, 음악 입력 내 악구를 구분하기 위해, 따라서, 각각의 식별되는 악구에 대한 대응하는 PS및 PE를 결정하기 위해, 추가적인 분석이 수행된다.

일부 실시예에서, 텍스트 입력 및 음악 입력의 구 클래스가 2개의 입력 사이의 패리티(parity) 또는 디스패리티(disparity)를 결정하기 위해 비교된다. 본 개시가 구 클래스를 이용한 대응하는 텍스트 입력 및 음악 입력의 비교를 설명하고 있으나, 텍스트 입력과 음악 입력 간의 비교를 위한 다른 방법도 여기서 고려된다. 구 클래스 비교는 도 2의 단계(212)에서와 같이, 각자의 분석에 기초하여 음악 입력을 텍스트 입력과 상관시킴에 따라 이루어질 수 있다.

소정의 실시예에서, 텍스트 입력과 음악 입력 간의 패리티는 사용자에 의해 제공되는 대응하는 텍스트 입력 및 음악 입력 간의 구 차이(phase differential: "PD")를 결정함으로써 분석된다. PD 결정의 한 예는 아래 수식 3에서 제시되는 바와 같이, 사용자 구 클래스(UPC)를 소스 구 클래스(SPC)로 나눔으로써 나타난다:

수식 3 PD = UPC/SPC

본 예에서, 텍스트 입력과 음악 입력 간의 완전한 구 패리티는 1.0의 PD로 나타날 것이고, 이 경우 UPC 및 SPC는 동일하다. 텍스트 입력이 음악 입력보다 "짧을 경우", PD는 1.0 미만의 값을 갖고, 텍스트 입력이 음악 입력보다 "길 경우", PD는 1.0보다 큰 값을 가진다. 당 업자는 유사한 결과가 SPC를 UPC로 나눔으로써, 또는 다른 적절한 비교 방법으로, 획득될 수 있음을 인지할 것이다.

텍스트 입력과 음악 입력 간의 패리티는 사용자에 의해 제공되는 텍스트 입력과 음악 입력 간의 "음표" 차이("ND")에 의해 또한 결정될 수 있다. ND 결정의 한 예는 음표 카운트(NC)와 텍스트 입력의 유사 음절 카운트(TC) 간의 차이를 취함으로써 이루어진다. 예를 들어:

수식 4 ND = NC - TC

본 예에서, 텍스트 입력과 음악 입력 간의 완벽한 구 패리티는 0의 ND일 것이고, 이 경우 NC 및 TC는 동일하다. 텍스트 입력이 음악 입력보다 "짧을 경우", ND는 1보다 크거나 같을 것이고, 텍스트 입력이 음악 입력보다 "길 경우"< ND는 -1보다 작거나 동일할 것이다. 당 업자는 TC로부터 NC를 뺌으로써, 또는 다른 적절한 비교법으로, 유사한 결과를 얻을 수 있음을 인지할 것이다.

이러한 또는 적절한 대안의 비교법을 이용함으로써, 제공 또는 선택된 음악 입력에 대해 주어진 텍스트 입력이 얼마나 적절한지를 확립한다. PD=1 및 ND=1의 구 패리티는 2개의 입력 사이의 하이 레벨의 패리티를 나타내며, 이 경우 1보다 훨씬 크거나 작은 PD, 또는 0보다 훨씬 크거나 작은 ND가 로우 레벨의 패리티, 즉, 디스패리티를 나타낸다. 일부 실시예에서, 음악 입력 및 텍스트 입력을 상관시켜서 음악 메시지를 생성할 때, 패리티가 완벽하거나 완벽에 가까울 경우(즉, 하이 패리티), 텍스트형 입력의 문장 시작(SS) 및 문장 종료(SE)가 각각 음악 입력의 구 시작(PS) 및 구 종료(PE)와 이상적으로 정렬될 것이다. 그러나, 패리티가 불완전할 때, SS 및 PS가 서로에게 정렬되도록 설정될 때 SE 및 PE가 잘 정렬되지 않을 수 있다. 분석 중 결정되는 패리티/디스패리티 레벨에 기초하여, 음악 입력 및 텍스트 입력을 처리하는 다양한 방법들을 이용하여 음악 메시지의 최적 결과를 제공할 수 있다.

텍스트 및 음악 입력을 상관시키기 위한 해법의 한 예는 음절 매칭이다. 패리티가 완벽할 때, 즉, 음표 차(ND)가 0이거나, 음표 카운트(NC) 및 음절 카운트(TC)가 동일하거나 구 차이(PD)가 1.0일 때, 음절 매칭은 음악 입력의 음표에 텍스트 입력의 음절을 단순히 매칭시키는 것, 및/또는, 음악 입력 악구에 텍스트 입력 문장을 매칭시키는 것을 수반할 수 있다.

그러나 일부 실시예에서, PD가 1.0보다 약간 크거나 작을 때 및/또는 ND가 예를 들어 1과 5 사이 또는 -1과 -5 사이일 때, 각각 멜로디 단순화 또는 장식을 이용하여 입력 간의 상관을 제공할 수 있다. 멜로디 단순화는 음악 입력에서 재생되는 음표 수 감소를 수반하고, NC가 TC보다 약간 크거나(가령, ND가 대략 1과 5 사이) 또는 음악 소스 구 클래스(SPC)가 사용자 구 클래스(UPC)보다 약간 큰 경우(가령, PD가 1.0보다 약간 작은 경우), 사용될 수 있다. 음악 입력 내 음표 감소는 음악 입력의 전체 길이를 단축시킬 수 있고, NC가 텍스트 입력의 TC와 동일하거나 가까워져서, 구 패리티를 증가시킨다. 음악 입력으로부터 제거되는 음표가 적을수록, 음악 입력으로 선택되는 음악 저작물에 대한 단순화가 적을 것이며, 따라서, 완료시 음악 메시지의 음악 요소를 더 많이 인지할 수 있을 것이다. 마찬가지로, 멜로디 장식은 음악 입력에 음표 추가(즉, "장식"(embellishing))를 수반한다. 일부 실시예에서, 멜로디 장식은 NC가 TC보다 약간 작을 때(가령, ND가 -1과 -5 사이) 또는 SPC가 UPC보다 약간 작을 때(가령, PD가 1.0보다 약간 클 때) 사용된다. 음악 입력에 음표 추가는 음악 입력의 길이를 늘리고, 이는 NC 또는 SPC에 추가될 수 있고, 따라서, 입력들 간의 패리티를 증가시킨다. 멜로디 장식을 이용하여 추가되는 음표가 적을수록, 음악 입력으로 선택되는 음악 저작물에 대한 장식이 미치는 영향이 적을 것이며, 따라서, 완료시 음악 메시지의 음악 요소가 더 잘 인지될 수 있을 것이다. 일부 실시예에서, 음악 저작물에 추가되는 추가 음표들은 음악 저작물 내 원래 음표들을 분석함으로써 그리고 음악적으로 타당한 음표를 추가함으로써 결정된다. 예를 들어, 일부 실시예에서, 시스템은 음악 저작물을 인지가능하게 유지하는 것을 돕도록 원래 음악 저작물과 동일한 음악 키의 음표만을, 또는, 원래 저작물의 템포 또는 기타 특징들을 유지하는 음표를 추가할 수 있다. 멜로디 단순화 및 장식이 음악 입력 및 텍스트 입력 간의 미세한 구 디스패리티의 범주에서 설명되었으나, 더 크거나 더 작은 구 디스패리티에서의 멜로디 단순화 및 장식 이용이 또한 고려된다.

음악 입력과 텍스트 입력 간의 디스패리티를 해결하는 다른 해법은 스터터 효과(stutter effect)다. 일부 실시예에서, 스터터 효과는 매체 패리티 차이(가령, 대략 0.75 내지 1.5 사이의 PD)를 해결하는데 사용될 수 있다. 스터터 효과는 비교적 빠른 순서로 비교적 짧은 비트의 음악 또는 음성 저작물을 자르고 반복하는 과정을 수반한다. 스터터 효과는 대응하는 음악 또는 텍스트 입력에 더욱 근사하게 매칭되도록 일 입력 또는 다른 입력의 길이를 늘리기 위해, 음성 스터터 효과 형태로 음악 입력에 또는 텍스트 입력에 적용될 수 있다. 예를 들어, 음악 입력이 대응하는 텍스트 입력보다 짧을 경우(가령, PD가 대략 1.5), 음악 입력은 빠른 순서로 음악 입력의 작은 부분을 반복함으로써 길이 연장될 수 있다. 유사한 프로세스가 텍스트 입력과 함께 사용될 수 있고, 텍스트 입력의 길이를 늘리기 위해 비교적 빠른 순서로 텍스트 입력의 하나 이상의 음절을 반복할 수 있다. 스터터 효과의 결과로, 음악 입력과 텍스트 입력 간의 구 차이가 최적 레벨에 가까워질 수 있다. 스터터 효과가 음악 입력과 텍스트 입력 간의 매체 구 디스패리티 범주에서 설명되었으나, 보다 큰 또는 보다 작은 구 디스패리티에 스터터 효과를 이용하는 방안이 또한 고려된다.

음악 입력과 텍스트 입력 간의 디스패리티 해결을 위한 다른 해법은 반복 및 멜리스마(melisma)다. 일부 실시예에서, 반복 및 멜리스마를 이용하여 음악 및 텍스트 입력 간의 비교적 큰 구 차이(가령, 0.5보다 작은 또는 2.0보다 큰 PC)를 해결할 수 있다. 반복은 대응하는 음악 또는 텍스트 입력을 단일 회 재생하면서 텍스트 입력 또는 음악 입력을 2회 이상 반복하는 과정을 포함한다. 예를 들어, PD가 0.5일 경우, 이는 음악 입력이 텍스트 입력의 2배 길이임을 표시한다. 이러한 시나리오에서, 텍스트 입력은 음악 입력의 길이와 실질적으로 매칭을 이루기 위해 단순히 한번 반복될 수 있다(즉, 두번 재생될 수 있다). 마찬가지로, 2.0의 PD는 텍스트 입력이 음악 입력 길이의 실질적으로 2배임을 표시할 것이다. 이러한 시나리오에서, 음악 입력은 보다 긴 텍스트 입력의 단일 재생과 상관되도록 두번 재생되도록 루프화될 수 있다.

멜리스마는 음악 입력과 대응하는 텍스트 입력 간의 디스패리티를 해소하는데 사용될 수 있는 다른 해법이다. 일부 실시예에서, 멜리스마는 텍스트 입력을 음악 입력과 더욱 근접하게 매칭시키기 위해 텍스트 입력이 음악 입력보다 짧을 때 사용된다. 구체적으로, 멜리스마는 텍스트 입력으로부터의 단일 음절이 음악 입력의 복수의 음표에 걸쳐 늘려질 때 나타난다. 예를 들어, 음절 카운트(TC)가 12이고 음표 카운트(NC)가 13일 때, 시스템은 음악 입력 내 2개의 음표에 걸쳐 재생 또는 "노래불러질" 텍스트 입력으로부터 하나의 음절을 할당할 수 있다. 멜리스마는 음악 입력의 시작, 중간, 및 종료부에서와 같이, 텍스트 입력을 통틀어 복수의 분리된 음절들에 걸쳐 적용될 수 있다. 일부 실시예에서, 시스템은 음악 입력으로 선정된 음악 저작물의 톤 또는 무드에 기초하여 및/또는 텍스트 입력 내 단어의 분석에 기초하여 멜리스마를 적용할 단어 또는 음절을 선정할 수 있다.

텍스트 입력과 음악 입력 간의 디스패리티에 대한 다른 해법은 음악 입력의 라이트모티프(leitmotif)를 인지하는 것이다. 당 업자는 라이트모티프가 청취자에 의해 구별될 수 있는 소정의 "동일성"을 여전히 포함하는 악구의 비교적 작은 요소임을 인지할 것이다. "동일성"은 악구를 통틀어 반복되는 유사 또는 동일한 리듬 및 음악 구간의 조합일 수 있다. 예를 들어, 라이트모티프는 유사한 음표 패턴 또는 음표 리듬을 따르는 악구 내의 음표들의 그룹일 수 있고, 이러한 모티프는 분석 중 시스템에 의해 인지되거나, 또는, 기-레코딩된 음악 저작물에 대해 미리 결정될 수 있다. 어느 경우에도, 음악 입력을 통틀어 라이트모티프 위치가 음표화 및 표시될 수 있다. 일부 실시예에서, 라이트모티프는 음악 입력과 텍스트 입력 간의 디스패리티를 해소하기 위해 음악 입력을 분석할 때 텍스트형 강조 또는 반복을 위한 우선순위화된 표적으로 사용될 수 있다.

소정의 실시예에서, 음악 메시징 시스템은 음악 입력을 텍스트 입력과 상관시키면서 개별 해법들 중 임의의 해법을 단독으로 이용할 수 있고, 또는, 음악 메시지의 출력 품질을 최적화시키기 위해, 여기서 설명되는 다양한 해법들을 순차적으로 또는 동시에 구현할 수 있다. 예를 들어, 시스템은 텍스트 입력의 길이의 절반이 되도록 음악 입력의 길이를 늘리는 장식을 이용할 수 있고, 이어서, 텍스트 입력과 더욱 밀접하게 매칭되도록 장식된 음악 입력의 반복을 이용할 수 있다. 최종 완성된 음악 메시지가 최적화되도록 음악 입력을 텍스트 입력과 상관시키는 작업을 실현하기 위해 해법들의 다른 조합들이 또한 여기서 고려된다. 텍스트 입력 및 음악 입력을 최종완성된 음악 메시지로 변환함에 있어서 음악 입력을 텍스트 입력과 효과적으로 상관시키도록 본 개시와 일관되는 다른 기술들이 또한 구현될 수 있다.

여기서 설명되는 음악 메시징 시스템과, 이러한 음악 메시징 시스템을 작동하는 방법이 클라이언트 장치(104)와 같은 단일 클라이언트 장치 또는 서버(108) 상에서 수행될 수 있고, 또는, 다양한 장치 상에서 수행될 수 있으며, 각각의 장치는 상기 시스템의 상이한 부분들을 포함하고 상기 방법의 상이한 부분들을 수행한다. 예를 들어, 일부 실시예에서, 클라이언트 장치(104) 또는 서버(108)는 도 2에 도시되는 단계들의 대부분을 수행할 수 있으나, 음성 합성이 다른 장치 또는 다른 서버에 의해 수행될 수 있다. 다음은 여기서 설명되는 음악 메시징 시스템을 포함하도록 구성될 수 있는 단일 장치의 일 실시예의 설명을 포함하지만, 대안으로서 단일 장치가 복수의 장치일 수 있음을 이해하여야 한다.

도 4는 도 1로부터 다양한 장치(101-105, 108) 중 임의의 장치 상에, 또는, 함께 작동할 수 있는 복수의 장치 상 - 가령, 예시 용도로, 임의의 다용도 컴퓨터(101, 102), 핸드-헬드 컴퓨팅 장치(103-105), 및/또는 서버(108)일 수 있음 - 에, 배치될 수 있는 시스템(100)의 일 실시예를 도시한다. 예시 용도로, 도 4는 도 1로부터 장치(104) 상에서 작동하는 시스템(100)을 도시하지만, 당 업자는 단일 장치 상에서, 또는, 대안으로서, 각각이 시스템의 작동의 일부분을 수행하게 되는 복수의 장치 상에서, 설치된 애플리케이션으로 배치될 수 있음을 이해할 것이다. 대안으로서, 시스템은 시스템(100)과 관련된 기능을 구현하기 위해 브라우저의 기능을 확장하는 웹 플러그-인 기술을 선택적으로 이용할 수 있는 http 브라우저 환경 내에서 작동할 수 있다. 장치(104)는 도 4에 도시되는 것보다 훨씬 많은 또는 적을 구성요소들을 포함할 수 있다. 그러나, 당 업자는 소정의 구성요소들이 운영 체제(100)에 필요하지 않고, 프로세서, 비디오 디스플레이, 및 오디오 스피커와 같은 다른 구성요소들이 본 발명의 형태를 실시함에 있어서 중요하다는 것을 이해하여야 한다.

도 4에 도시되는 바와 같이, 장치(104)는 버스(406)를 통해 대용량 메모리(404)와 통신하는 CPU일 수 있는 프로세서(402)를 포함한다. 당 업자가 알다시피, 프로세서(402)는 하나 이상의 범용 프로세서, 디지털 신호 프로세서, 다른 전용 프로세서, 및/또는 ASIC를 단독으로 또는 서로 조합하여 또한 포함할 수 있다. 장치(104)는 전력 공급원(408), 하나 이상의 네트워크 인터페이스(410), 오디오 인터페이스(412), 디스플레이 드라이버(414), 사용자 입력 핸들러(416), 조명기(418), 입/출력 인터페이스(420), 선택적인 햅틱 인터페이스(422), 및 선택적인 전역 위치확인 시스템(GPS) 수신기(424)를 또한 포함한다. 장치(104)는 비디오를 특정 메시지와 함께 획득하게 하는, 및/또는 비디오를 특정 메시지와 관련시키는, 카메라를 또한 포함할 수 있다. 카메라 또는 다른 소스로부터의 비디오가 온라인 소셜 네트워크 및/또는 온라인 음악 커뮤니티에 추가로 또한 제공될 수 있다. 장치(104)는 또한 도 1로부터의 서버(108) 또는 기지국과 선택적으로 통신할 수 있고, 또는 다른 컴퓨팅 장치와 직접 통신할 수 있다. 도 1로부터 서버(108) 또는 기지국과 같은 다른 컴퓨팅 장치는 전문가용 오디오 프로세서, 제너레이터, 증폭기, 스피커, XLR 커넥터, 및/또는 전력 공급원과 같은 추가적인 오디오-관련 구성요소들을 포함할 수 있다.

도 4를 계속 참조하면, 전력 공급원(408)은 충전식 또는 비충전식 배터리를 포함할 수 있고, 또는, 배터리를 또한 보완 및/또는 재충전할 수 있는 AC 어댑터 또는 파워-도킹 크래들(powered docking cradle)과 같은, 외부 전원에 의해 제공될 수 있다. 네트워크 인터페이스(410)는 하나 이상의 네트워크에 장치(104)를 연결하기 위한 회로를 포함하고, GSM(global system for mobile communication), CDMA(code division multiple access), TDMA(time division multiple access), UDP(user datagram protocol), TCP/IP(transmission control protocol/Internet protoco), SMS, GPRS(general packet radio service), WAP, UWB(ultra wide band), IEEE 802.16 WiMax(Worldwide Interoperability for Microwave Access), SIP/RTP, 또는 다양한 다른 무선 통신 프로토콜 중 임의의 프로토콜을 포함한, 그러나 이에 제한되지 않는, 하나 이상의 통신 프로토콜 및 기술과 함께 이용하도록 구성된다. 따라서, 네트워크 인터페이스(410)는 트랜시버, 트랜시빙 장치, 또는 네트워크 인터페이스 카드(NIC)로 포함될 수 있다.

오디오 인터페이스(412)(도 4)는 사람의 음성과 같은 오디오 신호를 생산 및 수신하도록 배열된다. 디스플레이 드라이버(414)(도 4)는 다양한 유형의 디스플레이를 구동하기 위해 비디오 신호를 생산하도록 배열된다. 예를 들어, 디스플레이 드라이버(414)는 액정, 가스 플라즈마, 또는 발광 다이오드(LED) 기반-디스플레이, 또는 컴퓨팅 장치와 함께 사용될 수 있는 그외 다른 유형의 디스플레이일 수 있는, 비디오 모니터 디스플레이를 구동할 수 있다. 디스플레이 드라이버(414)는 대안으로서, 사람의 손으로부터 손가락 또는 첨필과 같은 물체로부터 사용자 입력 핸들러(416)를 통해 입력을 수신하도록 또한 배열되는, 핸드-헬드 터치 감지 스크린을 구동할 수 있다.

장치(104)는 헤드셋, 스피커, 또는 다른 입력 또는 출력 장치와 같은, 외부 장치와 통신하기 위한 입/출력 인터페이스(420)를 또한 포함한다. 입/출력 인터페이스(420)는 USB, 적외선, 블루투스, 등과 같은 하나 이상의 통신 기술을 이용할 수 있다. 선택적인 햅틱 인터페이스(422)는, 컴퓨팅 장치의 다른 사용자가 전화를 하고 있을 때와 같이, 특정한 방식으로 장치를 진동시키도록 이용될 수 있다.

선택적인 GPS 트랜시버(424)는 통상적으로 위도 및 경도 값으로 위치를 출력하는 지구 표면 상의 장치(100)의 물리적 위치를 결정할 수 있다. GPS 트랜시버(424)는 삼각법-보조 GPS(AGPS), E-OTD, CI, SAI, ETA, BSS, 등을 포함한, 그러나 이에 제한되지 않는, 다른 지오-포지셔닝 메커니즘을 또한 이용하여, 지구 표면 상의 장치(104)의 물리적 위치를 또한 결정할 수 있다. 그러나 일 실시예에서, 모바일 장치는 다른 구성요소들을 통해, 예를 들어, MAC 어드레스, IP 어드레스, 등을 포함한, 장치의 물리적 위치 결정을 위해 이용될 수 있는 다른 정보를, 다른 구성요소들을 통해, 모바일 장치가 제공할 수 있다.

도 4에 도시되는 바와 같이, 대용량 메모리(404)는 RAM(423), ROM(426), 및 다른 저장 수단을 포함한다. 대용량 메모리(404)는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위해 컴퓨터 판독가능 저장 매체의 한 예를 도시한다. 대용량 메모리(404)는 장치(104)의 로우-레벨 작동을 제어하기 위한 BIOS(428)를 저장한다. 대용량 메모리는 장치(104)의 작동을 제어하기 위한 운영 체제(430)를 또한 저장한다. 이 구성요소는 소정 버전의 MAC OS, WINDOWS, UNIX, LINUX와 같은 범용 운영 체제와, 예를 들어, Xbox 360 시스템 소프트웨어, Wii IOS, Windows Mobile TM, iOS, Android, webOS, QNX, 또는 Symbian^® 운영 체제와 같은 전용 운영 체제를 포함할 수 있다. 이러한 운영 체제는 자바 응용프로그램을 통해 하드웨어 구성요소 및/또는 운영 체제 작동을 제어할 수 있는 자바 가상 기계를 포함할 수 있고, 또는 이와 인터페이싱할 수 있다. 운영 체제는 예를 들어, 플래시 및 유니티와 같이, 애플리케이션의 안전한 실행을 구현하는 "샌드박스"로 흔히 지칭되는 안전 가상 컨테이너를 또한 포함할 수 있다.

하나 이상의 데이터 저장 모듈이 장치(104)의 메모리(404)에 저장될 수 있다. 당 업자가 알다시피, 데이터 저장 모듈에 저장된 정보의 일부분이 장치(104)와 관련된 디스크 드라이브 또는 다른 저장 매체에 또한 저장될 수 있다. 이러한 데이터 저장 모듈은 복수의 트랙 레코딩, MIDI 파일, WAV 파일, 오디오 데이터 샘플, 및 다양한 다른 데이터 및/또는 데이터 포맷 또는 앞서 논의된 포맷 중 임의의 포맷의 입력 멜로디 데이터를 저장할 수 있다. 데이터 저장 모듈은, 예를 들어, 통신 중 헤더의 일부분으로, 또는 요청에 따라, 또는 소정의 이벤트에 응답하여, 등등하여, 다른 장치에 발신될 수 있는 시스템(100)의 다양한 기능을 설명하는 정보를 또한 저장할 수 있다. 더욱이, 데이터 저장 모듈은 어드레스 북, 버디 리스트, 앨리어스(aliases), 사용자 프로파일 정보, 등을 포함한 소셜 네트워킹 정보를 저장하는데 또한 이용될 수 있다.

장치(104)는 시스템(100)에 따라 이용하기 위한 애플리케이션을 포함한, 다수의 상이한 애플리케이션들을 저장하여 선택적으로 실행할 수 있다. 예를 들어, 시스템(100)에 따라 이용하기 위한 애플리케이션은 오디오 컨버터 모듈(Audio Converter Module), RSLL(Recording Session Live Looping) 모듈, MTAC(Multiple Take Auto-Compositor) 모듈, 하모나이저 모듈(Harmonizer Module), 트랙 공유 모듈(Track Sharer Module), 사운드 검색 모듈(Sound Searcher Module), 쟝르 매칭 모듈(Genre Matcher Module), 및 코드 매칭 모듈(Chord Matcher Module)을 포함할 수 있다. 이러한 애플리케이션들의 기능은 미국특허 제8,779,268호에 더 세부적으로 설명되고 있고, 그 내용은 본 발명에 포함된다.

장치(104) 상의 애플리케이션들은 메신저(434) 및 브라우저(436)를 또한 포함할 수 있다. 메신저(434)는 이메일, SMS(Short Message Service), 인스턴트 메시지(Instant Message: IM), MMS(Multimedia Message Service), 인터넷 릴레이 채팅(internet relay chat: IRC), mIRC, RSS 피드(feeds)를 포함한, 그러나 이에 제한되지 않는, 다양한 메시징 통신 중 임의의 통신을 이용하여 메시징 세션을 개시 및 관리하도록 구성될 수 있다. 예를 들어, 일 실시예에서, 메신저(434)는 AOL 인스턴트 메신저, 야후! 메신저, .NET 메신저 서버, ICQ, 등과 같은, IM 메시징 애플리케이션으로 구성될 수 있다. 다른 실시예에서, 메신저(434)는 다양한 메시징 프로토콜을 통합 및 이용하도록 구성되는 클라이언트 애플리케이션일 수 있다. 일 실시예에서, 메신저(434)는 메시지 관리를 위해 브라우저(436)와 상호작용할 수 있다. 브라우저(436)는 실질적으로 임의의 웹 기반 언어를 이용하는, 그래픽, 텍스트, 멀티미디어, 등을 수신 및 디스플레이하도록 구성되는 실질적으로 임의의 애플리케이션을 포함할 수 있다. 일 실시예에서, 브라우저 애플리케이션은 메시지의 디스플레이 및 발신을 위해, HDML(Handheld Device Markup Language), WML(Wireless Markup Language), WMLScript, JavaScript, SMGL(Standard Generalized Markup Language), HTML(HyperText Markup Language), XML(eXtensible Markup Language), 등을 이용할 수 있다. 그러나, Python, 자바, 및 제3자 웹 플러그-인을 포함한, 다른 웹-기반 언어들 중 임의의 언어가 사용될 수 있다.

장치(104)는 클라이언트 장치(104)에 의해 실행될 때, 메시지(가령, SMS, MMS, IM, 이메일, 및/또는 기타 메시지), 오디오, 비디오를 송신, 수신, 및/또는 그렇지 않을 경우, 처리하는, 그리고, 다른 클라이언트 장치의 다른 사용자와 통신할 수 있는 컴퓨터 실행가능 명령어와 같은 다른 애프리케이션(438)을 또한 포함할 수 있다. 응용프로그램의 다른 예는 캘린더, 검색 프로그램, 이메일 클라이언트, IM 애플리케이션, SMS 애플리케이션, VoIP 애플리케이션, 연락처 매니저, 작업 매니저, 트랜스코더, 데이터베이스 프로그램, 워드프로세싱 프로그램, 보안 애플리케이션, 스프레드시트 프로그램, 게임, 검색 프로그램, 등을 포함한다. 앞서 설명된 각각의 애플리케이션이 내장될 수 있고, 또는 대안으로서, 장치(104) 상에 다운로드되어 실행될 수 있다.

물론, 앞서 논의된 다양한 애플리케이션들이 장치(104) 상에서 구현되는 것으로 도시되지만, 대안의 실시예에서, 이러한 애플리케이션 각각의 하나 이상의 부분이 하나 이상의 원격 장치 또는 서버 상에서 구현될 수 있고, 각 부분의 입력 및 출력이 장치(104)와 하나 이상의 원격 장치 또는 서버 사이에서 하나 이상의 네트워크를 통해 전달된다. 대안으로서, 애플리케이션들 중 하나 이상이 주변 장치 상에서 실행을 위해 패키징되거나 주변 장치로부터 다운로드될 수 있다.

Claims

텍스트형 메시지를 음악 메시지로 자동 변환하기 위한 컴퓨터에 의해 구현되는 방법에 있어서, 상기 컴퓨터에 의해 구현되는 방법은,
텍스트 입력을 수신하는 단계와,
음악 입력 선택을 수신하는 단계와,
상기 텍스트 입력의 적어도 하나의 텍스트 특성을 결정하도록, 하나 이상의 프로세서를 통해, 상기 텍스트 입력을 분석하는 단계와,
음악 입력의 적어도 하나의 음악 특성을 결정하도록, 음악 입력 선택에 대응하는 음악 입력을, 하나 이상의 프로세서를 통해 분석하는 단계와,
상기 적어도 하나의 텍스트 특성 및 적어도 하나의 음악 특성에 기초하여, 상기 하나 이상의 프로세서를 통해, 합성기 입력을 발생시키도록 상기 텍스트 입력을 음악 입력과 상관시키는 단계와,
상기 합성기 입력을 음성 합성기에 송신하는 단계와,
상기 음성 합성기로부터 상기 텍스트 입력의 음성 렌더링을 수신하는 단계와,
상기 텍스트 입력 및 음악 입력의 음성 렌더링으로부터 음악 메시지를 발생시키는 단계와,
음악 메시지를 출력하는 단계를 포함하는,
컴퓨터에 의해 구현되는 방법.
제 1 항에 있어서,
텍스트 입력을 수신하는 단계는, 디지털 통신 네트워크를 통해 클라이언트 장치로부터 텍스트 입력을 수신하는 단계를 포함하는
컴퓨터에 의해 구현되는 방법.
제 1 항에 있어서,
음악 메시지를 출력하는 단계는 디지털 통신 네트워크를 통해 클라이언트 장치에 음악 메시지를 송신하는 단계를 포함하는
컴퓨터에 의해 구현되는 방법.
제 1 항에 있어서,
텍스트 입력을 음악 입력과 상관시키는 단계는, 상기 하나 이상의 프로세서를 통해, 상기 적어도 하나의 텍스트 특성을 상기 적어도 하나의 음악 특성에 비교하는 단계를 포함하는
컴퓨터에 의해 구현되는 방법.
제 1 항에 있어서,
상기 적어도 하나의 텍스트 특성은 음절 카운트이고, 상기 적어도 하나의 음악 특성은 음표 카운트인
컴퓨터에 의해 구현되는 방법.
제 5 항에 있어서,
텍스트 입력을 음악 입력과 상관시키는 단계는, 음표 차이를 결정하도록 텍스트 입력의 음절 카운트를 음악 입력의 음표 카운트에 비교하는 단계를 포함하는
컴퓨터에 의해 구현되는 방법.
제 6 항에 있어서,
텍스트 입력을 음악 입력과 상관시키는 단계는, 적어도 부분적으로 상기 음표 차이에 기초하여 합성기 입력을 발생시키는 단계를 더 포함하는
컴퓨터에 의해 구현되는 방법.
제 1 항에 있어서,
상기 하나 이상의 프로세서를 통해, 상기 적어도 하나의 텍스트 특성에 기초하여 사용자 구 클래스(phase class)를 결정하는 단계와,
상기 하나 이상의 프로세서를 통해, 상기 적어도 하나의 음악 특성에 기초하여 소스 구 클래스를 결정하는 단계와,
구 차이를 결정하도록 상기 사용자 구 클래스를 상기 소스 구 클래스에 비교하는 단계를 더 포함하는
컴퓨터에 의해 구현되는 방법.
제 8 항에 있어서,
적어도 부분적으로 상기 구 차이에 기초하여 상기 합성기 입력을 발생시키는 단계를 더 포함하는
컴퓨터에 의해 구현되는 방법.
적어도 하나의 프로세서와,
컴퓨터 판독가능 명령어를 저장하는 적어도 하나의 메모리를 포함하는 장치에 있어서, 실행될 때 상기 명령어는,
텍스트 입력을 수신하는 단계와,
음악 입력 선택을 수신하는 단계와,
상기 텍스트 입력의 적어도 하나의 텍스트 특성을 결정하도록, 적어도 하나의 프로세서를 통해, 상기 텍스트 입력을 분석하는 단계와,
음악 입력의 적어도 하나의 음악 특성을 결정하도록, 음악 입력 선택에 대응하는 음악 입력을, 적어도 하나의 프로세서를 통해 분석하는 단계와,
상기 적어도 하나의 텍스트 특성 및 적어도 하나의 음악 특성에 기초하여, 상기 적어도 하나의 프로세서를 통해, 합성기 입력을 발생시키도록 상기 텍스트 입력을 음악 입력과 상관시키는 단계와,
상기 합성기 입력을 음성 합성기에 송신하는 단계와,
상기 음성 합성기로부터 상기 텍스트 입력의 음성 렌더링을 수신하는 단계와,
상기 텍스트 입력 및 음악 입력의 음성 렌더링으로부터 음악 메시지를 발생시키는 단계와,
음악 메시지를 출력하는 단계를 상기 장치로 하여금 수행하게 하는,
장치.
제 10 항에 있어서,
텍스트 입력을 수신하는 단계는, 디지털 통신 네트워크를 통해 클라이언트 장치로부터 텍스트 입력을 수신하는 단계를 더 포함하는
장치.
제 10 항에 있어서,
음악 메시지를 출력하는 단계는, 디지털 통신 네트워크를 통해 클라이언트 장치에 음악 메시지를 송신하는 단계를 더 포함하는
장치.
제 10 항에 있어서,
텍스트 입력을 음악 입력과 상관시키는 단계는, 상기 적어도 하나의 프로세서를 통해, 상기 적어도 하나의 텍스트 특성을 상기 적어도 하나의 음악 특성에 비교하는 단계를 포함하는
장치.
제 10 항에 있어서,
상기 적어도 하나의 텍스트 특성은 음절 카운트이고, 상기 적어도 하나의 음악 특성은 음표 카운트이며, 텍스트 입력을 음악 입력과 상관시키는 단계는, 음표 차이를 결정하도록 텍스트 입력의 음절 카운트를 음악 입력의 음표 카운트에 비교하는 단계를 포함하는
장치.
제 14 항에 있어서,
텍스트 입력을 음악 입력과 상관시키는 단계는, 적어도 부분적으로 음표 차이에 기초하여 합성기 입력을 발생시키는 단계를 더 포함하는
장치.
제 10 항에 있어서,
실행될 때 상기 명령어는,
상기 적어도 하나의 프로세서를 통해, 상기 적어도 하나의 텍스트 특성에 기초하여 사용자 구 클래스를 결정하는 단계와,
상기 적어도 하나의 프로세서를 통해, 상기 적어도 하나의 음악 특성에 기초하여 소스 구 클래스를 결정하는 단계와,
구 차이를 결정하도록 상기 사용자 구 클래스를 상기 소스 구 클래스에 비교하는 단계를 상기 장치로 하여금 또한 수행하게 하는
장치.
명령어를 저장하는 비-일시적 컴퓨터 판독가능 매체에 있어서, 실행될 때 상기 명령어는,
텍스트 입력을 수신하는 단계와,
음악 입력 선택을 수신하는 단계와,
상기 텍스트 입력의 적어도 하나의 텍스트 특성을 결정하도록, 하나 이상의 프로세서를 통해, 상기 텍스트 입력을 분석하는 단계와,
음악 입력의 적어도 하나의 음악 특성을 결정하도록, 음악 입력 선택에 대응하는 음악 입력을, 하나 이상의 프로세서를 통해 분석하는 단계와,
상기 적어도 하나의 텍스트 특성 및 적어도 하나의 음악 특성에 기초하여, 상기 하나 이상의 프로세서를 통해, 합성기 입력을 발생시키도록 상기 텍스트 입력을 음악 입력과 상관시키는 단계와,
상기 합성기 입력을 음성 합성기에 송신하는 단계와,
상기 음성 합성기로부터 상기 텍스트 입력의 음성 렌더링을 수신하는 단계와,
상기 텍스트 입력 및 음악 입력의 음성 렌더링으로부터 음악 메시지를 발생시키는 단계와,
음악 메시지를 출력하는 단계를 장치로 하여금 수행하게 하는,
비-일시적 컴퓨터 판독가능 매체.
제 17 항에 있어서,
텍스트 입력을 수신하는 단계는 디지털 통신 네트워크를 통해 클라이언트 장치로부터 텍스트 입력을 수신하는 단계를 더 포함하고, 음악 메시지를 출력하는 단계는, 디지털 통신 네트워크를 통해 클라이언트 장치에 음악 메시지를 송신하는 단계를 더 포함하는
비-일시적 컴퓨터 판독가능 매체.
제 17 항에 있어서,
상기 적어도 하나의 텍스트 특성은 음절 카운트이고, 상기 적어도 하나의 음악 특성은 음표 카운트이며, 텍스트 입력을 음악 입력과 상관시키는 단계는,
음표 차이를 결정하도록 상기 텍스트 입력의 음절 카운트를 상기 음악 입력의 음표 카운트에 비교하는 단계와,
적어도 부분적으로 상기 음표 차이에 기초하여 상기 합성기 입력을 발생시키는 단계를 포함하는
비-일시적 컴퓨터 판독가능 매체.
제 17 항에 있어서,
실행될 때 상기 명령어는,
상기 하나 이상의 프로세서를 통해, 상기 적어도 하나의 텍스트 특성에 기초하여 사용자 구 클래스를 결정하는 단계와,
상기 하나 이상의 프로세서를 통해, 상기 적어도 하나의 음악 특성에 기초하여 소스 구 클래스를 결정하는 단계와,
구 차이를 결정하도록 상기 사용자 구 클래스를 상기 소스 구 클래스에 비교하는 단계와,
적어도 부분적으로 상기 구 차이에 기초하여 상기 합성기 입력을 발생시키는 단계를 상기 장치로 하여금 또한 수행하게 하는
비-일시적 컴퓨터 판독가능 매체.