KR20140112527A - 오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램 - Google Patents

오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20140112527A
KR20140112527A KR1020147020414A KR20147020414A KR20140112527A KR 20140112527 A KR20140112527 A KR 20140112527A KR 1020147020414 A KR1020147020414 A KR 1020147020414A KR 20147020414 A KR20147020414 A KR 20147020414A KR 20140112527 A KR20140112527 A KR 20140112527A
Authority
KR
South Korea
Prior art keywords
audio signal
audio
image
images
track
Prior art date
Application number
KR1020147020414A
Other languages
English (en)
Inventor
루프 올라비 자비넨
카리 주하니 자비넨
주하 헨릭 아라스부오리
미카 빌러모
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20140112527A publication Critical patent/KR20140112527A/ko

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • G03B31/06Associated working of cameras or projectors with sound-recording or sound-reproducing means in which sound track is associated with successively-shown still pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/21Intermediate information storage
    • H04N1/2104Intermediate information storage for one or a few pictures
    • H04N1/2112Intermediate information storage for one or a few pictures using still video cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32128Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title attached to the image data, e.g. file header, transmitted message header, information on the same page or in the same computer file as the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2101/00Still video cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3215Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of a time or duration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3252Image capture parameters, e.g. resolution, illumination conditions, orientation of the image capture device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3253Position information, e.g. geographical position at time of capture, GPS data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3254Orientation, e.g. landscape or portrait; Location or order of the image data, e.g. in memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals

Abstract

오디오 처리 장치가 제공된다. 이 장치는 각각의 오디오 신호가 이미지 그룹의 각 이미지와 연관되고, 이미지 그룹이 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지가 할당된 시청 시간을 갖는, 오디오 신호 그룹을 획득하고, 할당된 전체 시청 시간을 본질적으로 포함하는 제1 지속기간을 갖는 오디오 트랙의 결정을 위해 오디오 신호들 중 적어도 하나를 분석하여 하나 이상의 중간 오디오 신호를 결정하는 오디오 분석 유닛을 포함한다. 장치는 하나 이상의 중간 오디오 신호에 기초하여 제1 지속기간을 갖는 오디오 트랙을 구성하도록 구성된 오디오 트랙 결정 유닛을 더 포함한다. 장치는 각각의 오디오 신호가 복수개 이미지들의 각 이미지와 연관되는, 복수개 오디오 신호들을 획득하고, 각각의 위치 표시자가 복수개 이미지들의 각 이미지와 연관되는 복수개 위치 표시자들을 획득하고, 이미지 그룹이 그와 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지들을 포함하도록 그룹을 복수개 이미지들의 서브셋으로서 결정하도록 구성된 분류 유닛을 더 포함한다.

Description

오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램{A METHOD, AN APPARATUS AND A COMPUTER PROGRAM FOR DETERMINATION OF AN AUDIO TRACK}
본 발명은 오디오 트랙을 결정 및/또는 구성하기 위한 방법, 장치 및 컴퓨터 프로그램에 관한 것이다. 특히, 본 발명은 (슬라이드 쇼처럼) 사용자에게 연속하여, (파노라마 이미지처럼) 집합 이미지(aggregate image)로 또는 어떤 다른 적절한 방식으로 조합된, 복수개 이미지의 프리젠테이션에 동반하여 사용 가능한 오디오 트랙의 결정, 준비 또는 구성에 관한 것이다.
현대의 이미징 장치, 이를 테면, 디지털 카메라 또는 카메라 모듈을 장비한 디지털 카메라 및 모바일 폰은 자기의 위치를 글로벌 포지셔닝 시스템(GPS)를 이용하여 검출하는 기능을 가질 수 있다. 더욱이, 그러한 장치는 이미지를 캡처할 때 현재 위치를 알아낼 수 있으며 또한 알아낸 현재 위치를 캡처한 이미지와 연관시킬 수 있다. 그러한 장치는 또한 이미지의 캡처 시점에서 오디오 신호를 녹화하고 그 캡처된 오디오 신호를 캡처한 이미지와 함께 저장하는 기능을 가질 수 있다.
본 발명의 제1 양태에 따르면, 장치가 제공되며, 이 장치는 오디오 신호 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하고, 오디오 신호들 중 적어도 하나를 분석하여제1 지속기간 - 제1 지속기간은 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하도록 구성된 오디오 분석 유닛을 포함한다. 장치는 또한 하나 이상의 중간 오디오 신호에 기초하여 제1 지속기간을 갖는 오디오 트랙을 구성하도록 구성된 오디오 트랙 결정 유닛을 포함한다.
장치는 또한 복수개 오디오 신호들 - 각각의 오디오 신호는 복수개 이미지들의 각 이미지와 연관됨 - 을 획득하고, 복수개 위치 표시자들 - 각각의 위치 표시자는 복수개 이미지들의 각 이미지와 연관됨 - 을 획득하고, 이미지 그룹이 그와 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지들을 포함하도록 그룹을 복수개 이미지들의 서브셋으로서 결정하도록 구성된 분류 유닛을 포함한다.
본 발명의 제2 양태에 따르면, 장치가 제공되며, 이 장치는 적어도 하나의 프로세서 및 하나 이상의 프로그램의 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하며, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 적어도 하나의 프로세서를 이용하여, 장치가 적어도, 오디오 신호 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하게 하고, 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하게 하고, 하나 이상의 중간 오디오 신호에 기초하여 제1 지속기간을 갖는 오디오 트랙을 구성하게 하도록 구성된다.
본 발명의 제3 양태에 따르면, 장치가 제공되며, 이 장치는 오디오 신호 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하는 수단과, 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 제1 지속기간은 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하는 수단과, 하나 이상의 중간 오디오 신호에 기초하여 제1 지속기간을 갖는 오디오 트랙을 구성하는 수단을 포함한다.
본 발명의 제4 양태에 따르면, 방법이 제공되며, 이 방법은, 오디오 신호 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하는 단계와, 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 제1 지속기간은 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하는 단계와, 하나 이상의 중간 오디오 신호에 기초하여 제1 지속기간을 갖는 오디오 트랙을 구성하는 단계를 포함한다.
본 발명의 제5 양태에 따르면, 컴퓨터 프로그램이 제공되며, 이 컴퓨터 프로그램은 하나 이상의 명령의 하나 이상의 시퀀스를 포함하며, 하나 이상의 명령은, 하나 이상의 프로세서에 의해 실행될 때, 장치가 적어도, 오디오 신호 그룹 - 각각의 오디오 신호가 이미지 그룹의 각 이미지와 연관되고, 이미지 그룹이 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지가 할당된 시청 시간을 가짐 - 을 획득하게 하고, 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 제1 지속기간은 할당된 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하게 하고, 하나 이상의 중간 오디오 신호에 기초하여 제1 지속기간을 갖는 오디오 트랙을 구성하게 한다.
컴퓨터 프로그램은 휘발성 또는 비휘발성 컴퓨터 판독가능 기록 매체, 예를 들면, 컴퓨터 프로그램 제품으로서 구현될 수 있고, 이 컴퓨터 프로그램 제품은 프로그램 코드가 저장된 적어도 하나의 컴퓨터 판독가능 비휘발성 매체를 포함하고, 이 프로그램은 장치에 의해 실행될 때 장치가 앞에서 기술된 본 발명의 제5 양태에 따른 컴퓨터 프로그램의 동작을 수행하게 한다.
본 발명의 여러 실시예에 따른 방법, 장치 및 컴퓨터 프로그램의 장점은 이들이 복수개 이미지들의 이미지들과 연관된 추가적인 데이터의 한 아이템 또는 아이템들의 분석에 기초하여 복수개 이미지들의 프리젠테이션에 동반하는 오디오 트랙의 유연하고 자동화된 또는 부분적으로 자동화된 구성을 제공한다는 것이다.
본 특허 출원에 제시된 본 발명의 예시적인 실시예는 첨부의 특허청구범위의 적용성에 제한을 두는 것으로 해석되지 않는다. 동사 "포함하는" 및 그의 파생어는 본 특허출원에서 역시 언급되지 않은 특징의 존재를 배제하지 않는 열린 제한(open limitation)으로서 사용된다. 이하에서 기술된 특징은 명백하게 그렇지 않다고 언급하지 않는 한 자유롭게 서로 조합가능하다.
본 발명의 특징으로 간주되는 신규한 특징은 특히 첨부의 특허청구범위에서 서술된다. 그러나, 본 발명의 구성 및 그 동작 방법과 더불어 본 발명의 부가적인 목적 및 장점에 대해 본 발명 자체는 첨부 도면과 함께 읽어볼 때 다음의 특정 실시예들의 상세한 설명으로부터 잘 이해될 것이다.
도 1은 본 발명의 실시예에 따른 오디오 처리 장치를 개략적으로 도시한다.
도 2a는 슬라이드 쇼처럼 오디오 트랙을 동반한 복수의 이미지를 제공하는 기본 아이디어를 개략적으로 도시한다.
도 2b는 집합 이미지의 부분으로서, 오디오 트랙을 동반한 복수의 이미지를 제공하는 기본 아이디어를 개략적으로 도시한다.
도 3은 본 발명의 실시예에 따른 오디오 트랙을 구성하는 예를 개략적으로 도시한다.
도 4는 본 발명의 실시예에 따른 오디오 트랙을 구성하는 예를 개략적으로 도시한다.
도 5는 본 발명의 실시예에 따른 오디오 트랙을 구성하는 예를 개략적으로 도시한다.
도 6은 본 발명의 실시예에 따른 오디오 트랙을 구성하는 예를 개략적으로 도시한다.
도 7는 본 발명의 실시예에 따른 오디오 트랙을 구성하는 예를 개략적으로 도시한다.
도 8은 이미지와 연관된 추가적인 데이터의 개념을 도시한다.
도 9는 사전-녹음 기능(pre-record function) 의 원리를 도시한다.
도 10은 본 발명의 실시예에 따른 방법을 도시한다.
도 11은 본 발명의 실시예에 따른 방법을 도시한다.
도 12는 본 발명의 실시예에 따른 방법을 도시한다.
도 13은 본 발명의 실시예에 따른 방법을 도시한다.
도 14는 본 발명의 실시예에 따른 방법을 도시한다.
도 15는 본 발명의 실시예에 따른 장치를 개략적으로 도시한다.
이미지는 그와 함께 연관된 오디오 신호를 가질 수 있다. 오디오 신호 또한 오디오 클립, 오디오 샘플 등이라고도 지칭될 수도 있다. 오디오 신호는 모노, 스테레오 또는 멀티-채널 오디오 신호일 수 있다. 또한 이미지와 연관된 오디오 신호를 특징으로 하는 추가적인 오디오-관련 정보가 있을 수 있다. 그러한 추가적인 오디오-관련 정보는 예를 들면 적용된 샘플링 주파수에 관한 정보, 채널의 개수에 관한 정보 및/또는 오디오 신호의 채널 구성에 관한 정보를 포함할 수 있다. 다른 예로서, 추가적인 오디오-관련 정보는, 예를 들면, 오디오 신호가 목소리 또는 음성 신호 성분, 음악, 오직 주위 신호 성분, 공간 오디오 신호 성분, 또는 그렇지 않으면 오디오 신호의 형태를 특징으로 하는 정보와 같은 특정 신호 성분을 포함하고 있다는 것을 표시하는, 오디오 신호의 형태의 표시를 포함할 수 있다. 또 다른 예로서, 추가적인 오디오-관련 정보는 지속기간(duration), 즉, 오디오 신호의 시간 길이 및/또는 공간 오디오 신호와 연관된 도달 방향(direction of arrival)을 나타낼 수 있다. 오디오 신호를 특징으로 하는 그러한 추가적인 오디오-관련 정보는 오디오 신호의 사전 분석에 기초하여 결정될 수 있다.
있을 수 있는 추가적인 오디오-관련 정보와 함께 오디오 신호는 오디오 아이템이라고 지칭될 수 있다. 하기에서, 본 발명의 여러 실시예는 이미지와 연관된 오디오 신호를 참조하여 기술된다. 그러나, 이 설명은 이미지와 연관된 오디오 아이템으로 일반화될 수 있고, 그래서 오디오 신호가 오디오 신호/아이템의 분석에서 이용될 수 있는 추가적인 오디오-관련 정보를 동반한다는 것을 직접 시사할 수 있다.
도 1은 본 발명의 실시예에 따른 오디오 처리 장치(10)를 개략적으로 도시한다. 장치(10)는 오디오 분석 유닛(12) 및 그 오디오 분석 유닛(12)에 작동적으로 결합된 오디오 트랙 결정 유닛(14)을 포함한다. 장치(10)는 오디오 분석 유닛(12) 및/또는 오디오 트랙 결정 유닛(14)에 작동적으로 결합된 분류 유닛(16)을 더 포함할 수 있다. 장치(10)는 오디오 분석 유닛(12) 및/또는 오디오 트랙 결정 유닛(14)에 작동적으로 결합된 이미지 분석 유닛(18)을 더 포함할 수 있다. 서로 동작적으로 결합된 유닛들은 이들 사이에서 정보 및/또는 명령을 교환하도록 구성될 수 있으며/있거나 또는 교환하도록 인에이블될 수 있다.
오디오 분석 유닛(12)은 오디오 분석기라고도 지칭될 수 있다. 오디오 트랙 결정 유닛(14)은 오디오 트랙 결정기 또는 오디오 트랙 구성기라고도 지칭될 수 있다. 분류 유닛(16)은 분류기 또는 이미지 분류기라고도 지칭될 수 있다. 이미지 분석 유닛(18)은 이미지 분석기라고도 지칭될 수 있다.
오디오 분석 유닛(12)은 오디오 신호들의 그룹을 획득하도록 구성되며, 이때 각각의 오디오 신호는 이미지들의 그룹의 하나의 이미지와 연관되어 있다. 이미지 그룹은 예를 들면 할당된 전체 시청 시간(assigned overal viewing time)을 갖는 프리젠테이션을 구성하기 위해 제공될 수 있고, 이 때 각각의 이미지는 할당된 시청 시간을 갖는다. 오디오 신호 그룹은 하나 이상의 오디오 신호들을 포함할 수 있다.
오디오 분석 유닛(12)은 또한 희망하는 지속기간을 갖는 오디오 트랙을 결정하기 위해 사용될 수 있는 하나 이상의 중간 오디오 신호(intermediate audio signal)를 결정하기 위하여 오디오 신호 그룹의 오디오 신호들 중 적어도 하나를 분석하도록 구성된다. 오디오 분석 유닛(12)은 또한 하나 이상의 중간 오디오 신호를 오디오 트랙 결정 유닛(14)에 제공하도록 구성될 수 있다.
오디오 트랙 결정 유닛(14)은 오디오 신호 그룹의 오디오 신호들 중 하나 이상의 분석에 기초하여 결정된 하나 이상의 중간 오디오 신호에 기초하여 희망하는 지속기간을 갖는 오디오 트랙을 결정 또는 구성하도록 구성된다. 오디오 트랙은 이미지 그룹의 프리젠테이션을 위해 할당된 전체 시청 시간을 포함하는 또는 본질적으로 포함하는 지속기간을 갖는 것이 바람직하다.
이 문맥에서 '본질적으로 포함한다'라는 용어는 이미지 그룹의 할당된 전체 시청 시간과 같거나 그 보다 긴 지속기간을 갖는 오디오 트랙을 나타내는데 사용된다. 다른 말로 하면, 바람직하게, 이미지 그룹의 할당된 전체 시청 시간보다 짧지 않은 지속기간을 갖는 오디오 트랙이 결정된다.
예로서, 오디오 트랙 결정 유닛(14)은 희망하는 길이의 오디오 트랙을 갖기 위하여, 예를 들면, 중간 오디오 신호들 중 하나 이상을 연쇄(concatenating)시킴으로써 다수의 중간 오디오 신호들에 기초하여 오디오 트랙 또는 그의 일부분을 구성하도록 구성될 수 있다. 다른 예로서, 오디오 트랙 결정 유닛(14)은 희망하는 오디오 신호 특성을 갖는 오디오 트랙을 갖기 위하여 중간 오디오 신호들 중 둘 이상을 혼합함으로써, 예를 들면, 둘 이상의 중간 오디오 신호들의 각 샘플들을 합산 또는 평균함으로써 오디오 트랙 또는 그의 일부분을 구성하도록 구성될 수 있다. 또 다른 예로서, 오디오 트랙 결정 유닛(14)은 희망하는 길이의 오디오 트랙을 갖기 위하여 중간 오디오 신호를 반복 및/또는 부분적으로 반복함으로써, 예를 들면, "반복실행(looping)"함으로써 오디오 트랙 또는 그의 일부분을 구성하도록 구성될 수 있거나, 또는 희망하는 오디오 특성을 갖기 위해 중간 오디오 신호의 신호 레벨을 조절함으로써 오디오 트랙 또는 그의 일부분을 구성하도록 구성될 수 있다.
장치(10)는 프로세서, 메모리, 사용자 인터페이스, 통신 인터페이스 등과 같은 컴포넌트들을 더 포함할 수 있다.
오디오 분석 유닛(12)은, 예를 들면, 장치(10)의 메모리로부터 오디오 신호를 읽어 들임으로써 또는 통신 인터페이스를 통해 다른 장치로부터 오디오 신호를 수신함으로써 오디오 신호를 획득하도록 구성될 수 있다.
오디오 분석 유닛(12) 및/또는 오디오 트랙 결정 유닛(14)은 이미지 그룹의 이미지들마다 할당된 시청 시간을 획득하도록 추가 구성될 수 있다. 특히, 오디오 분석 유닛(12) 또는 오디오 트랙 결정 유닛(14)은, 예를 들면, 각각의 할당된 시청 시간을 장치(10)의 메모리로부터 읽어들임으로써 또는 각각의 할당된 시청 시간을 통신 인터페이스를 통해 다른 장치로부터 수신함으로써 이미지 그룹의 이미지마다여 할당된 시청 시간을 획득하도록 구성될 수 있다. 다른 예로서, 각각의 할당된 시청 시간은 사용자 인터페이스를 통한 사용자로부터의 입력으로서 수신될 수 있다. 주어진 이미지에 대해 할당된 시청 시간을 결정함으로써 각각의 할당된 시청 시간은 주어진 이미지와 연관된 오디오 신호의 지속기간, 즉, 시간 길이와 같아지도록 결정될 수 있다. 또 다른 예로서, 오디오 분석 유닛(12) 또는 오디오 트랙 결정 유닛(14)은 이미지 그룹의 할당된 전체 시청 시간을 기초로 하여 할당된 시청 시간을, 예를 들어, 할당된 전체 시청 시간을 이미지 그룹 내 이미지들의 개수로 나눈 것으로서 결정함으로써 이미지 그룹마다 할당된 전체 시청 시간 및 주어진 이미지마다 할당된 시청 시간을 획득하도록 구성될 수 있다.
할당된 시청 시간은 또한 할당된 디스플레이 시간, 할당된 프리젠테이션 시간 등이라고도 지칭될 수 있다. 할당된 시청 시간은 이미지 그룹의 할당된 전체 시청 시간에 관하여 이미지의 시간적 위치를 결정한다. 주어진 이미지에 대한 할당된 시청 시간은 기준 시점에 대하여 할당된 시작과 종료 시간을 결정한다. 대안으로, 주어진 이미지마다 할당된 시청 시간은 주어진 이미지마다 할당된 시청 지속기간과 더불어 기준 시점에 대하여 주어진 이미지를 상연하기 위한 할당된 시작 시간을 결정할 수 있다. 기준 시점은 예를 들면 이미지 그룹의 시청/디스플레이/상연의 시작, 예를 들면, 이미지 그룹의 첫 이미지의 시청 시작일 수 있다.
오디오 분석 유닛(12) 및/또는 오디오 트랙 결정 유닛(14)은 또한 이미지 그룹의 할당된 전체 시청 시간을 획득 또는 결정하도록 구성될 수 있다. 예로서, 이미지 그룹의 할당된 전체 시청 시간은 이미지 그룹의 이미지들의 할당된 시청 시간의 합으로서 결정될 수 있다. 다른 예로서, 이미지 그룹마다 할당된 전체 시청 시간은 이미지 그룹 내 이미지들의 개수에 기초하여, 예를 들면, 이미지 그룹 내 각 이미지마다 기 설정된 동일한 시청 시간을 할당함으로써 결정될 수 있다. 또 다른 예로서, 할당된 전체 시청 시간은 사용자 인터페이스로부터 수신된 사용자의 입력에 기초하여 결정될 수 있다.
이미지 그룹의 이미지들은, 예를 들면, 사진, 그림, 그래프, 컴퓨터 구성 이미지 등일 수 있다. 이미지 그룹의 일부 또는 모든 이미지는 비디오 시퀀스로부터 유래할 수 있거나 비디오 시퀀스로 배열될 수 있으며, 그럼으로써 어쩌면 이미지 그룹 내의 이미지들의 시퀀스를 구성할 수 있다. 특히 그러한 이미지 시퀀스를 포함하는 이미지 그룹은 시네마그래프를 상연할 수 있다.
결정된 오디오 트랙은 이미지 그룹의 프리젠테이션을 동반하도록 배열될 수 있다. 이미지들은 이미지들의 개수에 기초하여 구성된 집합 이미지(aggregate image)의 부분으로서 사용자에게, 예를 들면, 슬라이드 쇼처럼 상연될 수 있다. 집합 이미지의 예는 파노라마 이미지이다.
여기서 슬라이드 쇼란 복수의 이미지를 연속하여, 예를 들면, 하나씩 상연하는 것을 말한다. 슬라이드 쇼에서 상연된 각각의 이미지는 할당된 시청 시간이라고 불리는 기 설정된 기간 동안 상연될 수 있다. 주어진 이미지마다 할당된 시청 시간은 각 이미지마다 같은 또는 실질적으로 같은 일정한 기간으로서 설정될 수 있다. 대안으로, 할당된 시청 시간은 이미지마다 다를 수 있다. 더욱이 프리젠테이션은 할당된 전체 시청 시간을 가질 수 있다.
도 2a는 오디오 트랙을 동반한 다수의 이미지, 예를 들면 이미지 A, B 및 C를 슬라이드 쇼처럼 상연하는 기본 아이디어의 예를 도시한다. 다수의 이미지들의 할당된 전체 시청 시간은 tA부터 tE까지의 시간을 포함한다. 도 2a는 또한 다수의 이미지들의 할당된 전체 시청 시간을 포함하기도 하는 오디오 트랙을 도시한다. 이미지 A는 tA에서 시작하여 tB까지 상연되는데, 이 지속기간은 이미지 A의 할당된 시청 시간을 포함하고, 이와 동일한 기간이 또한 오디오 트랙의 부분 A에 의해서 포함되기도 한다. 이미지 B는 tB에서 시작하여 tC 까지 상연되고, 그래서 이미지들 B 및 C 각자의 할당된 시청 시간을 포함한다. 이미지들 B 및 C의 할당된 시청 시간은 각기 오디오 트랙의 부분들 B 및 C에 의해 포함된다.
다수의 이미지들 또는 그의 서브셋이 시네마그래프를 상연하는 경우, 이미지들은 슬라이드 쇼처럼 상연된 다수의 이미지들에 대하여 앞에서 기술한 바와 유사한 방식으로 상연될 수 있다. 다수의 이미지들이 이미지들의 비디오 시퀀스를 구성하는 이미지 시퀀스를 포함하는 경우, 비디오 시퀀스의 각 이미지마다 전용으로 할당된 시청 시간이 있을 수 있거나, 또는 비디오 시퀀스마다 단일의 할당된 시청 시간이 있을 수 있다.
집합 이미지는 둘 이상의 이미지들의 조합으로서 구성될 수 있으며, 그럼으로써 더 큰 복합 이미지(composition image)를 형성할 수 있다. 집합 이미지의 특정 예는 파노라마 이미지이다. 파노라마 이미지는 전형적으로 파노라마 이미지로 조합될 이미지들이 동일한 또는 본질적으로 동일한 위치로부터 둘 이상의 상이한 방향으로 다른 모습을 상연하는 것을 필요로 한다. 파노라마 이미지는 그러한 이미지들에 기초하여 인접한 방향에서 보이는 이미지들의 에지 영역에서 일치하는 패턴(matching pattern)을 찾기 위하여 이미지를 처리 또는 분석하고 이들 이미지들을 조합하여 두 인접 방향을 표현하는 일정하게 조합된 이미지를 형성함으로써 구성될 수 있다. 이미지들을 조합하는 프로세스는 두 인접 방향을 나타내는 이미지들 중 하나 또는 둘다의 에지 영역에서 중첩하는 부분을 제거하는 과정을 포함할 수 있다. 집합 이미지는 주어진 기간 동안 집단 이미지의 일부분이 보이도록 사용자에게 제공될 수 있고, 이때 지금 사용자에게 보여진 집단 이미지의 일부분은 기 설정된 패턴에 따라서 변동된다.
도 2b는 오디오 트랙을 동반한, 집단 이미지의 부분으로서 다수의 이미지, 예를 들면, 이미지 A, B 및 C를 상연하는 기본 아이디어의 예를 도시한다. 이미지 A, B 및 C는 이미지 부분 A', B'및 C'를 갖는 집합 이미지로 조합된다. 이미지 부분 A', B'및 C'에 의해 형성된 다수의 이미지의 할당된 전체 시청 시간은 tA부터 tE까지를 포함한다. 이미지 부분 A'는 tA에서 시작하여 tB까지 상연되는데, 이 지속기간은 또한 이미지 부분 A'의 할당된 시청 시간을 포함하고, 이와 동일한 기간이 또한 오디오 트랙의 부분 A에 의해 포함되기도 한다. 이미지 부분 B'는 tB에서 시작하여 tC까지 상연되며, 이미지 부분 C'는 tC에서 시작하여 tE까지 상연되며, 그래서 이미지 부분 B' 및 C' 각자의 할당된 시청 시간을 포함한다. 이미지 B' 및 C'의 할당된 시청 시간은 각기 오디오 트랙의 부분 B 및 C에 의해 포함된다.
바람직하게 오디오 트랙은 프리젠테이션을 형성하는 다수의 이미지들의 할당된 전체 시청 시간과 동일한 또는 실질적으로 동일한 지속기간을 갖는다. 오디오 트랙은 암시적으로 또는 명시적으로 다수의 부분들을 포함하되, 각각의 부분은 이미지들 중 주어진 이미지의 할당된 시청 시간에 맞추어 일시 조정되며, 따라서 주어진 이미지의 할당된 시청 시간과 동시에 또는 본질적으로 동시에 재생을 위해 배열된다.
오디오 트랙 결정 유닛(14)은 또한 이미지 그룹 및 결정된 오디오 트랙을 이미지 그룹의 프리젠테이션에다 배열하도록 구성된다. 프리젠테이션은 예를 들면 슬라이드 쇼로서 또는 파노라마 이미지와 같은 집합 이미지의 프리젠테이션으로서 배열될 수 있다.
프리젠테이션은 예를 들면 마이크로소프트 파워포인트 프리젠테이션 또는 대응하는 프리젠테이션 소프트웨어/구성을 이용하는 프리젠테이션 내에 배열될 수 있다. 프리젠테이션에 적용가능한 포맷의 다른 예는 MPEG-4, 아도브 플래시 등이나 오디오 및 이미지/비디오의 동기화된 프리젠테이션을 가능하게 해주는 모든 다른 멀티미디어 포맷을 포함한다. 또한, 이미지 및 오디오 트랙은 예를 들면, 이미지를 상연하도록 구성되며 웹 페이지를 액세스하는 사용자에게 오디오를 재생하도록 구성된 웹 페이지로서 배열될 수 있다.
이미지는 그와 연관된 위치 표시자를 가질 수 있다. 위치 표시자는 또한 위치 정보, 위치 식별자 등이라고도 지칭될 수 있다. 위치 표시자는 이미지와 연관된 위치를 결정하는 정보를 포함할 수 있다. 예를 들면, 사진의 경우, 위치 표시자는 이미지가 캡처된 장소를 표시하는 정보를 포함할 수 있거나 또는 그렇지 않으면 이미지와 연관된 장소를 표시하는 정보를 포함할 수 있다. 위치 표시자는 글로벌 포지셔닝 시스템(GPS) 좌표와 같은 위성 기반 위치인식 시스템 좌표에 기초하여, 지리적 좌표(각도, 분, 초), 기 설정된 기준 위치로의 방향 및 그로부터의 거리로서 제공될 수 있다.
본 발명의 실시예에 따르면, 장치(10)는 분류 유닛(16)을 포함할 수 있다. 분류 유닛(16)은 다수의 오디오 신호를 획득하도록 구성되며, 여기서 각각의 오디오 신호는 다수의 이미지들 중 한 이미지와 연관된다. 다수의 이미지들의 이미지들과 연관된 오디오 신호는 아래에 기술된 바와 같이 획득될 수 있다.
분류 유닛(16)은 또한 다수의 위치 표시자를 획득하도록 구성될 수 있으며, 여기서 각각의 위치 표시자는 다수의 이미지 중 하나의 이미지와 연관된다. 위치 표시자는 이미지와 연관된 위치를 표시할 수 있으며, 위치 표시자는 GPS 좌표, 지리적 좌표, 기 설정된 기준 위치로부터의 거리 및 그 위치로의 방향을 나타내는 정보 등을 포함할 수 있다.
분류 유닛(16)은 또한 제1 이미지 그룹이 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지를 포함하도록 제1 이미지 그룹을 다수 이미지들의 서브셋으로서 결정하도록 구성된다.
다수 이미지들의 이미지들과 연관된 위치 표시자는 다수의 이미지들을 하나 이상의 이미지 그룹으로 나누거나 할당하는데 사용될 수 있다. 예로서, 위치 표시자가 그와 연관된 제1 위치를 참조하는 이미지들은 제1 이미지 그룹으로 할당되는데, 이때 이미지와 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지들은 제2 그룹으로 할당된다. 그 결과, 이미지 그룹의 프리젠테이션에 동반하는 오디오 트랙은 각 이미지 그룹 별로 별도로 결정 및/또는 구성될 수 있으며, 결과적인 오디오 트랙은 다수의 이미지들의 프리젠테이션에 동반하는 복합 오디오 트랙(composition audio track)으로 조합, 예를 들면, 연쇄될 수 있다.
예로서, 위치 표시자는 만일 이 표시자가 소정 위치와 연관된 기준 위치로부터 사전에 규정된 최대 거리 내에 있는 위치를 표시한다면 그 소정 위치를 참조하는 것이라 볼 수 있다. 다른 예로서, 위치 표시자는 만일 이 표시자가 소정 위치와 연관된 기준 영역 내에 있는 위치를 표시한다면 그 소정 위치를 참조하는 것이라 볼 수 있다. 기준 영역은 예를 들면, 다수의 기준 위치 또는 기준 지점으로 규정될 수 있다. 기준 위치 또는 기준 영역은 기 설정된 것일 수 있거나, 또는 복수의 이미지들 중 하나 이상의 이미지들과 연관된 위치 정보에 기초하여 결정될 수 있다.
이미지는 그와 연관된 시간 표시자를 가질 수 있다. 이미지와 연관된 시간 표시자는 예를 들면 이미지와 연관된 시각 및 날짜를 표시할 수 있다. 이미지와 연관된 시간 표시자는 예를 들면 사진을 찍은 시간 및 날짜를 표시할 수 있고, 아니면 시간 표시자는 이미지와 연관된 시간 및 날짜를 표시할 수 있다.
본 발명의 실시예에 따르면, 분류 유닛(16)은 복수의 시간 표시자를 획득하도록 구성될 수 있는데, 각각의 시간 표시자는 복수의 이미지들의 하나의 이미지와 연관된다. 시간 표시자는 이미지와 연관된 시간 및 날짜를 표시할 수 있고, 분류 유닛(16)은 또한 제1 이미지 그룹이 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지를 포함하도록 제1 이미지 그룹을 다수 이미지들의 서브셋으로서 결정하도록 구성된다. 더욱이, 시간 표시자는 위치 표시자 기반 그룹핑에 대하여 앞에서 설명된 바와 같이 복수의 이미지들의 이미지들을 유사한 라인들을 따라서 놓인 다수의 그룹들에 할당하도록 사용될 수 있다.
대안의 그룹핑 구성으로서, 분류 유닛(16)은, 예를 들면, 제1 위치를 참조하는 위치 표시자 및 이와 연관된 제1 기간을 참조하는 시간 표시자를 갖는 이미지들이 제1 그룹에 할당되는 방식으로, 연관된 위치 표시자 및 연관된 시간 표시자에 기초하여 이미지들의 그룹핑을 수행하도록 구성될 수 있다. 상응하게, 제2 위치를 참조하는 위치 표시자 및 이와 연관된 제2 기간을 참조하는 시간 표시자를 갖는 이미지들은 제2 그룹에 할당된다 등등.
본 발명의 실시예에 따르면, 오디오 분석 유닛(12)은 이미지 그룹의 각 이미지마다, 각각의 중간 오디오 신호의 결정을 위해 그와 연관된 오디오 신호의 세그먼트를 결정하도록 구성될 수 있다. 오디오 분석 유닛(12)은 또한 이미지 그룹의 각 이미지 마다, 그와 연관된 오디오 신호의 결정된 세그먼트에 기초하여 각 이미지의 할당된 시청 시간과 일치하는 또는 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하도록 구성될 수 있다. 더욱이, 오디오 트랙 결정 유닛(14)은 상기 중간 오디오 신호의 연쇄로서 오디오 트랙을 구성하여 이미지 그룹의 할당된 전체 시청 시간을 포함하는 또는 본질적으로 포함하는 지속기간을 갖는 오디오 트랙을 형성하도록 구성될 수 있다.
그러므로, 오디오 분석 유닛(12)은, 이미지 그룹의 각 이미지 마다, 각 이미지와 연관된 오디오 신호에 기초하여 각 이미지의 시청 시간에 맞추어 일시 조정된 오디오 트랙의 일부분을 결정하도록 구성될 수 있으며, 오디오 트랙 결정 유닛(14)은 오디오 트랙의 부분들을 희망하는 지속기간을 갖는 단일 오디오 트랙으로 연쇄하도록 구성될 수 있다. 그러한 오디오 트랙의 결정의 일반 원리는 도 3에 예시된다.
이미지와 연관된 오디오 신호의 세그먼트의 결정 및/또는 그 세그먼트에 기초하여 중간 오디오 신호의 결정은, 예를 들면, 오디오 신호의 지속기간 및 그 오디오 신호 내 신호 레벨에 대해 오디오 신호의 분석을 포함할 수 있다. 대안으로 또는 부가적으로, 분석은 이미지와 연관된 추가적인 오디오-관련 정보의 분석을 포함할 수 있다.
이미지 그룹 중 주어진 이미지에 대응하는 중간 오디오 신호는 그 주어진 이미지와 연관된 오디오 신호의 기 설정된 부분으로서, 예를 들면, 오디오 신호의 시초에 희망하는 지속기간의 일부분으로서 결정될 수 있다. 오디오 신호의 지속시간이 주어진 이미지의 할당된 시청 시간보다 짧은 경우, 각각의 중간 오디오 신호는 예를 들면 주어진 이미지의 할당된 시청 시간과 일치하는 또는 본질적으로 일치하는 지속기간에 이르기 위해 반복된 및/또는 부분적으로 반복된 오디오 신호로서 결정될 수 있다.
대안으로, 이미지 그룹의 주어진 이미지에 대응하는 중간 오디오 신호는 주어진 이미지와 연관된 오디오 신호의 기 설정된 부분 또는 그의 세그먼트를 변경함으로써 결정될 수 있다. 그러한 변경은 중간 오디오 신호가 희망하는 전체 신호 레벨을 갖도록 하기 위해, 예를 들면, 오디오 신호의 일부분의 신호 레벨 조정을 포함할 수 있다. 다른 예로서, 그러한 변경은 오디오 트랙의 인접한 부분들 간의 원하는 특성의 크로스-페이딩(cross-fading)을 구현하기 위하여, 예를 들면, 주어진 이미지와 연관된 오디오 신호의 일부분의 선택된 세그먼트의 신호 레벨 조정을 포함할 수 있다.
본 발명의 실시예에 따르면, 오디오 분석 유닛(12)은 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하기 위해 오디오 신호들 중 적어도 하나의 신호를 분석하도록 구성될 수 있다. 오디오 분석 유닛(12)은 또한 주어진 이미지와 연관된 오디오 신호가 특정 오디오 성분을 포함한다고 결정한 것에 대한 응답으로, 주어진 이미지의 할당된 시청 시간과 일치하는 또는 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하도록 구성될 수 있다. 그러므로 중간 오디오 신호는 주어진 이미지에 대응하며, 중간 오디오 신호는 적어도 부분적으로는 주어진 이미지와 연관된 오디오 신호에서 식별된 특정 오디오 성분에 기초하여 결정될 수 있다. 이러한 결정은 식별된 특정 오디오 성분을 그 오디오 신호로부터 추출하는 것, 예를 들면, 복사하는 것을 포함할 수 있다. 더욱이, 오디오 트랙 결정 유닛(14)은 적어도 부분적으로 중간 오디오 신호에 기초하여 주어진 이미지의 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분을 구성하도록 구성될 수 있다.
그러므로, 이미지 그룹의 주어진 이미지와 연관된 오디오 신호에서 식별된 특정 오디오 신호 성분은 오디오 트랙의 결정 시, 특히 주어진 이미지의 할당된 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분의 결정 시, 사용될 주어진 이미지와 연관된 오디오 신호의 일부분으로서 사용될 수 있다.
주어진 이미지에 대응하는 중간 오디오 신호는, 원하는 (시간) 길이, 즉, 희망하는 지속기간을 갖는 중간 오디오 신호를 결정하기 위하여, 이와 같은 기 설정된 오디오 신호로서 또는 신호들에 조합된 특정 오디오 신호 성분으로서 결정될 수 있다. 조합은, 희망하는 지속기간의 신호를 갖도록 하기 위하여, 예를 들면, 특정 오디오 신호 성분을 기 설정된 오디오 신호와 혼합하는 것 또는 특정 오디오 신호 성분을 하나 이상의 기 설정된 오디오 신호(의 카피)와 연쇄시키는 것을 포함할 수 있다.
적어도 부분적으로 특정 오디오 신호 성분에 기초한 오디오 트랙의 일부분을 구성하는 예가 도 4에서 제공된다.
특정 오디오 신호 성분은, 예를 들면, 사람에게서 유래하는 목소리(또는 음성) 신호 성분, 음악, 동물에서 유래하는 소리, 기계로부터 유래하는 소리, 또는 기 설정된 특성을 가진 모든 특정 오디오 신호 성분일 수 있다. 특히, 특정 오디오 신호 성분은 공간 오디오 신호를 포함할 수 있고, 그래서 그와 연관된 인식 가능한 도달 방향을 가질 수 있다. 공간 오디오 신호의 인식 가능한 도달 방향은 둘 이상의 오디오 신호에 기초하여 또는 두 귀의 시간 차(들)(interaural time difference(s)) 및/또는 스테레오 또는 멀티-채널 오디오 신호의 채널들 사이에서 두 귀의 시간 차(들)의 분석을 통한 스테레오 또는 멀티-채널 오디오 신호에 기초하여 결정할 수 있다.
예로서, 오디오 신호가 특정 신호 성분을 포함하는지를 결정하는 오디오 신호의 분석은 오디오 신호가 목소리 또는 음성 신호 성분을 포함하는지를 결정하는 것을 포함할 수 있다. 그러한 분석은 실제로 목소리 또는 음성 신호를 해석 또는 인식하도록 구성된 음성 인식 기술을 활용하는 것을 포함할 수 있으나, 이 기술은 그 부수 작용으로서 목소리 또는 음성 신호 성분의 존재를 검출하는 데에도 사용될 수 있다. 대안으로 또는 부가적으로, 예를 들면, 주로 통신에서 사용된 음성 활성도 검출 기술(voice activity detection techniques)은 오디오 신호의 일부분이 목소리 또는 음성 성분을 포함하는지를 결정할 수 있게 해주며, 그래서 이 기술은 오디오 신호에서 목소리 또는 음성 신호 성분의 존재를 결정하는 분석 툴의 또 다른 예를 제공할 수 있다.
음성 신호 분석의 또 다른 예는, 앞에서 이미 언급한 바와 같이, 공간 오디오 신호의 존재 및/또는 그의 인식 가능한 도달 방향을 결정하는 것이다. 예로서, 채널들 간의 레벨 및/또는 시간 차에 대해 두 채널 또는 멀티-채널 오디오 신호의 채널들의 분석은 인식 가능한 도달 방향 및 이런 이유로 하여 공간 오디오 신호 성분의 존재에 관한 표시의 결정을 가능하게 해줄 수 있으며, 반면에 인식 가능한 도달 방향이 충분히 신뢰할만한 방식으로 결정될 가능성이 없다는 표시는 특정 오디오 신호 성분의 부재를 나타낼 수 있다.
이미지는 이와 연관된 이미지 모드 데이터를 추가로 가질 수 있다. 예로서, 이미지 모드 데이터는 이미지의 포맷, 예를 들면, 이미지가 세로방향 포맷(portrait format)으로 되어 있는지, 즉 이미지가 그의 높이보다 폭이 더 작은지, 또는 가로방향 포맷(landscape format)인지, 즉, 이미지가 그의 높이 보다 폭이 더 큰지를 나타내는 정보를 포함할 수 있다. 다른 예로서, 특히 사진의 경우, 이미지 모드 데이터는 이미지를 캡처하는데 사용된 카메라의 동작 모드(즉, 캡처 모드, 슈팅 모드, 프로파일 등)을 표시하는 정보를 포함할 수 있다. 그러한 동작 모드는, 예를 들면, "세로방향", "인물", "경치", "스포츠", "파티", "아웃도어" 등일 수 있고, 그러므로 아마도 이미지에 의해 표현된 주체에 관한 표시를 제공할 수 있다.
본 발명의 실시예에 따르면, 오디오 분석 유닛(12)은 적어도 부분적으로 이미지와 연관된 이미지 모드 데이터에 기초하여 특정 오디오 신호 성분의 존재를 결정하기 위한 분석을 수행하도록 구성될 수 있다. 예로서, 이미지 포맷으로서 세로방향 포맷을 표시하거나 동작 모드로서 예를 들면, "세로방향", "인물" 등을 표시하는 이미지 모드 데이터는 주어진 이미지와 연관된 신호가 특정 오디오 신호 성분, 이를 테면, 목소리 또는 음성 신호 성분 또는 공간 오디오 신호를 포함할 수 있다는 표시자로서 사용될 수 있다. 그 결과, 본 발명의 실시예에 따르면, 특정 오디오 신호 성분의 존재를 결정하기 위해서는 그러한 이미지와 연관된 오디오 신호만이 분석을 받을 수 있다. 대안으로, 오디오 분석 유닛(12)은 오디오 신호가 오디오 신호 그룹의 모든 오디오 신호에 대해 또는 오디오 신호 그룹의 기 설정된 서브셋에 대해 특정 오디오 신호를 포함하는지를 결정하는 분석을 수행하도록 구성될 수 있다.
본 발명의 실시예에 따르면, 장치(10)는 이미지 분석 유닛(18)을 포함한다. 이미지 분석 유닛(18)은, 주어진 이미지와 연관된 오디오 신호가 특정 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 주어진 이미지를 분석하여 주어진 이미지 내 특정 주체의 존재 및 위치를 결정하도록 구성될 수 있다. 또한, 오디오 트랙 결정 유닛(12)은, 주어진 이미지 내 특정 주체의 존재를 결정한 것에 대한 응답으로, 특정 오디오 신호 성분에 기초하여, 중간 오디오 신호가 주어진 이미지 내 특정 주체의 결정된 위치에 대응하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호로서 또는 주어진 이미지 내 특정 주체의 결정된 위치에 대응하는 인식 가능한 도달 방향을 갖는 공간 오디오 성분을 포함하는 (일시적인) 부분을 구비하는 신호로서 제공되도록 중간 오디오 신호를 구성하도록 구성될 수 있다.
다시 말해서, 인식 가능한 도달 방향을 갖는 특정 오디오 신호는 연관된 특정 오디오 신호 성분을 포함하는 오디오 신호를 갖는 그리고 이미지 데이터에서 식별된 특정 주체를 갖는 이미지의 할당된 시청 시간에 맞추어 일시 조정된 오디오 트랙의 일부분에 대해 생성될 수 있다. 공간 오디오 신호의 생성은 오디오 이미지, 즉, 특정 오디오 신호 성분을 이미 포함하고 있는 오디오 신호의 인식 가능한 도달 방향을 변경하는 것 또는 공간 오디오 신호 성분을 도입하기 위해 비-공간 오디오 신호를 변경하는 것을 포함할 수 있다. 전자의 것은 둘 이상의 오디오 채널을 단일 채널 오디오 신호에 추가하고 그 오디오 채널을 처리하여 두 귀의 시간 차(들) 및/또는 원하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호에 대응하는 두 귀의 시간 차(들)를 갖게 하는 것을 포함할 수 있다. 후자는 오디오 신호의 채널들을 변경/처리하여 두 귀의 시간 차(들) 및/또는 원하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호에 대응하는 두 귀의 시간 차(들)를 갖게 하는 것을 포함할 수 있다. 그러한 처리/변경은 오디오 신호에 전체로서 적용될 수 있거나 또는 주어진 이미지 내 특정 주체와 연관된 특정 오디오 신호 성분을 포함하는 오디오 신호의 부분(들)에만 적용될 수 있다.
식별될 특정 주체는, 예를 들면, 사람 또는 그의 부분, 특히, 사람 얼굴일 수 있다. 그래서, 주어진 이미지의 데이터는, 예를 들면, 사람 얼굴, 사람 몸의 형상, 동물의 형상 또는 기 설정된 특성을 갖는 모든 적절한 형상을 검출하도록 구성된 적절한 패턴 인식 알고리즘을 이용하여 분석될 수 있다. 또한, 주어진 이미지 내 특정 주체의 위치는 인식 가능한 도달 방향을 갖고 주어진 이미지 내 특정 주체의 위치와 일치하는 또는 본질적으로 일치하는 공간 오디오 신호를 결정 및/또는 준비할 수 있게 해주기 위해 결정되기도 한다. 특정 주체의 존재 및/또는 위치는 각각의 이미지와 연관된 추가적인 데이터로서 저장되거나 제공될 수 있다.
본 발명의 실시예에 따르면, 오디오 분석 유닛(12)은 이미지 그룹의 이미지들과 연관된 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 이미지 성분을 포함하는지를 결정하도록 구성될 수 있다. 특히, 오디오 분석 유닛(12)은 오디오 신호 또는 그의 일부분이 특정 오디오 신호 성분 없이 주변 신호 성분만을 포함하는지를 결정하도록 구성될 수 있다. 이 결정은 주변 신호 성분을 또한 주변 트랙의 생성을 위해 사용될 오디오 신호로부터 추출, 예를 들면, 복사하는 것을 더 포함할 수 있다.
오디오 분석 유닛(12)은 또한, 주어진 오디오 신호가 주변 신호 성분을 포함한다고 결정한 것에 응답하여, 이미지 그룹의 할당된 전체 시청 시간을 포함하는 또는 본질적으로 포함하는 지속기간을 갖는 엠비언스 트랙(ambiance track)을 결정 또는 구성하도록 구성될 수 있다. 엠비언스 트랙은 주변 신호 성분에 기초하여 결정될 수 있다. 오디오 분석 유닛(12)은 주변 신호 성분을 추출, 예를 들면, 복사하도록 및/또는 주변 신호 성분을 오디오 트랙 결정 유닛(14)에 제공하도록 구성될 수 있다. 더욱이, 오디오 트랙 결정 유닛(14)은 엠비언스 트랙 및 하나 이상의 중간 오디오 신호에 기초하여 오디오 트랙을 구성하도록 구성될 수 있다. 엠비언스 트랙은 오디오 트랙의 결정을 위한 중간 오디오 신호라고 간주될 수 있다.
엠비언스 트랙이 이용가능한 오직 중간 오디오 신호일 뿐인 경우, 오디오 트랙은 엠비언스 트랙 단독에 기초하여 구성될 수 있다. 그러한 경우, 오디오 트랙은, 예를 들면, 엠비언스 트랙의 카피로서 또는 엠비언스 트랙의 변경으로서 구성될 수 있다. 그러한 변경은 엠비언스 트랙 또는 그의 일부분의 신호 레벨 조정을 포함할 수 있다.
엠비언스 트랙의 구성은 엠비언스 트랙을 하나 이상의 (다른) 중간 오디오 신호에 조합하는 것을 포함할 수 있다. 특히 오디오 트랙의 구성은 특정 오디오 신호 성분에 기초하여 결정된 중간 오디오 신호가 주어진 이미지의 할당된 시청 시간에 맞추어 일시 조정되도록 주어진 이미지와 연관된 오디오 신호에서 식별된 특정 오디오 신호 성분에 기초하여 결정된 중간 오디오 신호와 엠비언스 트랙을 혼합하는 것을 포함할 수 있다. 그 결과, 엠비언스 트랙으로부터 유래하는 신호 성분이 이미지 그룹의 할당된 전체 시청 시간 및 그로 인한 오디오 트랙의 지속기간을 포함하거나 본질적으로 포함하지만, 주어진 이미지와 연관된 오디오 신호에서 식별된 특정 오디오 신호 성분에 기초하여 결정된 중간 오디오 신호는 엠비언스 트랙의 일시 위치에서, 그리고 이로 인해 주어진 이미지의 할당된 시청 시간에 맞추어 일시 조절된 오디오 트랙의 일시 위치에서 혼합된다. 오디오 트랙을 이런 방식으로 구성하는 일반적인 원리는 도 5에서 제공된다.
본 발명의 실시예에 따르면, 이미지 그룹의 첫 이미지와 연관된 오디오 신호에 기초한 엠비언스 신호의 결정은 상기 주어진 첫 이미지 또는 그의 일부분과 연관된 오디오 신호에 기초하여 엠비언스 신호를 결정하는 것을 포함할 수 있다. 특히, 이러한 결정은 제1 이미지와 연관된 오디오 신호가 특정 신호 성분 없이 단지 주변 신호 성분만을 포함한다거나 오디오 신호의 적어도 일부분이 특정 신호 성분 없이 단지 주변 신호 성분만을 포함한다고 결정하는 것을 포함할 수 있다.
주변 신호 성분에 기초한 엠비언스 트랙의 결정은, 예를 들면, 주변 신호 성분 중 선택된 부분과 같이 주변 신호 성분을 이용하는 것, 예를 들면, 추출 또는 카피하는 것을 포함할 수 있고, 또는 엠비언스 트랙은 전체적으로 주변 신호 성분으로서 또는 엠비언스 트랙의 원하는 지속기간을 포함하기 위해 반복된 또는 부분적으로 반복된 그의 선택된 부분으로서 결정될 수 있다. 엠비언스 트랙을 결정 또는 구성하는 원리에 관한 예는 도 6에서 예시된다.
본 발명의 실시예에 따르면, 오디오 분석 유닛(12)은, 제2의 주어진 오디오 신호가 제2의 주변 신호 성분을 포함한다고 결정한 것에 응답하여, 상기 제2의 주변 신호 성분에 또한 기초하여 이미지 그룹의 할당된 전체 시청 시간을 포함하는 또는 본질적으로 포함하는 지속기간을 갖는 엠비언스 트랙을 결정 또는 구성하도록 구성된다.
그러므로 엠비언스 트랙의 결정 또는 구성은 두 가지, 즉, 제1 및 제2 주변 신호 성분에 기초하여 수행될 수 있다. 이러한 결정 또는 구성은 엠비언스 신호를 제1 및 제2의 주변 신호 성분들 또는 그의 부분들의 조합으로서 결정하는 것을 포함할 수 있다. 이러한 조합은 두 주변 신호 성분들 또는 그의 부분들의 연쇄를 포함할 수 있거나 두 주변 신호 성분들 또는 그의 부분들을 엠비언스 신호를 갖게 하기 위해 희망하는 지속기간과 또는 희망하는 오디오 특성과 각기 혼합하는 것을 포함할 수 있다. 엠비언스 신호의 결정은 또한 제1의 주변 신호 성분 또는 그의 일부분을 변경 및/또는 제2의 주변 신호 성분 또는 그의 일부분을 변경하는 것을 포함할 수 있다. 예로서, 이러한 변경은 엠비언스 신호의 희망하는 신호 레벨을 갖기 위해 오디오 신호 또는 그의 부분 중 하나 또는 둘 다의 신호 레벨을 조절하는 것을 포함할 수 있다. 다른 예로서, 특히 엠비언스 신호가 두 주변 신호 성분의 연쇄로서 결정된 경우, 그러한 변경은 크로스-페이딩을 구현하기 위해 오디오 신호 또는 그의 부분 중 하나 또는 둘 다의 선택된 세그먼트의 레벨 조정을 포함할 수 있다. 두 주변 신호 성분에 기초한 엠비언스 신호의 결정 또는 구성은 이미지 그룹의 각 이미지와 연관된 다수의 오디오 신호로부터 식별된 또는 추출된 임의 개수의 엠비언스 신호 성분의 결정 또는 구성으로 일반화될 수 있다.
엠비언스 신호에 기초한 엠비언스 트랙의 결정은 이와 같이 엠비언스 신호, 즉 엠비언스 신호의 선택된 부분을 이용하여, 예를 들면, 추출 또는 카피하는 것을 포함할 수 있고, 또는 엠비언스 트랙은 전체적으로 엠비언스 신호로서 결정될 수 있거나 엠비언스 트랙의 희망하는 지속기간을 포함하도록 하기 위해 반복된 또는 부분 반복된 엠비언스 신호의 선택된 부분으로서 결정될 수 있다. 엠비언스 신호에 기초하여 엠비언스 트랙을 결정 또는 구성하는 원리에 관한 예는 도 7에서 예시된다.
예로서, 오디오 신호가 주변 신호 성분을 포함하는지를 결정하기 위해 오디오 신호를 분석하는 것은 오디오 신호 또는 그의 일부분이 주변 신호 성분의 존재를 나타내는 기 설정된 오디오 특성을 보여주는지를 결정하는 것을 포함할 수 있다. 그렇게 결정된 오디오 특성의 예로서, 신호 레벨 면에서 및/또는 주파수 특성 면에서 시간 경과에 따라 정적인 특성을 보여주는 오디오 신호 또는 그의 일부분은 주변 신호 성분을 표시하는 것이라고 간주될 수 있다. 대안으로 또는 부가적으로, 주변 신호 성분의 존재를 결정하기 위한 오디오 신호의 분석은 이하에서 기술되는 특정 신호 성분의 존재를 결정하기 위한 접근방법을 활용할 수 있다. 즉, 오디오 신호 내 또는 그의 일부분 내 특정 신호 성분의 부재는 각각의 오디오 신호 또는 그의 일부분이 주변 신호 성분만을 포함하고 있다고 표시하는 것이라 간주될 수 있다.
본 발명의 실시예에 따르면, 오디오 신호가 주변 신호 성분을 포함하고 있는지를 결정하려는 분석은 이미지 그룹의 이미지들과 연관될 수 있는 이미지 모드 데이터에 적어도 부분적으로 기초할 수 있다.
앞에서 기술한 바와 같이, 이미지와 연관된 이미지 모드 데이터는, 예를 들면, 이미지의 포맷 또는 그 이미지를 캡처하기 위해 이용된 캡처 장치의 동작 모드를 표시할 수 있다. 그 결과, 이미지 포맷으로서 가로방향을 표시하는 또는 동작 모드로서, 예를 들면, "경치", "가로방향" 등을 표시하는 이미지 모드 데이터는 주어진 이미지 또는 그의 일부분과 연관된 오디오 신호가 특정 신호 성분 없이 오직 주변 신호 성분만을 포함하고 있다는 표시자로서 사용될 수 있다. 따라서, 본 발명의 실시예에 따르면, 그러한 이미지와 연관된 오디오 신호만이 주변 신호 성분의 존재를 결정하기 위한 분석을 받을 수 있다. 대안으로, 오디오 분석 유닛(12)은 오디오 신호가 오디오 신호 그룹의 모든 오디오 신호에 대해 또는 오디오 신호 그룹의 기 설정된 서브셋에 대해 주변 신호 성분을 포함하는지를 결정하는 분석을 수행하도록 구성될 수 있다.
이미지는 그와 연관된 방위 데이터(orientation data)를 가질 수 있다. 방위 데이터는 하나 이상의 기준 지점에 대하여 이미지의 방위를 나타내는 정보를 포함할 수 있다. 예로서, 방위 데이터는 북쪽에 대하여 또는 자북극(magnetic north pole)에 대하여 방위를 나타내는, 그리하여 나침반 방향 또는 그의 추정 방향을 나타내는 정보를 포함할 수 있다. 다른 예로서, 방위 데이터는 수평면에 대하여 이미지의 방위를 나타내는, 그리하여 수평면에 대하여 이미지의 기울기(tilt)를 나타내는 정보를 포함할 수 있다.
예로서, 이미지와 연관된 방위 데이터는 공간 오디오 신호와 연관된 도달 방향을 결정하는데, 특히 전방/후방 혼란(front/back confusion)의 분석 시 도움을 주기 위해 평가될 수 있다. 그러므로, 이에 관한 예로서, 방위 데이터로 표시될 수 있는 카메라의 "슈팅 방향(shooting direction)", 이점에 있어서 어떤 혼란이 있는 경우에, 공간 오디오 신호가 이미지의 전방 측으로부터 또는 이미지의 후방 측으로부터 나오는 소리를 표시하는지를 결정하는데 이용될 수 있다. 예를 들면, 오디오 분석 유닛(12)은 방위 정보를 이용하여 오디오 신호가 특정 오디오 신호를 포함하는지의 분석을 제어하도록 구성될 수 있다. 즉, 오디오 신호, 및 그래서 어쩌면 이미지의 후방에서 도달 방향을 갖는 특정 신호 성분을 나타내는 방위 정보는 주어진 오디오 신호를 분석에서 제외하는 표시로서 사용될 수 있다. 다른 예로서, 이미지 분석 유닛(18)은 방위 정보를 이용하여 이미지 내 특정 주체의 존재에 관한 분석을 제어하도록 구성될 수 있다. 즉, 오디오 신호, 및 그래서 어쩌면 이미지의 후방에서 도달 방향을 갖는 특정 신호 성분을 나타내는 방위 정보는 주어진 오디오 신호를 분석에서 제외하는 표시로서 사용될 수 있다.
본 발명의 실시예에 따르면, 이미지와 연관된 추가 데이터의 아이템이 사용되고 고려된다. 추가적인 데이터는 감각 정보(sensory information) 및/또는 이미지를 특징으로 하는 및/또는 이미지와 연관된 추가 정보를 제공하는 다른 정보를 포함할 수 있다. 추가적인 데이터는, 예를 들면, (디지털) 이미지 데이터 및 또 다른 데이터 두 가지를 다 저장/제공할 수 있는 적절한 스토리지 또는 컨테이너 포맷을 이용하여 실제 이미지 데이터와 함께 저장 및/또는 제공될 수 있다. 대안으로, 추가적인 데이터는 각각의 이미지 데이터와 링크된, 예를 들면, 적절한 데이터베이스 내에 배열된 하나 이상의 별개의 데이터 요소로서 저장 또는 제공될 수 있다.
도 8에서 제공된 예는 이미지와 연관된 추가적인 데이터 아이템의 다양한 예를 보여주는 이미지와 연관된 추가적인 데이터의 개념을 예시하며, 그 중 일부가 앞에서 기술되어 있다.
예로서, 복수개 이미지들의 이미지는 이미지, 특히 디지털 이미지를 캡처할 수 있는 장치 또는 기기로부터 유래할 수 있다. 그러한 장치 또는 기기는 예를 들면, 카메라 또는 비디오 카메라, 특히, 디지털 카메라 또는 디지털 비디오 카메라일 수 있다. 다른 예로서, 이미지는 (디지털) 이미지를 캡처할 능력을 갖춘 장치 또는 기기로부터 유래할 수 있다. 그러한 장치 또는 기기의 예는 카메라, 비디오 카메라, 카메라 모듈, 비디오 카메라 모듈 또는 디지털 이미지를 켭쳐할 수 있게 해주는 다른 장치를 갖춘 또는 그에 접속된 모바일 폰, 랩톱 컴퓨터, 데스크톱 컴퓨터, 개인 휴대 정보 단말기(PDA), 인터넷 태블릿을 포함할 수 있다.
이미지를 갭처할 수 있는 기기는 또한, 앞에서 기술한 바와 같이, 이미지와 연관된 추가적인 데이터로서 사용될 수 있는 정보를 캡처하거나 녹화, 저장 및/또는 제공하도록 설비되고 구성될 수 있다.
이미지를 캡처할 수 있는 기기는 또한 현재 위치를 결정할 수 있는 장비를 갖추고 있을 수 있고, 기기는 이미지를 캡처하면 기기의 현재 위치를 결정하도록 구성될 수 있다. 더욱이, 기기는 현재 위치를 캡처된 이미지와 연관된 위치를 결정하는 정보로서 저장 및/또는 제공하도록 구성될 수 있다.
예로서, 기기는 또한 오디오 신호를 캡처할 수 있는 오디오 녹화 장비를 갖추고 있을 수 있고, 기기는 이미지를 캡처하는 시간에 또는 그 시간쯤에 하나 이상의 오디오 신호를 캡처하도록 구성될 수 있다. 캡처한 오디오 신호는 모노, 스테레오, 또는 멀티-채널 오디오 신호일 수 있으며 이 오디오 신호는 공간 오디오 신호를 나타낼 수 있다. 기기는 또한 하나 이상의 캡처한 오디오 신호를 캡처한 이미지와 연관된 하나 이상의 오디오 데이터 아이템으로서 저장 및/또는 제공하도록 구성될 수 있다.
오디오 녹화 장비는 예를 들면 하나 이상의 마이크로폰, 방향성 마이크로폰 또는 마이크로폰 어레이를 포함할 수 있다. 하나 이상의 마이크로폰을 이용하는 장치의 예로서, 카메라 또는 기기는 기 설정된 구성에서 셋 이상의 마이크로폰을 갖추고 있을 수 있다. 셋 이상의 마이크로폰에 의해 캡처된 셋 이상의 오디오 신호 및 기 설정된 마이크로폰 구성에 관한 지식에 기초하여, 예를 들면, 셋 이상의 오디오 신호들 사이의 위상차를 결정하는 것이 가능하며, 그 결과 셋 이상의 캡처된 오디오 신호에 의해 표현된 소리의 도달 방향을 유도하는 것이 가능하다. 이러한 접근방법은 정상적인 사람이 듣는 것과 유사한데, 이 경우에 소리의 위치(localization of sound), 즉 인식 가능한 도달 방향은 좌측 귀와 우측 귀 사이에서 두 귀의 시간 차(들)(interaural time difference (ITD))에 적어도 부분적으로 기초한다. 유사한 동작 원리는 마이크로폰 어레이의 사례에도 적용될 수 있다.
기기는 이미지의 캡처 이전에도 오디오 신호의 캡처를 시작할 수 있게 해주는 소위 사전-녹음 기능(pre-record function)을 갖추고 있을 수 있고, 기기는 사전-녹음 기능을 이용하여 하나 이상의 오디오 신호를 캡처하도록 구성될 수 있다. 도 9는 사전-녹음 기능의 원리를 예시한다. 이미지의 캡처 시간은 시간 t로 표시되며, 한편 시간 t-△t는 오디오 신호의 캡처의 시작을 나타내며 시간 t+△t는 오디오 신호의 캡처의 종료를 나타낸다. 예를 들면, 시간 t에 앞서 기기의 오디오 녹화 장비가 시간 t-△t 와 t 사이의 기간이 포함될 수 있도록 오디오 신호를 끊임없이 녹화하고 버퍼하도록 구성함으로써 오디오가 캡처될 수 있다. 도 9의 예에서, 이미지의 캡처 시간 t 전후의 오디오 캡처 지속기간이 동일한 것으로 표시된다. 그러나, 다른 예에서, 이미지의 캡처 시간 t 이후의 오디오 캡처 지속기간은 시간 t 이후의 오디오 캡처 지속기간보다 짧거나 길 수 있다.
이미지를 캡처할 수 있는 기기는 또한 이미지와 연관된 이미지 모드 데이터를 캡처할 수 있는 장비를 갖추고 있을 수 있고, 기기는 이미지를 캡처할 때 현재 이미지 모드를 캡처하도록 구성될 수 있다. 더욱이, 기기는 캡처한 현재 이미지 모드를 캡처한 이미지와 연관된 이미지 모드로서 저장 및/또는 제공하도록 구성될 수 있다.
이미지를 캡처할 수 있는 기기는 또한 이미지와 연관된 방위 데이터를 캡처할 수 있는 장비를 갖추고 있을 수 있고, 기기는 이미지를 캡처할 때 기기의 현재 방위를 캡처하도록 구성될 수 있다. 더욱이, 기기는 기기의 캡처된 현재의 방위를 캡처 이미지와 연관된 하나 이상의 기준 지점에 대해 이미지의 방위를 나타내는 정보로서 저장 및/또는 제공하도록 구성될 수 있다. 예로서, 방위 데이터를 캡처할 수 있는 장비는 나침반을 포함할 수 있다. 다른 예로서, 방위 데이터를 캡처할 수 있는 장비는 기기의 현재 방위를 기록하도록 구성된 하나 이상의 가속도계를 포함할 수 있다. 또 다른 예로서, 방위 데이터를 캡처할 수 있는 장비는 알고 있는 (별개의) 위치에서 발생하는 하나 이상의 수신된 무선 신호에 기초하여 현재 위치를 결정할 수 있는 하나 이상의 수신기 또는 송수신기를 포함할 수 있다.
이미지를 캡처할 수 있는 기기는 또한 현재 시간을 캡처할 수 있는 장비를 갖추고 있을 수 있고, 기기는 이미지를 캡처할 때 현재 시간을 캡처하도록 구성될 수 있다. 더욱이, 기기는 캡처된 현재 시간을 캡처 이미지와 연관된 시간 표시자로서 저장 및/또는 제공하도록 구성될 수 있다. 그러한 시간 표시자는 예를 들면 이미지와 연관된 시각 및 날짜를 표시할 수 있다.
예를 들면, 추가적인 데이터의 각 아이템의 캡처 또는 기록할 수 있는 장치를 갖춘 이미지를 캡처할 수 있는 기기를 이용하여, 이미지와 연관된 추가적인 데이터의 데이터 아이템을 함께 및/또는 그 이미지를 캡처하는 시간에 캡처하거나 기록하는 것 대신, 이미지와 연관된 추가적인 데이터의 데이터 아이템은 이미지의 캡처와 별도로 도입될 수 있다. 그러므로, 소수의 예로서, 이미지는 이미지의 캡처와 직접적으로 관련되지 않은 위치 정보, 오디오 데이터, 이미지 모드 데이터 및/또는 방위 데이터와 연관될 수 있다. 이것은 그림, 그래프, 컴퓨터 생성 이미지 등과 같이 사진과 다른 이미지의 경우에 특히 유용할 수 있다. 특히, 이미지와 연관된 모든 사용자 특정 데이터는 이미지의 캡처와 별도로 도입될 수 있다. 더욱이, 예를 들어 추가적인 데이터의 각 아이템을 캡처 또는 기록할 수 있는 장비를 갖춘 이미지를 캡처할 수 있는 기기를 이용하여 도입된 이미지와 연관된 추가적인 데이터의 데이터 아이템 중 하나 이상을 변경 또는 대체하는 것이 가능하다.
본 발명의 여러 실시예에 따른 장치는 구조적인 용어를 이용하여 앞에서 기술되어 있다. 앞에서 다수의 구조적인 유닛들, 즉, 오디오 분석 유닛(12), 오디오 트랙 결정 유닛(14), 분류 유닛(16) 및/또는 이미지 분석 유닛(18)에 할당된 절차는 그 유닛들에게 상이한 방식으로 할당될 수 있고, 또는 앞에서 기술된 본 발명의 여러 실시예의 상황에서 기술된 절차 중 몇 가지를 수행하는 또 다른 유닛들이 있을 수도 있다. 특히, 앞에서 오디오 분석 유닛(12), 오디오 트랙 결정 유닛(14), 분류 유닛(16) 및/또는 이미지 분석 유닛(18)에 할당된 절차는 장치의 단일 프로세싱 유닛에 대신 할당될 수 있다. 기능적인 용어로 표현된 본 발명의 다른 실시예에 따르면, 오디오 처리 장치가 제공되며, 이 장치는 오디오 신호 그룹 - 각각의 오디오 신호는 이미지 그룹의 한 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하는 수단과, 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 제1 지속기간은 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하는 수단과, 상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 오디오 트랙을 구성하기 위한 수단을 포함한다.
본 발명의 실시예에 따른 방법(100)은 도 10에서 예시된다. 방법(100)은, 단계(102)에서 나타낸 바와 같이, 오디오 신호의 그룹을 획득하는 단계를 포함하되, 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 이미지 그룹은 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 이때 각각의 이미지가 할당된 시청 시간을 갖는다. 방법(100)은 또한, 단계(104)에서 나타낸 바와 같이, 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간을 갖는 오디오 트랙을 결정하기 위한 하나 이상의 중간 오디오 신호를 결정하는 단계를 포함하되, 그 제1 지속기간은 할당된 전체 시청 시간을 본질적으로 포함한다. 방법은 또한, 단계(106)에서 나타낸 바와 같이, 하나 이상의 중간 오디오 신호에 기초하여 제1 지속기간을 갖는 오디오 트랙을 구성하는 단계를 포함한다.
본 발명의 실시예에 따른 방법(120)은 도 11에 예시된다. 방법(120)은, 단계(122)에서 나타낸 바와 같이, 각각의 오디오 신호가 복수개 이미지의 한 이미지와 연관되어 있는, 복수개 오디오 신호를 획득하는 단계를 포함한다. 방법(120)은 또한, 단계(124)에서 나타낸 바와 같이, 각각의 위치 표시자가 복수개 이미지의 한 이미지와 연관되어 있는, 복수개의 위치 표시자를 획득하는 단계를 포함한다. 방법(120)은 또한, 단계(124)에서 나타낸 바와 같이, 제1 이미지 그룹이 그와 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지를 포함하도록 제1 이미지 그룹을 복수개 이미지들의 서브셋으로서 결정하는 단계를 포함한다. 제1 이미지 그룹은, 예를 들어, 앞에서 기술된 방법(100)에 따라서 처리될 수 있다.
본 발명의 실시예에 따른 방법(140)은 도 12에 예시된다. 방법(140)은, 단계(142)에서 나타낸 바와 같이, 오디오 신호 그룹을 획득하는 단계를 포함하되, 각각의 오디오 신호는 이미지 그룹의 한 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 이때 각각의 이미지는 할당된 시청 시간을 갖는다. 방법(140)은 또한, 단계(144)에서 나타낸 바와 같이, 각각의 이미지 마다, 각 중간 오디오 신호의 결정을 위해 연관된 오디오 신호의 세그먼트를 결정하는 단계, 및 단계(146)에서 나타낸 바와 같이, 각 이미지 마다, 연관된 오디오 신호의 결정된 세그먼트에 기초하여 각 이미지의 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 단계를 포함한다. 방법(140)은 또한, 단계(148)에서 나타낸 바와 같이, 오디오 트랙을 중간 오디오 신호들의 연쇄로서 구성하는 단계를 포함한다.
본 발명의 실시예에 따른 방법(160)은 도 13에 예시된다. 방법(160)은, 단계(162)에서 나타낸 바와 같이, 오디오 신호 그룹을 획득하는 단계를 포함하되, 각각의 오디오 신호는 이미지 그룹의 한 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되며, 이때 각각의 이미지는 할당된 시청 시간을 갖는다. 방법(160)은 또한, 단계(164)에서 나타낸 바와 같이, 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 단계를 포함한다. 방법(160)은 또한, 단계(166)에서 나타낸 바와 같이, 제1의 주어진 오디오 신호가 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 이미지 그룹의 할당된 전체 시청 시간을 포함하는 또는 본질적으로 포함하는 지속기간을 갖는 엠비언스 트랙을 결정하는 단계를 포함하되, 엠비언스 트랙은 주변 신호 성분에 기초하여 결정된다. 방법(160)은 또한, 단계(168)에서 나타낸 바와 같이, 엠비언스 트랙 및 하나 이상의 중간 오디오 신호에 기초하여 오디오 트랙을 구성하는 단계를 포함한다.
본 발명의 실시예에 따른 방법(180)은 도 14에 예시된다. 방법(180)은, 단계(182)에서 나타낸 바와 같이, 오디오 신호 그룹을 획득하는 단계를 포함하되, 각각의 오디오 신호는 이미지 그룹의 한 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 이때 각각의 이미지는 할당된 시청 시간을 갖는다. 방법(180)은, 단계(184)에서 나타낸 바와 같이, 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 특정 오디오 신호 성분을 포함하고 있는지를 결정하는 단계를 포함한다. 방법(180)은 또한, 단계(186)에서 나타낸 바와 같이, 주어진 이미지와 연관된 오디오 신호가 특정 오디오 신호 성분을 포함한다고 판단한 것에 대한 응답으로, 적어도 부분적으로 특정 오디오 신호 성분에 기초하여 주어진 이미지의 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 단계를 포함한다. 방법(180)은 또한 적어도 부분적으로 중간 오디오 신호에 기초하여 주어진 이미지의 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분을 구성하는 단계를 포함한다.
본 발명의 예시적인 추가 실시예가 아래에 기술된다.
본 발명의 실시예에 따르면, 각각의 이미지가 위치 표시자와 연관된, 복수개 이미지가 획득된다. 더욱이, 복수개 이미지의 각 이미지는 추가로 오디오 신호와 연관된다. 복수개 이미지의 각각의 이미지는 추가로 방위 데이터와 연관되고 또한 각 이미지의 캡처와 연관된 상태를 설명하는 다른 감각 데이터와 연관될 수 있다.
복수개 이미지 중 이미지는, 예를 들면, 컴퓨터 또는 카메라의 디스플레이 스크린 상에 제공되며, 사용자는 프리젠테이션에 포함시킬 이미지를 선택한다. 이러한 프리젠테이션은 예를 들면, 이미지들이 하나씩 슬라이드 쇼의 시청자에게 보여지는 슬라이드 쇼일 수 있으며, 각각의 이미지는 시청 시간 동안 또는 할당된 지속기간 동안 상연된다.
프리젠테이션을 위해 이미지를 선택하는 동안 또는 그 이후, 각 이미지에 대해 할당된 시청 시간이 획득된다. 프리젠테이션을 위해 선택된 주어진 이미지의 할당된 시청 시간은 사전에 할당될 수 있으며 주어진 이미지와 연관된 추가적인 데이터로서 획득될 수 있다. 대안으로, 사용자는, 예를 들면, 프리젠테이션을 위해 각 이미지를 선택할 때, 프리젠테이션을 위해 선택된 각각의 이미지마다 희망하는 시청 시간을 할당할 수 있다.
슬라이드 쇼처럼 프리젠테이션을 위해 선택된 이미지들의 프리젠테이션에 동반하는 오디오 트랙을 결정하는 것은 이미지와 연관된 위치 표시자에 기초하여 프리젠테이션을 위해 선택된 이미지들을 다수개의 그룹으로 그룹화하는 단계를 포함한다. 즉, 동일 위치를 나타낸다고 생각될 수 있는 동일 위치 또는 영역을 참조하는 이미지들이 동일 그룹으로 할당된다. 일단 프리젠테이션을 위해 선택된 이미지들이 적절한 개수의 그룹으로 할당되면, 각 그룹은 개별적으로 처리된다.
주어진 그룹의 경우, 이미지와 연관되고 주어진 그룹에 할당된 오디오 신호는 각각의 오디오 신호 내 특정 오디오 신호 성분으로서 음성 또는 목소리 신호를 검출하는 분석 알고리즘에 의해 처리된다. 오디오 신호 내 음성 또는 목소리 신호를 검출하는 것에 대한 응답으로, 주어진 그룹에 대한 오디오 트랙의 구성 시 나중의 사용을 위해 음성/목소리 신호가 추출될 수 있다. 유사하게, 주어진 그룹의 이미지들과 연관된 오디오 신호는 그 오디오 신호에 포함된 주변 신호 성분만을 갖는 이미지들을 식별하도록 처리된다. 오디오 신호 내 주변 신호 성분만을 검출하는 것에 대한 응답으로, 주어진 그룹에 대한 엠비언트 트랙의 구성 시 나중 사용을 위해 주변 신호 성분이 추출될 수 있다.
연관된 음성 또는 목소리 신호 성분을 포함하는 것으로 발견된 오디오 신호를 갖는 이미지들은 사람 또는 그의 부위, 예를 들면, 사람 얼굴, 및 각 이미지 내 이들의 위치를 검출하는 이미지 분석 알고리즘에 의해 처리된다. 그 결과, 이미지에서 사람 또는 그의 부위를 검출하는 것에 대한 응답으로, 각각의 이미지는 그 이미지 내 사람의 존재를 표시하는 식별자, 예를 들면, 태그와 함께 제공될 수 있다. 식별자 또는 태그는 또한 이미지 내에서 식별된 사람의 위치를 명시하는 정보를 포함할 수 있다. 식별자는 각 이미지와 연관된 추가 데이터로서 포함(예를 들면, 저장 또는 제공)될 수 있다. 사람을 나타내는 것으로 발견된 이미지에 대한 분석은 또한 공간 오디오 신호 성분을 검출하기 위하여 연관된 오디오 신호를 분석하는 것, 및 희망하는 인식 가능한 도달 방향을 나타내는 오디오 이미지를 갖기 위해 혹 공간 오디오 성분을 변경하는 것을 포함할 수 있다. 대안으로, 사람 주체를 포함하는 것으로 발견된 이미지와 연관된 오디오 신호는 공간 오디오 신호로 변경될 수 있고, 공간 오디오 신호 성분의 존재 표시는 어쩌면 공간 오디오 신호 성분의 인식 가능한 방향을 표시하는 정보와 함께 오디오 신호와 연관된 추가적인 오디오-관련 정보에 포함될 수 있다.
전술한 분석 알고리즘은, 예를 들면, 이미지에 대해 세로방향 포맷 또는 카메라 모드 또는 이미지 내 사람 주체를 시사하는 프로파일을 나타내는 이미지 모드 데이터가 음성 또는 목소리 신호 성분 및/또는 연관된 오디오 신호에 포함된 공간 오디오 신호 성분을 잠재적으로 갖는 이미지들이라고 주로 또는 배타적으로 간주하는 방식으로, 이미지와 연관된 이미지 모드 데이터에 적응 또는 반응할 수 있다. 대조적으로, 세로방향 포맷 또는 이미지 내에 포함될 풍경 또는 경치를 시사하는 카메라 모드를 나타내는 이미지 모드 데이터는 이와 연관된 오디오 신호에 포함될 뿐인 주변 신호 성분을 잠재적으로 갖는 이미지라고 주로 또는 배타적으로 간주된다.
일단 음성 또는 목소리 성분 및 주변 신호 성분에 대해 모든 그룹들이 분석되면, 각 그룹마다 엠비언트 트랙이 생성된다. 주어진 그룹에 대한 엠비언트 트랙은 식별된 주변 신호 성분에 기초하여 주어진 그룹마다 구성되고, 어쩌면 추출된다. 주어진 이미지 그룹마다, 주어진 그룹에 할당된 이미지들의 할당된 시청 시간의 합과 일치하는 전체 지속기간을 갖는 엠비언트 트랙이 생성된다. 앞에서 상세히 기술한 바와 같이, 엠비언스 트랙은 주어진 그룹마다 할당된 이미지와 연관된 하나 이상의 오디오 신호에서 식별된 주변 신호 성분에 기초하여 생성될 수 있다.
일단 주어진 그룹에 대한 엠비언스 트랙이 생성되면, 주어진 그룹마다 할당된 소정 이미지와 연관된 오디오 신호로부터 어쩌면 식별된, 그리고 어쩌면 추출된 음성/목소리 신호 성분은 엠비언스 트랙과 혼합되어 주어진 그룹마다 오디오 트랙을 생성한다. 음성 또는 오디오 신호 성분들은 각각의 음성 또는 오디오 신호 성분들이 연관된 이미지들의 할당된 시청 시간에 대응하는 일시적 위치에 있는 오디오 트랙에서 혼합된다.
일단 모든 이미지 그룹에 대해 오디오 트랙이 생성되었으면, 프리젠테이션을 위해 선택된 이미지들의 프리젠테이션에 동반하는 복합 오디오 트랙은 오디오 트랙을 복합 오디오 트랙으로 연쇄함으로써 생성된다.
도 15는 본 발명의 실시예에 따른 장치(400)를 개략적으로 도시한다. 장치(40)는 오디오 처리 장치(10)로서 사용될 수 있다. 장치(40)는 최종-제품 또는 모듈일 수 있는데, 모듈이라는 용어는 장치가 결과적으로 최종-제품을 형성하게 하는 최종-제조자 또는 사용자에 의해 도입될 수 있는 소정 부품이나 컴포넌트를 제외한 유닛 또는 장치를 말한다.
장치(40)는 하드웨어 단독(예를 들면, 회로, 프로그래머블 또는 비-프로그래머블 프로세서 등)으로 구현될 수 있고, 장치(40)는 소프트웨어(예를 들면, 펌웨어) 단독으로서 구현된 소정의 양태를 가질 수 있거나 또는 하드웨어 및 소프트웨어의 조합으로서 구현될 수 있다.
장치(40)는, 예를 들면, 범용 또는 특수 목적 프로세서에서, 컴퓨터 판독가능 저장 매체(디스크, 메모리 등)에 저장될 수 있는, 그러한 프로세서에 의해 실행될 실행가능 컴퓨터 프로그램 명령을 이용하여, 하드웨어 기능을 가능하게 해주는 명령을 이용하여 구현될 수 있다.
도 15의 예에서, 장치(40)는 프로세서(42), 메모리(44) 및 통신 인터페이스(46), 이를 테면, 다른 장치와의 무선 또는 유선 통신을 가능하게 해주는 네트워크 카드 또는 네트워크 어댑터를 포함한다. 프로세서(42)는 메모리(44)로부터 판독하고 그 메모리에 기록하도록 구성된다. 장치(40)는 데이터, 명령 및/또는 다른 입력을 프로세서(42)에 제공하며/하거나 프로세서(42)로부터 데이터 또는 다른 출력을 수신하는 사용자 인터페이스(48)를 더 포함할 수 있고, 사용자 인터페이스는 예를 들면 디스플레이, 키보드나 키, 마우스나 각 포인팅 디바이스, 터치스크린 등 중에서 하나 이상을 포함한다. 장치는 도 15의 예에 도시되지 않은 컴포넌트들을 더 포함할 수 있다.
비록 프로세서(42)가 도 15의 예에서 단일 컴포넌트로서 제시되어 있을지라도, 이 프로세서(42)는 하나 이상의 별개 컴포넌트로서 구현될 수 있다. 비록 도 15의 예에서 메모리(44)가 단일 컴포넌트로서 도시되어 있을지라도, 이 메모리는 하나 이상의 개별 컴포넌트들로서 구현될 수 있고, 이 중의 일부 또는 모두가 통합/제거가능해질 수 있고 및/또는 영구/반영구/다이나믹/캐시 스토리지를 제공할 수 있다.
장치(40)는 예를 들면 모바일 폰, 카메라, 비디오 카메라, 뮤직 플레이어, 게이밍 장치, 랩톱 컴퓨터, 데스크톱 컴퓨터, 개인 휴대 정보 단말기(PDA), 인터넷 태블릿, 텔레비전 셋 등으로서 구현될 수 있다.
메모리(44)는 프로세서(42) 내에 로드될 때 장치(40)의 동작을 제어하는 컴퓨터-실행가능 명령을 구비하는 컴퓨터 프로그램(50)을 저장할 수 있다. 예로서, 컴퓨터 프로그램(50)은 하나 이상의 명령의 하나 이상의 시퀀스를 포함할 수 있다. 컴퓨터 프로그램(50)은 컴퓨터 프로그램 코드로서 제공될 수 있다. 프로세서(42)는 메모리(44)로부터 컴퓨터 프로그램에 포함된 하나 이상의 명령의 하나 이상의 시퀀스를 판독함으로써 컴퓨터 프로그램(50)을 로드하고 실행할 수 있다. 하나 이상의 명령의 하나 이상의 시퀀스는 하나 이상의 프로세서에 의해 실행될 때, 장치, 예를 들면, 장치(40)가 앞에서 기술된 본 발명의 하나 이상의 실시예에 따른 프로세싱을 실시하도록 구성될 수 있다.
그러므로, 장치(40)는 적어도 하나의 프로세서(42) 및 하나 이상의 프로그램의 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리(44)를 포함할 수 있고, 적어도 하나의 메모리(44) 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서(42)와 함께, 앞에서 기술된 본 발명의 하나 이상의 실시예에 따른 프로세싱을 수행하도록 구성된다.
컴퓨터 프로그램(50)은 장치(40)에서 모든 적절한 전달 메커니즘을 통해 제공될 수 있다. 예로서, 전달 메커니즘은 프로그램 코드가 저장되는 적어도 하나의 컴퓨터 판독가능 비일시적 매체를 포함할 수 있고, 프로그램 코드는 장치에 의해 실행될 때 그 장치가 본 발명에 따른 프로세싱, 이를 테면, 앞에서 기술된 방법(100, 120, 140, 160 및 180)을 적어도 구현하게 해준다. 전달 메커니즘은 예를 들면 컴퓨터 판독가능 저장 매체, 컴퓨터 프로그램 제품, 메모리 장치, CD-ROM이나 DVD와 같은 기록 매체, 컴퓨터 프로그램(50)을 실체적으로 구현하는 제조 물품일 수 있다. 다른 예로서, 전달 메커니즘은 컴퓨터 프로그램(50)을 신뢰성 있게 전송하도록 구성된 신호일 수 있다.
프로세서라고 언급한다 하여도 오로지 프로그래머블 프로세서뿐만 아니라 필드-프로그래머블 게이트 어레이(FPGA), 주문형 집적 회로(ASIC), 신호 프로세서 등과 같은 전용 회로를 망라하는 것으로 이해하지 않아야 한다. 앞의 설명에서 기술된 특징들은 명시적으로 기술된 조합과 다른 조합으로 사용될 수 있다. 비록 기능들이 소정의 특징들을 참조하여 기술되었을지라도, 이러한 기능들은 기술되었던 기술되지 않았던 간에 다른 특징들에 의해 수행될 수 있다. 비록 특징들이 소정 실시예를 참조하여 기술되었을지라도, 이들 기능들은 기술되었던 기술되지 않았던 간에 다른 실시예에서도 존재할 수 있다.

Claims (78)

  1. 오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 한 이미지와 연관되고, 상기 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하고,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간(duration) - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하도록 구성된 오디오 분석 유닛과,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하도록 구성된 오디오 트랙 결정 유닛을 포함하는
    장치.
  2. 제 1 항에 있어서,
    복수의 오디오 신호 - 각각의 오디오 신호는 복수의 이미지 중 한 이미지와 연관됨 - 를 획득하고,
    복수의 위치 표시자 - 각각의 위치 표시자는 상기 복수의 이미지 중 한 이미지와 연관됨 - 를 획득하고,
    상기 이미지 그룹이 그와 연관된 제1 위치를 나타내는 위치 표시자를 갖는 이미지들을 포함하도록 상기 이미지 그룹을 상기 복수의 이미지의 서브셋으로서 결정하도록 구성된 분류 유닛을 더 포함하는
    장치.
  3. 제 2 항에 있어서,
    상기 위치 정보는 글로벌 포지셔닝 시스템 좌표를 포함하는
    장치.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 제1 위치는 기 설정된 기준 위치로부터 사전에 정의된 최대 거리에 의해 결정되는
    장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 오디오 분석 유닛은,
    각각의 이미지마다, 각각의 중간 오디오 신호의 결정을 위해 연관된 오디오 신호의 세그먼트를 결정하고,
    각각의 이미지마다, 연관된 상기 오디오 신호의 상기 결정된 세그먼트에 기초하여 상기 각각의 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하도록 구성되며,
    상기 오디오 트랙 결정 유닛은 상기 오디오 트랙을 상기 중간 오디오 신호의 연쇄(concatenation)로서 구성하도록 구성된
    장치.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 오디오 분석 유닛은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하고,
    제1의 주어진 오디오 신호가 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제1 지속기간을 갖는 엠비언스 트랙(ambiance track) - 상기 엠비언스 트랙은 상기 주변 신호 성분에 기초하여 결정됨 - 을 결정하도록 구성되며,
    상기 오디오 트랙 결정 유닛은 상기 엠비언스 트랙 및 상기 하나 이상의 중간 오디오 신호에 기초하여 상기 오디오 트랙을 구성하도록 구성된
    장치.
  7. 제 6 항에 있어서,
    상기 오디오 분석 유닛은, 제2의 주어진 오디오 신호가 제2 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제2 주변 신호 성분에 또한 기초하여 상기 제1 지속기간을 갖는 엠비언스 트랙을 결정하도록 구성된
    장치.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 오디오 분석 유닛은 상기 오디오 신호들 중 적어도 하나를 분석하여, 적어도 부분적으로 상기 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 따라서 오디오 신호가 주변 신호 성분을 포함하는지를 결정하도록 구성된
    장치.
  9. 제 8 항에 있어서,
    상기 이미지 모드 데이터는 상기 각각의 이미지가 유래하는 카메라의 동작 모드를 나타내는
    장치.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 오디오 분석 유닛은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하고,
    제3의 주어진 이미지와 연관된 오디오 신호가 특정 오디오 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 적어도 부분적으로 상기 특정 오디오 신호 성분에 기초하여 상기 제3의 주어진 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하도록 구성되며,
    상기 오디오 트랙 결정 유닛은 적어도 부분적으로 상기 중간 오디오 신호에 기초하여 상기 제3의 주어진 이미지의 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분을 구성하도록 구성된
    장치.
  11. 제 10 항에 있어서,
    상기 오디오 분석 유닛은 상기 오디오 신호들 중 적어도 하나를 분석하여, 적어도 부분적으로 상기 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 따라서 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하도록 구성된
    장치.
  12. 제 10 항 또는 제 11 항 중 어느 한 항에 있어서,
    상기 특정 오디오 신호 성분은 목소리 또는 음성 신호를 포함하는
    장치.
  13. 제 10 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 특정 오디오 신호 성분은 공간 오디오 신호를 포함하는
    장치.
  14. 제 10 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 제3의 주어진 이미지와 연관된 오디오 신호가 특정 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제3의 주어진 이미지를 분석하여 상기 제3의 주어진 이미지 내 특정 주체의 존재 및 위치를 결정하도록 구성된 이미지 분석 유닛을 더 포함하되,
    상기 오디오 트랙 결정 유닛은, 상기 제3의 주어진 이미지 내 특정 주체의 존재를 결정하는 것에 대한 응답으로, 상기 특정 오디오 신호 성분에 기초하여 중간 오디오 신호를 상기 제3의 주어진 이미지 내 상기 특정 주체의 상기 결정된 위치에 대응하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호로서 구성하도록 구성되는
    장치.
  15. 제 14 항에 있어서,
    상기 특정 주체는 사람 얼굴 또는 사람 형상에 대응하는 형상을 포함하는
    장치.
  16. 오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 한 이미지와 연관되고, 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하는 단계와,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하는 단계와,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하는 단계를 포함하는
    방법.
  17. 제 16 항에 있어서,
    복수의 오디오 신호 - 각각의 오디오 신호는 복수의 이미지 중 한 이미지와 연관됨 - 를 획득하는 단계와,
    복수의 위치 표시자 - 각각의 위치 표시자는 상기 복수의 이미지 중 한 이미지와 연관됨 - 를 획득하는 단계와,
    제1 이미지 그룹이 그와 연관된 제1 위치를 나타내는 위치 표시자를 갖는 이미지들을 포함하도록 상기 제1 이미지 그룹을 상기 복수의 이미지의 서브셋으로서 결정하는 단계를 더 포함하는
    방법.
  18. 제 17 항에 있어서,
    상기 위치 정보는 글로벌 포지셔닝 시스템 좌표를 포함하는
    방법.
  19. 제 17 항 또는 제 18 항에 있어서,
    상기 제1 위치는 기 설정된 기준 위치로부터 사전에 정의된 최대 거리에 의해 결정되는
    방법.
  20. 제 16 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 단계는,
    각각의 이미지마다, 각각의 중간 오디오 신호의 결정을 위해 그와 연관된 오디오 신호의 세그먼트를 결정하는 단계와,
    각각의 이미지마다, 그와 연관된 상기 오디오 신호의 상기 결정된 세그먼트에 기초하여 상기 각각의 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 단계를 포함하고,
    상기 구성하는 단계는 상기 오디오 트랙을 상기 중간 오디오 신호의 연쇄로서 구성하는 단계를 포함하는
    방법.
  21. 제 16 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 단계는,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 단계와,
    제1의 주어진 오디오 신호가 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제1 지속기간을 갖는 엠비언스 트랙 - 상기 엠비언스 트랙은 상기 주변 신호 성분에 기초하여 결정됨 - 을 결정하는 단계를 포함하며,
    상기 구성하는 단계는 상기 엠비언스 트랙 및 상기 하나 이상의 중간 오디오 신호에 기초하여 상기 오디오 트랙을 구성하는 단계를 포함하는
    방법.
  22. 제 21 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 단계는, 제2의 주어진 오디오 신호가 제2 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제2 주변 신호 성분에 또한 기초하여 상기 제1 지속기간을 갖는 상기 엠비언스 트랙을 결정하는 단계를 포함하는
    방법.
  23. 제 21 항 또는 제 22 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 단계는 적어도 부분적으로 상기 각각의 이미지와 연관된 이미지 모드 데이터에 기초하는
    방법.
  24. 제 23 항에 있어서,
    상기 이미지 모드 데이터는 상기 각각의 이미지가 유래하는 카메라의 동작 모드를 나타내는
    방법.
  25. 제 16 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 단계는,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하는 단계와,
    제3의 주어진 이미지와 연관된 오디오 신호가 특정 오디오 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 적어도 부분적으로 상기 특정 오디오 신호 성분에 기초하여 상기 제3의 주어진 이미지의 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 단계를 포함하고,
    상기 구성하는 단계는 적어도 부분적으로 상기 중간 오디오 신호에 기초하여 상기 제3의 주어진 이미지의 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분을 구성하는 단계를 포함하는
    방법.
  26. 제 25 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하는 단계는 적어도 부분적으로 상기 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 기초하는
    방법.
  27. 제 25 항 또는 제 26 항에 있어서,
    상기 특정 오디오 신호 성분은 목소리 또는 음성 신호를 포함하는
    방법.
  28. 제 25 항 내지 제 27 항 중 어느 한 항에 있어서,
    상기 특정 오디오 신호 성분은 공간 오디오 신호를 포함하는
    방법.
  29. 제 25 항 내지 제 28 항 중 어느 한 항에 있어서,
    상기 제3의 주어진 이미지와 연관된 오디오 신호가 특정 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제3의 주어진 이미지를 분석하여 상기 제3의 주어진 이미지 내 특정 주체의 존재 및 위치를 결정하는 단계를 더 포함하고,
    상기 구성하는 단계는 상기 제3의 주어진 이미지 내 특정 주체의 존재를 결정하는 것에 대한 응답으로, 상기 특정 오디오 신호 성분에 기초하여 중간 오디오 신호를 상기 제3의 주어진 이미지 내 상기 특정 주체의 상기 결정된 위치에 대응하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호로서 구성하는 단계를 포함하는
    방법.
  30. 제 29 항에 있어서,
    상기 특정 주체는 사람 얼굴을 포함하는
    방법.
  31. 적어도 하나의 프로세서 및 하나 이상의 프로그램의 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치로서, 상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서를 이용하여, 상기 장치가 적어도,
    오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 상기 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하고,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하고,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하는 과정을 수행하도록 구성된
    장치.
  32. 제 31 항에 있어서,
    상기 컴퓨터 실행가능 명령은, 상기 프로세서에 의해 실행될 때, 상기 장치가 추가로,
    복수의 오디오 신호들 - 각각의 오디오 신호는 복수의 이미지들 중 한 이미지와 연관됨 - 을 획득하고,
    복수의 위치 표시자들 - 각각의 위치 표시자는 상기 복수의 이미지들 중 한 이미지와 연관됨 - 을 획득하고,
    상기 이미지 그룹이 그와 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지들을 포함하도록 상기 그룹을 상기 복수의 이미지들의 서브셋으로서 결정하도록 구성된
    장치.
  33. 제 32 항에 있어서,
    상기 위치 정보는 글로벌 포지셔닝 시스템 좌표를 포함하는
    장치.
  34. 제 32 항 또는 제 33 항에 있어서,
    상기 제1 위치는 기 설정된 기준 위치로부터의 사전에 규정된 최대 거리로 결정되는
    장치.
  35. 제 31 항 내지 제 34 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은,
    각각의 이미지마다, 각각의 중간 오디오 신호의 결정을 위해 그와 연관된 오디오 신호의 세그먼트를 결정하는 동작과,
    각각의 이미지마다, 그와 연관된 상기 오디오 신호의 상기 결정된 세그먼트에 기초하여 상기 각각의 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 동작을 포함하고,
    상기 구성하는 동작은 상기 오디오 트랙을 상기 중간 오디오 신호의 연쇄로서 구성하는 동작을 포함하는
  36. 제 31 항 내지 제 34 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 동작과,
    제1의 주어진 오디오 신호가 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제1 지속기간을 갖는 엠비언스 트랙(ambiance track) - 상기 엠비언스 트랙은 상기 주변 신호 성분에 기초하여 결정됨 - 을 결정하는 동작을 포함하고,
    상기 구성하는 동작은 상기 엠비언스 트랙 및 상기 하나 이상의 중간 오디오 신호에 기초하여 상기 오디오 트랙을 구성하는 동작을 포함하는
    장치.
  37. 제 36 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은 제2의 주어진 오디오 신호가 제2 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제2 주변 신호 성분에 또한 기초하여 상기 제1 지속기간을 갖는 엠비언스 트랙을 결정하는 동작을 포함하는
    장치.
  38. 제 36 항 또는 제 37 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 동작은 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 따라서 수행되는
    장치.
  39. 제 38 항에 있어서,
    상기 이미지 모드 데이터는 상기 각각의 이미지가 유래하는 카메라의 동작 모드를 나타내는
    장치.
  40. 제 31 항 내지 제 39 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하는 동작과,
    제3의 주어진 이미지와 연관된 상기 오디오 신호가 특정 오디오 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 적어도 부분적으로 상기 특정 오디오 신호 성분에 기초하여 상기 제3의 주어진 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 동작을 포함하며,
    상기 구성하는 동작은 적어도 부분적으로 상기 중간 오디오 신호에 기초하여 상기 제3의 주어진 이미지의 상기 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분을 구성하는 동작을 포함하는
    장치.
  41. 제 30 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 상기 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하는 동작은 상기 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 따라서 수행되는
    장치.
  42. 제 40 항 또는 제 41 항에 있어서,
    상기 특정 오디오 신호 성분은 목소리 또는 음성 신호를 포함하는
    장치.
  43. 제 40 항 내지 제 42 항 중 어느 한 항에 있어서,
    상기 특정 오디오 신호 성분은 공간 오디오 신호를 포함하는
    장치.
  44. 제 40 항 내지 제 43 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는, 상기 적어도 하나의 프로세서를 이용하여, 상기 장치가 추가로 적어도,
    상기 제3의 주어진 이미지와 연관된 상기 오디오 신호가 특정 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제3의 주어진 이미지를 분석하여 상기 제3의 주어진 이미지 내 특정 주체의 존재 및 위치를 결정하는 동작을 수행하도록 구성되며,
    상기 구성하는 동작은 상기 제3의 주어진 이미지 내 특정 주체의 존재를 결정하는 것에 대한 응답으로, 상기 특정 오디오 신호 성분에 기초하여 중간 오디오 신호를 상기 제3의 주어진 이미지 내 상기 특정 주체의 상기 결정된 위치에 대응하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호로서 구성하는 동작을 포함하는
    장치.
  45. 제 44 항에 있어서,
    상기 특정 주체는 사람 얼굴 또는 사람 형상에 대응하는 형상을 포함하는
    장치.
  46. 오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 한 이미지와 연관되고, 상기 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하는 수단과,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하는 수단과,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하는 수단을 포함하는
    장치.
  47. 제 46 항에 있어서,
    복수의 오디오 신호들 - 각각의 오디오 신호는 복수의 이미지들 중 한 이미지와 연관됨 - 을 획득하는 수단과,
    복수의 위치 표시자들 - 각각의 위치 표시자는 상기 복수의 이미지들 중 한 이미지와 연관됨 - 을 획득하는 수단과,
    상기 이미지 그룹이 그와 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지들을 포함하도록 상기 그룹을 상기 복수의 이미지들의 서브셋으로서 결정하는 수단을 더 포함하는
    장치.
  48. 제 47 항에 있어서,
    상기 위치 정보는 글로벌 포지셔닝 시스템 좌표를 포함하는
    장치.
  49. 제 47 항 또는 제 48 항에 있어서,
    상기 제1 위치는 기 설정된 기준 위치로부터의 사전에 규정된 최대 거리로 결정되는
    장치.
  50. 제 46 항 내지 제 49 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 수단은,
    각각의 이미지마다, 각각의 중간 오디오 신호의 결정을 위해 그와 연관된 오디오 신호의 세그먼트를 결정하고,
    각각의 이미지마다, 그와 연관된 상기 오디오 신호의 상기 결정된 세그먼트에 기초하여 상기 각각의 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하도록 구성되며,
    상기 구성하는 수단은 상기 오디오 트랙을 상기 중간 오디오 신호의 연쇄로서 구성하도록 구성된
    장치.
  51. 제 46 항 내지 제 49 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 수단은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하고,
    제1의 주어진 오디오 신호가 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제1 지속기간을 갖는 엠비언스 트랙(ambiance track) - 상기 엠비언스 트랙은 상기 주변 신호 성분에 기초하여 결정됨 - 을 결정하도록 구성되며,
    상기 구성하는 수단은 상기 엠비언스 트랙 및 상기 하나 이상의 중간 오디오 신호에 기초하여 상기 오디오 트랙을 구성하도록 구성된
    장치.
  52. 제 51 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 수단은 제2의 주어진 오디오 신호가 제2 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제2 주변 신호 성분에 또한 기초하여 상기 제1 지속기간을 갖는 엠비언스 트랙을 결정하도록 구성된
    장치.
  53. 제 51 항 또는 제 52 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 수단은 적어도 부분적으로 각각의 이미지와 연관된 이미지 모드 데이터에 기초하는
    장치.
  54. 제 53 항에 있어서,
    상기 이미지 모드 데이터는 상기 각각의 이미지가 유래하는 카메라의 동작 모드를 나타내는
    장치.
  55. 제 46 항 내지 제 53 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 수단은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하고,
    제3의 주어진 이미지와 연관된 상기 오디오 신호가 특정 오디오 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 적어도 부분적으로 상기 특정 오디오 신호 성분에 기초하여 상기 제3의 주어진 이미지의 할당된 상기 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하도록 구성되며,
    상기 구성하는 수단은 적어도 부분적으로 상기 중간 오디오 신호에 기초하여 상기 제3의 주어진 이미지의 상기 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분을 구성하도록 구성된
    장치.
  56. 제 55 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 상기 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하는 수단은 적어도 부분적으로 상기 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 기초하는
    장치.
  57. 제 55 항 또는 제 56 항에 있어서,
    상기 특정 오디오 신호 성분은 목소리 또는 음성 신호를 포함하는
    장치.
  58. 제 55 항 내지 제 57 항 중 어느 한 항에 있어서,
    상기 특정 오디오 신호 성분은 공간 오디오 신호를 포함하는
    장치.
  59. 제 55 항 내지 제 58 항 중 어느 한 항에 있어서,
    상기 제3의 주어진 이미지와 연관된 상기 오디오 신호가 특정 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제3의 주어진 이미지를 분석하여 상기 제3의 주어진 이미지 내 특정 주체의 존재 및 위치를 결정하는 수단을 더 포함하며,
    상기 구성하는 수단은, 상기 제3의 주어진 이미지 내 특정 주체의 존재를 결정하는 것에 응답하여, 상기 특정 오디오 신호 성분에 기초하여 중간 오디오 신호를 상기 제3의 주어진 이미지 내 상기 특정 주체의 상기 결정된 위치에 대응하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호로서 구성하도록 구성된
    장치.
  60. 제 59 항에 있어서,
    상기 특정 주체는 사람 얼굴을 포함하는
    장치.
  61. 하나 이상의 명령의 하나 이상의 시퀀스를 포함하는 컴퓨터 프로그램으로서, 상기 명령은, 하나 이상의 프로세서에 의해 실행될 때, 장치가 적어도,
    오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 상기 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하고,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하고,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하는 동작을 수행하게 하는
    컴퓨터 프로그램.
  62. 제 61 항에 있어서,
    컴퓨터 판독가능 명령을 더 포함하며, 상기 컴퓨터 판독가능 명령은,
    복수의 오디오 신호들 - 각각의 오디오 신호는 복수의 이미지들 중 한 이미지와 연관됨 - 을 획득하고,
    복수의 위치 표시자들 - 각각의 위치 표시자는 상기 복수의 이미지들 중 한 이미지와 연관됨 - 을 획득하고,
    상기 이미지 그룹이 그와 연관된 제1 위치를 참조하는 위치 표시자를 갖는 이미지들을 포함하도록 상기 그룹을 상기 복수의 이미지들의 서브셋으로서 결정하도록 구성된
    컴퓨터 프로그램.
  63. 제 62 항에 있어서,
    상기 위치 정보는 글로벌 포지셔닝 시스템 좌표를 포함하는
    컴퓨터 프로그램.
  64. 제 62 항 또는 제 63 항에 있어서,
    상기 제1 위치는 기 설정된 기준 위치로부터의 사전에 규정된 최대 거리로 결정되는
    컴퓨터 프로그램.
  65. 제 61 항 내지 제 64 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은,
    각각의 이미지마다, 각각의 중간 오디오 신호의 결정을 위해 그와 연관된 오디오 신호의 세그먼트를 결정하는 동작과,
    각각의 이미지마다, 그와 연관된 상기 오디오 신호의 상기 결정된 세그먼트에 기초하여 상기 각각의 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 동작을 포함하며,
    상기 구성하는 동작은 상기 오디오 트랙을 상기 중간 오디오 신호의 연쇄로서 구성하는 동작을 포함하는
    컴퓨터 프로그램.
  66. 제 61 항 내지 제 64 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 동작과,
    제1의 주어진 오디오 신호가 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제1 지속기간을 갖는 엠비언스 트랙(ambiance track) - 상기 엠비언스 트랙은 상기 주변 신호 성분에 기초하여 결정됨 - 을 결정하는 동작을 포함하며,
    상기 구성하는 동작은 상기 엠비언스 트랙 및 상기 하나 이상의 중간 오디오 신호에 기초하여 상기 오디오 트랙을 구성하는 동작을 포함하는
    컴퓨터 프로그램.
  67. 제 36 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은, 제2의 주어진 오디오 신호가 제2 주변 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제2 주변 신호 성분에 또한 기초하여 상기 제1 지속기간을 갖는 엠비언스 트랙을 결정하는 동작을 포함하는
    컴퓨터 프로그램.
  68. 제 66 항 또는 제 67 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 주변 신호 성분을 포함하는지를 결정하는 동작은 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 따라서 수행되는
    컴퓨터 프로그램.
  69. 제 68 항에 있어서,
    상기 이미지 모드 데이터는 상기 각각의 이미지가 유래하는 카메라의 동작 모드를 나타내는
    컴퓨터 프로그램.
  70. 제 61 항 내지 제 69 항 중 어느 한 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하는 동작은,
    상기 오디오 신호들 중 적어도 하나를 분석하여 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하는 동작과,
    제3의 주어진 이미지와 연관된 상기 오디오 신호가 특정 오디오 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 적어도 부분적으로 상기 특정 오디오 신호 성분에 기초하여 상기 제3의 주어진 이미지의 상기 할당된 시청 시간과 본질적으로 일치하는 지속기간을 갖는 중간 오디오 신호를 결정하는 동작을 포함하며,
    상기 구성하는 동작은 적어도 부분적으로 상기 중간 오디오 신호에 기초하여 상기 제3의 주어진 이미지의 상기 시청 시간에 맞추어 일시 조정된 오디오 트랙 부분을 구성하는 동작을 포함하는
    컴퓨터 프로그램.
  71. 제 70 항에 있어서,
    상기 오디오 신호들 중 적어도 하나를 분석하여 상기 오디오 신호가 특정 오디오 신호 성분을 포함하는지를 결정하는 동작은 상기 이미지 그룹의 이미지들과 연관된 이미지 모드 데이터에 따라서 수행되는
    컴퓨터 프로그램.
  72. 제 70 항 또는 제 71 항에 있어서,
    상기 특정 오디오 신호 성분은 목소리 또는 음성 신호를 포함하는
    컴퓨터 프로그램.
  73. 제 70 항 내지 제 72 항 중 어느 한 항에 있어서,
    상기 특정 오디오 신호 성분은 공간 오디오 신호를 포함하는
    컴퓨터 프로그램.
  74. 제 70 항 내지 제 73 항 중 어느 한 항에 있어서,
    하나 이상의 명령의 하나 이상의 시퀀스를 더 포함하고, 상기 명령은, 하나 이상의 프로세서에 의해 실행될 때, 상기 장치가 추가로 적어도,
    상기 제3의 주어진 이미지와 연관된 상기 오디오 신호가 특정 신호 성분을 포함한다고 결정한 것에 대한 응답으로, 상기 제3의 주어진 이미지를 분석하여 상기 제3의 주어진 이미지 내 특정 주체의 존재 및 위치를 결정하는 동작을 수행하게 하며,
    상기 구성하는 동작은, 상기 제3의 주어진 이미지 내 특정 주체의 존재를 결정하는 것에 대한 응답으로, 상기 특정 오디오 신호 성분에 기초하여 중간 오디오 신호를 상기 제3의 주어진 이미지 내 상기 특정 주체의 상기 결정된 위치에 대응하는 인식 가능한 도달 방향을 갖는 공간 오디오 신호로서 구성하는 동작을 포함하는
    컴퓨터 프로그램.
  75. 제 74 항에 있어서, 상기 특정 주체는 사람 얼굴 또는 사람 형상에 대응하는 형상을 포함하는
    컴퓨터 프로그램.
  76. 프로그램 코드가 저장되는 적어도 하나의 컴퓨터 판독가능 비일시적 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 프로그램은 장치에 의해 실행될 때 상기 장치가 적어도,
    오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 상기 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하게 하고,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하게 하고,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하게 하는
    컴퓨터 프로그램 제품.
  77. 하나 이상의 명령의 하나 이상의 시퀀스를 포함하는 컴퓨터 프로그램 제품으로서, 상기 명령은 하나 이상의 프로세서에 의해 실행될 때, 장치가 적어도,
    오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 상기 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하게 하고,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하게 하고,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하는 동작을 수행하게 하는
    컴퓨터 프로그램 제품.
  78. 컴퓨터와 함께 사용하기 위해 구현된 컴퓨터 프로그램 코드가 담겨진 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품으로, 상기 컴퓨터 프로그램 코드는,
    오디오 신호들의 그룹 - 각각의 오디오 신호는 이미지 그룹의 각 이미지와 연관되고, 상기 이미지 그룹은 할당된 전체 시청 시간을 갖는 프리젠테이션을 위해 제공되고, 각각의 이미지는 할당된 시청 시간을 가짐 - 을 획득하는 코드와,
    상기 오디오 신호들 중 적어도 하나를 분석하여 제1 지속기간 - 상기 제1 지속기간은 상기 할당된 전체 시청 시간을 본질적으로 포함함 - 을 갖는 오디오 트랙의 결정을 위한 하나 이상의 중간 오디오 신호를 결정하는 코드와,
    상기 하나 이상의 중간 오디오 신호에 기초하여 상기 제1 지속기간을 갖는 상기 오디오 트랙을 구성하는 코드를 포함하는
    컴퓨터 프로그램 제품.
KR1020147020414A 2011-12-22 2011-12-22 오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램 KR20140112527A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2011/051150 WO2013093175A1 (en) 2011-12-22 2011-12-22 A method, an apparatus and a computer program for determination of an audio track

Publications (1)

Publication Number Publication Date
KR20140112527A true KR20140112527A (ko) 2014-09-23

Family

ID=48667811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147020414A KR20140112527A (ko) 2011-12-22 2011-12-22 오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램

Country Status (6)

Country Link
US (1) US20140337742A1 (ko)
EP (1) EP2795402A4 (ko)
JP (1) JP2015507762A (ko)
KR (1) KR20140112527A (ko)
CN (1) CN104011592A (ko)
WO (1) WO2013093175A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750058B (zh) * 2013-12-31 2017-09-26 广州励丰文化科技股份有限公司 全景多通道音频控制方法
CN104751869B9 (zh) * 2013-12-31 2019-01-18 广州励丰文化科技股份有限公司 基于变轨声像的全景多通道音频控制方法
CN104754244B (zh) * 2013-12-31 2017-12-05 广州励丰文化科技股份有限公司 基于变域声像效果的全景多通道音频控制方法
CN104750055B (zh) * 2013-12-31 2017-07-04 广州励丰文化科技股份有限公司 基于变轨声像效果的全景多通道音频控制方法
CN104754243B (zh) * 2013-12-31 2018-03-09 广州励丰文化科技股份有限公司 基于变域声像控制的全景多通道音频控制方法
CN104754242B (zh) * 2013-12-31 2017-10-13 广州励丰文化科技股份有限公司 基于变轨声像处理的全景多通道音频控制方法
CN106101931A (zh) * 2016-07-07 2016-11-09 安徽四创电子股份有限公司 一种基于fpga的多通道矩阵数字混音系统
US10547658B2 (en) * 2017-03-23 2020-01-28 Cognant Llc System and method for managing content presentation on client devices
EP3588988B1 (en) * 2018-06-26 2021-02-17 Nokia Technologies Oy Selective presentation of ambient audio content for spatial audio presentation
EP3716039A1 (en) * 2019-03-28 2020-09-30 Nokia Technologies Oy Processing audio data

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6337683B1 (en) * 1998-05-13 2002-01-08 Imove Inc. Panoramic movies which simulate movement through multidimensional space
US20030225572A1 (en) * 1998-07-08 2003-12-04 Adams Guy De Warrenne Bruce Selectively attachable device for electronic annotation and methods therefor
EP0985962A1 (en) * 1998-09-11 2000-03-15 Sony Corporation Information reproducing system, information recording medium, and information recording system
EP1028583A1 (en) * 1999-02-12 2000-08-16 Hewlett-Packard Company Digital camera with sound recording
US20030085913A1 (en) * 2001-08-21 2003-05-08 Yesvideo, Inc. Creation of slideshow based on characteristic of audio content used to produce accompanying audio display
JP2003274343A (ja) * 2002-03-14 2003-09-26 Konica Corp カメラ、画像処理装置、及び画像処理方法
US7840586B2 (en) * 2004-06-30 2010-11-23 Nokia Corporation Searching and naming items based on metadata
JP2006065002A (ja) * 2004-08-26 2006-03-09 Kenwood Corp コンテンツ再生装置及び方法
JP2006238220A (ja) * 2005-02-25 2006-09-07 Fuji Photo Film Co Ltd 撮像装置、撮像方法、及びプログラム
US7541534B2 (en) * 2006-10-23 2009-06-02 Adobe Systems Incorporated Methods and apparatus for rendering audio data
FR2908901B1 (fr) * 2006-11-22 2009-03-06 Thomson Licensing Sas Procede d'association d'une image fixe associee a une sequence sonore, et appareil pour effectuer une telle association
JP5214394B2 (ja) * 2008-10-09 2013-06-19 オリンパスイメージング株式会社 カメラ
JP2011019000A (ja) * 2009-07-07 2011-01-27 Sony Corp 情報処理装置、音声選択方法及びそのプログラム
JP2011087210A (ja) * 2009-10-19 2011-04-28 J&K Car Electronics Corp 画像・音声再生装置

Also Published As

Publication number Publication date
EP2795402A1 (en) 2014-10-29
CN104011592A (zh) 2014-08-27
US20140337742A1 (en) 2014-11-13
EP2795402A4 (en) 2015-11-18
WO2013093175A1 (en) 2013-06-27
JP2015507762A (ja) 2015-03-12

Similar Documents

Publication Publication Date Title
KR20140112527A (ko) 오디오 트랙의 결정을 위한 방법, 장치 및 컴퓨터 프로그램
US9128897B1 (en) Method and mechanism for performing cloud image display and capture with mobile devices
EP3171602A1 (en) Information processing device, display device, information processing method, program, and information processing system
US20150003802A1 (en) Audio/video methods and systems
KR20220155396A (ko) 영상 음향 처리 장치 및 방법, 및 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체
US8994785B2 (en) Method for generating video data and image photographing device thereof
US10972800B2 (en) Apparatus and associated methods
JP4859876B2 (ja) 情報処理装置
US10734029B2 (en) Signal processing apparatus, signal processing method, and non-transitory computer-readable storage medium
US10664128B2 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
JP6216169B2 (ja) 情報処理装置、情報処理方法
US11631422B2 (en) Methods, apparatuses and computer programs relating to spatial audio
JP6999516B2 (ja) 情報処理装置
JP2020520576A (ja) 空間オーディオの提示のための装置および関連する方法
KR20110058438A (ko) 프리젠테이션 녹화 장치 및 방법
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
US20150208000A1 (en) Personalized media remix
JP2019087973A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US10643303B1 (en) Systems and methods for providing punchouts of videos
JP6410769B2 (ja) 情報処理システム及びその制御方法、コンピュータプログラム
US20140063057A1 (en) System for guiding users in crowdsourced video services
KR20180006798A (ko) 디스플레이장치와, 기록매체
US20120212606A1 (en) Image processing method and image processing apparatus for dealing with pictures found by location information and angle information
US20230274767A1 (en) Composite video generation
US20150363157A1 (en) Electrical device and associated operating method for displaying user interface related to a sound track

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E601 Decision to refuse application