KR20220148915A - 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기 - Google Patents

오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기 Download PDF

Info

Publication number
KR20220148915A
KR20220148915A KR1020227035410A KR20227035410A KR20220148915A KR 20220148915 A KR20220148915 A KR 20220148915A KR 1020227035410 A KR1020227035410 A KR 1020227035410A KR 20227035410 A KR20227035410 A KR 20227035410A KR 20220148915 A KR20220148915 A KR 20220148915A
Authority
KR
South Korea
Prior art keywords
sound
relative position
target
target object
dimensional
Prior art date
Application number
KR1020227035410A
Other languages
English (en)
Inventor
쥔지에 시
Original Assignee
베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 filed Critical 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드
Publication of KR20220148915A publication Critical patent/KR20220148915A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

본 발명은 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기에 관한 것이다. 상기 방법은, 단말기에 의해 캡처된 원본 이미지를 획득하는 단계(11); 상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계(12); 상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여(13), 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 단계를 포함한다. 이러한 방식을 기반으로, 단말기에 의한 이미지의 지속적인 캡처 과정에서, 단말기의 실시간 위치에 부합되는 3차원 효과를 갖는 오디오를 지속적으로 생성할 수 있으므로, 단말기를 들고 있는 사용자는 현재 이동 추세에 부합되는 공간감이 있는 오디오를 들을 수 있고, 가상 장면에서 사용자의 몰입감이 향상된다.

Description

오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기
본 발명은 컴퓨터 기술분야에 관한 것으로, 구체적으로 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기에 관한 것이다.
본 발명은 2020년 03월 31일에 중국 특허국에 제출한, 출원번호가 202010245598.6이고, 발명의 명칭이 “오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기”인 중국 특허 출원의 우선권을 주장하는 바, 그 모든 내용은 참조로서 본 발명에 원용된다.
AR(Augmented Reality, 증강현실)은 가상과 현실의 결합을 강조하며, 짧은 동영상 애플리케이션 게임 플레이의 새로운 트렌드로서, 사용자가 현실 세계와 상호작용할 수 있도록 하며, 예를 들어, 특정 물체를 촬영하였을 때 상기 물체에 대응되는 특수효과를 디스플레이한다. 기존의 AR 제품은 사용자에게 가상과 현실의 결합을 시각적으로 제공할 수 있지만, 사운드를 갖는 특수효과의 경우 사용자는 환경과 사운드를 감지할 때 “혼란감”이 쉽게 생긴다. 예를 들어, 특정 물체가 인식되었을 때 특정 오디오를 재생하도록 미리 설정되어 있는 경우, 사용자가 휴대폰으로 해당 물체를 촬영하였을 때 휴대폰에서 특정 오디오가 재생될 수 있으나, 사용자가 해당 물체로부터 점차 멀어지거나 해당 물체와 가까워질 때 사용자에게 들리는 사운드는 변하지 않고, 예컨대 사용자가 해당 물체로부터 점차 멀어지면, 사용자의 상식적 인지에 따르면 들리는 사운드가 낮아져야 하지만, 실제로 사용자는 계속하여 같은 크기의 사운드가 들릴 수 있는데, 이는 사용자의 인지와 일치하지 않아, 사용자에게 “혼란감”을 생성하므로, 사용자의 체험에 영향을 미치고, AR 장면에서의 사용자의 몰입감을 감소시킨다.
해당 발명의 내용 부분을 제공하여 간단한 형태로 구상을 쉽게 소개하며, 이러한 구상은 아래의 구체적인 실시형태 부분에서 상세하게 설명될 것이다. 해당 발명의 내용 부분은 보호하고자 하는 기술적 해결수단의 핵심 특징 또는 필요한 특징을 식별하기 위한 것이 아니며, 보호받고자 하는 기술적 해결수단의 범위를 한정하려는 의도도 아니다.
제1 양태에서, 본 발명은 오디오 처리 방법을 제공하고, 상기 방법은,
단말기에 의해 캡처된 원본 이미지를 획득하는 단계;
상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계; 및,
상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 단계를 포함한다.
제2 양태에서, 본 발명은 오디오 처리 장치를 제공하고, 상기 장치는,
단말기에 의해 캡처된 원본 이미지를 획득하는 제1 획득 모듈;
상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 제1 결정 모듈; 및,
상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 오디오 처리 모듈을 포함한다.
제3 양태에서, 본 발명은 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 제공하고, 상기 컴퓨터 프로그램이 처리 장치에 의해 실행될 경우 본 발명의 제1 양태에 따른 방법의 단계를 구현한다.
제4 양태에서, 본 발명은 전자기기를 제공하고,
컴퓨터 프로그램이 저장된 저장 장치; 및,
상기 저장 장치 중의 상기 컴퓨터 프로그램을 실행하여, 본 발명의 제1 양태에 따른 방법의 단계를 구현하는 처리 장치를 포함한다.
제5 양태에서, 본 발명은 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하고, 상기 컴퓨터 프로그램이 처리 장치에 의해 실행될 경우 본 발명의 제1 양태에 따른 방법의 단계를 구현한다.
제6 양태에서, 본 발명은, 처리 장치에 의해 실행될 경우 본 발명의 제1 양태에 따른 방법의 단계를 구현하는 컴퓨터 프로그램을 제공한다.
상술한 기술적 해결수단을 통해, 단말기에 의해 캡처된 원본 이미지를 획득하고, 상기 원본 이미지를 기초로, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하며, 제1 3차원 상대적 위치를 기초로 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 타깃 사운드의 사운드 소스 위치 및 제1 3차원 상대적 위치가 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 한다. 여기서, 타깃 사운드는 효과음 객체에 대응되는 효과음 사운드이다. 이에 따라, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 기반으로 타깃 사운드에 대해 3차원 효과 처리를 수행할 수 있으며, 얻은 오디오는 사용자에게 들릴 때 단말기의 실시간 위치에 더 부합된다. 또한, 이러한 방식을 기반으로, 단말기가 이미지를 지속적으로 캡처하는 과정에서, 단말기의 실시간 위치에 부합되는 3차원 효과를 갖는 오디오를 지속적으로 생성하고, 단말기의 위치 변화에 따라 적응적으로 변화될 수 있으므로, 단말기를 잡고 있는 사용자는 현재 이동 추세에 부합되는 공간감이 있는 오디오를 들을 수 있고, 가상 장면에서의 사용자의 몰입감이 향상된다.
본 발명의 다른 특징과 이점은 아래의 구체적인 실시형태 부분에서 상세하게 설명될 것이다.
첨부 도면을 결합하고 이하 구체적인 실시형태를 참조하여 본 발명의 각 실시예의 상기 및 다른 특징, 이점 및 양태는 더 명백해질 것이다. 첨부 도면 전체에서, 동일하거나 유사한 도면 부호는 동일하거나 유사한 요소를 나타낸다. 첨부 도면은 예시적인 것이며, 원본과 요소가 반드시 축적대로 그려지는 것은 아님을 이해해야 할 것이다. 도면에서,
도 1은 본 발명의 일 실시형태에 따른 오디오 처리 벙법의 흐름도이다.
도 2는 본 발명에 따른 오디오 처리 방법에서 원본 이미지를 기초로 단말기에 대한 타깃 객체의 3차원 상대적 위치를 결정하는 단계의 일 예시적인 흐름도이다.
도 3은 본 발명의 일 실시형태에 따른 오디오 처리 장치의 블록도이다.
도 4는 본 발명의 실시예를 구현하기에 적합한 전자기기의 구성도이다.
아래에서는 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세하게 설명한다. 본 발명의 일부 실시예가 도면에 도시되어 있지만 본 발명은 다양한 형태로 구현될 수 있고, 여기서 설명된 실시예에 한정되는 것으로 해석되어서는 안되며, 반대로 이러한 실시예를 제공하는 것은 본 발명을 보다 분명하고 완전하게 이해하기 위한 것임을 이해해야 할 것이다. 본 발명의 첨부 도면 및 실시예는 단지 예시로서 작용되며, 본 발명의 보호 범위를 한정하려는 것이 아님을 이해해야 할 것이다.
본 발명의 방법 실시형태에 기재된 각각의 단계는 상이한 순서로 수행되거나 병렬로 수행될 수 있음을 이해해야 할 것이다. 또한, 방법 실시형태는 부가적인 단계를 포함하거나 도시된 단계를 수행하는 것을 생략할 수 있다. 본 발명의 범위는 이에 한정되지 않는다.
본문에서 사용되는 용어 “포함” 및 이의 변형은 개방형 포함, 즉 “포함하지만 이에 한정되지 않는다”이다. 용어 “에 기반하여”는 “적어도 부분적으로 기반하여”이다. 용어 “일 실시예”는 “적어도 하나의 실시예”를 나타내고; 용어 “다른 실시예”는 “적어도 하나의 다른 실시예”를 나타내며; 용어 “일부 실시예”는 “적어도 일부 실시예”를 나타낸다. 다른 용어의 관련 정의는 아래 설명에서 제공될 것이다.
유의해야 할 것은, 본 발명에서 언급된 “제1”, “제2” 등 개념은 상이한 장치, 모듈 또는 유닛을 구별하기 위한 것일 뿐, 이러한 장치, 모듈 또는 유닛에 의해 실행되는 기능의 순서 또는 상호 의존 관계를 한정하려는 것이 아니다.
유의해야 할 것은, 본 발명에서 언급된 “일”, “복수”의 수식어는 제한적이 아니라 예시적이며, 본 기술분야의 기술자는 문맥 상 달리 명확하게 지시하지 않는 한, “하나 이상”으로 이해해야 함을 이해해야 할 것이다.
도 1은 본 발명의 일 실시형태에 따른 오디오 처리 벙법의 흐름도이다. 도1에 도시된 바와 같이, 상기 방법은 하기와 같은 단계를 포함할 수 있다.
단계 11에서, 단말기에 의해 캡처된 원본 이미지를 획득한다.
단말기는 촬영 기능을 갖는 장치(예를 들어, 단말기에 설치된 카메라)를 통해 이미지를 캡처할 수 있다. 예시적으로, 사용자가 단말기의 촬영 프로그램을 열면, 스크린에 디스플레이되는 뷰파인더 프레임(예를 들어, AR 뷰파인더 프레임)은 지속적으로 뷰파인더 프레임 내의 콘텐츠를 캡처할 수 있고, 즉, 지속적으로 이미지 캡처를 수행하며, 구체적인 캡처 방법은, 예를 들어 뷰파인더 프레임이 열린 후 주기적으로 캡처하고(주기는 경험값에 따라 미리 설정될 수 있음), 캡처되는 순간마다 현재 뷰파인더 프레임 내의 콘텐츠를 자동으로 캡처하는 방법일 수 있다. 실제 응용 장면에서 단말기의 뷰파인더 프레임이 켜져 있을 경우, 뷰파인더 프레임이 켜질 때부터 상기 뷰파인더 프레임이 이번에 꺼질 때까지 그 과정에서 여러 번의 캡처가 수행될 수 있고, 매번 상응한 이미지를 캡처할 수 있으며, 캡처된 각 이미지는 원본 이미지로서 사용될 수 있다.
단계 12에서, 원본 이미지를 기초로, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정한다.
원본 이미지를 통해 단말기에 대한 타깃 객체의 3차원 상대적 위치를 결정할 수 있다. 여기서, 타깃 객체는 원본 이미지에 존재하는 객체일 수 있거나, 또는, 타깃 객체는 원본 이미지에 나타나지 않는 객체일 수도 있다(전제는 동일 촬영 과정에서 단말기에 의해 원본 이미지가 촬영되기 전의 과거 촬영에서 타깃 객체가 이미 촬영되었으며, 타깃 객체는 단말기가 촬영 이동하는 과정에서 원본 이미지에서 일시적으로 “화면에서 벗어날” 뿐인 것이다).
본 발명에서 제공된 응용 장면에서, 타깃 객체에는 효과음 객체가 대응되어 있고, 효과음 객체에는 효과음 사운드가 대응되어 있는 것으로 간주되며(타깃 객체, 효과음 객체, 효과음 사운드 간에 어떻게 대응되는지는 미리 설정될 수 있음), 효과적으로, 타깃 객체가 존재하는 것으로 결정되면 타깃 객체에 대응되는 효과음 객체의 효과음 사운드가 재생되는 것으로 표현되며, 사용자에게 들려지는 발성의 사운드 소스 위치(즉, 효과음 사운드의 위치)는 사용자의 인지를 만족해야 한다.
여기서, 효과음 객체는 타깃 객체와 동일한 위치에 있을 수 있고, 상이한 위치(예를 들어, 타깃 객체 주변에 위치함)에 있을 수도 있다. 예를 들어, 건물 A가 인식될 때 비행기 비행 소리가 재생되고, 비행기가 건물 A의 왼쪽에서 건물 A의 오른쪽으로 날아가는 것으로 설정될 경우, 타깃 객체는 건물 A이고, 효과음 객체는 비행기이며, 효과음 사운드는 비행기 비행 소리이고, 이 예에서, 효과음 객체 및 타깃 객체는 동일한 위치에 있지 않고, 효과음 객체는 타깃 객체의 왼쪽에서 타깃 객체의 오른쪽으로 이동하였음을 알 수 있다. 다른 예로, 건물 B가 인식될 때 건물 B에 대한 소개 음성이 재생되도록 설정될 경우, 타깃 객체는 건물 B이고, 효과음 객체는 건물 B이며, 효과음 사운드는 건물 B의 소개 음성이고, 이 예에서, 효과음 객체 및 타깃 객체는 동일한 위치에 있는 것을 알 수 있다.
실제 장면에서 타깃 객체가 존재하는 것으로 결정(예를 들어, 타깃 객체가 화면에 있거나 타깃 객체가 일시적으로 “화면에서 벗어남”)될 때 사운드가 재생되어야 하므로, 본 해결수단의 목적은 재생 효과가 변화없는 오디오를 보다 공간감이 있는 오디오로 처리하는 것이며, 공간 위치는 공간감을 형성하는데 필수적이고, 공간감을 형성하는데 필요한 공간 위치는 당연히 단말기에 대한 타깃 객체의 3차원 상대적 위치, 즉 제1 3차원 상대적 위치이다.
일 가능한 실시형태에서, 도 2에 도시된 바와 같이, 단계 12는 하기와 같은 단계를 포함할 수 있다.
단계 21에서, 원본 이미지에 대해 특징 추출을 수행하여 원본 이미지 중의 제1 앵커 포인트 정보를 획득한다.
제1 앵커 포인트 정보는 원본 이미지에 대대 특징 추출 후 인식된 원본 이미지 중 적어도 하나의 앵커 포인트(즉, 특징점)를 포함할 수 있다. 여기서, 특징 추출 방법은 본 기술분야의 통상적인 수단이므로 여기서 반복 서술하지 않는다.
단계 22에서, 미리 저장된 타깃 객체에 대응되는 기준 앵커 포인트 정보를 기초로, 제1 앵커 포인트 정보가 기준 앵커 포인트 정보와 매칭될 수 있는지 여부를 판단한다.
실제 장면에서, 이미지에 타깃 객체가 존재하면 타깃 객체에 대응되는 특수효과, 사운드 등을 나타낼 수 있다. 예를 들어, 타깃 객체가 시계탑이고, 이미지에 시계탑이 존재할 때 시계 애니메이션이 디스플레이되고, 시계 소리가 재생되도록 설정될 결우, 원본 이미지에 시계탑이 포함되어 있으면, 시계를 시계탑에 부착하는 동시에 시계 소리가 재생되어야 한다.
타깃 객체는 모델링된 객체이며, 데이터 처리의 초기 단계에서 우선 타깃 객체가 포함된 일련의 이미지에 대해 특징 추출을 수행하여 타깃 객체의 기준 앵커 포인트 정보를 결정하여 저장하되, 여기서 타깃 객체의 기준 앵커 포인트 정보는 타깃 객체 인식에 도움이 될 수 있는 적어도 하나의 앵커 포인트를 포함한다. 예시적으로, 타깃 객체가 책상인 경우, 먼저 책상을 포함하는 대량의 이미지를 수집한 다음, 수집된 이미지를 기반으로 각 이미지에 대해 특징 추출을 수행하여 책상을 특성화할 수 있는 특징 포인트를 얻음으로써, 책상에 대응되는 기준 앵커 포인트 정보를 결정하고, 객체인 책상과 연관시켜 저장한다. 실제 응용에서, 모델링된 모든 객체에 대응되는 기준 앵커 포인트 정보를 저장하는 앵커 포인트 정보 라이브러리를 구축할 수 있으며, 이에 따라 원본 이미지에 타깃 객체가 존재하는지 여부 및 존재하는 타깃 객체의 종류를 더 빠르게 결정할 수 있다.
상술한 바와 같이, 타깃 객체의 기준 앵커 포인트 정보는 타깃 객체 인식에 크게 도움이 될 수 있다. 따라서, 제1 앵커 포인트 정보와 기준 앵커 포인트 정보를 비교하여, 원본 이미지에 타깃 객체와 유사한 객체가 존재하는지 여부를 판단하여, 원본 이미지에 타깃 객체가 존재하는지 여부를 결정할 수 있다. 구체적으로 제1 앵커 포인트 정보가 기준 앵커 포인트 정보와 매칭될 수 있는지 여부를 판단할 수 있다. 예시적으로, 제1 앵커 포인트 정보와 기준 앵커 포인트 정보의 유사 정도를 계산할 수 있으며, 양자의 유사 정도가 유사도 임계값(경험값에 따라 설정됨)보다 높을 경우 양자가 매칭되는 것으로 판단하고, 양자의 유사 정도가 유사도 임계값에 도달하지 못할 경우, 양자가 매칭되지 않는 것으로 판단한다. 제1 앵커 포인트 정보와 기준 앵커 포인트 정보의 유사도를 계산하기 위해서는 코사인 유사도와 같은 통상적인 계산 방법이 사용될 수 있으며, 여기서 반복 서술하지 않는다.
단계 23에서, 제1 앵커 포인트 정보가 기준 앵커 포인트 정보와 매칭되는 것으로 결정되면, 제1 앵커 포인트 정보를 기초로, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정한다.
만약 단계 22를 통해 제1 앵커 포인트 정보가 기준 앵커 포인트 정보와 매칭되는 것으로 결정되면, 원본 이미지에 타깃 객체가 존재하고 상기 타깃 객체는 미리 저장된 객체 중 하나임을 나타낸다. 따라서, 원본 이미지의 제1 앵커 포인트 정보를 기초로, 단말기에 대한 타깃 객체의 3차원 상대적 위치 즉 제1 3차원 상대적 위치를 바로 결정할 수 있다. 여기서, 이미지 및 이미지 중 특정된 포인트(또는, 다수의 포인트)를 기초로, 이미지를 촬영한 단말기에 대한 상기 포인트의 3차원 상대적 위치를 결정하는 것은 본 기술분야의 통상적인 수단이므로, 여기서 반복 서술하지 않는다. 예를 들어, iOS 시스템의 경우, AR 키트(ARKit), AR 코어(ARCore)와 같은 인터페이스를 사용하여 상술한 데이터 처리를 완료할 수 있다.
다른 가능한 실시형태에서, 단계 12는,
사용자가 원본 이미지에 대해 앵커 포인트 표기 동작을 수행하여 생성한 제2 앵커 포인트 정보가 획득되면, 제2 앵커 포인트 정보를 기초로 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계를 포함할 수 있다.
여기서, 제2 앵커 포인트 정보는 사용자가 원본 이미지에 대해 앵커 포인트 표기 동작을 수행하여 생성한 적어도 하나의 앵커 포인트를 포함할 수 있다. 이러한 실시형태에서, 사용자는 뷰파인더 프레임에서 앵커 포인트 표기 동작을 수동으로 수행할 수 있으며, 즉, 원본 이미지에 대해 복잡한 사진 분석을 수행할 필요가 없이, 사용자의 앵커 포인트 표기 동작에 의해 생성된 제2 앵커 포인트 정보를 기반으로, 원본 이미지 중 제2 앵커 포인트 정보에 대응되는 타깃 객체를 결정한다. 예시적으로, 제2 앵커 포인트 정보를 기초로 원본 이미지에서 하나의 범위를 확정할 수 있으며, 해당 범위에 포함되는 콘텐츠를 타깃 객체로 간주할 수 있다. 추후의 이미지 캡처에서, 타깃 객체에 대한 위치 결정은 모두 이를 기반으로 할 수 있으며, 예를 들어, 사용자가 앵커 포인트를 원본 이미지의 중심에 표기하면, 현재 결정된 타깃 객체는 원본 이미지의 중심에 대응되는 콘텐츠이고, 추후의 캡처 순간에 단말기가 왼쪽 위로 움직이는 것과 같이 단말기가 움직이면, 타깃 객체의 위치는 여전히 중심에 있는 것이 아니고 오른쪽 아래로 움직인다.
제2 앵커 포인트 정보를 기초로 제1 3차원 상대적 위치를 결정하는 것은 단계 23과 유사하고, 즉 직접 원본 이미지의 제2 앵커 포인트 정보를 기초로 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정할 수 있다. 여기서 상술한 바와 같이, 이미지 및 이미지 중 특정된 포인트(또는, 다수의 포인트)에 따라, 이미지를 촬영한 단말기에 대한 상기 포인트의 3차원 상대적 위치를 결정하는 것은 본 기술분야의 통상적인 수단이고, 예를 들어, iOS 시스템의 경우, ARKit, ARCore와 같은 인터페이스를 사용하여 상술한 데이터 처리를 완성할 수 있다.
상기 방식을 사용하면, 사용자는 이미지에 대한 복잡한 분석 및 계산할 필요가 없이 타깃 객체의 위치를 바로 결정할 수 있으므로, 데이터 처리량을 효과적으로 줄이고 사용자에게 더 높은 유연성과 향상된 사용자 체험을 제공할 수 있다.
다른 가능한 실시형태에서, 단계 12는,
원본 이미지에 타깃 객체가 존재하지 않는 경우, 타깃 객체에 대응되는 과거 움직임 궤적 정보를 획득하는 단계; 및,
과거 움직임 궤적 정보에 따라, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계를 포함할 수 있다.
상술한 바와 같이, 단말기 이동 촬영 과정에서, 단말기의 이동으로 인해 타깃 객체가 일시적으로 “화면에서 벗어”날 수 있으며, 이 경우, 타깃 객체가 원본 이미지에 나타나지 않지만, 단말기에 대한 타깃 객체의 3차원 상대적 위치는 여전히 획득될 수 있다.
만약 원본 이미지에 타깃 객체가 존재하지 않으면, 이 때 타깃 객체가 일시적으로 단말기의 촬영 뷰파인더 프레임 밖으로 이동하였을 수 있음을 의미하므로, 타깃 객체에 대응되는 과거 움직임 궤적 정보를 획득할 수 있다. 여기서, 과거 움직임 궤적 정보는 단말기가 원본 이미지이전에 캡처된 이미지에 대해 움직임 추적을 수행하여 얻은 것이다.
과거 움직임 궤적 정보를 통해 단말기에 의해 원본 이미지가 캡처될 때 타깃 객체와 단말기의 상대적 위치를 유추할 수 있다. 예를 들어 타깃 객체의 과거 움직임 궤적 정보를 통해 타깃 객체의 움직임 방향 및 움직임 속도를 결정할 수 있으므로, 원본 이미지 이전의, 마지막 프레임의 타깃 객체가 존재하는 이미지 중 타깃 객체의 위치를 시작점으로 하여, 과거 움직임 궤적 중 타깃 객체의 움직임 방향, 움직임 속도, 및 마지막 프레임의 타깃 객체가 존재하는 이미지와 원본 이미지의 촬영 시간차를 기초로, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정할 수 있다.
이와 같이, 단말기에 의해 타깃 객체가 촬영되지 않는 경우, 타깃 객체에 대한 과거 움직임 추적을 통해 단말기에 대한 타깃 객체의 3차원 상대적 위치를 결정할 수도 있으므로, 단말기의 이동이 타깃 객체의 위치 결정에 미치는 영향을 방지할 수 있다.
도 1로 돌아가서, 단계 13에서, 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행한다.
제1 3차원 상대적 위에 따라, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 타깃 사운드의 사운드 소스 위치 및 제1 3차원 상대적 위치가 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 한다.
여기서, 타깃 사운드는 효과음 객체에 대응되는 효과음 사운드이다.
일 가능한 실시형태에서, 단계 13은,
제1 3차원 상대적 위치, 및 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 따라, 단말기에 대한 타깃 사운드의 사운드 소스 위치의 3차원 상대적 위치를 제2 3차원 상대적 위치로서 결정하는 단계; 및,
제2 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 타깃 사운드의 사운드 소스 위치 및 제1 3차원 상대적 위치가 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계를 포함할 수 있다.
타깃 객체에 대응되는 효과음 객체는 하나일 수 있고, 다수일 수도 있으며, 타깃 객체에 대응되는 효과음 객체가 다수일 경우, 효과음 객체 각각은 타깃 객체와의 위치 관계를 구비한다.
제1 3차원 상대적 위치, 및 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 따라, 단말기에 대한 타깃 객체의 3차원 상대적 위치, 효과음 객체에 대한 타깃 객체의 사운드 소스(즉, 타깃 사운드의 사운드 소스 위치)의 3차원 상대적 위치가 모두 알려져 있으므로, 효과음 객체에 대한 단말기의 사운드 소스(즉, 타깃 사운드의 사운드 소스 위치)의 3차원 상대적 위치, 즉 제2 3차원 상대적 위치를 쉽게 결정할 수 있다. 그 다음, 제2 3차원 상대적 위치를 기초로 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 처리된 오디오를 획득할 수 있다. 또한, 3차원 효과 처리 후 얻은 오디오 중 타깃 사운드의 사운드 소스 위치 및 제1 3차원 상대적 위치는 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합된다.
여기서, 타깃 사운드에 대한 3차원 효과 처리는 3D 사운드 렌더링을 사용할 수 있는데, 예시적으로, 3D 사운드 렌더링은 앰비소닉(ambisonic) 기술을 사용할 수 있고, 이는 본 기술분야의 통상적인 수단으로, 오디오 및 위치 정보를 기반으로 공간에서의 오디오의 사운드 및 이미지 위치를 시뮬레이션하여 양쪽 귀에 대응되는 재생 신호를 생성할 수 있다.
다른 가능한 실시형태에서, 본 발명에서 제공된 방법은,
타깃 사운드의 부가적 설명 정보를 획득하는 단계를 더 포함할 수 있다.
여기서, 부가적 설명 정보는 타깃 사운드의 사운드 소스 발성 면적, 타깃 사운드의 사운드 소스 잔향 효과, 타깃 사운드의 사운드 소스 환경 중 적어도 하나를 포함하지만 이에 한정되지 않는다.
타깃 사운드의 사운드 소스 발성 면적 이러한 부가적 설명 정보는 오디오 볼륨의 크기에 영향을 미칠 수 있다. 예를 들어, 사운드 소스 발성 면적이 작으면 볼륨이 작고, 핸드폰 등의 소형 물체를 참조할 수 있다. 다른 예로, 사운드 소스 발성 면적이 크면 볼륨이 크고, 건물 등의 대형 물체를 참조할 수 있다. 타깃 사운드의 사운드 소스 잔향 효과 이러한 부가적 설명 정보는 오디오의 잔향 효과, 즉 잔향 효과의 유무에 영향을 미칠 수 있다. 타깃 사운드의 사운드 소스 환경 이러한 부가적 설명 정보는 타깃 사운드의 사운드 소스가 실내에 있거나 실외에 있는 것과 같이 오디오의 환경 효과에 영향을 미칠 수 있다.
이러한 실시형태에서, 제2 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 타깃 사운드의 사운드 소스 위치 및 제1 3차원 상대적 위치가 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계는,
제2 3차원 상대적 위치 및 부가적 설명 정보에 따라, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 타깃 사운드의 사운드 소스 위치 및 제1 3차원 상대적 위치가 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계를 포함할 수 있다.
이러한 실시형태에서, 실제로 3D 사운드 렌더링, 잔향 효과, 볼륨 조절, 실내 및 실외 효과 등과 같은 다양한 사운드 처리 방식을 결합하여, 처리된 오디오를 획득한다. 예시적으로, 타깃 사운드의 부가적 설명 정보가 타깃 사운드의 사운드 소스 발성 면적이 작은 것이라면, 타깃 사운드에 대해 3차원 처리를 수행할 경우, 타깃 사운드 소스의 오디오에 대해 3D 사운드 렌더링을 수행하는 동시에 타깃 사운드 소스의 오디오의 볼륨을 작게 조절할 수도 있다.
상술한 기술적 해결수단을 통해, 단말기에 의해 캡처된 원본 이미지를 획득하고, 상기 원본 이미지를 기초로, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하며, 제1 3차원 상대적 위치를 기초로 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 타깃 사운드의 사운드 소스 위치 및 제1 3차원 상대적 위치가 타깃 객체와 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 한다. 여기서, 타깃 사운드는 효과음 객체에 대응되는 효과음 사운드이다. 이에 따라, 단말기에 대한 타깃 객체의 3차원 상대적 위치를 기반으로 타깃 사운드에 대해 3차원 효과 처리를 수행할 수 있으며, 얻은 오디오는 사용자가 들었을 때 단말기의 실시간 위치에 더 부합된다. 또한, 이러한 방식을 기반으로, 단말기에 의한 이미지의 지속적인 캡처 과정에서, 단말기의 실시간 위치에 부합되는 3차원 효과를 갖는 오디오를 지속적으로 생성하고, 단말기의 위치 변화에 따라 적응적으로 변화될 수 있으므로, 단말기를 들고 있는 사용자는 현재 이동 추세에 부합되는 공간감이 있는 오디오를 들을 수 있고, 가상 장면에서 사용자의 몰입감이 향상될 수 있다.
선택 가능하게, 상술한 각 실시예의 기초 상에서, 본 발명에서 제공된 방법은,
타깃 객체에 대응되는 이미지 소재를 원본 이미지의 제1 3차원 상대적 위치에 중첩시켜, 원본 이미지에 대응되는 AR 이미지를 생성하는 단계; 및,
AR 이미지를 디스플레이하는 단계를 더 포함할 수 있다.
본 실시예는 AR 이미지 특수효과에 관련된 장면을 설명한다. 각 타깃 객체에는 모두 이미지 소재가 대응되어 있을 수 있으며, 예를 들어, 건물은 건물 외측에 부착될 수 있는 콘텐츠에 대응되고, 상기 콘텐츠는 바로 건물에 대응되는 이미지 소재이다. 따라서, 오디오에 대해 처리한 기초 상에서, 사용자의 시각적 몰입감 체험을 보장하기 위해 또한 타깃 객체에 대응되는 이미지 소재를 원본 이미지의 제1 3차원 상대적 위치에 중첩시켜, 원본 이미지에 대응되는 AR 이미지를 생성하고, 상기 AR 이미지를 디스플레이할 수 있어(동시에 원본 이미지를 더 이상 디스플레이하지 않음), 사용자의 시각적인 체험을 향상시킨다.
나아가, 단말기를 통해, 생성된 AR 이미지를 디스플레이하고 단말기를 통해, 타깃 사운드에 대해 3차원 효과 처리 후 얻은 오디오를 재생할 수 있다. 예시적으로, 단말기는 사용자의 뷰파인더 과정에서 캡처된 원본 이미지에 대응되는 AR 이미지를 실시간으로 디스플레이할 수 있으며, 3차원 효과 처리 후 얻은 오디오를 실시간으로 재생할 수 있다. 다른 예로, 단말기는 또한 이미 캡처된 각 이미지를 기반으로 본 발명에서 제공된 오디오 처리 방법을 각각 수행하여, 각 이미지에 대응되는 AR 이미지 및 각 이미지에 대응되는 3차원 효과 처리 후 얻은 오디오를 얻고, 비디오를 합성하여 저장함으로써 사용자가 향후에 볼 수 있도록 할 수 있다(해당 기능은 사용자에 의해 트리거링되도록 설정할 수 있음).
선택 가능하게, 본 발명에서 제공된 방법은 사운드 처리를 통해 가상 장면에서 사용자의 몰입감을 향상시키며, 만약 사용자가 휴대하고 있는 단말기가 공간감이 있는 오디오를 사용자에게 제공할 수 없는 경우, 오디오를 재생할 필요가 없고 단말기의 불필요한 데이터 상호작용을 방지한다. 따라서, 본 발명에서 제공된 방법은,
단말기가 서라운드 사운드 재생 조건에 부합되는지 여부를 결정하는 단계; 및,
단말기가 서라운드 사운드 재생 조건에 부합되는 것으로 결정되면, 3차원 효과 처리 후 얻은 오디오를 재생하는 단계를 더 포함할 수 있다.
예시적으로, 단말기가 서라운드 사운드 재생 조건에 부합되는지 여부를 판단하기 위해서는 단말기에 2채널 이어폰이 꽂혀 있는지 확인함으로써 판단할 수 있다. 단말기에 2채널 이어폰이 꽂혀 있는 경우, 단말기가 서라운드 사운드 재생 조건에 부합되는 것으로 결정할 수 있다.
상술한 방식을 사용하여, 본 발명은 단말기가 서라운드 사운드 재생 조건을 제공할 수 있는 전제 하에 공간감이 있는 오디오를 재생하는 것을 보장할 수 있으므로, 단말기의 불필요한 데이터 상호작용을 방지한다.
도 3은 본 발명의 일 실시형태에 따른 오디오 처리 장치의 블록도이다. 도3에 도시된 바와 같이, 상기 장치(30)는,
단말기에 의해 캡처된 원본 이미지를 획득하는 제1 획득 모듈(31);
상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 제1 결정 모듈(32); 및,
상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 오디오 처리 모듈(33)을 포함한다.
선택 가능하게, 상기 제1 결정 모듈(32)은,
상기 원본 이미지에 대해 특징 추출을 수행하여, 상기 원본 이미지 중의 제1 앵커 포인트 정보를 획득하는 제1 획득 서브 모듈;
상기 미리 저장된 타깃 객체에 대응되는 기준 앵커 포인트 정보를 기초로, 상기 제1 앵커 포인트 정보가 상기 기준 앵커 포인트 정보와 매칭될 수 있는지 여부를 판단하는 판단 서브 모듈; 및,
상기 제1 앵커 포인트 정보가 상기 기준 앵커 포인트 정보와 매칭되는 것으로 결정되면, 상기 제1 앵커 포인트 정보를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 제1 결정 모듈을 포함한다.
선택 가능하게, 상기 제1 결정 모듈(32)은,
사용자가 상기 원본 이미지에 대해 앵커 포인트 표기 동작을 수행하여 생성한 제2 앵커 포인트 정보를 획득하면, 상기 제2 앵커 포인트 정보를 기초로 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 제2 결정 서브 모듈을 포함한다.
선택 가능하게, 상기 제1 결정 모듈(32)은,
상기 원본 이미지에 상기 타깃 객체가 존재하지 않는 경우, 상기 타깃 객체에 대응되는 과거 움직임 궤적 정보를 획득하되, 상기 과거 움직임 궤적 정보는 상기 단말기가 상기 원본 이미지 이전에 캡처한 이미지에 대해 움직임 추적을 수행하여 얻은 것인 제2 획득 서브 모듈; 및,
상기 과거 움직임 궤적 정보에 따라, 상기 단말기에 대한 상기 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 제3 결정 서브 모듈을 포함한다.
선택 가능하게, 상기 오디오 처리 모듈(33)은,
상기 제1 3차원 상대적 위치, 및 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 따라, 상기 단말기에 대한 상기 타깃 사운드의 사운드 소스 위치의 3차원 상대적 위치를 제2 3차원 상대적 위치로서 결정하는 제4 결정 서브 모듈; 및,
상기 제2 3차원 상대적 위치를 기초로, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 오디오 처리 서브 모듈을 포함한다.
선택 가능하게, 상기 장치(30)는,
상기 타깃 사운드의 부가적 설명 정보를 획득하되, 상기 부가적 설명 정보는 타깃 사운드의 사운드 소스 발성 면적, 타깃 사운드의 사운드 소스 잔향 효과, 타깃 사운드의 사운드 소스 환경 중 적어도 하나인 제2 획득 모듈을 더 포함하고,
상기 오디오 처리 서브 모듈은, 상기 제2 3차원 상대적 위치 및 상기 부가적 설명 정보에 따라, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 상기 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 한다.
선택 가능하게, 상기 장치(30)는,
상기 타깃 객체에 대응되는 이미지 소재를 상기 원본 이미지의 상기 제1 3차원 상대적 위치에 중첩시켜, 상기 원본 이미지에 대응되는 AR 이미지를 생성하는 이미지 처리 모듈; 및,
상기 AR 이미지를 디스플레이하는 이미지 디스플레이 모듈을 더 포함한다.
선택 가능하게, 상기 장치(30)는,
상기 단말기가 서라운드 사운드 재생 조건에 부합되는지 여부를 결정하는 제2 결정 모듈; 및,
상기 단말기가 상기 서라운드 사운드 재생 조건에 부합되는 것으로 결정되면, 상기 3차원 효과 처리 후 얻은 상기 오디오를 재생하는 오디오 재생 모듈을 더 포함한다.
상술한 실시예의 장치와 관련하여, 각 모듈에 의해 수행되는 구체적인 방식은 관련 방법의 실시예에서 이미 상세하게 설명하였으며, 여기서는 더 이상 설명하지 않는다.
아래 도 4를 참조하면 본 발명의 실시예를 구현하기 위한 전자기기(600)의 구조 모식도를 도시한다. 본 발명의 실시예의 단말기는 휴대폰, 노트북 컴퓨터, 디지털 방송 수신기, PDA(개인 휴대 단말, Personal Digital Assistant), PAD(Portable Android Device, 태블릿 컴퓨터), PMP(휴대용 멀티미디어 플레이어, Personal Multimedia Player), 차량용 단말기(예를 들어, 차량용 내비게이션 단말기)와 같은 이동 단말기 및 디지털 TV, 데스크탑 컴퓨터와 같은 고정 단말기를 포함할 수 있지만 이에 한정되지 않는다. 도 4에 도시된 전자기기는 일 예일 뿐, 본 발명의 실시예의 기능 및 사용 범위에 대해 어떠한 한정도 해서는 안된다.
도 4에 도시된 바와 같이, 전자기기(600)는 판독 전용 메모리(Read-Only Memory, ROM)(602)에 저장된 프로그램 또는 저장 장치(608)로부터 랜던 액세스 메모리(Random Access Memory, RAM)(603)로 로딩된 프로그램에 따라 다양한 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를 들어, 중앙 처리 장치, 그래픽 프로세서 등)(601)를 포함할 수 있다. RAM(603)에는, 전자기기(600)의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장되어 있다. 처리 장치(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입력/출력(Input/Output, I/O)(605) 인터페이스도 버스(604)에 연결된다.
일반적으로, 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로스코프 등을 포함하는 입력 장치(606); 예를 들어 액정 디스플레이(Liquid Crystal Display, LCD), 스피커, 진동기 등을 포함하는 출력 장치(607); 예를 들어 자기 테이프, 하드 디스크 등을 포함하는 저장 장치(608); 및, 통신 장치(609)는 I/O 인터페이스(605)에 연결될 수 있다. 통신 장치(609)는 전자기기(600)가 무선 또는 유선으로 다른 기기와 통신하여 데이터를 교환하는 것을 허용할 수 있다. 도 4에는 다양한 장치를 갖는 전자기기(600)가 도시되어 있지만, 도시된 모든 장치가 구현되거나 구비될 것을 요구하지 않는다는 점을 이해해야 한다. 더 많거나 더 적은 장치가 대안적으로 구현되거나 구비될 수 있다.
특히, 본 발명의 실시예에 따르면, 상기에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 발명의 실시예는 비 일시적 컴퓨터 판독 가능 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 장치(609)를 통해 네트워크로부터 다운로드 및 설치될 수 있거나, 또는 저장 장치(608)로부터 설치되거나, ROM(602)로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 중앙 처리 장치(601)에 의해 실행될 경우, 본 발명의 실시예의 방법에서 한정하는 상기 기능을 수행한다.
설명해야 할 것은, 본 발명에 기재된 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체 또는 이들의 임의의 조합일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들어, 전기, 자기, 광, 전자기, 적외선 또는 반도체의 시스템, 장치 또는 소자, 또는 이들의 임의의 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예로서 하나 이상의 도선에 의한 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(Electrical Programmable ROM, EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 본 발명에서, 컴퓨터 판독 가능 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형 매체일 수 있으며, 상기 프로그램은 명령 실행 시스템, 장치 또는 소자에 의해 사용되거나 이들과 결합되어 사용될 수 있다. 본 발명에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로서 전파되는 데이터 신호를 포함할 수 있다. 이러한 전파된 데이터 신호는 전자기 신호, 광학 신호 또는 상기 임의의 적절한 조합을 사용할 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능 신호 매체는 또한 컴퓨터 판독 가능 저장 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수 있으며, 상기 컴퓨터 판독 가능 신호 매체는 명령 실행 시스템, 장치 또는 소자에 의해 사용되거나 이들과 결합되어 사용되는 프로그램을 송신, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 임의의 적절한 매체에 의해 전송될 수 있으며, 와이어, 광 케이블, RF(무선 주파수, Radio Frequency) 등, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는다.
일부 실시형태에서, 클라이언트, 서버는 HTTP(HyperText Transfer Protocol, 하이퍼텍스트 전송 프로토콜)와 같은 임의의 현재 알려져 있거나 미래에 연구 개발될 네트워크 프로토콜을 이용하여 통신할 수 있고, 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)와 서로 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망(Local Area Network, “LAN”), 광역 통신망(Wide Area Network, “WAN”), 인터넷워크(예를 들어, 인터넷) 및 엔드 투 엔드 네트워크(예를 들어, 액티브 조직(ADaptive Heuristic for Opponent Classification, ad hoc) 엔드 투 엔드 네트워크) 및 임의의 현재 알려져 있거나 미래에 연구 개발될 네트워크를 포함한다.
상기 컴퓨터 판독 가능 매체는 상기 전자기기에 포함된 것일 수 있고; 상기 전자기기에 조립되지 않은 독립적으로 존재하는 것일 수도 있다.
상기 컴퓨터 판독 가능 매체에는 하나 이상의 프로그램이 베어링되고, 상기 하나 이상의 프로그램이 상기 전자기기에 의해 실행될 경우, 상기 전자기기가, 단말기에 의해 캡처된 원본 이미지를 획득하고; 상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하하고; 상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드이다.
하나 이상의 프로그래밍 언어 또는 이들의 조합으로 본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 코드를 작성할 수 있고, 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 “C” 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터와 관련되는 경우, 원격 컴퓨터는 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함한 임의의 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결)될 수 있다.
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 시스템 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부는 지정된 논리적 기능을 구현하기 위한 하나 이상의 실행 가능한 명령을 포함한다. 또한, 일부 대안적인 구현에서, 블록에 표기된 기능은 또한 도면에 도시된 것과 다른 순서로 구현될 수 있다는 점에 유의해야 한다. 예를 들어, 연속적으로 도시된 2개의 블록은 실제로 병렬로 실행될 수 있고, 관련 기능에 따라 때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도 중의 각 블록, 및 블록도 및/또는 흐름도 중의 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령을 조합하여 구현될 수도 있음에 유의해야 한다.
본 발명의 실시예에서 설명된 모듈은 소프트웨어 방식 또는 하드웨어의 방식으로 구현될 수 있다. 여기서, 모듈의 명칭은 경우에 따라서 상기 모듈 자체에 대한 한정이 아니고, 예를 들어 제1 획득 모듈은 또한 “단말기에 의해 캡처된 원본 이미지를 획득하는 모듈”로 기재될 수도 있다.
본문에서 상술한 기능은 적어도 일부가 하나 이상의 하드웨어 논리 부재에 의해 실행될 수 있다. 예를 들어, 비제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부재는 필드 프로그램 가능 게이트 어레이(Field Programmable Gate Array, FPGA), 전용 집적 회로(Application Specific Integrated Circuit, ASIC), 전용 표준 제품(Application Specific Standard Parts, ASSP), 시스템 온 칩(System on Chip, SOC), 컴플렉스 프로그램 가능 논리 소자(Complex Programming Logic Device, CPLD) 등을 포함한다.
본 발명의 컨텍스트에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 사용되거나 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전기, 자기, 광, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예로서 하나 이상의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대식 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 상기 내용의 임의의 적절한 조합을 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 방법은,
단말기에 의해 캡처된 원본 이미지를 획득하는 단계;
상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계; 및,
상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 단계를 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계는,
상기 원본 이미지에 대해 특징 추출을 수행하여, 상기 원본 이미지 중의 제1 앵커 포인트 정보를 획득하는 단계;
미리 저장된 상기 타깃 객체에 대응되는 기준 앵커 포인트 정보를 기초로, 상기 제1 앵커 포인트 정보가 상기 기준 앵커 포인트 정보와 매칭될 수 있는지 여부를 판단하는 단계; 및,
상기 제1 앵커 포인트 정보가 상기 기준 앵커 포인트 정보와 매칭되는 것으로 결정되면, 상기 제1 앵커 포인트 정보를 기초로, 상기 단말기에 대한 상기 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 단계를 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계는,
사용자가 상기 원본 이미지에 대해 앵커 포인트 표기 동작을 수행하여 생성한 제2 앵커 포인트 정보가 획득되면, 상기 제2 앵커 포인트 정보를 기초로 상기 단말기에 대한 상기 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 단계를 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계는,
상기 원본 이미지에 상기 타깃 객체가 존재하지 않는 경우, 상기 타깃 객체에 대응되는 과거 움직임 궤적 정보를 획득하되, 상기 과거 움직임 궤적 정보는 상기 단말기가 상기 원본 이미지 이전에 캡처한 이미지에 대해 움직임 추적을 수행하여 얻은 것인 단계; 및,
상기 과거 움직임 궤적 정보에 따라, 상기 단말기에 대한 상기 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 단계를 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계는,
상기 제1 3차원 상대적 위치, 및 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 따라, 상기 단말기에 대한 상기 타깃 사운드의 사운드 소스 위치의 3차원 상대적 위치를 제2 3차원 상대적 위치로서 결정하는 단계; 및,
상기 제2 3차원 상대적 위치를 기초로, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계를 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 방법은,
타깃 사운드의 부가적 설명 정보를 획득하는 단계를 더 포함하되, 상기 부가적 설명 정보는 타깃 사운드의 사운드 소스 발성 면적, 타깃 사운드의 사운드 소스 잔향 효과, 타깃 사운드의 사운드 소스 환경 중 적어도 하나를 포함하고,
상기 제2 3차원 상대적 위치를 기초로, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계는,
상기 제2 3차원 상대적 위치 및 상기 부가적 설명 정보에 따라, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 상기 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계를 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 방법은,
상기 타깃 객체에 대응되는 이미지 소재를 상기 원본 이미지의 상기 제1 3차원 상대적 위치에 중첩시켜, 상기 원본 이미지에 대응되는 AR 이미지를 생성하는 단계; 및,
상기 AR 이미지를 디스플레이하는 단계를 더 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 방법을 제공하고, 상기 방법은,
상기 단말기가 서라운드 사운드 재생 조건에 부합되는지 여부를 결정하는 단계; 및,
상기 단말기가 상기 서라운드 사운드 재생 조건에 부합되는 것으로 결정되면, 상기 3차원 효과 처리 후 얻은 상기 오디오를 재생하는 단계를 더 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 오디오 처리 장치를 제공하고, 상기 장치는,
단말기에 의해 캡처된 원본 이미지를 획득하는 제1 획득 모듈;
상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 제1 결정 모듈; 및,
상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 오디오 처리 모듈을 포함한다.
본 발명의 하나 이상의 실시예에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체를 제공하고, 상기 컴퓨터 프로그램이 처리 장치에 의해 실행될 경우 본 발명의 임의의 실시예에 따른 방법의 단계를 구현한다.
본 발명의 하나 이상의 실시예에 따르면,
컴퓨터 프로그램이 저장된 저장 장치; 및,
상기 저장 장치 중의 상기 컴퓨터 프로그램을 실행하여, 본 발명의 임의의 실시예에 따른 방법의 단계를 구현하는 처리 장치를 포함하는 전자기기를 제공한다.
본 발명의 하나 이상의 실시예에 따르면, 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하고, 상기 컴퓨터 프로그램이 처리 장치에 의해 실행될 경우 본 발명의 임의의 실시예에 따른 방법의 단계를 구현한다.
본 발명의 하나 이상의 실시예에 따르면, 처리 장치에 의해 실행될 경우 본 발명의 임의의 실시예에 따른 방법의 단계를 구현하는 컴퓨터 프로그램을 제공한다.
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명에 불과하다. 본 기술분야의 기술자는, 본 발명에 언급된 본 발명의 범위는 상기 기술적 특징의 특정 조합에 따른 기술적 해결수단에 한정되지 않으며, 동시에 상기 발명의 구상을 벗어나지 않으면서 상기 기술적 특징 또는 그 등가 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결수단, 예를 들어, 상기 특징과 본 발명에 개시된(그러나 이에 한정되지 않음) 유사한 기능을 갖는 기술적 특징을 서로 교체하여 형성된 기술적 해결수단을 포함함을 이해해야 할 것이다.
이밖에, 특정 순서로 각 동작을 설명하였지만, 이러한 동작들이 도시된 특정 순서 또는 순차적 순서로 수행될 것을 요구하는 것으로 해석되어서는 안된다. 일정한 환경에서, 복수의 태스크 및 병렬 처리는 유리할 수 있다. 마찬가지로, 상술한 설명에서 여러 개의 구체적인 구현 세부사항이 포함되어 있지만 이는 본 발명의 범위를 한정하는 것으로 해석되어서는 안된다. 독립적인 실시예의 컨텍스트에서 설명된 일부 특징은 단일 실시예에서 조합되어 구현될 수 있다. 반대로, 단일 실시예의 컨텍스트에서 설명된 다양한 특징은 또한 복수의 실시예에서 독립적으로 또는 임의의 적절한 서브 조합으로 구현될 수도 있다.
구조 특징 및/또는 방법 논리적 동작에 특정된 언어로 본 주제를 설명하였지만, 첨부된 청구범위에 의해 한정된 주제는 상술한 특정된 특징 또는 동작에 반드시 한정되는 것은 아님을 이해해야 한다. 반대로, 상술한 특정된 특징 및 동작은 단지 청구범위의 예시적 형태를 구현하기 위한 것이다. 상기 실시예 중의 장치에 관하여, 여기서의 각각의 모듈이 수행하는 동작의 구체적인 방식은 상기 방법에 관한 실시예에서 상세하게 설명하였으며, 여기서는 더 이상 상세하게 설명하지 않는다.

Claims (13)

  1. 오디오 처리 방법에 있어서, 상기 방법은,
    단말기에 의해 캡처된 원본 이미지를 획득하는 단계;
    상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계; 및,
    상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 단계를 포함하는 것을 특징으로 하는 오디오 처리 방법.
  2. 제1항에 있어서,
    상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계는,
    상기 원본 이미지에 대해 특징 추출을 수행하여, 상기 원본 이미지 중의 제1 앵커 포인트 정보를 획득하는 단계;
    미리 저장된 상기 타깃 객체에 대응되는 기준 앵커 포인트 정보를 기초로, 상기 제1 앵커 포인트 정보가 상기 기준 앵커 포인트 정보와 매칭될 수 있는지 여부를 판단하는 단계; 및,
    상기 제1 앵커 포인트 정보가 상기 기준 앵커 포인트 정보와 매칭되는 것으로 결정되면, 상기 제1 앵커 포인트 정보를 기초로, 상기 단말기에 대한 상기 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계는,
    사용자가 상기 원본 이미지에 대해 앵커 포인트 표기 동작을 수행하여 생성한 제2 앵커 포인트 정보가 획득되면, 상기 제2 앵커 포인트 정보를 기초로 상기 단말기에 대한 상기 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 단계는,
    상기 원본 이미지에 상기 타깃 객체가 존재하지 않는 경우, 상기 타깃 객체에 대응되는 과거 움직임 궤적 정보를 획득하되, 상기 과거 움직임 궤적 정보는 상기 단말기가 상기 원본 이미지 이전에 캡처한 이미지에 대해 움직임 추적을 수행하여 얻은 것인 단계; 및,
    상기 과거 움직임 궤적 정보에 따라, 상기 단말기에 대한 상기 타깃 객체의 3차원 상대적 위치를 상기 제1 3차원 상대적 위치로서 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계는,
    상기 제1 3차원 상대적 위치, 및 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 따라, 상기 단말기에 대한 상기 타깃 사운드의 사운드 소스 위치의 3차원 상대적 위치를 제2 3차원 상대적 위치로서 결정하는 단계; 및,
    상기 제2 3차원 상대적 위치를 기초로, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서, 상기 방법은,
    상기 타깃 사운드의 부가적 설명 정보를 획득하는 단계를 더 포함하되, 상기 부가적 설명 정보는 타깃 사운드의 사운드 소스 발성 면적, 타깃 사운드의 사운드 소스 잔향 효과, 타깃 사운드의 사운드 소스 환경 중 적어도 하나를 포함하고,
    상기 제2 3차원 상대적 위치를 기초로, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계는,
    상기 제2 3차원 상대적 위치 및 상기 부가적 설명 정보에 따라, 상기 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 상기 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 방법은,
    상기 타깃 객체에 대응되는 이미지 소재를 상기 원본 이미지의 상기 제1 3차원 상대적 위치에 중첩시켜, 상기 원본 이미지에 대응되는 증강현실(AR) 이미지를 생성하는 단계; 및,
    상기 AR 이미지를 디스플레이하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 방법은,
    상기 단말기가 서라운드 사운드 재생 조건에 부합되는지 여부를 결정하는 단계; 및,
    상기 단말기가 상기 서라운드 사운드 재생 조건에 부합되는 것으로 결정되면, 상기 3차원 효과 처리 후 얻은 상기 오디오를 재생하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 오디오 처리 장치에 있어서, 상기 장치는,
    단말기에 의해 캡처된 원본 이미지를 획득하는 제1 획득 모듈;
    상기 원본 이미지를 기초로, 상기 단말기에 대한 타깃 객체의 3차원 상대적 위치를 제1 3차원 상대적 위치로서 결정하는 제1 결정 모듈;
    상기 제1 3차원 상대적 위치를 기초로, 타깃 사운드에 대해 3차원 효과 처리를 수행하여, 3차원 효과 처리 후 얻은 오디오 중 상기 타깃 사운드의 사운드 소스 위치 및 상기 제1 3차원 상대적 위치가 상기 타깃 객체와 상기 타깃 객체에 대응되는 효과음 객체 사이의 위치 관계에 부합되도록 하되, 상기 타깃 사운드는 상기 효과음 객체에 대응되는 효과음 사운드인 오디오 처리 모듈을 포함하는 것을 특징으로 하는 오디오 처리 장치.
  10. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체에 있어서,
    상기 컴퓨터 프로그램이 처리 장치에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 방법의 단계를 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
  11. 전자기기에 있어서,
    컴퓨터 프로그램이 저장된 저장 장치; 및,
    상기 저장 장치의 상기 컴퓨터 프로그램을 실행하여, 제1항 내지 제8항 중 어느 한 항에 따른 방법의 단계를 구현하는 처리 장치를 포함하는 것을 특징으로 하는 전자기기.
  12. 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품에 있어서,
    상기 컴퓨터 프로그램이 처리 장치에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 방법의 단계를 구현하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  13. 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램이 처리 장치에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 방법의 단계를 구현하는 컴퓨터 프로그램.

KR1020227035410A 2020-03-31 2021-03-11 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기 KR20220148915A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010245598.6A CN113467603B (zh) 2020-03-31 2020-03-31 音频处理方法、装置、可读介质及电子设备
CN202010245598.6 2020-03-31
PCT/CN2021/080298 WO2021197020A1 (zh) 2020-03-31 2021-03-11 音频处理方法、装置、可读介质及电子设备

Publications (1)

Publication Number Publication Date
KR20220148915A true KR20220148915A (ko) 2022-11-07

Family

ID=77865553

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227035410A KR20220148915A (ko) 2020-03-31 2021-03-11 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기

Country Status (7)

Country Link
US (1) US20220386061A1 (ko)
EP (1) EP4117313A4 (ko)
JP (1) JP7473676B2 (ko)
KR (1) KR20220148915A (ko)
CN (1) CN113467603B (ko)
BR (1) BR112022019908A2 (ko)
WO (1) WO2021197020A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230075908A (ko) * 2021-11-23 2023-05-31 삼성전자주식회사 전자 장치 및 제어 방법
US20230245146A1 (en) * 2022-01-28 2023-08-03 Walmart Apollo, Llc Methods and apparatus for automatic item demand and substitution prediction using machine learning processes
CN114630145A (zh) * 2022-03-17 2022-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种多媒体数据合成方法、设备及存储介质
CN115022710B (zh) * 2022-05-30 2023-09-19 咪咕文化科技有限公司 一种视频处理方法、设备及可读存储介质
CN115050228B (zh) * 2022-06-15 2023-09-22 北京新唐思创教育科技有限公司 一种素材收集方法及装置、电子设备
CN117348721A (zh) * 2022-06-29 2024-01-05 中兴通讯股份有限公司 虚拟现实数据处理方法、控制器及虚拟现实设备

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008158640A (ja) * 2006-12-21 2008-07-10 Fuji Heavy Ind Ltd 移動物体検出装置
US8170222B2 (en) * 2008-04-18 2012-05-01 Sony Mobile Communications Ab Augmented reality enhanced audio
US9037468B2 (en) * 2008-10-27 2015-05-19 Sony Computer Entertainment Inc. Sound localization for user in motion
CN101458434B (zh) * 2009-01-08 2010-09-08 浙江大学 精确测量和预测乒乓球轨迹系统
CN102789642B (zh) * 2011-05-16 2017-08-25 索尼公司 消失方向确定方法和装置、摄像机自标定方法和装置
JP6065370B2 (ja) * 2012-02-03 2017-01-25 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US8831255B2 (en) * 2012-03-08 2014-09-09 Disney Enterprises, Inc. Augmented reality (AR) audio with position and action triggered virtual sound effects
US9851936B2 (en) 2013-11-05 2017-12-26 Sony Corporation Information processing to indicate a position outside a display region
CN104869524B (zh) * 2014-02-26 2018-02-16 腾讯科技(深圳)有限公司 三维虚拟场景中的声音处理方法及装置
US9787846B2 (en) * 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
CN105879390A (zh) * 2016-04-26 2016-08-24 乐视控股(北京)有限公司 虚拟现实游戏处理方法及设备
DE102016121281A1 (de) * 2016-11-08 2018-05-09 3Dqr Gmbh Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit virtuellen Bild- und Audiodaten und ein mobiles Gerät
GB2557241A (en) * 2016-12-01 2018-06-20 Nokia Technologies Oy Audio processing
US9891884B1 (en) * 2017-01-27 2018-02-13 International Business Machines Corporation Augmented reality enabled response modification
CN107168518B (zh) * 2017-04-05 2020-06-23 北京小鸟看看科技有限公司 一种用于头戴显示器的同步方法、装置及头戴显示器
US9754397B1 (en) * 2017-04-07 2017-09-05 Mirage Worlds, Inc. Systems and methods for contextual augmented reality sharing and performance
CN106993249B (zh) * 2017-04-26 2020-04-14 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置
EP3399398B1 (en) * 2017-05-02 2022-04-13 Nokia Technologies Oy An apparatus and associated methods for presentation of spatial audio
KR101988244B1 (ko) * 2017-07-04 2019-06-12 정용철 사용자의 시선 변화에 따른 가상현실 사운드 처리 장치 및 그 방법
CN109752951B (zh) * 2017-11-03 2022-02-08 腾讯科技(深圳)有限公司 控制系统的处理方法、装置、存储介质和电子装置
EP3489821A1 (en) * 2017-11-27 2019-05-29 Nokia Technologies Oy A user interface for user selection of sound objects for rendering, and/or a method for rendering a user interface for user selection of sound objects for rendering
CN110164464A (zh) * 2018-02-12 2019-08-23 北京三星通信技术研究有限公司 音频处理方法及终端设备
CA3090281A1 (en) * 2018-02-15 2019-08-22 Magic Leap, Inc. Dual listener positions for mixed reality
CN109246580B (zh) * 2018-09-25 2022-02-11 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109121069B (zh) * 2018-09-25 2021-02-02 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109327794B (zh) * 2018-11-01 2020-09-29 Oppo广东移动通信有限公司 3d音效处理方法及相关产品
CN109582273A (zh) * 2018-11-26 2019-04-05 联想(北京)有限公司 音频输出方法、电子设备以及音频输出装置
CN110639204A (zh) * 2019-10-18 2020-01-03 网易(杭州)网络有限公司 游戏数据处理方法、装置以及终端设备

Also Published As

Publication number Publication date
EP4117313A1 (en) 2023-01-11
US20220386061A1 (en) 2022-12-01
WO2021197020A1 (zh) 2021-10-07
CN113467603B (zh) 2024-03-08
JP7473676B2 (ja) 2024-04-23
EP4117313A4 (en) 2023-11-22
BR112022019908A2 (pt) 2022-12-13
CN113467603A (zh) 2021-10-01
JP2023519422A (ja) 2023-05-10

Similar Documents

Publication Publication Date Title
US20210029305A1 (en) Method and apparatus for adding a video special effect, terminal device and storage medium
KR20220148915A (ko) 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기
CN109462776B (zh) 一种视频特效添加方法、装置、终端设备及存储介质
CN109167950B (zh) 视频录制方法、视频播放方法、装置、设备及存储介质
JP6741873B2 (ja) バーチャルリアリティ分野における装置および関連する方法
US20190139312A1 (en) An apparatus and associated methods
JP2023553101A (ja) ライブストリーミングインタラクション方法、装置、デバイス及び媒体
WO2021184952A1 (zh) 增强现实处理方法及装置、存储介质和电子设备
US11627279B2 (en) Method and apparatus for displaying interactive information in panoramic video
JP7224554B1 (ja) インタラクション方法、装置、電子機器及びコンピュータ可読記録媒体
CN109600559B (zh) 一种视频特效添加方法、装置、终端设备及存储介质
WO2023051185A1 (zh) 图像处理方法、装置、电子设备及存储介质
CN110267113B (zh) 视频文件加工方法、系统、介质和电子设备
US20230421716A1 (en) Video processing method and apparatus, electronic device and storage medium
US20190149886A1 (en) An apparatus and associated methods
US20210350545A1 (en) Image processing method and apparatus, and hardware apparatus
JP7210602B2 (ja) オーディオ信号の処理用の方法及び装置
KR20130056529A (ko) 휴대용 단말기에서 증강현실 서비스를 제공하기 위한 장치 및 방법
CN114630057B (zh) 确定特效视频的方法、装置、电子设备及存储介质
CN111273775A (zh) 增强现实眼镜、基于增强现实眼镜的ktv实现方法与介质
CN114445600A (zh) 一种特效道具的展示方法、装置、设备及存储介质
WO2022115743A1 (en) Real world beacons indicating virtual locations
CN109949793A (zh) 用于输出信息的方法和装置
CN109636917B (zh) 三维模型的生成方法、装置、硬件装置
CN110459239A (zh) 基于声音数据的角色分析方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination