KR20240000230A

KR20240000230A - 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램

Info

Publication number: KR20240000230A
Application number: KR1020220076961A
Authority: KR
Inventors: 최영훈; 오세웅
Original assignee: 하이퍼리얼익스피리언스 주식회사
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2024-01-02

Abstract

본 발명은 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로는 공간에 대한 이미지를 분석하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 공간에 대한 모델링을 수행할 수 있는 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.
본 발명에서는, 공간 모델링 시스템이, 모델링하고자 하는 공간에 대한 하나 이상의 이미지를 수집하는 이미지 수집 단계; 상기 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체를 식별하는 공간 객체 식별 단계; 및 상기 공간 및 상기 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계;를 포함하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법을 개시한다.

Description

실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램 {Method, apparatus and computer program for Image Recognition based Space Modeling for virtual space sound of realistic contents}

본 발명은 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로는 공간에 대한 이미지를 분석하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 공간에 대한 모델링을 수행할 수 있는 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.

종래에는 통상적으로 컨텐츠 제작자가 음향 제작 과정에서 현장감을 살리고 완성도를 높이기 위하여 별도의 후시 녹음/편집/가공 등 아날로그 오디오 작업을 진행하였고, 이로 인하여 작업 시간과 비용이 증가하게 될 뿐만 아니라, 나아가 작업자의 숙련도 등에 따라 부족한 현장감 등 음향 품질이 떨어지는 문제도 따를 수 있었다.

특히, 근래 들어 UHD(Ultra High-Definition) 고화질 방송 등이 확산되면서 방송 표준 기술로 채택된 실감형 음향 기술이 빠르게 활성화되고 있고, 나아가 영상 및 음향의 현장감 등을 강화하기 위한 실감형 컨텐츠의 구현을 위해 다양한 기술이 시도되고 있다.

그러나, 영상 기술과 대비할 때 공간 음향 제작 기술은 상대적으로 그 속도가 더디고 연구 결과물이 부족한 실정이다.

보다 구체적으로, 영상의 경우 광학 장비, 카메라, 프로젝터 등 기존의 다양한 장비와 기반 영상 기술을 활용할 수 있지만, 음향의 경우 스피커나 마이크 등 일반적인 입력/출력 방식의 장비 등을 제외하면 실감형 컨텐츠 제작을 위하여 실제로 이용할 수 있는 장비 및 기반 기술이 크게 부족하다는 어려움도 따른다.

이에 대하여, 최근 10여년간 관련 업계에서는 위와 같은 문제들을 해결하고자 70년대 후반부터 연구된 입체 음향 기술들을 제품에 적용시켜 상용화하는 시도를 진행하면서 실감형 컨텐츠의 제작 기술 및 환경을 개선해 나가고 있다.

그러나, 실감형 컨텐츠의 음향 제작 과정에서 현장감과 완성도를 위한 후반부 작업(Post Production) 단계에 필요한 기반 기술은 아직 발전이 더딘 양상을 보이고 있으며, 보다 구체적으로 대표적인 작업 환경을 살펴보더라도 단순히 IR(Impulse Response) 정보를 기반으로 하여 프로툴스(Protools) 등 상용 툴을 이용하여 전문 인력이 대상 공간의 특성을 반영하여 음향을 제작하는 전문적인 작업을 통해서만 제작이 가능하여, 음향 관련 전문 지식을 갖추지 못한 일반적인 사용자가 작업을 수행하는 것은 현실적으로 상당한 어려움이 따르게 된다.

이에 따라, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있도록 하는 기술이 지속적으로 요구되고 있으나, 아직 이에 대한 바람직한 해결 방안이 제시되지 못하고 있다.

대한민국 공개특허공보 제 10-2013-0028365호 (2013.03.19)

본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위해 창안된 것으로, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있도록 하는 음향 작업 처리 기술을 제공하는 것을 목적으로 한다.

보다 구체적으로, 본 발명에서는 공간에 대한 이미지를 분석하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 상기 공간에 대한 모델링을 수행할 수 있는 공간 모델링 기법을 제공하는 것을 목적으로 한다.

그 외 본 발명의 세부적인 목적은 이하에 기재되는 구체적인 내용을 통하여 이 기술 분야의 전문가나 연구자에게 자명하게 파악되고 이해될 것이다.

본 발명의 일 실시예에 따른 이미지 기반 공간 모델링 방법은, 공간 모델링 시스템이, 모델링하고자 하는 공간에 대한 하나 이상의 이미지를 수집하는 이미지 수집 단계; 상기 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체를 식별하는 공간 객체 식별 단계; 및 상기 공간 및 상기 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계;를 포함하는 것을 특징으로 한다.

이때, 상기 산출된 데이터를 이용하여 상기 공간에 대하여 방송 표준을 충족하는 가상 공간 음향을 생성하는 방송 표준 가상 공간 음향 생성 단계;를 더 포함할 수 있다.

또한, 상기 공간 객체 식별 단계에서는, CNN(Convolutional Neural Network) 기반 신경망을 이용하여 상기 공간 또는 상기 하나 이상의 객체를 식별할 수 있다.

여기서, 상기 데이터 산출 단계에서는, 상기 CNN 기반 신경망을 이용하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체의 크기, 위치, 재질 중 하나 이상에 대한 데이터를 산출할 수 있다.

또한, 상기 데이터 산출 단계에서는, 라이다 센서를 이용하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체의 크기, 위치, 깊이(depth) 중 하나 이상에 대한 데이터를 산출할 수 있다.

또한, 상기 공간 객체 식별 단계에서는, 상기 CNN 기반 신경망은 YOLO(You Only Look Once) 기반 신경망을 이용하여 구성될 수 있다.

또한, 상기 공간 객체 식별 단계에서는, 상기 이미지에서 등고선(Contour) 추출값을 이용하여 상기 공간과 상기 개체를 구분하여 식별할 수 있다.

여기서, 상기 공간 객체 식별 단계에서는, 적응형 기준값(adaptive threshold)를 적용하여 큰 그룹 단위의 등고선(Contour) 값을 추출할 수 있다.

또한, 상기 공간 객체 식별 단계에서는, 등고선(Contour) 생성 과정에서 모프 그래디언트(morph gradient) 프로세스를 통해 검출 정밀도를 개선할 수 있다.

또한, 상기 공간 객체 식별 단계에서는, 상기 공간의 천장, 벽면, 바닥면과 상기 공간에 구비되는 개체로 나누어 식별할 수 있다.

또한, 상기 데이터 산출 단계에서는, 상기 데이터를 산출된 순서에 따라 2차원 단면에 대입할 수 있다.

이때, 상기 데이터 산출 단계에서는, 상기 대입된 2차원 이미지를 기초로 3차원 입체면에 적용할 수 있다.

또한, 본 발명의 다른 측면에 따른 컴퓨터 프로그램은, 하드웨어와 결합되어 상기 어느 한 항에 기재된 방법의 각 단계를 수행하기 위하여 기록 매체에 저장된 컴퓨터 프로그램인 것을 특징으로 한다.

이에 따라, 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램에서는, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있도록 하는 음향 작업 처리 기술을 제공할 수 있게 된다.

또한, 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 컴퓨터 프로그램에서는, 공간에 대한 이미지를 분석하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 상기 공간에 대한 모델링을 수행할 수 있는 공간 모델링 기법을 제공할 수 있게 된다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부도면은 본 발명에 대한 실시 예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 시스템을 예시하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법의 순서도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법을 이용한 공간 음향 구현 과정을 예시하는 도면이다.
도 5 및 도 6은 본 발명의 다른 실시예에 따른 공간 및 개체 인식을 예시하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 이미지 인식을 위한 신경망을 예시하는 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에서 인식된 객체를 예시하는 도면이다.
도 10 및 도 11은 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에서 YOLO 기반 신경망 모델의 동작을 예시하는 도면이다.
도 12는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법의 실험을 위한 공간 및 객체를 예시하는 도면이다.
도 13은 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에 따른 공간 음향 구현을 예시하는 도면이다.
도 14는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 장치의 구성도를 예시하는 도면이다.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명의 권리범위를 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 해당 분야의 통상의 기술자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 발명에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 아니된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2구성 요소로 명명될 수 있고, 유사하게 제2구성 요소도 제1 구성요소로 명명될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

또한, 본 발명을 설명함에 있어서 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 기술사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 기술사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.

먼저, 도 1에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 이미지 기반 공간 모델링 시스템(100)은, 모델링하고자 하는 공간에 대한 하나 이상의 이미지를 제공하는 이미지 입력 장치(110), 상기 하나 이상의 이미지를 분석하여 상기 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 공간에 대한 모델링을 수행하는 공간 모델링 장치(120) 및 통신 네트워크(130)를 포함하여 구성될 수 있다.

이때, 도 1에서 볼 수 있는 바와 같이, 상기 이미지 입력 장치(110)는 스마트폰 등 이미지를 촬영할 수 있는 모듈을 구비하는 장치이거나, 촬영된 사진 등을 이미지로 변환하여 제공할 수 있는 스캐너 등을 포함할 수 있으나, 본 발명이 반드시 이에 한정되는 것은 아니다.

또한, 도 1에서 볼 수 있는 바와 같이, 상기 공간 모델링 장치(120)는 상기 하나 이상의 이미지를 분석하여 상기 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 공간에 대한 모델링을 수행할 수 있는 전산 장치로서, 서버나 개인용 PC, 스마트폰, 태플릿, 노트북 등 다양한 장치를 이용하여 구현될 수 있으며, 이외에도 다수의 서버가 연동되는 클라우드 시스템이나 전용 장치 등 다양한 형태로 구현될 수도 있다.

또한, 도 1에서 상기 이미지 입력 장치(110)와 공간 모델링 장치(120)를 연결하는 통신 네트워크(130)로서는 유선 네트워크와 무선 네트워크를 포함할 수 있으며, 구체적으로, 근거리 통신망 (LAN: Local Area Network), 도시권 통신망 (MAN: Metropolitan Area Network), 광역 통신망 (WAN: Wide Area Network) 등의 다양한 통신망을 포함할 수 있다. 또한, 상기 통신 네트워크(130)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 발명에 따른 통신 네트워크(130)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크나 공지의 전화 네트워크 또는 공지의 유무선 텔레비전 네트워크를 적어도 일부로 포함할 수도 있다.

그러나, 본 발명에서 상기 공간 모델링 장치(110)가 반드시 상기 통신 네트워크(130)를 통하여 상기 이미지 입력 장치(120)로 상기 하나 이상의 이미지를 전송하여야 하는 것은 아니며, 상기 통신 네트워크(130)를 거치지 않고 직접 이미지를 입력 받거나, 나아가 상기 공간 모델링 장치(120)가 상기 이미지 입력 장치(110)와 일체형으로 구성되는 등 다양한 형태로 구현하는 것도 가능하다.

이에 따라, 본 발명의 일 실시예에 따른 이미지 기반 공간 모델링 시스템(100)에서는, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있으며, 나아가 공간에 대한 이미지를 분석하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 상기 공간에 대한 모델링을 수행할 수 있게 된다.

또한, 도 2에서는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법의 순서도를 예시하고 있다.

도 2에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법은, 공간 모델링 장치(120)가 모델링하고자 하는 공간에 대한 하나 이상의 이미지를 수집하는 이미지 수집 단계(S110), 상기 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체를 식별하는 공간 객체 식별 단계(S120) 및 상기 공간 및 상기 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계(S130)를 포함하는 것을 특징으로 한다.

나아가, 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에는, 상기 산출된 데이터를 이용하여 상기 공간에 대하여 방송 표준을 충족하는 가상 공간 음향을 생성하는 방송 표준 가상 공간 음향 생성 단계(미도시)가 더 포함될 수 있다.

보다 구체적으로, 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에서, 상기 방송 표준 가상 공간 음향 생성 단계에서는 돌비(DOLBY) 애트모스(Atmos)나 차세대 방송 규격으로 채택된 AC-4 등 방송 표준을 충족하는 가상 공간 음향을 생성할 수 있다.

나아가, 상기 이미지 수집 단계(S110)에서는 공간 모델링 장치(120)가 모델링하고자 하는 공간에 대한 하나 이상의 이미지를 수집할 수 있다. 이때, 상기 공간 모델링 장치(120)는 사용자자 업로드하는 하나 이상의 이미지를 전송받아 수집할 수 있으나, 본 발명이 반드시 이에 한정되는 것은 아니며, 이외에 상기 이미지 입력 장치(110)에서 촬영 또는 스캔 등을 통하여 생성되는 하나 이상의 이미지가 자동으로 상기 공간 모델링 장치(120)으로 전송되는 등 다양한 방법으로 하나 이상의 이미지를 수집하는 것이 가능하다.

또한, 상기 공간 객체 식별 단계(S120)에서는, CNN(Convolutional Neural Network) 기반 신경망을 이용하여 상기 공간 또는 상기 하나 이상의 객체를 식별할 수 있다.

이때, 상기 데이터 산출 단계(S130)에서는, 상기 CNN 기반 신경망을 이용하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체의 크기, 위치, 재질 중 하나 이상에 대한 데이터를 산출할 수 있다.

또한, 상기 데이터 산출 단계(S130)에서는, 라이다 센서를 이용하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체의 크기, 위치, 깊이(depth) 중 하나 이상에 대한 데이터를 산출할 수 있다.

또한, 상기 공간 객체 식별 단계(S120)에서는, 상기 CNN 기반 신경망은 YOLO(You Only Look Once) 기반 신경망을 이용하여 구성될 수 있다.

또한, 상기 공간 객체 식별 단계(S120)에서는, 상기 이미지에서 등고선(Contour) 추출값을 이용하여 상기 공간과 상기 개체를 구분하여 식별할 수 있다.

이때, 상기 공간 객체 식별 단계(S120)에서는, 적응형 기준값(adaptive threshold)를 적용하여 큰 그룹 단위의 등고선(Contour) 값을 추출할 수 있다

또한, 상기 공간 객체 식별 단계(S120)에서는, 등고선(Contour) 생성 과정에서 모프 그래디언트(morph gradient) 프로세스를 통해 검출 정밀도를 개선할 수 있다.

또한, 상기 공간 객체 식별 단계(S120)에서는, 상기 공간의 천장, 벽면, 바닥면과 상기 공간에 구비되는 개체로 나누어 식별할 수 있다.

또한, 상기 데이터 산출 단계(S130)에서는, 상기 데이터를 산출된 순서에 따라 2차원 단면에 대입할 수 있다.

이때, 상기 데이터 산출 단계(S130)에서는, 상기 대입된 2차원 이미지를 기초로 3차원 입체면에 적용할 수 있다.

이하, 도 1 및 도 2를 참조하여 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 시스템을 보다 자세하게 살핀다.

도 1 및 도 2에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 시스템에서는 공간에 대한 이미지를 분석하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하기 위하여 공간에 대한 모델링을 수행하게 된다.

보다 구체적으로는, 도 3에서 볼 수 있는 바와 같이, 먼저 모델링하고자 하는 공간에 대한 하나 이상의 이미지가 촬영되면 이를 전송받을 수 있다.

이어서, 사용자는 상기 공간의 크기 등을 입력할 수 있다. 보다 구체적으로, 상기 공간이 건물 내부의 방(room) 등인 경우를 예로 들면, 상기 공간은 넓이, 층고 등을 가질 수 있으며, 사용자는 상기 공간에 대한 넓이, 층고 등을 입력하여 상기 공간에 대한 이미지 분석에 적용할 수 있다.

또한, 상기 공간에 대한 이미지를 분석하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체를 식별하고, 상기 공간 및 상기 하나 이상의 객체에 대한 데이터를 산출할 수 있다.

이에 따라, 상기 공간에 대한 이미지 분석 결과를 토대로 상기 공간 및 상기 공간에 구비되는 하나 이상의 객체에 대한 음향 특성을 분석하여 상기 공간에 대한 공간 음향 정보를 생성할 수 있다. 보다 구체적인 예를 들어, 상기 공간에 대한 IR(Impulse Response) 정보를 생성할 수 있으나, 본 발명이 반드시 이에 한정되는 것은 아니다.

나아가, 상기 공간에 대한 공간 음향 정보를 이용하여 상기 공간에 대한 가상 공간 음향을 구현하거나 더 나아가 상기 가상 공간 음향을 적용한 실감형 컨텐츠를 제작하는 것도 가능하다.

이를 위하여, 본 발명에서는 CNN 신경망 등 AI(Artificial Intelligence) 기반 가상 공간 음향 구현 솔루션을 구현하여 제공하는 것을 목적으로 하며, 상기 솔루션은 SDK 형식이나 스마트폰 등을 위한 애플리케이션, PC 버전 소프트웨어 등 다양한 형태로 구현될 수 있다.

이에 따라, 도 4에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 시스템에서는, 이미지 입력 장치(110) 등을 이용하여 모델링하고자 하는 공간에 대한 하나 이상의 이미지가 제공되면, 신경망 등을 기반으로 상기 공간에 구비되는 객체 등의 크기와 소재 등 음향적 자료가 자동 인식되고, 상기 공간에 대한 이미지-음향 연동 알고리즘을 통해 공간 음향 정보가 자동으로 생성되어, 건축 음향 설계, 증강 현실(Augmented Reality) 컨텐츠 제작, 영화 후시 녹음(ADR) 작업 등에 활용하는 것이 가능하다.

보다 구체적으로, 도 5에서 볼 수 있는 바와 같이, 신경망 등 AI 기반으로 이미지에 대한 분석을 수행하여 모델링하고자 하는 공간 및 상기 공간에 구비되는 객체에 대한 식별 및 분석이 가능하다.

나아가, 도 6에서 볼 수 있는 바와 같이, 라이다 센서를 이용하여 공간에 대한 분석을 수행하는 것도 가능한데, 최근 모바일 기기 등에 탑재되는 라이다 센서를 이용하여 더욱 정밀한 데이터를 취득하여 직접 상기 공간을 인식하고 분석을 수행할 수도 있겠으나, 상기 이미지에 대한 분석과 상기 라이다 센서에 대한 분석을 함께 사용하면서 상호 보완하여 보다 개선된 식별 결과 및 데이터를 도출하는 것도 가능하다.

또한, 도 7에서는 본 발명의 일 실시예에 따른 이미지 인식을 위한 신경망으로서, CNN 기반의 인셉션(Inception)_v3을 이용하는 경우를 예시하고 있다.

인셉션_v3는 미리 가중치(weigth) 값들과 레이블(label)값들을 만들어 놓은 버전으로, 인셉션_v3모델은 총 1000개의 레이블(label)값을 갖고 있으며, 이미지넷(ImageNet) 챌린지의 이미지 매칭 정확도 평가에서 96%이상을 보여 주었다.

또한, 도 8 내지 도 9에서는 실내 공간에 위치하는 여러 객체들에 대한 신경망 인식 결과를 예시하고 있다. 도 8 내지 도 9에서 볼 수 있는 바와 같이, 신경망 등을 이용하여 상기 객체들의 종류와 크기 등을 인식할 수 있음을 알 수 있다.

또한, 도 10 및 도 11에서는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에서 YOLO 기반 신경망 모델의 동작을 예시하고 있다.

이때, YOLO(You Only Look Once)는 CNN(Convolutional Neural Networks)을 사용하여 객체를 감지할 수 있는 기술이다.

객체 감지 메커니즘과 관련된 두 가지 작업이 있는데, 첫번째 작업은 객체의 위치를 결정하는 것이고 두번째 작업은 해당 객체를 분류하는 작업이다.

이와 관련하여, R-CNN(Region-BasedConvolutional Neural Network) 또는 그 변형을 사용하여 객체를 감지할 수도 있지만 느리고 최적화하기 어렵다는 제약이 따른다.

이에 대하여, 본 발명에서는 전체 이미지에 하나의 신경망을 적용하여 이미지를 영역으로 분할하고 영역별 네트워크에서 확률과 함께 경계 상자를 예측하게 된다.

이때, 실내 공간 데이터 수집 및 가공을 위하여 라벨링된 데이터, AI 학습용 데이터(AI 허브) 및 NYU Depth V2 데이터셋을 사용할 수 있다.

또한, 도 12에서는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법의 실험을 위한 공간 및 객체를 예시하고 있다.

이와 같이, 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에서는 다양한 공간 상황별로 IR(Impulse Response) 정보 등 공간 음향 정보를 생성하고 검증하면서 신경망에 대한 훈련을 수행하고 성능을 개선할 수 있다.

이에 따라, 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 인식 기반 공간 모델링 방법, 장치 및 시스템(100)에서는, 도 13에서 볼 수 있는 바와 같이, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 다양한 작업 환경에 대하여 가상 공간 음향을 구현하기 위하여 상기 공간에 대한 모델링을 수행하고 음향 효과 작업을 수행할 수 있게 된다.

또한, 본 발명의 또 다른 측면에 따른 컴퓨터 프로그램은 앞서 살핀 이미지 인식 기반 공간 모델링 방법의 각 단계를 컴퓨터에서 실행시키기 위하여 하드웨어와 결합되어 기록 매체에 저장된 컴퓨터 프로그램인 것을 특징으로 한다. 상기 컴퓨터 프로그램은 컴파일러에 의해 만들어지는 기계어 코드를 포함하는 컴퓨터 프로그램뿐만 아니라, 인터프리터 등을 사용해서 컴퓨터에서 실행될 수 있는 고급 언어 코드를 포함하는 컴퓨터 프로그램일 수도 있다. 이때, 상기 컴퓨터로서는 퍼스널 컴퓨터(PC)나 노트북 컴퓨터 등에 한정되지 아니하며, 서버, 스마트폰, 태블릿 PC, PDA, 휴대전화 등 중앙처리장치(CPU)를 구비하여 컴퓨터 프로그램을 실행할 수 있는 일체의 정보처리 장치를 포함한다.

또한, 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 복수의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

또한, 도 14는 예시적인 실시예들에서 사용되기에 적합한 공간 모델링 장치(310)의 컴퓨팅 환경을 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 공간 모델링 장치(310)의 컴퓨팅 환경은 컴퓨팅 장치(312)를 포함한다. 일 실시예에서, 컴퓨팅 장치(312)는 주어진 문서 이미지(10)에 대하여 문서 인식을 수행하는 장치(예를 들어, 문서 인식 장치(120))일 수 있다.

컴퓨팅 장치(312)는 적어도 하나의 프로세서(314), 컴퓨터 판독 가능 저장 매체(316) 및 통신 버스(318)를 포함한다. 프로세서(314)는 컴퓨팅 장치(312)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(314)는 컴퓨터 판독 가능 저장 매체(316)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(314)에 의해 실행되는 경우 컴퓨팅 장치(312)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(316)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(320)은 프로세서(314)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(312)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(314), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(312)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(312)는 또한 하나 이상의 입출력 장치(324)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(322) 및 하나 이상의 네트워크 통신 인터페이스(326)를 포함할 수 있다. 입출력 인터페이스(322) 및 네트워크 통신 인터페이스(326)는 통신 버스(18)에 연결된다. 입출력 장치(324)는 입출력 인터페이스(322)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(324)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(324)는 컴퓨팅 장치(312)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(312)의 내부에 포함될 수도 있고, 컴퓨팅 장치(312)와는 구별되는 별개의 장치로 컴퓨팅 장치(312)와 연결될 수도 있다.

본 명세서에서 설명된 위 실시예 및 도면들은 단지 예시적인 것일 뿐, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 또한, 도면에 도시된 구성요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성요소가 아닐 수 있다.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 또한 본 발명 중 방법 발명에서 제시하는 단계들은 반드시 그 선후의 순서에 대한 구속을 의도한 것이 아니며, 각 공정의 본질에 따라 반드시 어느 단계가 선행되어야 하는 것이 아닌 한 순서는 필요에 따라 적절히 변경될 수 있다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해본 발명의 범위가 한정되는 것은 아니다. 또한, 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등 범주 내에서 설계 조건 및 요소에 따라 구성될 수 있음을 이해할 수 있다.

100 : 이미지 기반 공간 모델링 시스템
110 : 이미지 입력 장치
120 : 공간 모델링 장치
130 : 통신 네트워크
310 : 공간 모델링 장치
312 : 컴퓨팅 장치
314 : 프로세서
316 : 저장 매체
318 : 통신 버스
320 : 프로그램
322 : 입출력 인터페이스
324 : 입출력 장치
326 : 통신 인터페이스

Claims

공간 모델링 장치가, 모델링하고자 하는 공간에 대한 하나 이상의 이미지를 수집하는 이미지 수집 단계;
상기 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체를 식별하는 공간 객체 식별 단계; 및
상기 공간 및 상기 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계;를 포함하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제1항에 있어서,
상기 산출된 데이터를 이용하여 상기 공간에 대하여 방송 표준을 충족하는 가상 공간 음향을 생성하는 방송 표준 가상 공간 음향 생성 단계;를 더 포함하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제1항에 있어서,
상기 공간 객체 식별 단계에서는,
CNN(Convolutional Neural Network) 기반 신경망을 이용하여 상기 공간 또는 상기 하나 이상의 객체를 식별하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제3항에 있어서,
상기 데이터 산출 단계에서는,
상기 CNN 기반 신경망을 이용하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체의 크기, 위치, 재질 중 하나 이상에 대한 데이터를 산출하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제1항에 있어서,
상기 데이터 산출 단계에서는,
라이다 센서를 이용하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체의 크기, 위치, 깊이(depth) 중 하나 이상에 대한 데이터를 산출하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제3항에 있어서,
상기 공간 객체 식별 단계에서는,
상기 CNN 기반 신경망은 YOLO(You Only Look Once) 기반 신경망을 이용하여 구성되는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제1항에 있어서,
상기 공간 객체 식별 단계에서는,
상기 이미지에서 등고선(Contour) 추출값을 이용하여 상기 공간과 상기 개체를 구분하여 식별하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제7항에 있어서,
상기 공간 객체 식별 단계에서는,
적응형 기준값(adaptive threshold)를 적용하여 큰 그룹 단위의 등고선(Contour) 값을 추출하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제7항에 있어서,
상기 공간 객체 식별 단계에서는,
등고선(Contour) 생성 과정에서 모프 그래디언트(morph gradient) 프로세스를 통해 검출 정밀도를 개선하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제1항에 있어서,
상기 공간 객체 식별 단계에서는,
상기 공간의 천장, 벽면, 바닥면과 상기 공간에 구비되는 개체로 나누어 식별하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제1항에 있어서,
상기 데이터 산출 단계에서는,
상기 데이터를 산출된 순서에 따라 2차원 단면에 대입하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
제11항에 있어서,
상기 데이터 산출 단계에서는,
상기 대입된 2차원 이미지를 기초로 3차원 입체면에 적용하는 것을 특징으로 하는 이미지 기반 공간 모델링 방법.
하드웨어와 결합되어 제1항 내지 제12항 중 어느 한 항에 기재된 방법의 각 단계를 수행하기 위하여 기록 매체에 저장된 컴퓨터 프로그램.