KR20240000235A

KR20240000235A - 실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램

Info

Publication number: KR20240000235A
Application number: KR1020220076971A
Authority: KR
Inventors: 최영훈; 오세웅
Original assignee: 하이퍼리얼익스피리언스 주식회사
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2024-01-02

Abstract

본 발명은 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로는 공간에 대한 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델에 대한 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램에 관한 것이다.
본 발명에서는, 공간 음향 신경망 처리 장치가, 공간에 대한 하나 이상의 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계; 상기 산출된 데이터 중 일부 또는 전부에 대하여 전처리를 수행하는 전처리 수행 단계; 및 상기 전처리된 데이터를 이용하여 공간 음향 처리를 위한 신경망을 학습하는 신경망 학습 단계;를 포함하는 것을 특징으로 하는 공간 음향 신경망 처리 방법을 개시한다.

Description

실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램 {Method for Image Data Preprocessing and Neural Network Model for virtual space sound of realistic contents and computer program thereof}

본 발명은 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로는 공간에 대한 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델에 대한 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램에 관한 것이다.

종래에는 통상적으로 컨텐츠 제작자가 음향 제작 과정에서 현장감을 살리고 완성도를 높이기 위하여 별도의 후시 녹음/편집/가공 등 아날로그 오디오 작업을 진행하였고, 이로 인하여 작업 시간과 비용이 증가하게 될 뿐만 아니라, 나아가 작업자의 숙련도 등에 따라 부족한 현장감 등 음향 품질이 떨어지는 문제도 따를 수 있었다.

특히, 근래 들어 UHD(Ultra High-Definition) 고화질 방송 등이 확산되면서 방송 표준 기술로 채택된 실감형 음향 기술이 빠르게 활성화되고 있고, 나아가 영상 및 음향의 현장감 등을 강화하기 위한 실감형 컨텐츠의 구현을 위해 다양한 기술이 시도되고 있다.

그러나, 영상 기술과 대비할 때 공간 음향 제작 기술은 상대적으로 그 속도가 더디고 연구 결과물이 부족한 실정이다.

보다 구체적으로, 영상의 경우 광학 장비, 카메라, 프로젝터 등 기존의 다양한 장비와 기반 영상 기술을 활용할 수 있지만, 음향의 경우 스피커나 마이크 등 일반적인 입력/출력 방식의 장비 등을 제외하면 실감형 컨텐츠 제작을 위하여 실제로 이용할 수 있는 장비 및 기반 기술이 크게 부족하다는 어려움도 따른다.

이에 대하여, 최근 10여년간 관련 업계에서는 위와 같은 문제들을 해결하고자 70년대 후반부터 연구된 입체 음향 기술들을 제품에 적용시켜 상용화하는 시도를 진행하면서 실감형 컨텐츠의 제작 기술 및 환경을 개선해 나가고 있다.

그러나, 실감형 컨텐츠의 음향 제작 과정에서 현장감과 완성도를 위한 후반부 작업(Post Production) 단계에 필요한 기반 기술은 아직 발전이 더딘 양상을 보이고 있으며, 보다 구체적으로 대표적인 작업 환경을 살펴보더라도 단순히 IR(Impulse Response) 정보를 기반으로 하여 프로툴스(Protools) 등 상용 툴을 이용하여 전문 인력이 대상 공간의 특성을 반영하여 음향을 제작하는 전문적인 작업을 통해서만 제작이 가능하여, 음향 관련 전문 지식을 갖추지 못한 일반적인 사용자가 작업을 수행하는 것은 현실적으로 상당한 어려움이 따르게 된다.

나아가, 최근 이미지 또는 음향 처리 등을 위하여 신경망을 활용하는 기술이 폭넓게 시도되고 있다.

그러나, 신경망의 경우 이미지 또는 음향 신호를 처리함에 있어서 어떤 특징점(feature)를 고려하여 결과를 산출할 것인지에 따라 전산 자원의 소요량뿐만 아니라 결과물의 품질이 크게 달라질 수 있다.

또한, 신경망을 활용하고자 하는 경우 학습에 필요한 다량의 학습 데이터가 요구되므로, 고품질의 학습 데이터를 어떻게 충분히 확보할 것인지 여부가 중요한 제약 사항 중 하나가 된다.

이에 따라, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있으며, 보다 구체적으로 공간에 대한 이미지 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델에 대한 이미지 데이터 전처리 및 학습 방법이 요구되고 있으나, 아직 이에 대한 적절한 해결 방안이 제시되지 못하고 있다.

대한민국 공개특허공보 제 10-2013-0028365호 (2013.03.19)

본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위해 창안된 것으로, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있도록 하는 음향 작업 처리 기술을 제공하는 것을 목적으로 한다.

보다 구체적으로, 본 발명에서는 공간에 대한 이미지 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델에 대한 이미지 데이터 전처리 및 학습 방법을 제공하는 것을 목적으로 한다.

그 외 본 발명의 세부적인 목적은 이하에 기재되는 구체적인 내용을 통하여 이 기술 분야의 전문가나 연구자에게 자명하게 파악되고 이해될 것이다.

본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법은, 공간 음향 신경망 처리 장치가, 공간에 대한 하나 이상의 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계; 상기 산출된 데이터 중 일부 또는 전부에 대하여 전처리를 수행하는 전처리 수행 단계; 및 상기 전처리된 데이터를 이용하여 공간 음향 처리를 위한 신경망을 학습하는 신경망 학습 단계;를 포함하는 것을 특징으로 한다.

여기서, 상기 신경망을 이용하여 상기 공간에 대하여 방송 표준을 충족하는 가상 공간 음향을 생성하는 방송 표준 가상 공간 음향 생성 단계;를 더 포함할 수 있다.

또한, 상기 데이터 산출 단계에서는, 상기 이미지에 대하여 깊이 평가(Depth Estimation) 모델을 적용하여 상기 객체에 대한 깊이 데이터를 산출할 수 있다.

이때, 상기 데이터 산출 단계에서는, 상기 객체에 대한 바운딩 박스(bounding box)의 중심을 계산하고, 이를 기초로 상기 객체에 대한 깊이 데이터를 산출할 수 있다.

또한, 상기 데이터 산출 단계에서는, 상기 객체에 대한 바운딩 박스(bounding box)의 크기와 깊이 데이터를 기초로 상기 객체의 크기를 산출할 수 있다.

또한, 상기 전처리 수행 단계에서는, 상기 데이터 중 미리 정해진 기준에 따라 상기 공간 음향 처리에 사용될 데이터를 선별할 수 있다.

이때, 상기 전처리 수행 단계에서는, 상기 데이터 중 미리 설정진 민감도를 고려하여 상기 공간 음향 처리에 사용될 데이터를 선별할 수 있다.

또한, 상기 신경망 학습 단계에서는, 상기 신경망의 학습에 사용될 학습 데이터를 증강(augmentation)하는 학습 데이터 증강 과정을 포함할 수 있다.

또한, 상기 신경망 학습 단계에서는, 지도 학습을 이용하여 상기 신경망에 대한 학습을 수행할 수 있다.

또한, 상기 지도 학습에서는 상기 데이터 산출 단계에서 인식된 데이터의 과대 또는 과소 적합을 방지할 수 있도록 사전 설정될 수 있다.

또한, 상기 지도 학습에서는 상기 데이터 산출 단계에서 인식된 데이터에 대하여 검증을 수행하여 과부하를 방지하고 더 많은 학습 데이터를 처리하도록 할 수 있다.

또한, 상기 신경망 학습 단계에서는, 등고선(contour), 모프 그래디언트(morph gradient) 중 하나 이상의 값을 조정하여 보다 높은 인식률로 학습을 수행하도록 할 수 있다.

또한, 본 발명의 다른 측면에 따른 컴퓨터 프로그램은, 하드웨어와 결합되어 상기 어느 한 항에 기재된 방법의 각 단계를 수행하기 위하여 기록 매체에 저장된 컴퓨터 프로그램인 것을 특징으로 한다.

이에 따라, 본 발명의 일 실시예에 따른 실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램에서는, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있도록 하는 음향 작업 처리 기술을 제공할 수 있게 된다.

또한, 본 발명의 일 실시예에 따른 실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델 및 컴퓨터 프로그램에서는, 대상 공간에 대한 이미지 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델에 대한 이미지 데이터 전처리 및 학습 방법을 제공할 수 있게 된다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부도면은 본 발명에 대한 실시 예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1은 본 발명의 일 실시예에 따른 가상 공간 음향 신경망 처리 시스템을 예시하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법의 순서도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법을 이용한 공간 음향 구현 과정을 예시하는 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 공간 및 개체 인식을 예시하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 이미지 인식을 위한 신경망을 예시하는 도면이다.
도 8은 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에서 인식된 객체를 예시하는 도면이다.
도 9는 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법에서 데이터 전처리 수행을 예시하는 도면이다.
도 10은 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법에서 공간 음향 생성 과정을 예시하는 도면이다.
도 11은 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법의 실험을 위한 공간 및 객체를 예시하는 도면이다.
도 12는 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에 따른 공간 음향 구현을 예시하는 도면이다.
도 13은 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 음향 신경망 처리 장치의 구성도를 예시하는 도면이다.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명의 권리범위를 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 해당 분야의 통상의 기술자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 발명에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 아니된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2구성 요소로 명명될 수 있고, 유사하게 제2구성 요소도 제1 구성요소로 명명될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

또한, 본 발명을 설명함에 있어서 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 기술사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 기술사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.

먼저, 도 1에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 가상 공간 음향 신경망 처리 시스템(100)은, 대상 공간에 대한 하나 이상의 이미지를 제공하는 이미지 입력 장치(110), 상기 하나 이상의 이미지를 분석하여 산출되는 상기 공간에 대한 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하는 신경망 모델을 생성할 수 있는 공간 음향 신경망 처리 장치(120) 및 통신 네트워크(130)를 포함하여 구성될 수 있다.

이때, 도 1에서 볼 수 있는 바와 같이, 상기 이미지 입력 장치(110)는 스마트폰 등 이미지를 촬영할 수 있는 모듈을 구비하는 장치이거나, 촬영된 사진 등을 이미지로 변환하여 제공할 수 있는 스캐너 등을 포함할 수 있으나, 본 발명이 반드시 이에 한정되는 것은 아니다.

또한, 도 1에서 볼 수 있는 바와 같이, 상기 공간 음향 신경망 처리 장치(120)는 상기 하나 이상의 이미지를 분석하여 산출되는 상기 공간에 대한 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현하는 신경망 모델을 생성할 수 있는 전산 장치로서, 서버나 개인용 PC, 스마트폰, 태플릿, 노트북 등 다양한 장치를 이용하여 구현될 수 있으며, 이외에도 다수의 서버가 연동되는 클라우드 시스템이나 전용 장치 등 다양한 형태로 구현될 수도 있다.

또한, 도 1에서 상기 이미지 입력 장치(110)와 공간 음향 신경망 처리 장치(120)를 연결하는 통신 네트워크(130)로서는 유선 네트워크와 무선 네트워크를 포함할 수 있으며, 구체적으로, 근거리 통신망 (LAN: Local Area Network), 도시권 통신망 (MAN: Metropolitan Area Network), 광역 통신망 (WAN: Wide Area Network) 등의 다양한 통신망을 포함할 수 있다. 또한, 상기 통신 네트워크(130)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 발명에 따른 통신 네트워크(130)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크나 공지의 전화 네트워크 또는 공지의 유무선 텔레비전 네트워크를 적어도 일부로 포함할 수도 있다.

그러나, 본 발명에서 상기 공간 음향 신경망 처리 장치(120)가 반드시 상기 통신 네트워크(130)를 통하여 상기 이미지 입력 장치(110)로 상기 하나 이상의 이미지를 전송하여야 하는 것은 아니며, 상기 통신 네트워크(130)를 거치지 않고 직접 이미지를 입력 받거나, 나아가 상기 공간 음향 신경망 처리 장치(120)가 상기 이미지 입력 장치(110)와 일체형으로 구성되는 등 다양한 형태로 구현하는 것도 가능하다.

이에 따라, 본 발명의 일 실시예에 따른 가상 공간 음향 신경망 처리 시스템(100)에서는, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있으며, 나아가 공간에 대한 이미지 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델을 제공할 수 있게 된다.

또한, 도 2에서는 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법의 순서도를 예시하고 있다.

도 2에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법은, 공간 음향 신경망 처리 장치(120)가, 공간에 대한 하나 이상의 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계(S110), 상기 산출된 데이터 중 일부 또는 전부에 대하여 전처리를 수행하는 전처리 수행 단계(S120) 및 상기 전처리된 데이터를 이용하여 공간 음향 처리를 위한 신경망을 학습하는 신경망 학습 단계(S130)를 포함하는 것을 특징으로 한다.

나아가, 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에는, 상기 신경망을 이용하여 상기 공간에 대하여 방송 표준을 충족하는 가상 공간 음향을 생성하는 방송 표준 가상 공간 음향 생성 단계(미도시)가 더 포함될 수 있다.

보다 구체적으로, 본 발명의 일 실시예에 따른 이미지 인식 기반 공간 모델링 방법에서, 상기 방송 표준 가상 공간 음향 생성 단계에서는 돌비(DOLBY) 애트모스(Atmos)나 차세대 방송 규격으로 채택된 AC-4 등 방송 표준을 충족하는 가상 공간 음향을 생성할 수 있다.

나아가, 상기 데이터 산출 단계(S110)에서는, 상기 이미지에 대하여 깊이 평가(Depth Estimation) 모델을 적용하여 상기 객체에 대한 깊이 데이터를 산출할 수 있다.

이때, 상기 데이터 산출 단계(S110)에서는, 상기 객체에 대한 바운딩 박스(bounding box)의 중심을 계산하고, 이를 기초로 상기 객체에 대한 깊이 데이터를 산출할 수 있다.

또한, 상기 데이터 산출 단계(S110)에서는, 상기 객체에 대한 바운딩 박스(bounding box)의 크기와 깊이 데이터를 기초로 상기 객체의 크기를 산출할 수 있다.

또한, 상기 전처리 수행 단계(S120)에서는, 상기 데이터 중 미리 정해진 기준에 따라 상기 공간 음향 처리에 사용될 데이터를 선별할 수 있다.

이때, 상기 전처리 수행 단계(S120)에서는, 상기 데이터 중 미리 설정진 민감도를 고려하여 상기 공간 음향 처리에 사용될 데이터를 선별할 수 있다.

또한, 상기 신경망 학습 단계(S130)에서는, 상기 신경망의 학습에 사용될 학습 데이터를 증강(augmentation)하는 학습 데이터 증강 과정을 포함할 수 있다.

또한, 상기 신경망 학습 단계(S130)에서는, 지도 학습을 이용하여 상기 신경망에 대한 학습을 수행할 수 있다.

또한, 상기 신경망 학습 단계(S130)에서는, 등고선(contour), 모프 그래디언트(morph gradient) 중 하나 이상의 값을 조정하여 보다 높은 인식률로 학습을 수행하도록 할 수 있다.

이하, 도 1 및 도 2를 참조하여 본 발명의 일 실시예에 따른 실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델에 대하여 보다 자세하게 살핀다.

도 1 및 도 2에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델에서는 대상 공간에 대한 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델을 생성할 수 있게 된다.

보다 구체적으로는, 도 3에서 볼 수 있는 바와 같이, 먼저 대상 공간에 대한 하나 이상의 이미지가 촬영되면 공간 음향 신경망 처리 장치(120)가 이를 전송받을 수 있다.

이어서, 사용자는 상기 공간의 크기 등을 입력할 수 있다. 보다 구체적으로, 상기 공간이 건물 내부의 방(room) 등인 경우를 예로 들면, 상기 공간은 넓이, 층고 등을 가질 수 있으며, 사용자는 상기 공간에 대한 넓이, 층고 등을 입력하여 상기 공간에 대한 이미지 분석에 적용할 수 있다.

또한, 상기 공간에 대한 이미지를 분석하여 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체를 식별하고, 상기 공간 및 상기 하나 이상의 객체에 대한 데이터를 산출할 수 있다.

이에 따라, 상기 공간에 대한 이미지 분석 결과를 토대로 상기 공간 및 상기 공간에 구비되는 하나 이상의 객체에 대한 음향 특성을 분석하여 상기 공간에 대한 공간 음향 정보를 생성할 수 있다. 보다 구체적인 예를 들어, 상기 공간에 대한 IR(Impulse Response) 정보를 생성할 수 있으나, 본 발명이 반드시 이에 한정되는 것은 아니다.

나아가, 상기 공간에 대한 공간 음향 정보를 이용하여 상기 공간에 대한 가상 공간 음향을 구현하거나 더 나아가 상기 가상 공간 음향을 적용한 실감형 컨텐츠를 제작하는 것도 가능하다.

이를 위하여, 본 발명에서는 CNN 신경망 등 AI(Artificial Intelligence) 기반 가상 공간 음향 구현 솔루션을 구현하여 제공하는 것을 목적으로 하며, 상기 솔루션은 SDK 형식이나 스마트폰 등을 위한 애플리케이션, PC 버전 소프트웨어 등 다양한 형태로 구현될 수 있다.

이에 따라, 도 4에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델에서는, 이미지 입력 장치(110) 등을 이용하여 대상 공간에 대한 하나 이상의 이미지가 제공되면, 신경망 등을 기반으로 상기 공간에 구비되는 객체 등의 크기와 소재 등 음향적 자료가 자동 인식되고, 상기 공간에 대한 이미지-음향 연동 알고리즘을 통해 공간 음향 정보가 자동으로 생성되어, 건축 음향 설계, 증강 현실(Augmented Reality) 컨텐츠 제작, 영화 후시 녹음(ADR) 작업 등에 활용하는 것이 가능하다.

보다 구체적으로, 도 5에서 볼 수 있는 바와 같이, 신경망 등 AI 기반으로 이미지에 대한 분석을 수행하여 대상 공간 및 상기 공간에 구비되는 객체에 대한 식별 및 분석이 가능하다.

나아가, 도 6에서 볼 수 있는 바와 같이, 라이다 센서를 이용하여 공간에 대한 분석을 수행하는 것도 가능한데, 최근 모바일 기기 등에 탑재되는 라이다 센서를 이용하여 더욱 정밀한 데이터를 취득하여 직접 상기 공간을 인식하고 분석을 수행할 수도 있겠으나, 상기 이미지에 대한 분석과 상기 라이다 센서에 대한 분석을 함께 사용하면서 상호 보완하여 보다 개선된 식별 결과 및 데이터를 도출하는 것도 가능하다.

또한, 도 7에서는 본 발명의 일 실시예에 따른 이미지 인식을 위한 신경망으로서, CNN 기반의 인셉션(Inception)_v3을 이용하는 경우를 예시하고 있다.

인셉션_v3는 미리 가중치(weigth) 값들과 레이블(label)값들을 만들어 놓은 버전으로, 인셉션_v3모델은 총 1000개의 레이블(label)값을 갖고 있으며, 이미지넷(ImageNet) 챌린지의 이미지 매칭 정확도 평가에서 96%이상을 보여 주었다.

또한, 도 8에서는 실내 공간에 위치하는 여러 객체들에 대한 신경망 인식 결과를 예시하고 있다. 도 8에서 볼 수 있는 바와 같이, 신경망 등을 이용하여 상기 객체들의 종류와 크기 등을 인식할 수 있음을 알 수 있다.

나아가, 상기 공간 음향 신경망 처리 장치(120)에서는, 상기 데이터 산출 단계(S110)에서 상기 이미지에 대하여 깊이 평가(Depth Estimation) 모델을 적용하여 상기 객체에 대한 깊이 데이터를 산출할 수 있다.

이때, 상기 공간 음향 신경망 처리 장치(120)에서는 상기 객체에 대한 바운딩 박스(bounding box)의 중심을 계산하고, 이를 기초로 상기 객체에 대한 깊이 데이터를 산출한 후, 상기 객체에 대한 바운딩 박스(bounding box)의 크기와 깊이 데이터를 기초로 상기 객체의 크기를 산출할 수 있다.

보다 구체적으로, 종래 다수의 깊이 추정 알고리즘이 이미지와 해당 깊이 값으로 훈련되었으나, 다양한 장면의 이미지에 대하여 정확한 깊이 데이터를 산출하기에는 어려움이 따랐으며, 나아가, 레이저 스캐너와 같은 정밀한 하드웨어 지원 시스템이라도 반사 및 기타 다양한 요인으로 인해 부정확한 결과를 생성할 수 있었다.

이에 대하여, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 장치(120)에서는 이미지에서 깊이 데이터를 얻기 위해 깊이 평가(Depth Estimation) 모델을 적용할 수 있다.

이에 따라, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 장치(120)에서는 이미지를 생성하고 이미지가 수정되면 깊이를 계산할 수 있으며, 보다 구체적으로 감지된 객체의 깊이를 계산하기 위해 먼저 감지된 바운딩 박스(bounding box)의 중심을 계산한 후, 상기 바운딩 박스(bounding box)의 크기와 깊이(Depth)를 기초로 상기 객체의 크기를 설정하는 것이 가능하다.

또한, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 장치(120)에서는, 상기 전처리 수행 단계(S120)에서 상기 데이터 중 미리 정해진 기준에 따라 상기 공간 음향 처리에 사용될 데이터를 선별할 수 있다.

보다 구체적으로, 도 9에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 장치(120)에서, 상기 공간에 대한 이미지에서 추출된 데이터 모두가 공간 음향 생성 및 튜닝을 위한 데이터로 반영되어야 하는 것은 아니며, 변수로 반영될 데이터를 관리하는 적정 민감도를 설정할 필요가 있다.

또한, 상기 전처리 수행 단계(S120)에서는, 상기 데이터 중 미리 설정진 민감도를 고려하여 상기 공간 음향 처리에 사용될 데이터를 선별할 수 있으며, 또한 상기 신경망의 학습에 사용될 학습 데이터를 증강(augmentation)하는 학습 데이터 증강 과정을 포함할 수 있다.

나아가, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 장치(120)에서는, 상기 신경망 학습 단계(S130)에서 지도 학습을 이용하여 상기 신경망에 대한 학습을 수행할 수 있다.

이때, 상기 지도 학습에서는 상기 데이터 산출 단계에서 인식된 데이터의 과대 또는 과소 적합을 방지할 수 있도록 사전 설정될 수 있으며, 또한 정확도 향상을 위한 입력과 상세 타겟 설정이 가능하며, 나아가 모델 평가를 위한 유효성 검증 세트(validation set)를 활용하는 것도 가능하다.

또한, 상기 지도 학습에서는 상기 데이터 산출 단계(S120)에서 인식된 데이터에 대하여 검증을 수행하여 과부하를 방지하고 더 많은 학습 데이터를 처리하도록 할 수 있다.

보다 구체적으로, 인식된 이미지의 검증 및 알고리즘 상세화를 위하여, 코랩(colab) 등의 툴을 활용하여 서버 과부하를 방지하고 더 많은 학습 데이터 활용할 수 있도록 하거나, 등고선(contour), 모프 그래디언트(morph gradient) 등의 값을 추가로 조정하여 더 나은 인식률로 학습을 수행하도록 할 수도 있다.

이에 따라, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 장치(120)에서는, 지도학습형 러닝 모델 개발, 인식된 이미지 검증 및 알고리즘 상세화 등을 통해 효율적으로 공간에 배치된 사물과 재질을 정확하게 파악할 수 있을 뿐만 아니라(예를 들어 80% 이상), 다수의 학습용 데이터 이미지를 이상 단기간 내 학습할 수 있으며(예를 들어 80000장 이상), 나아가 리소스를 줄이기 위한 데이터 전처리 효율 강화, 음향 정보와 연동 가능하도록 데이터 셋의 수치화를 수행할 수 있게 된다.

또한, 도 10에서는 본 발명의 일 실시예에 따른 가상 공간 음향 신경망 처리 시스템(100)의 동작을 예시하고 있다.

이때, 도 10에서 사용되고 있는 YOLO(You Only Look Once)는 CNN(Convolutional Neural Networks)을 사용하여 객체를 감지할 수 있는 기술이다.

객체 감지 메커니즘과 관련된 두 가지 작업이 있는데, 첫번째 작업은 객체의 위치를 결정하는 것이고 두번째 작업은 해당 객체를 분류하는 작업이다.

이와 관련하여, R-CNN(Region-BasedConvolutional Neural Network) 또는 그 변형을 사용하여 객체를 감지할 수도 있지만 느리고 최적화하기 어렵다는 제약이 따른다.

이에 대하여, 본 발명에서는 전체 이미지에 하나의 신경망을 적용하여 이미지를 영역으로 분할하고 영역별 네트워크에서 확률과 함께 경계 상자를 예측하게 된다.

이때, 실내 공간 데이터 수집 및 가공을 위하여 라벨링된 데이터, AI 학습용 데이터(AI 허브) 및 NYU Depth V2 데이터셋을 사용할 수 있다.

또한, 도 11에서는 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법에서의 실험을 위한 공간 및 객체를 예시하고 있다.

이와 같이, 본 발명의 일 실시예에 따른 공간 음향 신경망 처리 방법에서는 다양한 공간 상황별로 IR(Impulse Response) 정보 등 공간 음향 정보를 생성하고 검증하면서 신경망에 대한 훈련을 수행하고 성능을 개선할 수 있다.

이에 따라, 본 발명의 일 실시예에 따른 실감형 컨텐츠에서의 가상 공간 음향 구현을 위한 데이터 전처리 방법, 신경망 모델에서는, 도 12에서 볼 수 있는 바와 같이, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 다양한 작업 환경에 대하여 가상 공간 음향을 구현하기 위하여 상기 공간에 대한 모델링을 수행하고 음향 효과 작업을 수행할 수 있게 된다.

또한, 본 발명의 또 다른 측면에 따른 컴퓨터 프로그램은 앞서 살핀 이미지 인식 기반 공간 모델링 방법의 각 단계를 컴퓨터에서 실행시키기 위하여 하드웨어와 결합되어 기록 매체에 저장된 컴퓨터 프로그램인 것을 특징으로 한다. 상기 컴퓨터 프로그램은 컴파일러에 의해 만들어지는 기계어 코드를 포함하는 컴퓨터 프로그램뿐만 아니라, 인터프리터 등을 사용해서 컴퓨터에서 실행될 수 있는 고급 언어 코드를 포함하는 컴퓨터 프로그램일 수도 있다. 이때, 상기 컴퓨터로서는 퍼스널 컴퓨터(PC)나 노트북 컴퓨터 등에 한정되지 아니하며, 서버, 스마트폰, 태블릿 PC, PDA, 휴대전화 등 중앙처리장치(CPU)를 구비하여 컴퓨터 프로그램을 실행할 수 있는 일체의 정보처리 장치를 포함한다.

또한, 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 복수의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

또한, 도 13은 예시적인 실시예들에서 사용되기에 적합한 공간 음향 신경망 처리 장치(310)의 컴퓨팅 환경을 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 공간 음향 신경망 처리 장치(310)의 컴퓨팅 환경은 컴퓨팅 장치(312)를 포함한다. 일 실시예에서, 컴퓨팅 장치(312)는 주어진 문서 이미지(10)에 대하여 문서 인식을 수행하는 장치(예를 들어, 문서 인식 장치(120))일 수 있다.

컴퓨팅 장치(312)는 적어도 하나의 프로세서(314), 컴퓨터 판독 가능 저장 매체(316) 및 통신 버스(318)를 포함한다. 프로세서(314)는 컴퓨팅 장치(312)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(314)는 컴퓨터 판독 가능 저장 매체(316)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(314)에 의해 실행되는 경우 컴퓨팅 장치(312)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(316)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(320)은 프로세서(314)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(312)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(314), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(312)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(312)는 또한 하나 이상의 입출력 장치(324)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(322) 및 하나 이상의 네트워크 통신 인터페이스(326)를 포함할 수 있다. 입출력 인터페이스(322) 및 네트워크 통신 인터페이스(326)는 통신 버스(18)에 연결된다. 입출력 장치(324)는 입출력 인터페이스(322)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(324)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(324)는 컴퓨팅 장치(312)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(312)의 내부에 포함될 수도 있고, 컴퓨팅 장치(312)와는 구별되는 별개의 장치로 컴퓨팅 장치(312)와 연결될 수도 있다.

이에 따라, 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 데이터 전처리 및 신경망 학습 방법, 장치 및 컴퓨터 프로그램에서는, 개인 컨텐츠 제작자 등 전문 지식을 갖추기 못한 일반적인 사용자라 하더라도 보다 용이하게 실감형 컨텐츠를 위한 음향 효과 작업을 수행할 수 있도록 하는 음향 작업 처리 기술을 제공할 수 있게 된다.

또한, 본 발명의 일 실시예에 따른 실감형 컨텐츠의 가상 공간 음향 구현을 위한 이미지 데이터 전처리 및 신경망 학습 방법, 장치 및 컴퓨터 프로그램에서는, 공간에 대한 이미지 분석 데이터를 전처리하고 학습을 수행하여 실감형 컨텐츠를 위한 가상 공간 음향을 구현할 수 있는 신경망 모델에 대한 이미지 데이터 전처리 및 학습 방법을 제공 할 수 있게 된다.

본 명세서에서 설명된 위 실시예 및 도면들은 단지 예시적인 것일 뿐, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 또한, 도면에 도시된 구성요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성요소가 아닐 수 있다.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 또한 본 발명 중 방법 발명에서 제시하는 단계들은 반드시 그 선후의 순서에 대한 구속을 의도한 것이 아니며, 각 공정의 본질에 따라 반드시 어느 단계가 선행되어야 하는 것이 아닌 한 순서는 필요에 따라 적절히 변경될 수 있다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해본 발명의 범위가 한정되는 것은 아니다. 또한, 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등 범주 내에서 설계 조건 및 요소에 따라 구성될 수 있음을 이해할 수 있다.

100 : 가상 공간 음향 신경망 처리 시스템
110 : 이미지 입력 장치
120 : 공간 음향 신경망 처리 장치
130 : 통신 네트워크
310 : 공간 음향 신경망 처리 장치
312 : 컴퓨팅 장치
314 : 프로세서
316 : 저장 매체
318 : 통신 버스
320 : 프로그램
322 : 입출력 인터페이스
324 : 입출력 장치
326 : 통신 인터페이스

Claims

공간 음향 신경망 처리 장치가, 공간에 대한 하나 이상의 이미지에서 상기 공간 또는 상기 공간에 구비되는 하나 이상의 객체에 대한 데이터를 산출하는 데이터 산출 단계;
상기 산출된 데이터 중 일부 또는 전부에 대하여 전처리를 수행하는 전처리 수행 단계; 및
상기 전처리된 데이터를 이용하여 공간 음향 처리를 위한 신경망을 학습하는 신경망 학습 단계;를 포함하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제1항에 있어서,
상기 신경망을 이용하여 상기 공간에 대하여 방송 표준을 충족하는 가상 공간 음향을 생성하는 방송 표준 가상 공간 음향 생성 단계;를 더 포함하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제1항에 있어서,
상기 데이터 산출 단계에서는,
상기 이미지에 대하여 깊이 평가(Depth Estimation) 모델을 적용하여 상기 객체에 대한 깊이 데이터를 산출하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제3항에 있어서,
상기 데이터 산출 단계에서는,
상기 객체에 대한 바운딩 박스(bounding box)의 중심을 계산하고, 이를 기초로 상기 객체에 대한 깊이 데이터를 산출하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제4항에 있어서,
상기 데이터 산출 단계에서는,
상기 객체에 대한 바운딩 박스(bounding box)의 크기와 깊이 데이터를 기초로 상기 객체의 크기를 산출하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제1항에 있어서,
상기 전처리 수행 단계에서는,
상기 데이터 중 미리 정해진 기준에 따라 상기 공간 음향 처리에 사용될 데이터를 선별하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제6항에 있어서,
상기 전처리 수행 단계에서는,
상기 데이터 중 미리 설정진 민감도를 고려하여 상기 공간 음향 처리에 사용될 데이터를 선별하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제1항에 있어서,
상기 신경망 학습 단계에서는,
상기 신경망의 학습에 사용될 학습 데이터를 증강(augmentation)하는 학습 데이터 증강 과정을 포함하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제6항에 있어서,
상기 신경망 학습 단계에서는,
지도 학습을 이용하여 상기 신경망에 대한 학습을 수행하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제9항에 있어서,
상기 지도 학습에서는 상기 데이터 산출 단계에서 인식된 데이터의 과대 또는 과소 적합을 방지할 수 있도록 사전 설정되는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제9항에 있어서,
상기 지도 학습에서는 상기 데이터 산출 단계에서 인식된 데이터에 대하여 검증을 수행하여 과부하를 방지하고 더 많은 학습 데이터를 처리하도록 하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
제9항에 있어서,
상기 신경망 학습 단계에서는,
등고선(contour), 모프 그래디언트(morph gradient) 중 하나 이상의 값을 조정하여 보다 높은 인식률로 학습을 수행하도록 하는 것을 특징으로 하는 공간 음향 신경망 처리 방법.
하드웨어와 결합되어 제1항 내지 제12항 중 어느 한 항에 기재된 방법의 각 단계를 수행하기 위하여 기록 매체에 저장된 컴퓨터 프로그램.