KR102334091B1 - 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법 - Google Patents

오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법 Download PDF

Info

Publication number
KR102334091B1
KR102334091B1 KR1020200034136A KR20200034136A KR102334091B1 KR 102334091 B1 KR102334091 B1 KR 102334091B1 KR 1020200034136 A KR1020200034136 A KR 1020200034136A KR 20200034136 A KR20200034136 A KR 20200034136A KR 102334091 B1 KR102334091 B1 KR 102334091B1
Authority
KR
South Korea
Prior art keywords
audio signal
display unit
see
augmented reality
information
Prior art date
Application number
KR1020200034136A
Other languages
English (en)
Other versions
KR20210117654A (ko
Inventor
한윤창
이수빈
박정수
정일영
이돈문
임현기
Original Assignee
주식회사 코클리어닷에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코클리어닷에이아이 filed Critical 주식회사 코클리어닷에이아이
Priority to KR1020200034136A priority Critical patent/KR102334091B1/ko
Priority to CN202180020138.6A priority patent/CN115336291A/zh
Priority to EP21770949.2A priority patent/EP4124073A4/en
Priority to PCT/KR2021/002497 priority patent/WO2021187771A1/ko
Priority to JP2022554571A priority patent/JP2023531849A/ja
Priority to US17/911,637 priority patent/US20230145966A1/en
Publication of KR20210117654A publication Critical patent/KR20210117654A/ko
Application granted granted Critical
Publication of KR102334091B1 publication Critical patent/KR102334091B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2215/00Indexing scheme for image rendering
    • G06T2215/16Using real world measurements to influence rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 오디오 식별을 수행할 수 있는 증강현실 디바이스 및 그의 제어방법에 관한 것으로, 사용자의 눈이 관통하여 볼 수 있도록 형성되어 가상 객체를 출력하는 시스루(see-through) 디스플레이부; 디스플레이부로부터 미리 설정된 거리 이내에서 발생된 오디오 신호를 입력받는 오디오 입력부; 오디오 신호에 대응되는 이벤트 정보를 식별하고, 식별된 이벤트 정보에 대응되는 가상 객체의 영상정보가 출력되도록 상기 시스루 디스플레이부의 동작을 제어하는 제어부;를 포함하는 것을 특징으로 한다.

Description

오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법{AUGMENTED REALITY DEVICE FOR AUDIO IDENTIFICATION AND CONTROL METHOD THEREOF}
본 발명은 증강현실 디바이스에 관한 것이다. 구체적으로, 본 발명은 오디오 식별을 수행할 수 있는 증강현실 디바이스 및 그의 제어방법에 관한 것이다.
현실의 이미지나 배경에 3차원의 가상 이미지를 겹쳐 하나의 영상으로 보여주는 기술을 증강현실(Augmented Reality; AR)이라고 한다. 즉, 사용자가 투명한 글래스를 통해 현실의 이미지를 제공받는 상태에서, 글래스에 가상 객체에 대응되는 영상정보를 출력함으로써, 사용자의 감각과 인식을 확장하는 것을 증강현실로 정의한다.
최근 카메라와 GPS(Global Positioning System) 등 다양한 센서를 내장한 모바일 단말과 스마트폰의 보급이 확산되고, 고속의 모바일 인터넷을 이용한 다양한 융합 서비스들이 선보이면서 모바일 기기를 활용한 증강현실 서비스가 급속히 확산되고 있다.
한편, 오디오 정보를 처리하기 위하여 딥 러닝과 같은 인공지능 기술들이 적용되고 있다. 오디오와 관련된 처리 기술 중 하나인 오디오 식별 기술은, 오디오 입력이 어떠한 주체로부터 발생되었는지, 해당 주체의 어떤 상황에서 발생되는 것인지 여부를 검출하기 위한 목적으로 개발된다.
인공지능의 발달로 오디오 식별의 정확도가 증가되고, 디바이스의 연산 능력이 향상됨에 따라 오디오 식별에 소요되는 시간이 감소하였으므로, 사용자는 실시간으로 입력된 오디오 정보에 대해 오디오 식별을 수행할 수 있다.
이에, 증강현실 디바이스에 오디오 식별 기술을 융합하여 사용자의 감각영역을 확장시키기 위한 다양한 연구가 진행되고 있다.
본 발명의 기술적 과제는 오디오 식별 기술을 이용하여, 주변에서 발생된 이벤트를 사용자에게 직관적으로 알릴 수 있는 증강현실 디바이스 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 사용자가 가시영역 외에서 발생된 오디오를 인지할 수 있도록 주변에서 발생된 오디오 정보를 식별할 수 있는 증강현실 디바이스 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 실시간으로 주변에서 발생되는 소리의 레이블(Label)과 발원지점을 검출하고, 이에 따라 가상객체를 출력하는 증강현실 디바이스 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 오디오 정보와 영상정보를 연동하여 사용자의 인지 영역을 확대시키도록 가상객체를 제공하는 증강현실 디바이스 및 그의 제어방법을 제공하는 것이다.
또한, 본 발명의 기술적 과제는, 주변에서 발생되는 오디오 정보의 속성에 근거하여 동작하는 증강현실 디바이스를 제공하는 것이다.
본 발명에 따른 증강현실 디바이스는 사용자의 눈이 관통하여 볼 수 있도록 형성되어 가상 객체를 출력하는 시스루(see-through) 디스플레이부; 디스플레이부로부터 미리 설정된 거리 이내에서 발생된 오디오 신호를 입력받는 오디오 입력부; 오디오 신호에 대응되는 이벤트 정보를 식별하고, 식별된 이벤트 정보에 대응되는 가상 객체의 영상정보가 출력되도록 상기 시스루 디스플레이부의 동작을 제어하는 제어부;를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 증강현실 디바이스의 다른 실시예에 따르면, 영상정보는 오디오 신호와 관련된 텍스트, 이미지 및 위치정보 중 적어도 하나를 포함하는 것을 특징으로 하고, 제어부는 오디오 신호가 발생된 지점의 위치를 검출하고, 영상정보가 검출된 위치와 관련된 정보를 포함하도록 시스루 디스플레이부의 동작을 제어하는 것을 특징으로 한다.
본 발명에 따르면, 사용자가 볼 수 없는 영역에서 발생되는 소리를 시각 정보로 변환하여 출력함으로써, 사용자가 주변에서 발생되는 소리를 정확하게 인지할 수 있는 장점이 있다.
또한, 본 발명에 따르면 청각 능력을 상실한 사용자도 주변에서 발생되는 다양한 소리와 관련된 정보를 눈으로 보는 것과 같은 효과가 발생할 수 있다.
또한, 본 발명에 따르면 주변에서 발생되는 오디오 신호와, 증강현실에 의해 발생되는 가상 객체를 조합시킴으로써, 사용자의 감각 영역을 극대화할 수 있는 효과가 도출될 수 있다.
도 1은 증강현실 디바이스를 포함하는 시스템을 나타내는 개념도이다.
도 2는 증강현실 디바이스의 사시도이다.
도 3은 증강현실 디바이스의 구성요소를 나타내는 블록도이다.
도 4는 본 발명에 따른 증강현실 디바이스의 제어방법을 나타내는 흐름도이다.
도 5 내지 도 8은 본 발명에 따른 증강현실 디바이스의 실시예를 나타내는 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다.
상기 기재된 바와 같이, 증강현실 디바이스의 사용자는 증강현실 디바이스 상의 상호 작용 요소의 기능에 대한 정보를 얻고자 한다. 따라서, 본원에 기재된 실시예는 시스루 디스플레이 장치를 통하여 이러한 정보를 제공하는 것에 관련된다. 예컨대, 아래 구체적으로 기재되어 있듯이, 시스루 디스플레이 장치는 증강현실 디바이스의 쌍방향 요소의 기능에 대한 정보를 증강현실 디바이스의 사용자의 시야 상에 디스플레이되는 증강 현실 이미지로 제공하도록 구성된다.
도 1은 증강현실 디바이스를 포함하는 시스템을 나타내는 개념도이다. 도 1을 참조하여 본 발명의 일 실시예를 설명하면, 입력부(100)를 통해 오디오 신호를 입력받고, 제어부(200)에서 입력받은 오디오 신호에 대응되는 이벤트 정보를 식별하고 식별된 이벤트 정보에 대응되는 가상 객체의 영상정보가 시스루 디스플레이부(300)를 통해 출력되도록 제어할 수 있다. 상세하게, 오디오 신호를 입력받고, 해당 오디오 신호는 인공 신경망에 의해 검출, 식별 및 영상정보와 매칭되어 디스플레이부(300)를 통해 사용자에게 시각적으로 전달할 수 있다. 여기서, 디스플레이부(300)는 후술되는 바와 같이 스마트 글래스 형태로 제공될 수 있다. 스마트 글래스는 종래 기술에 기반한 것으로, 글래스 형태를 지지하는 프레임부, 사용자에게 스마트 글래스를 고정시키는 고정부, 프레임 상에 장착되어 사용자가 관통하여 가시영역을 바라봄과 동시에 증강현실 영상정보를 확인할 수 있는 렌즈부를 포함하여 구비될 수 있다. 이는 카메라 및 각종 센서들을 더 포함하여 구비될 수 있으며, 오디오 신호를 검출할 수 있는 마이크를 더 포함할 수도 있다. 일 실시예에 따르면, 증강현실 디바이스는 사용자가 직관적인 방식으로 오디오 신호를 영상정보로 상호작용할 수 있게 하는 증강 현실 디스플레이로서 구성될 수 있다. 여기서 증강 현실 디스플레이는 상술한 디스플레이부(300)로, AR안경 또는 헤드 장착식 디스플레이 등 중 하나일 수 있다. 여기서 렌즈부는 사용자가 디스플레이부(300)를 착용할 경우 실제 장면들을 명확하게 관찰할 수 있게 하기 위해서 유리 또는 플라스틱과 같은 투명한 또는 투시형재료로 형성될 수 있다. 또한, 렌즈부를 통해 디지털 AR 영상정보와 같은 콘텐츠를 투영시키도록 구성될 수 있다. 따라서, 사용자는 디스플레이부(300)를 착용한 채로 현실 세계의 장면과 투영된 디지털 영상정보를 동시에 관찰할 수 있다.
도 2는 증강현실 디바이스의 사시도로, 증강현실 디바이스를 포함하는 물리적 공간의 예시적인 실시예를 나타낸다. 사용자는 증강현실 디바이스에서 시스루 디스플레이부(300)를 통하여 가시영역(VA)을 볼 수 있으며, 이러한 실시예는 도 2를 통해 확인할 수 있다. 묘사된 시스루 디스플레이부(300)는 사용자의 두 손이 자유롭게 고글, 안경 등의 형식으로 구비될 수 있다. 시스루 디스플레이부(300)는 사용자에게 물리적 공간의 외관의 시각적인 정보 증강이 가능하도록 구성된 AR 출력부(310) 및 오디오 신호의 방향, 위치 등을 안내하는 정보표시부(320)를 포함한다. AR 출력부(310)를 통해 물리적 공간으로부터 나온 빛이 시스루 디스플레이부(300)를 통과하도록 하여, 사용자가 실제 물리적 공간을 직접적으로 보면서 동시에 실제 물리적 공간으로 오버레이 된 하나 이상의 가상 객체를 볼 수 있도록 한다. 일 실시예에 따르면, 사용자의 시선이 AR 출력부(310)를 통해 가시영역(VA)을 곧바로 향할 때, 시스루 디스플레이부(300)는 증강현실 디바이스의 하나 이상의 기능에 대한 정보의 형식으로 하나 이상의 가상 객체를 디스플레이 한다. 여기서 디스플레이 된 정보는 적절한 방식으로 취득된다. 예컨대, 디스플레이 된 정보는 컴퓨팅 장치로부터 네트워크를 통하여 원격 컴퓨팅 장치로부터 또는 증강현실 디바이스 등으로부터 수신될 수 있다.
본원 발명에 따른 시스루 디스플레이부(300)는 도 2와 같은 고글 형태로 구현 가능하나 그 구현 방식을 한정하는 것은 아니며, 다른 어떤 적절한 형식으로도 구현 가능하다. 도 2를 참조하여 일 실시예를 간략히 설명하면, 시스루 디스플레이부(300)를 통해 사용자는 가시영역(VA)을 실시간 시각적으로 확인할 수 있으며, 가시영역(VA) 내에서 오디오 신호가 발생되는 경우, 오디오 신호가 발생된 지점의 위치를 검출하여 정보표시부(320) 중 해당 위치의 방향에 위치 정보를 표시할 수 있으며, 오디오 신호가 발생된 위치에 가상 객체의 영상정보(10)가 오버랩 되도록 투영시킬 수 있다. 상세하게, 오디오 신호의 정보 즉, 오디오 신호의 종류 및 소리를 시각적으로 투영하여 청각적으로 확인하지 못하는 사용자도 시각적으로 오디오 신호를 확인할 수 있도록 할 수 있다.
이하, 도 3을 참조하여 본 발명의 증강현실 디바이스를 구체적으로 설명하도록 한다. 도 3은 증강현실 디바이스의 구성요소를 나타내는 블록도이다.
도 3을 참조하여 일 실시예에 따르면, 본 발명의 증강현실 디바이스는 사용자의 눈이 관통하여 볼 수 있도록 형성되어, 가상 객체의 영상정보(10)를 출력하는 시스루(see-through) 디스플레이부(300), 디스플레이부(300)로부터 미리 설정된 거리 이내에서 발생된 오디오 신호를 입력받는 오디오 입력부(100), 오디오 신호에 대응되는 이벤트 정보를 식별하고, 식별된 이벤트 정보에 대응되는 가상 객체의 영상정보(10)가 출력되도록 시스루 디스플레이부(300)의 동작을 제어하는 제어부(200)를 포함할 수 있다.
상세하게, 입력부(100)는 오디오 신호, 영상 신호를 입력받아 제어부(200)로 전송하는 구성으로, 마이크(110), 카메라(120) 및 전송부(130)를 포함하여 구성될 수 있다. 마이크(110)는 디스플레이부(300)로부터 미리 설정된 소정의 거리 이내에서 발생된 오디오 신호를 입력받는 구성으로, 사용자가 디스플레이부(300)를 착용한 상태에서 소정의 거리 이내에 오디오 신호가 발생되는 경우, 마이크(110)를 통해 해당 오디오 신호가 입력되어 전송부(130)를 통해 제어부(200)로 전송될 수 있다. 이때, 입력부(100)는 시스루 디스플레이부(300)의 일부분에 설치되어, 일 방향을 촬영하는 카메라(120)를 더 포함하여, 카메라(120)에 의해 사용자가 착용한 디스플레이부(300)의 정면 방향의 화면이 촬영될 수 있다. 상세하게, 디스플레이부(300)를 통과하여 보여지는 사용자의 가시영역(VA)이 카메라(120)에 의해 촬영되어 영상 신호가 전송부(130)에 의해 제어부(200)로 함께 전송될 수 있다.
제어부(200)는 입력부(100)에서 입력되어 전송된 오디오 신호 및 영상 신호를 기반으로 정보를 검출하고, 제공된 이벤트 정보를 식별하여 매칭시키는 검출부(210), 식별부(220) 및 매칭부(230)를 포함한다. 검출부(210)는 입력부(100)로부터 전송된 오디오 신호의 종류 및 해당 오디오 신호가 발생된 지점의 위치를 검출하여 영상정보(10)와 관련된 정보를 포함하도록 시스루 디스플레이부(300)의 동작을 제어할 수 있다. 상세하게, 입력부(100)로부터 오디오 신호 및 영상 신호가 제어부(200)로 전송될 수 있는데, 여기서 검출부(210)는 오디오 신호의 종류 또는 상황 등을 검출하고, 영상 신호로부터 오디오 신호에 대응되는 영상신호를 검출할 수 있다. 일 실시예에 따르면, 도 2에서와 같이 입력부(100)의 마이크(110)를 통해 아기의 울음소리(Baby cry)가 오디오 신호로 입력되고, 카메라(120)를 통해 울고 있는 아기가 영상 신호로 입력되어 제어부(200)로 전송된 경우, 검출부(210)에서는 전송된 오디오 신호의 발생된 지점까지의 거리, 오디오 신호의 크기 등을 둘 이상의 오디오 센서에 의해 검출하여 해당 오디오 신호가 발생된 지점의 위치를 검출할 수 있다. 즉, 아기의 울음소리가 오디오 신호로 입력되면, 해당 울음소리가 발생된 방향 및 위치를 파악하여 검출부(210)를 통해 검출할 수 있다. 이와 동시에, 입력된 영상 신호를 기반으로 울음소리가 발생된 방향 및 위치의 영상신호를 검출하여 보다 구체적으로 분석할 수 있다. 검출부(210)를 통해 검출된 오디오 신호의 방향, 위치 및 영상신호는 식별부(220)를 통해 구체적으로 식별될 수 있다. 상세하게, 식별부(220)는 미리 탑재된 인공 신경망에 의해 오디오 신호의 종류 또는 상황을 식별하고, 영상신호에서 해당 오디오 신호의 종류 또는 상황에 해당되는 영상정보(10)를 식별하여 추출할 수 있다. 구체적으로, 도 2에 따르면, 오디오 신호의 파장, 파형 및 주파수 등을 분석하여 인공 신경망에 의해 해당 오디오 신호가 아기의 울음소리라고 식별할 수 있다. 또한, 오디오 신호를 식별함과 동시에 식별된 오디오 정보에 대응되는 영상신호를 식별할 수 있다. 즉, 오디오 신호가 아기의 울음소리라고 식별되면, 입력된 영상신호에서 아기를 찾아내어 식별할 수 있다. 이후, 오디오 신호 및 영상 신호가 각각 식별되면 두 정보를 매칭시켜 시스루 디스플레이부(300)의 화면 중 상기 오디오 신호가 발생된 위치의 영상 신호에 가상 객체의 영상정보(10)가 오버랩 되도록 시스루 디스플레이부의 동작을 제어할 수 있다. 즉, 오디오 신호로 아기의 울음소리가 입력되고, 영상 신호에도 아기가 발견된 경우, 아기와 아기 울음소리를 매칭하여 아기의 주변에 아기 울음소리 정보가 증강 현실을 통해 오버랩 되도록 제어할 수 있다. 여기서, 오버랩되는 영상정보(10)는 식별된 오디오 신호와 관련된 텍스트, 이미지 및 위치정보 중 적어도 하나를 포함할 수 있다. 텍스트는 글자로 표기될 수 있으며, 사람, 사물, 동물 등 오디오 신호가 발생된 주체를 이미지로 표시할 수도 있다. 또한, 오디오 신호가 발생된 지점의 위치정보를 텍스트, 이미지 또는 방향, 지점 표시 등으로 제공할 수 있다. 제어부(200)에서 식별하여 매칭된 오디오 신호에 대한 영상정보(10)는 디스플레이부(300)를 통해 출력될 수 있다. 상세하게, 디스플레이부(300)는 AR 출력부(310) 및 정보표시부(320)를 포함하고 있다. AR 출력부(310)는 디스플레이부(300)를 착용한 사용자의 가시영역에 증강현실을 통해 영상정보(10)를 오버랩 출력하는 구성이고, 정보표시부(320)는 디스플레이부(300)의 둘레방향을 따라 오디오 신호가 발생된 지점의 위치 또는 방향 정보를 표시하도록 구비될 수 있다.
이하, 도 4를 참조하여 본 발명에 따른 증강현실 디바이스의 제어방법을 상세히 설명하도록 한다. 도 4는 본 발명에 따른 증강현실 디바이스의 제어방법을 나타내는 흐름도이다.
도 4를 참조하여 설명하면, 사용자는 시스루 디스플레이부(300)를 착용한 후, AR 출력부(310)를 관통하여 가시영역(VA)을 확인할 수 있다. 이때, 디스플레이부(300)로부터 미리 설정된 소정의 거리 이내에서 오디오 신호가 발생되면, 입력부(100)를 통해 해당 오디오 신호를 입력받을 수 있다. 오디오 신호가 입력되면, 해당 오디오 신호에 대응되는 이벤트 정보를 식별하고, 식별된 이벤트 정보에 대응되는 가상 객체의 영상정보(10)가 AR 출력부(310) 및 정보표시부(320)를 통해 가시영역(VA)에 출력될 수 있다. 단, 이벤트 정보를 식별 후, 오디오 신호 발생위치가 가시영역 여부인지를 먼저 판단한 후, 가시영역 내인 경우 영상정보(10)를 투영할 수 있으며, 가시영역 외인 경우에는 위치 정보를 출력하여 사용자가 해당 오디오 신호 발생위치를 가시영역 내로 이동시키도록 할 수 있다. 상세하게, 제어부(200)에 의해 사용자가 착용한 시스루 디스플레이부(300)의 일부분이 지향하는 방향을 기준으로, 오디오 신호가 입력된 방향이 검출되고, 영상정보(10)가 검출된 방향과 관련된 정보를 포함하도록 시스루 디스플레이부(300)의 동작을 제어할 수 있다. 여기서, 영상정보(10)는 검출된 방향과 관련된 정보는 정보표시부(320)를 통한 오디오 신호 검출 방향 및 위치를 표시할 수도 있으며, 오디오 신호 검출 지점에 영상정보(10)를 증강현실로 오버랩할 수도 있다. 구체적으로, 제어부(200)는 오디오 신호가 발생된 지점의 위치가 시스루 디스플레이부(300)를 통해 사용자에게 보이는 가시영역 외인 경우, 위치와 관련된 영상정보(10)가 출력되도록 시스루 디스플레이부(300)의 동작을 제어할 수 있다. 또한, 오디오 신호가 발생된 지점의 위치가 가시영역 내인 경우, 시스루 디스플레이부의 화면 중 오디오 신호가 발생된 위치가 투영되는 일부분에, 가상 객체의 영상정보(10)가 오버랩 되도록 시스루 디스플레이부(300)의 동작을 제어할 수 있다.
이하, 도 5 내지 도 8을 참조하여 실시예를 통해 보다 상세히 설명하도록 한다. 도 5 내지 도 8은 본 발명에 따른 증강현실 디바이스의 실시예를 나타내는 도면이다.
먼저, 도 5를 참조하면, 오디오 신호가 시스루 디스플레이부(300)를 통해 사용자에게 보이는 가시영역(VA) 외에서 발생된 경우, 즉, 도 5에서 AR 출력부(310)를 통해 사용자에게 보이지 않는 왼쪽 측면의 문에서 노크 소리가 발생된 경우, 해당 오디오 신호가 발생된 지점의 위치와 관련된 영상정보(10)가 AR 출력부(310)를 통해 출력될 수 있다. 상세하게, 도 5를 참조하면, 노크 소리가 사용자의 가시영역(VA) 내에서 발생되지 않은 경우, 오디오 신호가 발생된 위치로 사용자의 가시영역(VA)을 전환할 수 있도록, 오디오 신호의 발생된 지점의 위치 또는 방향을 표시할 수 있다. 즉, 왼쪽 측면의 문에서 소리가 발생된 경우, 소리의 종류인 노크(Knock)를 표시하고, 방향 표시 및 화살표 등을 활용하여 위치와 관련된 영상정보(10)를 출력할 수 있다. 보다 상세하게, 오디오 신호가 발생된 대상을 함께 표기하여 출력할 수도 있다. 이와 동시에 디스플레이부(300)의 외곽을 따라 복수개 구비된 정보표시부(320)에 해당 방향 방향으로 정보를 표시함으로써, 사용자에게 즉각적으로 해당 방향에서 오디오 신호가 발생되었음을 알릴 수 있다. 이때, 정보표시부(320)는 LED 알림, 또는 진동 알림 등을 통해 사용자에게 방향 정보를 안내할 수 있다.
도 6은 도 5의 가시영역(VA)에서 사용자가 방향 또는 위치와 관련된 영상정보(10)를 확인한 후, 좌측으로 고개를 돌려 가시영역(VA) 내에 오디오 신호가 발생된 지점의 위치가 들어올 수 있도록 전환한 화면이다. 도 6과 같이 도 5의 화면에서 가시영역(VA) 내에 오디오 신호가 발생된 위치가 포함되지 않는 경우, 위치 및 방향을 안내받고 사용자는 오디오 신호가 발생된 위치를 향해 가시영역(VA)을 전환할 수 있다. 따라서, 도 6과 같이 오디오 신호가 발생된 지점의 위치가 가시영역 내에 속하게 된 경우, 시스루 디스플레이부(300)의 화면 중 오디오 신호의 발생 위치가 투영되는 AR 출력부(310)의 일부분에 가상 객체의 영상정보(10)가 오버랩 되도록 시스루 디스플레이부(300)의 동작이 제어될 수 있다. 즉, 문에서 노크 소리가 발생되어 문 방향으로 사용자가 가시영역(VA)을 전환하고, 문이 가시영역(VA) 내에 속하게 된 경우, 오디오 신호가 발생된 문에 노크 소리가 발생됨을 안내하도록, 오디오 신호의 종류 및 소리를 이미지 또는 문자 등으로 오버랩 하여 표기할 수 있다. 이때, 오버랩 되는 영상정보(10)는 오디오 신호의 종류 및 대상 등에 따라 다르게 표시될 수 있다. 상세하게, 사물, 사람, 동물 등의 대상에 따라 아이콘을 표시하거나 말풍선의 형태, 색상 등의 차이를 통해 사용자가 직관적으로 소리의 대상을 확인할 수 있도록 할 수 있다. 상세하게, 도 6 내지 8을 비교하여 설명하도록 한다.
도 6은 문에서 노크 소리가 발생된 오디오 신호로, 도 6의 도면과 같이 오디오 신호가 발생될 사물에 지시선이 표시된 둥근 사각형상의 박스 안에 소리의 종류 및 소리가 문자로 표기될 수 있다. 또한, 도 7은 사람이 대화를 하는 오디오 신호에 관한 것으로, 대화를 하고 있는 사람이 가시영역(VA) 내에 들어온 경우, 오디오 신호에 대한 영상정보(10)가 오버랩 되어 표시될 수 있는데, 이때 사람의 대화는 말풍선을 통해 해당 사람에 매칭되도록 오버랩될 수 있다. 따라서, 사용자가 듣지 않고도 사람과 의사소통을 할 수 있다. 도 8은 동물의 소리가 오디오 신호로 입력된 경우에 관한 실시예로, 애견이 짖는 소리가 오디오 신호로 입력된 경우, 해당 애견의 주변에 곡선의 지시선이 매칭되어 영상정보(10)로 제공될 수 있으며, 이때 영상정보(10)에 애견을 나타내는 아이콘이 표시됨으로써 직관적으로 애견이 발생시킨 오디오 신호라는 것을 확인할 수 있다.
이와 같이 상술한 실시예들에 따르면, 본 발명에서는 오디오 신호를 입력받은 후, 디스플레이부(300)의 영상 신호와 매칭하여 해당 종류의 오디오 신호와 영상정보(10)가 매칭됨으로써 사용자에게 오디오 신호를 시각적으로 정보 제공을 할 수 있다. 이때, 오디오 신호의 식별, 영상 신호 중 해당 오디오 신호의 종류에 해당하는 영상신호를 추출 및 오디오 신호와 영상신호를 매칭하여 영상정보(10)로 표출하는 과정은 제어부(200)에 미리 탑재된 인공 신경망에 의해 이루어질 수 있으며, 인공 신경망은 사용자의 반복적인 본 발명의 증강현실 디바이스의 사용에 따라 학습되어 보다 정확하고 확장된 정보를 제공할 수 있다.
본 명세서에서는 시스루 디스플레이부(300)를 스마트 글래스 형태의 실시예로 설명하였으나, 이는 실시예 중 하나일 뿐이며 휴대폰, 노트북, 웨어러블 디바이스 등의 영상처리장치 및 오디오 분석 장치 등을 통해 이루어질 수도 있다.
상기한 본 발명은 일 실시예에 관한 것으로, 이는 실시예에 불과하며, 본 기술분야에서 통상의 지식을 가진 자는 이로부터 다양한 변형 및 균등한 다른 실시예도 가능할 수 있다. 따라서, 본 발명의 권리범위는 상기한 실시예 및 첨부된 도면에 의해 한정되는 것은 아니다.
100: 입력부 110: 마이크
120: 카메라 130: 전송부
200: 제어부 210: 검출부
220: 식별부 230: 매칭부
300: 디스플레이부 310: AR 출력부
320: 정보표시부

Claims (7)

  1. 사용자의 눈이 관통하여 볼 수 있도록 형성되어, 가상 객체의 영상정보를 출력하는 시스루(see-through) 디스플레이부;
    상기 디스플레이부로부터 미리 설정된 거리 이내에서 발생된 오디오 신호를 입력받는 오디오 입력부;
    상기 오디오 신호에 대응되는 이벤트 정보를 식별하고, 식별된 이벤트 정보에 대응되는 가상 객체의 영상정보가 출력되도록 상기 시스루 디스플레이부의 동작을 제어하는 제어부;를 포함하고,
    상기 제어부는,
    상기 오디오 신호가 발생된 지점의 위치를 검출하고,
    상기 영상정보가 검출된 위치와 관련된 정보를 포함하도록 상기 시스루 디스플레이부의 동작을 제어하며,
    상기 오디오 신호가 발생된 지점의 위치가 상기 시스루 디스플레이부를 통해 사용자에게 보이는 가시영역 외인 경우, 상기 위치와 관련된 영상정보가 출력되도록 상기 시스루 디스플레이부의 동작을 제어하는 것을 특징으로 하는 증강현실 디바이스.
  2. 제1항에 있어서,
    상기 영상정보는,
    상기 오디오 신호와 관련된 텍스트, 이미지 및 위치정보 중 적어도 하나를 포함하는 것을 특징으로 하는 증강현실 디바이스.
  3. 삭제
  4. 제3항에 있어서,
    상기 제어부는,
    상기 시스루 디스플레이부의 일부분이 지향하는 방향을 기준으로, 상기 오디오 신호가 입력된 방향을 검출하고,
    상기 영상정보가 검출된 방향과 관련된 정보를 포함하도록 상기 시스루 디스플레이부의 동작을 제어하는 것을 특징으로 하는 증강현실 디바이스.
  5. 삭제
  6. 제1항에 있어서,
    상기 제어부는,
    상기 오디오 신호가 발생된 지점의 위치가 상기 가시영역 내인 경우, 상기 시스루 디스플레이부의 화면 중 상기 위치가 투영되는 일부분에, 상기 가상 객체의 영상정보가 오버랩 되도록 상기 시스루 디스플레이부의 동작을 제어하는 것을 특징으로 하는 증강현실 디바이스.
  7. 제1항에 있어서,
    상기 입력부는,
    상기 시스루 디스플레이부의 일부분에 설치되어, 일 방향을 촬영하는 카메라를 포함하고,
    상기 제어부는,
    상기 카메라에 의해 촬영된 영상정보에 포함된 적어도 하나의 객체를 식별하고,
    식별된 적어도 하나의 객체와 상기 오디오 신호의 이벤트 정보를 매칭시키는 것을 특징으로 하는 증강현실 디바이스.
KR1020200034136A 2020-03-20 2020-03-20 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법 KR102334091B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020200034136A KR102334091B1 (ko) 2020-03-20 2020-03-20 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법
CN202180020138.6A CN115336291A (zh) 2020-03-20 2021-02-26 音频识别的增强现实设备及其控制方法
EP21770949.2A EP4124073A4 (en) 2020-03-20 2021-02-26 AUGMENTED REALITY DEVICE FOR PERFORMING AUDIO RECOGNITION AND CONTROL METHODS THEREFOR
PCT/KR2021/002497 WO2021187771A1 (ko) 2020-03-20 2021-02-26 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법
JP2022554571A JP2023531849A (ja) 2020-03-20 2021-02-26 オーディオ認識を行う拡張現実デバイスおよびその制御方法
US17/911,637 US20230145966A1 (en) 2020-03-20 2021-02-26 Augmented reality device performing audio recognition and control method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200034136A KR102334091B1 (ko) 2020-03-20 2020-03-20 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법

Publications (2)

Publication Number Publication Date
KR20210117654A KR20210117654A (ko) 2021-09-29
KR102334091B1 true KR102334091B1 (ko) 2021-12-02

Family

ID=77771708

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200034136A KR102334091B1 (ko) 2020-03-20 2020-03-20 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법

Country Status (6)

Country Link
US (1) US20230145966A1 (ko)
EP (1) EP4124073A4 (ko)
JP (1) JP2023531849A (ko)
KR (1) KR102334091B1 (ko)
CN (1) CN115336291A (ko)
WO (1) WO2021187771A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7476128B2 (ja) 2021-03-11 2024-04-30 株式会社日立製作所 表示システムおよび表示装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829018B2 (en) * 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
KR20130097855A (ko) * 2012-02-27 2013-09-04 한국전자통신연구원 증강 오디오 서비스 시스템 및 방법
US9129430B2 (en) * 2013-06-25 2015-09-08 Microsoft Technology Licensing, Llc Indicating out-of-view augmented reality images
US20170277257A1 (en) * 2016-03-23 2017-09-28 Jeffrey Ota Gaze-based sound selection
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment
KR102610021B1 (ko) * 2016-08-12 2023-12-04 매직 립, 인코포레이티드 단어 흐름 주석
US10531220B2 (en) * 2016-12-05 2020-01-07 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems

Also Published As

Publication number Publication date
CN115336291A (zh) 2022-11-11
EP4124073A4 (en) 2024-04-10
WO2021187771A1 (ko) 2021-09-23
KR20210117654A (ko) 2021-09-29
EP4124073A1 (en) 2023-01-25
JP2023531849A (ja) 2023-07-26
US20230145966A1 (en) 2023-05-11

Similar Documents

Publication Publication Date Title
CN110647237B (zh) 在人工现实环境中基于手势的内容共享
US11995774B2 (en) Augmented reality experiences using speech and text captions
US9778464B2 (en) Shape recognition device, shape recognition program, and shape recognition method
CN110018736B (zh) 人工现实中的经由近眼显示器界面的对象增强
US9542958B2 (en) Display device, head-mount type display device, method of controlling display device, and method of controlling head-mount type display device
CN110956061B (zh) 动作识别方法及装置、驾驶员状态分析方法及装置
KR101430614B1 (ko) 웨어러블 안경을 이용한 디스플레이 장치 및 그 동작 방법
KR20150135847A (ko) 글래스 타입 단말기 및 이의 제어방법
US10409324B2 (en) Glass-type terminal and method of controlling the same
KR20150110257A (ko) 웨어러블 디바이스에서 가상의 입력 인터페이스를 제공하는 방법 및 이를 위한 웨어러블 디바이스
US11543242B2 (en) Localization and visualization of sound
US11887261B2 (en) Simulation object identity recognition method, related apparatus, and system
TW201814444A (zh) 模擬環境顯示系統及方法
JP6492673B2 (ja) 頭部装着型表示装置、頭部装着型表示装置を制御する方法、コンピュータープログラム
US11069137B2 (en) Rendering captions for media content
WO2020012955A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2023515988A (ja) 拡張現実ゲスト認識システム及び方法
KR20150057064A (ko) 전자 다바이스 및 그 제어방법
KR102334091B1 (ko) 오디오 인식을 수행하는 증강현실 디바이스 및 그의 제어방법
WO2018104731A1 (en) Image processing system and method
CN111415421B (zh) 虚拟物体控制方法、装置、存储介质及增强现实设备
KR101705988B1 (ko) 가상 현실 장치
Sharma et al. VASE: Smart glasses for the visually impaired
KR102334319B1 (ko) 증강 현실 표시 장치를 이용한 청각 정보의 시각 변환 및 전달 방법 및 장치
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant