KR102631227B1 - 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법 - Google Patents

프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법 Download PDF

Info

Publication number
KR102631227B1
KR102631227B1 KR1020210128332A KR20210128332A KR102631227B1 KR 102631227 B1 KR102631227 B1 KR 102631227B1 KR 1020210128332 A KR1020210128332 A KR 1020210128332A KR 20210128332 A KR20210128332 A KR 20210128332A KR 102631227 B1 KR102631227 B1 KR 102631227B1
Authority
KR
South Korea
Prior art keywords
program
voice
head
engine
display device
Prior art date
Application number
KR1020210128332A
Other languages
English (en)
Other versions
KR20230045453A (ko
Inventor
최치원
백지엽
김정환
Original Assignee
주식회사 피앤씨솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피앤씨솔루션 filed Critical 주식회사 피앤씨솔루션
Priority to KR1020210128332A priority Critical patent/KR102631227B1/ko
Priority to PCT/KR2022/005827 priority patent/WO2023054827A1/ko
Publication of KR20230045453A publication Critical patent/KR20230045453A/ko
Application granted granted Critical
Publication of KR102631227B1 publication Critical patent/KR102631227B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0176Head mounted characterised by mechanical features
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Optics & Photonics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치에 관한 것으로서, 보다 구체적으로는 머리 착용형 디스플레이 장치로서, 오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 음성명령어 인식부를 포함하며, 상기 음성명령어 인식부는, 상기 머리 착용형 디스플레이 장치에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하는 엔진 저장 모듈; 및 상기 머리 착용형 디스플레이 장치에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 상기 엔진 저장 모듈에서 탐색해 제공하는 제어 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법에 관한 것으로서, 보다 구체적으로는 음성명령어 엔진 제공 방법으로서, 머리 착용형 디스플레이 장치의 오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 음성명령어 인식부에 의해 각 단계가 수행되며, (1) 상기 머리 착용형 디스플레이 장치에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하는 단계; 및 (2) 상기 머리 착용형 디스플레이 장치에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 상기 엔진 저장 모듈에서 탐색해 제공하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법에 따르면, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 프로그램별로 구성된 음성명령어 엔진을 저장하고, 프로그램이 구동되면 해당 프로그램의 음성명령어 엔진을 제공함으로써, 음성 엔진의 범용성을 포기하여 불필요한 리소스 낭비를 줄이고, 프로그램당 하나의 음성명령어 엔진을 사용하여 명령어 중복에 따른 혼동을 방지하며, 음성명령어의 개수를 최소화하고 인식 정확도를 높일 수 있다.

Description

프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법{HEAD-MOUNTED DISPLAY APPARATUS THAT SUPPORTS PROGRAM-DEPENDENT VOICE COMMANDS AND PROGRAM-DEPENDENT VOICE COMMANDS CUPPORT METHOF FOR HEAD-MOUNTED DISPLAY APPARATUS}
본 발명은 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 음성명령어 지원 방법에 관한 것으로서, 보다 구체적으로는 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법에 관한 것이다.
디지털 디바이스의 경량화 및 소형화 추세에 따라 다양한 웨어러블 디바이스(wearable device)들이 개발되고 있다. 이러한 웨어러블 디바이스의 일종인 헤드 마운티드 디스플레이(Head Mounted Display)는 사용자가 머리에 착용하여 멀티미디어 컨텐츠 등을 제공받을 수 있는 각종 디바이스를 의미한다. 여기서, 헤드 마운티드 디스플레이(HMD)는 사용자의 신체에 착용 되어 사용자가 이동함에 따라서 다양한 환경에서 사용자에게 영상을 제공하게 된다. 이러한 헤드 마운티드 디스플레이(HMD)는 투과(see-through)형과 밀폐(see-closed)형으로 구분되고 있으며, 투과형은 주로 증강현실(Augmented Reality, AR)용으로 사용되고, 밀폐형은 주로 가상현실(Virtual Reality, VR)용으로 사용되고 있다.
헤드 마운티드 디스플레이는 기존의 터치스크린과 같은 입력 방식을 사용하기 어려우므로, 사용자 상호작용을 위한 최적화된 입력 방식이 필요하다. 헤드 마운티드 디스플레이의 증강현실에서 사용할 수 있는 입력 방식으로, HMD에 구비된 버튼이나 HMD와 연결된 별도의 입력 장치, 제스처 인식, 음성 인식 등이 있을 수 있다. 그중에서 음성 인식은, 헤드 마운티드 디스플레이의 증강현실에서 사용할 수 있는 적합한 입력 방식이라고 할 수 있다.
일반적으로 음성 인식은 STT(Sound to Text) 엔진을 요구하는데, STT 엔진은 연속적인 음성을 판단하기 때문에 AR 글래스에서 임베디드 방식으로 직접 동작하기에는 연산량이 너무 많아서, AR 글래스의 동작 속도가 느려지고 실시간 음성 인식이 어려운 한계가 있다. 따라서 AR 글래스와 같은 헤드 마운티드 디스플레이에서 음성 인식에 따른 사용자 인터페이스를 사용하기 위해서는, 서버와의 통신을 사용해 연산량이 많은 STT 엔진의 구동은 서버에서 실행하고, 헤드 마운티드 디스플레이에서는 연산 결과만 수신해 사용하게 된다. 그러나 이와 같이 서버와의 통신에 의존하게 되면, 통신 상태에 따라 음성 인식의 사용 가능 여부가 결정되므로 위험 환경이나 오프라인 작업 환경에서는 사용이 어려워 사용처가 제한되고, 통신 속도에 따른 딜레이로 인해 실시간 음성 인식이 어려워 사용에 불편함이 야기될 수 있다.
따라서 연산량이 많은 STT 엔진의 사용을 배제하고 오프라인의 임베디드 환경에서도 사용할 수 있는 음성 UI의 개발이 필요한 실정이다.
한편, 본 발명과 관련된 선행기술로서, 공개특허 제10-2019-0093966호(발명의 명칭: HMD 장치 및 그 동작 방법, 공개일자: 2019년 08월 12일) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 프로그램별로 구성된 음성명령어 엔진을 저장하고, 프로그램이 구동되면 해당 프로그램의 음성명령어 엔진을 제공함으로써, 음성 엔진의 범용성을 포기하여 불필요한 리소스 낭비를 줄이고, 프로그램당 하나의 음성명령어 엔진을 사용하여 명령어 중복에 따른 혼동을 방지하며, 음성명령어의 개수를 최소화하고 인식 정확도를 높일 수 있는, 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법을 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치는,
머리 착용형 디스플레이 장치로서,
오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 음성명령어 인식부를 포함하며,
상기 음성명령어 인식부는,
상기 머리 착용형 디스플레이 장치에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하는 엔진 저장 모듈; 및
상기 머리 착용형 디스플레이 장치에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 상기 엔진 저장 모듈에서 탐색해 제공하는 제어 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
STT 엔진을 배제하고 프로그램에 종속하도록 프로그램별로 구성된 음성명령어 엔진을 사용해, 상기 머리 착용형 디스플레이 장치의 리소스 사용을 최소화할 수 있다.
바람직하게는, 상기 음성명령어 엔진은,
상기 머리 착용형 디스플레이 장치에서 사용되는 음성명령어 리스트에서, 각 프로그램에서 사용되는 최소한의 개수의 음성명령어를 선정해 구성될 수 있다.
바람직하게는,
착용자의 양안의 전방에 배치되어 착용자에게 증강현실을 제공하는 광학 디스플레이부; 및
프로그램이 구동되면 상기 음성명령어 인식부가 제공하는 해당 프로그램에 종속한 음성명령어 엔진을 사용해 오프라인 환경에서 음성 사용자 인터페이스를 제공하고, 입력되는 음성명령어에 따른 제어를 수행하는 제어부를 더 포함할 수 있다.
또한, 상기한 목적을 달성하기 위한 본 발명의 특징에 따른 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법은,
음성명령어 엔진 제공 방법으로서,
머리 착용형 디스플레이 장치의 오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 음성명령어 인식부에 의해 각 단계가 수행되며,
(1) 상기 머리 착용형 디스플레이 장치에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하는 단계; 및
(2) 상기 머리 착용형 디스플레이 장치에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 상기 엔진 저장 모듈에서 탐색해 제공하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
STT 엔진을 배제하고 프로그램에 종속하도록 프로그램별로 구성된 음성명령어 엔진을 사용해, 상기 머리 착용형 디스플레이 장치의 리소스 사용을 최소화할 수 있다.
바람직하게는, 상기 음성명령어 엔진은,
상기 머리 착용형 디스플레이 장치에서 사용되는 음성명령어 리스트에서, 각 프로그램에서 사용되는 최소한의 개수의 음성명령어를 선정해 구성될 수 있다.
바람직하게는, 상기 머리 착용형 디스플레이 장치는,
착용자의 양안의 전방에 배치되어 착용자에게 증강현실을 제공하는 광학 디스플레이부; 및
프로그램이 구동되면 상기 음성명령어 인식부가 제공하는 해당 프로그램에 종속한 음성명령어 엔진을 사용해 오프라인 환경에서 음성 사용자 인터페이스를 제공하고, 입력되는 음성명령어에 따른 제어를 수행하는 제어부를 더 포함할 수 있다.
본 발명에서 제안하고 있는 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법에 따르면, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 프로그램별로 구성된 음성명령어 엔진을 저장하고, 프로그램이 구동되면 해당 프로그램의 음성명령어 엔진을 제공함으로써, 음성 엔진의 범용성을 포기하여 불필요한 리소스 낭비를 줄이고, 프로그램당 하나의 음성명령어 엔진을 사용하여 명령어 중복에 따른 혼동을 방지하며, 음성명령어의 개수를 최소화하고 인식 정확도를 높일 수 있다.
도 1은 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치의 구성을 도시한 도면.
도 2 및 도 3은 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치의 전체 모습을 예를 들어 도시한 도면.
도 4는 본 발명의 일실시예에 따른 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치에서, 엔진 저장 모듈이 저장하는 음성명령어 엔진의 구성을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치에서, 원격 협업 툴 실행 시의 음성명령어 엔진 제공을 예를 들어 설명하기 위해 도시한 도면.
도 6은 본 발명의 일실시예에 따른 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법의 흐름을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)는, 음성명령어 인식부(200)를 포함하여 구성될 수 있으며, 광학 디스플레이부(100), 제어부(300), 센서부(400) 및 통신부(500)를 더 포함하여 구성될 수 있다.
도 2 및 도 3은 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)의 전체 모습을 예를 들어 도시한 도면이다. 도 2 및 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)는, 눈 주변이 밀폐된 형태의 고글 또는 측면이 개방된 형태의 안경 등으로 구현될 수 있다.
이하에서는, 도 1 내지 도 3을 참조하여 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)의 각 구성에 대해 상세히 설명하도록 한다.
광학 디스플레이부(100)는, 착용자의 양안의 전방에 배치되어 착용자에게 증강현실을 제공할 수 있다. 보다 구체적으로, 광학 디스플레이부(100)는, 착용자의 양안의 전방에 배치되어 착용자에게 증강현실, 혼합현실 및 가상현실 중 적어도 어느 하나를 제공할 수 있다. 즉, 광학 디스플레이부(100)는 머리 착용형 디스플레이 장치(10)의 AR, VR 또는 MR 글라스에 해당하는 구성으로서, 도 1에 도시된 바와 같이 디스플레이(110) 및 광학계(120)를 포함하여 구성될 수 있다.
디스플레이(110)는, 영상 정보가 착용자에게 제공될 수 있도록 영상 광을 출력할 수 있다. 보다 구체적으로, 디스플레이(110)는, 영상 정보가 착용자에게 제공될 수 있도록, 이하에서 상세히 설명할 광학계(120)에 결합해, 광학계(120)에 의해 착용자의 눈 방향으로 전달되는 영상 광을 출력하며, 양안 디스플레이를 위해 한 쌍의 디스플레이(110)로 구성될 수 있다. 디스플레이(110)는 OLED 등 다양하게 구성될 수 있다.
광학계(120)는, 머리 착용형 디스플레이 장치(10)를 착용한 착용자의 양안의 전방에 배치되어 실제 세계의 광과 영상 광의 결합에 의한 증강현실을 제공할 수 있다. 보다 구체적으로, 광학계(120)는, 착용자의 시야를 통한 실제 세계(real world)의 광의 적어도 일부를 투과시키고, 디스플레이(110)에서 출력되는 영상 광을 착용자의 눈 방향으로 전달하여 증강현실을 제공할 수 있다. 즉, 광학계(120)는 머리 착용형 디스플레이 장치(10)를 착용한 착용자가 증강현실을 경험할 수 있도록 구성될 수 있다.
또한, 광학계(120)는 복수의 렌즈와 미러 등으로 구성되며 다양한 방식으로 구현될 수 있는데, 예를 들어 광학 회절 방식, 빔 스플리터 방식, 핀 미러 방식 등으로 구현될 수 있다.
음성명령어 인식부(200)는, 오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 구성일 수 있다. 도 1에 도시된 바와 같이, 음성명령어 인식부(200)는 엔진 저장 모듈(210) 및 제어 모듈(220)을 포함하여 구성될 수 있다.
엔진 저장 모듈(210)은, 머리 착용형 디스플레이 장치(10)에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장할 수 있다. 따라서 엔진 저장 모듈(210)은, 머리 착용형 디스플레이 장치(10)에서, 음성명령어가 필요한 프로그램 개수만큼 음성명령어 엔진을 구성해 저장할 수 있다.
제어 모듈(220)은, 머리 착용형 디스플레이 장치(10)에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 엔진 저장 모듈(210)에서 탐색해 제공할 수 있다. 즉, 머리 착용형 디스플레이 장치(10)상에서 구동된 프로그램에 종속하여 해당 프로그램의 음성명령어 엔진을 제공해, 외부 서버 등과의 통신 없이 오프라인의 임베디드 환경에서 음성 UI가 제공될 수 있다.
오프라인의 임베디드 환경에서 음성 UI를 사용하기 위해서는 연산량이 많은 STT 엔진의 사용을 배제하여야 한다. 따라서 음성명령어 인식부(200)는, STT 엔진을 사용해 연속적인 음성을 인식해 텍스트로 변환하는 것이 아니라, STT 엔진 없이 미리 설정된 음성명령어만을 인식하는 음성명령어 엔진을 사용할 수 있다.
음성명령어 엔진을 제공하는 기존의 방법에는, 통합 엔진을 사용하는 방법과 기능별 엔진을 사용하는 방법의 2가지가 있다.
먼저, 통합 엔진은, 머리 착용형 디스플레이 장치(10)에서 사용되는 모든 음성명령어를 하나의 통합된 명령어 엔진으로 제공하는 것이다. 이 경우, 수십, 수백 가지 명령어를 한번 인식해야 하기에 엔진의 모델이 클 뿐만 아니라 인식 정확도가 떨어질 수밖에 없다.
이러한 문제를 해결하기 위해, 두 번째 방법인 기능별 엔진을 제공하는 방법을 사용할 수 있다. 즉, 음성명령어 인식 단어를 공통 속성을 갖는 패키지로 묶어서 제공하는 것이다. 예를 들어, 카메라 기능으로 “촬영”, “녹화”, “정지”, “플래시” 등의 명령어를 묶고, 미디어 기능으로 “재생”, “정지”, “되감기”, “빨리 감기” 등의 명령어를 묶어서, 기능별로 음성명령어 엔진을 제공하는 것이다.
그런데 최근 개발되는 머리 착용형 디스플레이 장치(10)용 프로그램은, 카메라 기능, 미디어 기능 등 여러 기능을 연동하여 동시에 사용하는 경우가 대부분이므로, 기능별로 지원하는 음성명령어 엔진을 사용하면 동시에 다수의 음성명령어 엔진을 사용해야 하므로, 불필요한 리소스 낭비가 발생할 수 있다. 또한, 기능 단위로 음성명령어를 제공하면 특정한 명령어 단어가 중복되는 경우가 발생한다. 예를 들면, 명령어 단어는 같지만 기능이 다른 동작인 카메라 기능의 “정지”와 미디어 기능의 “정지”가 있다.
전술한 바와 같은 문제를 해결하기 위해서 본 발명에서는, 엔진 저장 모듈(210)이 프로그램에 종속한 음성명령어 엔진을 저장하고, 프로그램이 구동되면 제어 모듈(220)이 해당 프로그램의 음성명령어 엔진을 탐색해 제공함으로써, 프로그램 단위의 음성명령어 엔진을 통해 음성 UI가 제공되도록 할 수 있다.
따라서 본 발명의 음성명령어 인식부(200)는, 통합 엔진과 같은 음성 엔진의 범용성을 포기함으로써, 불필요한 리소스 낭비를 줄일 수 있다. 특히, 머리 착용형 디스플레이 장치(10)에서 사용하는 프로그램은 특수한 목적으로 개발되는 경우가 많기 때문에, 각 프로그램에 최적화된 음성명령어 엔진을 구성해, 프로그램당 하나의 음성명령어 엔진을 사용하므로 명령어 중복에 따른 혼동을 방지하고 효율적으로 리소스를 사용할 수 있으며, 음성명령어의 개수를 최소화하고 인식 정확도를 높일 수 있다.
즉, STT 엔진을 배제하고 음성명령어를 인식하는 음성명령어 엔진을 사용하되, 프로그램에 종속하도록 프로그램별로 구성된 음성명령어 엔진을 사용해, 머리 착용형 디스플레이 장치(10)의 리소스 사용을 최소화할 수 있다.
한편, 음성명령어 엔진은, 머리 착용형 디스플레이 장치(10)에서 사용되는 음성명령어 리스트에서, 각 프로그램에서 사용되는 최소한의 개수의 음성명령어를 선정해 구성될 수 있다.
도 4는 본 발명의 일실시예에 따른 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)에서, 엔진 저장 모듈(210)이 저장하는 음성명령어 엔진의 구성을 설명하기 위해 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)에서 동작하는 각각 다른 프로그램(App 1, App 2, App 3, App 4)별로 음성 UI로 사용될 수 있는 음성명령어가 서로 다를 수 있으며, 각각의 프로그램별로 음성명령어 엔진이 구성되고 제공될 수 있다(Engine 1, Engine 2, Engine 3, Engine 4). 예를 들어, 음성명령어 리스트(Command List)에는 총 5개의 명령어(Command 1, Command 2, Command 2, Command 4)가 있으며 프로그램마다 필요한 명령어만 선택하여 음성명령어 엔진을 각각 따로 만들어 사용할 수 있다.
제어부(300)는, 프로그램이 구동되면 음성명령어 인식부(200)가 제공하는 해당 프로그램에 종속한 음성명령어 엔진을 사용해 오프라인 환경에서 음성 사용자 인터페이스를 제공하고, 입력되는 음성명령어에 따른 제어를 수행할 수 있다.
도 5는 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)에서, 원격 협업 툴 실행 시의 음성명령어 엔진 제공을 예를 들어 설명하기 위해 도시한 도면이다. 여기서, 원격 협업 툴은 산업 현장 등에서 원격지의 작업자들이 정보를 공유하면서 협업하여 작업할 수 있도록 하는 프로그램이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)에서 원격 협업 툴 프로그램이 구동되면, 제어부(300)는 원격 협업 툴 프로그램에 종속한 음성명령어 엔진(Speech Command Engine)을 사용해 음성 UI를 제공하고, 제공된 음성 UI를 통해 사용자 상호작용을 수행할 수 있다. 이를 위해서, 음성명령어 인식부(200)의 엔진 저장 모듈(210)은, 원격 협업 툴 프로그램에서 사용하는 명령어인 촬영, 통화, 종료를 포함하는 최소한의 음성명령어만 인식하도록 음성명령어 엔진을 구성하여 저장할 수 있다.
센서부(400)는, 적어도 하나 이상의 센서를 포함할 수 있으며, 보다 구체적으로 홍채 인식 센서, 위치 추적 센서 등을 포함할 수 있다. 실시예에 따라서, 사용자가 착용형 중강현실 장치(10)를 착용하고 사용자 인증을 하면, 제어부(300)는 각 사용자에 따라 저장된 조도, IPD(Inter-Pupillary Distance), 입력 인터페이스, 음성 파형 등 여러 가지 설정 내용을 자동으로 적용할 수도 있다. 이때, 사용자 인증은 센서부(400)에 포함된 홍채 인식 센서 등을 사용할 수 있다.
통신부(500)는, 머리 착용형 디스플레이 장치(10)의 일측에 설치되며, 다른 머리 착용형 디스플레이 장치(10)나 서버 등과 각종 신호 및 데이터를 송수신할 수 있다. 여기서, 통신부(500)가 사용하는 네트워크는, 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network), 위성 통신망, 블루투스(Bluetooth), Wibro(Wireless Broadband Internet), HSDPA(High Speed Downlink Packet Access), LTE(Long Term Evolution), 3/4/5/6G(3/4/5/6th Generation Mobile Telecommunication) 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다. 다만, 통신부(500)는 음성명령어 인식을 위한 통신은 수행하지 않으며, 음성 UI는 머리 착용형 디스플레이 장치(10) 내에 저장된 음성명령어 엔진을 통해 오프라인의 임베디드 환경에서 구현될 수 있다.
도 6은 본 발명의 일실시예에 따른 머리 착용형 디스플레이 장치(10)를 위한 프로그램에 종속한 음성명령어 지원 방법의 흐름을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 머리 착용형 디스플레이 장치(10)를 위한 프로그램에 종속한 음성명령어 지원 방법은, 머리 착용형 디스플레이 장치(10)의 오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 음성명령어 인식부(200)에 의해 각 단계가 수행되며, 머리 착용형 디스플레이 장치(10)에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하는 단계(S100) 및 머리 착용형 디스플레이 장치(10)에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 엔진 저장 모듈(210)에서 탐색해 제공하는 단계(S200)를 포함하여 구현될 수 있다.
각각의 단계들과 관련된 상세한 내용들은, 앞서 본 발명의 일실시예에 따른 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10)와 관련하여 충분히 설명되었으므로, 상세한 설명은 생략하기로 한다.
전술한 바와 같이, 본 발명에서 제안하고 있는 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10) 및 머리 착용형 디스플레이 장치(10)를 위한 프로그램에 종속한 음성명령어 지원 방법에 따르면, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 프로그램별로 구성된 음성명령어 엔진을 저장하고, 프로그램이 구동되면 해당 프로그램의 음성명령어 엔진을 제공함으로써, 음성 엔진의 범용성을 포기하여 불필요한 리소스 낭비를 줄이고, 프로그램당 하나의 음성명령어 엔진을 사용하여 명령어 중복에 따른 혼동을 방지하며, 음성명령어의 개수를 최소화하고 인식 정확도를 높일 수 있다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
10: 머리 착용형 디스플레이 장치
100: 광학 디스플레이부
110: 디스플레이
120: 광학계
200: 음성명령어 인식부
210: 엔진 저장 모듈
220: 제어 모듈
300: 제어부
400: 센서부
500: 통신부
S100: 머리 착용형 디스플레이 장치에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하는 단계
S200: 머리 착용형 디스플레이 장치에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 엔진 저장 모듈에서 탐색해 제공하는 단계

Claims (8)

  1. 머리 착용형 디스플레이 장치(10)로서,
    착용자의 양안의 전방에 배치되어 착용자에게 증강현실을 제공하는 광학 디스플레이부(100);
    오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 음성명령어 인식부(200);
    프로그램이 구동되면 상기 음성명령어 인식부(200)가 제공하는 해당 프로그램에 종속한 음성명령어 엔진을 사용해 오프라인 환경에서 음성 사용자 인터페이스를 제공하고, 입력되는 음성명령어에 따른 제어를 수행하는 제어부(300); 및
    사용자 인증을 위한 홍채 인식 센서 및 위치 추적 센서를 포함하는 센서부(400)를 포함하며,
    상기 음성명령어 인식부(200)는,
    상기 머리 착용형 디스플레이 장치(10)에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하되, 프로그램당 하나의 음성명령어 엔진을 저장해, 상기 머리 착용형 디스플레이 장치(10)에서 음성명령어가 필요한 프로그램 개수만큼 음성명령어 엔진을 저장하는 엔진 저장 모듈(210); 및
    상기 머리 착용형 디스플레이 장치(10)에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 상기 엔진 저장 모듈(210)에서 탐색해 제공하여, 외부 서버와의 통신 없이 오프라인의 임베디드 환경에서 음성 UI가 제공되도록 하는 제어 모듈(220)을 포함하며,
    STT 엔진을 배제하고 프로그램에 종속하도록 프로그램별로 구성된 음성명령어 엔진을 사용해, 상기 머리 착용형 디스플레이 장치(10)의 리소스 사용을 최소화하며,
    상기 음성명령어 엔진은,
    상기 머리 착용형 디스플레이 장치(10)에서 사용되는 음성명령어 리스트에서, 각 프로그램에서 사용되는 최소한의 개수의 음성명령어를 선정해 구성되되, 원격 협업 툴 프로그램에 대해서는 촬영, 통화 및 종료를 포함하도록 음성명령어 엔진을 구성하며,
    상기 제어부(300)는,
    상기 홍채 인식 센서를 통해 사용자 인증이 되면, 각 사용자에 따라 저장된 조도, IPD(Inter-Pupillary Distance), 입력 인터페이스 및 음성 파형을 포함하는 설정 내용을 자동으로 적용하는 것을 특징으로 하는, 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치(10).
  2. 삭제
  3. 삭제
  4. 삭제
  5. 음성명령어 엔진 제공 방법으로서,
    착용자의 양안의 전방에 배치되어 착용자에게 증강현실을 제공하는 광학 디스플레이부(100);
    오프라인 환경에서 음성 사용자 인터페이스(User Interface; UI) 제공을 위한 음성명령어 인식부(200);
    프로그램이 구동되면 상기 음성명령어 인식부(200)가 제공하는 해당 프로그램에 종속한 음성명령어 엔진을 사용해 오프라인 환경에서 음성 사용자 인터페이스를 제공하고, 입력되는 음성명령어에 따른 제어를 수행하는 제어부(300); 및
    사용자 인증을 위한 홍채 인식 센서 및 위치 추적 센서를 포함하는 센서부(400)를 포함하는 머리 착용형 디스플레이 장치(10)에서, 상기 음성명령어 인식부(200)에 의해 각 단계가 수행되며,
    (1) 상기 머리 착용형 디스플레이 장치(10)에서 구동되는 프로그램별로, 각 프로그램에서 사용되는 음성명령어만 사용 가능하도록 구성된 프로그램에 종속한 음성명령어 엔진을 저장하되, 프로그램당 하나의 음성명령어 엔진을 저장해, 상기 머리 착용형 디스플레이 장치(10)에서 음성명령어가 필요한 프로그램 개수만큼 음성명령어 엔진을 저장하는 단계; 및
    (2) 상기 머리 착용형 디스플레이 장치(10)에서 프로그램이 구동되면, 구동되는 프로그램의 음성 인식을 위한 음성명령어 엔진을 엔진 저장 모듈(210)에서 탐색해 제공하여, 외부 서버와의 통신 없이 오프라인의 임베디드 환경에서 음성 UI가 제공되도록 하는 단계를 포함하며,
    STT 엔진을 배제하고 프로그램에 종속하도록 프로그램별로 구성된 음성명령어 엔진을 사용해, 상기 머리 착용형 디스플레이 장치(10)의 리소스 사용을 최소화하며,
    상기 음성명령어 엔진은,
    상기 머리 착용형 디스플레이 장치(10)에서 사용되는 음성명령어 리스트에서, 각 프로그램에서 사용되는 최소한의 개수의 음성명령어를 선정해 구성되되, 원격 협업 툴 프로그램에 대해서는 촬영, 통화 및 종료를 포함하도록 음성명령어 엔진을 구성하며,
    상기 제어부(300)는,
    상기 홍채 인식 센서를 통해 사용자 인증이 되면, 각 사용자에 따라 저장된 조도, IPD(Inter-Pupillary Distance), 입력 인터페이스 및 음성 파형을 포함하는 설정 내용을 자동으로 적용하는 것을 특징으로 하는, 머리 착용형 디스플레이 장치(10)를 위한 프로그램에 종속한 음성명령어 지원 방법.
  6. 삭제
  7. 삭제
  8. 삭제
KR1020210128332A 2021-09-28 2021-09-28 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법 KR102631227B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210128332A KR102631227B1 (ko) 2021-09-28 2021-09-28 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법
PCT/KR2022/005827 WO2023054827A1 (ko) 2021-09-28 2022-04-24 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210128332A KR102631227B1 (ko) 2021-09-28 2021-09-28 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법

Publications (2)

Publication Number Publication Date
KR20230045453A KR20230045453A (ko) 2023-04-04
KR102631227B1 true KR102631227B1 (ko) 2024-01-31

Family

ID=85783012

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210128332A KR102631227B1 (ko) 2021-09-28 2021-09-28 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법

Country Status (2)

Country Link
KR (1) KR102631227B1 (ko)
WO (1) WO2023054827A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016528761A (ja) * 2013-06-08 2016-09-15 株式会社ソニー・インタラクティブエンタテインメント ヘッドマウントディスプレイによって与えられる表示の光学表現をユーザの光学的処方に基づいてカスタマイズするシステム及び方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102137511B1 (ko) * 2013-11-14 2020-07-27 엘지전자 주식회사 헤드 마운트 디스플레이 장치
US10529359B2 (en) * 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection
KR20170085841A (ko) * 2016-01-15 2017-07-25 백석문화대학교 산학협력단 사용 패턴 기반 사용자 단말기 음성인식 제어방법 및 그 기록매체
KR20180061584A (ko) * 2016-11-30 2018-06-08 (주)누리아이 온라인 쇼핑 몰의 구동 장치 및 온라인 쇼핑 몰의 구동 방법
KR20210076431A (ko) * 2019-12-16 2021-06-24 (주)천재교육 음성 인식을 통한 실감형 학습 콘텐츠 제공 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016528761A (ja) * 2013-06-08 2016-09-15 株式会社ソニー・インタラクティブエンタテインメント ヘッドマウントディスプレイによって与えられる表示の光学表現をユーザの光学的処方に基づいてカスタマイズするシステム及び方法

Also Published As

Publication number Publication date
WO2023054827A1 (ko) 2023-04-06
KR20230045453A (ko) 2023-04-04

Similar Documents

Publication Publication Date Title
US11409425B2 (en) Transactional conversation-based computing system
US10319382B2 (en) Multi-level voice menu
US8223088B1 (en) Multimode input field for a head-mounted display
US9368113B2 (en) Voice activated features on multi-level voice menu
US10559024B1 (en) Voice initiated purchase request
EP2972559A1 (en) Methods and apparatus for displaying images on a head mounted display
US11175791B1 (en) Augmented reality system for control boundary modification
JP2018509693A (ja) ヘッドアップ・ディスプレイを介する装置対話のための方法、システム、およびコンピュータ・プログラム
KR20240063979A (ko) 포커스 전환을 강화하기 위한 어텐션 추적
JP2023503862A (ja) 物理環境の予測的仮想再構成
US9305064B1 (en) Keyword-based conversational searching using voice commands
KR102631227B1 (ko) 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법
US10592013B2 (en) Systems and methods for unifying two-dimensional and three-dimensional interfaces
US20170091288A1 (en) Determining a query answer selection
US9727716B1 (en) Shared workspace associated with a voice-request account
KR20220161094A (ko) 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치
KR102667192B1 (ko) 오프라인에서 멀티모달 데이터를 처리해 결과를 제공하는 증강현실 글래스 장치 및 그의 운용 방법
US20230050526A1 (en) Internet of things configuration using eye-based controls
US11853474B2 (en) Algorithmically adjusting the hit box of icons based on prior gaze and click information
KR102633495B1 (ko) 손목과 트리거 제스처의 단계적 인식을 통한 앱 라이브러리 동작 방법 및 앱 라이브러리가 동작하는 머리 착용형 디스플레이 장치
US20230377330A1 (en) Dynamic input system for smart glasses based on user availability states
KR20230162379A (ko) 증강현실 글래스 장치를 이용한 데이터 라벨링 방법 및 시스템
KR20230049299A (ko) 터치 제스처를 이용한 사용자 인증 패턴 형성 방법 및 터치 제스처를 이용해 사용자 인증을 하는 머리 착용형 디스플레이 장치
KR20240055579A (ko) Ar 글래스에서의 텍스트 입력 장치
Kroon et al. SIXTH: Cupid for the Sensor Web

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right