KR102460553B1 - 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램 - Google Patents

차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102460553B1
KR102460553B1 KR1020210180679A KR20210180679A KR102460553B1 KR 102460553 B1 KR102460553 B1 KR 102460553B1 KR 1020210180679 A KR1020210180679 A KR 1020210180679A KR 20210180679 A KR20210180679 A KR 20210180679A KR 102460553 B1 KR102460553 B1 KR 102460553B1
Authority
KR
South Korea
Prior art keywords
neural network
sign language
sequence
image
unit
Prior art date
Application number
KR1020210180679A
Other languages
English (en)
Inventor
홍성은
Original Assignee
주식회사 디블렌트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 디블렌트 filed Critical 주식회사 디블렌트
Priority to KR1020210180679A priority Critical patent/KR102460553B1/ko
Application granted granted Critical
Publication of KR102460553B1 publication Critical patent/KR102460553B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Social Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

신경망을 이용한 차량의 수어 응답 제공 방법은 차량 내 사용자의 수어에 따른 수어 영상을 획득하는 단계, 획득된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단계, 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 음성 의미 시퀀스를 출력하는 단계, 출력된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하여 사용자의 의도를 판단하는 단계 및 사용자의 의도에 따라 차량을 제어하는 단계를 포함할 수 있다.

Description

차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램{Method, device and computer program for providing sign language response using neural network in avehicle}
본 발명은 차량 내에서 신경망을 이용하여 수어에 대한 응답을 제공하는 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.
최근 들어, 차량의 자율주행 기술이 향상됨에 따라 차량 내에서 사람과 차량의 상호작용(Human-Vehicle Interface, HVI)과 관련된 기술이 주목받고 있다.
특히, 사용자 편의성 측면에서 음성 인식(Speech Recognition) 기술이 연구 개발되어 제공되고 있다.
하지만, 청각장애인들은 소리로 말을 배우는데 어려움이 있어서 시각적으로 인식 가능한 언어를 사용하고 있어 기존의 음성 인식 기술이 적용된 차량을 이용하는데 불편함이 있다. 여기서, '수어 (手語, Sign language)'는 음성이나 음성의 발음을 기초로 표현된 문자의 인식이 어려운 농인에게 시각적으로 의사를 전달하는 수단으로, 발화자의 손이나 표정을 통해 의사를 전달할 수 있다.
또한, 내비게이션 조작, 라디오 조작, 에어컨 조작, 전화 통화 연결, 날씨 안내 등과 같이, 차량의 기능 조작을 음성 인식으로만 제어할 수 있어서 차량에 구비된 각종 장비들의 조작에 익숙하지 않는 청각장애인들의 불편함을 야기시키고 있다.
또한, 차량을 사용하는 과정에는 차량 구비 장치들이 정상적으로 작동하지 않는 다양한 문제 상황(예를 들어, 핸들이 동작하지 않거나, 와이퍼가 동작하지 않거나, 자율 주행이 제대로 동작하지 않는 상황 등)이 발생하는 경우가 있다.
이 경우, 종래에는 문제 상황을 대처하기 위해 차량의 상담원이나 긴급센터 상담원의 음성 연결만을 제공하여 청각장애인들이 이용하는데 한계가 있다.
따라서, 자율 주행 차량에서 청각장애인들의 편의성을 높이기 위해 차량 내 사용자의 수어를 인식하고 수어에 대한 응답을 제공하는 방법이 요구되고 있다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 자율 주행 차량 내 사용자의 수어를 신경망을 이용하여 해당 수어에 대응되는 차량 제어나 응답을 제공하는 방법, 장치 및 컴퓨터 프로그램을 제공함에 있다.
또한, 본 발명의 목적은 차량의 상담원이나 긴급센터 상담원의 음성을 가상의 수어 영상으로 제공하는 자율 주행 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램을 제공함에 있다.
상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 신경망을 이용한 자율 주행 차량의 수어 응답 제공 방법은 차량 내 사용자의 수어에 따른 수어 영상을 획득하는 단계, 상기 획득된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단계, 상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 음성 의미 시퀀스를 출력하는 단계, 출력된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하여 사용자의 의도를 판단하는 단계 및 상기 사용자의 의도에 따라 차량을 제어하는 단계를 포함할 수 있다.
또한, 상기 제1 신경망 모델은 상기 제1 신경망 모델으로부터 출력된 실제 음성 의미 시퀀스와, 상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망 모델을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망 모델의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습될 수 있다.
또한, 상기 제어하는 단계는 상기 사용자의 의도가 제1 요청으로 판단된 경우, 상기 추출된 음성 의미 시퀀스를 상담원에게 전송하여 상기 상담원으로부터 상기 제1 요청의 처리를 위한 음성 의미 시퀀스를 수신하는 단계, 상기 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 상기 사용자에게 제공하는 단계를 더 포함할 수 있다.
또한, 상기 제2 신경망은 단위 음성 의미로부터 단위 영상을 출력하도록 학습된 제2 신경망을 통해 상기 음성 의미 시퀀스로부터 출력된 가상 단위 영상 시퀀스와, 상기 추출된 단위 영상 시퀀스의 순차적 오차를 이용하여 학습될 수 있다.
또한, 상기 제2 신경망은, 상기 단위 음성 의미로부터 가상의 단위 영상을 생성하여 출력하되, 상기 가상의 단위 영상의 진위여부를 판단하는 제3 신경망의 출력과 경쟁적으로 제1 학습하고, 상기 제1 신경망의 실제 단위 영상으로부터 출력된 단위 음성 의미를 입력으로 생성된 가상의 단위 영상과 상기 실제 단위 영상 간의 차이를 손실로 정의하여 제2 학습될 수 있다.
또한, 상기 제1 신경망 모델은 컨볼루션 레이어로 구성된 인코더(encoder)를 통해 상기 단위 영상에서 상기 음성 의미를 정의하는 특징 벡터를 출력하도록 학습되며, 상기 제2 신경망 모델은 디컨볼루션 레이어로 구성된 디코더(decoder)를 통해 상기 음성 의미에 대한 특징 벡터로부터 단위 영상을 생성하여 출력하도록 학습될 수 있다.
또한, 상기 제어하는 단계는 상기 사용자의 의도가 제2 요청으로 판단된 경우, 상기 제2 요청에 대응되는 차량 제어나 수어 영상을 상기 사용자에게 제공할 수 있다.
한편, 신경망을 이용한 수어 기반 자율 주행 차량의 응답 제공 장치는 차량 내 사용자의 수어에 따른 수어 영상을 획득하는 영상 획득부, 상기 획득된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단위 영상 추출부, 상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 음성 의미 시퀀스를 출력하는 음성 의미 추출부, 산출된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하여 사용자의 의도를 판단하는 음성 인식부 및 상기 사용자의 의도에 따라 차량을 제어하는 제어부를 포함할 수 있다.
또한, 상기 제1 신경망 모델은, 상기 제1 신경망 모델으로부터 출력된 실제 음성 의미 시퀀스와, 상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망 모델을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망 모델의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습될 수 있다.
또한, 상기 사용자의 의도가 제1 요청으로 판단된 경우, 상기 추출된 음성 의미 시퀀스를 상담원에게 전송하여 상기 상담원으로부터 상기 제1 요청의 처리를 위한 음성 의미 시퀀스를 수신하는 통신부, 상기 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 가상의 단위 영상의 시퀀스를 생성하는 수어 영상 생성부를 더 포함하고, 상기 제어부는 상기 가상의 단위 영상의 시퀀스를 상기 사용자에게 제공할 수 있다.
또한, 상기 제2 신경망은, 상기 단위 음성 의미로부터 가상의 단위 영상을 생성하여 출력하되, 상기 가상의 단위 영상의 진위여부를 판단하는 제3 신경망의 출력과 경쟁적으로 제1 학습하고, 상기 제1 신경망의 실제 단위 영상으로부터 출력된 단위 음성 의미를 입력으로 생성된 가상의 단위 영상과 상기 실제 단위 영상 간의 차이를 손실로 정의하여 제2 학습될 수 있다.
또한, 상기 사용자의 의도가 제2 요청으로 판단된 경우, 상기 제어부는 제2 요청에 대응되는 차량 제어나 수어 영상을 상기 사용자에게 제공할 수 있다.
한편, 상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 기록 매체에 저장된 프로그램은 상술한 응답 제공 방법을 실행하기 위한 프로그램 코드를 포함할 수 있다.
본 발명에 따르면, 자율 주행 차량 내에서 수어에 대한 응답 제공 방법을 제공할 수 있다.
또한, 본 발명에 따르면, 사용자의 수어 의도가 차량이 문제 상황에 있음을 알리고 이에 대한 해결책을 안내받기 위한 제1 요청인지 또는 차량의 문제와 무관하며 단순 조작을 위한 제2 요청인지 판단하여 적절한 응답을 제공할 수 있다.
또한, 본 발명에 따르면, 수어 영상으로부터 의미를 추출하는 신경망의 효율적인 학습을 통해 청인 상담원과 농인 사용자 간의 실시간 대화를 원활히 진행할 수 있다.
또한, 본 발명은 학습 데이터를 가상으로 생성하고 이를 통해 신경망을 학습 시킴과 동시에 청인의 음성 언어를 농인에게 보다 사실적으로 전달할 수 있도록 함으로써 서비스의 효율성을 높일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 수어 응답 제공 장치의 활용 예를 나타내는 도면이다.
도 2는 본 발명의 일 실시 예에 따른 수어 응답 제공 방법을 나타내는 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 제1 신경망 모델을 나타낸 예시도이다.
도 4는 본 발명의 일 실시예에 따른 수어 응답 제공 방법을 보다 구체적으로 나타낸 흐름도이다.
도 5 내지 7은 본 발명의 일 실시예에 따른 제2 신경망 모델 및 학습 방법을 나타낸 예시도이다.
도 8은 본 발명의 일 실시예에 따른 수어 응답 제공 장치의 구성을 나타낸 블록도이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시 예들뿐만 아니라 특정 실시 예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시 예에 대하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 수어 응답 제공 장치의 활용 예를 나타내는 도면이다.
도 1을 참조하면, 자율 주행 차량 내부에 위치한 사용자는 차량에 구비된 수어 응답 제공 장치(100)를 향해 수어(11)를 함으로써 수어 응답 제공 장치(100)에 수어(11)를 입력할 수 있다. 여기서, 사용자는 차량의 운전자, 차량의 동승자 등과 같이 차량 내부에 위치한 청각장애인을 의미할 수 있다.
이 때, 사용자의 수어(11)는 크게 두 가지 유형으로 구별될 수 있다.
첫 번째 수어 유형은 "라디오 틀어줘", 실내 온도 22도로 올려줘", "집으로 안내해", "오늘 날씨 알려줘"와 같이, 차량의 주행 상태에 따라 영향을 받지 않는 수어로써, 단순 조작을 위한 발화일 수 있다.
만약, 화자(10)가 "실내 온도 22도로 올려줘"와 같이 수어를 하는 경우, 수어 응답 제공 장치(100)는 사용자의 수어를 인식하여 인식된 수어(11)에 대응되는 요청을 차량의 에어컨 모듈의 설정 온도를 22도가 되도록 제어할 수 있다.
두 번째 수어 유형은 "자율 주행이 이상하네", "핸들이 안 움직이네", "카메라 센서가 동작하지 않네"와 같이, 차량이 문제 상황에 있음을 알리고 이에 대한 해결책을 안내받기 위한 수어일 수 있다.
만약, 사용자가 "카메라 센서가 동작하지 않네"와 같은 수어를 하는 경우, 수어 응답 제공 장치(100)는 사용자의 수어(11)를 인식하고, 해당 문제 상황을 해결하기 위한 해결책을 우선적으로 기 저장된 매뉴얼로부터 검색하며, 검색된 해결책을 디스플레이를 통해 사용자에게 안내(12)할 수 있다. 또는 자율주행 상황의 경우 카메라 센서와 같은 고장 상황에서 제어를 위하여 차량의 상담원이나 112, 119 등과 같은 긴급센터 상담원을 연결하고 차량의 상태에 대한 정보의 입력과 이에 대한 조치를 원격으로 수신하는 것도 가능하다. 이러한 경우, 수어 응답 제공 장치(100)는 매뉴얼로부터 해결책을 수어 영상으로 제공하거나, 원격 상담원의 음성을 가상의 수어 영상으로 변환하여 제공할 수 있다.
본 발명에 따른 수어 응답 제공 장치(100)에 대해서는 이후 도면을 참조하여 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시 예에 따른 수어 응답 제공 방법을 나타내는 흐름도이다.
도 2를 참조하면, 수어 응답 제공 장치(100)는 자율 주행 차량 내 사용자의 수어에 따른 수어 영상을 획득할 수 있다(S100). 구체적으로, 사용자(100)의 특정 동작을 감지하거나 수어의 입력 버튼이 눌러지는 경우, 수어 응답 제공 장치(100)는 사용자를 촬영하여 사용자의 수어 영상을 획득할 수 있다. 여기서, 특정 동작은 사용자가 수어 응답 제공 장치(100)를 이용하기 위한 트리거 동작으로, 예를 들어 박수를 치는 동작, 입모양을 나타내는 손 동작 등이 포함될 수 있다. 수어를 입력하는 의사표시 후 촬영되는 수어 영상은 사용자의 손 동작과 얼굴 표정을 포함할 수 있다.
다음, 수어 응답 제공 장치(100)는 획득된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출할 수 있다(S200).
이때 단위 영상은 하나의 몸짓 또는 손짓과 같은 제스처를 포함하는 단일 프레임 또는 복수의 연속된 몸짓에 대한 정보로 하나의 의미를 정의하는 복수의 프레임으로 구성될 수 있다.
예를 들어 손의 모양과 손이 움직이는 방향에 따라 의미가 달라지는 경우 손의 움직이는 방향까지를 포함하는 단위 영상을 추출할 수 있으며, 또는 손의 모양은 같으나 표정이 달라지면 의미가 달라지는 경우 사용자의 표정의 변화까지를 포함하는 단위 영상으로 추출할 수 있다.
이때 추출을 위해서는 영상 내 객체의 의미를 구분하는 습관이나, 일시적인 휴지시간을 인식하고 영상을 구분할 수 있다.
또는 영상 내 객체의 움직임을 정의하는 특징 벡터의 변화를 이용하여 임계치 이상의 큰 변화를 기점으로 단위 영상을 구분할 수 있다. 또는 프레임 별로 손의 위치의 변경 또는 손의 움직이는 속도를 이용하여 속도가 감소하고, 위치 변경과 함께 이동 속도가 가속되는 시점을 학습하고 이를 기준으로 단위 영상을 추출함으로써 분절된 의미에 해당하는 각각의 영상 프레임을 구분할 수 있다.
수어 응답 제공 장치(100)는 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 음성 의미 시퀀스를 출력할 수 있다(S300).
사용자가 수어로 표시한 의사를 정확히 이해하기 위해서는 일반적인 음성 언어와 같이 전체적인 문장 구조에 맞추어 의미를 해석할 필요가 있다.
따라서, 제1 신경망은 단위 영상의 시퀀스를 입력 받고, 각각의 단위 영상에 대한 의미를 다시 조합하여 완성된 문장의 형태로 제공할 수 있다.
이하, 본 실시예에 따른 신경망의 동작에 대하여 도 3을 참조하여 보다 상세히 설명한다.
도 3을 참조하면, 신경망(50)은 사용자(200)가 입력한 수어 영상(32)으로부터 추출된 각각의 단위 영상(34)을 시리즈로 입력 받을 수 있다.
신경망(50)은 단위 영상(34)에 포함된 객체의 손과 얼굴과 같은 특징점들을 추출하고, 특징점의 형태와 변화를 통해 음성 의미를 추출한다.
구체적으로 신경망(50)은 특징점을 레이어 내 커널을 통해서 추출하는 컨볼루션 레이어와, 추출된 특징점이 강조된 특징 맵을 평탄화하고, 분류를 수행하는 완전연결 레이어로 구성될 수 있다.
완전연결 레이어는 수어 사전에 따라 특징 맵에 따라 대응되는 분류의 확률 값을 예측하여 출력할 수 있다.
또한, 본 실시예에서 컨볼루션 레이어는 순환신경망 구조로 구성되어 이전 영상의 특징 정보들을 기억하도록 구현될 수 있다. 따라서 복수의 프레임을 포함하는 단위 영상에 대해서는 연속된 프레임 내 특징 정보들을 입력으로 수어 사전에 따른 분류 결과를 출력할 수 있다.
나아가, 본 실시예에서는 단위 영상의 시퀀스로 입력되므로 각각의 단위 영상에 대하여 추출된 음성 의미를 자연어의 문법에 따른 표현으로 조사와 어미를 구성하는 단계를 더 수행할 수 있다.
이상의 과정을 통해 단위 영상의 시퀀스로부터 음성 의미 시퀀스(36)를 생성할 수 있다.
다음, 수어 응답 제공 장치(100)는 출력된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하여 사용자의 의도를 판단할 수 있다(S400). 여기서, 음성 인식 모델은 제1 신경망에서 출력된 음성 의미 시퀀스를 순차적으로 입력받고, 음성 의미 시퀀스를 텍스트 단어 단위로 분리하고, 분리된 단어들 중 차량 관련 단어를 검출할 수 있다. 이 경우, 단어 보정부는 적어도 하나의 단어가 결합된 최소의 자립 형식을 단어 단위로 설정하여 단어를 분리할 수 있다.
수어 응답 제공 장치(100)의자연어 이해부(natural language understanding)는 입력받은 텍스트의 의미를 이해하기 위한 처리를 수행할 수 있다. 구체적으로 자연어 이해부는 생성된 텍스트에 대하여 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자의 의도를 분석할 수 있다.
여기서, 문법적 분석은 질의 텍스트를 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다.
또한 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다.
이에 따라, 자연어 이해부는 차량 내 사용자의 수화를 기초로 생성된 텍스트가 어떤 의도(intent)인지 분석할 수 있다.
특히, 자연어 이해부는 텍스트로부터 사용자의 의도를 분석하여 사용자의 수어 의도가 차량이 문제 상황에 있음을 알리고 이에 대한 해결책을 안내받기 위한 제1 요청인지 또는 차량의 문제와 무관하며 단순 조작을 위한 제2 요청인지 판단할 수 있다. 이때, 음성 인식 모델의 자연어 이해부는 해당 차량의 주행 중인지 여부를 추가적으로 고려하여 사용자의 의도를 분석할 수도 있다.
수어 응답 제공 장치(100)는 사용자의 의도에 따라 차량을 제어할 수 있다(S500).
구체적으로, 수어 응답 제공 장치(100)는 사용자의 의도에 따라 차량의 특정 기능을 제어하거나 수어 영상을 제공할 수 있으며, 필요에 따라 차량 상담원이나 긴급센터 상담원 연결을 제공할 수 있다. 여기서, 차량 상담원은 차량의 문제 해결을 도와주는 직원일 수 있다.
이와 관련하여 도 4를 참조하여 구체적으로 설명한다.
도 4는 본 발명의 일 실시예에 따른 수어 응답 제공 방법을 보다 구체적으로 나타낸 흐름도이다.
도 4를 참조하면, 의도를 판단하는 단계(S400)에서 제1 요청으로 판단된 경우, 수어 응답 제공 장치(100)는 추출된 음성 의미 시퀀스를 차량 상담원이나 긴급센터 상담원으로 전송하고, 해당 상담원으로부터 제1 요청의 처리를 위한 음성 의미 시퀀스를 수신할 수 있다(S510). 여기서, 음성 의미 시퀀스는 해당 상담원으로부터 수신된 음성을 의미할 수 있다.
다음, 수어 응답 제공 장치(100)는 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미를 제2 신경망에 순차 입력하고, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 사용자에게 제공할 수 있다(S520).
즉, 농인인 사용자는 자신의 의사에 대한 응답으로 다시 수어 영상을 수신하여 보다 직관적이며 편리하게 정보를 전달받고 청인인 상담원과 차량 문제와 관련된 대화를 실시간 대화 가능하게 된다.
이때, 제2 신경망은 제1 신경망과 대칭적인 구조로 구성될 수 있다. 구체적으로 영상으로부터 압축된 특징 정보를 추출하는 제1 신경망에 대하여 대칭적으로 레이어를 구성하여, 압축된 특징 정보로부터 영상의 생성을 위한 객체의 벡터 정보들을 생성하도록 구성될 수 있다.
이상의 대칭적인 구조로 생성된 제1 신경망과 제2 신경망을 이용하여 농인과 청인은 상호 의사 소통이 가능하게 된다. 이때 의사 소통의 정확도는 제1 신경망과 제2 신경망이 상호 보완적으로 학습할수록 정확도가 높아질 수 있으므로 본 실시예에서는 신경망의 학습을 위한 논리 구조를 의사 소통 과정에 따라서 구현할 수 있다.
도 5를 참고하면, 제1 신경망(50)의 단위 영상으로부터 출력된 음성 의미를 기초로 가상의 단위 영상을 생성하는 제2 신경망(52)의 출력을 통해 오차를 학습하도록 네트워크를 구성할 수 있다.
즉, 실제 수어 영상과 제2 신경망(53)을 통해 생성된 가상의 영상의 차이를 줄여나가도록 양 신경망을 학습시킬 수 있다.
다만, 영상의 차이는 배경이나 환경적인 요소에 따라 발생할 수 있으므로, 본실시예에서는 학습을 위하여 제1 신경망 중 객체를 추출하고 객체의 움직임을 정의하는 특징 벡터를 추출하는 일부의 레이어의 출력과, 제2 신경망의 대응되는 레이어의 출력을 이용하여 학습을 수행하는 것도 가능하다.
나아가, 이러한 레이어를 랜덤하게 선택하는 것으로 학습을 수행할 수 있으며 따라서 레이어를 단위로 각각의 오차를 산출하고 효과를 높이도록 학습될 수 있다.
즉, 제1 신경망 모델의 컨볼루션 레이어로 구성된 인코더(encoder)를 통해 단위 영상에서 음성 의미를 정의하는 특징 벡터를 출력하도록 학습된 레이어와, 제2 신경망 모델의 디컨볼루션 레이어로 구성된 디코더(decoder)를 통해 음성 의미에 대한 특징 벡터로부터 단위 영상의 생성에 필요한 벡터를 출력하는 대칭되는 레이어들의 랜덤한 선택 및 출력을 통해 학습을 수행하는 것도 가능하다.
또한, 도 6을 참고하면, 농인이 표현한 의사 표시에 대한 인식의 정확도는 청인이 이해하여 입력한 음성 의미를 기초로 생성된 수어 영상의 생성 정확도로 판단할 수 있으며, 따라서 학습을 위한 네트워크의 구조를 제1 신경망(50)으로부터 생성된 음성 의미를 입력으로 가상의 영상을 생성하는 제2 신경망(52)과, 다시 제2 신경망(52)을 통해 생성된 영상으로 음성 의미를 추출하는 제1 신경망(50)으로 연속하여 구성할 수 있다.
이때, 학습을 위한 손실의 오차를 제1 신경망(50) 양측 각각의 출력된 음성 의미간의 차이로 정의하고 이때의 차이가 줄어드는 방향으로 제1 신경망(50) 내 레이어들과 제2 신경망(52)의 레이어들의 가중치를 갱신하는 것으로 수행할 수 있다.
또한, 본 실시예에서는 각각의 단위 영상의 음성 의미뿐만 아니라 전체적인 시퀀스 내에서의 의미를 정확히 피악하는 것이 중요할 수 있으므로 오차를 각각의 음성 의미를 단위로 하는 손실항으로 구성하고 전체 시퀀스의 손실의 합이 최소가 되도록 학습하는 것도 가능하다.
즉, 제2 신경망(52)은 단위 음성 의미로부터 단위 영상을 출력하도록 학습된 제2 신경망(52)을 통해 상기 음성 의미 시퀀스로부터 출력된 가상 단위 영상 시퀀스와, 상기 추출된 단위 영상 시퀀스의 순차적 오차를 이용하여 학습한다.
나아가, 본 실시예에서 제2 신경망(52)의 출력으로 영상을 제1 사용자(200)에게 직접 제공하여 의사소통을 위해서는 출력된 영상의 현실 재현성을 높임으로써 실제 대화하는 것과 같은 감정의 전달력을 높이는 것도 가능하다.
따라서, 제2 신경망(52)은 상술한 학습 네트워크를 통해 인식의 정확도를 높임과 동시에 생성된 영상의 현실 재현성이나 감정 표현성을 높이는 방향으로 학습되는 것도 가능하다.
또한, 이때의 학습은 인식 정확도를 높이는 학습의 이후에 수행되거나, 이전에 수행되도록 하여 상호 영향을 줄일 수 있다. 바람직하게는 도 5와 같은 방식으로 특정 레이어 별로 대칭적으로 학습시키는 경우 영상의 재현성을 높이는 학습은 후행하여 수행될 수 있다.
구체적으로 제2 신경망(52)은 단위 음성 의미로부터 가상의 단위 영상을 생성하여 출력하되, 가상의 단위 영상의 진위여부를 판단하는 제3 신경망(54)의 출력과 경쟁적으로 제1 학습할 수 있다.
도 7을 참조하면, 제2 신경망의 제1 학습을 위해서는 별도의 진위 여부를 판단하는 제3 신경망(54)을 이용할 수 있다.
제3 신경망(54)은 입력된 영상의 언어적인 감정의 포함여부를 구분하도록 학습된 것일 수 있다. 즉, 영상 자체의 현실성이 아닌 감정의 표현력을 구분하여 어색하거나 감정을 해치는 부자연스러움을 구분하도록 학습된다.
따라서, 제2 신경망(52)의 경우 입력된 음성 의미 또는 랜덤 백터로부터 가상의 수어 영상을 생성하되 제3 신경망과의 경쟁적인 학습을 통해 감정의 표현력이 포함된 영상을 생성하도록 학습될 수 있다.
즉, 이상의 과정을 통해 잘 학습된 제2 신경망(52)은 다시 제1 신경망(50)의 학습 효과에 영향을 미치고 상호 보완을 통해 수어와 음성 언어 간의 의사 표현의 전달력을 높일 수 있게 된다.
또한, 본 실시예에서는 구현되는 어플리케이션의 특성 상 실시간 대화의 특징을 이용하여 학습되는 것도 가능하다.
예를 들어, 수어와 음성 언어간의 상호 전달이 진행되고 난 이후, 연속하여 동일한 의미의 수어나 음성이 재 입력되는 경우에는 의미 전달에 오류가 있음을 인식하고 보다 전달력을 높일 수 있도록 해당 입력 간의 차이를 통해 신경망이 내부의 레이어를 학습하도록 할 수 있다.
즉, 연속하여 입력된 수어 영상에 대한 음성 의미의 출력간의 차이가 줄어들도록 신경망을 로컬에서 학습시킴으로써 보다 실시간 대화환경에서 사용자와 상담원 간의 표현상의 특징을 학습할 수 있도록 한다.
또한, 이러한 로컬에서 학습을 차량에 발생한 문제에 따라 수어를 그룹화하여 서버에서 학습되도록 할 수 있다.
다시, 도 4를 참조하면, 의도를 판단하는 단계(S400)에서 제2 요청으로 판단된 경우, 수어 응답 제공 장치(100)는 제2 요청에 대응되는 차량 제어나 수어 영상을 해당 사용자에게 제공할 수 있다(S530).
구체적으로, 수어 응답 제공 장치(100)는 제2 요청에 대응되는 제어 신호를 생성하고, 생성된 신호를 차량의 ECU(Electronic Control unit)에 전송하여 차량 제어를 제공할 수 있다. 여기서, 차량의 ECU는 수신된 제어 신호를 분석하여 대응되는 차량 구비 장치의 기능 동작을 제어할 수 있다
또한, 수어 응답 제공 장치(100)는 제2 요청에 대응되는 기 저장된 수어 영상을 차량의 디스플레이나 수어 응답 제공 장치(100)의 디스플레이를 통해 사용자에게 제공할 수 있다. 여기서, 기 저장된 수어 영상은 차량의 동작 및 상황별로 수어 응답 제공 장치(100)에 저장된 수어 영상일 수 있다.
이하, 도 8을 참조하여 상술한 수어 응답 제공 방법을 제공하는 수어 응답 제공 장치(100)에 대하여 설명한다.
도 8은 본 발명의 일 실시예에 따른 수어 응답 제공 장치의 구성을 나타낸 블록도이다.
도 8을 참조하면, 수어 응답 제공 장치(100)는 수어 영상 획득부(110), 단위 영상 추출부(120), 음성 의미 추출부(130), 음성 인식부(140), 통신부(150), 수어 영상 생성부(160) 및 제어부(170)으로 구성될 수 있다. 여기서, 수어 응답 제공 장치(100)는 데이터의 입력과 처리 및 출력이 가능한 장치의 형태로 차량 내 결합되는 형태로 구현될 수 있으며, 필요에 따라 테블릿PC와 같은 별도의 외부 장치로 구현되어 차량 내 설치될 수 있다.
수어 영상 획득부(110)는 차량 내 사용자의 수어에 따른 수어 영상을 획득할 수 있다. 구체적으로, 사용자의 특정 동작을 감지하거나 입력 버튼이 눌러지는 경우, 수어 영상 획득부(110)는 사용자의 수어에 따른 수어 영상을 획득할 수 있다.
여기서, 수어 영상 획득부(110)는 카메라로 구성되어 사용자의 수어 영상을 직접 획득하거나 차량 내 카메라를 통해 간접적으로 획득할 수 있다.
단위 영상 추출부(120)는 획득된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출할 수 있다. 단위 영상은 하나의 몸짓 또는 손짓과 같은 제스처를 포함하는 단일 프레임 또는 복수의 연속된 몸짓에 대한 정보로 하나의 의미를 정의하는 복수의 프레임으로 구성될 수 있다.
음성 의미 추출부(130)는 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 음성 의미 시퀀스를 출력할 수 있다.
또한, 음성 의미 추출부(130)는 음성 의미 추출부는 제1 신경망에서 출력된 음성 의미 각각을 자연어 처리 프로세서를 통해 완성된 형태의 문장으로 출력하는 것도 가능하다.
음성 인식부(140)는 산출된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하여 사용자의 의도를 판단할 수 있다. 여기서, 음성 인식 모델은 음성-텍스트 변환부, 단어 보정부 및 자연어 이해부로 구성될 수 있다.
구체적으로, 음성 인식부(140)는 출력된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하면, 음성 인식 모델의 음성-텍스트 변환부는 입력되는 음성 의미 시퀀스를 텍스트로 변환하고, 단어 보정부는 텍스트에 포함된 차량 관련 단어를 텍스트를 단어 단위로 분리하고, 분리된 단어들 중 차량 관련 단어를 검출하여 기 설정된 차량 관련 단어로 보정할 수 있다. 그리고, 음성 인식 모델의 자연어 이해부(natural language understanding)는 단어 보정부로부터 입력받은 텍스트의 의미를 이해하기 위한 처리를 수행할 수 있다. 이를 통해, 음성 인식부(140)는 사용자의 의도를 판단할 수 있다.
통신부(150)는 외부 장치와 통신하여 여러 데이터를 송수신할 수 있다.
예를 들어, 통신부(150)는 사용자의 의도가 제1 요청으로 판단된 경우, 추출된 음성 의미 시퀀스를 상담원의 외부 장치로 전송하고 해당 외부 장치를 통해 상담원으로부터 제1 요청의 처리를 위한 음성 의미 시퀀스를 수신할 수 있다.
또한, 통신부(150)는 외부 서버를 통해 제2 요청에 필요한 여러 데이터(예를 들어, 날씨 정보나 위치 정보 등)를 수신할 수도 있다.
수어 영상 생성부(160)는 입력된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 가상의 단위 영상의 시퀀스를 생성할 수 있다.
제어부(170)는 수어 응답 제공 장치(100)의 전반적인 동작을 제어할 수 있다.
구체적으로, 제어부(170)는 사용자의 의도에 따라 차량을 제어할 수 있다.
예를 들어, 제어부(170)는 가상의 단위 영상의 시퀀스를 차량의 디스플레이 또는 수어 응답 제공 장치(100)의 디스플레이(미도시)에 표시되도록 제어하여 사용자에게 제공할 수 있다.
또한, 제어부(170)는 사용자의 의도가 제1 요청인 경우, 상담원과의 실시간 대화 연결되도록 통신망(150)을 제어할 수 있다.
한편, 본 발명에 따르면, 자율 주행 차량 내에서 수어에 대한 응답 제공 방법을 제공할 수 있다.
또한, 본 발명은 사용자의 수어 의도가 차량이 문제 상황에 있음을 알리고 이에 대한 해결책을 안내받기 위한 제1 요청인지 또는 차량의 문제와 무관하며 단순 조작을 위한 제2 요청인지 판단하여 적절한 응답을 제공할 수 있다.
또한, 본 발명은 수어 영상으로부터 의미를 추출하는 신경망의 효율적인 학습을 통해 청인 상담원과 농인 사용자 간의 실시간 대화를 원활히 진행할 수 있다.
또한, 본 발명은 학습 데이터를 가상으로 생성하고 이를 통해 신경망을 학습시킴과 동시에 청인의 음성 언어를 농인에게 보다 사실적으로 전달할 수 있도록 함으로써 서비스의 효율성을 높일 수 있다.
한편, 명세서 및 청구범위에서 "제 1", "제 2", "제 3" 및 "제 4" 등의 용어는, 만약 있는 경우, 유사한 구성요소 사이의 구분을 위해 사용되며, 반드시 그렇지는 않지만 특정 순차 또는 발생 순서를 기술하기 위해 사용된다. 그와 같이 사용되는 용어는 여기에 기술된 본 발명의 실시예에 의해 이해될 것이다. 마찬가지로, 여기서 방법이 일련의 단계를 포함하는 것으로 기술되는 경우, 여기에 제시된 그러한 단계의 순서는 반드시 그러한 단계가 실행될 수 있는 순서인 것은 아니며, 임의의 기술된 단계는 생략될 수 있고/있거나 여기에 기술되지 않은 임의의 다른 단계가 그 방법에 부가 가능할 것이다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
또한 명세서 및 청구범위의 "왼쪽", "오른쪽", "앞", "뒤", "상부", "바닥", "위에", "아래에" 등의 용어는, 설명을 위해 사용되는 것이며, 반드시 불변의 상대적 위치를 기술하기 위한 것은 아니다. 그와 같이 사용되는 용어는 여기에 기술된 본 발명의 실시예가, 예컨대, 여기에 도시 또는 설명된 것이 아닌 다른 방향으로 동작할 수 있도록 적절한 환경하에서 호환 가능한 것이 이해될 것이다. 여기서 사용된 용어 "연결된"은 전기적 또는 비 전기적 방식으로 직접 또는 간접적으로 접속되는 것으로 정의된다. 여기서 서로 "인접하는" 것으로 기술된 대상은, 그 문구가 사용되는 문맥에 대해 적절하게, 서로 물리적으로 접촉하거나, 서로 근접하거나, 서로 동일한 일반적 범위 또는 영역에 있는 것일 수 있다. 여기서 "일실시예에서"라는 문구의 존재는 반드시 그런 것은 아니지만 동일한 실시예를 의미한다.
또한 명세서 및 청구범위에서 '연결된다', '연결하는', '체결된다', '체결하는', '결합된다', '결합하는' 등과 이런 표현의 다양한 변형들의 지칭은 다른 구성요소와 직접적으로 연결되거나 다른 구성요소를 통해 간접적으로 연결되는 것을 포함하는 의미로 사용된다.
반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로써, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
또한 본 명세서에서 사용된 용어들은 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 명세서를 통해 개시된 모든 실시예들과 조건부 예시들은, 본 발명의 기술 분야에서 통상의 지식을 가진 당업자가 독자가 본 발명의 원리와 개념을 이해하도록 돕기 위한 의도로 기술된 것으로, 당업자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다.
그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 신경망을 이용한 자율 주행 차량의 수어 응답 제공 방법은 프로그램으로 구현되어 서버 또는 기기들에 제공될 수 있다. 이에 따라 각 장치들은 프로그램이 저장된 서버 또는 기기에 접속하여, 상기 프로그램을 다운로드 할 수 있다.
또한, 상술한 본 발명의 다양한 실시 예들에 따른 방법은 프로그램으로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다. 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (13)

  1. 신경망을 이용한 차량의 수어 응답 제공 방법에 있어서,
    차량 내 사용자의 수어에 따른 수어 영상을 획득하는 단계;
    상기 획득된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단계;
    상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 음성 의미 시퀀스를 출력하는 단계;
    출력된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하여 사용자의 의도를 판단하는 단계; 및
    상기 사용자의 의도에 따라 차량을 제어하는 단계;를 포함하고,
    상기 제1 신경망 모델은,
    상기 제1 신경망 모델으로부터 출력된 실제 음성 의미 시퀀스와,
    상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망 모델을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망 모델의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습되며,
    상기 제1 신경망 모델은 컨볼루션 레이어로 구성된 인코더(encoder)를 통해 상기 단위 영상에서 상기 음성 의미를 정의하는 특징 벡터를 출력하도록 학습되며,
    상기 제2 신경망 모델은 디컨볼루션 레이어로 구성된 디코더(decoder)를 통해 상기 음성 의미에 대한 특징 벡터로부터 단위 영상을 생성하여 출력하도록 학습되는 것을 특징으로 하는 수어 응답 제공 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 제어하는 단계는 상기 사용자의 의도가 제1 요청으로 판단된 경우, 상기 출력된 음성 의미 시퀀스를 상담원에게 전송하여 상기 상담원으로부터 상기 제1 요청의 처리를 위한 음성 의미 시퀀스를 수신하는 단계;
    상기 수신된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 생성된 가상의 단위 영상의 시퀀스를 상기 사용자에게 제공하는 단계;를 더 포함하는 것을 특징으로 하는 수어 응답 제공 방법.
  4. 제 3 항에 있어서,
    상기 제2 신경망은 단위 음성 의미로부터 단위 영상을 출력하도록 학습된 제2 신경망을 통해 상기 제1 신경망으로부터 출력된 음성 의미 시퀀스로부터 출력된 가상 단위 영상 시퀀스와, 상기 추출된 단위 영상의 시퀀스의 순차적 오차를 이용하여 학습되는 것을 특징으로 하는 수어 응답 제공 방법.
  5. 제 3 항에 있어서,
    상기 제2 신경망은,
    상기 단위 음성 의미로부터 가상의 단위 영상을 생성하여 출력하되, 상기 가상의 단위 영상의 진위여부를 판단하는 제3 신경망의 출력과 경쟁적으로 제1 학습되고,
    상기 제1 신경망의 실제 단위 영상으로부터 출력된 단위 음성 의미를 입력으로 생성된 가상의 단위 영상과 상기 실제 단위 영상 간의 차이를 손실로 정의하여 제2 학습되는 것을 특징으로 하는 수어 응답 제공 방법.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 제어하는 단계는 상기 사용자의 의도가 제2 요청으로 판단된 경우, 상기 제2 요청에 대응되는 차량 제어나 수어 영상을 상기 사용자에게 제공하는 것을 특징으로 하는 수어 응답 제공 방법.
  8. 신경망을 이용한 수어 기반 차량의 수어 응답 제공 장치에 있어서,
    차량 내 사용자의 수어에 따른 수어 영상을 획득하는 영상 획득부;
    상기 획득된 수어 영상으로부터 분절된 의미를 갖는 단위 영상의 시퀀스를 추출하는 단위 영상 추출부;
    상기 단위 영상의 시퀀스를 학습된 제1 신경망에 입력하여 음성 의미 시퀀스를 출력하는 음성 의미 추출부;
    출력된 음성 의미 시퀀스를 순차적으로 음성 인식 모델에 입력하여 사용자의 의도를 판단하는 음성 인식부; 및
    상기 사용자의 의도에 따라 차량을 제어하는 제어부;를 포함하고,
    상기 제1 신경망 모델은,
    상기 제1 신경망 모델으로부터 출력된 실제 음성 의미 시퀀스와,
    상기 실제 음성 의미 시퀀스를 입력으로 제2 신경망 모델을 통해 출력된 가상 단위 영상 시퀀스를 제1 신경망 모델의 입력으로 출력된 가상 음성 의미 시퀀스 간의 차이를 통해 학습되며,
    상기 제1 신경망 모델은 컨볼루션 레이어로 구성된 인코더(encoder)를 통해 상기 단위 영상에서 상기 음성 의미를 정의하는 특징 벡터를 출력하도록 학습되며,
    상기 제2 신경망 모델은 디컨볼루션 레이어로 구성된 디코더(decoder)를 통해 상기 음성 의미에 대한 특징 벡터로부터 단위 영상을 생성하여 출력하도록 학습되는 것을 특징으로 하는 수어 응답 제공 장치.
  9. 삭제
  10. 제 8 항에 있어서,
    상기 사용자의 의도가 제1 요청으로 판단된 경우, 상기 출력된 음성 의미 시퀀스를 상담원에게 전송하여 상기 상담원으로부터 상기 제1 요청의 처리를 위한 음성 의미 시퀀스를 수신하는 통신부;
    상기 수신된 음성 의미 시퀀스로부터 분절된 단위 음성 의미의 순차 입력으로, 제2 신경망으로부터 가상의 단위 영상의 시퀀스를 생성하는 수어 영상 생성부;를 더 포함하고,
    상기 제어부는 상기 가상의 단위 영상의 시퀀스를 상기 사용자에게 제공하는 것을 특징으로 하는 수어 응답 제공 장치.
  11. 제 10 항에 있어서,
    상기 제2 신경망은,
    상기 단위 음성 의미로부터 가상의 단위 영상을 생성하여 출력하되, 상기 가상의 단위 영상의 진위여부를 판단하는 제3 신경망의 출력과 경쟁적으로 제1 학습되고,
    상기 제1 신경망의 실제 단위 영상으로부터 출력된 단위 음성 의미를 입력으로 생성된 가상의 단위 영상과 상기 실제 단위 영상 간의 차이를 손실로 정의하여 제2 학습되는 것을 특징으로 하는 수어 응답 제공 장치.
  12. 제 8 항에 있어서,
    상기 사용자의 의도가 제2 요청으로 판단된 경우, 상기 제어부는 제2 요청에 대응되는 차량 제어나 수어 영상을 상기 사용자에게 제공하는 것을 특징으로 하는 수어 응답 제공 장치.
  13. 컴퓨터 판독 가능한 기록 매체에 저장되어 제1항, 제3항, 제4항, 제5항 및 제7항 중 어느 한 항에 기재된 수어 응답 제공 방법을 실행시키는 프로그램.
KR1020210180679A 2021-12-16 2021-12-16 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램 KR102460553B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210180679A KR102460553B1 (ko) 2021-12-16 2021-12-16 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210180679A KR102460553B1 (ko) 2021-12-16 2021-12-16 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR102460553B1 true KR102460553B1 (ko) 2022-10-31

Family

ID=83802727

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210180679A KR102460553B1 (ko) 2021-12-16 2021-12-16 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102460553B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101933150B1 (ko) * 2018-04-10 2018-12-27 주식회사 이큐포올 명령어/정보 입력시스템 및 방법
KR20190121102A (ko) * 2018-04-17 2019-10-25 현대자동차주식회사 장애인을 위한 커뮤니케이션 시스템이 구비된 차량 및 장애인을 위한 커뮤니케이션 시스템 제어방법
KR102115551B1 (ko) * 2019-08-06 2020-05-26 전자부품연구원 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
KR102152326B1 (ko) * 2020-02-14 2020-09-04 주식회사 샘물정보통신 글로벌 수화 통역 지원 시스템
KR102174922B1 (ko) * 2019-08-06 2020-11-05 한국전자기술연구원 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
KR20210055235A (ko) * 2019-11-07 2021-05-17 서울대학교산학협력단 생성적 적대 신경망 기반 수어 영상 생성 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101933150B1 (ko) * 2018-04-10 2018-12-27 주식회사 이큐포올 명령어/정보 입력시스템 및 방법
KR20190121102A (ko) * 2018-04-17 2019-10-25 현대자동차주식회사 장애인을 위한 커뮤니케이션 시스템이 구비된 차량 및 장애인을 위한 커뮤니케이션 시스템 제어방법
KR102115551B1 (ko) * 2019-08-06 2020-05-26 전자부품연구원 글로스를 이용한 수어 번역 장치 및 번역모델 학습장치
KR102174922B1 (ko) * 2019-08-06 2020-11-05 한국전자기술연구원 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치 및 음성-수어 번역 장치
KR20210055235A (ko) * 2019-11-07 2021-05-17 서울대학교산학협력단 생성적 적대 신경망 기반 수어 영상 생성 시스템
KR102152326B1 (ko) * 2020-02-14 2020-09-04 주식회사 샘물정보통신 글로벌 수화 통역 지원 시스템

Similar Documents

Publication Publication Date Title
US11687319B2 (en) Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
CN105843381B (zh) 用于实现多模态交互的数据处理方法及多模态交互系统
US11270694B2 (en) Artificial intelligence apparatus and method for recognizing speech by correcting misrecognized word
US11282522B2 (en) Artificial intelligence apparatus and method for recognizing speech of user
US11289074B2 (en) Artificial intelligence apparatus for performing speech recognition and method thereof
CN110598576B (zh) 一种手语交互方法、装置及计算机介质
EP3533052B1 (en) Speech recognition method and apparatus
US11443747B2 (en) Artificial intelligence apparatus and method for recognizing speech of user in consideration of word usage frequency
CN106502382B (zh) 用于智能机器人的主动交互方法和系统
US11355101B2 (en) Artificial intelligence apparatus for training acoustic model
US11508358B2 (en) Artificial intelligence apparatus and method for recognizing speech in consideration of utterance style
US11682388B2 (en) Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
KR20210055347A (ko) 인공 지능 장치
US11211059B2 (en) Artificial intelligence apparatus and method for recognizing speech with multiple languages
CN112346570A (zh) 基于语音和手势进行人机交互的方法和设备
KR102460553B1 (ko) 차량 내 신경망을 이용한 수어 응답 제공 방법, 장치 및 컴퓨터 프로그램
KR20220070466A (ko) 지능적 음성 인식 방법 및 장치
Lee et al. Object Detection System for the Blind with Voice Command and Guidance
CN111971670A (zh) 在对话中生成响应
KR20240060405A (ko) 언어장애인의 음성 인식을 보조하는 전자장치 및 방법
KR20230149894A (ko) 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템
CN113822186A (zh) 手语翻译、客服、通信方法、设备和可读介质
CN116844555A (zh) 车辆语音交互的方法及装置、车辆、电子设备和存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant