KR101945190B1 - 음성인식 작동 시스템 및 방법 - Google Patents

음성인식 작동 시스템 및 방법 Download PDF

Info

Publication number
KR101945190B1
KR101945190B1 KR1020170058398A KR20170058398A KR101945190B1 KR 101945190 B1 KR101945190 B1 KR 101945190B1 KR 1020170058398 A KR1020170058398 A KR 1020170058398A KR 20170058398 A KR20170058398 A KR 20170058398A KR 101945190 B1 KR101945190 B1 KR 101945190B1
Authority
KR
South Korea
Prior art keywords
data
command
object name
dictation
unit
Prior art date
Application number
KR1020170058398A
Other languages
English (en)
Other versions
KR20180124226A (ko
Inventor
송민규
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020170058398A priority Critical patent/KR101945190B1/ko
Publication of KR20180124226A publication Critical patent/KR20180124226A/ko
Application granted granted Critical
Publication of KR101945190B1 publication Critical patent/KR101945190B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 사용자의 음성명령을 인식하고, 상기 음성명령을 딕테이션(Dictation)하여 디지털 신호로 변환해 딕테이션(Dictation)데이터를 생성하는 음성인식장치; 및 웨어러블 장치, IoT(Internet of Things) 장치, 휴대용단말기, 이동식 저장장치, 내비게이션 장치 및 차량의 AVN 중 적어도 어느 하나 이상과 연결되고, 상기 딕테이션데이터를 이용하여 명령을 수행하는 명령수행장치를 포함하는 음성인식 작동 시스템 및 방법에 관한 것이다. 이러한 본 발명에 따르면 유사수치데이터를 통해 음성명령에 포함된 사용자의 의도를 1차로 파악하고 검토데이터를 통해 음성명령의 오류를 수정할 수 있어 사용자가 의도하는 음성명령 인식의 정확도를 향상시킬 수 있다.

Description

음성인식 작동 시스템 및 방법 {VOICE RECOGNITION OPERATING SYSTEM AND METHOD}
본 발명은 음성인식 시스템에 관한 것으로서, 보다 구체적으로는 웨어러블 장치, IoT(Internet of Things) 장치 및 차량에 설치되어 사용자의 음성명령을 인식하여 명령을 수행하는 음성인식 작동 시스템 및 방법에 관한 것이다.
음성인식기술(Speech Recognition)은 마이크로폰을 통해 입력된 사용자의 음성을 컴퓨터가 분석하고 특징을 추출해서 미리 입력된 단어나 문장에 근접한 결과를 명령어로서 인식하고, 인식된 명령어에 해당하는 작동을 수행하도록 하는 기술이다.
음성인식 기술이 웨어러블 장치, IoT(Internet of Things) 장치 및 차량에 적용되는 경우, 사용자는 직접 손을 이용하여 기기를 조작하지 않고, 음성만으로 원하는 정보를 얻을 수 있고, 원하는 작동을 하도록 명령을 내릴 수 있다.
그러나, 기존의 웨어러블 장치, IoT 장치 및 차량에 적용된 음성인식기술은 도메인 정보를 모르는 상태에서 음소 배열 확률 정보만으로 음성인식을 수행해 목적지, 주소, 음악 등 다양한 검색 도메인 각각에 대해 정확하게 인식하는 성능을 확보하는데 어려움이 있다.
또한, 의미정보 없이 음소 정보만으로 인식 결과를 확정하므로 조사 등의 문법적 요소에 대한 의미적 분류에 대한 오류가 발생하여 의미적 혼동이 발생되는 문제점이 있다.
한국공개특허 제10-2000-0037217호 (2000.06.30) "음성인식 기반 작동완구 세트 및 그 제어방법" 한국공개특허 제10-2008-0103162호 (2008.11.27) "마이크로폰 어레이를 구비한 차량용 음성인식 시스템"
본 발명의 목적은 사용자의 음성을 인식하여 사용자의 명령을 수행하는 음성인식 작동 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 상기한 음성인식 작동 시스템을 이용하여 명령을 수행할 수 있는 음성인식 작동 방법을 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 하나의 특징에 따른 음성인식 작동 시스템은, 사용자의 음성명령을 인식하고, 상기 음성명령을 딕테이션(Dictation)하여 디지털 신호로 변환해 딕테이션(Dictation)데이터를 생성하는 음성인식장치; 및 웨어러블 장치, IoT 장치, 휴대용단말기, 이동식 저장장치, 내비게이션 장치 및 차량의 AVN 중 적어도 어느 하나 이상과 연결되고, 상기 딕테이션데이터를 이용하여 명령을 수행하는 명령수행장치를 포함한다.
상기 음성인식장치는, 상기 음성명령을 인식하여 음성데이터를 생성하는 음성인식부; 상기 음성데이터의 노이즈를 제거하는 노이즈제거부; 및 노이즈가 제거된 상기 음성데이터를 딕테이션(Dictation)하고, 디지털 신호로 변환하여 딕테이션(Dictation)데이터를 생성하는 A/D변환부를 포함할 수 있다.
여기서, 상기 명령수행장치는, 개체명을 나타내는 개체명데이터를 복수로 포함하고, 복수의 상기 개체명데이터를 카테고리화하여 저장하는 개체명데이터저장부; 도메인별로 발화 가능한 복수의 발화패턴과 복수의 상기 발화패턴 각각과 연동되는 복수의 명령어를 포함하는 복수의 도메인데이터를 저장하는 도메인데이터저장부; 상기 딕테이션데이터를 분석하여 상기 딕테이션데이터에 포함된 개체명을 추출해 네임(Name)데이터를 생성하는 개체명추출부; 및 복수의 상기 도메인데이터를 이용하여 상기 딕테이션데이터의 발화패턴을 분석하고, 발화패턴과 연동되는 명령어정보와 도메인정보를 추출하여 추출된 도메인정보와 명령어정보를 포함하는 명령어데이터를 생성하는 명령어추출부를 포함할 수 있다.
게다가, 상기 명령수행장치는, 상기 네임데이터와 상기 명령어데이터를 이용하여 복수의 상기 개체명데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치 및 상기 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성하는 유사성비교부; 상기 유사수치데이터의 상기 카테고리정보에 포함되는 복수의 상기 개체명데이터와 상기 네임데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치를 포함하여 검토데이터를 생성하는 데이터검토부; 상기 유사수치데이터와 상기 검토데이터를 비교하여 유사성 수치가 더 높은 데이터를 선택하고, 선택된 데이터와 상기 명령어데이터를 이용해 명령을 수행하는 명령수행부; 웨어러블 장치, IoT 장치, 휴대용단말기, 이동식 저장장치, 내비게이션 장치 및 차량의 AVN 중 적어도 어느 하나 이상과 무선 또는 유선통신으로 연결되는 통신부; 및 데이터들의 흐름과 전반적인 작동을 제어하는 제어부를 포함할 수 있다.
추가적으로, 상기 명령수행장치는, 상기 유사수치데이터와 상기 검토데이터 중 상기 명령수행부에서 선택된 데이터가 상기 검토데이터이면 상기 검토데이터를 이용하여 상기 딕테이션데이터를 수정하는 데이터보정부를 더 포함할 수 있다.
한편, 상기한 본 발명의 목적을 실현하기 위한 다른 하나의 특징에 따른 음성인식 작동 방법은, 음성인식장치가 사용자의 음성명령을 인식하여 딕테이션(Dictation)데이터를 생성하는 단계; 및 명령수행장치가 상기 딕테이션데이터를 이용하여 명령을 수행하는 단계를 포함한다.
여기서, 상기 딕테이션데이터를 생성하는 단계는, 사용자의 음성명령을 인식하여 상기 음성데이터를 생성하는 단계; 상기 음성데이터의 노이즈를 제거하는 단계; 상기 음성데이터를 딕테이션(Dictation)하고 디지털 신호로 변환하여 딕테이션(Dictation)데이터를 생성하는 단계; 및 상기 딕테이션데이터를 상기 명령수행장치로 전송하는 단계를 포함할 수 있다.
그리고, 상기 명령을 수행하는 단계는, 상기 딕테이션데이터를 수신하는 단계; 개체명추출부가 상기 딕테이션데이터를 분석하여 상기 딕테이션데이터에 포함된 개체명을 추출해 네임(Name)데이터를 생성하는 단계; 명령어추출부가 복수의 상기 도메인데이터를 이용하여 상기 딕테이션데이터의 발화 패턴을 분석하고, 발화패턴과 연동되는 명령어정보와 도메인정보를 추출하여 추출된 도메인정보와 명령어정보를 포함하는 명령어데이터를 생성하는 단계; 및 유사성비교부가 상기 네임데이터와 상기 명령어데이터를 이용하여 복수의 상기 개체명데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치 및 상기 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성하는 단계를 포함할 수 있다.
또한, 상기 명령을 수행하는 단계는, 데이터검토부가 상기 유사수치데이터의 상기 카테고리정보에 포함되는 복수의 상기 개체명데이터와 상기 네임데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치를 포함하여 검토데이터를 생성하는 단계; 및 명령수행부가 상기 유사수치데이터와 상기 검토데이터를 비교하여 유사성 수치가 더 높은 데이터를 선택하고, 선택된 데이터와 상기 명령어데이터를 이용해 명령을 수행하는 단계를 더 포함할 수 있다.
여기서, 상기 유사수치데이터를 생성하는 단계는, 상기 네임데이터와 상기 명령어데이터를 이용하여 개체명데이터저장부에 포함된 복수의 개체명데이터를 비교하여 각각의 유사성 수치를 산출하는 단계 ; 및 상기 개체명데이터들 중에서 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치 및 상기 개체명데이터가 포함된 카테고리정보를 포함하는 상기 유사수치데이터를 생성하는 단계를 포함할 수 있다.
그리고, 상기 검토데이터를 생성하는 단계는, 상기 유사수치데이터의 상기 카테고리정보에 포함되는 복수의 상기 개체명데이터와 상기 네임데이터를 비교해 각각의 유사성 수치를 산출하는 단계; 및 상기 개체명데이터들 중에서 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치를 포함하는 상기 검토데이터를 생성하는 단계를 포함할 수 있다.
또한, 상기 명령을 수행하는 단계는, 상기 유사수치데이터와 상기 검토데이터에 포함된 유사성 수치를 비교하는 단계; 상기 유사수치데이터와 상기 검토데이터 중 유사성 수치가 더 높은 데이터를 선택하는 단계; 상기 명령어데이터와 상기 유사성 수치가 더 높은 데이터에 포함된 상기 개체명데이터를 이용하여 명령 수행 가능 여부를 판단하는 단계; 및 명령을 수행하는 단계를 포함할 수 있다.
그리고, 상기 명령을 수행하는 단계는, 상기 명령수행부에서 선택된 데이터가 상기 검토데이터이면, 상기 명령수행부가 상기 유사수치데이터와 상기 검토데이터를 선택하는 단계 이후에, 데이터보정부가 상기 검토데이터를 이용하여 상기 딕테이션데이터를 수정하는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따른 음성인식 작동 시스템 및 방법에 따르면,
첫째, 유사수치데이터를 통해 음성명령에 포함된 사용자의 의도를 1차로 파악하고 검토데이터를 통해 음성명령의 오류를 수정할 수 있어 사용자가 의도하는 음성명령 인식의 정확도를 향상시킬 수 있다.
둘째, 음성명령을 분석하여 도메인정보를 파악하고, 이를 이용하여 네임데이터와 개체명데이터들을 비교하므로, 동음을 가진 개체명데이터들 중 사용자가 의도한 데이터를 선택하는 정확도를 향상시킬 수 있다.
셋째, 개체명데이터들과의 유사성 수치를 산출하여 음성명령을 수행하는 정확도를 향상시킬 수 있다.
넷째, 복수의 도메인데이터를 이용하여 음성명령의 발화패턴을 파악할 수 있어 사용자의 의도를 파악하는 정확도를 향상시킬 수 있다.
다섯째, 검토데이터를 통해 사용자의 음성명령 오류를 수정할 수 있어 명령수행의 정확도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성인식 작동 시스템을 대략적으로 나타낸 개념도이다.
도 2는 도 1에 도시된 음성인식장치의 개략적은 개념도이다.
도 3은 도 1에 도시된 명령수행장치의 개략적인 개념도이다.
도 4는 본 발명의 일 실시예에 따른 음성인식 작동 방법을 설명하기 위한 흐름도이다.
도 5는 도 4에 도시된 음성데이터를 생성하는 과정을 설명하기 위한 흐름도이다.
도 6는 도 4에 도시된 명령을 수행하는 과정을 설명하기 위한 흐름도이다.
도 7은 도 6에 도시된 유사수치데이터를 생성하는 과정을 설명하기 위한 흐름도이다.
도 8은 도 6에 도시된 검토데이터를 생성하는 과정을 설명하기 위한 흐름도이다.
도 9는 도 6에 도시된 명령을 수행하는 과정을 설명하기 위한 흐름도이다.
이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 보다 상세하게 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음에 유의한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지 이유로 첨부 도면에 있어서 일부 구성 요소는 과장되거나 생략되거나 개략적으로 도시되었다.
도 1은 본 발명의 일 실시예에 따른 음성인식 작동 시스템을 대략적으로 나타낸 개념도이고, 도 2는 도 1에 도시된 음성인식장치의 개략적은 개념도이며, 도 3은 도 1에 도시된 명령수행장치의 개략적인 개념도이다.
도 1 및 도 3을 참조하면, 본 발명의 음성인식 작동 시스템(100)은 음성인식장치(110) 및 명령수행장치(120)를 포함한다.
음성인식장치(110)는 사용자의 음성명령을 인식하고, 음성명령을 딕테이션(Dictation)하여 디지털 신호로 변환해 딕테이션(Dictation)데이터를 생성하고, 딕테이션데이터를 후술할 명령수행장치(120)로 전송한다.
여기서, 음성인식장치(110)는 임베디드 장치 또는 서버로 구비될 수 있다.
그리고, 음성인식장치(110)는 음성인식부(111), 노이즈제거부(112), A/D변환부(113), 통신부(114) 및 제어부(115)를 포함한다.
음성인식부(111)는 사용자의 음성명령을 인식하여 음성데이터를 생성하고, 노이즈제거부(112)는 음성데이터의 노이즈를 제거한다.
그리고, A/D변환부(113)는 노이즈가 제거된 음성데이터를 딕테이션(Dictation)하고, 디지털 신호로 변환하여 딕테이션(Dictation)데이터를 생성한다.
여기서, 딕테이션데이터는 사용자의 음성명령을 인식하여 문자로 나타낸 데이터이다.
통신부(114)는 후술할 명령수행장치(120)와 무선 또는 유선으로 연결되고, 제어부(115)는 음성인식장치(110)의 전반적인 동작을 제어한다.
명령수행장치(120)는 웨어러블 장치, IoT 장치, 휴대용단말기, 이동식 저장장치, 내비게이션 장치 및 차량의 AVN 중 적어도 어느 하나 이상과 연결되고, 음성인식장치(110)로부터 딕테이션데이터를 수신해 딕테이션데이터를 이용하여 명령을 수행한다.
명령수행장치(120)는 개체명데이터저장부(121), 도메인데이터저장부(122), 개체명추출부(123), 명령여추출부(124), 유사성비교부(125), 데이터검토부(126), 명령수행부(127), 데이터보정부(128), 통신부(129) 및 제어부(131)를 포함한다.
개체명데이터저장부(121)는 개체명을 나타내는 개체명데이터를 복수로 포함하고, 복수의 개체명데이터를 카테고리화하여 저장한다.
도메인데이터저장부(122)는 도메인별로 발화 가능한 복수의 발화패턴과 복수의 발화패턴 각각과 연동되는 복수의 명령어를 포함하는 복수의 도메인데이터를 저장한다.
여기서, 도메인데이터는 장소, 주소, 음악 등과 같은 검색도메인으로 나눠져 있고, 도메인별로 복수의 명령어를 포함하는데 각각의 명령어 별로 연동되는 발화패턴을 포함한다.
예를들어, 도메인데이터들 중 장소 검색을 나타내는 POI(Point of Interest) 도메인데이터가 있고, 이 도메인이 포함하는 명령어들에 "SearchPlace" 라는 명령어가 있는데, 이 명령어는 "Find <POI>" 라는 발화패턴과 연동 될 수 있다.
개체명추출부(123)는 딕테이션데이터를 분석하여 딕테이션데이터에 포함된 개체명을 추출해 네임(Name)데이터를 생성한다.
여기서, 네임데이터는 사용자의 음성명령에 포함된 명사일 수 있는데, 예를들어 노래제목이나 장소명칭 식당이름과 같은 명사일 수 있다.
명령어추출부(124)는 복수의 도메인데이터를 이용하여 딕테이션데이터의 발화패턴을 분석하고, 발화패턴과 연동되는 명령어정보와 도메인정보를 추출하여 추출된 도메인정보와 명령어정보를 포함하는 명령어데이터를 생성한다.
예를들어, 사용자가 "Find Post Office" 라는 음성명령을 하면 명령어추출부(126)는 발화패턴을 분석하여 "SearchPlace"라는 명령어정보와 "POI" 라는 도메인정보를 추출할 수 있다.
유사성비교부(125)는 네임데이터와 명령어데이터를 이용하여 복수의 개체명데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 쉬가 가장 높은 개체명데이터와 산출된 유사성 수치 및 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성한다.
여기서, 유사성비교부(125)는 네임데이터의 음소배열과 명령어데이터에 포함된 도메인정보를 이용하여 같은 음소배열을 나타내는 데이터라도 도메인정보에 따라 유사성 수치를 다르게 산출할 수 있다.
예를들어, 개체명데이터들 중 "Post Office"라는 동일한 음소배열을 가진 데이터 두개가 있고 각각 장소와 노래를 나타내면, 명령어데이터에 포함된 도메인정보를 통해 노래를 나타내는 데이터보다 장소를 나타내는 데이터와 유사성 수치가 더 높게 나타날 수 있다.
데이터검토부(126)는 네임데이터와 유사수치데이터의 카테고리정보에 포함되는 복수의 개체명데이터를 비교하여 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치를 포함하여 검토데이터를 생성한다.
여기서, 데이터검토부(126)는 명령어데이터의 명령어에 대응되는 카테고리에 포함된 개체명데이터들과 네임데이터의 음소배열을 비교하여 검토데이터를 생성한다.
명령수행부(127)는 유사수치데이터와 검토데이터를 비교하여 유사성 수치가 더 높은 데이터를 선택하고, 선택된 데이터와 명령어데이터를 이용해 명령을 수행한다.
여기서, 유사수치데이터와 검토데이터가 동일한 데이터를 포함하면 임의로 하나를 선택하여 명령을 수행할 수 있다.
데이터보정부(128)는 유사수치데이터와 검토데이터 중 명령수행부(127)에서 선택된 데이터가 검토데이터이면, 검토데이터를 이용하여 딕테이션데이터를 수정한다.
따라서, 사용자의 음성명령에 포함된 개체명을 정확하게 알지 못해 비슷한 개체명을 말해도 사용자가 의도한 개체명으로 보정 할 수 있어 사용자의 음성명령을 수행하는 정확도를 높일 수 있다.
통신부(129)는 웨어러블 장치(10), IoT 장치(20), 휴대용단말기(30), 이동식 저장장치(40), 내비게이션 장치(50) 및 차량의 AVN(60) 중 적어도 어느 하나 이상과 무선 또는 유선으로 연결되고, 제어부(131)는 데이터들의 흐름과 전반적인 작동을 제어한다.
도 4는 본 발명의 일 실시예에 따른 음성인식 작동 방법을 설명하기 위한 흐름도이고, 도 5는 도 4에 도시된 음성데이터를 생성하는 과정을 설명하기 위한 흐름도이며, 도 6는 도 4에 도시된 명령을 수행하는 과정을 설명하기 위한 흐름도이고, 도 7은 도 6에 도시된 유사수치데이터를 생성하는 과정을 설명하기 위한 흐름도이다.
그리고, 도 8은 도 6에 도시된 검토데이터를 생성하는 과정을 설명하기 위한 흐름도이고, 도 9는 도 6에 도시된 명령을 수행하는 과정을 설명하기 위한 흐름도이다.
도 1 및 도 4를 참조하면, 본 발명의 음성인식 작동 방법은, 음성인식장치(110)가 사용자의 음성명령을 인식하여 딕테이션(Dictation)데이터를 생성한다(단계 S110).
그리고, 명령수행장치(120)가 딕테이션데이터를 이용하여 명령을 수행한다(단계 S120).
도 2 및 도 5를 참조하여 음성인식장치(110)가 딕테이션데이터를 생성하는 과정(단계 S110)에 대해 구체적으로 설명한다.
음성인식장치(110)의 음성인식부(111)가 사용자의 음성명령을 인식하여 음성데이터를 생성한다(단계 S111).
그리고, 노이즈제거부(112)가 음성데이터의 노이즈를 제거한다(단계 S112).
이후, A/D변환부(113)가 노이즈가 제거된 음성데이터를 딕테이션(Dictation)하고, 이를 디지털 신호로 변환하여 딕테이션(Dictation)데이터를 생성한다(단계 S113).
그리고, 딕테이션데이터를 명령수행장치(120)로 전송한다(단계 S114).
도 1, 도 3 및 도 6를 참조하여 명령수행장치(120)가 명령을 수행하는 과정(단계 S120)에 대해 구체적으로 설명한다.
먼저, 음성인식장치(110)로부터 딕테이션데이터를 수신하고(단계 S121), 개체명추출부(123)가 딕테이션데이터를 분석하여 딕테이션데이터에 포함된 개체명을 추출해 네임데이터를 생성한다(단계 S122).
그리고, 명령어추출부(124)가 복수의 도메인데이터를 이용하여 딕테이션데이터의 발화패턴을 분석하고, 발화패턴과 연동되는 명령어정보와 도메인정보를 추출하여 추출된 도메인 정보와 명령어정보를 포함하는 명령어데이터를 생성한다(단계 S123).
이후, 유사성비교부(125)가 네임데이터와 명령어데이터를 이용하여 복수의 개체명데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치 및 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성한다(단계 S124).
그리고, 데이터검토부(126)가 유사수치데이터의 카테고리정보에 포함되는 복수의 개체명데이터와 네임데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치를 포함하여 검토데이터를 생성한다(단계 S125).
이후, 명령수행부(127)가 유사수치데이터와 검토데이터를 비교하여 더 높은 유사성 수치를 포함하는 데이터를 선택하고, 선택된 데이터와 명령어데이터를 이용해 명령을 수행한다(단계 S126).
도 3 및 도 7을 참조하여 단계 S120의 유사수치데이터를 생성하는 과정(단계 S124)에 대해 구체적으로 설명한다.
유사성비교부(125)가 네임데이터와 명령어데이터를 이용하여 개체명데이터저장부(123)에 포함된 복수의 개체명데이터를 비교하여 각각의 유사성 수치를 산출한다(단계 S124a).
그리고, 개체명데이터들 중에서 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치 및 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성한다(단계 S124b).
도 3 및 도 8을 참조하여 단계 S120의 검토데이터를 생성하는 과정(단계 S125)에 대해 구체적으로 설명한다.
데이터검토부(126)가 유사수치데이터의 카테고리정보에 포함되는 복수의 개체명데이터와 네임데이터를 비교해 각각의 유사성 수치를 산출한다(단계 S125a).
그리고, 개체명데이터들 중에서 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치를 포함하는 검토데이터를 생성한다(단계 S125b).
도 3 및 도 9를 참조하여 단계 S120의 명령을 수행하는 과정(단계 S126)에 대해 구체적으로 설명한다.
명령수행부(127)가 유사수치데이터와 검토데이터에 포함된 유사성 수치를 비교한다(단계 S126a).
그리고, 명령수행부(127)가 유사수치데이터와 검토데이터 중 유사성 수치가 더 높은 데이터를 선택한다(단계 S126b).
단계 S126b에서 선택된 데이터가 검토데이터이면, 데이터보정부(128)가 검토데이터를 이용하여 딕테이션데이터를 수정하고(단계 S126c), 유사수치데이터이면 딕테이션데이터를 수정하지 않는다.
그리고, 단계 S126b에서 선택된 데이터에 포함된 개체명데이터와 명령어데이터를 이용하여 명령 수행 가능 여부를 판단한다(단계 S126d).
단계 S126d에서, 웨어러블 장치(10), IoT 장치(20), 휴대용단말기(30), 이동식 저장장치(40), 내비게이션 장치(50) 및 차량의 AVN(60) 중 적어도 어느 하나 이상에 해당 명령을 수행하기 위한 개체명이 존재하지 않으면 사용자에게 음성명령을 재요청할 수 있다.
예를들어, 개체명데이터가 노래 제목이고, 명령어데이터의 명령어가 노래를 재생하는 명령어인데 웨어러블 장치(10), IoT 장치(20), 휴대용단말기(30), 이동식 저장장치(40), 내비게이션 장치(50) 및 차량의 AVN(60) 중 적어도 어느 하나 이상에 개체명데이터가 나타내는 노래 제목이 존재하지 않으면 사용자에게 음성명령을 재요청할 수 있다.
반면, 단계 S126d에서, 웨어러블 장치(10), IoT 장치(20), 휴대용단말기(30), 이동식 저장장치(40), 내비게이션 장치(50) 및 차량의 AVN(60) 중 적어도 어느 하나 이상에 해당 명령을 수행하기 위한 개체명과 일치하는 개체명이 있으면 명령어데이터를 이용하여 이를 수행한다(단계 S126e).
앞서 설명한 구성들과 단계들을 참조하여 본 발명의 차량 음성인식 작동 시스템(100)의 동작과정을 예를 들어 설명하면, 사용자가 "Paris" 라는 노래를 재생하기 위해 "Play Paris"라고 음성명령을 하면, 음성인식장치(110)의 음성인식부(111)가 이를 인식하여 음성데이터를 생성하고 노이즈제거부(112)가 음성데이터의 노이즈를 제거한다.
그리고, A/D변환부(113)가 노이즈가 제거된 음성데이터를 딕테이션(Dictation)하고, 디지털 신호로 변환하여 딕테이션(Dictation)데이터를 생성한 후 이를 명령수행장치(120)로 전송한다.
이후, 명령수행장치(120)는 개체명추출부(123)가 딕테이션데이터를 분석하여 딕테이션데이터에 포함된 개체명을 추출해 네임(Name)데이터를 생성한다.
여기서, 네임데이터는 사용자의 음성명령 중 "Paris" 부분을 나타낸다.
이후, 명령어추출부(124)가 도메인데이터저장부(122)에 저장된 복수의 도메인데이터를 이용하여 딕테이션데이터의 발화패턴을 분석하고, 발화패턴과 연동되는 명령어정보인 "Play"와 명령어정보가 속하는 도메인정보인 "VAE"를 추출하여 추출된 도메인정보와 명령어정보를 포함하는 명령어데이터를 생성한다.
그리고, 유사성비교부(125)가 네임데이터와 명령어데이터를 이용하여 개체명데이터저장부(121)의 전체 카테고리에 저장된 복수의 개체명데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치 및 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성한다.
여기서, 개체명데이터저장부(121)의 전체 카테고리의 개체명데이터들 중 개체명데이터1이 노래 "Paris"를, 개체명데이터2가 음식점 "Paris"라는 동음을 낸다고 가정하면,
유사성 수치는 네임데이터 "Paris"의 음소배열과 명령어데이터의 명령어정보 "Play"를 통해 네임데이터와 개체명데이터1 사이의 유사성 수치가 74로, 개체명데이터2와의 유사성 수치를 66으로 동음 데이터지만 명령어정보에 의해 유사성 수치가 다르게 산출될 수 있다.
그리고, 유사수치데이터는 개체명데이터1과 산출된 유사성 수치인 74 및 개체명데이터1이 포함되는 카테고리정보인 "Music"을 포함하여 생성된다.
이후, 데이터검토부(126)가 유사수치데이터의 카테고리정보인 "Music"에 포함되는 복수의 개체명데이터와 네임데이터를 비교하여 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치를 포함하여 검토데이터를 생성한다.
여기서, 개체명데이터저장부(123)의 카테고리 중 "Music" 카테고리에 포함된 개체명데이터들 중 개체명데이터3이 노래 "Paris"를, 개체명데이터4가 노래 "Paradise"를 나타낸다고 가정하면,
데이터검토부(126)에 의해 네임데이터와 개체명데이터3 사이의 유사성 수치가 72로, 개체명데이터4와의 유사성 수치가 70으로 산출되면, 검토데이터는 개체명데이터3과 산출된 유사성 수치인 72를 포함하여 생성된다.
여기서는 네임데이터와 개체명데이터3 및 개체명데이터4 간의 유사성 수치는 음소배열만을 비교하여 산출된다.
이후, 명령수행부(127)가 유사수치데이터에 포함된 유사성 수치 74와 검토데이터에 포함된 유사성 수치 72를 비교하여 더 높은 유사성 수치를 가진 유사수치데이터를 선택한다.
그리고, 유사수치데이터에 포함된 개체명데이터1인 "Paris"와 명령어데이에 포함된 명령어정보인 "Play"를 이용하여 웨어러블 장치(10), IoT 장치(20), 휴대용단말기(30) 및 이동식 저장장치(40) 중 적어도 어느 하나에 "Paris"와 대응되는 재생파일을 탐색하여 음악재생을 하게 된다.
여기서, 유사수치데이터와 검토데이터가 동일한 유사성 수치를 나타내면, 임의로 하나를 선택하여 명령을 수행할 수 있다.
다른 예로, 데이터검토부(126)에서 개체명데이터4의 유사성 수치가 77로 나타나 검토데이터가 개체명데이터4와 유사성 수치 77을 포함하여 생성되면, 명령수행부(127)는 검토데이터를 선택하고, 데이터보정부(128)가 개체명데이터4인 "Paradise"를 이용하여 딕테이션데이터를 "Play Paradise"로 수정한 후 명령수행부(127)가 명령을 수행한다.
예를 들어 설명한 본 발명의 웨어러블 장치, IoT 장치 및 차량 음성인식 작동 시스템(100)의 동작과정은 빠른 이해를 돕기 위해 단순한 예를 들어 설명한 것이므로 이에 한정되는 것은 아니다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110...음성인식장치 111...음성인식부
112...노이즈제거부 113...A/D변환부
120...명령수행장치 121...개체명데이터저장부
122...도메인데이터저장부 123...개체명추출부
124...명령어추출부 125...유사성비교부
126...데이터검토부 127...명령수행부
128...데이터보정부 129...통신부
131...제어부

Claims (13)

  1. 사용자의 음성명령을 인식하고, 상기 음성명령을 딕테이션(Dictation)하여 디지털 신호로 변환해 딕테이션(Dictation)데이터를 생성하는 음성인식장치; 및
    웨어러블 장치, IoT 장치, 휴대용단말기, 이동식 저장장치, 내비게이션 장치 및 차량의 AVN 중 적어도 어느 하나 이상과 연결되고, 상기 딕테이션데이터를 이용하여 명령을 수행하는 명령수행장치를 포함하고,
    상기 음성인식장치는,
    상기 음성명령을 인식하여 음성데이터를 생성하는 음성인식부;
    상기 음성데이터의 노이즈를 제거하는 노이즈제거부; 및
    노이즈가 제거된 상기 음성데이터를 딕테이션(Dictation)하고, 디지털 신호로 변환하여 딕테이션(Dictation)데이터를 생성하는 A/D변환부를 포함하며,
    상기 명령수행장치는,
    개체명을 나타내는 개체명데이터를 복수로 포함하고, 복수의 상기 개체명데이터를 카테고리화하여 저장하는 개체명데이터저장부;
    도메인별로 발화 가능한 복수의 발화패턴과 복수의 상기 발화패턴 각각과 연동되는 복수의 명령어를 포함하는 복수의 도메인데이터를 저장하는 도메인데이터저장부;
    상기 딕테이션데이터를 분석하여 상기 딕테이션데이터에 포함된 개체명을 추출해 네임(Name)데이터를 생성하는 개체명추출부; 및
    복수의 상기 도메인데이터를 이용하여 상기 딕테이션데이터의 발화패턴을 분석하고, 발화패턴과 연동되는 명령어정보와 도메인정보를 추출하여 추출된 도메인정보와 명령어정보를 포함하는 명령어데이터를 생성하는 명령어추출부를 포함하고,
    상기 명령수행장치는,
    상기 네임데이터와 상기 명령어데이터를 이용하여 복수의 상기 개체명데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치 및 상기 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성하는 유사성비교부;
    상기 유사수치데이터의 상기 카테고리정보에 포함되는 복수의 상기 개체명데이터와 상기 네임데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치를 포함하여 검토데이터를 생성하는 데이터검토부;
    상기 유사수치데이터와 상기 검토데이터를 비교하여 유사성 수치가 더 높은 데이터를 선택하고, 선택된 데이터와 상기 명령어데이터를 이용해 명령을 수행하는 명령수행부;
    웨어러블 장치, IoT 장치, 휴대용단말기, 이동식 저장장치, 내비게이션 장치 및 차량의 AVN 중 적어도 어느 하나 이상과 무선 또는 유선통신으로 연결되는 통신부; 및
    데이터들의 흐름과 전반적인 작동을 제어하는 제어부를 포함하는 것을 특징으로 하는 음성인식 작동 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 명령수행장치는,
    상기 유사수치데이터와 상기 검토데이터 중 상기 명령수행부에서 선택된 데이터가 상기 검토데이터이면 상기 검토데이터를 이용하여 상기 딕테이션데이터를 수정하는 데이터보정부를 더 포함하는 것을 특징으로 하는 음성인식 작동 시스템.
  6. 음성인식장치가 사용자의 음성명령을 인식하여 딕테이션(Dictation)데이터를 생성하는 단계; 및음성인식장치가 사용자의 음성명령을 인식하여 딕테이션(Dictation)데이터를 생성하는 단계; 및
    명령수행장치가 상기 딕테이션데이터를 이용하여 명령을 수행하는 단계를 포함하고,
    상기 딕테이션데이터를 생성하는 단계는,
    사용자의 음성명령을 인식하여 음성데이터를 생성하는 단계;
    상기 음성데이터의 노이즈를 제거하는 단계;
    상기 음성데이터를 딕테이션(Dictation)하고 디지털 신호로 변환하여 딕테이션(Dictation)데이터를 생성하는 단계; 및
    상기 딕테이션데이터를 상기 명령수행장치로 전송하는 단계를 포함하며,
    상기 명령을 수행하는 단계는,
    상기 딕테이션데이터를 수신하는 단계;
    개체명추출부가 상기 딕테이션데이터를 분석하여 상기 딕테이션데이터에 포함된 개체명을 추출해 네임(Name)데이터를 생성하는 단계;
    명령어추출부가 복수의 도메인데이터를 이용하여 상기 딕테이션데이터의 발화 패턴을 분석하고, 발화패턴과 연동되는 명령어정보와 도메인정보를 추출하여 추출된 도메인정보와 명령어정보를 포함하는 명령어데이터를 생성하는 단계; 및
    유사성비교부가 상기 네임데이터와 상기 명령어데이터를 이용하여 복수의 개체명데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치 및 상기 개체명데이터가 포함된 카테고리정보를 포함하는 유사수치데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식 작동 방법.
  7. 삭제
  8. 삭제
  9. 제6항에 있어서,
    상기 명령을 수행하는 단계는,
    데이터검토부가 상기 유사수치데이터의 상기 카테고리정보에 포함되는 복수의 상기 개체명데이터와 상기 네임데이터를 비교해 각각의 유사성 수치를 산출하고, 유사성 수치가 가장 높은 상기 개체명데이터와 산출된 유사성 수치를 포함하여 검토데이터를 생성하는 단계; 및
    명령수행부가 상기 유사수치데이터와 상기 검토데이터를 비교하여 유사성 수치가 더 높은 데이터를 선택하고, 선택된 데이터와 상기 명령어데이터를 이용해 명령을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 작동 방법.
  10. 제9항에 있어서,
    상기 유사수치데이터를 생성하는 단계는,
    상기 네임데이터와 상기 명령어데이터를 이용하여 개체명데이터저장부에 포함된 복수의 개체명데이터를 비교하여 각각의 유사성 수치를 산출하는 단계 ; 및
    상기 개체명데이터들 중에서 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치 및 상기 개체명데이터가 포함된 카테고리정보를 포함하는 상기 유사수치데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식 작동 방법.
  11. 제10항에 있어서,
    상기 검토데이터를 생성하는 단계는,
    상기 유사수치데이터의 상기 카테고리정보에 포함되는 복수의 상기 개체명데이터와 상기 네임데이터를 비교해 각각의 유사성 수치를 산출하는 단계; 및
    상기 개체명데이터들 중에서 유사성 수치가 가장 높은 개체명데이터와 산출된 유사성 수치를 포함하는 상기 검토데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성인식 작동 방법.
  12. 제11항에 있어서,
    상기 명령을 수행하는 단계는,
    상기 유사수치데이터와 상기 검토데이터에 포함된 유사성 수치를 비교하는 단계;
    상기 유사수치데이터와 상기 검토데이터 중 유사성 수치가 더 높은 데이터를 선택하는 단계;
    상기 명령어데이터와 상기 유사성 수치가 더 높은 데이터에 포함된 상기 개체명데이터를 이용하여 명령 수행 가능 여부를 판단하는 단계; 및
    명령을 수행하는 단계를 포함하는 것을 특징으로 하는 음성인식 작동 방법.
  13. 제12항에 있어서,
    상기 명령을 수행하는 단계는,
    상기 명령수행부에서 선택된 데이터가 상기 검토데이터이면,
    상기 명령수행부가 상기 유사수치데이터와 상기 검토데이터를 선택하는 단계 이후에,
    데이터보정부가 상기 검토데이터를 이용하여 상기 딕테이션데이터를 수정하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 작동 방법.
KR1020170058398A 2017-05-11 2017-05-11 음성인식 작동 시스템 및 방법 KR101945190B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170058398A KR101945190B1 (ko) 2017-05-11 2017-05-11 음성인식 작동 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170058398A KR101945190B1 (ko) 2017-05-11 2017-05-11 음성인식 작동 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20180124226A KR20180124226A (ko) 2018-11-21
KR101945190B1 true KR101945190B1 (ko) 2019-02-07

Family

ID=64602802

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170058398A KR101945190B1 (ko) 2017-05-11 2017-05-11 음성인식 작동 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101945190B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220399019A1 (en) * 2019-09-23 2022-12-15 Lg Electronics Inc. Home appliance and server
KR102389179B1 (ko) * 2020-04-14 2022-04-22 주식회사 오비고 차량 AVN 시스템의 상태 정보를 이용한 차량앱 제어 방법 및 이를 이용한 AI Service Agent

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008514983A (ja) * 2004-09-27 2008-05-08 ロバート ボッシュ コーポレーション デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008514983A (ja) * 2004-09-27 2008-05-08 ロバート ボッシュ コーポレーション デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話

Also Published As

Publication number Publication date
KR20180124226A (ko) 2018-11-21

Similar Documents

Publication Publication Date Title
US11437041B1 (en) Speech interface device with caching component
US8606581B1 (en) Multi-pass speech recognition
CN106663424B (zh) 意图理解装置以及方法
US9443527B1 (en) Speech recognition capability generation and control
JP6550068B2 (ja) 音声認識における発音予測
JP5613335B2 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
US8255216B2 (en) Speech recognition of character sequences
EP2700071B1 (en) Speech recognition using multiple language models
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP2010191400A (ja) 音声認識装置およびデータ更新方法
JP4867622B2 (ja) 音声認識装置、および音声認識方法
JPWO2004044887A1 (ja) 音声認識用辞書作成装置および音声認識装置
US20050228667A1 (en) System and method for effectively implementing an optimized language model for speech recognition
CN105222797B (zh) 利用口授和部分匹配搜索的导航系统的系统和方法
CN105489222A (zh) 语音识别方法和装置
JP6985221B2 (ja) 音声認識装置及び音声認識方法
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
US11211056B1 (en) Natural language understanding model generation
US11328713B1 (en) On-device contextual understanding
KR102135182B1 (ko) 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
KR102362815B1 (ko) 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치
KR102268376B1 (ko) 다중 언어 대화 서비스 제공 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant