KR20030065051A - 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법 - Google Patents

대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법 Download PDF

Info

Publication number
KR20030065051A
KR20030065051A KR1020020005201A KR20020005201A KR20030065051A KR 20030065051 A KR20030065051 A KR 20030065051A KR 1020020005201 A KR1020020005201 A KR 1020020005201A KR 20020005201 A KR20020005201 A KR 20020005201A KR 20030065051 A KR20030065051 A KR 20030065051A
Authority
KR
South Korea
Prior art keywords
information
command
control
focus
operation attribute
Prior art date
Application number
KR1020020005201A
Other languages
English (en)
Other versions
KR100438838B1 (ko
Inventor
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2002-0005201A priority Critical patent/KR100438838B1/ko
Priority to JP2003020598A priority patent/JP2003263188A/ja
Priority to EP03250536A priority patent/EP1333426B1/en
Priority to US10/352,855 priority patent/US20030144845A1/en
Priority to DE60318505T priority patent/DE60318505T2/de
Publication of KR20030065051A publication Critical patent/KR20030065051A/ko
Application granted granted Critical
Publication of KR100438838B1 publication Critical patent/KR100438838B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 사용자로부터 입력받은 음성명령을 해석하는 장치 및 그 방법에 관한 것으로, 본 발명에 따른 음성명령 해석장치는 음성 명령을 명령어 문장으로 인식하는 음성인식부, 상기 음성 인식부로부터 제공받은 명령어 문장으로부터 제어대상 디바이스, 제어동작 속성정보 및 어휘 명령어를 추출하는 명령어 해석부 및 상기 제어대상 디바이스 정보 및 제어동작 속성정보를 상기 음성 명령의 포커스 정보로 하여 저장하고, 상기 제어대상 디바이스 와 제어동작 속성정보에 대응되는 제어대상정보 및 어휘 명령 정보에 대응되는 제어내용정보를 외부로 출력하는 포커스 해석부를 포함 한다. 이러한 본 발명에 따르면 사용자가 매번 제어대상 기기의 이름 등을 지정하지 않아도 되는 것은 물론 명령어도 단축하여 사용할 수 있으므로 편리한 효과가 있다.

Description

대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법{A voice command interpreter with dialogue focus tracking function and method thereof}
본 발명은 음성명령을 해석하는 장치 및 그 방법에 관한 것으로, 특히 다수의 제어대상 디바이스가 존재하는 환경에서 사용자로부터 입력받은 상기 디바이스들을 제어하기위한 음성명령을 해석하여 상기 디바이스를 제어하는 장치로 제어대상 디바이스 정보 및 제어명령 정보를 제공하는 방법 및 장치에 관한 것이다.
종래의 TV, VTR, 오디오, 냉장고 등 다수의 다양한 디바이스가 존재하는 환경에서 각 디바이스의 제어는 주로 각 디바이스에 대응되는 각각의 리모콘 혹은 이러한 각각의 리모콘의 기능을 통합한 통합 리모콘 등에 의존하고 있다. 그러나, 이러한 장치 및 디바이스들이 점차 네트워크에 연결되고 있으며, 이를 제어하는데 편리한 인터페이스에 대한 요구가 점차 증대되고 있다.
상술한 바와같은 네크워크에 연결된 장치 및 디바이스를 제어하기 위한 방법으로, 음성 명령을 이용한 다중 디바이스 제어가 개발되고 있는데, 이러한 음성 명령을 이용하여 다중 디바이스를 제어하는, 종래의 대표적인 방법은 다음과 같다.
첫 번째, 명령어에 디바이스 명을 명시함으로써 명령어의 의미에 모호성을 허용하지 않는 방법이다. 예를 들어, "TV 켜", "TV 볼륨 줄여", "오디오 켜", "오디오 볼륨 줄여" 와 같이 동작 내용과 동작 대상을 명시하는 방법이다. 그러나, 이러한 방법은 사용자에게 자연스러운 방법이 아니며, 동작 대상이 되는 디바이스를 반복하여 언급하는 것은 사용자에게 불편함을 느끼게 한다.
두 번째, 사용자에게 확인을 받음으로써 명령어의 의미에 대한 모호성을 해소하는 방법이다. 즉, 사용자의 명령을 분석한 후에 사용자의 명령 내용에 모호성이 발견되면 사용자에게 어떤 장치를 동작시킬 것인지에 대한 음성정보를 추가적으로 입력받는 방법이다. 이러한 방법 역시, 사용자에게 추가적인 대화를 요구함으로써 사용자에게 불편함을 주게 되는 문제점이 있다.
본 발명은 상술한 종래의 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 사용자의 대화 포커스를 추적하는 기능을 통하여 사용자의 명령어의 의미에 모호성이 있는 경우에도 사용자의 명령어를 해석함으로써, 제어대상이 되는 장치 또는 디바이스를 제어할 수 있도록 하는 음성명령 해석방법 및 장치를 제공하는데 있다.
도 1은 본 발명에 적용되는 명령어 데이터의 구조의 바람직한 실시예를 나타낸 도면,
도 2A 와 도 2B는 도 1에서 보이고 있는 명령어 데이터의 구조를 데이터베이스의 테이블로 구현한 도면,
도 3은 본 발명에 따른 음성명령 해석장치의 바람직한 실시예의 구성 블록도,
도 4는 본 발명에 따른 음성명령을 해석하는 방법의 바람직한 실시예의 순서도,
도 5는 본 발명에 적용되는 제어대상 디바이스를 추출하는 바람직한 실시예를 나타낸 순서도이다.
상술한 문제점을 해결하기 위한 본 발명의 바람직한 일실시예에 따른 음성명령 해석장치는 소정의 전자 디바이스 또는 장치를 제어하기 위한 사용자의 음성명령을 해석하는 장치에 있어서, 사용자로부터 제공되는 음성 명령을 이에 따른 소정의 제어 대상 디바이스 또는 장치에 대한 명령어 문장으로 인식하는 음성인식부, 상기 음성 인식부로부터 제공되는 명령어 문장으로부터 제어대상 디바이스정보 및 어휘 명령어를 추출하는 명령어 해석부 및 상기 제어대상 디바이스 정보 및 어휘 명령어 정보에 기초하여 상기 음성 명령의 포커스가 되는 디바이스 정보를 추출하여 저장하고, 상기 제어대상 디바이스 정보 및 어휘 명령 정보를 외부로 출력하는 포커스 해석부를 포함하는 것을 특징으로 한다.
상술한[기] 문제점을 해결하기 위한 본 발명의 바람직한 다른 실시예에 따른 음성명령 해석방법은 소정의 전자 디바이스 또는 장치를 제어하기 위한 사용자의 음성명령을 해석하는 방법에 있어서, (a) 사용자로부터 제공되는 음성명령을 명령어 문장으로 인식하는 단계, (b) 상기 명령어 문장에서 제어대상 디바이스 정보 및어휘 명령어를 추출하는 단계, (c) 상기 명령어 문장에서 제어대상 디바이스 정보가 추출되지 않은 경우에는 상기 어휘 명령어 정보 및 사전 설정된 포커스 정보를 이용하여 제어대상 디바이스 정보를 생성시키는 단계, (d) 상기 포커스 정보를 상기 제어대상 디바이스 정보와 일치시키는 단계 및 (e) 상기 포커스 정보 및 상기 어휘 명령어에 대응하는 명령정보를 외부에 출력하는 단계를 포함하는 것을 특징으로 한다. 이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다.
도 1는 본 발명에 적용되는 명령어 정보의 구조의 바람직한 실시예를 보이고 있으며, 도 2A 와 도 2B는 도 1에서 보이고 있는 명령어 데이터의 구조를 데이터베이스의 테이블로 구현한 바람직한 실시예를 보이고 있다.
도 1에서 보여지는 명령어 정보는 어휘명령어, 내부 명령어, 디바이스와 제어동작속성 정보로 구성된다. 상기 어휘 명령어는 사용자로부터 제공되는 명령어의 원형을 말하는 것이고, 내부 명령어는 상기 명령어의 제어대상 디바이스와 제어동작속성 정보에 모호성이 제거된 명령어를 말하는 것으로, 본 발명에 따른 음성명령 해석장치 내부에서 사용된다. 또한 디바이스 정보는 제어대상이 되는 소정의 물리적인 장치를 의미하며 상기 제어동작속성 정보는 직접적인 제어동작의 대상이 되는 상기 디바이스의 속성에 관한 정보이다. 예를 들어 설명하면 사용자로부터 "TV 볼륨 높여"라는 명령어를 입력받은 경우에 상기 "TV"는 제어대상 디바이스가 되며, "볼륨"은 제어동작속성이 되며, "높이다"는 어휘 명령어가 된다. 도 2에서 상기 예의 디바이스, 제어동작속성, 어휘 명령어에 대응되는 내부 명령어는 "OPR4"가 된다.
이하에서는 도 1에서 보여지는 데이터의 구조를 상세히 설명한다. 먼저 디바이스에는 오디오, TV 또는 텔레비 등 여러 개가 존재할 수 있다. 그리고 위 디바이스 각각과 연관되는 제어동작속성 정보가 다수 존재할 수 있다. 도 1에서 제어동작속성 정보는 "{전원, 파워}", "{볼륨, 소리}", "화면"이 있으며, 상기 "{전원, 파워}" 및 "{볼륨, 소리}" 제어동작속성 정보는 상기 디바이스 중 "오디오"와 "{TV, 텔레비}"와 연관되고, "화면"이라는 제어동작 속성정보는 "{TV, 텔레비}"라는 디바이스와만 연관된다. 그리고 내부 명령어는 도 1에서 "OPR1", "OPR2", "OPR3", "OPR4", "OPR5"등이 있으며, "OPR1"은 "오디오"라는 디바이스의 "{전원, 파워}"라는 제어동작속성 정보와 연관되고, "OPR2"는 "오디오"라는 디바이스의 "{볼륨, 소리}"라는 제어동작속성 정보와 연관되고, "OPR3"은 "{TV, 텔레비}"라는 디바이스의 "{전원, 파워}"라는 제어동작 속성정보에 연관되며, "OPR4"는 "{TV, 텔레비}"라는 디바이스의 "{볼륨, 소리}"라는 제어동작 속성정보에 연관되며, "OPR5"는 "{TV, 텔레비}"라는 디바이스의 "{화면}"라는 제어동작 속성정보에 연관된다.
또한 상기 제어동작 속성정보 각각은 하나 이상의 어휘 명령어에 대응되는데, "OPR1" 및 "OPR3"은 "켜다, 작동시키다"와 연관되고, "OPR2" 및 "OPR4"는 "크게하다, 높이다, 올리다"와 연관되고, "OPR5"은 "위로 올리다"와 연관된다.
그리고 이러한 연관성에 따라 명령어 DB의 테이블을 작성하면 도 2A 및 도 2B와 같이 될 수 있다.
도 3은 본 발명에 따른 음성명령 해석장치의 바람직한 실시예의 구성도를 보이고 있다. 본 발명에 따른 음성명령 해석장치(101)는 음성인식부(103), 명령어 해석부(104), 제어대상 추출부(1051)와 포커스 관리부(1052)로 구성되는 포커스 해석부(105)를 포함한다. 그 외에 명령어를 해석하거나 또는 명령어으로부터 제어대상의 추출하는 경우에 참조되는 명령어 DB를 관리하기 위한 명령어 관리부(106)를 더 포함할 수 있다.
음성 인식부(103)는 사용자로부터 제공되는 음성명령을 명령어 문장으로 인식하고, 인식된 명령어 문장을 명령어 해석부(104)에 제공하는 기능을 수행한다. 음성 인식부(103)에서, 사용자로부터 제공되는 음성명령을 그에 대응하는 명령어 문장으로 인식하는 방법(음성인식방법)에 대하여는 종래에 여러 기술이 소개되어 있는바, 본 명세서에서는 이에 대한 설명을 생략한다.
명령어 해석부(104)는 음성 인식부(103)로부터 제공되는 사용자의 음성명령을 인식하여 발생시킨 명령어 문장을 문장의 품사별로 해석하여 제어대상, 제어동작 속성정보 및 어휘 명령어 정보를 추출한다. 여기서 소정의 문장을 품사별로 해석하는 방법은 종래에 여러 방법이 공중에게 소개되어 있는바, 이에 대한 설명은 본 명세서에서 생략한다. 그리고 이때에 명령어 해석부(104)는 사용자가 사용할 수 있는 명령어에 관한 정보를, 도 3에 도시된 바와같이, 명령어 DB를 참조하여 알 수 있게 된다.
포커스 해석장치(105)는 제어대상 추출부(1051) 및 포커스 관리부(1052)로 구성된다.
제어대상 추출부(1051)는 명령어 해석부(104)로부터 제공되는명령어를 해석한 결과정보를 수신하여, 이러한 결과정보에 제어대상이 되는 디바이스 또는 제어동작 속성에 관한 정보에 모호성이 존재하는지 여부를 판단하게 된다. 여기서 모호성을 판단하는 방법은, 상기 전송받은 결과정보에 제어대상이 되는 디바이스 또는 제어동작 속성정보가 포함되어 있지 않거나, 또는 제어대상이 되는 디바이스 정보 및 제어동작 속성정보와 어휘 명령어 정보가 서로 대응되지 않는 경우를 말한다. 예를 들어 도 2A 및 도 2B에서 제어대상 디바이스는 "오디오"이고, 어휘 명령어는 "위로 올리다"이고, 내부 명령어는 앞서의 어휘 명령어에 대응되는 "OPR5"이고, 제어동작 속성정보를 제공받지 못한 경우에 도 2A의 테이블에서 일치하는 데이터 레코드는 존재하지 않으며, 이러한 때에 모호성이 존재하게 된다.
그리고 제어대상 추출부(1051)는 사용자로부터 제공되는 음성명령을 기초로 생성된 명령어 문장에 위에서 살펴본 모호성이 존재하는 경우에는 어휘 명령어 정보, 메모리에 저장되어 있는 포커스 정보 및 명령어 DB에 저장되어 있는 명령어 정보에 기초하여 상기 명령어 문장에 모호성이 없도록 완전하게 완성하는 기능을 수행한다. 여기서 포커스 정보란 사용자의 대화의 대상이 되는 디바이스 및 제어동작 속성을 말하는 것으로 예를 들면 "TV" 또는 "전원"과 같이 단일한 제어대상 디바이스 정보나 혹은 제어동작 속성정보가 될 수 있으며, 바람직하게는 "TV_전원"과 같이 종전의 제어대상 디바이스 및 제어속성 정보가 결합된 것이 될 수 있다
사용자로부터 입력받은 음성명령의 명령어 문장에서 모호성을 제거하는 과정은 예를 들어 메모리에 저장되어 있는 포커스 정보가 "TV"이고, 명령어 해석부(104)로부터 제공받은 어휘 명령어 정보가 "크게하다"이고, 제어대상 디바이스 및 제어동작 속성에 관한 정보가 없는 경우, 상기 제어대상 디바이스 및 제어동작 속성에 관한 정보를 추출하는 과정을 말한다. 위 예의 경우에서 제어대상 디바이스 및 제어동작 속성정보를 추출하여 보면, 먼저 도 2B의 테이블에서 어휘 명령어 "크게하다"에 대응되는 내부 명령어 "OPR2, OPR4"를 검색하고, 도 2A의 테이블에서 포커스 정보인 "TV"를 디바이스로 하면서 상기 내부 명령어 "OPR2" 또는 "OPR4"를 내부 명령어로 하는 데이터 레코드의 제어동작 속성정보는 "{볼륨,소리}"이다. 따라서 상기 명령어 문장의 완성된 형태는 "TV" 디바이스의 "볼륨 또는 소리"를 "높여라"가 된다.
한편, 위 예에서 어휘 명령어가 "올리다"인 경우에는 이에 대응되는 내부 명령어는 "OPR2", "OPR4" 및 "OPR5"가 된다. 이때 도 2A의 테이블에서 포커스 정보인 "TV"를 디바이스로 하고 "OPR2", "OPR4", "OPR5" 중 어느 하나를 내부 명령어로 하는 레코드를 검색하면 4번 및 5번 레코드가 해당되고, 제어동작 속성 또한 "{볼륨, 소리}"와 "화면" 두 개가 검색된다. 이러한 경우에는 제어동작 속성을 자동으로 어느 하나로 결정할 수 없으며, 사용자에게 검색된 상기 제어동작 속성정보를 제공하고 사용자로부터 선택을 받음으로써 제어동작 속성정보를 결정하게 된다.
제어대상 추출부(1051)는 위 과정을 통하여 완전한 명령어 문장을 완성하면, 상기 완전한 명령어 문장의 제어대상 디바이스, 제어동작 속성, 명령정보(어휘 명령어 또는 내부 명령어)정보를 포커스 관리부(1052)로 제공 한다.
포커스 관리부(1052)는 포커스 정보를 제어대상 추출부(1051)로부터 [전송받은] 제공된 제어대상 디바이스, 제어동작 속성정보로 갱신하는 역할을 수행한다.그리고 제어대상 디바이스 정보, 내부 명령어 정보 등 디바이스 제어장치(102)에서 제어대상 디바이스를 제어하는데 필요한 정보를 디바이스 제어장치(102)로 제공하는 기능을 수행한다.
한편, 본 발명에 따른 음성명령 해석장치는 상기 명령어 DB의 명령어 정보를 추가, 삭제, 갱신하는 명령어 관리부(106)를 더 포함할 수 있다.
도 4는 본 발명에 따른 음성명령을 해석하는 방법의 바람직한 실시예의 순서도를 보이고 있다. 먼저, 사용자로부터 제공되는 음성명령을 인식(401)하여 명령어 문장으로 전환시킨다. 그 후에 명령어를 해석하여 제어대상 디바이스, 제어동작 속성 및 어휘 명령어 정보를 추출(402)한다. 그 후에 상기 명령어에 제어대상 디바이스 또는 제어동작 속성정보가 포함되지 않아 상기 명령어가 모호한지 여부를 판단(403)하여 명령어가 모호한 경우에는 상기 명령어 문장을 완전한 명령어 문장으로 완성(404)시킨다. 그 후에 제어대상 디바이스와 현재 메모리에 저장되어 있는 포커스 정보를 일치시키고(405), 현재 제어대상 디바이스, 제어동작 속성정보, 명령 정보 등을 외부에 출력한다. 한편, 상기 403 단계에서 명령어에 모호성이 존재하지 않는 경우에는 405 단계로 이동한다.
도 5는 도 4의 404단계를 수행하는 바람직한 실시예를 보이고 있다. 먼저 어휘 명령어에 대응하는 내부 명령어를 명령어 DB에서 검색(501)하여 상기 어휘 명령어에 대응되는 내부 명령어를 구하고, 상기 검색된 내부 명령어에 대응되는 디바이스 및 제어동작 속성 정보를 명령어 DB에서 검색(502)한다. 그 후에 상기 검색된 데이터 중 현재 메모리에 저장되어 있는 포커스의 데이터와 일치하는 것이 있는지를 판단(503)하여 없는 경우에는 상기 검색된 데이터 중 현재 메모리에 저장되어 있는 포커스 데이터와 일부가 일치하는 것이 있는지 여부를 판단(504)하여 그러한 데이터가 존재하는 경우에는 그 데이터의 개수가 한 개인지 판단(505)한다. 그리고 위 데이터가 한 개가 아닌 복수개인 경우에는 상기 검색된 데이터를 사용자에게 제공하고 제어대상 디바이스 또는 제어동작 속성 정보를 입력(506)받는다. 그후에 제어대상 디바이스 또는 제어동작 속성을 확정(507)하여 사용자의 명령어 문장을 완성시킨다.
한편, 503 단계에서 검색된 데이터 중 포커스의 데이터와 일치하는 데이터가 있는 경우에는 507 단계로 이동하고, 상기 504 단계에서 검색된 데이터 중 포커스 데이터와 일부가 일치하는 데이터가 없는 경우에는 506 단계로 이동하고, 상기 505 단계에서 조건을 만조하는 데이터가 한 개인 경우에는 507 단계로 이동한다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
또한 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면 사용자가 매번 제어대상 기기의 이름 등을 지정하지 않아도 되는 것은 물론 명령어도 단축하여 사용할 수 있으므로 편리한 효과가 있다. 또한 네트워크상에 새로운 디바이스가 추가되어도 명령어 데이터만을 추가하면 위 디바이스를 제어할 수 있으며, 다른 디바이스와의 음성 명령어의 충돌을 방지하는 효과가 있다.

Claims (8)

  1. 소정의 전자 디바이스 또는 장치를 제어하기 위한 사용자의 음성명령을 해석하는 장치에 있어서,
    사용자로부터 제공되는 음성 명령을 이에 따른 소정의 제어 대상 디바이스 또는 장치에 대한 명령어 문장으로 인식하는 음성인식부,
    상기 음성 인식부로부터 제공되는 명령어 문장으로부터 제어대상 디바이스정보 및 어휘 명령어를 추출하는 명령어 해석부,
    상기 제어대상 디바이스 정보 및 어휘 명령어 정보에 기초하여 상기 음성 명령의 포커스가 되는 디바이스 정보를 추출하여 저장하고, 상기 제어대상 디바이스 정보 및 어휘 명령 정보를 외부로 출력하는 포커스 해석부를 포함하는 것을 특징으로하는 음성명령 해석장치.
  2. 제1항에 있어서, 상기 포커스 해석부는
    상기 명령어 해석부로부터 제어대상 디바이스 정보 또는 제어동작 속성정보를 제공받지 못한 경우에는 상기 어휘 명령어 정보 및 미리 저장되어 있던 포커스 정보에 기초하여 제어대상 디바이스 또는 제어동작 속성정보를 추출하는 제어대상 추출부; 및
    상기 포커스 정보를 추출된 제어대상 디바이스와 제어동작 속성정보로 갱신시키는 포커스 관리부를 포함하는 것을 특징으로 하는 음성명령 해석장치.
  3. 소정의 전자 디바이스 또는 장치를 제어하기 위한 사용자의 음성명령을 해석하는 방법에 있어서,
    (a) 사용자로부터 제공되는 음성명령을 명령어 문장으로 인식하는 단계;
    (b) 상기 명령어 문장에서 제어대상 디바이스 정보, 제어동작 속성정보 및 어휘 명령어를 추출하는 단계;
    (c) 상기 명령어 문장에서 제어대상 디바이스 정보 또는 제어동작 속성정보가 추출되지 않은 경우에는 상기 어휘 명령어 정보 및 사전 설정된 포커스 정보를 이용하여 제어대상 디바이스 정보 또는 제어동작 속성정보를 생성시키는 단계;
    (d) 상기 포커스 정보를 상기 제어대상 디바이스 정보 및 제어동작 속성정보와 일치시키는 단계; 및
    (e) 상기 포커스 정보에 대응되는 제어대상정보 및 상기 어휘 명령어에 대응되는 제어내용정보를 외부에 출력하는 단계를 포함하는 것을 특징으로 하는 음성명령 해석방법.
  4. 제3항에 있어서, 상기 (c) 단계는
    (c1) 디바이스 정보와 그에 대응되는 명령정보를 저장한 명령어 DB를 구비하는 단계;
    (c2) 상기 어휘 명령어에 대응하는 내부 명령어를 상기 명령어 DB에서 검색하는 단계;
    (c3) 상기 검색된 내부 명령어에 대응되는 디바이스 정보 및 제어동작 속성정보를 상기 명령어 DB에서 검색하는 단계;
    (c4) 상기 검색된 디바이스 정보 및 제어동작 속성정보로 구성되는 데이터 중 상기 사전 설정된 포커스 정보와 일치하는 것이 있는지 판단하는 단계; 및
    (c5) 상기 포커스의 디바이스 정보와 일치하는 디바이스 및 제어동작 속성을 제어대상 디바이스 및 제어동작 속성 정보로 확정하는 단계를 포함하는 것을 특징으로 하는 음성명령 해석방법.
  5. 제4항에 있어서, 상기 (c4) 단계는
    상기 포커스 정보가 디바이스 정보, 제어동작 속성정보 중 어느 하나의 정보에만 해당하는 경우에, 상기 데이터 중에서 상기 포커스 정보와 동일한 디바이스 정보 또는 제어동작 속성정보를 갖는 데이터가 한 개만 존재하는지 판단하여 한 개만 존재하는 경우에는 상기 데이터에 따라서 제어대상 디바이스 및 제어동작 속성정보를 확정하는 것을 특징으로 하는 음성명령 해석방법.
  6. 제4항에 있어서, 상기 (c4) 단계는
    상기 포커스 정보가 디바이스 정보, 제어동작 속성정보 중 어느 하나의 정보에만 해당하는 경우에, 상기 데이터 중에서 상기 포커스 정보와 동일한 디바이스 정보 또는 제어동작 속성정보를 갖는 데이터가 한 개만 존재하는지 판단한 결과 조건을 만족하는 데이터가 복수 개 존재하는 경우에는 상기 데이터를 사용자에게 제공하고 제어대상 디바이스 또는 제어동작 속성정보를 입력받는 것을 특징으로 하는 음성명령 해석방법.
  7. 제3항 내지 제6항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  8. 어휘 명령어와 디바이스 정보를 연관시키는 기능을 수행하며 소정의 디바이스를 제어하는 내용을 의미하는 내부 명령어 정보와 적어도 하나이상의 상기 내부 명령어에 대응되는 어휘 명령어 정보를 포함하는 제1 데이터베이스 테이블; 및
    상기 내부 명령어 정보와 소정의 제어대상이 되는 디바이스를 의미하는 제어대상 디바이스 정보 및 상기 디바이스를 제어하는 속성정보를 제어동작 속성정보를 포함하는 제2 데이터베이스 테이블 구조를 포함하는 데이터 구조를 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2002-0005201A 2002-01-29 2002-01-29 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법 KR100438838B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2002-0005201A KR100438838B1 (ko) 2002-01-29 2002-01-29 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
JP2003020598A JP2003263188A (ja) 2002-01-29 2003-01-29 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体
EP03250536A EP1333426B1 (en) 2002-01-29 2003-01-29 Voice command interpreter with dialog focus tracking function and voice command interpreting method
US10/352,855 US20030144845A1 (en) 2002-01-29 2003-01-29 Voice command interpreter with dialog focus tracking function and voice command interpreting method
DE60318505T DE60318505T2 (de) 2002-01-29 2003-01-29 Sprachbefehlinterpreter mit Funktion zur Verfolgung des Dialogfokuses und Verfahren zur Interpretation von Sprachbefehlen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0005201A KR100438838B1 (ko) 2002-01-29 2002-01-29 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법

Publications (2)

Publication Number Publication Date
KR20030065051A true KR20030065051A (ko) 2003-08-06
KR100438838B1 KR100438838B1 (ko) 2004-07-05

Family

ID=19718964

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0005201A KR100438838B1 (ko) 2002-01-29 2002-01-29 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법

Country Status (5)

Country Link
US (1) US20030144845A1 (ko)
EP (1) EP1333426B1 (ko)
JP (1) JP2003263188A (ko)
KR (1) KR100438838B1 (ko)
DE (1) DE60318505T2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040000920A (ko) * 2002-06-26 2004-01-07 텔원정보통신 주식회사 홈오토메이션 시스템의 음성 제어장치 및 방법
KR100732611B1 (ko) * 2006-04-25 2007-06-28 학교법인 포항공과대학교 음성대화 오류검증을 통한 확인대화 방법 및 장치
KR101418158B1 (ko) * 2012-09-14 2014-07-09 주식회사 비스텔 반도체 생산을 위한 부대 장비 제어 시스템 및 그 방법

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253205A1 (en) * 2005-05-09 2006-11-09 Michael Gardiner Method and apparatus for tabular process control
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
US20070286358A1 (en) * 2006-04-29 2007-12-13 Msystems Ltd. Digital audio recorder
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
JP2011237741A (ja) * 2010-05-13 2011-11-24 Nec Casio Mobile Communications Ltd 音声認識装置及びプログラム
KR101776673B1 (ko) * 2011-01-11 2017-09-11 삼성전자주식회사 자연어 처리용 문법 자동 생성 장치 및 방법
US20120260290A1 (en) * 2011-04-07 2012-10-11 Sony Corporation User interface for audio video display device such as tv
EP2941769B1 (en) * 2013-01-04 2019-05-08 Kopin Corporation Bifurcated speech recognition
US10255930B2 (en) 2013-06-28 2019-04-09 Harman International Industries, Incorporated Wireless control of linked devices
US9431014B2 (en) * 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
DE102013019208A1 (de) * 2013-11-15 2015-05-21 Audi Ag Kraftfahrzeug-Sprachbedienung
CN105023575B (zh) * 2014-04-30 2019-09-17 中兴通讯股份有限公司 语音识别方法、装置和系统
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US20160372112A1 (en) * 2015-06-18 2016-12-22 Amgine Technologies (Us), Inc. Managing Interactions between Users and Applications
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10095473B2 (en) 2015-11-03 2018-10-09 Honeywell International Inc. Intent managing system
US10783883B2 (en) 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10887351B2 (en) * 2018-05-02 2021-01-05 NortonLifeLock Inc. Security for IoT home voice assistants
WO2020049826A1 (ja) * 2018-09-06 2020-03-12 株式会社Nttドコモ 情報処理装置
CN111508483B (zh) * 2019-01-31 2023-04-18 北京小米智能科技有限公司 设备控制方法及装置
CN110415696A (zh) * 2019-07-26 2019-11-05 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870289A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車載負荷の音声制御装置
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5577164A (en) * 1994-01-28 1996-11-19 Canon Kabushiki Kaisha Incorrect voice command recognition prevention and recovery processing method and apparatus
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US6496099B2 (en) * 1996-06-24 2002-12-17 Computer Motion, Inc. General purpose distributed operating room control system
US5777571A (en) * 1996-10-02 1998-07-07 Holtek Microelectronics, Inc. Remote control device for voice recognition and user identification restrictions
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
EP1063636A3 (en) * 1999-05-21 2001-11-14 Winbond Electronics Corporation Method and apparatus for standard voice user interface and voice controlled devices
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
JP3827058B2 (ja) * 2000-03-03 2006-09-27 アルパイン株式会社 音声対話装置
JP2001296881A (ja) * 2000-04-14 2001-10-26 Sony Corp 情報処理装置および方法、並びに記録媒体
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US6747566B2 (en) * 2001-03-12 2004-06-08 Shaw-Yuan Hou Voice-activated remote control unit for multiple electrical apparatuses
US6930730B2 (en) * 2001-05-03 2005-08-16 Mitsubishi Digital Electronics America, Inc. Control system and user interface for network of input devices
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040000920A (ko) * 2002-06-26 2004-01-07 텔원정보통신 주식회사 홈오토메이션 시스템의 음성 제어장치 및 방법
KR100732611B1 (ko) * 2006-04-25 2007-06-28 학교법인 포항공과대학교 음성대화 오류검증을 통한 확인대화 방법 및 장치
KR101418158B1 (ko) * 2012-09-14 2014-07-09 주식회사 비스텔 반도체 생산을 위한 부대 장비 제어 시스템 및 그 방법

Also Published As

Publication number Publication date
DE60318505T2 (de) 2008-12-24
US20030144845A1 (en) 2003-07-31
DE60318505D1 (de) 2008-02-21
KR100438838B1 (ko) 2004-07-05
EP1333426A1 (en) 2003-08-06
EP1333426B1 (en) 2008-01-09
JP2003263188A (ja) 2003-09-19

Similar Documents

Publication Publication Date Title
KR100438838B1 (ko) 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
US6397181B1 (en) Method and apparatus for voice annotation and retrieval of multimedia data
US7346509B2 (en) Software for statistical analysis of speech
CN102549652B (zh) 信息检索装置
JP4075067B2 (ja) 情報処理装置および情報処理方法、並びに、プログラム
US20020198714A1 (en) Statistical spoken dialog system
US20040138894A1 (en) Speech transcription tool for efficient speech transcription
US20030191645A1 (en) Statistical pronunciation model for text to speech
KR20010022524A (ko) 정보처리장치 및 방법과 정보제공매체
JP2016536659A (ja) 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法
CN108364655B (zh) 语音处理方法、介质、装置和计算设备
EP1403852B1 (en) Voice activated music playback system
Koumpis et al. Content-based access to spoken audio
US11922944B2 (en) Phrase alternatives representation for automatic speech recognition and methods of use
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
JP2002268667A (ja) プレゼンテーションシステムおよびその制御方法
CN112017647B (zh) 一种结合语义的语音识别方法、装置和系统
US11967319B2 (en) Method and electronic device for processing a spoken utterance
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
KR200208810Y1 (ko) 음성 인식 기술을 이용한 지능형 정보 검색 시스템
CN110767227A (zh) 用于单灯控制的语音识别系统及方法
JP2001134417A (ja) 音声制御用情報管理装置及び音声制御用情報管理方法及び音声制御用情報管理プログラムを記録した記録媒体
CN116340490A (zh) 基于人机对话的画像构建方法、电子设备及存储介质
JP2011502288A (ja) 1次音声光学データコンテンツおよび関連2次データコンテンツの操作のための方法および装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160530

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee