KR20070090642A - 음성 대화 서비스 장치 및 방법 - Google Patents
음성 대화 서비스 장치 및 방법 Download PDFInfo
- Publication number
- KR20070090642A KR20070090642A KR1020060020600A KR20060020600A KR20070090642A KR 20070090642 A KR20070090642 A KR 20070090642A KR 1020060020600 A KR1020060020600 A KR 1020060020600A KR 20060020600 A KR20060020600 A KR 20060020600A KR 20070090642 A KR20070090642 A KR 20070090642A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- user
- intention
- phrase
- speech
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60P—VEHICLES ADAPTED FOR LOAD TRANSPORTATION OR TO TRANSPORT, TO CARRY, OR TO COMPRISE SPECIAL LOADS OR OBJECTS
- B60P7/00—Securing or covering of load on vehicles
- B60P7/06—Securing of load
- B60P7/08—Securing to the vehicle floor or sides
- B60P7/0823—Straps; Tighteners
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60Y—INDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
- B60Y2200/00—Type of vehicle
- B60Y2200/10—Road Vehicles
- B60Y2200/14—Trucks; Load vehicles, Busses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Machine Translation (AREA)
Abstract
본 발명에 따른 음성 대화 서비스 장치는, 소정의 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하며, 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 언어 분석 모듈; 및 상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 대화 관리 모듈을 포함하는 것을 특징으로 한다.
음성 인식, Semantic, 문맥(Context), 대화, 언어 분석
Description
도 1은 본 발명의 일실시예에 따른 음성 대화 서비스 시스템의 음성 대화 서비스 방법의 전체 흐름을 도시한 블록도.
도 2는 본 발명의 일실시예에 따른 음성 대화 서비스 장치의 구성을 도시한 블록도.
도 3은 본 발명의 일실시예에 따른 시맨틱 프레임의 일례를 도시한 도면.
도 4는 본 발명의 일실시예에 따라 도메인 액션이 채널 변경으로 설정된 레퍼런스 테이블의 일례를 도시한 도면.
도 5는 본 발명의 일실시예에 따라 도메인 액션이 예약 녹화로 설정된 레퍼런스 테이블의 일례를 도시한 도면.
도 6은 본 발명의 일실시예에 따른 음성 대화 서비스 방법의 흐름을 도시한 순서도.
<도면의 주요 부분에 대한 부호의 설명>
210 : 음성 인식 모듈 220 : 언어 분석 모듈
221 : 품사 태깅부 222 : 구문 해석부
223 : 격틀 해석부 230 : 대화 관리 모듈
231 : 문맥 정보부 232 : 사용자 의도 분석부
233 : 응답 제어부 234 : 레퍼런스 데이터베이스
235 : 포커스 스택 236 : 문맥 모델 데이터베이스
본 발명은 음성 대화 서비스 장치 및 방법에 관한 것으로서, 더욱 상세하게는 사용자가 발화하는 자연어를 포함하는 대화체 문장을 시맨틱 슬롯(Semantic Slot)을 통해 해석하고, 동적 문맥(Context) 관리를 통해 상기 문장 중 생략된 정보를 보완하여 상기 사용자의 의도를 분석하고 실행함으로써, 사용자가 시스템이 인식할 수 있는 특정 유형으로 발화하지 않고 일상 대화와 같은 자연어로 발화하더라도 항상 정확하게 상기 사용자의 발화 내용을 분석하여 실행할 수 있는 음성 대화 서비스 장치 및 방법에 관한 것이다.
최근 홈 네트워크에 관한 기술 발전에 가속도가 붙고 있다. 홈 네트워크를 통해 TV, VTR, 전화기, 세탁기, 냉장고 등의 가전 기기들이 서로 연결되고 있으며, 사용자는 상기 가전 기기들의 네트워크 연결을 통해 다양한 혜택을 누릴 수 있게 되었다.
종래에는 홈 네트워크로 가전 기기들을 제어하기 위해 사용자가 각 가전 기기에 대응하는 명령 체계나 상기 가전 기기들 간의 내부적인 상호 동작을 알고 있어야 한다. 예를 들어, 사용자는 리모컨이나 휴대 단말기 등을 통해 가전 기기를 직접 제어할 수 있다.
그러나, 유비쿼터스 시대가 도래함에 따라 상기와 같이 사용자가 직접 가전 기기를 제어하는 방법은 점차 사용자가 음성으로 발화한 대화 내용을 가전 기기가 인식하여 실행함으로써 가전 기기들을 제어하는 방법으로 대체되고 있다.
상기 대화형 가전 기기 제어 방법을 위해서는 사용자의 음성을 입력 받아 텍스트로 전환시키는 음성 인식 기술과, 음성 인식을 통해 해석한 대화형 명령을 홈 네트워크로 연결된 가전기기에 적용하는 기술이 필요하다.
그러나 이러한 종래의 음성 인식을 통한 가전 기기 제어에 따르면, 사용자의 발화 내용에 제약이 뒤따른다. 즉, 사용자는 상기 가전 기기 제어 시스템이 인식할 수 있는 몇 가지 명령어만을 발화하여 가전 기기를 제어할 수 있을 뿐이다. 따라서, 사용자가 상기 시스템 인식 가능한 명령어를 숙지하고 있어야만 가전 기기를 제어할 수 있다는 불편함이 있다.
이에, 공지된 자연어 분석 기술을 이용하여 사용자가 보다 자유롭게 명령어를 발화하고, 상기 발화된 자연어 명령어를 시스템이 인식하여 가전 기기를 제어할 수 있는 대화형 음성 인식 서비스가 개발되고 있다. 이러한 대화형 음성 인식 서비스에 따르면, 사용자는 특정 명령어를 미리 숙지하고 있을 필요가 없고, 통상적으로 인지될 수 있는 단어를 발화함으로써, 쉽게 가전 기기들을 제어할 수 있다.
이러한 종래의 대화형 음성 인식 서비스 모델로는 사용자의 발화 내용으로부터 키워드를 추출하여 키워드 리스트를 작성한 후, 상기 키워드에 대응하는 템플릿(Template)을 데이터베이스로부터 추출한 후 서로 비교하여 응답을 결정하는 서비 스 모델이 있다. 상기 서비스 모델로는 미국특허 US 660490 및 미국출원특허 US 2001-921826가 있다.
또한, 종래의 대화형 음성 인식 서비스 모델로는 예상되는 대화 형태를 사전에 기록하여 사용자의 발화 내용에 따라 소정의 시나리오에 따라 카테고리 별로 응답을 제공함으로써 사용자의 의도를 파악하는 서비스 모델이 있다. 상기 서비스 모델로는 미국특허 US 624691 및 미국특허 US 6786651이 있다.
그러나, 이러한 종래의 대화형 음성 인식 서비스에서는 단지 미리 입력되어 있는 정형화된 단어들을 참조하여 사용자가 발화한 자연어 명령어를 인식함으로써, 문어체나 한정된 문장 집합을 대상으로 하는 자연어 분석에 한계가 있다. 즉, 사용자가 발화하는 자연어 문장은 소정의 단어나 어구가 생략되거나 시제가 일치하지 않고 순서가 뒤바뀐 불완전한 문장인 경우가 대부분이다. 따라서 의미 자체가 모호할 가능성이 크지만 상기 종래 기술에 따른 서비스 방법으로는 이러한 불완전한 문장으로 구성되는 자연어를 정확하게 인식하기란 불가능하다.
또한, 특정 시나리오를 통해 사용자의 의도를 분석하는 경우, 상황에 따라 사용자의 의도가 수시로 변하는 예측 불가능한 일반적인 대화 환경에 대응할 수 없다는 문제점이 있다.
상기와 같은 문제점의 지적에 따라, 사용자가 발화하는 자연어 명령의 불완전한 문장 내용을 항상 정확하게 분석하여 응답함으로써, 보다 지능적이고 자연스러운 대화를 유도할 수 있는 대화형 음성 인식 서비스 모델의 개발이 요구되고 있다.
본 발명은 상기와 같은 종래 기술을 개선하기 위해 안출된 것으로서, 시맨틱 슬롯(Semantic Slot) 인식을 이용하여 자연어를 포함하는 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 발화 내용을 인식할 수 있는 음성 대화 서비스 장치 및 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 동적 문맥(Context) 관리를 통해 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 의도를 분석할 수 있는 음성 대화 서비스 장치 및 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 시맨틱 슬롯(Semantic Slot) 인식 및 문맥(Context) 관리를 통해 사용자 발화 내용을 정확하게 인식함으로써, 사용자가 시스템이 인식 가능한 발화 유형을 일일이 기억할 필요 없이 즉석에서 생각나는 대로 소정의 자연어를 발화하여도 항상 정확하게 상기 사용자의 의도를 파악하고 그에 따른 서비스를 실행할 수 있는 음성 대화 서비스 장치 및 방법을 제공하는 것을 목적으로 한다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명에 따른 음성 대화 서비스 장치는, 소정의 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하며, 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 언어 분석 모듈; 및 상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 대화 관리 모듈을 포함하는 것을 특징으로 한다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
우선, 본 명세서에서는 도 1을 참조하여 본 발명에 따른 음성 대화 서비스 시스템의 전체 구성 및 동작의 흐름을 간략하게 설명한 후, 도 2 내지 도 6을 참조하여 본 발명의 음성 대화 서비스 장치 및 방법을 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 음성 대화 서비스 시스템의 음성 대화 서비스 방법의 전체 흐름을 도시한 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 대화 서비스 시스템은 사용자가 발화한 음성을 인식한다. 상기 사용자의 발화 내용은 자연어로 구성될 수 있다. 즉, 상기 음성 대화 서비스 시스템에 기저장 되어 있는 특정 유형의 언어뿐만 아니라, 상기 사용자가 즉석에서 생각나는 대로 말하는 내용으로 구성될 수 있다.
상기 자연어로 구성된 발화 내용은 모호성(Ambiguity)을 내포할 수 있다. 자연어는 컴퓨터의 프로그래밍 언어와 같은 인공어(artificial language)에 비해 문법의 제약이 심하지 않고, 사용되는 영역이 제한되지 않는다. 따라서, 자연어는 문장을 구성하는 어절, 구문들이 문맥에 따라 한가지 이상의 품사, 구문 구조 또는 의미로 해석되는 모호성(ambiguity)을 갖는다.
상기 자연어의 모호성이란 어절, 문장 또는 구문 구조 등 자연어를 구성하는 요소에 대한 하나 이상의 해석이 가능한 현상을 의미한다. 자연어에서 발생하는 모호성은 어휘적 모호성(lexical ambiguity), 구문적 모호성(syntactic ambiguity) 그리고 의미적 모호성(semantic ambiguity)으로 구분될 수 있다.
상기 어휘적 모호성은 문장에 사용된 단어 또는 어절이 하나 이상의 품사 또는 형태소 분석 결과를 낳을 수 있음을 의미한다. 상기 구문적 모호성은 하나의 문법 구조가 두 가지 이상의 해석이 가능한 현상을 의미하며, 상기 의미 모호성은 단어 또는 어절의 의미가 두 가지 이상으로 해석 가능한 현상을 의미한다.
상기 음성 대화 서비스 시스템은 상기 사용자가 발화한 음성을 인식하여 텍스트로 변환한다(단계(110)). 이후, 상기 텍스트를 통해 상기 사용자가 발화한 단어 또는 문장을 분석한다(단계(120)). 상기 단어 또는 문장의 분석이 완료되면, 상기 음성 대화 서비스 시스템은 상기 발화 내용에 따른 상기 사용자의 의도를 분석하는 대화 관리를 수행한다(단계(130)). 상기 사용자의 의도가 분석되면, 상기 음성 대화 서비스 시스템은 상기 분석된 의도에 따른 서비스 실행에 대한 플랜(Plan) 관리를 수행하고(단계(140)), 그에 따라 각 서비스를 실행할 수 있다(단계(150)). 또한, 단계(130)에서, 상기 사용자의 의도를 정확하게 분석하지 못한 것으로 판단되는 경우, 상기 의도에 대한 시스템 응답을 상기 사용자에게 질의할 수도 있다(단계(160)).
도 2는 본 발명의 일실시예에 따른 음성 대화 서비스 장치의 구성을 도시한 블록도이다.
본 발명의 일실시예에 따른 음성 대화 서비스 장치는, 음성 인식 모듈(210), 언어 분석 모듈(220), 대화 관리 모듈(230), 및 서비스 실행 제어 모듈(240)을 포함하여 구성된다.
음성 인식 모듈(210)은 사용자가 발화한 음성을 인식하여 텍스트로 변환한다. 음성 인식 모듈(210)은 사용자의 음성을 인식하여 소정의 텍스트로 변환할 수 있는 일반적인 음성 인식 장치로 구현될 수 있다. 상기 텍스트는 상기 사용자가 발화한 하나 이상의 자연어를 포함할 수 있다.
언어 분석 모듈(220)은 품사 태깅부(221), 구문 해석부(222), 및 격틀 해석부(223)를 포함하여 구성될 수 있다. 언어 분석 모듈(220)은 상기 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하며, 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 동작을 수행할 수 있다.
품사 태깅부(221)는 상기 문장의 형태소(Morpheme)를 분석하여 상기 문장이 포함하는 각 단어의 품사를 태깅한다. 품사 태깅은 문장 내에서 단어가 사용된 문맥에 따라 각 단어에 올바른 품사 정보를 할당하는 과정을 의미한다. 품사 태깅은 일반적으로 어휘 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정으로 사용될 수 있다.
품사 태깅 방법으로는 자연어 처리 분야에서 일반적으로 사용되고 있는 규칙 기반 품사 태깅 방법 및 통계 기반 품사 태깅 방법이 있다. 통계 기반 접근 방법은 실세계 자연어 용례들과 부속 정보를 포함하는 대량의 원시(raw) 또는 태깅된 (tagged) 코퍼스(corpus)를 분석하고, 자연어에 대한 통계 정보를 추출하여 얻은 확률(probability) 또는 불확실성(uncertainty)을 이용하여 어휘적 모호성 문제를 확률적으로 해결하는 방법을 의미한다.
한편, 규칙 기반 접근 방법은 품사 태깅에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 어휘적 모호성을 결정적으로 해결하는 방법을 의미한다. 품사 태깅부(221)는 상기 규칙 기반 접근 방법 및 통계 기반 접근 방법과 당업계에서 사용될 수 있는 품사 태깅 방법을 모두 포함하여 상기 품사를 태깅할 수 있다.
구문 해석부(222)는 상기 각 단어를 의미별로 분류하여, 상기 문장을 하나 이상의 어구로 파싱(Parsing)한다. 구문 해석부(222)는 상기 품사 태깅된 각 단어의 의미를 분류하여 각 단어에 대응하는 기본 의미를 태깅할 수 있다. 구문 해석부(222)는 단어의 일반적 의미가 기록된 소정의 워드 센스(Word Sense) 데이터베이스(도시되지 아니함)를 참조하여 상기 단어의 의미를 분류할 수 있다.
구문 해석부(222)는 상기 의미 분류된 단어를 서로 조합하여 상기 문장을 하나 이상의 어구로 파싱할 수 있다. 즉, 상기 각 단어에 태깅된 품사 또는 의미를 이용하여 상기 각 단어를 서로 조합할 수 있다. 예를 들어, 상기 문장이 "텔레비전 채널을 11번으로 틀어줘" 인 경우, 상기 문장이 포함하는 단어는 "텔레비전", "채널", "을", "11", "번", "으로", "틀어줘" 가 될 수 있다. 이 때, 구문 해석부(222)는 상기 각 단어에 태깅된 품사 또는 의미분류를 통해 상기 각 단어를 서로 동일 역할을 하는 단어끼리 조합하여 "텔레비전", "채널을", "11번으로", "틀어줘" 라는 어구로 파싱할 수 있다.
격틀 해석부(223)는 상기 각 어구를 테마(Theme), 파라미터(Parameter), 및 액션(Action) 별로 각각 분류하여, 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성한다. 격틀 해석부(223)는 구문 해석부(222)에 의해 상기 어구가 파싱되면, 상기 각 어구에 해당하는 시맨틱 슬롯을 설정하여 대입함으로써 상기 문장에 대응하는 시맨틱 프레임을 생성할 수 있다. 상기 시맨틱 슬롯은 테마 슬롯, 파라미터 슬롯, 및 액션 슬롯으로 설정될 수 있다. 이는 도 3을 참조하여 그 일례를 상세히 설명한다.
도 3은 본 발명의 일실시예에 따른 시맨틱 프레임의 일례를 도시한 도면이다.
도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 시맨틱 프레임은 테마 슬롯, 파라미터 슬롯, 및 액션 슬롯을 포함하여 구성될 수 있다. 또한, 각 슬롯에 대응하는 센스 코드(Sense Code), 발화값(Uttered Value), 해석된 값(Resolved Value)이 각각 설정될 수 있다.
사용자가 발화한 문장이 예를 들어, "텔레비전 채널 18번 변경해" 인 경우, 상기 문장은 구문 해석부(222)에 의해 "텔레비전", "채널", "18번", "변경해" 라는 어구로 각각 파싱될 수 있다. 격틀 해석부(223)는 상기 각 어구가 적용되는 슬롯 타입을 결정한다. 즉, "텔레비전" 및 "18번"은 파라미터 슬롯에 적용될 수 있고, "채널"은 테마 슬롯에 적용될 수 있으며, "변경해"는 액션 슬롯에 적용될 수 있다.
상기와 같이 각 어구가 각각의 시맨틱 슬롯에 적용되면, 격틀 해석부(223)는 상기 각 어구를 재해석할 수 있다. 즉, 파라미터 슬롯에 적용된 "텔레비전" 이라는 어구는 "TV" 로 재해석될 수 있고, 파라미터 슬롯에 적용된 "18번" 이라는 어구는 "18" 로 재해석될 수 있다. 이와 같이, 격틀 해석부(223)는 각 어구를 시스템이 인식할 수 있는 일종의 도메인 의존적인 언어로 재해석하여 시맨틱 프레임을 생성할 수 있다.
또한, 격틀 해석부(223)는 하나의 문장에 대응하여 복수 개의 시맨틱 프레임을 생성할 수 있다. 즉, 각 어구를 적용하는 시맨틱 슬롯을 서로 달리함으로써, 복수 개의 시맨틱 프레임을 각각 생성할 수도 있다.
상기와 같은 시맨틱 프레임의 생성을 위하여, 격틀 해석부(223)는 하나 이상의 제어 대상 기기(예를 들어, TV, 냉장고, 로봇, 에어컨, 비디오 등) 각각에 대하여 센스 코드가 다양한 방법으로 미리 설정되어 있는 하나 이상의 시맨틱 프레임을 유지하고 있을 수 있다.
다시 도 2에서, 대화 관리 모듈(230)은 문맥 정보부(231), 사용자 의도 분석부(232), 응답 제어부(233), 레퍼런스 데이터베이스(234), 포커스 스택(235), 및 문맥 모델 데이터베이스(236)를 포함하여 구성될 수 있다.
대화 관리 모듈(230)은 상기 각 시맨틱 폼에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 동작을 수행할 수 있다.
문맥 정보부(231)는 레퍼런스(Reference) 데이터베이스(234)를 참조하여 상 기 시맨틱 폼의 각 어구를 유효한 어구 또는 디폴트 값으로 변환한다. 이를 위하여, 레퍼런스 데이터베이스(234)는 상기 테마(Theme), 파라미터(Parameter), 및 액션(Action) 중 하나가 기준 도메인(Domain)으로 설정되고, 소정의 어구에 대하여 설정된 기준 도메인 이외의 도메인에 대응하는 하나 이상의 유효 어구 또는 디폴트 값이 기록된 레퍼런스(Reference) 테이블을 유지할 수 있다. 이는 도 4 및 도 5를 참조하여 그 일례를 상세히 설명한다.
도 4는 본 발명의 일실시예에 따라 도메인 액션이 채널 변경으로 설정된 레퍼런스 테이블의 일례를 도시한 도면이다.
도 4에는 사용자가 발화 내용이 채널 설정에 관한 경우에 따른 레퍼런스 테이블이 도시되어 있다. 즉, 시맨틱 프레임의 테마 슬롯의 어구가 채널에 관한 것이고, 액션 슬롯의 어구가 "틀어줘" "변경해" 등의 어구로 설정된 경우 상기 레퍼런스 테이블이 로딩될 수 있다. 이러한 경우, 상기 레퍼런스 테이블에서의 도메인 액션(Domain Action)은 "setChannel"로 설정될 수 있다.
사용자의 발화 내용에 따른 문장이 예를 들어 "MBC 틀어줘" 인 경우, 상기와 같이 도메인 액션이 "setChannel"인 레퍼런스 테이블이 로딩될 수 있다. 상기 레퍼런스 테이블에서, 상기 문장 중 "MBC"는 MBC 그대로 인식될 수 있으며, "11"이라는 채널 정보로 인식될 수도 있다.
또한, 상기 문장은 목표 대상을 포함하고 있지 않다. 즉, MBC로 채널을 변경해야 될 대상, 즉, 복수 개의 TV 중 어떠한 TV의 채널을 변경할 것인지에 대한 정보가 누락되어 있다. 이러한 경우, 도 4의 레퍼런스 테이블에 도시된 바와 같 이, 문맥 정보부(231)는 상기 TV 정보를 디폴트 값(Default Value)인 "TV#1"으로 설정할 수 있다.
도 5는 본 발명의 일실시예에 따라 도메인 액션이 예약 녹화로 설정된 레퍼런스 테이블의 일례를 도시한 도면이다.
사용자의 발화 내용에 따른 문장이 예를 들어 "대장금 녹화"인 경우, 문맥 정보부(231)는 도메인 액션이 "setRecordBooking" 으로 설정된 레퍼런스 테이블을 레퍼런스 데이터베이스(234)로부터 로딩할 수 있다. 도 5의 레퍼런스 테이블에서, 타겟(target) 정보는 도 4의 경우에서와 같이 디폴트 값으로 설정될 수도 있고, 사용자에게 질의하여 설정될 수도 있다.
채널(absolute-channel) 정보는 소정의 서버를 통해 수신할 수 있다. 즉, 상기 문장에는 채널 정보가 명시되어 있지 않다. 따라서, 문맥 정보부(231)는 TV 프로그램 정보를 제공하는 소정의 서버에 접속하여 상기 서버로부터 "대장금"에 대응하는 채널 정보가 "11"임을 수신하여 상기 레퍼런스 테이블에 설정할 수 있다.
녹화 시작 시간(start-time) 정보 및 녹화 종료 시간(end-time) 정보 또한 상기 서버를 통해 수신할 수 있다. 문맥 정보부(231)는 상기 서버로부터 "대장금"의 방영 시간이 "월요일 10:00부터 11:00"임을 수신하여 상기 레퍼런스 테이블에 설정할 수 있다.
상기 서버는 외부에 위치하는 서버일 수도 있고, 본 발명의 음성 대화 서비스 장치가 포함하는 소정의 메모리 수단으로 구현될 수도 있다. 예를 들어, 데이터 방송의 경우, 상기 음성 대화 서비스 장치는 각 방송국으로부터 수시로 다양한 프로그램 정보를 수신하여 상기 메모리 수단에 기록하고 유지할 수 있다.
도 4 및 도 5를 통해 설명한 바와 같이, 문맥 정보부(231)는 상기 문장의 각 어구를 레퍼런스 테이블에 적용하여 상기 문장을 해석함으로써, 상기 문장의 각 어구를 해석하기 용이한 유효 어구 또는 디폴트 값으로 변환할 수 있다.
또한, 문맥 정보부(231)는 상기 사용자의 이전 발화 내용을 참조하여 상기 문장에서 생략된 것으로 판단되는 어구를 유추하고 상기 문장을 복원할 수 있다. 상기 사용자의 이전 발화 내용은 포커스 스택(Focus Stack)(235)에 기록되어 유지될 수 있다. 포커스 스택(235)에는 상기 레퍼런스 테이블의 경우와 같이, 도메인 액션 또는 인자(Argument)의 유형에 따라 상기 사용자의 이전 발화 내용이 기록될 수 있다. 또한, 문맥 정보부(231)는 포커스 스택(235)에 가장 최근에 기록된 값으로부터 상기 문장의 생략된 인자 값을 유추할 수 있다.
상술한 바와 같이, 문맥 정보부(231)는 레퍼런스 데이터베이스(234) 및 포커스 스택(235)을 참조하여 상기 문장을 복원할 수 있다. 이 때, 상기 문장 복원 후에도, 상기 문장에 의미가 모호한 어구가 포함되어 있거나 생략된 값이 있는 것으로 판단되는 경우, 응답 제어부(233)는 상기 의미가 모호한 어구 또는 생략된 값에 대한 질의를 사용자에게 할 수 있다. 상기 질의는 음성으로 구현될 수 있다.
다시 도 2에서, 사용자 의도 분석부(232)는 상기 복원된 문장에 따른 상기 사용자의 의도를 분석하여 하나 이상의 액션 리스트를 생성하고, 상기 각 액션의 수행 가능 여부를 판단하여 소정의 액션을 선택한다. 사용자 의도 분석부(232)는 문맥(Context) 모델 데이터베이스(236)을 참조하여 상기 문장에 따른 상기 사용자 의 의도를 분석할 수 있다.
문맥 모델 데이터베이스(236)에는 하나 이상의 어구에 각각 대응하는 인자(Argument) 및 소정의 사용자 각각에 대응하여 상기 사용자의 이전 발화 내용에 따른 인자의 조합인 서브 다이얼로그(Sub-dialogue)가 기록되어 유지될 수 있다.
이 때, 사용자 의도 분석부(232)는 문맥 모델 데이터베이스(236)를 참조하여, 상기 문장이 포함하는 각 어구에 대응하는 인자를 추출하고, 상기 추출한 인자와 연관된 서브 다이얼로그를 참조하여 상기 문장에 따른 상기 사용자의 의도를 분석할 수 있다.
예를 들어, 상기 문장이 "음성 메시지 남겨줄래" 인 경우, 사용자 의도 분석부(232)는 문맥 모델 데이터베이스(236)을 참조하여 "남겨줄래" 라는 어구에 대응하는 "deliverVoiceMessage"라는 도메인 액션의 서브 다이얼로그를 생성할 수 있다.
따라서, 사용자 의도 분석부(232)는 상기 레퍼런스 테이블의 경우에서와 같이, 상기 서브 다이얼로그를 통해 사용자의 의도를 분석할 수 있다. 이 때, 상기 서브 다이얼로그에는 대상(Opponent)가 생략되었음을 인지하고, 사용자 의도 분석부(232)는 응답 제어부(233)를 통해 상기 사용자에게 상기 대상을 질의하고 사용자의 응답으로부터 상기 대상을 설정할 수 있다.
또한, 사용자 의도 분석부(232)는 상기 설정된 인자와 연관된 서브 다이얼로그가 문맥 모델 데이터베이스(236)에 존재하지 않는 경우, 상기 인자에 대응하는 서브 다이얼로그를 생성하여 상기 문맥 모델 데이터베이스에 기록할 수 있다.
또한, 사용자 의도 분석부(232)는 상기 사용자 의도를 하나 이상으로 분석할 수 있다. 즉, 상기 인자의 조합 방법이나 생략된 문구에 따른 의미의 모호성에 따라 상기 사용자 의도는 하나 이상 다양하게 설정될 수 있다. 예를 들어, 사용자의 발화 내용이 "TV" 인 경우, 사용자 의도 분석부(232)는 TV를 온(On)시키는 경우 및 오프(Off) 시키는 경우에 따른 사용자 의도를 각각 설정할 수 있다.
사용자 의도 분석부(232)는 상기 하나 이상의 사용자 의도에 대응하는 액션 리스트를 생성한다. 이 후, 사용자 의도 분석부(232)는 상기 각 액션의 수행 가능 여부를 판단하여 소정의 액션을 선택한다. 상기 예에서, 사용자 의도 분석부(232)는 TV를 켜는 것을 내용으로 하는 액션 및 TV를 끄는 것을 내용으로 하는 액션을 포함하는 액션 리스트를 생성할 수 있다. 이 후, 사용자 의도 분석부(232)는 TV의 현재 상태가 온 상태인지 오프 상태인지를 판독한다. 상기 판독 결과, TV가 온 상태인 경우, 사용자 의도 분석부(232)는 TV를 오프시키는 것을 내용으로 하는 액션을 선택할 수 있다. 물론, 이와 같은 경우에도 사용자 의도 분석부(232)는 TV를 온시킬 것인지 오프시킬 것인지에 대한 질의를 사용자에게 할 수도 있다.
상기와 같이 사용자 의도 분석부(232)에 의해 상기 사용자 의도에 따른 액션이 선택되면, 서비스 실행 제어모듈(240)은 상기 선택된 액션에 따른 서비스가 실행되도록 상기 서비스를 제공하는 소정의 기기를 제어할 수 있다.
이와 같이, 본 발명에 따른 음성 대화 서비스 장치는 시맨틱 슬롯(Semantic Slot) 해석을 통해 사용자의 대화를 해석하고 동적 문맥(Context) 관리를 통해 사용자의 의도를 파악할 수 있다. 따라서, 사용자의 다양한 발화 유형에 관계없이 항상 보다 정확하게 상기 사용자가 발화한 내용에 따른 사용자 의도를 파악할 수 있다. 또한, 사용자는 시스템이 인식 가능한 발화 유형을 일일이 기억할 필요 없이 즉석에서 하고 싶은 말만 하는 것으로도 서비스를 제공받을 수 있다. 또한, 서브 다이얼로그(Sub-Dialogue)를 통해 사용자의 발화를 처리할 수 있고, 지능적이고 동적인 음성 대화 서비스를 제공할 수 있는 효과를 얻을 수 있다.
도 6은 본 발명의 일실시예에 따른 음성 대화 서비스 방법의 흐름을 도시한 순서도이다.
본 발명의 일실시예에 따른 음성 대화 서비스 장치는 사용자가 발화한 음성은 인식하여 텍스트로 변환한다(단계(610)). 상기 음성 대화 서비스 장치는 상기 텍스트에 기록된 문장이 포함하는 단어 각각에 품사를 태깅(Tagging)한다(단계(620)). 상기 품사 태깅 후, 상기 음성 대화 서비스 장치는 상기 각 단어의 의미를 분류하여 상기 문장을 구문을 해석한다(단계(630)).
상기 음성 대화 서비스 장치는 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임을 생성한다(단계(640)). 상기 음성 대화 서비스 장치는 상기 각 시맨틱 폼에 대응하는 상기 문장의 의도(Intention)를 분석하고(단계(650)), 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택한다(단계(660)). 이 후 상기 음성 대화 서비스 장치는 상기 선택된 문장 의도에 따른 서비스가 실행되도록 소정의 기기를 제어한다(단계(670)). 또한, 단계(670)에서 상기 음성 대화 서비스 장치는 상기 문장 의도에 대응하는 소정의 시스템 응답(System Response)을 생성하여 상기 사용자에게 제공 할 수도 있다. 상기 시스템 응답은 상기 문자의 모호성이나 서비스 실행 불가 등에 따른 사용자 질의를 포함하는 개념이다.
도 6을 통해 설명한 본 발명에 따른 음성 대화 서비스 방법은 도 2 내지 도 5를 통해 설명한 본 발명에 따른 음성 대화 서비스 장치의 구성에 따른 동작을 모두 포함하여 구현될 수 있다.
본 발명에 따른 음성 대화 서비스 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행 하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구의 범위뿐 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
본 발명의 음성 대화 서비스 장치 및 방법에 따르면, 시맨틱 슬롯(Semantic Slot) 인식을 이용하여 자연어를 포함하는 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 발화 내용을 인식할 수 있는 효과를 얻을 수 있다.
또한, 본 발명의 음성 대화 서비스 장치 및 방법에 따르면, 동적 문맥(Context) 관리를 통해 사용자 발화 내용을 해석함으로써, 사용자의 발화 유형에 관계 없이 보다 정확하게 사용자의 의도를 분석할 수 있는 효과를 얻을 수 있다.
또한, 본 발명의 음성 대화 서비스 장치 및 방법에 따르면, 시맨틱 슬롯(Semantic Slot) 인식 및 문맥(Context) 관리를 통해 사용자 발화 내용을 정확하게 인식함으로써, 사용자가 시스템이 인식 가능한 발화 유형을 일일이 기억할 필요 없이 즉석에서 생각나는 대로 소정의 자연어를 발화하여도 항상 정확하게 상기 사용자의 의도를 파악하고 그에 따른 서비스를 실행할 수 있는 효과를 얻을 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
Claims (11)
- 소정의 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하고, 상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하며, 상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 언어 분석 모듈; 및상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하고, 상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하여 상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 대화 관리 모듈을 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제1항에 있어서,사용자가 발화(Uttering)한 음성을 인식하여 텍스트로 변환하는 음성 인식 모듈을 더 포함하고,상기 텍스트는 상기 사용자가 발화한 하나 이상의 자연어를 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제1항에 있어서,상기 언어 분석 모듈은,상기 문장의 형태소(Morpheme)를 분석하여 상기 각 단어의 품사를 태깅하는 품사 태깅부;상기 각 단어를 의미별로 분류하여, 상기 문장을 하나 이상의 어구로 파싱(Parsing)하는 구문 해석부; 및상기 각 어구를 테마(Theme), 파라미터(Parameter), 및 액션(Action) 별로 각각 분류하여, 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 격틀 해석부를 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제3항에 있어서,상기 대화 관리 모듈은,소정의 데이터베이스를 참조하여 상기 시맨틱 프레임의 각 어구를 유효한 어구 또는 디폴트 값으로 변환하거나, 상기 문장에서 생략된 것으로 판단되는 어구를 유추하여 상기 문장을 복원하는 문맥 정보부; 및상기 복원된 문장에 따른 상기 사용자의 의도를 분석하여 하나 이상의 액션 리스트를 생성하고, 상기 각 액션의 수행 가능 여부를 판단하여 소정의 액션을 선택하는 사용자 의도 분석부를 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제4항에 있어서,상기 데이터베이스는,상기 테마(Theme), 파라미터(Parameter), 및 액션(Action) 중 하나가 기준 도메인(Domain)으로 설정되고, 소정의 어구에 대하여 설정된 기준 도메인 이외의 도메인에 대응하는 하나 이상의 유효 어구 또는 디폴트 값이 기록된 레퍼런스(Reference) 테이블을 유지하는 레퍼런스 데이터베이스; 및하나 이상의 사용자에 대응하여 이전 발화 내용의 분석 결과가 각각 기록된 포커스 스택(Focus Stack)을 포함하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제4항에 있어서,상기 응답 제어부는 상기 문맥 정보부가 상기 문장에 포함된 소정의 어구를 유효한 어구 또는 디폴트 값으로 변환하지 못하거나, 상기 문장에서 생략된 것으로 판단되는 어구를 유추하지 못하는 경우, 상기 사용자에게 상기 어구 또는 상기 생략된 것으로 판단되는 어구에 대한 질의 내용을 포함하는 음성을 제공하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제4항에 있어서,하나 이상의 어구에 각각 대응하는 인자(Argument) 및 소정의 사용자 각각에 대응하여 상기 사용자의 이전 발화 내용에 따른 인자의 조합인 서브 다이얼로그가 기록된 문맥 모델 데이터베이스를 더 포함하고,상기 사용자 의도 분석부는 상기 문맥 모델 데이터베이스를 참조하여, 상기 문장이 포함하는 각 어구에 대응하는 인자를 추출하고, 상기 추출한 인자와 연관된 서브 다이얼로그를 참조하여 상기 문장에 따른 상기 사용자의 의도를 분석하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제7항에 있어서,상기 사용자 의도 분석부는 상기 추출한 인자와 연관된 서브 다이얼로그가 상기 문맥 모델 데이터베이스에 존재하지 않는 경우, 상기 추출한 인자에 대응하는 서브 다이얼로그를 생성하여 상기 문맥 모델 데이터베이스에 기록하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 제4항에 있어서,상기 사용자 의도 분석부는 상기 각 액션 리스트에 대응하는 액션을 수행할 장치(Device)의 현재 상태를 확인하여 상기 액션의 수행 가능 여부를 판단하는 것을 특징으로 하는 음성 대화 서비스 장치.
- 소정의 텍스트에 기록된 문장이 포함하는 단어 각각에 품사(POS: Part Of Speech)를 태깅(Tagging)하는 단계;상기 각 단어의 의미를 분류하여 상기 문장을 구문 해석하는 단계;상기 구문 해석 결과에 따라 상기 문장에 대응하는 하나 이상의 시맨틱 프레임(Semantic Frame)을 생성하는 단계;상기 각 시맨틱 프레임에 대응하는 상기 문장의 의도(Intention)를 분석하는 단계;상기 각 문장 의도에 대응하는 액션(Action)의 수행 가능 여부에 따라 소정의 문장 의도를 선택하는 단계; 및상기 문장 의도에 대응하는 시스템 응답(System Response)을 생성하는 단계을 포함하는 것을 특징으로 하는 음성 대화 서비스 방법.
- 제10항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060020600A KR100764174B1 (ko) | 2006-03-03 | 2006-03-03 | 음성 대화 서비스 장치 및 방법 |
US11/510,728 US7734461B2 (en) | 2006-03-03 | 2006-08-28 | Apparatus for providing voice dialogue service and method of operating the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060020600A KR100764174B1 (ko) | 2006-03-03 | 2006-03-03 | 음성 대화 서비스 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070090642A true KR20070090642A (ko) | 2007-09-06 |
KR100764174B1 KR100764174B1 (ko) | 2007-10-08 |
Family
ID=38472461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060020600A KR100764174B1 (ko) | 2006-03-03 | 2006-03-03 | 음성 대화 서비스 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7734461B2 (ko) |
KR (1) | KR100764174B1 (ko) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100918644B1 (ko) * | 2009-06-17 | 2009-09-25 | 김정중 | 대화 시스템 및 대화 문장 생성 방법 |
KR100920267B1 (ko) * | 2007-09-17 | 2009-10-05 | 한국전자통신연구원 | 음성 대화 분석 시스템 및 그 방법 |
KR20110080096A (ko) * | 2010-01-04 | 2011-07-12 | 삼성전자주식회사 | 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법 |
WO2011074771A3 (ko) * | 2009-12-16 | 2011-08-25 | 포항공과대학교 산학협력단 | 외국어 학습 장치 및 그 제공 방법. |
US8370130B2 (en) | 2009-09-01 | 2013-02-05 | Electronics And Telecommunications Research Institute | Speech understanding system using an example-based semantic representation pattern |
KR20130123037A (ko) * | 2012-05-02 | 2013-11-12 | 한국전자통신연구원 | 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법 |
KR101385316B1 (ko) * | 2012-04-03 | 2014-04-30 | 주식회사 로보플래닛 | 로봇을 이용한 광고 및 콘텐츠 연계형 대화 서비스 제공 시스템 및 그 방법 |
KR20150054045A (ko) * | 2013-11-08 | 2015-05-20 | 한국전자통신연구원 | 연쇄 대화 패턴 기반 대화 시스템 |
KR20160149025A (ko) * | 2015-06-17 | 2016-12-27 | 포항공과대학교 산학협력단 | 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치 |
KR20170058885A (ko) * | 2014-08-04 | 2017-05-29 | 에스 차이루도 가부시키가이샤 | 위험 검출 장치, 위험 검출 방법, 및 위험 검출 프로그램 |
KR20170078788A (ko) * | 2015-07-02 | 2017-07-07 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 차량용 음성 명령어 인식 방법, 장치 및 저장 매체 |
KR20170106346A (ko) * | 2015-01-23 | 2017-09-20 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 불완전한 자연어 질의를 이해하기 위한 방법 |
KR20180083105A (ko) * | 2017-01-12 | 2018-07-20 | 엘에스산전 주식회사 | 프로젝트 화면 작성장치 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
WO2019142976A1 (ko) * | 2018-01-16 | 2019-07-25 | 주식회사 머니브레인 | 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치 |
KR102103563B1 (ko) * | 2018-12-31 | 2020-04-22 | 충남대학교산학협력단 | 챗봇을 이용한 사용자 명령어의 태깅처리 시스템 |
KR20200068193A (ko) * | 2018-12-05 | 2020-06-15 | 서울대학교산학협력단 | 자연어 문장에서 응대 여부를 판단하는 음성인식 방법 |
KR20210074649A (ko) * | 2019-12-12 | 2021-06-22 | 서울대학교산학협력단 | 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법 |
WO2022139047A1 (ko) * | 2020-12-22 | 2022-06-30 | 한국과학기술원 | 대화문에서의 프레임 자동 분석 방법 및 장치 |
Families Citing this family (259)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US20060271520A1 (en) * | 2005-05-27 | 2006-11-30 | Ragan Gene Z | Content-based implicit search query |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8126837B2 (en) * | 2008-09-23 | 2012-02-28 | Stollman Jeff | Methods and apparatus related to document processing based on a document type |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8583418B2 (en) * | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
KR101025814B1 (ko) | 2008-12-16 | 2011-04-04 | 한국전자통신연구원 | 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치 |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
KR101612788B1 (ko) * | 2009-11-05 | 2016-04-18 | 엘지전자 주식회사 | 이동 단말기 및 그 제어 방법 |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9201859B2 (en) * | 2011-12-15 | 2015-12-01 | Microsoft Technology Licensing, Llc | Suggesting intent frame(s) for user request(s) |
US9542956B1 (en) * | 2012-01-09 | 2017-01-10 | Interactive Voice, Inc. | Systems and methods for responding to human spoken audio |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR102009316B1 (ko) * | 2013-01-07 | 2019-08-09 | 삼성전자주식회사 | 대화형 서버, 디스플레이 장치 및 그 제어 방법 |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
WO2016002879A1 (ja) * | 2014-07-02 | 2016-01-07 | ヤマハ株式会社 | 音声合成装置、音声合成方法およびプログラム |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105446146B (zh) * | 2015-11-19 | 2019-05-28 | 深圳创想未来机器人有限公司 | 基于语义分析的智能终端控制方法、系统及智能终端 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
CN109219812B (zh) * | 2016-06-03 | 2023-12-12 | 微软技术许可有限责任公司 | 口语对话系统中的自然语言生成 |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR20180052347A (ko) * | 2016-11-10 | 2018-05-18 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN108399912B (zh) * | 2018-03-21 | 2020-11-03 | 江苏木盟智能科技有限公司 | 一种机器人的语音切换方法、服务器及系统 |
CN108470563B (zh) * | 2018-03-21 | 2020-11-03 | 江苏木盟智能科技有限公司 | 一种语音交互中的语音切换方法、服务器及系统 |
CN108335692B (zh) * | 2018-03-21 | 2021-03-05 | 上海智蕙林医疗科技有限公司 | 一种语音切换方法、服务器及系统 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11133953B2 (en) | 2018-05-11 | 2021-09-28 | Catherine Lois Shive | Systems and methods for home automation control |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
CN110633358A (zh) * | 2018-05-31 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 用于处理机器人与用户会话的方法、装置及介质 |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
CN109446509B (zh) * | 2018-09-06 | 2023-04-07 | 厦门快商通信息技术有限公司 | 一种对话语料意图分析方法、系统及电子设备 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109446376B (zh) * | 2018-10-31 | 2021-06-25 | 广东小天才科技有限公司 | 一种通过分词对语音进行分类的方法及系统 |
KR102692775B1 (ko) | 2018-12-28 | 2024-08-08 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110413250B (zh) * | 2019-06-14 | 2021-06-01 | 华为技术有限公司 | 一种语音交互方法、装置及系统 |
CN110532558B (zh) * | 2019-08-29 | 2023-07-18 | 杭州涂鸦信息技术有限公司 | 一种基于句子结构深层解析的多意图识别方法及系统 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110597964B (zh) * | 2019-09-27 | 2023-04-07 | 神州数码融信软件有限公司 | 一种双录质检语义分析方法、装置及双录质检系统 |
CN111090728B (zh) * | 2019-12-13 | 2023-05-26 | 车智互联(北京)科技有限公司 | 一种对话状态跟踪方法、装置及计算设备 |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11610065B2 (en) | 2020-06-12 | 2023-03-21 | Apple Inc. | Providing personalized responses based on semantic context |
CN113742480A (zh) * | 2020-06-18 | 2021-12-03 | 北京汇钧科技有限公司 | 客服应答方法和装置 |
CN112487802A (zh) * | 2020-10-29 | 2021-03-12 | 广州索答信息科技有限公司 | 一种意图分析方法及系统 |
CN114281952A (zh) * | 2021-08-16 | 2022-04-05 | 海信视像科技股份有限公司 | 一种用户意图分析方法及装置 |
CN114386432A (zh) * | 2021-12-29 | 2022-04-22 | 科沃斯商用机器人有限公司 | 语义识别方法、装置、机器人和智能设备 |
CN114676691B (zh) * | 2022-05-27 | 2022-09-09 | 深圳市人马互动科技有限公司 | 一种识别方法、系统、设备以及计算机可读存储介质 |
CN115374793B (zh) * | 2022-10-25 | 2023-01-20 | 深圳市人马互动科技有限公司 | 基于服务场景识别的语音数据处理方法及相关装置 |
CN115514849B (zh) * | 2022-11-17 | 2023-03-10 | 零犀(北京)科技有限公司 | 一种基于整体语义分析的质检方法、装置、系统及介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04158476A (ja) | 1990-10-22 | 1992-06-01 | Sharp Corp | 音声対話装置 |
US6604090B1 (en) | 1997-06-04 | 2003-08-05 | Nativeminds, Inc. | System and method for selecting responses to user input in an automated interface program |
KR19990047859A (ko) | 1997-12-05 | 1999-07-05 | 정선종 | 도서 문헌 데이터베이스 검색을 위한 자연언어 대화 시스템 |
US6246981B1 (en) | 1998-11-25 | 2001-06-12 | International Business Machines Corporation | Natural language task-oriented dialog manager and method |
US6314398B1 (en) * | 1999-03-01 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method using speech understanding for automatic channel selection in interactive television |
US6598018B1 (en) * | 1999-12-15 | 2003-07-22 | Matsushita Electric Industrial Co., Ltd. | Method for natural dialog interface to car devices |
JP3994368B2 (ja) | 2000-01-25 | 2007-10-17 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに記録媒体 |
US6910004B2 (en) * | 2000-12-19 | 2005-06-21 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
US20020133347A1 (en) | 2000-12-29 | 2002-09-19 | Eberhard Schoneburg | Method and apparatus for natural language dialog interface |
US7577916B2 (en) | 2001-02-21 | 2009-08-18 | Fuji Xerox Co., Ltd. | Method and apparatus for management and representation of dynamic context |
US6786651B2 (en) | 2001-03-22 | 2004-09-07 | Primarion, Inc. | Optical interconnect structure, system and transceiver including the structure, and method of forming the same |
JP3945187B2 (ja) | 2001-05-25 | 2007-07-18 | 三菱電機株式会社 | 対話管理装置 |
KR100431190B1 (ko) * | 2001-10-10 | 2004-05-12 | 한국전자통신연구원 | 주제 적응 품사 태깅 시스템 및 방법 |
KR100446627B1 (ko) * | 2002-03-29 | 2004-09-04 | 삼성전자주식회사 | 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법 |
US7158930B2 (en) * | 2002-08-15 | 2007-01-02 | Microsoft Corporation | Method and apparatus for expanding dictionaries during parsing |
-
2006
- 2006-03-03 KR KR1020060020600A patent/KR100764174B1/ko not_active IP Right Cessation
- 2006-08-28 US US11/510,728 patent/US7734461B2/en not_active Expired - Fee Related
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100920267B1 (ko) * | 2007-09-17 | 2009-10-05 | 한국전자통신연구원 | 음성 대화 분석 시스템 및 그 방법 |
KR100918644B1 (ko) * | 2009-06-17 | 2009-09-25 | 김정중 | 대화 시스템 및 대화 문장 생성 방법 |
US8370130B2 (en) | 2009-09-01 | 2013-02-05 | Electronics And Telecommunications Research Institute | Speech understanding system using an example-based semantic representation pattern |
WO2011074771A3 (ko) * | 2009-12-16 | 2011-08-25 | 포항공과대학교 산학협력단 | 외국어 학습 장치 및 그 제공 방법. |
US9767710B2 (en) | 2009-12-16 | 2017-09-19 | Postech Academy-Industry Foundation | Apparatus and system for speech intent recognition |
KR20110080096A (ko) * | 2010-01-04 | 2011-07-12 | 삼성전자주식회사 | 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법 |
US9495958B2 (en) | 2010-01-04 | 2016-11-15 | Samsung Electronics Co., Ltd. | Dialogue system using extended domain and natural language recognition method and computer-readable medium thereof |
KR101385316B1 (ko) * | 2012-04-03 | 2014-04-30 | 주식회사 로보플래닛 | 로봇을 이용한 광고 및 콘텐츠 연계형 대화 서비스 제공 시스템 및 그 방법 |
KR20130123037A (ko) * | 2012-05-02 | 2013-11-12 | 한국전자통신연구원 | 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법 |
KR20150054045A (ko) * | 2013-11-08 | 2015-05-20 | 한국전자통신연구원 | 연쇄 대화 패턴 기반 대화 시스템 |
KR20170058885A (ko) * | 2014-08-04 | 2017-05-29 | 에스 차이루도 가부시키가이샤 | 위험 검출 장치, 위험 검출 방법, 및 위험 검출 프로그램 |
KR20170106346A (ko) * | 2015-01-23 | 2017-09-20 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 불완전한 자연어 질의를 이해하기 위한 방법 |
KR20160149025A (ko) * | 2015-06-17 | 2016-12-27 | 포항공과대학교 산학협력단 | 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치 |
KR20170078788A (ko) * | 2015-07-02 | 2017-07-07 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 차량용 음성 명령어 인식 방법, 장치 및 저장 매체 |
KR20180083105A (ko) * | 2017-01-12 | 2018-07-20 | 엘에스산전 주식회사 | 프로젝트 화면 작성장치 |
WO2019142976A1 (ko) * | 2018-01-16 | 2019-07-25 | 주식회사 머니브레인 | 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치 |
KR20200068193A (ko) * | 2018-12-05 | 2020-06-15 | 서울대학교산학협력단 | 자연어 문장에서 응대 여부를 판단하는 음성인식 방법 |
KR102103563B1 (ko) * | 2018-12-31 | 2020-04-22 | 충남대학교산학협력단 | 챗봇을 이용한 사용자 명령어의 태깅처리 시스템 |
CN109766453A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种用户语料语义理解的方法及系统 |
KR20210074649A (ko) * | 2019-12-12 | 2021-06-22 | 서울대학교산학협력단 | 음향정보와 텍스트정보를 이용하여 자연어 문장에서 응대 여부를 판단하는 음성인식 방법 |
WO2022139047A1 (ko) * | 2020-12-22 | 2022-06-30 | 한국과학기술원 | 대화문에서의 프레임 자동 분석 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR100764174B1 (ko) | 2007-10-08 |
US7734461B2 (en) | 2010-06-08 |
US20070208556A1 (en) | 2007-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100764174B1 (ko) | 음성 대화 서비스 장치 및 방법 | |
US6324512B1 (en) | System and method for allowing family members to access TV contents and program media recorder over telephone or internet | |
US9953648B2 (en) | Electronic device and method for controlling the same | |
CN107909998B (zh) | 语音指令处理方法、装置、计算机设备和存储介质 | |
CN108391149B (zh) | 显示设备、控制显示设备的方法、服务器以及控制服务器的方法 | |
KR100679043B1 (ko) | 음성 대화 인터페이스 장치 및 방법 | |
EP1891625B1 (en) | Dialogue management using scripts | |
US6397181B1 (en) | Method and apparatus for voice annotation and retrieval of multimedia data | |
US7024368B1 (en) | Man-machine dialogue system, controls dialogue between system and user using dialogue specification employing augmented transition networks propagating tokens | |
KR102411619B1 (ko) | 전자 장치 및 그 제어 방법 | |
US11093110B1 (en) | Messaging feedback mechanism | |
CN109360563B (zh) | 一种语音控制方法、装置、存储介质及空调 | |
KR20140089861A (ko) | 디스플레이 장치 및 그의 제어 방법 | |
JP2003263188A (ja) | 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体 | |
CN109616096A (zh) | 多语种语音解码图的构建方法、装置、服务器和介质 | |
CN108882101B (zh) | 一种智能音箱的播放控制方法、装置、设备及存储介质 | |
US8509396B2 (en) | Automatic creation of complex conversational natural language call routing system for call centers | |
JP2001209393A (ja) | 自然言語入力方法及び装置 | |
KR101131278B1 (ko) | 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치 | |
JP2009300573A (ja) | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム | |
JP2001142481A (ja) | 音声/ビデオ装置用の制御システム及び音声/ビデオ構成を制御するための統合アクセスシステム | |
KR20150077580A (ko) | 음성 인식 기반 서비스 제공 방법 및 그 장치 | |
CN114155854B (zh) | 语音数据的处理方法及装置 | |
CN115148212A (zh) | 一种语音交互方法、智能设备及系统 | |
CN117669590A (zh) | 一种大模型语义交互引擎及复合意图文本的动态分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Publication of correction | ||
FPAY | Annual fee payment |
Payment date: 20120830 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130829 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140828 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150828 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |