KR20180052347A - 음성 인식 장치 및 방법 - Google Patents

음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR20180052347A
KR20180052347A KR1020160149552A KR20160149552A KR20180052347A KR 20180052347 A KR20180052347 A KR 20180052347A KR 1020160149552 A KR1020160149552 A KR 1020160149552A KR 20160149552 A KR20160149552 A KR 20160149552A KR 20180052347 A KR20180052347 A KR 20180052347A
Authority
KR
South Korea
Prior art keywords
intention
data
user
state
application program
Prior art date
Application number
KR1020160149552A
Other languages
English (en)
Inventor
전재훈
김중회
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160149552A priority Critical patent/KR20180052347A/ko
Priority to US15/625,861 priority patent/US10490184B2/en
Publication of KR20180052347A publication Critical patent/KR20180052347A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 인식 장치는 입력되는 음성 신호에 대응하는 텍스트(text) 입력으로부터 특징값을 추출하는 추출부, 상기 입력들에 연관되는 적어도 하나의 상태값을 확인하는 확인부 및 상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 상기 음성 신호에 대응하는 사용자 의도의 확률 분포를 계산하는 계산부를 포함할 수 있다.

Description

음성 인식 장치 및 방법{VOICE RECOGNITION APPARATUS AND METHOD}
아래의 설명은 의도 분석을 이용한 음성 인식 기술에 관한 것이다.
오늘날 대화형 로봇 청소기를 이용한 청소 수행, 스마트폰을 이용한 위치 확인, 네비게이션 시스템(navigation system)을 이용한 목적지 설정 및 경로 변경 등과 같이 사용자 환경에 따라 음성 신호를 이용하여 전자 장치를 제어하는 음성 인식 장치가 널리 이용되고 있다. 종래의 텍스트(text) 기반의 타이핑 입력에서 나아가 사용자의 음성 신호를 입력 신호로서 이용하고, 전자 장치가 지원하는 대화 에이전트를 통해 사용자와의 커뮤니케이션을 구현하는 것이 가능해졌다.
예를 들어, 전자 장치는 사용자로부터 음성 신호를 수신하고, 수신한 음성 신호로부터 음향 모델(acoustic model)에 기초하여 인식된 텍스트(text)를 이용하여 사용자의 의도를 분석하고, 분석된 의도에 대응하는 태스크(task)를 실행할 수 있다.
일실시예에 따른 의도 분석 장치는 컴퓨터로 구현되는 장치로서, 적어도 하나의 프로세서를 포함하고 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현될 수 있다. 상기 음성 인식 장치는 입력되는 음성 신호에 대응하는 텍스트(text) 입력으로부터 특징값을 추출하는 추출부, 상기 텍스트 입력에 연관되는 적어도 하나의 상태값을 확인하는 확인부 및 상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 상기 음성 신호에 대응하는 사용자 의도의 확률 분포를 계산하는 계산부를 포함할 수 있다.
상기 확인부는 상기 입력들에 연관되어 실행 중인 응용 프로그램의 식별자 및 상기 응용 프로그램의 상태 중 적어도 하나를 상기 상태값으로서 확인할 수 있다.
상기 확인부는 상기 입력들에 연관되는 응용 프로그램을 실행하는 전자 기기의 식별자 및 상기 전자 기기의 상태 중 적어도 하나를 상기 상태값으로서 확인할 수 있다.
상기 확인부는 상기 입력들에 연관되어 실행 중인 응용 프로그램이 실행 가능한 복수의 명령(command)에 의해 정의되는 상기 상태값을 확인할 수 있다. 보다 구체적으로, 상기 확인부는 상기 응용 프로그램이 상기 복수의 명령을 실행하는 복수의 도메인(domain)에 의해 정의되는 상기 상태값을 확인할 수 있다.
상기 확인부는 상기 입력들에 연관되어 실행 중인 응용 프로그램이 상기 음성 신호가 입력되기 이전에 수행된 제1 명령에 따라 정의되는 상기 상태값을 확인할 수 있다.
상기 계산부는 복수의 발화 데이터 각각에 포함되는 중복되는 의도를 이용하여 분리된 가상 대화 상태 및 상기 복수의 발화 데이터가 실제 발화되는 의도를 이용하여 분리된 실제 대화 상태를 학습 데이터로서 이용하여 학습될 수 있다.
상기 확인부는 사용자에 의해 실행되는 복수의 명령의 히스토리 정보를 상기 상태값으로서 확인할 수 있다.
다른 일실시예에 따른 의도 분석 장치는 복수의 발화 데이터 각각에 포함되는 중복되는 사용자 의도를 이용하여 가상 대화 상태를 결정하는 제1 결정부 및 상기 복수의 발화 데이터에 연관되는 실제 대화 상태를 결정하는 제2 결정부를 포함할 수 있다.
상기 제1 결정부는 복수의 발화 데이터 각각에 연관되는 도메인 및 실행되는 명령 중 적어도 하나에 기초하여 미리 정의된 복수의 가상 대화 상태 중 어느 하나와 매칭할 수 있다.
상기 의도 분석 장치는 복수의 발화 데이터를 입력 데이터로서 이용하고, 상기 가상 대화 상태 및 상기 실제 대화 상태를 출력 데이터로서 이용하는 기계 학습을 통해 학습될 수 있다. 또한, 상기 의도 분석 장치는 상기 복수의 발화 데이터 각각이 연관되는 상기 가상 대화 상태를 이용하여 상기 실제 대화 상태를 학습하는데 이용되는 상기 복수의 발화 데이터의 개수를 샘플링 비율로서 결정하는 샘플링부를 더 포함할 수 있다.
일실시예에 따른 사용자와의 대화 에이전트를 제공하는 전자 기기는 상기 사용자의 발화에 따라 입력되는 음성 신호를 획득하는 센싱부, 상기 음성 신호에 대응하는 텍스트 입력에 미리 기계 학습된 결과를 적용하여 상기 텍스트 입력에 연관되는 특징값을 추출하고, 상기 전자 기기가 실행하는 응용 프로그램에 연관되는 적어도 하나의 상태값을 확인하고, 상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 상기 사용자의 발화에 대응하는 사용자 의도의 확률 분포를 계산하는 프로세서 및 상기 사용자 의도에 대응하는 태스크의 실행 결과를 상기 사용자에게 출력하는 디스플레이를 포함할 수 있다.
상기 프로세서는 상기 입력들에 연관되어 상기 전자 기기가 실행 중인 응용 프로그램의 식별자 및 상기 응용 프로그램의 상태 중 적어도 하나를 상기 상태값으로서 확인할 수 있다.
상기 프로세서는 상기 프로세서는 상기 입력들에 연관되는 응용 프로그램을 실행하는 상기 전자 기기의 식별자 및 상기 전자 기기의 상태 중 적어도 하나를 상기 상태값으로서 확인할 수 있다.
상기 프로세서는 상기 입력들에 연관되어 실행 중인 응용 프로그램이 상기 음성 신호가 입력되기 이전에 수행된 제1 명령에 따라 정의되는 상기 상태값을 확인할 수 있다.
도 1은 일실시예에 따른 의도 분석 장치의 동작을 설명하기 위한 예시도이다.
도 2는 일실시예에 따른 의도 분석 장치의 구체적인 동작을 설명하기 위한 흐름도이다.
도 3a는 다른 일실시예에 따른 의도 분석 장치가 복수의 발화 데이터의 가상 대화 상태를 결정하는 과정을 설명하는 예시도이다.
도 3b는 다른 일실시예에 따른 의도 분석 장치가 복수의 발화 데이터의 가상 대화 상태를 결정하는 보다 구체적인 과정을 설명하는 예시도이다.
도 4는 또 다른 일실시예에 따른 의도 분석 장치가 복수의 발화 데이터를 이용하여 기계 학습을 수행하는 과정을 설명하는 예시도이다.
도 5는 일실시예에 따른 의도 분석 장치를 나타내는 블록도이다.
도 6은 일실시예에 따라 사용자에게 대화 에이전트를 제공하는 전자 기기를 나타내는 블록도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
아래의 설명에서 발화(utterance)에 연관되는 상태(state)는 사용자의 발화가 이루어지는 시간적 또는 공간적인 조건(condition)을 나타낼 수 있다. 예시적으로, 사용자의 발화가 입력되는 전자 기기의 종류, 상기 발화에 의해 실행되는 응용 프로그램의 종류, 사용자의 발화가 수행되기 전 실행된 태스크(task)의 종류 등이 상태값 중 하나 일 수 있다. 상기 상태값에 관한 기재들은 이해를 돕기 위한 예시적 기재일 뿐 다른 실시예들의 범위를 제한하거나 한정되는 것으로 해석되어서는 안될 것이다.
아래의 설명에서 특징(feature)은 사용자 의도(intent of utterance)에 연관되는 태스크(task)를 실행하기 위한 조건(condition)을 나타낼 수 있다.
이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일실시예에 따른 의도 분석 장치의 동작을 설명하기 위한 예시도이다. 도 1을 참조하면, 사용자(110)로부터 입력된 음성 신호 또는 상기 음성 신호를 처리하여 생성되는 텍스트(text) 입력을 입력 받고, 대화 에이전트를 제공하는 다양한 전자 기기(121, 122, 123)들이 상기 입력들에 상응하는 태스크를 실행하도록 제어 하는 의도 분석 장치(100)의 동작이 도시된다. 예시적으로, 상기 텍스트 입력은 상기 음성 신호의 인식 결과로서 도출되는 데이터를 나타낼 수 있다. 보다 구체적으로, 상기 텍스트 입력은 의도 분석 장치(100) 내에 포함되는 음향 모델(acoustic model) 기반의 음성 인식 시스템의 결과로서 출력될 수 있다. 본 실시예에서 의도 분석 장치(100)는 사용자 의도에 대응하는 확률 분포를 계산하는 장치로서 음성 인식 장치(voice recognition apparatus)와 같은 형태로 구현될 수 있다.
위와 같은 설명에서 음성 인식 장치는 사용자의 음성 신호를 처리할 수 있는 기기라면 그 종류에 제한이 없다. 음성 인식 장치는 모바일 디바이스, 웨어러블 디바이스, 고정형 디바이스 등과 같은 다양한 형태로 존재할 수 있는데, 예를 들어, 음성 인식 장치에는 스마트폰, 스마트TV, 스마트 시계, 스마트 세탁기, 스마트 카메라, 스마트 오디오, 스마트 자전거, 스마트 안경, 리모트 컨트롤러, 스마트 냉장고, 스마트 에어컨디셔너, 랩탑, PDA 및 태블릿 등이 포함될 수 있다. 나아가, 음성 인식 장치에 통신 기능이 더해지면서, 음성 인식 장치들이 통신 네트워크로 서로 연결되고 음성 인식 장치들 간의 정보 공유가 가능해 질 수 있다.
의도 분석 장치(100)는 사용자로부터 입력된 음성 신호에 음향 모델 기반의 음성 인식 방법을 적용하여 생성된 텍스트 입력을 입력 받고, 상기 입력들에 대응하는 특징값(feature)을 추출해낼 수 있다. 보다 구체적으로, 의도 분석 장치는 상기 입력들에 연관되는 전자 기기(121, 122, 123) 및 상기 전자 기기(121, 122, 123)에서 실행 중인 응용 프로그램 중 적어도 하나를 상태값으로서 확인할 수 있다.
본 실시예의 의도 분석 장치(100)는 특정 기기 또는 특정 응용 프로그램을 타겟(target)으로서 의도 분석을 수행하는 것이 아닌, 다양한 기기 내의 다양한 응용 프로그램에 대한 의도 분석을 수행해 낼 수 있다. 일실시예로서, 의도 분석 장치(100)는 제1 전자 기기(121)인 스마트폰이 제공하는 응용 프로그램과 그에 상응하는 다양한 기능에 관한 사용자 의도를 분석해낼 수 있다. 다른 일실시예로서, 의도 분석 장치(100)는 제2 전자 기기(122)인 스마트 TV(122) 또는 차량용 네비게이션(123)이 제공하는 응용 프로그램과 그에 상응하는 다양한 기능에 관한 사용자 의도를 분석해낼 수 있다.
의도 분석 장치(100)가 다양한 응용 프로그램 및 상태값에 대응하는 사용자 의도를 분석하는 과정과 의도 분석 장치(100)가 구현되기 위해 기계 학습이 수행되는 과정에 관한 구체적인 설명은 아래에 추가될 도면과 함께 보다 자세하게 설명될 것이다.
도 2는 일실시예에 따른 의도 분석 장치의 구체적인 동작을 설명하기 위한 흐름도이다. 도 2를 참조하면, 단계(210)에서 의도 분석 장치는 입력되는 음성 신호에 음향 모델 기반의 음성 인식 방법을 적용하여 생성된 텍스트 입력으로부터 특징값을 추출해낼 수 있다. 보다 구체적으로, 의도 분석 장치는 사용자의 발화에 따라 입력된 음성 신호를 획득할 수 있다. 또한, 의도 분석 장치는 상기 입력된 음성 신호를 음향 모델에 기초하여 인식하고, 그 인식 결과에 대응하는 텍스트 입력을 결과 데이터로서 생성할 수 있다. 의도 분석 장치는 상기 음성 신호에 대응하는 상기 텍스트 입력에 미리 학습된 결과 데이터를 적용하여 태스크(task)를 수행하기 위한 특징값을 추출해낼 수 있다. 예시적으로, "내일 날씨 어때?"라는 음성 신호가 입력된 경우에 의도 분석 장치는 "내일"에 대응하는 제1 특징값과 "날씨"에 대응하는 제2 특징값을 추출해낼 수 있다. 본 실시예의 의도 분석 장치는 특징값뿐만 아니라 적어도 하나의 상태값을 이용하여 사용자 의도를 분석하고, 다양한 기기에 적용되는 통합형(integrated) 대화 에이전트를 사용자에게 제공할 수 있다.
단계(220)에서 의도 분석 장치는 상기 입력들에 연관되는 적어도 하나의 상태값을 확인할 수 있다. 일실시예로서, 상기 상태값은 상기 입력들에 연관되어 실행 중인 응용 프로그램이 실행 가능한 복수의 명령(command)들에 의해 정의될 수 있다. 다른 일실시예로서, 상기 상태값은 상기 입력들에 연관되어 실행 중인 응용 프로그램의 식별자 및 상기 응용 프로그램의 상태 중 적어도 하나로서 정의될 수 있다.
또 다른 일실시예로서, 상기 상태값은 사용자에 의해 실행되는 복수의 명령의 히스토리 정보로서 정의될 수 있다. 보다 구체적으로, 사용자가 특정 시간 대에는 제1 명령을 요청한 이후에 제2 명령을 요청한다는 히스토리 정보가 존재하는 경우에, 의도 분석 장치는 상기 히스토리 정보를 상기 상태값으로서 확인할 수 있다. 예시적으로, 사용자가 오전 7시에 alarm을 끄는 제1 명령을 요청하고, 그 이후에는 음악 프로그램을 실행하는 제2 명령을 요청한다는 히스토리 정보가 존재하는 경우에, 의도 분석 장치는 상기 히스토리 정보를 상기 상태값으로서 확인할 수 있다.
단계(230)에서 의도 분석 장치는 상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 상기 사용자의 발화에 대응하는 사용자 의도의 확률 분포를 계산할 수 있다. 보다 구체적으로, 의도 분석 장치는 상기 특징값 및 상기 적어도 하나의 상태값을 미리 학습된 결과 데이터에 적용하여 사용자 의도의 확률 분포를 계산해낼 수 있다.
예시적으로, 의도 분석 장치가 사용자로부터 "내일 날씨 어때?"라는 음성 신호를 획득하고, "내일"이라는 제1 특징값 및 "날씨"라는 제2 특징값을 추출한 경우가 존재할 수 있다. 이 경우에, 의도 분석 장치는 단계(220)에서 응용 프로그램이 실행되는 전자 기기에 대응하는 상태값을 확인할 수 있다. 상기 음성 신호가 입력된 전자 기기가 날씨 확인 기능을 제공하지 않는 스마트 냉장고인 경우에, 의도 분석 장치는 특징값 및 상태값을 이용하여 사용자 의도의 확률 분포를 계산하고, 실행 불가능한 명령임을 나타내는 "out of command"를 출력해낼 수 있다. 앞서 기재한 실시예는 이해를 돕기 위한 예시적 기재일 뿐, 다른 실시예들의 범위를 제한하거나 한정하는 것으로 해석되어서는 안 될 것이다.
도 3a는 다른 일실시예에 따른 의도 분석 장치가 복수의 발화 데이터의 가상 대화 상태를 결정하는 과정을 설명하는 예시도이다. 도 3a를 참조하면, 의도 분석 장치가 기계 학습을 수행하기 위해 복수의 발화 데이터 각각을 어느 하나의 가상 대화 상태와 매칭하는 과정이 도시된다. 이하의 설명에서 발화 데이터는 사용자의 발화에 연관되는 데이터로서, 음성 데이터 그 자체 또는 상기 음성 데이터에 대하여 음성 인식을 수행하여 도출된 텍스트 데이터 중 어느 하나를 나타낼 수 있다.
의도 분석 장치(300)는 복수의 발화 데이터를 이용하여 기계 학습을 수행하고, 미리 학습된 결과 데이터로서 통합형 의도 분석 모델을 생성해낼 수 있다. 본 실시예에서 복수의 발화 데이터는 의도 분석에 연관되는 실제 대화 상태를 포함할 수 있다. 아래의 설명에서 실제 대화 상태는 사용자 발화가 발생하는 환경을 포함하는 시간적 또는 공간적 조건을 나타낼 수 있다.
본 실시예에서 의도 분석 장치(300)는 상기 통합형 의도 분석 모델을 생성하기 위해 제1 발화 데이터에서부터 제n 발화 데이터까지의 데이터를 로우 데이터(raw data)로서 이용할 수 있다. n은 1 이상의 자연수를 나타내고, n 이라는 발화 데이터의 개수 또는 범위는 기술 분야의 전문가의 선택에 따라 다양한 변형이 가능할 것이다.
일실시예로서, 제1 발화 데이터는 R1 및 R2를 실제 대화 상태로서 포함할 수 있다. 마찬가지로, 제2 발화 데이터는 R1을 실제 대화 상태로서 포함하고, 제3 발화 데이터는 R3을 실제 대화 상태로서 포함할 수 있다. 또한, 제n 발화 데이터는 R1, R2 및 R10을 실제 대화 상태로서 포함할 수 있다.
의도 분석 장치(300)는 복수의 발화 데이터 각각에 연관되는 중복되는 사용자 의도를 이용하여 가상 대화 상태를 결정할 수 있다. 보다 구체적으로, 의도 분석 장치(300)는 서로 의존적이지 않고, 독립적으로 구분 가능한 사용자 의도에 기초하여 복수의 발화 데이터를 미리 정의된 복수의 가상 대화 상태 중 어느 하나와 매칭시킬 수 있다.
도 3a에서 구체적으로 도시되지는 않지만, 의도 분석 장치(300)는 제1 결정부와 제2 결정부를 포함할 수 있다. 보다 구체적으로, 의도 분석 장치(300)의 제1 결정부는 복수의 발화 데이터 각각에 포함되는 중복되는 사용자 의도를 이용하여 상기 복수의 발화 데이터 각각에 연관되는 가상 대화 상태를 결정할 수 있다. 또한, 의도 분석 장치(300)의 제2 결정부는 상기 복수의 발화 데이터에 연관되는 실제 대화 상태를 결정할 수 있다. 보다 구체적으로, 제1 결정부는 복수의 발화 데이터 각각에 연관되는 명령어 및 상기 명령어가 실행되는 도메인 중 적어도 하나의 기초하여, 상기 복수의 발화 데이터 각각을 미리 정의된 복수의 가상 대화 상태 중 어느 하나와 매칭할 수 있다. 또한, 의도 분석 장치(300)는 복수의 발화 데이터 각각이 연관되는 가상 대화 상태를 이용하여 실제 대화 상태를 학습하는데 이용되는 복수의 발화 데이터의 개수를 샘플링 비율로서 결정하는 샘플링부를 더 포함할 수 있다.
예시적으로, 제1 발화 데이터, 제2 발화 데이터 및 제n 발화 데이터는 제3 발화 데이터와 독립적으로 구분 가능한 실제 대화 상태 R1을 공통적으로 포함할 수 있다. 또한, 제3 발화 데이터는 제1 발화 데이터, 제2 발화 데이터 및 제n 발화 데이터와 독립적으로 구분 가능한 실제 대화 상태 R3을 포함할 수 있다. 본 실시예에 따른 의도 분석 장치(300)는 실제 대화 상태 R1에 연관되는 제1 의도를 이용하여 제1 발화 데이터, 제2 발화 데이터 및 제n 발화 데이터를 제1 가상 대화 상태로 결정하고, 실제 대화 상태 R3에 연관되는 제2 의도를 이용하여 제3 발화 데이터를 제2 가상 대화 상태로 결정할 수 있다.
도 3b는 다른 일실시예에 따른 의도 분석 장치가 복수의 발화 데이터의 가상 대화 상태를 결정하는 보다 구체적인 과정을 설명하는 예시도이다. 도 3b를 참조하면, 의도 분석 장치가 기계 학습을 수행하기 위해 복수의 발화 데이터 각각을 어느 하나의 가상 대화 상태와 구체적으로 매칭하는 과정이 도시된다.
도 3a에서 개시된 실시예보다 구체적으로, 도 3b에서는 각각의 발화 데이터에 연관되는 실제 대화 상태들의 예시가 도시된다. 일실시예로서, 제1 발화 데이터는 "알람 설정해."와 같은 alarm. 명령에 상응하는 실제 대화 상태를 포함할 수 있다. 다른 일실시예로서, 제2 발화 데이터는 "알람 시간 추가해." 와 같은 alarm.add. 명령에 상응하는 실제 대화 상태를 포함할 수 있다. 또한, 제3 발화 데이터는 "알림 시간 바꿔."와 같은 alarm.change. 명령에 상응하는 실제 대화 상태를 포함할 수 있다. 제4 발화 데이터는 "전화 연결해."와 같은 call. 명령에 상응하는 실제 대화 상태를 포함하고, 제5 발화 데이터는 "날씨 어때?"와 같은 weather. 명령에 상응하는 실제 대화 상태를 포함할 수 있다.
본 실시예에 따른 의도 분석 장치(300)는 복수의 발화 데이터 각각에 연관되는 사용자 의도들 중 독립적으로 구분되는 의도들 각각을 서로 다른 가상 대화 상태로 분리할 수 있다. 예시적으로, 의도 분석 장치(300)는 사용자 의도에 연관되는 명령어 및 상기 명령어가 수행되는 도메인 중 적어도 하나에 기초하여 복수의 발화 데이터를 복수의 가상 대화 상태 중 어느 하나로 분리할 수 있다.
도 3b를 참조하면, 제1 발화 데이터, 제2 발화 데이터 및 제3 발화 데이터는 "alarm"이라는 중복되는 의도를 포함하고 있다. 본 실시예에 따른 의도 분석 장치(300)는 중복되는 의도에 기초하여 제1 발화 데이터, 제2 발화 데이터 및 제3 발화 데이터를 "alarm"에 연관되는 제1 가상 대화 상태로 분리할 수 있다. 하지만, 제4 발화 데이터는 "call"이라는 의도와 연관될 수 있다. 본 실시예에 따른 의도 분석 장치(300)는 제4 발화 데이터에 연관되는 명령어 또는 상기 명령어가 실행되는 도메인에 기초하여 "call"과 "alarm" 각각의 의도는 독립적이고, 의존적이지 않다라는 것을 판단해낼 수 있다. 상기 판단에 따라, 의도 분석 장치(300)는 제4 발화 데이터를 제2 가상 대화 상태로서 분리해낼 수 있다.
마찬가지로, 제5 발화 데이터는 "weather"라는 의도와 연관될 수 있다. 본 실시예에 따른 의도 분석 장치(300)는 제5 발화 데이터에 연관되는 명령어 또는 상기 명령어가 실행되는 도메인에 기초하여 "weather"는 "call" 또는 "alarm"과 같은 의도와는 독립적이고, 의존적이지 않다라는 것을 판단해낼 수 있다. 상기 판단에 따라, 의도 분석 장치(300)는 제5 발화 데이터를 제3 가상 대화 상태로서 분리해낼 수 있다.
본 실시예에서 설명된 발화 데이터, 실제 대화 상태, 의도에 관한 기재는 이해를 돕기 위한 예시적 기재일 뿐, 다른 실시예들의 범위를 제한하거나 한정하는 것으로 해석되어서는 안 될 것이다. 이를테면, 사용자의 발화에 따라 관심 지역의 위치를 찾는 "FindPOI(Point Of Interest)", 사용자에 관한 일정을 조정하는 "schedule"과 같이 대화형 에이전트를 포함하는 전자 기기가 지원하는 다양한 기능에 관한 사용자 의도에 까지 확장 가능할 것이다.
도 4는 또 다른 일실시예에 따른 의도 분석 장치가 복수의 발화 데이터를 이용하여 기계 학습을 수행하는 과정을 설명하는 예시도이다. 도 4를 참조하면, 복수의 발화 데이터를 이용하여 기계 학습(machine learning)을 수행하는 의도 분석 장치(400)가 도시된다. 예시적으로, 의도 분석 장치(400)는 가상 대화 상태 학습기(410)와 실제 대화 상태 학습기(420)를 포함할 수 있다. 의도 분석 장치(400)는 복수의 발화 데이터를 입력 데이터로 이용하고, 가상 대화 상태 및 실제 대화 상태를 출력 데이터로 이용하여 기계 학습을 수행할 수 있다. 보다 구체적으로, 복수의 발화 데이터 각각은 매칭되는 가상 대화 상태 및 실제 대화 상태의 페어(pair)를 포함할 수 있다. 복수의 발화 데이터 각각에 연관되는 사용자 의도를 이용하여 가상 대화 상태를 결정하는 과정에 관한 자세한 설명은 앞선 도 3a 및 도 3b에서 설명되었기 때문에 중복되는 설명은 생략 하기로 한다.
복수의 발화 데이터 중 제n 발화 데이터가 의도 분석 장치(400)로 입력되는 경우가 존재할 수 있다. 일실시예로서, 제n 발화 데이터는 실제 대화 상태로서 제1 실제 대화 상태 R1, 제2 실제 대화 상태 R2 및 제3 실제 대화 상태 R10에 연관될 수 있다. 또한, 제n 발화 데이터는 제1 가상 대화 상태 V1과 매칭될 수 있다. 이 경우에, 의도 분석 장치(400)는 제n 발화 데이터를 입력 받아 가상 대화 상태 및 실제 대화 상태를 출력할 수 있다. 보다 구체적으로, 가상 대화 상태 학습기(410)는 제n 발화 데이터로부터 매칭된 제1 가상 대화 상태 V1을 출력해내도록 기계 학습을 수행할 수 있다. 또한, 실제 대화 상태 학습기(420)는 제n 발화 데이터로부터 제3 실제 대화 상태 R10을 출력해내도록 기계 학습을 수행할 수 있다.
예시적으로, 1000개의 발화 데이터가 학습 데이터로서 이용되는 경우가 존재할 수 있다. 또한, 의도 분석 장치(400)가 지원하는 실제 대화 상태가 10개 및 가상 대화 상태가 2개 존재할 수 있다. 의도 분석 장치(400)는 가상 대화 상태에 저장된 복수의 발화 데이터를 샘플링하여 실제 대화 상태를 학습하는데 이용할 수 있다. 보다 구체적으로, 의도 분석 장치(400)에 포함되는 샘플링부는 가상 대화 상태를 이용하여 실제 대화 상태를 학습하는데 이용되는 복수의 발화 데이터의 개수를 제어할 수 있다. 예시적으로, 상기 샘플링 비율이 1로 결정된 경우에는, 10개의 실제 대화 상태를 학습하는데 각각 100개의 발화 데이터가 학습에 이용될 수 있다. 하지만, 1000개의 발화 데이터 전체는 가상 대화 상태로서 학습되는 특징값 추출을 위한 학습 단계에 이용될 수 있다.
본 실시예에 따른 의도 분석 장치(400)는 샘플링 비율을 조정함으로써 다소 구체적인 상위 의도들에 관하여는 학습 데이터의 양을 조절하여 학습 시간에 소요되는 시간과 자원을 절약하는 효과를 기대할 수 있다. 또한, 의도 분석 장치(400)는 중복되는 의도에 관한 하위 의도 분석에 대해서는 전체의 발화 데이터를 이용하여 넓게 분류된 가상 대화 상태를 통해 빠르고 정확하게 학습을 구현해낼 수 있다.
본 실시예에 따른 의도 분석 장치(400)는 복수의 발화 데이터에 연관되는 중복되는 의도는 가상 대화 상태로서 학습하고, 상기 복수의 발화 데이터 각각에 연관되는 구체적인 의도에 관한 정보는 실제 대화 상태로서 학습할 수 있다. 위와 같은 학습 방식에 따라 구현된 의도 분석 장치(400)는 발화 데이터가 입력된 경우에, 학습된 결과 데이터를 적용하여 중복되는 의도에 관한 특징값을 추출하고, 구체적인 의도에 관한 상태값을 적용하여 보다 정확하게 사용자 의도의 확률 분포를 계산해낼 수 있다.
도 5는 일실시예에 따른 의도 분석 장치를 나타내는 블록도이다. 도 5를 참조하면, 의도 분석 장치(500)는 추출부(510), 확인부(520) 및 계산부(530)를 포함할 수 있다. 추출부(510)는 입력되는 음성 신호에 음향 모델 기반의 음성 인식 방법을 적용하여 생성된 텍스트 입력으로부터 특징값을 추출할 수 있다. 보다 구체적으로, 추출부(510)는 미리 학습된 결과 데이터를 상기 입력들에 적용하여 특징값을 추출할 수 있다. 예시적으로, 상기 미리 학습된 결과 데이터는 의도 분석 장치(500)에 포함되는 메모리에 저장될 수 있다. 상기 결과 데이터는 앞서 기재한 실시예들과 같이 가상 대화 상태 및 실제 대화 상태로 페어링(pairing)된 복수의 발화 데이터를 이용하여 기계 학습된 결과 데이터를 나타낼 수 있다.
확인부(520)는 상기 입력들에 연관되는 적어도 하나의 상태값을 확인할 수 있다. 일실시예로서, 확인부(520)는 상기 입력들에 연관되어 실행 중인 응용 프로그램의 식별자 및 상기 응용 프로그램의 상태 중 적어도 하나를 상기 상태값으로서 확인할 수 있다. 예시적으로 상기 응용 프로그램의 상태는 상기 응용 프로그램이 실행 중인 명령어일 수 있다. 다른 일실시예로서, 확인부(520)는 상기 입력들에 연관되는 응용 프로그램을 실행하는 전자 기기의 식별자 및 상기 전자 기기의 상태 중 적어도 하나를 상기 상태값으로서 확인할 수 있다. 보다 구체적으로, 상기 상태값은 상기 입력들에 연관되어 실행 중인 응용 프로그램이 실행 가능한 복수의 명령 및 상기 복수의 명령을 실행하는 복수의 도메인 중 적어도 하나에 의해 정의될 수 있다. 또 다른 일실시예로서, 확인부(520)는 상기 입력들에 연관되어 실행 중인 응용 프로그램이 상기 음성 신호가 입력되기 이전에 수행된 제1 명령에 따라 정의되는 상기 상태값을 확인할 수 있다.
계산부(530)는 상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 사용자의 발화에 대응하는 사용자 의도의 확률 분포를 계산할 수 있다. 보다 구체적으로, 계산부(530)는 복수의 발화 데이터 각각에 포함되는 중복되는 의도를 이용하여 분리된 가상 대화 상태 및 상기 복수의 발화 데이터가 실제 발화되는 의도를 이용하여 분리된 실제 대화 상태를 이용하여 학습될 수 있다. 학습 과정에 대해서는 앞서 도 4와 함께 기재된 설명이 그대로 적용될 수 있어 중복되는 설명은 생략하기로 한다.
도 6은 일실시예에 따라 사용자에게 대화 에이전트를 제공하는 전자 기기를 나타내는 블록도이다. 도 6을 참조하면, 전자 기기(600)는 센싱부(610), 프로세서(620) 및 디스플레이(630)를 포함할 수 있다. 센싱부(610)는 사용자의 발화에 따라 입력되는 음성 신호를 획득할 수 있다. 예시적으로, 센싱부(610)는 마이크로폰으로 구현되어, 사용자로부터 전달되는 음성 신호를 획득할 수 있다.
프로세서(620)는 상기 입력된 음성 신호에 음향 모델 기반의 음성 인식을 수행하여, 그 결과 데이터로서 텍스트 입력을 출력할 수 있다. 음향 모델 기반의 음성 인식 방법에 관한 구체적인 설명은 기술 분야의 전문가에게는 straight forward한 내용이므로 자세한 설명은 생략하기로 한다. 또한, 프로세서(620)는 상기 텍스트 입력에 미리 기계 학습된 결과를 적용할 수 있다. 예시적으로, 상기 학습된 결과는 가상 대화 상태 및 실제 대화 상태로 페어링된 복수의 발화 데이터를 이용하여 기계 학습을 수행한 결과 데이터를 나타낼 수 있다. 프로세서(620)는 상기 미리 기계 학습된 결과를 이용하여 상기 텍스트 입력에 연관되는 특징값을 추출할 수 있다. 또한, 프로세서(620)는 전자 기기(600)가 실행하는 응용 프로그램에 연관되는 적어도 하나의 상태값을 확인할 수 있다. 프로세서(620)는 상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 상기 음성 신호에 대응하는 사용자 의도의 확률 분포를 계산할 수 있다.
디스플레이(630)는 상기 추출된 속성에 대응하는 태스크의 실행 결과를 상기 사용자에게 출력할 수 있다. 예시적으로, 사용자의 발화가 "알람 7시로 설정해."에 연관되는 경우, 프로세서(620)는 사용자의 발화에 연관되는 "알람", "7시" 및 "설정"이라는 특징값을 추출하고, 시간 설정이 수행 중인 스케쥴링 프로그램에 관한 상태를 상태값으로서 확인할 수 있다. 위와 같은 특징값 및 상태값에 기초하여 프로세서(620)는 "알람 7시로 설정해."에 연관되는 사용자 의도의 확률 분포를 계산해낼 수 있다. 디스플레이(630)는 입력된 음성 신호 또는 상기 텍스트 입력에 대응하는 태스크로서, 7시로 알람이 설정된 화면을 사용자에게 출력할 수 있다. 본 실시예는 다른 실시예의 범위를 한정하거나 제한하는 것으로 해석되어서는 안되고, 이를테면 디스플레이(630)를 통해 전자 기기(600)내에 저장된 동영상이 재생되거나 사용자에 연관되는 일정이 출력되는 등과 같이 다양한 형태의 태스크의 실행 결과가 출력될 수 있을 것이다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (16)

  1. 컴퓨터 구현되는:
    입력되는 음성 신호에 대응하는 텍스트(text) 입력으로부터 특징값을 추출하는 추출부;
    상기 입력들에 연관되는 적어도 하나의 상태값을 확인하는 확인부; 및
    상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 상기 음성 신호에 대응하는 사용자 의도의 확률 분포를 계산하는 계산부
    를 포함하는 의도 분석 장치.
  2. 제1항에 있어서,
    상기 확인부는 상기 입력들에 연관되어 실행 중인 응용 프로그램의 식별자 및 상기 응용 프로그램의 상태 중 적어도 하나를 상기 상태값으로서 확인하는 의도 분석 장치.
  3. 제1항에 있어서,
    상기 확인부는 상기 입력들에 연관되는 응용 프로그램을 실행하는 전자 기기의 식별자 및 상기 전자 기기의 상태 중 적어도 하나를 상기 상태값으로서 확인하는 의도 분석 장치.
  4. 제1항에 있어서,
    상기 확인부는 상기 입력들에 연관되어 실행 중인 응용 프로그램이 실행 가능한 복수의 명령(command)에 의해 정의되는 상기 상태값을 확인하는 의도 분석 장치.
  5. 제4항에 있어서,
    상기 확인부는 상기 응용 프로그램이 상기 복수의 명령을 실행하는 복수의 도메인(domain)에 의해 정의되는 상기 상태값을 확인하는 의도 분석 장치.
  6. 제1항에 있어서,
    상기 확인부는 상기 입력들에 연관되어 실행 중인 응용 프로그램이 상기 음성 신호가 입력되기 이전에 수행된 제1 명령에 따라 정의되는 상기 상태값을 확인하는 의도 분석 장치.
  7. 제1항에 있어서,
    상기 계산부는 복수의 발화 데이터 각각에 포함되는 중복되는 의도를 이용하여 분리된 가상 대화 상태 및 상기 복수의 발화 데이터가 실제 발화되는 의도를 이용하여 분리된 실제 대화 상태를 학습 데이터로서 이용하여 학습되는 의도 분석 장치.
  8. 제1항에 있어서,
    상기 확인부는 사용자에 의해 실행되는 복수의 명령의 히스토리 정보를 상기 상태값으로서 확인하는 의도 분석 장치.
  9. 컴퓨터 구현되는:
    복수의 발화 데이터 각각에 포함되는 중복되는 사용자 의도를 이용하여 가상 대화 상태를 결정하는 제1 결정부; 및
    상기 복수의 발화 데이터에 연관되는 실제 대화 상태를 결정하는 제2 결정부
    를 포함하는 의도 분석 장치.
  10. 제9항에 있어서,
    상기 제1 결정부는 복수의 발화 데이터 각각에 연관되는 도메인 및 실행되는 명령 중 적어도 하나에 기초하여 미리 정의된 복수의 가상 대화 상태 중 어느 하나와 매칭하는 의도 분석 장치.
  11. 제9항에 있어서,
    상기 의도 분석 장치는 복수의 발화 데이터를 입력 데이터로서 이용하고, 상기 가상 대화 상태 및 상기 실제 대화 상태를 출력 데이터로서 이용하는 기계 학습을 통해 학습되는 의도 분석 장치.
  12. 제11항에 있어서,
    상기 복수의 발화 데이터 각각이 연관되는 상기 가상 대화 상태를 이용하여 상기 실제 대화 상태를 학습하는데 이용되는 상기 복수의 발화 데이터의 개수를 샘플링 비율로서 결정하는 샘플링부
    를 더 포함하는 의도 분석 장치.
  13. 사용자와의 대화 에이전트를 제공하는 전자 기기에 있어서,
    상기 사용자의 발화에 따라 입력되는 음성 신호를 획득하는 센싱부;
    상기 음성 신호에 대응하는 텍스트 입력에 미리 기계 학습된 결과를 적용하여 상기 텍스트 입력에 연관되는 특징값을 추출하고, 상기 전자 기기가 실행하는 응용 프로그램에 연관되는 적어도 하나의 상태값을 확인하고, 상기 특징값 및 상기 적어도 하나의 상태값을 이용하여 상기 사용자의 발화에 대응하는 사용자 의도의 확률 분포를 계산하는 프로세서; 및
    상기 사용자 의도에 대응하는 태스크의 실행 결과를 상기 사용자에게 출력하는 디스플레이
    를 포함하는 전자 기기.
  14. 제13항에 있어서,
    상기 프로세서는 상기 입력들에 연관되어 상기 전자 기기가 실행 중인 응용 프로그램의 식별자 및 상기 응용 프로그램의 상태 중 적어도 하나를 상기 상태값으로서 확인하는 전자 기기.
  15. 제13항에 있어서,
    상기 프로세서는 상기 입력들에 연관되는 응용 프로그램을 실행하는 상기 전자 기기의 식별자 및 상기 전자 기기의 상태 중 적어도 하나를 상기 상태값으로서 확인하는 전자 기기.
  16. 제13항에 있어서,
    상기 프로세서는 상기 입력들에 연관되어 실행 중인 응용 프로그램이 상기 음성 신호가 입력되기 이전에 수행된 제1 명령에 따라 정의되는 상기 상태값을 확인하는 전자 기기.
KR1020160149552A 2016-11-10 2016-11-10 음성 인식 장치 및 방법 KR20180052347A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160149552A KR20180052347A (ko) 2016-11-10 2016-11-10 음성 인식 장치 및 방법
US15/625,861 US10490184B2 (en) 2016-11-10 2017-06-16 Voice recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160149552A KR20180052347A (ko) 2016-11-10 2016-11-10 음성 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20180052347A true KR20180052347A (ko) 2018-05-18

Family

ID=62063981

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160149552A KR20180052347A (ko) 2016-11-10 2016-11-10 음성 인식 장치 및 방법

Country Status (2)

Country Link
US (1) US10490184B2 (ko)
KR (1) KR20180052347A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200023049A (ko) * 2018-08-24 2020-03-04 네이버 주식회사 딥러닝 생성모델과 다중모달 분포를 이용하여 멀티턴 대화 응답을 생성하는 방법 및 시스템
WO2022177165A1 (ko) * 2021-02-19 2022-08-25 삼성전자주식회사 음성 인식 결과를 분석하는 전자 장치 및 방법
WO2023088061A1 (zh) * 2021-11-16 2023-05-25 华为技术有限公司 智能设备控制方法及电子设备

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US10079024B1 (en) * 2016-08-19 2018-09-18 Amazon Technologies, Inc. Detecting replay attacks in voice-based authentication
US11093716B2 (en) * 2017-03-31 2021-08-17 Nec Corporation Conversation support apparatus, conversation support method, and computer readable recording medium
US20190027147A1 (en) * 2017-07-18 2019-01-24 Microsoft Technology Licensing, Llc Automatic integration of image capture and recognition in a voice-based query to understand intent
KR102043038B1 (ko) * 2017-12-12 2019-11-11 슈어소프트테크주식회사 음성 정보에 기반한 정적 분석 수행 방법 및 장치
US11258902B2 (en) * 2018-10-02 2022-02-22 Verint Americas Inc. Partial automation of text chat conversations
CN109635105A (zh) * 2018-10-29 2019-04-16 厦门快商通信息技术有限公司 一种中文文本多意图识别方法及系统
CN109543190B (zh) * 2018-11-29 2023-06-16 北京羽扇智信息科技有限公司 一种意图识别方法、装置、设备及存储介质
US11586980B2 (en) 2019-01-18 2023-02-21 Verint Americas Inc. IVA performance dashboard and interactive model and method
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
US11620895B2 (en) * 2020-08-05 2023-04-04 Allstate Insurance Company Systems and methods for disturbance detection and identification based on disturbance analysis
CN112100339A (zh) * 2020-11-04 2020-12-18 北京淇瑀信息科技有限公司 用于智能语音机器人的用户意图识别方法、装置和电子设备
CN114694645A (zh) * 2020-12-31 2022-07-01 华为技术有限公司 一种确定用户意图的方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3949356B2 (ja) 2000-07-12 2007-07-25 三菱電機株式会社 音声対話システム
KR100571443B1 (ko) 2003-10-20 2006-04-14 주식회사 다이퀘스트 Cca 구조를 이용한 다매체 정보제공 대화 에이전트시스템 및 방법
JP2005149329A (ja) 2003-11-18 2005-06-09 Fuji Xerox Co Ltd 意図抽出支援装置およびこれを用いた操作性評価システムならびにこれらに用いられるプログラム
KR100764174B1 (ko) * 2006-03-03 2007-10-08 삼성전자주식회사 음성 대화 서비스 장치 및 방법
US7664644B1 (en) 2006-06-09 2010-02-16 At&T Intellectual Property Ii, L.P. Multitask learning for spoken language understanding
KR101322486B1 (ko) 2007-06-28 2013-10-25 주식회사 케이티 범용 대화서비스 장치 및 그 방법
US9519636B2 (en) * 2008-10-15 2016-12-13 Business Objects S.A. Deduction of analytic context based on text and semantic layer
JP2010224194A (ja) 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
US8676565B2 (en) 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
EP2839391A4 (en) 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
KR101359718B1 (ko) 2012-05-17 2014-02-13 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
WO2014083945A1 (ja) * 2012-11-30 2014-06-05 三菱電機株式会社 意図推定装置および意図推定方法
US9311915B2 (en) * 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
JP6475426B2 (ja) 2014-06-05 2019-02-27 クラリオン株式会社 意図推定装置、及び、モデルの学習方法
KR101565143B1 (ko) 2014-06-30 2015-11-02 동아대학교 산학협력단 대화시스템에서 사용자 발화의 정보 분류를 위한 자질 가중치 산출 장치 및 방법
US9705832B2 (en) * 2014-08-27 2017-07-11 Lenovo (Singapore) Pte. Ltd. Context-aware aggregation of text-based messages
KR101624184B1 (ko) 2015-03-11 2016-06-07 연세대학교 산학협력단 에이전트 시스템을 위한 행동학습 모델의 의도-대응 인터페이스 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200023049A (ko) * 2018-08-24 2020-03-04 네이버 주식회사 딥러닝 생성모델과 다중모달 분포를 이용하여 멀티턴 대화 응답을 생성하는 방법 및 시스템
WO2022177165A1 (ko) * 2021-02-19 2022-08-25 삼성전자주식회사 음성 인식 결과를 분석하는 전자 장치 및 방법
WO2023088061A1 (zh) * 2021-11-16 2023-05-25 华为技术有限公司 智能设备控制方法及电子设备

Also Published As

Publication number Publication date
US10490184B2 (en) 2019-11-26
US20180130463A1 (en) 2018-05-10

Similar Documents

Publication Publication Date Title
KR20180052347A (ko) 음성 인식 장치 및 방법
KR102597571B1 (ko) 자동으로 액션 그룹을 커스터마이징하도록 구성된 가상 어시스턴트
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
KR102369416B1 (ko) 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템
KR102541718B1 (ko) 키 문구 사용자 인식의 증강
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
US9063704B2 (en) Identifying gestures using multiple sensors
KR101828273B1 (ko) 결합기반의 음성명령 인식 장치 및 그 방법
CN112970059B (zh) 用于处理用户话语的电子装置及其控制方法
US10096321B2 (en) Reverberation compensation for far-field speaker recognition
KR20160089145A (ko) 음성 인식 방법 및 음성 인식 장치
US20200219499A1 (en) Methods and systems for managing voice commands and the execution thereof
KR20180025634A (ko) 음성 인식 장치 및 방법
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
CN114097030A (zh) 区分语音命令
CN103811006A (zh) 用于语音识别的方法和装置
CN111279296A (zh) 使用隐式路由来创建模块化对话
US11763819B1 (en) Audio encryption
KR20180096483A (ko) 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
EP4310838A1 (en) Speech wakeup method and apparatus, and storage medium and system
US20190362709A1 (en) Offline Voice Enrollment
JP2021179642A (ja) 音声インタラクティブの処理方法、装置、電子機器、記憶媒体及びプログラム
KR20190062982A (ko) 전자 장치 및 전자 장치의 동작 방법
US10431236B2 (en) Dynamic pitch adjustment of inbound audio to improve speech recognition
KR20200063886A (ko) 자연어 처리 기반 콜센터 지원 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination