KR102268376B1 - 다중 언어 대화 서비스 제공 장치 및 방법 - Google Patents

다중 언어 대화 서비스 제공 장치 및 방법 Download PDF

Info

Publication number
KR102268376B1
KR102268376B1 KR1020190113676A KR20190113676A KR102268376B1 KR 102268376 B1 KR102268376 B1 KR 102268376B1 KR 1020190113676 A KR1020190113676 A KR 1020190113676A KR 20190113676 A KR20190113676 A KR 20190113676A KR 102268376 B1 KR102268376 B1 KR 102268376B1
Authority
KR
South Korea
Prior art keywords
dialogue
language
multilingual
service
response
Prior art date
Application number
KR1020190113676A
Other languages
English (en)
Other versions
KR20210032200A (ko
Inventor
성주원
장두성
정진욱
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020190113676A priority Critical patent/KR102268376B1/ko
Publication of KR20210032200A publication Critical patent/KR20210032200A/ko
Application granted granted Critical
Publication of KR102268376B1 publication Critical patent/KR102268376B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

다중 언어 대화 서비스 제공 장치 및 방법이 제공된다. 다중 언어 대화 서비스 제공 장치는, 사용자가 발화한 음성을 입력 받은 음성 입력 모듈; 언어 별로 상기 음성에 대한 음성 인식을 수행하고, 상기 음성 인식의 결과에 기초하여 N-best 결과를 출력하는 다중 언어 음성 인식 모듈; 언어 별로 상기 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하고, 상기 대화 해석의 성공 여부를 출력하는 다중 언어 대화 해석 모듈; 상기 N-best 결과 및 상기 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 판단하고, 상기 대화 추론 신뢰도에 따라 상기 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하고, 상기 결정된 언어로 대화 응답을 생성하는 다중 언어 대화 응답 생성 모듈; 및 상기 생성한 대화 응답을 상기 사용자에게 제공하는 음성 출력 모듈을 포함한다.

Description

다중 언어 대화 서비스 제공 장치 및 방법{APPARATUS AND METHOD FOR PROVIDING MULTILINGUAL CONVERSATION SERVICE}
본 발명은 다중 언어 대화 서비스 제공 장치 및 방법에 관한 것이다.
인공지능에 기반한 음성 인식 기술의 발달에 따라 음성 인식 가상 비서 서비스 시장이 확대되고 있다. 음성 인식 가상 비서는 인공지능 알고리즘과 빅 데이터에 기반하여, 인공신경망 엔진을 이용하여 단어와 문장을 학습하고 발화자의 명령어를 컴퓨터가 이해할 수 있는 언어(즉 텍스트)로 자동 변환하는 ASR(Automatic Speech Recognition) 음성 인식 기술, 딥 러닝(deep learning)을 이용하여 다양한 유사 패턴을 학습함으로써 주어진 텍스트의 의미를 파악하는 NLU(Natural Language Understanding) 음성 이해 기술, 그리고 텍스트를 음성으로 변환하는 TTS(Text To Speech) 음성 합성 기술의 발달로 인간의 소통 수준에 도달하고 있다. 음성 인식 가상 비서가 구현된 대표적인 예로서 스마트 스피커가 있다.
사용자는 음성 인식 가상 비서 서비스를 이용하기 위해 음성으로 명령한다. 이에 따라 사용자는 원하는 명령을 복잡한 검색 단계를 거치지 않고 바로 실행할 수 있으며, 손과 눈이 자유로워져서 데이터를 쉽게 찾아볼 수 있다. 그런데 사용자에 따라 음성 인식 가상 비서 서비스가 인식해야 하는 언어의 종류는 다양할 수 있다. 따라서 음성 인식 가상 비서 서비스는 사용자의 언어의 종류를 지능적으로 인지하고, 인지한 언어로 답변을 제공하는 등 인지된 언어에 부합하는 서비스를 제공할 필요가 있다.
본 발명이 해결하고자 하는 과제는 언어 인지의 정확도를 높일 수 있는 다중 언어 대화 서비스 제공 장치 및 방법을 제공하는 것이다.
본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치는, 사용자가 발화한 음성을 입력 받은 음성 입력 모듈, 언어 별로 음성에 대한 음성 인식을 수행하고, 음성 인식의 결과에 기초하여 N-best 결과를 출력하는 다중 언어 음성 인식 모듈, 언어 별로 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하고, 대화 해석의 성공 여부를 출력하는 다중 언어 대화 해석 모듈, N-best 결과 및 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 판단하고, 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하고, 결정된 언어로 대화 응답을 생성하는 다중 언어 대화 응답 생성 모듈, 및 생성한 대화 응답을 사용자에게 제공하는 음성 출력 모듈을 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 다중 언어 대화 해석 모듈은, N-best 결과 중 대화 해석을 수행할 범위를 결정하고, 결정된 범위에 대해 대화 해석을 수행할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 이상인 경우, 다중 언어 대화 해석 모듈은 1-best 언어에 대해서만 대화 해석을 수행할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 미만인 경우, 다중 언어 대화 해석 모듈은 N-best 결과 전부에 대해 순차적으로 대화 해석을 수행할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어에 대해서만 대화 해석이 수행된 경우, 다중 언어 대화 응답 생성 모듈은 1-best 언어를 대화 서비스 언어로 결정할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 복수의 언어에 대해 대화 해석이 수행된 경우, 다중 언어 대화 응답 생성 모듈은 대화 해석의 성공 여부 및 대화 추론 신뢰도에 기초하여 대화 서비스 언어를 결정할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어에 대해 대화 해석이 모두 성공한 경우, 다중 언어 대화 응답 생성 모듈은 음성 인식을 재수행하기 위해 사용자에게 재발화를 요청하기 위한 응답을 생성할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 이상인 경우, 다중 언어 대화 응답 생성 모듈은 사용자에게 대화 서비스 언어를 변경할 것인지 질의하는 응답을 생성할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 미만인 경우, 다중 언어 대화 응답 생성 모듈은 복수의 언어로 가이드 발화를 출력하기 위한 응답을 생성할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어 중 복수의 언어에 대해 대화 해석이 성공한 경우, 다중 언어 대화 응답 생성 모듈은 사용자에게 대화 서비스 언어로 사용할 언어를 선택하기 위한 요청을 출력하기 위한 응답을 생성할 수 있다.
본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 방법은, 사용자가 발화한 음성을 입력 받는 단계, 언어 별로 음성에 대한 음성 인식을 수행하는 단계, 음성 인식의 결과에 기초하여 N-best 결과를 출력하는 단계, 언어 별로 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하는 단계, 대화 해석의 성공 여부를 출력하는 단계, N-best 결과 및 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 판단하는 단계, 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하는 단계, 결정된 언어로 대화 응답을 생성하는 단계, 및 생성한 대화 응답을 사용자에게 제공하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 대화 해석을 수행하는 단계는, N-best 결과 중 대화 해석을 수행할 범위를 결정하고, 결정된 범위에 대해 대화 해석을 수행하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 이상인 경우, 대화 해석을 수행하는 단계는, 1-best 언어에 대해서만 대화 해석을 수행하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 미만인 경우, 대화 해석을 수행하는 단계는, N-best 결과 전부에 대해 순차적으로 대화 해석을 수행하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어에 대해서만 대화 해석이 수행된 경우, 대화 서비스 언어를 결정하는 단계는, 1-best 언어를 대화 서비스 언어로 결정하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, N-best 결과 중 복수의 언어에 대해 대화 해석이 수행된 경우, 대화 서비스 언어를 결정하는 단계는, 대화 해석의 성공 여부 및 대화 추론 신뢰도에 기초하여 대화 서비스 언어를 결정하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어에 대해 대화 해석이 모두 성공한 경우, 대화 응답을 생성하는 단계는, 음성 인식을 재수행하기 위해 사용자에게 재발화를 요청하기 위한 응답을 생성하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 이상인 경우, 대화 응답을 생성하는 단계는, 사용자에게 대화 서비스 언어를 변경할 것인지 질의하는 응답을 생성하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 미만인 경우, 대화 응답을 생성하는 단계는, 복수의 언어로 가이드 발화를 출력하기 위한 응답을 생성하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 복수의 언어 중 복수의 언어에 대해 대화 해석이 성공한 경우, 대화 응답을 생성하는 단계는, 사용자에게 대화 서비스 언어로 사용할 언어를 선택하기 위한 요청을 출력하기 위한 응답을 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 음성 인식 결과와, 음성 인식이 수행된 텍스트에 대한 대화 해석 결과를 모두 고려하여 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 정확하게 결정할 수 있다.
또한, 본 발명의 일 실시 예에 따르면, 서비스 제공 중 사용자와의 대화를 통해 대화 서비스 언어를 적절히 변경하거나 다중 언어 대화 서비스 제공 장치의 디폴트 언어를 변경하여, 언어 인지의 정확도를 더 높일 수 있으며, 동시에 사용자 편의성을 증대시킬 수 있다.
도 1은 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치를 설명하기 위한 개념도이다.
도 2는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치의 다중 언어 음성 인식 모듈을 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치의 다중 언어 대화 해석 모듈을 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치의 다중 언어 대화 응답 생성 모듈을 설명하기 위한 블록도이다.
도 6 내지 도 9는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 방법을 설명하기 위한 순서도들이다.
도 10은 본 발명의 다른 실시 예에 따른 다중 언어 대화 서비스 제공 장치를 설명하기 위한 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치를 설명하기 위한 개념도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치(10)는 사용자에게 음성 인식 가상 비서 서비스를 제공할 수 있다.
구체적으로, 다중 언어 대화 서비스 제공 장치(10)는 ASR 음성 인식 기술, NLU 음성 이해 기술 및 TTS 음성 합성 기술 등을 이용하여, 사용자, 즉 발화자의 명령을 컴퓨터가 이해할 수 있는 텍스트로 변환하고, 변환한 텍스트의 의미를 해석하여 발화자의 의도를 파악한 후 적절한 서비스를 제공하며, 발화자에게 대화 응답을 제공할 수 있다.
본 실시 예에서, 다중 언어 대화 서비스 제공 장치(10)는 스마트 스피커, 스마트 폰, 스마트 워치, 무선 이어폰, 드론 등일 수 있으나 이에 제한되지 않으며, 음성을 인지하고 서비스를 처리할 수 있도록 설계된 임의의 컴퓨터 장치로 구현될 수 있다.
음성 인식 가상 비서 서비스를 제공하기 위해 필요한, 전술한 ASR 음성 인식 기술, NLU 음성 이해 기술 및 TTS 음성 합성 기술 등은 다중 언어 대화 서비스 제공 장치(10) 내에 구현될 수도 있고, 다중 언어 대화 서비스 제공 장치(10)와 네트워크를 통해 연결되는 서버(20) 내에 구현될 수도 있다. 뿐만 아니라, 음성 인식 가상 비서 서비스를 제공하기 위해 필요한 기술들의 일부는 다중 언어 대화 서비스 제공 장치(10) 내에 구현되고, 다른 일부는 서버(20) 내에 구현될 수도 있다. 본 실시 예에서, 네트워크는 LAN(Local Area Network)를 비롯한 유선 네트워크, Wi-Fi 네트워크, 셀룰러 네트워크를 비롯한 무선 네트워크, 또는 유선 네트워크와 무선 네트워크의 조합을 포함할 수 있다.
다중 언어 대화 서비스 제공 장치(10)는 사용자로부터 음성으로 제공되는 명령을 수신한다. 다중 언어 대화 서비스 제공 장치(10)는 예를 들어 전술한 기술들을 이용하여 입력된 음성 스트림을 텍스트로 분석 변환하고, 변환된 텍스트에 대해 자연어 처리를 수행하여 그 의미를 해석한 후, 답변을 추론하는 과정을 통해 사용자에게 음성 인식 가상 비서 서비스를 제공할 수 있다.
그런데 사용자의 언어 종류는 다양할 수 있으며, 입력된 음성 스트림으로부터 사용자의 언어 종류를 인지하는 것만으로는 언어 인지의 정확도가 높다고 볼 수 없고, 이후 사용자와의 대화가 진행되는 과정에서 언어 인지 오류가 발생할 가능성이 적지 않다.
다중 언어 대화 서비스 제공 장치(10)는 음성 인식 결과와, 음성 인식이 수행된 텍스트에 대한 대화 해석 결과를 모두 고려하는 방식으로 언어 인지의 정확도를 높일 수 있으며, 이에 대한 상세한 내용을 아래에서 설명하도록 한다.
도 2는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치를 설명하기 위한 블록도이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치(10)는 음성 입력 모듈(110), 다중 언어 음성 인식 모듈(120), 다중 언어 대화 해석 모듈(130), 다중 언어 대화 응답 생성 모듈(140), 음성 출력 모듈(150) 및 설정 변경 모듈(160)을 포함할 수 있다.
음성 입력 모듈(110)은 사용자가 발화한 음성을 입력 받을 수 있다. 즉, 음성 입력 모듈(110)은 사용자로부터 음성으로 제공되는 명령을 수신할 수 있다. 해당 음성은 사용자에 따라 다른 언어에 해당할 수 있다.
다중 언어 음성 인식 모듈(120)은 언어 별로 음성에 대한 음성 인식을 수행하고, 음성 인식의 결과에 기초하여 N-best 결과를 출력할 수 있다.
구체적으로, 다중 언어 음성 인식 모듈(120)은 언어 별로 음성 인식기를 호출하여 음성 인식을 수행할 수 있다. 음성 인식기는 예를 들어 ASR 음성 인식 기술을 이용하여 발화된 음성을 인식하고, 인식한 결과를 다중 언어 대화 서비스 제공 장치(10)가 이해할 수 있는 텍스트로 변환할 수 있다.
음성 인식기는 언어 별로 복수 개 존재할 수 있다. 음성 인식기는 다중 언어 대화 서비스 제공 장치(10) 내에 구현될 수도 있고, 도 1에 도시된 서버(20)에 구현될 수도 있다. 또한, 일부 언어에 대한 음성 인식기는 다중 언어 대화 서비스 제공 장치(10) 내에 구현되고, 다른 일부 언어에 대한 음성 인식기는 서버(20)에 구현될 수도 있다.
다중 언어 음성 인식 모듈(120)이 음성 인식을 수행한 결과는, 예컨대 다음과 같이 하나 이상의 후보를 포함하는 N-best 결과로 출력될 수 있다.
Figure 112019094418190-pat00001
여기서 하나 이상의 후보 각각은 후보 언어의 종류, 해당 후보 언어로 음성 인식이 수행된 텍스트 및 음성 인식의 신뢰도를 포함할 수 있다. 예를 들어, 전술한 N-best 결과에서 1-best에 해당하는 1-best 후보는, 후보 언어(즉, 1-best 언어)가 한국어(ko)이고, 한국어(ko)로 음성 인식이 수행된 텍스트가 "안녕"이고, 해당 음성 인식의 신뢰도가 0.9로 출력될 수 있다. 또한, 전술한 N-best 결과에서 2-best에 해당하는 2-best 후보는, 후보 언어(즉, 2-best 언어)가 영어(en)이고, 영어(en)로 음성 인식이 수행된 텍스트가 "hello"이고, 해당 음성 인식의 신뢰도가 0.05로 출력될 수 있다. 그러나 N-best 후보의 구성 항목은 본 실시 예로 한정되는 것은 아니며, 구체적인 구현 목적에 따라 그 구성 항목은 얼마든지 달라질 수 있다.
다중 언어 대화 해석 모듈(130)은 언어 별로 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하고, 대화 해석의 성공 여부를 출력할 수 있다.
구체적으로, 다중 언어 대화 해석 모듈(130)은, N-best 결과 중 대화 해석을 수행할 범위를 결정하고, 결정된 범위에 대해 대화 해석을 수행할 수 있다. 매번 N-best의 모든 결과에 대해 대화 해석을 수행하는 경우, 다중 언어 대화 서비스 제공 장치(10)의 성능 저하가 발생할 수 있으며, 음성 인식 결과의 신뢰도가 압도적으로 높은 후보가 존재하는 경우라면 음성 인식 결과의 신뢰도가 낮은 후보에까지 대화 해석을 수행하는 것은 자원을 낭비하는 것이기 때문이다. 이와 같은 방식에 따라 다중 언어 대화 서비스 제공 장치(10)의 음성 인식 가상 비서 서비스의 언어 인식 정확도를 높이면서도 처리 속도와 성능을 양호하게 유지할 수 있다.
N-best 결과 중 대화 해석을 수행할 범위를 결정하는 것은, 예를 들어, 다중 언어 대화 서비스 제공 장치(10)에 기본 언어로 미리 설정되어 있거나, 다중 언어 대화 서비스 제공 장치(10)의 UI(User Interface) 화면에 표시되고 있는 디폴트(default) 언어와의 일치 여부, 음성 인식의 신뢰도와 같은 요소를 고려할 수 있다.
예를 들어, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어와 동일한 경우, 다중 언어 대화 해석 모듈(130)은 1-best 언어에 대해서만 대화 해석을 수행할 수 있다. 즉, 1-best 언어가 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어와 동일한 경우에는 음성 인식의 신뢰도는 고려하지 않을 수 있다.
다른 예로서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 이상인 경우, 다중 언어 대화 해석 모듈(130)은 1-best 언어에 대해서만 대화 해석을 수행할 수 있다. 즉, 1-best 언어의 음성 인식 신뢰도가 타 후보 언어에 비해 압도적으로 높다고 판단이 된 경우에는 1-best 언어가 사용자의 언어라고 가정하고 타 후보 언어에 대한 대화 해석을 생략할 수 있다.
또 다른 예로서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 미만인 경우, 다중 언어 대화 해석 모듈(130)은 N-best 결과 전부에 대해 순차적으로 대화 해석을 수행할 수 있다. 즉, 음성 인식 신뢰도가 타 후보 언어에 비해 압도적으로 높은 후보 언어가 존재하지 않는다고 판단이 된 경우에는 N-best 결과 전부를 분석할 수 있다.
물론, 이 경우, 구체적인 구현 목적에 따라, N-best 결과 일부에 대해 순차적으로 대화 해석을 수행할 수도 있고, N-best 결과 전부 또는 일부에 대해 구체적인 구현 목적에 따라 결정된 순서에 따라 대화 해석이 수행될 수도 있다.
다중 언어 대화 응답 생성 모듈(140)은 N-best 결과 및 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 판단하고, 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하고, 결정된 언어로 대화 응답을 생성할 수 있다.
전술한 대화 해석과 관련하여, N-best 결과 중 1-best에 해당하는 1-best 언어에 대해서만 대화 해석이 수행된 경우, 다중 언어 대화 응답 생성 모듈(140)은 1-best 언어를 대화 서비스 언어로 결정할 수 있다.
선택적으로, 결정된 대화 서비스 언어가, 다중 언어 대화 서비스 제공 장치(1)에 설정된 디폴트 언어와 상이한 경우, 다중 언어 대화 응답 생성 모듈(140)은 후술할 설정 변경 모듈(160)을 이용하여 디폴트 언어를 대화 서비스 언어로 변경할 수 있다. 이와 같이 디폴트 언어를 대화 서비스 언어로 변경함으로써, 이어지는 사용자와의 대화에 알맞은 언어로 음성 인식 가상 비서 서비스를 제공할 수 있다.
한편, 전술한 대화 해석과 관련하여, N-best 결과 중 복수의 언어에 대해 상기 대화 해석이 수행된 경우, 다중 언어 대화 응답 생성 모듈(140)은 대화 해석의 성공 여부 및 대화 추론 신뢰도에 기초하여 대화 서비스 언어를 결정할 수 있다.
대화 추론 신뢰도는, 서비스에 지배적인 핵심 키워드(Named Entity)와 명시적인 명령 어휘가 함께 등장하는지 여부, 핵심 키워드만 등장하는 경우 핵심 키워드가 전체 문장에서 차지하는 비율, 핵심 외 관련 키워드만 등장하는지 여부, 명령 어휘와 함께 정확하지는 않으나 음성 노이즈가 일부 섞인 유관 키워드가 포함되었다고 추정되는 경우에 해당하는지 여부 등에 기초하여 측정될 수 있다.
예를 들어, 복수의 언어에 대해 대화 해석이 모두 성공한 경우, 다중 언어 대화 응답 생성 모듈(140)은 음성 인식을 재수행하기 위해 사용자에게 재발화를 요청하기 위한 응답을 생성할 수 있다. 즉, 복수의 언어에 대해 대화 해석이 모두 성공한 경우 대화 응답 생성 모듈(140)은 특정 언어를 대화 서비스 언어로 결정하기 어려우므로 음성 인식을 통해 데이터를 수집하기 위해, 예컨대 미리 설정된 복수의 언어로 TTS 기술을 이용하여 사용자에게 재발화를 유도할 수 있다. 이후 다중 언어 대화 서비스 제공 장치(10)는 재발화를 통해 획득한 음성 스트림에 기초하여, 대화 서비스 언어를 결정하기 위한 전술한 방법들을 다시 수행할 수 있다.
다른 예로서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 이상인 경우, 다중 언어 대화 응답 생성 모듈(140)은 사용자에게 대화 서비스 언어를 변경할 것인지 질의하는 응답을 생성할 수 있다. 즉, 대화 해석에 성공한 언어에 대한 대화 추론 신뢰도가 비교적 높다고 판단된 경우, 다중 언어 대화 응답 생성 모듈(140)은 해당 언어를 대화 서비스 언어로 결정하기 위한 확인을 사용자에게 구할 수 있다. 사용자가 이에 동의하면, 다중 언어 대화 응답 생성 모듈(140)은 해당 언어를 대화 서비스 언어로 결정하고, 선택적으로 다중 언어 대화 서비스 제공 장치(1)에 설정된 디폴트 언어를 해당 언어로 변경할 수 있다.
또 다른 예로서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 미만인 경우, 다중 언어 대화 응답 생성 모듈(140)은 복수의 언어로 가이드 발화를 출력하기 위한 응답을 생성할 수 있다. 즉, 대화 해석에 성공한 언어에 대한 대화 추론 신뢰도가 비교적 낮다고 판단된 경우, 대화 응답 생성 모듈(140)은, 해석된 서비스 요청의 명확한 표준 발화 가이드를 매핑하여, 복수의 언어로 각각 가이드 발화를 출력할 수 있다. 예를 들어, 어느 하나의 언어에서 "시간은" 이라는 부분적인 의도만 해석이 된 경우, 영어, 중국어, 일본어 등 다른 복수의 언어로 "현재 시간을 알고 싶으면 시간 알려줘와 같이 다시 말씀해 주세요" 라는 가이드를 제공할 수 있다.
또 다른 예로서, 복수의 언어 중 복수의 언어에 대해 대화 해석이 성공한 경우, 다중 언어 대화 응답 생성 모듈(140)은 사용자에게 대화 서비스 언어로 사용할 언어를 선택하기 위한 요청을 출력하기 위한 응답을 생성할 수 있다. 즉, 다중 언어 대화 응답 생성 모듈(140)은 대화 해석에 성공한 언어들에 해석된 결과 중 사용자가 어떤 것을 원하는지 선택하도록, 해당 복수의 언어로 선택 요청의 대화 응답을 출력할 수 있다. 예를 들어, 영어로는 TV를 켜달라는 의도가 해석되고, 일본어로는 음악을 재생해 달라는 의도가 해석이 된 경우, 영어로 "TV 켜기를 원하시면 1번이라고 말씀해 주시고," 일본어로 "음악 재생을 원하시면 2번이라고 말씀해 주세요."라는 대화 응답을 사용자에게 제공할 수 있다.
또 다른 예로서, 복수의 언어에 대해 대화 해석이 모두 실패한 경우, 다중 언어 대화 응답 생성 모듈(140)은 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어로 알 수 없다는 발화를 출력하기 위한 응답을 생성할 수 있다. 즉, 다중 언어 대화 응답 생성 모듈(140)은 사용자에게 현재 다중 언어 대화 서비스 제공 장치(10)에 설정된 언어로는 무슨 말인지 모르겠다는 피드백을 출력할 수 있다.
음성 출력 모듈(150)은 생성한 대화 응답을 사용자에게 제공할 수 있다. 즉, 음성 출력 모듈(150)은 다중 언어 대화 응답 생성 모듈(140)에서 생성한 대화 응답을, 예컨대 TTS 기술을 이용하여 사용자에게 출력할 수 있다.
설정 변경 모듈(160)은 다중 언어 대화 서비스 제공 장치(10)의 설정을 변경할 수 있다.
구체적으로, 설정 변경 모듈(160)은 다중 언어 대화 서비스 제공 장치(10)의 디폴트 언어의 설정을 변경할 수 있다. 예를 들어, 다중 언어 대화 응답 생성 모듈(140)에 의해 결정된 대화 서비스 언어가, 다중 언어 대화 서비스 제공 장치(1)에 설정된 디폴트 언어와 상이한 경우, 설정 변경 모듈(160)은 디폴트 언어를 대화 서비스 언어로 변경할 수 있다.
그러나 설정 변경 모듈(160)의 다중 언어 대화 서비스 제공 장치(10)에 설정 변경 항목은 디폴트 언어에만 한정되는 것은 아니고, 구체적인 구현 목적에 따라 다중 언어 대화 서비스 제공 장치(10)의 다른 항목에 대한 설정 변경을 수행할 수도 있다.
본 실시 예에 따르면, 다중 언어 대화 서비스 제공 장치(10)는 음성 인식 결과와, 음성 인식이 수행된 텍스트에 대한 대화 해석 결과를 모두 고려하여 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 정확하게 결정할 수 있다. 뿐만 아니라, 서비스 제공 중 사용자와의 대화를 통해 대화 서비스 언어를 적절히 변경하거나 다중 언어 대화 서비스 제공 장치(10)의 디폴트 언어를 변경하여, 언어 인지의 정확도를 더 높일 수 있으며, 동시에 사용자 편의성을 증대시킬 수 있다.
이제 도 3 내지 도 5를 참조하여, 다중 언어 음성 인식 모듈(120), 다중 언어 대화 해석 모듈(130), 다중 언어 대화 응답 생성 모듈(140)의 세부 구성 요소에 대해 설명하도록 한다. 그러나 도 3 내지 도 5에 도시된 세부 구성 요소들은 일 구현 예에 불과하며, 다중 언어 음성 인식 모듈(120), 다중 언어 대화 해석 모듈(130), 다중 언어 대화 응답 생성 모듈(140)은 얼마든지 도 3 내지 도 5에 도시된 것과 다른 구성 요소를 포함하도록 구현될 수 있다.
도 3은 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치의 다중 언어 음성 인식 모듈을 설명하기 위한 블록도이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치(10)의 다중 언어 음성 인식 모듈(120)은 언어 별 음성 인식 모듈(122) 및 N-best 결과 출력 모듈(124)을 포함할 수 있다.
언어 별 음성 인식 모듈(122)은 언어 별로 음성에 대한 음성 인식을 수행하고, 인식한 결과를 다중 언어 대화 서비스 제공 장치(10)가 이해할 수 있는 텍스트로 변환할 수 있다.
N-best 결과 출력 모듈(124)은, 각각 후보 언어의 종류, 해당 후보 언어로 음성 인식이 수행된 텍스트 및 음성 인식의 신뢰도를 포함하는 하나 이상의 후보를 포함하는 N-best 결과를 출력할 수 있다.
언어 별 음성 인식 모듈(122) 및 N-best 결과 출력 모듈(124)에 대해 더욱 상세한 내용에 대해서는 도 2와 관련하여 전술한 내용을 참조할 수 있으며, 중복되는 내용에 대한 설명은 생략하도록 한다.
도 4는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치의 다중 언어 대화 해석 모듈을 설명하기 위한 블록도이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치(10)의 다중 언어 대화 해석 모듈(130)은 대화 해석 범위 결정 모듈(132), 언어 별 대화 해석 모듈(134) 및 대화 추론 신뢰도 산출 모듈(136)을 포함할 수 있다.
대화 해석 범위 결정 모듈(132)은, 예를 들어, 다중 언어 대화 서비스 제공 장치(10)에 기본 언어로 미리 설정되어 있거나, 다중 언어 대화 서비스 제공 장치(10)의 UI 화면에 표시되고 있는 디폴트 언어와의 일치 여부, 음성 인식의 신뢰도와 같은 요소를 고려 N-best 결과 중 대화 해석을 수행할 범위를 결정할 수 있다.
언어 별 대화 해석 모듈(134)은, 대화 해석 범위 결정 모듈(132)에 따른 범위 안에서, 변환된 텍스트에 대한 대화 해석, 예를 들어 언어 해석 및 대화 의도 해석을 수행할 수 있다.
대화 추론 신뢰도 산출 모듈(136)은 N-best 결과 및 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 결정할 수 있다.
대화 해석 범위 결정 모듈(132), 언어 별 대화 해석 모듈(134) 및 대화 추론 신뢰도 산출 모듈(136)에 대해 더욱 상세한 내용에 대해서는 도 2와 관련하여 전술한 내용을 참조할 수 있으며, 중복되는 내용에 대한 설명은 생략하도록 한다.
도 5는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치의 다중 언어 대화 응답 생성 모듈을 설명하기 위한 블록도이다.
도 5를 참조하면, 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치(10)의 다중 언어 대화 응답 생성 모듈(140)은 대화 응답 정책 결정 모듈(142), 대화 응답 템플릿 생성 모듈(144) 및 최종 출력 문장 생성 모듈(146)을 포함할 수 있다.
대화 응답 정책 결정 모듈(142)은 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하고, 사용자에 대한 대화 응답을 하기 위한 정책을 결정할 수 있다.
대화 응답 템플릿 생성 모듈(144)은 대화 응답 정책 결정 모듈(142)에 의해 결정된 대화 응답 정책에 부합하는 대화 응답 템플릿을 생성할 수 있다.
최종 출력 문장 생성 모듈(146)은 결정된 대화 응답 정책에 따라 생성된 대화 응답 템플릿을 이용하여 사용자에게 출력할 최종 출력 문장을 생성할 수 있다.
대화 응답 정책 결정 모듈(142), 대화 응답 템플릿 생성 모듈(144) 및 최종 출력 문장 생성 모듈(146)에 대해 더욱 상세한 내용에 대해서는 도 2와 관련하여 전술한 내용을 참조할 수 있으며, 중복되는 내용에 대한 설명은 생략하도록 한다.
도 6 내지 도 9는 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 방법을 설명하기 위한 순서도들이다.
도 6을 참조하면, 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 방법은, 사용자가 발화한 음성을 입력 받는 단계(S601), 언어 별로 상기 음성에 대한 음성 인식을 수행하는 단계 및 음성 인식의 결과에 기초하여 N-best 결과를 출력하는 단계(S603), 언어 별로 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하는 단계 및 대화 해석의 성공 여부를 출력하는 단계(S605), N-best 결과 및 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 판단하는 단계, 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하는 단계 및 결정된 언어로 대화 응답을 생성하는 단계(S607) 및 생성한 대화 응답을 사용자에게 제공하는 단계(S609)를 포함할 수 있다.
도 7을 참조하면, 단계(S603)는 언어 별로 음성 인식기를 호출하는 단계(S701), 음성 인식기를 이용하여 언어 별로 음성에 대한 음성 인식을 수행하는 단계(S703), 언어 별로 음성 인식의 신뢰도를 도출하는 단계(S705) 및 N-best 후보를 추출하여 그 결과를 출력하는 단계(S707)를 포함할 수 있다.
도 8을 참조하면, 단계(S605)는 N-best 결과 중 대화 해석을 수행할 대화 해석 범위를 결정하는 단계(S801), 대화 해석 범위에서 언어 해석을 수행하는 단계(S803), 대화 해석 범위에서 대화 의도 해석을 수행하는 단계(S805) 및 는 N-best 결과 및 대화 해석, 즉 언어 해석 및 대화 의도 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 산출하는 단계(S807)를 포함할 수 있다.
즉, 언어 별로 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하는 단계(S605)는, N-best 결과 중 대화 해석을 수행할 범위를 결정하고, 결정된 범위에 대해 대화 해석을 수행하는 단계를 포함할 수 있다.
이 경우, 본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어와 동일한 경우, 상기 대화 해석을 수행하는 단계는, 1-best 언어에 대해서만 대화 해석을 수행하는 단계를 포함할 수 있다.
한편, 본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 이상인 경우, 상기 대화 해석을 수행하는 단계는, 1-best 언어에 대해서만 대화 해석을 수행하는 단계를 포함할 수 있다.
한편, 본 발명의 몇몇의 실시 예에서, N-best 결과 중 1-best에 해당하는 1-best 언어가 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 미만인 경우, 상기 대화 해석을 수행하는 단계는, N-best 결과 전부에 대해 순차적으로 대화 해석을 수행하는 단계를 포함할 수 있다.
도 9를 참조하면, 단계(S607)는 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하고, 사용자에 대한 대화 응답을 하기 위한 정책을 결정하는 단계(S901), 결정된 대화 응답 정책에 따라 대화 응답 템플릿을 생성하는 단계(S903), 생성된 대화 응답 템플릿을 이용하여 사용자에게 출력할 최종 출력 문장을 생성하는 단계(S905) 및 대화 서비스 언어가 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어와 상이한 경우 다중 언어 대화 서비스 제공 장치(10)의 디폴트 언어의 설정을 변경하는 단계(S907)를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하는 단계(S607)는, N-best 결과 중 1-best에 해당하는 1-best 언어에 대해서만 대화 해석이 수행된 경우, 1-best 언어를 상기 대화 서비스 언어로 결정하는 단계를 포함할 수 있다.
한편, 대화 추론 신뢰도에 따라 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하는 단계(S607)는, N-best 결과 중 복수의 언어에 대해 대화 해석이 수행된 경우, 대화 해석의 성공 여부 및 대화 추론 신뢰도에 기초하여 대화 서비스 언어를 결정하는 단계를 포함할 수 있다.
이 경우, 본 발명의 몇몇의 실시 예에서, 복수의 언어에 대해 대화 해석이 모두 성공한 경우, 대화 응답을 생성하는 단계(S607)는, 음성 인식을 재수행하기 위해 사용자에게 재발화를 요청하기 위한 응답을 생성하는 단계를 포함할 수 있다.
한편, 본 발명의 몇몇의 실시 예에서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 이상인 경우, 대화 응답을 생성하는 단계(S607)는, 사용자에게 대화 서비스 언어를 변경할 것인지 질의하는 응답을 생성하는 단계를 포함할 수 있다.
한편, 본 발명의 몇몇의 실시 예에서, 복수의 언어 중 하나의 언어에 대해 대화 해석이 성공하고, 하나의 언어에 대한 대화 추론 신뢰도가 미리 정해진 임계치 미만인 경우, 대화 응답을 생성하는 단계(S607)는, 복수의 언어로 가이드 발화를 출력하기 위한 응답을 생성하는 단계를 포함할 수 있다.
한편, 본 발명의 몇몇의 실시 예에서, 복수의 언어에 대해 대화 해석이 모두 실패한 경우, 대화 응답을 생성하는 단계(S607)는, 다중 언어 대화 서비스 제공 장치(10)에 설정된 디폴트 언어로 알 수 없다는 발화를 출력하기 위한 응답을 생성하는 단계를 포함할 수 있다.
한편, 본 발명의 몇몇의 실시 예에서, 복수의 언어 중 복수의 언어에 대해 대화 해석이 성공한 경우, 대화 응답을 생성하는 단계(S607)는, 사용자에게 대화 서비스 언어로 사용할 언어를 선택하기 위한 요청을 출력하기 위한 응답을 생성하는 단계를 포함할 수 있다.
도 10은 본 발명의 다른 실시 예에 따른 다중 언어 대화 서비스 제공 장치를 설명하기 위한 블록도이다.
도 10을 참조하면, 본 발명의 일 실시 예에 따른 다중 언어 대화 서비스 제공 장치는 컴퓨터 시스템(40)으로 구현될 수 있다.
컴퓨터 시스템(40)은 버스(420)를 통해 통신하는 프로세서(410), 메모리(430), 사용자 인터페이스 입력 장치(440), 사용자 인터페이스 출력 장치(450) 및 저장 장치(460) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(40)은 또한 네트워크(30)에 전기적으로 접속되는 네트워크 인터페이스(470)를 포함할 수 있다. 네트워크 인터페이스(470)는 네트워크(30)를 통해 다른 개체와 신호를 송신 또는 수신할 수 있다.
프로세서(410)는 AP(Application Processor), 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(430) 또는 저장 장치(460)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(410)는 전술한 기능 및 방법들을 구현하도록 구성될 수 있다.
메모리(430) 및 저장 장치(460)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read-only memory)(431) 및 RAM(random access memory)(432)를 포함할 수 있다. 본 발명의 실시 예에서 메모리(430)는 프로세서(410)의 내부 또는 외부에 위치할 수 있고, 메모리(430)는 이미 알려진 다양한 수단을 통해 프로세서(410)와 연결될 수 있다.
또한, 본 발명의 다양한 실시 예에 따른 다중 언어 대화 서비스 제공 방법 중 적어도 일부는 컴퓨터 시스템(40)에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.
이제까지 설명한 본 발명의 다양한 실시 예에 따른 다중 언어 대화 서비스 제공 장치 및 방법에 따르면, 음성 인식 결과와, 음성 인식이 수행된 텍스트에 대한 대화 해석 결과를 모두 고려하여 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 정확하게 결정할 수 있다.
또한, 본 발명의 일 실시 예에 따르면, 서비스 제공 중 사용자와의 대화를 통해 대화 서비스 언어를 적절히 변경하거나 다중 언어 대화 서비스 제공 장치의 디폴트 언어를 변경하여, 언어 인지의 정확도를 더 높일 수 있으며, 동시에 사용자 편의성을 증대시킬 수 있다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (20)

  1. 사용자가 발화한 음성을 입력 받은 음성 입력 모듈;
    언어 별로 상기 음성에 대한 음성 인식을 수행하고, 상기 음성 인식의 결과에 기초하여 N-best 결과를 출력하는 다중 언어 음성 인식 모듈;
    언어 별로 상기 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하고, 상기 대화 해석의 성공 여부를 출력하는 다중 언어 대화 해석 모듈;
    상기 N-best 결과 및 상기 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 판단하고, 상기 대화 추론 신뢰도에 따라 상기 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하고, 상기 결정된 언어로 대화 응답을 생성하는 다중 언어 대화 응답 생성 모듈; 및
    상기 생성한 대화 응답을 상기 사용자에게 제공하는 음성 출력 모듈을 포함하는
    다중 언어 대화 서비스 제공 장치.
  2. 제1항에 있어서,
    상기 다중 언어 대화 해석 모듈은, 상기 N-best 결과 중 상기 대화 해석을 수행할 범위를 결정하고, 상기 결정된 범위에 대해 상기 대화 해석을 수행하는, 다중 언어 대화 서비스 제공 장치.
  3. 제2항에 있어서,
    상기 N-best 결과 중 1-best에 해당하는 1-best 언어가 상기 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 상기 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 이상인 경우, 상기 다중 언어 대화 해석 모듈은 상기 1-best 언어에 대해서만 상기 대화 해석을 수행하는, 다중 언어 대화 서비스 제공 장치.
  4. 제2항에 있어서,
    상기 N-best 결과 중 1-best에 해당하는 1-best 언어가 상기 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 상기 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 미만인 경우, 상기 다중 언어 대화 해석 모듈은 상기 N-best 결과 전부에 대해 순차적으로 상기 대화 해석을 수행하는, 다중 언어 대화 서비스 제공 장치.
  5. 제1항에 있어서,
    상기 N-best 결과 중 1-best에 해당하는 1-best 언어에 대해서만 상기 대화 해석이 수행된 경우, 상기 다중 언어 대화 응답 생성 모듈은 상기 1-best 언어를 상기 대화 서비스 언어로 결정하는, 다중 언어 대화 서비스 제공 장치.
  6. 제1항에 있어서,
    상기 N-best 결과 중 복수의 언어에 대해 상기 대화 해석이 수행된 경우, 상기 다중 언어 대화 응답 생성 모듈은 상기 대화 해석의 성공 여부 및 상기 대화 추론 신뢰도에 기초하여 상기 대화 서비스 언어를 결정하는, 다중 언어 대화 서비스 제공 장치.
  7. 제6항에 있어서,
    상기 복수의 언어에 대해 상기 대화 해석이 모두 성공한 경우, 상기 다중 언어 대화 응답 생성 모듈은 상기 음성 인식을 재수행하기 위해 사용자에게 재발화를 요청하기 위한 응답을 생성하는, 다중 언어 대화 서비스 제공 장치.
  8. 제6항에 있어서,
    상기 복수의 언어 중 하나의 언어에 대해 상기 대화 해석이 성공하고, 상기 하나의 언어에 대한 상기 대화 추론 신뢰도가 미리 정해진 임계치 이상인 경우, 상기 다중 언어 대화 응답 생성 모듈은 사용자에게 상기 대화 서비스 언어를 변경할 것인지 질의하는 응답을 생성하는, 다중 언어 대화 서비스 제공 장치.
  9. 제6항에 있어서,
    상기 복수의 언어 중 하나의 언어에 대해 상기 대화 해석이 성공하고, 상기 하나의 언어에 대한 상기 대화 추론 신뢰도가 미리 정해진 임계치 미만인 경우, 상기 다중 언어 대화 응답 생성 모듈은 복수의 언어로 가이드 발화를 출력하기 위한 응답을 생성하는, 다중 언어 대화 서비스 제공 장치.
  10. 제6항에 있어서,
    상기 복수의 언어 중 복수의 언어에 대해 상기 대화 해석이 성공한 경우, 상기 다중 언어 대화 응답 생성 모듈은 상기 사용자에게 상기 대화 서비스 언어로 사용할 언어를 선택하기 위한 요청을 출력하기 위한 응답을 생성하는, 다중 언어 대화 서비스 제공 장치.
  11. 사용자가 발화한 음성을 입력 받는 단계;
    언어 별로 상기 음성에 대한 음성 인식을 수행하는 단계;
    상기 음성 인식의 결과에 기초하여 N-best 결과를 출력하는 단계;
    언어 별로 상기 음성 인식이 수행된 텍스트에 대한 대화 해석을 수행하는 단계;
    상기 대화 해석의 성공 여부를 출력하는 단계;
    상기 N-best 결과 및 상기 대화 해석의 성공 여부에 기초하여 언어 별로 대화 추론 신뢰도를 판단하는 단계;
    상기 대화 추론 신뢰도에 따라 상기 사용자에게 대화 서비스를 제공하기 위한 대화 서비스 언어를 결정하는 단계;
    상기 결정된 언어로 대화 응답을 생성하는 단계; 및
    상기 생성한 대화 응답을 상기 사용자에게 제공하는 단계를 포함하는
    다중 언어 대화 서비스 제공 방법.
  12. 제11항에 있어서,
    상기 대화 해석을 수행하는 단계는,
    상기 N-best 결과 중 상기 대화 해석을 수행할 범위를 결정하고, 상기 결정된 범위에 대해 상기 대화 해석을 수행하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  13. 제12항에 있어서,
    상기 N-best 결과 중 1-best에 해당하는 1-best 언어가 상기 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 상기 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 이상인 경우, 상기 대화 해석을 수행하는 단계는, 상기 1-best 언어에 대해서만 상기 대화 해석을 수행하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  14. 제12항에 있어서,
    상기 N-best 결과 중 1-best에 해당하는 1-best 언어가 상기 다중 언어 대화 서비스 제공 장치에 설정된 디폴트 언어와 상이하고, 상기 1-best 언어에 대한 음성 인식의 신뢰도가 미리 정해진 임계치 미만인 경우, 상기 대화 해석을 수행하는 단계는, 상기 N-best 결과 전부에 대해 순차적으로 상기 대화 해석을 수행하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  15. 제11항에 있어서,
    상기 N-best 결과 중 1-best에 해당하는 1-best 언어에 대해서만 상기 대화 해석이 수행된 경우, 상기 대화 서비스 언어를 결정하는 단계는, 상기 1-best 언어를 상기 대화 서비스 언어로 결정하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  16. 제11항에 있어서,
    상기 N-best 결과 중 복수의 언어에 대해 상기 대화 해석이 수행된 경우, 상기 대화 서비스 언어를 결정하는 단계는, 상기 대화 해석의 성공 여부 및 상기 대화 추론 신뢰도에 기초하여 상기 대화 서비스 언어를 결정하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  17. 제16항에 있어서,
    상기 복수의 언어에 대해 상기 대화 해석이 모두 성공한 경우, 상기 대화 응답을 생성하는 단계는, 상기 음성 인식을 재수행하기 위해 사용자에게 재발화를 요청하기 위한 응답을 생성하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  18. 제16항에 있어서,
    상기 복수의 언어 중 하나의 언어에 대해 상기 대화 해석이 성공하고, 상기 하나의 언어에 대한 상기 대화 추론 신뢰도가 미리 정해진 임계치 이상인 경우, 상기 대화 응답을 생성하는 단계는, 사용자에게 상기 대화 서비스 언어를 변경할 것인지 질의하는 응답을 생성하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  19. 제16항에 있어서,
    상기 복수의 언어 중 하나의 언어에 대해 상기 대화 해석이 성공하고, 상기 하나의 언어에 대한 상기 대화 추론 신뢰도가 미리 정해진 임계치 미만인 경우, 상기 대화 응답을 생성하는 단계는, 복수의 언어로 가이드 발화를 출력하기 위한 응답을 생성하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
  20. 제16항에 있어서,
    상기 복수의 언어 중 복수의 언어에 대해 상기 대화 해석이 성공한 경우, 상기 대화 응답을 생성하는 단계는, 상기 사용자에게 상기 대화 서비스 언어로 사용할 언어를 선택하기 위한 요청을 출력하기 위한 응답을 생성하는 단계를 포함하는, 다중 언어 대화 서비스 제공 방법.
KR1020190113676A 2019-09-16 2019-09-16 다중 언어 대화 서비스 제공 장치 및 방법 KR102268376B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190113676A KR102268376B1 (ko) 2019-09-16 2019-09-16 다중 언어 대화 서비스 제공 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190113676A KR102268376B1 (ko) 2019-09-16 2019-09-16 다중 언어 대화 서비스 제공 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210032200A KR20210032200A (ko) 2021-03-24
KR102268376B1 true KR102268376B1 (ko) 2021-06-22

Family

ID=75257007

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190113676A KR102268376B1 (ko) 2019-09-16 2019-09-16 다중 언어 대화 서비스 제공 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102268376B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102007007B1 (ko) * 2012-12-10 2019-08-02 에스케이하이닉스 주식회사 반도체 장치 및 이의 동작 방법
US11423877B2 (en) * 2019-07-05 2022-08-23 Lg Electronics Inc. Robot for providing guidance service using artificial intelligence and method of operating the same

Also Published As

Publication number Publication date
KR20210032200A (ko) 2021-03-24

Similar Documents

Publication Publication Date Title
US11669300B1 (en) Wake word detection configuration
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
US20170084274A1 (en) Dialog management apparatus and method
CN112262430A (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
WO2016067418A1 (ja) 対話制御装置および対話制御方法
US20140350934A1 (en) Systems and Methods for Voice Identification
JP6024675B2 (ja) 音声認識端末装置、音声認識システム、音声認識方法
US11574637B1 (en) Spoken language understanding models
KR102321801B1 (ko) 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
US11615787B2 (en) Dialogue system and method of controlling the same
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
JP2004045900A (ja) 音声対話装置及びプログラム
US11211056B1 (en) Natural language understanding model generation
KR102268376B1 (ko) 다중 언어 대화 서비스 제공 장치 및 방법
KR101945190B1 (ko) 음성인식 작동 시스템 및 방법
US11699444B1 (en) Speech recognition using multiple voice-enabled devices
US11735178B1 (en) Speech-processing system
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
KR102631143B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
US11804225B1 (en) Dialog management system

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant