KR102638373B1 - 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램 - Google Patents

다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102638373B1
KR102638373B1 KR1020180106483A KR20180106483A KR102638373B1 KR 102638373 B1 KR102638373 B1 KR 102638373B1 KR 1020180106483 A KR1020180106483 A KR 1020180106483A KR 20180106483 A KR20180106483 A KR 20180106483A KR 102638373 B1 KR102638373 B1 KR 102638373B1
Authority
KR
South Korea
Prior art keywords
voice command
user
language
vocabulary
speech
Prior art date
Application number
KR1020180106483A
Other languages
English (en)
Other versions
KR20200028158A (ko
Inventor
이재동
류민우
안지용
이장원
홍미정
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020180106483A priority Critical patent/KR102638373B1/ko
Publication of KR20200028158A publication Critical patent/KR20200028158A/ko
Application granted granted Critical
Publication of KR102638373B1 publication Critical patent/KR102638373B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

사용자로부터 음성 명령을 입력받는 입력부, 상기 입력된 음성 명령을 분석하여 상기 사용자가 발화한 언어를 인식하는 언어 인식부, 상기 인식된 언어에 기초하여 상기 음성 명령의 문장 구성을 결정하고, 상기 결정된 문장 구성에 따라 어휘 구사 성향을 분류하는 분류부, 상기 인식된 언어 및 상기 분류된 어휘 구사 성향에 기초하여 상기 미디어 재생 장치의 사용자 인터페이스에 대한 출력 사항을 변환하는 변환부 및 상기 변환된 출력 사항을 적용하여 동적으로 상기 사용자 인터페이스를 출력하는 출력부를 포함한다.

Description

다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램{MEDIA PLAY DEVICE, METHOD AND COMPUTER PROGRAM FOR PROVIDING MULTI LANGUAGE VOICE COMMAND SERVICE}
본 발명은 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.
지능형 개인 비서는 사용자가 요구하는 작업을 처리하고, 사용자에게 특화된 서비스를 제공하는 소프트웨어 에이전트이다. 지능형 개인 비서는 인공 지능(AI) 엔진과 음성 인식을 기반으로 사용자에게 맞춤 정보를 수집하여 제공하고, 사용자의 음성 명령에 따라 일정 관리, 이메일 전송, 식당 예약 등 여러 기능을 수행하는 점에서 사용자의 편의성을 향상시키는 장점을 갖는다.
이러한 지능형 개인 비서는 주로 스마트폰에서 맞춤형 개인 서비스의 형태로 제공되고 있으며, 대표적으로 애플의 시리(siri), 구글의 나우(now), 삼성의 빅스비 등이 이에 포함된다. 이와 관련하여, 선행기술인 한국공개특허 제 2016-0071111호는 전자 장치에서의 개인 비서 서비스 제공 방법을 개시하고 있다.
최근의 지능형 개인 비서는 컨시어지 서비스와 같이 다양한 서비스 산업에 적용되어 사용자와 터치/시각/음성을 통해 상호 작용이 확대되고 있으며, 이를 통해 더욱 다양한 정보를 제공할 수 있게 되었다. 그러나 외국인의 경우, 지능형 개인 비서의 이용에 어려움을 겪게 되며, 시각/음성과 같이 확대된 상호 작용을 기반으로 하는 서비스를 제공받을 수 없게 된다는 문제점을 가지고 있다.
사용자가 사용하는 언어, 어휘 구사 성향, 억양 스타일에 따라 실시간으로 사용자 인터페이스를 동적으로 구성하는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
사용자의 어휘 구사 성향에 따라 사용자의 언어로 음성 명령에 대한 발화를 유도하도록 맞춤형 발화 가이드를 제공하는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
사용자의 음성 명령의 패턴을 분석하여 음성 명령에 대한 분석 결과를 사용자의 억양 스타일과 유사해지도록 합성하고, 사용자의 억양 스타일과 합성된 음성 명령에 대한 분석 결과를 오디오를 통해 출력하는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
사용자가 사용하는 언어로 사용자 인터페이스를 재구성함으로써, 사용자의 음성 명령 서비스에 대한 사용성을 높이고, 사용자의 언어와 상관 없이 사용자 인터랙션에 대한 편의성을 향상시킬 수 있는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 사용자로부터 음성 명령을 입력받는 입력부, 상기 입력된 음성 명령을 분석하여 상기 사용자가 발화한 언어를 인식하는 언어 인식부, 상기 인식된 언어에 기초하여 상기 음성 명령의 문장 구성을 결정하고, 상기 결정된 문장 구성에 따라 어휘 구사 성향을 분류하는 분류부, 상기 인식된 언어 및 상기 분류된 어휘 구사 성향에 기초하여 상기 미디어 재생 장치의 사용자 인터페이스에 대한 출력 사항을 변환하는 변환부 및 상기 변환된 출력 사항을 적용하여 동적으로 상기 사용자 인터페이스를 출력하는 출력부를 포함하는 미디어 재생 장치를 제공할 수 있다.
본 발명의 다른 실시예는, 사용자로부터 음성 명령을 입력받는 단계, 상기 입력된 음성 명령을 분석하여 상기 사용자가 발화한 언어를 인식하는 단계, 상기 인식된 언어에 기초하여 상기 음성 명령의 문장 구성을 결정하고, 상기 결정된 문장 구성에 따라 어휘 구사 성향을 분류하는 단계, 상기 인식된 언어 및 상기 분류된 어휘 구사 성향에 기초하여 상기 미디어 재생 장치의 사용자 인터페이스에 대한 출력 사항을 변환하는 단계 및 상기 변환된 출력 사항을 적용하여 동적으로 상기 사용자 인터페이스를 출력하는 단계를 포함하는 다국어 음성 명령 서비스 제공 방법을 제공할 수 있다.
본 발명의 또 다른 실시예는, 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 사용자로부터 음성 명령을 입력받고, 상기 입력된 음성 명령을 분석하여 상기 사용자가 발화한 언어를 인식하고, 상기 인식된 사용자의 언어에 기초하여 상기 음성 명령의 문장 구성을 결정하고, 상기 결정된 문장 구성에 따라 어휘 구사 성향을 분류하고, 상기 인식된 언어 및 상기 분류된 어휘 구사 성향에 기초하여 상기 미디어 재생 장치의 사용자 인터페이스에 대한 출력 사항을 변환하고, 상기 변환된 출력 사항을 적용하여 동적으로 상기 사용자 인터페이스를 출력하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사용자가 사용하는 언어, 어휘 구사 성향, 억양 스타일에 따라 실시간으로 사용자 인터페이스를 동적으로 구성하는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
사용자의 어휘 구사 성향에 따라 사용자의 언어로 음성 명령에 대한 발화를 유도하도록 맞춤형 발화 가이드를 제공하는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
사용자의 음성 명령의 패턴을 분석하여 음성 명령에 대한 분석 결과를 사용자의 억양 스타일과 유사해지도록 합성하고, 사용자의 억양 스타일과 합성된 음성 명령에 대한 분석 결과를 오디오를 통해 출력하는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
사용자가 사용하는 언어로 사용자 인터페이스를 재구성함으로써, 사용자의 음성 명령 서비스에 대한 사용성을 높이고, 사용자의 언어와 상관 없이 사용자 인터랙션에 대한 편의성을 향상시킬 수 있는 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 다국어 음성 명령 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 미디어 재생 장치의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 미디어 재생 장치에서 사용자의 언어에 기초하여 사용자의 어휘 구사 성향을 분류하는 과정을 설명하기 위한 예시적인 도면이다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 발화 리스트 문장을 기설정된 언어별 매핑 테이블에 기초하여 인식된 사용자의 언어로 변환하는 과정을 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 사용자의 음성 명령에 대한 억양 스타일을 추론하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 사용자의 언어에 기초하여 출력 사항이 변환된 미디어 재생 장치의 사용자 인터페이스를 도시한 예시적인 도면이다.
도 7은 본 발명의 일 실시예에 따른 미디어 재생 장치에서 다국어 음성 명령 서비스를 제공하는 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 다국어 음성 명령 서비스 제공 시스템의 구성도이다. 도 1을 참조하면, 다국어 음성 명령 서비스 제공 시스템(1)은 미디어 재생 장치(110), 디스플레이(115) 및 다국어 대화 서버(120)를 포함할 수 있다. 미디어 재생 장치(110), 디스플레이(115) 및 다국어 대화 서버(120)는 다국어 음성 명령 서비스 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.
도 1의 다국어 음성 명령 서비스 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 미디어 재생 장치(110)는 다국어 대화 서버(120)와 동시에 또는 시간 간격을 두고 연결될 수 있다.
네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
미디어 재생 장치(110)는 사용자(100)로부터 음성 명령을 입력받고, 입력된 음성 명령을 분석하여 사용자(100)가 발화한 언어를 인식할 수 있다.
미디어 재생 장치(110)는 인식된 언어에 기초하여 음성 명령의 문장 구성을 결정하고, 결정된 문장 구성에 따라 어휘 구사 성향을 분류할 수 있다. 예를 들어, 미디어 재생 장치(110)는 음성 명령의 문장 구성에 포함된 적어도 하나 이상의 단어의 품사를 결정하고, 결정된 각 품사 별로 사용 어휘를 카테고리화하고, 카테고리화된 사용 어휘에 따라 결정된 각 품사 별로 등급을 매핑하고, 각 품사 별로 매핑된 등급에 기초하여 사용자(100)의 어휘 구사 성향을 결정할 수 있다.
미디어 재생 장치(110)는 분류된 어휘 구사 성향에 기초하여 사용자(100)가 발화한 언어로 발화 가이드 문장을 생성할 수 있다. 예를 들어, 미디어 재생 장치(110)는 분류된 어휘 구사 성향에 기초하여 어휘를 선별하고, 선별된 어휘에 기초하여 발화 가이드 문장을 인식된 사용자(100)의 언어로 변환할 수 있다. 이 때, 미디어 재생 장치(110)는 사용자(100)가 발화한 음성 명령의 사용 빈도에 기초하여 음성 명령 정보를 도출하고, 도출된 음성 명령 정보에 기초하여 발화 리스트 문장을 선별하고, 선별된 발화 리스트 문장의 어휘를 사용자(100)의 어휘 구사 성향에 기초하여 재구성할 수 있다. 미디어 재생 장치(110)는 어휘가 재구성된 발화 리스트 문장을 기설정된 언어별 매핑 테이블에 기초하여 인식된 사용자(100)의 언어로 변환할 수 있다. 미디어 재생 장치(110)는 인식된 언어 및 분류된 어휘 구사 성향에 기초하여 미디어 재생 장치(110)의 사용자 인터페이스에 대한 디스플레이 출력 사항을 변환할 수 있다.
미디어 재생 장치(110)는 미디어 재생 장치(110)의 디스플레이(115)에 출력된 텍스트를 분류된 어휘 구사 성향을 참조하여 인식된 언어의 형식으로 변환할 수 있다.
미디어 재생 장치(110)는 입력된 음성 명령으로부터 사용자(100)의 억양 및 엑센트에 대한 언어 특징 정보를 추출하고, 추출된 언어 특징 정보에 대한 패턴을 통해 음성 명령에 대한 억양 스타일을 분석할 수 있다. 예를 들어, 미디어 재생 장치(110)는 입력된 음성 명령을 윤율 표기 규약 표기법에 기초하여 음높이 심볼로 변환하고, 기설정된 음성 시퀀스에 기초하여 변환된 음높이 심볼을 분석하고, 분석된 음높이 심볼의 패턴과 기저장된 언어별 억양 패턴과의 유사도에 기초하여 음성 명령에 대한 억양 스타일을 추론할 수 있다.
미디어 재생 장치(110)는 인식된 사용자(100)의 언어에 기초하여 음성 명령을 다국어 대화 서버(120)로 전송하고, 다국어 대화 서버(120)로부터 음성 명령에 대한 분석 결과를 수신할 수 있다. 이 때, 미디어 재생 장치(110)는 다국어 대화 서버(120)로부터 수신한 음성 명령에 대한 분석 결과를 사용자(100)의 억양 스타일과 합성할 수 있다. 미디어 재생 장치(110)는 추론된 억양 스타일에 기초하여 사용자 인터페이스에 대한 출력 사항을 변환할 수 있다.
미디어 재생 장치(110)는 사용자 인터페이스에 대한 출력 사항을 변환하면, 변환된 출력 사항을 적용하여 동적으로 사용자 인터페이스를 출력할 수 있다. 예를 들어, 미디어 재생 장치(110)는 사용자(100)의 언어로 음성 명령을 유도하도록 생성된 발화 가이드 문장을 디스플레이(150)에 출력할 수 있다. 다른 예를 들어, 미디어 재생 장치(110)는 미디어 재생 장치(110)의 디스플레이(115)에 출력된 텍스트를 분류된 어휘 구사 성향을 참조하여 인식된 언어의 형식으로 변환되면, 변환된 텍스트를 디스플레이(115)에 출력할 수 있다. 또 다른 예를 들어, 미디어 재생 장치(110)는 사용자(100)의 억양 스타일과 합성된 음성 명령에 대한 분석 결과를 오디오를 통해 출력할 수 있다.
디스플레이(115)는 사용자 인터페이스 화면을 디스플레이를 통해 출력할 수 있다. 예를 들어, 디스플레이(115)는 디폴트로 설정된 국문형 사용자 인터페이스를 디스플레이를 통해 출력하고, 사용자(100)의 인식된 언어에 기초하여 예를 들어, 영문형 사용자 인터페이스를 디스플레이를 통해 출력할 수 있다.
디스플레이(115)는 사용자 인터페이스 화면은 제 1 영역을 통해 발화 가이드 문장을 표시하고, 제 2 영역을 통해 날짜, 시간, 날씨, 온도, 습도와 같은 생활 정보를 표시하고, 제 3 영역을 통해 서브 메뉴를 표시하고, 제 4 영역을 통해 외부 연동 메시지 및 단말 설정 정보를 표시하고, 제 5 영역을 통해 언어 설정 정보 및 제어 정보를 표시할 수 있다.
다국어 대화 서버(120)는 미디어 재생 장치(110)로부터 음성 명령을 수신할 수 있다. 또한, 다국어 대화 서버(120)는 수신한 음성 명령을 분석하고, 분석 결과를 미디어 재생 장치(110)로 전송할 수 있다. 이 때, 다국어 대화 서버(120)는 음성 명령 처리를 위한 액션(action) ID 결과 값을 미디어 재생 장치(110)로 전송할 수 있다.
도 2는 본 발명의 일 실시예에 따른 미디어 재생 장치의 구성도이다. 도 2를 참조하면, 미디어 재생 장치(110)는 입력부(210), 언어 인식부(220), 분류부(230), 발화 가이드 문장 생성부(240), 변환부(250), 통신부(260), 언어 특징 분석부(270), 음성 변환부(280) 및 출력부(290)를 포함할 수 있다.
입력부(210)는 사용자(100)로부터 음성 명령을 입력받을 수 있다. 예를 들어, 입력부(210)는 "GiGa Genenie, Turn the all lights off"와 같이 외국어 음성 명령을 입력받을 수 있다.
언어 인식부(220)는 입력된 음성 명령을 분석하여 사용자(100)가 발화한 언어를 인식할 수 있다. 이 때, 언어 인식부(220)는 신경망, 히든마르코프 모델과 같은 패턴 인식, 딥러닝 기반 자연어 처리 등 중 적어도 하나의 자동 언어 인식 알고리즘을 이용하여 사용자(100)가 발화한 언어를 자동으로 인식할 수 있다. 예를 들어, 언어 인식부(220)는 "GiGa Genenie, Turn the all lights off"를 분석하여 사용자(100)가 발화한 언어가 '영어'임을 인식할 수 있다.
분류부(230)는 인식된 언어에 기초하여 음성 명령의 문장 구성을 결정하고, 결정된 문장 구성에 따라 어휘 구사 성향을 분류할 수 있다. 예를 들어, 분류부(230)는 음성 명령의 문장 구성에 포함된 적어도 하나 이상의 단어의 품사(예를 들어, 명사, 동사, 형용사, 부사 등)를 결정하고, 결정된 각 품사 별로 사용 어휘를 카테고리화하고, 카테고리화된 사용 어휘에 따라 결정된 각 품사 별로 등급을 매핑하고, 각 품사 별로 매핑된 등급에 기초하여 사용자(100)의 어휘 구사 성향을 결정할 수 있다. 사용자(100)의 어휘 구사 성향을 결정하는 과정에 대해서는 도 3을 통해 상세히 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 미디어 재생 장치에서 사용자의 언어에 기초하여 사용자의 어휘 구사 성향을 분류하는 과정을 설명하기 위한 예시적인 도면이다. 도 3에서는, 사용자(100)가 "Give me linen amenities."라는 문장을 발화하였다고 가정되었다.
분류부(230)는 음성 명령의 문장 구성에 포함된 각 음성 발화 단어(300)에 대한 품사명(310)을 결정할 수 있다. 예를 들어, 분류부(230)는 'give'의 품사를 '동사'(311)로 결정하고, 'me'의 품사를 '대명사'(312)로 결정하고, 'linen'의 품사를 '명사'(313)로 결정하고, 'amenities'의 품사를 '명사'(314)로 결정할 수 있다.
분류부(230)는 각 품사 별로 사용 어휘를 카테고리화할 수 있다. 이 때, 분류부(230)는 어휘 등급 사전 데이터베이스를 이용하여 각 품사별 사용 어휘를 카테고리화할 수 있다. 예를 들어, 분류부(230)는 '동사'(311)가 'give'를 포함하고, '명사'(313, 314)'가 'linen, amenities'를 포함하도록 카테고리화할 수 있다.
분류부(230)는 카테고리화된 사용 어휘에 따라 결정된 각 품사 별로 등급을 매핑할 수 있다. 각 품사는 예를 들어, 동사의 경우, A 등급으로 매핑되고, 명사의 경우, B 등급으로 매핑되고, 형용사의 경우, C 등급으로 매핑될 수 있다. 이 때, 접속사, 대명사, 전치사, 감탄사, 관사는 등급의 매핑에서 제외될 수 있다. 예를 들어, 분류부(230)는 '동사'(311)의 등급을 'A'(321)로 매핑하고, '명사'(313, 314)의 등급을 'B'(322, 323)로 각각 매핑할 수 있다.
분류부(230)는 각 품사 별로 매핑된 등급에 기초하여 사용자(100)의 어휘 구사 성향(320)을 결정할 수 있다. 예를 들어, 분류부(230)는 '동사'(311)가 하나의 'A'(321) 등급으로 구성되고, '명사'(313, 314)가 두개의 'B'(322, 323) 등급으로 구성되는 경우, 사용자(100)의 어휘 구사 성향을 'B'타입으로 결정할 수 있다.
다시 도 2로 돌아와서, 발화 가이드 문장 생성부(240)는 분류부(230)에서 분류된 어휘 구사 성향에 기초하여 사용자(100)가 발화한 언어로 발화 가이드 문장을 생성할 수 있다.
발화 가이드 문장 생성부(240)는 분류된 어휘 구사 성향에 기초하여 어휘를 선별하고, 선별된 어휘에 기초하여 발화 가이드 문장을 인식된 사용자(100)의 언어로 변환할 수 있다.
발화 가이드 문장 생성부(240)는 사용자(100)가 발화한 음성 명령의 사용 빈도에 기초하여 음성 명령 정보를 도출하고, 도출된 음성 명령 정보에 기초하여 발화 리스트 문장을 선별할 수 있다. 예를 들어, 발화 가이드 문장 생성부(240)는 사용자(100)가 발화한 음성 명령의 사용 빈도에 기초하여 상위 10%에 해당하는 음성 명령 정보를 도출하고, 도출된 음성 명령 정보에 기초하여 발화 리스트 문장을 선별할 수 있다. 이 때, 발화 가이드 문장 생성부(240)는 선별된 발화 리스트 문장의 어휘를 사용자(100)의 어휘 구사 성향에 기초하여 재구성할 수 있다.
발화 가이드 문장 생성부(240)는 어휘가 재구성된 발화 리스트 문장을 기설정된 언어별 매핑 테이블에 기초하여 인식된 사용자(100)의 언어로 변환할 수 있다. 이 때, 기설정된 언어별 매핑 테이블이 존재하지 않는 경우, 번역기 모듈(미도시)을 통해 언어 번역이 수행될 수 있다. 여기서, 번역기 모듈은 웹 번역기 또는 별도로 개발된 번역기일 수 있다. 발화 리스트 문장을 기설정된 언어별 매핑 테이블에 기초하여 인식된 사용자(100)의 언어로 변환하는 과정에 대해서는 도 4a 및 도 4b를 통해 상세히 설명하도록 한다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 발화 리스트 문장을 인식된 사용자의 언어로 변환하는 과정을 설명하기 위한 예시적인 도면이다.
도 4a는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 발화 리스트 문장을 기설정된 언어별 매핑 테이블에 기초하여 인식된 사용자의 언어로 변환하는 과정을 설명하기 위한 예시적인 도면이다. 도 4a를 참조하면, 발화 가이드 문장 생성부(240)는 발화 리스트 문장을 언어 변환 데이터베이스를 탐색하여 기설정된 언어별 매핑 테이블에 기초하여 인식된 사용자(100)의 언어로 변환할 수 있다.
발화 가이드 문장 생성부(240)는 발화 리스트 문장(400)을 기설정된 매핑 테이블(410)에 기초하여 인식된 사용자(100)의 언어로 변환할 수 있다. 예를 들어, 인식된 사용자(100)의 언어가 영어(420)인 경우, 발화 가이드 문장 생성부(240)는 발화 리스트 문장(400)을 "Turn on the TV", "Play the music", "How is the weather?", "What time is it now?" 등으로 변환할 수 있다.
도 4b는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 발화 리스트 문장을 번역기 모듈을 통해 인식된 사용자의 언어로 변환하는 과정을 설명하기 위한 예시적인 도면이다. 도 4b를 참조하면, 발화 가이드 문장 생성부(240)는 발화 리스트 문장(400)이 기설정된 언어별 매핑 테이블(410)에 해당하는 텍스트 언어 정보가 존재하지 않는 경우, 별도의 번역기 모듈(430)을 통해 발화 리스트 문장을 사용자(100)의 언어로 변환할 수 있다.
예를 들어, 인식된 사용자(100)의 언어가 '독일어'(440)이지만, 기설정된 매핑 테이블에 '독일어'(440)가 존재하지 않는 경우, 발화 가이드 문장 생성부(240)는 발화 리스트 문장(400)을 별도의 번역기 모듈(430)로 전송하여 번역기 모듈(430)을 통해 '독일어'(440)로 변환된 발화 리스트 문장(400)을 수신할 수 있다.
다시 도 2로 돌아와서, 변환부(250)는 인식된 언어 및 분류된 어휘 구사 성향에 기초하여 미디어 재생 장치(110)의 사용자 인터페이스에 대한 출력 사항을 변환할 수 있다. 또한, 변환부(250)는 미디어 재생 장치(110)의 디스플레이(115)에 출력된 텍스트를 분류된 어휘 구사 성향을 참조하여 인식된 언어의 형식으로 변환할 수 있다. 예를 들어, 사용자(100)의 인식된 언어가 '영어'인 경우, 변환부(250)는 '국문'으로 표시된 사용자 인터페이스를 사용자(100)의 어휘 구사 성향에 기초하여 사용자 인터페이스에 대한 출력 사항을 '영문'으로 변환할 수 있다.
변환부(250)는 추론된 억양 스타일에 기초하여 사용자 인터페이스에 대한 출력 사항을 변환할 수 있다.
통신부(260)는 인식된 사용자(100)의 언어에 기초하여 음성 명령을 다국어 대화 서버(120)로 전송하고, 다국어 대화 서버(120)로부터 음성 명령에 대한 분석 결과를 수신할 수 있다. 이 때, 통신부(260)는 음성 명령 처리를 위한 액션(action) ID 결과 값을 다국어 대화 서버(120)로부터 수신할 수 있다.
언어 특징 분석부(270)는 입력된 음성 명령으로부터 사용자(100)의 억양 및 엑센트에 대한 언어 특징 정보를 추출하고, 추출된 언어 특징 정보에 대한 패턴을 통해 음성 명령에 대한 억양 스타일을 분석할 수 있다. 예를 들어, 언어 특징 분석부(270)는 입력된 음성 명령을 윤율 표기 규약 표기법(ToBI, Tones and Break Indices)에 기초하여 단순화된 음높이 심볼로 변환하고, 기설정된 음성 시퀀스에 기초하여 변환된 음높이 심볼을 분석하고, 분석된 음높이 심볼의 패턴과 데이터베이스에 기저장된 언어별 억양 패턴과의 유사도에 기초하여 음성 명령에 대한 억양 스타일을 추론할 수 있다. 음성 명령에 대한 억양 스타일을 추론하는 과정에 대해서는 도 5를 통해 상세히 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 미디어 재생 장치에서 사용자의 음성 명령에 대한 억양 스타일을 추론하는 과정을 설명하기 위한 예시적인 도면이다. 도 5를 참조하면, 언어 특징 분석부(270)는 음성 명령을 윤율 표기 규약 표기법에 기초하여 단순화된 음높이 심볼로 변환할 수 있다. 단순화된 음높이 심볼(510)은 높은음(H), 중간음(M), 낮은음(L), 고저 액센트(+)로 구성될 수 있다.
예를 들어, 사용자(100)가 "TURN THE AIR CONDITIONER UP 10 DEGREE."(500)라는 음성 명령을 발화한 경우, 언어 특징 분석부(270)는 'LL+ML+HHM'(520)와 같이 단순화된 음높이 심볼로 변환할 수 있다.
다시 2로 돌아와서, 음성 변환부(280)는 다국어 대화 서버(120)로부터 수신한 음성 명령에 대한 분석 결과를 사용자(100)의 억양 스타일과 합성할 수 있다.
출력부(290)는 변환부(250)에서 사용자 인터페이스에 대한 출력 사항을 변환하면, 변환된 출력 사항을 적용하여 동적으로 사용자 인터페이스를 출력할 수 있다. 예를 들어, 출력부(290)는 사용자(100)의 언어로 음성 명령을 유도하도록 생성된 발화 가이드 문장을 디스플레이(150)에 출력할 수 있다. 또한, 출력부(290)는 변환부(250)에서 미디어 재생 장치(110)의 디스플레이(115)에 출력된 텍스트를 분류된 어휘 구사 성향을 참조하여 인식된 언어의 형식으로 변환되면, 변환된 텍스트를 디스플레이(115)에 출력할 수 있다. 다른 예를 들어, 출력부(290)는 사용자(100)의 억양 스타일과 합성된 음성 명령에 대한 분석 결과를 오디오를 통해 출력할 수 있다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 사용자의 언어에 기초하여 출력 사항이 변환된 미디어 재생 장치의 사용자 인터페이스를 도시한 예시적인 도면이다.
도 6a는 본 발명의 일 실시예에 따른 국문형 사용자 인터페이스를 도시한 예시적인 도면이다. 도 6a를 참조하면, 미디어 재생 장치(110)는 국문형 사용자 인터페이스 화면(600)을 통해 제 1 영역(610)에 발화 가이드 문장을 표시하고, 제 2 영역(620)에 생활 정보를 표시하고, 제 3 영역(630)에 서브 메뉴를 표시하고, 제 4 영역(640)에 외부 연동 메시지 및 단말 설정 정보를 표시하고, 제 5 영역(650)에 언어 설정 정보 및 제어 정보를 표시할 수 있다.
발화 가이드 문장은 사용자(100)의 어휘 구사 성향에 기초하여 발화 가이드리스트 문장 중 어느 하나가 디스플레이(115)에 표시될 수 있다. 예를 들어, 발화 가이드 리스트 문장은 사용자(100)의 어휘 구사 성향이 'A타입'으로 분류된 경우, "지니야, 불 다 꺼줘"가 디스플레이에 표시되고, 사용자(100)의 어휘 구사 성향이 'B타입'으로 분류된 경우, "지니야. 조명 모두 꺼줘"가 디스플레이에 표시되고, 사용자(100)의 어휘 구사 성향이 'C타입'으로 분류된 경우, "지니야, 조명 전체 꺼줘"가 디스플레이에 표시될 수 있다. 예를 들어, 사용자(100)의 어휘 구사 성향이 'C'타입으로 분류된 경우, 미디어 재생 장치(110)는 "지니야. 조명 전체 꺼줘"라는 발화 가이드 문장을 디스플레이에 표시할 수 있다.
도 6b는 본 발명의 일 실시예에 따른 영문형 사용자 인터페이스를 도시한 예시적인 도면이다. 도 6b를 참조하면, 미디어 재생 장치(110)는 사용자(100)의 언어가 '영어'로 인식된 경우, 국문형 사용자 인터페이스 화면을 영문형으로 변환하여 표시할 수 있다. 미디어 재생 장치(110)는 영문형으로 변환된 사용자 인터페이스 화면(600)을 통해 제 1 영역(610)에 발화 가이드 문장을 영어로 표시하고, 제 2 영역(620)에 생활 정보를 영어로 표시하고, 제 3 영역(630)에 서브 메뉴를 영어로 표시하고, 제 4 영역(640)에 외부 연동 메시지 및 단말 설정 정보를 영어로 표시하고, 제 5 영역(650)에 언어 설정 정보 및 제어 정보를 영어로 표시할 수 있다.
도 6c는 본 발명의 일 실시예에 따른 사용자의 음성 명령에 기초하여 사용자의 언어, 어휘 구사 성향, 억양 스타일이 적용된 사용자 인터페이스를 도시한 예시적인 도면이다. 도 6c를 참조하면, 사용자(100)가 "turn on all room lights(660)"라는 음성 명령을 발화한 경우, 미디어 재생 장치(110)는 사용자(100)가 사용하는 언어가 '영문'임을 인식하고, 사용자(100)의 어휘 구사 성향을 'A타입'으로 분류하고, 사용자(100)의 억양 패턴을 분석할 수 있다.
예를 들어, 미디어 재생 장치(110)는 사용자(100)의 인식된 언어가 '영어'이므로, 사용자 인터페이스를 영문으로 변환하여 출력하고, 사용자(100)의 어휘 구사 성향에 따른 발화 가이드 문장을 표시할 수 있다. 이 때, 미디어 재생 장치(110)는 사용자(100)의 음성 명령에 대한 분석 결과(예를 들어, "All room lights are now turned off(670)")를 사용자(100)의 억양 스타일과 합성하여 오디오를 통해 출력할 수 있다.
도 7은 본 발명의 일 실시예에 따른 미디어 재생 장치에서 다국어 음성 명령 서비스를 제공하는 방법의 순서도이다. 도 7에 도시된 미디어 재생 장치(110)에서 다국어 음성 명령 서비스를 제공하는 방법은 도 1 내지 도 6c에 도시된 실시예에 따른 다국어 음성 명령 서비스 제공 시스템(1)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 6c에 도시된 실시예에 따른 미디어 재생 장치(110)에서 다국어 음성 명령 서비스를 제공하는 방법에도 적용된다.
단계 S710에서 미디어 재생 장치(110)는 사용자(100)로부터 음성 명령을 입력받을 수 있다.
단계 S720에서 미디어 재생 장치(110)는 입력된 음성 명령을 분석하여 사용자(100)가 발화한 언어를 인식할 수 있다.
단계 S730에서 미디어 재생 장치(110)는 인식된 언어에 기초하여 음성 명령의 문장 구성을 결정하고, 결정된 문장 구성에 따라 어휘 구사 성향을 분류할 수 있다.
단계 S740에서 미디어 재생 장치(110)는 인식된 언어 및 분류된 어휘 구사 성향에 기초하여 미디어 재생 장치(110)의 사용자 인터페이스에 대한 출력 사항을 변환할 수 있다.
단계 S750에서 미디어 재생 장치(110)는 변환된 출력 사항을 적용하여 동적으로 사용자 인터페이스를 출력할 수 있다.
상술한 설명에서, 단계 S710 내지 S750은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 1 내지 도 7을 통해 설명된 미디어 재생 장치에서 다국어 음성 명령 서비스를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 7을 통해 설명된 미디어 재생 장치에서 다국어 음성 명령 서비스를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110: 미디어 재생 장치
115: 디스플레이
120: 다국어 대화 서버
210: 입력부
220: 언어 인식부
230: 분류부
240: 발화 가이드 문장 생성부
250: 변환부
260: 통신부
270: 언어 특징 분석부
280: 음성 변환부
290: 출력부

Claims (20)

  1. 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치에 있어서,
    사용자로부터 음성 명령을 입력받는 입력부;
    상기 입력된 음성 명령을 분석하여 상기 사용자가 발화한 언어를 인식하는 언어 인식부;
    상기 인식된 언어에 기초하여 상기 음성 명령의 문장 구성을 결정하고, 상기 결정된 문장 구성에 따라 어휘 구사 성향을 분류하는 분류부;
    상기 인식된 언어 및 상기 분류된 어휘 구사 성향에 기초하여 상기 미디어 재생 장치의 사용자 인터페이스에 대한 출력 사항을 변환하는 변환부 및
    상기 변환된 출력 사항을 적용하여 동적으로 상기 사용자 인터페이스를 출력하는 출력부를 포함하고,
    상기 분류부는 상기 음성 명령의 문장 구성에 포함된 적어도 하나 이상의 단어의 품사를 결정하고, 상기 결정된 각 품사 별로 등급을 매핑하고, 상기 각 품사 별로 매핑된 등급에 기초하여 상기 사용자의 어휘 구사 성향을 결정하고,
    상기 음성 명령의 문장 구성에 포함된 동사 품사의 사용 개수, 명사 품사의 사용 개수 및 형용사 품사의 사용 개수 중 적어도 하나에 기초하여 상기 사용자의 어휘 구사 성향이 결정된 경우, 상기 결정된 어휘 구사 성향에 기초하여 발화 가이드 문장을 구성할 어휘를 선별하고, 상기 선별된 어휘로 구성된 발화 가이드 문장을 생성하고, 상기 발화 가이드 문장을 상기 사용자가 발화한 언어로 변환하는 발화 가이드 문장 생성부 및
    상기 입력된 음성 명령으로부터 상기 사용자의 억양 및 엑센트에 대한 언어 특징 정보를 추출하고, 상기 추출된 언어 특징 정보에 대한 패턴을 통해 상기 음성 명령에 대한 억양 스타일을 분석하는 언어 특징 분석부를 더 포함하는 것인, 미디어 재생 장치.
  2. 제 1 항에 있어서,
    상기 분류부는 상기 결정된 각 품사 별로 사용 어휘를 카테고리화하고, 상기 카테고리화된 사용 어휘에 따라 상기 결정된 각 품사 별로 등급을 매핑하는 것인, 미디어 재생 장치.
  3. 제 1 항에 있어서,
    상기 출력부는 상기 생성된 발화 가이드 문장을 디스플레이에 출력하는 것인, 미디어 재생 장치.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 발화 가이드 문장 생성부는 상기 사용자가 발화한 상기 음성 명령의 사용 빈도에 기초하여 음성 명령 정보를 도출하고,
    상기 도출된 음성 명령 정보에 기초하여 발화 리스트 문장을 선별하고,
    상기 선별된 발화 리스트 문장의 어휘를 상기 사용자의 어휘 구사 성향에 기초하여 재구성하는 것인, 미디어 재생 장치.
  6. 제 5 항에 있어서,
    상기 발화 가이드 문장 생성부는 상기 어휘가 재구성된 발화 리스트 문장을 기설정된 언어별 매핑 테이블에 기초하여 상기 인식된 사용자의 언어로 변환하는 것인, 미디어 재생 장치.
  7. 제 1 항에 있어서,
    상기 인식된 사용자의 언어에 기초하여 상기 음성 명령을 다국어 대화 서버로 전송하고,
    상기 다국어 대화 서버로부터 상기 음성 명령에 대한 분석 결과를 수신하는 통신부를 더 포함하는, 미디어 재생 장치.
  8. 제 7 항에 있어서,
    상기 다국어 대화 서버로부터 수신한 상기 음성 명령에 대한 분석 결과를 상기 사용자의 억양 스타일과 합성하는 음성 변환부를 더 포함하되,
    상기 출력부는 상기 사용자의 억양 스타일과 합성된 음성 명령에 대한 분석 결과를 오디오를 통해 출력하는 것인, 미디어 재생 장치.
  9. 삭제
  10. 제 1 항에 있어서,
    상기 언어 특징 분석부는 상기 입력된 음성 명령을 윤율 표기 규약 표기법에 기초하여 음높이 심볼로 변환하고, 기설정된 음성 시퀀스에 기초하여 상기 변환된 음높이 심볼을 분석하고, 상기 분석된 음높이 심볼의 패턴과 기저장된 언어별 억양 패턴과의 유사도에 기초하여 상기 음성 명령에 대한 억양 스타일을 추론하고,
    상기 변환부는 상기 추론된 억양 스타일에 더 기초하여 상기 출력 사항을 변환하는 것인, 미디어 재생 장치.
  11. 제 1 항에 있어서,
    상기 변환부는 상기 미디어 재생 장치의 디스플레이에 출력된 텍스트를 상기 분류된 어휘 구사 성향을 참조하여 상기 인식된 언어의 형식으로 변환하고,
    상기 출력부는 상기 변환된 텍스트를 상기 디스플레이에 출력하는 것인, 미디어 재생 장치.
  12. 미디어 재생 장치에서 다국어 음성 명령 서비스를 제공하는 방법에 있어서,
    사용자로부터 음성 명령을 입력받는 단계;
    상기 입력된 음성 명령을 분석하여 상기 사용자가 발화한 언어를 인식하는 단계;
    상기 인식된 언어에 기초하여 상기 음성 명령의 문장 구성을 결정하고, 상기 결정된 문장 구성에 따라 어휘 구사 성향을 분류하는 단계;
    상기 인식된 언어 및 상기 분류된 어휘 구사 성향에 기초하여 상기 미디어 재생 장치의 사용자 인터페이스에 대한 출력 사항을 변환하는 단계; 및
    상기 변환된 출력 사항을 적용하여 동적으로 상기 사용자 인터페이스를 출력하는 단계를 포함하고,
    상기 분류하는 단계는 상기 음성 명령의 문장 구성에 포함된 적어도 하나 이상의 단어의 품사를 결정하는 단계;
    상기 결정된 각 품사 별로 등급을 매핑하는 단계; 및
    상기 각 품사 별로 매핑된 등급에 기초하여 상기 사용자의 어휘 구사 성향을 결정하는 단계를 포함하고,
    상기 음성 명령의 문장 구성에 포함된 동사 품사의 사용 개수, 명사 품사의 사용 개수 및 형용사 품사의 사용 개수 중 적어도 하나에 기초하여 상기 사용자의 어휘 구사 성향이 결정된 경우, 상기 결정된 어휘 구사 성향에 기초하여 발화 가이드 문장을 구성할 어휘를 선별하고, 상기 선별된 어휘로 구성된 발화 가이드 문장을 생성하고, 상기 발화 가이드 문장을 상기 사용자가 발화한 언어로 변환하는 단계;
    상기 입력된 음성 명령으로부터 상기 사용자의 억양 및 엑센트에 대한 언어 특징 정보를 추출하는 단계; 및
    상기 추출된 언어 특징 정보에 대한 패턴을 통해 상기 음성 명령에 대한 억양 스타일을 분석하는 단계를 더 포함하는 것인, 다국어 음성 명령 서비스 제공 방법.
  13. 제 12 항에 있어서,
    상기 결정된 각 품사 별로 사용 어휘를 카테고리화하는 단계; 및
    상기 카테고리화된 사용 어휘에 따라 상기 결정된 각 품사 별로 등급을 매핑하는 단계를 포함하는, 다국어 음성 명령 서비스 제공 방법.
  14. 제 12 항에 있어서,
    상기 발화 가이드 문장을 생성하는 단계는,
    상기 생성된 발화 가이드 문장을 디스플레이에 출력하는 단계
    를 더 포함하는 것인, 다국어 음성 명령 서비스 제공 방법.
  15. 삭제
  16. 제 12 항에 있어서,
    상기 발화 가이드 문장을 생성하는 단계는 상기 사용자가 발화한 상기 음성 명령의 사용 빈도에 기초하여 음성 명령 정보를 도출하는 단계;
    상기 도출된 음성 명령 정보에 기초하여 발화 리스트 문장을 선별하는 단계;
    상기 선별된 발화 리스트 문장의 어휘를 상기 사용자의 어휘 구사 성향에 기초하여 재구성하는 단계; 및
    상기 어휘가 재구성된 발화 리스트 문장을 기설정된 언어별 매핑 테이블에 기초하여 상기 인식된 사용자의 언어로 변환하는 단계를 포함하는, 다국어 음성 명령 서비스 제공 방법.
  17. 제 12 항에 있어서,
    상기 인식된 사용자의 언어 정보에 기초하여 상기 음성 명령을 다국어 대화 서버로 전송하는 단계; 및
    상기 다국어 대화 서버로부터 상기 음성 명령에 대한 분석 결과를 수신하는 단계;
    상기 다국어 대화 서버로부터 수신한 상기 음성 명령에 대한 분석 결과를 상기 사용자의 억양 스타일과 합성하는 단계; 및
    상기 사용자의 억양 스타일과 합성된 음성 명령에 대한 분석 결과를 오디오를 통해 출력하는 단계를 더 포함하는, 다국어 음성 명령 서비스 제공 방법.
  18. 삭제
  19. 제 12 항에 있어서,
    상기 입력된 음성 명령을 윤율 표기 규약 표기법에 기초하여 음높이 심볼로 변환하는 단계;
    기설정된 음성 시퀀스에 기초하여 상기 변환된 음높이 심볼을 분석하는 단계; 및
    상기 분석된 음높이 심볼의 패턴과 기저장된 언어별 억양 패턴과의 유사도에 기초하여 상기 음성 명령에 대한 억양 스타일을 추론하는 단계; 및
    상기 추론된 억양 스타일에 더 기초하여 상기 출력 사항을 변환하는 단계
    를 더 포함하는, 다국어 음성 명령 서비스 제공 방법.
  20. 미디어 재생 장치를 통해 다국어 음성 명령 서비스를 제공하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    사용자로부터 음성 명령을 입력받고,
    상기 입력된 음성 명령을 분석하여 상기 사용자가 발화한 언어를 인식하고,
    상기 인식된 사용자의 언어에 기초하여 상기 음성 명령의 문장 구성을 결정하고,
    상기 결정된 문장 구성에 따라 어휘 구사 성향을 분류하고,
    상기 인식된 언어 및 상기 분류된 어휘 구사 성향에 기초하여 상기 미디어 재생 장치의 사용자 인터페이스에 대한 출력 사항을 변환하고,
    상기 변환된 출력 사항을 적용하여 동적으로 상기 사용자 인터페이스를 출력하고,
    상기 음성 명령의 문장 구성에 포함된 적어도 하나 이상의 단어의 품사를 결정하고, 상기 각 품사 별로 매핑된 등급에 기초하여 상기 사용자의 어휘 구사 성향을 결정하고,
    상기 음성 명령의 문장 구성에 포함된 동사 품사의 사용 개수, 명사 품사의 사용 개수 및 형용사 품사의 사용 개수 중 적어도 하나에 기초하여 상기 사용자의 어휘 구사 성향이 결정된 경우, 상기 결정된 어휘 구사 성향에 기초하여 발화 가이드 문장을 구성할 어휘를 선별하고, 상기 선별된 어휘로 구성된 발화 가이드 문장을 생성하고, 상기 발화 가이드 문장을 상기 사용자가 발화한 언어로 변환하고,
    상기 입력된 음성 명령으로부터 상기 사용자의 억양 및 엑센트에 대한 언어 특징 정보를 추출하고, 상기 추출된 언어 특징 정보에 대한 패턴을 통해 상기 음성 명령에 대한 억양 스타일을 분석하도록 하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.
KR1020180106483A 2018-09-06 2018-09-06 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램 KR102638373B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180106483A KR102638373B1 (ko) 2018-09-06 2018-09-06 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180106483A KR102638373B1 (ko) 2018-09-06 2018-09-06 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20200028158A KR20200028158A (ko) 2020-03-16
KR102638373B1 true KR102638373B1 (ko) 2024-02-20

Family

ID=69948575

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180106483A KR102638373B1 (ko) 2018-09-06 2018-09-06 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102638373B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102462144B1 (ko) * 2021-01-21 2022-11-04 주식회사 증강지능 튜터링을 위해 혼합현실 컨텐츠를 제공하는 인공지능 챗봇 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016014874A (ja) * 2014-06-30 2016-01-28 ゼロックス コーポレイションXerox Corporation 音声認識

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020002527A (ko) * 2000-06-30 2002-01-10 조용환 실시간 다 국어 다중 번역 대화 장치 및 그 방법
KR101203188B1 (ko) * 2011-04-14 2012-11-22 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
KR102175539B1 (ko) * 2013-10-18 2020-11-06 에스케이텔레콤 주식회사 사용자 발화 스타일에 따른 대화형 서비스 장치 및 방법
KR102297519B1 (ko) * 2014-02-25 2021-09-03 삼성전자주식회사 서버 및 이의 가이드 문장 생성 방법
KR101813047B1 (ko) * 2015-06-12 2018-01-30 박기동 감성 및 성향분석 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016014874A (ja) * 2014-06-30 2016-01-28 ゼロックス コーポレイションXerox Corporation 音声認識

Also Published As

Publication number Publication date
KR20200028158A (ko) 2020-03-16

Similar Documents

Publication Publication Date Title
US20210287657A1 (en) Speech synthesis method and device
US9916825B2 (en) Method and system for text-to-speech synthesis
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
JP6819988B2 (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
KR20220004737A (ko) 다국어 음성 합성 및 언어간 음성 복제
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
EP3151239A1 (en) Method and system for text-to-speech synthesis
US20140303958A1 (en) Control method of interpretation apparatus, control method of interpretation server, control method of interpretation system and user terminal
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
US20090254349A1 (en) Speech synthesizer
CN105609097A (zh) 语音合成装置及其控制方法
US10783329B2 (en) Method, device and computer readable storage medium for presenting emotion
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
Abushariah et al. Phonetically rich and balanced text and speech corpora for Arabic language
KR20210020656A (ko) 인공 지능을 이용한 음성 인식 방법 및 그 장치
KR20110080096A (ko) 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법
KR20200069264A (ko) 사용자 맞춤형 음성 선택이 가능한 음성 출력 시스템 및 그 구동방법
KR102638373B1 (ko) 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
Šoić et al. Spoken notifications in smart environments using Croatian language
Tripathi et al. CycleGAN-Based Speech Mode Transformation Model for Robust Multilingual ASR
JP2003099089A (ja) 音声認識・合成装置および方法
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법
JP2004347732A (ja) 言語自動識別方法及び装置
CN116705058B (zh) 多模语音任务的处理方法、电子设备及可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant