WO2020080771A1

WO2020080771A1 - 변형 발화 텍스트를 제공하는 전자 장치 및 그것의 동작 방법

Info

Publication number: WO2020080771A1
Application number: PCT/KR2019/013443
Authority: WO
Inventors: 박상민; 송가진
Original assignee: 삼성전자 주식회사
Priority date: 2018-10-15
Filing date: 2019-10-14
Publication date: 2020-04-23
Also published as: US20220051661A1; KR20200042137A

Abstract

서버와 통신하는 전자 장치의 동작 방법에 있어서, 도메인 및 카테고리를 입력 받는 동작, 상기 도메인 및 상기 카테고리를 상기 서버로 전송하는 동작, 상기 서버로부터 상기 도메인 및 상기 카테고리에 대응하는 변형 발화 텍스트를 수신하는 동작, 그리고 상기 변형 발화 텍스트를 표시하는 동작을 포함하되, 상기 변형 발화 텍스트는 상기 서버에 기 저장된 사용자 발화 데이터에 기초하여 생성 모델 또는 전이 학습 모델을 통해 생성되고, 상기 사용자 발화 데이터는 사용자 발화를 입력 받는 외부 전자 장치가 상기 서버로 전달한 음성 데이터를 상기 서버가 텍스트로 변환하여 저장하는 전자 장치의 동작 방법이 개시된다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다.

Description

변형 발화 텍스트를 제공하는 전자 장치 및 그것의 동작 방법

본 문서에서 개시되는 실시 예들은, 트레이닝 발화 텍스트에 대응하는 변형 발화 텍스트를 제공하는 기술과 관련된다.

키보드나 마우스를 이용한 전통적인 입력 방식에 부가하여, 최근의 전자 장치들은 음성 입력과 같은 다양한 입력 방식을 지원할 수 있다. 예를 들어, 스마트폰이나 태블릿과 같은 전자 장치들은 음성 인식 서비스가 실행된 상태에서 입력되는 사용자의 음성을 인식하고, 음성 입력에 대응되는 동작을 실행하거나 검색 결과를 제공할 수 있다.

근래 음성 인식 서비스는 자연어를 처리하는 기술을 기반으로 발전하고 있다. 자연어를 처리하는 기술은 사용자 발화의 의도를 파악하고, 의도에 맞는 결과를 사용자에게 제공하는 기술이다.

음성 인식 서비스를 제공하는 서버는 개발자에 의해 수동으로 작성된 트레이닝 발화 텍스트 세트에 기초하여 트레이닝된다. 개발자는 대표 발화를 생성하고, 대표 발화에 대한 응용 발화 생성하여 트레이닝 발화 텍스트 세트를 작성한다. 따라서, 트레이닝 발화 텍스트 세트에 의한 트레이닝 효과는 개발자의 능력에 따라 달라지게 된다.

본 발명의 다양한 실시 예들은 트레이닝 발화 텍스트 세트 또는 실제 사용자 발화에 기초하여 음성 인식 서비스의 트레이닝을 위해 서버 내에서 추가적인 변형 발화 텍스트 세트를 생성하는 방법을 제안하고자 한다.

또한, 본 발명의 다양한 실시 예들은 생성된 변형 발화 텍스트 세트를 개발자 또는 사용자에게 제공하는 방법을 제안하고자 한다.

본 문서에 개시되는 일 실시 예에 따른 서버와 통신하는 전자 장치의 동작 방법은, 도메인 및 카테고리를 입력 받는 동작, 상기 도메인 및 상기 카테고리를 상기 서버로 전송하는 동작, 상기 서버로부터 상기 도메인 및 상기 카테고리에 대응하는 변형 발화 텍스트를 수신하는 동작, 그리고 상기 변형 발화 텍스트를 표시하는 동작을 포함하되, 상기 변형 발화 텍스트는 상기 서버에 기 저장된 사용자 발화 데이터에 기초하여 생성 모델 또는 전이 학습 모델을 통해 생성되고, 상기 사용자 발화 데이터는 사용자 발화를 입력 받는 외부 전자 장치가 상기 서버로 전달한 음성 데이터를 상기 서버가 텍스트로 변환하여 저장한다.

또한, 본 문서에 개시되는 일 실시 예에 따른 서버와 통신하는 전자 장치의 동작 방법은, 도메인 및 카테고리를 입력 받는 동작, 상기 도메인 및 상기 카테고리에 대응하는 트레이닝 발화 텍스트 세트를 입력 받는 동작, 상기 도메인, 상기 카테고리 및 상기 트레이닝 발화 텍스트 세트를 상기 서버로 전송하는 동작, 상기 서버로부터 상기 트레이닝 발화 텍스트 세트에 대응하는 변형 발화 텍스트 세트를 수신하는 동작, 그리고 상기 변형 발화 텍스트 세트를 표시하는 동작을 포함하되, 상기 변형 발화 텍스트 세트는 상기 서버에 기 저장된 사용자 발화 데이터에 기초하여 생성 모델 또는 전이 학습 모델을 통해 생성되고, 상기 사용자 발화 데이터는 사용자 발화를 입력 받는 외부 전자 장치가 상기 서버로 전달한 음성 데이터를 상기 서버가 텍스트로 변환하여 저장한다.

또한, 본 문서에 개시되는 일 실시 예에 따른 서버와 통신하는 전자 장치의 동작 방법은, 도메인 및 카테고리를 입력 받는 동작, 상기 도메인 및 상기 카테고리에 대응하는 트레이닝 발화 텍스트 세트를 입력 받는 동작, 상기 도메인, 상기 카테고리 및 상기 트레이닝 발화 텍스트 세트를 상기 서버로 전송하는 동작, 상기 서버로부터 상기 트레이닝 발화 텍스트 세트에 대응하는 변형 발화 텍스트 세트를 수신하는 동작, 그리고 상기 변형 발화 텍스트 세트에 기초하여 상기 트레이닝 발화 텍스트 세트에 포함된 제1 파라미터에 대응하는 복수의 제2 파라미터를 표시하는 동작을 포함한다.

본 문서에 개시되는 실시 예들에 따르면, 과거에 축적된 사용자 발화 데이터를 기반으로 변형 발화 텍스트 세트를 생성할 수 있다.

본 문서에 개시되는 실시 예들에 따르면, 생성 모델 또는 전이 학습 모델을 기반으로 변형 발화 텍스트 세트를 생성할 수 있다.

본 문서에 개시되는 실시 예들에 따르면, 사용자 특성을 기반으로 변형 발화 텍스트 세트를 생성할 수 있다.

본 문서에 개시되는 실시 예들에 따르면, 생성된 변형 발화 텍스트 세트에 기초하여 서버의 자연어 이해 모듈을 트레이닝 할 수 있다.

본 문서에 개시되는 실시 예들에 따르면, 생성된 변형 발화 텍스트 세트를 개발자 또는 사용자에게 추천하여 음성 인식 서비스의 성능을 향상시킬 수 있다.

이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.

도 1은 일 실시 예에 따른 통합 지능(integrated intelligence) 시스템을 나타낸 블록도이다.

도 2는 일 실시 예에 따른, 컨셉과 액션의 관계 정보가 데이터베이스에 저장된 형태를 나타낸 도면이다.

도 3은 일 실시 예에 따라, 지능형 앱을 통해 수신된 음성 입력을 처리하는 화면을 표시하는 사용자 단말을 도시하는 도면이다.

도 4는 일 실시 예에 따른 변형 발화 텍스트 세트를 생성하는 지능형 서버를 보여주는 블록도이다.

도 5는 도 4의 파라미터 수집 모듈의 일 실시 예를 보여주는 블록도이다.

도 6은 일 실시 예에 따른 자연어 이해 트레이닝 모드 시 지능형 서버의 동작 방법을 보여주는 순서도이다.

도 7은, 도 6의 동작 650에서, 변형 발화 텍스트 세트를 생성하는 방법의 일 예를 보여주는 순서도이다.

도 8은, 도 6의 동작 650에서, 변형 발화 텍스트 세트를 생성하는 방법의 다른 예를 보여주는 순서도이다.

도 9는 일 실시 예에 따른 발화 추천 모드 시 지능형 서버의 동작 방법을 보여주는 순서도이다.

도 10a는 일 실시 예에 따라 트레이닝 발화 텍스트가 발화 입력기를 통해 입력될 때 입력된 도메인의 카테고리에 따라 변형 발화 텍스트가 추천되는 방법을 나타내는 도면이다.

도 10b는 일 실시 예에 따라 트레이닝 발화 텍스트가 발화 입력기를 통해 입력될 때 입력된 사용자 발화 예시의 의도에 따라 변형 발화 텍스트가 추천되는 방법을 나타내는 도면이다.

도 10c는 일 실시 예에 따라 트레이닝 발화 텍스트가 발화 입력기를 통해 입력될 때 입력된 사용자 발화 예시에 포함된 키워드에 따라 변형 발화 텍스트가 추천되는 방법을 나타내는 도면이다.

도 11은 일 실시 예에 따라 사용자 발화 시 사용자에게 변형 발화 텍스트를 추천하는 방법을 나타내는 도면이다.

도 12는 다양한 실시 예에 따른 네트워크 환경 내의 전자 장치의 블록도이다.

도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.

이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.

본 발명의 일 실시 예를 서술하기에 앞서, 본 발명의 일 실시 예가 적용될 수 있는 통합 지능화 시스템에 대해 설명한다.

도 1을 참조하면, 일 실시 예의 통합 지능화 시스템은 사용자 단말(100), 지능형 서버(200), 및 서비스 서버(300)를 포함할 수 있다.

일 실시 예의 사용자 단말(100)은, 인터넷에 연결 가능한 단말 장치(또는, 전자 장치)일 수 있으며, 예를 들어, 휴대폰, 스마트폰, PDA(personal digital assistant), 노트북 컴퓨터, TV, 백색 가전, 웨어러블 장치, HMD, 또는 스마트 스피커일 수 있다.

도시된 실시 예에 따르면, 사용자 단말(100)은 통신 인터페이스(110), 마이크(120), 스피커(130), 디스플레이(140), 메모리(150), 또는 프로세서(160)를 포함할 수 있다. 상기 열거된 구성요소들은 서로 작동적으로 또는 전기적으로 연결될 수 있다.

일 실시 예의 통신 인터페이스(110)는 외부 장치와 연결되어 데이터를 송수신하도록 구성될 수 있다. 일 실시 예의 마이크(120)는 소리(예: 사용자 발화)를 수신하여, 전기적 신호로 변환할 수 있다. 일 실시 예의 스피커(130)는 전기적 신호를 소리(예: 음성)로 출력할 수 있다. 일 실시 예의 디스플레이(140)는 이미지 또는 비디오를 표시하도록 구성될 수 있다. 일 실시 예의 디스플레이(140)는 또한 실행되는 앱(app)(또는, 어플리케이션 프로그램(application program))의 그래픽 사용자 인터페이스(graphic user interface)(GUI)를 표시할 수 있다.

일 실시 예의 메모리(150)는 클라이언트 모듈(151), SDK(software development kit)(153), 및 복수의 앱들(155)을 저장할 수 있다. 상기 클라이언트 모듈(151), 및 SDK(153)는 범용적인 기능을 수행하기 위한 프레임워크(framework)(또는, 솔루션 프로그램)를 구성할 수 있다. 또한, 클라이언트 모듈(151) 또는 SDK(153)는 음성 입력을 처리하기 위한 프레임워크를 구성할 수 있다.

일 실시 예의 상기 복수의 앱들(155)은 지정된 기능을 수행하기 위한 프로그램일 수 있다. 일 실시 예에 따르면, 복수의 앱들(155)은 제1 앱(155_1), 제2 앱(155_2)을 포함할 수 있다. 일 실시 예에 따르면, 복수의 앱들(155) 각각은 지정된 기능을 수행하기 위한 복수의 동작들을 포함할 수 있다. 예를 들어, 상기 복수의 앱들(155)은 알람 앱, 메시지 앱, 및/또는 스케줄 앱을 포함할 수 있다. 일 실시 예에 따르면, 복수의 앱들(155)은 프로세서(160)에 의해 실행되어 상기 복수의 동작들 중 적어도 일부를 순차적으로 실행할 수 있다.

일 실시 예의 프로세서(160)는 사용자 단말(100)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(160)는 통신 인터페이스(110), 마이크(120), 스피커(130), 및 디스플레이(140)와 전기적으로 연결되어 지정된 동작을 수행할 수 있다.

일 실시 예의 프로세서(160)는 또한 상기 메모리(150)에 저장된 프로그램을 실행시켜 지정된 기능을 수행할 수 있다. 예를 들어, 프로세서(160)는 클라이언트 모듈(151) 또는 SDK(153) 중 적어도 하나를 실행하여, 음성 입력을 처리하기 위한 이하의 동작을 수행할 수 있다. 프로세서(160)는, 예를 들어, SDK(153)를 통해 복수의 앱들(155)의 동작을 제어할 수 있다. 클라이언트 모듈(151) 또는 SDK(153)의 동작으로 설명된 이하의 동작은 프로세서(160)의 실행에 의한 동작일 수 있다.

일 실시 예의 클라이언트 모듈(151)은 음성 입력을 수신할 수 있다. 예를 들어, 클라이언트 모듈(151)은 마이크(120)를 통해 감지된 사용자 발화에 대응되는 음성 신호를 수신할 수 있다. 상기 클라이언트 모듈(151)은 수신된 음성 입력을 지능형 서버(200)로 송신할 수 있다. 클라이언트 모듈(151)은 수신된 음성 입력과 함께, 사용자 단말(100)의 상태 정보를 지능형 서버(200)로 송신할 수 있다. 상기 상태 정보는, 예를 들어, 앱의 실행 상태 정보일 수 있다.

일 실시 예의 클라이언트 모듈(151)은 수신된 음성 입력에 대응되는 결과를 수신할 수 있다. 예를 들어, 클라이언트 모듈(151)은 지능형 서버(200)에서 상기 수신된 음성 입력에 대응되는 결과를 산출할 수 있는 경우, 수신된 음성 입력에 대응되는 결과를 수신할 수 있다. 클라이언트 모듈(151)은 상기 수신된 결과를 디스플레이(140)에 표시할 수 있다.

일 실시 예의 클라이언트 모듈(151)은 수신된 음성 입력에 대응되는 플랜을 수신할 수 있다. 클라이언트 모듈(151)은 플랜에 따라 앱의 복수의 동작을 실행한 결과를 디스플레이(140)에 표시할 수 있다. 클라이언트 모듈(151)은, 예를 들어, 복수의 동작들의 실행 결과를 순차적으로 디스플레이에 표시할 수 있다. 사용자 단말(100)은, 다른 예를 들어, 복수의 동작들을 실행한 일부 결과(예: 마지막 동작의 결과)만을 디스플레이에 표시할 수 있다.

일 실시 예에 따르면, 클라이언트 모듈(151)은 지능형 서버(200)로부터 음성 입력에 대응되는 결과를 산출하기 위해 필요한 정보를 획득하기 위한 요청을 수신할 수 있다. 일 실시 예에 따르면, 클라이언트 모듈(151)은 상기 요청에 대응하여 상기 필요한 정보를 지능형 서버(200)로 송신할 수 있다.

일 실시 예의 클라이언트 모듈(151)은 플랜에 따라 복수의 동작들을 실행한 결과 정보를 지능형 서버(200)로 송신할 수 있다. 지능형 서버(200)는 상기 결과 정보를 이용하여 수신된 음성 입력이 올바르게 처리된 것을 확인할 수 있다.

일 실시 예의 클라이언트 모듈(151)은 음성 인식 모듈을 포함할 수 있다. 일 실시 예에 따르면, 클라이언트 모듈(151)은 상기 음성 인식 모듈을 통해 제한된 기능을 수행하는 음성 입력을 인식할 수 있다. 예를 들어, 클라이언트 모듈(151)은 지정된 입력(예: 웨이크 업!)을 통해 유기적인 동작을 수행하기 위한 음성 입력을 처리하기 위한 지능형 앱을 수행할 수 있다.

일 실시 예의 지능형 서버(200)는 통신망을 통해 사용자 단말(100)로부터 사용자 음성 입력과 관련된 정보를 수신할 수 있다. 일 실시 예에 따르면, 지능형 서버(200)는 수신된 음성 입력과 관련된 데이터를 텍스트 데이터(text data)로 변경할 수 있다. 일 실시 예에 따르면, 지능형 서버(200)는 상기 텍스트 데이터에 기초하여 사용자 음성 입력과 대응되는 태스크(task)를 수행하기 위한 플랜(plan)을 생성할 수 있다

일 실시 예에 따르면, 플랜은 인공 지능(artificial intelligent)(AI) 시스템에 의해 생성될 수 있다. 인공지능 시스템은 룰 베이스 시스템(rule-based system)일 수도 있고, 신경망 베이스 시스템(neural network-based system)(예: 피드포워드 신경망(feedforward neural network(FNN)), 순환 신경망(recurrent neural network(RNN)))일 수도 있다. 또는, 전술한 것의 조합 또는 이와 다른 인공지능 시스템일 수도 있다. 일 실시 예에 따르면, 플랜은 미리 정의된 플랜의 집합에서 선택될 수 있거나, 사용자 요청에 응답하여 실시간으로 생성될 수 있다. 예를 들어, 인공지능 시스템은 미리 정의된 복수의 플랜들 중 적어도 하나의 플랜을 선택할 수 있다.

일 실시 예의 지능형 서버(200)는 생성된 플랜에 따른 결과를 사용자 단말(100)로 송신하거나, 생성된 플랜을 사용자 단말(100)로 송신할 수 있다. 일 실시 예에 따르면, 사용자 단말(100)은 플랜에 따른 결과를 디스플레이에 표시할 수 있다. 일 실시 예에 따르면, 사용자 단말(100)은 플랜에 따른 동작을 실행한 결과를 디스플레이에 표시할 수 있다.

일 실시 예의 지능형 서버(200)는 프론트 엔드(front end)(210), 자연어 플랫폼(natural language platform)(220), 캡슐 데이터베이스(capsule DB)(230), 실행 엔진(execution engine)(240), 엔드 유저 인터페이스(end user interface)(250), 매니지먼트 플랫폼(management platform)(260), 빅 데이터 플랫폼(big data platform)(270), 또는 분석 플랫폼(analytic platform)(280)을 포함할 수 있다.

일 실시 예의 프론트 엔드(210)는 사용자 단말(100)로부터 수신된 음성 입력을 수신할 수 있다. 프론트 엔드(210)는 상기 음성 입력에 대응되는 응답을 송신할 수 있다.

일 실시 예에 따르면, 자연어 플랫폼(220)은 자동 음성 인식 모듈(automatic speech recognition module)(ASR module)(221), 자연어 이해 모듈(natural language understanding module)(NLU module)(223), 플래너 모듈(planner module)(225), 자연어 생성 모듈(natural language generator module)(NLG module)(227) 또는 텍스트 음성 변환 모듈(text to speech module)(TTS module)(229)을 포함할 수 있다.

일 실시 예의 자동 음성 인식 모듈(221)은 사용자 단말(100)로부터 수신된 음성 입력을 텍스트 데이터로 변환할 수 있다. 일 실시 예의 자연어 이해 모듈(223)은 음성 입력의 텍스트 데이터를 이용하여 사용자의 의도를 파악할 수 있다. 예를 들어, 자연어 이해 모듈(223)은 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자의 의도를 파악할 수 있다. 일 실시 예의 자연어 이해 모듈(223)은 형태소 또는 구의 언어적 특징(예: 문법적 요소)을 이용하여 음성 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 의도에 매칭시켜 사용자의 의도를 결정할 수 있다.

일 실시 예의 플래너 모듈(225)은 자연어 이해 모듈(223)에서 결정된 의도 및 파라미터를 이용하여 플랜을 생성할 수 있다. 일 실시 예에 따르면, 플래너 모듈(225)은 상기 결정된 의도에 기초하여 태스크를 수행하기 위해 필요한 복수의 도메인을 결정할 수 있다. 플래너 모듈(225)은 상기 의도에 기초하여 결정된 복수의 도메인 각각에 포함된 복수의 동작을 결정할 수 있다. 일 실시 예에 따르면, 플래너 모듈(225)은 상기 결정된 복수의 동작을 실행하는데 필요한 파라미터나, 상기 복수의 동작의 실행에 의해 출력되는 결과 값을 결정할 수 있다. 상기 파라미터, 및 상기 결과 값은 지정된 형식(또는, 클래스)의 컨셉으로 정의될 수 있다. 이에 따라, 플랜은 사용자의 의도에 의해 결정된 복수의 동작, 및 복수의 컨셉을 포함할 수 있다. 상기 플래너 모듈(225)은 상기 복수의 동작, 및 상기 복수의 컨셉 사이의 관계를 단계적(또는, 계층적)으로 결정할 수 있다. 예를 들어, 플래너 모듈(225)은 복수의 컨셉에 기초하여 사용자의 의도에 기초하여 결정된 복수의 동작의 실행 순서를 결정할 수 있다. 다시 말해, 플래너 모듈(225)은 복수의 동작의 실행에 필요한 파라미터, 및 복수의 동작의 실행에 의해 출력되는 결과에 기초하여, 복수의 동작의 실행 순서를 결정할 수 있다. 이에 따라, 플래너 모듈(225)은 복수의 동작, 및 복수의 컨셉 사이의 연관 정보(예: 온톨로지(ontology))가 포함된 플랜을 생성할 수 있다. 상기 플래너 모듈(225)은 컨셉과 동작의 관계들의 집합이 저장된 캡슐 데이터베이스(230)에 저장된 정보를 이용하여 플랜을 생성할 수 있다.

일 실시 예의 자연어 생성 모듈(227)은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 일 실시 예의 텍스트 음성 변환 모듈(229)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다.

상기 캡슐 데이터베이스(230)는 복수의 도메인에 대응되는 복수의 컨셉과 동작의 관계에 대한 정보를 저장할 수 있다. 일 실시 예에 따른 캡슐은 플랜에 포함된 복수의 동작 오브젝트(action object 또는, 동작 정보) 및 컨셉 오브젝트(concept object 또는 컨셉 정보)를 포함할 수 있다. 일 실시 예에 따르면, 캡슐 데이터베이스(230)는 CAN(concept action network)의 형태로 복수의 캡슐을 저장할 수 있다. 일 실시 예에 따르면, 복수의 캡슐은 캡슐 데이터베이스(230)에 포함된 기능 레지스트리(function registry)에 저장될 수 있다.

상기 캡슐 데이터베이스(230)는 음성 입력에 대응되는 플랜을 결정할 때 필요한 전략 정보가 저장된 전략 레지스트리(strategy registry)를 포함할 수 있다. 상기 전략 정보는 음성 입력에 대응되는 복수의 플랜이 있는 경우, 하나의 플랜을 결정하기 위한 기준 정보를 포함할 수 있다. 일 실시 예에 따르면, 캡슐 데이터베이스(230)는 지정된 상황에서 사용자에게 후속 동작을 제안하기 위한 후속 동작의 정보가 저장된 후속 동작 레지스트리(follow up registry)를 포함할 수 있다. 상기 후속 동작은, 예를 들어, 후속 발화를 포함할 수 있다. 일 실시 예에 따르면, 캡슐 데이터베이스(230)는 사용자 단말(100)을 통해 출력되는 정보의 레이아웃(layout) 정보를 저장하는 레이아웃 레지스트리(layout registry)를 포함할 수 있다. 일 실시 예에 따르면, 캡슐 데이터베이스(230)는 캡슐 정보에 포함된 어휘(vocabulary) 정보가 저장된 어휘 레지스트리(vocabulary registry)를 포함할 수 있다. 일 실시 예에 따르면, 캡슐 데이터베이스(230)는 사용자와의 대화(dialog)(또는, 인터렉션(interaction)) 정보가 저장된 대화 레지스트리(dialog registry)를 포함할 수 있다. 상기 캡슐 데이터베이스(230)는 개발자 툴(developer tool)을 통해 저장된 오브젝트를 업데이트(update)할 수 있다. 상기 개발자 툴은, 예를 들어, 동작 오브젝트 또는 컨셉 오브젝트를 업데이트하기 위한 기능 에디터(function editor)를 포함할 수 있다. 상기 개발자 툴은 어휘를 업데이트하기 위한 어휘 에디터(vocabulary editor)를 포함할 수 있다. 상기 개발자 툴은 플랜을 결정하는 전략을 생성 및 등록 하는 전략 에디터(strategy editor)를 포함할 수 있다. 상기 개발자 툴은 사용자와의 대화를 생성하는 대화 에디터(dialog editor)를 포함할 수 있다. 상기 개발자 툴은 후속 목표를 활성화하고, 힌트를 제공하는 후속 발화를 편집할 수 있는 후속 동작 에디터(follow up editor)를 포함할 수 있다. 상기 후속 목표는 현재 설정된 목표, 사용자의 선호도 또는 환경 조건에 기초하여 결정될 수 있다. 일 실시 예에서는 캡슐 데이터베이스(230)는 사용자 단말(100) 내에도 구현이 가능할 수 있다.

일 실시 예의 실행 엔진(240)은 상기 생성된 플랜을 이용하여 결과를 산출할 수 있다. 엔드 유저 인터페이스(250)는 산출된 결과를 사용자 단말(100)로 송신할 수 있다. 이에 따라, 사용자 단말(100)은 상기 결과를 수신하고, 상기 수신된 결과를 사용자에게 제공할 수 있다. 일 실시 예의 매니지먼트 플랫폼(260)은 지능형 서버(200)에서 이용되는 정보를 관리할 수 있다. 일 실시 예의 빅 데이터 플랫폼(270)은 사용자의 데이터를 수집할 수 있다. 일 실시 예의 분석 플랫폼(280)은 지능형 서버(200)의 QoS(quality of service)를 관리할 수 있다. 예를 들어, 분석 플랫폼(280)은 지능형 서버(200)의 구성 요소 및 처리 속도(또는, 효율성)를 관리할 수 있다.

일 실시 예의 서비스 서버(300)는 사용자 단말(100)에 지정된 서비스(예: 음식 주문 또는 호텔 예약)를 제공할 수 있다. 일 실시 예에 따르면, 서비스 서버(300)는 제3 자에 의해 운영되는 서버일 수 있다. 일 실시 예의 서비스 서버(300)는 수신된 음성 입력에 대응되는 플랜을 생성하기 위한 정보를 지능형 서버(200)에 제공할 수 있다. 상기 제공된 정보는 캡슐 데이터베이스(230)에 저장될 수 있다. 또한, 서비스 서버(300)는 플랜에 따른 결과 정보를 지능형 서버(200)에 제공할 수 있다.

위에 기술된 통합 지능화 시스템에서, 상기 사용자 단말(100)은, 사용자 입력에 응답하여 사용자에게 다양한 인텔리전트 서비스를 제공할 수 있다. 상기 사용자 입력은, 예를 들어, 물리적 버튼을 통한 입력, 터치 입력 또는 음성 입력을 포함할 수 있다.

일 실시 예에서, 상기 사용자 단말(100)은 내부에 저장된 지능형 앱(또는, 음성 인식 앱)을 통해 음성 인식 서비스를 제공할 수 있다. 이 경우, 예를 들어, 사용자 단말(100)은 상기 마이크를 통해 수신된 사용자 발화(utterance) 또는 음성 입력(voice input)를 인식하고, 인식된 음성 입력에 대응되는 서비스를 사용자에게 제공할 수 있다.

일 실시 예에서, 사용자 단말(100)은 수신된 음성 입력에 기초하여, 단독으로 또는 상기 지능형 서버 및/또는 서비스 서버와 함께 지정된 동작을 수행할 수 있다. 예를 들어, 사용자 단말(100)은 수신된 음성 입력에 대응되는 앱을 실행시키고, 실행된 앱을 통해 지정된 동작을 수행할 수 있다.

일 실시 예에서, 사용자 단말(100)이 지능형 서버(200) 및/또는 서비스 서버와 함께 서비스를 제공하는 경우에는, 상기 사용자 단말은, 상기 마이크(120)를 이용하여 사용자 발화를 감지하고, 상기 감지된 사용자 발화에 대응되는 신호(또는, 음성 데이터)를 생성할 수 있다. 상기 사용자 단말은, 상기 음성 데이터를 통신 인터페이스(110)를 이용하여 지능형 서버(200)로 송신할 수 있다.

일 실시 예에 따른 지능형 서버(200)는 사용자 단말(100)로부터 수신된 음성 입력에 대한 응답으로써, 음성 입력에 대응되는 태스크(task)를 수행하기 위한 플랜, 또는 상기 플랜에 따라 동작을 수행한 결과를 생성할 수 있다. 상기 플랜은, 예를 들어, 사용자의 음성 입력에 대응되는 태스크(task)를 수행하기 위한 복수의 동작, 및 상기 복수의 동작과 관련된 복수의 컨셉을 포함할 수 있다. 상기 컨셉은 상기 복수의 동작의 실행에 입력되는 파라미터나, 복수의 동작의 실행에 의해 출력되는 결과 값을 정의한 것일 수 있다. 상기 플랜은 복수의 동작, 및 복수의 컨셉 사이의 연관 정보를 포함할 수 있다.

일 실시 예의 사용자 단말(100)은, 통신 인터페이스(110)를 이용하여 상기 응답을 수신할 수 있다. 사용자 단말(100)은 상기 스피커(130)를 이용하여 사용자 단말(100) 내부에서 생성된 음성 신호를 외부로 출력하거나, 디스플레이(140)를 이용하여 사용자 단말(100) 내부에서 생성된 이미지를 외부로 출력할 수 있다.

도 2는 다양한 실시 예에 따른, 컨셉과 동작의 관계 정보가 데이터베이스에 저장된 형태를 나타낸 도면이다.

도 1 및 도 2를 참조하면, 상기 지능형 서버(200)의 캡슐 데이터베이스(예: 캡슐 데이터베이스(230))는 CAN(concept action network) 형태로 캡슐을 저장할 수 있다. 상기 캡슐 데이터베이스는 사용자의 음성 입력에 대응되는 태스크를 처리하기 위한 동작, 및 상기 동작을 위해 필요한 파라미터를 CAN(concept action network) 형태로 저장될 수 있다.

상기 캡슐 데이터베이스는 복수의 도메인(예: 어플리케이션) 각각에 대응되는 복수의 캡슐(capsule(A)(401), capsule(B)(404))을 저장할 수 있다. 일 실시 예에 따르면, 하나의 캡슐(예: capsule(A)(401))은 하나의 도메인(예: 위치(geo), 어플리케이션)에 대응될 수 있다. 또한, 하나의 캡슐에는 캡슐과 관련된 도메인에 대한 기능을 수행하기 위한 적어도 하나의 서비스 제공자(예: CP 1(402) 또는 CP 2(403))가 대응될 수 있다. 일 실시 예에 따르면, 하나의 캡슐은 지정된 기능을 수행하기 위한 적어도 하나 이상의 동작(410) 및 적어도 하나 이상의 컨셉(420)을 포함할 수 있다.

상기 자연어 플랫폼(220)은 캡슐 데이터베이스에 저장된 캡슐을 이용하여 수신된 음성 입력에 대응하는 태스크를 수행하기 위한 플랜을 생성할 수 있다. 예를 들어, 자연어 플랫폼의 플래너 모듈(225)은 캡슐 데이터베이스에 저장된 캡슐을 이용하여 플랜을 생성할 수 있다. 예를 들어, 캡슐 A(410)의 동작들(4011, 4013)과 컨셉들(4012, 4014) 및 캡슐 B(404)의 동작(4041)과 컨셉(4042)을 이용하여 플랜(407)을 생성할 수 있다.

도 3은 다양한 실시 예에 따른 사용자 단말이 지능형 앱을 통해 수신된 음성 입력을 처리하는 화면을 나타낸 도면이다.

사용자 단말(100)은 지능형 서버(200)를 통해 사용자 입력을 처리하기 위해 지능형 앱을 실행할 수 있다.

일 실시 예에 따르면, 310 화면에서, 사용자 단말(100)은 지정된 음성 입력(예: 웨이크 업!)을 인식하거나 하드웨어 키(예: 전용 하드웨어 키)를 통한 입력을 수신하면, 음성 입력을 처리하기 위한 지능형 앱을 실행할 수 있다. 사용자 단말(100)은, 예를 들어, 스케줄 앱을 실행한 상태에서 지능형 앱을 실행할 수 있다. 일 실시 예에 따르면, 사용자 단말(100)은 지능형 앱에 대응되는 오브젝트(예: 아이콘)(311)를 디스플레이(140)에 표시할 수 있다. 일 실시 예에 따르면, 사용자 단말(100)은 사용자 발화에 의한 음성 입력을 수신할 수 있다. 예를 들어, 사용자 단말(100)은 "이번 주 일정 알려줘!"라는 음성 입력을 수신할 수 있다. 일 실시 예에 따르면, 사용자 단말(100)은 수신된 음성 입력의 텍스트 데이터가 표시된 지능형 앱의 UI(user interface)(313)(예: 입력창)를 디스플레이에 표시할 수 있다.

일 실시 예에 따르면, 320 화면에서, 사용자 단말(100)은 수신된 음성 입력에 대응되는 결과를 디스플레이에 표시할 수 있다. 예를 들어, 사용자 단말(100)은 수신된 사용자 입력에 대응되는 플랜을 수신하고, 플랜에 따라 '이번 주 일정'을 디스플레이에 표시할 수 있다.

도 4는 일 실시 예에 따른 변형 발화 텍스트 세트를 생성하는 지능형 서버를 보여주는 블록도이다. 도 4에서는 상술한 도면들에서 설명된 구성 요소와 중복되는 구성 요소에 대해서는 설명을 생략할 수 있다.

도 4를 참조하면, 지능형 서버(200)는 도 1에서 설명된 구성의 적어도 일부(예: 자동 음성 인식 모듈(221) 및 자연어 이해 모듈(223)) 및 파라미터 수집 모듈(291), 변형 발화 생성 모듈(292), 제1 및 제2 변형 발화 추천 모듈(293, 294), 자연어 이해(natural language understanding)(NLU) 트레이닝 모듈(295)을 포함할 수 있다.

일 실시 예에 따르면, 지능형 서버(200)는 적어도 하나의 통신 회로, 메모리 및 프로세서를 포함할 수 있다. 상기 통신 회로는 적어도 하나의 외부 전자 장치(예: 개발자 단말(500) 또는 사용자 단말(100)) 중 적어도 하나와 통신 채널을 형성하고, 상기 통신 채널을 통하여 상기 외부 전자 장치와 데이터를 송수신할 수 있다. 상기 메모리는 상기 지능형 서버(200) 구동과 관련한 다양한 데이터, 명령어, 알고리즘, 엔진 등을 저장할 수 있다. 상기 프로세서는 상기 메모리에 저장된 명령어를 실행하여 파라미터 수집 모듈(291), 변형 발화 생성 모듈(292), 제1 및 제2 변형 발화 추천 모듈(293, 294), NLU(자연어 이해) 트레이닝 모듈(295)을 구동시킬 수 있다. 지능형 서버(200)는 상기 통신 회로를 통해 외부 전자 장치(예: 사용자 단말(100), 개발자 단말(500))와 데이터(또는, 정보)를 송수신할 수 있다.

일 실시 예에 따르면, 사용자 단말(100)은 사용자의 발화를 사용자 입력으로 수신하고, 자동 음성 인식 모듈(221)로 사용자 입력(예: 음성 데이터)을 전송할 수 있다. 자동 음성 인식 모듈(221)은 사용자 단말(100)로부터 수신된 사용자 입력을 사용자 발화 텍스트로 변환할 수 있다. 사용자 발화 텍스트는 자연어 이해 모듈(223) 및 파라미터 수집 모듈(291)을 통해 변형 발화 생성 모듈(292)로 전달될 수 있다. 변형 발화 생성 모듈(292)은 사용자 발화 텍스트에 대응하는 변형 발화 텍스트 세트를 생성할 수 있다. 변형 발화 텍스트 세트는 복수의 변형 발화 텍스트를 포함할 수 있다. 사용자 단말(100)은 도 1의 사용자 단말(100)과 동일 또는 유사하게 구성될 수 있다.

일 실시 예에 따르면, 개발자 단말(500)은 자연어 이해 모듈(223)을 트레이닝하기 위한 트레이닝 발화 텍스트 세트를 변형 발화 생성 모듈(292) 및 NLU(자연어 이해) 트레이닝 모듈(295)로 전송할 수 있다. 예를 들어, 트레이닝 발화 텍스트 세트는 개발자에 의해 작성될 수 있다. 개발자 단말(500)은 발화 입력기를 포함할 수 있다. 개발자는 발화 입력기를 이용하여 대표 발화 텍스트(예: 각 서비스에서 사용자들이 자주 사용할 것으로 예측되는 발화)를 입력하고, 도메인, 의도 및 파라미터에 따라 대표 발화 텍스트에 대응하는 응용 발화 텍스트를 개발자 단말(500)에 입력할 수 있다. 개발자 단말(500)은 대표 발화 텍스트 및 응용 발화 텍스트를 포함하는 트레이닝 발화 텍스트 세트를 저장할 수 있다. 예를 들어, 트레이닝 발화 텍스트 세트는 개발자에 의해 수동으로 입력될 수 있다. 트레이닝 발화 텍스트 세트는 개발자에 의해 작성된 복수의 트레이닝 발화 텍스트를 포함할 수 있다. 변형 발화 생성 모듈(292)은 개발자 단말(500)로부터 수신된 트레이닝 발화 텍스트 세트에 대응하는 변형 발화 텍스트 세트를 생성할 수 있다. 개발자 단말(500)은 도 1의 사용자 단말(100)과 동일 또는 유사하게 구성될 수 있다.

일 실시 예에 따르면, 개발자는 발화 입력기를 통해 트레이닝 발화 텍스트 세트를 생성하기 위한 트레이닝 발화 정보(예: 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보 및 의도 정보)를 입력할 수 있다. 개발자 단말(500)은 트레이닝 발화 정보를 변형 발화 생성 모듈(292)로 전송할 수 있다. 변형 발화 생성 모듈(292)은 개발자 단말(500)로부터 수신된 트레이닝 발화 정보에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 지능형 서버(200)는 트레이닝 발화 텍스트 세트를 수신하여 자연어 이해 모듈(223)을 트레이닝하기 위한 자연어 이해 트레이닝 모드(또는 기능)로 동작할 수 있다. 예를 들면, 자연어 이해 트레이닝 모드 시, NLU(자연어 이해) 트레이닝 모듈(295)은 트레이닝 발화 텍스트 세트에 기초하여 자연어 이해 모듈(223)을 트레이닝 할 수 있다. 다만, 트레이닝 발화 텍스트 세트는 개발자에 의해 수동적으로 생성되기 때문에, 트레이닝 발화 텍스트 세트에 기초한 트레이닝 방법의 성능은 개발자의 능력에 좌우될 수 있다. 본 발명의 실시 예에 따른 지능형 서버(200)는 트레이닝 성능을 향상시키기 위해 추가적인 발화 텍스트를 생성하여 자연어 이해 모듈(223)을 트레이닝 할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 트레이닝 발화 텍스트 세트(또는 트레이닝 발화 정보)를 수신하여 추가적인 변형 발화 텍스트 세트를 생성할 수 있다. NLU(자연어 이해) 트레이닝 모듈(295)은 변형 발화 텍스트 세트에 기초하여 추가적으로 자연어 이해 모듈(223)을 트레이닝 할 수 있다. 자연어 이해 모듈(223)은 트레이닝 발화 텍스트 세트 및 변형 발화 텍스트 세트를 이용하여 트레이닝되고, 트레이닝 발화 텍스트 세트 만으로 트레이닝이 수행되는 상황보다 자연어 이해 모듈(223)의 트레이닝 효과는 향상될 수 있다.

일 실시 예에 따르면, 지능형 서버(200)는 트레이닝 발화 텍스트 세트 또는 사용자 발화 텍스트에 기초하여 개발자 또는 발명자에게 변형 발화 텍스트 세트를 제공하는 발화 추천 모드(또는 기능)로 동작할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 트레이닝 발화 텍스트 세트(또는 트레이닝 발화 정보)를 수신하는 경우 상기 트레이닝 발화 텍스트 세트(또는 트레이닝 발화 정보)에 대응하는 변형 발화 텍스트 세트를 생성할 수 있다. 생성된 변형 발화 텍스트 세트는 제1 변형 발화 추천 모듈(293)로 전송될 수 있다. 제1 변형 발화 추천 모듈(293)은 개발자 단말(500)로 생성된 변형 발화 텍스트 세트를 전송할 수 있다. 개발자는 변형 발화 텍스트 세트를 활용하여 새로운 트레이닝 발화 텍스트 세트를 생성할 수 있다. 예를 들어, 개발자는 개발자 단말(500)에서 실행되는 발화 입력기를 통해 트레이닝 발화 정보(예: 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보 및 의도 정보)를 입력할 수 있고, 발화 입력기는 입력된 트레이닝 발화 정보에 기초하여 트레이닝 발화 텍스트 세트를 생성할 수 있다. 발화 입력기는 트레이닝 발화 정보를 입력 받는 과정에서 개발자에게 변형 발화 텍스트 세트를 제공할 수 있다. 개발자는 제공된 변형 발화 텍스트 세트를 참고하여 더욱 다양한 사용자 발화 예시들을 입력할 수 있고, 발화 입력기는 기 저장된 트레이닝 발화 텍스트에 새로 입력된 사용자 발화 예시들을 추가하여 새로운 트레이닝 발화 텍스트 세트를 생성할 수 있다. 개발자 단말(500)은 새로운 트레이닝 발화 텍스트 세트를 지능형 서버(200)에 전송하고, NLU(자연어 이해) 트레이닝 모듈(295)은 새로운 트레이닝 발화 텍스트 세트에 활용하여 자연어 이해 모듈(223)의 트레이닝 성능은 향상될 수 있다.

일 실시 예에 따르면, 사용자 단말(100)에 사용자 발화가 입력되는 경우 사용자 발화는 자동 음성 인식 모듈(221) 및 자연어 이해 모듈(223)을 통해 사용자 발화 텍스트로 변환되고, 변형 발화 생성 모듈(292)은 상기 사용자 발화 텍스트를 수신하는 경우 상기 사용자 발화 텍스트에 대응하는 변형 발화 텍스트 세트를 생성할 수 있다. 생성된 변형 발화 텍스트 세트는 제2 변형 발화 추천 모듈(294)로 전송될 수 있다. 제2 변형 발화 추천 모듈(294)은 사용자 단말(100)로 생성된 변형 발화 텍스트 세트를 전송할 수 있다. 사용자 단말(100)은 사용자 발화가 입력될 때 변형 발화 텍스트 세트를 제공할 수 있다. 예를 들어, 사용자 단말(100)이 처음에 인식한 사용자 발화 텍스트가 사용자의 의도에 일치하지 않는 경우, 사용자는 사용자 발화 패턴과 유사한(또는 사용자에게 익숙한) 발화 텍스트(예: 변형 발화 텍스트 세트)를 추천 받을 수 있다. 사용자 단말(100)은 사용자 발화(예: “전화 닫아주삼”)에 대하여 대표 발화(예: “전화 종료”)가 아닌 사용자 발화 패턴과 유사한(사용자에게 익숙한) 발화 텍스트(예: “전화 꺼주삼”)를 추천할 수 있다. 사용자의 발화 패턴은 다양하고, 자연어 이해 모듈(223)에서 사용되는 발화 모델도 다양하기 때문에, 사용자가 자주 사용하는 발화 패턴과 자연어 이해 모듈(223)에서 잘 처리되는 발화 패턴은 서로 다를 수 있다. 따라서, 자연어 이해 모듈(223)이 처리하지 못하는 사용자 발화가 발생할 수 있다. 변형 발화 생성 모듈(292)에 의해 생성된 변형 발화 텍스트 세트는 자연어 이해 모듈(223)이 처리하지 못하는 부분을 보충할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 자연어 이해 트레이닝 모드 또는 발화 추천 모드 시 다양한 기준에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다. 변형 발화 생성 모듈(292)은 사용자 발화에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 과거에 입력된 사용자 입력이 텍스트로 변환된 사용자 발화 데이터는 자연어 이해 모듈(223)을 통해 자연어 인식 데이터베이스에 저장될 수 있다. 파라미터 수집 모듈(291)은 자연어 인식 데이터베이스로부터 사용자 발화 데이터를 제공받아 사용자 발화 분류 정보를 생성할 수 있다. 사용자 발화 분류 정보는 사용자 발화 데이터에 대한 도메인 정보, 의도 정보 및 파라미터 정보 등을 포함할 수 있다. 변형 발화 생성 모듈(292)은 파라미터 수집 모듈(291)로부터 사용자 발화 분류 정보를 수신하고, 사용자 발화 분류 정보에 기초하여 도메인별로 또는 의도 별로 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 자연어 이해 트레이닝 모드 시 수신된 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트의 수가 기준 발화 횟수보다 작은 경우 변형 발화 텍스트 세트를 생성할 수 있다. 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트의 수가 기준 발화 횟수보다 작으면, 자연어 이해 모듈(223)의 트레이닝 효과는 감소할 수 있고, 따라서 추가적인 변형 발화 텍스트 세트가 필요할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 생성 모델 또는 전이 학습 모델에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들면, 생성 모델은 GAN(Generative Adversarial Networks), VAE(Variational Autoencoder), DNN(Deep Neural Network) 등을 포함하고, 전이 학습 모델은 Style-transfer 등을 포함할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 생성 모듈 및 검사 모듈을 포함할 수 있다. 예를 들면, 상기 생성 모듈 및 상기 검사 모듈은 생성 모델을 구현할 수 있다. 상기 생성 모듈은 사용자 발화 데이터를 이용하여 후보 발화 텍스트를 생성할 수 있다. 상기 검사 모듈은 후보 발화 텍스트와 기준 발화 텍스트(예: 트레이닝 발화 텍스트 세트 또는 사용자 발화 텍스트)의 유사 여부를 비교할 수 있다. 후보 발화 텍스트와 기준 발화 텍스트가 유사한 경우(예: 유사도가 지정된 비율 이상인 경우), 상기 검사 모듈은 기준 발화 텍스트와 유사한 후보 발화 텍스트를 변형 발화 텍스트 세트로 선택할 수 있다. 상기 생성 모듈 및 상기 검사 모듈은 도메인, 의도 및 파라미터 중 적어도 하나를 다르게 설정하면서 생성 및 검사를 반복하여 기준 발화 텍스트와 유사한 다양한 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 기준 발화 텍스트의 도메인(예: 제1 도메인)을 판별할 수 있다. 변형 발화 생성 모듈(292)은 제1 도메인과 유사한 제2 도메인을 결정할 수 있다. 변형 발화 생성 모듈(292)은 제2 도메인에서 제1 도메인에 대한 자연어 이해 모듈(223)의 트레이닝을 위한 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 제1 도메인에 유사한 제2 도메인은 카테고리(category)에 기초하여 결정될 수 있다. 예를 들어, 제1 도메인(예: 피자헛 앱)의 카테고리가 “피자 배달”인 경우, 제2 도메인(예: 도미노피자 앱)은 “피자 배달”이라는 카테고리 내의 도메인들(예: 도미노피자 앱, 미스터피자 앱) 중에서 선택될 수 있다.

일 실시 예에 따르면, 제1 도메인에 유사한 제2 도메인은 의도(intent)에 기초하여 결정될 수 있다. 예를 들어, 제1 도메인(예: 메시지 앱)의 의도가 “문자 전송”인 경우, 제2 도메인(예: 카카오톡 앱)은 “문자 전송”이라는 의도를 가지는 도메인들(예: 카카오톡 앱, 라인 앱) 중에서 선택될 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 전이 학습을 통해 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들어, 변형 발화 생성 모듈(292)은 제1 도메인에서는 사용되지 않고 제2 도메인에서 사용된 발화 패턴을 이용하여 제1 도메인에 대한 변형 발화 텍스트 세트를 생성할 수 있다. 변형 발화 생성 모듈(292)은 제2 도메인에서 사용되는 의도를 제1 도메인으로 전이하여 제1 도메인에 대한 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 사용자 특성에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 파라미터 수집 모듈(291)은 자연어 이해 모듈(223)로부터 사용자 발화 데이터를 수신할 수 있다. 파라미터 수집 모듈(291)은 사용자 발화 데이터를 전처리(노이즈 제거, 샘플 발화 추출, 연관 발화 선택 중 적어도 하나의 처리)를 수행하여 변형 발화 생성 모듈(292)에서 사용되는 형태로 변경할 수 있다. 파라미터 수집 모듈(291)은 전처리된 사용자 발화 데이터를 분석하여 사용자 특성(예: 연령, 지역, 성별)에 대한 정보(이하 사용자 특성 정보)를 생성할 수 있다. 예컨대, 사용자 특성 정보는 연령, 지역 또는 성별에 따라 자주 사용하는 용어들에 대한 정보를 포함할 수 있다. 사용자는 사용자 특성에 따라 동일한 의미에 대하여 형태가 다른 용어들(예: “해주세요”, “해주삼”, 해주세욤”)을 사용할 수 있다.

일 실시 예에 따르면, 파라미터 수집 모듈(291)은 사용자 특성 정보에 기초하여 연령, 지역 및 성별에 따라 자주 사용하는 발화 패턴을 추출할 수 있다. 예를 들어, 사용자 특성에 기초한 사용자 발화 패턴은 20대가 자주 사용하는 발화 패턴, 40대가 자주 사용하는 발화 패턴, 부산에서 자주 사용하는 발화 패턴, 제주도에서 자주 사용하는 발화 패턴, 남성이 자주 사용하는 발화 패턴 및 여성이 자주 사용하는 발화 패턴 등을 포함할 수 있다.

일 실시 예에 따르면, 추출된 사용자 발화 패턴의 횟수가 기준 패턴 횟수보다 큰 경우, 변형 발화 생성 모듈(291)은 사용자 발화 패턴에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들면, 변형 발화 생성 모듈(291)은 사용자 발화 패턴의 수와 기준 패턴 횟수를 비교할 수 있다. 특정 사용자 발화 패턴의 수가 기준 패턴 횟수보다 큰 경우, 특정 사용자 발화 패턴은 사용자들에 의해 자주 사용된다는 것을 의미한다. 따라서, 변형 발화 생성 모듈(291)은 추가적인 변형 발화 텍스트 세트를 생성하기 위해 특정 사용자 발화 패턴을 사용할 수 있다. 기준 패턴 횟수는 발화량에 기초하여 결정될 수 있다. 기준 패턴 횟수는 발화 복잡도에 따라 결정될 수 있다. 예를 들어, 발화 복잡도는 사용자 발화에 포함된 파라미터(또는 슬롯)의 수에 비례할 수 있다. 복잡한 사용자 발화(예: 사용자 발화에 포함된 파라미터(또는 슬롯)가 많은 사용자 발화)의 경우, 기준 패턴 횟수는 낮게 설정될 수 있다.

일 실시 예에 따르면, 변형 발화 생성 모듈(292)은 사용자 특성 정보에 기초하여 전이 학습을 통해 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들어, 변형 발화 생성 모듈(292)은 10대에 의해 많이 사용되는 제2 도메인에서 사용된 발화 패턴을 이용하여 30대에 의해 많이 사용되는 제1 도메인에 대한 변형 발화 텍스트 세트를 생성할 수 있다.

상술한 바와 같이, 다양한 실시 예에 따르면, 지능형 서버(200)는 개발자 단말(500)로부터 수신된 트레이닝 발화 텍스트 세트 또는 사용자 단말(100)로부터 수신된 사용자 입력에 대응하여 다양한 변형 발화 텍스트 세트를 생성할 수 있다. 지능형 서버(200)는 생성된 변형 발화 텍스트 세트를 이용하여 자연어 이해 모듈(223)을 트레이닝 할 수 있다. 지능형 서버(200)는 개발자가 트레이닝 발화 텍스트 세트를 작성하는데 활용하도록 생성된 변형 발화 텍스트 세트를 개발자 단말로 전송할 수 있다. 지능형 서버(200)는 사용자가 사용자 발화에 대응하는 동작을 쉽게 선택할 수 있도록 생성된 변형 발화 텍스트 세트를 사용자 단말로 전송할 수 있다.

도 5는 도 4의 파라미터 수집 모듈의 일 예를 보여주는 블록도이다.

도 5를 참조하면, 파라미터 수집 모듈(291)은 전처리 모듈(2911) 및 사용자 발화 분류 모듈(2912)을 포함할 수 있다. 전처리 모듈(2911)은 노이즈 제거 모듈(2911a), 샘플링 모듈(2911b) 및 연관 발화 선택 모듈(2911c)을 포함할 수 있다.

일 실시 예에 따르면, 자연어 이해 모듈(223)로부터 수신되는 사용자 발화 데이터는 노이즈(예: 사용자 발화의 시작과 종료 사이에 포함된 주변 소음)가 많고, 양(예: 수집되어 축적된 또는 자연어 이해 모듈(223)에 저장된 사용자 발화의 개수)이 많으며, 밸런싱(예: 카테고리 또는 도메인별로 구분)되어 있지 않고, 불확실성(예: 자연어 이해 모듈(223)에 의해 결과가 모호한 발화, 또는 도메인을 알 수 없거나 자연어 이해 모듈(223)이 이해할 수 없는 발화(예: 어제 라이트검정등이 있어))을 포함하는 특징을 가질 수 있다. 전처리 모듈(2911)은 상기 특징을 가지는 사용자 발화 데이터를 전처리하여 변형 발화 생성 모듈(292)에서 사용되는 형태로 변경할 수 있다. 노이즈 제거 모듈(2911a)은 필터링 기법 또는 앙상블 기법을 사용하여 노이즈를 제거할 수 있다. 샘플링 모듈(2911b)은 사용자 발화 데이터에서 패턴화된 샘플 발화를 추출할 수 있다. 샘플링 모듈(2911b)은 반복되는 샘플 발화를 추출하여 사용자 발화 데이터의 양을 감소시킬 수 있다. 연관 발화 선택 모듈(2911c)은 기준 발화 텍스트(예: 트레이닝 발화 텍스트 세트 또는 사용자 발화 텍스트)와 의미적으로 관련이 적은 사용자 발화를 사용자 발화 데이터에서 제거할 수 있다. 즉, 연관 발화 선택 모듈(2911c)은 기준 발화 텍스트와 관련성이 큰 사용자 발화를 선택할 수 있다.

일 실시 예에 따르면, 사용자 발화 분류 모듈(2912)은 전처리 모듈(2911)로부터 전처리된 사용자 발화 데이터를 수신할 수 있다. 사용자 발화 분류 모듈(2912)은 상기 전처리된 사용자 발화 데이터에 기초하여 사용자 발화 분류 정보를 생성하고, 상기 전처리된 사용자 발화 데이터 및 상기 사용자 발화 분류 정보를 변형 발화 생성 모듈(292)로 전송할 수 있다. 한편, 사용자 발화 분류 모듈(2912)은 자연어 이해 모듈(223)로부터 현재의 사용자 발화 텍스트를 수신할 수 있다. 사용자 발화 분류 모듈(2912)은 상기 현재의 사용자 발화 텍스트를 변형 발화 생성 모듈(292)로 전송할 수 있다.

도 6은 일 실시 예에 따른 자연어 이해 트레이닝 모드 시 지능형 서버의 동작 방법(600)을 보여주는 순서도이다. 지능형 서버의 동작 방법(600)은 자연어 이해 트레이닝 모드 시 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트 세트의 수에 따라 다르게 수행될 수 있다.

도 6을 참조하면, 동작 610에서, 지능형 서버(200)는 트레이닝 발화 텍스트 세트를 수신할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 개발자 단말(500)로부터 트레이닝 발화 텍스트 세트를 수신할 수 있다. 트레이닝 발화 텍스트 세트는 개발자에 의해 작성된 복수의 트레이닝 발화 텍스트 세트를 포함할 수 있다.

일 실시 예에 따르면, 동작 620에서, 지능형 서버(200)는 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트 세트의 수를 기준 발화 횟수와 비교할 수 있다. 예를 들면, 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트 세트의 수가 기준 발화 횟수보다 작은 경우, 변형 발화 생성 모듈(292)은 변형 발화 텍스트 세트를 생성하는 동작들(동작 630 내지 동작 1150)을 수행할 수 있다. 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트 세트의 수가 기준 발화 횟수보다 크거나 같은 경우, 동작 1170이 수행될 수 있다.

일 실시 예에 따르면, 동작 630에서, 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트 세트의 수가 기준 발화 횟수보다 작은 경우, 지능형 서버(200)는 트레이닝 발화 텍스트 세트의 도메인(예: 제1 도메인)을 결정할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 자연어 이해 모듈(223)을 이용하여 트레이닝 발화 텍스트 세트의 도메인을 결정할 수 있다.

일 실시 예에 따르면, 동작 640에서, 지능형 서버(200)는 제1 도메인과 유사한 발화 패턴을 가지는 제2 도메인을 결정할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 카테고리(category)에 기초하여 제1 도메인에 유사한 제2 도메인을 결정할 수 있다. 예컨대, 제1 도메인(예: 피자헛 앱)의 카테고리가 “피자 배달업”인 경우, 제2 도메인(예: 도미노피자 앱)은 “피자 배달”이라는 카테고리 내의 도메인들(예: 도미노피자 앱, 미스터피자 앱) 중에서 선택될 수 있다. 다양한 실시 예에 따르면, 변형 발화 생성 모듈(292)은 의도(intent)에 기초하여 제1 도메인에 유사한 제2 도메인을 결정할 수 있다. 예를 들어, 제1 도메인(예: 메시지 앱)의 의도가 “문자 전송”인 경우, 제2 도메인(예: 카카오톡 앱)은 “문자 전송”이라는 의도를 가지는 도메인들(예: 카카오톡 앱, 라인 앱) 중에서 선택될 수 있다.

일 실시 예에 따르면, 동작 650에서, 지능형 서버(200)는 제2 도메인에서 사용되는 사용자 발화 패턴에 기초하여 제1 도메인에 적용될 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들면, 파라미터 수집 모듈(291)은 자연어 이해 모듈(223)로부터 사용자 발화 데이터를 수신할 수 있다. 파라미터 수집 모듈(291)은 사용자 발화 데이터를 전처리(노이즈 제거, 샘플 발화 추출, 연관 발화 선택)하여 변형 발화 생성 모듈(292)에서 사용되는 형태로 변경할 수 있다. 파라미터 수집 모듈(291)은 전처리된 사용자 발화 데이터에 기초하여 사용자 발화 분류 정보를 생성하고, 전처리된 사용자 발화 데이터 및 사용자 발화 분류 정보를 변형 발화 생성 모듈(292)로 전송할 수 있다. 변형 발화 생성 모듈(292)은 사용자 발화 분류 정보에 기초하여 제2 도메인에서 사용되는 사용자 발화 패턴을 추출할 수 있다. 변형 발화 생성 모듈(292)은 추출된 사용자 발화 패턴을 이용하여 제1 도메인에 적용될 변형 발화 텍스트 세트를 생성할 수 있다. 변형 발화 텍스트 세트는 복수의 변형 발화 텍스트 세트를 포함할 수 있다.

일 실시 예에 따르면, 동작 660에서, 지능형 서버(200)는 수신된 트레이닝 발화 텍스트 세트 및 생성된 변형 발화 텍스트 세트에 기초하여 제1 도메인에 대하여 자연어 이해 모듈(223)을 트레이닝 할 수 있다. 예를 들면, NLU(자연어 이해) 트레이닝 모듈(295)은 개발자 단말(500)로부터 트레이닝 발화 텍스트 세트를 수신할 수 있다. NLU(자연어 이해) 트레이닝 모듈(295)은 트레이닝 발화 텍스트 세트에 기초하여 자연어 이해 모듈(223)을 트레이닝 할 수 있다. 또한, NLU(자연어 이해) 트레이닝 모듈(295)은 변형 발화 생성 모듈(292)로부터 변형 발화 텍스트 세트를 수신할 수 있다. NLU(자연어 이해) 트레이닝 모듈(295)은 변형 발화 텍스트 세트에 기초하여 자연어 이해 모듈(223)을 추가적으로 트레이닝 할 수 있다. 따라서, 자연어 이해 모듈(223)의 성능은 트레이닝 발화 텍스트 세트만을 사용하여 트레이닝 된 경우보다 더욱 향상될 수 있다.

일 실시 예에 따르면, 동작 670에서, 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트 세트의 수가 기준 발화 횟수보다 크거나 같은 경우, 지능형 서버(200)는 트레이닝 발화 텍스트 세트에 기초하여 제1 도메인에 대하여 자연어 이해 모듈(223)을 트레이닝 할 수 있다. 예를 들면, 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트 세트의 수가 기준 발화 횟수보다 크거나 같은 경우, 제1 도메인에 대하여 이미 충분한 트레이닝 발화 텍스트 세트가 존재할 수 있다. 이 경우, 변형 발화 생성 모듈(292)은 동작하지 않을 수 있다. 따라서, NLU(자연어 이해) 트레이닝 모듈(295)은 개발자 단말(500)로부터 트레이닝 발화 텍스트 세트를 수신하여 자연어 이해 모듈(223)을 트레이닝 할 수 있다.

도 7은, 도 6의 동작 650에서, 변형 발화 텍스트 세트를 생성하는 방법의 일 예를 보여주는 순서도이다. 도 7의 변형 발화 텍스트 세트를 생성하는 방법(700)은 사용자 발화 데이터에 기초하여 생성된 사용자 발화 분류 정보에 따라 생성 모델 또는 전이 학습 모델에 의해 수행될 수 있다.

도 7을 참조하면, 동작 710에서, 파라미터 수집 모듈(291)은 사용자 발화 데이터를 수신할 수 있다. 예를 들면, 파라미터 수집 모듈(291)은 자연어 이해 모듈(223)로부터 사용자 발화 데이터를 수신할 수 있다. 파라미터 수집 모듈(291)은 사용자 발화 데이터를 전처리(노이즈 제거, 샘플 발화 추출, 연관 발화 선택)하여 변형 발화 생성 모듈(292)에서 사용되는 형태로 변경할 수 있다.

일 실시 예에 따르면, 동작 720에서, 파라미터 수집 모듈(291)은 사용자 발화 데이터에 기초하여 사용자 발화 분류 정보를 생성할 수 있다. 예를 들면, 파라미터 수집 모듈(291)은 전처리된 사용자 발화 데이터에 기초하여 사용자 발화 분류 정보를 생성하고, 전처리된 사용자 발화 데이터 및 사용자 발화 분류 정보를 변형 발화 생성 모듈(292)로 전송할 수 있다.

일 실시 예에 따르면, 동작 730에서, 변형 발화 생성 모듈(292)은 사용자 발화 분류 정보에 기초하여 생성 모델 또는 전이 학습 모델에 의해 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 사용자 발화 분류 정보에 기초하여 제2 도메인에서 사용되는 사용자 발화 패턴을 추출할 수 있다. 변형 발화 생성 모듈(292)은 추출된 사용자 발화 패턴을 이용하여 제1 도메인에 적용될 변형 발화 텍스트 세트를 생성할 수 있다. 변형 발화 텍스트 세트는 복수의 변형 발화 텍스트 세트를 포함할 수 있다. 복수의 변형 발화 텍스트 세트는 제2 도메인에서 사용된 의도 및 파라미터에 기초하여 생성 모델 또는 전이 학습 모델에 의해 생성될 수 있다.

도 8은, 도 6의 동작 650에서, 변형 발화 텍스트 세트를 생성하는 방법의 다른 예를 보여주는 순서도이다. 도 8의 변형 발화 텍스트 세트를 생성하는 방법(800)은 사용자 발화 데이터에 기초하여 확인된 사용자 특성에 따라 수행될 수 있다.

도 8을 참조하면, 동작 810에서, 파라미터 수집 모듈(291)은 사용자 발화 데이터를 수신할 수 있다. 예를 들면, 파라미터 수집 모듈(291)은 자연어 이해 모듈(223)로부터 사용자 발화 데이터를 수신할 수 있다. 파라미터 수집 모듈(291)은 사용자 발화 데이터를 전처리(노이즈 제거, 샘플 발화 추출, 연관 발화 선택)하여 변형 발화 생성 모듈(292)에서 사용되는 형태로 변경할 수 있다.

일 실시 예에 따르면, 동작 820에서, 파라미터 수집 모듈(291)은 사용자 발화 데이터에 기초하여 사용자 특성을 확인할 수 있다. 예를 들면, 파라미터 수집 모듈(291)은 전처리된 사용자 발화 데이터를 분석하여 사용자 특성(예: 연령, 지역, 성별)에 대한 정보(이하 사용자 특성 정보)를 생성할 수 있다. 사용자 특성 정보는 연령, 지역 또는 성별에 따라 자주 사용하는 용어들에 대한 정보를 포함할 수 있다. 사용자는 사용자 특성에 따라 동일한 의미에 대하여 형태가 다른 용어들(예: “해주세요”, “해주삼”, 해주세욤”)을 사용할 수 있다.

일 실시 예에 따르면, 동작 830에서, 파라미터 수집 모듈(291)은 사용자 특성에 기초하여 사용자 발화 패턴을 추출할 수 있다. 예를 들면, 파라미터 수집 모듈(291)은 사용자 특성 정보에 기초하여 연령, 지역 및 성별에 따라 자주 사용하는 발화 패턴을 추출할 수 있다. 예를 들어, 사용자 특성에 기초한 사용자 발화 패턴은 20대가 자주 사용하는 발화 패턴, 40대가 자주 사용하는 발화 패턴, 부산에서 자주 사용하는 발화 패턴, 제주도에서 자주 사용하는 발화 패턴, 남성이 자주 사용하는 발화 패턴 및 여성이 자주 사용하는 발화 패턴 등을 포함할 수 있다.

일 실시 예에 따르면, 동작 840에서, 추출된 사용자 발화 패턴의 수가 기준 패턴 횟수보다 큰 경우, 변형 발화 생성 모듈(291)은 사용자 발화 패턴에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들면, 변형 발화 생성 모듈(291)은 사용자 발화 패턴의 수가 기준 패턴 횟수를 비교할 수 있다. 특정 사용자 발화 패턴의 수가 기준 패턴 횟수보다 큰 경우, 특정 사용자 발화 패턴은 사용자들에 의해 자주 사용된다는 것을 의미한다. 따라서, 변형 발화 생성 모듈(291)은 추가적인 변형 발화 텍스트 세트를 생성하기 위해 특정 사용자 발화 패턴을 사용할 수 있다. 기준 패턴 횟수는 발화량에 기초하여 결정될 수 있다. 기준 패턴 횟수는 발화 복잡도에 따라 결정될 수 있다. 예를 들어, 복잡한 사용자 발화의 경우, 기준 패턴 횟수는 낮게 설정될 수 있다.

다양한 실시 예에 따르면, 변형 발화 생성 모듈(292)은 사용자 특성 정보에 기초하여 전이 학습을 통해 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들어, 변형 발화 생성 모듈(292)은 10대에 의해 많이 사용되는 제2 도메인에서 사용된 발화 패턴을 이용하여 30대에 의해 많이 사용되는 제1 도메인에 대한 변형 발화 텍스트 세트를 생성할 수 있다.

도 9는 일 실시 예에 따른 발화 추천 모드 시 지능형 서버의 동작 방법(900)을 보여주는 순서도이다. 지능형 서버의 동작 방법(900)은 발화 추천 모드 시 수신된 트레이닝 발화 텍스트 세트 또는 사용자 발화 텍스트에 대응하여 수행될 수 있다.

도 9를 참조하면, 동작 910에서, 변형 발화 생성 모듈(292)은 트레이닝 발화 텍스트 세트 또는 사용자 발화 텍스트를 수신할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 개발자 단말(500)로부터 트레이닝 발화 텍스트 세트를 수신할 수 있다. 트레이닝 발화 텍스트 세트는 개발자에 의해 작성된 복수의 트레이닝 발화 텍스트 세트를 포함할 수 있다. 또한, 변형 발화 생성 모듈(292)은 파라미터 수집 모듈(291)을 통해 자연어 이해 모듈(223)로부터 사용자 발화 텍스트를 수신할 수 있다. 자동 음성 인식 모듈(221)은 사용자 단말(100)로부터 수신된 사용자 입력(예: 사용자 발화)을 사용자 발화 텍스트로 변환할 수 있다.

일 실시 예에 따르면, 동작 920에서, 변형 발화 생성 모듈(292)은 트레이닝 발화 텍스트 세트 또는 사용자 발화 텍스트의 도메인(제1 도메인)을 결정할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 자연어 이해 모듈(223)을 이용하여 트레이닝 발화 텍스트 세트 또는 사용자 발화 텍스트의 도메인을 결정할 수 있다.

일 실시 예에 따르면, 동작 930에서, 변형 발화 생성 모듈(292)은 제1 도메인과 유사한 발화 패턴을 가지는 제2 도메인을 결정할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 카테고리(category)에 기초하여 제1 도메인에 유사한 제2 도메인을 결정할 수 있다. 예컨대, 제1 도메인(예: 피자헛 앱)의 카테고리가 “피자 배달업”인 경우, 제2 도메인(예: 도미노피자 앱)은 “피자 배달”이라는 카테고리 내의 도메인들(예: 도미노피자 앱, 미스터피자 앱) 중에서 선택될 수 있다. 다양한 실시 예에 따르면, 변형 발화 생성 모듈(292)은 의도(intent)에 기초하여 제1 도메인에 유사한 제2 도메인을 결정할 수 있다. 예를 들어, 제1 도메인(예: 메시지 앱)의 의도가 “문자 전송”인 경우, 제2 도메인(예: 카카오톡 앱)은 “문자 전송”이라는 의도를 가지는 도메인들(예: 카카오톡 앱, 라인 앱) 중에서 선택될 수 있다.

일 실시 예에 따르면, 동작 940에서, 변형 발화 생성 모듈(292)은 제2 도메인에서 사용되는 사용자 발화 패턴에 기초하여 제1 도메인에 적용될 변형 발화 텍스트 세트를 생성할 수 있다. 예를 들면, 파라미터 수집 모듈(291)은 자연어 이해 모듈(223)로부터 사용자 발화 데이터를 수신할 수 있다. 파라미터 수집 모듈(291)은 사용자 발화 데이터를 전처리(예: 노이즈 제거, 샘플 발화 추출, 연관 발화 선택 중 적어도 하나의 처리)하여 변형 발화 생성 모듈(292)에서 사용되는 형태로 변경할 수 있다. 파라미터 수집 모듈(291)은 전처리된 사용자 발화 데이터에 기초하여 사용자 발화 분류 정보를 생성하고, 전처리된 사용자 발화 데이터 및 사용자 발화 분류 정보를 변형 발화 생성 모듈(292)로 전송할 수 있다. 변형 발화 생성 모듈(292)은 사용자 발화 분류 정보에 기초하여 제2 도메인에서 사용되는 사용자 발화 패턴을 추출할 수 있다. 변형 발화 생성 모듈(292)은 추출된 사용자 발화 패턴을 이용하여 제1 도메인에 적용될 변형 발화 텍스트 세트를 생성할 수 있다. 변형 발화 텍스트 세트는 복수의 변형 발화 텍스트 세트를 포함할 수 있다. 예를 들어, 동작 940에서, 변형 발화 생성 모듈(292)은 도 7의 변형 발화 텍스트 세트 생성 방법 또는 도 8의 변형 발화 텍스트 세트 생성 방법을 통해 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 동작 950에서, 지능형 서버(200)는 생성된 변형 발화 텍스트 세트를 개발자 단말 또는 사용자 단말로 전송할 수 있다. 예를 들면, 변형 발화 생성 모듈(292)은 변형 발화 텍스트 세트를 제1 변형 발화 추천 모듈(293) 또는 제1 변형 발화 추천 모듈(293)로 전송할 수 있다. 변형 발화 생성 모듈(292)은 개발자 단말(500)로부터 트레이닝 발화 텍스트 세트를 수신한 경우 생성된 변형 발화 텍스트 세트를 제1 변형 발화 추천 모듈(293)로 전송할 수 있다. 제1 변형 발화 추천 모듈(293)은 변형 발화 텍스트 세트를 개발자 단말(500)로 전송할 수 있다. 한편, 변형 발화 생성 모듈(292)은 파라미터 수집 모듈(291)로부터 사용자 발화 텍스트를 수신한 경우 생성된 변형 발화 텍스트 세트를 제2 변형 발화 추천 모듈(294)로 전송할 수 있다. 제2 변형 발화 추천 모듈(294)은 변형 발화 텍스트 세트를 사용자 단말(100)로 전송할 수 있다.

이하에서는 도 10a 내지 도 10c를 참조하여, 개발자 단말에서 변형 발화 텍스트 세트가 추천되는 실시 예가 설명된다.

도 10a 내지 도 10c를 참조하면, 개발자 단말(예: 도 4의 개발자 단말(500))은 발화 입력기(1000)를 화면에 표시할 수 있다. 발화 입력기(1000)는 개발자로부터 다양한 항목을 입력 받아 지능형 서버(예: 도 4의 지능형 서버(200))의 자연어 이해 모듈(예: 도 4의 자연어 이해 모듈(223))을 트레이닝하기 위한 트레이닝 발화 텍스트 세트를 생성할 수 있다. 지능형 서버는 트레이닝 발화 텍스트 세트를 수신하여 자연어 이해 모듈을 트레이닝 할 수 있다. 한편, 발화 입력기(1000)는 상기 다양한 항목이 입력되는 과정에서 추가적인 사용자 발화(예: 변형 발화 텍스트)를 제공할 수 있다.

일 실시 예에 따르면, 개발자는 발화 입력기(1000)를 통해 도메인 항목(1001), 카테고리 항목(1002), 사용자 발화 예시 항목(1003), 의도 항목(1004), 동작 항목(1005), 파라미터 항목(1006) 및 응답 항목(1007)을 입력할 수 있다. 발화 입력기(1000)는 입력된 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보, 의도 정보, 동작 정보, 파라미터 정보 및 응답 정보에 기초하여 트레이닝 발화 텍스트를 생성할 수 있다.

일 실시 예에 따르면, 개발자 단말은 입력된 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보, 의도 정보, 동작 정보, 파라미터 정보 및 응답 정보 중 적어도 하나를 지능형 서버에 전송할 수 있다. 또한, 개발자 단말은 트레이닝 발화 텍스트를 지능형 서버에 전송할 수 있다. 지능형 서버는 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보, 의도 정보, 동작 정보, 파라미터 정보 및 응답 정보 중 적어도 하나에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다. 또한, 지능형 서버는 트레이닝 발화 텍스트에 기초하여 변형 발화 텍스트 세트를 생성할 수 있다.

일 실시 예에 따르면, 지능형 서버는 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보, 의도 정보, 동작 정보, 파라미터 정보 및 응답 정보 중 적어도 하나에 대응하는 변형 발화 텍스트 세트를 개발자 단말로 전송할 수 있다. 또한, 지능형 서버는 트레이닝 발화 텍스트에 대응하는 변형 발화 텍스트 세트를 개발자 단말로 전송할 수 있다. 변형 발화 텍스트 세트는 미리 생성되어 저장되거나 수신된 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보, 의도 정보, 동작 정보, 파라미터 정보 및 응답 정보 중 적어도 하나 또는 변형 발화 텍스트 세트에 기초하여 새롭게 생성될 수 있다. 변형 발화 텍스트 세트는 도 4 내지 도 8에서 설명된 방법으로 생성될 수 있다.

일 실시 예에 따르면, 개발자는 도메인 항목(1001)에 개발자가 개발을 담당하고 있는 도메인(예: 도미노 피자, 피자헛, 알람, 캘린더)을 입력할 수 있다. 개발자는 카테고리 항목(1002)에 상기 도메인이 속하는 카테고리를 입력할 수 있다. 예를 들어, 도메인이 음식 주문에 관련된 서비스(예, 도미노 피자, 피자헛, 요기요, 스타벅스, BHC)인 경우, 개발자는 카테고리 항목(1002)에 “음식 주문”을 입력할 수 있다. 카테고리 항목(1002)은 개발자가 직접 입력하거나 미리 입력된 후보들 중에 선택될 수 있다. 개발자는 사용자 발화 예시 항목(1003)에 사용자가 사용할 것으로 예상되는 사용자 발화 예시(예: 대표 발화 텍스트 또는 응용 발화 텍스트)를 입력할 수 있다. 개발자는 사용자 발화 예시 항목(1003)에 형태가 유사한 복수의 사용자 발화 예시(예: 메뉴 추천, 메뉴 추천해라, 메뉴 추천해줘, 메뉴 추천 부탁해)를 입력할 수 있다. 사용자 발화 예시 항목(1003)에 입력된 복수의 사용자 발화 예시는 동일한 의도(예: 의도 항목(1004)에 입력된 의도)로 지능형 서버에서 인식될 수 있다. 개발자는 의도 항목(1004)에 사용자 발화 예시에 대응하는 의도(예: 메뉴 추천, 메시지 전송)를 입력할 수 있다. 개발자는 동작 항목(1005)에 상기 의도에 대응하는 동작(예: 도미노 피자 앱 실행, 메시지 앱 실행, 와이파이 on/off)을 입력할 수 있다. 개발자는 파라미터 항목(1006)에 사용자 발화 예시에 포함되는 요소(예: 장소, 시간, 사람)의 내용들(예: 장소 - 서울, 광주, 부산)을 입력할 수 있다. 예를 들어, 파라미터 항목(1006)은 개발자에 의해 직접 입력되거나 시스템(예: 도 4의 개발자 단말(500), 지능형 서버(200))에서 제공되는 데이터에 기초하여 입력될 수 있다. 개발자는 응답 항목(1007)에 상기 의도에 대응하는 응답(예: 상기 의도가 “메시지 전송”인 경우, “메시지가 전송되었습니다”와 같이 상기 의도에 대응하는 동작에 대한 결과 알림)을 입력할 수 있다.

일 실시 예에 따른 도 10a를 참조하면, 도메인 항목(1001) 및 카테고리 항목(1002)이 입력된 경우, 발화 입력기(1000)는 추천 사용자 발화(1010a)를 표시할 수 있다. 예를 들면, 발화 입력기(1000)를 통해 도메인 항목(1001) 및 카테고리 항목(1002)이 입력된 경우, 개발자 단말은 입력된 도메인 정보 및 카테고리 정보를 지능형 서버로 전송하고, 지능형 서버로부터 도메인 정보 및 카테고리 정보에 대응하는 변형 발화 텍스트 세트를 수신할 수 있다. 발화 입력기(1000)는 수신된 변형 발화 텍스트 세트를 추천 사용자 발화(1010a)에 표시할 수 있다. 또는 발화 입력기(1000)는 수신된 변형 발화 텍스트 세트에 기초하여 추천 사용자 발화(1010a)를 표시할 수 있다. 예를 들어, 추천 사용자 발화(1010a)는 입력된 도메인(예: 도미노 피자)과 동일한 카테고리에 속하는 다른 도메인(예: 피자헛, 스타벅스, BHC)에서 사용되는 사용자 발화들에 기초하여 생성(예: “메뉴 추천해줘”, “피자 주문해줘”, “배달 상태 보여줘”)된 것이다. 개발자는 추천 사용자 발화(1010a)를 참고하여 사용자 발화 예시 항목(1003)을 추가적으로 작성할 수 있다.

일 실시 예에 따른 도 10b를 참조하면, 도메인 항목(1001), 카테고리 항목(1002), 사용자 발화 예시 항목(1003) 및 의도 항목(1004)이 입력된 경우, 발화 입력기(1000)는 추천 변형 발화(1020a)를 표시할 수 있다. 예를 들면, 발화 입력기(1000)를 통해 도메인 항목(1001), 카테고리 항목(1002), 사용자 발화 예시 항목(1003) 및 의도 항목(1004)이 입력된 경우, 개발자 단말은 입력된 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보 및 의도 정보를 지능형 서버로 전송하고, 지능형 서버로부터 도메인 정보, 카테고리 정보, 사용자 발화 예시 정보 및 의도 정보에 대응하는 변형 발화 텍스트 세트를 수신할 수 있다. 발화 입력기(1000)는 수신된 변형 발화 텍스트 세트에 기초하여 추천 변형 발화(1020a)를 표시할 수 있다. 예를 들어, 추천 변형 발화(1020a)는 입력된 의도(예: 메뉴 추천)와 유사한 의도(예: 지능형 서버에 의해 입력된 의도와 유사한 것으로 판단된 의도)를 가지고 유사한 도메인(예: 지능형 서버에 의해 입력된 도메인과 유사한 것으로 판단된 도메인)에서 사용되는 사용자 발화들에 기초하여 생성(예: “신메뉴 추천해줘”, “인기 메뉴 보여줘”, “요즘 가장 인기 있는 피자가 뭐야”)된 것이다. 개발자는 추천 변형 발화(1020a)를 참고하여 사용자 발화 예시 항목(1003)을 추가적으로 작성할 수 있다.

일 실시 예에 따른 도 10c를 참조하면, 발화 입력기(1000)는 수신된 변형 발화 텍스트 세트에 기초하여 추천 변형 발화(1020b)를 표시할 수 있다. 예를 들어, 추천 변형 발화(1020b)는 사용자 발화 예시(예: “에버랜드 놀러가서 찍은 사진 줄리한테 전송해줘”)에 포함된 키워드 별(예: 에버랜드, 놀러가서, 전송해줘)로 생성될 수 있다. 개발자는 추천 변형 발화(1020b)를 참고하여 사용자 발화 예시 항목(1003)을 추가적으로 작성할 수 있다.

상술한 바와 같이, 다양한 실시 예에 따르면, 개발자 단말은 발화 입력기(1000)를 통해 추천 사용자 발화(1010) 또는 추천 변형 발화(1020)를 제공할 수 있다. 따라서, 개발자는 추천 사용자 발화(1010) 또는 추천 변형 발화(1020)에 기초하여 추가적인 사용자 발화 예시를 입력할 수 있고, 발화 입력기(1000)는 더욱 다양한 트레이닝 발화 텍스트 세트를 생성할 수 있다.

다양한 실시 예에 따르면, 개발자 단말(500)은 지능형 서버(200)로 도메인 및 카테고리를 전송하고, 지능형 서버(200)로부터 도메인 및 카테고리에 대응하는 변형 발화 텍스트(또는 변형 발화 텍스트 세트)를 수신할 수 있다. 변형 발화 텍스트(또는 변형 발화 텍스트 세트)는 지능형 서버(200)에 기 저장된 사용자 발화 데이터에 기초하여 생성 모델 또는 전이 학습 모델을 통해 생성될 수 있다. 지능형 서버(200)는 사용자 발화를 입력 받는 사용자 단말이 지능형 서버(200)로 전달한 음성 데이터를 텍스트로 변환하여 사용자 발화 데이터로서 저장할 수 있다. 예를 들어, 상기 생성 모델은 GAN(Generative Adversarial Networks), VAE(Variational Autoencoder) 및 DNN(Deep Neural Network)를 포함하고, 상기 전이 학습 모델은 Style-transfer를 포함할 수 있다.

다양한 실시 예에 따르면, 개발자 단말(500)은 지능형 서버(200)로 도메인, 카테고리 및 사용자 발화 예시(예: 트레이닝 발화 텍스트 또는 트레이닝 발화 텍스트 세트)를 전송하고, 도메인, 카테고리 및 사용자 발화 예시에 대응하는 변형 발화 텍스트(또는 변형 발화 텍스트 세트)를 수신할 수 있다.

다양한 실시 예에 따르면, 개발자 단말(500)은 수신된 변형 발화 텍스트(또는 변형 발화 텍스트 세트)에 기초하여 트레이닝 발화 텍스트(또는 트레이닝 발화 텍스트 세트)에 포함된 하나의 파라미터(제1 파라미터)에 대응하여 복수의 제2 파라미터를 표시할 수 있다. 복수의 제2 파라미터 중 하나가 선택되는 경우, 개발자 단말(500)은 선택된 파라미터가 포함된 변형 발화 텍스트(또는 변형 발화 텍스트 세트)를 표시할 수 있다.

다양한 실시 예에 따르면, 지능형 서버(200)는 개발자 단말(500)로부터 수신한 도메인을 제1 도메인으로 설정하고, 개발자 단말(500)로부터 수신한 카테고리 내에서 제1 도메인과 유사한 발화 패턴을 가지는 제2 도메인을 결정하고, 제2 도메인의 발화 패턴에 기초하여 변형 발화 텍스트를 생성할 수 있다. 예를 들어, 지능형 서버(200)는 제1 도메인에서 사용되는 의도와 유사한 의도가 사용되는 도메인을 상기 제2 도메인으로 결정할 수 있다. 또는 지능형 서버(200)는 트레이닝 발화 텍스트(또는 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트)의 의도를 판별하고, 트레이닝 발화 텍스트의 의도와 유사한 의도가 사용되는 도메인을 제2 도메인으로 결정할 수 있다. 일 실시 예에 따르면, 지능형 서버(200)는 트레이닝 발화 텍스트(또는 트레이닝 발화 텍스트 세트)에 포함된 파라미터들을 판별하고, 상기 파라미터들과 유사한 제2 도메인의 파라미터들을 이용하여 변형 발화 텍스트 세트를 생성할 수 있다.

다양한 실시 예에 따르면, 지능형 서버(200)는 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트의 수가 기준 발화 횟수보다 작은 경우 변형 발화 텍스트(또는 변형 발화 텍스트 세트)를 생성할 수 있다. 예를 들어, 기준 발화 횟수는 도메인별로 서로 다르게 설정될 수 있다. 수집되는 트레이닝 발화 텍스트의 수가 많은 도메인의 경우, 기준 발화 횟수는 상대적으로 크게 설정될 수 있다. 수집되는 트레이닝 발화 텍스트의 수가 적은 도메인의 경우, 기준 발화 횟수는 상대적으로 작게 설정될 수 있다.

다양한 실시 예에 따르면, 지능형 서버(200)는 사용자 발화 데이터에서 추출된 사용자 특성에 기초하여 변형 발화 텍스트를 생성할 수 있다. 또는 지능형 서버(200)는 사용자 특성에 기초하여 사용자 발화 패턴을 추출하고, 사용자 발화 패턴의 횟수가 기준 패턴 횟수보다 큰 경우 사용자 발화 패턴에 기초하여 변형 발화 텍스트를 생성할 수 있다. 기준 패턴 횟수는 사용자 발화 패턴의 발화량 또는 사용자 발화 패턴에 포함된 파라미터의 수에 기초하여 결정될 수 있다. 예를 들어, 사용자 특성은 나이, 지역 및 성별을 포함할 수 있다.

다양한 실시 예에 따르면, 지능형 서버(200)는 사용자 발화 데이터에 기초하여 사용자 발화 분류 정보를 생성하고, 사용자 발화 분류 정보에 기초하여 변형 발화 텍스트를 생성할 수 있다. 예를 들어, 사용자 발화 분류 정보는 사용자 발화 데이터에 포함된 사용자 발화들의 도메인 정보, 의도 정도 및 파라미터 정보를 포함할 수 있다.

다양한 실시 예에 따르면, 지능형 서버(200)는 사용자 발화 데이터에서 노이즈를 제거하고, 사용자 발화 데이터에서 패턴화된 샘플 패턴을 추출하고, 사용자 발화 데이터에서 트레이닝 발화 텍스트(또는 트레이닝 발화 텍스트 세트)와 의미적으로 연관이 없는 사용자 발화를 제거할 수 있다.

도 11을 참조하면, 사용자 단말(예: 도 4의 사용자 단말(100))은 사용자 발화(1101)를 수신하여 사용자 발화(1101)와 유사한 변형 발화 텍스트를 제공할 수 있다.

일 실시 예에 따르면, 사용자 단말은 사용자 발화(1101)를 발화 텍스트(1111)로 변환하여 제1 화면(1110)에 표시할 수 있다. 사용자 단말은 제1 화면(1110)에 결과 보기 항목(1112)을 표시할 수 있다. 사용자가 결과 보기 항목(1112)을 선택하면, 사용자 단말은 발화 텍스트(1111)에 기초하여 탐색된 결과(예: 발화 텍스트(1111)에 대응하는 패스 룰의 실행)를 디스플레이에 표시할 수 있다.

일 실시 예에 따르면, 사용자가 변형 발화 추천 항목(1113)을 선택하면, 사용자 단말은 제2 화면(1120)을 표시할 수 있다. 사용자 단말은 제2 화면(1120)에서 사용자 발화(1101)에 대응하는 발화 텍스트(1121)를 표시하고, 발화 텍스트(1121)에 기초하여 변형 발화 텍스트(1122, 1123, 1124)를 표시할 수 있다. 사용자 단말은 사용자 발화(1101)에 대응하는 사용자 입력(예: 음성 데이터)을 지능형 서버(예: 도 4의 지능형 서버(200))로 전송할 수 있다. 지능형 서버는 수신된 사용자 입력에 대응하는 변형 발화 텍스트 세트를 사용자 단말로 전송할 수 있다. 변형 발화 텍스트 세트는 미리 생성되어 저장되거나 수신된 사용자 입력에 기초하여 새롭게 생성될 수 있다. 변형 발화 텍스트 세트는 도 4 내지 도 8에서 설명된 방법으로 생성될 수 있다.

상술한 바와 같이, 다양한 실시 예에 따르면, 사용자 단말은 사용자 발화(1101)가 입력될 때 변형 발화 추천 항목(1113)을 제공할 수 있다. 사용자 단말은 사용자가 변형 발화 추천 항목(1113)을 선택할 때 변형 발화 텍스트(1122, 1123, 1124)를 제공할 수 있다. 따라서, 사용자 단말은 사용자 발화 패턴과 유사한 발화 텍스트를 제공할 수 있다. 예를 들어, 사용자 단말은 사용자 발화(예: “전화 닫아주삼”)에 대하여 대표 발화(예: “전화 종료”)가 아닌 사용자 발화 패턴과 유사한(사용자에게 익숙한) 발화 텍스트(예: “전화 꺼주삼”)를 추천할 수 있다.

도 12는 다양한 실시 예들에 따른, 네트워크 환경(1200) 내의 전자 장치(1201)의 블럭도이다. 도 12를 참조하면, 네트워크 환경(1200)에서 전자 장치(1201)(예: 사용자 단말(100))는 제1 네트워크(1298)(예: 근거리 무선 통신)를 통하여 전자 장치(1202)와 통신하거나, 또는 제2 네트워크(1299)(예: 원거리 무선 통신)를 통하여 전자 장치(1204) 또는 서버(1208)(예: 지능형 서버(200))와 통신할 수 있다. 일 실시 예에 따르면, 전자 장치(1201)는 서버(1208)를 통하여 전자 장치(1204)와 통신할 수 있다. 일 실시 예에 따르면, 전자 장치(1201)는 프로세서(1220)(예: 프로세서(160)), 메모리(1230)(예: 메모리(150)), 입력 장치(1250)(예: 마이크(120)), 음향 출력 장치(1255)(예: 스피커(130)), 표시 장치(1260)(예: 디스플레이(140)), 오디오 모듈(1270), 센서 모듈(1276), 인터페이스(1277), 햅틱 모듈(1279), 카메라 모듈(1280), 전력 관리 모듈(1288), 배터리(1289), 통신 모듈(1290), 가입자 식별 모듈(1296), 및 안테나 모듈(1297)을 포함할 수 있다. 어떤 실시 예에서는, 전자 장치(1201)에는, 이 구성 요소들 중 적어도 하나(예: 표시 장치(1260) 또는 카메라 모듈(1280))가 생략되거나 다른 구성 요소가 추가될 수 있다. 어떤 실시 예에서는, 예를 들면, 표시 장치(1260)(예: 디스플레이)에 임베디드된 센서 모듈(1276)(예: 지문 센서, 홍채 센서, 또는 조도 센서)의 경우와 같이, 일부의 구성 요소들이 통합되어 구현될 수 있다.

프로세서(1220)는, 예를 들면, 소프트웨어(예: 프로그램(1240))를 구동하여 프로세서(1220)에 연결된 전자 장치(1201)의 적어도 하나의 다른 구성 요소(예: 하드웨어 또는 소프트웨어 구성 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 프로세서(1220)는 다른 구성 요소(예: 센서 모듈(1276) 또는 통신 모듈(1290))로부터 수신된 명령 또는 데이터를 휘발성 메모리(1232)에 로드하여 처리하고, 결과 데이터를 비휘발성 메모리(1234)에 저장할 수 있다. 일 실시 예에 따르면, 프로세서(1220)는 메인 프로세서(1221)(예: 중앙 처리 장치 또는 어플리케이션 프로세서), 및 이와는 독립적으로 운영되고, 추가적으로 또는 대체적으로, 메인 프로세서(1221)보다 저전력을 사용하거나, 또는 지정된 기능에 특화된 보조 프로세서(1223)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 여기서, 보조 프로세서(1223)는 메인 프로세서(1221)와 별개로 또는 임베디드되어 운영될 수 있다.

이런 경우, 보조 프로세서(1223)는, 예를 들면, 메인 프로세서(1221)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(1221)를 대신하여, 또는 메인 프로세서(1221)가 액티브(예: 어플리케이션 수행) 상태에 있는 동안 메인 프로세서(1221)와 함께, 전자 장치(1201)의 구성 요소들 중 적어도 하나의 구성 요소(예: 표시 장치(1260), 센서 모듈(1276), 또는 통신 모듈(1290))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시 예에 따르면, 보조 프로세서(1223)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(1280) 또는 통신 모듈(1290))의 일부 구성 요소로서 구현될 수 있다.

메모리(1230)는, 전자 장치(1201)의 적어도 하나의 구성 요소(예: 프로세서(1220) 또는 센서 모듈(1276))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램(1240)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(1230)는 휘발성 메모리(1232) 또는 비휘발성 메모리(1234)를 포함할 수 있다.

프로그램(1240)은 메모리(1230)에 저장되는 소프트웨어로서, 예를 들면, 운영 체제(1242), 미들 웨어(1244) 또는 어플리케이션(1246)을 포함할 수 있다.

입력 장치(1250)는, 전자 장치(1201)의 구성 요소(예: 프로세서(1220))에 사용될 명령 또는 데이터를 전자 장치(1201)의 외부(예: 사용자)로부터 수신하기 위한 장치로서, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다.

음향 출력 장치(1255)는 음향 신호를 전자 장치(1201)의 외부로 출력하기 위한 장치로서, 예를 들면, 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용되는 스피커와 전화 수신 전용으로 사용되는 리시버를 포함할 수 있다. 일 실시 예에 따르면, 리시버는 스피커와 일체 또는 별도로 형성될 수 있다.

표시 장치(1260)는 전자 장치(1201)의 사용자에게 정보를 시각적으로 제공하기 위한 장치로서, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시 예에 따르면, 표시 장치(1260)는 터치 회로(touch circuitry) 또는 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서를 포함할 수 있다.

오디오 모듈(1270)은 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 일 실시 예에 따르면, 오디오 모듈(1270)은, 입력 장치(1250)를 통해 소리를 획득하거나, 음향 출력 장치(1255), 또는 전자 장치(1201)와 유선 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(1202)(예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.

센서 모듈(1276)은 전자 장치(1201)의 내부의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(1276)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.

인터페이스(1277)는 외부 전자 장치(예: 전자 장치(1202))와 유선 또는 무선으로 연결할 수 있는 지정된 프로토콜을 지원할 수 있다. 일 실시 예에 따르면, 인터페이스(1277)는 HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.

연결 단자(1278)는 전자 장치(1201)와 외부 전자 장치(예: 전자 장치(1202))를 물리적으로 연결시킬 수 있는 커넥터, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(1279)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 햅틱 모듈(1279)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.

카메라 모듈(1280)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라 모듈(1280)은 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.

전력 관리 모듈(1288)은 전자 장치(1201)에 공급되는 전력을 관리하기 위한 모듈로서, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구성될 수 있다.

배터리(1289)는 전자 장치(1201)의 적어도 하나의 구성 요소에 전력을 공급하기 위한 장치로서, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.

통신 모듈(1290)은 전자 장치(1201)와 외부 전자 장치(예: 전자 장치(1202), 전자 장치(1204), 또는 서버(1208))간의 유선 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(1290)은 프로세서(1220)(예: 어플리케이션 프로세서)와 독립적으로 운영되는, 유선 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(1290)은 무선 통신 모듈(1292)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(1294)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함하고, 그 중 해당하는 통신 모듈을 이용하여 제1 네트워크(1298)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제2 네트워크(1299)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 상술한 여러 종류의 통신 모듈(1290)은 하나의 칩으로 구현되거나 또는 각각 별도의 칩으로 구현될 수 있다.

일 실시 예에 따르면, 무선 통신 모듈(1292)은 가입자 식별 모듈(1296)에 저장된 사용자 정보를 이용하여 통신 네트워크 내에서 전자 장치(1201)를 구별 및 인증할 수 있다.

안테나 모듈(1297)은 신호 또는 전력을 외부로 송신하거나 외부로부터 수신하기 위한 하나 이상의 안테나들을 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(1290)(예: 무선 통신 모듈(1292))은 통신 방식에 적합한 안테나를 통하여 신호를 외부 전자 장치로 송신하거나, 외부 전자 장치로부터 수신할 수 있다.

상기 구성 요소들 중 일부 구성 요소들은 주변 기기들 간 통신 방식(예: 버스, GPIO(general purpose input/output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되어 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.

일 실시 예에 따르면, 명령 또는 데이터는 제2 네트워크(1299)에 연결된 서버(1208)를 통해서 전자 장치(1201)와 외부의 전자 장치(1204) 간에 송신 또는 수신될 수 있다. 전자 장치(1202, 1704) 각각은 전자 장치(1201)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시 예에 따르면, 전자 장치(1201)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 외부 전자 장치에서 실행될 수 있다. 일 실시 예에 따르면, 전자 장치(1201)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(1201)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 외부 전자 장치에 요청할 수 있다. 상기 요청을 수신한 외부 전자 장치는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(1201)로 전달할 수 있다. 전자 장치(1201)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.

본 문서에 개시된 다양한 실시 예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치 중 적어도 하나를 포함할 수 있다. 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.

본 문서의 다양한 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제1) 구성 요소가 다른(예: 제2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제3 구성 요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

본 문서의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 내장 메모리(1236) 또는 외장 메모리(1238))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램(1240))로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(1201))를 포함할 수 있다. 상기 명령이 프로세서(예: 프로세서(1220))에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성 요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장 매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어^TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims

서버와 통신하는 전자 장치의 동작 방법에 있어서,

도메인 및 카테고리를 입력 받는 동작;

상기 도메인 및 상기 카테고리를 상기 서버로 전송하는 동작;

상기 서버로부터 상기 도메인 및 상기 카테고리에 대응하는 변형 발화 텍스트를 수신하는 동작; 그리고

상기 변형 발화 텍스트를 표시하는 동작을 포함하되,

상기 변형 발화 텍스트는 상기 서버에 기 저장된 사용자 발화 데이터에 기초하여 생성 모델 또는 전이 학습 모델을 통해 생성되고,

상기 사용자 발화 데이터는 사용자 발화를 입력 받는 외부 전자 장치가 상기 서버로 전달한 음성 데이터를 상기 서버가 텍스트로 변환하여 저장하는 전자 장치의 동작 방법.
청구항 1에 있어서,

상기 생성 모델은 GAN(Generative Adversarial Networks), VAE(Variational Autoencoder) 및 DNN(Deep Neural Network)를 포함하고,

상기 전이 학습 모델은 Style-transfer를 포함하는 전자 장치의 동작 방법.
청구항 1에 있어서,

상기 서버는,

상기 도메인을 제1 도메인으로 설정하고, 상기 카테고리 내에서 상기 제1 도메인과 유사한 발화 패턴을 가지는 제2 도메인을 결정하고, 그리고 상기 제2 도메인의 발화 패턴에 기초하여 상기 변형 발화 텍스트를 생성하도록 설정되는 전자 장치의 동작 방법.
청구항 3에 있어서,

상기 서버는,

상기 제1 도메인에서 사용되는 의도와 유사한 의도가 사용되는 도메인을 상기 제2 도메인으로 결정하도록 설정되는 전자 장치의 동작 방법.
청구항 1에 있어서,

상기 서버는,

상기 사용자 발화 데이터에서 추출된 사용자 특성에 기초하여 상기 변형 발화 텍스트를 생성하도록 설정되는 전자 장치의 동작 방법.
청구항 5에 있어서,

상기 서버는,

상기 사용자 특성에 기초하여 사용자 발화 패턴을 추출하고, 그리고 상기 사용자 발화 패턴의 횟수가 기준 패턴 횟수보다 큰 경우 상기 사용자 발화 패턴에 기초하여 상기 변형 발화 텍스트를 생성하도록 설정되는 전자 장치의 동작 방법.
청구항 6에 있어서,

상기 기준 패턴 횟수는 상기 사용자 발화 패턴의 발화량 또는 상기 사용자 발화 패턴에 포함된 파라미터의 수에 기초하여 결정되는 전자 장치의 동작 방법.
청구항 5에 있어서,

상기 사용자 특성은 나이, 지역 및 성별을 포함하는 전자 장치의 동작 방법.
청구항 1에 있어서,

상기 서버는,

상기 사용자 발화 데이터에 기초하여 사용자 발화 분류 정보를 생성하고, 그리고 상기 사용자 발화 분류 정보에 기초하여 상기 변형 발화 텍스트를 생성하도록 설정되고,

상기 사용자 발화 분류 정보는 상기 사용자 발화 데이터에 포함된 사용자 발화들의 도메인 정보, 의도 정보 및 파라미터 정보를 포함하는 전자 장치의 동작 방법.
서버와 통신하는 전자 장치의 동작 방법에 있어서,

도메인 및 카테고리를 입력 받는 동작;

상기 도메인 및 상기 카테고리에 대응하는 트레이닝 발화 텍스트 세트를 입력 받는 동작;

상기 도메인, 상기 카테고리 및 상기 트레이닝 발화 텍스트 세트를 상기 서버로 전송하는 동작;

상기 서버로부터 상기 트레이닝 발화 텍스트 세트에 대응하는 변형 발화 텍스트 세트를 수신하는 동작; 그리고

상기 변형 발화 텍스트 세트를 표시하는 동작을 포함하되,

상기 변형 발화 텍스트 세트는 상기 서버에 기 저장된 사용자 발화 데이터에 기초하여 생성 모델 또는 전이 학습 모델을 통해 생성되고,

상기 사용자 발화 데이터는 사용자 발화를 입력 받는 외부 전자 장치가 상기 서버로 전달한 음성 데이터를 상기 서버가 텍스트로 변환하여 저장하는 전자 장치의 동작 방법.
청구항 10에 있어서,

상기 서버는,

상기 사용자 발화 데이터에서 노이즈를 제거하고, 상기 사용자 발화 데이터에서 패턴화된 샘플 패턴을 추출하고, 상기 사용자 발화 데이터에서 상기 트레이닝 발화 텍스트 세트와 의미적으로 연관이 없는 사용자 발화를 제거하도록 설정되는 전자 장치의 동작 방법.
청구항 10에 있어서,

상기 서버는,

상기 도메인을 제1 도메인으로 설정하고, 상기 카테고리 내에서 상기 제1 도메인과 유사한 발화 패턴을 가지는 제2 도메인을 결정하고, 그리고 상기 제2 도메인의 발화 패턴에 기초하여 상기 변형 발화 텍스트를 생성하도록 설정되는 전자 장치의 동작 방법.
청구항 12에 있어서,

상기 서버는,

상기 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트의 의도를 판별하고, 상기 트레이닝 발화 텍스트의 의도와 유사한 의도가 사용되는 도메인을 상기 제2 도메인으로 결정하도록 설정되는 전자 장치의 동작 방법.
청구항 12에 있어서,

상기 서버는,

상기 트레이닝 발화 텍스트 세트에 포함된 파라미터들을 판별하고, 상기 파라미터들과 유사한 상기 제2 도메인의 파라미터들을 이용하여 상기 변형 발화 텍스트 세트를 생성하도록 설정되는 전자 장치의 동작 방법.
청구항 10에 있어서,

상기 서버는,

상기 트레이닝 발화 텍스트 세트에 포함된 트레이닝 발화 텍스트의 수가 기준 발화 횟수보다 작은 경우 상기 변형 발화 텍스트 세트를 생성하도록 설정되는 전자 장치의 동작 방법.