KR102519619B1 - 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법 - Google Patents

자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법 Download PDF

Info

Publication number
KR102519619B1
KR102519619B1 KR1020200080611A KR20200080611A KR102519619B1 KR 102519619 B1 KR102519619 B1 KR 102519619B1 KR 1020200080611 A KR1020200080611 A KR 1020200080611A KR 20200080611 A KR20200080611 A KR 20200080611A KR 102519619 B1 KR102519619 B1 KR 102519619B1
Authority
KR
South Korea
Prior art keywords
model
command
user
automatic
personal assistant
Prior art date
Application number
KR1020200080611A
Other languages
English (en)
Other versions
KR20210004854A (ko
Inventor
윤승
김상훈
이민규
이윤근
최무열
김여정
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US16/919,748 priority Critical patent/US11551012B2/en
Publication of KR20210004854A publication Critical patent/KR20210004854A/ko
Application granted granted Critical
Publication of KR102519619B1 publication Critical patent/KR102519619B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법에 관한 것이다.
본 발명에 따른 자동통역 기반 개인 비서 서비스 제공 장치는 사용자의 명령을 수신하는 입력부와, 사용자의 명령에 따라 개인 비서 서비스를 제공하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 사용자의 명령에 대한 인식 결과를 이용하여 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대해 사용자의 명령 의도에 기반한 업데이트를 수행하고, 자동통역 전화를 기반으로 개인 비서 서비스를 제공하는 것을 특징으로 한다.

Description

자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법{APPARATUS AND METHOD FOR PROVIDING PERSONAL ASSISTANT SERVICE BASED ON AUTOMATIC TRANSLATION}
본 발명은 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법에 관한 것이다.
종래 기술에 따른 개인 비서 서비스는 사용자의 음성을 인식하고, 이에 해당하는 서비스를 단순히 제공하는 것에 그친다.
또한, 종래 기술에 따른 음성인식 및 자동번역 기술은 기본 학습된 모델만을 활용하여 자동번역 서비스를 제공하므로, 다양한 사용자 명령에 대한 음성 인식이 어려운 문제점이 있고, 실환경에서 발성되는 타 언어 사용자와의 대화에 대한 음성 인식 및 자동번역의 신뢰성이 떨어지는 문제점이 있다.
(특허문헌 1) KR 10-2019-0043329 A
(특허문헌 2) KR 10-2019-0006403 A
본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 사용자의 음성 또는 텍스트 입력으로부터 사용자의 명령 의도를 파악하여, 음성인식 모델, 자동번역 모델, 자동통역 모델을 업데이트하고, 다른 언어 사용자에게 전화를 걸어 사용자의 명령을 수행하는 것이 가능한 개인 비서 서비스 제공 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명에 따른 자동통역 기반 개인 비서 서비스 제공 장치는 사용자의 명령을 수신하는 입력부와, 사용자의 명령에 따라 개인 비서 서비스를 제공하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 사용자의 명령에 대한 인식 결과를 이용하여 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대해 사용자의 명령 의도에 기반한 업데이트를 수행하고, 자동통역 전화를 기반으로 개인 비서 서비스를 제공하는 것을 특징으로 한다.
프로세서는 사용자의 명령에 따라 NLU((Natural Language Understanding) 모듈을 구동시켜, 해당 사용자 명령을 분석한다.
프로세서는 상기 사용자의 명령이 음성인식에 기반한 명령인지 텍스트 입력에 따른 명령인지를 판별하고, 상기 사용자의 명령이 텍스트 입력에 따른 명령인 경우 이를 그대로 상기 NLU 모듈로 전달하고, 상기 사용자의 명령이 음성인식에 기반한 명령인 경우 음성인식 결과를 상기 NLU 모듈에 전달한다.
프로세서는 개인화 기반 정보, 온라인 특화데이터 기반 정보, 온라인 일반데이터 기반 정보를 획득하고, 이를 이용하여 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대한 업데이트를 수행한다.
프로세서는 스마트 단말 내의 주소록, 메모, 검색 기록 중 적어도 어느 하나를 이용하여 상기 개인화 기반 정보를 획득한다.
프로세서는 자동 번역 지원 서버가 운영되는 경우, 상기 자동 번역 지원 서버로부터 대역 데이터를 확보하고, 상기 자동 번역 지원 서버가 운영되지 않는 경우 대역 사전 검색 또는 자동 번역기를 활용하여 원시언어와 타겟 언어에 대한 대역 데이터를 확보한다.
프로세서는 웹사이트 또는 SNS를 통해 상품, 서비스, 주소 중 적어도 어느 하나에 관한 정보를 수집화하여 DB화하여 온라인 특화데이터 기반 정보를 확보한다.
프로세서는 상기 온라인 특화데이터 기반 정보와 관련하여 목적 언어 텍스트로 된 정보가 제공되지 않을 경우, 원시 언어 텍스트로 정보를 확보하고, 자동 번역 지원 서버, 대역 사전 및 자동번역기를 활용하여 정보를 확보한다.
프로세서는 사용자 의도와 관련된 키워드를 목적 언어로 번역하고, 입력 키워드를 이용한 목적 언어에 대한 웹 검색을 실시하여 검색된 결과 텍스트를 DB화한다.
프로세서는 탐색 네트워크에 빈 슬롯을 구비하고, 음성 인식 후보로 판단되는 정보 획득 시 상기 빈 슬롯에 해당 단어 또는 문장을 채워넣어 모델 업데이트를 수행한다.
본 발명에 따른 자동통역 기반 개인 비서 서비스 제공 방법은 (a) 사용자 명령을 수신하는 단계와, (b) 상기 사용자 명령에 대한 인식 결과를 기반으로 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대해 사용자의 명령 의도에 기반한 업데이트를 수행하는 단계 및 (c) 자동통역 전화를 이용한 개인 비서 서비스를 제공하는 단계를 포함한다.
(a) 단계에서 텍스트 입력에 따른 명령으로 상기 사용자 명령을 수신하면, 상기 (b) 단계는 이를 그대로 NLU 모듈로 전달하고, 상기 (a) 단계에서 음성인식에 기반한 명령으로 상기 사용자 명령을 수신하면, 상기 (b) 단계는 음성인식 결과를 상기 NLU 모듈로 전달한다.
(b) 단계는 개인화 기반 정보, 온라인 특화데이터 기반 정보, 온라인 일반데이터 기반 정보를 이용하여 상기 업데이트를 수행한다.
(b) 단계는 스마트 단말 내의 주소록, 메모, 검색 기록 중 적어도 어느 하나를 이용하여 상기 개인화 기반 정보를 획득하고, 자동 번역 지원 서버, 대역 사전 검색기, 자동 번역기를 활용하여 대역 데이터를 확보한다.
(b) 단계는 웹사이트 또는 SNS를 통해 상품, 서비스, 주소 중 적어도 어느 하나에 관한 정보를 수집화하여 DB화하여 온라인 특화데이터 기반 정보를 확보한다.
(b) 단계는 사용자 의도와 관련된 키워드를 목적 언어로 번역하고, 입력 키워드를 이용한 목적 언어에 대한 웹 검색을 실시하여 검색된 결과 텍스트를 DB화한다.
본 발명의 실시예에 따르면, 모국어가 아닌 다른 언어로 개인 비서 기능을 수행하기 위하여, 실제 데이터에 기반한 정보(개인화 정보, 온라인 특화 정보, 온라인 일반 정보)들로 음성인식 모델, 자동번역 모델, 경우에 따라서는 자동통역 모델을 업데이트함으로써, 자동통역 성능을 향상시키고 실제 상황에서의 자동통역 기반 개인 비서 성능을 대폭 개선하는 것이 가능한 효과가 있다.
본 발명의 실시예에 따르면, 사용자가 외국으로 출국하거나, 외국인 사용자가 국내로 입국하였을 때, 직접 외국어로 상대방에게 전화를 걸지 않고도 개인비서를 활용하여 다양한 예약, 주문, 민원 처리 등이 가능한 효과가 있다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 장치를 도시한다.
도 2는 본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 방법을 도시한다.
도 3은 본 발명의 실시예에 따른 모델 업데이트 과정을 도시한다.
도 4는 본 발명의 실시예예 따른 개인 비서 서비스 제공 과정을 도시한다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.
이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.
음성인식 기술 및 자동번역 기술이 발달함에 따라, 인공지능 스피커 등으로 대표되는 개인 비서 서비스 등이 소개되고 있다.
종래 기술에 따르면, 사용자의 음성을 인식하고 이에 따라 단순한 서비스만을 제공한다.
예를 들어 사용자가 '오늘 날씨 알려줘'라고 말한다면 날씨 정보를 검색해 이를 사용자에게 알려주는 식의 단순한 서비스의 제공만이 가능하다.
최근 사용자 명령에 따라 실제 상점 등에 전화를 걸어 사용자의 개입 없이 대화를 통해 사용자의 비서 역할을 수행하는 서비스가 소개되고 있는데, 이는 단일어로만 이루어지는 서비스에 불과하여, 외국어로 된 의사소통이 어려운 한계가 있다.
단순하게 기본 학습된 음성인식 모델 및 자동번역 모델 또는 자동통역 모델을 활용하여 개인비서 서비스를 제공하는 경우, 다양한 사용자 명령에 대한 음성인식이 어려운 문제점이 있고, 실제 환경에서 발성되는 타 언어 사용자와의 대화에 대한 음성인식 및 자동번역이 어려운 문제점이 있다.
본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 실제 환경에서의 사용자 명령을 충실히 이행할 수 있도록, 사용자의 의도를 기반으로 음성인식 모델과, 자동번역 모델 또는 자동통역 모델을 특화하여 업데이트하고, 이를 반영하여 사용자의 모국어가 아닌 다른 언어를 사용하는 자에게 전화를 걸어 개인 비서 서비스를 제공하는 것이 가능한 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법을 제안한다.
도 1은 본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 장치를 도시한다.
본 발명에 따른 자동통역 기반 개인 비서 서비스 제공 장치(100)는 사용자의 명령을 수신하는 입력부(110)와, 사용자의 명령에 따라 개인 비서 서비스를 제공하는 프로그램이 저장된 메모리(120) 및 프로그램을 실행시키는 프로세서(130)를 포함하고, 프로세서(130)는 사용자의 명령에 대한 인식 결과를 이용하여 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대해 사용자의 명령 의도에 기반한 업데이트를 수행하고, 자동통역 전화를 기반으로 개인 비서 서비스를 제공하는 것을 특징으로 한다.
프로세서(130)는 사용자의 모국어와 다른 언어를 사용하는 상대방과의 음성 대화를 통해 사용자의 명령을 수행하여, 개인 비서 서비스를 제공한다.
프로세서(130)는 상대방과의 대화가 종료되면 전화를 종료하고, 사용자에게 명령 처리 결과를 보고한다.
프로세서(130)는 사용자 명령 입력 시 NLU 모듈을 구동시켜, 해당 사용자 명령을 분석한다.
프로세서(130)는 개인화 기반 정보, 온라인 특화데이터 기반 정보, 온라인 일반데이터 기반 정보를 획득하고, 이를 이용하여 음성인식 모델, 자동번역 모델, 자동통역 모델에 대한 업데이트를 수행한다.
도 2는 본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 방법을 도시한다.
본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 방법은 입력된 사용자 명령을 수신하는 단계(S210)와, 사용자 명령에 기반하여 모델 업데이트를 수행하는 단계(S220)와, 자동통역 전화를 이용하여 개인 비서 서비스를 제공하는 단계(S230) 및 사용자 명령에 대한 처리 결과를 보고하는 단계(S240)를 포함한다.
S230 단계에서, 프로세서(130)는 S220 단계의 모델 업데이트 이후, 자동통역 전화를 발신하고, 상대방(사용자의 모국어와 다른 언어를 사용하는 자)과 음성 대화를 통하여 사용자의 명령을 수행함으로써, 개인 비서 서비스를 제공한다.
S240 단계에서, 프로세서(130)는 상대방과의 대화가 종료되면 전화를 종료하고, 사용자에게 명령 처리 결과를 보고한다.
도 3은 본 발명의 실시예에 따른 모델 업데이트 과정을 도시한다.
본 발명의 실시예에 따른 모델 업데이트 과정은 NLU 모듈 처리 단계(S221)와, 개인화 기반 정보, 온라인 특화데이터 기반 정보, 온라인 일반데이터 기반 정보를 획득하는 단계(S222) 및 음성인식 모델, 자동번역 모델, 자동통역 모델을 업데이트하는 단계(S223)를 포함한다.
사용자는 단말에 설치된 개인 비서 어플리케이션을 통해, 음성 또는 텍스트 입력 등을 통하여 명령을 내린다.
프로세서(130)는 음성인식 모델과, 자동번역 모델 또는 자동통역 모델 업데이트 모듈 내의 NLU(Natural Language Understanding) 모듈을 구동시켜, 해당 사용자 명령을 분석하고, 관련 정보를 획득한다(S221, S222).
이어서, 프로세서(130)는 사용자 명령 분석을 통해 획득된 해당 관련 정보를 이용하여, 음성인식 모델과, 자동번역 모델 또는 자동통역 모델을 업데이트 한다(S223).
음성인식 모델은 신경망 기반 모델인 경우, 음성 신호와 이에 대응하는 텍스트를 함께 훈련하여 해당 정보를 학습한 모델이다.
신경망 기반이 아닌 전통적 모델인 음성인식 모델의 경우, 발음사전을 포함한 언어모델 등이 될 수 있다.
자동번역 모델은 원시 언어와 대역 언어 간의 이중 언어 말뭉치 등에 의해 학습된 정보를 수록한 신경망 기반 또는 통계 기반의 자동번역 모델이다.
자동통역 모델은 원시 언어 음성과 이에 대응하는 상대 언어 텍스트를 종단형으로 통합하여 훈련한 모델이다.
자동통역이란 학습된 음성인식 모델과, 자동번역 모델 또는 이를 통합한 자동통역 모델을 기반으로, 음성인식, 자동번역, 자동통역 등을 수행하는 예측 단계를 수행하는 것이다.
음성인식 모델은 훈련 과정에서 학습되지 않은 단어의 경우, 제대로 음성인식이 불가능하며, 학습되지 않은 문장 등에 대해서는 그 음성 인식 성능이 저하되는 문제가 있다.
또한, 자동번역 역시 음성인식과 같이, 미등록어 등에 대해 번역을 수행하기 어려운 문제가 있을 뿐만 아니라, 학습 말뭉치에 충분히 출현되지 않은 단어 및 표현의 경우 번역 성능이 저하되는 문제가 있다.
종단형 자동통역 모델의 경우 학습 데이터의 부족으로 인해 이러한 문제가 더욱 빈번하게 나타난다.
그런데, 현실 상황에서 타 언어로의 개인 비서 역할을 수행하기 위해서는 음식 이름, 상품명, 상호명, 지명, 인명 등 고유명사 등에 대해 음성인식 및 자동번역을 수행할 수 있어야 하므로, 자동통역기에서 어떤 모델을 채택했는지에 따라 음성인식 모델 및 자동번역 모델을 업데이트하여 반영하거나, 자동통역 모델을 업데이트하여 반영할 필요가 있다.
본 발명의 실시예에 따른 음성인식 모델, 자동번역 모델 및 자동통역 모델 업데이트 모듈은 이러한 기능을 수행하는 것으로, 사용자의 명령이 음성인식에 기반한 명령인지 텍스트 입력에 따른 명령인지를 판별한다.
판단에 따라 텍스트 입력 명령인 경우 이를 그대로 NLU 모듈로 전달하고, 음성인식 명령인 경우 음성인식 결과를 NLU 모듈에 전달하여, NLU 모듈 처리가 수행된다.
NLU 모듈의 처리 결과를 기반으로 3단계의 정보 획득 단계를 거쳐 음성인식 모델과, 자동번역 또는 자동통역 모델을 업데이트한다.
이하, 개인화 기반 정보 획득 및 모델 업데이트 단계에 대해 설명한다.
전화를 거는 단말이 스마트 단말인 경우, 단말 내의 주소록, 메모, 검색 기록 등을 이용하여 관련 정보를 획득한다.
사용자가 개인 비서에게 '내일 오후 A 정비소에 엔진오일 교환 예약 해 줘'라고 명령을 내린 경우를 예를 들어 설명한다.
이 경우 예약을 위해 필요한 정보들을 NLU 모듈에서 분석한 후 '엔진오일 교환 예약'이 할 일이고, 주체는 '사용자' 이고, 대상은 'A 정비소'이고, 시간은 '내일 오후' 등이라는 것을 알 수 있다.
그리고 이러한 대화를 수행하기 위해 도움이 되는 차량 번호, 자동차 모델명, 전화 번호 등을 단말 내의 개인화 기반 정보를 통해 획득한다.
정보 획득 이후, 인공지능 비서를 다국어로 이용할 수 있도록 대역 데이터를 제공하는 자동 번역 지원 서버가 운영된다면, 이를 통해 획득한 데이터를 번역하고, 서버가 운영되지 않거나 해당 데이터에 대한 대역이 존재하지 않는다면 대역 사전 검색 또는 자동 번역기를 활용하여 원시언어와 타겟 언어에 대한 대역 데이터를 확보한다.
숫자 및 고유명사의 경우 숫자 읽기 규칙 또는 고유명사의 음역 등을 통해 확보하는 것이 가능하다.
확보된 데이터를 이용해 목적 언어의 음성인식 모델 및 자동번역 모델 또는 자동통역 모델을 업데이트 한다.
당업자의 이해를 돕기 위하여, 아래 [표 1]과 같이, 한가지 언어로 기술한 대화가 서로 다른 언어로 이루어진다고 가정한다.
- 원시 언어(인공지능비서): "안녕하세요 내일 오후 엔진오일 교환 예약 부탁 드립니다"
- 목적 언어(정비소 상담원): "네, 성함을 말씀해 주세요"
- 원시 언어(인공지능비서): "이름은 홍길동입니다"
- 목적 언어(정비소 상담원): "차량 번호를 말씀해 주세요"
- 원시 언어(인공지능비서): "차량 번호는 0000입니다."
- 목적 언어(정비소 상담원): "저희 정비소에 방문한 적이 있으시네요. 차량 모델이 XXXX로 검색되는데 맞으신가요"
- 원시 언어(인공지능비서): "네 맞습니다"
- 목적 언어(정비소 상담원): "내일 오후 2시 예약 괜찮으세요?"
- 원시 언어(인공지능비서): "네 좋습니다"
- 목적 언어(정비소 상담원): "연락 번호가 000-000-0000맞으신가요?"
- 원시 언어(인공지능비서): "네 방문했을 때 그대로입니다."
- 목적 언어(정비소 상담원): "감사합니다. 내일 뵙겠습니다."
만일 모델 업데이트 없이 자동통역을 수행하는 경우라면, 이름, 차량모델, 차량번호, 전화번호 등에 대한 음성인식 또는 자동번역이 어려웠을 것이나, 본 발명의 실시예에 따르면, 전술한 과정을 통해 이름, 차량모델, 차량번호, 전화번호 등이 모델에 반영되므로, 자동통역이 원활하게 이루어질 수 있다.
이하, 온라인 특화 데이터 기반 정보 획득 및 모델 업데이트 단계에 대해 설명한다.
A 정비소가 웹사이트 또는 SNS(Social Network Service) 등을 통해 해당 업소에서 제공하는 상품, 서비스, 업체 주소 등에 대한 정보를 목적 언어 텍스트로 제공하는 경우, 이를 수집하여 DB화한다.
해당 업소에서 목적 언어 텍스트로 된 정보를 제공하지 않는 경우, 원시 언어 텍스트로 정보를 확보하며, 이 경우 자동번역 지원 서버, 대역 사전 및 자동번역기 등을 활용하여 DB를 번역하여 확보한다.
확보된 DB를 활용하여 자동 번역 모델 및 목적 언어 음성 인식 모델, 또는 자동통역 모델을 업데이트한다.
고유명사의 경우 고유명사 음역 등을 통해 대역 DB를 확보하는 것이 가능하다.
해당 업소에서는 온라인 정보를 제공하지 않지만 제품 제조사, 유통사 등의 소개 페이지 또는 SNS 등이 운영된다면 이러한 유사 경로를 통해 관련 대역 데이터를 확보하는 것이 가능하며, 이렇게 확보된 데이터를 활용하여 모델을 업데이트할 수 있다.
[표 2]는 전술한 실시예에 따른 대화의 예이다.
- 목적 언어(정비소 상담원): "저희 업소에서는 YYY 엔진오일만 교환이 가능한데 괜찮으세요?"
- 원시 언어(인공지능 비서): "네 좋습니다."
- 목적 언어(정비소 상담원): "네 알겠습니다. YYY 엔진오일 교환 가격은 0000원입니다"
본 발명의 실시예에 따르면, 온라인 특화 데이터 기반 정보를 획득하여 모델을 미리 업데이트함으로써, 음성 인식 및 번역이 어려운 제품명, 가격 등을 미리 모델에 반영할 수 있게 되어, 원활한 자동통역이 가능한 효과가 있다.
이하, 온라인 일반 데이터 기반 정보 획득 및 모델 업데이트 단계에 대하여 설명한다.
본 발명의 실시예에 따르면, 사용자 의도와 관련된 일반적인 키워드 및 예컨대 '엔진오일 교환' 또는 'YYY 엔진오일'과 같은 단어 등을 목적 언어로 번역한 다음, 입력 키워드로 삼아 목적 언어에 대해 웹검색을 실시해 검색된 결과 텍스트를 DB화한 것을 이용하여, 목적 언어 음성인식 모델 업데이트를 수행한다.
또한, '엔진오일 교환' 또는 'YYY 엔진오일' 등과 같은 주제어 및 고유 명사 등에 대한 대역 표현을 검색하여, 대역 문장 데이터가 존재하는 경우, 이를 이용해 자동번역 모델을 업데이트한다(이러한 정보는 자동통역 모델 업데이트 시에 반영될 수 있다).
관련된 일반적인 데이터 등을 이용하여 모델을 업데이트함으로써, 음성 인식 및 자동번역 성능이 향상된다.
추가할 데이터가 모두 확보된 경우 모델 업데이트는 다음과 같은 단계를 통해 수행된다.
자동통역서비스가 완전히 통합되어 있지 않고, 음성인식 모델과 자동번역 모델, 음성합성 모델로 분리되어 있는 경우, 다음과 같이 음성인식 모델과 자동번역 모델을 업데이트 한다.
음성인식 모델이 현재 널리 사용되고 있는 음성인식 사전, 언어모델, 음향모델로 구성되어 있는 경우, 음성인식 사전에 인식하고자 하는 단어가 존재하지 않으면 음성인식 사전에 해당 단어를 추가하고, 언어 모델에도 해당 단어에 대해 높은 확률 가중치를 부여한다.
또한 인식하고자 하는 문장의 단어 n-gram 역시 언어 모델 내에서 높은 가중치를 부여하도록 한 후 음성인식 사전, 언어모델, 음향모델을 통합하여 탐색 네트워크를 구성한다.
음성인식 사전, 언어모델, 음향모델을 통합하여 탐색 네트워크를 구성하는데 시간이 걸릴 수 있으므로, 신속히 모델을 업데이트하고자 한다면 탐색 네트워크에 미리 인식하고자 하는 단어 또는 문장을 위한 빈 슬롯(slot)을 만들어 놓는다.
이후 음성 인식 후보로 판단되는 단어 또는 단어열(문장)들이 획득되면 미리 만들어 놓은 네트워크 상의 빈 슬롯(slot)에 해당 단어 또는 단어열(문장)을 채워 넣음으로써 모델 업데이트를 신속히 수행한다.
신경망 기반의 음성인식기는 RNN(Recursive Neural Network) 기반 언어모델 등이 존재할 경우, 인식하고자 하는 단어 및 단어열(문장)을 포함하여 점진학습(Incremental Learning) 기법 등을 이용하여 추가 학습하거나 명시적으로 해당 언어모델 내에서 단어의 가중치를 조정하여, 해당 단어 및 단어열(문장)의 인식 가능성을 높인다.
언어모델이 존재하지 않을 경우, 음성 합성기 등을 이용하여 해당 단어 및 단어열(문장) 텍스트를 변환하여 "음성 - 텍스트" 쌍 데이터를 만들어 준다.
해당 데이터 셋의 음성이 주어지면 레이블에 해당하는 단어 또는 단어열(문장)을 예측할 수 있도록, 기존의 신경망 모델의 레이어 일부를 재학습하거나, 추가하여 학습하는 전이학습 또는 점진학습 등을 수행함으로써, 음성인식 성능을 향상시킨다.
신경망 내에서 은닉 변수의 값 등을 명시적으로 수정할 수 있는 구조라면 음성인식 후보 단어 또는 단어열(문장)이 잘 인식되도록, 은닉 변수의 값 등을 수정한다.
대역사전이 존재하는 자동 번역기의 경우에는 대역사전을 업데이트한다.
자동 번역기에 번역 메모리(Translation Memory) 가 존재하는 경우에는 획득한 대역 문장 및 단어들로 번역이 앞 단에서 이루어질 수 있도록, 번역 메모리를 업데이트한다.
통계기반 또는 신경망 기반 번역기의 경우, 획득한 대역 사전 및 대역 문장들이 높은 가중치를 갖도록 직접적으로 데이터에 높은 가중치를 부여하거나, 추가 데이터의 빈도 등을 조절함으로써, 기존 학습 데이터에 추가하여 통계 모델 및 신경망 모델 등을 재학습한다.
재학습 과정의 시간이 너무 오래 걸릴 경우, 추가하고자 하는 데이터들이 신속히 학습 모델에 추가 반영될 수 있도록, 통계 모델을 점진학습 등의 기법을 이용하여 추가 학습하거나, 신경망 모델이 해당 데이터를 잘 모델링 할 수 있도록 신경망의 일부 레이어를 재학습하거나, 레이어를 추가하여 학습한다.
통계 모델의 데이터 값 또는 신경망의 은닉 변수의 값에 대한 직접적 수정이 가능한 경우, 해당 데이터와 관련된 값을 수정함으로써 자동번역 모델을 업데이트하는 것이 가능하다.
원시 언어 음성인식부터 목적 언어 음성 합성까지 완전히 하나의 신경망으로 통합된 자동통역 모델일 경우, 원시 언어 및 목적 언어의 텍스트 데이터를 음성 합성기를 이용하여 음성을 생성함으로써 "원시 언어 음성 - 목적 언어 음성" 데이터 셋을 생성한다.
데이터 셋을 기본 학습 데이터 셋에 포함시켜 재학습하거나, 모델을 신속히 업데이트하고자 할 경우 해당 데이터셋을 추가 학습할 수 있도록 신경망의 일부 레이어를 재학습하거나, 레이어를 추가하여 학습함을 통해, 전이학습 또는 점진학습을 실시하여 모델을 업데이트한다.
이 때, 자동통역 모델이 원시 언어 음성인식부터 목적 언어 음성합성 까지가 아닌, 목적 언어 번역까지만 수행하는 형태의 신경망 모델로 구성되어 있을 경우, 획득한 데이터 셋에서 원시 언어의 텍스트 데이터에 대해서만 음성 합성기를 이용하여 음성을 생성하고, '원시 언어 음성 - 목적 언어 텍스트' 데이터 셋을 생성하고, 이를 기본 학습 데이터 셋에 포함하여 재학습 하거나, 모델을 신속히 업데이트하고자 할 경우 해당 데이터셋을 추가 학습할 수 있도록 신경망의 일부 레이어를 재학습하거나, 레이어를 추가하여 학습여 모델을 업데이트한다.
전술한 기법은 예시로 든 자동차 정비 관련 사례만이 아니라, 식당, 렌터카, 쇼핑업소 등 모든 활용 가능한 다양한 분야에 응용될 수 있다.
또한 이렇게 획득한 정보들은 NLU 모델 및 대화 처리 모듈 등에도 반영되어 해당 모듈의 성능을 높이는데 활용된다.
도 4는 본 발명의 실시예예 따른 개인 비서 서비스 제공 과정을 도시한다.
S230 단계에서의 음성인식 모델, 자동번역 모델, 자동통역 모델 업데이트가 완료되면, 실제 개인 비서가 해당 업소로 자동통역 전화를 발신한다(S231).
업소에서 전화를 받게 되면, 대화 처리 모듈은 목적 언어 합성음으로 전화를 건 목적을 이야기한다(S232).
S233 단계는 자동통역기가 채용하고 있는 모델을 확인한다.
S233 단계에서 음성인식 및 자동번역기를 채용한 것으로 확인되면, S235 단계는 해당 언어로 발화되는 음성을 인식한다.
S236 단계는 목적 언어를 원시 언어로 자동 번역하고, S237 단계는 대화 처리 모듈을 통해 대화 처리가 수행된다.
S233 단계에서 종단형 자동통역기를 채용한 것으로 확인되면, S234 단계는 종단형 자동통역을 수행하고, 대화 처리 모듈로 결과를 전달하고, S237 단계의 대화 처리가 수행된다.
S238 단계는 대화처리 모듈에서 대화가 완료되었는지 확인하고, 완료되지 않은 경우 S232 단계로 돌아가고, 완료된 경우 S240 단계를 통해 사용자에게 명령 처리 결과를 보고한다.
한편, 본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.
컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.
따라서, 본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 자동통역 기반 개인 비서 서비스 제공 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 개인 비서 서비스 제공 방법을 수행할 수 있다.
한편, 상술한 본 발명에 따른 자동통역 기반 개인 비서 서비스 제공 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (16)

  1. 사용자의 명령을 수신하는 입력부;
    상기 사용자의 명령에 따라 개인 비서 서비스를 제공하는 프로그램이 저장된 메모리; 및
    상기 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 사용자의 명령에 대한 인식 결과를 이용하여, 상기 사용자의 명령에 대한 대화를 수행하기 위해 필요한 정보에 해당되는 개인화 기반 정보, 온라인 특화데이터 기반 정보 및 온라인 일반데이터 기반 정보를 개인 비서 서비스 제공 전에 미리 획득하고, 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대해 사용자의 명령 의도에 기반한 업데이트를 수행하고, 상기 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대한 업데이트가 완료되면, 자동통역 전화를 기반으로 개인 비서 서비스를 제공하고,
    상기 프로세서는 스마트 단말 내의 주소록, 메모, 검색 기록 중 적어도 어느 하나를 이용하여 상기 개인화 기반 정보를 획득하고, 웹사이트 또는 SNS를 통해 상품, 서비스, 주소 중 적어도 어느 하나에 관한 정보를 수집하고 DB화하여 상기 온라인 특화데이터 기반 정보를 획득하고, 상기 사용자의 명령 의도와 관련된 키워드를 목적언어로 번역하여 웹 검색을 실시한 결과인 상기 온라인 일반데이터 기반 정보를 획득하여, 상기 음성인식 모델, 자동번역 모델 및 자동통역 모델 중 적어도 어느 하나의 모델에 대한 업데이트를 수행하고,
    상기 프로세서는 탐색 네트워크에 인식하고자 하는 단어 또는 문장을 위한 빈 슬롯을 구비하고, 음성 인식 후보로 판단되는 정보 획득 시 상기 빈 슬롯에 해당 단어 또는 문장을 채워넣어 모델 업데이트를 수행하는 것
    인 자동통역 기반 개인 비서 서비스 제공 장치.
  2. 제1항에 있어서,
    상기 프로세서는 상기 사용자의 명령에 따라 NLU((Natural Language Understanding) 모듈을 구동시켜, 해당 사용자 명령을 분석하는 것
    인 자동통역 기반 개인 비서 서비스 제공 장치.
  3. 제2항에 있어서,
    상기 프로세서는 상기 사용자의 명령이 음성인식에 기반한 명령인지 텍스트 입력에 따른 명령인지를 판별하고, 상기 사용자의 명령이 텍스트 입력에 따른 명령인 경우 이를 그대로 상기 NLU 모듈로 전달하고, 상기 사용자의 명령이 음성인식에 기반한 명령인 경우 음성인식 결과를 상기 NLU 모듈에 전달하는 것
    인 자동통역 기반 개인 비서 서비스 제공 장치.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 프로세서는 자동 번역 지원 서버가 운영되는 경우, 상기 자동 번역 지원 서버로부터 대역 데이터를 확보하고, 상기 자동 번역 지원 서버가 운영되지 않는 경우 대역 사전 검색 또는 자동 번역기를 활용하여 원시언어와 타겟 언어에 대한 대역 데이터를 확보하는 것
    인 자동통역 기반 개인 비서 서비스 제공 장치.
  7. 삭제
  8. 제1항에 있어서,
    상기 프로세서는 상기 온라인 특화데이터 기반 정보와 관련하여 목적 언어 텍스트로 된 정보가 제공되지 않을 경우, 원시 언어 텍스트로 정보를 확보하고, 자동 번역 지원 서버, 대역 사전 및 자동번역기를 활용하여 정보를 확보하는 것
    인 자동통역 기반 개인 비서 서비스 제공 장치.
  9. 제1항에 있어서,
    상기 프로세서는 상기 사용자의 명령 의도와 관련된 키워드를 목적 언어로 번역하고, 입력 키워드를 이용한 목적 언어에 대한 웹 검색을 실시하여 검색된 결과 텍스트를 DB화 하는 것
    인 자동통역 기반 개인 비서 서비스 제공 장치.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020200080611A 2019-07-05 2020-06-30 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법 KR102519619B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/919,748 US11551012B2 (en) 2019-07-05 2020-07-02 Apparatus and method for providing personal assistant service based on automatic translation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190081555 2019-07-05
KR20190081555 2019-07-05

Publications (2)

Publication Number Publication Date
KR20210004854A KR20210004854A (ko) 2021-01-13
KR102519619B1 true KR102519619B1 (ko) 2023-04-10

Family

ID=74142673

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200080611A KR102519619B1 (ko) 2019-07-05 2020-06-30 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102519619B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102445382B1 (ko) * 2017-07-10 2022-09-20 삼성전자주식회사 음성 처리 방법 및 이를 지원하는 시스템
KR102449875B1 (ko) * 2017-10-18 2022-09-30 삼성전자주식회사 음성 신호 번역 방법 및 그에 따른 전자 장치

Also Published As

Publication number Publication date
KR20210004854A (ko) 2021-01-13

Similar Documents

Publication Publication Date Title
US20240127807A1 (en) Language models using domain-specific model components
US20230317074A1 (en) Contextual voice user interface
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
JP3716870B2 (ja) 音声認識装置および音声認識方法
US20200273449A1 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
JP2001005488A (ja) 音声対話システム
KR20100135757A (ko) 언어-내 통계적 머신 번역
US10515637B1 (en) Dynamic speech processing
US10872601B1 (en) Natural language processing
US11715472B2 (en) Speech-processing system
KR20200007983A (ko) 지역적 특징 기반의 음성인식 방법 및 시스템
JP2015125499A (ja) 音声通訳装置、音声通訳方法及び音声通訳プログラム
López-Cózar et al. Using knowledge of misunderstandings to increase the robustness of spoken dialogue systems
Rajendran et al. Language dialect based speech emotion recognition through deep learning techniques
US11551012B2 (en) Apparatus and method for providing personal assistant service based on automatic translation
Rabiner et al. Speech recognition: Statistical methods
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR102519619B1 (ko) 자동통역 기반 개인 비서 서비스 제공 장치 및 그 방법
CN110809796B (zh) 具有解耦唤醒短语的语音识别系统和方法
CN112528679B (zh) 一种意图理解模型训练方法及装置、意图理解方法及装置
Domokos et al. Romanian phonetic transcription dictionary for speeding up language technology development
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant