KR20190114938A - 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법 - Google Patents

다국어 커뮤니케이션을 수행하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20190114938A
KR20190114938A KR1020190116406A KR20190116406A KR20190114938A KR 20190114938 A KR20190114938 A KR 20190114938A KR 1020190116406 A KR1020190116406 A KR 1020190116406A KR 20190116406 A KR20190116406 A KR 20190116406A KR 20190114938 A KR20190114938 A KR 20190114938A
Authority
KR
South Korea
Prior art keywords
language
speech
text
multilingual communication
voice
Prior art date
Application number
KR1020190116406A
Other languages
English (en)
Inventor
박용철
김민욱
김상기
양시영
장주영
한성민
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020190116406A priority Critical patent/KR20190114938A/ko
Publication of KR20190114938A publication Critical patent/KR20190114938A/ko
Priority to US16/601,787 priority patent/US20200043495A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 개시의 일 실시예에 따른 다국어 커뮤니케이션을 수행하는 방법은, 발화를 수신하는 단계, 수신된 발화의 언어를 식별하는 단계, 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하는 단계, 식별된 언어가 기준어와 일치하지 않는 경우, 식별된 언어를 기준어로 통역하는 통역 모델을 수신된 발화에 적용하는 단계, 통역 모델의 적용 결과로서 상기 기준어로 출력되는 음성 데이터를 텍스트로 변경하는 단계, 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성하는 단계, 및 응답 메세지를 출력하는 단계를 포함할 수 있다. 여기서, 통역 모델은 기계 학습을 통해 생성된 심층 신경망 모델일 수 있으며, 통역 모델은 엣지 디바이스에 저장되거나, 5G 네트워크를 통한 사물 인터넷 환경에서 서버를 통해 제공될 수도 있다.

Description

다국어 커뮤니케이션을 수행하기 위한 장치 및 방법{METHOD AND APPARATUS FOR PERFORMING MULTI-LANGUAGE COMMUNICATION}
본 개시는 다국어 커뮤니케이션을 수행하기 위한 방법 및 장치에 관한 것이다. 보다 구체적으로는, 음성 처리의 기준이 되는 기준어를 미리 설정하고 입력되는 발화의 언어를 식별하여 기준어로 변경한 후 음성 처리를 수행하도록 하는 다국어 커뮤니케이션 수행 방법 및 장치에 관한 것이다.
기술이 발달함에 따라 많은 분야에서 음성 인식 기술을 적용한 각종 서비스들이 소개되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 기계 장치가 이해하여 사람이 원하는 서비스를 제공할 수 있도록 하는 기술로서, 사용자와 기계 장치의 상호작용을 보다 원활하게 할 수 있다.
음성 인식과 관련하여, 실제 사용 환경에서는 다양한 언어들이 소통을 위해 사용되고 있으므로, 음성 인식 기술이 활용되기 위해서는 다양한 언어를 인식할 수 있도록 해야 한다.
이와 관련하여, 미국특허공개공보 제2018-0240456호에서는 "다국어 처리를 수행하는 인공 지능 시스템의 제어 방법"이라는 발명을 개시하며, 음성 정보를 수신하고, 수신된 음성 정보의 언어를 판단한 후, 언어 판단 결과를 이용하여 서로 다른 언어를 처리하는 복수의 음성 인식 서버 중 특정 음성 인식 서버를 선택하고, 특정 음성 인식 서버에 음성 정보를 전송하는 방식에 대해 개시하고 있다.
이러한 방식은 각각의 언어마다 별도의 서버가 준비가 될 필요가 있으며, 음성 인식을 수행하기 위해서는 이들 서버들과의 연결이 확보되어야 하는 필요가 있다.
한편, 음성 인식을 통한 자연어 처리는 하나의 언어에 국한하더라도 상당한 프로세싱 능력을 필요로 하며, 개별 언어마다 자연어 처리를 위한 별도의 모델이 필요하게 되는 어려움이 있다.
반면에, 국제적 교류의 증가와 세계무역의 발전으로 다양한 언어를 지원하는 음성 인식 장치에 대한 필요는 계속해서 증가되고 있다.
이에 따라, 다국어로 음성 인식을 가능하게 하면서도 프로그램 개발 리소스와 프로세싱 리소스를 절감할 수 있는 새로운 해결책이 필요하다.
한편, 전술한 선행기술은 발명자가 본 개시의 도출을 위해 보유하고 있었거나, 본 개시의 도출 과정에서 습득한 기술 정보로서, 반드시 본 개시의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 개시의 실시예는 종래 기술에서 다국어 음성 인식을 가능하게 하기 위해서 상당한 양의 프로세싱 리소스와 프로그램 개발 리소스가 투입되어야 한다는 문제점을 해결하고자 한다.
또한, 본 개시의 실시예는 종래의 기술에서 다국어 음성 인식을 가능하게 하기 위해서 각 언어별 음성 인식기, 각 언어별 자연어 처리 모듈, 각 언어별 음성 합성기가 구비되어야 하는 문제점을 해결하고자 한다.
또한, 본 개시의 실시예는 종래의 기술에서 다국어 음성 인식을 가능하게 하기 위해서, 개발 과정이 복잡하고 개발에 상당한 리소스와 기간이 필요한 언어별 처리 모듈 및 알고리즘이 요구된다는 문제점을 해결하고자 한다.
또한, 본 개시의 실시예는 종래의 기술에서 다국어 음성 인식을 위해서 각 언어별 음성 처리기가 적합하게 선택되는 것이 어렵고, 각각의 선택된 음성 처리기는 해당 언어의 음성 처리를 위해 높은 프로세싱 리소스를 필요로 하게 된다는 문제점을 해결하고자 한다.
본 개시의 일 실시예는 기계통역을 기반으로 하여 입력되는 음성을 하나의 기준어 음성으로 변경하고, 기준어를 처리하기 위해 구성된 음성 인식기, 자연어 처리 모듈, 및 음성 합성기를 이용해 기준어로 변경된 음성을 처리하도록 하는 다국어 음성 인식 장치 및 방법을 제공할 수 있다.
본 개시의 다른 실시예는 음성 인식 서비스가 제공되는 위치에 따라 해당 위치에서 자주 사용되는 언어에 기초하여 기준어를 설정하여, 자주 사용되는 언어가 음성 인식에 있어서 기준어가 될 수 있도록 하는 다국어 음성 인식 장치 및 방법을 제공할 수 있다.
본 개시의 또 다른 실시예는 발화자의 이미지 분석을 통해 발화자가 사용하는 언어의 후보군을 형성하고, 수신된 발화 음성을 후보군의 언어들과 비교하여 수신된 발화 음성의 언어를 식별하고, 해당 언어에 적합한 음성 인식 서비스를 수행하는 다국어 음성 인식 장치 및 방법을 제공할 수 있다.
본 개시의 일 실시예에 따른 다국어 커뮤니케이션을 수행하는 방법은, 발화를 수신하는 단계, 수신된 발화의 언어를 식별하는 단계, 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하는 단계, 식별된 언어가 기준어와 일치하지 않는 경우, 식별된 언어를 기준어로 통역하는 제 1 통역 모델을 수신된 발화에 적용하는 단계, 제 1 통역 모델의 적용 결과로서 기준어로 출력되는 제 1 음성 데이터를 텍스트로 변경하는 단계, 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성하는 단계, 및 응답 메세지를 출력하는 단계를 포함할 수 있다.
여기서, 응답 메세지를 생성하는 단계는, 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지의 텍스트를 기준어로 생성하는 단계, 및 응답 메세지의 텍스트에 대응하는 제 2 음성 데이터를 생성하는 단계를 포함할 수 있다.
또한, 응답 메세지를 출력하는 단계는, 기준어를 식별된 언어로 통역하는 제 2 통역 모델을 제 2 음성 데이터에 적용하는 단계, 및 제 2 통역 모델의 적용 결과로서 식별된 언어로 출력되는 제 3 음성 데이터를 출력하는 단계를 포함할 수 있다.
상술된 제 1 통역 모델은, 식별된 언어로 발화된 음성 데이터와 이에 대응하는 기준어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델일 수 있다.
또한, 제 2 통역 모델은, 기준어로 발화된 음성 데이터와 이에 대응하는 식별된 언어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델일 수 있다.
또한, 제 1 음성 데이터를 텍스트로 변경하는 단계는, 기준어용 STT(Speech to Text) 알고리즘을 이용하여 제 1 음성 데이터를 텍스트로 변환하는 단계를 포함할 수 있고, 제 2 음성 데이터를 생성하는 단계는, 기준어용 TTS(Text to Speech) 알고리즘을 이용하여 상기 응답 메세지의 텍스트를 상기 제 2 음성 데이터로 변환하는 단계를 포함할 수 있다.
본 개시의 다른 실시예에 따른 다국어 커뮤니케이션 수행 방법은, 상술된 발화를 수신하는 단계 이전에, 발화가 수신될 위치 정보를 취득하는 단계, 위치 정보에 대응하는 지역의 인구통계학적(demographic) 정보를 수신하는 단계, 및 인구통계학적 정보에 기초하여 가장 많이 사용되는 언어를 결정하는 단계를 더 포함할 수 있다.
또한, 본 개시의 다른 실시예에 따른 다국어 커뮤니케이션 수행 방법은, 가장 많이 사용되는 언어를 결정하는 단계 이후에는, 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는지 판단하는 단계, 및 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는 경우, 가장 많이 사용되는 언어를 기준어로 설정하고, 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하지 않는 경우, 기준어 그룹에 존재하는 언어들 중 가장 많이 사용되는 언어와 동일한 어족에 속하는 언어를 기준어로 설정하는 단계를 포함할 수 있다.
본 개시의 또 다른 실시예에 따른 다국어 커뮤니케이션 수행 방법은, 발화의 발화자를 촬영하는 단계를 더 포함하고, 수신된 발화의 언어를 식별하는 단계는, 상기 발화자에 대한 영상 분석을 통해 발화자가 사용하는 후보 언어들을 판단하는 단계, 후보 언어들을 기준으로 상기 수신된 발화의 언어를 분석하는 단계, 및 분석을 기초로 상기 수신된 발화의 언어를 결정하는 단계를 포함할 수 있다.
또한, 본 개시의 또 다른 실시예에 따른 다국어 커뮤니케이션 수행 방법에서 응답 메세지를 출력하는 단계는, 발화자에 대한 영상 분석을 통한 발화자의 성별 및 연령에 따라 상기 응답 메세지를 전달할 음성을 결정하는 단계, 및 결정된 음성으로 상기 응답 메세지를 출력하는 단계를 포함할 수 있다.
본 개시의 일 실시예에 따른 다국어 커뮤니케이션을 수행하는 장치는, 발화를 수신하는 마이크, 명령어가 저장된 메모리, 및 마이크 및 메모리와 연결된 하나 이상의 프로세서를 포함하고, 프로세서는, 마이크로부터 수신된 발화의 언어를 식별하고, 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하고, 식별된 언어가 기준어와 일치하지 않는 경우, 식별된 언어를 상기 기준어로 통역하는 제 1 통역 모델을 수신된 발화에 적용하고, 제 1 통역 모델의 적용 결과로서 기준어로 출력되는 제 1 음성 데이터를 텍스트로 변경하고, 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성하도록 구성될 수 있다.
또한, 프로세서는, 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지의 텍스트를 기준어로 생성하고, 응답 메세지의 텍스트에 대응하는 제 2 음성 데이터를 생성하도록 추가로 구성될 수 있다.
또한, 프로세서는, 기준어를 식별된 언어로 통역하는 제 2 통역 모델을 제 2 음성 데이터에 적용하고, 제 2 통역 모델의 적용 결과로서 식별된 언어로 출력되는 제 3 음성 데이터를 출력하도록 추가로 구성될 수 있다.
여기서, 메모리는 제 1 통역 모델 및 제 2 통역 모델을 저장하고, 제 1 통역 모델은, 식별된 언어로 발화된 음성 데이터와 이에 대응하는 기준어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델이고, 제 2 통역 모델은, 기준어로 발화된 음성 데이터와 이에 대응하는 식별된 언어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델일 수 있다.
본 개시의 다른 실시예에 따른 다국어 커뮤니케이션을 수행하는 장치에서 프로세서는, 장치가 설치된 위치의 정보를 취득하고, 위치 정보에 대응하는 지역의 인구통계학적(demographic) 정보를 수신하고, 인구통계학적 정보에 기초하여 가장 많이 사용되는 언어를 결정하도록 추가로 구성될 수 있다.
여기서, 프로세서는, 가장 많이 사용되는 언어를 결정한 이후에, 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는지 판단하고, 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는 경우, 가장 많이 사용되는 언어를 기준어로 설정하고, 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하지 않는 경우, 기준어 그룹에 존재하는 언어들 중 상기 가장 많이 사용되는 언어와 동일한 어족에 속하는 언어를 기준어로 설정하도록 추가로 구성될 수 있다.
본 개시의 다른 실시예에 따른 다국어 커뮤니케이션을 수행하는 장치는 발화의 발화자를 촬영하는 카메라를 더 포함하고, 프로세서는, 카메라를 통해 촬영된 발화자에 대한 영상 분석을 통해 발화자가 사용하는 후보 언어들을 판단하고, 후보 언어들을 기준으로 수신된 발화의 언어를 분석하고, 분석을 기초로 수신된 발화의 언어를 결정하도록 구성될 수 있다.
여기서, 프로세서는, 카메라로 촬영된 상기 발화자에 대한 영상 분석을 통한 발화자의 성별 및 연령에 따라 응답 메세지를 전달할 음성을 결정하고, 결정된 음성으로 상기 응답 메세지를 출력하도록 구성될 수 있다.
본 발명의 일 실시예에 따른 다국어 커뮤니케이션을 수행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 기록매체에서 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 프로세서로 하여금, 발화된 언어를 수신하고, 수신된 발화의 언어를 식별하고, 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하고, 식별된 언어가 기준어와 일치하지 않는 경우, 식별된 언어를 기준어로 통역하는 제 1 통역 모델을 수신된 발화에 적용하고, 제 1 통역 모델의 적용 결과로서 기준어로 출력되는 제 1 음성 데이터를 텍스트로 변경하고, 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성하도록 구성될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 개시의 실시예는 다국어 음성 인식을 가능하게 하면서도 요구되는 프로세싱 리소스와 프로그램 개발 리소스의 투입을 최소한으로 할 수 있는 다국어 커뮤니케이션 수행 장치 및 방법을 제공할 수 있다.
또한, 본 개시의 실시예는 기계통역을 이용함으로써, 한 언어의 음성 인식기, 자연어 처리 모듈, 음성 합성기를 사용하면서도 다국어 음성 인식을 가능하게 하는 다국어 커뮤니케이션 수행 장치 및 방법을 제공할 수 있다.
또한, 본 개시의 실시예는 개발 과정이 복잡하고 개발에 상당한 리소스와 기간이 필요한 언어별 처리 모듈 및 알고리즘을 다수의 언어에 대해 개발하지 않으면서도 다국어 음성 인식을 가능하게 하는 다국어 커뮤니케이션 수행 장치 및 방법을 제공할 수 있다.
또한, 본 개시의 실시예는 다국어 커뮤니케이션 수행 장치에 입력될 주요 언어를 예상하고 기준어를 주요 언어로 설정함으로써, 실제 사용시에 효율적이고 효과적인 다국어 언어 처리가 수행되도록 할 수 있다.
또한, 본 개시의 실시예는 다국어 커뮤니케이션 수행 장치에 입력되는 언어를 발화자의 특징에 따라 보다 정확하게 식별하도록 함으로써, 효율적이고 효과적인 다국어 언어 처리가 수행되도록 할 수 있다.
본 개시의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치가 사용되는 환경의 일 실시예를 도시한다.
도 2는 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치가 실내에서 사용되는 경우를 설명하기 위한 도면이다.
도 3은 본 개시의 실시예에 따른 다국어 커뮤니케이션을 위한 사용자 단말기가 사용되는 환경의 일 실시예를 도시한다.
도 4는 본 개시의 실시예에 따른 다국어 음성 통역을 위한 신경망 모델을 생성하기 위한 시스템을 도시한다.
도 5는 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치의 블럭도이다.
도 6은 언어별 음성 처리 모듈이 필요한 장치를 설명하기 위한 도면이다.
도 7은 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치를 설명하기 위한 도면이다.
도 8은 본 개시의 실시예에 따른 다국어 음성 통역을 위한 신경망 모델을 생성하기 위한 과정을 설명하기 위한 도면이다.
도 9는 본 개시의 실시예에 따른 다국어 음성 통역을 위해 생성된 신경망 모델을 적용하는 과정을 설명하기 위한 도면이다.
도 10은 본 개시의 실시예에 따른 다국어 음성 통역을 위해 생성된 신경망 모델을 설명하기 위한 도면이다.
도 11은 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 방법의 순서도를 도시한다.
본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 개시는 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 개시의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 개시의 개시가 완전하도록 하며, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 개시를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
이하, 본 개시에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치가 사용되는 환경의 일 실시예를 도시한다.
도 1에서 도시된 바와 같이 다국어 커뮤니케이션 수행 장치(100)는 이동이 가능한 로봇일 수 있다. 다국어 커뮤니케이션 수행 장치(100)는 센싱부(150)를 포함할 수 있고, 센싱부(150)를 통해 사용자와 인터랙션을 할 수 있다. 센싱부(150)는 카메라 및 마이크를 포함할 수 있고, 다국어 커뮤니케이션 수행 장치(100)는 카메라를 통해 사용자를 인식하고, 마이크를 통해 사용자로부터 음성 명령을 수신할 수 있다.
음성 처리를 수행하는 과정에서 다국어 커뮤니케이션 수행 장치(100)는 네트워크(400)를 통해 외부 서버들(200 및 300)과 통신할 수 있다. 외부 서버들(200 및 300)은 자연어 처리를 수행할 수 있는 서버 연산 시스템(200)이거나 언어 처리를 위한 신경망 모델을 생성할 수 있는 트레이닝 연산 시스템(300)일 수 있다.
로봇으로 구현된 다국어 커뮤니케이션 수행 장치(100)는 실내 공간을 이동하면서 사용자와 커뮤니케이션을 수행할 수 있다. 다국어 커뮤니케이션 수행 장치(100)는 외부 서버들(200 및 300)과의 통신을 통해 다양한 언어로 사용자와 커뮤니케이션이 가능하게 된다.
한편, 도 1에서는 다국어 커뮤니케이션 수행 장치(100)는 로봇으로 구현되었지만, 인공지능 스피커, 스마트폰, 태블릿, 컴퓨터 등 다양한 전자기기로 구현될 수 있다.
도 2는 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치가 실내에서 사용되는 경우를 설명하기 위한 도면이다.
예를 들어, 로봇으로 구현된 다국어 커뮤니케이션 수행 장치(100)는 공항에서 사용될 수 있다. 공항에는 다양한 국적의 사람들이 모이며, 공항 이용객들은 공항의 이용을 위해 여러가지 정보를 필요로 한다.
공항 이용객들을 위해 공항에는 다국어 커뮤니케이션이 가능한 로봇이 배치될 수 있고, 공항 이용객들이 로봇에게 접근하거나, 로봇이 주변을 탐색하고 도움이 필요한 공항 이용객들에게 접근하여 음성 인터랙션이 시작될 수 있다.
공항에 배치된 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치(100)가 설치된 로봇은 다양한 언어로 커뮤니케이션할 수 있는 능력을 갖는다. 본 개시의 일 실시예에 따른 로봇은 하나의 언어인 기준어의 발화를 처리할 수 있는 음성 인식기, 자연어 처리기 및 음성 합성기를 구비하지만 기계통역을 이용하여 다국어 커뮤니케이션을 수행할 수 있다.
공항 이용객은 각자 자신의 언어로 로봇에게 음성 명령을 전달한다. 로봇은 자신에게 전달된 음성 명령을 처리하기 위해서 먼저 음성 명령이 어떤 언어로 발화된 것인지 판단해야 한다.
로봇에 전달된 음성 명령의 언어가 판단되면 로봇은 기계통역기를 이용하여 해당 언어를 기준어로 변환하고, 기준어로 음성 인식, 자연어 처리를 수행하고, 기준어로 작성된 응답 메세지를 생성할 수 있다. 기준어로 작성된 응답 메세지는 기계통역기를 이용하여 사용자가 사용했던 언어로 변환될 수 있다.
이러한 방식에 따라 하나의 언어인 기준어의 발화를 처리할 수 있는 음성 인식기, 자연어 처리기 및 음성 합성기를 구비한 로봇은 다국어 커뮤니케이션 수행을 할 수 있다.
도 3은 본 개시의 실시예에 따른 다국어 커뮤니케이션을 위한 사용자 단말기가 사용되는 환경의 일 실시예를 도시한다.
본 개시의 실시예에 따른 다국어 커뮤니케이션 수행을 위한 환경은 사용자 단말기(100), 서버 연산 시스템(200), 트레이닝 연산 시스템(300), 및 이들이 서로 통신할 수 있도록 하는 네트워크(400)를 포함할 수 있다. 여기서, 사용자 단말기(100)는 다국어 커뮤니케이션을 수행하기 위한 장치일 수 있다.
사용자 단말기(100)는 사물 지능 통신(IoT(internet of things), IoE(internet of everything), IoST(internet of small things) 등)을 지원할 수 있으며, M2M(machine to machine) 통신, D2D(device to device) 통신 등을 지원할 수 있다.
사용자 단말기(100)는 사물 인터넷을 위해 연결된 5G 환경에서 빅데이터, 인공지능(artificial intelligence, AI) 알고리즘 및/또는 기계학습(machine learning) 알고리즘을 이용하여 이미지 해상도 향상 방식을 결정할 수 있다.
사용자 단말기(100)는 예를 들어, 개인용 컴퓨터, 스마트폰, 태블릿, 게임 콘솔, 웨어러블 기기 등 어떤 종류의 연산 디바이스든 될 수 있다. 사용자 단말기(100)는 하나 이상의 프로세서들(110) 및 메모리(120)를 포함할 수 있다.
하나 이상의 프로세서들(110)은 데이터를 처리할 수 있는 모든 종류의 장치, 예를 들어 MCU를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다.
이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로서, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 개시의 범위가 이에 한정되는 것은 아니다.
메모리(120)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스들, 자기 디스크들, 등과 같은 하나 이상의 비-일시적(non-transitory) 저장 매체를 포함할 수 있다. 메모리(120)는 데이터(122) 및 프로세서들(110)에 의해 실행되었을 때 사용자 단말기(100)로 하여금 동작들을 수행하도록 하는 인스트럭션들(124)을 저장할 수 있다.
또한, 사용자 단말기(100)는 사용자 인터페이스(140)를 포함하여, 사용자로부터 명령들을 입력 받을 수 있고, 출력 정보를 사용자에게 전달할 수도 있다. 사용자 인터페이스(140)는 키보드, 마우스, 터치 스크린, 마이크, 카메라 등의 다양한 입력 수단과 모니터, 스피커, 디스플레이 등의 다양한 출력 수단을 포함할 수 있다.
사용자 단말기(100)의 센싱부(150)는 외부의 정보를 받아들이기 위한 수단이고, 센싱부(150)는 마이크 및 카메라를 포함할 수 있다. 사용자 단말기(100)는 마이크를 통해 사용자 또는 발화자로부터 음성 명령을 수신할 수 있고, 카메라를 통해 사용자 또는 발화자의 영상을 촬영할 수 있다.
일 실시예에서, 사용자 단말기(100)는 또한 인공 지능 기술이 적용된 음성 처리 신경망 모델들(130)을 저장하거나 포함할 수 있다. 예를 들어, 인공 지능 기술이 적용된 음성 처리 신경망 모델들(130)은 음성 인식을 위한 심층 신경망 모델, 자연어 처리 심층 신경망 모델, 및 음성 통역 심층 신경망 모델을 포함할 수 있다. 또한, 음성 처리 신경망 모델들(130)은 심층 신경망 또는 다른 타입의 머신 러닝 모델들과 같은 다양한 학습 모델들이거나, 이들을 포함할 수 있다.
여기서, 인공 지능(artificial intelligence, AI)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.
또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.
머신 러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야이다.
구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취한다.
용어 '머신 러닝'은 용어 '기계 학습'과 혼용되어 사용될 수 있다.
기계 학습에서 데이터를 어떻게 분류할 것인가를 놓고, 많은 기계 학습 알고리즘이 개발되었다. 의사결정나무(Decision Tree)나 베이지안 망(Bayesian network), 서포트벡터머신(SVM: support vector machine), 그리고 인공 신경망(ANN: Artificial Neural Network) 등이 대표적이다.
의사결정나무는 의사결정규칙(Decision Rule)을 나무구조로 도표화하여 분류와 예측을 수행하는 분석방법이다.
베이지안 망은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 베이지안 망은 비지도 학습(unsupervised learning)을 통한 데이터마이닝(data mining)에 적합하다.
서포트벡터머신은 패턴인식과 자료분석을 위한 지도 학습(supervised learning)의 모델이며, 주로 분류와 회귀분석을 위해 사용한다.
인공신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보처리 시스템이다.
인공 신경망은 기계 학습에서 사용되는 모델로써, 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다.
구체적으로 인공신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다.
용어 인공신경망은 용어 뉴럴 네트워크(Neural Network)와 혼용되어 사용될 수 있다.
인공신경망은 복수의 레이어(layer)를 포함할 수 있고, 레이어들 각각은 복수의 뉴런(neuron)을 포함할 수 있다. 또한 인공신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다.
인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1) 다른 레이어의 뉴런들 사이의 연결 패턴 (2) 연결의 가중치를 갱신하는 학습 과정 (3) 이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다.
인공 신경망은, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.
본 명세서에서 용어 '레이어'는 용어 '계층'과 혼용되어 사용될 수 있다.
인공신경망은 계층 수에 따라 단층 신경망(Single-Layer Neural Networks)과 다층 신경망(Multi-Layer Neural Networks)으로 구분된다.
일반적인 단층 신경망은, 입력층과 출력층으로 구성된다.
또한 일반적인 다층 신경망은 입력층(Input Layer)과 하나 이상의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된다.
입력층은 외부의 자료들을 받아들이는 층으로서, 입력층의 뉴런 수는 입력되는 변수의 수와 동일하며, 은닉층은 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달한다. 출력층은 은닉층으로부터 신호를 받고, 수신한 신호에 기반한 출력 값을 출력한다. 뉴런간의 입력신호는 각각의 연결강도(가중치)와 곱해진 후 합산되며 이 합이 뉴런의 임계치보다 크면 뉴런이 활성화되어 활성화 함수를 통하여 획득한 출력값을 출력한다.
한편 입력층과 출력 층 사이에 복수의 은닉층을 포함하는 심층 신경망은, 기계 학습 기술의 한 종류인 딥 러닝을 구현하는 대표적인 인공 신경망일 수 있다.
한편 용어 '딥 러닝'은 용어 '심층 학습'과 혼용되어 사용될 수 있다.
인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.
훈련 데이터에 의하여 학습된 인공 신경망은, 입력 데이터를 입력 데이터가 가지는 패턴에 따라 분류하거나 군집화 할 수 있다.
한편 훈련 데이터를 이용하여 학습된 인공 신경망을, 본 명세서에서는 학습 모델(a trained model)이라 명칭 할 수 있다.
다음은 인공 신경망의 학습 방식에 대하여 설명한다.
인공 신경망의 학습 방식은 크게, 지도 학습, 비 지도 학습, 준 지도 학습(Semi-Supervised Learning), 강화 학습(Reinforcement Learning)으로 분류될 수 있다.
지도 학습은 훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습의 한 방법이다.
그리고 이렇게 유추되는 함수 중, 연속적인 값을 출력하는 것을 회귀분석(Regression)이라 하고, 입력 벡터의 클래스(class)를 예측하여 출력하는 것을 분류(Classification)라고 할 수 있다.
지도 학습에서는, 훈련 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시킨다.
여기서 레이블이란, 훈련 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과 값)을 의미할 수 있다.
본 명세서에서는 훈련 데이터가 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과값)을 레이블 또는 레이블링 데이터(labeling data)이라 명칭 한다.
또한 본 명세서에서는, 인공 신경망의 학습을 위하여 훈련 데이터에 레이블을 설정하는 것을, 훈련 데이터에 레이블링 데이터를 레이블링(labeling) 한다고 명칭 한다.
이 경우 훈련 데이터와 훈련 데이터에 대응하는 레이블)은 하나의 트레이닝 셋(training set)을 구성하고, 인공 신경망에는 트레이닝 셋의 형태로 입력될 수 있다.
한편 훈련 데이터는 복수의 특징(feature)을 나타내고, 훈련 데이터에 레이블이 레이블링 된다는 것은 훈련 데이터가 나타내는 특징에 레이블이 달린다는 것을 의미할 수 있다. 이 경우 훈련 데이터는 입력 객체의 특징을 벡터 형태로 나타낼 수 있다.
인공 신경망은 훈련 데이터와 레이블링 데이터를 이용하여, 훈련 데이터와 레이블링 데이터의 연관 관계에 대한 함수를 유추할 수 있다. 그리고, 인공 신경망에서 유추된 함수에 대한 평가를 통해 인공 신경망의 파라미터가 결정(최적화)될 수 있다.
비 지도 학습은 기계 학습의 일종으로, 훈련 데이터에 대한 레이블이 주어지지 않는다.
구체적으로, 비 지도 학습은, 훈련 데이터 및 훈련 데이터에 대응하는 레이블의 연관 관계 보다는, 훈련 데이터 자체에서 패턴을 찾아 분류하도록 인공 신경망을 학습시키는 학습 방법일 수 있다.
비 지도 학습의 예로는, 군집화 또는 독립 성분 분석(Independent Component Analysis)을 들 수 있다.
본 명세서에서 용어 '군집화'는 용어 '클러스터링'과 혼용되어 사용될 수 있다.
비지도 학습을 이용하는 인공 신경망의 일례로 생성적 적대 신경망(GAN: Generative Adversarial Network), 오토 인코더(AE: Autoencoder)를 들 수 있다.
생성적 적대 신경망이란, 생성기(generator)와 판별기(discriminator), 두 개의 서로 다른 인공지능이 경쟁하며 성능을 개선하는 머신 러닝 방법이다.
이 경우 생성기는 새로운 데이터를 창조하는 모형으로, 원본 데이터를 기반으로 새로운 데이터를 생성할 수 있다.
또한 판별기는 데이터의 패턴을 인식하는 모형으로, 입력된 데이터가 원본 데이터인지 또는 생성기에서 생성한 새로운 데이터인지 여부를 감별하는 역할을 수행할 수 있다.
그리고 생성기는 판별기를 속이지 못한 데이터를 입력 받아 학습하며, 판별기는 생성기로부터 속은 데이터를 입력 받아 학습할 수 있다. 이에 따라 생성기는 판별기를 최대한 잘 속이도록 진화할 수 있고, 판별기는 원본 데이터와 생성기에 의해 생성된 데이터를 잘 구분하도록 진화할 수 있다.
오토 인코더는 입력 자체를 출력으로 재현하는 것을 목표로 하는 신경망이다.
오토 인코더는 입력층, 적어도 하나의 은닉층 및 출력층을 포함한다.
이 경우 은닉 계층의 노드 수가 입력 계층의 노드 수보다 적으므로 데이터의 차원이 줄어들게 되며, 이에 따라 압축 또는 인코딩이 수행되게 된다.
또한 은닉 계층에서 출력한 데이터는 출력 계층으로 들어간다. 이 경우 출력 계층의 노드 수는 은닉 계층의 노드 수보다 많으므로, 데이터의 차원이 늘어나게 되며, 이에 따라 압축 해제 또는 디코딩이 수행되게 된다.
한편 오토 인코더는 학습을 통해 뉴런의 연결 강도를 조절함으로써 입력 데이터가 은닉층 데이터로 표현된다. 은닉층에서는 입력층보다 적은 수의 뉴런으로 정보를 표현하는데 입력 데이터를 출력으로 재현할 수 있다는 것은, 은닉층이 입력 데이터로부터 숨은 패턴을 발견하여 표현했다는 것을 의미할 수 있다.
준 지도 학습은 기계 학습의 일종으로, 레이블이 주어진 훈련 데이터와 레이블이 주어지지 않은 훈련 데이터를 모두 사용하는 학습 방법을 의미할 수 있다.
준 지도 학습의 기법 중 하나로, 레이블이 주어지지 않은 훈련 데이터의 레이블을 추론한 후 추론된 라벨을 이용하여 학습을 수행하는 기법이 있으며, 이러한 기법은 레이블링에 소요되는 비용이 큰 경우에 유용하게 사용될 수 있다.
강화 학습은, 에이전트(Agent)가 매 순간 어떤 행동을 해야 좋을지 판단할 수 있는 환경이 주어진다면, 데이터 없이 경험으로 가장 좋을 길을 찾을 수 있다는 이론이다.
강화 학습은 주로 마르코프 결정 과정(MDP: Markov Decision Process)에 의하여 수행될 수 있다.
마르코프 결정 과정을 설명하면, 첫 번째로 에이전트가 다음 행동을 하기 위해 필요한 정보들이 구성된 환경이 주어지며, 두 번째로 그 환경에서 에이전트가 어떻게 행동할지 정의하고, 세 번째로 에이전트가 무엇을 잘하면 보상(reward)를 주고 무엇을 못하면 벌점(penalty)을 줄지 정의하며, 네 번째로 미래의 보상이 최고점에 이를 때까지 반복 경험하여 최적의 정책(policy)을 도출하게 된다.
인공 신경망은 모델의 구성, 활성 함수(Activation Function), 손실 함수(Loss Function) 또는 비용 함수(Cost Function), 학습 알고리즘, 최적화 알고리즘 등에 의해 그 구조가 특정되며, 학습 전에 하이퍼파라미터(Hyperparameter)가 미리 설정되고, 이후에 학습을 통해 모델 파라미터(Model Parameter)가 설정되어 내용이 특정될 수 있다.
예컨대, 인공 신경망의 구조를 결정하는 요소에는 은닉층의 개수, 각 은닉층에 포함된 은닉 노드의 개수, 입력 특징 벡터(Input Feature Vector), 대상 특징 벡터(Target Feature Vector) 등이 포함될 수 있다.
하이퍼파라미터는 모델 파라미터의 초기값 등과 같이 학습을 위하여 초기에 설정하여야 하는 여러 파라미터들을 포함한다. 그리고, 모델 파라미터는 학습을 통하여 결정하고자 하는 여러 파라미터들을 포함한다.
예컨대, 하이퍼파라미터에는 노드 간 가중치 초기값, 노드 간 편향 초기값, 미니 배치(Mini-batch) 크기, 학습 반복 횟수, 학습률(Learning Rate) 등이 포함될 수 있다. 그리고, 모델 파라미터에는 노드 간 가중치, 노드 간 편향 등이 포함될 수 있다.
손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표(기준)로 이용될 수 있다. 인공 신경망에서 학습은 손실 함수를 줄이기 위하여 모델 파라미터들을 조작하는 과정을 의미하며, 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다.
손실 함수는 주로 평균 제곱 오차(MSE: Mean Squared Error) 또는 교차 엔트로피 오차(CEE, Cross Entropy Error)를 사용할 수 있으며, 본 개시가 이에 한정되지는 않는다.
교차 엔트로피 오차는 정답 레이블이 원 핫 인코딩(one-hot encoding)된 경우에 사용될 수 있다. 원 핫 인코딩은 정답에 해당하는 뉴런에 대하여만 정답 레이블 값을 1로, 정답이 아닌 뉴런은 정답 레이블 값이 0으로 설정하는 인코딩 방법이다.
머신 러닝 또는 딥 러닝에서는 손실 함수를 최소화하기 위하여 학습 최적화 알고리즘을 이용할 수 있으며, 학습 최적화 알고리즘에는 경사 하강법(GD: Gradient Descent), 확률적 경사 하강법(SGD: Stochastic Gradient Descent), 모멘텀(Momentum), NAG(Nesterov Accelerate Gradient), Adagrad, AdaDelta, RMSProp, Adam, Nadam 등이 있다.
경사 하강법은 현재 상태에서 손실 함수의 기울기를 고려하여 손실 함수값을 줄이는 방향으로 모델 파라미터를 조정하는 기법이다.
모델 파라미터를 조정하는 방향은 스텝(step) 방향, 조정하는 크기는 스텝 사이즈(size)라고 칭한다.
이때, 스텝 사이즈는 학습률을 의미할 수 있다.
경사 하강법은 손실 함수를 각 모델 파라미터들로 편미분하여 기울기를 획득하고, 모델 파라미터들을 획득한 기울기 방향으로 학습률만큼 변경하여 갱신할 수 있다.
확률적 경사 하강법은 학습 데이터를 미니 배치로 나누고, 각 미니 배치마다 경사 하강법을 수행하여 경사 하강의 빈도를 높인 기법이다.
Adagrad, AdaDelta 및 RMSProp는 SGD에서 스텝 사이즈를 조절하여 최적화 정확도를 높이는 기법이다. SGD에서 모멘텀 및 NAG는 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Adam은 모멘텀과 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Nadam은 NAG와 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다.
인공 신경망의 학습 속도와 정확도는 인공 신경망의 구조와 학습 최적화 알고리즘의 종류뿐만 아니라, 하이퍼파라미터에 크게 좌우되는 특징이 있다. 따라서, 좋은 학습 모델을 획득하기 위하여는 적당한 인공 신경망의 구조와 학습 알고리즘을 결정하는 것뿐만 아니라, 적당한 하이퍼파라미터를 설정하는 것이 중요하다.
통상적으로 하이퍼파라미터는 실험적으로 다양한 값으로 설정해가며 인공 신경망을 학습시켜보고, 학습 결과 안정적인 학습 속도와 정확도를 제공하는 최적의 값으로 설정한다.
상술된 바와 같은 인공 지능 기술이 적용된 음성 처리 신경망 모델들(130)은 먼저 트레이닝 연산 시스템(300)에 의해 트레이닝 단계를 거쳐 생성될 수 있고, 서버 연산 시스템(200)에 저장되거나 네트워크(400)를 통해 사용자 단말기(100)로 전송된 것일 수 있다.
음성 처리 신경망 모델들(130)은 음성 인식, 자연어 처리 및 음성 통역을 위한 신경망 모델을 포함할 수 있으며, 음성 인식 신경망 모델은 음성을 텍스트로 변환하도록 훈련된 학습 모델일 수 있고, 자연어 처리 신경망 모델은 텍스트를 분석하여 의미를 파악하고 의미에 따른 응답을 생성하도록 훈련된 학습 모델일 수 있다. 음성 통역 신경망 모델은 다양한 언어의 음성을 기준어의 음성으로 변환하도록 훈련된 학습 모델일 수 있다.
통상적으로 음성 처리 신경망 모델들(130)은 트레이닝 연산 시스템(300)에서 트레이닝 단계를 마치고 적용할 수 있는 상태로 사용자 단말기(100)에 저장되어 있을 수 있으나, 일부 실시예에서 음성 처리 신경망 모델들(130)은 사용자 단말기(100)에서도 추가적으로 트레이닝을 거쳐 업데이트 또는 업그레이드될 수도 있다.
한편, 사용자 단말기(100)에 저장되는 음성 처리 신경망 모델들(130)은 트레이닝 연산 시스템(300)에서 생성된 음성 처리 신경망 모델들(130) 중 일부일 수 있으며, 필요에 따라, 새로운 음성 처리 신경망 모델들이 트레이닝 연산 시스템(300)에서 생성되어 사용자 단말기(100)로 전달될 수 있다.
다른 예로서, 음성 처리 신경망 모델들(130)은 사용자 단말기(100)에 저장되는 대신 서버 연산 시스템(200)에 저장되고, 웹 서비스의 형태로 사용자 단말기(100)에 필요한 기능을 제공할 수도 있다.
서버 연산 시스템(200)은 프로세서들(210) 및 메모리(220)를 포함하며, 일반적으로 사용자 단말기(100)보다 큰 프로세싱 능력 및 큰 메모리 용량을 가질 수 있다. 따라서, 시스템 구현에 따라, 적용에 보다 많은 프로세싱 능력을 필요로 하는 무거운 음성 처리 신경망 모델들(230)은 서버 연산 시스템(200)에 저장되고, 적용에 보다 적은 프로세싱 능력을 필요로 하는 경량의 음성 처리 신경망 모델들(130)은 사용자 단말기(100)에 저장되도록 구성될 수도 있다.
사용자 단말기(100) 또는 서버 연산 시스템(200)이 포함하는 음성 처리 신경망 모델들(130, 230)은 트레이닝 연산 시스템(300)에 의해 생성된 신경망 모델일 수 있다.
도 4는 본 개시의 실시예에 따른 다국어 음성 통역을 위한 신경망 모델을 생성하기 위한 시스템을 도시한다.
트레이닝 연산 시스템(300)은 하나 이상의 프로세서들(310)과 메모리(320)를 포함할 수 있다. 또한, 트레이닝 연산 시스템(300)은 기계 학습 모델들을 트레이닝하기 위한 모델 트레이너(350) 및 트레이닝 데이터(360)를 포함할 수 있다.
트레이닝 연산 시스템(300)은 모델 트레이너(350)를 통해 트레이닝 데이터(360)에 기초하여 다수의 음성 처리 신경망 모델들을 생성할 수 있다.
트레이닝 데이터(360)가 한국어 텍스트와 해당 텍스트의 한국어 음성 데이터를 레이블로 포함하는 데이터 세트인 경우 트레이닝 연산 시스템(300)은 한국어 텍스트를 한국어 음성으로 변환할 수 있는 텍스트-음성 변환 신경망 모델을 생성할 수 있다.
또한, 트레이닝 데이터(360)가 한국어 음성 데이터와 해당 음성의 한국어 텍스트를 레이블로 포함하는 데이터 세트인 경우 트레이닝 연산 시스템(300)은 한국어 음성을 한국어 텍스트로 변환할 수 있는 음성-텍스트 변환 신경망 모델을 생성할 수 있다.
한편, 트레이닝 데이터(360)가 영어 음성 데이터와 해당 음성의 한국어 음성 데이터를 레이블로 포함하는 데이터 세트인 경우 트레이닝 연산 시스템(300)은 영어 음성을 한국어 음성으로 변환할 수 있는 영-한 통역 신경망 모델을 생성할 수 있다.
또한, 트레이닝 데이터(360)가 한국어 음성 데이터와 해당 음성의 영어 음성 데이터를 레이블로 포함하는 데이터 세트인 경우 트레이닝 연산 시스템(300)은 한국어 음성을 영어 음성으로 변환할 수 있는 한-영 통역 신경망 모델을 생성할 수 있다.
여기서, 음성-텍스트 변환 신경망 모델, 텍스트-음성 변환 신경망 모델, 및 통역 신경망 모델은 서로 다른 구조로 초기 설계된 신경망 모델을 훈련시켜서 생성되는 학습 모델일 수 있다.
더 나아가, 트레이닝 연산 시스템(300)은 다양한 언어들에 대해 동일한 방식의 트레이닝을 수행할 수 있으며, 다양한 언어들 간의 통역 또는 텍스트, 음성 변환을 수행할 수 있는 신경망 모델을 생성할 수 있다.
위와 같은 방식으로 트레이닝 연산 시스템(300)은 다양한 언어의 음성 통역 심층 신경망 그룹을 생성할 수 있다. 이러한 음성 통역 심층 신경망 그룹은 영-한 통역을 위한 심층 신경망 모델, 일-한 통역을 위한 심층 신경망 모델 등 특정 언어들간의 통역을 위한 심층 신경망 모델들을 포함할 수 있다.
여기서, 심층 신경망 모델들의 구조적 특성은 입력 노드의 개수, 피쳐의 개수, 채널의 개수와 은닉층의 개수 등에 의해 결정되는 것으로 피쳐의 개수가 많을수록, 채널의 개수가 많을수록, 그리고 은닉층의 개수가 많을수록 복잡도가 높은 것으로 이해될 수 있다. 또한, 채널의 수가 많을수록, 그리고 은닉층의 수가 많을수록 신경망이 무거운 것으로 지칭될 수도 있다. 또한, 신경망의 복잡도는 신경망의 차원수(dimensionality)라고 지칭될 수도 있다.
도 5는 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치의 블럭도이다.
다국어 커뮤니케이션 수행 장치(100)는 하나 이상의 프로세서들(110), 메모리(120), 사용자 인터페이스(140), 센싱부(150), 전원공급부(160), 이동부(170) 및 통신부(180)를 포함할 수 있다.
프로세서들(110)은 메모리(120)에 저장된 명령어에 따라 다양한 데이터 처리 동작을 수행할 수 있으며, 다국어 커뮤니케이션 수행 장치(100)의 다양한 컴포넌트들과 통신할 수 있다.
메모리(120)는 프로세서에 의해 실행되는 명령어들을 저장할 수 있고, 상술된 신경망 모델들 및 각족 알고리즘을 저장할 수 있다.
사용자 인터페이스(140)는 디스플레이부(141) 및 스피커(143)를 포함할 수 있으며, 디스플레이부(141)를 통해 각종 정보를 이미지로 표현할 수도 있고, 스피커(143)를 통해 각종 정보를 음성으로 출력할 수도 있다.
센싱부(150)는 카메라(151) 및 마이크(153)를 포함할 수 있으며, 카메라(151)는 주변 환경 및 발화자 등의 이미지를 촬영할 수 있고, 마이크(153)는 주변 소음 및 발화자의 음성을 수집할 수 있다.
카메라(151)는 다국어 커뮤니케이션 수행 장치(100)가 수신된 발화 언어를 식별하는 기능을 보조할 수 있다. 음성 분석 이외에도 카메라(151)를 통해 촬영된 발화자의 영상을 통해 발화자가 사용할 것으로 예측되는 후보 언어들이 선정될 수 있다.
예를 들어, 발화자 영상 분석을 통해 발화자의 인종이 인도인으로 판단되면, 발화자가 사용할 것으로 예측되는 후보 언어는 영어 및 인도어로 결정될 수 있다. 이러한 후보 언어의 결정은 인종별로 미리 설정되어 있을 수 있다.
또 다른 실시예에서는, 다국어 커뮤니케이션 수행 장치(100)에서 다국어 커뮤니케이션을 수행하면서 촬영한 발화자의 영상과 식별된 음성 데이터를 기준으로 발화자 영상 분석에 의한 후보 언어 결정 모델이 생성될 수도 있다.
상술된 바와 같이 다국어 커뮤니케이션 수행 장치(100)의 프로세서가 발화자의 후보 언어를 영어 및 인도어로 한정하였다면, 프로세서는 수신된 발화의 언어가 영어 또는 인도어인지를 분석하고 분석에 기초하여 수신된 발화의 언어를 결정하도록 구성될 수 있고, 이에 따라 언어 식별이 보다 정확하게 그리고 효율적으로 이루어질 수 있다.
또한, 카메라(151)로 촬영된 발화자의 영상은 응답 메세지를 출력하는 과정에서도 이용될 수 있다. 예를 들어, 응답 메세지의 출력시 발화자에 대한 영상을 분석하여 발화자의 성별 또는 연령에 따라 출력되는 음성을 결정할 수 있다.
다국어 커뮤니케이션 수행 장치(100)의 프로세서는 촬영된 발화자의 영상을 분석하여 발화자가 노인이거나 아이라면 출력되는 음성의 속도를 조금 더 느리게 설정할 수도 있고, 남성이라면 남성의 목소리로, 여성이라면 여성의 목소리로 음성을 생성하도록 설정할 수도 있다.
전원공급부(160)는 다국어 커뮤니케이션 수행 장치(100)가 동작할 수 있도록 전원을 공급하는 기능을 수행한다. 전원공급부(160)는 자체 배터리로부터 또는 외부 전원과 연결되어 전원을 공급할 수 있다.
이동부(170)는 다국어 커뮤니케이션 수행 장치(100) 또는 다국어 커뮤니케이션 수행 장치(100)가 설치된 장비를 이동시키기 위한 기능을 수행할 수 있다.
본 발명의 실시예에 따른 다국어 커뮤니케이션을 수행하기 위한 컴퓨터 프로그램이 프로세서들(110)에 의해 실행될 수 있다. 컴퓨터 프로그램은 프로세스로 하여금 사용자 또는 발화자로부터 발화된 언어를 수신하고, 수신된 발화의 언어를 식별하고, 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하도록 할 수 있다.
여기서, 기준어는 미리 설정된 언어일 수 있으며, 다국어 커뮤니케이션 수행 장치가 사용되는 환경을 고려하여 미리 결정될 수 있다. 예를 들어, 다국어 커뮤니케이션 수행 장치가 사용되는 곳이 영국의 공항이라면, 영어가 가장 많이 사용되는 언어일 확률이 높으므로, 기준어는 영어로 설정될 수 있다.
수신된 발화의 언어를 식별하기 위한 방법은 다양하게 존재하며, 예를 들어, Apache OpenNLP, Apache Tika 등이 사용될 수 있다. 이외의 머신 러닝 기반 프로그램들이 수신된 발화의 언어를 식별하기 위해 사용될 수 있음은 물론이다.
식별된 언어가 미리 설정된 기준어와 일치하지 않는 경우, 프로세서는 식별된 언어를 기준어로 통역하는 제 1 통역 모델을 수신된 발화에 적용할 수 있다. 제 1 통역 모델은 신경망 기계통역 기술을 이용한 신경망 모델일 수 있다. 제 1 통역 모델은 다양한 언어들을 기준어로 통역하기 위해 미리 훈련된 모델들 중 하나일 수 있다. 특히, 제 1 통역 모델은 식별된 언어를 기준어로 통역하기 위해 미리 훈련된 심층 신경망 모델일 수 있다. 예를 들어, 수신된 발화의 언어가 한국어였다면, 제 1 통역 모델은 한-영 통역을 위한 심층 신경망 모델일 수 있다.
프로세서는 제 1 통역 모델의 적용 결과로서 기준어로 된 제 1 음성 데이터를 출력할 수 있다. 기준어가 영어인 경우 제 1 음성 데이터는 수신된 발화에 대응하는 영어로 된 음성 데이터일 수 있다.
식별된 언어가 미리 설정된 기준어와 일치한다면, 프로세서는 통역 모델을 적용하는 단계는 생략할 수 있고, 수신된 발화의 음성 데이터를 바로 텍스트화 할 수 있다.
예를 들어, 기준어인 영어로 된 제 1 음성 데이터는 STT(Speech to Text) 알고리즘을 통해 영어 텍스트로 변경될 수 있다.
프로세서는 텍스트로 변경된 발화자의 명령에 자연어 처리를 수행하여 명령의 의미를 분석하고, 이를 통해 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성할 수 있다.
예를 들어, 발화자의 음성 명령이 "대형 수화물을 체크인 할 장소는 어디지?"였다면, 프로세서는 이를 텍스트화 하고, 자연어 처리를 통해 그 의미를 이해하여 "대형 수화물은 H번 게이트 오른쪽에 있습니다"라는 응답을 생성할 수 있다.
예를 들어, 상술된 응답은 기준어인 영어로 된 텍스트로 생성될 수 있다. 텍스트로 생성된 응답은 영어용 TTS(Text to Speech) 알고리즘을 통해 영어 응답 음성 메세지로 변환될 수 있다.
상술된 예에서 발화자가 한국어 사용자라면, 영어 응답 음성 메세지는 한국어 응답 음성 메세지로 변환될 필요가 있다. 이를 위해서는 영-한 통역 심층 신경망 모델이 사용될 수 있다.
프로세서는 식별되었던 발화의 언어에 따라 적합한 통역 심층 신경망 모델을 채택하고, 기준어로 생성된 응답 음성 메세지를 발화자를 위한 언어로 생성된 응답 음성 메세지로 변환할 수 있다.
상술된 과정을 통해 다국어 커뮤니케이션 수행 장치(100)는 한 언어의 음성 처리기를 구비하고도 다양한 언어로 사용자와 인터랙션할 수 있는 능력을 달성할 수 있게 된다.
한편, 다국어 커뮤니케이션 수행 장치(100)는 장치가 설치된 위치에 대한 정보를 예를 들어, GPS 등을 이용해 취득할 수 있다. 또한, 다국어 커뮤니케이션 수행 장치(100)는 통신부(180)를 통해 외부 서버와 통신하여 해당 위치에 대응하는 지역의 인구통계학적 정보를 수신할 수 있다.
예를 들어, 다국어 커뮤니케이션 수행 장치(100)가 LA의 코리안 타운에 설치되어 있다면, 다국어 커뮤니케이션 수행 장치(100)는 LA 코리안 타운의 인구통계학적 정보를 수신하고, 한국어 사용자가 많다는 정보를 획득할 수 있다.
이러한 정보에 기초하여, 다국어 커뮤니케이션 수행 장치(100)의 프로세서는 해당 지역에서 가장 많이 사용되는 언어를 결정할 수 있다. 해당 지역에서 가장 많이 사용되는 언어가 한국어라면 다국어 커뮤니케이션 수행 장치(100)의 프로세서는 한국어를 기준어로 설정하고, 다국어 커뮤니케이션 수행 장치(100)에서 한국어를 위한 음성 인식기, 자연어 처리 모듈, 음성 합성기가 동작하도록 설정할 수 있다.
일부 실시예에서, 음성 인식기, 자연어 처리 모듈, 음성 합성기는 하나 이상의 프로세서에 대응할 수 있다. 또 다른 실시예에서, 음성 인식기, 자연어 처리 모듈, 음성 합성기는 하나 이상의 프로세서에 의해 실행되도록 구성된 소프트웨어 컴포넌트들에 대응할 수 있다.
한편, 다국어 커뮤니케이션 수행 장치(100)가 사용할 수 있는 기준어가 한정되는 경우가 있을 수 있다. 예를 들어, 다국어 커뮤니케이션 수행 장치(100)가 몽골에 설치되어 있으나, 다국어 커뮤니케이션 수행 장치(100)가 사용가능한 통역 신경망 모델에서 영어-한국어, 한국어-영어 통역 모델은 존재하나 영어-몽골어, 몽골어-영어 통역 모델은 준비되어 있지 않다고 가정하자.
다국어 커뮤니케이션 수행 장치(100)의 프로세서는 인구통계학적 정보에 따라 해당 지역에서 가장 많이 사용되는 언어가 몽골어라고 결정할 수 있다. 다국어 커뮤니케이션 수행 장치(100)의 프로세서는 미리 준비된 기준어 그룹에서 몽골어가 선택가능한지 판단할 수 있다.
다국어 커뮤니케이션 수행 장치(100)에 몽골어로의 통역 모델이 존재하지 않으므로, 몽골어가 선택가능하지 않다는 것이 판단될 수 있다. 특정 언어가 기준어로 채택가능한지는 해당 언어를 사용하는 통역 모델이 존재하는지를 기준으로 결정될 수도 있다.
다국어 커뮤니케이션 수행 장치(100)의 프로세서가 몽골어가 채택가능한 기준어 그룹에 존재하지 않는다고 판단하면, 대안으로서, 가장 많이 사용되는 언어인 몽골어와 동일한 어족에 속하는 언어를 기준어로 택할 수 있다.
몽골어는 알타이 어족에 속하고, 알타이 어족에는 한국어가 있으며, 한국어를 사용하는 통역 모델이 존재하므로, 다국어 커뮤니케이션 수행 장치(100)의 프로세서는 몽골어 대신 한국어를 기준어로 설정할 수 있다.
상술된 바와 같은 기준어 설정은 발화를 수신하는 상황 이전에, 또는 다국어 커뮤니케이션 수행 장치(100)가 사용환경에 놓이기 전에 이루어질 수 있다.
도 6은 언어별 음성 처리 모듈이 필요한 장치를 설명하기 위한 도면이다.
도 6에서 도시된 다국어 처리 장치(1000)는 언어별 음성 인식기(10a, 10b, 10c, 10d, 10e), 언어별 자연어 처리 모듈(20a, 20b, 20c, 20d, 20e) 및 언어별 음성 합성기(30a, 30b, 30c, 30d, 30e)를 포함할 수 있다.
예를 들어, 다국어 처리 장치(1000)에 "날씨 어때?" 라는 음성이 입력되면 다국어 처리 장치(1000)는 입력된 음성을 분석하여 사용된 언어를 한국어로 식별하고 한국어용 음성 인식기(10a)로 "날씨 어때?"라는 음성을 텍스트로 변환한다.
텍스트로 변환된 "날씨 어때?"는 한국어용 자연어 처리 모듈(20a)에서 의미가 분석되어 날씨에 대한 문의임이 이해되고 그에 대한 응답으로 "말겠습니다"라는 문장이 텍스트로 생성된다.
"맑겠습니다"라는 텍스트는 한국어용 언어별 음성 합성기(30a)에서 한국어 음성으로 "맑겠습니다"라는 음성 데이터로 변환되고, 다국어 처리 장치(1000)에 의해 출력되어 사용자는 본인이 문의한 "날씨 어때?"에 대한 응답을 수신할 수 있다.
다국어 처리 장치(1000)의 사용자가 영어로 "How's weather?" 라고 문의한다면 영어용 음성 인식기(10b), 영어용 자연어 처리 모듈(20b), 영어용 음성 합성기(30e)를 통과하며 동일한 과정이 반복된다.
즉, 도 6의 다국어 처리 장치(1000)에서는 언어마다 음성 인식기, 자연어 처리 모듈, 및 음성 합성기를 각각 갖추어야 해당 언어에 대한 응답이 가능해지게 된다.
도 7은 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치를 설명하기 위한 도면이다.
도 6의 다국어 커뮤니케이션 수행 장치(2000)는 도 6의 다국어 처리 장치(1000)와는 달리, 하나의 언어인 기준어를 위한 음성 인식기(10a), 자연어 처리 모듈(20a), 음성 합성기(30a)를 포함하고, 이에 더하여 언어별 기계통역기(50a, 50b, 50c, 50d, 50e)를 포함할 수 있다. 여기서는, 다국어 커뮤니케이션 수행 장치(2000)의 기준어는 한국어라고 가정하겠다.
다국어 커뮤니케이션 수행 장치(2000)가 발화자의 "How's weather?"라는 음성 문의를 수신하면, 먼저 "How's weather?"의 언어를 영어로 판단하고, 영-한 기계통역기(50a)를 통해 "How's weather?"를 "날씨 어때?"라는 한국어 음성으로 변환한다.
변환된 "날씨 어때?"라는 한국어 음성은 음성 인식기(10a)에서 "날씨 어때?"라는 한글 텍스트로 변경되고, 자연어 처리 모듈(20a)에서 의미가 분석되어 "맑겠습니다"라는 응답이 생성될 수 있다.
여기서, 사용되는 자연어 처리 모듈(20a)은 인공지능 기반 자연어 처리 모듈일 수 있으며, Natural Language Toolkit, SpaCy, OpenNLP, Retext, CogCompNLP 등 다양한 방식이 사용될 수 있다.
"맑겠습니다"라는 텍스트는 음성 합성기(30a)에서 "맑겠습니다"라는 한국어 음성으로 변환되고, "맑겠습니다"라는 음성은 한-영 기계통역기를 통해 "Sky's clear"라는 영어 음성으로 변환될 수 있다.
한편, 다국어 커뮤니케이션 수행 장치(2000)는 수신된 발화의 언어를 식별한 후, 식별된 언어가 미리 설정된 기준어(예를 들어, 한국어)와 일치하는지 판단하는 과정을 추가로 수행할 수 있고, 입력되는 언어가 기준어인 한국어였다면 위의 과정에서 기계통역기가 개입되는 과정은 생략될 수 있다.
상술된 바와 같이 기계통역기과 프로세스의 전단과 말단에 배치됨으로써, 하나의 언어용으로 생성된 음성 인식기, 자연어 처리 모듈, 음성 합성기만을 구비하고도 다국어 커뮤니케이션이 가능한 장치가 제공될 수 있다.
도 8은 본 개시의 실시예에 따른 다국어 음성 통역을 위한 신경망 모델을 생성하기 위한 과정을 설명하기 위한 도면이다.
도 8은 언어들간의 통역 모델을 생성하기 위한 학습 단계에서 이루어지는 과정을 보여주는 것으로, 지도학습의 경우에 대해 도시하고 있다.
초기 신경망 모델의 구축되면, 개발자는 (날씨 어때, How's weather), (맑겠습니다, It's fine)과 같이 한국어와 그에 대응하는 영어 표현이 페어링된 훈련 데이터를 준비할 수 있다.
이를 통해 한국어용 인코더(51)에 "날씨 어때?"가 입력되고, 영어용 인코더(57)에 "How's weather?"가 입력되면, 인코더들을 통해 출력된 데이터가 학습 모듈(53)로 입력되어 한국어-영어 통역 모델(55a) 및 영어-한국어 통역 모델(55b)이 생성되게 된다.
유용한 통역 모델들을 생성하기 위해서는 많은 양의 훈련 데이터가 필요하고, 위와 같은 방식의 지도 학습을 거치게 되면, 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치(2000)에서 사용될 수 있는 한-영 통역 모델 및 영-한 통역 모델이 생성되게 된다.
위와 같은 방식에서 학습 음원을 한국어와 일본어로 한다면 한-일 통역 모델, 일-한 통역 모델이 생성되고, 학습 음원을 한국어 중국어로 한다면 한-중 통역 모델, 중-한 통역 모델이 생성될 수 있다.
도 9는 본 개시의 실시예에 따른 다국어 음성 통역을 위해 생성된 신경망 모델을 적용하는 과정을 설명하기 위한 도면이다.
도 9는 도 8에서 생성된 통역 모델이 적용 단계에서 활용되는 과정으로서, 기계통역기에서 수행되는 과정을 설명하며, 도 9의 예시에서는 기준어가 영어로 설정되었다. 또한, 도 9에서는 seq2seq 모델의 번역기의 방식을 예로 들어 설명하고 있다.
완성된 한국어-영어 통역 모델(55a)이 준비된 상태에서, "날씨 어때?"라는 음성이 입력되면 한국어용 인코더에서는 수신된 음성을 벡터화할 수 있으며, 사용될 수 있는 인코더의 예로는 voice2vec, word2vec 등이 있을 수 있다.
벡터화된 음성은 Attention 모델(59)과 한-영 통역 신경망 모델(55a)을 이용하여 목표 언어로 통역되고, 영어용 디코더(58)를 거쳐 영어 음성의 "How's weather?"로 출력되게 된다.
또한, 도 7에서 도시된 바와 같이 자연어 처리 및 음성 합성을 거쳐 "It's fine"이라는 응답 음성이 생성되면 영어용 인코더(57)로 입력되어 벡터화를 거치고, Attention 모델(59)과 영-한 통역 신경망 모델(55b)을 통해 목표 언어로 통역되고, 한국어 디코더(52)를 거쳐 한국어 음성의 "맑겠습니다"로 출력되게 된다.
도 10은 본 개시의 실시예에 따른 다국어 음성 통역을 위해 생성된 신경망 모델을 설명하기 위한 도면이다.
도 10은 도 8에서의 학습 단계를 통해 훈련된 통역 신경망 모델의 구조를 예시적으로 도시하는 것으로, 훈련이 완료된 한-영 통역 신경망 모델에 "날씨 어때?"라는 한국어 음성이 입력되면, "How's weather?"라는 영어 음성이 출력될 수 있다.
신경망은 입력층과, 은닉층, 그리고 출력층으로 구성될 수 있다. 피처(feature)의 개수에 따라 입력 노드의 개수가 정해지게 되고, 노드의 개수가 많아질수록 신경망의 복잡도 또는 차원수는 증가하게 된다. 또한, 은닉층의 개수가 많아질수록 신경망의 복잡도 또는 차원수가 증가하게 된다.
피처의 개수, 입력 노드의 개수, 은닉층의 개수, 각 층들의 노드의 개수는 신경망 설계자에 의해 정해질 수 있으며, 복잡도가 증가할수록 처리 시간은 더 많이 소요되지만 더 좋은 성능을 보일 수 있다.
초기 신경망 구조가 설계되면, 훈련 데이터를 이용해 신경망을 훈련시킬 수 있다. 한-영 통역을 위한 신경망을 구현하기 위해서는 한국어 학습 음원과 그에 대응하는 영어 학습 음원이 필요하다.
다수의 한국어 학습 음원과 그에 대응하는 영어 학습 음원이 레이블로 포함된 훈련 데이터로 트레이닝된 학습 모델은 한국어가 입력되면 그에 대응하는 영어 음성을 제공할 수 있게 된다.
도 11은 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 방법의 순서도를 도시한다.
도 11의 예에서 기준어는 한국어로 설정되어 있는 것으로 가정하고, 입력되는 언어는 다양한 언어가 가능하지만 영어로 입력되는 것으로 가정한다.
다국어 커뮤니케이션 수행 장치(100)는 마이크를 통해 발화자로부터 음성 발화를 수신할 수 있다(S100). 예를 들어, 발화자는 "How's weather?"라고 다국어 커뮤니케이션 수행 장치(100)에 발화할 수 있다.
다국어 커뮤니케이션 수행 장치(100)는 수신된 "How's weather?"라는 음성이 어떤 언어로 된 발화인지 식별할 수 있다(S110). 이러한 식별은 언어별 음성 주파수의 특성, 발음의 특성 등의 언어별 특성을 기준으로 이루어질 수 있으며, 예를 들어, Apache OpenNLP, Apache Tika 등이 사용될 수 있다. 이외의 머신 러닝 기반 프로그램들이 수신된 발화의 언어를 식별하기 위해 사용될 수 있음은 물론이다.
다국어 커뮤니케이션 수행 장치(100)의 프로세서는 식별된 언어인 영어가 기준어인 한국어와 일치하지 않는다는 것을 판단할 수 있고(S120), 이에 따라, 영어를 한국어로 통역하기 위한 영-한 통역 모델을 수신된 발화에 적용할 수 있다(S130).
"How's weather"가 미리 훈련된 영-한 통역 모델에 입력되면 "날씨 어때?"라는 한국어 음성이 출력되고, 프로세서는 한국어로 출력되는 음성 데이터를 텍스트로 변환할 수 있다(S140).
음성 데이터의 텍스트 변환은 STT 알고리즘을 이용해 수행될 수 있다. 프로세서는 한국어용 자연어 처리 모델을 사용하여 한국어로 입력된 텍스트의 의미를 파악하고 "맑겠습니다"라는 응답 메세지의 텍스트를 한국어로 생성할 수 있다(S150).
여기서 자연어 처리는 다국어 커뮤니케이션 수행 장치(100) 내에서 수행될 수도 있고, 다국어 커뮤니케이션 수행 장치(100)가 텍스트를 보다 큰 프로세싱 능력을 가지는 자연어 처리를 위한 외부 서버로 전송하고, 외부 서버에서 자연어 처리가 수행되어 응답 메세지의 텍스트가 생성된 후 다국어 커뮤니케이션 수행 장치(100)로 전송될 수 있다.
프로세서는 "맑겠습니다"라는 텍스트에 대응하는 응답 음성 데이터를 생성할 수 있다(S160). 예를 들어, 한국어 텍스트 "맑겠습니다"는 TTS 알고리즘을 통해 한국어 음성 "맑겠습니다"로 변환될 수 있다.
발화자로부터 수신된 언어가 영어이고 기준어는 한국어였으므로, 초기 단계에서 식별된 언어가 기준어와 불일치하므로, 통역이 필요하게 된다(S170).
따라서, "맑겠습니다"가 미리 훈련된 한-영 통역 모델에 입력되고(S180) "It's fine"이라는 영어 응답 음성이 출력되게 된다(S190).
한편, 다국어 커뮤니케이션 수행 장치(100)는 발화가 수신되기 전, 또는 장치가 사용 환경에 놓이기 전에, 적합한 기준어를 설정하는 과정을 거칠 수 있다.
다국어 커뮤니케이션 수행 장치(100)의 프로세서는 장치가 설치된 위치에 대한 정보를 예를 들어, GPS 등을 이용해 취득하는 단계를 수행할 수 있다. 또한, 다국어 커뮤니케이션 수행 장치(100)는 통신부(180)를 통해 외부 서버와 통신하여 해당 위치에 대응하는 지역의 인구통계학적 정보를 수신할 수 있다.
예를 들어, 다국어 커뮤니케이션 수행 장치(100)가 몽골 울람바토르에 설치되어 있다면, 다국어 커뮤니케이션 수행 장치(100)는 몽골 울람바토르의 인구통계학적 정보를 수신하고, 몽골어 사용자가 많다는 정보를 획득할 수 있다.
이러한 정보에 기초하여, 다국어 커뮤니케이션 수행 장치(100)의 프로세서는 해당 지역에서 가장 많이 사용되는 언어로 몽골어를 결정할 수 있다.
다국어 커뮤니케이션 수행 장치(100)에 몽골어를 이용한 통역 모델이 저장되어 있고, 채택할 수 있는 기준어 그룹에 몽골어가 존재한다면 프로세서는 몽골어를 기준어로 선택할 수 있다.
그러나, 다국어 커뮤니케이션 수행 장치(100)가 사용가능한 통역 신경망 모델에 영어-한국어, 한국어-영어 통역 모델은 존재하나 영어-몽골어, 몽골어-영어 통역 모델은 포함되어 있지 않다면, 몽골어가 기준어로 선택가능하지 않다는 것이 판단될 수 있다. 이 경우, 한국어-몽골어 및 몽골어-한국어 통역 모델은 존재할 수 있다.
이러한 경우, 대안으로서, 가장 많이 사용되는 언어인 몽골어와 동일한 어족에 속하는 언어를 기준어로 택할 수 있다. 몽골어는 알타이 어족에 속하고, 알타이 어족에는 한국어가 있으며, 한국어를 사용하는 통역 모델이 존재하므로, 다국어 커뮤니케이션 수행 장치(100)의 프로세서는 몽골어 대신 한국어를 기준어로 설정할 수 있다.
한편, 어족(language family)으로는, 알타이 어족, 인도-유럽 어족, 중국-티베트 어족 등이 존재할 수 있으며, 각각의 어족에는 문법이나 발음 규칙이 유사한 언어들이 포함되어 있을 수 있다. 유사한 어족 간에는 통역 모델이 보다 정확도가 높을 수 있고, 변환 과정도 상대적으로 간단하게 수행될 수 있다.
이와 같은 방식으로, 본 개시의 실시예에 따른 다국어 커뮤니케이션 수행 장치(100)는 통역 모델이 없는 언어에 대해서도 기준어로 설정하여 음성 처리의 정확성 및 효율성을 높일 수 있다.
이상 설명된 본 개시에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 개시를 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 개시의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 개시에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
본 개시에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다. 본 개시에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 개시를 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 개시의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 개시의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 개시의 사상의 범주에 속한다고 할 것이다.

Claims (20)

  1. 다국어 커뮤니케이션을 수행하는 방법으로서,
    발화를 수신하는 단계;
    수신된 발화의 언어를 식별하는 단계;
    상기 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하는 단계;
    상기 식별된 언어가 상기 기준어와 일치하지 않는 경우, 상기 식별된 언어를 상기 기준어로 통역하는 제 1 통역 모델을 수신된 발화에 적용하는 단계;
    상기 제 1 통역 모델의 적용 결과로서 상기 기준어로 출력되는 제 1 음성 데이터를 텍스트로 변경하는 단계;
    상기 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성하는 단계; 및
    상기 응답 메세지를 출력하는 단계를 포함하는,
    다국어 커뮤니케이션 수행 방법.
  2. 제 1 항에 있어서,
    상기 응답 메세지를 생성하는 단계는,
    상기 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지의 텍스트를 기준어로 생성하는 단계; 및;
    상기 응답 메세지의 텍스트에 대응하는 제 2 음성 데이터를 생성하는 단계를 포함하는,
    다국어 커뮤니케이션 수행 방법.
     
  3. 제 2 항에 있어서,
    상기 응답 메세지를 출력하는 단계는,
    기준어를 상기 식별된 언어로 통역하는 제 2 통역 모델을 상기 제 2 음성 데이터에 적용하는 단계; 및
    상기 제 2 통역 모델의 적용 결과로서 상기 식별된 언어로 출력되는 제 3 음성 데이터를 출력하는 단계를 포함하는,
    다국어 커뮤니케이션 수행 방법.
     
  4. 제 1 항에 있어서,
    상기 제 1 통역 모델은,
    상기 식별된 언어로 발화된 음성 데이터와 이에 대응하는 기준어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델인,
    다국어 커뮤니케이션 수행 방법.
     
  5. 제 3 항에 있어서,
    상기 제 2 통역 모델은,
    상기 기준어로 발화된 음성 데이터와 이에 대응하는 상기 식별된 언어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델인,
    다국어 커뮤니케이션 수행 방법.
     
  6. 제 1 항에 있어서,
    상기 제 1 음성 데이터를 텍스트로 변경하는 단계는,
    기준어용 STT(Speech to Text) 알고리즘을 이용하여 상기 제 1 음성 데이터를 텍스트로 변환하는 단계를 포함하는,
    다국어 커뮤니케이션 수행 방법.
     
  7. 제 2 항에 있어서,
    상기 제 2 음성 데이터를 생성하는 단계는,
    기준어용 TTS(Text to Speech) 알고리즘을 이용하여 상기 응답 메세지의 텍스트를 상기 제 2 음성 데이터로 변환하는 단계를 포함하는,
    다국어 커뮤니케이션 수행 방법.
     
  8. 제 1 항에 있어서,
    상기 발화를 수신하는 단계 이전에,
    발화가 수신될 위치 정보를 취득하는 단계;
    상기 위치 정보에 대응하는 지역의 인구통계학적(demographic) 정보를 수신하는 단계; 및
    상기 인구통계학적 정보에 기초하여 가장 많이 사용되는 언어를 결정하는 단계를 더 포함하는,
    다국어 커뮤니케이션 수행 방법.
  9. 제 8 항에 있어서,
    상기 가장 많이 사용되는 언어를 결정하는 단계 이후에,
    상기 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는지 판단하는 단계; 및
    상기 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는 경우, 상기 가장 많이 사용되는 언어를 기준어로 설정하고, 상기 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하지 않는 경우, 상기 기준어 그룹에 존재하는 언어들 중 상기 가장 많이 사용되는 언어와 동일한 어족에 속하는 언어를 기준어로 설정하는 단계를 더 포함하는,
    다국어 커뮤니케이션 수행 방법.
  10. 제 1 항에 있어서,
    상기 발화의 발화자를 촬영하는 단계를 더 포함하고,
    수신된 발화의 언어를 식별하는 단계는,
    상기 발화자에 대한 영상 분석을 통해 발화자가 사용하는 후보 언어들을 판단하는 단계;
    상기 후보 언어들을 기준으로 상기 수신된 발화의 언어를 분석하는 단계; 및
    상기 분석을 기초로 상기 수신된 발화의 언어를 결정하는 단계를 포함하는,
    다국어 커뮤니케이션 수행 방법.
  11. 제 10 항에 있어서,
    상기 응답 메세지를 출력하는 단계는,
    상기 발화자에 대한 영상 분석을 통한 상기 발화자의 성별 또는 연령에 따라 상기 응답 메세지를 전달할 음성을 결정하는 단계; 및
    결정된 상기 음성으로 상기 응답 메세지를 출력하는 단계를 포함하는,
    다국어 커뮤니케이션 수행 방법.
  12. 다국어 커뮤니케이션을 수행하는 장치로서,
    발화를 수신하는 마이크;
    명령어가 저장된 메모리; 및
    상기 마이크 및 메모리와 연결된 하나 이상의 프로세서를 포함하고,
    상기 프로세서는,
    상기 마이크로부터 수신된 발화의 언어를 식별하고,
    상기 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하고,
    상기 식별된 언어가 상기 기준어와 일치하지 않는 경우, 상기 식별된 언어를 상기 기준어로 통역하는 제 1 통역 모델을 수신된 발화에 적용하고,
    상기 제 1 통역 모델의 적용 결과로서 상기 기준어로 출력되는 제 1 음성 데이터를 텍스트로 변경하고,
    상기 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성하도록 구성되는,
    다국어 커뮤니케이션 수행 장치.
  13. 제 12 항에 있어서,
    상기 프로세서는,
    상기 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지의 텍스트를 기준어로 생성하고,
    상기 응답 메세지의 텍스트에 대응하는 제 2 음성 데이터를 생성하도록 추가로 구성되는,
    다국어 커뮤니케이션 수행 장치.
     
  14. 제 13 항에 있어서,
    상기 프로세서는,
    상기 기준어를 상기 식별된 언어로 통역하는 제 2 통역 모델을 상기 제 2 음성 데이터에 적용하고,
    상기 제 2 통역 모델의 적용 결과로서 상기 식별된 언어로 출력되는 제 3 음성 데이터를 출력하도록 추가로 구성되는,
    다국어 커뮤니케이션 수행 장치.
     
  15. 제 14 항에 있어서,
    상기 메모리는 상기 제 1 통역 모델 및 상기 제 2 통역 모델을 저장하고,
    상기 제 1 통역 모델은,
    상기 식별된 언어로 발화된 음성 데이터와 이에 대응하는 기준어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델이고,
    상기 제 2 통역 모델은,
    상기 기준어로 발화된 음성 데이터와 이에 대응하는 상기 식별된 언어로 발화된 음성 데이터를 레이블로 포함하는 트레이닝 데이터를 이용하여 훈련된 신경망 모델인,
    다국어 커뮤니케이션 수행 장치.
     
  16. 제 12 항에 있어서,
    상기 프로세서는,
    상기 장치가 설치된 위치의 정보를 취득하고,
    상기 위치 정보에 대응하는 지역의 인구통계학적(demographic) 정보를 수신하고,
    상기 인구통계학적 정보에 기초하여 가장 많이 사용되는 언어를 결정하도록 추가로 구성되는,
    다국어 커뮤니케이션 수행 장치.
  17. 제 16 항에 있어서,
    상기 프로세서는,
    가장 많이 사용되는 언어를 결정한 이후에,
    상기 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는지 판단하고,
    상기 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하는 경우, 상기 가장 많이 사용되는 언어를 기준어로 설정하고, 상기 가장 많이 사용되는 언어가 채택가능한 기준어 그룹에 존재하지 않는 경우, 상기 기준어 그룹에 존재하는 언어들 중 상기 가장 많이 사용되는 언어와 동일한 어족에 속하는 언어를 기준어로 설정하도록 추가로 구성되는,
    다국어 커뮤니케이션 수행 장치.
  18. 제 12 항에 있어서,
    상기 발화의 발화자를 촬영하는 카메라를 더 포함하고,
    상기 프로세서는,
    상기 카메라를 통해 촬영된 상기 발화자에 대한 영상 분석을 통해 발화자가 사용하는 후보 언어들을 판단하고,
    상기 후보 언어들을 기준으로 상기 수신된 발화의 언어를 분석하고,
    상기 분석을 기초로 상기 수신된 발화의 언어를 결정하도록 구성되는,
    다국어 커뮤니케이션 수행 장치.
  19. 제 18 항에 있어서,
    상기 프로세서는,
    상기 카메라로 촬영된 상기 발화자에 대한 영상 분석을 통한 상기 발화자의 성별 및 연령에 따라 상기 응답 메세지를 전달할 음성을 결정하고, 결정된 상기 음성으로 상기 응답 메세지를 출력하도록 구성되는,
    다국어 커뮤니케이션 수행 장치.
  20. 다국어 커뮤니케이션을 수행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 기록매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    발화된 언어를 수신하고,
    수신된 발화의 언어를 식별하고,
    상기 식별된 언어가 미리 설정된 기준어와 일치하는지 판단하고,
    상기 식별된 언어가 상기 기준어와 일치하지 않는 경우, 상기 식별된 언어를 상기 기준어로 통역하는 제 1 통역 모델을 수신된 발화에 적용하고,
    상기 제 1 통역 모델의 적용 결과로서 상기 기준어로 출력되는 제 1 음성 데이터를 텍스트로 변경하고,
    상기 제 1 음성 데이터의 텍스트에 대응하는 응답 메세지를 생성하도록 구성되는,
    컴퓨터 판독가능 기록매체.
KR1020190116406A 2019-09-20 2019-09-20 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법 KR20190114938A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190116406A KR20190114938A (ko) 2019-09-20 2019-09-20 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법
US16/601,787 US20200043495A1 (en) 2019-09-20 2019-10-15 Method and apparatus for performing multi-language communication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190116406A KR20190114938A (ko) 2019-09-20 2019-09-20 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20190114938A true KR20190114938A (ko) 2019-10-10

Family

ID=68206201

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190116406A KR20190114938A (ko) 2019-09-20 2019-09-20 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법

Country Status (2)

Country Link
US (1) US20200043495A1 (ko)
KR (1) KR20190114938A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129914A (zh) * 2019-12-30 2021-07-16 明日基金知识产权有限公司 跨语言语音转换系统和方法
EP4224467A1 (en) * 2019-11-01 2023-08-09 Samsung Electronics Co., Ltd. Training of a text-to-speech model for a specific speaker's voice based on a pre-trained model

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021177296A (ja) * 2020-05-07 2021-11-11 キヤノン株式会社 プログラム、情報処理装置、情報処理装置の制御方法
US11568858B2 (en) 2020-10-17 2023-01-31 International Business Machines Corporation Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings
CN112837670B (zh) * 2021-01-19 2024-05-10 北京捷通华声科技股份有限公司 语音合成方法、装置及电子设备
US20230069285A1 (en) * 2021-08-19 2023-03-02 Bank Of America Corporation Cognitive scrum master assistance interface for developers
US20230129314A1 (en) * 2021-10-26 2023-04-27 Microsoft Technology Licensing, Llc Multilingual Content Recommendation Pipeline

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868430B2 (en) * 2009-01-16 2014-10-21 Sony Corporation Methods, devices, and computer program products for providing real-time language translation capabilities between communication terminals
KR20150031896A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 음성인식장치 및 그 동작방법
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
US10586535B2 (en) * 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
KR102384641B1 (ko) * 2017-02-20 2022-04-08 엘지전자 주식회사 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법
CN108460026B (zh) * 2017-02-22 2021-02-12 华为技术有限公司 一种翻译方法及装置
KR101970008B1 (ko) * 2017-06-23 2019-04-18 (주)디노비즈 딥러닝 신경망회로에 의한 번역알고리즘을 구비한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램 및 사용자 장치
JP2020529035A (ja) * 2017-07-31 2020-10-01 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 言語に基づくサービス呼び掛けのためのシステムおよび方法
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和系统
WO2019203794A1 (en) * 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4224467A1 (en) * 2019-11-01 2023-08-09 Samsung Electronics Co., Ltd. Training of a text-to-speech model for a specific speaker's voice based on a pre-trained model
US11942077B2 (en) 2019-11-01 2024-03-26 Samsung Electronics Co., Ltd. Electronic device and operating method thereof
CN113129914A (zh) * 2019-12-30 2021-07-16 明日基金知识产权有限公司 跨语言语音转换系统和方法

Also Published As

Publication number Publication date
US20200043495A1 (en) 2020-02-06

Similar Documents

Publication Publication Date Title
KR20190114938A (ko) 다국어 커뮤니케이션을 수행하기 위한 장치 및 방법
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
KR102320975B1 (ko) 발화 스타일 부여를 위한 인공지능 기반의 음성 샘플링 장치 및 방법
KR102225001B1 (ko) 음성 인식 방법 및 음성 인식 장치
KR102601848B1 (ko) 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치
KR102321855B1 (ko) 음성으로 상호작용하는 인공 지능 장치 및 그 방법
KR102365433B1 (ko) 교차 어텐션 모델 기반 감정 인식 방법 및 장치
KR20190094315A (ko) 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법
JP2019035936A (ja) ニューラルネットワークを用いた認識方法及び装置並びにトレーニング方法及び電子装置
EP3772710A1 (en) Artificial intelligence server
CN113823262B (zh) 一种语音识别方法、装置、电子设备和存储介质
CN114676234A (zh) 一种模型训练方法及相关设备
KR20200056001A (ko) 인공신경망에서의 디코딩 방법 및 그 장치
KR20180096483A (ko) 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체
US11721334B2 (en) Method and apparatus for controlling device located a distance away from a user
KR20240068704A (ko) 준지도 스피치 인식을 위한 대조 샴 네트워크
KR20190136578A (ko) 음성 인식 방법 및 장치
Saggese et al. MIVIABot: a cognitive robot for smart museum
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
US11775617B1 (en) Class-agnostic object detection
KR20210079061A (ko) 정보 처리 방법 및 정보 처리 장치
Nizzad et al. Designing of a Voice-Based Programming IDE for Source Code Generation: A Machine Learning Approach
KR20210078122A (ko) 정보 처리 방법 및 정보 처리 장치
Razumovskaia et al. Incorporating rules into end-to-end dialog systems
KR102635031B1 (ko) 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스 제공 방법, 장치 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination