KR20190000587A

KR20190000587A - 딥러닝 신경망회로에 의한 번역알고리즘을 구비한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램 및 사용자 장치

Info

Publication number: KR20190000587A
Application number: KR1020170079764A
Authority: KR
Inventors: 권용순
Original assignee: (주)디노비즈
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2019-01-03
Also published as: KR101970008B1; US20180373705A1

Abstract

본 개시의 실시예들에 따라서 인코딩된 명령들을 포함하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램이 개시된다. 상기 컴퓨터 프로그램은 컴퓨터 시스템의 하나 이상의 프로세서들에 의해 실행되는 경우, 상기 하나 이상의 프로세서들로 하여금 이하의 동작들을 수행하도록 하며, 상기 동작들은: 제 1 언어로 구성된 제 1 사용자 음성을 수신하는 동작; 상기 제 1 언어로 구성된 제 1 사용자 음성을 딥 러닝 신경망 회로로 전달함으로써 제 2 언어로 구성된 번역 문장으로 도출하는 동작; 및 상기 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나를 출력하는 동작;을 포함할 수 있다.

Description

딥러닝 신경망회로에 의한 번역알고리즘을 구비한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램 및 사용자 장치{COMPUTER PROGRAM STORED IN COMPUTER-READABLE MEDIUM AND USER DEVICE HAVING TRANSLATION ALGORITHM USING BY DEEP LEARNING NEURAL NETWORK CIRCUIT}

본 개시는 번역 기술 영역에 관한 것으로서, 보다 상세하게는, 인식된 음성을 번역하기 위한 기술과 이를 표현하기 위한 단말장치에 관한 것이다.

최근, 국제 사회와의 교류가 전 지구적으로 확대되면서 우리나라에도 많은 정보와 자원의 해외 교류가 활발하게 이루어지고 있다. 특히 해외 관광객과 거주 외국인의 수가 증가함에 따라, 외국인과의 커뮤니케이션의 빈도 또한 증가하고 있다.

반면 외국어의 종류는 다양하며, 사람들이 외국어를 학습하고 이해하는 데는 한계가 존재한다.

이에, 정확하고 용이한 번역 방법에 대한 당업계의 니즈가 존재한다.

대한민국 특허 제 10-2010-0132956호는 실시간 자동번역 방법, 실시간 자동번역이 가능한 단말기를 개시한다.

이는, 사용자의 단말기를 통해 촬영된 외국문서의 이미지로부터 번역할 문자를 추출하고 문자의 의미를 인식하며, 인식한 후에는 해당 의미를 사용자의 언어로 번역하여 표시하는 것으로서, 외국인과의 대화를 용이하게 허용하는 번역 시스템을 제시하지 못한다는 한계가 있다.

본 개시는 전술한 바와 같은 배경 기술을 감안하여 안출된 것으로, 인식된 음성에 대하여 용이하고 정확한 번역 문장을 제공하기 위함이다.

대안적으로, 상기 번역 문장으로 도출하는 동작은, 적어도 하나 이상의 번역 모델들 중 상기 제 1 언어로 구성된 제 1 사용자 음성을 수신하는 상황 조건에 대응되는 특정 번역 모델에 적어도 기초할 수 있다.

대안적으로, 상기 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보를 수신하는 동작; 을 더 포함하며, 그리고 상기 번역 문장으로 도출하는 동작은, 상기 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보에 적어도 부분적으로 기초하여 결정될 수 있다.

대안적으로, 상기 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보는, 상기 장소에 관련한 위치 정보, 상기 장소에 관련한 기후 정보, 상기 장소에 관련한 환전 정보 및 상기 장소에 관련한 사업자 등록 업종 분류 정보 중 적어도 하나를 포함할 수 있다.

대안적으로, 상기 번역 문장으로 도출하는 동작은, 상기 제 1 언어로 구성된 제 1 사용자 음성을 상기 제 1 언어의 텍스트로 인식하는 동작; 및 상기 제 1 언어의 텍스트를 상기 제 2 언어의 텍스트로 번역하는 동작;을 포함할 수 있다.

대안적으로, 상기 제 1 사용자 음성으로부터 상기 제 1 언어를 결정하는 동작; 제 3 언어로 구성된 제 2 사용자 음성을 수신하는 동작; 상기 제 3 언어로 구성된 제 2 사용자 음성을 딥 러닝 신경망 회로로 전달함으로써 상기 제 1 언어로 구성된 번역 문장으로 도출하는 동작;을 더 포함할 수 있다.

대안적으로, 상기 딥 러닝 신경망 회로는, 번역 API, 인터넷 웹사이트, 사전 및 문헌 자료 중 적어도 하나로부터 수집된 정보들을 분석하고, 그리고 분석된 정보로부터 적어도 하나 이상의 번역 모델을 상황 조건별로 생성할 수 있다.

대안적으로, 상기 딥 러닝 신경망 회로는, DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent NEural Network), RBM(Restricted Boltzmann machine), DBN(Deep Belief Network) 및 Depp Q-Network 중 적어도 하나의 알고리즘을 이용하는 딥러닝에 의하여 학습되어 상기 제 1 언어로 구성된 제 1 사용자 음성에 대한 번역 문장을 도출할 수 있다.

본 개시의 실시예들에 따라서 인식된 음성을 번역하기 위한 사용자 장치가 개시된다. 상기 인식된 음성을 번역하기 위한 사용자 장치는 제 1 언어로 구성된 제 1 사용자 음성을 수신하는 수신부; 상기 제 1 언어로 구성된 제 1 사용자 음성을 딥 러닝 신경망 회로로 전달함으로써 제 2 언어로 구성된 번역 문장으로 도출하는 제어부; 및 상기 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나를 출력하는 출력부;를 포함할 수 있다.

본 개시에 따르면, 인식된 음성에 대하여 용이하고 정확한 번역 문장을 제공할 수 있다.

다양한 양상들이 이제 도면들을 참조로 기재되며, 여기서 유사한 참조 번호들은 총괄적으로 유사한 구성요소들을 지칭하는데 이용된다. 이하의 실시예에서, 설명 목적을 위해, 다수의 특정 세부사항들이 하나 이상의 양상들의 총체적 이해를 제공하기 위해 제시된다. 그러나, 그러한 양상(들)이 이러한 구체적인 세부사항들 없이 실시될 수 있음은 명백할 것이다. 다른 예시들에서, 공지의 구조들 및 장치들이 하나 이상의 양상들의 기재를 용이하게 하기 위해 블록도 형태로 도시된다.
도 1은 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 사용자 장치의 블록 다이어그램을 도시한 도면이다.
도 2는 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 방법의 플로우챠트를 도시한 도면이다.
도 3은 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 방법의 플로우챠트를 도시한 도면이다.

본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 뒤에 설명이 되는 실시 예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐를 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 뒤에 설명되는 용어들은 본 발명에서의 구조, 역할 및 기능 등을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.

그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 오로지 특허청구범위에 기재된 청구항의 범주에 의하여 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…유닛", "…부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

한편, 본 발명의 실시 예에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성 요소로 구성될 수 있으며, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.

또한, 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

도 1은 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 사용자 장치의 블록 다이어그램을 도시한 도면이다.

본 개시의 실시예들에서, 인식된 음성을 번역하기 위한 사용자 장치(100)는 수신부(110), 제어부(120) 및 출력부(130)를 포함한다. 전술한 도 1의 구성들은 예시적인 것이며 본 개시의 권리 범위는 이에 제한되지 않는다. 예를 들어, 인식된 음성을 번역하기 위한 사용자 장치(100)는 네트워크부(140) 및 메모리부(150) 중 적어도 하나를 더 포함할 수 있다.

본 명세서에서 사용하는 용어 "인식된 음성을 번역하기 위한 사용자 장치" 및 "사용자 장치"는 종종 상호교환가능하도록 사용될 수 있다.

이하에서, 본 개시의 실시예들에 따른 사용자 장치(100)의 컴포넌트들에 대하여 차례로 후술하도록 한다.

본 개시의 실시예들에서, 수신부(110)는 화자의 사용자 음성을 수신할 수 있다. 예를 들어, 수신부(110)는 제 1 언어로 구성된 제 1 사용자 음성을 수신할 수 있다. 이러한 수신부(110)는 사용자의 음성을 수신하는 마이크 모듈을 포함할 수 있다.

본 개시의 실시예들에서, 수신부(110)는 수신되는 음성(음성 신호, 음성 정보)을 제어부(120)에 전달한다.

본 개시의 실시예들에서, 수신부(110)는 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보를 수신할 수 있다.

본 개시의 실시예들에서, 제 1 사용자 음성이 수신되는 장소와 관련된 정보는 사용자 장치(100)의 위치 식별 모듈에 의해 수집된 위치 정보에 기초하여 결정될 수 있다.

또는, 제 1 사용자 음성이 수신되는 장소와 관련된 정보는, 사용자 장치(100)로부터 사전에 입력된 장소 정보(예를 들어, 카페, 공항 등)로서 결정될 수도 있다.

다른 예로, 제 1 사용자 음성이 수신되는 장소와 관련된 정보는 사용자 장치(100)에 연관되어 사전에 입력된 영업 코드 정보에 기초하여 결정될 수도 있다. 보다 상세하게, 사용자 장치(100)는 가게에 구비된 포스(POS, Point Of Sale) 단말기일 수 있다. 포스 단말기는 백화점, 슈퍼마켓, 할인점, 편의점, 소매점등에 설치해 단품판매관리, 재고관리, 고객관리, 매출관리, 경영관리등에 사용될 데이터를 판매시점에서 자동적으로 즉시 수집, 기록하는 장치로 일반적으로 금전등록기와 같은 레지스터기능, 데이터(data)를 일시 기록해 두는 파일기능, 판매시점의 데이터를 상위장치(본사 호스트컴퓨터(host computer)등)에 접속, 전송하는 온라인기능 등을 가지고 있는 단말장치를 지칭한다. 통상적으로 포스 단말기는 효율적인 판매 관리를 위하여 사전에 업태 정보를 입력받도록 구현된다. 이에 따라, 사용자 장치(100)가 포스 단말기로 채용되는 경우, 상기 업태 정보를 이용하여 제 1 사용자 음성이 수신되는 장소와 관련된 정보가 결정될 수 있다.

본 개시의 실시예들에서, 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 사용자 장치(100)가 각 업장별로 사용하던 기존의 기기(예를 들어, 포스 단말기)로 채용되는 경우, 기기 교환의 번거로움과 새로운 기기에 대한 거부감 없이 설치 운용이 가능해진다.

전술한 바와 같은 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보는 상기 장소에 관련한 위치 정보, 상기 장소에 관련한 기후 정보, 상기 장소에 관련한 환전 정보 및 상기 장소에 관련한 사업자 등록 업종 분류 정보 중 적어도 하나를 포함할 수 있으며 본 개시의 권리 범위는 이에 제한되지 않는다.

본 개시의 실시예들에서, 제어부(120)는 제 1 언어로 구성된 제 1 사용자 음성을 딥 러닝 신경망 회로로 전달함으로써 제 2 언어로 구성된 번역 문장으로 도출하도록 할 수 있다.

여기서, 제 2 언어는 본 개시의 실시예들에 따른 사용자 장치(100)가 위치한 곳의 정보를 참조하여 결정되거나, 또는, 사용자 장치(100)를 사용하는 사용자로부터 사전에 설정될 수 있다.

본 개시의 실시예들에서, 딥 러닝 신경망 회로는 번역 API, 인터넷 웹사이트, 사전 및 문헌 자료 중 적어도 하나로부터 수집된 정보들을 분석할 수 있으며 본 개시의 권리 범위는 이에 제한되지 않는다.

본 개시의 실시예들에서, 딥 러닝 신경망 회로는 분석된 정보로부터 적어도 하나 이상의 번역 모델을 상황 조건별로 생성할 수 있다.

본 개시의 실시예들에서, 적어도 하나 이상의 번역 모델들 중 제 1 언어로 구성된 제 1 사용자 음성을 수신하는 상황 조건에 대응되는 특정 번역 모델에 적어도 기초하여 번역 문장이 도출될 수 있다.

여기서 상황 조건이란, 제 1 사용자 음성이 수신되는 장소와 관련된 정보를 포함할 수 있다. 다른 예로 상황 조건이란, 제 1 사용자 음성의 톤(tone)과 속도에 기초하여 결정된 분위기 정보를 포함할 수 있다. 예를 들어, 제 1 사용자 음성이 높고 빠른 것으로 인식된 경우 "화남"이 분위기 정보로 결정될 수도 있다. 다른 예로, 상황 조건은 제 1 사용자 음성에 의해 결정된 성별 정보를 포함할 수도 있다. 전술한 바와 같은 기재는 본 개시의 예시일 뿐이며, 본 개시의 권리 범위가 이에 제한되는 것은 아니다.

전술한 바와 같은 딥 러닝 신경망 회로는 DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent NEural Network), RBM(Restricted Boltzmann machine), DBN(Deep Belief Network) 및 Depp Q-Network 중 적어도 하나의 알고리즘을 이용할 수 있으며, 본 개시의 권리 범위는 이에 제한되지 않는다.

다시 말해, 본 개시의 실시예들에 따르면, DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent NEural Network), RBM(Restricted Boltzmann machine), DBN(Deep Belief Network) 및 Depp Q-Network 중 적어도 하나의 알고리즘을 이용하는 딥러닝에 의하여 학습된 딥 러닝 신경망 회로로부터 상기 제 1 언어로 구성된 제 1 사용자 음성에 대한 번역 문장이 도출될 수 있다.

본 개시의 실시예들에서 , 사용자 장치(100)가 수신한 제 1 언어로 구성된 제 1 사용자 음성에 대하여 번역 문장을 도출하기 위하여 사용하는 알고리즘에 학습된 데이터가 존재하지 않는 경우에는, 번역 API, 인터넷, 빅데이터 서버, 데이터베이스 등에 대한 접속을 통해 정보를 수집하도록 허용된다. 수집된 정보를 분석함으로 써, 최적의 데이터가 산출되고 산출된 데이터는 기록되어 다음 번역 수행시 참조될 수 있다.

본 개시의 실시예들에서 , 사용자 장치(100)가 수신한 제 1 언어로 구성된 제 1 사용자 음성에 대하여 번역 문장을 도출하기 위하여 사용하는 알고리즘에 학습된 데이터가 존재하는 경우에는 학습된 데이터를 검색하고 수집된 정보를 분석하고, 이에 대하여 우선 순위를 결정함으로써, 최적의 데이터를 산출하도록 허용된다. 우선 순위를 결정하기 위해서는, 전술한 바와 같은 상황 조건이 고려될 수 있다. 예를 들어, 상황 조건에 따라 학습된 데이터에 상이한 가중치를 부여함으로써 우선 순위가 결정될 수 있다. 또한, 우선 순위를 결정하기 위해 사용자의 이전 번역 결 과에 대한 피드백을 참조할 수도 있다.

본 개시의 실시예들에서 , 제 1 언어로 구성된 제 1 사용자 음성에 대하여 번역 문장을 도출하기 위하여 사용하는 알고리즘은 학습된 데이터가 존재하지 않는 경우에도 인터넷, 서적 등으로부터 정보를 수집하고 기록할 수 있어서 본 개시의 실시예들에 따른 사용자 장치(100)가 학습되며 , 이에 따라 번역의 질 또한 향상될 수 있다.

본 개시의 실시예들에서, 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보에 적어도 부분적으로 기초하여 번역이 수행될 수도 있다.

예를 들어, 제 1 언어로 구성된 사용자 음성 "too hot"의 경우, 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소에 따라 "너무 덥다" 또는 "너무 뜨겁다"로 번역될 수 있다.

전술한 바와 같이, 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보는 상기 장소에 관련한 위치 정보, 상기 장소에 관련한 기후 정보, 상기 장소에 관련한 환전 정보 및 상기 장소에 관련한 사업자 등록 업종 분류 정보 중 적어도 하나를 포함할 수 있다.

이에 따라, 제 1 언어로 구성된 제 1 사용자 음성 "is it 4$?"는 장소와 관련한 환전 정보에 기초하여 "5000원입니까?"로 번역될 수 있다.

본 개시의 실시예들에서, 제 1 언어로 구성된 제 1 사용자 음성은 상기 제 1 언어의 텍스트로 인식될 수 있다. 상기 제 1 언어의 텍스트는 상기 제 2 언어의 텍스트로 번역됨으로써, 인식된 음성에 대한 번역이 수행될 수 있다.

본 개시의 실시예들에서, 제어부(120)는 제 1 사용자 음성으로부터 상기 제 1 언어를 결정할 수 있다. 음성으로부터 언어를 결정하는 다양한 공지 기술들이 본 개시에 적용될 수 있다.

본 개시의 실시예들에서, 제어부(120)는 사용자 장치(100)의 구성요소들을 제어하고, 본 개시의 실시예들에 따른 사용자 장치(100)의 동작을 총괄한다.

본 개시의 실시예들에서, 출력부(130)는 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나를 출력할 수 있다.

본 개시의 실시예들에서, 출력부(130)는 음성 정보를 출력하도록 구비될 수 있다. 예를 들어, 출력부(130)는 스피커 모듈을 포함할 수 있다.

본 개시의 실시예들에서, 출력부(130)는 텍스트 정보 및/또는 영상 정보를 출력하도록 구비될 수 있다. 예를 들어, 출력부(130)는 디스플레이 모듈을 포함할 수 있다.

본 개시의 실시예들에서, 출력부(130)는 시각 장애인 및/또는 청각 장애인을 위하여 시각 장애인 및/또는 청각 장애인이 이해할 수 있는 형태로 번역 문장을 출력할 수도 있다.

본 개시의 실시예들에서, 네트워크부(140)에 의해 인터넷 상에서 상기 메모리부(150)의 저장 기능을 수행하는 웹 스토리지와 관련되어 사용자 장치(100)가 동작될 수 있다. 네트워크부(140)는 무선 네트워크 모듈, 유선 네트워크 모듈 및 근거리 네트워크 모듈 중 적어도 하나로서 구현될 수 있다.

본 개시의 실시예들에서, 네트워크부(140)는 인식된 음성을 번역하기 위한 딥 러닝 신경망 회로를 지속적으로 학습하게 허용하기 위하여 번역 API, 인터넷 웹사이트, 사전 및 문헌 자료 중 적어도 하나로부터 정보들을 수신할 수 있다.

본 개시의 실시예들에서, 메모리부(150)는 제어부(120)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. 또한, 메모리부(150)는 입/출력되는 데이터의 임시 저장을 위한 기능을 수행할 수도 있다. 이러한 메모리부(150)는 공지된 저장 매체중 임의의 것으로 구비될 수 있다. 다른 예로, 메모리부(150)는 인터넷 상에서 상기 메모리부(150)의 저장 기능을 수행하는 웹 스토리지와 관련되어 동작할 수도 있다.

여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부(120)자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리(150)에 저장되고, 제어부(120)에 의해 실행될 수 있다.

도 2는 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 방법의 플로우챠트를 도시한 도면이다.

도 2에 도시된 단계 S110 내지 단계 S130은 사용자 장치(100)에 의해 수행될 수 있다.

도 2에서 설명되는 각 단계는 인식된 음성을 번역하기 위한 예시적 방법일 뿐이며, 각 단계의 순서는 변경 및/또는 통합될 수 있다. 또한, 도시된 각 단계들 외의 추가적인 단계가 구현될 수도 있다.

이하의 설명에서 도 1에 설명한 중복되는 부분은 그 설명을 생략하기로 한다.

본 개시의 실시예들에서, 제 1 언어로 구성된 제 1 사용자 음성이 수신된다(S110).

본 개시의 실시예들에서, 제 1 언어로 구성된 제 1 사용자 음성은 딥 러닝 신경망 회로로 전달됨으로써, 제 2 언어로 구성된 번역 문장으로 도출될 수 있다(S120).

본 개시의 실시예들에서, 단계 S120에 의해 도출된 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나로 출력될 수 있다(S130).

도 3은 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 방법의 플로우챠트를 도시한 도면이다.

도 3에 도시된 단계 S210 내지 단계 S260은 사용자 장치(100)에 의해 수행될 수 있다.

도 3에서 설명되는 각 단계는 인식된 음성을 번역하기 위한 예시적 방법일 뿐이며, 각 단계의 순서는 변경 및/또는 통합될 수 있다. 또한, 도시된 각 단계들 외의 추가적인 단계가 구현될 수도 있다.

이하의 설명에서 도 1 내지 도 2에 설명한 중복되는 부분은 그 설명을 생략하기로 한다.

본 개시의 실시예들에서, 제 1 언어로 구성된 제 1 사용자 음성이 수신된다(S210).

본 개시의 실시예들에서, 제 1 언어로 구성된 제 1 사용자 음성은 딥 러닝 신경망 회로로 전달됨으로써, 제 2 언어로 구성된 번역 문장으로 도출될 수 있다(S220).

본 개시의 실시예들에서, 제 1 사용자 음성으로부터 제 1 언어가 식별될 수 있다(S230).

본 개시의 실시예들에서, 제 3 언어로 구성된 제 2 사용자 음성이 수신될 수 있다(S240).

여기서, 제 3 언어는 예를 들어 제 2언어와 동일할 수도 있다.

본 개시의 실시예들에서, 제 3 언어로 구성된 제 2 사용자 음성은 딥 러닝 신경망 회로로 전달됨으로써, 제 1 언어로 구성된 번역 문장으로 도출될 수 있다(S250).

본 개시의 실시예들에서 , 제 1 사용자는 본 개시의 실시예들에 따른 사용자 장치(100)가 위치한 곳(예를 들어, 음식점)에 방문한 외국인 고객일 수 있으며, 그리고 제 2 사용자는 사용자 장치(100)가 위치한 곳(예를 들어, 음식점)에 근무중인 종업원일 수 있다.

본 개시의 실시예들에서, 단계 S220 및 단계 S250에 의해 도출된 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나로 출력될 수 있다(S260).

본 개시의 실시예들에 따르면, 제 1 언어로 구성된 제 1 사용자 음성은 제 2 언어로 구성된 번역 문장으로 도출되어 제 2 사용자에게 제공될 수 있다. 제 3 언어로 구성된 제 2 사용자 음성은 제 1 언어로 구성된 제 1 사용자 음성으로부터 식별된 제 1 언어로 구성된 번역 문장으로 도출되어 제 1 사용자에게 제공될 수 있다. 여기서, 제 2 언어 및 제 3 언어는 동일할 수 있다. 선택적으로, 또는, 대안적으로, 제 2 언어 및 제 3 언어는 상이할 수도 있다. 전술한 바와 같은 단계들을 포함하는 본 개시의 실시예들에 따라서, 서로 다른 언어를 사용하는 사용자들간의 실시간 대화가 가능해질 수 있다.

보다 상세하게, "how much is it?"이라는 제 1 언어로 구성된 제 1 사용자 음성에 대하여 "이거 얼마입니까?(제 2 언어로 구성됨)"라는 번역 문장이 제공될 수 있다. 이에 대한 응답으로 "3000원입니다( 제 3 언어로 구성됨, 여기서는 제 2 언어와 제 3 언어가 동일한 것으로 예시함)"라는 제 2 사용자의 음성에 대하여 "it's $8(제 1 언어로 구성됨)"라는 번역 문장이 제공될 수 있다.

이와 관련하여, 도 1을 다시 참조하면, 제 1 언어로 구성된 제 1 사용자 음성이 수신될 수 있다(S10). 제 1 언어로 구성된 제 1 사용자 음성은, 상기 제 1 언어로 구성된 제 1 사용자 음성이 수신된 장소 정보에 기초하여 번역 문장으로 도출될 수 있다(S20).

여기서 번역 문장으로 도출되는 과정은, 도 1에서 상술한 바와 같이 제 1 언어로 구성된 제 1 사용자 음성이 딥 러닝 신경망 회로로 전달됨으로써 제 2 언어로 구성된 번역 문장으로 도출된다.

번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나가 출력될 수 있다(S20).

본 개시의 실시예들에서, 제 3 언어로 구성된 제 2 사용자 음성이 수신될 수 있다(S30). 여기서, 제 3 언어는 예를 들어 제 2언어와 동일할 수도 있다.

본 개시의 실시예들에서, 제 3 언어로 구성된 제 2 사용자 음성은 딥 러닝 신경망 회로로 전달됨으로써, 제 1 언어로 구성된 번역 문장으로 도출되어 상기 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나로 출력될 수 있다(S40).

도 1 내지 도 3에서 전술한 바와 같은 본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 사용자 장치 및 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램은, 빅데이터를 통해 회화중심의 일상용어를 스스로 학습하고 그리고 상황별 회화를 통/번역으로 제공하는 인공지능망기반 번역 시스템을 제공한다. 이에 따라, 정확한 번역이 제시될 수 있다.

본 개시의 실시예들에 따른 인식된 음성을 번역하기 위한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램은, 일반 매장의 포스단말기, 스마트메뉴판, 키오스크, IP전화기 등 사용자 디바이스에 탑재될 수 있다. 이에 따라, 양방향 통역서비스가 용이하게 제시될 수 있다.

제시된 실시예들에 대한 설명은 임의의 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims

인코딩된 명령들을 포함하는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 컴퓨터 시스템의 하나 이상의 프로세서들에 의해 실행되는 경우, 상기 하나 이상의 프로세서들로 하여금 이하의 동작들을 수행하도록 하며, 상기 동작들은:
제 1 언어로 구성된 제 1 사용자 음성을 수신하는 동작;
상기 제 1 언어로 구성된 제 1 사용자 음성을 딥 러닝 신경망 회로로 전달함으로써 제 2 언어로 구성된 번역 문장으로 도출하는 동작; 및
상기 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나를 출력하는 동작;
을 포함하는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제 1 항에 있어서,
상기 번역 문장으로 도출하는 동작은,
적어도 하나 이상의 번역 모델들 중 상기 제 1 언어로 구성된 제 1 사용자 음성을 수신하는 상황 조건에 대응되는 특정 번역 모델에 적어도 기초한,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제 1 항에 있어서,
상기 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보를 수신하는 동작;
을 더 포함하며, 그리고
상기 번역 문장으로 도출하는 동작은,
상기 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보에 적어도 부분적으로 기초하여 결정되는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제 1 항에 있어서,
상기 제 1 언어로 구성된 제 1 사용자 음성이 수신되는 장소와 관련된 정보는,
상기 장소에 관련한 위치 정보, 상기 장소에 관련한 기후 정보, 상기 장소에 관련한 환전 정보 및 상기 장소에 관련한 사업자 등록 업종 분류 정보 중 적어도 하나를 포함하는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제 1 항에 있어서,
상기 번역 문장으로 도출하는 동작은,
상기 제 1 언어로 구성된 제 1 사용자 음성을 상기 제 1 언어의 텍스트로 인식하는 동작; 및
상기 제 1 언어의 텍스트를 상기 제 2 언어의 텍스트로 번역하는 동작;
을 포함하는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제 1 항에 있어서,
상기 제 1 사용자 음성으로부터 상기 제 1 언어를 결정하는 동작;
제 3 언어로 구성된 제 2 사용자 음성을 수신하는 동작;
상기 제 3 언어로 구성된 제 2 사용자 음성을 딥 러닝 신경망 회로로 전달함으로써 상기 제 1 언어로 구성된 번역 문장으로 도출하는 동작;
을 더 포함하는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제 1 항에 있어서,
상기 딥 러닝 신경망 회로는,
번역 API, 인터넷 웹사이트, 사전 및 문헌 자료 중 적어도 하나로부터 수집된 정보들을 분석하고, 그리고 분석된 정보로부터 적어도 하나 이상의 번역 모델을 상황 조건별로 생성하는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
제 1 항에 있어서,
상기 딥 러닝 신경망 회로는,
DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent NEural Network), RBM(Restricted Boltzmann machine), DBN(Deep Belief Network) 및 Depp Q-Network 중 적어도 하나의 알고리즘을 이용하는 딥러닝에 의하여 학습되어 상기 제 1 언어로 구성된 제 1 사용자 음성에 대한 번역 문장을 도출하는,
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.
인식된 음성을 번역하기 위한 사용자 장치로서,
제 1 언어로 구성된 제 1 사용자 음성을 수신하는 수신부;
상기 제 1 언어로 구성된 제 1 사용자 음성을 딥 러닝 신경망 회로로 전달함으로써 제 2 언어로 구성된 번역 문장으로 도출하는 제어부; 및
상기 번역 문장에 대응하는 음성 정보 및 텍스트 정보 중 적어도 하나를 출력하는 출력부;
인식된 음성을 번역하기 위한 사용자 장치.