KR101592114B1 - 골전도 스피커와 마이크를 이용한 실시간 통역 - Google Patents

골전도 스피커와 마이크를 이용한 실시간 통역 Download PDF

Info

Publication number
KR101592114B1
KR101592114B1 KR1020140113103A KR20140113103A KR101592114B1 KR 101592114 B1 KR101592114 B1 KR 101592114B1 KR 1020140113103 A KR1020140113103 A KR 1020140113103A KR 20140113103 A KR20140113103 A KR 20140113103A KR 101592114 B1 KR101592114 B1 KR 101592114B1
Authority
KR
South Korea
Prior art keywords
audio data
microphone
bone conduction
wearable device
conduction module
Prior art date
Application number
KR1020140113103A
Other languages
English (en)
Inventor
원혁
Original Assignee
원혁
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 원혁 filed Critical 원혁
Priority to KR1020140113103A priority Critical patent/KR101592114B1/ko
Application granted granted Critical
Publication of KR101592114B1 publication Critical patent/KR101592114B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Abstract

실시예에 따른 골전도 모듈, 스피커 및 마이크를 포함하는 웨어러블 장치의 동작 방법은, 상기 골전도 모듈 및 상기 마이크에 입력 신호가 있는지 여부에 따라 리슨 모드인지 스피치 모드인지 판단하는 단계; 상기 리슨 모드 및 상기 스피치 모드에 따라 상기 마이크로부터의 입력 신호를 처리하는 단계를 포함할 수 있다.

Description

골전도 스피커와 마이크를 이용한 실시간 통역{REAL-TIME INTERPRETATION BY BONE CONDUCTION SPEAKER AND MICROPHONE}
아래의 설명은 실시간 통역 기술에 관한 것으로, 골전도 스피커와 마이크를 이용한 통역 방법에 관한 것이다.
최근 우리나라를 방문하는 외국인 방문객들과 해외를 방문하는 내국인의 수가 해를 거듭할수록 꾸준한 증가추세를 보이고 있다. 세계 각 국의 방문객들이 대거 방문할 것으로 예상된다. 세계 각 국의 수많은 방문자들간의 의사소통과 우리나라 국민간의 의사소통이 매우 중요하게 대두되고 있다.
통상적으로 외국인 방문객들 및 해외여행자들은 서비스가 철저한 호텔 등을 이용하게 되는데, 일반적으로 호텔에서는 방문객이 자국의 언어를 사용하여 의사소통을 하고자 하는 경우, 또는 자신과는 다른 언어권의 언어를 사용하는 사람과 의사소통을 하고자 하는 경우, 호텔에 상주하는 통역사를 거쳐 의사소통을 하거나, 인터넷을 이용한 이-메일(e-mail)또는 팩시밀리 등을 이용할 수 있도록 하고 있다. 하지만 호텔에 세계 각 국의 언어를 구사할 수 있는 통역사들을 모두 배치시키는 것은 현실적으로 어려움이 있으며, 통역사를 항시 동반해야 하며 한 두 명의 통역사들로는 다수의 방문객들에게 만족할 만한 서비스를 제공할 수 없는 불합리함, 그리고 원하는 시간에 통역서비스를 제공받지 못하는 문제점이 발생하게 된다.
한국공개특허 제10-2010-0137786호는 관광시 외국인과의 대화를 실시간으로 동시통역하는 시스템 및 방법을 제안하고 있다. 하지만, 실시간 통역 시스템의 경우, 말하는 사람과 듣는 사람을 구분할 수 없는 문제점이 있다. 또한, 통역의 경우 사용자에게는 외국어를 자국어로, 사용자의 상대방에게는 사용자 언어를 상대방 언어로 변환해 주어야 하는데, 통상의 기술로는 매번 설정을 변환해 주어야 한다. 이에 따라 골전도 스피커와 마이크를 이용하여 동시 통역하는 방법이 제안될 필요가 있다.
일 실시예에 따른 골전도 모듈, 스피커 및 마이크를 포함한 웨어러블 장치를 통하여 입력 신호에 따른 모드를 판단하고, 상기 모드에 적합한 신호를 처리함으로써 실시간으로 통역하는 방법을 제공할 수 있다.
일 실시예에 따른 골전도 모듈, 스피커 및 마이크를 포함하는 웨어러블 장치의 동작 방법은, 상기 골전도 모듈 및 상기 마이크에 입력 신호가 있는지 여부에 따라 리슨 모드인지 스피치 모드인지 판단하는 단계; 상기 리슨 모드 및 상기 스피치 모드에 따라 상기 마이크로부터의 입력 신호를 처리하는 단계를 포함할 수 있다.
일측에 따르면, 상기 골전도 모듈 및 상기 마이크에 입력 신호가 있는지 여부에 따라 리슨 모드인지 스피치 모드인지 판단하는 단계는, 상기 골전도 모듈에는 신호가 없고, 상기 마이크에는 신호가 있는 경우는 리슨 모드(listen mode)로 판단하는 단계; 및 상기 골전도 모듈 및 상기 마이크의 모두에 신호가 있는 경우는 스피치 모드(speech mode)로 판단하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 웨어러블 장치의 동작 방법은, 상기 리슨 모드에서, 상기 마이크로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터를 기계 번역하여 번역 텍스트 데이터를 생성하는 단계; 상기 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환하는 단계; 및 상기 번역 오디오 데이터를 상기 골전도 모듈을 이용하여 출력하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 웨어러블 장치의 동작 방법은, 상기 스피치 모드에서, 상기 골전도 모듈로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터를 기계 번역하여 번역 텍스트 데이터를 생성하는 단계; 상기 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환하는 단계; 및 상기 번역 오디오 데이터를 상기 스피커를 이용하여 출력하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 골전도 모듈로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환하는 단계는, 상기 골전도 모듈로부터 입력된 제1 오디오 데이터 및 상기 마이크로부터 입력된 제2 오디오 데이터를 이용하여 제3 오디오 데이터를 생성하는 단계; 및 상기 제3 오디오 데이터를 STT를 이용하여 상기 텍스트 데이터로 변환하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 골전도 모듈로부터 입력된 제1 오디오 데이터 및 상기 마이크로부터 입력된 제2 오디오 데이터를 이용하여 제3 오디오 데이터를 생성하는 단계는, 상기 마이크로부터 입력된 상기 제2 오디오 데이터에 포함된 노이즈가 미리 정해진 임계값 이상인 경우, 상기 제2 오디오 데이터는 버리고, 상기 제1 오디오 데이터만으로부터 상기 제3 오디오 데이터를 생성하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 웨어러블 장치의 동작 방법은, 상기 번역 텍스트 데이터를 이용하여 상기 번역 텍스트 데이터에 대한 답변 예문을 번역 데이터베이스로부터 검색하는 단계; 및 상기 검색된 답변 예문을 상기 웨어러블 장치의 디스플레이에 표시하는 단계를 포함할 수 있다.
일 실시예에 따른 웨어러블 장치는, 골전도 모듈; 스피커; 마이크; 상기 골전도 모듈 및 상기 마이크에 입력 신호가 있는지 여부에 따라 리슨 모드인지 스피치 모드인지 판단하고, 상기 리슨 모드 및 상기 스피치 모드에 따라 상기 골전도 모듈 및 상기 마이크로부터의 입력 신호를 처리하는 처리부를 포함할 수 있다.
일 측에 따르면, 상기 처리부는, 상기 골전도 모듈에는 신호가 없고 상기 마이크에는 신호가 있는 경우는 리슨 모드(listen mode)로 판단하고, 상기 골전도 모듈 및 상기 마이크의 모두에 신호가 있는 경우는 스피치 모드(speech mode)로 판단할 수 있다.
일 실시예에 따른 웨어러블 장치는 모드를 구분하여 실시간으로 통역을 수행함으로써 명확하게 말하는 사람과 듣는 사람을 구분할 수 있고, 듣는 사람은 듣는 언어로, 말하는 사람은 말하는 사람의 언어로 자연스럽게 이야기를 할 수 있다.
도 1은 일 실시예에 따른 웨어러블 장치와 스마트 기기의 동작을 통하여 실시간으로 통역하는 방법을 나타낸 도면이다.
도 2는 일 실시예에 따른 웨어러블 장치의 구성을 나타낸 도면이다.
도 3은 일 실시예에 따른 웨어러블 장치의 모드를 구분하는 방법을 나타낸 도면이다.
도 4는 일 실시예에 따른 웨어러블 장치의 실시간 통역 방법에 있어서, 리슨 모드에 대한 동작을 나타낸 도면이다.
도 5는 일 실시예에 따른 웨어러블 장치의 실시간 통역 방법에 있어서, 스피치 모드에 대한 동작을 나타낸 도면이다.
도 6은 일 실시예에 따른 웨어러블 장치의 검색된 답변 예문이 출력되는 예를 나타낸 도면이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 일 실시예에 따른 웨어러블 장치와 스마트 기기의 동작을 통하여 실시간으로 통역하는 동작을 나타낸 도면이다.
웨어러블 장치(110)는 무선 통신망(예를 들면, 인터넷)를 통하여 스마트 기기(130)와 통신을 할 수 있다. 웨어러블 장치(110)는 예를 들면, 스마트 워치, 스마트 글래스 등일 수 있으며, 웨어러블 장치(110)는 스마트 기기(130)와 데이터를 송수신할 수 있다.
무선 통신망(120)은 예를 들면, 블루투스, NFC 와 같은 근거리 통신망을 이용하여 웨어러블 장치(110)와 스마트 기기(130)사이의 통신을 가능하도록 제공할 수 있다.
스마트 기기(130)는 예를 들면, 스마트 폰, 태블릿 PC, 노트북 등과 같은 스마트 기기일 수 있으며, 무선 통신망(120)을 통하여 웨어러블 장치(110)와 데이터를 송수신할 수 있다. 예를 들면, 웨어러블 장치와 스마트 기기의 통신을 통하여 실시간으로 통역이 수행될 수 있다. 웨어러블 장치(110)는 클라이언트로서 음성 데이터의 취득 및 출력을 할 수 있고, 스마트 기기(130)는 서버로서 음성 데이터의 변환 및 실시간 번역을 수행할 수 있다.
예를 들면, 스마트 워치와 스마트 폰을 통하여 실시간으로 통역을 한다고 가정하자. 스마트 워치는 골전도 모듈 및 마이크에 입력 신호가 있는지 여부에 따라 리슨 모드인지 스피치 모드인지 판단할 수 있다. 리슨 모드 및 스피치 모드에 따라 마이크로부터의 입력 신호를 처리할 수 있다. 스마트 워치는 골전도 모듈에는 신호가 없고, 마이크에는 신호가 있는 경우는 리슨 모드로 판단하고, 골전도 모듈 및 마이크 모두에 신호가 있는 경우는 스피치 모드로 판단할 수 있다.
스마트 워치는 리슨 모드에서 마이크로부터 입력된 오디오 데이터를 취득할 수 있다. 이때, 취득된 오디오 데이터를 스마트 폰으로 전송할 수 있다. 스마트 폰은 애플리케이션을 통하여 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환할 수 있고, 텍스트 데이터를 기계 번역하여 번역 텍스트 데이터를 생성할 수 있다. 스마트 폰은 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환할 수 있다. 스마트 폰은 번역 오디오 데이터를 스마트 워치에 전송할 수 있고, 스마트 워치는 번역 오디오 데이터를 골전도 모듈을 이용하여 출력할 수 있다.
스마트 워치는 리스닝 모드에서 골전도 모듈로부터 입력된 오디오 데이터를 취득할 수 있다. 이때, 취득된 오디오 데이터를 스마트 폰으로 전송할 수 있다. 스마트 폰은 애플리케이션을 통하여 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환할 수 있고, 텍스트 데이터를 기계 번역하여 변역 텍스트 데이터를 생성할 수 있다. 스마트 폰은 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환할 수 있다. 스마트 폰은 번역 오디오 데이터를 스마트 워치에 전송할 수 있고, 스마트 워치는 번역 오디오 데이터를 스피커를 이용하여 출력할 수 있다.
실시예에 따라 실시간 통역 서비스는 모두 웨어러블 장치에서 수행될 수도 있고, 일부는 웨어러블 장치 일부는 스마트 폰에서 수행될 수 있다.
이상의 실시예에서, 일부 기능은 웨어러블 장치에서 수행되고, 일부 기능은 스마트 폰에서 수행되는 것으로 설명하였으나, 실시예에 따라서는 모든 기능이 웨어러블 장치에서 수행되거나 또는 모든 기능이 스마트 폰에서 수행될 수도 있다.  또한, 이상의 실시예에서 웨어러블 장치 및 스마트 폰에서 나누어 수행되는 것으로 설명된 복수의 기능들은, 실시예에 따라 다른 기능들이 웨어러블 장치 또는 스마트 폰에서 수행될 수 있다.  예를 들어, 도 2에서 번역 프로그램은 스마트 폰에서 수행되는 것으로 설명되었으나, 실시예에 따라서는 번역 프로그램이 웨어러블 장치에서 수행될 수 있다.  이는 다른 기능들에 대해서도 마찬기지로 적용될 수 있다.
도 2는 일 실시예에 따른 웨어러블 장치의 구성을 나타낸 도면이다.
웨어러블 장치(200)는 임베디드 시스템으로 이루어진 장치로서, 터치 스크린(210), 디스플레이(220), 처리부(230), 배터리(240), 골전도 모듈(250), 스피커(260), 마이크(270), 통신부(280) 등을 포함할 수 있다.
터치 스크린(210)은 터치 패널에 외부로부터 입력을 감지하고, 감지된 입력을 출력하는 화면으로서, 사용자의 입력에 의해 동작될 수 있다.
처리부(230)는 골전도 모듈 및 마이크에 입력 신호가 있는지 여부에 따라 리슨 모드인지 스피치 모드인지 판단하고, 리슨 모드 및 스피치 모드에 따라 골전도 모듈 및 마이크로부터의 입력 신호를 처리할 수 있다. 처리부(230)는 골전도 모듈에는 신호가 없고 마이크에는 신호가 있는 경우는 리슨 모드로 판단하고, 골전도 모듈 및 마이크 모두에 신호가 있는 경우는 스피치 모드로 판단할 수 있다.
처리부(230)는 리슨 모드에서 마이크로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환할 수 있고, 텍스트 데이터를 기계 번역하여 번역 텍스트 데이터를 생성할 수 있다. 처리부(230)는 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환할 수 있고, 번역 오디오 데이터를 골전도 모듈을 이용하여 출력할 수 있다.
처리부(230)는 스피치 모드에서 골전도 모듈로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환할 수 있고, 텍스트 데이터를 기계 번역하여 번역 텍스트 데이터를 생성할 수 있다. 처리부(230)는 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환할 수 있고, 번역 오디오 데이터를 스피커를 이용하여 출력할 수 있다. 이때, 처리부(230)는 골전도 모듈로부터 입력된 제1 오디오 데이터 및 마이크로부터 입력된 제2 오디오 데이터를 이용하여 제3 오디오 데이터를 생성할 수 있다. 마이크로부터 입력된 제2 오디오 데이터에 포함된 노이즈가 미리 정해진 임계값 이상인 경우, 제2 오디오 데이터는 버리고, 제1 오디오 데이터만으로부터 제3 오디오 데이터를 생성할 수 있다. 처리부(230)는 제3 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환할 수 있다.
처리부(230)는 번역 텍스트를 이용하여 번역 텍스트 데이터에 대한 답변 예문을 번역 데이터베이스로부터 검색할 수 있고, 검색된 답변 예문을 디스플레이(220)에 표시할 수 있다.
배터리(240)는 예를 들면, 인체 공학적인 보조 배터리 시스템을 사용할 수 있다. 보조 배터리는 솔리드 재질로 구성될 수 있고, 자체적으로 휘어지지는 않으나 본체 시스템과는 경첩 구조로 연결되어 접힐 수 있다.
골전도 모듈(250)은 음파가 두개골을 진동시켜 내이의 액체에 도달되어 감각기에 전달되는 음의 전도 과정을 이용한 스피커로서, 외부에는 음성이 들리지 않기 때문에 중요 정보 및 개인 정보를 보호할 수 있다.
스피커(260)는 전기 신호를 진동판의 진동으로 바꾸어 공기에 소밀파를 발생시켜 음파를 복사하는 음향기기로서, 처리부(230)로부터 수행된 결과 및 사용자의 음성을 오디오 데이터로 출력할 수 있다.
마이크(270)는 음파 또는 초음파를 받아서 그 진동에 따른 전기신호를 발생하는 기기로서, 웨어러블 장치(200)는 마이크(270)를 통해서 사용자 및 외부의 오디오 데이터를 수신할 수 있다.
통신부(280)는 웨어러블 장치(110)와 스마트 기기(130) 사이에 통신을 가능하게 할 수 있고, 예를 들면, NFC(Near Field Communication), 블루투스와 같은 근거리 무선 통신을 가능하게 할 수 있다.
도 3은 일실시예에 따른 웨어러블 장치의 모드를 구분하는 방법을 나타낸 도면이다.
웨어러블 장치는 대기 모드(301)인 상태에서, 마이크 신호의 입력(302)이 감지되었다면, 골전도 모듈의 신호가 입력(303)되었는지 판단하고, 마이크 신호가 입력되지 않았다면, 대기 모드인 상태로 유지할 수 있다.
마이크 신호가 감지(302)되었다면, 골전도 모듈의 신호가 입력(303)되었는지 판단할 수 있는데, 이때, 골전도 모듈의 신호가 감지되지 않았다면 리슨(305)모드로 판단하고, 골전도 모듈의 신호가 감지되었다면 스피치 모드(304)로 판단할 수 있다. 이에 따라, 리슨 모드 및 스피치 모드에 대한 상세한 설명은 도 4및 도 5에서 설명하기로 한다.
일 실시예에 따른 웨어러블 장치는 골전도 모듈 및 마이크의 모두에 신호가 있는 경우에 스피치 모드로 판단하고, 골전도 모듈에는 신호가 없고, 마이크에는 신호가 있는 경우는 리슨 모드로 판단할 수 있다.
도 4는 실시예에 따른 웨어러블 장치의 실시간 통역 방법에 있어서, 리슨 모드에 대한 동작을 나타낸 도면이다.
도 4는 리슨 모드에 대한 설명으로, 웨어러블 장치와 스마트 기기의 동작을 나타낸 것으로, 웨어러블 장치와 스마트 기기는 예를 들면, 블루투스와 같은 무선 통신을 이용하여 데이터를 송수신할 수 있다. 리슨 모드는 골전도 모듈에는 신호가 없고, 마이크에는 신호가 있는 경우를 의미할 수 있다.
웨어러블 장치는 마이크로부터 입력된 오디오 데이터(401)를 스마트 기기로 전송할 수 있다. 스마트 기기는 애플리케이션과 같은 프로그램을 이용하여 STT(402)를 이용하여 텍스트로 변환할 수 있다. 변환된 텍스트는 번역 프로그램을 이용하여 번역(403)을 수행할 수 있다. 번역된 텍스트는 사용자에게 출력하기 위하여 TTS(404)를 이용하여 음성으로 변환할 수 있다. 변환된 음성은 예를 들면 블루투스와 같은 무선 통신을 통하여 웨어러블 장치로 전송되고, 웨어러블 장치는 골전도 모듈을 이용하여 번역된 음성을 출력(405)할 수 있다.
이때, 번역된 텍스트는 멀티태스킹을 이용하여 번역된 텍스트는 TTS를 이용하여 음성으로 변환되는 동시에, 번역된 텍스트를 데이터베이스에서 추천 답변 예문을 검색할 수 있다. 추천 답변 예문은 무선통신을 통하여 웨어러블 장치로 전달될 수 있고, 터치가 가능한 화면에 리스트로 출력된 후, 사용자에 의하여 추천 답변 예문을 선택할 수 있다. 이때, 사용자에 의하여 답변 예문이 선택되지 않는다면, 웨어러블 장치는 대기 상태(410)를 유지할 수 있다. 예를 들면, 웨어러블 장치에 긍정문인 "네, 주세요." 라는 번역문인 "Yes, please.", 부정문인 "아니요." 라는 번역문인 "NO."가 있다면, 사용자는 첫번째 번역문인 "Yes, please."라는 번역문을 선택할 수 있고, 웨어러블 장치에 "Yes, please."라는 번역문이 출력될 수 있으며, TTS(411)를 이용하여 오디오 데이터로 변환된 후, 웨어러블 장치의 스피커를 통하여 출력(412)될 수 있다.
도5는 일실시예에 따른 웨어러블 장치의 실시간 통역 방법에 있어서, 스피치 모드에 대한 동작을 나타낸 도면이다.
도 5는 스피치 모드에 대한 설명으로, 웨어러블 장치와 스마트 기기의 동작을 나타낸 것으로, 웨어러블 장치와 스마트 기기는 예를 들면, 블루투스와 같은 무선 통신을 이용하여 데이터를 송수신할 수 있다. 스피치 모드는 골전도 모듈 및 마이크의 신호가 모두 있는 경우를 의미할 수 있다.
웨어러블 장치는 골전도 모듈로부터 입력된 오디오 데이터(501)를 스마트 기기로 전송할 수 있다. 스마트 기기는 애플리케이션과 같은 프로그램을 이용하여 STT(502)를 이용하여 텍스트로 변환할 수 있다. 골전도 모듈로부터 입력된 제1 오디오 데이터 및 마이크로부터 입력된 제2 오디오 데이터를 이용하여 제3 오디오 데이터를 생성할 수 있다. 제3 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환할 수 있다. 이때, 마이크로부터 입력된 제2 오디오 데이터에 포함된 노이즈가 미리 정해진 임계값 이상인 경우, 제2 오디오 데이터는 버리고, 제1 오디오 데이터만으로 제3 오디오 데이터를 생성할 수 있다.
변환된 텍스트는 번역 프로그램을 이용하여 번역(503)을 수행할 수 있다. 번역된 텍스트는 사용자에게 출력하기 위하여 TTS(504)를 이용하여 음성으로 변환할 수 있다. 변환된 음성은 예를 들면 블루투스와 같은 무선 통신을 통하여 웨어러블 장치로 전송되고, 웨어러블 장치는 스피커를 이용하여 번역된 음성을 출력(505)할 수 있다.
이때, 멀티태스킹을 이용하여 번역된 텍스트는 TTS를 이용하여 음성으로 변환되는 동시에, 번역된 텍스트를 데이터베이스로부터 추천 답변 예문을 검색(506)할 수 있다. 추천된 답변 예문(507)을 무선 통신을 통하여 웨어러블 장치로 전달하고, 터치가 가능한 화면에 리스트로 출력(508)된 후, 사용자에 의하여 추천 답변 예문을 선택(509)할 수 있다. 이때, 사용자에 의하여 답변 예문이 선택되지 않는다면, 웨어러블 장치는 대기 상태(510)로 유지할 수 있다. 예를 들면, "1. 저는 여기에 관광을 목적으로 왔습니다." 라는 번역문이 "I came here for the purpose of tourism."이고, "2. 저는 여기에 휴가 차 왔습니다." 라는 번역문이 "I came here on vacation."라면 사용자는 답변 예문 중에서 2번을 선택할 수 있고, 웨어러블 장치에 두번째 예문인 "I came here on vacation"가 출력될 수 있으며, TTS(511)를 이용하여 오디오 데이터로 변환된 후, 웨어러블 장치의 스피커를 통하여 출력(512)할 수 있다.
도 6은 일 실시예에 따른 웨어러블 장치의 검색된 답변 예문이 출력되는 예를 나타낸 도면이다.
도 4내지 도 5에서 설명한 바와 같이, 리스 모드 및 스피치 모드에서 번역 텍스트를 이용하여 번역 텍스트 데이터에 대한 답변 예문을 번역 데이터베이스로부터 검색할 수 있고, 검색된 답변 예문을 웨어러블 장치의 디스플레이에 표시할 수 있다.
예를 들면, 리슨 모드라고 가정하자. 사용자는 웨어러블 기기의 마이크를 통하여 상대방의 음성을 스마트 기기로 전송할 수 있고, 스마트 폰은 STT 기능을 이용하여 텍스트 데이터로 변환한 후 번역을 수행할 수 있다. 번역된 텍스트는 TTS 기능으로 음성 데이터로 변환되어 스마트 기기로 전송한 후, 골전도 스피커를 통하여 출력될 수 있다. 동시에 번역된 텍스트는 출력하는 동시에 데이터베이스에서 추천 답변 예문을 검색할 수 있고, 검색된 예문을 웨어러블 장치로 전달하여 입력 인터페이스를 통하여 선택이 가능한 형태로 화면에 출력할 수 있다. 검색된 예문이 긍정문인 "네, 주세요." 라는 번역문인 "Yes, please.", 부정문인 "아니요." 라는 번역문인 "NO."가 있다면, 사용자는 첫번째 번역문인 "Yes, please."라는 번역문을 선택할 수 있고, 웨어러블 장치에 "Yes, please."라는 번역문이 출력될 수 있다. 선택된 번역문인 "Yes, please"는 스피커를 통하여 음성으로 출력될 수 있다.
예를 들면, 스피치 모드라고 가정하자. 사용자는 웨어러블 기기의 골전도 모듈과 마이크를 통하여 상대방의 음성을 스마트 기기로 전송할 수 있고, 스마트 폰은 STT 기능을 이용하여 텍스트 데이터로 변환한 후 번역을 수행할 수 있다. 번역된 텍스트는 TTS 기능으로 음성 데이터로 변환되어 스마트 기기로 전송한 후, 스피커를 통하여 출력될 수 있다. 동시에 번역된 텍스트는 출력하는 동시에 데이터베이스에서 추천 답변 예문을 검색할 수 있고, 검색된 예문을 웨어러블 장치로 전달하여 입력 인터페이스를 통하여 선택이 가능한 형태로 화면에 출력할 수 있다. 검색된 예문이 "1. 저는 여기에 관광을 목적으로 왔습니다." 라는 번역문인 "I came here for the purpose of tourism.", "2. 저는 여기에 휴가 차 왔습니다." 라는 번역문인 "I came here on vacation." 있다면 사용자는 답변 예문 중에서 2번을 선택할 수 있고, 웨어러블 장치에 두번째 예문인 "I came here on vacation"가 출력될 수 있다. 선택된 번역문인 "I came here on vacation"는 스피커를 통하여 음성으로 출력될 수 있다
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
110: 웨어러블 장치
120: 무선 통신망
130: 스마트 기기

Claims (9)

  1. 골전도 모듈, 스피커 및 마이크를 포함하는 웨어러블 장치의 동작 방법에 있어서,
    상기 마이크에 입력 신호가 있는지 여부를 판단하는 단계;
    상기 마이크에 입력 신호가 없는 경우에 응답하여, 대기 모드 상태를 유지하는 단계;
    상기 마이크에 입력 신호가 있는 경우, 상기 골전도 모듈에 입력 신호가 있는지 여부를 판단하는 단계;
    상기 마이크에 입력 신호가 있고, 상기 골전도 모듈에 입력 신호가 있는 경우, 스피치 모드(speech mode)로 판단하는 단계
    상기 마이크에 입력 신호가 있고, 상기 골전도 모듈에 입력 신호가 없는 경우, 리슨 모드(listen mode)로 판단하는 단계
    상기 리슨 모드 및 상기 스피치 모드에 따라 상기 마이크로부터의 입력 신호를 처리하는 단계
    를 포함하는 웨어러블 장치의 동작 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 리슨 모드에서, 상기 마이크로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환하는 단계;
    상기 텍스트 데이터를 기계 번역하여 번역 텍스트 데이터를 생성하는 단계;
    상기 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환하는 단계; 및
    상기 번역 오디오 데이터를 상기 골전도 모듈을 이용하여 출력하는 단계
    를 포함하는 웨어러블 장치의 동작 방법.
  4. 제1항에 있어서,
    상기 스피치 모드에서, 상기 골전도 모듈로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환하는 단계;
    상기 텍스트 데이터를 기계 번역하여 번역 텍스트 데이터를 생성하는 단계;
    상기 번역 텍스트 데이터를 TTS를 이용하여 번역 오디오 데이터로 변환하는 단계; 및
    상기 번역 오디오 데이터를 상기 스피커를 이용하여 출력하는 단계
    를 포함하는 웨어러블 장치의 동작 방법.
  5. 제4항에 있어서,
    상기 골전도 모듈로부터 입력된 오디오 데이터를 STT를 이용하여 텍스트 데이터로 변환하는 단계는,
    상기 골전도 모듈로부터 입력된 제1 오디오 데이터 및 상기 마이크로부터 입력된 제2 오디오 데이터를 이용하여 제3 오디오 데이터를 생성하는 단계; 및
    상기 제3 오디오 데이터를 STT를 이용하여 상기 텍스트 데이터로 변환하는 단계
    를 포함하는 웨어러블 장치의 동작 방법.
  6. 제5항에 있어서,
    상기 골전도 모듈로부터 입력된 제1 오디오 데이터 및 상기 마이크로부터 입력된 제2 오디오 데이터를 이용하여 제3 오디오 데이터를 생성하는 단계는,
    상기 마이크로부터 입력된 상기 제2 오디오 데이터에 포함된 노이즈가 미리 정해진 임계값 이상인 경우, 상기 제2 오디오 데이터는 버리고, 상기 제1 오디오 데이터만으로부터 상기 제3 오디오 데이터를 생성하는 단계
    를 포함하는 웨어러블 장치의 동작 방법.
  7. 제3항 또는 제4항에 있어서,
    상기 번역 텍스트 데이터를 이용하여 상기 번역 텍스트 데이터에 대한 답변 예문을 번역 데이터베이스로부터 검색하는 단계; 및
    상기 검색된 답변 예문을 상기 웨어러블 장치의 디스플레이에 표시하는 단계
    를 포함하는 웨어러블 장치의 동작 방법.
  8. 웨어러블 장치에 있어서,
    골전도 모듈;
    스피커;
    마이크;
    상기 마이크에 입력 신호가 없는 경우, 대기 모드 상태를 유지하도록 처리하고, 상기 마이크에 입력 신호가 있고, 상기 골전도 모듈에 입력 신호가 있는 경우, 스피치 모드(speech mode)로 판단하고, 상기 마이크에 입력 신호가 있고, 상기 골전도 모듈에 입력 신호가 없는 경우, 리슨 모드(listen mode)로 판단하고, 상기 리슨 모드 및 상기 스피치 모드에 따라 상기 골전도 모듈 및 상기 마이크로부터의 입력 신호를 처리하는 처리부
    를 포함하는 웨어러블 장치.

  9. 삭제
KR1020140113103A 2014-08-28 2014-08-28 골전도 스피커와 마이크를 이용한 실시간 통역 KR101592114B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140113103A KR101592114B1 (ko) 2014-08-28 2014-08-28 골전도 스피커와 마이크를 이용한 실시간 통역

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140113103A KR101592114B1 (ko) 2014-08-28 2014-08-28 골전도 스피커와 마이크를 이용한 실시간 통역

Publications (1)

Publication Number Publication Date
KR101592114B1 true KR101592114B1 (ko) 2016-02-04

Family

ID=55356353

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140113103A KR101592114B1 (ko) 2014-08-28 2014-08-28 골전도 스피커와 마이크를 이용한 실시간 통역

Country Status (1)

Country Link
KR (1) KR101592114B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019017500A1 (ko) * 2017-07-17 2019-01-24 아이알링크 주식회사 개인 생체 정보의 비식별화 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019017500A1 (ko) * 2017-07-17 2019-01-24 아이알링크 주식회사 개인 생체 정보의 비식별화 시스템 및 방법

Similar Documents

Publication Publication Date Title
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
CN109844856B (zh) 从单个设备访问多个虚拟个人助理(vpa)
US10418027B2 (en) Electronic device and method for controlling the same
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
US9542956B1 (en) Systems and methods for responding to human spoken audio
EP3522036B1 (en) Electronic device that provides a user based dictionary using semantic word embedding of user-specific words that are not learned in a neural network-based language model and a control method therefor
US20160162469A1 (en) Dynamic Local ASR Vocabulary
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
US8682640B2 (en) Self-configuring language translation device
EP3438974A1 (en) Information processing device, information processing method, and program
EP3866160A1 (en) Electronic device and control method thereof
US11537360B2 (en) System for processing user utterance and control method of same
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
WO2020210050A1 (en) Automated control of noise reduction or noise masking
KR20190068133A (ko) 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
JP2021177418A (ja) 電子機器の通訳機能提供方法およびイヤセット機器
CN110945455A (zh) 处理用户话语以用于控制外部电子装置的电子装置及其控制方法
WO2019239659A1 (ja) 情報処理装置および情報処理方法
KR101592114B1 (ko) 골전도 스피커와 마이크를 이용한 실시간 통역
JP2013254395A (ja) 処理装置、処理システム、出力方法およびプログラム
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
JP2019153160A (ja) デジタルサイネージ装置およびプログラム
KR20200112791A (ko) 이어셋을 이용한 통역기능 제공 방법 및 장치
JP2020119043A (ja) 音声翻訳システムおよび音声翻訳方法
KR102204488B1 (ko) 통신 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee