KR20190034494A - 번역 장치 및 번역 시스템 - Google Patents
번역 장치 및 번역 시스템 Download PDFInfo
- Publication number
- KR20190034494A KR20190034494A KR1020187031406A KR20187031406A KR20190034494A KR 20190034494 A KR20190034494 A KR 20190034494A KR 1020187031406 A KR1020187031406 A KR 1020187031406A KR 20187031406 A KR20187031406 A KR 20187031406A KR 20190034494 A KR20190034494 A KR 20190034494A
- Authority
- KR
- South Korea
- Prior art keywords
- translation
- unit
- voice
- input
- information
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 449
- 238000000034 method Methods 0.000 claims description 46
- 230000001360 synchronised effect Effects 0.000 claims description 13
- 230000008054 signal transmission Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 64
- 238000010586 diagram Methods 0.000 description 27
- 238000004891 communication Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000008929 regeneration Effects 0.000 description 6
- 238000011069 regeneration method Methods 0.000 description 6
- 238000010304 firing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000881 depressing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G06F17/289—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G10L13/043—
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
번역 장치(1)는, 조작 입력부(11)와, 음성 입력부(12)와, 번역 정보 취득부(16)와, 정보 출력부(17)와, 실행부(13)와 제어부(14)를 구비한다. 조작 입력부(11)에는, 유저 조작이 입력된다. 음성 입력부(12)에는, 음성이 입력된다. 번역 정보 취득부(16)는 음성 입력부(12)에 입력된 음성의 번역 결과를 취득한다. 정보 출력부(17)는 번역 결과를 출력한다. 제어부(14)는 정보 출력부(17)에 의한 번역 결과의 출력에 동기해서, 번역 결과에 대응하는 음성의 입력 중에 조작 입력부(11)에 입력된 유저 조작의 조작 내용에 근거하는 동작을 실행부(13)로 하여금 실행하게 한다.
Description
본 개시는 번역 장치 및 번역 시스템에 관한 것이다.
특허문헌 1은 입력 음성을 번역하는 번역 수단을 구비하는 통신 시스템을 개시하고 있다. 이 통신 시스템은, TV 회의 장치 등에 있어서 당사자가 발성하는 회화 음성을 입력하는 마이크로폰과, TV 카메라로부터 촬상 입력된 화상 신호의 화상이 일시 축적되는 화상 메모리를 구비하고 있다. 이 통신 시스템에 따르면, 음성 신호를 통신할 때에, 그 음성을 번역해서 출력하고, 또 이 음성의 번역 출력에 동기해서 입력 음성에 대응해서 입력된 화상의 표시가 행해지고 있다. 이것에 의해, TV 회의 등에 있어서, 번역된 음성에 대응한 화상으로부터 통신 상대의 표정 등을 읽는 것이 가능해진다.
특허문헌 2는 이용자끼리가 음성 번역 장치를 통해서 회화할 때에 원활한 대화를 가능하게 하는 것을 목적으로 하는 기술을 개시하고 있다. 이 음성 번역 장치는, 제 1 언어의 음성 신호의 음성 인식을 행하는 음성 인식 수단과, 그 인식한 제 1 언어로부터 제 2 언어로 번역하는 제 1 기계 번역 수단과, 그 번역한 제 2 언어를 제 1 언어로 역 번역하는 제 2 기계 번역 수단을 구비한다. 이 음성 번역 장치는 기계 번역 결과의 합성 음성과 역 번역 결과의 합성 음성을 동기시켜 음성 출력한다. 이것에 의해, 한쪽의 이용자가 발화한 음성의 기계 번역 결과의 합성 음성을 다른 쪽의 이용자가 듣고 있는 동안에, 자신이 발화한 내용이 올바르게 번역되고 있는지를 확인하는 것이 가능해진다.
본 개시는 번역 대상의 발화를 행하는 유저가 의도하는 내용을 쉽게 전달할 수 있는 번역 장치 및 번역 시스템을 제공한다.
본 개시의 일 형태에 있어서의 번역 장치는, 조작 입력부와, 음성 입력부와, 번역 정보 취득부와, 정보 출력부와, 실행부와, 제어부를 구비한다. 조작 입력부에는 유저 조작이 입력된다. 음성 입력부에는, 음성이 입력된다. 번역 정보 취득부는 음성 입력부에 입력된 음성의 번역 결과를 취득한다. 정보 출력부는 번역 결과를 출력한다. 제어부는 정보 출력부에 의한 번역 결과의 출력에 동기해서, 번역 결과에 대응하는 음성의 입력 중에 조작 입력부에 입력된 유저 조작의 조작 내용에 근거하는 동작을 실행부로 하여금 실행하게 한다.
본 개시의 다른 형태에 있어서의 번역 시스템은 번역 장치와 번역 서버를 구비한다. 번역 서버는 음성 입력부에 입력된 음성을 나타내는 음성 정보를 번역 장치로부터 수신하고, 음성 정보의 번역 처리를 행한다.
본 개시에 있어서의 번역 장치 및 번역 시스템에 따르면, 번역 대상의 음성의 입력 중에 유저 조작이 입력되면, 번역 결과의 출력에 동기해서 유저 조작의 조작 내용에 근거하는 동작이 출력된다. 이것에 의해, 번역 대상의 발화를 행하는 유저가 의도하는 내용을 쉽게 전달할 수 있다.
도 1은 실시 형태 1에 따른 번역 시스템을 나타내는 블럭도이다.
도 2는 번역 시스템에 있어서의 번역 장치의 하드웨어 구성을 예시하는 도면이다.
도 3a는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 3b는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 3c는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 3d는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 4는 실시 형태 1에 따른 번역 시스템의 동작을 나타내는 순서도이다.
도 5는 실시 형태 1에 따른 번역 장치의 동작예를 설명하기 위한 타이밍 차트이다.
도 6은 번역 장치에 의한 입력 처리를 설명하기 위한 흐름도이다.
도 7은 번역 장치에 있어서의 이력 데이터베이스를 설명하기 위한 도면이다.
도 8은 번역 장치에 의한 재생 처리를 설명하기 위한 흐름도이다.
도 9a는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 9b는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 9c는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 10a는 실시 형태 1의 변형예에 있어서의 번역 장치의 표시예를 나타내는 도면이다.
도 10b는 실시 형태 1의 변형예에 있어서의 번역 장치의 표시예를 나타내는 도면이다.
도 10c는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 11은 실시 형태 2에 따른 번역 시스템을 나타내는 기능 블럭도이다.
도 12는 실시 형태 3에 따른 번역 시스템을 나타내는 기능 블럭도이다.
도 13a는 실시 형태 3에 따른 번역 장치의 표시예를 나타내는 도면이다.
도 13b는 실시 형태 3에 따른 번역 장치의 표시예를 나타내는 도면이다.
도 14a는 변형예에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
도 14b는 변형예에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
도 14c는 변형예에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
도 15는 다른 실시 형태에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
도 2는 번역 시스템에 있어서의 번역 장치의 하드웨어 구성을 예시하는 도면이다.
도 3a는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 3b는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 3c는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 3d는 번역 시스템에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 4는 실시 형태 1에 따른 번역 시스템의 동작을 나타내는 순서도이다.
도 5는 실시 형태 1에 따른 번역 장치의 동작예를 설명하기 위한 타이밍 차트이다.
도 6은 번역 장치에 의한 입력 처리를 설명하기 위한 흐름도이다.
도 7은 번역 장치에 있어서의 이력 데이터베이스를 설명하기 위한 도면이다.
도 8은 번역 장치에 의한 재생 처리를 설명하기 위한 흐름도이다.
도 9a는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 9b는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 9c는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 10a는 실시 형태 1의 변형예에 있어서의 번역 장치의 표시예를 나타내는 도면이다.
도 10b는 실시 형태 1의 변형예에 있어서의 번역 장치의 표시예를 나타내는 도면이다.
도 10c는 실시 형태 1의 변형예에 있어서의 번역 장치의 동작을 설명하기 위한 도면이다.
도 11은 실시 형태 2에 따른 번역 시스템을 나타내는 기능 블럭도이다.
도 12는 실시 형태 3에 따른 번역 시스템을 나타내는 기능 블럭도이다.
도 13a는 실시 형태 3에 따른 번역 장치의 표시예를 나타내는 도면이다.
도 13b는 실시 형태 3에 따른 번역 장치의 표시예를 나타내는 도면이다.
도 14a는 변형예에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
도 14b는 변형예에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
도 14c는 변형예에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
도 15는 다른 실시 형태에 따른 번역 장치의 동작을 설명하기 위한 도면이다.
이하, 적절히 도면을 참조하면서, 실시의 형태를 상세하게 설명한다. 다만, 필요 이상으로 상세한 설명은 생략하는 경우가 있다. 예를 들면, 이미 잘 알려진 사항의 상세 설명이나 실질적으로 동일한 구성에 대한 중복 설명을 생략하는 경우가 있다. 이것은 이하의 설명이 불필요하게 장황하게 되는 것을 피하고, 당업자의 이해를 용이하게 하기 위함이다.
한편, 출원인은, 당업자가 본 개시를 충분히 이해하기 위해서 첨부 도면 및 이하의 설명을 제공하는 것으로서, 이들에 의해 청구 범위에 기재된 주제를 한정하는 것을 의도하는 것은 아니다.
(실시 형태 1)
1. 구성
본 실시 형태에 따른 번역 시스템의 구성을, 도 1, 2를 참조해서 설명한다. 도 1은 실시 형태 1에 따른 번역 시스템을 나타내는 블럭도이다. 도 2는 번역 시스템에 있어서의 번역 장치의 하드웨어 구성을 예시하는 도면이다.
본 실시 형태에 따른 번역 시스템(20)은, 도 1에 나타내는 바와 같이, 번역 장치(1)와, 번역 서버(2)를 구비한다. 본 실시 형태에서는, 음성의 입출력 등을 번역 장치(1)에서 행하고, 기계 번역을 위한 처리를 번역 서버(2)에서 행하는 번역 시스템(20)에 대해 설명한다. 본 실시 형태에 따른 번역 시스템(20)은, 예를 들면, 번역 장치(1)를 조작하는 유저가 대면하는 상대와 대화할 때에, 유저가 발화한 음성을 기계 번역해서, 번역 장치(1)로부터 음성 출력한다. 번역 장치(1)와 번역 서버(2)는, 예를 들면 인터넷 등의 네트워크(3)를 통해서 데이터 통신을 행한다.
도 2에 번역 장치(1)의 하드웨어 구성을 예시한다. 번역 장치(1)는, 도 2에 나타내는 바와 같이, 터치 패널(11A)과, 마이크(12A)와, CPU(Central Processing Unit)(14A)와, 메모리(15A)와, 통신 모듈(16A)과, 스피커(17A)를 구비한다. 번역 장치(1)는, 예를 들면 태블릿 단말, PC, 스마트폰 및 모바일 단말 등의 정보 처리 단말로 구성된다.
도 1로 돌아와, 번역 장치(1)는, 조작 입력부(11)와, 음성 입력부(12)와, 표시부(13)와, 제어부(14)와, 기억부(15)와, 번역 정보 취득부(16)와, 음성 출력부(17)를 구비한다. 제어부(14)는, 표시 제어부(141)와, 등록부(142)와, 조작 재생부(143)를 구비한다.
조작 입력부(11)는, 유저가 번역 장치(1)를 조작하는 여러 유저 조작을 접수한다. 조작 입력부(11)는, 예를 들면 터치 패널(11A)에 있어서의 터치 센서를 포함한다. 터치 패널(11A) 상의 표시면에 닿는 터치 조작이 입력되면, 조작 입력부(11)는, 예를 들면 터치 위치를 좌표로 나타내는 신호를 생성해서, 표시 제어부(141) 등에 출력한다.
조작 입력부(11)는, 터치 패널(11A)에 한정되지 않고, 마우스, 키보드 등의 여러 입력 장치를 포함해도 좋다. 또, 터치 패널(11A)은 표시면 근방에 있어서의 제스처 조작 등도 입력 가능하게 구성되어도 좋다. 유저 조작에는, 터치 조작, 제스처 조작, 마우스 조작 및 키보드 조작 등의 여러 조작이 포함된다. 조작 입력부(11)는, 예를 들면 터치 위치의 이력에 의해 표시되는, 유저 조작의 조작 내용을 취득한다.
음성 입력부(12)는, 예를 들면 마이크(12A)로 구성된다. 음성 입력부(12)는, 음성의 입력을 접수하고, 입력 음성을 나타내는 음성 정보(음성 데이터)를 생성한다. 입력 음성에는, 예를 들면 유저가 발화한 음성이 포함된다.
표시부(13)는, 예를 들면 터치 패널(11A)의 표시면을 구성하는 액정 디스플레이 또는 유기 EL 디스플레이 등이다. 표시부(13)는 표시 제어부(141)의 제어에 의해, 여러 정보를 표시한다. 예를 들면, 표시부(13)는 소정의 어플리케이션 소프트웨어의 화면을 표시하거나 유저의 조작 내용에 따른 화상을 표시한다. 표시부(13)는 본 실시 형태에 있어서의 번역 장치(1)의 실행부의 일례이다.
제어부(14)는 번역 장치(1)에 있어서의 각부의 동작 전체를 제어한다. 제어부(14)는, 예를 들면 소프트웨어와 협동해서 소정의 기능을 실현하는 CPU(14A)로 구성된다. 제어부(14)는 기억부(15)에 저장된 데이터나 프로그램을 판독해서 여러 연산 처리를 행하고, 표시 제어부(141), 등록부(142) 및 조작 재생부(143) 등의 각종 기능을 실현한다. 또, 제어부(14)는 예를 들면 SRAM(Static Random Access Memory) 또는 DRAM(Dynamic Random Access Memory) 등으로 구성되는 내부 메모리를 갖는다.
표시 제어부(141)는 조작 입력부(11)로부터의 신호에 근거해서, 표시부(13)에 의한 표시 동작을 제어한다. 예를 들면, 표시 제어부(141)는, 터치 패널(11A)에 있어서 터치 조작 중의 터치 위치를 판단하고, 터치 위치의 궤적에 따라서 화상 표시를 제어한다.
등록부(142)는 제어부(14)의 내부 메모리에 일시 보존된 정보 등을 기억부(15)에 기입하고, 이력 데이터베이스(D1)에의 정보 등록을 행한다. 이력 데이터베이스(D1)는 유저 조작의 조작 내용과 입력 음성을 관련지어서, 조작 내용의 이력을 관리하는 데이터베이스이다. 이력 데이터베이스(D1)의 상세한 것에 대하여는 후술한다.
조작 재생부(143)는 이력 데이터베이스(D1)에 등록된 정보에 근거해서, 예를 들면 소정의 커멘드를 생성한다. 이것에 의해, 조작 재생부(143)는 유저 조작의 조작 내용을 재생하기 위한 동작을 설정한다.
또한, 제어부(14)는 소정의 기능을 실현하도록 설계된 전용의 전자 회로나 재구성 가능한 전자 회로 등의 하드웨어 회로로 구성되어도 좋다. 제어부(14)는 CPU, MPU(Micro Processing Unit), 마이크로 콘트롤러, DSP(Digital Signal Processor), FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated Circuit) 등의 여러 반도체 집적 회로로 구성되어도 좋다.
기억부(15)는 번역 장치(1)의 기능을 실현하기 위해서 필요한 프로그램 및 데이터를 기억하는 기억 매체이다. 예를 들면, 기억부(15)는 상기의 이력 데이터베이스(D1)를 저장한다. 기억부(15)는 예를 들면 SRAM 또는 DRAM 등의 고속 메모리, 혹은 플래시 메모리 등의 메모리(15A)를 포함한다.
번역 정보 취득부(16)는, 본 실시 형태에 있어서, 네트워크(3)를 통한 번역 서버(2)와의 데이터 통신에 의해, 특정의 입력 음성의 번역 결과를 포함한 번역 정보를 취득한다. 번역 정보 취득부(16)는 예를 들면 소정의 통신 규격에 준거한 통신을 행하는 통신 모듈(16A)을 포함한다. 소정의 통신 규격에는, IEEE 802.3, IEEE 802.11a/11b/11g/11Ac 등의 통신 규격이 포함된다. 번역 정보 취득부(16)는 CPU(14A) 상의 제어 프로그램 등의 소프트웨어와의 협동에 있어서 실현되어도 좋다.
음성 출력부(17)는 예를 들면 스피커(17A)로 구성된다. 음성 출력부(17)는 예를 들면 번역 정보 취득부(16)에 의해 취득된 번역 정보가 나타내는 번역 결과 등의 음성 출력을 행한다. 음성 출력부(17)는 본 실시 형태에 있어서의 번역 장치(1)의 정보 출력부의 일례이다.
번역 서버(2)는 예를 들면 ASP(Application Service Provider) 서버 등의 1개 또는 복수의 서버 장치로 구성된다. 번역 서버(2)는 네트워크(3)를 통해서 번역 장치(1)와 음성 정보의 송수신을 행한다. 번역 서버(2)는, 수신한 음성 정보에 근거해서, 음성 인식 처리, 번역 처리, 및 음성 합성 처리 등의 처리를 행한다. 번역 서버(2)에 있어서, 각 처리를 실행하는 서버 장치는 일체적으로 구성되어도 좋고, 별체로 구성되어도 좋다. 또, 번역 서버(2)는 클라우드 컴퓨팅을 행해도 좋다.
2. 동작
이하, 본 실시 형태에 따른 번역 시스템 및 번역 장치의 동작에 대해 설명한다.
2-1. 동작의 개요
본 실시 형태에 따른 번역 시스템(20)의 동작의 개요에 대해, 도 3a~도 3d를 참조해서 설명한다. 도 3a~도 3d는 번역 시스템(20)에 있어서의 번역 장치(1)의 동작을 설명하기 위한 도면이다.
도 3a~도 3d는 본 실시 형태에 따른 번역 장치(1)의 일련의 사용예를 나타내고 있다. 번역 장치(1)는 예를 들면, 외국인에게 접객하거나 길 안내하는 대응에 있어서 사용할 수 있다. 이하, 번역 장치(1)를 이용해서 안내를 행하는 측의 유저를 「호스트」라고 하고, 안내되는 측의 유저를 「게스트」라고 한다. 본 사용예에 있어서, 호스트가 사용하는 언어는 일본어이며, 게스트가 사용하는 언어는 영어이다.
도 3a는 호스트가 발화 중인 터치 패널(11A)의 표시예를 나타낸다. 도 3b는 도 3a의 상태 후에 번역 장치(1)가 번역 결과를 음성 출력 중인 표시예를 나타낸다. 도 3c는 도 3b의 상태 후에 추가로 호스트가 발화 중인 표시예를 나타낸다. 도 3d는 도 3c의 상태 후에 번역 장치(1)가 번역 결과를 음성 출력 중인 표시예를 나타낸다.
도 3a~도 3d의 사용예는 호스트가 게스트에게 길 안내를 행할 때의 사용예이다. 본 실시 형태에 따른 번역 시스템(20)은 일례로서 1 발화문(文)마다 번역 동작을 행한다.
예를 들면, 도 3a 상태에 있어서, 호스트는 음성(V1)이라고 하는 발화문을 발화하고 있다. 번역 시스템(20)은 번역 장치(1)로부터 발화문을 음성 입력해서, 기계 번역을 번역 서버(2)에서 행한다(도 1 참조). 번역 장치(1)는 발화의 종료시부터 소정 기간 후(예를 들면 2초 후)에, 도 3b에 나타내는 바와 같이, 음성(V1)에 대응한 번역 결과(T1)의 번역문 「Please go straight along this road.」을 음성 출력한다.
또, 도 3b의 음성 출력 후, 호스트가 추가로, 도 3c에 나타내는 바와 같이, 음성(V2)이라고 하는 발화문을 발화하고 있다. 이것에 따라서, 번역 장치(1)는, 도 3d에 나타내는 바와 같이, 음성(V2)에 대응한 번역 결과(T2)의 번역문 「Please turn the first corner to the left.」을 음성 출력한다.
이상과 같이, 번역 장치(1)를 이용해서 길 안내를 행할 때에는, 호스트가 지도 상의 길 등을 지시하면서 설명함으로써, 호스트가 설명하고 싶은 내용이 게스트에게 쉽게 전달된다고 생각된다. 그래서, 본 실시 형태에 따른 번역 시스템(20)에서는, 기계 번역을 이용해서 호스트가 게스트에게 여러 안내를 행할 때에, 번역 장치(1)가 번역 결과를 음성 출력함과 아울러, 지도, 사진, 물건의 사용법 및 소재를 나타내는 정보 등의 보조 정보를 표시한다. 도 3a~도 3d의 사용예에서는, 지도의 화면이 표시되어 있다.
도 3a의 예에서는, 호스트가 음성(V1)으로 발화하면서, 터치 패널(11A) 상에서 특정의 길을 손가락으로 트레이싱하는 터치 조작을 행하고 있다. 이때, 호스트의 발화를 직접 이해할 수 없는 게스트로서는, 호스트의 발화 중에 시인되는 유저 조작으로부터, 호스트가 의도하는 내용을 판독하게 하는 것은 어렵다. 그래서, 본 실시 형태에 따른 번역 장치(1)는, 유저의 발화의 음성 입력 중에, 조작 입력부(11)로부터 입력된 유저 조작의 조작 내용을, 번역 결과의 음성 출력에 동기해서 재생한다.
예를 들면, 번역 장치(1)는, 도 3b에 나타내는 바와 같이, 번역 결과(T1)의 번역문 「Please go straight along this road.」을 음성 출력하면서, 손가락 형상의 아이콘 등이 특정의 길을 트레이싱하도록, 화상 표시를 행한다. 이것에 의해, 번역문 중의 「this road」가 나타내는 길이 어느 길인지를 게스트에게 쉽게 전한다.
또, 도 3c의 예에서는, 호스트가 음성(V2)으로 발화하면서, 터치 패널(11A) 상에서 특정의 코너를 트레이싱하는 터치 조작을 행하고 있다. 그러면, 번역 장치(1)는, 도 3d에 나타내는 바와 같이, 음성(V2)에 대응한 번역 결과(T2)의 번역문 「Please turn the first corner to the left.」을 음성 출력하면서, 아이콘이 특정의 코너를 트레이싱하도록, 화상 표시를 행한다. 이것에 의해, 번역문 중의 「the first corner」가 나타내는 코너가 어느 곳인지 「the left」가 어느 방향인지를 게스트에게 쉽게 전달한다.
또, 도 3a, 도 3c의 예에서는, 호스트가 터치 패널(11A)을 트레이싱하는 터치 조작을 행했을 때에, 터치 패널(11A)은 트레이싱 궤적을 나타내는 화살표 화상을 표시하고 있다. 도 3a, 도 3c의 표시예로 표시된 화살표 화상은, 도 3b, 도 3d에 나타내는 바와 같이, 번역 결과의 음성 출력시에도, 마찬가지로 표시된다. 이와 같이, 발화 중의 호스트가 시인하는 조작 내용 자체를 번역시에 재생함으로써, 번역 장치(1)를 거치는 것의 부자연스러움을 저감해서, 호스트가 자신의 의도를 쉽게 전달할 수 있다.
이하, 본 실시 형태에 따른 번역 시스템 및 번역 장치의 동작의 상세를 설명한다.
2-2. 번역 시스템의 동작
본 실시 형태에 따른 번역 시스템(20)의 동작을, 도 4, 5를 참조해서 설명한다. 도 4는 본 실시 형태에 따른 번역 시스템(20)의 동작을 나타내는 순서도이다. 도 5는 본 실시 형태에 따른 번역 장치(1)의 동작을 설명하기 위한 타이밍 차트이다.
도 5에 있어서의 (a)는 발화 개시 버튼 및 발화 종료 버튼의 조작 타이밍을 나타낸다. 도 5에 있어서의 (b)는 입력 음성의 입력 타이밍을 나타낸다. 도 5에 있어서의 (c)는 유저에 의한 터치 조작의 조작 타이밍을 나타낸다. 도 5에 있어서의 (d)는 터치 조작에 있어서의 터치 위치의 이력을 나타낸다. 도 5에 있어서의 (e)는 번역 결과의 음성 출력의 출력 타이밍을 나타낸다. 도 5에 있어서의 (f)는 재생 표시의 동작 타이밍을 나타낸다.
도 4의 시퀀스에 있어서, 우선, 번역 장치(1)는, 유저가 발화하는 음성과 유저 조작의 입력을 접수하는 입력 처리를 행한다(스텝 S1). 예를 들면, 도 3a의 예 에 있어서, 스텝 S1의 입력 처리는 시각 t1~시각 t2에 행해진다(도 5에 있어서의 (a)~(d) 참조). 또, 도 3c의 예에 있어서, 스텝 S1의 입력 처리는 시각 t3~시각 t4에 행해진다.
도 3a의 예에서는, 음성(V1)이라 하는 발화문을 나타내는 음성 정보가, 발화문의 식별 정보와 함께, 번역 장치(1)로부터 번역 서버(2)에 송신된다. 발화문의 식별 정보는, 예를 들면 발화 개시의 시각 t1를 나타내는 시각 정보이다. 스텝 S1의 입력 처리의 상세한 것에 대하여는 후술한다.
번역 서버(2)는 번역 장치(1)로부터 음성 정보 및 식별 정보를 수신하면, 수신한 음성 정보가 나타내는 발화문을 음성 인식하는 음성 인식 처리를 행한다(스텝 S21). 본 처리에 있어서, 번역 서버(2)는 음성 인식한 발화문을 나타내는 정보로서 예를 들면 일본어의 텍스트 데이터를 생성한다. 또, 번역 서버(2)는 음성 정보와 함께 수신한 식별 정보(t1)에 관련지어, 생성한 텍스트 데이터를 관리한다.
다음으로, 번역 서버(2)는 생성한 텍스트 데이터에 근거해서 번역 처리를 행한다(스텝 S22). 도 3a~도 3d의 예에서는, 번역 서버(2)는 스텝 S22에 있어서 일본어로부터 영어로의 기계 번역을 행한다. 번역 서버(2)는 영어로의 번역 결과를 나타내는 번역문의 텍스트 데이터를 생성한다.
다음으로, 번역 서버(2)는 생성한 번역문의 텍스트 데이터에 근거해서, 텍스트 데이터가 나타내는 번역문을 나타내도록 음성 합성하는 음성 합성 처리를 행한다(스텝 S23). 도 3a, 도 3b의 예에서는, 번역 서버(2)는 음성 합성 처리에 의해 번역문 「Please go straight along this road.」의 음성 정보를 생성한다. 번역 서버(2)는 번역 대상의 음성 정보와 함께 수신한 식별 정보(t1), 및 번역 결과의 음성 정보를 포함한 번역 정보를 번역 장치(1)에 송신한다.
번역 장치(1)는, 번역 서버(2)로부터 번역 정보를 수신하면, 번역 결과의 음성 정보와 대응하는 유저 조작의 조작 내용을 동기 재생하는 재생 처리를 행한다(스텝 S3).
도 3a, 도 3b의 예에서는, 입력 처리(S1)가 종료된 시각 t2로부터 시각 t21까지의 사이에 스텝 S21~S23의 처리가 행해진다. 그리고, 번역 장치(1)는 시각 t21로부터, 스텝 S3에 의한 재생 처리의 재생 동작을 개시한다(도 5에 있어서의 (e), (f) 참조). 이때, 번역 장치(1)는, 번역 정보에 포함되는 식별 정보(t1)에 근거해서, 번역 결과의 음성 정보에 대응하는 유저 조작의 조작 내용을 식별한다. 스텝 S3의 재생 처리의 상세한 것에 대하여는 후술한다.
번역 장치(1)가 스텝 S3의 처리를 실행함으로써, 본 시퀀스에 있어서의 번역 시스템(20)의 처리는 종료한다.
이상의 처리에 의하면, 번역 시스템(20)에 있어서, 번역 서버(2)가 기계 번역을 행하고, 번역 장치(1)가 유저 조작의 입출력에 동기해서 유저의 발화와 번역 결과의 입출력을 행할 수 있다.
이상의 처리에 있어서, 스텝 S21, S22, S23의 각 처리는, 예를 들면 각 처리의 입출력시에 식별 정보를 부여해서 관리함으로써, 번역 서버(2)에 포함되는 다른 서버 장치로 행해져도 좋다.
스텝 S21~S23 동안의 데이터의 송수신은 번역 서버(2) 내에서 행해져도 좋다. 또, 각 처리가 완료할 때마다 번역 서버(2)가 번역 장치(1)에 데이터를 되돌려, 번역 장치(1)가 다음의 처리 서버에 데이터를 송신해도 좋다. 이것에 의해, 예를 들면 다른 서비스 회사의 음성 인식과 번역을 이용하는 것이 가능해진다.
또, 음성 인식 처리(S21), 번역 처리(S22) 및 음성 합성 처리(S23) 중 일부 또는 모든 처리가, 번역 서버(2) 대신에, 번역 장치(1)에 의해 행해져도 좋다.
2-2-1. 번역 장치의 입력 처리
도 4의 스텝 S1에 있어서의 번역 장치(1)의 입력 처리에 대해, 도 5~7을 참조해서 설명한다. 도 6은 번역 장치(1)의 입력 처리(도 4의 S1)를 나타내는 흐름도이다. 도 7은 번역 장치(1)에 있어서의 이력 데이터베이스(D1)를 설명하기 위한 도면이다.
도 6의 흐름도에 따른 처리는, 터치 패널(11A)의 표시부(13)가 미리, 도 3a에 예시하는 지도의 화면에 더해서, 발화 개시 버튼 및 발화 종료 버튼을 표시하고 있는 상태로 개시된다.
도 6의 흐름도에 있어서, 우선, 번역 장치(1)의 제어부(14)는 유저의 발화가 개시했는지 아닌지를 검지한다(스텝 S11). 본 실시 형태에 있어서, 스텝 S11의 검지 처리는 발화 개시 버튼을 압하하는 조작에 따라서 조작 입력부(11)가 생성하는 신호에 근거해서 행해진다. 제어부(14)는, 발화의 개시를 검지할 때까지, 예를 들면 주기적으로 스텝 S11의 처리를 반복한다(S11에서 No).
제어부(14)는, 발화의 개시를 검지하면(자)(S11에서 Yes), 발화가 개시한 개시 시각을 취득한다(스텝 S12). 예를 들면, 도 3a의 예에서는, 도 5에 있어서의 (a)에 나타내는 바와 같이, 발화 개시 버튼이 시각 t1에 압하되고 있다. 이때, 제어부(14)는, 스텝 S11에 있어서 「Yes」로 진행되고, 개시 시각으로서 시각 t1를 취득한다(S12).
다음으로, 제어부(14)는, 예를 들면 내부 메모리에, 음성 입력부(12)로부터 입력되는 입력 음성을 기록하고, 이것과 함께 조작 입력부(11)로부터 입력되는 유저 조작의 조작 내용을 기록한다(스텝 S13). 스텝 S13의 처리는, 입력 음성과 조작 내용을 모아서 이력 데이터베이스(D1)에 등록하기 위해서, 유저의 발화 중에 일시 보존하는 처리이다.
다음으로, 제어부(14)는 유저의 발화가 종료했는지 아닌지를 검지한다(스텝 S14). 본 실시 형태에 있어서, 스텝 S14의 검지 처리는, 발화 종료 버튼을 압하하는 조작에 따라서 조작 입력부(11)가 생성하는 신호에 근거해서 행해진다. 제어부(14)는 발화의 종료를 검지할 때까지, 예를 들면 1/60초 등의 소정 주기에 있어서 스텝 S13, S14의 처리를 반복한다(S14에서 No).
도 3a의 예에서는, 유저의 발화는 시각 t1로부터 시각 t2까지의 동안에 행해진다(도 5에 있어서의(a), (b)). 제어부(14)는 음성 입력부(12)를 통해서 입력되는 발화문의 음성(V1)을, 시각 t1로부터 순서대로, 기록한다(S13). 또, 도 3a의 예에서는, 유저는 발화와 동시에 터치 조작을 행하고 있다(도 5에 있어서의 (c)). 제어부(14)는 예를 들면, 도 5에 있어서의 (d)에 나타내는 바와 같이, 터치 조작에 의한 터치 위치의 이력으로서 1/60초마다의 터치 위치의 좌표 (10, 15), (12, 15),…를 기록한다(S13).
제어부(14)는, 발화의 종료를 검지하면(S14에서 Yes), 발화가 종료한 종료 시각을 취득한다(스텝 S15). 예를 들면, 유저가, 1 발화문을 발화한 후의 시각 t2에 발화 종료 버튼을 압하하면(도 5에 있어서의(a)), 제어부(14)는 일시 보존의 처리(S13)를 종료해서 스텝 S14에서 「Yes」로 진행하고, 시각 t2를 종료 시각으로서 취득한다(S15).
다음으로, 제어부(14)는 등록부(142)로서 기능하고, 일시 보존한 입력 음성 및 유저 조작의 조작 내용을 서로 관련지어 이력 데이터베이스(D1)에 등록한다(스텝 S16). 스텝 S16에 있어서, 제어부(14)는 내부 메모리에 일시 보존한 정보를 기억부(15)에 기입한다. 본 실시 형태에 있어서, 등록부(142)는 취득한 개시 시각 및 종료 시각을 이용해서 이력 데이터베이스(D1)로의 정보의 등록을 행한다. 도 7을 이용해서, 이력 데이터베이스(D1)에 대해 설명한다.
본 실시 형태에 있어서, 이력 데이터베이스(D1)는, 도 7에 나타내는 바와 같이, 「개시 시각」, 「종료 시각」, 「입력 음성」, 및 「조작 내용」을 관련지어 관리한다. 도 3a의 예에서는, 스텝 S16에 있어서, 등록부(142)는, 개시 시각 t1 및 종료 시각 t2를 각각, 이력 데이터베이스(D1)의 「개시 시각」 및 「종료 시각」의 데이터 항목에 기록한다. 또, 등록부(142)는, 각 시각 t1, t2에 관련지어, 각각 일시 보존한 입력 음성을 나타내는 음성 정보 및 터치 조작의 조작 내용을 등록한다. 이력 데이터베이스(D1)에 있어서, 「음성 정보」의 데이터 항목에는, 예를 들면 입력 음성을 나타내는 음성 정보의 데이터 파일에의 링크가 기록된다. 또, 「조작 내용」의 데이터 항목에는, 예를 들면 터치 위치의 이력의 좌표가 기록된다.
도 7에 예시하는 이력 데이터베이스(D1)에 따르면, 개시 시각(또는 종료 시각)을 키로서 이용해서, 특정의 음성 정보에 관련지어진 조작 내용을 검색할 수 있다. 또, 개시 시각 및 종료 시각의 쌍방을 참조해서, 관련지어진 입력 음성 및 유저 조작이 입력된 입력 기간을 산출할 수 있다.
다음으로, 제어부(14)는, 번역 정보 취득부(16)를 통해서, 이력 데이터베이스(D1)에 등록한 입력 음성의 음성 정보를 번역 서버(2)에 송신한다(스텝 S17). 본 실시 형태에서는, 제어부(14)는 이력 데이터베이스(D1)를 참조해서, 입력 음성에 관련지어진 개시 시각을 식별 정보로서 입력 음성의 음성 정보에 부가한다. 그리고, 제어부(14)는 그 음성 정보를 번역 서버(2)에 송신한다(도 4 참조).
스텝 S17의 처리를 실행함으로써, 번역 장치(1)의 제어부(14)는 본 흐름도에 따른 처리를 종료한다. 이것에 의해, 번역 시스템(20)에 있어서의 처리는 도 4의 스텝 S21로 진행한다.
이상의 처리에 따르면, 유저는 번역 대상의 내용을 발화하면서, 발화 내용에 따른 유저 조작을 번역 장치(1)에 입력할 수 있다. 번역 장치(1)는 발화의 입력 음성에 관련지어, 발화와 동시에 행해진 유저 조작의 조작 내용을 축적할 수 있다.
또, 예를 들면 도 3a, 도 3c의 예에서는, 상기의 스텝 S13에 있어서 조작 입력부(11)로부터 유저 조작이 입력되면, 표시 제어부(141)는, 조작 입력부(11)가 생성하는 신호에 따라, 표시부(13)의 표시를 제어한다. 이것에 의해, 발화 중의 호스트가 자신의 조작에 근거하는 동작을 확인하면서 발화할 수 있어, 호스트에게 있어 번역 장치(1)를 사용하기 쉽게 할 수 있다.
이상의 설명에서는, 이력 데이터베이스(D1)의 일례로서 도 7에 예시하는 이력 데이터베이스(D1)를 설명했다. 이력 데이터베이스(D1)는 「개시 시각」, 「종료 시각」, 「입력 음성」, 및 「조작 내용」에 더해서 「어플리케이션 상태」를 관련지어 관리해도 좋다. 「어플리케이션 상태」는 유저가 조작하고 있는 어플리케이션 상태를 결정하는 파라미터이다. 구체적으로는, 「어플리케이션 상태」는 예를 들면, 지도 어플리케이션에 있어서의 표시 지도 좌표나 표시 배율이나, Web 브라우저의 표시 페이지 주소(URL), 표시 위치, 표시 배율 등이다.
도 5에 있어서의 (c)에 있어서의 시각 t1로부터 시각 t2의 유저 조작 중에 지도 어플리케이션의 표시 배율을 변경하는 조작이 행해진 경우에 대해 설명한다. 시각 t1에서는 지도 어플리케이션의 표시 배율이 1/10000으로 설정되어 있었지만, 표시 배율을 변경하는 조작에 의해, 시각 t2에서는 표시 배율이 1/25000으로 변경된 것으로 한다. 이 경우, 시각 t21로부터의 재생 표시시에는 표시 배율을 시각 t1에 있어서의 표시 배율인 1/10000로 되돌리고 나서 재생 표시할 필요가 있다.
이 경우에, 제어부(14)는, 「어플리케이션 상태」로서 시각 t1에 있어서의 표시 배율을 이력 데이터베이스(D1)에 기록해 둔다. 그리고, 제어부(14)는 시각 t21로부터의 재생 표시시에 시각 t1에 있어서의 표시 배율을 취득하고, 지도 어플리케이션의 표시 배율을 취득한 값으로 변경한다.
또, 이상의 설명에서는, 입력 음성과 유저 조작을 관련짓는 식별 정보로서 발화의 개시 시각을 이용하는 예를 예시했지만, 이것에 한정하지 않고, 예를 들면 발화의 종료 시각 등의 다른 시각 정보를 이용해도 좋다. 또, 식별 정보는 시각 정보에 한정하지 않고 여러 식별 정보이어도 좋고, 예를 들면, 발화 순으로 증분되는 발화문마다 부여되는 ID이어도 좋다.
또, 스텝 S11에 있어서의 발화 개시의 검지 처리는 발화 개시 버튼의 압하 검지에 따라서 행해졌지만, 이것에 한정되지 않는다. 발화 개시의 검지 처리는 예를 들면 음성 입력부(12)에 의해 입력되는 음성의 음성 해석 결과에 따라서 행해져도 좋다. 예를 들면, 발화 개시의 검지 처리는, 번역 장치(1)가 발화 개시를 의미하는 소정의 프레이즈(phrase)를 검지하는 것에 따라서, 행해져도 좋다.
또, 스텝 S14에 있어서의 발화 종료의 검지 처리도, 발화 종료 버튼의 압하 검지에 따라 행해졌지만, 이것에 한정되지 않는다. 발화 종료의 검지 처리는 예를 들면 음성 해석 결과에 따라 행해져도 좋다. 예를 들면, 발화 종료의 검지 처리는 번역 장치(1)가 음성 입력부(12)를 통해서, 접속사를 검지하는 것에 따라서 행해져도 좋고, 소정 기간 이상의 무음 상태를 검지하는 것에 따라서 행해져도 좋다.
또, 스텝 S17의 처리에 있어서, 번역 장치(1)는 반드시 이력 데이터베이스(D1)에 등록한 정보를 모두 번역 서버(2)에 송신할 필요는 없다. 예를 들면, 번역 장치(1)는 입력 음성의 정보만을 번역 서버(2)에 송신해도 좋다. 이때, 예를 들면, 번역 장치(1)는 송신한 입력 음성의 번역 결과를 수신할 때까지, 새로운 입력 음성을 접수하지 않게 해도 좋다.
또, 이상의 설명에서는, 도 6의 스텝 S13의 처리는, 입력 음성과 조작 내용을 이력 데이터베이스(D1)에 등록하기 위해서, 유저의 발화 중에 입력 음성과 조작 내용을 일시 보존하는 처리로 했다. 이것 대신에, 스텝 S13의 처리는 입력 음성과 조작 내용을 직접 이력 데이터베이스(D1)에 기록하는 처리로 해도 좋다. 그 경우, 도 6에 나타내는 흐름도에 있어서, 내부 메모리에 일시 보존한 정보를 이력 데이터베이스(D1)에 기록하는 스텝 S16의 처리를 생략해도 좋다.
2-2-2. 번역 장치의 재생 처리
도 4의 스텝 S3에 있어서의 번역 장치(1)의 재생 처리에 대해, 도 8을 참조해서 설명한다. 도 8은 번역 장치(1)의 재생 처리(도 4의 S3)를 나타내는 흐름도이다.
우선, 제어부(14)는 번역 정보 취득부(16)가 번역 서버(2)로부터 번역 정보를 수신했는지 아닌지를 판단한다(스텝 S31). 예를 들면, 도 3a, 도 3b의 예에서는, 번역 정보 취득부(16)는 번역문 「Please go straight along this road.」의 음성 정보 및 식별 정보(t1)를 포함한 번역 정보를 수신한다(도 4 참조). 스텝 S31의 처리는 번역 정보 취득부(16)가 번역 정보를 수신할 때까지, 예를 들면 주기적으로 반복된다(S31에서 No).
번역 정보 취득부(16)가 번역 정보를 수신하면(S31에서 Yes), 제어부(14)는 이력 데이터베이스(D1)에 있어서의 검색의 키로서 수신한 번역 정보에 있어서의 식별 정보의 시각을 취득한다(스텝 S32). 상기의 예에서는, 제어부(14)는 키로서 번역 소스(source)의 입력 음성의 개시 시각 t1를 취득한다.
다음으로, 제어부(14)는 조작 재생부(143)로서 기능하고, 이력 데이터베이스(D1)에 있어서의 검색을 행해서, 취득한 키의 시각에 관련지어진 조작 내용을 취득한다(스텝 S33). 도 3a, 도 3b의 예에서는, 조작 재생부(143)는 도 7에 예시하는 이력 데이터베이스(D1)를 참조해서, 번역 소스의 입력 음성과 함께 관련지어진 조작 내용 「(10, 15), (12, 15),…」를 취득한다. 이와 같이, 수신한 번역 정보에 근거해서, 번역 정보의 번역 소스의 입력 음성과 동시에 입력된 유저 조작의 조작 내용을 식별할 수 있다.
또한, 제어부(14)는 조작 재생부(143)로서 기능하고, 취득한 조작 내용에 근거하는 재생 표시의 표시 동작(재생 동작)을 설정한다(스텝 S34). 도 3a, 도 3b의 예에서는, 조작 재생부(143)는 취득한 조작 내용에 따라서, 예를 들면 유저에 의한 터치 조작이 행해지는 것을 화면 상에서 표현하기 위한 커멘드를 표시 제어부(141)에 발행한다(S34). 당해 커멘드에 근거해서, 표시 제어부(141)는 터치 위치의 이력에 추종하도록 아이콘을 표시부(13)로 하여금 표시하게 한다(도 5에 있어서의 (f) 참조).
또, 상기의 예에 있어서, 조작 재생부(143)는 예를 들면 스텝 S13에 있어서 조작 입력부(11)에 의해 생성되는 신호와 동일한 내용을 나타내는 커멘드를 표시 제어부(141)에 발행한다(S34). 당해 커멘드에 근거해서, 표시 제어부(141)는 유저가 터치 조작을 개시한 시각 t1로부터 표시된 화살표 화상을 재현하도록, 화살표 화상을 표시부(13)로 하여금 표시하게 한다(도 5에 있어서의 (c), (f) 참조). 표시 제어부(141)는 화살표 화상을 표시시킬 때에, 터치 위치 이력에 추종하는 아이콘을 표시부(13)에 표시시켜도 좋고, 표시시키지 않아도 좋다.
다음으로, 제어부(14)는, 예를 들면 음성 출력부(17)의 동작과 표시 제어부(141)의 동작을 동기시키는 동기 신호를 생성한다. 그리고, 제어부(14)는 이 동기 신호에 근거해서, 수신한 번역 정보에 포함되는 번역 결과의 음성 정보의 음성 출력과 조작 내용에 따른 재생 표시를 동기해서 출력시킨다(스텝 S35). 한편, 제어부(14)는 반드시 음성 출력과 동시에 재생 표시를 출력시키지 않아도 좋다. 제어부(14)는 음성 출력에 대해서 소정의 기간 후에 재생 표시를 출력시킴으로써, 음성 출력과 재생 표시를 동기해서 출력시켜도 좋다.
도 3a, 도 3b의 예에서는, 음성 출력부(17)는 도 5에 있어서의 (e)에 나타내는 바와 같이, 시각 t21로부터 번역문 「Please go straight …」를 음성 출력한다. 이때, 표시 제어부(141)는 음성 출력부(17)에 의한 음성 출력에 동기해서, 시각 t21로부터 조작 재생부(143)로부터의 커멘드에 따르는 재생 표시를 행한다.
제어부(14)는 스텝 S35의 처리를 실행함으로써, 본 흐름도에 따른 처리를 종료한다.
이상의 처리에 따르면, 입력 음성의 번역 결과의 음성 출력에 동기해서, 입력 음성에 관련지어진 유저 조작의 조작 내용이 재생 표시된다(S35). 이것에 의해, 예를 들면 호스트의 발화시의 조작 내용이 번역 결과의 음성 출력에 동기해서 재생 표시된다. 그 때문에, 호스트의 발화의 번역 결과를 듣는 게스트에게 있어, 호스트의 의도를 이해하기 쉽게 할 수 있다.
상기의 스텝 S35에 있어서, 예를 들면 입력 음성의 입력 기간이 번역 결과의 음성 출력 기간보다 긴 경우에는, 번역 장치(1)는 음성 출력 기간의 길이에 따라서, 조작 내용의 재생 표시를, 연장 또는 반복 재생해도 좋다. 또, 입력 음성의 기간이 번역 결과의 음성 출력 기간보다 짧은 경우에는, 번역 장치(1)는 재생 표시를 솎아내거나 고속화하거나 해도 좋다.
예를 들면, 스텝 S34에 있어서, 번역 장치(1)의 조작 재생부(143)는 이력 데이터베이스(D1)에 등록된 개시 시각과 종료 시각에 근거해서 입력 음성의 입력 기간을 산출한다. 또, 조작 재생부(143)는 번역 정보 취득부(16)가 취득한 번역 정보에 근거해서 번역 결과의 음성 출력 기간을 취득한다. 조작 재생부(143)는 입력 기간과 음성 출력 기간을 비교하고, 비교 결과에 따라서 재생 표시에 있어서의 연장 또는 솎아냄 등의 설정을 행한다. 이것에 의해, 조작 재생부(143)는 번역 결과의 음성 출력 기간과 조작 내용의 재생 표시의 기간이 동기하도록, 표시부(13)의 재생 동작의 설정을 행한다.
한편, 상기와 같이, 입력 음성의 입력 기간과 번역 결과의 음성 출력 기간을 특별히 비교하지 않고 조작 내용에 근거하는 동작이 설정되는 경우에는, 이력 데이터베이스(D1)는 개시 시각과 종료 시각의 쌍방을 관리하지 않아도 좋다. 이 경우, 입력 처리(도 6)에 있어서 스텝 S12 또는 스텝 S15의 처리가 생략되어도 좋다.
3. 효과 등
이상과 같이, 본 실시 형태에 있어서, 번역 장치(1)는 조작 입력부(11)와, 음성 입력부(12)와, 번역 정보 취득부(16)와, 정보 출력부의 일례인 음성 출력부(17)와, 실행부의 일례인 표시부(13)와, 제어부(14)를 구비한다. 조작 입력부(11)에는, 유저 조작이 입력된다. 음성 입력부(12)에는, 음성이 입력된다. 번역 정보 취득부(16)는 음성 입력부(12)에 입력된 음성의 번역 결과를 취득한다. 음성 출력부(17)는 번역 결과를 출력한다. 표시부(13)는 유저 조작에 따른 출력 동작으로서 표시 동작을 실행한다. 제어부(14)는 표시부(13)에 따른 동작을 제어한다. 제어부(14)는 음성 출력부(17)에 의한 번역 결과의 출력에 동기해서, 번역 결과에 대응하는 음성의 입력 중에 조작 입력부(11)에 입력된 유저 조작의 조작 내용에 근거하는 동작을 표시부(13)로 하여금 실행하게 한다.
또, 본 실시 형태에 있어서, 음성 출력부(17)는 번역 결과를 음성으로서 출력한다.
이상의 번역 장치(1)에 따르면, 번역 대상의 음성을 입력 중에, 의도하는 내용에 따른 유저 조작이 번역 장치(1)에 입력되고, 번역 결과의 음성 출력에 동기해서, 입력한 유저 조작의 조작 내용이 출력된다. 이것에 의해, 번역 결과의 음성 출력을 듣는 상대에 대해서, 번역 대상의 발화를 행하는 유저가 의도하는 내용을 쉽게 전달할 수 있다.
본 실시 형태에 있어서, 제어부(14)는 번역 결과가 출력되는 기간과 유저 조작의 조작 내용에 근거하는 동작이 실행되는 기간이 동기하도록, 조작 내용에 근거하는 동작을 설정한다. 이것에 의해, 번역 결과의 음성 출력을 듣는 상대에게 있어, 출력되는 조작 내용을 확인하기 쉽게 할 수 있다.
또, 본 실시 형태에 있어서, 제어부(14)는 유저 조작의 조작 입력부(11)로의 입력에 동기해서, 유저 조작의 조작 내용에 근거하는 동작을 표시부(13)로 하여금 실행하게 한다. 이것에 의해, 예를 들면 도 3a에 나타내는 화살표 화상과 같이, 유저가 발화하면서 유저 조작을 행하고 있을 때에, 유저는 표시부(13)에 의한 출력 동작을 확인할 수 있다. 그 때문에, 예를 들면 호스트에게 있어, 번역 장치(1)를 사용하기 쉽게 할 수 있다.
또, 본 실시 형태에 있어서, 번역 결과의 출력에 동기한 동작은 유저 조작의 조작 입력부(11)에의 입력에 동기한 동작을 재현하는 동작을 포함한다. 이것에 의해, 예를 들면 도 3b의 화살표 화상과 같이, 호스트가 발화 중에 확인한 출력 동작이 그대로 재생되어 호스트와 게스트의 상호의 이해를 지원할 수 있다.
또, 본 실시 형태에 있어서, 번역 결과의 출력에 동기한 동작은 유저 조작이 행해지는 것을 표현하는 동작을 포함한다. 이것에 의해, 예를 들면 도 3b의 아이콘 표시와 같이, 번역 결과의 음성 출력 중에, 입력된 조작 내용의 유저 조작이 행해지고 있는 인상을 게스트에게 줄 수 있다. 그 때문에, 게스트에게 있어 번역 장치(1)를 이용하기 쉽게 할 수 있다.
또, 본 실시 형태에 있어서, 번역 장치(1)는 기억부(15)를 더 구비한다. 기억부(15)는 음성 입력부(12)에 입력된 음성을 나타내는 음성 정보와 음성의 입력 중에 조작 입력부(11)에 입력된 유저 조작을 관련지어 관리하는 이력 데이터베이스(D1)를 기록한다. 제어부(14)는 기억부(15)에 기록된 이력 데이터베이스(D1)를 참조해서, 음성 정보가 나타내는 음성의 번역 결과의 음성 출력에 동기해서, 유저 조작의 조작 내용에 근거하는 동작을 표시부(13)로 하여금 실행하게 한다. 이것에 의해, 번역 장치(1)는 기억부(15)에 기록된 이력 데이터베이스(D1)에 근거해서, 번역 정보에 동기시키는 조작 내용을 관리할 수 있다.
또, 본 실시 형태에 있어서, 번역 장치(1)의 실행부는 정보를 표시하는 표시부(13)를 포함한다. 제어부(14)는 번역 결과의 음성 출력에 동기해서, 유저 조작의 조작 내용에 따른 정보를 표시부(13)로 하여금 표시하게 한다. 이것에 의해, 유저는 조작 내용에 따른 정보를 시각적으로 확인할 수 있다.
또, 본 실시 형태에 있어서, 번역 시스템(20)은 번역 장치(1)와 번역 서버(2)를 구비한다. 번역 서버(2)는 음성 입력부(12)에 입력된 음성을 나타내는 음성 정보를 번역 장치(1)로부터 수신하고, 음성 정보의 번역 처리를 행한다. 이것에 의해, 번역 장치(1)는 번역 서버(2)로부터 번역 정보를 취득해서, 번역 정보의 음성 출력을 행할 수 있다.
도 3a~도 3d에서는, 번역 시스템(20)에 있어서, 하나의 화면을 이용해서 발화문마다 기계 번역을 행하는 예를 설명했지만, 본 개시는 이것으로 한정되지 않는다. 번역 시스템(20)에 있어서, 복수의 화면을 이용해서 기계 번역을 행해도 좋다. 또, 발화문마다의 기계 번역에 한정하지 않고, 리얼타임 번역이 행해져도 좋다. 이 변형예에 대해, 도 9a, 도 9b, 도 10a 및 도 10b를 이용해서 설명한다.
도 9a는 호스트용의 화면의 표시예이다. 도 9b는 게스트용의 화면의 표시예이다. 도 9c는 호스트의 발화에 의한 입력 음성 및 호스트의 조작의 조작 내용을 나타낸다.
본 예에서는, 도 9a, 도 9b에 나타내는 바와 같이, 호스트용의 화면(13a) 및 게스트용의 화면(13b)이 개별로 표시된다. 호스트용의 화면(13a)은 호스트의 유저가 시인하고, 터치 조작하기 위한 화면이다. 게스트용의 화면(13b)은 게스트의 유저가 시인하기 위한 화면이다. 호스트용 및 게스트용의 화면(13a, 13b)은 표시부(13)의 1개의 표시면 상에서 2개의 화면으로서 표시되어도 좋다. 또, 표시부(13)가 호스트용 및 게스트용의 화면(13a, 13b)을 각각 표시하는 복수의 표시면을 가져도 좋다. 이 경우, 각 표시면은, 예를 들면 유선 접속 또는 무선 접속에 의해, 표시 제어부(141)에 의해 적절히 표시 제어된다.
도 9a~도 9c의 예에서는, 호스트가, 도 9c에 나타내는 바와 같이, 호스트용의 화면(13a)의 제 1 좌표(10, 20)를 터치하면서 음성(V3)으로 발화하고, 계속해서 제 2 좌표(30, 50)를 터치하면서 음성(V4)으로 발화하고 있다. 한편, 본 예에서는, 호스트용의 화면(13a)에 있어서, 호스트의 터치 조작에 의한 표시 동작은 특별히 생기지 않는다.
이때, 번역 장치(1)의 제어부(14)는, 예를 들면 음성 입력부(12)로부터의 입력 음성에 근거하는 무음 검출, 접속사 검출, 혹은 조작 입력부(11)로부터의 신호에 근거하는 터치 위치 변화의 검출 등에 의해, 2개의 음성(V3, V4)의 구획을 검지한다. 이것에 의해, 번역 장치(1)에 있어서, 음성(V3, V4)이 순차적으로, 각각, 제 1 및 제 2 좌표(10, 20), (30, 50)에 관련지어 이력 데이터베이스(D1)에 등록된다. 번역 장치(1)는 각 입력 음성의 음성 정보를 수시로 식별 정보와 함께 번역 서버(2)에 송신한다. 그리고, 번역 장치(1)는 각각의 번역 결과의 번역 정보를 순차적으로 취득한다.
도 10a는 제 1 번역 결과의 음성 출력시에 있어서의 게스트용의 화면의 표시예이다. 도 10b는 제 2 번역 결과의 음성 출력시에 있어서의 게스트용의 화면의 표시예이다. 도 10c는 호스트의 발화에 대한 번역 결과 및 호스트의 조작의 조작에 근거하는 동작 내용을 나타낸다.
번역 장치(1)는, 음성(V3)에 대응한 번역 결과(T3) 「This is post office」의 번역 정보를 취득하면, 번역 결과(T3)를 음성 출력한다. 번역 장치(1)는, 도 10a 및 도 10c에 나타내는 바와 같이, 음성 출력 중에 제 1 입력 음성의 입력시의 터치 조작을 표현하는 아이콘의 재생 표시를 행한다. 또, 번역 장치(1)는 음성(V4)에 대응한 번역 결과(T4)「This is police station」의 번역 정보를 취득하면, 번역 결과(T4)를 음성 출력한다. 번역 장치(1)는, 도 10b 및 도 10c에 나타내는 바와 같이, 음성 출력 중에 제 2 입력 음성의 입력시의 터치 조작을 표현하는 아이콘의 재생 표시를 행한다. 이러한 재생 표시는 게스트용의 화면(13b)에 있어서 행해진다. 이 때문에, 게스트에게 있어, 음성 출력 중의 재생 표시의 내용을 쉽게 알 수 있다.
또, 상기의 재생 표시는, 호스트용의 화면(13a) 상태에 관계없이, 번역 결과의 음성 출력시에 순차적으로 행해진다. 이 때문에, 호스트는 재생 표시를 신경쓰지 않고 유저 조작 및 발화를 행하고, 호스트에 있어서도 사용하기 쉽다. 또, 상기와 같은 리얼타임 번역에 의하면, 예를 들면 호스트 대신에 회의의 참가자가 번역 장치(1)를 사용할 때에, 회의의 흐름을 방해하지 않고 유저 조작 및 발화를 행할 수 있다. 그 때문에, 회의의 참가자에게 있어 사용하기 쉽다.
(실시 형태 2)
이하, 도 11을 이용해서, 실시 형태 2를 설명한다. 실시 형태 1에서는, 실행부로서 표시부(13)를 구비하는 번역 장치(1)를 설명했다. 실시 형태 2에서는, 실행부로서 외부 기기를 제어하는 제어 신호 송신부를 구비하는 번역 장치(1A) 및 번역 시스템(20A)을 설명한다.
이하, 실시 형태 1에 따른 번역 장치(1)및 번역 시스템(20)과 마찬가지의 구성, 동작의 설명은 적절히 생략하고, 본 실시 형태에 따른 번역 장치(1A) 및 번역 시스템(20A)을 설명한다. 한편, 도 11에 있어서, 번역 서버(2)를 생략하고 있다.
도 11은 본 실시 형태에 따른 번역 시스템(20A)을 나타내는 기능 블럭도이다. 본 실시 형태에 따른 번역 시스템(20A)은, 도 11에 나타내는 바와 같이, 번역 장치(1A)에 더해서, 기기(4)(외부 기기의 일례)를 더 구비한다. 본 실시 형태에 따른 번역 장치(1A)는, 실시 형태 1에 따른 번역 장치(1)의 구성에 더해서, 제어 신호 송신부(18)를 더 구비한다.
제어 신호 송신부(18)는 예를 들면 적외선 통신에 있어서, 소정의 기기(4)의 동작을 제어하는 제어 신호를 송신한다. 제어 신호 송신부(18)는 예를 들면 적외선 LED(Light Emitting Diode) 및 송신 회로를 구비한다. 제어 신호 송신부(18)는 본 실시 형태에 따른 신호 송신부의 일례이며, 번역 장치(1A)에 있어서의 실행부의 일례이다.
기기(4)는 번역 장치(1A)에서의 번역 정보를 출력할 때의 화면 표시를 행하는 표시 장치이어도 좋다. 또, 기기(4)는 여러 전자기기이어도 좋고, 예를 들면 에어콘, 텔레비젼 등의 가전 기기이어도 좋고, 로봇의 메니퓨레이터 등의 작업 기기이어도 좋다. 또, 상기의 제어 신호에 근거하는 기기(4)에 있어서의 조작 대상은, 예를 들면, 버튼, 레버, 원격 패널 등이어도 좋다.
본 실시 형태에 따른 번역 장치(1A)는, 예를 들면 호스트가 기기(4)의 조작 방법을 게스트 등에게 설명하기 위해서 이용할 수 있다. 예를 들면, 표시부(13)가 기기(4)를 나타내는 GUI(Graphical User Interface) 등을 표시하고, 호스트가 발화하면서 조작 입력부(11)를 통해서 기기(4)를 나타내는 GUI를 조작한다. 예를 들면, 호스트가, 「우선 기기(4)의 전원 버튼을 ON 하고, 다음에 왼쪽 레버를 안쪽으로 접고, 추가로 오른쪽 레바를 오른쪽으로 접어 주세요.」 등의 일련의 처리 순서의 설명을 발화하면서, GUI를 조작한다.
이때, 번역 장치(1A)는, 실시 형태 1과 마찬가지로, 발화에 의한 입력 음성의 번역 결과를 나타내는 번역 정보를 취득한다. 다음으로, 본 실시 형태에 따른 번역 장치(1A)는 번역 정보의 음성 출력에 동기해서, 기기(4)가 유저의 발화시의 조작 내용에 따른 동작을 행하도록 제어하는 제어 신호를 송신한다. 그러면, 기기(4)는, 번역 결과의 음성 출력시에, 기기(4)의 GUI에 있어서 조작된 처리 순서와 동일한 처리 동작을 행한다. 이것에 의해, 게스트는, 번역 결과의 음성 출력시에, 실제의 기기(4)의 동작을 확인할 수 있어, 번역 결과의 내용을 쉽게 이해할 수 있다.
이상과 같이, 본 실시 형태에 있어서, 번역 장치(1A)의 실행부는 기기(4)에 제어 신호를 송신하는 제어 신호 송신부(18)를 포함한다. 제어부(14)는, 번역 결과의 음성 출력에 동기해서, 제어 신호 송신부(18)로 하여금, 기기(4)의 동작을 제어하는 제어 신호를 기기(4)에 송신하게 한다.
이것에 의해, 번역 결과의 음성 출력에 동기해서 실제의 기기(4)의 동작이 확인되고, 조작한 유저가 의도하는 내용을 쉽게 전달할 수 있다.
상기의 설명에서는, 호스트의 조작 대상은, 표시부(13)에 있어서의 기기(4)를 나타내는 GUI였지만, 이것에 한정하지 않고, 예를 들면 실제의 기기(4)이어도 좋다. 예를 들면, 번역 장치(1A)는, 호스트가 기기(4)를 조작했을 때에, 제어부(14)로부터 기기(4)에 제어 신호를 송신한다. 이 경우, 유저의 조작시에도 제어 신호 송신부(18)가 실행부로서 동작하고 있고, 번역 장치(1A)에 있어서 표시부(13)는 적절히 생략되어도 좋다.
(실시 형태 3)
이하, 도 12를 이용해서, 실시 형태 3을 설명한다. 실시 형태 3에서는, 실시 형태 2에 있어서의 번역 시스템(20A)에 있어서, 기기(4)의 동작 상태에 따라서 번역 동작을 제한하는 기능을 갖는 번역 장치(1B)를 설명한다.
이하, 실시 형태 1, 2에 따른 번역 장치(1, 1A) 및 번역 시스템(20, 20A)과 마찬가지의 구성, 동작의 설명은 적절히 생략해서, 본 실시 형태에 따른 번역 장치(1B) 및 번역 시스템(20B)을 설명한다. 한편, 도 12에 있어서, 번역 서버(2)를 생략하고 있다.
도 12는 본 실시 형태에 따른 번역 시스템(20B)을 나타내는 기능 블럭도이다. 본 실시 형태에 따른 번역 시스템(20B)에 있어서, 번역 장치(1B)는, 실시 형태 2에 따른 번역 장치(1A)의 구성에 더해서, 완료 신호 수신부(19)를 더 구비한다. 완료 신호 수신부(19)는, 예를 들면 적외선 통신에 있어서, 기기(4)로부터 소정의 완료 신호를 수신한다. 완료 신호는 기기(4)가 소정의 동작을 완료한 것을 나타내는 신호이다. 완료 신호 수신부(19)는 예를 들면 적외선 수광부 및 수신 회로를 구비한다. 완료 신호 수신부(19)는 번역 장치(1B)에 있어서의 신호 수신부의 일례이다.
도 13a, 도 13b는 번역 장치(1B)에 있어서의 제어 신호의 송신 전후의 표시부(13)의 표시예를 나타낸다. 번역 장치(1B)는, 도 13a, 도 13b에 나타내는 바와 같이, 발화 개시 버튼 및 발화 종료 버튼을 표시부(13)에 표시하고 있다. 도 13b에서는, 발화 개시 버튼의 조작이 금지된 표시 상태를 나타내고 있다.
본 실시 형태에 따른 번역 장치(1B)의 제어부(14)는, 제어 신호의 송신 전에는, 유저가 발화 개시 버튼을 압하 조작함으로써, 실시 형태 2와 마찬가지로, 음성 입력부(12)로부터의 입력 음성에 근거하는 번역 동작을 개시한다(도 13a 참조). 본 번역 동작에 있어서, 입력되는 유저 조작에 근거해서 제어 신호가 번역 장치(1B)로부터 송신되었을 때, 번역 장치(1B)의 표시 제어부(141)는, 도 13b에 나타내는 바와 같이 표시부(13)에 의한 표시를 전환한다.
도 13b의 표시 상태에 있어서, 제어부(14)는 번역 동작을 위한 음성 입력부(12)에 있어서의 음성의 입력을 제한한다. 이 상태에 있어서, 유저가 발화 개시 버튼의 압하 조작을 행했다고 해도, 제어부(14)는 새로운 입력 음성의 번역 동작을 개시하지 않는다. 제어부(14)는 기기(4)로부터 완료 신호 수신부(19)를 통해서 완료 신호를 수신할 때까지, 도 13b의 표시 상태를 유지한다.
본 실시 형태에 있어서, 기기(4)는, 번역 장치(1B)로부터 수신한 제어 신호에 근거하는 동작을 완료하면, 완료 신호를 번역 장치(1B)에 송신한다. 이것에 의해, 기기(4)의 동작이 완료하기 전에 기기(4)에 대해서 새로운 제어 신호가 송신되는 사태를 회피할 수 있다. 그 때문에, 번역 장치(1B)에 있어서, 번역 대상의 새로운 입력 음성을 접수하는 타이밍을 조정할 수 있다.
이상과 같이, 본 실시 형태에 있어서, 번역 장치(1B)는 기기(4)로부터 동작 완료 신호를 수신하는 완료 신호 수신부(19)를 더 구비한다. 제어부(14)는, 제어 신호를 송신하고 나서, 완료 신호 수신부(19)를 통해서 기기(4)로부터 제어 신호가 제어하는 동작의 완료를 나타내는 완료 신호를 수신할 때까지, 음성 입력부(12)에 있어서의 음성의 입력을 제한한다.
이것에 의해, 기기(4)의 동작 상태에 따라서, 번역 장치(1B)에 있어서의 입력 처리를 제한하는 기능이 실현되고, 유저가 기기(4)의 동작에 따른 내용을 쉽게 설명할 수 있다.
상기의 설명에서는, 표시부(13)에 표시되는 발화 개시 버튼을 이용해서, 동작 완료 신호에 근거해서 입력 처리를 제한하는 예를 설명했지만, 표시되는 발화 개시 버튼을 이용하지 않고, 동작 완료 신호에 근거해서 입력 처리를 제한해도 좋다. 제어부(14)는 예를 들면 제어 신호 송신부(18)로부터 기기(4)에 제어 신호를 송신한 후, 기기(4)로부터 완료 신호를 수신할 때까지, 입력 처리의 실행을 금지해서, 음성 입력부(12)에 있어서의 음성의 입력을 제한해도 좋다.
(다른 실시 형태)
이상과 같이, 본 출원에 있어서 개시하는 기술의 예시로서, 실시 형태 1~3을 설명했다. 그렇지만, 본 개시에 있어서의 기술은, 이것으로 한정되지 않고, 적절히 변경, 치환, 부가, 생략 등을 행한 실시의 형태에도 적용 가능하다. 또, 상기 각 실시 형태로 설명한 각 구성 요소를 조합해서, 새로운 실시의 형태로 하는 것도 가능하다. 그래서, 이하에, 다른 실시 형태를 예시한다.
상기의 실시 형태에서는, 번역 장치(1)에 있어서, 발화문마다 입력 음성과 유저 조작의 조작 내용을 관련짓는 예에 대해 설명했다. 입력 음성과 유저 조작의 조작 내용의 관련지음은, 발화문 중간을 분할하는 문절 또는 단어 등의 소정 단위로 행해져도 좋다. 이 변형예에 대해, 도 14a~도 14c를 이용해서 설명한다.
도 14a는 1 발화문에 복수의 유저 조작을 관련지은 동작예를 나타낸다. 도 14a의 예에서, 유저는 음성(V5), 음성(V6), 및 음성(V7)으로 이루어지는 음성(V10)을 발화하고 있다. 유저는, 음성(V10)을 발화하는 중에, 순차적으로, 제 1 조작 내용(A5), 제 2 조작 내용(A6) 및 제 3 조작 내용(A7)의 유저 조작을 행하고 있다. 이때, 번역 장치(1)는 유저 조작의 조작 타이밍에 근거해서, 순서대로, 음성(V5)과 제 1 조작 내용(A1)을 관련짓고, 음성(V6)과 제 2 조작 내용(A2)을 관련짓고, 음성(V7)과 제 3 조작 내용(A3)을 관련짓는다. 각각 관련지어진 정보는 번역 장치(1)에 있어서 이력 데이터베이스(D1)에 등록된다.
도 14b, 도 14c는 제 1 및 제 2 번역 결과의 패턴을 나타낸다. 도 14b에 나타내는 제 1 패턴에서는, 음성(V10)에 대응한 번역 결과가 번역 결과(T10a) 「Please turn the first corner to the left」로 되어 있다. 도 14c에 나타내는 제 2 패턴에서는, 음성(V10)에 대응한 번역 결과가 번역 결과(T10b) 「Please turn left at the first corner」로 되어 있다. 이와 같이, 동일한 발화문에 대해서 상이한 패턴의 어순을 갖는 번역 결과가 생기는 것이 상정된다.
그래서, 번역 장치(1)는, 상기와 같이 관련지어진 각 조작 내용(A5, A6, A7)에 근거해서, 번역 결과의 어순에 따라서, 조작 내용(A5, A6, A7)을 재생하는 순번을 변화시킨다. 예를 들면, 제 1 패턴의 번역 결과의 음성 출력시에, 번역 장치(1)는, 도 14b에 나타내는 바와 같이, 번역 결과(T7)「Please turn」와 제 3 조작 내용(A7)을 동기시키고, 번역 결과(T5)「the first corner」와 제 1 조작 내용(A5)을 동기시키고, 번역 결과(T6)「to the left」와 제 2 조작 내용(A6)을 동기시킨다. 한편, 제 2 패턴의 번역 결과를 음성 출력하려면, 번역 장치(1)는, 도 14c에 나타내는 바와 같이, 번역 결과(T7)「Please turn」와 제 3 조작 내용(A7)을 동기시키고, 번역 결과(T6)「left」와 제 2 조작 내용(A6)을 동기시키고, 번역 결과(T5)「at the first corner」와 제 1 조작 내용(A5)을 동기시킨다.
이때, 번역 장치(1)는, 예를 들면 번역 결과(T7)의 「Please turn」와 음성(V7) 등, 번역 전후의 단어 간의 관계를 미리 취득한다. 단어 간의 관계는, 예를 들면 번역 장치(1)의 기억부(15)에 저장되어 있어도 좋고, 번역 서버(2)에 의해 발행되어도 좋다.
이상과 같이, 번역 결과의 어순에 따라서 조작 내용의 재생 순서를 변화시킴으로써, 음성 출력 중의 번역 결과의 단어마다 대응하는 조작 내용이 재생된다. 그 때문에, 번역 결과의 음성을 듣는 유저의 이해를 촉진할 수 있다.
상기의 각 실시 형태에서는, 번역 소스 언어 및 번역 타겟 언어가 각각 일본어 및 영어의 예를 설명했지만, 번역 소스 언어 및 번역 타겟 언어는 특별히 한정되지 않고, 여러 자연 언어를 이용해도 좋다.
또, 상기의 각 실시 형태에서는, 번역 장치(1)의 번역 정보 취득부(16)가 번역 처리를 행하는 번역 서버(2)로부터 번역 정보를 취득하는 예를 설명했지만, 번역 장치(1)(제어부(14))가 입력 음성의 번역 처리를 행해도 좋다. 이 경우, 번역 정보 취득부(16)는 번역 장치(1)의 내부 처리로서 실행된 번역 처리에 의한 번역 결과를 번역 정보로서 취득한다.
또, 상기의 각 실시 형태에서는, 번역 장치(1)로서 1개의 정보 처리 단말을 구비하는 번역 시스템(20)에 대해 설명했지만, 번역 시스템(20)은 번역 장치(1)로서 기능하는 복수의 정보 처리 단말을 구비하여도 좋다. 예를 들면, 호스트와 게스트가 각각 상기의 정보 처리 단말을 소지해도 좋다. 이때, 번역 서버(2)나 네트워크(3)를 통해서, 정보 처리 단말 간에 각종 정보의 송수신을 해도 좋다.
또, 상기의 각 실시 형태에서는, 번역 장치(1)의 예를 이용해서 설명했지만, 본 개시의 사상을, 번역 대신에 노이즈 제거, 음성 변환 등의 소정의 음성 처리를 행하는 시스템 또는 장치에 적용해도 좋다. 즉, 번역 장치(1)에 있어서의 번역 정보 취득부(16)를, 음성 입력부에 입력된 음성에 대한 소정의 음성 처리의 결과를 취득하는 취득부 대신에, 소정의 음성 처리를 행하는 시스템 또는 전자 장치를 구성 해도 좋다. 그 전자 장치에 있어서, 제어부는, 음성 출력부에 의한 음성 처리 결과의 음성 출력에 동기해서, 음성 처리 결과에 대응하는 음성의 입력 중에 조작 입력부에 입력된 유저 조작의 조작 내용에 근거하는 동작을 실행부로 하여금 실행하게 한다. 이것에 의해, 상기의 음성 처리의 대상이 되는 발화를 행하는 유저가 의도하는 내용을 쉽게 전달할 수 있는 전자 장치 또는 시스템을 제공할 수 있다.
상기의 음성 처리는, 전자 장치의 내부에서 행해져도 좋고, 시스템 중의 서버에 있어서 행해져도 좋다. 또, 입력 음성에 근거하는 번역 결과의 출력은 음성 출력에 한정되지 않는다. 예를 들면 번역 결과를 텍스트 표시하는 경우에, 제어부(14)는, 텍스트 표시에 동기해서, 대응하는 음성의 입력 중에 조작 입력부에 입력된 유저 조작의 조작 내용에 근거하는 동작을 표시부(13)로 하여금 실행하게 해도 좋다.
예를 들면, 표시부(13)는 번역 정보를 텍스트 정보로서 출력해도 좋다. 보다 구체적으로는, 표시부(13)는, 도 3b에 나타내는 번역 결과의 음성 출력 대신에, 도 15에 나타내는 바와 같이, 번역 정보를 나타내는 텍스트 정보를 화상(I1)으로서 출력해도 좋다. 이때, 제어부(14)는, 텍스트 정보의 출력에 동기해서, 유저 조작의 조작 내용에 근거하는 동작을 표시부(13)로 하여금 실행하게 한다. 표시부(13)는 본 실시 형태에 있어서의 번역 장치(1)의 정보 출력부의 일례이다.
이상과 같이, 본 개시에 있어서의 기술의 예시로서 실시의 형태를 설명했다. 그 목적을 위해, 첨부 도면 및 상세한 설명을 제공했다.
따라서, 첨부 도면 및 상세한 설명에 기재된 구성 요소 중에는, 과제 해결을 위해서 필수적인 구성 요소뿐만이 아니라, 상기 기술을 예시하기 위해서, 과제 해결을 위해서는 필수가 아닌 구성 요소도 포함될 수 있다. 그 때문에, 그들의 필수가 아닌 구성 요소가 첨부 도면이나 상세한 설명에 기재되어 있는 것을 갖고, 그대로, 그들의 필수가 아닌 구성 요소가 필수인 것으로 인정을 해서는 안된다.
또, 상술의 실시의 형태는, 본 개시에 있어서의 기술을 예시하기 위한 것이기 때문에, 청구의 범위 또는 그 균등의 범위에 있어서, 여러 변경, 치환, 부가, 생략 등을 행할 수 있다.
산업상의 이용 가능성
본 개시는, 예를 들면 접객, 안내 혹은 설명을 행하는 유저의 발화의 번역 결과를 음성 출력하는 번역 장치로서 이용 가능하다.
1, 1A, 1B 번역 장치
11 조작 입력부
12 음성 입력부
13 표시부
14 제어부
15 기억부
16 번역 정보 취득부
17 음성 출력부
18 제어 신호 송신부
19 완료 신호 수신부
2 번역 서버
20, 20A, 20B 번역 시스템
4 기기
11 조작 입력부
12 음성 입력부
13 표시부
14 제어부
15 기억부
16 번역 정보 취득부
17 음성 출력부
18 제어 신호 송신부
19 완료 신호 수신부
2 번역 서버
20, 20A, 20B 번역 시스템
4 기기
Claims (12)
- 유저 조작이 입력되는 조작 입력부와,
음성이 입력되는 음성 입력부와.
상기 음성 입력부에 입력된 음성의 번역 결과를 취득하는 번역 정보 취득부와,
상기 번역 결과를 출력하는 정보 출력부와,
실행부와,
상기 정보 출력부에 의한 상기 번역 결과의 출력에 동기해서, 상기 번역 결과에 대응하는 음성의 입력 중에 상기 조작 입력부에 입력된 유저 조작의 조작 내용에 근거하는 동작을 상기 실행부로 하여금 실행하게 하는 제어부
를 구비하는 번역 장치.
- 제 1 항에 있어서,
상기 정보 출력부는 상기 번역 결과를 음성으로서 출력하는 번역 장치.
- 제 1 항에 있어서,
상기 정보 출력부는 상기 번역 결과를 텍스트 정보로서 출력하는 번역 장치.
- 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 제어부는, 상기 번역 결과가 출력되는 기간과 상기 동작이 실행되는 기간이 동기하도록, 상기 동작을 설정하는 번역 장치.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 번역 결과의 출력에 동기한 상기 동작은 상기 유저 조작이 행해지는 것을 표현하는 제 1 동작을 포함하는 번역 장치.
- 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 제어부는, 유저 조작의 상기 조작 입력부로의 입력에 동기해서, 상기 유저 조작의 조작 내용에 근거하는 제 2 동작을 상기 실행부로 하여금 실행하게 하는 번역 장치.
- 제 6 항에 있어서,
상기 번역 결과의 출력에 동기한 상기 동작은 상기 유저 조작의 상기 조작 입력부로의 입력에 동기한 상기 제 2 동작을 재현하는 동작을 포함하는 번역 장치.
- 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 음성 입력부에 입력된 음성을 나타내는 음성 정보와, 상기 음성의 입력 중에 상기 조작 입력부에 입력된 유저 조작을 관련지어 기록하는 기억부를 더 구비하고,
상기 제어부는, 상기 기억부에 기록된 상기 음성 정보 및 상기 유저 조작을 참조해서, 상기 음성 정보가 나타내는 음성의 상기 번역 결과의 출력에 동기해서, 상기 유저 조작의 조작 내용에 근거하는 동작을 상기 실행부로 하여금 실행하게 하는
번역 장치.
- 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 실행부는 정보를 표시하는 표시부를 포함하고,
상기 제어부는, 상기 번역 결과의 출력에 동기해서, 상기 유저 조작의 조작 내용에 따른 정보를 상기 표시부로 하여금 표시하게 하는
번역 장치.
- 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
상기 실행부는 외부 기기에 신호를 송신하는 신호 송신부를 포함하고,
상기 제어부는, 상기 번역 결과의 출력에 동기해서, 상기 외부 기기에, 상기 외부 기기의 동작을 제어하는 제어 신호를, 상기 신호 송신부로 하여금 송신하게 하는
번역 장치.
- 제 10 항에 있어서,
상기 외부 기기로부터 신호를 수신하는 신호 수신부를 더 구비하고,
상기 제어부는, 상기 제어 신호를 송신하고 나서, 상기 신호 수신부를 통해서 상기 외부 기기로부터 상기 제어 신호가 제어하는 상기 동작의 완료를 나타내는 신호를 수신할 때까지, 상기 음성 입력부에 있어서의 음성의 입력을 제한하는
번역 장치.
- 청구항 1 내지 청구항 11 중 어느 한 항에 기재된 번역 장치와,
상기 음성 입력부에 입력된 음성을 나타내는 음성 정보를 상기 번역 장치로부터 수신하고, 상기 음성 정보의 번역 처리를 행하는 번역 서버
를 구비하는 번역 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2016-148859 | 2016-07-28 | ||
JP2016148859 | 2016-07-28 | ||
PCT/JP2017/020457 WO2018020828A1 (ja) | 2016-07-28 | 2017-06-01 | 翻訳装置および翻訳システム |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190034494A true KR20190034494A (ko) | 2019-04-02 |
Family
ID=61015923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187031406A KR20190034494A (ko) | 2016-07-28 | 2017-06-01 | 번역 장치 및 번역 시스템 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20190026266A1 (ko) |
EP (1) | EP3493048A4 (ko) |
JP (1) | JP6624476B2 (ko) |
KR (1) | KR20190034494A (ko) |
CN (1) | CN109074239A (ko) |
WO (1) | WO2018020828A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089305B1 (en) * | 2017-07-12 | 2018-10-02 | Global Tel*Link Corporation | Bidirectional call translation in controlled environment |
US10558763B2 (en) * | 2017-08-03 | 2020-02-11 | Electronics And Telecommunications Research Institute | Automatic translation system, device, and method |
JP2020009100A (ja) * | 2018-07-06 | 2020-01-16 | 富士ゼロックス株式会社 | 情報処理装置、端末装置、情報処理システム、及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2664679B2 (ja) | 1987-05-30 | 1997-10-15 | 株式会社東芝 | 通信システム |
JP2015060332A (ja) | 2013-09-18 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09153069A (ja) * | 1995-09-29 | 1997-06-10 | Toshiba Corp | 情報収集装置、情報収集再生装置およびパトロール端末装置 |
JP2993872B2 (ja) * | 1995-10-16 | 1999-12-27 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | マルチモーダル情報統合解析装置 |
JP4416643B2 (ja) * | 2004-06-29 | 2010-02-17 | キヤノン株式会社 | マルチモーダル入力方法 |
US7492367B2 (en) * | 2005-03-10 | 2009-02-17 | Motus Corporation | Apparatus, system and method for interpreting and reproducing physical motion |
US7643985B2 (en) * | 2005-06-27 | 2010-01-05 | Microsoft Corporation | Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages |
US7991607B2 (en) * | 2005-06-27 | 2011-08-02 | Microsoft Corporation | Translation and capture architecture for output of conversational utterances |
JP4398966B2 (ja) * | 2006-09-26 | 2010-01-13 | 株式会社東芝 | 機械翻訳を行う装置、システム、方法およびプログラム |
JP5121252B2 (ja) * | 2007-02-26 | 2013-01-16 | 株式会社東芝 | 原言語による音声を目的言語に翻訳する装置、方法およびプログラム |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
CN101620595A (zh) * | 2009-08-11 | 2010-01-06 | 上海合合信息科技发展有限公司 | 电子设备的文本翻译方法及系统 |
US20110112821A1 (en) * | 2009-11-11 | 2011-05-12 | Andrea Basso | Method and apparatus for multimodal content translation |
CN103534751B (zh) * | 2013-05-27 | 2016-05-18 | 华为技术有限公司 | 语音同步方法及装置 |
WO2016134331A1 (en) * | 2015-02-19 | 2016-08-25 | Tertl Studos Llc | Systems and methods for variably paced real-time translation between the written and spoken forms of a word |
JP2017084090A (ja) * | 2015-10-28 | 2017-05-18 | シャープ株式会社 | 接客システム |
-
2017
- 2017-06-01 EP EP17833838.0A patent/EP3493048A4/en not_active Withdrawn
- 2017-06-01 JP JP2018529396A patent/JP6624476B2/ja active Active
- 2017-06-01 CN CN201780023818.7A patent/CN109074239A/zh active Pending
- 2017-06-01 WO PCT/JP2017/020457 patent/WO2018020828A1/ja unknown
- 2017-06-01 KR KR1020187031406A patent/KR20190034494A/ko unknown
-
2018
- 2018-09-27 US US16/144,380 patent/US20190026266A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2664679B2 (ja) | 1987-05-30 | 1997-10-15 | 株式会社東芝 | 通信システム |
JP2015060332A (ja) | 2013-09-18 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2018020828A1 (ja) | 2018-11-22 |
JP6624476B2 (ja) | 2019-12-25 |
WO2018020828A1 (ja) | 2018-02-01 |
EP3493048A1 (en) | 2019-06-05 |
EP3493048A4 (en) | 2019-07-03 |
US20190026266A1 (en) | 2019-01-24 |
CN109074239A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11158102B2 (en) | Method and apparatus for processing information | |
US9280539B2 (en) | System and method for translating speech, and non-transitory computer readable medium thereof | |
KR102246900B1 (ko) | 전자 장치 및 이의 음성 인식 방법 | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
US20130083151A1 (en) | Electronic device and method for controlling electronic device | |
WO2016119370A1 (zh) | 一种实现录音的方法、装置和移动终端 | |
CN106790940B (zh) | 录音方法、录音播放方法、装置及终端 | |
KR20150144547A (ko) | 영상 표시 기기 및 그의 동작 방법 | |
CN107479854A (zh) | 一种投影仪及投影方法 | |
US20210142792A1 (en) | Systems and Methods for Identifying and Providing Information About Semantic Entities in Audio Signals | |
JP6624476B2 (ja) | 翻訳装置および翻訳システム | |
WO2024160041A1 (zh) | 多模态对话方法、装置、设备及存储介质 | |
JP2016102920A (ja) | 文書記録システム及び文書記録プログラム | |
JP6485935B1 (ja) | オンラインコミュニケーションのレビューシステム、方法、及びコンピュータプログラム | |
CN1937002A (zh) | 一种智能人机对话的系统及其实现方法 | |
JP2021177418A (ja) | 電子機器の通訳機能提供方法およびイヤセット機器 | |
JP2015106203A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2018005011A (ja) | プレゼンテーション支援装置、プレゼンテーション支援システム、プレゼンテーション支援方法及びプレゼンテーション支援プログラム | |
JP6832503B2 (ja) | 情報提示方法、情報提示プログラム及び情報提示システム | |
US9870197B2 (en) | Input information support apparatus, method for supporting input information, and computer-readable recording medium | |
JP7519441B2 (ja) | 使用者端末、及びその制御方法 | |
JP2011086123A (ja) | 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム | |
CN111754996A (zh) | 基于语音模拟遥控器的控制方法、装置及电子设备 | |
JP2020119043A (ja) | 音声翻訳システムおよび音声翻訳方法 | |
KR102546532B1 (ko) | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 |