KR101683944B1 - 음성번역 시스템, 제어장치, 및 제어방법 - Google Patents
음성번역 시스템, 제어장치, 및 제어방법 Download PDFInfo
- Publication number
- KR101683944B1 KR101683944B1 KR1020127009506A KR20127009506A KR101683944B1 KR 101683944 B1 KR101683944 B1 KR 101683944B1 KR 1020127009506 A KR1020127009506 A KR 1020127009506A KR 20127009506 A KR20127009506 A KR 20127009506A KR 101683944 B1 KR101683944 B1 KR 101683944B1
- Authority
- KR
- South Korea
- Prior art keywords
- translation
- result
- speech
- unit
- voice
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 1141
- 238000000034 method Methods 0.000 title claims description 163
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 761
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 761
- 238000012545 processing Methods 0.000 claims abstract description 433
- 230000005540 biological transmission Effects 0.000 claims description 134
- 230000002194 synthesizing effect Effects 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 21
- 230000010365 information processing Effects 0.000 claims description 9
- 238000003672 processing method Methods 0.000 claims 8
- 230000014616 translation Effects 0.000 description 892
- 238000010586 diagram Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010130 dispersion processing Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
음성번역에서 적절한 처리결과를 선택하거나 적절한 장치를 선택할 수 없었다. 본 발명은, 2 이상의 음성인식장치로부터 음성인식 결과와 음성인식 스코어를 가지는 음성인식 처리결과를 수신하고, 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하고, 선택한 음성인식 결과를 2 이상의 각 번역장치로 송신하고, 2 이상의 각 번역장치로부터 음성인식 결과의 번역 결과와 번역 스코어를 가지는 번역 처리결과를 수신하고, 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하고, 선택한 번역 결과를 2 이상의 각 음성합성장치로 송신하고, 2 이상의 각 음성합성장치로부터 음성합성 결과와 음성합성 스코어를 가지는 음성합성 처리결과를 수신하고, 음성합성 스코어를 이용하여 음성합성 결과를 선택하고, 선택한 음성합성 결과를 제2 단말장치로 송신하는 제어장치에 의해, 적절한 처리결과를 선택하거나 적절한 장치를 선택할 수 있다.
Description
본 발명은 음성번역을 수행하는 음성번역 시스템 등에 관한 것이다.
종래의 음성번역 시스템에 있어서, 음성인식의 정밀도를 향상시키거나 번역 처리의 정밀도를 향상시키는 등 각 부분 처리의 정밀도를 향상시키기 위한 기술이 존재했다(예를 들면, 특허문헌 1, 특허문헌 2 참조).
하지만, 종래의 음성번역 시스템에 있어서는, 음성번역에서 복수의 음성인식장치, 복수의 번역장치, 또는 복수의 음성합성장치의 처리결과를 선택하여 이용하거나, 복수의 음성인식장치, 복수의 번역장치, 또는 복수의 음성합성장치 중 각각 적절한 장치를 선택할 수 없었다.
본 제1 발명의 음성번역 시스템은, 제어장치, 2 이상의 음성인식장치, 2 이상의 번역장치 및 2 이상의 음성합성장치를 가지는 음성번역 시스템으로서, 제어장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성수신부; 음성정보를 2 이상의 각 음성인식장치로 송신하는 음성인식 의뢰부; 음성정보의 송신에 대응하여, 2 이상의 각 음성인식장치로부터 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 2 이상 수신하는 음성인식 처리결과 수신부; 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부; 음성인식 결과 선택부가 선택한 음성인식 결과를 2 이상의 각 번역장치로 송신하는 번역 의뢰부; 음성인식 결과의 송신에 대응하여, 2 이상의 각 번역장치로부터 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부; 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부; 번역 결과 선택부가 선택한 번역 결과를 2 이상의 각 음성합성장치로 송신하는 음성합성 의뢰부; 번역 결과의 송신에 대응하여, 2 이상의 각 음성합성장치로부터 번역 결과의 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부; 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부; 및 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부를 구비하고, 음성인식장치는, 제어장치로부터 음성정보를 수신하는 음성인식 대상음성 수신부; 음성정보에 대해 음성인식 처리를 수행하고, 음성인식 결과 및 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 획득하는 음성인식부; 및 음성인식 처리결과를 제어장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 번역장치는, 제어장치로부터 음성인식 결과를 수신하는 음성인식 결과 수신부; 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하고, 번역 결과 및 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 획득하는 번역부; 및 번역부가 획득한 번역 처리결과를 제어장치로 송신하는 번역 처리결과 송신부를 구비하고, 음성합성장치는, 제어장치로부터 번역 결과를 수신하는 번역 결과 수신부; 번역 결과에 대해 음성합성 처리를 수행하고, 음성합성 결과 및 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 획득하는 음성합성부; 및 음성합성 처리결과를 제어장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 음성인식장치, 복수의 번역장치, 복수의 음성합성장치의 처리결과를 선택하여 이용할 수 있다.
또한, 본 제2 발명의 음성번역 시스템은, 제1 발명에 대해, 제어장치는, 음성인식 결과 선택부에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택부; 번역 결과 선택부에서의 1회 이상의 번역 결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 2 이상의 번역장치 중에서 선택하는 번역장치 선택부; 및 음성합성 결과 선택부에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택부를 더 구비하고, 음성인식 의뢰부는, 음성인식장치 선택부가 음성인식장치를 선택한 후, 선택한 음성인식장치로만 음성을 송신하고, 번역 의뢰부는, 번역장치 선택부가 번역장치를 선택한 후, 선택한 번역장치로만 음성인식 결과를 송신하고, 음성합성 의뢰부는, 음성합성장치 선택부가 음성합성장치를 선택한 후, 선택한 음성합성장치로만 번역 결과를 송신하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 음성인식장치로부터 하나의 음성인식장치를 자동적으로 선택하거나, 복수의 번역장치로부터 하나의 번역장치를 자동적으로 선택하거나, 복수의 음성합성장치로부터 하나의 음성합성장치를 자동적으로 선택할 수 있다.
또한, 본 제3 발명의 음성번역 시스템은, 제어장치, 2 이상의 음성인식장치, 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서, 제어장치는, 2 이상의 각 음성인식장치로부터 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 수신하는 음성인식 처리결과 수신부; 음성인식 처리결과 수신부가 수신한 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부; 및 음성인식 결과 선택부가 선택한 음성인식 결과를 번역장치로 송신하는 번역 의뢰부를 구비하고, 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부; 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하고, 음성인식 결과 및 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 획득하는 음성인식부; 및 음성인식부가 획득한 음성인식 처리결과를 제어장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 번역장치는, 음성인식 결과를 제어장치로부터 수신하는 음성인식 결과 수신부; 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부; 및 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 음성합성장치로 송신하는 번역 처리결과 송신부를 구비하고, 음성합성장치는, 번역 결과를 수신하는 번역 결과 수신부; 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부; 및 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 음성인식장치의 처리결과로부터 하나의 처리결과를 선택하여 이용할 수 있다.
또한, 본 제4 발명의 음성번역 시스템은, 제3 발명에 대해, 제어장치는, 음성인식 결과 선택부에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택부를 더 구비하고, 음성인식 의뢰부는, 음성인식장치 선택부가 음성인식장치를 선택한 후, 선택한 음성인식장치로만 음성을 송신하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 음성인식장치로부터 하나의 음성인식장치를 자동적으로 선택하여 이용할 수 있다.
또한, 본 제5 발명의 음성번역 시스템은, 제어장치, 음성인식장치, 2 이상의 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서, 제어장치는, 2 이상의 각 번역장치로부터 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부; 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부; 및 번역 결과 선택부가 선택한 번역 결과를 직접적 또는 간접적으로 음성합성장치로 송신하는 음성합성 의뢰부를 구비하고, 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부; 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 가지는 음성인식 처리결과를 획득하는 음성인식부; 및 음성인식부가 획득한 음성인식 처리결과를 직접적 또는 간접적으로 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 번역장치는, 음성인식 결과를 수신하는 음성인식 결과 수신부; 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하고, 번역 결과 및 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 획득하는 번역부; 및 번역부가 획득한 번역 처리결과를 제어장치로 송신하는 번역 처리결과 송신부를 구비하고, 음성합성장치는, 번역 결과를 제어장치로부터 수신하는 번역 결과 수신부; 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부; 및 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 번역장치의 처리결과로부터 하나의 처리결과를 선택하여 이용할 수 있다.
또한, 본 제6 발명의 음성번역 시스템은, 제5 발명에 대해, 제어장치는, 번역 결과 선택부에서의 1회 이상의 번역 결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 2 이상의 번역장치 중에서 선택하는 번역장치 선택부를 더 구비하고, 번역 의뢰부는, 번역장치 선택부가 번역장치를 선택한 후, 선택한 번역장치로만 음성인식 결과를 송신하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 번역장치로부터 하나의 번역장치를 선택하여 자동적으로 이용할 수 있다.
또한, 본 제7 발명의 음성번역 시스템은, 제어장치, 음성인식장치, 번역장치 및 2 이상의 음성합성장치를 가지는 음성번역 시스템으로서, 제어장치는, 2 이상의 각 음성합성장치로부터 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부; 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부; 및 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부를 구비하고, 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부; 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 획득하는 음성인식부; 및 음성인식부가 획득한 음성인식 결과를 직접적 또는 간접적으로 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 번역장치는, 음성인식 결과를 수신하는 음성인식 결과 수신부; 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부; 및 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 음성합성장치로 송신하는 번역 처리결과 송신부를 구비하고, 음성합성장치는, 번역 결과를 수신하는 번역 결과 수신부; 번역 결과에 대해 음성합성 처리를 수행하고, 음성합성 결과 및 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 획득하는 음성합성부; 및 음성합성 처리결과를 제어장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 음성합성장치의 처리결과로부터 하나의 처리결과를 선택하여 이용할 수 있다.
또한, 본 제8 발명의 음성번역 시스템은, 제7 발명에 대해, 제어장치는, 음성합성 결과 선택부에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택부를 더 구비하고, 음성합성 의뢰부는, 음성합성장치 선택부가 음성합성장치를 선택한 후, 선택한 음성합성장치로만 번역 결과를 송신하는 음성번역 시스템이다.
이러한 구성에 의해, 음성번역에서 복수의 음성합성장치로부터 하나의 음성합성장치를 자동적으로 선택하여 이용할 수 있다.
본 발명에 따른 음성번역 시스템에 의하면, 음성번역에서 동일한 역할을 담당하는 복수의 서버군의 처리결과로부터 적절한 처리결과를 선택하거나 적절한 서버를 선택할 수 있다. 그 결과, 질 높은 음성번역이 실현될 수 있다.
도 1은 실시형태 1에 있어서의 음성번역 시스템의 개념도이다.
도 2는 상기 음성번역 시스템의 구성을 나타낸 블록도이다.
도 3은 상기 제어장치의 구성을 나타낸 블록도이다.
도 4는 상기 음성인식장치의 구성을 나타낸 블록도이다.
도 5는 상기 번역장치의 구성을 나타낸 블록도이다.
도 6은 상기 음성합성장치의 구성을 나타낸 블록도이다.
도 7은 상기 제어장치의 동작에 대해 설명하는 순서도이다.
도 8은 상기 음성인식장치의 동작에 대해 설명하는 순서도이다.
도 9는 상기 번역장치의 동작에 대해 설명하는 순서도이다.
도 10은 상기 음성합성장치의 동작에 대해 설명하는 순서도이다.
도 11은 상기 음성번역 제어정보의 예를 나타낸 도면이다.
도 12는 상기 음성번역 제어정보의 예를 나타낸 도면이다.
도 13은 상기 음성인식 모델 선택정보 관리표를 나타낸 도면이다.
도 14는 상기 번역 모델 선택정보 관리표를 나타낸 도면이다.
도 15는 상기 음성합성 모델 선택정보 관리표를 나타낸 도면이다.
도 16은 상기 제1 단말장치의 입력 화면을 나타낸 도면이다.
도 17은 상기 복수의 음성인식 처리결과의 예를 나타낸 도면이다.
도 18은 상기 복수의 번역 처리결과의 예를 나타낸 도면이다.
도 19는 상기 복수의 음성합성 처리결과의 예를 나타낸 도면이다.
도 20은 상기 음성번역 제어정보의 예를 나타낸 도면이다.
도 21은 실시형태 2에 있어서의 제어장치의 구성을 나타낸 블록도이다.
도 22는 상기 음성번역 시스템의 동작에 대해 설명하는 순서도이다.
도 23은 상기 음성번역 시스템의 동작에 대해 설명하는 순서도이다.
도 24는 상기 음성인식장치 선택 처리의 동작에 대해 설명하는 순서도이다.
도 25는 상기 음성인식 스코어군을 나타낸 도면이다.
도 26은 상기 음성번역 제어정보의 포맷을 나타낸 도면이다.
도 27은 상기 실시형태에 있어서의 컴퓨터 시스템의 개관도이다.
도 28은 상기 컴퓨터 시스템의 구성을 나타낸 블록도이다.
도 2는 상기 음성번역 시스템의 구성을 나타낸 블록도이다.
도 3은 상기 제어장치의 구성을 나타낸 블록도이다.
도 4는 상기 음성인식장치의 구성을 나타낸 블록도이다.
도 5는 상기 번역장치의 구성을 나타낸 블록도이다.
도 6은 상기 음성합성장치의 구성을 나타낸 블록도이다.
도 7은 상기 제어장치의 동작에 대해 설명하는 순서도이다.
도 8은 상기 음성인식장치의 동작에 대해 설명하는 순서도이다.
도 9는 상기 번역장치의 동작에 대해 설명하는 순서도이다.
도 10은 상기 음성합성장치의 동작에 대해 설명하는 순서도이다.
도 11은 상기 음성번역 제어정보의 예를 나타낸 도면이다.
도 12는 상기 음성번역 제어정보의 예를 나타낸 도면이다.
도 13은 상기 음성인식 모델 선택정보 관리표를 나타낸 도면이다.
도 14는 상기 번역 모델 선택정보 관리표를 나타낸 도면이다.
도 15는 상기 음성합성 모델 선택정보 관리표를 나타낸 도면이다.
도 16은 상기 제1 단말장치의 입력 화면을 나타낸 도면이다.
도 17은 상기 복수의 음성인식 처리결과의 예를 나타낸 도면이다.
도 18은 상기 복수의 번역 처리결과의 예를 나타낸 도면이다.
도 19는 상기 복수의 음성합성 처리결과의 예를 나타낸 도면이다.
도 20은 상기 음성번역 제어정보의 예를 나타낸 도면이다.
도 21은 실시형태 2에 있어서의 제어장치의 구성을 나타낸 블록도이다.
도 22는 상기 음성번역 시스템의 동작에 대해 설명하는 순서도이다.
도 23은 상기 음성번역 시스템의 동작에 대해 설명하는 순서도이다.
도 24는 상기 음성인식장치 선택 처리의 동작에 대해 설명하는 순서도이다.
도 25는 상기 음성인식 스코어군을 나타낸 도면이다.
도 26은 상기 음성번역 제어정보의 포맷을 나타낸 도면이다.
도 27은 상기 실시형태에 있어서의 컴퓨터 시스템의 개관도이다.
도 28은 상기 컴퓨터 시스템의 구성을 나타낸 블록도이다.
이하, 음성번역 시스템 등의 실시형태에 대해 도면을 참조하여 설명한다. 또, 실시형태에 있어서 동일한 부호를 붙인 구성요소는 동일한 동작을 수행하므로, 재설명을 생략할 경우가 있다.
(실시형태 1)
본 실시형태에 있어서, 복수의 음성인식장치, 복수의 번역장치, 복수의 음성합성장치(14)의 처리결과를 선택하여 이용하는 음성번역 시스템에 대해 설명한다.
도 1은 본 실시형태 1에 있어서의 음성번역 시스템의 개념도이다. 음성번역 시스템은 제1 단말장치(10), 제어장치(11), 2 이상의 음성인식장치(12), 2 이상의 번역장치(13), 2 이상의 음성합성장치(14) 및 제2 단말장치(15)를 가진다.
음성번역 시스템에서, 예를 들면 제1 단말장치(10)의 유저(유저 A)인 일본인이 일본어로 "안녕하세요"라고 발화한 경우, 음성인식장치(12)는 일본어 "안녕하세요"를 음성인식한다. 그리고, 번역장치(13)는 음성인식 결과를, 예를 들면 영어 "Good morning"으로 번역한다. 다음으로, 음성합성장치(14)는 영문 "Good morning"으로부터 "Good morning"의 음성정보를 만들어낸다. 그리고, 영어 네이티브인 유저 B의 제2 단말장치(15)로부터 음성 "Good morning"이 출력된다. 그리고, 음성번역 시스템에서 제어장치(11)는 복수의 음성인식장치(12)에서의 복수의 음성인식 결과 중 하나의 음성인식 결과를 선택한다. 또한, 제어장치(11)는 복수의 번역장치(13)에서의 복수의 번역 결과 중 하나의 번역 결과를 선택한다. 또한, 제어장치(11)는 복수의 음성합성장치(14)에서의 복수의 음성합성 결과 중 하나의 음성합성 결과를 선택한다.
또한, 제1 단말장치(10) 및 제2 단말장치(15)는, 예를 들면 통화하는 단말(전화, 휴대전화를 포함함)이다. 여기서는, 주로 제1 단말장치(10)를 발화하는 측의 단말, 제2 단말장치(15)를 발화되는 측의 단말로서 설명하지만, 양자가 바뀔 수 있음은 물론이다. 또한, 통상적으로 제1 단말장치(10)와 제2 단말장치(15)가 발화하는 측의 단말, 발화되는 측의 단말로서 차례차례 연속적으로 바뀌면서, 제1 단말장치(10)의 유저 A와 제2 단말장치(15)의 유저 B가 회화를 진행시켜 간다. 또한, 제1 단말장치(10) 및 제2 단말장치(15)는 동일한 기능(하기 구성요소)을 가진다고 설명하지만, 각각 일부에 가지지 않는 기능이 있을 수도 있음은 물론이다. 또한, 제1 단말장치(10)의 유저(화자)를 유저 A, 제2 단말장치(15)의 유저(화자)를 유저 B로서 이하에 설명한다.
도 2는 본 실시형태에 있어서의 음성번역 시스템의 블록도이다. 또한, 도 3은 제어장치(11)의 블록도이다. 또한, 도 4는 음성인식장치(12)의 블록도이다. 또한, 도 5는 번역장치(13)의 블록도이다. 또한, 도 6은 음성합성장치(14)의 블록도이다.
제1 단말장치(10)는 제1 음성번역 제어정보 저장부(100), 제1 음성 접수부(101), 제1 음성 송신부(102), 제1 음성번역 제어정보 송신부(103), 제1 음성 수신부(104), 제1 음성 출력부(105)를 구비한다.
제어장치(11)는 음성번역 제어정보 수신부(1100), 음성 수신부(1101), 음성인식 의뢰부(1102), 음성인식 처리결과 수신부(1103), 음성인식 결과 선택부(1104), 번역 의뢰부(1105), 번역 처리결과 수신부(1106), 번역 결과 선택부(1107), 음성합성 의뢰부(1108), 음성합성 처리결과 수신부(1109), 음성합성 결과 선택부(1110), 음성합성 결과 송신부(1111)를 구비한다.
음성인식장치(12)는 음성인식 대상음성 수신부(121), 음성인식부(122), 음성인식 처리결과 송신부(123)를 구비한다.
번역장치(13)는 음성인식 결과 수신부(131), 번역부(132), 번역 처리결과 송신부(133)를 구비한다.
음성합성장치(14)는 번역 결과 수신부(141), 음성합성부(142), 음성합성 처리결과 송신부(143)를 구비한다.
제2 단말장치(15)는 제2 음성번역 제어정보 저장부(150), 제2 음성 접수부(151), 제2 음성 송신부(152), 제2 음성번역 제어정보 송신부(153), 제2 음성 수신부(154), 제2 음성 출력부(155)를 구비한다.
이하, 각 구성요소의 기능, 실현수단 등에 대해 설명한다. 다만, 제1 단말장치(10)의 구성요소의 기능과 이에 대응하는 제2 단말장치(15)의 구성요소의 기능은 동일(예를 들면, 제1 음성 접수부(101)와 제2 음성 접수부(151)의 기능은 동일함)하므로, 제1 단말장치(10)의 구성요소에 대해서만 설명한다.
제1 단말장치(10)를 구성하는 제1 음성번역 제어정보 저장부(100)는 음성번역 제어정보를 저장할 수 있다. 음성번역 제어정보는 음성번역을 수행할 때에 이용되는 정보이다. 음성번역 제어정보는 음성인식장치(12), 번역장치(13), 음성합성장치(14) 등의 장치가 각각 음성인식, 번역 및 음성합성을 수행하거나 처리결과를 송신하기 위한 정보를 가진다. 음성번역 제어정보는, 예를 들면 음성인식을 수행하는 음성인식장치를 특정하는 정보인 음성인식장치 식별자(예를 들면, IP 어드레스나 MAC 어드레스 등)나, 번역을 수행하는 번역장치를 특정하는 번역장치 식별자(예를 들면, IP 어드레스나 MAC 어드레스 등)나, 음성합성을 수행하는 음성합성장치를 특정하는 정보인 음성합성장치 식별자(예를 들면, IP 어드레스나 MAC 어드레스 등) 등을 포함할 수도 있다. 또한, 음성번역 제어정보는, 예를 들면 원언어를 나타내는 정보(예를 들면 "일본어", "Japanese")나 목적언어를 나타내는 정보(예를 들면 "영어", "English") 등을 포함할 수도 있다. 또한, 음성번역 제어정보는, 예를 들면 제1 단말장치(10)를 특정하는 정보인 제1 단말장치 식별자(예를 들면, 전화번호나 IP 어드레스 등)나, 전화를 건 유저인 유저 A를 특정하는 정보인 제1 유저 식별자(등록되어 있는 유저 A의 ID)나, 제2 단말장치(15)를 특정하는 정보인 제2 단말장치 식별자(예를 들면, 전화번호나 IP 어드레스 등)나, 전화를 받는 유저인 유저 B를 특정하는 정보인 제2 유저 식별자(등록되어 있는 유저 B의 ID) 등을 포함할 수도 있다. 또한, 음성번역 제어정보는, 예를 들면 화자속성을 포함할 수도 있다. 화자속성이란 화자의 속성값이다. 화자속성이란, 예를 들면 화자의 성별, 연령, 발화속도, 화자 클래스(화자가 사용하는 언어와 관련하여 사용하는 단어의 어려움, 문법의 올바름 등을 고려한 숙련도) 등이다. 화자 클래스는 사용하는 단어의 어려움의 정도를 나타내는 정보, 사용하는 용어의 정중함의 정도를 나타내는 정보, 문법의 올바름의 정도를 나타내는 정보 및 이것들의 복합적인 정도를 나타내는 정보, 네이티브인지 여부를 나타내는 정보 등이다. 또한, 화자속성에는 화자의 감정(기쁨, 슬픔 등) 등이 포함될 수도 있다. 또, 화자속성의 내용을 불문함은 물론이다.
제1 음성 접수부(101)는 제1 단말장치(10)의 유저(유저 A)로부터 음성을 접수한다.
제1 음성 송신부(102)는 제1 음성 접수부(101)가 접수한 음성으로 구성한 음성정보를 송신한다. 음성의 송신지는 통상적으로 제어장치(11)이지만, 2 이상의 각 음성인식장치(12)일 수도 있다.
제1 음성번역 제어정보 송신부(103)는 제1 음성번역 제어정보 저장부(100)에 저장되어 있는 음성번역 제어정보를 제어장치(11)로 송신한다. 또, 제1 음성번역 제어정보 송신부(103)는 음성번역 제어정보를 음성인식장치(12)나 번역장치(13)나 음성합성장치(14)로 송신할 수도 있다.
제1 음성 수신부(104)는 제2 단말장치(15)의 유저 B로부터 발성된 음성으로 구성된 음성정보를 음성번역한 결과인 음성정보를 수신한다. 이 음성정보는 통상적으로 제1 단말장치(10)의 유저 A가 이해할 수 있는 언어로 번역된 음성의 정보이다. 이 음성정보는 통상적으로 제2 단말장치(15)로부터 제어장치(11), 음성인식장치(12), 번역장치(13) 및 음성합성장치(14)를 경유하여 송신되어 온 정보이다.
제1 음성 출력부(105)는 제1 음성 수신부(104)가 수신한 음성정보를 출력한다. 여기서, 출력이란 통상적으로 스피커로의 음성 출력이다.
제어장치(11)의 음성번역 제어정보 수신부(1100)는 제1 단말장치(10)로부터 음성번역 제어정보를 수신한다.
도 3을 참조하면, 음성 수신부(1101)는 제1 유저(유저 A)의 음성을 접수하는 제1 단말장치(10)로부터 음성정보를 수신한다.
음성인식 의뢰부(1102)는 음성 수신부(1101)가 수신한 음성정보를 2 이상의 각 음성인식장치(12)로 송신한다. 음성인식 의뢰부(1102)는 음성정보와 함께 음성번역 제어정보 수신부(1100)가 수신한 음성번역 제어정보를 2 이상의 각 음성인식장치(12)로 송신할 수도 있다.
음성인식 처리결과 수신부(1103)는 음성정보의 송신에 대응하여, 2 이상의 각 음성인식장치(12)로부터 음성인식 처리결과를 수신한다. 음성인식 처리결과란 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가진다. 또, 음성인식 결과란 통상적으로 문자열이다. 또한, 음성인식 스코어란 음성인식 처리의 신뢰도를 나타내는 수치나 신뢰도의 랭크를 나타내는 문자 등이며, 예를 들면 우도 등이다. 또한, 음성인식 처리결과 수신부(1103)는 하나의 음성인식장치(12)로부터만 음성인식 처리결과를 수신할 수도 있다.
음성인식 결과 선택부(1104)는 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택한다. 가장 확실성 있는 음성인식 결과란 음성인식 스코어가 가장 좋은 음성인식 스코어와 쌍을 이루는 음성인식 결과이다. 또, 동일한 음성인식 스코어가 복수 존재하는 경우, 음성인식 결과 선택부(1104)는, 예를 들면 지금까지 선택한 음성인식 결과가 많았던 음성인식장치(12)로부터 송신된 음성인식 결과를 선택한다. 이러한 경우, 음성인식 결과 선택부(1104)는 음성인식장치(12)로부터 송신된 과거 1 이상의 음성인식 스코어를 음성인식장치 식별자와 대응시켜 적어도 일시적으로 축적하고 있고, 이러한 과거 1 이상의 음성인식 스코어를 이용하여 음성인식 결과를 선택한다. 또한, 동일한 음성인식 스코어가 복수 존재하는 경우, 음성인식 결과 선택부(1104)는 직전의 음성인식 스코어가 좋은 편인 음성인식장치(12)로부터 송신된 음성인식 결과를 선택하거나 할 수도 있다. 또, 음성인식 처리결과 수신부(1103)가 하나의 음성인식 결과만을 수신한 경우, 음성인식 결과 선택부(1104)는 상기 하나의 음성인식 결과를 번역 의뢰부(1105)에 넘겨준다. 이러한 처리 또한 음성인식 결과의 선택이라고 하자.
번역 의뢰부(1105)는 음성인식 결과 선택부(1104)가 선택한 음성인식 결과를 2 이상의 각 번역장치(13)로 송신한다. 번역 의뢰부(1105)는 음성인식 결과와 함께 음성번역 제어정보 수신부(1100)가 수신한 음성번역 제어정보를 2 이상의 각 번역장치(13)로 송신할 수도 있다.
번역 처리결과 수신부(1106)는 음성인식 결과의 송신에 대응하여, 2 이상의 각 번역장치(13)로부터 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신한다. 번역 스코어란 번역 처리의 신뢰도를 나타내는 수치나 신뢰도의 랭크를 나타내는 문자 등이며, 예를 들면 우도 등이다. 또, 번역 처리결과 수신부(1106)는 하나의 번역장치(13)로부터만 번역 처리결과를 수신할 수도 있다.
번역 결과 선택부(1107)는 번역 처리결과 수신부(1106)가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택한다. 가장 확실성 있는 번역 결과란 가장 좋은 번역 스코어와 쌍을 이루는 번역 결과이다. 또, 동일한 번역 스코어가 복수 존재하는 경우, 번역 결과 선택부(1107)는, 예를 들면 지금까지 선택한 번역 결과가 많았던 번역장치(13)로부터 송신된 번역 결과를 선택한다. 이러한 경우, 번역 결과 선택부(1107)는 번역장치(13)로부터 송신된 과거 1 이상의 번역 스코어를 번역장치 식별자와 대응시켜 적어도 일시적으로 축적하고 있고, 이러한 과거 1 이상의 번역 스코어를 이용하여 번역 결과를 선택한다. 또한, 동일한 번역 스코어가 복수 존재하는 경우, 번역 결과 선택부(1107)는 직전의 번역 스코어가 좋은 편인 번역장치(13)로부터 송신된 번역 결과를 선택하거나 할 수도 있다. 또, 번역 처리결과 수신부(1106)가 하나의 번역 결과만을 수신한 경우, 번역 결과 선택부(1107)는 상기 하나의 번역 결과를 음성합성 의뢰부(1108)에 넘겨준다. 이러한 처리 또한 번역 결과의 선택이라고 하자.
음성합성 의뢰부(1108)는 번역 결과 선택부(1107)가 선택한 번역 결과를 2 이상의 각 음성합성장치(14)로 송신한다. 음성합성 의뢰부(1108)는 번역 결과와 함께 음성번역 제어정보 수신부(1100)가 수신한 음성번역 제어정보를 2 이상의 각 번역장치(13)로 송신할 수도 있다.
음성합성 처리결과 수신부(1109)는 번역 결과의 송신에 대응하여, 2 이상의 각 음성합성장치(14)로부터 번역 결과의 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신한다. 음성합성 스코어란 음성합성 처리의 신뢰도를 나타내는 수치나 신뢰도의 랭크를 나타내는 문자 등이며, 예를 들면 우도 등이다. 또한, 음성합성 처리결과 수신부(1109)는 하나의 음성합성장치(14)로부터만 음성합성 처리결과를 수신할 수도 있다.
음성합성 결과 선택부(1110)는 음성합성 처리결과 수신부(1109)가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택한다. 가장 확실성 있는 음성합성 결과란 가장 좋은 음성합성 스코어와 쌍을 이루는 음성합성 결과이다. 또, 동일한 음성합성 스코어가 복수 존재하는 경우, 음성합성 결과 선택부(1110)는, 예를 들면 지금까지 선택한 음성합성 결과가 많았던 음성합성장치(14)로부터 송신된 음성합성 결과를 선택한다. 이러한 경우, 음성합성 결과 선택부(1110)는 음성합성장치(14)로부터 송신된 과거 1 이상의 음성합성 스코어를 음성합성장치 식별자와 대응시켜 적어도 일시적으로 축적하고 있고, 이러한 과거 1 이상의 음성합성 스코어를 이용하여 음성합성 결과를 선택한다. 또한, 동일한 음성합성 스코어가 복수 존재하는 경우, 음성합성 결과 선택부(1110)는 직전의 음성합성 스코어가 좋은 편인 음성합성장치(14)로부터 송신된 음성합성 결과를 선택하거나 할 수도 있다. 또, 음성합성 처리결과 수신부(1109)가 하나의 음성합성 결과만을 수신한 경우, 음성합성 결과 선택부(1110)는 상기 하나의 음성합성 결과를 음성합성 결과 송신부(1111)에 넘겨준다. 이러한 처리 또한 음성합성 결과의 선택이라고 하자.
음성합성 결과 송신부(1111)는 음성합성 결과 선택부(1110)가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치(15)로 송신한다.
도 4를 참조하면, 음성인식장치(12)의 음성인식 대상음성 수신부(121)는 제어장치(11)로부터 음성정보를 수신한다. 음성인식 대상음성 수신부(121)는 음성정보와 함께 음성번역 제어정보를 수신할 수도 있다. 또한, 음성인식 대상음성 수신부(121)는 제1 단말장치(10)로부터 음성정보를 수신할 수도 있다.
음성인식부(122)는 음성에 대해 음성인식 처리를 수행하여 음성인식 처리결과를 획득한다. 음성인식 처리결과는 음성인식 결과 및 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가진다. 음성인식 결과는 통상적으로 문자열이다. 음성인식부(122)는 음성번역 제어정보에 기재되어 있는 화자속성을 이용하여 음성인식 처리를 수행하는 것이 적합하다. 즉, 음성인식부(122)는, 예를 들면 복수의 음성인식 모델을 각각 화자속성(성별, 연령층 등)과 대응시켜 저장하고 있고, 음성번역 제어정보가 가지는 화자속성에 대응하는 하나의 음성인식 모델을 선택해서 이용하여 음성인식을 수행한다. 음성인식 모델이란, 예를 들면 은닉 마르코프 모델(HMM)의 음향 모델이다. 다만, 음성인식 모델은 반드시 HMM의 음향 모델일 필요는 없다. 음성인식 모델은 단일 가우스 분포 모델이나, 확률 모델(GMM: 가우시안 혼합 모델)이나, 통계 모델 등 다른 모델에 기초한 음향 모델일 수도 있다.
음성인식 처리결과 송신부(123)는 음성인식 처리결과를 제어장치(11)로 송신한다. 음성인식 처리결과 송신부(123)는 음성인식 처리결과를 1 이상의 번역장치(13)로 송신할 수도 있다. 또한, 음성인식 처리결과 송신부(123)는 음성인식 처리결과를 음성인식장치 식별자와 함께 송신하는 것이 적합하다. 이러한 경우, 음성인식 처리결과 송신부(123)는 음성인식장치 식별자를 미리 저장하고 있다. 음성인식장치 식별자는, 예를 들면 음성인식장치(12)의 IP 어드레스 등이다.
도 5를 참조하면, 번역장치(13)의 음성인식 결과 수신부(131)는 제어장치(11)로부터 음성인식 결과를 수신한다. 음성인식 결과 수신부(131)는 음성인식 결과를 음성인식장치(12)로부터 수신할 수도 있다. 음성인식 결과 수신부(131)는 음성인식 결과와 함께 음성번역 제어정보를 수신하는 것이 적합하다.
번역부(132)는 음성인식 결과 수신부(131)가 수신한 음성인식 결과를 목적언어로 번역하여 번역 처리결과를 획득한다. 번역 처리결과는 번역 결과 및 번역 처리의 확실성을 나타내는 번역 스코어를 가진다. 번역 결과는 목적언어로 번역된 문장 등을 나타내는 문자열이다. 번역부(132)는 음성인식 결과 수신부(131)가 수신한 음성번역 제어정보를 이용하여 번역 처리를 수행하는 것이 적합하다. 즉, 번역부(132)는, 예를 들면 복수의 원언어나 목적언어, 또는 화자속성과 대응시켜 복수의 번역 모델을 저장하고 있고, 음성번역 제어정보에 포함되는 원언어나 목적언어의 정보 또는/및 화자속성으로부터 하나의 번역 모델을 선택하고, 해당 번역 모델을 이용하여 번역 처리를 수행하는 것이 적합하다. 또, 번역 모델이란 번역을 수행하기 위한 정보(사전적인 정보)이며, 이른바 언어 모델을 포함할 수도 있으며, 포함하지 않을 수도 있다.
번역 처리결과 송신부(133)는 번역부(132)가 획득한 번역 처리결과를 제어장치(11)로 송신한다. 번역 처리결과 송신부(133)는 번역 처리결과를 1 이상의 음성합성장치(14)로 송신할 수도 있다.
도 6을 참조하면, 음성합성장치(14)의 번역 결과 수신부(141)는 제어장치(11)로부터 번역 결과를 수신한다. 번역 결과 수신부(141)는 번역장치(13)로부터 번역 결과를 수신할 수도 있다. 번역 결과 수신부(141)는 번역 결과와 함께 음성번역 제어정보를 수신할 수도 있다.
음성합성부(142)는 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 처리결과를 획득한다. 음성합성 처리결과는 음성합성 결과 및 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가진다. 음성합성 결과는 음성 출력 대상의 음성정보이다. 음성합성부(142)는 음성인식 결과 수신부(131)가 수신한 음성번역 제어정보를 이용하여 음성합성 처리를 수행하는 것이 적합하다. 즉, 음성합성부(142)는, 예를 들면 목적언어나 화자속성 등과 대응시켜 복수의 음성합성 모델을 저장하고 있고, 음성번역 제어정보에 포함되는 목적언어의 정보 또는/및 화자속성으로부터 하나의 음성합성 모델을 선택하고, 해당 음성합성 모델을 이용하여 음성합성 처리를 수행하는 것이 적합하다. 또, 음성합성 모델이란 음성합성하기 위해 이용되는 정보(예를 들면, 코퍼스(corpus))이다.
음성합성 처리결과 송신부(143)는 음성합성 처리결과를 제어장치(11)로 송신한다. 음성합성 처리결과 송신부(143)는 음성합성 처리결과를 제2 단말장치(15)로 송신할 수도 있다.
제1 단말장치(10)의 제1 음성번역 제어정보 저장부(100)는 비휘발성 기록매체가 적합하지만, 휘발성 기록매체로도 실현 가능하다. 또한, 제1 음성번역 제어정보 저장부(100)에 음성번역 제어정보가 기억되는 과정은 불문한다. 예를 들면, 기록매체를 통해 음성번역 제어정보가 제1 음성번역 제어정보 저장부(100)에서 기억되도록 될 수도 있고, 통신회선 등을 통해 송신된 음성번역 제어정보가 제1 음성번역 제어정보 저장부(100)에서 기억되도록 될 수도 있고, 혹은 입력 디바이스를 통해 입력된 음성번역 제어정보가 제1 음성번역 제어정보 저장부(100)에서 기억되도록 될 수도 있다.
제1 음성 접수부(101)는, 예를 들면 마이크에 의해 실현될 수 있다.
제1 음성 송신부(102), 제1 음성번역 제어정보 송신부(103), 음성인식 의뢰부(1102), 번역 의뢰부(1105), 음성합성 의뢰부(1108), 음성합성 결과 송신부(1111), 음성인식 처리결과 송신부(123), 번역 처리결과 송신부(133), 음성합성 처리결과 송신부(143)는 통상적으로 무선 또는 유선의 통신수단으로 실현되지만, 방송수단으로 실현될 수도 있다.
제1 음성 수신부(104), 음성번역 제어정보 수신부(1100), 음성 수신부(1101), 음성인식 처리결과 수신부(1103), 번역 처리결과 수신부(1106), 음성합성 처리결과 수신부(1109), 음성인식 대상음성 수신부(121), 음성인식 결과 수신부(131), 번역 결과 수신부(141)는 통상적으로 무선 또는 유선의 통신수단으로 실현되지만, 방송을 수신하는 수단으로 실현될 수도 있다.
제1 음성 출력부(105)는 스피커 등의 출력 디바이스를 포함한다고 생각할 수도 있고 포함하지 않는다고 생각할 수도 있다. 제1 음성 출력부(105)는 출력 디바이스의 드라이버 소프트웨어 또는 출력 디바이스의 드라이버 소프트웨어와 출력 디바이스 등으로 실현될 수 있다.
제어장치(11)의 음성인식 결과 선택부(1104), 번역 결과 선택부(1107), 음성합성 결과 선택부(1110), 음성인식부(122), 번역부(132), 음성합성부(142)는 통상적으로 MPU나 메모리 등으로 실현될 수 있다. 음성인식 결과 선택부(1104) 등의 처리 절차는 통상적으로 소프트웨어로 실현되고, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 다만, 하드웨어(전용 회로)로 실현할 수도 있다.
다음으로, 음성번역 시스템의 동작에 대해 설명한다. 먼저, 제1 단말장치(10)의 동작에 대해 도 6의 순서도를 이용하여 설명한다.
제1 단말장치(10)의 제1 음성 접수부(101)는 유저 A로부터 음성을 접수하면 음성을 송신할 수 있는 음성정보로 변환하고(예를 들면, 디지털 변조하고), 제1 음성 송신부(102)는 해당 음성정보를 제어장치(11)로 송신한다. 이러한 경우, 통상적으로 제1 음성 송신부(102)는 제1 단말장치 식별자와 함께 음성정보를 제어장치(11)로 송신한다. 또한, 제1 음성번역 제어정보 송신부(103)는 음성정보의 송신 타이밍에 제1 음성번역 제어정보 저장부(100)에 저장되어 있는 음성번역 제어정보를 제어장치(11)로 송신한다. 또한, 유저 B가 발한 음성으로 구성된 음성정보가 음성인식되고, 번역되고, 음성합성된 음성합성 결과를 제1 음성 수신부(104)가 수신하고, 제1 음성 출력부(105)는 음성합성 결과를 음성 출력한다.
다음으로, 제어장치(11)의 동작에 대해 도 7의 순서도를 이용하여 설명한다.
(S701 단계) 음성 수신부(1101)는 제1 단말장치(10)로부터 음성정보를 수신했는지 여부를 판단한다. 음성정보를 수신했으면 S702 단계로 가고, 음성정보를 수신하지 않았으면 S701 단계로 되돌아간다. 또, 여기서, 음성 수신부(1101)가 음성정보를 수신했을 때, 음성번역 제어정보 수신부(1100)는 음성번역 제어정보를 수신한다고 하자.
(S702 단계) 음성인식 의뢰부(1102)는 S701 단계에서 수신된 음성정보를 2 이상의 각 음성인식장치(12)로 송신한다. 또한, 음성인식 의뢰부(1102)는 음성번역 제어정보 수신부(1100)가 수신한 음성번역 제어정보를 2 이상의 각 음성인식장치(12)로 송신한다. 또, 음성인식 의뢰부(1102)는 2 이상의 각 음성인식장치(12)와 통신하기 위한 정보인 2 이상의 음성인식장치 식별자를 미리 유지하고 있다고 하자. 또한, 음성인식 의뢰부(1102)는 음성번역 제어정보(예를 들면, 화자속성이나 음성인식장치 식별자 등)를 이용하여 1 이상의 음성인식장치(12)를 선택하고, 상기 선택한 1 이상의 음성인식장치(12)로 음성정보를 송신할 수도 있다. 이러한 경우, 음성인식 의뢰부(1102)는 화자속성을 가지는 조건과 음성인식장치 식별자를 대응시켜 저장하고 있다.
(S703 단계) 음성인식 처리결과 수신부(1103)는 S702 단계에서의 음성정보 등의 송신에 대응하여, 2 이상의 각 음성인식장치(12)로부터 음성인식 처리결과를 수신했는지 여부를 판단한다. 음성인식 처리결과를 수신했으면 S704 단계로 가고, 음성인식 처리결과를 수신하지 않았으면 S703 단계로 되돌아간다. 또, 음성인식 처리결과 수신부(1103)는 통상적으로 모든 음성인식장치(12)로부터 음성인식 처리결과를 수신할 때까지 대기하지만, 음성정보 등의 송신 후, 미리 결정된 시간을 경과한 경우, S703 단계에서의 수신 처리를 종료해도 된다.
(S704 단계) 음성인식 결과 선택부(1104)는 S703 단계에서 수신된 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 음성인식 스코어가 큰(가장 좋은) 음성인식 결과를 선택하여 메모리 상에 배치한다.
(S705 단계) 음성인식 결과 선택부(1104)는 음성인식 스코어가 최대인 음성인식 결과가 복수 존재하는지 여부를 판단한다. 즉, 음성인식 결과 선택부(1104)는 S704 단계에서 복수의 음성인식 결과를 선택했는지 여부를 판단한다. 최대 음성인식 스코어의 음성인식 결과가 복수 존재하는 경우에는 S706 단계로 가고, 복수 존재하지 않는 경우에 S707 단계로 간다.
(S706 단계) 음성인식 결과 선택부(1104)는 동일한 음성인식 스코어와 쌍을 이루는 복수의 음성인식 결과 중, 2 이상의 음성인식장치(12)에서의 과거의 음성인식 스코어를 이용하여 하나의 음성인식장치(12)의 음성인식 결과를 선택한다. 즉, 예를 들면 음성인식 결과 선택부(1104)는 음성인식장치(12)별 과거의 평균 음성인식 스코어를 산출하여, 상기 평균 음성인식 스코어가 가장 좋은 음성인식장치(12)의 음성인식 결과를 선택할 수도 있으며, 시간적으로 직전의 음성인식 스코어가 가장 좋은 음성인식장치(12)의 음성인식 결과를 선택하거나 할 수도 있다.
(S707 단계) 번역 의뢰부(1105)는 음성인식 결과 선택부(1104)가 선택한 하나의 음성인식 결과를 2 이상의 각 번역장치(13)로 송신한다. 또한, 번역 의뢰부(1105)는 음성번역 제어정보 수신부(1100)가 수신한 음성번역 제어정보를 2 이상의 각 번역장치(13)로 송신한다. 또, 번역 의뢰부(1105)는 2 이상의 각 번역장치(13)와 통신하기 위한 정보인 2 이상의 번역장치 식별자를 미리 유지하고 있다고 하자. 또한, 번역 의뢰부(1105)는 음성번역 제어정보(예를 들면, 화자속성이나 번역장치 식별자 등)를 이용하여 1 이상의 번역장치(13)를 선택하고, 상기 선택한 1 이상의 번역장치(13)로 음성인식 결과를 송신할 수도 있다. 이러한 경우, 번역 의뢰부(1105)는 화자속성을 가지는 조건과 번역장치 식별자를 대응시켜 저장하고 있다.
(S708 단계) 번역 처리결과 수신부(1106)는 S707 단계에서의 음성인식 결과 등의 송신에 대응하여, 2 이상의 각 번역장치(13)로부터 번역 처리결과를 수신했는지 여부를 판단한다. 번역 처리결과를 수신했으면 S709 단계로 가고, 번역 처리결과를 수신하지 않았으면 S708 단계로 되돌아간다. 또, 번역 처리결과 수신부(1106)는 통상적으로 모든 번역장치(13)로부터 번역 처리결과를 수신할 때까지 대기하지만, 음성인식 결과 등의 송신 후, 미리 결정된 시간을 경과한 경우, S708 단계에서의 수신 처리를 종료해도 된다.
(S709 단계) 번역 결과 선택부(1107)는 S708 단계에서 수신된 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 번역 스코어가 큰(가장 좋은) 번역 결과를 선택하여 메모리 상에 배치한다.
(S710 단계) 번역 결과 선택부(1107)는 번역 스코어가 최대인 번역 결과가 복수 존재하는지 여부를 판단한다. 즉, 번역 결과 선택부(1107)는 S709 단계에서 복수의 번역 결과를 선택했는지 여부를 판단한다. 최대 번역 스코어의 번역 결과가 복수 존재하는 경우에는 S711 단계로 가고, 복수 존재하지 않는 경우에 S712 단계로 간다.
(S711 단계) 번역 결과 선택부(1107)는 동일한 번역 스코어와 쌍을 이루는 복수의 번역 결과 중, 2 이상의 번역장치(13)에서의 과거의 번역 스코어를 이용하여 하나의 번역장치(13)의 번역 결과를 선택한다. 즉, 예를 들면 번역 결과 선택부(1107)는 번역장치(13)별 과거의 평균 번역 스코어를 산출하여, 상기 평균 번역 스코어가 가장 좋은 번역장치(13)의 번역 결과를 선택할 수도 있으며, 시간적으로 직전의 번역 스코어가 가장 좋은 번역장치(13)의 번역 결과를 선택하거나 할 수도 있다.
(S712 단계) 음성합성 의뢰부(1108)는 번역 결과 선택부(1107)가 선택한 하나의 번역 결과를 2 이상의 각 음성합성장치(14)로 송신한다. 또한, 음성합성 의뢰부(1108)는 음성번역 제어정보 수신부(1100)가 수신한 음성번역 제어정보를 2 이상의 각 음성합성장치(14)로 송신한다. 또, 음성합성 의뢰부(1108)는 2 이상의 각 음성합성장치(14)와 통신하기 위한 정보인 2 이상의 음성합성장치 식별자를 미리 유지하고 있다고 하자. 또한, 음성합성 의뢰부(1108)는 음성번역 제어정보(예를 들면, 화자속성이나 음성합성장치 식별자 등)를 이용하여 1 이상의 음성합성장치(14)를 선택하고, 상기 선택한 1 이상의 음성합성장치(14)로 번역 결과를 송신할 수도 있다. 이러한 경우, 음성합성 의뢰부(1108)는 화자속성을 가지는 조건과 음성합성장치 식별자를 대응시켜 저장하고 있다.
(S713 단계) 음성합성 처리결과 수신부(1109)는 S712 단계에서의 번역 결과 등의 송신에 대응하여, 2 이상의 각 음성합성장치(14)로부터 음성합성 처리결과를 수신했는지 여부를 판단한다. 음성합성 처리결과를 수신했으면 S714 단계로 가고, 음성합성 처리결과를 수신하지 않았으면 S713 단계로 되돌아간다. 또, 음성합성 처리결과 수신부(1109)는 통상적으로 모든 음성합성장치(14)로부터 음성합성 처리결과를 수신할 때까지 대기하지만, 번역 결과 등의 송신 후, 미리 결정된 시간을 경과한 경우, S713 단계에서의 수신 처리를 종료해도 된다.
(S714 단계) 음성합성 결과 선택부(1110)는 S713 단계에서 수신된 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 음성합성 스코어가 큰(가장 좋은) 음성합성 결과를 선택하여 메모리 상에 배치한다.
(S715 단계) 음성합성 결과 선택부(1110)는 음성합성 스코어가 최대인 음성합성 결과가 복수 존재하는지 여부를 판단한다. 즉, 음성합성 결과 선택부(1110)는 S714 단계에서 복수의 음성합성 결과를 선택했는지 여부를 판단한다. 최대 음성합성 스코어의 음성합성 결과가 복수 존재하는 경우에는 S716 단계로 가고, 복수 존재하지 않는 경우에 S717 단계로 간다.
(S716 단계) 음성합성 결과 선택부(1110)는 동일한 음성합성 스코어와 쌍을 이루는 복수의 음성합성 결과 중, 2 이상의 음성합성장치(14)에서의 과거의 음성합성 스코어를 이용하여 하나의 음성합성장치(14)의 음성합성 결과를 선택한다. 즉, 예를 들면 음성합성 결과 선택부(1110)는 음성합성장치(14)별 과거의 평균 음성합성 스코어를 산출하여, 상기 평균 음성합성 스코어가 가장 좋은 음성합성장치(14)의 음성합성 결과를 선택할 수도 있으며, 시간적으로 직전의 음성합성 스코어가 가장 좋은 음성합성장치(14)의 음성합성 결과를 선택하거나 할 수도 있다.
(S717 단계) 음성합성 결과 송신부(1111)는 음성합성 결과 선택부(1110)가 선택한 하나의 음성합성 결과를 유저 B가 이용하는 제2 단말장치(15)로 송신한다. S701 단계로 되돌아간다.
또, 도 7의 순서도에서 최대 스코어에 대응하는 음성인식 결과, 번역 결과, 음성합성 결과가 복수 존재하는 경우, 과거의 스코어를 이용하여 하나의 음성인식 결과, 번역 결과, 음성합성 결과를 선택했지만, 랜덤하게 하나의 음성인식 결과, 번역 결과, 음성합성 결과를 선택할 수도 있다.
또한, 도 7의 순서도에서 각 음성인식장치의 음성인식 스코어, 각 번역장치의 번역 스코어, 각 음성합성장치의 음성합성 스코어는 적어도 일시적으로 축적되어 가는 것이 적합하다.
또한 도 7의 순서도에서 전원 오프나 처리 종료의 인터럽트에 의해 처리가 종료된다.
다음으로, 음성인식장치(12)의 동작에 대해 도 8의 순서도를 이용하여 설명한다.
(S801 단계) 음성인식 대상음성 수신부(121)는 제어장치(11)로부터 음성정보와 음성번역 제어정보를 수신했는지 여부를 판단한다. 음성정보 등을 수신했으면 S802 단계로 가고, 수신하지 않았으면 S801 단계로 되돌아간다.
(S802 단계) 음성인식부(122)는 S801 단계에서 수신된 음성번역 제어정보를 획득한다.
(S803 단계) 음성인식부(122)는 S802 단계에서 획득한 음성번역 제어정보를 이용하여 음성인식 모델을 선택한다. 예를 들면, 화자속성(예를 들면, 성별, 연령층, 화자 레벨 등)을 포함한 조건과 음성인식 모델이 대응되어 저장되어 있고, 음성인식부(122)는 음성번역 제어정보 중 화자속성에 합치되는 조건과 쌍을 이루는 음성인식 모델을 선택한다. 또, 음성인식 모델은, 예를 들면 음향 모델과 언어 모델을 포함한다.
(S804 단계) 음성인식부(122)는 S801 단계에서 수신된 음성정보를 획득한다.
(S805 단계) 음성인식부(122)는 S803 단계에서 선택한 음성인식 모델을 이용하여 S804 단계에서 획득한 음성정보에 대해 음성인식 처리를 수행한다. 그리고, 음성인식부(122)는 음성인식 결과(통상적으로 문자열)와 음성인식 스코어(예를 들면, 우도)를 획득한다.
(S806 단계) 음성인식부(122)는 S805 단계에서 획득한 음성인식 결과와 음성인식 스코어로부터 음성인식 처리결과를 구성한다.
(S807 단계) 음성인식 처리결과 송신부(123)는 음성인식 처리결과를 음성인식장치 식별자와 함께 제어장치(11)로 송신한다. 또, 음성인식 처리결과 송신부(123)는 음성인식장치 식별자를 미리 유지하고 있다. S801 단계로 되돌아간다.
또, 도 8의 순서도에서 음성인식 처리결과 송신부(123)는 음성인식 처리결과 등을 1 이상의 번역장치(13)로 송신할 수도 있다.
또한, 도 8의 순서도에서 전원 오프나 처리 종료의 인터럽트에 의해 처리가 종료된다.
다음으로, 번역장치(13)의 동작에 대해 도 9의 순서도를 이용하여 설명한다.
(S901 단계) 음성인식 결과 수신부(131)는 제어장치(11)로부터 음성인식 결과와 음성번역 제어정보를 수신했는지 여부를 판단한다. 음성인식 결과 등을 수신했으면 S902 단계로 가고, 수신하지 않았으면 S901 단계로 되돌아간다. 또, 음성인식 결과 수신부(131)는 음성인식 결과 등을 음성인식장치(12)로부터 수신할 수도 있다.
(S902 단계) 번역부(132)는 S901 단계에서 수신된 음성번역 제어정보를 획득한다.
(S903 단계) 번역부(132)는 S902 단계에서 획득한 음성번역 제어정보를 이용하여 번역 모델을 선택한다. 예를 들면, 원언어, 목적언어, 및/또는 화자속성(예를 들면, 성별, 연령층, 화자 레벨 등)을 포함한 조건과 번역 모델이 대응되어 저장되어 있고, 번역부(132)는 음성번역 제어정보 중 원언어, 목적언어, 및/또는 화자속성에 합치되는 조건과 쌍을 이루는 번역 모델을 선택한다.
(S904 단계) 번역부(132)는 S901 단계에서 수신된 음성인식 결과를 획득한다.
(S905 단계) 번역부(132)는 S903 단계에서 선택한 번역 모델을 이용하여 S904 단계에서 획득한 음성인식 결과에 대해 번역을 수행한다. 그리고, 번역부(132)는 번역 결과(통상적으로 목적언어의 문장을 나타내는 문자열)와 번역 스코어(예를 들면, 우도)를 획득한다.
(S906 단계) 번역부(132)는 S905 단계에서 획득한 번역 결과와 번역 스코어로부터 번역 처리결과를 구성한다.
(S907 단계) 번역 처리결과 송신부(133)는 번역 처리결과를 번역장치 식별자와 함께 제어장치(11)로 송신한다. 또, 번역 처리결과 송신부(133)는 번역장치 식별자를 미리 유지하고 있다. S901 단계로 되돌아간다.
또, 도 9의 순서도에서 번역 처리결과 송신부(133)는 번역 처리결과 등을 1 이상의 음성합성장치(14)로 송신할 수도 있다.
또한, 도 9의 순서도에서 전원 오프나 처리 종료의 인터럽트에 의해 처리가 종료된다.
다음으로, 음성합성장치(14)의 동작에 대해 도 10의 순서도를 이용하여 설명한다.
(S1001 단계) 번역 결과 수신부(141)는 제어장치(11)로부터 번역 결과와 음성번역 제어정보를 수신했는지 여부를 판단한다. 번역 결과 등을 수신했으면 S1002 단계로 가고, 수신하지 않았으면 S1001 단계로 되돌아간다.
(S1002 단계) 음성합성부(142)는 S1001 단계에서 수신된 음성번역 제어정보를 획득한다.
(S1003 단계) 음성합성부(142)는 S1002 단계에서 획득한 음성번역 제어정보를 이용하여 음성합성 모델을 선택한다. 예를 들면, 화자속성(예를 들면, 성별, 연령층, 화자 레벨 등)을 포함한 조건과 음성합성 모델이 대응되어 저장되어 있고, 음성합성부(142)는 음성번역 제어정보 중 화자속성에 합치되는 조건과 쌍을 이루는 음성합성 모델을 선택한다.
(S1004 단계) 음성합성부(142)는 S1001 단계에서 수신된 번역 결과를 획득한다.
(S1005 단계) 음성합성부(142)는 S1003 단계에서 선택한 음성합성 모델을 이용하여 S1004 단계에서 획득한 번역 결과에 대해 음성합성 처리를 수행한다. 그리고, 음성합성부(142)는 음성합성 결과(통상적으로 음성정보)와 음성합성 스코어(예를 들면, 우도)를 획득한다.
(S1006 단계) 음성합성부(142)는 S1005 단계에서 획득한 음성합성 결과와 음성합성 스코어로부터 음성합성 처리결과를 구성한다.
(S1007 단계) 음성합성 처리결과 송신부(143)는 음성합성 결과를 음성합성장치 식별자와 함께 제어장치(11)로 송신한다. 또, 음성합성 처리결과 송신부(143)는 음성합성장치 식별자를 미리 유지하고 있다. S1001 단계로 되돌아간다.
또, 도 10의 순서도에서 음성합성 처리결과 송신부(143)는 음성합성 처리결과 등을 제2 단말장치(15)로 송신할 수도 있다.
또한, 도 10의 순서도에서 전원 오프나 처리 종료의 인터럽트에 의해 처리가 종료된다.
현재 음성번역 시스템의 개념도인 도 1을 참조하여 본 실시형태에 있어서의 음성번역 시스템의 구체적인 동작에 대해 설명한다.
이하, 제1 단말장치(10)의 유저 A는 일본어를 하는 37세의 여성이며, 일본어는 네이티브이다. 또한, 제2 단말장치(15)의 유저 B는 영어를 하는 38세의 남성이며, 영어는 네이티브이다.
그리고, 제1 단말장치(10)의 제1 음성번역 제어정보 저장부(100)에는 도 11에 나타낸 음성번역 제어정보가 저장되어 있다. 음성번역 제어정보는 여기서는 원언어, 목적언어를 나타내는 정보, 상대방 단말인 제2 단말장치의 식별자, 자기 단말인 제1 단말장치의 식별자, 유저 A의 성별, 연령층, 화자 클래스의 정보를 가진다. 여기서, 화자 클래스는 사용언어에 대해 네이티브인지 여부를 나타낸다. 네이티브인 경우에는 "Y", 네이티브가 아닌 경우에는 "N"의 속성값이 된다. 또한, "발화속도"는 말하는 속도이며, 여기서는, "빠름", "중간 정도", "느림"의 3가지 중 어느 하나의 값을 취할 수 있다. "빠름"은, 예를 들면 말하는 스피드가 "5음절/초" 이상인 경우, "중간 정도"는, 예를 들면 말하는 스피드가 "5음절/초" 미만 "3음절/초" 이상인 경우, "느림"은, 예를 들면 말하는 스피드가 "3음절/초" 미만인 경우이다. 다만, "발화속도"의 카테고라이즈의 종류, 카테고라이즈의 방법 등은 불문한다.
또한, 제2 단말장치(15)의 제2 음성번역 제어정보 저장부(150)에는 도 12에 나타낸 음성번역 제어정보가 저장되어 있다.
또한, 어느 하나의 음성인식장치(12)의 음성인식부(122)는 도 13에 나타낸 음성인식 모델 선택정보 관리표를 저장하고 있다. 음성인식 모델 선택정보 관리표는 "언어", "화자속성", "음성인식 모델 식별자"의 속성값을 가지는 레코드를 1 이상 저장하고 있다. "화자속성"은 여기서는 "성별", "연령", "발화속도" 등을 가진다. "음성인식 모델 식별자"는 음성인식 모델을 식별하는 정보이며, 예를 들면 음성인식 모델을 읽어내기 위해 이용된다. 여기서는, 예를 들면 "음성인식 모델 식별자"는 음성인식 모델이 저장되어 있는 파일명 등이다. 또한, 음성인식부(122)는 음성인식 모델 식별자에 대응하는 복수의 음성인식 모델을 저장하고 있다.
또한, 어느 하나의 번역장치(13)의 번역부(132)는 도 14에 나타낸 번역 모델 선택정보 관리표를 유지하고 있다. 번역 모델 선택정보 관리표는 "ID", "원언어", "화자속성", "번역 모델 식별자"의 속성값을 가지는 레코드를 1 이상 저장하고 있다. "화자속성"은 여기서는 "성별", "연령", "화자 클래스" 등을 가진다. "번역 모델 식별자"는 번역 모델을 식별하는 정보이며, 예를 들면 번역 모델을 읽어내기 위해 이용된다. 여기서는, 예를 들면 "번역 모델 식별자"는 번역 모델이 저장되어 있는 파일명 등이다. 또한, 번역부(132)는 번역 모델 식별자에 대응하는 복수의 번역 모델을 저장하고 있다.
또한, 어느 하나의 음성합성장치(14)의 음성합성부(142)는 도 15에 나타낸 음성합성 모델 선택정보 관리표를 유지하고 있다. 음성합성 모델 선택정보 관리표는 "ID", "목적언어", "화자속성", "음성합성 모델 식별자"의 속성값을 가지는 레코드를 1 이상 저장하고 있다. "화자속성"은 여기서는 "성별", "연령", "화자 클래스" 등을 가진다. "화자속성"으로서 "발화속도" 등을 가지는 것이 더 적합하다. "음성합성 모델 식별자"는 음성합성 모델을 식별하는 정보이며, 예를 들면 음성합성 모델을 읽어내기 위해 이용된다. 여기서는, 예를 들면 "음성합성 모델 식별자"는 음성합성 모델이 저장되어 있는 파일명 등이다. 또한, 음성합성부(142)는 음성합성 식별자에 대응하는 복수의 음성합성 모델을 저장하고 있다.
이러한 상황에서 유저 A는 유저 B에 전화를 걸려고 한다. 그리고, 유저 A는 제1 단말장치(10)로부터 상대방(유저 B)의 전화번호 등을 입력하는 화면으로, 도 16의 화면을 호출했다. 그리고, 제1 단말장치(10)는 제1 음성번역 제어정보 저장부(100)에 저장되어 있는 음성번역 제어정보(도 11)를 읽어내어 도 16의 화면을 표시한다. 또, 도 16의 화면에서 발화속도는 표시되지 않았지만, 표시되어 있을 수도 있음은 물론이다. 그리고, 유저는 상대방의 사용언어와 상대방의 전화번호를 입력하고, "발신" 버튼을 눌렀다고 하자. 또, 도 16에서 자신의 전화번호 "080-1111-2256"은 도시하지 않은 기록매체에 저장되어 있다고 하자.
다음으로, 제1 단말장치(10)의 도시하지 않은 발호부는 제2 단말장치(15)에 대해 발호한다. 그리고, 통화가 개시된다.
다음으로, 제1 단말장치(10)의 제1 음성 접수부(101)는 유저 A의 음성 "안녕하세요"를 접수한다. 그리고, 제1 음성 접수부(101)는 음성을 음성정보로 변환한다. 다음으로, 제1 음성 송신부(102)는 해당 음성정보 "안녕하세요"를 제어장치(11)로 송신한다. 또한, 제1 음성번역 제어정보 송신부(103)는 도 11의 음성번역 제어정보를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 음성 수신부(1101)는 제1 단말장치(10)로부터 음성정보 "안녕하세요"와 도 11의 음성번역 제어정보를 수신한다.
그리고, 음성인식 의뢰부(1102)는 수신된 음성정보와 음성번역 제어정보를 2 이상의 각 음성인식장치(12)로 송신한다.
다음으로, 어느 하나의 음성인식장치(12)의 음성인식 대상음성 수신부(121)는 제어장치(11)로부터 음성정보 "안녕하세요"와 도 11의 음성번역 제어정보를 수신한다.
그리고, 각 음성인식부(122)는 도 11의 음성번역 제어정보를 이용하여 음성인식 모델을 선택한다. 즉, 음성인식부(122)는 도 11의 음성번역 제어정보를 도 13의 음성인식 모델 선택정보 관리표에 적용하여, 언어 "일본어", 성별 "여성", 연령 "30~39세", 발화속도 "빠름"에 합치되는 음성인식 모델 식별자 "JR5"를 획득한다.
다음으로, 음성인식부(122)는 수신된 음성정보 "안녕하세요"를 획득한다.
다음으로, 음성인식부(122)는 선택한 음성인식 모델 "JR5"를 이용하여 획득한 음성정보 "안녕하세요"에 대해 음성인식 처리를 수행한다. 그리고, 음성인식부(122)는 음성인식 결과(문자열)인 "안녕하세요" 및 음성인식 스코어 "0.83"을 획득한다.
다음으로, 음성인식부(122)는 획득한 음성인식 결과와 음성인식 스코어로부터 음성인식 처리결과 "0.83: 안녕하세요"를 구성한다.
다음으로, 음성인식 처리결과 송신부(123)는 음성인식 처리결과 "0.83: 안녕하세요"를 음성인식장치 식별자 "R01"과 함께 제어장치(11)로 송신한다.
또한, 다른 음성인식장치(12)도 상기 하나의 음성인식장치(12)와 마찬가지로, 음성인식 처리결과와 음성인식장치 식별자를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 음성인식 처리결과 수신부(1103)는 음성정보 등의 송신에 대응하여, 2 이상의 각 음성인식장치(12)로부터 음성인식 처리결과를 수신한다. 여기서, 음성인식 처리결과 수신부(1103)는 도 17에 나타낸 바와 같이 복수의 음성인식 처리결과를 수신했다고 하자.
다음으로, 음성인식 결과 선택부(1104)는 수신된 2 이상의 음성인식 처리결과(도 17)가 가지는 음성인식 스코어를 이용하여 가장 음성인식 스코어가 큰(가장 좋은) 음성인식 결과를 선택하여 메모리 상에 배치한다. 즉, 음성인식 결과 선택부(1104)는 음성인식장치 식별자 "R03"에 대응하는 음성인식 결과 "안녕하세요"를 선택하여 메모리 상에 배치한다.
다음으로, 번역 의뢰부(1105)는 음성인식 결과 선택부(1104)가 선택한 하나의 음성인식 결과 "안녕하세요"와 음성번역 제어정보(도 11)를 2 이상의 각 번역장치(13)로 송신한다.
다음으로, 하나의 번역장치(13)의 음성인식 결과 수신부(131)는 제어장치(11)로부터 음성인식 결과 "안녕하세요"와 음성번역 제어정보(도 11)를 수신한다. 그리고, 번역부(132)는 음성번역 제어정보를 획득한다.
다음으로, 번역부(132)는 획득한 음성번역 제어정보를 이용하여 번역 모델을 선택한다. 즉, 번역부(132)는 도 11의 음성번역 제어정보를 도 14의 번역 모델 선택정보 관리표에 적용하여, 언어 "일본어", 성별 "여성", 연령 "30~39세", 화자 클래스 "Y"에 합치되는 번역 모델 식별자 "JT4"를 획득한다.
다음으로, 번역부(132)는 수신된 음성인식 결과 "안녕하세요"를 획득한다.
다음으로, 번역부(132)는 선택한 번역 모델 "JT4"를 이용하여 획득한 음성인식 결과 "안녕하세요"에 대해 번역을 수행한다. 그리고, 번역부(132)는 번역 결과 "Good morning."과 번역 스코어 "0.91"을 획득한다.
다음으로, 번역부(132)는 획득한 번역 결과와 번역 스코어로부터 번역 처리결과 "0.91: Good morning."을 구성한다.
다음으로, 번역 처리결과 송신부(133)는 번역 처리결과 "0.91: Good morning."을 번역장치 식별자 "T01"과 함께 제어장치(11)로 송신한다.
또한, 다른 번역장치(13)도 상기 하나의 번역장치(13)와 마찬가지로, 번역 처리결과와 번역장치 식별자를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 번역 처리결과 수신부(1106)는 음성인식 결과 등의 송신에 대응하여, 2 이상의 각 번역장치(13)로부터 번역 처리결과를 수신한다. 그리고, 번역 처리결과 수신부(1106)는 도 18에 나타낸 바와 같이 복수의 번역 처리결과를 수신했다고 하자.
다음으로, 번역 결과 선택부(1107)는 수신된 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 번역 스코어가 큰(가장 좋은) 번역 결과를 선택하여 메모리 상에 배치한다. 즉, 번역 결과 선택부(1107)는 번역장치 식별자 "T02"의 번역 결과 "1.00: Good morning."을 선택하여 메모리 상에 배치한다.
다음으로, 제어장치(11)의 음성합성 의뢰부(1108)는 번역 결과 선택부(1107)가 선택한 하나의 번역 결과 "Good morning."을 2 이상의 각 음성합성장치(14)로 송신한다.
다음으로, 하나의 음성합성장치(14)의 번역 결과 수신부(141)는 제어장치(11)로부터 번역 결과와 음성번역 제어정보를 수신한다. 그리고, 음성합성부(142)는 수신된 음성번역 제어정보를 획득한다.
다음으로, 음성합성부(142)는 획득한 음성번역 제어정보를 이용하여 음성합성 모델을 선택한다. 즉, 음성합성부(142)는 도 11의 음성번역 제어정보를 도 15의 음성합성 모델 선택정보 관리표에 적용하여, 목적언어 "영어", 성별 "여성", 연령 "30~39세", 화자 클래스 "Y"에 합치되는 음성합성 모델 식별자 "JC9"를 획득한다.
다음으로, 음성합성부(142)는 수신된 번역 결과 "Good morning."을 획득한다.
다음으로, 음성합성부(142)는 선택한 음성합성 모델 "JC9"를 이용하여 획득한 번역 결과 "Good morning."에 대해 음성합성 처리를 수행한다. 그리고, 음성합성부(142)는 음성합성 결과(통상적으로 음성정보)와 음성합성 스코어 "0.87"을 획득한다.
다음으로, 음성합성부(142)는 획득한 음성합성 결과와 음성합성 스코어로부터 음성합성 처리결과를 구성한다.
다음으로, 음성합성 처리결과 송신부(143)는 음성합성 결과를 음성합성장치 식별자 "J01"과 함께 제어장치(11)로 송신한다. 여기서, 음성합성 결과는, 예를 들면 음성정보 파일이다.
또한, 다른 음성합성장치(14)도 상기 하나의 음성합성장치(14)와 마찬가지로, 음성합성 처리결과와 음성합성장치 식별자를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 음성합성 처리결과 수신부(1109)는 번역 결과 등의 송신에 대응하여, 2 이상의 각 음성합성장치(14)로부터 음성합성 처리결과를 수신한다. 그리고, 음성합성 처리결과 수신부(1109)는 도 19에 나타낸 바와 같이 복수의 음성합성 처리결과를 수신했다고 하자.
다음으로, 음성합성 결과 선택부(1110)는 수신된 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 음성합성 스코어가 큰(가장 좋은) 음성합성 결과를 선택하여 메모리 상에 배치한다. 즉, 음성합성 결과 선택부(1110)는 음성합성장치 식별자 "J01"에 대응하는 음성합성 결과를 선택한다.
다음으로, 음성합성 결과 송신부(1111)는 음성합성 결과 선택부(1110)가 선택한 하나의 음성합성 결과를 유저 B가 이용하는 제2 단말장치(15)로 송신한다.
다음으로, 제2 단말장치(15)의 제2 음성 수신부(154)는 음성합성 결과 "Good morning"을 수신한다. 그리고, 제2 음성 출력부(155)는 음성 "Good morning"을 음성 출력한다.
이상의 처리에 의해, 유저 A가 발한 "안녕하세요"가 제2 단말장치(15)에 도달할 때까지 "Good morning"의 음성으로 변환되어, 제2 단말장치(15)로 "Good morning"이 음성 출력된다.
또한, 제2 단말장치(15)의 유저 B가 "Good morning"에 답하여 "Good morning"이라고 발한 음성은 상기와 동일한 처리에 의해 "안녕"으로 변환되어, 제1 단말장치(10)로 음성 "안녕"이 출력된다.
이상, 본 실시형태에 의하면, 동일한 역할을 담당하는 복수의 서버군(2 이상의 음성인식장치(12), 2 이상의 번역장치(13) 및 2 이상의 음성합성장치(14))의 처리결과(음성인식 결과, 번역 결과, 음성합성 결과)로부터 적절한 처리결과를 선택할 수 있다.
또한, 본 실시형태에 의하면, 음성인식, 번역, 음성합성의 각 처리에서 화자속성을 포함한 음성번역 제어정보에 합치되는 적절한 모델을 선택할 수 있다. 그 결과, 정밀도가 높거나 또는 화자의 속성을 계승한 네트워크형 음성번역 시스템이 제공될 수 있다.
또, 본 실시형태에 있어서, 복수의 음성인식장치의 처리결과로부터 하나의 처리결과를 선택하고, 동시에 복수의 번역장치의 처리결과로부터 하나의 처리결과를 선택하고, 동시에, 복수의 음성합성장치의 처리결과로부터 하나의 처리결과를 선택했다. 그러나, 복수의 음성인식장치의 처리결과로부터 하나의 처리결과를 선택하기만 하고, 번역장치나 음성합성장치는 고정적일 수도 있다. 이러한 경우, 음성번역 시스템은 제어장치, 2 이상의 음성인식장치, 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서, 상기 제어장치는, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 수신하는 음성인식 처리결과 수신부, 상기 음성인식 처리결과 수신부가 수신한 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부, 및 상기 음성인식 결과 선택부가 선택한 음성인식 결과를 상기 번역장치로 송신하는 번역 의뢰부를 구비하고, 상기 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부, 상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하고, 음성인식 결과 및 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 획득하는 음성인식부, 및 상기 음성인식부가 획득한 음성인식 처리결과를 상기 제어장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 상기 번역장치는, 상기 음성인식 결과를 상기 제어장치로부터 수신하는 음성인식 결과 수신부, 상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부, 및 상기 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 번역 처리결과 송신부를 구비하고, 상기 음성합성장치는, 상기 번역 결과를 수신하는 번역 결과 수신부, 상기 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부, 및 상기 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이다.
또한, 본 실시형태에 있어서, 복수의 번역장치의 처리결과로부터 하나의 처리결과를 선택하기만 하고, 음성인식장치나 음성합성장치는 고정적일 수도 있다. 이러한 경우, 음성번역 시스템은 제어장치, 음성인식장치, 2 이상의 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서, 상기 제어장치는, 상기 2 이상의 각 번역장치로부터 상기 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부, 상기 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부, 및 상기 번역 결과 선택부가 선택한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 음성합성 의뢰부를 구비하고, 상기 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부, 상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 가지는 음성인식 처리결과를 획득하는 음성인식부, 및 상기 음성인식부가 획득한 음성인식 처리결과를 직접적 또는 간접적으로 상기 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 상기 번역장치는, 상기 음성인식 결과를 수신하는 음성인식 결과 수신부, 상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하고, 번역 결과 및 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 획득하는 번역부, 및 상기 번역부가 획득한 번역 처리결과를 상기 제어장치로 송신하는 번역 처리결과 송신부를 구비하고, 상기 음성합성장치는, 상기 번역 결과를 상기 제어장치로부터 수신하는 번역 결과 수신부, 상기 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부, 및 상기 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이다.
또한, 본 실시형태에 있어서, 복수의 음성합성장치의 처리결과로부터 하나의 처리결과를 선택하기만 하고, 음성인식장치나 번역장치는 고정적일 수도 있다. 이러한 경우, 음성번역 시스템은 제어장치, 음성인식장치, 번역장치 및 2 이상의 음성합성장치를 가지는 음성번역 시스템으로서, 상기 제어장치는, 상기 2 이상의 각 음성합성장치로부터 상기 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부, 상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부, 및 상기 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부를 구비하고, 상기 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부, 상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 획득하는 음성인식부, 및 상기 음성인식부가 획득한 음성인식 결과를 직접적 또는 간접적으로 상기 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 상기 번역장치는, 상기 음성인식 결과를 수신하는 음성인식 결과 수신부, 상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부, 및 상기 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 번역 처리결과 송신부를 구비하고, 상기 음성합성장치는, 상기 번역 결과를 수신하는 번역 결과 수신부, 상기 번역 결과에 대해 음성합성 처리를 수행하고, 음성합성 결과 및 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 획득하는 음성합성부, 및 상기 음성합성 처리결과를 상기 제어장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이다.
또한, 본 실시형태에 있어서, 유저가 지정한 하나의 음성인식장치, 또는 유저가 지정한 하나의 번역장치, 또는 유저가 지정한 하나의 음성합성장치만을 이용할 수도 있다. 예를 들면, 음성번역 제어정보가 도 20인 경우, 음성번역 제어정보에 음성인식장치가 지정되어 있고, 제어장치(11)는 "186.221.1.27"로 식별되는 음성인식장치(12)로만 음성정보를 송신하여 음성인식 처리를 의뢰하는 것이 적합하다. 또, 음성번역 제어정보에 번역장치의 지정이 있는 경우, 또는 음성합성장치의 지정이 있는 경우에도 동일하다.
또한, 본 실시형태에 있어서, 1 이상의 각 음성인식장치(12)의 음성인식 처리결과 송신부(123)는 음성인식 처리결과 중 음성인식 스코어를 음성번역 제어정보에 추기(追記)하고, 음성인식 결과와 음성인식 스코어가 포함된 음성번역 제어정보를 제어장치(11)로 송신할 수도 있다. 즉, 음성인식 처리결과는 음성인식 결과와 음성인식 스코어가 포함된 음성번역 제어정보를 가지는 정보일 수도 있다. 그리고, 제어장치(11)의 음성인식 결과 선택부(1104)는 음성번역 제어정보에 포함되어 있는 음성인식 스코어를 이용하여 음성인식 결과를 선택한다. 이러한 것은 다른 실시형태에서도 동일하다.
또한, 본 실시형태에 있어서, 1 이상의 각 번역장치(13)의 번역 처리결과 송신부(133)는 번역 처리결과 중 번역 스코어를 음성번역 제어정보에 추기하고, 번역 결과와 음성인식 스코어가 포함된 음성번역 제어정보를 제어장치(11)로 송신할 수도 있다. 즉, 번역 처리결과는 번역 결과와 번역 스코어가 포함된 음성번역 제어정보를 가지는 정보일 수도 있다. 그리고, 제어장치(11)의 번역 결과 선택부(1107)는 음성번역 제어정보에 포함되어 있는 번역 스코어를 이용하여 번역 결과를 선택한다. 이러한 것은 다른 실시형태에서도 동일하다.
또한, 본 실시형태에 있어서, 1 이상의 각 음성합성장치(14)의 음성합성 처리결과 송신부(143)는 음성합성 처리결과 중 음성합성 스코어를 음성번역 제어정보에 추기하고, 음성합성 결과와 음성합성 스코어가 포함된 음성번역 제어정보를 제어장치(11)로 송신할 수도 있다. 즉, 음성합성 처리결과는 음성합성 결과와 음성합성 스코어가 포함된 음성번역 제어정보를 가지는 정보일 수도 있다. 그리고, 제어장치(11)의 음성합성 결과 선택부(1110)는 음성번역 제어정보에 포함되어 있는 음성합성 스코어를 이용하여 음성합성 결과를 선택한다. 이러한 것은 다른 실시형태에서도 동일하다.
또한, 본 실시형태에 있어서의 처리는 소프트웨어로 실현할 수도 있다. 그리고, 이 소프트웨어를 소프트웨어 다운로드 등에 의해 배포할 수도 있다. 또한, 이 소프트웨어를 CD-ROM 등의 기록매체에 기록하여 유포할 수도 있다. 또, 이것은 본 명세서의 다른 실시형태에 있어서도 해당된다. 또, 본 실시형태에 있어서의 제어장치(11)를 실현하는 소프트웨어는 이하와 같은 프로그램이다. 즉, 이 프로그램은, 예를 들면 컴퓨터를, 제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성 수신부, 상기 음성정보를 2 이상의 각 음성인식장치로 송신하는 음성인식 의뢰부, 상기 음성정보의 송신에 대응하여, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 2 이상 수신하는 음성인식 처리결과 수신부, 상기 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부, 상기 음성인식 결과 선택부가 선택한 음성인식 결과를 2 이상의 각 번역장치로 송신하는 번역 의뢰부, 상기 음성인식 결과의 송신에 대응하여, 상기 2 이상의 각 번역장치로부터 상기 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부, 상기 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부, 상기 번역 결과 선택부가 선택한 번역 결과를 2 이상의 각 음성합성장치로 송신하는 음성합성 의뢰부, 상기 번역 결과의 송신에 대응하여, 상기 2 이상의 각 음성합성장치로부터 상기 번역 결과의 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부, 상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부, 및 상기 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부로서 기능시키기 위한 프로그램이다.
(실시형태 2)
본 실시형태에 있어서, 유저간 일련의 대화에서 소정의 조건을 만족시킬 때까지 실시형태 1에서 설명한 처리와 동일하지만, 소정의 조건을 만족시킨 후부터 음성인식장치, 번역장치, 또는 음성합성장치를 고정시켜 음성번역 처리를 수행하는 음성번역 시스템에 대해 설명한다. 즉, 본 실시형태에 있어서의 음성번역 시스템에서 스코어가 높은 음성인식장치, 번역장치, 또는 음성합성장치가 결정되면, 이후, 모든 장치에 처리 의뢰를 수행하는 것이 아니라 특정한 하나의 장치에 처리 의뢰를 수행하는 점이, 실시형태 1에 있어서의 음성번역 시스템과 다르다.
본 실시형태 2에 있어서의 음성번역 시스템의 개념도는 도 1과 동일하다. 실시형태 1에서 설명한 음성번역 시스템과 실시형태 2에서의 음성번역 시스템은 제어장치가 다르다. 본 음성번역 시스템은 제1 단말장치(10), 제어장치(21), 음성인식장치(12), 번역장치(13), 음성합성장치(14), 제2 단말장치(15)를 구비한다.
도 21은 본 실시형태에 있어서의 제어장치(21)의 블록도이다. 제어장치(21)는 음성번역 제어정보 수신부(1100), 음성 수신부(1101), 음성인식 의뢰부(2102), 음성인식 처리결과 수신부(1103), 음성인식 결과 선택부(1104), 번역 의뢰부(2105), 번역 처리결과 수신부(1106), 번역 결과 선택부(1107), 음성합성 의뢰부(2108), 음성합성 처리결과 수신부(1109), 음성합성 결과 선택부(1110), 음성합성 결과 송신부(1111), 음성인식장치 선택부(2112), 번역장치 선택부(2113), 음성합성장치 선택부(2114)를 구비한다.
음성인식 의뢰부(2102)는 음성정보를 2 이상의 각 음성인식장치(12)로 송신한다. 음성인식 의뢰부(2102)는 음성인식장치 선택부(2112)가 음성인식장치(12)를 선택한 후, 선택한 음성인식장치(12)로만 음성정보를 송신한다. 음성인식 의뢰부(2102)는 음성정보와 함께 음성번역 제어정보를 송신할 수도 있다.
번역 의뢰부(2105)는 음성인식 결과 선택부(1104)가 선택한 음성인식 결과를 2 이상의 각 번역장치(13)로 송신한다. 번역 의뢰부(2105)는 번역장치 선택부(2113)가 번역장치(13)를 선택한 후, 선택한 번역장치(13)로만 음성인식 결과를 송신한다. 번역 의뢰부(2105)는 음성인식 결과와 함께 음성번역 제어정보를 송신할 수도 있다.
음성합성 의뢰부(2108)는 번역 결과 선택부(1107)가 선택한 번역 결과를 2 이상의 각 음성합성장치(14)로 송신한다. 음성합성 의뢰부(2108)는 음성합성장치 선택부(2114)가 음성합성장치(14)를 선택한 후, 선택한 음성합성장치(14)로만 번역 결과를 송신한다. 음성합성 의뢰부(2108)는 번역 결과와 함께 음성번역 제어정보를 송신할 수도 있다.
음성인식장치 선택부(2112)는 음성인식 결과 선택부(1104)에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치(12)를 2 이상의 음성인식장치(12) 중에서 선택한다. 음성인식장치 선택부(2112)는 음성인식장치(12)를 선택하기 위한 조건인 음성인식장치 선택 조건을 유지하고 있다. 그리고, 음성인식장치 선택부(2112)는 음성인식장치 선택 조건을 만족시킨 경우, 음성인식 처리를 수행하는 하나의 음성인식장치(12)를 2 이상의 음성인식장치(12) 중에서 선택한다. 음성인식장치 선택 조건은 과거의 음성인식 스코어를 이용한 조건이다. 음성인식장치 선택 조건은, 예를 들면 1회째 음성인식 스코어가 가장 좋은 음성인식장치(12)를 선택한다는 조건(음성인식장치 선택 조건의 표기예 "조건: 횟수=1, max-score(음성인식장치)")이다. 또한, 음성인식장치 선택 조건은, 예를 들면 5번째 이후로, 음성인식 스코어의 평균값이 0.85 이상이며, 가장 음성인식 스코어의 평균값이 높은 음성인식장치(12)를 선택한다는 조건(음성인식장치 선택 조건의 표기예 "조건: 횟수=5 이상, max-score(average-score>=0.85)")이다. 또한, 음성인식장치 선택 조건은, 예를 들면 1회라도 음성인식 스코어가 0.95를 넘은 경우의 해당 음성인식장치(12)를 선택한다는 조건이다. 또, 음성인식장치 선택 조건은 음성인식을 수행하기 위해 적절한 음성인식장치(12)를 선택하기 위한 조건이면 무엇이든 상관없다.
번역장치 선택부(2113)는 번역 결과 선택부(1107)에서의 1회 이상의 번역 결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치(13)를 2 이상의 번역장치(13) 중에서 선택한다. 번역장치 선택부(2113)는 번역장치(13)를 선택하기 위한 조건인 번역장치 선택 조건을 유지하고 있다. 그리고, 번역장치 선택부(2113)는 번역장치 선택 조건을 만족시킨 경우, 번역 처리를 수행하는 번역장치(13)를 2 이상의 번역장치(13) 중에서 선택한다. 번역장치 선택 조건은 과거의 번역 스코어를 이용한 조건이다. 번역장치 선택 조건은, 예를 들면 1회째 번역 스코어가 가장 좋은 번역장치(13)를 선택한다는 조건(번역장치 선택 조건의 표기예 "조건: 횟수=1, max-score(번역장치)")이다. 또한, 번역장치 선택 조건은, 예를 들면 5번째 이후로, 번역 스코어의 평균값이 0.85 이상이며, 가장 번역 스코어의 평균값이 높은 번역장치(13)를 선택한다는 조건(번역장치 선택 조건의 표기예 "조건: 횟수=5 이상, max-score(average-score>=0.85)")이다. 또한, 번역장치 선택 조건은, 예를 들면 1회라도 번역 스코어가 0.95를 넘은 경우의 해당 번역장치(13)를 선택한다는 조건이다. 또, 번역장치 선택 조건은 번역을 수행하기 위해 적절한 번역장치(13)를 선택하기 위한 조건이면 무엇이든 상관없다.
음성합성장치 선택부(2114)는 음성합성 결과 선택부(1110)에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치(14)를 2 이상의 음성합성장치(14) 중에서 선택한다. 음성합성장치 선택부(2114)는 음성합성장치(14)를 선택하기 위한 조건인 음성합성장치 선택 조건을 유지하고 있다. 그리고, 음성합성장치 선택부(2114)는 음성합성장치 선택 조건을 만족시킨 경우, 음성합성 처리를 수행하는 음성합성장치(14)를 2 이상의 음성합성장치(14) 중에서 선택한다. 음성합성장치 선택 조건은 과거의 음성합성 스코어를 이용한 조건이다. 음성합성장치 선택 조건은, 예를 들면 1회째 음성합성 스코어가 가장 좋은 음성합성장치(14)를 선택한다는 조건(음성합성장치 선택 조건의 표기예 "조건: 횟수=1, max-score(음성합성장치)")이다. 또한, 음성합성장치 선택 조건은, 예를 들면 5번째 이후로, 음성합성 스코어의 평균값이 0.85 이상이며, 가장 음성합성 스코어의 평균값이 높은 음성합성장치(14)를 선택한다는 조건(음성합성장치 선택 조건의 표기예 "조건: 횟수=5 이상, max-score(average-score>=0.85)")이다. 또한, 음성합성장치 선택 조건은, 예를 들면 1회라도 음성합성 스코어가 0.95를 넘은 경우의 해당 음성합성장치(14)를 선택한다는 조건이다. 또, 음성합성장치 선택 조건은 음성합성을 수행하기 위해 적절한 음성합성장치(14)를 선택하기 위한 조건이면 무엇이든 상관없다.
음성인식 의뢰부(2102), 번역 의뢰부(2105), 음성합성 의뢰부(2108)는 통상적으로 무선 또는 유선의 통신수단으로 실현되지만, 방송수단으로 실현될 수도 있다.
음성인식장치 선택부(2112), 번역장치 선택부(2113) 및 음성합성장치 선택부(2114)는 통상적으로 MPU나 메모리 등으로 실현될 수 있다. 음성인식장치 선택부(2112) 등의 처리 절차는 통상적으로 소프트웨어로 실현되고, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 다만, 하드웨어(전용 회로)로 실현할 수도 있다.
다음으로, 음성번역 시스템의 제어장치(21)의 동작에 대해 도 22, 도 23의 순서도를 이용하여 설명한다. 또, 도 22, 도 23의 순서도에서 도 7의 순서도와 동일한 단계에 대해서는 설명을 생략한다.
(S2201 단계) 음성인식 의뢰부(2102)는 음성인식을 의뢰하는 음성인식장치(12)가 하나의 음성인식장치(12)로 결정이 끝났는지 여부를 판단한다. 또, 하나의 음성인식장치(12)로 결정이 끝난 경우, 예를 들면 미리 결정된 버퍼에 하나의 음성인식장치 식별자가 저장되어 있다. 하나의 음성인식장치(12)로 결정이 끝난 경우에 S2202 단계로 가고, 미결정인 경우에 S702 단계로 간다. 하나의 음성인식장치(12)는 통상적으로 제1 단말장치(10)의 유저별, 제1 단말장치(10) 유저의 일련의 대화별로 결정된다.
(S2202 단계) 음성인식 의뢰부(2102)는 하나의 음성인식장치(12)로 음성정보를 송신한다. 또, 음성인식 의뢰부(2102)는 통상적으로 버퍼로부터 하나의 음성인식장치 식별자를 읽어내고, 상기 하나의 음성인식장치 식별자를 이용하여 하나의 음성인식장치(12)로 음성정보를 송신한다.
(S2203 단계) 음성인식장치 선택부(2112)는 음성인식 처리결과 수신부(1103)가 수신한 각 음성인식장치(12)의 음성인식 스코어를 음성인식장치 식별자와 대응시켜 버퍼 등의 기록매체에 일시적으로 축적한다.
(S2204 단계) 음성인식장치 선택부(2112)는 음성인식장치(12)를 선택하는 처리를 수행한다. 이러한 음성인식장치 선택 처리에 대해 도 24의 순서도를 이용하여 설명한다.
(S2205 단계) 번역 의뢰부(2105)는 번역을 의뢰하는 번역장치(13)가 하나의 번역장치(13)로 결정이 끝났는지 여부를 판단한다. 또, 하나의 번역장치(13)로 결정이 끝난 경우, 예를 들면 미리 결정된 버퍼에 하나의 번역장치 식별자가 저장되어 있다. 하나의 번역장치(13)로 결정이 끝난 경우에 S2206 단계로 가고, 미결정인 경우에 S707 단계로 간다. 또, 하나의 번역장치(13)는 통상적으로 제1 단말장치(10)의 유저별, 제1 단말장치(10) 유저의 일련의 대화별로 결정된다.
(S2206 단계) 번역 의뢰부(2105)는 하나의 번역장치(13)로 음성인식 결과를 송신한다. 또, 번역 의뢰부(2105)는 통상적으로 버퍼로부터 하나의 번역장치 식별자를 읽어내고, 상기 하나의 번역장치 식별자를 이용하여 하나의 번역장치(13)로 음성인식 결과를 송신한다.
(S2207 단계) 번역장치 선택부(2113)는 번역 처리결과 수신부(1106)가 수신한 각 번역장치(13)의 번역 스코어를 번역장치 식별자와 대응시켜 버퍼 등의 기록매체에 일시적으로 축적한다.
(S2208 단계) 번역장치 선택부(2113)는 번역장치(13)를 선택하는 처리를 수행한다. 이러한 번역장치 선택 처리에 대해 도 24의 순서도를 이용하여 설명한다.
(S2209 단계) 음성합성 의뢰부(2108)는 음성합성을 의뢰하는 음성합성장치(14)가 하나의 음성합성장치(14)로 결정이 끝났는지 여부를 판단한다. 또, 하나의 음성합성장치(14)로 결정이 끝난 경우, 예를 들면 미리 결정된 버퍼에 하나의 음성합성장치 식별자가 저장되어 있다. 하나의 음성합성장치(14)로 결정이 끝난 경우에 S2210 단계로 가고, 미결정인 경우에 S712 단계로 간다. 또, 하나의 음성합성장치(14)는 통상적으로 제1 단말장치(10)의 유저별, 제1 단말장치(10) 유저의 일련의 대화별로 결정된다.
(S2210 단계) 음성합성 의뢰부(2108)는 하나의 음성합성장치(14)로 번역 결과를 송신한다. 또, 음성합성 의뢰부(2108)는 통상적으로 버퍼로부터 하나의 음성합성장치 식별자를 읽어내고, 상기 하나의 음성합성장치 식별자를 이용하여 하나의 음성합성장치(14)로 번역 결과를 송신한다.
(S2211 단계) 음성합성장치 선택부(2114)는 음성합성 처리결과 수신부(1109)가 수신한 각 음성합성장치(14)의 음성합성 스코어를 음성합성장치 식별자와 대응시켜 버퍼 등의 기록매체에 일시적으로 축적한다.
(S2212 단계) 음성합성장치 선택부(2114)는 음성합성장치(14)를 선택하는 처리를 수행한다. 이러한 음성합성장치 선택 처리에 대해 도 24의 순서도를 이용하여 설명한다. 또, 번역장치 선택 처리, 음성인식장치 선택 처리 및 음성합성장치 선택 처리는 동일한 처리이므로 함께 설명한다.
또, 도 22, 도 23의 순서도에서 전원 오프나 처리 종료의 인터럽트에 의해 처리가 종료된다.
다음으로, 음성인식장치 선택 처리, 번역장치 선택 처리 및 음성합성장치 선택 처리에 대해 도 24의 순서도를 이용하여 설명한다. 또, 이하, 음성인식장치를 선택하는 경우에 대해 설명한다.
(S2401 단계) 음성인식장치 선택부(2112)는 지금까지의 처리 횟수를 획득한다. 지금까지의 처리 횟수란 유저 A와 유저 B의 일련의 대화 중에서의, 예를 들면 유저 A의 음성정보의 음성인식 처리의 횟수이다.
(S2402 단계) 음성인식장치 선택부(2112)는 카운터 i에 1을 대입한다.
(S2403 단계) 음성인식장치 선택부(2112)는 미리 저장하고 있는 조건 중에 i번째 조건이 존재하는지 여부를 판단한다. i번째 조건이 존재하면 S2404 단계로 가고, i번째 조건이 존재하지 않으면 S2413 단계로 간다. 또, 조건이란, 예를 들면 음성인식장치 선택 조건이다.
(S2404 단계) 음성인식장치 선택부(2112)는 i번째 조건을 읽어낸다.
(S2405 단계) 음성인식장치 선택부(2112)는 카운터 j에 1을 대입한다.
(S2406 단계) 음성인식장치 선택부(2112)는 음성인식 처리를 수행하는 j번째 음성인식장치(12)가 존재하는지 여부를 판단한다. j번째 음성인식장치(12)가 존재하면 S2407 단계로 가고, 존재하지 않으면 S2412 단계로 간다.
(S2407 단계) 음성인식장치 선택부(2112)는 j번째 음성인식장치(12)의 지금까지의 처리에 대한 스코어를 읽어낸다.
(S2408 단계) 음성인식장치 선택부(2112)는 S2407 단계에서 읽어낸 스코어, S2401 단계에서 획득한 지금까지의 처리 횟수 등 중 필요한 정보를, j번째 음성인식장치(12)가 i번째 조건에 적용한다. 또, 여기서의 i번째 조건이란 i번째 조건 중 모든 조건이 아닌 경우도 있을 수 있다. 예를 들면, 모든 장치 중에서의 최대 스코어 등이 조건에 포함되는 경우, 이러한 판단은 S2413 단계에서 수행된다.
(S2409 단계) 음성인식장치 선택부(2112)는 j번째 음성인식장치(12)가 i번째 조건에 합치되는지 여부를 판단한다. j번째 음성인식장치(12)가 i번째 조건에 합치되면 S2410 단계로 가고, 합치되지 않으면 S2411 단계로 넘어간다.
(S2410 단계) 음성인식장치 선택부(2112)는 j번째 음성인식장치(12)의 음성인식장치 식별자, 스코어 등을 일시적으로 축적한다.
(S2411 단계) 음성인식장치 선택부(2112)는 카운터 j를 1 인크리먼트(increment)한다.
(S2412 단계) 음성인식장치 선택부(2112)는 카운터 i를 1 인크리먼트한다.
(S2413 단계) 음성인식장치 선택부(2112)는 S2410 단계에 축적된 음성인식장치 식별자로 식별되는 음성인식장치(12) 중에서 최종적으로 조건에 합치되는 가장 좋은 음성인식장치(12)를 결정한다. 예를 들면, 음성인식장치 선택부(2112)는 적용한 조건을 적용하여, 조건이 채택하는 스코어에 관한 조건(예를 들면, 스코어의 평균값이나, 스코어의 분산값이나, 최근의 스코어의 값 등)이 가장 우수한 음성인식장치(12)를 선택한다.
(S2414 단계) 음성인식장치 선택부(2112)는 S2413 단계에서 결정한 음성인식장치(12)의 음성인식장치 식별자를 버퍼에 축적한다. 상위 처리로 리턴한다.
또, 도 24의 순서도에서 저장되어 있는 조건은 복수일 수도 있지만, 하나일 수도 있음은 물론이다.
이하, 본 실시형태에 있어서의 음성번역 시스템의 구체적인 동작에 대해 설명한다. 음성번역 시스템의 개념도는 도 1과 동일하다.
현재 음성인식장치 선택부(2112)는 음성인식장치 선택 조건 "조건: 횟수=5 이상, max-score(average-score>=0.85)"를 저장하고 있다. 이러한 음성인식장치 선택 조건은 5번째 이후로, 음성인식 스코어의 평균값이 0.85 이상이며, 가장 음성인식 스코어의 평균값이 높은 음성인식장치(12)를 선택한다는 조건이다.
또한, 번역장치 선택부(2113)는 "조건: 횟수=1, max-score(번역장치)"를 저장하고 있다. 이러한 번역장치 선택 조건은 1회째 번역 스코어가 가장 좋은 번역장치(13)를 선택한다는 조건이다.
또한, 음성합성장치 선택부(2114)는 "조건: if(음성합성 스코어>0.95){select(음성합성장치)}"를 저장하고 있다. 이러한 음성합성장치 선택 조건은 1회라도 음성합성 스코어가 0.95를 넘은 경우, 해당 음성합성장치(14)를 선택한다는 조건이다.
이러한 상황에서 제1 단말장치(10)의 유저 A와 제2 단말장치(15)의 유저 B가 대화를 한다. 실시형태 1의 구체적인 예와 마찬가지로, 제1 단말장치(10)의 유저 A는 일본어를 하는 37세의 여성이며, 일본어는 네이티브이다. 또한, 제2 단말장치(15)의 유저 B는 영어를 하는 38세의 남성이며, 영어는 네이티브이다.
그리고, 실시형태 1의 구체적인 예와 마찬가지로, 유저 A는 유저 B에 전화를 걸려고 한다. 그리고, 제1 단말장치(10)의 도시하지 않은 발호부는 제2 단말장치(15)에 대해 발호한다. 그리고, 통화가 개시된다.
다음으로, 제1 단말장치(10)의 제1 음성 접수부(101)는 유저 A의 음성 "안녕하세요"를 접수한다. 그리고, 제1 음성 접수부(101)는 음성을 음성정보로 변환한다. 다음으로, 제1 음성 송신부(102)는 해당 음성정보 "안녕하세요"를 제어장치(11)로 송신한다. 또한, 제1 음성번역 제어정보 송신부(103)는 도 11의 음성번역 제어정보를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 음성 수신부(1101)는 제1 단말장치(10)로부터 음성정보 "안녕하세요"와 도 11의 음성번역 제어정보를 수신한다.
다음으로, 음성인식 의뢰부(2102)는 음성인식을 의뢰하는 음성인식장치(12)가 하나의 음성인식장치(12)로 결정이 끝나지 않았다고 판단한다.
그리고, 음성인식 의뢰부(1102)는 수신된 음성정보와 음성번역 제어정보를 2 이상의 각 음성인식장치(12)로 송신한다.
다음으로, 어느 하나의 음성인식장치(12)의 음성인식 대상음성 수신부(121)는 제어장치(11)로부터 음성정보 "안녕하세요"와 도 11의 음성번역 제어정보를 수신한다.
그리고, 각 음성인식부(122)는 도 11의 음성번역 제어정보를 이용하여 음성인식 모델을 선택한다. 즉, 음성인식부(122)는 도 11의 음성번역 제어정보를 도 13의 음성인식 모델 선택정보 관리표에 적용하여, 언어 "일본어", 성별 "여성", 연령 "30~39세", 발화속도 "빠름"에 합치되는 음성인식 모델 식별자 "JR5"를 획득한다.
다음으로, 음성인식부(122)는 수신된 음성정보 "안녕하세요"를 획득한다.
다음으로, 음성인식부(122)는 선택한 음성인식 모델 "JR5"를 이용하여 획득한 음성정보 "안녕하세요"에 대해 음성인식 처리를 수행한다. 그리고, 음성인식부(122)는 음성인식 결과(문자열)인 "안녕하세요" 및 음성인식 스코어 "0.83"을 획득한다.
다음으로, 음성인식부(122)는 획득한 음성인식 결과와 음성인식 스코어로부터 음성인식 처리결과 "0.83: 안녕하세요"를 구성한다.
다음으로, 음성인식 처리결과 송신부(123)는 음성인식 처리결과 "0.83: 안녕하세요"를 음성인식장치 식별자 "R01"과 함께 제어장치(11)로 송신한다.
또한, 다른 음성인식장치(12)도 상기 하나의 음성인식장치(12)와 마찬가지로, 음성인식 처리결과와 음성인식장치 식별자를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 음성인식 처리결과 수신부(1103)는 음성정보 등의 송신에 대응하여, 2 이상의 각 음성인식장치(12)로부터 음성인식 처리결과를 수신한다. 여기서, 음성인식 처리결과 수신부(1103)는 도 17에 나타낸 바와 같이 복수의 음성인식 처리결과를 수신했다고 하자.
다음으로, 음성인식 결과 선택부(1104)는 수신된 2 이상의 음성인식 처리결과(도 17)가 가지는 음성인식 스코어를 이용하여 가장 음성인식 스코어가 큰(가장 좋은) 음성인식 결과를 선택하여 메모리 상에 배치한다. 즉, 음성인식 결과 선택부(1104)는 음성인식장치 식별자 "R03"에 대응하는 음성인식 결과 "안녕하세요"를 선택하여 메모리 상에 배치한다.
다음으로, 음성인식 의뢰부(2102)는 음성인식을 의뢰하는 음성인식장치(12)가 하나의 음성인식장치(12)로 결정이 끝나지 않았다고 판단한다.
그리고, 음성인식장치 선택부(2112)는 음성인식 처리결과 수신부(1103)가 수신한 각 음성인식장치(12)의 음성인식 스코어를 음성인식장치 식별자와 대응시켜 버퍼 등의 기록매체에 일시적으로 축적한다.
다음으로, 음성인식장치 선택부(2112)는 음성인식장치(12)를 선택하는 처리를 수행하려고 하지만, 여기서는 상기 음성인식장치 선택 조건을 만족시키는 음성인식장치(12)는 존재하지 않는다.
다음으로, 번역 의뢰부(2105)는 번역을 의뢰하는 번역장치(13)가 하나의 번역장치(13)로 결정이 끝나지 않았다고 판단한다.
다음으로, 번역 의뢰부(1105)는 음성인식 결과 선택부(1104)가 선택한 하나의 음성인식 결과 "안녕하세요"와 음성번역 제어정보(도 11)를 2 이상의 각 번역장치(13)로 송신한다.
다음으로, 하나의 번역장치(13)의 음성인식 결과 수신부(131)는 제어장치(11)로부터 음성인식 결과 "안녕하세요"와 음성번역 제어정보(도 11)를 수신한다. 그리고, 번역부(132)는 음성번역 제어정보를 획득한다.
다음으로, 번역부(132)는 획득한 음성번역 제어정보를 이용하여 번역 모델을 선택한다. 즉, 번역부(132)는 도 11의 음성번역 제어정보를 도 14의 번역 모델 선택정보 관리표에 적용하여, 언어 "일본어", 성별 "여성", 연령 "30~39세", 화자 클래스 "Y"에 합치되는 번역 모델 식별자 "JT4"를 획득한다.
다음으로, 번역부(132)는 수신된 음성인식 결과 "안녕하세요"를 획득한다.
다음으로, 번역부(132)는 선택한 번역 모델 "JT4"를 이용하여 획득한 음성인식 결과 "안녕하세요"에 대해 번역을 수행한다. 그리고, 번역부(132)는 번역 결과 "Good morning."과 번역 스코어 "0.91"을 획득한다.
다음으로, 번역부(132)는 획득한 번역 결과와 번역 스코어로부터 번역 처리결과 "0.91: Good morning."을 구성한다.
다음으로, 번역 처리결과 송신부(133)는 번역 처리결과 "0.91: Good morning."을 번역장치 식별자 "T01"과 함께 제어장치(11)로 송신한다.
또한, 다른 번역장치(13)도 상기 하나의 번역장치(13)와 마찬가지로, 번역 처리결과와 번역장치 식별자를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 번역 처리결과 수신부(1106)는 음성인식 결과 등의 송신에 대응하여, 2 이상의 각 번역장치(13)로부터 번역 처리결과를 수신한다. 그리고, 번역 처리결과 수신부(1106)는 도 18에 나타낸 바와 같이 복수의 번역 처리결과를 수신했다고 하자.
다음으로, 번역 결과 선택부(1107)는 수신된 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 번역 스코어가 큰(가장 좋은) 번역 결과를 선택하여 메모리 상에 배치한다. 즉, 번역 결과 선택부(1107)는 번역장치 식별자 "T02"의 번역 결과 "1.00: Good morning."을 선택하여 메모리 상에 배치한다.
다음으로, 번역 의뢰부(2105)는 번역을 의뢰하는 번역장치(13)가 하나의 번역장치(13)로 결정이 끝나지 않았다고 판단한다.
그리고, 번역장치 선택부(2113)는 번역 처리결과 수신부(1106)가 수신한 각 번역장치(13)의 번역 스코어를 번역장치 식별자와 대응시켜 버퍼 등의 기록매체에 일시적으로 축적한다. 여기서, 번역장치 선택부(2113)는 "(T01, 0.91)(T02, 1.00)(T03, 0.78)…"을 버퍼 등의 기록매체에 일시적으로 축적한다.
다음으로, 번역장치 선택부(2113)는 번역장치(13)를 선택하는 처리를 수행한다. 즉, 번역장치 선택부(2113)는 저장하고 있는 번역장치 선택 조건 "조건: 횟수=1, max-score(번역장치)"를 읽어낸다. 그리고, 번역장치 선택부(2113)는 "(T01, 0.91)(T02, 1.00)(T03, 0.78)…"을 번역장치 선택 조건 "조건: 횟수=1, max-score(번역장치)"에 적용한다. 그리고, 번역장치 선택부(2113)는 번역 스코어가 가장 좋은 (T02, 1.00)을 선택한다. 그리고, 번역장치 선택부(2113)는 번역장치 식별자(T02)를 버퍼에 축적한다. 이후, 번역 의뢰부(2105)는 번역장치 식별자(T02)로 식별되는 번역장치(13)로만 번역 의뢰를 한다. 번역 의뢰란 음성인식 결과 등의 송신이다.
다음으로, 음성합성 의뢰부(2108)는 음성합성을 의뢰하는 음성합성장치(14)가 하나의 음성합성장치(14)로 결정이 끝나지 않았다고 판단한다.
다음으로, 제어장치(11)의 음성합성 의뢰부(1108)는 번역 결과 선택부(1107)가 선택한 하나의 번역 결과 "Good morning."을 2 이상의 각 음성합성장치(14)로 송신한다.
다음으로, 하나의 음성합성장치(14)의 번역 결과 수신부(141)는 제어장치(11)로부터 번역 결과와 음성번역 제어정보를 수신한다. 그리고, 음성합성부(142)는 수신된 음성번역 제어정보를 획득한다.
다음으로, 음성합성부(142)는 획득한 음성번역 제어정보를 이용하여 음성합성 모델을 선택한다. 즉, 음성합성부(142)는 도 11의 음성번역 제어정보를 도 15의 음성합성 모델 선택정보 관리표에 적용하여, 목적언어 "영어", 성별 "여성", 연령 "30~39세", 화자 클래스 "Y"에 합치되는 음성합성 모델 식별자 "JC9"를 획득한다.
다음으로, 음성합성부(142)는 수신된 번역 결과 "Good morning."을 획득한다.
다음으로, 음성합성부(142)는 선택한 음성합성 모델 "JC9"를 이용하여 획득한 번역 결과 "Good morning."에 대해 음성합성 처리를 수행한다. 그리고, 음성합성부(142)는 음성합성 결과(통상적으로 음성정보)와 음성합성 스코어 "0.87"을 획득한다.
다음으로, 음성합성부(142)는 획득한 음성합성 결과와 음성합성 스코어로부터 음성합성 처리결과를 구성한다.
다음으로, 음성합성 처리결과 송신부(143)는 음성합성 결과를 음성합성장치 식별자 "J01"과 함께 제어장치(11)로 송신한다. 여기서, 음성합성 결과는 예를 들면 음성정보 파일이다.
또한, 다른 음성합성장치(14)도 상기 하나의 음성합성장치(14)와 마찬가지로, 음성합성 처리결과와 음성합성장치 식별자를 제어장치(11)로 송신한다.
다음으로, 제어장치(11)의 음성합성 처리결과 수신부(1109)는 번역 결과 등의 송신에 대응하여, 2 이상의 각 음성합성장치(14)로부터 음성합성 처리결과를 수신한다. 그리고, 음성합성 처리결과 수신부(1109)는 도 19에 나타낸 바와 같이 복수의 음성합성 처리결과를 수신했다고 하자.
다음으로, 음성합성 결과 선택부(1110)는 수신된 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 음성합성 스코어가 큰(가장 좋은) 음성합성 결과를 선택하여 메모리 상에 배치한다. 즉, 음성합성 결과 선택부(1110)는 음성합성장치 식별자 "J01"에 대응하는 음성합성 결과를 선택한다.
다음으로, 음성합성 의뢰부(2108)는 음성합성을 의뢰하는 음성합성장치(14)가 하나의 음성합성장치(14)로 결정이 끝나지 않았다고 판단한다.
다음으로, 음성합성장치 선택부(2114)는 음성합성 처리결과 수신부(1109)가 수신한 각 음성합성장치(14)의 음성합성 스코어 "(J01, 0.87)(J02, 0.81)(J03, 0.66)…"을 음성합성장치 식별자와 대응시켜 버퍼 등의 기록매체에 일시적으로 축적한다.
다음으로, 음성합성장치 선택부(2114)는 음성합성장치(14)를 선택하는 처리를 수행한다. 즉, 음성합성장치 선택부(2114)는 음성합성장치 선택 조건 "조건: if(음성합성 스코어=0.95){select(음성합성장치)}"를 읽어낸다. 그리고, 음성합성 스코어 "(J01, 0.87)(J02, 0.81)(J03, 0.66)…"을 음성합성장치 선택 조건에 적용한다. 그러나, 여기서는 음성합성장치 선택부(2114)는 모든 음성합성장치(14)가 음성합성장치 선택 조건을 만족시키지 않는다고 판단한다.
다음으로, 음성합성 결과 송신부(1111)는 음성합성 결과 선택부(1110)가 선택한 하나의 음성합성 결과를 유저 B가 이용하는 제2 단말장치(15)로 송신한다.
다음으로, 제2 단말장치(15)의 제2 음성 수신부(154)는 음성합성 결과 "Good morning"을 수신한다. 그리고, 제2 음성 출력부(155)는 음성 "Good morning"을 음성 출력한다.
이상의 처리에 의해, 유저 A가 발한 "안녕하세요"가 제2 단말장치(15)에 도달할 때까지 "Good morning"의 음성으로 변환되어, 제2 단말장치(15)로 "Good morning"이 음성 출력된다.
또한, 제2 단말장치(15)의 유저 B가 "Good morning"에 답하여 "Good morning"이라고 발한 음성은 상기와 동일한 처리에 의해 "안녕"으로 변환되어, 제1 단말장치(10)로 음성 "안녕"이 출력된다.
유저 A와 유저 B가 대화를 반복하여, 예를 들면 5번째 유저 A의 발화가 이루어졌다고 하자. 그리고, 음성인식장치 선택부(2112)는 5번째까지의 유저 A의 발화 및 음성인식 처리에 의해 도 25에 나타낸 음성인식 스코어군을 저장했다고 하자.
그리고, 음성인식장치 선택부(2112)는 도 25에 나타낸 음성인식 스코어군을 이용하여 음성인식장치(12)를 선택하는 처리를 수행한다. 즉, 음성인식장치 선택부(2112)는 지금까지의 처리 횟수 "5"를 획득한다. 음성인식장치 선택부(2112)는 음성인식장치 선택 조건 "조건: 횟수=5 이상, max-score(average-score>=0.85)"를 읽어낸다. 다음으로, 음성인식장치 선택부(2112)는 처리 횟수 "5", 도 25에 나타낸 음성인식 스코어군을 음성인식장치 선택 조건에 적용한다.
그리고, 음성인식장치 선택부(2112)는 음성인식장치 식별자 "R01"에 대응하는 스코어군의 평균값이 0.92이며, 음성인식장치 선택 조건에 합치된다고 판단한다. 또한, 다른 음성인식장치 식별자에 대응하는 스코어군의 평균값은 0.85 미만이며, 음성인식장치 선택 조건에 합치되지 않는다고 판단한다.
그리고, 음성인식장치 선택부(2112)는 음성인식장치 식별자 "R01"을 버퍼에 축적한다. 이후, 음성인식 의뢰부(2102)는 음성인식장치 식별자 "R01"로 식별되는 음성인식장치(12)로만 유저 A의 음성정보 등을 송신하여 음성인식 처리를 의뢰한다.
또한, 유저 A와 유저 B가 대화를 반복하여, 예를 들면, 10번째 유저 A의 발화에 대한 음성합성장치 "J01"의 음성합성 스코어가 0.95를 넘었다고 하자. 그리고, 음성합성장치 선택부(2114)는 음성합성장치 "J01"이 음성합성장치 선택 조건을 만족시킨다고 판단한다.
그리고, 음성합성장치 선택부(2114)는 해당 음성합성장치 "J01"을 선택한다. 즉, 음성합성장치 선택부(2114)는 음성합성장치 식별자 "J01"을 버퍼에 축적한다. 그리고, 이후, 음성합성 의뢰부(2108)는 음성합성장치 식별자 "J01"로 식별되는 음성합성장치(14)로만 번역 결과 등을 송신하여 유저 A의 음성정보의 음성합성을 의뢰한다.
이상, 본 실시형태에 의하면, 동일한 역할을 담당하는 복수의 서버군(2 이상의 음성인식장치(12), 2 이상의 번역장치(13) 및 2 이상의 음성합성장치(14))의 처리결과(음성인식 결과, 번역 결과, 음성합성 결과)로부터 적절한 처리결과를 선택할 수 있다.
또한, 본 실시형태에 의하면, 대화 도중에 적절한 하나의 음성인식장치(12), 또는 적절한 하나의 번역장치(13), 또는 적절한 하나의 음성합성장치(14)를 자동적으로 선택하고, 선택 후에는 하나의 음성인식장치(12), 또는 하나의 번역장치(13), 또는 하나의 음성합성장치(14)로만 처리를 의뢰할 수 있다. 따라서, 제어장치(21)에서의 부하 경감이 도모되어 고속으로 음성번역을 처리할 수 있다.
또한, 본 실시형태에 의하면, 음성인식, 번역, 음성합성의 각 처리에서 화자속성을 포함한 음성번역 제어정보에 합치되는 적절한 모델을 선택할 수 있다. 그 결과, 정밀도가 높거나 또는 화자의 속성을 계승한 네트워크형 음성번역 시스템이 제공될 수 있다.
또, 본 실시형태에 의하면, 대화 도중에 적절한 하나의 음성인식장치(12), 및 적절한 하나의 번역장치(13), 및 적절한 하나의 음성합성장치(14)를 자동적으로 선택하고, 선택 후에는 하나의 음성인식장치(12), 및 하나의 번역장치(13), 및 하나의 음성합성장치(14)로만 처리를 의뢰할 수 있었다. 그러나, 장치의 자동 선택은 음성인식장치(12)뿐일 수도 있다. 이러한 경우, 음성번역 시스템은 제어장치, 2 이상의 음성인식장치, 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서, 상기 제어장치는, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 수신하는 음성인식 처리결과 수신부, 상기 음성인식 처리결과 수신부가 수신한 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부, 및 상기 음성인식 결과 선택부가 선택한 음성인식 결과를 상기 번역장치로 송신하는 번역 의뢰부를 구비하고, 상기 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부, 상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하고, 음성인식 결과 및 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 획득하는 음성인식부, 및 상기 음성인식부가 획득한 음성인식 처리결과를 상기 제어장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 상기 번역장치는, 상기 음성인식 결과를 상기 제어장치로부터 수신하는 음성인식 결과 수신부, 상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부, 및 상기 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 번역 처리결과 송신부를 구비하고, 상기 음성합성장치는, 상기 번역 결과를 수신하는 번역 결과 수신부, 상기 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부, 및 상기 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이며, 상기 제어장치는, 상기 음성인식 결과 선택부에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 상기 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택부를 더 구비하고, 상기 음성인식 의뢰부는, 상기 음성인식장치 선택부가 음성인식장치를 선택한 후, 상기 선택한 음성인식장치로만 상기 음성을 송신하는 음성번역 시스템이다.
또한, 장치의 자동 선택은 번역장치(13)뿐일 수도 있다. 이러한 경우, 음성번역 시스템은 제어장치, 음성인식장치, 2 이상의 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서, 상기 제어장치는, 상기 2 이상의 각 번역장치로부터 상기 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부, 상기 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부, 및 상기 번역 결과 선택부가 선택한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 음성합성 의뢰부를 구비하고, 상기 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부, 상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 가지는 음성인식 처리결과를 획득하는 음성인식부, 및 상기 음성인식부가 획득한 음성인식 처리결과를 직접적 또는 간접적으로 상기 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 상기 번역장치는, 상기 음성인식 결과를 수신하는 음성인식 결과 수신부, 상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하고, 번역 결과 및 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 획득하는 번역부, 및 상기 번역부가 획득한 번역 처리결과를 상기 제어장치로 송신하는 번역 처리결과 송신부를 구비하고, 상기 음성합성장치는, 상기 번역 결과를 상기 제어장치로부터 수신하는 번역 결과 수신부, 상기 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부, 및 상기 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이며, 상기 제어장치는, 상기 번역 결과 선택부에서의 1회 이상의 번역 결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 상기 2 이상의 번역장치 중에서 선택하는 번역장치 선택부를 더 구비하고, 상기 번역 의뢰부는, 상기 번역장치 선택부가 번역장치를 선택한 후, 상기 선택한 번역장치로만 음성인식 결과를 송신하는 음성번역 시스템이다.
또한, 장치의 자동 선택은 음성합성장치(14)뿐일 수도 있다. 이러한 경우, 음성번역 시스템은 제어장치, 음성인식장치, 번역장치 및 2 이상의 음성합성장치를 가지는 음성번역 시스템으로서, 상기 제어장치는, 상기 2 이상의 각 음성합성장치로부터 상기 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부, 상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부, 및 상기 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부를 구비하고, 상기 음성인식장치는, 제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성수신부, 상기 음성수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 획득하는 음성인식부, 및 상기 음성인식부가 획득한 음성인식 결과를 직접적 또는 간접적으로 상기 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고, 상기 번역장치는, 상기 음성인식 결과를 수신하는 음성인식 결과 수신부, 상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부, 및 상기 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 번역처리결과 송신부를 구비하고, 상기 음성합성장치는, 상기 번역 결과를 수신하는 번역 결과 수신부, 상기 번역 결과에 대해 음성합성 처리를 수행하고, 음성합성 결과 및 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 획득하는 음성합성부, 및 상기 음성합성 처리결과를 상기 제어장치로 송신하는 음성합성 처리결과 송신부를 구비하는 음성번역 시스템이며, 상기 제어장치는, 상기 음성합성 결과 선택부에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택부를 더 구비하고, 상기 음성합성 의뢰부는, 상기 음성합성장치 선택부가 음성합성장치를 선택한 후, 상기 선택한 음성합성장치로만 상기 번역 결과를 송신하는 음성번역 시스템이다.
또한, 본 실시형태에 있어서의 처리는 소프트웨어로 실현할 수도 있다. 그리고, 이 소프트웨어를 소트프웨어 다운로드 등에 의해 배포할 수도 있다. 또한, 이 소프트웨어를 CD-ROM 등의 기록매체에 기록하여 유포할 수도 있다. 또, 이것은 본 명세서의 다른 실시형태에 있어서도 해당된다. 또, 본 실시형태에 있어서의 정보처리장치를 실현하는 소프트웨어는 이하와 같은 프로그램이다. 즉, 이 프로그램은 소프트웨어는 이하와 같은 프로그램이다. 즉, 이 프로그램은, 예를 들면 컴퓨터를, 제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성 수신부, 상기 음성정보를 2 이상의 각 음성인식장치로 송신하는 음성인식 의뢰부, 상기 음성정보의 송신에 대응하여, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 2 이상 수신하는 음성인식 처리결과 수신부, 상기 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부, 상기 음성인식 결과 선택부가 선택한 음성인식 결과를 2 이상의 각 번역장치로 송신하는 번역 의뢰부, 상기 음성인식 결과의 송신에 대응하여, 상기 2 이상의 각 번역장치로부터 상기 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부, 상기 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부, 상기 번역 결과 선택부가 선택한 번역 결과를 2 이상의 각 음성합성장치로 송신하는 음성합성 의뢰부, 상기 번역 결과의 송신에 대응하여, 상기 2 이상의 각 음성합성장치로부터 상기 번역 결과의 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부, 상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부, 및 상기 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부로서 기능시키기 위한 프로그램이다.
또한, 상기 프로그램에 있어서, 상기 음성인식 결과 선택부에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 상기 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택부, 상기 번역 결과 선택부에서의 1회 이상의 번역 결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 상기 2 이상의 번역장치 중에서 선택하는 번역장치 선택부, 상기 음성합성 결과 선택부에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택부를 더 구비하고, 상기 음성인식 의뢰부는, 상기 음성인식장치 선택부가 음성인식장치를 선택한 후, 상기 선택한 음성인식장치로만 상기 음성을 송신하고, 상기 번역 의뢰부는, 상기 번역장치 선택부가 번역장치를 선택한 후, 상기 선택한 번역장치로만 상기 음성인식 결과를 송신하고, 상기 음성합성 의뢰부는, 상기 음성합성장치 선택부가 음성합성장치를 선택한 후, 상기 선택한 음성합성장치로만 상기 번역 결과를 송신하는 것으로서 컴퓨터를 기능시키기 위한 프로그램인 것이 적합하다.
또한, 상기 실시형태에 있어서, 음성번역 제어정보의 예는 도 11, 도 12였다. 다만, 음성번역 제어정보의 포맷은 불문한다. 음성번역 제어정보는 도 26에 나타낸 바와 같은 XML의 포맷일 수도 있음은 물론이다. 도 26에 나타낸 음성번역 제어정보의 기술 언어를 음성번역용 마크업 언어 STML(Speech Translation Markup Language)라고 한다. 도 26에서 유저 ID(화자의 유저를 특정하는 정보 "Mike"), 음성인식 출력결과의 포맷 또는 사이즈(MaxNBest="2"), 원언어 "영어"(language="en"), 번역 대상을 특정하는 정보(여기서는, Task="Dictation", 회화의 도메인(여기서는, "Travel(여행)"), 입력 음성의 포맷을 나타내는 정보(여기서는, "ADPCM")가 기재되어 있다. 또한, 도 26에서 화자속성 중 성별(여기서는, "male"), 연령(여기서는, "30") 및 네이티브인지 여부(여기서는, "no")가 기재되어 있다. 또한, 도 26에서 출력 텍스트의 포맷을 나타내는 정보(여기서는, "SurfaceForm")가 기재되어 있다. 또한 음성번역 제어정보에 있어서, 출력 음성의 포맷을 나타내는 정보, 입출력 음성의 음질을 지정하는 정보, 입력 텍스트의 포맷을 나타내는 정보를 나타내는 정보 등이 존재할 수도 있다. 또한, 상기 (MaxNBest="2")는 음성인식 결과의 상위 2번째까지의 후보를 출력하여 송신하는 것을 나타내고 있다. 또, Nbest는 음성인식 결과의 상위 N번째까지의 후보라는 의미이다.
또, 본 명세서에 있어서, 하나의 장치로의 정보의 송신은 직접적인 하나의 장치로의 정보의 송신일 수도 있으며, 다른 장치를 경유한 간접적인 하나의 장치로의 정보의 송신일 수도 있음은 물론이다.
또한, 도 27은 본 명세서에서 언급한 프로그램을 실행하여 상술한 실시형태의 음성번역 시스템에서의 제어장치 등을 실현하는 컴퓨터의 외관을 나타낸다. 상술한 실시형태는 컴퓨터 하드웨어 및 그 위에서 실행되는 컴퓨터 프로그램으로 실현될 수 있다. 도 27은 이 컴퓨터 시스템(340)의 개관도이며, 도 28은 컴퓨터 시스템(340)의 내부 구성을 나타낸 도면이다.
도 27에서 컴퓨터 시스템(340)은 FD 드라이브(3411), CD-ROM 드라이브(3412)를 포함한 컴퓨터(341), 키보드(342), 마우스(343) 및 모니터(344)를 포함한다.
도 28에서 컴퓨터(341)는 FD 드라이브(3411), CD-ROM 드라이브(3412)에 더하여, MPU(3413), CD-ROM 드라이브(3412) 및 FD 드라이브(3411)에 접속된 버스(3414), 부트업 프로그램 등의 프로그램을 기억하기 위한 ROM(3415)에 접속되어 응용 프로그램의 명령을 일시적으로 기억하는 동시에 일시 기억 공간을 제공하기 위한 RAM(3416), 및 응용 프로그램, 시스템 프로그램 및 데이터를 기억하기 위한 하드디스크(3417)를 포함한다. 여기서는, 도시하지 않았지만, 컴퓨터(341)는 또한 LAN에의 접속을 제공하는 네트워크 카드를 포함할 수도 있다.
컴퓨터 시스템(340)에 상술한 실시형태의 제어장치 등의 기능을 실행시키는 프로그램은 CD-ROM(3501) 또는 FD(3502)에 기억되어 CD-ROM 드라이브(3412) 또는 FD 드라이브(3411)에 삽입되고, 추가로 하드디스크(3417)에 전송될 수도 있다. 이 대신에, 프로그램은 도시하지 않은 네트워크를 통해 컴퓨터(341)로 송신되어 하드디스크(3417)에 기억될 수도 있다. 프로그램은 실행시에 RAM(3416)에 로드된다. 프로그램은 CD-ROM(3501), FD(3502) 또는 네트워크로부터 직접 로드될 수도 있다.
프로그램은 컴퓨터(341)에 상술한 실시형태의 제어장치 등의 기능을 실행시키는 오퍼레이팅 시스템(OS) 또는 서드파티 프로그램 등은 반드시 포함하지 않아도 된다. 프로그램은 제어된 양태로 적절한 기능(모듈)을 호출하여, 원하는 결과가 얻어지도록 하는 명령 부분만을 포함하고 있으면 된다. 컴퓨터 시스템(340)이 어떻게 동작할지는 주지된 바와 같으며, 상세한 설명은 생략한다.
또, 상기 프로그램에서 정보를 송신하는 송신 단계나 정보를 수신하는 수신 단계 등에서는 하드웨어에 의해 수행되는 처리, 예를 들면 송신 단계에서의 모뎀이나 인터페이스 카드 등으로 수행되는 처리(하드웨어에서만 수행되는 처리)는 포함되지 않는다.
또한, 상기 프로그램을 실행하는 컴퓨터는 단수일 수도 있고, 복수일 수도 있다. 즉, 집중 처리를 수행할 수도 있고, 혹은 분산 처리를 수행할 수도 있다.
또한, 상기 각 실시형태에 있어서, 하나의 장치에 존재하는 2 이상의 통신수단은 물리적으로 하나의 매체로 실현될 수도 있음은 물론이다.
또한, 상기 각 실시형태에 있어서, 각 처리(각 기능)는 단일 장치(시스템)에 의해 집중 처리됨으로써 실현될 수도 있고, 혹은 복수의 장치에 의해 분산 처리됨으로써 실현될 수도 있다. 또, 각 처리(각 기능)가 단일 장치(시스템)에 의해 집중 처리되는 경우, 음성번역 시스템은 하나의 장치이며, 제어장치와 음성인식장치와 번역장치와 음성합성장치는 하나의 장치 내에 포함된다. 이러한 경우, 상기 장치간 정보의 송신 및 수신은 정보의 주고받기가 된다. 즉, 상기 수신 또는 송신은 넓게 해석된다.
본 발명은 이상의 실시형태에 한정되지 않고 다양한 변경이 가능하며, 그것들 또한 본 발명의 범위 내에 포함되는 것임은 물론이다.
(산업상 이용가능성)
이상과 같이, 본 발명에 따른 음성번역 시스템은, 음성번역에서 복수의 음성인식장치, 복수의 번역장치, 복수의 음성합성장치의 처리결과를 선택하여 이용하거나, 복수의 음성인식장치, 복수의 번역장치, 복수의 음성합성장치 중 각각 적절한 장치를 선택하는 효과를 가지며, 음성번역 시스템 등으로서 유용하다.
Claims (11)
- 제어장치, 2 이상의 음성인식장치, 2 이상의 번역장치 및 2 이상의 음성합성장치를 가지는 음성번역 시스템으로서,
상기 제어장치는,
제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성 수신부;
상기 음성정보를 상기 2 이상의 각 음성인식장치로 송신하는 음성인식 의뢰부;
상기 음성정보의 송신에 대응하여, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 2 이상 수신하는 음성인식 처리결과 수신부;
상기 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부;
상기 음성인식 결과 선택부가 선택한 음성인식 결과를 상기 2 이상의 각 번역장치로 송신하는 번역 의뢰부;
상기 음성인식 결과의 송신에 대응하여, 상기 2 이상의 각 번역장치로부터 상기 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부;
상기 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과를 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부;
상기 번역 결과 선택부가 선택한 번역 결과를 상기 2 이상의 각 음성합성장치로 송신하는 음성합성 의뢰부;
상기 번역 결과의 송신에 대응하여, 상기 2 이상의 각 음성합성장치로부터 상기 번역 결과의 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부;
상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부; 및
상기 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부를 구비하고,
상기 음성인식장치는,
상기 제어장치로부터 음성정보를 수신하는 음성인식 대상음성 수신부;
상기 음성정보에 대해 음성인식 처리를 수행하고, 음성인식 결과 및 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 획득하는 음성인식부; 및
상기 음성인식 처리결과를 상기 제어장치로 송신하는 음성인식 처리결과 송신부를 구비하고,
상기 번역장치는,
상기 제어장치로부터 음성인식 결과를 수신하는 음성인식 결과 수신부;
상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하고, 번역 결과 및 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 획득하는 번역부; 및
상기 번역부가 획득한 번역 처리결과를 상기 제어장치로 송신하는 번역 처리결과 송신부를 구비하고,
상기 음성합성장치는,
상기 제어장치로부터 번역 결과를 수신하는 번역 결과 수신부;
상기 번역 결과에 대해 음성합성 처리를 수행하고, 음성합성 결과 및 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 획득하는 음성합성부; 및
상기 음성합성 처리결과를 상기 제어장치로 송신하는 음성합성 처리결과 송신부를 구비하며,
상기 제어장치는,
상기 음성인식 결과 선택부에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택부;
상기 번역결과 선택부에서의 1회 이상의 번역결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하여 번역장치를 유저간의 일련의 대화 중에 상기 2 이상의 번역장치 중에서 선택하는 번역장치 선택부; 및
상기 음성합성결과 선택부에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 유저간의 일련의 대화 중에 음성합성장치를 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택부를 더 구비하고,
상기 음성인식 의뢰부는,
상기 음성인식장치 선택부가 음성인식장치를 선택한 후, 상기 선택한 음성인식장치로만 상기 음성을 송신하고,
상기 음성인식 처리결과 수신부는,
상기 음성인식장치 선택부가 음성인식장치를 선택한 후, 상기 선택한 음성인식장치로부터만 상기 음성정보의 음성인식결과를 수신하고,
상기 번역 의뢰부는,
상기 번역장치 선택부가 번역장치를 선택한 후, 상기 선택한 번역장치로만 상기 음성인식처리결과 수신부가 수신한 음성인식 결과를 송신하고,
상기 번역 처리결과 수신부는,
상기 번역장치 선택부가 번역장치를 선택한 후, 상기 선택한 번역장치로부터만 상기 음성인식 결과를 목적언어로 번역한 번역 결과를 수신하고,
상기 음성합성 의뢰부는,
상기 음성합성장치 선택부가 음성합성장치를 선택한 후, 상기 선택한 음성합성장치로만 상기 번역 처리결과 수신부가 수신한 번역 결과를 송신하고,
상기 음성합성 처리결과 수신부는,
상기 음성합성 장치 선택부가 음성합성장치를 선택한 후, 상기 선택한 음성합성장치로부터만 음성합성 결과를 수신하고,
상기 음성합성 결과 송신부는,
상기 음성합성 처리결과 수신부가 수신한 음성합성결과를 상기 제2단말장치로 송신하는,
음성번역 시스템. - 제어장치, 2 이상의 음성인식장치, 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서,
상기 제어장치는,
상기 2 이상의 각 음성인식장치로부터 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 수신하는 음성인식 처리결과 수신부;
상기 음성인식 처리결과 수신부가 수신한 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부; 및
상기 음성인식 결과 선택부가 선택한 음성인식 결과를 상기 번역장치로 송신하는 번역 의뢰부를 구비하고,
상기 음성인식장치는,
제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부;
상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하고, 음성인식 결과 및 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 획득하는 음성인식부; 및
상기 음성인식부가 획득한 음성인식 처리결과를 상기 제어장치로 송신하는 음성인식 처리결과 송신부를 구비하고,
상기 번역장치는,
상기 음성인식 결과를 상기 제어장치로부터 수신하는 음성인식 결과 수신부;
상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부; 및
상기 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 번역 처리결과 송신부를 구비하고,
상기 음성합성장치는,
상기 번역 결과를 수신하는 번역 결과 수신부;
상기 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부; 및
상기 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하며,
상기 제어장치는,
상기 음성인식 결과 선택부에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택부,
상기 음성인식장치 선택부가 음성인식장치를 선택한 후, 상기 선택한 음성인식장치로만 상기 음성을 송신하는 음성인식 의뢰부를 더 구비하고,
상기 음성인식 처리결과 수신부는,
상기 음성인식 장치 선택부가 음성인식 장치를 선택한 후 상기 선택한 음성인식장치만로부터만 상기 음성정보의 음성인식 결과를 수신하고,
상기 번역 의뢰부는,
상기 음성인식 처리결과 수신부가 수신한 음성인식 결과를 상기 번역장치로 송신하는
음성번역 시스템. - 제1항 또는 제2항에 있어서,
상기 음성인식 결과 선택부는,
동일한 음성인식 스코어가 복수 존재하는 경우 지금까지 선택한 음성인식 결과가 많았던 음성인식 장치로부터 송신된 음성인식 결과를 선택하는
음성번역 시스템. - 제어장치, 음성인식장치, 2 이상의 번역장치 및 음성합성장치를 가지는 음성번역 시스템으로서,
상기 제어장치는,
상기 2 이상의 각 번역장치로부터 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부;
상기 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부; 및
상기 번역 결과 선택부가 선택한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 음성합성 의뢰부를 구비하고,
상기 음성인식장치는,
제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부;
상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 가지는 음성인식 처리결과를 획득하는 음성인식부; 및
상기 음성인식부가 획득한 음성인식 처리결과를 직접적 또는 간접적으로 상기 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고,
상기 번역장치는,
상기 음성인식 결과를 수신하는 음성인식 결과 수신부;
상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하고, 번역 결과 및 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 획득하는 번역부; 및
상기 번역부가 획득한 번역 처리결과를 상기 제어장치로 송신하는 번역 처리결과 송신부를 구비하고,
상기 음성합성장치는,
상기 번역 결과를 상기 제어장치로부터 수신하는 번역 결과 수신부;
상기 번역 결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성부; 및
상기 음성합성 결과를 직접적 또는 간접적으로 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 처리결과 송신부를 구비하며,
상기 제어장치는,
상기 번역 결과 선택부에서의 1회 이상의 번역 결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 유저간의 일련의 대화 중에 상기 2 이상의 번역장치 중에서 선택하는 번역장치 선택부,
상기 번역장치 선택부가 번역장치를 선택한 후, 상기 선택한 번역장치로만 음성인식 결과를 송신하는 번역 의뢰부를 더 구비하고,
상기 번역 처리결과 수신부는,
상기 번역장치 선택부가 번역장치 선택부를 선택한 후 상기 번역장치 선택부로부터만 상기 음성인식 결과를 목적 언어로 번역한 번역결과를 수신하고,
상기 음성합성 의뢰부는,
상기 번역 처리결과 수신부가 수신한 번역결과를 직접적 또는 간접적으로 상기 음성합성 장치로 송신하는,
음성번역 시스템. - 제어장치, 음성인식장치, 번역장치 및 2 이상의 음성합성장치를 가지는 음성번역 시스템으로서,
상기 제어장치는,
상기 2 이상의 각 음성합성장치로부터 상기 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부;
상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부; 및
상기 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부를 구비하고,
상기 음성인식장치는,
제1 유저의 음성을 접수하는 제1 단말장치로부터 직접적 또는 간접적으로 음성정보를 수신하는 음성 수신부;
상기 음성 수신부가 수신한 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 획득하는 음성인식부; 및
상기 음성인식부가 획득한 음성인식 결과를 직접적 또는 간접적으로 상기 번역장치로 송신하는 음성인식 처리결과 송신부를 구비하고,
상기 번역장치는,
상기 음성인식 결과를 수신하는 음성인식 결과 수신부;
상기 음성인식 결과 수신부가 수신한 음성인식 결과를 목적언어로 번역하여 번역 결과를 획득하는 번역부; 및
상기 번역부가 획득한 번역 결과를 직접적 또는 간접적으로 상기 음성합성장치로 송신하는 번역 처리결과 송신부를 구비하고,
상기 음성합성장치는,
상기 번역 결과를 수신하는 번역 결과 수신부;
상기 번역 결과에 대해 음성합성 처리를 수행하고, 음성합성 결과 및 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 획득하는 음성합성부; 및
상기 음성합성 처리결과를 상기 제어장치로 송신하는 음성합성 처리결과 송신부를 구비하고,
상기 제어장치는,
상기 음성합성 결과 선택부에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택부,
상기 음성합성장치 선택부가 음성합성장치를 선택한 후, 상기 선택한 음성합성장치로만 상기 번역 결과를 송신하는 음성합성 의뢰부를 더 구비하고,
상기 음성합성 처리결과 수신부는,
상기 음성합성장치 선택부가 음성합성 장치를 선택한 후 상기 선택한 음성합성 장치에서만 음성합성 결과를 수신하고,
상기 음성합성 결과 송신부는,
상기 음성합성 처리결과 수신부가 수신한 음성합성 결과를 상기 제2 단말장치로 송신하는
음성번역 시스템. - 제1항 또는 제2항, 제4항 또는 제5항 중 어느 한 항에 따른 음성번역 스템을 구성하는
제어장치. - 제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성 수신부;
상기 음성정보를 2 이상의 각 음성인식장치로 송신하는 음성인식 의뢰부;
상기 음성정보의 송신에 대응하여, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 2 이상 수신하는 음성인식 처리결과 수신부;
상기 2 이상의 음성인식 처리결과가 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택부;
상기 음성인식 결과 선택부에서의 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택부;
상기 음성인식 결과 선택부가 선택한 음성인식 결과를 2 이상의 각 번역장치로 송신하는 번역 의뢰부;
상기 음성인식 결과의 송신에 대응하여, 상기 2 이상의 각 번역장치로부터 상기 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신부;
상기 번역 처리결과 수신부가 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택부;
상기 번역 결과 선택부에서의 1회 이상의 번역 결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 유저간의 일련의 대화 중에 상기 2 이상의 번역장치 중에서 선택하는 번역장치 선택부;
상기 번역 결과 선택부가 선택한 번역 결과를 2 이상의 각 음성합성장치로 송신하는 음성합성 의뢰부;
상기 번역 결과의 송신에 대응하여, 상기 2 이상의 각 음성합성장치로부터 상기 번역 결과의 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신부;
상기 음성합성 결과 선택부에서의 1회 이상의 음성합성 결과의 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택부;
상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과가 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택부; 및
상기 음성합성 결과 선택부가 선택한 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신부를 구비하는 제어장치로서,
상기 음성인식 의뢰부는,
상기 음성인식장치 선택부가 음성인식 장치를 선택한 후 상기 선택한 음성인식 장치에만 상기 음성정보를 송신하고,
상기 음성인식 처리결과 수신부는,
상기 음성인식장치 선택부가 음성인식 장치를 선택한 후 상기 선택한 음성인식 장치로부터만 상기 음성정보의 음성인식 결과를 수신하고,
상기 번역 의뢰부는,
상기 번역장치 선택부가 번역장치를 선택한 후 상기 선택한 번역장치에만 상기 음성인식 처리결과 수신부가 수신한 음성인식 결과를 송신하고,
상기 번역 처리결과 수신부는,
상기 번역장치 선택부가 선택한 번역장치를 선택한 후 상기 선택한 번역장치로부터만 상기 음성인식 결과를 목적언어로 번역한 번역 결과를 수신하고,
상기 음성합성 의뢰부는,
상기 음성합성장치 선택부가 음성합성장치를 선택한 후 상기 선택한 음성합성장치에만 상기 번역 처리결과 수신부가 수신한 번역결과를 송신하고,
상기 음성합성 처리결과 수신부는,
상기 음성합성장치 선택부가 음성합성장치를 선택한 후 상기 선택한 음성합성장치로부터만 음성합성 결과를 수신하고,
상기 음성합성 결과 송신부는,
상기 음성합성 처리결과 수신부가 수신한 음성합성 결과를 상기 제2 단말장치로 송신하는,
제어장치. - 음성수신부, 음성인식 의뢰부, 음성인식 처리결과 수신부, 음성인식 결과 선택부, 음성인식장치 선택부, 번역 의뢰부, 번역 처리결과 수신부, 번역결과 선택부, 번역장치 선택부, 음성합성 의뢰부, 음성합성 처리결과 수신부, 음성합성장치 선택부, 음성합성 결과 선택부 및 음성합성 결과 송신부에 의해 실현되는 정보처리방법으로서,
상기 음성 수신부가 제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성 수신 단계;
상기 음성인식 의뢰부가 상기 음성정보를 2 이상의 각 음성인식장치로 송신하는 음성인식 의뢰 단계;
상기 음성인식 처리결과 수신부가 상기 음성정보 송신에 대응하여, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 2 이상 수신하는 음성인식 처리결과 수신 단계;
상기 음식인식 결과 선택부가 상기 2 이상의 음성인식 처리결과를 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택 단계;
상기 음성인식장치 선택부가 상기 음성인식 결과 선택 단계에서 1회 이상의 음성인식 결과의 선택 처리에 의해, 다음번 이후에 음성인식 처리를 수행하는 음성인식장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성인식장치 중에서 선택하는 음성인식장치 선택 단계;
상기 번역 의뢰부가 상기 음성인식 결과 선택단계에서 선택된 음성인식 결과를 상기 2 이상의 각 번역장치로 송신하는 번역 의뢰 단계;
상기 번역 처리결과 수신부가 상기 음성인식 결과의 송신에 대응하여, 상기 2 이상의 각 번역장치로부터 상기 음성인식 결과를 목적언어로 번역한 번역 결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신 단계;
상기 번역결과 선택부가 상기 번역 처리결과 수신 단계에서 수신한 2 이상의 번역 처리결과가 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택 단계;
상기 번역결과 선택부가 상기 번역결과 선택 단계에서 1회 이상의 번역결과의 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 유저간의 일련의 대화 중에 상기 2 이상의 번역장치 중에서 선택하는 번역장치 선택 단계;
상기 음성합성 의뢰부가 상기 번역결과 선택 단계에서 선택된 번역결과를 2 이상의 각 음성합성장치로 송신하는 음성합성 의뢰 단계;
상기 음성합성 처리결과 수신부가 상기 번역결과의 송신에 대응하여 상기 2 이상의 각 음성합성장치로부터 상기 번역결과의 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 결과를 수신하는 음성합성 처리결과 수신단계;
상기 음성합성장치 선택부가 상기 음성합성 결과 선택 단계에서 1회 이상 음성합성 결과 선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택 단계;
상기 음성합성결과 선택부가 상기 음성합성 처리결과 수신부가 수신한 2 이상의 음성합성 처리결과를 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성결과를 선택하는 음성합성결과 선택부가 수신하는 단계; 및
상기 음성합성결과 송신부가 상기 음성합성결과 선택 단계에서 선택된 음성합성결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성결과 송신 단계를 구비하고,
상기 음성인식 의뢰 단계에서는,
상기 음성인식장치 선택 단계에서 음성인식장치가 선택된 후 상기 선택된 음성인식장치에만 상기 음성정보를 송신하고,
상기 음성인식 처리결과 수신 단계에서는,
상기 음성인식장치 선택 단계에서 음성인식장치가 선택된 후 상기 선택된 음성인식장치로부터만 상기 음성정보의 음성인식 결과를 수신하고,
상기 번역 의뢰 단계에서는,
상기 번역장치 선택 단계에서 번역장치가 선택된 후 상기 선택된 번역장치에만 상기 음성인식 처리결과 수신 단계에서 수신한 음성인식 결과를 송신하고,
상기 번역 처리결과 수신 단계에서는,
상기 번역 장치 선택 단계에서 번역장치가 선택된 후 상기 선택된 번역장치로부터만 상기 음성인식 결과를 목적언어로 번역하여 번역 결과를 수신하고,
상기 음성합성 의뢰 단계에서는,
상기 음성합성장치 선택 단계에서 음성합성장치를 선택한 후 선택된 음성합성장치에만 상기 번역 처리결과 수신 단계에서 수신한 번역 결과를 송신하고,
상기 음성합성 처리결과 수신 단계에서는,
상기 음성합성장치 선택 단계에서 음성합성장치가 선택된 후 상기 선택된 음성합성장치로부터만 음성합성결과를 수신하고,
상기 음성합성 결과 송신 단계에서는,
상기 음성합성 처리결과 수신 단계에서 수신된 음성합성 결과를 상기 제2 단말장치로 송신하는,
정보처리방법. - 음성번역 시스템의 정보처리방법이며, 음성 수신부, 음성 인식 의뢰부, 음성인식 처리결과 수신부, 음성인식 결과 선택부, 음성인식장치 선택부, 번역부, 음성합성부 및 음성합성 결과 송신부에 의해 실현될 수 있는 정보처리방법으로서,
상기 음성 수신부가 제1 유저의 음성을 접수하는 제1 단말장치에서 음성정보를 수신하는 음성 수신 단계;
상기 음성인식 의뢰부가 상기 음성정보를 2 이상의 각 음성인식장치로 송신하는 음성인식 의뢰 단계;
상기 음성인식 처리결과 수신부가 상기 음성정보 송신에 대응하여, 상기 2 이상의 각 음성인식장치로부터 상기 음성정보의 음성인식 결과와 음성인식 처리의 확실성을 나타내는 음성인식 스코어를 가지는 음성인식 처리결과를 2 이상 수신하는 음성인식 처리결과 수신 단계;
상기 음식인식 결과 선택부가 상기 2 이상의 음성인식 처리결과를 가지는 음성인식 스코어를 이용하여 가장 확실성 있는 음성인식 결과를 선택하는 음성인식 결과 선택 단계;
상기 음성인식장치 선택부가 상기 음성인식 결과 선택부에서 1회 이상의 음성인식 결과선택 처리에 의해, 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택 단계;
상기 번역부가 상기 음성인식 결과를 목적언어로 번역하여 번역결과를 획득하는 번역 단계;
상기 음성합성부가 상기 번역결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성 단계; 및
상기 음성합성 결과 송신부가 상기 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신 단계;를 구비하고,
상기 음성인식 의뢰 단계에서는,
상기 음성인식장치 선택 단계에서 음성인식장치를 선택한 후 상기 선택한 음성인식장치에만 상기 음성정보를 송신하고,
상기 음성인식 처리결과 수신 단계에서는,
상기 음성인식장치 선택 단계에서 음성인식장치를 선택한 후 상기 선택한 음성인식장치로부터만 상기 음성정보의 음성인식 결과를 수신하는,
정보처리방법. - 음성번역 시스템에서의 정보처리방법이며, 음성 수신부, 음성인식부, 번역 의뢰부, 번역 처리결과 수신부, 번역결과 선택부, 번역장치 선택부, 음성합성부 및 음성합성 결과 송신부에 의해 실현될 수 있는 정보처리방법으로서,
상기 음성 수신부가 제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성 수신 단계;
상기 음성인식부가 상기 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 획득하는 음성인식 단계;
상기 번역 의뢰부가 상기 음성인식 결과를 2 이상의 각 변역장치에 송신하는 번역 의뢰 단계;
상기 번역처리 결과 수신부가 상기 2 이상의 각 변역장치로부터 음성인식 결과를 목적언어로 번역한 번역결과와 번역 처리의 확실성을 나타내는 번역 스코어를 가지는 번역 처리결과를 수신하는 번역 처리결과 수신 단계;
상기 번역 결과 선택부가 상기 번역 처리결과 수신 단계에서 수신된 2 이상의 번역 처리결과를 가지는 번역 스코어를 이용하여 가장 확실성 있는 번역 결과를 선택하는 번역 결과 선택 단계;
상기 번역장치 선택부가 상기 번역결과 선택 단계에서 1회 이상의 번역 결과 선택 처리에 의해, 다음번 이후에 번역 처리를 수행하는 번역장치를 유저간의 일련의 대화 중에 상기 2 이상의 번역장치 중에서 선택하는 번역장치 선택 단계;
상기 음성합성부가 상기 번역결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는 음성합성 단계;
상기 음성합성 결과 송신부가 상기 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신 단계를 구비하고,
상기 번역 의뢰 단계에서는,
상기 번역장치 선택부가 번역장치를 선택한 후 상기 선택된 번역장치에만 상기 음성인식 결과를 송신하고,
상기 번역 처리결과 수신 단계에서는,
상기 번역장치 선택부가 번역장치를 선택한 후 선택된 번역장치로부터만 상기 음성인식 결과를 목적언어로 번역한 번역 결과를 수신하고,
상기 음성합성 단계에서는,
상기 번역 처리결과 수신부가 수신한 번역결과에 대해 음성합성 처리를 수행하여 음성합성 결과를 획득하는,
정보처리방법. - 음성번역 시스템에서의 정보처리방법이며, 음성 수신부, 음성인식부, 번역부, 음성합성 의뢰부, 음성합성 처리결과 수신부, 음성합성 결과 선택부, 음성합성장치 선택부, 및 음성합성결과 전송부에 의해 실현될 수 있는 정보처리방법으로서,
상기 음성 수신부가 제1 유저의 음성을 접수하는 제1 단말장치로부터 음성정보를 수신하는 음성수신 단계;
상기 음성인식부가 상기 음성정보에 대해 음성인식 처리를 수행하여 음성인식 결과를 획득하는 음성인식 단계;
상기 번역부가 상기 음성인식 결과를 목적언어로 번역하고 번역 결과를 획득하는 번역 단계;
상기 음성합성 의뢰부가 상기 번역 결과를 2 이상의 각 음성합성장치로 송신하는 음성합성 의뢰 단계;
상기 음성합성 처리결과 수신부가 상기 2 이상의 각 음성합성장치로부터 음성합성 결과와 음성합성 처리의 확실성을 나타내는 음성합성 스코어를 가지는 음성합성 처리결과를 수신하는 음성합성 처리결과 수신 단계;
상기 음성합성 결과 선택부가 상기 음성합성 처리결과 수신 단계에서 수신된 2 이상의 음성합성 처리결과를 가지는 음성합성 스코어를 이용하여 가장 확실성 있는 음성합성 결과를 선택하는 음성합성 결과 선택 단계;
상기 음성합성장치 선택부가 상기 음성합성 결과 선택부에서 1회 이상의 음성합성 결과를 선택 처리하여 다음번 이후에 음성합성 처리를 수행하는 음성합성장치를 유저간의 일련의 대화 중에 상기 2 이상의 음성합성장치 중에서 선택하는 음성합성장치 선택 단계;
상기 음성합성 결과 송신부가 상기 음성합성 결과 선택단계에서 선택된 음성합성 결과를 제2 유저가 이용하는 제2 단말장치로 송신하는 음성합성 결과 송신 단계를 구비하고,
상기 음성합성 의뢰 단계에서는,
상기 음성합성장치 선택부가 음성합성장치를 선택한 후 상기 선택한 음성합성장치에만 상기 번역 결과를 송신하고,
상기 음성합성 결과 수신 단계에서는,
상기 음성합성장치 선택 단계에서 음성합성장치를 선택한 후 선택한 음성합성장치로부터만 음성합성 결과를 수신하고,
상기 음성합성 결과 송신 단계에서는,
상기 음성합성 처리결과 수신 단계에서 수신한 음성합성 결과를 상기 제2 단말장치로 송신하는,
정보처리방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2009-242586 | 2009-10-21 | ||
JP2009242586A JP5545467B2 (ja) | 2009-10-21 | 2009-10-21 | 音声翻訳システム、制御装置、および情報処理方法 |
PCT/JP2010/053420 WO2011048826A1 (ja) | 2009-10-21 | 2010-03-03 | 音声翻訳システム、制御装置、および制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120107933A KR20120107933A (ko) | 2012-10-04 |
KR101683944B1 true KR101683944B1 (ko) | 2016-12-20 |
Family
ID=43900070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127009506A KR101683944B1 (ko) | 2009-10-21 | 2010-03-03 | 음성번역 시스템, 제어장치, 및 제어방법 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8954335B2 (ko) |
EP (1) | EP2492910B1 (ko) |
JP (1) | JP5545467B2 (ko) |
KR (1) | KR101683944B1 (ko) |
CN (1) | CN102549654A (ko) |
WO (1) | WO2011048826A1 (ko) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5333548B2 (ja) * | 2011-08-24 | 2013-11-06 | カシオ計算機株式会社 | 情報処理装置及びプログラム |
KR102014774B1 (ko) * | 2011-12-20 | 2019-10-22 | 주식회사 케이티 | 단말의 음성인식을 제어하는 서버 및 방법, 그리고 단말 |
CN103077718B (zh) * | 2013-01-09 | 2015-11-25 | 华为终端有限公司 | 语音处理方法、系统和终端 |
US9135916B2 (en) * | 2013-02-26 | 2015-09-15 | Honeywell International Inc. | System and method for correcting accent induced speech transmission problems |
EP3040985B1 (en) * | 2013-08-26 | 2023-08-23 | Samsung Electronics Co., Ltd. | Electronic device and method for voice recognition |
KR101834546B1 (ko) | 2013-08-28 | 2018-04-13 | 한국전자통신연구원 | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 |
JP5958504B2 (ja) * | 2014-07-31 | 2016-08-02 | 日本電気株式会社 | コミュニケーション処理装置、コミュニケーション処理システム、コミュニケーション処理方法、及び、コミュニケーション処理プログラム |
EP3207465A1 (en) * | 2014-10-17 | 2017-08-23 | Machine Zone, Inc. | System and method for language detection |
JP6273227B2 (ja) * | 2015-03-25 | 2018-01-31 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
JP6090757B2 (ja) * | 2015-04-14 | 2017-03-08 | シントレーディング株式会社 | 通訳配信装置、通訳配信方法、およびプログラム |
US10235129B1 (en) | 2015-06-29 | 2019-03-19 | Amazon Technologies, Inc. | Joining users to communications via voice commands |
JP6471074B2 (ja) * | 2015-09-30 | 2019-02-13 | 株式会社東芝 | 機械翻訳装置、方法及びプログラム |
CN105225665A (zh) * | 2015-10-15 | 2016-01-06 | 桂林电子科技大学 | 一种语音识别方法及语音识别装置 |
CN105679314B (zh) * | 2015-12-28 | 2020-05-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US9799324B2 (en) * | 2016-01-28 | 2017-10-24 | Google Inc. | Adaptive text-to-speech outputs |
US9990916B2 (en) * | 2016-04-26 | 2018-06-05 | Adobe Systems Incorporated | Method to synthesize personalized phonetic transcription |
CN107146615A (zh) * | 2017-05-16 | 2017-09-08 | 南京理工大学 | 基于匹配模型二次识别的语音识别方法及系统 |
JP6920153B2 (ja) * | 2017-09-27 | 2021-08-18 | 株式会社日立情報通信エンジニアリング | 通話音声処理システム及び通話音声処理方法 |
WO2019111346A1 (ja) * | 2017-12-06 | 2019-06-13 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
JP7130201B2 (ja) * | 2018-01-18 | 2022-09-05 | 株式会社ユピテル | 装置及びプログラム等 |
US11315553B2 (en) | 2018-09-20 | 2022-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11200378B2 (en) * | 2018-10-11 | 2021-12-14 | International Business Machines Corporation | Methods and systems for processing language with standardization of source data |
JP7194900B2 (ja) * | 2018-11-30 | 2022-12-23 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
CN109861904B (zh) * | 2019-02-19 | 2021-01-05 | 天津字节跳动科技有限公司 | 姓名标签显示方法和装置 |
CN109979461B (zh) * | 2019-03-15 | 2022-02-25 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN110364146B (zh) * | 2019-08-23 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
CN110610720B (zh) * | 2019-09-19 | 2022-02-25 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
EP4100864A4 (en) * | 2020-02-07 | 2024-03-06 | Royal Bank of Canada | SYSTEM AND METHOD FOR MIDDLEWARE CONVERSATION PLATFORM |
US11741964B2 (en) * | 2020-05-27 | 2023-08-29 | Sorenson Ip Holdings, Llc | Transcription generation technique selection |
US11673059B2 (en) * | 2021-05-18 | 2023-06-13 | Roblox Corporation | Automatic presentation of suitable content |
JP2023016504A (ja) * | 2021-07-21 | 2023-02-02 | アイメソフト ジェイエスシー | スライド再生プログラム、スライド再生装置及びスライド再生方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148176A (ja) * | 1998-11-18 | 2000-05-26 | Sony Corp | 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
JP2005202884A (ja) * | 2004-01-19 | 2005-07-28 | Toshiba Corp | 送信装置、受信装置、中継装置、および送受信システム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6266642B1 (en) * | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
EP1217609A3 (en) * | 2000-12-22 | 2004-02-25 | Hewlett-Packard Company | Speech recognition |
JP2002311983A (ja) * | 2001-04-11 | 2002-10-25 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 翻訳電話システム |
US6996525B2 (en) * | 2001-06-15 | 2006-02-07 | Intel Corporation | Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US20050144012A1 (en) * | 2003-11-06 | 2005-06-30 | Alireza Afrashteh | One button push to translate languages over a wireless cellular radio |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
WO2007070558A2 (en) * | 2005-12-12 | 2007-06-21 | Meadan, Inc. | Language translation using a hybrid network of human and machine translators |
JP2007199480A (ja) * | 2006-01-27 | 2007-08-09 | Hitachi Ltd | プログラム及びサーバ |
JP2007323476A (ja) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | 機械翻訳装置及びコンピュータプログラム |
US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
JP2008077601A (ja) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US7702510B2 (en) * | 2007-01-12 | 2010-04-20 | Nuance Communications, Inc. | System and method for dynamically selecting among TTS systems |
JP2008243080A (ja) | 2007-03-28 | 2008-10-09 | Toshiba Corp | 音声を翻訳する装置、方法およびプログラム |
CN101458681A (zh) | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
US8386235B2 (en) * | 2010-05-20 | 2013-02-26 | Acosys Limited | Collaborative translation system and method |
-
2009
- 2009-10-21 JP JP2009242586A patent/JP5545467B2/ja not_active Expired - Fee Related
-
2010
- 2010-03-03 KR KR1020127009506A patent/KR101683944B1/ko active IP Right Grant
- 2010-03-03 EP EP10824678.6A patent/EP2492910B1/en not_active Not-in-force
- 2010-03-03 CN CN2010800463164A patent/CN102549654A/zh active Pending
- 2010-03-03 US US13/501,792 patent/US8954335B2/en not_active Expired - Fee Related
- 2010-03-03 WO PCT/JP2010/053420 patent/WO2011048826A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148176A (ja) * | 1998-11-18 | 2000-05-26 | Sony Corp | 情報処理装置および方法、提供媒体、音声認識システム、音声合成システム、翻訳装置および方法、並びに翻訳システム |
JP2005031758A (ja) * | 2003-07-07 | 2005-02-03 | Canon Inc | 音声処理装置及び方法 |
JP2005202884A (ja) * | 2004-01-19 | 2005-07-28 | Toshiba Corp | 送信装置、受信装置、中継装置、および送受信システム |
Also Published As
Publication number | Publication date |
---|---|
CN102549654A (zh) | 2012-07-04 |
EP2492910B1 (en) | 2018-11-07 |
EP2492910A1 (en) | 2012-08-29 |
EP2492910A4 (en) | 2016-08-03 |
JP5545467B2 (ja) | 2014-07-09 |
US8954335B2 (en) | 2015-02-10 |
US20120221321A1 (en) | 2012-08-30 |
JP2011090100A (ja) | 2011-05-06 |
KR20120107933A (ko) | 2012-10-04 |
WO2011048826A1 (ja) | 2011-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101683944B1 (ko) | 음성번역 시스템, 제어장치, 및 제어방법 | |
KR101683943B1 (ko) | 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치 | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
KR100430953B1 (ko) | 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법 | |
WO2018021237A1 (ja) | 音声対話装置、音声対話方法、および記録媒体 | |
JP2023022150A (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
JP2017107078A (ja) | 音声対話方法、音声対話装置及び音声対話プログラム | |
KR101626887B1 (ko) | 음성번역시스템, 사전서버장치, 및 프로그램 | |
CN106713111A (zh) | 一种添加好友的处理方法、终端及服务器 | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
CN111524508A (zh) | 语音对话系统以及语音对话实现方法 | |
JP2019074865A (ja) | 会話収集装置、会話収集システム及び会話収集方法 | |
KR102268376B1 (ko) | 다중 언어 대화 서비스 제공 장치 및 방법 | |
CN113906502A (zh) | 语音处理装置、语音对的语料库的生成方法、以及记录程序的记录介质 | |
CN116386627A (zh) | 显示设备及热词识别方法 | |
WO2021021529A1 (en) | Systems and methods for managing voice queries using pronunciation information | |
CN117809615A (zh) | 显示设备及声音克隆方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |