TW201926079A

TW201926079A - 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品

Info

Publication number: TW201926079A
Application number: TW107135462A
Authority: TW
Inventors: 川竹一
Original assignee: 日商創次源股份有限公司
Priority date: 2017-12-06
Filing date: 2018-10-08
Publication date: 2019-07-01
Also published as: WO2019111346A1; CN110149805A; JP2023022150A; US20200012724A1; JPWO2019111346A1

Abstract

提供了雙向語音翻譯系統、雙向語音翻譯方法和程式，用於通過使用適合於接收到的語音或接收到的語音的語言的語音辨識引擎、翻譯引擎、和語音合成引擎的組合來執行語音翻譯。雙向語音翻譯系統（1），執行用於透過將第一說話者輸入的第一語言語音翻譯成第二語言來合成語音的處理、以及用於透過將第二說話者輸入的第二語言語音翻譯成第一語言來合成語音的處理。引擎確定單元（46），基於第一語言、第一說話者輸入的第一語言語音、第二語言、和第二說話者輸入的第二語言語音中的至少一個，確定第一語音辨識引擎（22）、第一翻譯引擎（28）、和第一語音合成引擎（34）的組合，以及第二語音辨識引擎（22）、第二翻譯引擎（28）、和第二語音合成引擎（34）的組合。

Description

雙向語音翻譯系統、雙向語音翻譯方法和程式

本發明是有關於一種雙向語音翻譯系統、雙向語音翻譯方法和雙向語音翻譯程式。

專利文獻1描述了具有增強的單手的可操作性的翻譯機。專利文獻1中描述的翻譯機將包括輸入聲學模型、語言模型和輸出聲學模型的翻譯程式和翻譯資料儲存在包括在設置在殼體上的翻譯單元中的記憶體中。

在專利文獻1中描述的翻譯機中，包括在翻譯單元中的處理單元使用輸入聲學模型和語言模型，將透過麥克風接收到的第一語言的語音轉換為第一語言的文本資訊。處理單元使用翻譯模型和語言模型將第一語言的文本資訊翻譯或轉換為第二語言的文本資訊。處理單元使用輸出聲學模型將第二語言的文本資訊轉換為語音，並且透過揚聲器輸出第二語言的語音。

專利文獻1中描述的翻譯機對每個翻譯機預先確定第一語言和第二語言的組合。

引文列表專利文獻專利文獻1：JP2017-151619A

然而，在講第一語言的第一說話者和講第二語言的第二說話者之間的雙向對話中，在專利文獻1中描述的翻譯機不能順利地交替將第一說話者的語音翻譯成第二語言並且將第二說話者的語音翻譯成第一語言。

專利文獻1中描述的翻譯機使用儲存的給定翻譯資料來翻譯任何接收到的語音。因此，例如，即使存在更適用於翻譯前語言或翻譯後語言的語音辨識引擎或翻譯引擎，也不可能使用這樣的引擎執行語音辨識或翻譯。此外，例如，即使存在適於再現例如年齡和性別的說話者屬性的翻譯引擎或語音合成引擎，也不可能使用這樣的引擎執行翻譯或語音合成。

鑒於上述情況做出了本發明，並且本發明的目的是提供一種雙向語音翻譯系統、雙向語音翻譯方法和程式，其透過使用適合於接收的語音或此語音的語言的語音辨識引擎、翻譯引擎和語音合成引擎的組合，來執行語音翻譯。

為了解決上述問題，根據本發明的雙向語音翻譯系統，執行用於回應於由第一說話者輸入第一語言語音，透過將第一語言語音翻譯成第二語言來合成語音的處理、以及用於回應於第二說話者輸入第二語言語音，透過將第二語言語音翻譯成第一語言來合成語音的處理。所述雙向語音翻譯系統包括：第一確定單元，其基於第一語言、第一說話者輸入的第一語言語音、第二語言、和第二說話者輸入的第二語言語音中的至少一個，確定第一語音辨識引擎、第一翻譯引擎、和第一語音合成引擎的組合，第一語音辨識引擎是多個語音辨識引擎中的一個，第一翻譯引擎是多個翻譯引擎中的一個，第一語音合成引擎是多個語音合成引擎中的一個；第一語音辨識單元，其回應於由第一說話者輸入第一語言語音，執行由第一語音辨識引擎實現的語音辨識處理，以生成作為第一語言語音的識別結果的文本；第一翻譯單元，其執行由第一翻譯引擎實現的翻譯處理，以透過將由第一語音辨識單元生成的文本翻譯成第二語言來生成文本；第一語音合成單元，其執行由第一語音合成引擎實現的語音合成處理，以合成表示由第一翻譯單元翻譯的文本的語音；第二確定單元，其基於第一語言、第一說話者輸入的第一語言語音、第二語言、和第二說話者輸入的第二語言語音中的至少一個，確定第二語音辨識引擎、第二翻譯引擎、和第二語音合成引擎的組合，第二語音辨識引擎是多個語音辨識引擎中的一個，第二翻譯引擎是多個翻譯引擎中的一個，第二語音合成引擎是多個語音合成引擎中的一個；第二語音辨識單元，其回應於由第二說話者輸入第二語言語音，執行由第二語音辨識引擎實現的語音辨識處理，以生成作為第二語言語音的識別結果的文本；第二翻譯單元，其執行由第二翻譯引擎實現的翻譯處理，以透過將由第二語音辨識單元生成的文本翻譯成第一語言來生成文本；以及第二語音合成單元，其執行由第二語音合成引擎實現的語音合成處理，以合成表示由第二翻譯單元翻譯的文本的語音。

在本發明的一個方面中，第一語音合成單元根據基於由第一說話者輸入的語音的特徵量估計的第一說話者的年齡、世代、和性別中的至少一個來合成語音。

在本發明的一個方面中，第一語音合成單元根據基於由第一說話者輸入的語音的特徵量估計的第一說話者的情緒來合成語音。

在本發明的一個方面中，第二語音合成單元根據基於由第一說話者輸入的語音的特徵量估計的第一說話者的年齡、世代、和性別中的至少一個來合成語音。

在本發明的一個方面中，第二翻譯單元，確定包括在由第二語音辨識單元生成的文本中的翻譯目標詞的多個翻譯候選，檢查多個翻譯候選以查看每個翻譯候選是否被包括在由第一翻譯單元生成的文本中，以及將翻譯目標詞翻譯成被確定為包括在由第一翻譯單元生成的文本中的詞。

在本發明的一個方面中，第一語音合成單元合成具有根據第一說話者的第一語言語音的輸入速度的語音，或具有根據第一說話者的第一語言語音的音量的語音。

在本發明的一個方面中，第二語音合成單元合成具有根據第一說話者的第一語言語音的輸入速度的語音，或具有根據第一說話者的第一語言語音的音量的語音。

在本發明的一個方面中，雙向語音翻譯系統包括終端，此終端接收由第一說話者進行的第一語言語音的輸入，輸出透過將第一語言語音翻譯成第二語言獲得的語音，接收由第二說話者進行的第二語言語音的輸入，並輸出透過將第二語言翻譯成第一語言獲得的語音。第一確定單元基於終端的位置確定第一語音辨識引擎、第一翻譯引擎、和第一語音合成引擎的組合。第二確定單元基於終端的位置確定第二語音辨識引擎、第二翻譯引擎、和第二語音合成引擎的組合。

根據本發明的雙向語音翻譯方法，執行用於回應於由第一說話者輸入第一語言語音，透過將第一語言語音翻譯成第二語言來合成語音的處理、以及用於回應於第二說話者輸入第二語言語音，透過將第二語言語音翻譯成第一語言來合成語音的處理。所述雙向語音翻譯方法包括：第一確定步驟，其基於第一語言、第一說話者輸入的第一語言語音、第二語言、和第二說話者輸入的第二語言語音中的至少一個，確定第一語音辨識引擎、第一翻譯引擎、和第一語音合成引擎的組合，第一語音辨識引擎是多個語音辨識引擎中的一個，第一翻譯引擎是多個翻譯引擎中的一個，第一語音合成引擎是多個語音合成引擎中的一個；第一語音辨識步驟，其回應於由第一說話者輸入第一語言語音，執行由第一語音辨識引擎實現的語音辨識處理，以生成作為第一語言語音的識別結果的文本；第一翻譯步驟，其執行由第一翻譯引擎實現的翻譯處理，以透過將在第一語音辨識步驟中生成的文本翻譯成第二語言來生成文本；第一語音合成步驟，其執行由第一語音合成引擎實現的語音合成處理，以合成表示在第一翻譯步驟中翻譯的文本的語音；第二確定步驟，其基於第一語言、第一說話者輸入的第一語言語音、第二語言、和第二說話者輸入的第二語言語音中的至少一個，確定第二語音辨識引擎、第二翻譯引擎、和第二語音合成引擎的組合，第二語音辨識引擎是多個語音辨識引擎中的一個，第二翻譯引擎是多個翻譯引擎中的一個，第二語音合成引擎是多個語音合成引擎中的一個；第二語音辨識步驟，其回應於由第二說話者輸入第二語言語音，執行由第二語音辨識引擎實現的語音辨識處理，以生成作為第二語言語音的識別結果的文本；第二翻譯步驟，其執行由第二翻譯引擎實現的翻譯處理，以透過將在第二語音辨識步驟中生成的文本翻譯成第一語言來生成文本；以及第二語音合成步驟，其執行由第二語音合成引擎實現的語音合成處理，以合成表示在第二翻譯步驟中翻譯的文本的語音。

根據本發明的程式，使電腦執行用於回應於由第一說話者輸入第一語言語音，透過將第一語言語音翻譯成第二語言來合成語音的處理、以及用於回應於第二說話者輸入第二語言語音，透過將第二語言語音翻譯成第一語言來合成語音的處理。所述程式使所述電腦執行：第一確定處理，其基於第一語言、第一說話者輸入的第一語言語音、第二語言、和第二說話者輸入的第二語言語音中的至少一個，確定第一語音辨識引擎、第一翻譯引擎、和第一語音合成引擎的組合，第一語音辨識引擎是多個語音辨識引擎中的一個，第一翻譯引擎是多個翻譯引擎中的一個，第一語音合成引擎是多個語音合成引擎中的一個；第一語音辨識處理，其回應於由第一說話者輸入第一語言語音，執行由第一語音辨識引擎實現的語音辨識處理，以生成作為第一語言語音的識別結果的文本；第一翻譯處理，其執行由第一翻譯引擎實現的翻譯處理，以透過將在第一語音辨識處理中生成的文本翻譯成第二語言來生成文本；第一語音合成處理，其執行由第一語音合成引擎實現的語音合成處理，以合成表示在第一翻譯處理中翻譯的文本的語音；第二確定處理，其基於第一語言、第一說話者輸入的第一語言語音、第二語言、和第二說話者輸入的第二語言語音中的至少一個，確定第二語音辨識引擎、第二翻譯引擎、和第二語音合成引擎的組合，第二語音辨識引擎是多個語音辨識引擎中的一個，第二翻譯引擎是多個翻譯引擎中的一個，第二語音合成引擎是多個語音合成引擎中的一個；第二語音辨識處理，其回應於由第二說話者輸入第二語言語音，執行由第二語音辨識引擎實現的語音辨識處理，以生成作為第二語言語音的識別結果的文本；第二翻譯處理，其執行由第二翻譯引擎實現的翻譯處理，以透過將在第二語音辨識處理中生成的文本翻譯成第一語言來生成文本；以及第二語音合成處理，其執行由第二語音合成引擎實現的語音合成處理，以合成表示在第二翻譯處理中翻譯的文本的語音。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

以下將參考附圖描述本發明的實施例。

第1圖繪示作為本發明中提出的雙向語音翻譯系統的示例的翻譯系統1的整體配置的示例。如第1圖所示，本發明中提出的翻譯系統1包括伺服器10和翻譯終端12。伺服器10和翻譯終端12連接到例如網際網路的電腦網路14。伺服器10和翻譯終端12因此可以經由例如網際網路的電腦網路14彼此進行通信。

如第1圖所示，根據本實施例的伺服器10包括例如處理器10a，儲存單元10b和通信單元10c。

處理器10a是程式控制裝置，例如根據安裝在伺服器10中的程式進行操作的微處理器。儲存單元10b是例如ROM和RAM的記憶元件或硬碟驅動器。例如，儲存單元10b儲存由處理器10a執行的程式。例如，通信單元10c是用於經由電腦網路14向/從翻譯終端12發送/接收資料的通信介面，例如網路板。伺服器10經由通信單元10c向翻譯終端12發送資料/從翻譯終端12接收資料。

第2圖繪示在第1圖中所示的翻譯終端12的配置的示例。如第2圖所示，根據本實施例的翻譯終端12包括：例如，處理器12a、儲存單元12b、通信單元12c、操作部12d、顯示部12e、麥克風12f和揚聲器12g。

處理器12a是例如程式控制裝置，例如根據安裝在翻譯終端12中的程式進行操作的微處理器。儲存單元12b是例如ROM和RAM的記憶元件。儲存單元12b儲存由處理器12a執行的程式。

例如，通信單元12c是用於經由電腦網路14向/從伺服器10發送/接收資料的通信介面。通信單元12c可以包括例如3G模組的無線通訊模組，用於透過包括基站的行動電話線路與例如網際網路的電腦網路14進行通信。通信單元12c可以包括無線LAN模組，用於經由例如Wi-Fi（註冊商標）路由器與例如網際網路的電腦網路14進行通信。

例如，操作部12d是將用戶的操作輸出到處理器12a的操作部件。如第1圖所示，本實施例的翻譯終端12在其下前側具有5個操作部12d（12da，12db，12dc，12dd，12de）。操作部12da、操作部12db、操作部12dc、操作部12dd以及操作部12de分別相對設置在翻譯終端12的下前部的左側、右側、上側、下側和中央。操作部12d在這裡被描述為觸摸感測器，但是操作部12d可以是除了觸摸感測器之外的例如按鈕的操作部件。

例如，顯示部12e包括例如液晶顯示器、有機EL顯示器的顯示器，顯示由處理器12a生成的圖像。如第1圖所示，根據本實施例的翻譯終端12在其上前側具有圓形顯示部12e。

例如，麥克風12f是將接收到的語音轉換為電信號的語音輸入裝置。麥克風12f可以是具有雜訊消除功能的雙麥克風，其被嵌入在翻譯終端12中並且即使在人群中也有利於識別人類語音。

例如，揚聲器12g是輸出語音的音訊輸出裝置。揚聲器12g可以是嵌入在翻譯終端12中的動態揚聲器，並且可以用在嘈雜的環境中。

根據本實施例的翻譯系統1可以在第一說話者和第二說話者之間的雙向會話中交替地翻譯第一說話者的語音和第二說話者的語音。

在根據本實施例的翻譯終端12中，對單元12d執行預定操作以設置語言，從而從例如五十個給定的語言中確定第一說話者的語音的語言和第二說話者的語音的語言。在下文中，第一說話者的語音被稱為第一語言，而第二說話者的語音被稱為第二語言。在本實施例中，例如，顯示部12e的左上方的第一語言顯示區域16a顯示表示第一語言的圖像，例如使用第一語言的國家的國旗的圖像。此外，在本實施例中，例如，顯示部分12e的右上方的第二語言顯示區域16b顯示使用第二語言的國家的國旗。

例如，假定第一說話者執行語音輸入操作，其中第一說話者在翻譯終端12中以第一語言輸入語音。例如，第一說話者的語音輸入操作可以是一系列操作，包括：第一說話者敲擊操作部12da、在敲擊操作部12da的同時輸入第一語言的語音、和釋放操作部12da的敲擊狀態。

隨後，設置在顯示部12e下方的文本顯示區域18顯示文本，該文本是由第一說話者輸入語音的語音辨識結果。根據本實施例的文本是表示一個或多個從句、短語、詞或句子的字串。之後，文本顯示區域18顯示將顯示的文本翻譯成第二語言而獲得的文本，並且揚聲器12g輸出表示翻譯後文本的語音，即將由第一說話者輸入的第一語言的語音翻譯成第二語言所得到的語音。

隨後，例如，假定第二說話者在翻譯終端12中執行第二說話者以第二語言輸入語音的語音輸入操作。例如，第二說話者的語音輸入操作可以是一系列操作，包括：第二說話者敲擊操作部12db、在敲擊操作部12db的同時輸入第二語言的語音、和釋放操作部12db的敲擊狀態。

隨後，設置在顯示部12e下方的文本顯示區域18顯示文本，該文本是由第二說話者輸入的語音的語音辨識結果。之後，文本顯示區域18顯示將顯示的文本翻譯成第一語言而獲得的文本，並且揚聲器12g輸出表示翻譯後文本的語音，即，將由第二說話者輸入的第二語言的語音翻譯成第一語言所得到的語音。

隨後，在根據本實施例的翻譯系統1中，每當交替執行第一說話者的語音輸入操作和第二說話者的語音輸入操作時，輸出透過將輸入的語音翻譯成另一種語言而獲得的語音。

以下將描述根據本實施例的伺服器10中執行的功能和處理。

根據本實施例的伺服器10執行用於回應於由第一說話者輸入第一語言的語音，透過將輸入的語音翻譯成第二語言來合成語音的處理，以及用於回應於第二說話者以第二語言輸入語音，透過將輸入的語音翻譯成第一語言來合成語音的處理。

第3圖繪示根據本實施例的在伺服器10中實現的功能的示例的功能框圖。根據該實施例的伺服器10不一定要實現在第3圖中示出的所有功能，並且可以實現除了在第3圖中示出的功能之外的功能。

如第3圖所示，根據本實施例的伺服器10在功能上包括：例如，語音資料接收單元20、多個語音辨識引擎22、語音辨識單元24、翻譯前文本資料發送單元26、多個翻譯引擎28、翻譯單元30、翻譯後文本資料發送單元32、多個語音合成引擎34、語音合成單元36、語音資料發送單元38、記錄資料生成單元40、記錄資料儲存單元42、分析單元44、引擎確定單元46、和對應管理資料儲存單元48。

語音辨識引擎22、翻譯引擎28、和語音合成引擎34主要由處理器10a和儲存單元10b實現。語音資料接收單元20、翻譯前文本資料發送單元26、翻譯後文本資料發送單元32、和語音資料發送單元38主要由通信單元10c實現。語音辨識單元24、翻譯單元30、語音合成單元36、記錄資料生成單元40、分析單元44、和引擎確定單元46主要由處理器10a實現。記錄資料儲存單元42和對應管理資料儲存單元48主要由儲存單元10b實現。

當處理器10a執行安裝在是電腦的伺服器10中並且包含對應於這些功能的命令的程式時，實現上述功能。該程式經由網際網路或例如光碟、磁片、磁帶、磁光碟和快閃記憶體的電腦可讀資訊儲存媒體提供給伺服器10。

在根據本實施例的翻譯系統1中，當由說話者執行語音輸入操作時，翻譯終端12生成在第4A圖和第4B圖中所示的分析目標資料。翻譯終端12然後將生成的分析目標資料發送到伺服器10。第4A圖示出了當第一說話者執行語音輸入操作時生成的分析目標資料的示例。第4B圖示出了當第二說話者執行語音輸入操作時生成的分析目標資料的示例。第4A圖和第4B圖繪示當第一語言是日語並且第二語言是英語時的分析目標資料的示例。

如第4A圖和第4B圖所示，分析目標資料包括翻譯前語音資料和元資料。

例如，翻譯前語音資料是表示透過麥克風12f輸入的說話者的語音的語音資料。在此，翻譯前語音資料例如可以是透過對透過麥克風12f輸入的語音進行編碼和量化而生成的語音資料。

例如，元資料包括終端ID、輸入ID、說話者ID、時間資料、翻譯前語言資料、和翻譯後語言資料。

例如，終端ID是翻譯終端12的標識資訊。在該實施例中，例如，向使用者提供的每個翻譯終端12被分配唯一的終端ID。

例如，輸入ID是透過單個語音輸入操作輸入的語音的標識資訊。在該實施例中，輸入ID例如是分析目標資料的標識資訊。在該實施例中，根據在翻譯終端12中執行的語音輸入操作的順序來分配輸入ID的值。

例如，說話者ID是說話者的標識資訊。在本實施例中，例如，當第一說話者進行語音輸入操作時，將1設置為說話者ID的值，並且當第二說話者進行語音輸入操作時，將2設置為說話者ID的值。

例如，時間資料表示進行語音輸入操作的時間。

例如，翻譯前語言資料表示由說話者輸入的語音的語言。在下文中，說話者輸入的語音的語言被稱為翻譯前語言。例如，當第一說話者進行語音輸入操作時，表示被設置為第一語言的語言的值被設置為翻譯前語言資料的值。例如，當第二說話者進行語音輸入操作時，表示被設置為第二語言的語言的值被設置為翻譯前語言資料的值。

翻譯後語言資料表示例如作為由會話夥伴（即，執行語音輸入操作的說話者的聽眾）捕獲的語音的語言被設置的語言。在下文中，被聽眾捕獲的語音的語言被稱為翻譯後語言。例如，當第一說話者進行語音輸入操作時，表示被設置為第二語言的語言的值被設置為翻譯後語言資料的值。例如，當第二說話者進行語音輸入操作時，表示被設置為第一語言的語言的值被設置為翻譯後語言資料的值。

在本實施例中，語音資料接收單元20例如接收表示在翻譯終端12中輸入的語音的語音資料。這裡，語音資料接收單元20可以接收分析目標資料，其包括表示如上所述輸入到翻譯終端12中的語音的語音資料作為翻譯前語音資料。

在該實施例中，每個語音辨識引擎22是其中例如執行用於生成作為語音的識別結果的文本的語音辨識處理的程式。語音辨識引擎22具有不同的規格，例如可識別的語言。在本實施例中，例如，每個語音辨識引擎22被預先分配有語音辨識引擎ID，語音辨識引擎ID是對應的語音辨識引擎22的標識資訊。

在本實施例中，例如，回應於由說話者輸入語音，語音辨識單元24生成文本，該文本是語音的識別結果。語音辨識單元24可以生成文本，該文本是由語音資料接收單元20接收的語音資料所表示的語音的識別結果。

語音辨識單元24可以執行語音辨識處理，該語音辨識處理由稍後描述的引擎確定單元46確定的語音辨識引擎22執行，以生成作為語音的識別結果的文本。例如，語音辨識單元24可以調用由引擎確定單元46確定的語音辨識引擎22，使語音辨識引擎22執行語音辨識處理，並且從語音辨識引擎22接收作為語音辨識處理的結果的文本。

以下，回應於第一說話者的語音輸入操作而由引擎確定單元46確定的語音辨識引擎22被稱為第一語音辨識引擎22。此外，回應於第二說話者的語音輸入操作而由引擎確定單元46確定的語音辨識引擎22被稱為第二語音辨識引擎22。

在該實施例中，例如，翻譯前文本資料發送單元26將表示由語音辨識單元24生成的文本的翻譯前文本資料發送到翻譯終端12。例如，當從翻譯前文本資料發送單元26接收到由接收翻譯前文本資料表示的文本時，翻譯終端12如上所述在文本顯示區域18上顯示文本。

在該實施例中，例如，每個翻譯引擎28是其中執行翻譯文本的翻譯處理的程式。翻譯引擎28具有不同的規格，例如可翻譯的語言和用於翻譯的字典。在該實施例中，例如，每個翻譯引擎28被預先分配有翻譯引擎ID，其是對應的翻譯引擎28的標識資訊。

在該實施例中，例如，翻譯單元30透過翻譯由語音辨識單元24生成的文本來生成文本。翻譯單元30可以執行由稍後描述的引擎確定單元46確定的翻譯引擎28實現的翻譯處理，並且透過翻譯由語音辨識單元24生成的文本來生成文本。例如，翻譯單元30可以調用由引擎確定單元46確定的翻譯引擎28，使翻譯引擎28執行翻譯處理，並從翻譯引擎28接收作為翻譯處理的結果的文本。

在下文中，回應於第一說話者的語音輸入操作而由引擎確定單元46確定的翻譯引擎28被稱為第一翻譯引擎28。此外，回應於第二說話者的語音輸入操作而由引擎確定單元46確定的翻譯引擎28被稱為第二翻譯引擎28。

在該實施例中，例如，翻譯後文本資料發送單元32將表示由翻譯單元30翻譯的文本的翻譯後文本資料發送到翻譯終端12。例如，當從翻譯後文本資料發送單元32接收到翻譯後文本資料所表示的文本時，翻譯終端12如上所述在文本顯示區域18上顯示文本。

在本實施例中，例如，每個語音合成引擎34是其中實現用於合成表示文本的語音的語音合成處理的程式。語音合成引擎34具有不同的規格，例如要合成的語音的音調或類型。在該實施例中，例如，每個語音合成引擎34被預先分配有語音合成引擎ID，其是用於對應的語音合成引擎34的標識資訊。

在該實施例中，例如，語音合成單元36合成表示由翻譯單元30翻譯的文本的語音。語音合成單元36可以生成翻譯後的語音資料，翻譯後的語音資料是透過合成表示由翻譯單元30翻譯的文本的語音而獲得的語音資料。語音合成單元36可以執行由稍後描述的引擎確定單元46確定的語音合成引擎34實現的語音合成處理，並且合成表示由翻譯單元30翻譯的文本的語音。例如，語音合成單元36可以調用由引擎確定單元46確定的語音合成引擎34，使得語音合成引擎34執行語音合成處理，並且從語音合成引擎34接收作為語音合成處理的結果的語音資料。

在下文中，回應於第一說話者的語音輸入操作而由引擎確定單元46確定的語音合成引擎34被稱為第一語音合成引擎34。此外，回應於第二說話者的語音輸入操作而由引擎確定單元46確定的語音合成引擎34被稱為第二語音合成引擎34。

在該實施例中，例如，語音資料發送單元38將表示由語音合成單元36合成的語音的語音資料發送到翻譯終端12。在從語音資料發送單元38接收到翻譯後的語音資料時，翻譯終端12例如如上所述將由翻譯後的語音資料表示的語音輸出到揚聲器12g。

在本實施例中，例如，記錄資料生成單元40生成如第5A圖和第5B圖所示的表示關於說話者的語音的翻譯的記錄的記錄資料，並且將該記錄資料儲存在記錄資料儲存單元42中。

第5A圖示出了回應於第一說話者的語音輸入操作而生成的記錄資料的例子。第5B圖示出了回應於第二說話者的語音輸入操作而生成的記錄資料的例子。

記錄資料例如包括終端ID、輸入ID、說話者ID、時間資料、翻譯前文本資料、翻譯後文本資料、翻譯前語言資料、翻譯後語言資料、年齡資料、性別資料、情緒資料、主題資料、和場景資料。

例如，由語音資料接收單元20接收的分析目標資料中包括的元資料的終端ID、輸入ID、和說話者ID的值可以分別被設置為要生成的記錄資料的終端ID、輸入ID、和說話者ID的值。例如，可以將語音資料接收單元20接收到的分析目標資料中包括的元資料的時間資料的值設置為要生成的記錄資料的時間資料的值。例如，由語音資料接收單元20接收的分析目標資料中包括的元資料的翻譯前語言資料和翻譯後語言資料的值可以被設置為包括在要生成的記錄資料中的翻譯前語言資料和翻譯後語言的值。

例如，執行語音輸入操作的說話者的年齡或世代的值可以被設置為包括在要產生的記錄資料中的年齡資料的值。例如，表示進行語音輸入操作的說話者的性別的值可以被設置為包括在將要生成的記錄資料中的性別資料的值。例如，表示進行語音輸入操作的說話者的情緒的值可以被設置為包括在要生成的記錄資料中的情緒資料的值。例如，當執行語音輸入操作時，表示例如醫學、軍事、IT和旅行的會話的主題（類型）的值可以被設置為包括在要生成的記錄資料中的主題資料的值。例如，當執行語音輸入操作時，表示例如會議、商務談話、聊天和演講的會話場景的值可以被設置為包括在將要生成的記錄資料中的場景資料的值。

如稍後討論的，分析單元44可以對由語音資料接收單元20接收的語音資料執行分析處理。然後，可以將與分析處理的結果相對應的值設置為包括在要生成的記錄資料中的年齡資料、性別資料、情緒資料、主題資料、和場景資料的值。

例如，表示由語音資料接收單元20接收到的語音資料的由語音辨識單元24的語音辨識結果的文本可以被設置為包括在要生成的記錄資料中的翻譯前文本資料的值。例如，表示由翻譯單元30翻譯文本的結果的文本可以被設置為包括在要生成的記錄資料中的翻譯後文本資料的值。

儘管未在第5A圖和第5B圖中示出，但是記錄資料可以附加地包括資料，例如表示進行語音輸入操作的說話者的語音的輸入速度的輸入速度資料、表示語音的音量的音量資料、和表示語音的音調或類型的聲音類型資料。

在本實施例中，例如，記錄資料儲存單元42儲存由記錄資料生成單元40生成的記錄資料。以下，儲存在記錄資料儲存單元42中並且包括具有與由語音資料接收單元20接收到的分析目標資料中包括的元資料的終端ID的值相同的值的終端ID的記錄資料，將被稱為終端記錄資料。

可以預先確定儲存在記錄資料儲存單元42中的終端記錄資料的記錄的最大數量。例如，對於某個終端ID，可以在記錄資料儲存單元42中儲存最多20個終端記錄資料的記錄。如上所述，在記錄資料儲存單元42中儲存了最大數量的終端記錄資料的記錄的情況下，在將終端記錄資料的新記錄儲存在記錄資料儲存單元42中時，記錄資料生成單元40可以刪除包括表示最早時間的時間資料的終端記錄資料的記錄。

在該實施例中，例如，分析單元44對由語音資料接收單元20接收的語音資料和作為翻譯單元30的翻譯結果的文本執行分析處理。

例如，分析單元44可以生成由語音資料接收單元20接收的語音資料所表示的語音的特徵量的資料。特徵量的資料可以包括例如基於頻譜包絡的資料、基於線性預測分析的資料、例如倒譜的關於聲道的資料、例如基頻和有聲/無聲判定資訊的關於聲源的資料、和頻譜圖。

在該實施例中，例如，分析單元44可以執行分析處理，例如已知的聲紋分析處理，從而估計執行語音輸入操作的說話者的屬性，例如說話者的年齡、世代、和性別。例如，可以基於由語音資料接收單元20接收到的語音資料表示的語音的特徵量的資料來估計執行語音輸入操作的說話者的屬性。

例如，分析單元44可以基於作為翻譯單元30的翻譯結果的文本來估計執行語音輸入操作的說話者的屬性，例如年齡、世代、和性別。例如，使用已知的文本分析處理，可以基於作為翻譯結果的文本中包括的詞來估計執行語音輸入操作的說話者的屬性。這裡，如上所述，記錄資料生成單元40可以將表示估計的說話者的年齡或世代的值設置為包括在要生成的記錄資料中的年齡資料的值。此外，如上所述，記錄資料生成單元40可以將估計的說話者的性別的值設置為包括在要生成的記錄資料中的性別資料的值。

在該實施例中，例如，分析單元44執行分析處理，例如已知的語音情緒分析處理，從而估計進行語音輸入操作的說話者的情緒（例如憤怒、喜悅、和平靜）。例如，可以基於由語音資料接收單元20接收的語音資料表示的語音的特徵量的資料來估計輸入語音的說話者的情緒。如上所述，記錄資料生成單元40可以將表示說話者的估計的情緒的值設置為包括在要生成的記錄資料中的情緒資料的值。

分析單元44可以指定例如由語音資料接收單元20接收到的語音資料所表示的語音的輸入速度和音量。此外，分析單元44可以例如指定由語音資料接收單元20接收的語音資料表示的語音的聲調或類型。記錄資料生成單元40可以將表示估計的語音輸入速度、音量、和語音的聲調或類型的值設置為包括在要生成的記錄資料中的輸入速度資料、音量資料、和聲音類型資料的各個值。

例如，分析單元44可以估計進行語音輸入操作時的會話主題或場景。這裡，分析單元44可以基於例如由語音辨識單元24生成的文本或包括在文本中的詞來估計主題或場景。

當估計主題和場景時，分析單元44可以基於終端記錄資料來估計它們。例如，可以基於由包含在終端記錄資料中的翻譯前文本資料表示的文本或包含在文本中的詞，或者由翻譯後文本資料表示的文本或包含在文本中的詞，估計主題和場景。話題和場景可以基於由語音辨識單元24生成的文本和終端記錄資料來估計。這裡，記錄資料生成單元40可以將表示估計的主題和場景的值設置為包括在要生成的記錄資料中的主題資料和場景資料的值。

在該實施例中，例如，引擎確定單元46確定用於執行語音辨識處理的語音辨識引擎22、用於執行翻譯處理的翻譯引擎28、和用於執行語音合成處理的語音合成引擎34的組合。如上所述，引擎確定單元46可根據第一說話者的語音輸入操作確定第一語音辨識引擎22、第一翻譯引擎28、和第一語音合成引擎34的組合。引擎確定單元46可根據第二說話者的語音輸入操作確定第二語音辨識引擎22、第二翻譯引擎28、和第二語音合成引擎34的組合。例如，可以基於第一語言、由第一說話者輸入的語音、第二語言、和由第二說話者輸入的語音中的至少一個來確定組合。

如上所述，語音辨識單元24可回應於第一說話者以第一語言輸入語音，執行由第一語音辨識引擎22實現的語音辨識處理，從而以第一語言生成文本，這是識別語音的結果。翻譯單元30可以執行由第一翻譯引擎28實現的翻譯處理，以透過翻譯由語音辨識單元24生成的第一語言的文本，生成第二語言的文本。語音合成單元36可以執行由第一語音合成引擎34實現的語音合成處理，以合成表示由翻譯單元30以第二語言翻譯的文本的語音。

語音辨識單元24可以回應於第二說話者以第二語言輸入語音，執行由第二語音辨識引擎22實現的語音辨識處理，以生成文本，該文本是第二語言的語音的識別結果。翻譯單元30可以執行由第二翻譯引擎28執行的翻譯處理，以透過翻譯由語音辨識單元24生成的第二語言的文本，生成第一語言的文本。語音合成單元36可以執行由第一語音合成引擎34實現的語音合成處理，以合成表示由翻譯單元30以第一語言翻譯後文本的語音。

例如，當第一說話者輸入語音時，引擎確定單元46可以基於翻譯前語言和翻譯後語言的組合來確定第一語音辨識引擎22、第一翻譯引擎28、和第一語音合成引擎34的組合。

這裡，例如，當第一講話者輸入語音時，引擎確定單元46可基於第6圖所示的語言引擎對應管理資料確定第一語音辨識引擎22、第一翻譯引擎28、和第一語音合成引擎34的組合。

如第6圖所示，語言引擎對應管理資料包括：翻譯前語言資料、翻譯後語言資料、語音辨識引擎ID、翻譯引擎ID、和語音合成引擎ID。第6圖示出了語言引擎對應管理資料的多個記錄。例如，可以在語言引擎對應管理資料中預先設置適用於翻譯前語言和翻譯後語言的組合的語音辨識引擎22、翻譯引擎28、和語音合成引擎34。語言引擎對應管理資料可以預先儲存在對應管理資料儲存單元48中。

這裡，例如，可以預先指定語音辨識引擎22的語音辨識引擎ID，該語音辨識引擎22能夠對由翻譯前語言資料的值表示的語言的語音進行語音辨識處理。或者，可以預先指定具有識別語音的最高準確度的語音辨識引擎22的語音辨識引擎ID。然後可以將指定的語音辨識引擎ID設置為與語言引擎對應管理資料中的翻譯前語言資料相關聯的語音辨識引擎ID。

例如，引擎確定單元46可以指定當第一說話者輸入語音時由語音資料接收單元20接收到的分析目標資料中包括的元資料的翻譯前語言資料的值和翻譯後語言資料的值的組合。引擎確定單元46然後可以指定具有翻譯前語言資料的值和翻譯後語言資料的值的相同組合的語言引擎對應管理資料的記錄作為指定組合。引擎確定單元46可以指定包括在語言引擎對應管理資料的指定記錄中的語音辨識引擎ID、翻譯引擎ID、和語音合成引擎ID的組合。

引擎確定單元46可以指定具有相同組合的翻譯前語言資料的值和翻譯後語言資料的值的語言引擎對應管理資料的多個記錄作為指定組合。在這種情況下，例如，引擎確定單元46可以基於給定的標準指定包括在語言引擎對應管理資料的任何一個記錄中的語音辨識引擎ID、翻譯引擎ID、和語音合成引擎ID的組合。

引擎確定單元46可以確定由包括在指定組合中的語音辨識引擎ID所標識的語音辨識引擎22作為第一語音辨識引擎22。引擎確定單元46可以確定由包括在所確定的組合中的翻譯引擎ID所標識的翻譯引擎28作為第一翻譯引擎28。引擎確定單元46可以將由所確定的組合中包括的語音合成引擎ID所標識的語音合成引擎34確定為第一語音合成引擎34。

類似地，當第二說話者輸入語音時，引擎確定單元46可以基於翻譯前語言和翻譯後語言的組合，來確定第二語音辨識引擎22、第二翻譯引擎28、和第二語音合成引擎34的組合。

以這種方式，可以根據翻譯前語言和翻譯後語言的組合，使用語音辨識引擎22、翻譯引擎28、和語音合成引擎34的適當組合來執行語音翻譯。

引擎確定單元46可以僅基於翻譯前語言來確定第一語音辨識引擎22或第二語音辨識引擎22。

這裡，分析單元44可以分析由語音資料接收單元20接收的分析目標資料中包括的翻譯前語音資料，以指定由翻譯前語音資料表示的語音的語言。然後引擎確定單元46可以基於由分析單元44指定的語言來確定語音辨識引擎22和翻譯引擎28中的至少一個。

引擎確定單元46可以基於例如當語音輸入時翻譯終端12的位置來確定語音辨識引擎22、翻譯引擎28、和語音合成引擎34中的至少一個。這裡，例如，可以基於翻譯終端12所在的國家來確定語音辨識引擎22、翻譯引擎28、和語音合成引擎34中的至少一個。例如，當由引擎確定單元46確定的翻譯引擎28在翻譯終端12所在的國家中不可用時，執行翻譯處理的翻譯引擎28可以從剩餘的翻譯引擎28中確定。在這種情況下，例如，可以基於包括表示國家的國家資料的語言引擎對應管理資料來確定語音辨識引擎22、翻譯引擎28、和語音合成引擎34中的至少一個。

可以基於從翻譯終端12發送的分析目標資料的頭部的IP位址來指定翻譯終端12的位置。例如，如果翻譯終端12包括GPS模組，則翻譯終端12可以向伺服器10發送包括表示例如由GPS模組測量的緯度和經度的翻譯終端12的位置的資料作為元資料的分析目標資料。然後可以基於表示包括在元資料中的位置的資料來指定翻譯終端12的位置。

引擎確定單元46可以基於例如由分析單元44估計的主題或場景來確定執行翻譯處理的翻譯引擎28。這裡，引擎確定單元46可以基於例如包括在終端記錄資料中的主題資料的值或場景資料的值來確定執行翻譯處理的翻譯引擎28。在這種情況下，例如，可以基於包括表示主題的主題資料和表示場景的場景資料的屬性引擎對應管理資料來確定執行翻譯處理的翻譯引擎28。

例如，當第一說話者輸入語音時，引擎確定單元46可以基於第一說話者的屬性確定第一翻譯引擎28和第一語音合成引擎34的組合。

這裡，例如，引擎確定單元46可以基於在第7圖中示出的屬性引擎對應管理資料來確定第一翻譯引擎28和第一語音合成引擎34的組合。

第7圖示出了其中翻譯前語言是日語並且翻譯後語言是英語的屬性引擎對應管理資料的示例。如第7圖所示，屬性引擎對應管理資料包括年齡資料、性別資料、翻譯引擎ID、和語音合成引擎ID。可以在屬性引擎對應管理資料中預先設置用於再現例如說話者的年齡、世代、和性別的說話者的屬性的翻譯引擎28和語音合成引擎34的適當組合。屬性引擎對應管理資料可以預先儲存在對應管理資料儲存單元48中。

例如，可以預先指定能夠再現例如由年齡資料表示的年齡或世代和由性別資料表示的性別的講話者屬性的翻譯引擎28。或者，可以預先指定具有講話者屬性再現的最高準確度的翻譯引擎28的翻譯引擎ID。指定的翻譯引擎ID可以被設置為與屬性引擎對應管理資料中的年齡資料和性別資料相關聯的翻譯引擎ID。

例如，可以預先指定能夠再現例如由年齡資料所表示的年齡或世代和由性別資料所表示的性別的說話者屬性的語音合成引擎34。或者，可以預先指定具有講話者屬性再現的最高準確度的語音合成引擎34的語音合成引擎ID。指定的語音合成引擎ID可以被設置為與屬性引擎對應管理資料中的年齡資料和性別資料相關聯的語音合成引擎ID。

例如，假定當第一說話者輸入語音時，引擎確定單元46指定日語是翻譯前語言而英語是翻譯後語言。此外，假定引擎確定單元46基於分析單元44的分析結果來指定表示說話者的年齡或世代的值與表示說話者的性別的值的組合。在這種情況下，引擎確定單元46可以在第7圖中所示的屬性引擎對應管理資料的記錄中指定具有與指定的組合相同的年齡資料和性別資料的值的組合的記錄。引擎確定單元46可以指定包括在屬性引擎對應管理資料的指定記錄中的翻譯引擎ID和語音合成引擎ID的組合。

在第7圖中所示的屬性引擎對應管理資料的記錄中，引擎確定單元46可以指定具有與指定的組合相同的年齡資料和性別資料的值的組合的多個記錄。在這種情況下，例如，引擎確定單元46可以基於給定標準來指定包括在屬性引擎對應管理資料的任何一個記錄中的翻譯引擎ID和語音合成引擎ID的組合。

引擎確定單元46可以確定由包括在指定組合中的翻譯引擎ID所標識的翻譯引擎28作為第一翻譯引擎28。此外，引擎確定單元46可確定由包括在指定組合中的語音合成引擎ID所標識的語音合成引擎34作為第一語音合成引擎34。

引擎確定單元46可以基於第6圖中所示的語言引擎對應管理資料來指定語音辨識引擎ID、翻譯引擎ID、和語音合成引擎ID的多個組合。在這種情況下，引擎確定單元46可基於第7圖中所示的屬性引擎對應管理資料將指定的組合縮小範圍為一個組合。

在上面的例子中，基於第一說話者的年齡或世代和說話者的性別的組合進行確定，儘管第一翻譯引擎28和第一語音合成引擎34的組合可以基於第一說話者的其他屬性來確定。例如，表示說話者情緒的情緒資料的值可以被包括在屬性引擎對應管理資料中。引擎確定單元46可以基於例如由分析單元44估計的說話者的情緒和包括情緒資料的屬性引擎對應管理資料來確定第一翻譯引擎28和第一語音合成引擎34的組合。

類似地，當第二說話者輸入語音時，引擎確定單元46可基於第二說話者的屬性確定第二翻譯引擎28和第二語音合成引擎34的組合。

如所描述的，與第一說話者的性別和年齡相對應的語音被輸出到第二說話者。此外，與第二說話者的性別和年齡相對應的語音被輸出到第一說話者。以這種方式，可以根據說話者的例如說話者的年齡或世代、性別和情緒的屬性，利用翻譯引擎28和語音合成引擎34的適當組合來執行語音翻譯。

引擎確定單元46可以基於第一說話者的屬性來確定第一翻譯引擎28和第一語音合成引擎34中的一個。引擎確定單元46可以基於第二說話者的屬性來確定第二翻譯引擎28和第二語音合成引擎34中的一個。

引擎確定單元46可以基於儲存在記錄資料儲存單元42中的終端記錄資料來確定語音辨識引擎22、翻譯引擎28、和語音合成引擎34的組合。

例如，當第一說話者輸入語音時，引擎確定單元46可以基於其中說話者ID的值為1的終端記錄資料的年齡資料、性別資料、和情緒資料，估計第一說話者的屬性，例如年齡、世代、性別、和情緒。基於估計的結果，可以確定第一翻譯引擎28和第一語音合成引擎34的組合。在這種情況下，可以以從具有最新時間資料的記錄起的順序，基於預定數量的終端記錄資料的記錄來估計第一說話者的屬性，例如年齡或世代、性別和情緒。在這種情況下，根據第一說話者的性別和年齡的語音被輸出至第二說話者。

當第二說話者輸入語音時，引擎確定單元46可以基於其中說話者ID的值為1的終端記錄資料的年齡資料、性別資料、和情感資料估計第一說話者的屬性，例如年齡或世代、性別、和情緒。引擎確定單元46可以基於估計的結果確定第二翻譯引擎28和第二語音合成引擎34的組合。在這種情況下，回應於第二說話者輸入語音，語音合成單元36根據第一說話者的例如年齡或世代、性別、和情緒的屬性合成語音。在這種情況下，可以以從具有最新時間資料的記錄起的順序，基於預定數量的終端記錄資料的記錄來估計第二說話者的例如性別和年齡的屬性。

以這種方式，回應於第二說話者的語音輸入操作，根據作為第二說話者的會話夥伴的第一說話者的例如年齡或世代、性別、情緒的屬性的語音被輸出到第一說話者。

例如，假設第一說話者是說英語的女孩，第二說話者是說日語的成年男性。在這種情況下，對於第一說話者而言，如果將女孩而不是成年男性的聲音類型和音調的語音輸出到第一說話者，可能是期望的。例如，在這種情況下，如果其中合成包括女孩可能知道的相對簡單的文字的文本的語音被輸出到第一說話者，那麼可能是期望的。例如，在上述情況下，回應於第二說話者的語音輸入操作，根據第一說話者的例如年齡或世代、性別、和情緒的屬性向第一說話者輸出語音會更加有效。

引擎確定單元46可以基於終端記錄資料和分析單元44的分析結果的組合來確定語音辨識引擎22、翻譯引擎28、和語音合成引擎34的組合。

當第一說話者輸入語音時，引擎確定單元46可以基於第一說話者的語音輸入速度來確定第一翻譯引擎28和第一語音合成引擎34中的至少一個。當第一說話者輸入語音時，引擎確定單元46可以基於第一說話者的語音的音量來確定第一翻譯引擎28和第一語音合成引擎34中的至少一個。當第一說話者輸入語音時，引擎確定單元46可以基於第一說話者的語音的聲音類型或音調來確定第一翻譯引擎28和第一語音合成引擎34中的至少一個。在這方面，可以基於例如分析單元44的分析結果或者具有1作為說話者ID的值的終端記錄資料來確定第一說話者的語音的輸入速度、音量、聲音類型、和音調。

當第一說話者輸入語音時，語音合成單元36可以以根據第一說話者的語音的輸入速度的速度合成語音。例如，語音合成單元36可合成透過採用等於或多倍於第一說話者的語音輸入時間的時間段輸出的語音。這樣，根據第一說話者的語音的輸入速度的語音被輸出到第二說話者。

當第一說話者輸入語音時，語音合成單元36可以以根據第一說話者的語音的音量合成語音。例如，可以合成第一說話者的語音的相同或預定倍數音量的語音。這使得能夠以根據第一說話者的語音的音量向第二說話者輸出語音。

當第一說話者輸入語音時，語音合成單元36可以合成具有根據第一說話者的聲音類型或音調的聲音類型或音調的語音。在此，例如，可以合成具有與第一說話者的語音相同的聲音類型或音調的語音。例如，可以合成具有與第一說話者的語音相同的頻譜的語音。這樣，具有根據第一說話者的語音的聲音類型或音調的聲音類型或音調的語音被輸出到第二說話者。

當第二說話者輸入語音時，引擎確定單元46可以基於第一說話者的語音的輸入速度來確定第二翻譯引擎28和第二語音合成引擎34中的至少一個。當第二說話者輸入語音時，引擎確定單元46可以基於第一說話者的語音的音量來確定第二翻譯引擎28和第二語音合成引擎34中的至少一個。這裡，可以基於例如具有1作為說話者ID的值的終端記錄資料來確定第一說話者語音的輸入速度或音量。

當第二說話者輸入語音時，語音合成單元36可以以根據第一說話者的語音的輸入速度的音量合成語音。在這方面，例如，語音合成單元36可以合成透過採用等於或多倍於第一說話者的語音輸入時間的時間段輸出的語音。

以這種方式，回應於第二說話者的語音輸入操作，不管第二說話者的語音的輸入速度，根據作為第二說話者的會話夥伴的第一說話者的語音的輸入速度的語音被輸出到第一說話者。換句話說，第一說話者能夠以根據第一說話者自己的語音的速度聽到語音。

當第二說話者輸入語音時，語音合成單元36可以以根據第一說話者的語音的音量合成語音。這裡，例如，可以合成與第一說話者的語音的相同或預定倍數音量的語音。

以這種方式，回應於第二說話者的語音輸入操作，不管第二說話者的語音的音量，根據作為第二說話者的會話夥伴的第一說話者的語音的音量的語音被輸出到第一說話者。換句話說，第一說話者可以以根據第一說話者自己的語音的音量聽到語音。

當第二說話者輸入語音時，語音合成單元36可以合成具有根據第一說話者的語音的聲音類型或音調的聲音類型或音調的語音。這裡，例如，可以合成具有與第一說話者的語音相同的聲音類型或音調的語音。例如，可以合成具有與第一說話者的語音相同的頻譜的語音。

這樣，回應於第二說話者的語音輸入操作，不管第二說話者的語音的聲音類型或音調，根據作為第二說話者的會話夥伴的第一說話者的聲音類型或音調的聲音類型或音調的語音被輸出到第一說話者。換句話說，第一說話者能夠聽到具有根據第一說話者自己的語音的聲音類型或音調的聲音類型或音調的語音。

回應於第二說話者的語音輸入操作，翻譯單元30可以確定用於語音辨識單元24所生成的文本中包括的翻譯目標詞的多個翻譯候選。翻譯單元30可以檢查確定的每個翻譯候選，以查看是否存在包含在回應於第一說話者的語音輸入操作而生成的文本中的詞。這裡，例如，翻譯單元30可以檢查確定的每個翻譯候選，以查看是否存在包含在具有1作為說話者ID值的終端記錄資料中的翻譯前文本資料或翻譯後的文本資料所表示的文本中的詞。翻譯單元30可以將翻譯目標詞翻譯成被確定為包括在回應於第一說話者的語音輸入操作而生成的文本中的詞。

以這種方式，由第二說話者的會話夥伴的第一說話者在最近的會話中語音輸入的一個詞被語音輸出，因此會話可以順利進行而不會不自然。

翻譯單元30可以基於由分析單元44估計的主題或場景來確定是否使用技術術語字典來執行翻譯處理。

在以上描述中，第一語音辨識引擎22、第一翻譯引擎28、第一語音合成引擎34、第二語音辨識引擎22、第二翻譯引擎28、和第二語音合成引擎34不一定一對一地對應於軟體模組。例如，第一語音辨識引擎22、第一翻譯引擎28、和第一語音合成引擎34中的一些可以由單個軟體模組來實現。此外，例如，第一翻譯引擎28和第二翻譯引擎28可以由單個軟體模組來實現。

以下，參照第8圖中的流程圖，將描述當第一說話者輸入語音時在根據本實施例的伺服器10中執行的處理的示例。

語音資料接收單元20從翻譯終端12接收分析目標資料（S101）。

隨後，分析單元44對在S101中接收到的分析目標資料中包括的翻譯前語音資料執行分析處理（S102）。

引擎確定單元46基於例如終端記錄資料或者如在S102中描述的執行分析處理的結果來確定第一語音辨識引擎22、第一翻譯引擎28、和第一語音合成引擎34的組合（S103）。

然後，語音辨識單元24執行由在S103中確定的第一語音辨識引擎22實現的語音辨識處理，以生成表示作為由包括在S101中接收到的分析物件資料中的翻譯前語音資料表示的語音的識別結果的文本的翻譯前文本資料（S104）。

翻譯前文本資料發送單元26將在S104中生成的翻譯前文本資料發送到翻譯終端12（S105）。這樣發送的翻譯前文本資料被顯示在翻譯終端12的顯示部12e上。

翻譯單元30執行由第一翻譯引擎28實現的翻譯處理，以生成表示透過將由在S104中生成的翻譯前文本資料所表示的文本翻譯成第二語言而獲得的文本的翻譯後文本資料（S106）。

語音合成單元36執行由第一語音合成引擎34實現的語音合成處理，以合成表示由在S106中產生的翻譯後文本資料表示的文本的語音（S107）。

記錄資料生成單元40然後生成記錄資料並將生成的資料儲存在記錄資料儲存單元42中（S108）。這裡，例如，可以基於S101中接收到的分析目標資料中包括的元資料、S102中的處理中的分析結果、S104中生成的翻譯前文本資料、以及S106中生成的翻譯後文本資料來生成記錄資料。

然後，語音資料發送單元38將表示在S107中合成的語音的翻譯後語音資料發送到翻譯終端12，並且翻譯後文本資料發送單元32將在S106中生成的翻譯後文本資料發送到翻譯終端12（S109）。這樣發送的翻譯後文本資料被顯示在翻譯終端12的顯示部12e上。此外，表示由此發送的翻譯後語音資料的語音從翻譯終端12的揚聲器12g被語音輸出。本例中描述的處理過程終止。

當第二說話者輸入語音時，在根據本實施例的伺服器10中也執行與在第8圖中的流程圖中表示的處理類似的處理。然而，在這種情況下，在S103的處理中確定第二語音辨識引擎22、第二翻譯引擎28、和第二語音合成引擎34的組合。此外，在S104中，執行由在S103中確定的第二語音辨識引擎22實現的語音辨識處理。此外，在S106中，執行由第二翻譯引擎28實現的翻譯處理。此外，在S107中，執行由第二語音合成引擎34實現的語音合成處理。

本發明不限於上述實施例。

例如，伺服器10的功能可以由單個伺服器來實現或由多個伺服器來實現。

例如，語音辨識引擎22、翻譯引擎28、和語音合成引擎34可以是由伺服器10以外的外部伺服器提供的服務。引擎確定單元46可以確定其中分別實現語音辨識引擎22、翻譯引擎28、和語音合成引擎34的一個或多個外部伺服器。例如，語音辨識單元24可以向由引擎確定單元46確定的外部伺服器發送請求，並從外部伺服器接收語音辨識處理的結果。此外，例如，翻譯單元30可以向由引擎確定單元46確定的外部伺服器發送請求，並且從外部伺服器接收翻譯處理的結果。此外，例如，語音合成單元36可以向由引擎確定單元46確定的外部伺服器發送請求，並且從外部伺服器接收語音合成處理的結果。這裡，例如，伺服器10可以調用上述服務的API。

例如，引擎確定單元46不需要基於如第6圖和第7圖所示的表來確定語音辨識引擎22、翻譯引擎28、和語音合成引擎34的組合。例如，引擎確定單元46可以使用已學習的機器學習模型來確定語音辨識引擎22、翻譯引擎28、和語音合成引擎34的組合。

應該注意的是，上述特定字串和數值以及附圖中示出的特定字串和數值僅僅是示例，並且本發明不限於這些字串或數值。

1‧‧‧系統

10‧‧‧伺服器

10a、12a‧‧‧處理器

10b、12b‧‧‧儲存單元

10c、12c‧‧‧通信單元

12‧‧‧翻譯終端

12d、12da、12db、12dc、12dd、12de‧‧‧操作部

12e‧‧‧顯示部

12f‧‧‧麥克風

12g‧‧‧揚聲器

14‧‧‧電腦網路

16a‧‧‧第一語言顯示區域

16b‧‧‧第二語言顯示區域

18‧‧‧文本顯示區域

20‧‧‧語音資料接收單元

22‧‧‧語音辨識引擎

24‧‧‧語音辨識單元

26‧‧‧翻譯前文本資料發送單元

28‧‧‧翻譯引擎

30‧‧‧翻譯單元

32‧‧‧翻譯後文本資料發送單元

34‧‧‧語音合成引擎

36‧‧‧語音合成單元

38‧‧‧語音資料發送單元

40‧‧‧記錄資料生成單元

42‧‧‧記錄資料儲存單元

44‧‧‧分析單元

46‧‧‧引擎確定單元

48‧‧‧對應管理資料儲存單元

S101、S102、S130、S104、S105、S106、107、S108、S109‧‧‧步驟

第1圖繪示根據本發明的實施例的翻譯系統的整體配置的示例的圖。第2圖繪示根據本發明的實施例的翻譯終端的配置的示例的圖。第3圖繪示根據本發明的實施例的在伺服器中實現的功能的示例的功能框圖。第4A圖表示分析物件資料的示例的圖。第4B圖表示分析物件資料的示例的圖。第5A圖表示記錄資料的示例的圖。第5B圖表示記錄資料的示例的圖。第6圖表示語言引擎對應管理資料的示例的圖。第7圖表示屬性引擎對應管理資料的示例的圖。第8圖繪示根據本發明的實施例的在伺服器中執行的處理的示例的流程圖。

Claims

一種雙向語音翻譯系統，執行用於回應於由一第一說話者輸入一第一語言語音，透過將該第一語言語音翻譯成一第二語言來合成語音的處理、以及用於回應於一第二說話者輸入一第二語言語音，透過將該第二語言語音翻譯成一第一語言來合成語音的處理，該雙向語音翻譯系統包括：　　一第一確定單元，其基於該第一語言、該第一說話者輸入的該第一語言語音、該第二語言、和該第二說話者輸入的該第二語言語音中的至少一個，確定一第一語音辨識引擎、一第一翻譯引擎、和一第一語音合成引擎的一組合，該第一語音辨識引擎是多個語音辨識引擎中的一個，該第一翻譯引擎是多個翻譯引擎中的一個，該第一語音合成引擎是多個語音合成引擎中的一個；　　一第一語音辨識單元，其回應於由該第一說話者輸入該第一語言語音，執行由該第一語音辨識引擎實現的語音辨識處理，以生成作為該第一語言語音的識別結果的一文本；　　一第一翻譯單元，其執行由該第一翻譯引擎實現的翻譯處理，以透過將由該第一語音辨識單元生成的該文本翻譯成該第二語言來生成一文本；　　一第一語音合成單元，其執行由該第一語音合成引擎實現的語音合成處理，以合成表示由該第一翻譯單元翻譯的該文本的語音；　　一第二確定單元，其基於該第一語言、該第一說話者輸入的該第一語言語音、該第二語言、和該第二說話者輸入的該第二語言語音中的至少一個，確定一第二語音辨識引擎、一第二翻譯引擎、和一第二語音合成引擎的一組合，該第二語音辨識引擎是該多個語音辨識引擎中的一個，該第二翻譯引擎是該多個翻譯引擎中的一個，該第二語音合成引擎是該多個語音合成引擎中的一個；　　一第二語音辨識單元，其回應於由該第二說話者輸入該第二語言語音，執行由該第二語音辨識引擎實現的語音辨識處理，以生成作為該第二語言語音的識別結果的一文本；　　一第二翻譯單元，其執行由該第二翻譯引擎實現的翻譯處理，以透過將由該第二語音辨識單元生成的該文本翻譯成該第一語言來生成一文本；以及　　一第二語音合成單元，其執行由該第二語音合成引擎實現的語音合成處理，以合成表示由該第二翻譯單元翻譯的該文本的語音。
如申請專利範圍第1項所述之雙向語音翻譯系統，其中，　　該第一語音合成單元根據基於由該第一說話者輸入的語音的特徵量估計的該第一說話者的年齡、世代、和性別中的至少一個來合成語音。
如申請專利範圍第1項或第2項所述之雙向語音翻譯系統，其中，　　該第一語音合成單元根據基於由該第一說話者輸入的語音的特徵量估計的該第一說話者的情緒來合成語音。
如申請專利範圍第1項所述之雙向語音翻譯系統，其中，　　該第二語音合成單元根據基於由該第一說話者輸入的語音的特徵量估計的該第一說話者的年齡、世代、和性別中的至少一個來合成語音。
如申請專利範圍第1項至第4項之任一項所述之雙向語音翻譯系統，其中，　　該第二翻譯單元：　　確定包括在由該第二語音辨識單元生成的該文本中的一翻譯目標詞的多個翻譯候選，　　檢查該多個翻譯候選以查看每個該翻譯候選是否被包括在由該第一翻譯單元生成的該文本中，以及　　將該翻譯目標詞翻譯成被確定為包括在由該第一翻譯單元生成的該文本中的詞。
如申請專利範圍第1項至第5項之任一項所述之雙向語音翻譯系統，其中，　　該第一語音合成單元合成具有根據該第一說話者的該第一語言語音的輸入速度的語音，或具有根據該第一說話者的該第一語言語音的音量的語音。
如申請專利範圍第1項至第5項之任一項所述之雙向語音翻譯系統，其中，　　該第二語音合成單元合成具有根據該第一說話者的該第一語言語音的輸入速度的語音，或具有根據該第一說話者的該第一語言語音的音量的語音。
如申請專利範圍第1項至第7項之任一項所述之雙向語音翻譯系統，包括一終端，該終端接收由該第一說話者進行的第一語言語音的輸入，輸出透過將該第一語言語音翻譯成該第二語言獲得的語音，接收由該第二說話者進行的第二語言語音的輸入，並輸出透過將該第二語言語音翻譯成該第一語言獲得的語音，其中，　　該第一確定單元基於該終端的位置確定該第一語音辨識引擎、該第一翻譯引擎、和該第一語音合成引擎的該組合，以及　　該第二確定單元基於該終端的位置確定該第二語音辨識引擎、該第二翻譯引擎、和該第二語音合成引擎的該組合。
一種雙向語音翻譯方法，執行用於回應於由一第一說話者輸入一第一語言語音，透過將該第一語言語音翻譯成第二語言來合成語音的處理、以及用於回應於由一第二說話者輸入一第二語言語音，透過將該第二語言語音翻譯成一第一語言來合成語音的處理，該雙向語音翻譯方法包括：　　一第一確定步驟，其基於該第一語言、該第一說話者輸入的該第一語言語音、該第二語言、和該第二說話者輸入的該第二語言語音中的至少一個，確定一第一語音辨識引擎、一第一翻譯引擎、和一第一語音合成引擎的一組合，該第一語音辨識引擎是多個語音辨識引擎中的一個，該第一翻譯引擎是多個翻譯引擎中的一個，該第一語音合成引擎是多個語音合成引擎中的一個；　　一第一語音辨識步驟，其回應於由該第一說話者輸入該第一語言語音，執行由該第一語音辨識引擎實現的語音辨識處理，以生成作為該第一語言語音的識別結果的一文本；　　一第一翻譯步驟，其執行由該第一翻譯引擎實現的翻譯處理，以透過將在該第一語音辨識步驟中生成的該文本翻譯成該第二語言來生成一文本；　　一第一語音合成步驟，其執行由該第一語音合成引擎實現的語音合成處理，以合成表示在該第一翻譯步驟中翻譯的該文本的語音；　　一第二確定步驟，其基於該第一語言、該第一說話者輸入的該第一語言語音、該第二語言、和該第二說話者輸入的該第二語言語音中的至少一個，確定一第二語音辨識引擎、一第二翻譯引擎、和一第二語音合成引擎的一組合，該第二語音辨識引擎是該多個語音辨識引擎中的一個，該第二翻譯引擎是該多個翻譯引擎中的一個，該第二語音合成引擎是該多個語音合成引擎中的一個；　　一第二語音辨識步驟，其回應於由該第二說話者輸入該第二語言語音，執行由該第二語音辨識引擎實現的語音辨識處理，以生成作為該第二語言語音的識別結果的一文本；　　一第二翻譯步驟，其執行由該第二翻譯引擎實現的翻譯處理，以透過將在該第二語音辨識步驟中生成的該文本翻譯成該第一語言來生成一文本；以及　　一第二語音合成步驟，其執行由該第二語音合成引擎實現的語音合成處理，以合成表示在該第二翻譯步驟中翻譯的該文本的語音。
一種程式，使一電腦執行用於回應於由一第一說話者輸入一第一語言語音，透過將該第一語言語音翻譯成一第二語言來合成語音的處理、以及用於回應於一第二說話者輸入一第二語言語音，透過將該第二語言語音翻譯成一第一語言來合成語音的處理，該電腦執行：　　一第一確定處理，其基於該第一語言、該第一說話者輸入的該第一語言語音、該第二語言、和該第二說話者輸入的該第二語言語音中的至少一個，確定一第一語音辨識引擎、一第一翻譯引擎、和一第一語音合成引擎的一組合，該第一語音辨識引擎是多個語音辨識引擎中的一個，該第一翻譯引擎是多個翻譯引擎中的一個，該第一語音合成引擎是多個語音合成引擎中的一個；　　一第一語音辨識處理，其回應於由該第一說話者輸入該第一語言語音，執行由該第一語音辨識引擎實現的語音辨識處理，以生成作為該第一語言語音的識別結果的一文本；　　一第一翻譯處理，其執行由該第一翻譯引擎實現的翻譯處理，以透過將在該第一語音辨識處理中生成的該文本翻譯成該第二語言來生成一文本；　　一第一語音合成處理，其執行由該第一語音合成引擎實現的語音合成處理，以合成表示在該第一翻譯處理中翻譯的該文本的語音；　　一第二確定處理，其基於該第一語言、該第一說話者輸入的該第一語言語音、該第二語言、和該第二說話者輸入的該第二語言語音中的至少一個，確定一第二語音辨識引擎、一第二翻譯引擎、和一第二語音合成引擎的一組合，該第二語音辨識引擎是該多個語音辨識引擎中的一個，該第二翻譯引擎是該多個翻譯引擎中的一個，該第二語音合成引擎是該多個語音合成引擎中的一個；　　一第二語音辨識處理，其回應於由該第二說話者輸入該第二語言語音，執行由該第二語音辨識引擎實現的語音辨識處理，以生成作為該第二語言語音的識別結果的一文本；　　一第二翻譯處理，其執行由該第二翻譯引擎實現的翻譯處理，以透過將在該第二語音辨識處理中生成的該文本翻譯成該第一語言來生成一文本；以及　　一第二語音合成處理，其執行由該第二語音合成引擎實現的語音合成處理，以合成表示在該第二翻譯處理中翻譯的該文本的語音。