WO2017086434A1 - 音声翻訳プログラム、音声翻訳装置、及びその制御方法 - Google Patents

音声翻訳プログラム、音声翻訳装置、及びその制御方法 Download PDF

Info

Publication number
WO2017086434A1
WO2017086434A1 PCT/JP2016/084250 JP2016084250W WO2017086434A1 WO 2017086434 A1 WO2017086434 A1 WO 2017086434A1 JP 2016084250 W JP2016084250 W JP 2016084250W WO 2017086434 A1 WO2017086434 A1 WO 2017086434A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
text
voice
input
unit
Prior art date
Application number
PCT/JP2016/084250
Other languages
English (en)
French (fr)
Inventor
知高 大越
諒俊 武藤
Original Assignee
株式会社リクルートライフスタイル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社リクルートライフスタイル filed Critical 株式会社リクルートライフスタイル
Publication of WO2017086434A1 publication Critical patent/WO2017086434A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • This disclosure relates to a speech translation program, a speech translation device, and a control method thereof.
  • a speech translation technique has been proposed in which the text content is machine-translated into the language of the other party and displayed on the screen, or the text content is played back using speech synthesis technology (for example, a patent). Reference 1).
  • a speech translation application that operates on an information terminal such as a smartphone that embodies such speech translation technology has been put into practical use (see, for example, Non-Patent Document 1).
  • 9A to 9D are plan views in which an example of display screen transition in the information terminal is reconstructed based on the contents described in Non-Patent Document 1.
  • FIG. 9A shows a standby screen for voice input in, for example, Japanese and English.
  • the selection button 91 is tapped, a plurality of languages are displayed, and two appropriate languages can be selected, and one of the language switching buttons 92 and 92 representing the national flag can be tapped. Can switch the input language.
  • FIG. 9A shows a state where the input language is Japanese and the translation language is English.
  • the microphone button 93 is tapped on the standby screen, a design of the microphone and a level display of the input volume are displayed, and a voice input screen for accepting the utterance content is displayed (FIG. 9B).
  • the flag button 92 is now displayed.
  • the content of the response spoken in English by the conversation partner (respondent) can be communicated to the questioner in Japanese by the same steps as in FIGS.
  • a re-input button 98 for the user (questioner) to redo the utterance.
  • a request button 99 for allowing the conversation partner (respondent) not to understand the translated content and for allowing the user to rephrase the content, and a repeat playback button 100 for the user or the conversation partner to replay the sound are also displayed. Is done.
  • the voice input by the user (questioner) and the voice output of the translation result, the voice input by the partner (answerer) and the voice output of the translation result, and the conversation between them It can be performed. Further, since the translation result is also output as text, the conversation partner (respondent) can understand the question items of the user (questioner) by checking the text.
  • the present disclosure has been made in view of such circumstances, and a speech translation program and a speech translation apparatus capable of realizing a smooth conversation between both persons even if they are conversations between people who cannot understand each other's languages And a control method thereof.
  • a speech translation program includes a speech input unit capable of inputting speech in at least two languages, and a speech recognition unit that recognizes contents input to the speech input unit
  • a translation unit that translates the content recognized by the voice recognition unit into content in a different language
  • a voice output unit that outputs the content translated by the translation unit
  • a text of the input content and a translated content It functions as a text display unit that displays text in different directions on the screen of the computer.
  • the speech translation program provides an information terminal (computer) used by a user, a speech input unit capable of inputting speech in the first language and the second language, and the input first language
  • a speech recognition unit that recognizes the content of the first language
  • a translation unit that translates the content of the first language into the content of the second language
  • a voice output unit that outputs the content of the second language by voice
  • the translated text of the second language are displayed on the computer screen in a different direction from each other.
  • the text display unit displays the input content text (in the first language) and the translated text (in the second language) on the computer screen in opposite directions. It may be configured.
  • a computer an information terminal used by the user
  • a detection unit that detects the direction of the screen, and the detection unit detects that the text display unit is in a predetermined range vertically above.
  • the input text of the first language and the translated text of the second language may be displayed in different directions on the screen.
  • a user of a computer as a questioner speaks a first language and a respondent as a conversation partner speaks a second language as a conversation between people who cannot understand each other's language.
  • the following can be exemplified as a more specific configuration. That is, the user holds the information terminal in his / her hand, inputs the first language voice with the screen facing his / her (user) side, and keeps the information terminal forward (conversation partner) in that state.
  • the translated text of the second language is displayed on the other side so that the text of the first language input (speech input) faces the user when the screen is turned vertically upward.
  • the speech translation program configures a display screen (user interface).
  • a speech translation apparatus is recognized by a speech input unit that can input speech in at least two languages, a speech recognition unit that recognizes contents input to the speech input unit, and a speech recognition unit
  • the translation unit that translates the translated content into the content of a different language
  • the voice output unit that outputs the content translated by the translation unit by voice
  • the input content text and the translated content text are different from each other on the screen
  • a text display unit for displaying in a direction.
  • a method for controlling a speech translation apparatus including a speech input unit capable of inputting speech in at least two languages, a speech recognition unit, a translation unit, a speech output unit, and a text display unit
  • the content input to the voice input unit is recognized by the unit, the content recognized by the voice recognition unit is translated into the content of a different language by the translation unit, and the content translated by the translation unit is voiced by the voice output unit.
  • the text display unit displays the input content text and the translated content text in different directions on the screen.
  • the content of the voice input by the questioner can be translated and output by voice to be communicated to the respondent.
  • the text of the input content and the text of the translated content are displayed in different directions on the screen of the computer (information terminal), there is no need to change the orientation of the computer screen each time it is confirmed. It is possible to realize a smooth conversation between the two. As a result, the reliability of the translation process is enhanced, the translation process is intensively performed, and power saving can be achieved.
  • FIG. 1 is a system block diagram schematically illustrating a preferred embodiment of a speech translation apparatus according to the present disclosure. It is a system block diagram showing roughly an example of network composition containing a speech translation device by this indication. It is a flowchart which shows an example of the flow (a part) of the process in the speech translation apparatus by this indication.
  • or (D) are top views which show an example of the transition of the display screen in the speech translation apparatus by this indication.
  • or (D) are top views which show an example of the transition of the display screen in the speech translation apparatus by this indication.
  • or (C) are top views which show another example of the transition of the display screen in the speech translation apparatus by this indication.
  • or (C) are top views which show another example of the transition of the display screen in the speech translation apparatus by this indication.
  • (A) And (B) is a schematic diagram which shows an example of the use condition of the information terminal 10 in conversation.
  • or (D) is a top view which shows an example of the transition of the display screen in the conventional speech translation apparatus.
  • FIG. 1 is a system block diagram schematically illustrating a preferred embodiment of a speech translation apparatus according to the present disclosure.
  • the information terminal 10 in this embodiment employs a user interface such as a touch panel and a display with high visibility, for example.
  • the information terminal 10 here is a portable tablet terminal device including a mobile phone represented by a smartphone having a communication function with a network.
  • the information terminal 10 further includes a processor 11, a storage resource 12, a voice input / output device 13, a communication interface 14, an input device 15, a display device 16, and a camera 17.
  • the information terminal 10 functions as a speech translation apparatus according to an embodiment of the present disclosure by operating installed speech translation application software (a speech translation program according to an embodiment of the present disclosure).
  • the processor 11 includes an arithmetic logic unit and various registers (program counter, data register, instruction register, general-purpose register, etc.). Further, the processor 11 interprets and executes speech translation application software, which is the program P10 stored in the storage resource 12, and performs various processes.
  • the information terminal 10 may be connected to the server device S through the network N.
  • the speech translation application software can be distributed from the server device S through the network N, for example. It may be installed and updated manually or automatically.
  • the network N includes, for example, a wired network (such as a short-range communication network (LAN), a wide area communication network (WAN), or a value-added communication network (VAN)) and a wireless network (mobile communication network, satellite communication network, Bluetooth ( Bluetooth (registered trademark), WiFi (Wireless Fidelity), HSDPA (High Speed Downlink Packet Access, etc.).
  • the storage resource 12 is a logical device provided by a storage area of a physical device (for example, a computer-readable recording medium such as a semiconductor memory), and an operating system program, a driver program, various data, etc. used for processing of the information terminal 10 Is stored.
  • Examples of the driver program include an input / output device driver program for controlling the audio input / output device 13, an input device driver program for controlling the input device 15, an output device driver program for controlling the display device 16, and the like. Can be mentioned.
  • the storage resource 12 may store a conversation corpus corresponding to the utterance contents of a user or a conversation partner described later.
  • the voice input / output device 13 is, for example, a general microphone and a sound player capable of reproducing sound data.
  • the communication interface 14 provides, for example, a connection interface with the server apparatus S, and includes a wireless communication interface and / or a wired communication interface.
  • the input device 15 provides an interface for accepting an input operation by a tap operation such as an icon, a button, or a virtual keyboard displayed on the display device 16, and is externally attached to the information terminal 10 in addition to the touch panel.
  • a tap operation such as an icon, a button, or a virtual keyboard displayed on the display device 16
  • Various input devices can be exemplified.
  • the display device 16 provides various information as an image display interface to the user and the other party of the conversation, and examples thereof include an organic EL display, a liquid crystal display, and a CRT display.
  • the camera 17 is for capturing still images and moving images of various subjects.
  • FIG. 3 is a flowchart illustrating an example of a process flow (part) in the information terminal 10 according to the first embodiment.
  • FIGS. 4A to 4D and FIGS. 5A to 5D are plan views illustrating examples of display screen transitions in the information terminal 10.
  • the conversation is a restaurant clerk who speaks Japanese
  • the conversation partner is a customer who speaks English
  • the input language is Japanese
  • the translation language is English.
  • a conversation but not limited to this).
  • one of Japanese and English corresponds to the “first language”
  • the other corresponds to the “second language”.
  • step SU1 when a user (clerk) taps an icon (not shown) of the speech translation application software displayed on the display device 16 of the information terminal 10 to start the application (step SU1), the display device 16
  • the customer language selection screen is displayed (FIG. 4A; step SJ1).
  • Japanese and English text T1 describing the customer's language selection and a plurality of typical languages (in this case, English, Chinese (for example, typeface)
  • a language button 41 indicating two types) and Korean) is displayed.
  • the home screen displays Japanese and An English voice input standby screen is displayed (FIG. 4B; step SJ2).
  • a text T2 for prompting the user to input voice a Japanese input button 42a for inputting Japanese voice
  • an English input button 42b for inputting English voice are displayed.
  • the standby screen also includes a return button 43 for returning to the language selection screen to switch the customer language (re-selecting the language), a history display button 44 for displaying the history of input contents, and the application software.
  • a setting button 45 for performing various settings is also displayed.
  • step SU2 when the user (clerk) taps the Japanese input button 42a and selects Japanese voice input (step SU2), the voice input screen is displayed for accepting the user's Japanese utterance content. (FIG. 4C; Step SJ3).
  • voice input from the voice input / output device 13 voice input unit and voice output unit
  • step SU3 when the user inputs a question to the customer in Japanese (step SU3), a waveform design 46 that schematically and dynamically represents the volume of the voice is displayed, and the voice input level is uttered. Is visually fed back to the user (step SJ4).
  • a stop button 47 is also displayed on this voice input screen, and by tapping this, it is possible to return to the voice input standby screen (FIG. 4B) as the home screen and perform voice input again.
  • the processor 11 of the information terminal 10 sequentially recognizes the input Japanese utterance contents as the voice input by the user progresses, and displays the recognition result as Japanese text T3 for typing. (Step SJ5).
  • the utterance content may be typed as it is, or from the Japanese conversation corpus stored in the storage resource 12 in advance, the one corresponding to the actual utterance content is called, You may display as typing as text T3.
  • the processor 11 is recognizing until the entire Japanese text T3 is displayed, and that the user is inputting speech or typing is being typed.
  • the English text T4 shown is also displayed on the voice input screen.
  • the processor 11 functions as a “voice recognition unit”.
  • the Japanese text T3 and the English text T4 are divided by the waveform design 46 on the screen of the display device 16 of the information terminal 10 by the processor 11 and the display device 16, and Are displayed in opposite directions (different directions; upside down in the figure).
  • the user confirms the Japanese text T3 (the text of the input content) if both can see the screen of the display device 16.
  • the customer can easily confirm the English text T4 (text indicating that the user is inputting voice or that the input content is being typed).
  • these texts T3 and T4 are displayed separately, there is an advantage that they can be clearly distinguished from each other.
  • the processor 11 and the display device 16 function as a “text display unit”.
  • the processor 11 detects that there is no voice input for a certain period, the processor 11 ends the reception of the utterance content by the user. And the processor 11 translates it into English based on the recognition result of the utterance content (Japanese) input by the user. As described above, the processor 11 also functions as a “translation unit”. At this time, a standby screen including Japanese text T5 and English text T6 indicating that translation is in progress is displayed on the display device 16 (FIG. 4D; step SJ6). Note that the stop button 47 is also displayed on this standby screen, and by tapping it, it is possible to return to the voice input standby screen (FIG. 4B) as the home screen and perform voice input again.
  • the Japanese text T5 and the English text T6 are also reversed on the screen of the display device 16 of the information terminal 10, as shown in FIG.
  • the display is divided into directions (different directions; upside down in the figure).
  • the user and the customer are conversing with each other, the user can easily confirm the Japanese text T5 (display during translation) if both can see the screen of the display device 16.
  • the customer can easily confirm the English text T4 (display during translation).
  • a conversation screen including the text T7 of the Japanese content input by the user, the text T8 of the corresponding Japanese conversation corpus, and the text T9 of the English conversation corpus that is the translation result is displayed.
  • the contents of the English text T9 (translated contents), which is the translation result are output (read aloud) by the voice input / output device 13 (step SJ7).
  • the Japanese input button 42a and the English input button 42b displayed in FIG. 4C are displayed again, and in addition, a text T10 indicating that the translation is finished at that time is also displayed.
  • the text T10 functions as a button. By tapping the text T10, the translation process can be terminated and the standby screen (FIG. 4B) that is the home screen can be returned.
  • the Japanese texts T7 and T8 and the English text are shown in FIG. T9 is also divided on the screen of the display device 16 of the information terminal 10 by the line segment design 48 and displayed in opposite directions (different directions; upside down in the drawing).
  • the user confirms the Japanese texts T7 and T8 (input contents) if both can see the screen of the display device 16.
  • the customer can easily confirm the English text T4 (translated content).
  • the texts T7, T8 and the text T9 are displayed separately, there is an advantage that they can be clearly distinguished and further confirmed.
  • step SU4 when the customer can understand the user's questions, the user or the customer selects the English voice input by tapping the English input button 42b on the conversation screen of FIG. 5A (step SU4). SK2; both are shown in FIG. 4), and this time, a voice input screen for receiving the English utterance content by the customer is displayed (FIG. 5B; step SJ8).
  • the processing after this is performed except that the speaker changes from the user to the customer, the Japanese voice input is switched to the English voice input, and the English voice and text output is replaced with the Japanese voice and text output. This is basically the same as the processing described in FIG.
  • step SJ9 when the customer inputs the answer items to the user's question items in English (step SK3), the waveform design 46 is displayed, and the voice input level is visually fed back to the customer who is the speaker (step). SJ9). Further, the processor 11 of the information terminal 10 sequentially recognizes the inputted English utterance contents with the progress of voice input by the customer, and displays the recognition result as English text T10 for typing (step SJ10). ). At this time, the utterance content may be typed as it is, or from the English conversation corpus stored in advance in the storage resource 12, the one corresponding to the actual utterance content is called and the English text T10 is read. May be displayed as if typing. At that time, until the entire English text T10 is displayed, it indicates that the processor 11 is recognizing it, and that the customer is inputting voice or the input content is being typed. Japanese text T11 is also displayed on the voice input screen.
  • the English text T10 and the Japanese text T11 are displayed on the screen of the display device 16 of the information terminal 10 as shown in FIG. 46 and displayed in opposite directions (different directions; upside down in the drawing).
  • the user and the customer are conversing with each other, if the user can see the screen of the display device 16, the user confirms the English text T10 (the text of the input content).
  • the user can easily confirm the Japanese text T11 (text indicating that the customer is inputting voice or the input content is being typed).
  • a conversation screen including the English contents inputted by the customer or the corresponding conversation corpus text T12 and the Japanese conversation corpus text T13 which is the translation result is displayed (FIG. 5D). )).
  • the content of the Japanese text T13 (translated content) as the translation result is output (read out) by the speech input / output device 13 (step SJ12).
  • the Japanese input button 42a and the English input button 42b are displayed again on the conversation screen, and in addition, a text T10 indicating that the translation is finished at that time is also displayed.
  • the user and the customer can repeat the conversation according to the procedure shown in FIGS. 4A to 5D, and after the conversation between the two ends, for example, the user moves to FIG. 5D.
  • the translation process is terminated (step SU5), and the screen can return to the standby screen (FIG. 4B) as the home screen.
  • FIGS. 6A to 6C and FIGS. 7A to 7C are plan views illustrating an example of display screen transition in the information terminal 10 of the second embodiment.
  • the customer language selection screen is displayed on the display device 16 (FIG. 6A; step SJ1).
  • This language selection screen includes a Japanese text T21 for inquiring the language to the customer, an English text T22 for that purpose, and a plurality of typical languages (again, English, Chinese (for example, typeface) 2), a language button 61 indicating Korean) is displayed.
  • the Japanese text T21 and the English text T22 are sent to the information terminal 10 by the processor 11 and the display device 16.
  • the display device 16 is divided by regions of different colors and displayed in mutually opposite directions (different directions; upside down in the drawing).
  • the home screen displays Japanese and A standby screen for English voice input is displayed (FIG. 6B; step SJ2).
  • the standby screen includes a text T23 asking which of the user's or customer's language is to be spoken, a Japanese input button 62a for inputting Japanese speech, and an English input button for inputting English speech. 62b is displayed.
  • the standby screen also includes a history display button 63 for displaying a history of input contents, a language selection button 64 for returning to the language selection screen and switching the customer language (reselecting the language), and the application software.
  • a setting button 65 for performing various settings is also displayed.
  • the voice input screen is displayed for accepting the user's Japanese utterance content.
  • FIG. 6C Step SJ3
  • voice input from the voice input / output device 13 voice input unit and voice output unit
  • a text T24 for prompting the user to input voice and a microphone design 66 indicating that the voice input is in a standby state are displayed.
  • the Japanese input button 42a is not displayed on the voice input screen of FIG. 6C in order to indicate that the Japanese voice input has been selected in FIG.
  • the input button 42b is displayed in a light color so that part of the input button 42b is hidden behind the microphone design 66 (the same applies to FIGS. 7A and 7B described later).
  • a cancel button 67 is also displayed on this voice input screen, and by tapping this, it is possible to return to the voice input standby screen (FIG. 6B) as the home screen and perform voice input again (see FIG. 6).
  • FIGS. 7A and 7B described later In this state, when the user inputs a message to be communicated to the customer in Japanese (step SU3), a multiple circular design 68 that schematically and dynamically represents the volume of the voice is displayed along with the text 24, The voice input level is visually fed back to the user who is the speaker (step SJ4).
  • the processor 11 displays the recognition result of the Japanese utterance content input by the user as the Japanese text T25 (step SJ5).
  • the content of the utterance may be displayed as it is, or from the Japanese conversation corpus stored in the storage resource 12 in advance, the one corresponding to the actual utterance content is called and the Japanese text T25 is called. May be displayed.
  • the processor 11 translates it into English based on the recognition result of the utterance content (Japanese).
  • the display device 16 displays Japanese text T26 indicating that translation is in progress and a circular design 69 indicating that translation is in progress.
  • the corresponding Japanese conversation corpus text T27 (here, but not limited to the text T25), and its A conversation screen including the English conversation corpus text T28, which is the translation result, is displayed (FIG. 5F).
  • the content of the English text T28 (translated content) as a translation result is output (read out) by the speech input / output device 13 (step SJ7).
  • the sound output can be repeated by tapping the sound output button 70 displayed at the same time.
  • a check button 71 indicating that the translation is finished at that time is displayed, and by tapping this, the translation processing is finished and the standby screen which is the home screen (FIG. 6B) You can return to
  • Japanese texts T25 and T27 and English text T28 are also displayed on the screen of the display device 16 of the information terminal 10 as shown in FIG. They are divided by different color areas and displayed in opposite directions (different directions; upside down in the figure).
  • the user confirms the Japanese texts T25 and T27 (input contents) if both can see the screen of the display device 16.
  • the customer can easily confirm the English text T28 (translated content).
  • the texts T25, T27 and the text T28 are displayed separately, there is an advantage that they can be clearly distinguished and further confirmed.
  • the speech translation device information terminal 10
  • the control method thereof configured as described above, when a user and a customer who cannot understand each other's language have a conversation, a user who is a questioner inputs You can translate the contents of Japanese speech into English and output the translation results in speech to inform customers who are respondents. Conversely, the contents of the English speech input by the customer can be translated into Japanese, and the translation result can be output by speech and communicated to the user.
  • FIGS. 8A and 8B are schematic diagrams illustrating an example of a usage state of the information terminal 10 in a conversation between a user and a customer in each of the above-described embodiments.
  • the speech translation application software further causes the information terminal 10 used by the user to function as a detection unit that detects the screen direction of the display device 16.
  • the user M1 when the user M1 performs voice input, the user M1 speaks with the screen of the information terminal 10 directed toward the user.
  • the English texts T4 and T6 shown in FIGS. 4C and 4D may be displayed in the same direction as the Japanese texts T3 and T5.
  • the user M1 holds the information terminal 10 and the display device 16 of the information terminal 10 Tilt forward so that the screen faces customer M2.
  • the processor 11 of the information terminal 10 detects that the screen is directed within a predetermined range vertically upward, and is then translated into the text T8 of the input content shown in FIG. 5A, for example.
  • the content text T9 is displayed in the reverse direction (different from each other), and the translated content text T28 is reverse (different from each other) with respect to the input content text T25 and T27 shown in FIG. Direction). Even in such a configuration, it is not necessary to change the orientation of the screen of the information terminal 10 every time the user M1 and the customer M2 check the text, so that a smooth conversation between them can be realized.
  • each of the above embodiments is an example for explaining the present disclosure, and the present disclosure is not limited to the embodiment.
  • the present disclosure can be variously modified without departing from the gist thereof.
  • those skilled in the art can replace the resources (hardware resources or software resources) described in the embodiments with equivalents, and such replacements are also included in the scope of the present disclosure.
  • the voice input level there is no need for feedback of the voice input level, and in this case, another appropriate display that can confirm the input voice level may be adopted. Furthermore, the contents inputted by the user and / or the customer by voice may be confirmed by voice output. Furthermore, instead of the text typing process, after the voice input is completed, the recognized text may be displayed as a whole.
  • the conversation corpus corresponding to the content input by voice may not be stored in the storage resource 12 of the information terminal 10, for example, every time the content input by voice is recognized and / or every time it is translated, the network An appropriate database may be searched via N, and the result may be transmitted to the information terminal 10 via the network N.
  • a gateway server or the like for converting a communication protocol between the information terminal 10 and the network N may be interposed.
  • the information terminal 10 is not limited to a portable device, and may be a desktop personal computer, a notebook personal computer, a tablet personal computer, a laptop personal computer, or the like.
  • the speech translation program recognizes a computer by a speech input unit that can input speech in at least two languages, a speech recognition unit that recognizes contents input to the speech input unit, and the speech recognition unit.
  • a translation unit that translates the content that has been translated into content in a different language, a voice output unit that outputs the content translated by the translation unit by voice, and the text of the input content and the text of the translated content
  • the text display unit functions as a text display unit that displays the screens in opposite directions on the computer screen, and the text display unit can view the text of the input content in the upper area of the screen and by the user who has input the voice. You may display in direction and the text of the translated content may be displayed in the lower area of the screen.
  • the voice input unit displays a design on the screen indicating that the voice is in a standby state before the voice is input, and when the voice is input, the voice input unit displays the voice.
  • the design representing the input level may be displayed on the screen, and the translation unit may display a design indicating that the recognized content is being translated into content in a different language on the screen.
  • the voice input unit displays on the screen a text indicating the voice input level together with a design indicating that the voice input is in a standby state and a design indicating the voice input level
  • the translation may display, on the screen, text indicating that the recognized content is being translated together with a design indicating that the recognized content is being translated into content in a different language.
  • the present disclosure it is not necessary to change the orientation of the screen of the computer (information terminal) every time the text is confirmed together with the speech translation, and it is possible to realize a smooth conversation.
  • the present invention can be widely used for activities such as design, manufacture, provision, and sales of programs, systems, and methods in the field of providing services related to mutual conversations.
  • Information terminal (computer, speech translation device) 11 processor (voice recognition unit, translation unit, text display unit) 12 Storage resources 13 Voice input / output device (voice input unit, voice output unit) 14 Communication interface 15 Input device 16 Display device (text display part) 17 Camera 41 Language button 42a Japanese input button 42b English input button 43 Return button 44 History display button 45 Setting button 46 Waveform design 47 Stop button 48 Line segment design 61 Language button 62a Japanese input button 62b English input button 63 History display button 64 Language selection button 65 Setting button 66 Microphone design 67 Cancel button 68 Multiple circular design 69 Circular design 70 Audio output button 71 Check button 90 Information terminal (conventional) 91 Select button 92 Flag button 92, 92 Language switch button 93 Microphone button 94 End button 95, 96, 97 Text 98 Re-input button 99 Request button 100 Repeat play button M1 User M2 Customer N Network P10 Program T1-T13, T21-T28 text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示による音声翻訳プログラムは、情報端末等のコンピュータを、少なくとも2種類の言語による音声を入力可能な音声入力部、音声入力部に入力された内容を認識する音声認識部、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、翻訳部で翻訳された内容を音声で出力する音声出力部、及び、入力された内容のテキスト及び翻訳された内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部として機能させるものである。

Description

音声翻訳プログラム、音声翻訳装置、及びその制御方法 関連出願の相互参照
 本出願は、2015年11月18日に出願された日本特許出願番号2015-225846に基づくもので、ここにその記載内容を援用する。
 本開示は、音声翻訳プログラム、音声翻訳装置、及びその制御方法に関する。
 互いの言語を理解できない人同士の会話、例えば店員(飲食店等の店舗の販売員)と顧客(海外からの観光客等)との会話を可能ならしめるべく、話者の発話音声をテキスト化し、そのテキストの内容を相手の言語に機械翻訳した上で画面に表示したり、或いは、音声合成技術を用いてそのテキストの内容を音声再生したりする音声翻訳技術が提案されている(例えば特許文献1参照)。また、かかる音声翻訳技術を具現化したスマートフォン等の情報端末で動作する音声翻訳アプリケーションも実用化されている(例えば非特許文献1参照)。
特開平9-34895号公報
U-STARコンソーシアムホームページ[平成27年11月16日検索]、インターネット<URL:http://www.ustar-consortium.com/app_ja/app.html>
 ここで、上記従来の音声翻訳アプリケーションソフトにおける処理の概略を、図9(A)乃至(D)を参照して以下に説明する。なお、図9(A)乃至(D)は、上記非特許文献1に記載された内容に基づいて、情報端末における表示画面の遷移の一例を再構成した平面図である。
 まず、情報端末90にインストールされている当該アプリケーションを起動すると、例えば日本語と英語の音声入力の待機画面が表示される(図9(A))。なお、この画面において、選択ボタン91をタップすると複数の言語が表示され、適宜の2種類の言語を選択することができ、また、国旗を表す言語切替ボタン92,92の何れかをタップすることにより入力言語を切り替えることができる。この図9(A)では、入力言語が日本語であり、翻訳言語が英語である状態を示す。この待機画面において、マイクボタン93をタップすると、マイクの図案と入力音量のレベル表示が表示され、発話内容を受け付ける音声入力画面となる(図9(B))。この状態で、ユーザ(質問者)が質問事項等を日本語で発話した後、終了ボタン94をタップすると、入力された発話内容の認識及び翻訳が行われるとともに、認識中の表示を含む待機画面が表示される(図9(C))。
 翻訳が完了すると、音声入力及びそれに対応する日本語の会話コーパスのテキスト95,96、及びその翻訳文である英語の会話コーパスのテキスト97の表示を含む会話画面が表示され、同時にテキスト97を読み上げる英語音声が出力される(図9(D))。なお、ここではテキスト95,96が同一の場合について例示したが、両者が異なる場合もあり得る。
 そして、英語の音声を聞いた回答者がその内容を理解することができた場合、或いは、音声が理解しづらくてもテキスト97を見て理解することができた場合、今度は、国旗ボタン92で英語入力に切り替え、図9(A)~(D)と同様のステップにより、会話の相手(回答者)が英語で発話した回答内容を日本語で質問者へ伝えることができる。また、会話画面(図9(D))には、音声入力の内容に対応するテキスト95,96が意図した内容と違う場合に、ユーザ(質問者)が発話をやり直すための再入力ボタン98、会話の相手(回答者)が翻訳された内容を理解できずユーザに内容を言い換えてもらうための要請ボタン99、及び、ユーザ又は会話の相手が音声を再度再生するためのリピート再生ボタン100も表示される。
 このとおり、従来の音声翻訳アプリケーションソフトによれば、ユーザ(質問者)による音声入力とその翻訳結果の音声出力と、相手(回答者)による音声入力とその翻訳結果の音声出力により、両者の会話を行うことができる。また、翻訳結果がテキストでも出力されるので、会話の相手(回答者)はそのテキストを確認することによっても、ユーザ(質問者)の質問事項を理解することができる。
 ここで、会話の状況によっては、話者が互いに対面している場面(例えば上述した店員と顧客との会話の場面等)が多々想定される。ところが、図9(D)に示すとおり、従来の音声翻訳アプリケーションソフトでは、音声入力及びその会話コーパスのテキスト95,96が画面上段に、翻訳結果の会話コーパスのテキスト97が画面下段に、同じ向きに表示される。そのため、会話の相手(回答者)がその翻訳結果のテキストを確認する場合、図9(D)に示す画面を逆さに見るよりも、自分の方に向けて見た方が確認し易い。また、相手(回答者)が発話する場合にも、図9(D)に示す画面を自分の方に向けた方が、感覚的に操作を行い易い。しかし、そうすると、会話の最中に情報端末の向きを頻繁に変える手間が生じてしまうので、円滑な会話を阻害してしまうおそれがある。
 そこで、本開示は、かかる事情に鑑みてなされたものであり、互いの言語を理解できない人同士の会話であっても、両者の円滑な会話を実現することができる音声翻訳プログラム、音声翻訳装置、及びその制御方法を提供することを目的とする。
 上記課題を解決するため、本開示の一態様による音声翻訳プログラムは、コンピュータを、少なくとも2種類の言語による音声を入力可能な音声入力部、音声入力部に入力された内容を認識する音声認識部、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、翻訳部で翻訳された内容を音声で出力する音声出力部、及び、入力された内容のテキスト及び翻訳された内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部として機能させるものである。
 換言すれば、本開示の一態様による音声翻訳プログラムは、ユーザが使用する情報端末(のコンピュータ)を、第1言語及び第2言語による音声を入力可能な音声入力部、入力された第1言語の内容を認識する音声認識部、第1言語の内容を第2言語の内容に翻訳する翻訳部、第2言語の内容を音声で出力する音声出力部、及び、入力された第1言語の内容のテキスト及び翻訳された第2言語の内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部として機能させるものである。
 より具体的には、テキスト表示部は、入力された(第1言語の)内容のテキストと翻訳された(第2言語の)内容のテキストを当該コンピュータの画面において互いに逆向きに表示するように構成してもよい。
 また、コンピュータ(ユーザが使用する情報端末等)を、画面の方向を検知する検知部として更に機能させ、テキスト表示部は、画面が鉛直上方の所定範囲内に向いたことを検知部が検知したときに、入力された(第1言語の)内容のテキスト及び翻訳された(第2言語の)内容のテキストを画面において互いに異なる向きに表示してもよい。
 ここで、互いの言語を理解できない人同士の会話として、質問者であるコンピュータ(情報端末)のユーザが第1言語を話し、会話の相手である回答者が第2言語を話す場合を想定すると、より具体的な構成として、以下を例示することができる。すなわち、ユーザが情報端末を手に持って、その画面を自分(ユーザ)側に向けた状態にして第1言語の音声を入力し、その状態のまま情報端末を前方(会話の相手側)に倒して画面を鉛直上方に向けたとき、入力された第1言語の内容のテキスト(音声入力)がユーザ側に向くように、翻訳された第2言語の内容のテキスト(翻訳結果)が相手側に向くように、音声翻訳プログラムが表示画面(ユーザインターフェイス)を構成する。
 さらに、テキスト表示部が、画面において、入力された(第1言語の)内容をテキスト表示する領域と翻訳された(第2言語の)内容をテキスト表示する領域とを区分けする構成例を挙げることができる。
 また、本開示の一態様による音声翻訳装置は、少なくとも2種類の言語による音声を入力可能な音声入力部と、音声入力部に入力された内容を認識する音声認識部と、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、翻訳部で翻訳された内容を音声で出力する音声出力部と、入力された内容のテキスト及び翻訳された内容のテキストを画面において互いに異なる向きに表示するテキスト表示部とを備える。
 また、本開示の一態様による少なくとも2種類の言語による音声を入力可能な音声入力部、音声認識部、翻訳部、音声出力部、及びテキスト表示部を備える音声翻訳装置の制御方法は、音声認識部により、音声入力部に入力された内容を認識し、翻訳部により、音声認識部で認識された内容を異なる言語の内容に翻訳し、音声出力部により、翻訳部で翻訳された内容を音声で出力し、テキスト表示部により、入力された内容のテキスト及び翻訳された内容のテキストを画面において互いに異なる向きに表示する。
 本開示によれば、互いの言語を理解できない人同士が会話をする際に、質問者が入力した音声の内容を翻訳し、音声で出力して回答者に伝えることができる。また、それだけでなく、入力された内容のテキスト及び翻訳された内容のテキストをコンピュータ(情報端末)の画面において互いに異なる向きに表示するので、その確認の都度コンピュータの画面の向きを変える必要がなく、両者の円滑な会話を実現することが可能となる。また、その結果、翻訳処理の信頼性が高まり、翻訳処理の集中的な処理を行い易く、省電力化を図ることができる。
本開示による音声翻訳装置の好適な一実施形態を概略的に示すシステムブロック図である。 本開示による音声翻訳装置を含むネットワーク構成の一例を概略的に示すシステムブロック図である。 本開示による音声翻訳装置における処理の流れ(一部)の一例を示すフローチャートである。 (A)乃至(D)は、本開示による音声翻訳装置における表示画面の遷移の一例を示す平面図である。 (A)乃至(D)は、本開示による音声翻訳装置における表示画面の遷移の一例を示す平面図である。 (A)乃至(C)は、本開示による音声翻訳装置における表示画面の遷移の他の一例を示す平面図である。 (A)乃至(C)は、本開示による音声翻訳装置における表示画面の遷移の他の一例を示す平面図である。 (A)及び(B)は、会話における情報端末10の使用状態の一例を示す模式図である。 (A)乃至(D)は、従来の音声翻訳装置における表示画面の遷移の一例を示す平面図である。
 以下、本開示の実施の形態について詳細に説明する。なお、以下の実施の形態は、本開示を説明するための例示であり、本開示をその実施の形態のみに限定する趣旨ではない。また、本開示は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本開示の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
図1は、本開示による音声翻訳装置の好適な一実施形態を概略的に示すシステムブロック図である。本実施形態における情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本開示の一実施形態による音声翻訳プログラム)が動作することにより、本開示の一実施形態による音声翻訳装置として機能するものである。
 プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。
 なお、情報端末10は、図2に示す如く、ネットワークNを介してサーバ装置Sに接続されてもよく、音声翻訳アプリケーションソフトは、例えばそのサーバ装置SからネットワークNを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。また、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth:登録商標)、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
 記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための出力デバイスドライバプログラム等が挙げられる。また、記憶資源12には、後述するユーザや会話の相手の発話内容に対応する会話コーパスが記憶されていてもよい。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
 通信インターフェイス14は、例えばサーバ装置Sとの接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
 表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザ及びその会話の相手方に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
 以上のとおり構成された情報端末10において、音声翻訳アプリケーションソフトを実行したときの操作及び動作手順の一例について、以下に更に説明する。
(第1実施形態)
 図3は、第1実施形態の情報端末10における処理の流れ(一部)の一例を示すフローチャートである。また、図4(A)乃至(D)及び図5(A)乃至(D)は、情報端末10における表示画面の遷移の一例を示す平面図である。ここでは、情報端末10のユーザが日本語を話す飲食店の店員であり、会話の相手が英語を話す顧客である場合の会話、すなわち、入力言語が日本語であり、翻訳言語が英語である会話を想定する(但し、これに限定されない)。このとおり、日本語及び英語の一方が「第1言語」に相当し、それらの他方が「第2言語」に相当する。
 まず、ユーザ(店員)が、情報端末10の表示デバイス16に表示されている音声翻訳アプリケーションソフトのアイコン(図示せず)をタップして当該アプリケーションを起動する(ステップSU1)と、表示デバイス16に、顧客の言語選択画面が表示される(図4(A);ステップSJ1)。この言語選択画面には、顧客の言語を選択する旨の説明を記した日本語と英語のテキストT1、及び、想定される複数の代表的な言語(ここでは、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン41が表示される。
 ユーザは、その言語選択画面のテキストT1の表示を顧客に提示し、顧客に英語(English)のボタンをタップしてもらい顧客の言語を選択する(ステップSK1)と、ホーム画面として、日本語と英語の音声入力の待機画面が表示される(図4(B);ステップSJ2)。この待機画面には、ユーザの音声入力を促すテキストT2、並びに、日本語の音声入力を行うための日本語入力ボタン42a及び英語の音声入力を行うための英語入力ボタン42bが表示される。また、この待機画面には、言語選択画面に戻って顧客の言語を切り替える(言語選択をやり直す)ための戻りボタン43、入力内容の履歴を表示するための履歴表示ボタン44、及び当該アプリケーションソフトの各種設定を行うための設定ボタン45も表示される。
 次に、この待機画面において、ユーザ(店員)が日本語入力ボタン42aをタップして日本語の音声入力を選択する(ステップSU2)と、ユーザの日本語による発話内容を受け付ける音声入力画面となる(図4(C);ステップSJ3)。この音声入力画面が表示されると、音声入出力デバイス13(音声入力部及び音声出力部)からの音声入力が可能な状態となる。
 この状態で、ユーザが顧客への質問事項等を日本語で音声入力する(ステップSU3)と、その声量の大小を模式的に且つ動的に表す波形図案46が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる(ステップSJ4)。なお、この音声入力画面には、停止ボタン47も表示され、これをタップすることにより、ホーム画面である音声入力の待機画面(図4(B))へ戻って音声入力をやり直すことができる。
 このとき、情報端末10のプロセッサ11は、ユーザによる音声入力の経過とともに、その入力された日本語の発話内容を順次認識し、その認識結果を、タイピングするように日本語のテキストT3として表示する(ステップSJ5)。このとき、発話内容をそのままタイピングするようにしてもよいし、予め記憶資源12に記憶されている日本語の会話コーパスのなかから、実際の発話内容に対応するものを呼び出し、それを日本語のテキストT3としてタイピングするように表示してもよい。その際、日本語のテキストT3の全体が表示されるまでの間、プロセッサ11がそれを認識中であること、及び、ユーザが音声入力中、又は、入力された内容がタイピング中であることを示す英語のテキストT4も音声入力画面に表示される。このように、プロセッサ11は、「音声認識部」として機能する。
 また、図4(C)に示す如く、日本語のテキストT3及び英語のテキストT4は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、波形図案46によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス16の画面を視認できる状態であれば、ユーザは日本語のテキストT3(入力された内容のテキスト)を確認し易い一方、顧客は、英語のテキストT4(ユーザが音声入力中、又は、入力された内容がタイピング中であることを示すテキスト)を確認し易くなる。また、それらのテキストT3,T4が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。このとおり、プロセッサ11及び表示デバイス16は、「テキスト表示部」として機能する。
 それから、ユーザによる発話が終了し、例えば音声入力が一定期間ないことをプロセッサ11が検知すると、プロセッサ11は、ユーザによる発話内容の受け付けを終了する。そして、プロセッサ11は、ユーザによって入力された発話内容(日本語)の認識結果に基づいて、それを英語に翻訳する。このとおり、プロセッサ11は、「翻訳部」としても機能する。このとき、表示デバイス16には、翻訳中であることを示す日本語のテキストT5及び英語のテキストT6を含む待機画面が表示される(図4(D);ステップSJ6)。なお、この待機画面においても、停止ボタン47が表示され、それをタップすることにより、ホーム画面である音声入力の待機画面(図4(B))へ戻って音声入力をやり直すことができる。
 また、図4(C)に示すテキストT3,T4と同様に、図4(D)の如く、日本語のテキストT5及び英語のテキストT6も、情報端末10の表示デバイス16の画面において、互いに逆向き(互いに異なる向き;図示において上下逆向き)に区分けして表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス16の画面を視認できる状態であれば、ユーザが日本語のテキストT5(翻訳中の表示)を確認し易い一方、顧客は、英語のテキストT4(翻訳中の表示)を確認し易くなる。
 翻訳が完了すると、ユーザによって入力された日本語の内容のテキストT7、それに対応する日本語の会話コーパスのテキストT8、及びその翻訳結果である英語の会話コーパスのテキストT9を含む会話画面が表示される(図5(A))。また、同時に、音声入出力デバイス13によって、翻訳結果である英語のテキストT9の内容(翻訳された内容)が音声出力される(読み上げられる)(ステップSJ7)。さらに、この会話画面には、図4(C)で表示された日本語入力ボタン42a及び英語入力ボタン42bが再び表示され、加えて、その時点で翻訳を終了する旨のテキストT10も表示される。なお、このテキストT10はボタンとして機能し、これをタップすることにより、翻訳処理を終了してホーム画面である待機画面(図4(B))に戻ることができる。
 また、図4(C)に示すテキストT3,T4、及び、図4(D)に示すテキストT5,T6と同様に、図5(A)の如く、日本語のテキストT7,T8と英語のテキストT9も、情報端末10の表示デバイス16の画面において、線分図案48によって区分けされ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス16の画面を視認できる状態であれば、ユーザが日本語のテキストT7,T8(入力された内容)を確認し易い一方、顧客は、英語のテキストT4(翻訳された内容)を確認し易くなる。また、テキストT7,T8とテキストT9が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。
 このとき、音声出力された翻訳結果の内容、及び/又は、翻訳された英語のテキストT4の内容が芳しくなかった場合(例えば顧客がその内容を理解することができなかった場合)、もう一度、日本語入力ボタン42aをタップすることにより、図5(A)の会話画面を再び図4(C)の音声入力画面に切り替えて、音声入力を再度行うことができる。
 次に、顧客がユーザの質問事項を理解することができた場合、ユーザ又は顧客が図5(A)の会話画面において英語入力ボタン42bをタップして英語の音声入力を選択する(ステップSU4,SK2;図4には両方図示した)と、今度は、顧客による英語の発話内容を受け付ける音声入力画面が表示される(図5(B);ステップSJ8)。この後の処理は、発話者がユーザから顧客に代わり、日本語の音声入力が英語の音声入力に切り替わり、且つ、英語の音声及びテキスト出力が日本語による音声及びテキスト出力に代わること以外は、図4(C)で説明した処理と基本的に同等である。
 すなわち、顧客がユーザの質問事項等に対する回答事項等を英語で音声入力する(ステップSK3)と、波形図案46が表示され、音声入力レベルが発話者である顧客へ視覚的にフィードバックされる(ステップSJ9)。また、情報端末10のプロセッサ11は、顧客による音声入力の経過とともに、その入力された英語の発話内容を順次認識し、その認識結果を、タイピングするように英語のテキストT10として表示する(ステップSJ10)。このとき、発話内容をそのままタイピングするようにしてもよいし、予め記憶資源12に記憶されている英語の会話コーパスのなかから、実際の発話内容に対応するものを呼び出し、それを英語のテキストT10としてタイピングするように表示してもよい。その際、英語のテキストT10の全体が表示されるまでの間、プロセッサ11がそれを認識中であること、及び、顧客が音声入力中、又は、入力された内容がタイピング中であることを示す日本語のテキストT11も音声入力画面に表示される。
 さらに、図4(C)に示すテキストT3,T4と同様に、図5(B)の如く、英語のテキストT10及び日本語のテキストT11は、情報端末10の表示デバイス16の画面において、波形図案46によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス16の画面を視認できる状態であれば、ユーザは英語のテキストT10(入力された内容のテキスト)を確認し易い一方、ユーザは、日本語のテキストT11(顧客が音声入力中、又は、入力された内容がタイピング中であることを示すテキスト)を確認し易くなる。
 それから、顧客による発話が終了し、例えば音声入力が一定期間ないことをプロセッサ11が検知すると、プロセッサ11は、顧客による発話内容の受け付けを終了する。そして、プロセッサ11は、顧客によって入力された発話内容(英語)の認識結果に基づいて、それを日本語に翻訳する。このとき、表示デバイス16には、翻訳中であることを示す日本語のテキストT5及び英語のテキストT6を含む待機画面が表示される(図5(C);ステップSJ11)。なお、画面表示として、図5(C)は図4(D)と同じであり、停止ボタン47をタップすることにより、ホーム画面(図4(B))に戻ることができ、また、日本語のテキストT5及び英語のテキストT6が、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。
 翻訳が完了すると、顧客によって入力された英語の内容又はそれに対応する会話コーパスのテキストT12、及びその翻訳結果である日本語の会話コーパスのテキストT13を含む会話画面が表示される(図5(D))。また、同時に、音声入出力デバイス13によって、翻訳結果である日本語のテキストT13の内容(翻訳された内容)が音声出力される(読み上げられる)(ステップSJ12)。さらに、この会話画面には、日本語入力ボタン42a及び英語入力ボタン42bが再び表示され、加えて、その時点で翻訳を終了する旨のテキストT10も表示される。
 このようにして、ユーザと顧客は、図4(A)から図5(D)に示す手順で会話を繰り返すことができ、両者の会話が終了した後、例えば、ユーザが図5(D)に示す画面において、ボタンとして機能するテキストT10をタップすることにより、翻訳処理を終了して(ステップSU5)、ホーム画面である待機画面(図4(B))に戻ることができる。
(第2実施形態)
 図6(A)乃至(C)及び図7(A)乃至(C)は、第2実施形態の情報端末10における表示画面の遷移の一例を示す平面図である。
 まず、ユーザ(店員)が当該アプリケーションを起動する(ステップSU1)と、表示デバイス16に、顧客の言語選択画面が表示される(図6(A);ステップSJ1)。この言語選択画面には、顧客に言語を尋ねる旨の日本語のテキストT21、その旨の英語のテキストT22、及び、想定される複数の代表的な言語(ここでも、英語、中国語(例えば書体により2種類)、ハングル語)を示す言語ボタン61が表示される。
 このとき、第1実施形態(図4(A))とは異なり、図5(A)に示す如く、日本語のテキストT21及び英語のテキストT22は、プロセッサ11及び表示デバイス16により、情報端末10の表示デバイス16の画面において、異なる色の領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、ユーザは日本語のテキストT21を確認し易い一方、顧客は、英語のテキストT22を確認し易くなる。また、テキストT21とテキストT22が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。
 ユーザは、その言語選択画面のテキストT1の表示を顧客に提示し、顧客に英語(English)のボタンをタップしてもらい顧客の言語を選択する(ステップSK1)と、ホーム画面として、日本語と英語の音声入力の待機画面が表示される(図6(B);ステップSJ2)。この待機画面には、ユーザと顧客の言語の何れを発話するかを問うテキストT23、並びに、日本語の音声入力を行うための日本語入力ボタン62a及び英語の音声入力を行うための英語入力ボタン62bが表示される。また、この待機画面には、入力内容の履歴を表示するための履歴表示ボタン63、言語選択画面に戻って顧客の言語を切り替える(言語選択をやり直す)ための言語選択ボタン64、及び当該アプリケーションソフトの各種設定を行うための設定ボタン65も表示される。
 次に、この待機画面において、ユーザ(店員)が日本語入力ボタン42aをタップして日本語の音声入力を選択する(ステップSU2)と、ユーザの日本語による発話内容を受け付ける音声入力画面となる(図6(C);ステップSJ3)。この音声入力画面が表示されると、音声入出力デバイス13(音声入力部及び音声出力部)からの音声入力が可能な状態となる。また、この音声入力画面には、ユーザの音声入力を促すテキストT24、及び、音声入力の待機状態であることを示すマイク図案66が表示される。なお、その前の画面である図5(B)において日本語音声入力が選択されたことを示すため、図6(C)の音声入力画面には、日本語入力ボタン42aが表示されない一方、英語入力ボタン42bがマイク図案66の背面に一部が隠れるように淡い色彩で表示される(後記の図7(A)及び図7(B)において同様)。
 また、この音声入力画面には、キャンセルボタン67も表示され、これをタップすることにより、ホーム画面である音声入力の待機画面(図6(B))へ戻って音声入力をやり直すことができる(後記の図7(A)及び図7(B)において同様)。この状態で、ユーザが顧客への伝達事項等を日本語で音声入力する(ステップSU3)と、テキスト24とともに、その声量の大小を模式的に且つ動的に表す多重円形図案68が表示され、音声入力レベルが発話者であるユーザへ視覚的にフィードバックされる(ステップSJ4)。
 それから、ユーザによる発話が終了し、例えば音声入力が一定期間ないことをプロセッサ11が検知すると、プロセッサ11は、ユーザによる発話内容の受け付けを終了する。そして、プロセッサ11は、ユーザによって入力された日本語の発話内容の認識結果を、日本語のテキストT25として表示する(ステップSJ5)。このとき、発話内容をそのまま表示してもよいし、予め記憶資源12に記憶されている日本語の会話コーパスのなかから、実際の発話内容に対応するものを呼び出し、それを日本語のテキストT25として表示してもよい。さらに、プロセッサ11は、その発話内容(日本語)の認識結果に基づいて、それを英語に翻訳する。このとき、表示デバイス16には、翻訳中であることを示す日本語のテキストT26、及び、翻訳中であることを示す円形図案69が表示される。
 翻訳が完了すると、ユーザによって入力された日本語の内容のテキストT25に加え、それに対応する日本語の会話コーパスのテキストT27(ここではテキストT25と同じであるが、これに限定されない)、及びその翻訳結果である英語の会話コーパスのテキストT28を含む会話画面が表示される(図5(F))。また、同時に、音声入出力デバイス13によって、翻訳結果である英語のテキストT28の内容(翻訳された内容)が音声出力される(読み上げられる)(ステップSJ7)。なお、同時に表示される音声出力ボタン70をタップすることにより、音声出力を繰り返すことができる。さらに、この会話画面には、その時点で翻訳を終了する旨のチェックボタン71が表示され、これをタップすることにより、翻訳処理を終了してホーム画面である待機画面(図6(B))に戻ることができる。
 また、図6(A)に示すテキストT21,T24と同様に、図7(C)の如く、日本語のテキストT25,T27と英語のテキストT28も、情報端末10の表示デバイス16の画面において、異なる色の領域によって区分けされ、且つ、互いに逆向き(互いに異なる向き;図示において上下逆向き)に表示される。これにより、ユーザと顧客が対面している状態で会話を行う場合、両者が表示デバイス16の画面を視認できる状態であれば、ユーザが日本語のテキストT25,T27(入力された内容)を確認し易い一方、顧客は、英語のテキストT28(翻訳された内容)を確認し易くなる。また、それらのテキストT25,T27とテキストT28が区分けして表示されるので、両者を明別して更に確認し易くなる利点がある。
 このように構成された音声翻訳プログラム、音声翻訳装置(情報端末10)及びその制御方法によれば、互いの言語を理解できないユーザと顧客が会話をする際に、質問者であるユーザが入力した日本語音声の内容を英語に翻訳し、その翻訳結果を音声で出力して回答者である顧客に伝えることができる。また、逆に、顧客が入力した英語音声の内容を日本語に翻訳し、その翻訳結果を音声で出力してユーザに伝えることができる。これらの音声翻訳処理により、両者の会話が可能となる。
 さらに、音声出力のみならず、互いの音声入力した内容とそれらの翻訳結果をテキストT8,T9,T12,T13(第1実施形態)やテキストT25,T27,T28(第2実施形態)でも表示することにより、相手の発話内容を確認することができる。さらに、その際、入力された内容のテキストT8,T12及び翻訳された内容のテキストT9,T13(第1実施形態)、並びに、入力された内容のテキストT25,T27及び翻訳された内容のテキストT28(第2実施形態)を、情報端末10の表示デバイス16の画面において互いに異なる向きに表示するので、その確認の都度、情報端末10の画面の向きを変える必要がなく、両者の円滑な会話を実現することが可能となる。
 ここで、図8(A)及び(B)は、上述した各実施形態におけるユーザと顧客の会話における情報端末10の使用状態の一例を示す模式図である。このとき、音声翻訳アプリケーションソフトは、ユーザが使用する情報端末10を、その表示デバイス16の画面の方向を検知する検知部として更に機能させる。
 この例では、図8(A)に示す如く、ユーザM1が音声入力をするときには、ユーザM1は情報端末10の画面を自分側に向けて発話する。このとき、例えば図4(C)及び(D)に示す英語のテキストT4,T6は、日本語のテキストT3,T5と同じ向きに表示されていてもよい。ユーザM1が音声入力を完了し、さらに、その認識及び翻訳処理が終了した後、図8(B)に示す如く、ユーザM1が情報端末10を手にしたまま、情報端末10の表示デバイス16の画面が顧客M2の方を向くように前方へ倒す。
 そうすると、情報端末10のプロセッサ11は、その画面が鉛直上方の所定範囲内に向いたことを検知し、それから、例えば図5(A)に示す入力された内容のテキストT8に対し、翻訳された内容のテキストT9を逆向き(互いに異なる向き)に表示し、また、図7(C)に示す入力された内容のテキストT25,T27に対し、翻訳された内容のテキストT28を逆向き(互いに異なる向き)に表示する。このように構成した場合でも、ユーザM1及び顧客M2が、テキストを確認する都度、情報端末10の画面の向きを変える必要がないので、両者の円滑な会話を実現することができる。
 なお、上述したとおり、上記の各実施形態は、本開示を説明するための一例であり、本開示をその実施形態に限定する趣旨ではない。また、本開示は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本開示の範囲に含まれる。
 また、音声入力レベルのフィードバックはなくてもよく、この場合、入力音声レベルを確認することができる他の適宜の表示を採用してもよい。さらに、ユーザ及び/又は顧客が音声入力した内容を、音声出力して確認することができるようにしてもよい。またさらに、テキストのタイピング処理に代えて、音声入力が完了した後に、それを認識したテキストを一括で全体表示してもよい。
 また、音声入力した内容に対応する会話コーパスは、情報端末10の記憶資源12に記憶されていなくてもよく、例えば、音声入力された内容の認識の都度、及び/又は、翻訳の都度、ネットワークNを介して、適宜のデータベースを検索してもよく、その結果を、ネットワークNを介して情報端末10に送信してもよい。さらに、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。

 また、本開示による音声翻訳プログラムは、コンピュータを、少なくとも2種類の言語による音声を入力可能な音声入力部、前記音声入力部に入力された内容を認識する音声認識部、前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、前記翻訳部で翻訳された内容を音声で出力する音声出力部、及び、前記入力された内容のテキスト及び前記翻訳された内容のテキストを当該コンピュータの画面において互いに逆向きに表示するテキスト表示部、として機能させ、前記テキスト表示部は、前記入力された内容のテキストを、前記画面における上方領域に且つ前記音声を入力したユーザが正視可能な向きに表示し、及び、前記翻訳された内容のテキストを、前記画面における下方領域に表示してもよい。
 また、前記音声入力部は、前記音声が入力される前に、該音声の入力の待機状態であることを示す図案を前記画面に表示し、且つ、前記音声が入力された際に、該音声の入力レベルを表す図案を前記画面に表示し、前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案を前記画面に表示するようにしてもよい。
 さらに、前記音声入力部は、前記音声の入力の待機状態であることを示す図案、及び、前記音声の入力レベルを表す図案とともに、前記音声の入力を促すテキストを前記画面に表示し、前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案とともに、翻訳中であることを示すテキストを前記画面に表示してもよい。
 本開示によれば、音声翻訳とともに、テキストの確認の都度コンピュータ(情報端末)の画面の向きを変える必要がなく、円滑な会話を実現することが可能となるので、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。
10 情報端末(コンピュータ、音声翻訳装置)
11 プロセッサ(音声認識部、翻訳部、テキスト表示部)
12 記憶資源
13 音声入出力デバイス(音声入力部、音声出力部)
14 通信インターフェイス
15 入力デバイス
16 表示デバイス(テキスト表示部)
17 カメラ
41 言語ボタン
42a 日本語入力ボタン
42b 英語入力ボタン
43 戻りボタン
44 履歴表示ボタン
45 設定ボタン
46 波形図案
47 停止ボタン
48 線分図案
61 言語ボタン
62a 日本語入力ボタン
62b 英語入力ボタン
63 履歴表示ボタン
64 言語選択ボタン
65 設定ボタン
66 マイク図案
67 キャンセルボタン
68 多重円形図案
69 円形図案
70 音声出力ボタン
71 チェックボタン
90 情報端末(従来)
91 選択ボタン
92 国旗ボタン
92,92 言語切替ボタン
93 マイクボタン
94 終了ボタン
95,96,97 テキスト
98 再入力ボタン
99 要請ボタン
100 リピート再生ボタン
M1 ユーザ
M2 顧客
N ネットワーク
P10 プログラム
T1~T13,T21~T28 テキスト

Claims (9)

  1.  コンピュータを、
     少なくとも2種類の言語による音声を入力可能な音声入力部、
     前記音声入力部に入力された内容を認識する音声認識部、
     前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、
     前記翻訳部で翻訳された内容を音声で出力する音声出力部、及び、
     前記入力された内容のテキスト及び前記翻訳された内容のテキストを当該コンピュータの画面において互いに異なる向きに表示するテキスト表示部、
    として機能させる音声翻訳プログラム。
  2.  前記テキスト表示部は、前記入力された内容のテキストと前記翻訳された内容のテキストを当該コンピュータの画面において互いに逆向きに表示する、
    請求項1記載の音声翻訳プログラム。
  3.  前記コンピュータを、前記画面の方向を検知する検知部として更に機能させ、
     前記テキスト表示部は、前記画面が鉛直上方の所定範囲内に向いたことを前記検知部が検知したときに、前記入力された内容のテキスト及び前記翻訳された内容のテキストを前記画面において互いに異なる向きに表示する、
    請求項1記載の音声翻訳プログラム。
  4.  前記テキスト表示部は、前記画面において、前記入力された内容のテキストを表示する領域と前記翻訳された内容のテキストを表示する領域とを区分する、
    請求項1記載の音声翻訳プログラム。
  5.  コンピュータを、
     少なくとも2種類の言語による音声を入力可能な音声入力部、
     前記音声入力部に入力された内容を認識する音声認識部、
     前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、
     前記翻訳部で翻訳された内容を音声で出力する音声出力部、及び、
     前記入力された内容のテキスト及び前記翻訳された内容のテキストを当該コンピュータの画面において互いに逆向きに表示するテキスト表示部、
    として機能させ、
     前記テキスト表示部は、前記入力された内容のテキストを、前記画面における上方領域に且つ前記音声を入力したユーザが正視可能な向きに表示し、及び、前記翻訳された内容のテキストを、前記画面における下方領域に表示する、
    音声翻訳プログラム。
  6.  前記音声入力部は、前記音声が入力される前に、該音声の入力の待機状態であることを示す図案を前記画面に表示し、且つ、前記音声が入力された際に、該音声の入力レベルを表す図案を前記画面に表示し、
     前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案を前記画面に表示する、
    請求項5記載の音声翻訳プログラム。
  7.  前記音声入力部は、前記音声の入力の待機状態であることを示す図案、及び、前記音声の入力レベルを表す図案とともに、前記音声の入力を促すテキストを前記画面に表示し、
     前記翻訳部は、前記認識された内容を異なる言語の内容に翻訳中であることを示す図案とともに、翻訳中であることを示すテキストを前記画面に表示する、
    請求項5記載の音声翻訳プログラム。
  8.  少なくとも2種類の言語による音声を入力可能な音声入力部と、
     前記音声入力部に入力された内容を認識する音声認識部と、
     前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、
     前記翻訳部で翻訳された内容を音声で出力する音声出力部と、
     前記入力された内容のテキスト及び前記翻訳された内容のテキストを画面において互いに異なる向きに表示するテキスト表示部と、
    を備える音声翻訳装置。
  9.  少なくとも2種類の言語による音声を入力可能な音声入力部、音声認識部、翻訳部、音声出力部、及びテキスト表示部を備える音声翻訳装置の制御方法であって、
     前記音声認識部により、前記音声入力部に入力された内容を認識し、
     前記翻訳部により、前記音声認識部で認識された内容を異なる言語の内容に翻訳し、
     前記音声出力部により、前記翻訳部で翻訳された内容を音声で出力し、
     前記テキスト表示部により、前記入力された内容のテキスト及び前記翻訳された内容のテキストを画面において互いに異なる向きに表示する、
    音声翻訳システムの制御方法。
PCT/JP2016/084250 2015-11-18 2016-11-18 音声翻訳プログラム、音声翻訳装置、及びその制御方法 WO2017086434A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-225846 2015-11-18
JP2015225846 2015-11-18

Publications (1)

Publication Number Publication Date
WO2017086434A1 true WO2017086434A1 (ja) 2017-05-26

Family

ID=58717437

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/084250 WO2017086434A1 (ja) 2015-11-18 2016-11-18 音声翻訳プログラム、音声翻訳装置、及びその制御方法

Country Status (1)

Country Link
WO (1) WO2017086434A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825306A (zh) * 2019-10-29 2020-02-21 深圳市证通电子股份有限公司 盲文输入方法、装置、终端及可读存储介质
JP2021154755A (ja) * 2020-03-25 2021-10-07 美智子 鈴木 翻訳システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122839A (ja) * 1998-10-19 2000-04-28 Canon Inc 情報処理装置及び情報処理方法
JP2005149042A (ja) * 2003-11-14 2005-06-09 Toshiba Corp 音声入力翻訳装置、翻訳プログラム
JP2010026220A (ja) * 2008-07-18 2010-02-04 Sharp Corp 音声翻訳装置、および音声翻訳方法
JP2010033414A (ja) * 2008-07-30 2010-02-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122839A (ja) * 1998-10-19 2000-04-28 Canon Inc 情報処理装置及び情報処理方法
JP2005149042A (ja) * 2003-11-14 2005-06-09 Toshiba Corp 音声入力翻訳装置、翻訳プログラム
JP2010026220A (ja) * 2008-07-18 2010-02-04 Sharp Corp 音声翻訳装置、および音声翻訳方法
JP2010033414A (ja) * 2008-07-30 2010-02-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825306A (zh) * 2019-10-29 2020-02-21 深圳市证通电子股份有限公司 盲文输入方法、装置、终端及可读存储介质
JP2021154755A (ja) * 2020-03-25 2021-10-07 美智子 鈴木 翻訳システム

Similar Documents

Publication Publication Date Title
US9443518B1 (en) Text transcript generation from a communication session
US20140036022A1 (en) Providing a conversational video experience
US20090119108A1 (en) Audio-book playback method and apparatus
CN109862302B (zh) 在线会议中客户端设备的可访问音频切换的方法、系统
US20220414349A1 (en) Systems, methods, and apparatus for determining an official transcription and speaker language from a plurality of transcripts of text in different languages
EP3142359A1 (en) Display device and video call performing method therefor
US20220286310A1 (en) Systems, methods, and apparatus for notifying a transcribing and translating system of switching between spoken languages
US20210304743A1 (en) Voice assistant management
JP2019533181A (ja) 通訳装置及び方法(device and method of translating a language)
US20150088485A1 (en) Computerized system for inter-language communication
US20050062726A1 (en) Dual display computing system
KR20140078258A (ko) 대화 인식을 통한 이동 단말 제어 장치 및 방법, 회의 중 대화 인식을 통한 정보 제공 장치
JP6141483B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
WO2017086434A1 (ja) 音声翻訳プログラム、音声翻訳装置、及びその制御方法
JP6290479B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2020113150A (ja) 音声翻訳対話システム
US9881611B2 (en) System and method for providing voice communication from textual and pre-recorded responses
JP6250209B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
WO2017135214A1 (ja) 音声翻訳システム、音声翻訳方法、及び音声翻訳プログラム
JP6310950B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6353860B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
TW201346597A (zh) 多語言即時翻譯系統
WO2017122657A1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6110539B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6198879B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16866434

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16866434

Country of ref document: EP

Kind code of ref document: A1