WO2018087969A1 - 翻訳装置の制御方法、翻訳装置、および、プログラム - Google Patents

翻訳装置の制御方法、翻訳装置、および、プログラム Download PDF

Info

Publication number
WO2018087969A1
WO2018087969A1 PCT/JP2017/028512 JP2017028512W WO2018087969A1 WO 2018087969 A1 WO2018087969 A1 WO 2018087969A1 JP 2017028512 W JP2017028512 W JP 2017028512W WO 2018087969 A1 WO2018087969 A1 WO 2018087969A1
Authority
WO
WIPO (PCT)
Prior art keywords
translation
translation device
display screen
language
control method
Prior art date
Application number
PCT/JP2017/028512
Other languages
English (en)
French (fr)
Inventor
夏樹 佐伯
三浦 康史
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2017132069A external-priority patent/JP6876936B2/ja
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to KR1020187004003A priority Critical patent/KR20190082162A/ko
Priority to CN201780003302.6A priority patent/CN108307659A/zh
Priority to EP17857667.4A priority patent/EP3540565A4/en
Priority to US15/939,390 priority patent/US20180217985A1/en
Publication of WO2018087969A1 publication Critical patent/WO2018087969A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • the present invention relates to a translation device control method, a translation device, and a program.
  • Patent Document 1 is a translated speech reproduction device that is arranged between two people who use different languages, performs translation from one of the first language and the second language to the other, and reproduces the translated speech. Disclosure. This translated speech reproduction apparatus suitably presents the translated speech to the listener by controlling the direction in which the translated speech is output.
  • Translation devices equipped with a speech translation function are required to automatically and bidirectionally translate the words spoken by one of the two parties and communicate it to the other party.
  • an explicit input operation by the two parties is required to present the translation result, there is a problem that the smooth conversation between the two parties can be hindered.
  • the present invention provides a control method for a translation apparatus that suppresses the hindering of smooth dialogue through the translation apparatus.
  • a method for controlling a translation device wherein the translation device includes a microphone, a sensor that detects a posture of the translation device, and a display screen.
  • the translation device includes a microphone, a sensor that detects a posture of the translation device, and a display screen.
  • a change in the orientation of the translation device detected by the sensor is detected, a second text generated by translation processing on the first text in which the voice signal is recognized is generated. Display on the display screen.
  • the control method of the translation device according to the present disclosure can suppress hindering smooth conversation via the translation device.
  • FIG. 1 is a block diagram showing the configuration of the translation apparatus according to the embodiment.
  • FIG. 2 is an explanatory diagram illustrating an example of information stored in the dialogue management storage unit according to the embodiment.
  • FIG. 3 is an explanatory diagram of posture information of the translation apparatus according to the embodiment.
  • FIG. 4 is an explanatory diagram of tilt detection according to the embodiment.
  • FIG. 5 is an explanatory diagram illustrating an example of an image used to determine a setting value according to the embodiment.
  • FIG. 6 is an explanatory diagram illustrating an example of an image that prompts the user to set a reference language according to the embodiment.
  • FIG. 7 is a flowchart showing main processing of the translation apparatus according to the embodiment.
  • FIG. 8 is a flowchart showing a recording start process of the translation apparatus according to the embodiment.
  • FIG. 9 is a flowchart showing a recording end process of the translation apparatus according to the embodiment.
  • FIG. 10 is a flowchart showing a speech recognition result confirmation process according to the embodiment.
  • FIG. 11 is an explanatory diagram of a display screen according to the embodiment.
  • FIG. 12 is an explanatory diagram of display contents on the display screen according to the embodiment.
  • a translation device for example, a portable translation device having a speech translation function
  • a section from the start time to the end time of the input speech is correctly detected, and the detected section is a translation target. It is necessary to.
  • a method of detecting a silent section has been studied conventionally. However, there is a problem that it is easily affected by noise or environmental sound and the silent section is not properly detected.
  • a silent state that is originally unnecessary is generated during the conversation, which is an obstacle to smooth conversation.
  • Patent Document 1 discloses a technique for detecting a conversion direction (translation direction) between two languages that interact with each other by a sensor that detects the tilt of the device, and displaying information on translation results appropriate for the viewer. Yes. Patent Document 1 discloses a method for determining a translation direction in order to assist a user's smooth dialogue, but discloses what the translation apparatus performs as a trigger including a process including a translation process or a result display process. There is no. For example, if an intentional operation by the user is required one by one at the time of the above processing, smooth dialogue between the two parties can be hindered.
  • the present invention provides a control method for a translation apparatus that suppresses the hindering of a smooth dialogue when presenting a translation result.
  • a translation device control method includes a microphone, a sensor that detects a posture of the translation device, and a display screen,
  • the voice signal indicating the voice of the first user is generated by the microphone and a change in the attitude of the translation device detected by the sensor is detected
  • the voice signal is translated into the first text whose voice is recognized.
  • the second text generated by the processing is displayed on the display screen.
  • the translation device receives the second text generated by the translation process in response to detection of a change in the orientation of the translation device in the conversation between the speaker (first user) and the receiver (second user). It can be displayed on the display screen and made visible to the receiver.
  • the speaker can easily change the attitude of the translation device by tilting the translation device naturally during the conversation. Accordingly, it is possible to suppress the hindering of smooth dialogue through the translation device.
  • a presentation direction that is a direction parallel to a normal line of the display screen and in which the display screen presents an image is from the translation device.
  • a change in the attitude of the translation device is detected by detecting that the first user has approached a predetermined direction as a direction toward the second user who receives the speech from the first user.
  • the translation device causes the second text generated by the translation process to be displayed on the display screen and to be visually recognized by the receiver when the display screen of the translation device is tilted so as to be directed to the receiver. Can do.
  • the object to be viewed is tilted so that the receiver can see it.
  • the above-mentioned object to be visually recognized corresponds to the second text obtained by translating the utterance content of the speaker. That is, the translation device can present the text of the translation result to the recipient by a natural action of tilting the translation device so that the speaker can see what the speaker wants to show to the recipient. In this way, the translation apparatus can perform translation without impairing the smoothness of the dialog, that is, it can suppress the inhibition of the smooth conversation via the translation apparatus.
  • the microphone further detects that the presentation direction has approached the second predetermined angle from the translation device toward a predetermined direction toward the first user. Generation of the audio signal is started.
  • the translation device starts recording the utterance by the speaker when the display screen of the translation device is tilted so as to be directed toward the speaker.
  • the speaker when thinking that the translation device should listen to (or acquire) the content of its utterance, the speaker expects the translation device to hear his / her voice clearly. It is assumed that the display screen of the translation apparatus is directed toward itself. That is, the translation device can start recording the voice of the speaker by a natural action of tilting the translation device so that the speaker can hear the utterance of the speaker.
  • the translation apparatus can perform translation without impairing the smoothness of the dialogue.
  • the audio signal from the microphone is detected. Is generated, the first text is acquired by performing voice recognition processing on the voice signal, and the acquired first text is displayed on the display screen.
  • the translation device ends the recording of the utterance by the speaker when the display screen of the translation device is tilted so as to be directed away from the speaker.
  • a speaker tries to finish his / her utterance, he / she can perform the end, which is the opposite concept of the start, by performing the opposite operation to the start of recording. It is assumed.
  • the translation device uses a natural action in which the speaker thinks about the end of recording, which is the concept opposite to the start of recording, and tilts in the direction opposite to the tilting direction of the translation device at the start of recording. , You can end the recording of the speaker's voice.
  • the translation apparatus can perform translation without impairing the smoothness of the dialogue.
  • the presentation direction is set in a direction predetermined as a direction from the translation device toward the first user.
  • generation of a new audio signal is started.
  • the translation device starts recording the utterance by the speaker again when the speech recognition result by the translation device is different from its intention.
  • the speaker can provide a means for starting recording again, that is, re-recording, by tilting the translation device in the same way as when starting the first recording.
  • the translation apparatus can perform translation without impairing the smoothness of the dialogue.
  • the translation device stores correspondence information in which the posture of the translation device is associated with language information indicating a language for performing speech recognition processing in the posture
  • the control method further includes: The speech recognition process is performed using the language indicated by the language information associated with the current posture of the translation apparatus by the correspondence information.
  • the translation apparatus can appropriately select the language used for the speech recognition processing based on the association with the posture.
  • the translation processing is further performed using the language indicated by the language information associated with the current attitude of the translation apparatus by the correspondence information as a translation source language.
  • the translation apparatus can appropriately select the language used for the translation processing based on the association with the posture.
  • an image is further displayed on the display screen according to the detected posture of the translation apparatus.
  • the translation device can inform the speaker or receiver of the change in the attitude of the translation device.
  • the speaker or receiver can handle the translation device while recognizing the state of the translation device, that is, the processing performed by the translation device, and can prevent the translation device from operating unintentionally.
  • the display of the image according to the orientation of the translation device is a direction parallel to the normal line of the display screen and the direction in which the display screen presents the image, and the utterance by the first user. It includes display of an image according to a difference in angle between a predetermined direction as the direction toward the second user to be received or a predetermined direction as the direction toward the first user.
  • the translation apparatus can convey the state of the translation apparatus to the speaker or the receiver based on more specific processing based on the presentation direction and the angle between the receiver and the speaker.
  • the display of the image according to the orientation of the translation device is a direction parallel to the normal line of the display screen, and the presentation direction in which the display screen presents the image is the utterance by the first user.
  • Approaching a predetermined direction as a direction toward the second user receiving, or approaching a second predetermined angle toward a predetermined direction as the direction toward the first user is included.
  • the translation apparatus can convey the state of the translation apparatus to the speaker or receiver based on more specific processing based on the change in the presentation direction and the angle between the receiver and the speaker.
  • the translation apparatus includes a microphone, a sensor that detects a posture of the translation apparatus, a voice input control unit that generates a voice signal indicating a voice of the first user by the microphone, and the sensor And a display control unit that displays a second text generated by a translation process on the first text in which the voice signal is voice-recognized when the change in the attitude of the translation device detected by the step is detected.
  • a program according to an aspect of the present disclosure is a program for causing a computer to execute the above control method.
  • This translation apparatus translates the content of dialogue from one user language to the other user language in the dialogue between two users who use different languages.
  • the “use language” is a language used when the translation device is used. More specifically, it is a language used when a conversation speaker speaks in the translation source language toward the translation apparatus, and a translation destination language received by the conversation receiver from the translation apparatus.
  • the language used is, in principle, the user's native language, but is not limited to this.
  • this translation apparatus is arrange
  • the speaker is also referred to as the first user
  • the receiver is also referred to as the second user.
  • the speaker and the receiver are switched according to the progress of the dialogue.
  • FIG. 1 is a block diagram showing a configuration of translation apparatus 1 in the present embodiment.
  • FIG. 2 is an explanatory diagram showing an example of information stored in the dialogue management storage unit 28 according to the present embodiment.
  • the translation apparatus 1 includes a microphone 10, a voice input control unit 12, a voice recognition processing unit 14, a display control unit 16, a display screen 18, a translation processing unit 20, and dialog control.
  • 1 may be realized by dedicated hardware, or a computer processor (not shown) may be a memory (not shown) or the like. It may be realized by executing a program using, that is, by software.
  • the translation apparatus 1 may be implement
  • the microphone 10 is a microphone device that collects a speaker's voice and outputs a voice signal obtained by converting the collected voice.
  • the voice input control unit 12 records a voice signal input from the microphone 10.
  • the voice input control unit 12 controls the timing of the start and end of recording of the voice signal based on the control by the sensor value processing unit 26. Specifically, the timing is determined by whether or not recording is being performed and whether or not the sensor value generated by the gyro sensor 24 exceeds a preset threshold value of the sensor value.
  • the section from the start of recording to the end of recording is also referred to as a voice section. The timing of starting and stopping recording of audio will be described in detail later.
  • the speech recognition processing unit 14 performs speech recognition processing on the speech signal included in the speech section obtained by the speech input control unit 12, and text data (hereinafter referred to as “text data”) based on preset language information and the input speech signal. , Or simply text).
  • the text (corresponding to the first text) generated by the speech recognition processing unit 14 is information composed of characters that can be processed by a program, and this text is displayed on the display screen 18 as a speech recognition result.
  • the voice recognition processing unit 14 can be realized by a known voice recognition processing technique.
  • the display control unit 16 is a processing unit that generates image data of an image to be presented to the recipient and displays the image on the display screen 18 based on the generated image data.
  • the display control unit 16 detects a change in the posture of the translation device 1 detected by the gyro sensor 24, the display control unit 16 translates the first text in which the voice signal generated until the detection of the change in the posture of the translation device 1 is voice-recognized.
  • the second text generated by the processing is displayed on the display screen 18.
  • the orientation of the translation device 1 acquired by the gyro sensor 24 described later and the language of the user who is going to speak are stored in the dialogue management storage unit 28. By using these pieces of information, the display screen 18 can be visually recognized. Who can be identified. Thereby, it is also possible to switch the image displayed on the display screen 18 so as to improve the convenience for the user.
  • the display screen 18 is a display device that displays an image.
  • the display screen 18 displays the first text generated by the speech recognition processing unit 14 and the text in the translation destination language generated by the translation processing unit 20 according to control by the display control unit 16.
  • the translation processing unit 20 receives a text to be translated and information indicating the translation source language and the translation target language from the dialogue control unit 22 that controls the translation direction of the input language, and the translation source language in which the text is designated To the target language, and the text obtained as a result of the translation is provided to the dialogue control unit 22. This text corresponds to the second text.
  • the translation processing unit 20 can be realized by a known translation processing technique.
  • the dialogue control unit 22 controls the speech recognition processing unit 14 and the translation processing unit 20 so as to provide a translation result to the receiver in parallel with the dialogue between the speaker and the receiver.
  • the dialogue control unit 22 acquires the text generated by the voice recognition processing unit 14 from the voice input control unit 12 and provides the acquired text to the display control unit 16 and the translation processing unit 20.
  • the dialogue control unit 22 acquires the text of the translation result from the translation processing unit 20 and provides it to the display control unit 16 and the speech synthesis unit 30.
  • the dialogue control unit 22 detects a change in the posture of the translation device 1 based on posture information indicating the posture of the translation device 1 acquired from the sensor value processing unit 26, and the speech recognition processing unit 14, the translation processing unit 20, and the like. Control the operation timing.
  • the presentation direction which is a direction parallel to the normal line of the display screen 18 and presents the image on the display screen 18, is translated.
  • a change in the attitude of the translation apparatus 1 may be detected by detecting that a predetermined angle has been approached in a predetermined direction as a direction from the apparatus 1 toward the receiver.
  • the initial presentation direction used for detecting the change in posture of the translation device 1 may be stored in advance in the dialogue management storage unit 28 at the time of shipment of the translation device 1 or the beginning of the translation dialogue using the translation device 1. May be stored in the dialogue management storage unit.
  • provision of the text to the speech synthesizer 30 is unnecessary.
  • the gyro sensor 24 is a sensor that measures the angular velocity, and provides the sensor value acquired by the measurement to the sensor value processing unit 26.
  • the sensor value processing unit 26 is a processing unit that acquires and processes the sensor value generated by the gyro sensor 24.
  • the sensor value processing unit 26 detects the attitude of the translation apparatus 1 based on the sensor value generated by the gyro sensor 24, and generates attitude information indicating the detected attitude.
  • the sensor value processing unit 26 provides the generated posture information to the dialogue control unit 22.
  • the orientation of the translation device 1 has a one-to-one relationship with the “presentation direction”, which is a direction parallel to the normal line of the display screen 18 and the display screen 18 presents an image.
  • the orientation of the translation apparatus 1 may be expressed by the “presentation direction”.
  • the dialogue management storage unit 28 is a storage device that stores setting names and setting values in association with each other with respect to setting information used for a two-party dialogue using the translation device 1. Since the utterances are alternately performed in the two-party dialogue and different languages are used for each user, the translation apparatus 1 determines some items necessary for the translation dialogue before starting the dialogue. It is necessary to keep.
  • the dialogue management storage unit 28 stores items that need to be determined as setting information (see FIG. 2).
  • the setting information includes a first language, a second language, sensitivity, a reference language, a reference presentation direction, an initial presentation direction, a voice recognition result, and a translation result.
  • the first language and the second language are information indicating each of two different languages used by the two parties having a conversation.
  • Sensitivity is information indicating the sensitivity with which translation apparatus 1 detects a change in posture.
  • the reference language is information indicating a language used by a user who speaks after the current time, among the first language and the second language.
  • the reference presentation direction is information indicating the presentation direction when the display screen 18 is directed to a user who speaks after the current time.
  • the initial presentation direction is information indicating the presentation direction of the display screen 18 at a predetermined time as an initial time.
  • the “predetermined time point as the initial time point” refers to, for example, before speaking by a speaker (corresponding to step S201 described later), speaking (corresponding to step S301 described later), and displaying a speech recognition result (described later). (Corresponding to step S402).
  • the speech recognition result is text indicating the result of speech recognition processing for the speaker's utterance.
  • the translation result is text indicating the result of translation processing for the speech recognition result.
  • FIG. 2B shows setting information when the reference language is set to English.
  • the speech synthesis unit 30 acquires the text in the translation destination language generated by the translation processing unit 20 and converts the acquired text into a speech signal for output to the speech output unit 32.
  • the audio output unit 32 outputs an audio signal to be output to the speaker 34.
  • Speaker 34 is an audio output device that converts an audio signal input from the audio output unit 32 into audio (air vibration). The synthesized speech emitted from the speaker 34 is heard by the user as a result of translation.
  • FIG. 3 is an explanatory diagram of posture information of the translation apparatus 1 according to the present embodiment.
  • the attitude information indicating the attitude of the translation apparatus 1 is how much around each of the three axes (yaw axis, roll axis, and pitch axis) from the predetermined standard attitude of the translation apparatus 1.
  • the standard posture may be any posture, for example, the posture of the display screen 18 shown in FIG. 3 based on the positional relationship between the speaker and the receiver.
  • the presentation direction is a direction parallel to the normal line of the display screen 18 and the display screen 18 presents an image, and is a direction that is fixedly set for the translation apparatus 1. .
  • the presentation direction is uniquely specified by three angles that are angles formed by three orthogonal axes in the three-dimensional space.
  • the translation apparatus 1 configured as described above is characterized in that each process is executed using a change in the attitude of the translation apparatus 1 as a trigger.
  • the midpoint of the line segment connecting the speaker and the receiver is the origin O
  • the axis connecting the speaker and the receiver is the x axis
  • the direction from the speaker to the receiver is the x axis plus direction.
  • the vertical axis for the speaker and receiver from the origin O is defined as the y-axis
  • the direction toward the speaker and receiver's head is defined as the y-axis plus direction. Note that the method of taking the coordinate axes is an example for explanation, and the same explanation is valid even if the coordinate axes are taken at other positions and orientations.
  • the direction predetermined as the direction from the translation device 1 to the first user corresponds to the x-axis minus direction
  • the direction predetermined as the direction from the translation device 1 to the second user is the x-axis plus direction. It corresponds to.
  • FIG. 4 shows the posture before the translation apparatus 1 performs voice recording.
  • the presentation direction of the display screen 18 is a direction inclined by an angle ⁇ 1 from the y-axis plus direction toward the x-axis minus direction.
  • the posture of the translation apparatus 1 shown in FIG. 4A is an example of the initial presentation direction.
  • the translation apparatus 1 When it is detected from the posture of the translation apparatus 1 shown in FIG. 4 (a) that the translation apparatus 1 has turned by a predetermined angle in a direction in which the presentation direction approaches the minus direction of the x axis, the translation apparatus 1 records a voice. Start. At this time, the presentation direction is a direction inclined from the y-axis plus direction toward the x-axis minus direction by an angle ⁇ 2 larger than ⁇ 1 ((b) in FIG. 4). Note that the turning of the translation device 1 as described above can also be expressed as the display screen 18 facing the speaker or the appearance area of the display screen 18 visually recognized by the speaker increasing. The lower limit of the range that the angle ⁇ 2 can take is the above ⁇ 1. Although the upper limit of the angle ⁇ 2 is not particularly limited, for example, if it is about 90 degrees, there is an advantage that there is no hindrance for the receiver to visually recognize the display screen 18.
  • the translation apparatus 1 If it is detected from the posture of the translation apparatus 1 shown in (b) of FIG. 4 that the translation apparatus 1 has turned by a predetermined angle in a direction in which the presentation direction is away from the x-axis minus direction, the translation apparatus 1 records a voice. Then, the text obtained as a result of the voice recognition process is displayed on the display screen 18. At this time, the presentation direction of the display screen 18 is a direction inclined from the positive y-axis direction to the negative x-axis direction by an angle ⁇ 3 smaller than ⁇ 2 ((c) in FIG. 4). The angle ⁇ 3 may be zero degrees, that is, the display screen 18 may be parallel to the x axis. Note that the turning of the translation device 1 as described above can also be expressed as the presentation direction being moved away from the speaker or the appearance area of the display screen 18 visually recognized by the speaker being reduced.
  • the generated text is “Good morning”, which is generated through speech recognition processing.
  • the text is converted so that it can be processed by a program.
  • the text related to this text is displayed on the display screen 18 in the speaker's language.
  • the speaker can check the text as the voice recognition result displayed on the display screen 18 and determine whether or not his / her utterance has been correctly recognized by the translation apparatus 1.
  • the speaker can take the following two actions (1) and (2). Then, the translation device 1 can execute the following two processes (i) and (ii).
  • the speaker can take an action of causing the translation apparatus 1 to re-record. This is because if the translation is performed without conforming to the content of the utterance, the translation result is different from the intention and is inappropriate.
  • the speaker changes the orientation of the translation device 1 in the direction in which the display screen 18 is directed to itself ((d) in FIG. 4).
  • the voice input control unit 12 performs a process of deleting (cancelling) the voice recognition result.
  • the speaker can avoid the translation apparatus 1 performing the translation process using the speech recognition result contrary to his / her intention, and can re-record the speech.
  • the speaker can take the action of causing the translation apparatus 1 to perform a translation process and communicating the translation result to the other party.
  • the speaker changes the orientation of the translation device 1 so that the presentation direction approaches the direction from the translation device 1 toward the receiver (FIG. 4). (E)).
  • the translation apparatus 1 performs translation processing by the translation processing unit 20 using the text generated by the speech recognition processing unit 14.
  • the translation apparatus 1 From the attitude of the translation apparatus 1 shown in FIG. 4C, the translation apparatus 1 turns by a predetermined angle toward the x-axis plus direction, and the presentation direction changes from the y-axis plus direction to the x-axis plus direction.
  • the translation apparatus 1 displays the post-translation text obtained as a result of the translation processing on the display screen 18 ((e) of FIG. 4).
  • the angle range of the angle ⁇ 5 is not particularly limited, but for example, if it is about 30 to 90 degrees, there is an advantage that the display screen 18 is easily visible to the receiver.
  • the translation apparatus 1 uses the display screen 18 to be directed toward the user who should visually recognize the display screen 18 after the speech recognition process or the translation process, as a trigger for executing the next process. .
  • the language of the utterance input to the translation device 1 is also switched alternately.
  • the language used by the current speaker is determined based on the attitude of the translation device 1 when the speaker is speaking and the “first language” and “ It is determined from the information of “second language”, “reference language”, and “reference presentation direction”.
  • the language used by the speaker is also referred to in order to correctly recognize the voice signal data during the voice recognition processing by the voice recognition processing unit 14.
  • the translation processing unit 20 is used to determine the translation source language and the translation destination language.
  • the threshold value of the angle indicating whether or not it is determined that the attitude of the translation apparatus 1 has changed can be adjusted by setting information.
  • FIG. 5 is an explanatory diagram showing an example of an image 50 that prompts the user to set a reference language according to the present embodiment.
  • the image 50 shown in FIG. 5 is an example of an image for setting the setting information stored in the dialogue management storage unit 28.
  • An image 50 shows buttons 52 and 54 for setting the “first language” and the “second language”, which are languages used by the two parties interacting with each other, and sensitivity for detecting a change in the attitude of the translation apparatus 1.
  • a button 56 for setting “sensitivity” is included.
  • the button 52 is provided with a character string (“Japanese” in FIG. 5) indicating a language selected as the first language, and can be switched to another language by a user's touch operation on the button 52.
  • Japanese Japanese in FIG. 5
  • the button 54 is provided with a character string (“English” in FIG. 5) indicating the language selected as the second language, and can be switched to another language by the user's touch operation on the button 54.
  • a character string (“English” in FIG. 5) indicating the language selected as the second language, and can be switched to another language by the user's touch operation on the button 54.
  • the button 56 is a button for setting posture sensitivity.
  • the attitude sensitivity is information indicating the sensitivity of detecting a change in the attitude of the translation apparatus 1, and can be switched to, for example, one of three levels of “high”, “medium”, and “low”.
  • the sensitivity of the posture is reflected in a threshold value regarding the change amount of the sensor value generated by the gyro sensor 24. For example, when the posture sensitivity is “high”, the threshold value is set to a small value. Then, just by making a relatively small change in the attitude of the translation apparatus 1, the change amount of the attitude exceeds the threshold, and it is detected that the attitude has changed.
  • the translation apparatus 1 is often used in a business format in which, for example, customer service is provided to foreign tourists in Japan. Therefore, considering the convenience of the user, the first language may be set to “Japanese” or the like that is often used as a default value. In that case, when the user uses the translation apparatus 1, the second language is the only item that is substantially selected.
  • FIG. 6 is an explanatory diagram showing an example of an image 60 that prompts the user to set a reference language according to the present embodiment.
  • the image 60 is an example of an image for prompting the user to set a language used for the first utterance.
  • the image 60 includes a button 62 for selecting an utterance language.
  • the button 62 is a button for switching between the first language and the second language as the language used for the first utterance.
  • the language used for the first utterance is either “Japanese”, which is a character string indicating the first language, or “English”, which is a character string indicating the second language.
  • the button 62 accepts selection by the user as to which of the above languages is the language used for the first utterance.
  • the language selected by the image 60 shown in FIG. 6 is set in the item “reference language” of the setting information stored in the dialogue management storage unit 28.
  • the presentation direction of the translation apparatus 1 at the time of the first utterance is acquired by the gyro sensor 24, and this presentation direction is stored as “reference presentation direction” of the setting information in the dialogue management storage unit 28.
  • the speaker who is the user of the translation apparatus 1 can determine that the reference language is the use language. It can be determined that the language that is not the reference language of the first language and the second language is a language used for speech. In this way, the subsequent speech language discrimination can be determined by the presentation direction of the translation device 1.
  • translation apparatus 1 configured as described above will be described below.
  • FIG. 7 is a flowchart showing the main processing of translation apparatus 1 according to the present embodiment.
  • step S101 the dialogue control unit 22 determines whether a setting necessary for proceeding with the translation dialogue processing using the translation device 1 is missing.
  • the settings necessary for the translation dialogue process are “first language”, “second language”, “sensitivity”, and “reference language” among the setting items stored in the dialogue management storage unit 28. If any one of these pieces of information is missing (yes in step S101), the process proceeds to step S102, and otherwise (no in step S101), the process proceeds to step S104.
  • standard presentation direction acquires a presentation direction when a speaker speaks in the language shown by a reference language later, and makes the acquired presentation direction a new reference
  • the language that is not the reference language among the first language and the second language is associated as a language that is used when the presentation direction is in a direction that is not the reference presentation direction.
  • step S102 the dialogue control unit 22 performs a process for making settings necessary for proceeding with the translation dialogue process. Specifically, the dialogue control unit 22 displays an image (for example, the image 50 in FIG. 5) for prompting settings necessary for proceeding with the translation dialogue process on the display screen 18 via the display control unit 16.
  • the first language default value may be set to Japanese for the convenience of the user. . In this case, the item that the user substantially selects is only “second language”.
  • the posture sensitivity indicates the presentation direction before and after the change of the translation device 1 by the speaker's operation.
  • the level of the difference between the translation device 1 and the state of the translation apparatus 1 is represented in three stages (“high”, “medium”, and “low”).
  • step S103 the dialogue control unit 22 sets a reference language.
  • the reference language is either the first language or the second language set in step S102, and is stored in the dialogue management storage unit 28.
  • the language of the user who will speak is selected as the reference language, and the language used by the user who speaks is actually set after this setting.
  • step S103 when the setting of the reference language is completed, one of the first language and the second language is set as the reference language in the data stored in the dialogue management storage unit 28, and the reference presentation direction is not yet set.
  • the setting state is entered (see FIG. 2B). In such a state, the presentation direction acquired when the next utterance is performed is set as the reference presentation direction. This process will be described in detail in step S205 of FIG.
  • step S104 the translation apparatus 1 performs a recording start process.
  • the recording start process the recording start timing is appropriately determined, and recording is started based on the determined timing. Details will be described later.
  • step S105 the translation apparatus 1 performs a recording end process.
  • the timing for appropriately stopping the recording process started in step S104 is determined, and the recording is stopped based on the determined timing. Details will be described later.
  • step S106 the translation apparatus 1 performs a speech recognition result confirmation process.
  • the dialogue control unit 22 displays the result of speech recognition by the speech recognition processing unit 14 on the display screen 18.
  • the speaker can check whether or not his / her utterance content and the content recognized by the translation device 1 are recognized.
  • the speaker can cancel the speech recognition processing result and speak again. Details will be described later.
  • step S ⁇ b> 107 the translation processing unit 20 performs translation processing by using the text that is the confirmed speech recognition result displayed on the display screen 18 by the speaker, the language used for utterance, and the language of the translation result that is output as input.
  • the translation is performed by the unit 20, and as a result, a translation text is generated.
  • the language used for the utterance can be determined from the reference language set in the dialogue management storage unit 28 as described above, the reference presentation direction, and the orientation (or presentation direction) of the translation apparatus 1 at the time of utterance. Therefore, the language of the translation text obtained as a translation result is the language that is not the language used for the utterance, out of the first language and the second language.
  • the generated translation text is stored in the dialog management storage unit 28 as a translation result.
  • step S108 the dialogue control unit 22 displays the result of translation processing by the translation processing unit 20 on the display screen 18.
  • the display control unit 16 generates a display image for the receiver using the language that is not the language used for the utterance out of the first language and the second language, and outputs the translation result to the display screen 18.
  • information generated in step S107 and stored as a translation result in the dialogue management storage unit 28 is used.
  • step S109 the speech synthesizer 30 generates synthesized speech signal data using the translation result generated in step S107 and stored as a translation result in the dialogue management storage unit 28, and the language used for the translation.
  • the generated synthesized voice signal data is output from the voice output unit 32 and the speaker 34 so as to be heard by the receiver.
  • FIG. 8 is a flowchart showing the recording start process of translation apparatus 1 according to the present embodiment, and shows the process of step S104 in FIG. 7 in detail.
  • step S201 the sensor value processing unit 26 acquires an initial presentation direction. Specifically, the sensor value processing unit 26 acquires the sensor value generated by the gyro sensor 24 and calculates the presentation direction of the translation device 1. In this step, for example, the translation apparatus 1 is in the posture shown in FIG. Then, the dialogue control unit 22 stores the presentation direction calculated by the sensor value processing unit 26 in the dialogue management storage unit 28 as “initial presentation direction”.
  • step S202 the sensor value processing unit 26 acquires the present presentation direction. Specifically, the sensor value processing unit 26 sequentially acquires sensor values that change every moment according to the operation of the speaker, and calculates the presentation direction of the translation apparatus 1 using the acquired sensor values. In this way, the dialogue control unit 22 acquires the presentation direction that changes every moment by the operation of the speaker.
  • step S203 the dialogue control unit 22 determines whether the difference between the initial presentation direction acquired in step S201 and the presentation direction acquired in step S202 exceeds a threshold value.
  • the threshold value is determined based on the setting of “posture sensitivity” stored in the dialogue management storage unit 28. Thereby, it is determined whether or not the display screen 18 of the translation apparatus 1 is tilted in the direction toward the speaker ((b) of FIG. 4).
  • the threshold value corresponds to the second predetermined angle.
  • step S203 when the difference in the presentation direction exceeds the threshold (yes in step S203), the process proceeds to step S204, and in other cases (no in step S203), step S202 is executed again.
  • step S204 the dialogue control unit 22 checks the reference language in the dialogue management storage unit 28 and the setting contents of the reference presentation direction. Specifically, when only the reference language is set and the setting of the reference presentation direction is missing (that is, it is not set), that is, the dialog control unit 22 uses the reference language as the utterance language. If the direction of the user is not set (yes in step S204), the process proceeds to step S205. Otherwise, the process proceeds to step S206.
  • Step S205 is executed when only the reference language has been determined and the reference presentation direction is not set as described in step S204 above.
  • the translation device 1 is in a state in which the display screen 18 faces the speaker side, for example, as shown in FIG.
  • the orientation of the translation apparatus 1 at this time is acquired from the gyro sensor 24 and stored as a reference presentation direction in the dialogue management storage unit 28.
  • the presentation direction of the translation device 1 is in the same direction as the reference presentation direction
  • the reference language is the language used by the speaker
  • the presentation direction of the translation device 1 is oriented in the other direction. If there is a language, the language that is not the reference language among the first language and the second language is assumed to be the language used by the speaker.
  • step S206 the voice input control unit 12 executes a voice recording start process, and starts voice recording of the speaker input from the microphone 10.
  • FIG. 9 is a flowchart showing a recording end process in translation apparatus 1 according to the present embodiment, and shows the process in step S105 in FIG. 7 in detail.
  • step S301 the sensor value processing unit 26 acquires an initial presentation direction. Specifically, the sensor value processing unit 26 acquires the sensor value generated by the gyro sensor 24 and calculates the presentation direction of the translation device 1. In this step, for example, the translation apparatus 1 is in the posture shown in FIG.
  • the dialogue control unit 22 sets the “initial presentation direction” of the setting information in the dialogue management storage unit 28. Note that if the “initial presentation direction” has already been set at the time of the above setting, it may be overwritten.
  • step S302 the sensor value processing unit 26 acquires the present presentation direction. Specifically, the sensor value processing unit 26 sequentially acquires sensor values that change every moment according to the operation of the speaker, and calculates the presentation direction of the translation apparatus 1 using the acquired sensor values. In this way, the dialogue control unit 22 acquires the presentation direction that changes every moment by the operation of the speaker.
  • step S303 the dialogue control unit 22 determines whether or not the difference between the initial presentation direction acquired in step S301 and the presentation direction acquired in step S302 exceeds a threshold value.
  • the threshold value is determined based on the sensitivity setting stored in the dialogue management storage unit 28. Thus, it is determined whether or not the display screen 18 of the translation apparatus 1 is moved away from the direction facing the speaker ((c) of FIG. 4). If the difference exceeds the threshold value (yes in step S303), the process proceeds to step S304. Otherwise (no in step S303), step S302 is executed again.
  • the threshold value corresponds to the third predetermined angle.
  • step S304 the voice input control unit 12 executes a voice recording stop process, and ends the recording of the voice of the speaker input from the microphone 10. In this manner, the voice input control unit 12 generates voice signal data of the voice signal obtained during the period from the recording start process in step S206 (FIG. 8) to the recording end process in step S304.
  • step S305 the speech recognition processing unit 14 converts the speech signal data into text by performing speech recognition processing from the speech signal data generated in step S304 and the language determined from the presentation direction of the translation apparatus 1 at the time of speech. Converted and stored in the dialogue management storage unit 28 as a speech recognition result.
  • FIG. 10 is a flowchart of the speech recognition result confirmation process in the translation apparatus 1 according to the present embodiment, and shows the process in step S106 in FIG. 7 in detail.
  • step S401 the display control unit 16 acquires the text generated in step S305 (FIG. 9) and saved as a speech recognition result in the dialogue management storage unit 28, and displays display data for output to the display screen 18. Generate.
  • the display screen 18 displays the text based on the display data. Since the text displayed on the display screen 18 is displayed in the language used by the speaker in the posture shown in FIG. 4C, the display screen 18 indicates whether the speaker has performed speech recognition processing as intended. You can check the text displayed in In subsequent steps, depending on the direction in which the speaker tilts the translation device 1, the speech recognition result is canceled and recording is performed again, or the speech recognition result is confirmed and the translation result is presented to the receiver. Do either process.
  • step S402 the sensor value processing unit 26 acquires an initial presentation direction. Specifically, the sensor value processing unit 26 acquires the sensor value generated by the gyro sensor 24 and calculates the presentation direction of the translation device 1. In this step, for example, the translation apparatus 1 is in the posture shown in FIG. Then, the dialogue control unit 22 stores the presentation direction calculated by the sensor value processing unit 26 in the dialogue management storage unit 28 as “initial presentation direction”. If the initial presentation direction has already been set at the time of the above setting, it may be overwritten.
  • step S403 the sensor value processing unit 26 acquires the present presentation direction. Specifically, the sensor value processing unit 26 sequentially acquires sensor values that change every moment according to the operation of the speaker, and calculates the presentation direction of the translation apparatus 1 using the acquired sensor values. In this way, the dialogue control unit 22 acquires the presentation direction that changes every moment by the operation of the speaker.
  • step S404 the dialogue control unit 22 determines whether or not the difference between the initial presentation direction acquired in step S402 and the presentation direction acquired in step S403 exceeds a threshold value. If the difference exceeds the threshold value (yes in step S404), the process proceeds to step S405. Otherwise (no in step S404), step S403 is executed again.
  • the threshold value corresponds to the first predetermined angle.
  • step S405 the dialogue control unit 22 determines whether the presentation direction is tilted toward the receiver, or whether the presentation direction is tilted toward the speaker. As a result, the dialogue control unit 22 performs processing when the presentation direction is tilted toward the speaker as shown in FIG. 4D and when the presentation direction is tilted toward the receiver as shown in FIG. Branch off.
  • the speaker can be tilted toward the speaker when, for example, the speaker who has seen the speech recognition result displayed on the display screen 18 determines that the speech recognition result is different from his / her intention. It is.
  • step S405 when the presentation direction is tilted toward the receiver (“receiver side” in step S405), the speech recognition result displayed on the display screen 18 in step S401 is confirmed, and this flow is performed. The series of processing shown in the figure is terminated. On the other hand, if the presentation direction is tilted toward the speaker in step S405 (“speaker side” in step S405), the speech recognition result displayed on the display screen 18 in step S401 is canceled. The series of processes shown in this flowchart is finished.
  • the translation apparatus 1 can improve the accuracy of speech recognition in translation processing in a dialogue between two parties.
  • the user of the translation apparatus 1 can easily perform a dialogue between different languages by an exchange with an uncomfortable operation.
  • the speech recognition processing unit 14 does not need to be inside the translation apparatus 1 as shown in FIG. 1, and may be arranged on an external server through a communication path such as a cloud server.
  • the translation processing unit 20 does not have to be inside the translation apparatus 1 as shown in FIG. 1, but may be in an external server or the like that has passed through a communication path such as a cloud server.
  • the display screen 18 does not have to be inside the translation apparatus 1 as shown in FIG. 1 but may be located in a place where the user can confirm. Also good.
  • the translation device 1 may include a display screen 18A that indicates the state of operation related to translation of the translation device 1 in addition to the display screen 18 described above.
  • the display screen 18A will be described using a specific example.
  • FIG. 11 is an explanatory diagram of the display screen 18A according to the present embodiment.
  • FIG. 12 is an explanatory diagram of display contents on the display screen 18A according to the present embodiment.
  • the display screen 18A shown in FIGS. 11 and 12 includes display areas 18B, 18C, and 18D.
  • the display areas 18B, 18C and 18D are provided corresponding to the attitude of the translation apparatus 1 detected by the gyro sensor 24, that is, the state of the translation apparatus 1 related to translation. That is, the display area 18B corresponds to a state where the translation apparatus 1 displays the translation result (the state shown in FIG. 4E).
  • the display area 18C corresponds to a state where the translation apparatus 1 displays a speech recognition result (a state shown in FIG. 4C).
  • the display area 18D corresponds to a state where the translation apparatus 1 is recording (a state between (b) and (c) in FIG. 4).
  • an indicator an image that is an indicator or a display
  • the state corresponding to the display area where the indicator 18E is displayed indicates the current state of the translation apparatus 1.
  • the indicator 18E (corresponding to an image) is displayed on the display screen 18A according to the attitude of the translation apparatus 1.
  • the speaker can cause the translation apparatus 1 to record the voice while recognizing that the translation apparatus 1 is surely recording its own voice. If the attitude of the translation apparatus 1 changes due to camera shake or the like contrary to the intention of the speaker and the recording state ends, there is also an advantage that the speaker can recognize that and take appropriate action.
  • an indicator 18E is displayed in the display area 18B ((b) of FIG. 12). Thereby, the receiver can recognize that the translation apparatus 1 is displaying the translation result.
  • the display position of the indicator 18E in each display area may be arbitrary, but may change according to the orientation of the translation apparatus 1.
  • the display position of the indicator 18E may change to a position away from the display area 18C as the presentation direction approaches the minus x-axis direction.
  • the display position of the indicator 18E may change to a position away from the display area 18C as the presentation direction approaches the x-axis plus direction.
  • the display of the indicator 18E may include a display of the indicator 18E according to the difference in angle between the presentation direction and the direction predetermined as the direction toward the receiver or the direction predetermined as the direction toward the speaker.
  • the display of the indicator 18E is predetermined as a direction in which the presentation direction approaches a predetermined direction (a) as a direction toward the receiver, or (b) as a direction toward the speaker. Display of an image according to the fact that the second predetermined angle has been approached in the selected direction may be included. Thereby, the change in the attitude of the translation apparatus 1 can be expressed by the display position of the indicator 18E.
  • the color of the display area corresponding to the current state of the translation apparatus 1 may be changed. There is an advantage that the speaker and the receiver can recognize the current state of the translation apparatus 1 more intuitively.
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the translation apparatus according to each of the above embodiments is the following program.
  • this program is a method for controlling a translation apparatus in a computer, and the translation apparatus includes a microphone, a sensor for detecting the attitude of the translation apparatus, and a display screen. Generates a voice signal indicating the voice of the first user, and detects a change in the orientation of the translation device detected by the sensor, the voice signal is generated by a translation process for the first text that has been voice-recognized. A control method for displaying two texts on the display screen is executed.
  • the present disclosure can be used for a translation apparatus that suppresses hindering a smooth dialogue through the translation apparatus.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

翻訳装置を介した円滑な対話を阻害することを抑制する。翻訳装置は、マイクと、翻訳装置の姿勢を検出するセンサと、表示画面とを備え、翻訳装置の制御方法では、マイクにより第一ユーザの音声を示す音声信号を生成し(S104)、センサにより検出される翻訳装置の姿勢の変化を検知し、翻訳装置の姿勢の変化の検知までに生成された音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる(S108)。

Description

翻訳装置の制御方法、翻訳装置、および、プログラム
 本発明は、翻訳装置の制御方法、翻訳装置、および、プログラムに関する。
 特許文献1は、互いに異なる言語を使用する2者の間に配置され、第一の言語及び第二の言語の一方から他方への翻訳を行い、翻訳後の音声を再生する翻訳音声再生装置を開示している。この翻訳音声再生装置は、翻訳後の音声を出力する方向を制御することで、翻訳後の音声を聴取者に好適に提示する。
特開2011-150657号公報
 音声翻訳機能を備えた翻訳装置は、2者の一方の者が話す言葉を翻訳して他方の者に伝えることを、双方向にかつ自動的に行うことが求められる。しかしながら、翻訳結果を提示するために2者による明示的な入力操作を求めるとすれば、2者の円滑な対話を阻害し得るという問題がある。
 そこで、本発明は、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置の制御方法等を提供する。
 本開示の一態様に係る翻訳装置の制御方法は、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示の翻訳装置の制御方法は、翻訳装置を介した円滑な対話を阻害することを抑制することができる。
図1は、実施の形態に係る翻訳装置の構成を示すブロック図である。 図2は、実施の形態に係る対話管理記憶部に保存される情報の一例を示す説明図である。 図3は、実施の形態に係る翻訳装置の姿勢情報の説明図である。 図4は、実施の形態に係る傾き検出の説明図である。 図5は、実施の形態に係る設定値を決定するために使用される画像の一例を示す説明図である。 図6は、実施の形態に係る基準言語の設定を促す画像の一例を示す説明図である。 図7は、実施の形態に係る翻訳装置のメイン処理を示すフロー図である。 図8は、実施の形態に係る翻訳装置の録音開始処理を示すフロー図である。 図9は、実施の形態に係る翻訳装置の録音終了処理を示すフロー図である。 図10は、実施の形態に係る音声認識結果の確認処理を示すフロー図である。 図11は、実施の形態に係る表示画面の説明図である。 図12は、実施の形態に係る表示画面の表示内容の説明図である。
 (本発明の基礎となった知見)
 本発明者は、「背景技術」の欄において記載した、翻訳装置の制御方法に関し、以下の問題が生じることを見出した。
 音声翻訳機能を備えた翻訳装置(例えば携帯型翻訳機器)では、正しい翻訳結果を得るために、その入力である音声の開始時点から終了時点までの区間を正しく検出し、検出した区間を翻訳対象とする必要がある。音声認識処理における音声の開始時点と終了時点との検出は、従来、無音区間を検出する方法等が検討されている。しかし、雑音又は環境音などの影響を受けやすく、無音区間の検出が適切に行われないなどの問題がある。また、音声認識処理を行うために本来不要な無音区間を設ける必要が生じることにより、対話中に本来不要な無言状態が発生し、円滑な対話の阻害要因となる。
 特許文献1は、機器の傾きを検出するセンサにより、対話する2者の言語間の変換方向(翻訳方向)を検出し、閲覧者にとって適切な翻訳結果の情報の表示を行う技術を開示している。特許文献1は、利用者の円滑な対話を補助するために翻訳方向を決定する方法を開示するものの、翻訳処理又は結果表示処理等を含む処理を翻訳装置が何をトリガとして行うかについて何ら開示がない。例えば上記処理の際に逐一、利用者による意図的な操作を要するとすれば、2者による円滑な対話を阻害し得る。
 本発明は、翻訳結果を提示する際に円滑な対話を阻害することを抑制する翻訳装置の制御方法等を提供する。
 このような問題を解決するために、本開示の一態様に係る翻訳装置の制御方法は、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる。
 上記態様によれば、翻訳装置は、話し手(第一ユーザ)と受け手(第二ユーザ)との対話において、翻訳装置の姿勢の変化の検知を契機として、翻訳処理により生成された第二テキストを表示画面に表示させ、受け手に視認させることができる。話し手は、対話中に自然に翻訳装置を傾けることで、容易に翻訳装置の姿勢を変化させことができる。よって、翻訳装置を介した円滑な対話を阻害することを抑制することができる。
 例えば、前記翻訳装置の姿勢の変化を検知する際には、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記翻訳装置から、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたことを検知することで、前記翻訳装置の姿勢の変化を検知する。
 上記態様によれば、翻訳装置は、翻訳装置の表示画面が受け手に向けられるように傾けられることを契機として、翻訳処理により生成された第二テキストを表示画面に表示させ、受け手に視認させることができる。一般に、対話において話し手が受け手に対して視認させたい物がある場合には、その視認させたい物を受け手に見えるように傾けることが行われる。翻訳を介した対話の場面においては、上記の視認させたい物は、話し手の発話内容を翻訳した第二テキストに相当する。すなわち、話し手が受け手に対して見せたいものを受け手に見えるように翻訳装置を傾けるという自然な動作によって、翻訳装置は、翻訳結果のテキストを受け手に提示することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができ、つまり、翻訳装置を介した円滑な対話を阻害することを抑制することができる。
 例えば、前記制御方法では、さらに、前記提示方向が、前記翻訳装置から、前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたことを検知すると、前記マイクによる前記音声信号の生成を開始する。
 上記態様によれば、翻訳装置は、翻訳装置の表示画面が話し手に向けられるように傾けられることを契機として、話し手による発話の録音を開始する。一般に翻訳装置を用いた対話において、自身の発話内容を翻訳装置に聞き取らせよう(又は、取得させよう)と考える場合、話し手は、翻訳装置に自身の音声が明瞭に聞き取られることを期待して、翻訳装置の表示画面を自身の方へ向けると想定される。すなわち、話し手が翻訳装置に自身の発話を聞き取らせるように翻訳装置を傾けるという自然な動作によって、翻訳装置は、話し手の音声の録音を開始することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。
 例えば、前記制御方法では、さらに、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向から第三所定角度だけ遠ざかったことを検知すると、前記マイクによる前記音声信号の生成を終了し、前記音声信号に対する音声認識処理を行うことで前記第一テキストを取得し、取得した前記第一テキストを前記表示画面に表示する。
 上記態様によれば、翻訳装置は、翻訳装置の表示画面が話し手から遠い方向に向けられるように傾けられることを契機として、話し手による発話の録音を終了する。一般に翻訳装置を用いた対話において、話し手は、自身の発話を終えようとする場合、録音の開始のときと反対の動作をすれば、開始の反対の概念である終了をすることができると考えると想定される。すなわち、話し手が、録音開始とは反対の概念である録音終了をしようと考えて録音開始の際の翻訳装置の傾け方とは反対方向への傾け方をするという自然な動作によって、翻訳装置は、話し手の音声の録音を終了することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。
 例えば、前記制御方法では、さらに、前記第一テキストを前記表示画面に表示した後に、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向へ向けて前記第一所定角度だけ近づいたことを検知すると、新たな音声信号の生成を開始する。
 上記態様によれば、翻訳装置は、翻訳装置による音声認識結果が自身の意図と異なる場合に、再度、話し手による発話の録音を開始する。話し手は、一度目の録音の開始の際と同じように翻訳装置を傾けることで、再び録音を開始させる、つまり、録音をやり直す手段を提供することができる。このように、翻訳装置は、対話の円滑さを損なうことなく翻訳をすることができる。
 例えば、前記翻訳装置は、前記翻訳装置の姿勢と、前記姿勢において音声認識処理をするための言語を示す言語情報とを対応付けた対応情報を記憶しており、前記制御方法では、さらに、前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を用いて前記音声認識処理を行う。
 上記態様によれば、翻訳装置は、姿勢との対応付けに基づいて音声認識処理に用いる言語を適切に選定することができる。
 例えば、前記制御方法では、さらに、前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を翻訳元言語として前記翻訳処理を行う。
 上記態様によれば、翻訳装置は、姿勢との対応付けに基づいて翻訳処理に用いる言語を適切に選定することができる。
 例えば、前記制御方法では、さらに、検知される前記翻訳装置の姿勢に応じて画像を前記表示画面に表示させる。
 上記態様によれば、翻訳装置は、翻訳装置の姿勢の変化を話し手又は受け手に伝えることができる。これにより、話し手又は受け手は、翻訳装置の状態、つまり、翻訳装置が行っている処理を認識しながら翻訳装置を扱うことができ、意図に反して翻訳装置が動作することを未然に回避できる。
 例えば、前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向と、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向または前記第一ユーザに向かう方向として予め定められた方向と、の角度の差分に応じた画像の表示を含む。
 上記態様によれば、翻訳装置は、提示方向と、受け手または話し手との角度に基づいたより具体的な処理に基づいて、翻訳装置の状態を話し手又は受け手に伝えることができる。
 例えば、前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、または前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、に応じた画像の表示を含む。
 上記態様によれば、翻訳装置は、提示方向と、受け手または話し手との角度の変化に基づいたより具体的な処理に基づいて、翻訳装置の状態を話し手又は受け手に伝えることができる。
 また、本開示の一態様に係る翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、前記マイクにより第一ユーザの音声を示す音声信号を生成する音声入力制御部と、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる表示制御部とを備える。
 上記態様によれば、上記翻訳装置の制御方法と同様の効果を奏する。
 また、本開示の一態様に係るプログラムは、上記の制御方法をコンピュータに実行させるためのプログラムである。
 上記態様によれば、上記翻訳装置の制御方法と同様の効果を奏する。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態)
 本実施の形態において、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置について説明する。この翻訳装置は、互いに異なる言語を利用する2人の利用者の対話において、対話内容を2人のうちの一方の利用言語から他方の利用言語に翻訳する。
 なお、「利用言語」とは、翻訳装置を利用する際に用いる言語である。より具体的には、対話の話し手が翻訳装置に向けて翻訳元言語で発話する際に用いる言語、及び、対話の受け手が翻訳装置から受ける翻訳先言語のことである。利用言語は、原則、利用者の母国語とするが、これに限定されない。また、この翻訳装置は、2人の利用者の間の位置に配置されることが想定される。なお、話し手を第一ユーザともいい、受け手を第二ユーザともいう。また、対話の進行に応じて、話し手及び受け手は入れ替わる。
 図1は、本実施の形態における翻訳装置1の構成を示すブロック図である。図2は、本実施の形態に係る対話管理記憶部28に保存される情報の一例を示す説明図である。
 図1に示されるように、翻訳装置1は、マイク10と、音声入力制御部12と、音声認識処理部14と、表示制御部16と、表示画面18と、翻訳処理部20と、対話制御部22と、センサ値処理部26と、ジャイロセンサ24と、対話管理記憶部28と、音声合成部30と、音声出力部32と、スピーカ34とを備える。なお、図1において破線の枠で示される制御部40に含まれる音声入力制御部12等は、専用ハードウェアによって実現されてもよいし、コンピュータのプロセッサ(不図示)がメモリ(不図示)等を用いてプログラムを実行することによって、つまりソフトウェアによって実現されてもよい。また、翻訳装置1は、利用者の手によって持ち運び可能な携帯型翻訳装置として実現されてもよく、より具体的には、スマートフォン、タブレット又はパーソナルコンピュータ等により実現され得る。
 マイク10は、話し手の音声を収音し、収音した音声を変換した音声信号を出力するマイクロホン装置である。
 音声入力制御部12は、マイク10から入力される音声信号の録音を行う。音声入力制御部12は、音声信号の録音開始及び録音終了のタイミングをセンサ値処理部26による制御に基づいて制御する。具体的には、上記タイミングは、録音を行っているか否かと、ジャイロセンサ24が生成するセンサ値があらかじめ設定されたセンサ値の閾値を超えたか否かとによって決定される。なお、録音開始から録音終了までの区間を音声区間ともいう。音声の録音開始及び録音停止のタイミングについては、後で詳しく説明する。
 音声認識処理部14は、音声入力制御部12によって得られた音声区間に含まれる音声信号に対する音声認識処理を行い、あらかじめ設定された言語情報と、入力された音声信号とに基づくテキストデータ(以降、単にテキストともいう)を生成する。音声認識処理部14により生成されるテキスト(第一テキストに相当)はプログラムによる処理が可能な文字からなる情報であり、このテキストが音声認識結果として表示画面18により表示される。音声認識処理部14は、公知の音声認識処理技術により実現され得る。
 表示制御部16は、受け手に提示する画像の画像データを生成し、生成した画像データに基づいて表示画面18に画像を表示させる処理部である。表示制御部16は、ジャイロセンサ24により検出される翻訳装置1の姿勢の変化を検知すると、翻訳装置1の姿勢の変化の検知までに生成された音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面18に表示させる。後述するジャイロセンサ24が取得する翻訳装置1の姿勢と、発話しようとしている利用者の言語とは、対話管理記憶部28に保存されており、これらの情報を使うことで、表示画面18を視認している利用者を特定できる。これにより、表示画面18が表示する画像を、利用者の利便性を向上させるように切り替えることも可能である。
 表示画面18は、画像を表示する表示装置である。表示画面18は、表示制御部16による制御に従って、音声認識処理部14が生成した第一テキスト、及び、翻訳処理部20が生成した翻訳先言語によるテキスト等を表示する。
 翻訳処理部20は、入力言語の翻訳方向を制御する対話制御部22から、翻訳対象であるテキストと、翻訳元言語及び翻訳先言語それぞれを示す情報とを受け取り、テキストを指定された翻訳元言語から翻訳先言語へ翻訳し、その翻訳結果として得られるテキストを対話制御部22へ提供する。このテキストは第二テキストに相当する。翻訳処理部20は、公知の翻訳処理技術により実現され得る。
 対話制御部22は、話し手と受け手との間で行われる対話に並行して、受け手に翻訳結果を提供するように、音声認識処理部14及び翻訳処理部20などを制御する。対話制御部22は、音声認識処理部14が生成したテキストを音声入力制御部12から取得し、取得したテキストを表示制御部16及び翻訳処理部20に提供する。また、対話制御部22は、翻訳処理部20から翻訳結果のテキストを取得し、表示制御部16及び音声合成部30に提供する。また、対話制御部22は、センサ値処理部26から取得する翻訳装置1の姿勢を示す姿勢情報に基づいて翻訳装置1の姿勢の変化を検出し、音声認識処理部14及び翻訳処理部20などの動作タイミングを制御する。なお、対話制御部22が翻訳装置1の姿勢の変化を検知する際には、表示画面18の法線に平行な方向であって表示画面18が画像を提示する方向である提示方向が、翻訳装置1から受け手に向かう方向として予め定められた方向へ向けて所定角度だけ近づいたことを検知することで、翻訳装置1の姿勢の変化を検知してもよい。なお、翻訳装置1の姿勢の変化の検出に用いる初期提示方向は、翻訳装置1の出荷時等に予め対話管理記憶部28に記憶されていてもよいし、翻訳装置1を用いる翻訳対話の冒頭において対話管理記憶部28に記憶されてもよい。なお、合成音声による翻訳結果の提示が不要である場合、音声合成部30へのテキストの提供は不要である。
 ジャイロセンサ24は、角速度を計測するセンサであり、計測により取得したセンサ値をセンサ値処理部26に提供する。
 センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し処理する処理部である。センサ値処理部26は、ジャイロセンサ24が生成したセンサ値に基づいて翻訳装置1の姿勢を検出し、検出した姿勢を示す姿勢情報を生成する。センサ値処理部26は、生成した姿勢情報を対話制御部22に提供する。なお、翻訳装置1の姿勢は、表示画面18の法線に平行な方向であって表示画面18が画像を提示する方向である「提示方向」と一対一の関係にある。以降では、翻訳装置1の姿勢を、上記「提示方向」により表現することもある。
 対話管理記憶部28は、翻訳装置1を利用した2者の対話に用いられる設定情報について、設定名と設定値とを対応付けて保存する記憶装置である。2者の対話において発話は交互に行われ、かつ利用者ごとに別々の言語が利用されるので、翻訳装置1は、対話を開始する前に翻訳対話に必要ないくつかの項目を決定しておく必要がある。
 対話管理記憶部28には、決定しておく必要がある項目を設定情報として保存している(図2参照)。この設定情報は、図2に示されるように、第一言語、第二言語、感度、基準言語、基準提示方向、初期提示方向、音声認識結果、及び、翻訳結果を含む。
 第一言語及び第二言語は、対話する2者が利用する互いに異なる2つの言語のそれぞれを示す情報である。
 感度は、翻訳装置1が姿勢の変化を検知する感度を示す情報である。
 基準言語は、第一言語及び第二言語のうち、現時点後に発話を行う利用者が利用する言語を示す情報である。
 基準提示方向は、現時点後に発話を行う利用者に表示画面18を向けるときの提示方向を示す情報である。
 初期提示方向は、初期の時点として予め定められる時点における表示画面18の提示方向を示す情報である。上記「初期の時点として予め定められる時点」とは、例えば、話し手による発話前(後述するステップS201に相当)、発話中(後述するステップS301に相当)、及び、音声認識結果の表示中(後述するステップS402に相当)のタイミングである。
 音声認識結果は、話し手の発話に対する音声認識処理の結果を示すテキストである。
 翻訳結果は、音声認識結果に対する翻訳処理の結果を示すテキストである。
 例えば、日本語を使用する利用者と英語を使用する利用者との2者が翻訳装置1を利用しており、話し手が英語の利用者である場合、対話管理記憶部28に保存されている設定情報を図2の(a)に示す。翻訳装置1は、この設定情報を用いて、提示方向が話し手の方向に近づけられているときには日本語による画像の表示を行い、提示方向が受け手の方向に近づけられているときには英語による画像の表示を行う。また、基準言語を英語に設定したときの設定情報が図2の(b)に示す。
 音声合成部30は、翻訳処理部20が生成した翻訳先言語によるテキストを取得し、取得したテキストを音声出力部32へ出力するための音声信号へ変換する。
 音声出力部32は、スピーカ34へ出力する音声信号を出力する。
 スピーカ34は、音声出力部32から入力される音声信号を音声(空気の振動)に変換する音声出力装置である。スピーカ34より発せられた合成音声は、翻訳した結果として利用者に聴取される。
 図3は、本実施の形態に係る翻訳装置1の姿勢情報の説明図である。
 翻訳装置1の姿勢を示す姿勢情報は、例えば図3に示されるように、翻訳装置1の所定の標準姿勢から、3軸(ヨー軸、ロール軸及びピッチ軸)それぞれの軸まわりにどれだけの角度旋回した姿勢であるかを示す値、つまり、3つの角度である。上記標準姿勢は、どのような姿勢であってもよいが、例えば、話し手と受け手との位置関係に基づいて、図3に示す表示画面18の姿勢としてもよい。
 また、提示方向は、上記のとおり、表示画面18の法線に平行な方向であって表示画面18が画像を提示する方向であり、翻訳装置1に対して固定的に設定される方向である。提示方向は、3次元空間における直交する3軸とのなす角である3つの角度により一意に特定される。
 以上のように構成された翻訳装置1は、翻訳装置1の姿勢の変化をトリガとして各処理を実行することに特徴を有する。このことについて図4を参照しながら説明する。図4において、説明のため、話し手と受け手とを結ぶ線分の中点を原点Oとし、話し手と受け手とを結ぶ軸をx軸とし、話し手から受け手に向かう向きをx軸プラス方向とする。また、原点Oから話し手及び受け手にとっての上下方向の軸をy軸とし、話し手及び受け手の頭上へ向かう向きをy軸プラス方向とする。なお、上記座標軸の取り方は説明のための一例であり、他の位置及び向きに座標軸を取っても同様の説明が成立する。
 なお、翻訳装置1から第一ユーザに向かう方向として予め定められた方向は、x軸マイナス方向に相当し、翻訳装置1から第二ユーザに向かう方向として予め定められた方向は、x軸プラス方向に相当する。
 図4の(a)は、翻訳装置1が音声の録音を行う前の姿勢を示している。このとき、表示画面18の提示方向はy軸プラス方向からx軸マイナス方向へ向けて角度θ1だけ傾いた方向である。図4の(a)に示される翻訳装置1の姿勢は、初期提示方向の一例である。
 図4の(a)に示される翻訳装置1の姿勢から、提示方向がx軸マイナス方向に近づく方向へ所定角度だけ翻訳装置1が旋回したことを検出すると、翻訳装置1は、音声の録音を開始する。このとき、提示方向は、上記θ1より大きい角度θ2だけ、y軸プラス方向からx軸マイナス方向へ向けて傾いた方向である(図4の(b))。なお、上記のように翻訳装置1が旋回することを、表示画面18が話し手の方を向く、又は、話し手に視認される表示画面18の見た目の面積が増加する、と表現することもできる。なお、角度θ2が取り得る範囲の下限は上記θ1である。角度θ2の上限は特に限定されないが、例えば90度程度とすると、受け手が表示画面18を視認するのに支障がないという利点がある。
 図4の(b)に示される翻訳装置1の姿勢から、提示方向がx軸マイナス方向から遠ざかる方向へ所定角度だけ翻訳装置1が旋回したことを検出すると、翻訳装置1は、音声の録音を終了し、音声認識処理の結果得られるテキストを表示画面18に表示する。このとき、表示画面18の提示方向は、上記θ2より小さい角度θ3だけ、y軸プラス方向からx軸マイナス方向へ傾いた方向である(図4の(c))。なお、角度θ3はゼロ度、つまり、表示画面18がx軸と並行になってもよい。なお、上記のように翻訳装置1が旋回することを、提示方向が話し手から遠ざけられる、又は、話し手に視認される表示画面18の見た目の面積が減少する、と表現することもできる。
 例えば、話し手が「おはようございます」との発話をした場合、生成されるテキストは、音声信号として入力された「おはようございます」なる音声が、音声認識処理を経て生成された「おはようございます」なるテキストであり、言い換えればプログラムによる処理が可能なように変換されたものである。そして、このテキストに係るテキストが表示画面18に話し手の利用言語で表示される。話し手は、表示画面18に表示された音声認識結果たるテキストを確認し、自身の発話が翻訳装置1により正しく認識されたか否かを判断することができる。
 図4の(c)に示される状況から、話し手は、以下(1)及び(2)の2つの行動をとり得る。そして、翻訳装置1は、以下(i)及び(ii)の2つの処理を実行し得る。
 (1)話し手は、音声認識処理の結果が、自身の発話した内容に適合しない場合、翻訳装置1に再録音をさせるという行動をとることができる。自身の発話の内容に適合しないまま翻訳を行うと自身の意図と異なる翻訳結果となり不適切であるからである。
 具体的には、話し手の発話の内容に適合しない場合には、話し手は、表示画面18を自身に向ける方向に翻訳装置1の姿勢を変化させる(図4の(d))。これにより、音声入力制御部12は、音声認識結果を消去(キャンセル)する処理を行う。これにより、話し手は、自身の意図に反する音声認識結果を用いて翻訳装置1が翻訳処理を行うことを回避し、音声の録音をやり直すことができる。
 (2)話し手は、音声の認識結果が、自身の発話した内容と適合する場合、翻訳装置1に翻訳処理を行わせ、翻訳結果を相手に伝えるという行動をとることができる。
 具体的には、音声認識結果が話し手の発話の内容に適合する場合には、話し手は、翻訳装置1から受け手に向かう方向に提示方向が近づくように翻訳装置1の姿勢を変化させる(図4の(e))。これにより、翻訳装置1は、音声認識処理部14により生成されたテキストを用いて翻訳処理部20により翻訳処理を行う。
 翻訳装置1が実行し得る2つの処理(i)及び(ii)を以下に記す。
 (i)図4の(c)に示される翻訳装置1の姿勢から、提示方向がx軸マイナス方向に近づく方向へ所定角度だけ翻訳装置1が旋回したことを検出すると、翻訳装置1は、音声の再録音を開始する。このとき、表示画面18の提示方向は、上記θ3より大きい角度θ4だけ、y軸プラス方向からx軸マイナス方向へ傾いた方向である(図4の(d))。なお、角度θ4が取り得る範囲の下限は上記θ3である。角度θ4の上限は特に限定されないが、例えば角度θ2と同様の理由で90度程度とすることができる。
 (ii)図4の(c)に示される翻訳装置1の姿勢から、x軸プラス方向へ向けて所定角度だけ翻訳装置1が旋回し、提示方向が、y軸プラス方向からx軸プラス方向へ向けて角度θ5だけ傾けた方向になったことを検出すると、翻訳装置1は、翻訳処理の結果得られる翻訳後テキストを表示画面18に表示する(図4の(e))。なお、角度θ5の角度範囲は特に限定されないが、例えば、30度~90度程度であると表示画面18が受け手に視認されやすい利点がある。
 このようにして、翻訳装置1は、音声認識処理又は翻訳処理の後など、表示画面18を視認すべき利用者の方向へ表示画面18を向けることを、その次の処理を実行するトリガとする。
 例えば、従来の音声区間の判定は、利用者によるボタンの押下操作などをトリガとして行われる。これに対して、音声入力制御部12の上記手法によれば、翻訳装置1の姿勢の変化(図4の(a)から(b)への変化、及び、(b)から(c)への変化)を検出することで音声区間の検出を自然な方法で実現することができる。翻訳装置1の姿勢の変化は、音声の入力時、音声認識結果の確認時、及び翻訳結果の受け手への提示時というに、話し手等が自然に行う動作の流れに沿ったものである。よって、この姿勢の変化によって、円滑な対話を阻害することが抑制される。さらに、ボタンの押下などの操作が不要となることから、翻訳装置1がボタン等の操作インタフェースを備える必要がなくなる。これにより、翻訳装置1のデザイン性の向上、又は、小型化に貢献する。
 2者による対話では、2者が交互に発話するので、翻訳装置1へ入力される発話の言語も交互に入れ替わる。後で説明を行うが、現在の話し手が利用する言語の判定は、話し手が発話している時の翻訳装置1の姿勢と、対話管理記憶部28に保存されている「第一言語」、「第二言語」、「基準言語」及び「基準提示方向」の情報から判定される。話し手の利用言語は、音声認識処理部14による音声認識処理の際に音声信号データを正しく認識するためにも参照される。また、翻訳処理部20が、翻訳元言語と翻訳先言語とを決定するために利用される。
 なお、上記において、翻訳装置1の姿勢が変化したと判定するか否かの角度の閾値は、設定情報により調整され得る。
 図5は、本実施の形態に係る基準言語の設定を促す画像50の一例を示す説明図である。具体的には、図5に示される画像50は、対話管理記憶部28に保存される設定情報の設定を行うための画像の一例である。
 画像50は、対話する2者が利用する言語である「第一言語」及び「第二言語」のそれぞれを設定するボタン52及び54、並びに、翻訳装置1の姿勢の変化を検知する感度を示す「感度」を設定するボタン56を含む。
 ボタン52は、第一言語として選定される言語を示す文字列(図5では「日本語」)が付されており、ボタン52に対するユーザのタッチ操作により他の言語に切り替え可能である。
 ボタン54は、第二言語として選定される言語を示す文字列(図5では「英語」)が付されており、ボタン54に対するユーザのタッチ操作により他の言語に切り替え可能である。
 ボタン56は、姿勢の感度を設定するためのボタンである。姿勢の感度は、翻訳装置1の姿勢の変化を検知する感度を示す情報であり、例えば、「高」、「中」及び「低」の3段階のいずれかに切り替え可能である。姿勢の感度は、ジャイロセンサ24が生成するセンサ値の変化量についての閾値に反映される。例えば、姿勢の感度を「高」とする場合、上記閾値が小さい値に設定される。すると、翻訳装置1の姿勢が比較的小さい変化をしただけで、その姿勢の変化量が閾値を超え、姿勢が変化したことが検知される。
 なお、翻訳装置1は、例えば、日本において外国人観光客を相手として接客を行う業態などで活用されることが多いと想定される。そのため、利用者の簡便性を考えて、第一言語は、よく利用される「日本語」などを規定値にしておいてもよい。その場合、利用者が翻訳装置1を使用するにあたって、実質的に選択する項目は第二言語だけになる。
 図6は、本実施の形態に係る基準言語の設定を促す画像60の一例を示す説明図である。具体的には、画像60は、最初の発話に用いる言語の設定を促すための画像の一例である。
 画像60は、発話言語を選択するためのボタン62を含む。
 ボタン62は、第一言語及び第二言語のどちらを最初の発話に用いる言語とするかを切り替えるボタンである。最初の発話に用いる言語は、第一言語を示す文字列である「日本語」、及び、第二言語を示す文字列である「英語」のいずれかである。ボタン62は、上記の言語のどちらを最初の発話に用いる言語とするかについての利用者による選択を受け付ける。
 機器を利用した翻訳対話において、最初の発話に用いる言語を、その発話に係る音声等から決定する必要がある。この決定を自動的に行うことが難しい場合、最初の発話に用いる言語について利用者による選択を要する。図6に示される画像60によって選択された言語は、対話管理記憶部28に保存されている設定情報の「基準言語」の項目に設定される。最初の発話時の翻訳装置1の提示方向がジャイロセンサ24により取得され、この提示方向が対話管理記憶部28の設定情報の「基準提示方向」として記憶される。これにより、翻訳装置1の提示方向が基準提示方向から所定角度範囲内である場合には、翻訳装置1の利用者である話し手は基準言語を利用言語とすることが判定でき、そうでない場合は第一言語と第二言語とのうちの基準言語ではない方の言語が発話に利用される言語であると判断することができる。このようにして、以降の発話言語の判別が翻訳装置1の提示方向によって決定することができる。
 以上のように構成された翻訳装置1について、その動作を以下に説明する。
 図7は、本実施の形態に係る翻訳装置1のメイン処理を示すフロー図である。
 ステップS101において、対話制御部22は、翻訳装置1を用いた翻訳対話処理を進めるに必要な設定が欠落しているか否かを判定する。ここで、翻訳対話処理に必要な設定とは、対話管理記憶部28に保存される設定項目のうちの「第一言語」、「第二言語」、「感度」及び「基準言語」である。これらの情報のうち1つでも欠落がある場合(ステップS101でyes)、ステップS102に進み、それ以外の場合(ステップS101でno)、ステップS104に進む。なお、基準提示方向は、後で話し手が基準言語で示される言語で発話を行った際に提示方向を取得し、取得した提示方向を新たな基準提示方向とする。これにより基準言語を利用する話し手に対応する提示方向が分かる。また、反対に第一言語と第二言語とのうち基準言語ではない方の言語は、基準提示方向ではない方向に提示方向が向いている時に使われる言語として対応付けが行われる。
 ステップS102において、対話制御部22は、翻訳対話処理を進めるのに必要な設定をする処理を行う。具体的には、対話制御部22は、表示制御部16を介して表示画面18に、翻訳対話処理を進めるのに必要な設定を促すための画像(例えば図5の画像50)を表示する。翻訳装置1が、日本で外国人観光客を相手に接客を行う業態などで活用される場合、利用者の簡便性を考え、第一言語の規定値を日本語にしておくなどしてもよい。この場合、利用者が実質的に選択する項目は「第二言語」だけである。
 姿勢の感度は、図4の(b)、(c)、(d)及び(e)で示すように話し手の操作によって翻訳装置1の姿勢が変わる前の提示方向と、変わった後の提示方向との差がどの程度あれば翻訳装置1の状態を遷移させるかを、3段階(「高」、「中」及び「低」)で表したものである。
 ステップS103において、対話制御部22は、基準言語の設定を行う。基準言語はステップS102で設定した第一言語及び第二言語のどちらかであり、対話管理記憶部28に保存される。ここで、基準言語は、これから発話を行う利用者の言語が選択されることが想定され、実際にはこの設定の後に発話する利用者が使う言語が設定される。また、ステップS103において、基準言語の設定が完了すると、対話管理記憶部28に保存されているデータは、基準言語に第一言語及び第二言語のいずれか一方が設定され、基準提示方向は未設定状態になる(図2の(b)参照)。このような状態である場合、次の発話が行われた際に取得された提示方向が基準提示方向として設定される。この処理は、図8のステップS205で詳説する。
 ステップS104において、翻訳装置1は、録音開始処理を行う。録音開始処理では、録音を開始するタイミングを適切に決定し、決定したタイミングに基づいて録音を開始する。詳細は後述する。
 ステップS105において、翻訳装置1は、録音終了処理を行う。録音終了処理では、ステップS104で開始された録音処理を適切に停止するタイミングを決定し、決定したタイミングに基づいて録音を停止する。詳細は後述する。
 ステップS106において、翻訳装置1は、音声認識結果の確認処理を行う。音声認識結果の確認処理では、対話制御部22は、音声認識処理部14による音声認識の結果を表示画面18に表示する。話し手は、自身の発話内容と翻訳装置1が音声認識した内容が適合しているか否か確認することができる。ここで、翻訳装置1の音声認識処理結果が適合していない場合、話し手は音声認識処理結果をキャンセルして再度発話を行うことができる。詳細は後述する。
 ステップS107において、翻訳処理部20は、話し手が表示画面18に表示された確認済みの音声認識結果であるテキストと、発話に用いた言語と、出力となる翻訳結果の言語とを入力として翻訳処理部20で翻訳を行い、その結果として翻訳テキストを生成する。ここで、発話に利用した言語は、前述のように対話管理記憶部28に設定されている基準言語と、基準提示方向と、発話時の翻訳装置1の姿勢(又は提示方向)から判別できる。従って、翻訳結果として得られる翻訳テキストの言語は、第一言語と第二言語とのうち、上記発話に利用した言語ではない方の言語である。生成された翻訳テキストは、対話管理記憶部28に、翻訳結果として保存される。
 ステップS108において、対話制御部22は、翻訳処理部20による翻訳処理の結果を表示画面18に表示する。表示制御部16は、第一言語及び第二言語のうち、発話に利用した言語ではない方の言語を用いて受け手のための表示用画像を生成し、翻訳結果を表示画面18に出力する。翻訳結果は、ステップS107で生成し対話管理記憶部28に翻訳結果として保存された情報を利用する。
 ステップS109において、音声合成部30は、ステップS107で生成し対話管理記憶部28に翻訳結果として保存された翻訳結果と、翻訳に利用した言語とを用いて合成音声信号データを生成する。生成した合成音声信号データは、受け手に聞こえるように音声出力部32及びスピーカ34より出力される。
 図8は、本実施の形態に係る翻訳装置1の録音開始処理を示すフロー図であり、図7におけるステップS104の処理を詳細に示すものである。
 ステップS201において、センサ値処理部26は、初期提示方向を取得する。具体的には、センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し、翻訳装置1の提示方向を算出する。本ステップにおいて、例えば、翻訳装置1は図4の(a)に示される姿勢になっている。そして、対話制御部22は、センサ値処理部26が算出した提示方向を、対話管理記憶部28に「初期提示方向」として保存する。
 ステップS202において、センサ値処理部26は、現時点の提示方向を取得する。具体的には、センサ値処理部26は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置1の提示方向を算出する。このようにして、対話制御部22は、話し手の操作によって刻々と変化する提示方向を取得する。
 ステップS203において、対話制御部22は、ステップS201で取得した初期提示方向と、ステップS202で取得した提示方向との差が閾値を超えたか否かを判定する。上記閾値は、対話管理記憶部28に保存されている「姿勢の感度」の設定に基づいて定められる。これによって、翻訳装置1の表示画面18が話し手へ向く方向へ傾けられたか否かを判定する(図4の(b))。なお、上記閾値は、第二所定角度に相当する。
 上記ステップS203において、提示方向の差が閾値を超えた場合(ステップS203でyes)には、ステップS204へ進み、それ以外の場合(ステップS203でno)にはステップS202を再度実行する。
 ステップS204において、対話制御部22は、対話管理記憶部28の基準言語と、基準提示方向の設定内容を調べる。具体的には、対話制御部22は、基準言語のみが設定されており、かつ、基準提示方向の設定が欠落している(つまり未設定である)とき、すなわち、基準言語を発話の言語として使用する者の方向が未設定である場合(ステップS204でyes)には、ステップS205へ進み、それ以外の場合には、ステップS206へ進む。
 ステップS205は、上記ステップS204で説明したように、基準言語のみ判別済みで、基準提示方向が未設定の場合に実行される。このとき翻訳装置1の姿勢は、例えば、図4の(b)で示すような、話し手の側に表示画面18が向いている状態である。この時の翻訳装置1の姿勢をジャイロセンサ24から取得し、対話管理記憶部28に基準提示方向として記憶する。これにより、以降においても翻訳装置1の提示方向が基準提示方向と同じ方向を向いている時は、基準言語が話し手の利用する言語とし、翻訳装置1の提示方向がそれ以外の方向を向いている場合には、第一言語と第二言語とのうち基準言語ではない方の言語が、話し手の利用する言語であるとする。
 ステップS206において、音声入力制御部12は、音声の録音の開始処理を実行し、マイク10から入力される話し手の音声録音を開始する。
 図9は、本実施の形態に係る翻訳装置1における録音終了処理を示すフロー図であり、図7におけるステップS105の処理を詳細に示すものである。
 ステップS301において、センサ値処理部26は、初期提示方向を取得する。具体的には、センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し、翻訳装置1の提示方向を算出する。本ステップにおいて、例えば、翻訳装置1は図4の(b)に示される姿勢になっている。対話制御部22は、対話管理記憶部28の設定情報の「初期提示方向」として設定する。なお、上記設定の時点で既に「初期提示方向」が設定されていた場合には上書きしてもよい。
 ステップS302において、センサ値処理部26は、現時点の提示方向を取得する。具体的には、センサ値処理部26は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置1の提示方向を算出する。このようにして、対話制御部22は、話し手の操作によって刻々と変化する提示方向を取得する。
 ステップS303において、対話制御部22は、ステップS301で取得した初期提示方向と、ステップS302で取得した提示方向との差が閾値を超えたか否かを判定する。上記閾値は、対話管理記憶部28に保存されている感度の設定に基づいて定められる。これによって、翻訳装置1の表示画面18が話し手に向く方向から遠ざけられたか否かを判定する(図4の(c))。上記差が閾値を超えた場合(ステップS303でyes)、ステップS304へ進み、それ以外の場合(ステップS303でno)、ステップS302を再度実行する。なお、上記閾値は、第三所定角度に相当する。
 ステップS304において、音声入力制御部12は、音声の録音の停止処理を実行し、マイク10から入力される話し手の音声の録音を終了する。このようにして音声入力制御部12は、ステップS206(図8)の録音開始処理時からステップS304の録音終了処理時までの期間に得られた音声信号の音声信号データを生成する。
 ステップS305において、音声認識処理部14は、ステップS304で生成した音声信号データと、発話時の翻訳装置1の提示方向から判別される言語から、音声認識処理を行うことで音声信号データをテキストに変換し、対話管理記憶部28に音声認識結果として保存する。
 図10は、本実施の形態に係る翻訳装置1における音声認識結果確認処理のフロー図であり、図7におけるステップS106の処理を詳細に示すものである。
 ステップS401において、表示制御部16は、ステップS305(図9)で生成されて対話管理記憶部28に音声認識結果として保存されたテキストを取得し、表示画面18に出力するための表示用データを生成する。生成された表示用データが表示画面18に出力されると、表示画面18は、表示用データに基づいて、上記テキストを表示する。表示画面18に表示されたテキストは、図4の(c)に示される姿勢において話し手が使用する言語で表示されるので、話し手は自身の意図したとおりに音声認識処理がなされたかを表示画面18に表示されたテキストで確認することができる。後続のステップでは、話し手が翻訳装置1をどの向きに傾けるかに応じて、音声認識の結果をキャンセルし再度録音を行うか、又は、音声認識の結果を確定し、受け手へその翻訳結果を提示するか、のいずれかの処理を行う。
 ステップS402において、センサ値処理部26は、初期提示方向を取得する。具体的には、センサ値処理部26は、ジャイロセンサ24が生成したセンサ値を取得し、翻訳装置1の提示方向を算出する。本ステップにおいて、例えば、翻訳装置1は図4の(c)に示される姿勢になっている。そして、対話制御部22は、センサ値処理部26が算出した提示方向を、対話管理記憶部28に「初期提示方向」として保存する。なお、上記設定の時点で既に初期提示方向が設定されていた場合には上書きしてもよい。
 ステップS403において、センサ値処理部26は、現時点の提示方向を取得する。具体的には、センサ値処理部26は、話し手の操作によって刻々と変化するセンサ値を順次取得し、取得したセンサ値を用いて翻訳装置1の提示方向を算出する。このようにして、対話制御部22は、話し手の操作によって刻々と変化する提示方向を取得する。
 ステップS404において、対話制御部22は、ステップS402で取得した初期提示方向と、ステップS403で取得した提示方向との差が閾値を超えたか否かを判定する。上記差が閾値を超えた場合(ステップS404でyes)、ステップS405へ進み、それ以外の場合(ステップS404でno)、ステップS403を再度実行する。なお、上記閾値は、第一所定角度に相当する。
 ステップS405において、対話制御部22は、提示方向が受け手に向かう向きに傾けられたか、又は、提示方向が話し手に向かう向きに傾けられたか、を判定する。これによって、対話制御部22は、提示方向が図4の(d)のように話し手側に傾けられた場合と、図4の(e)のように受け手側に傾けられた場合とで処理を分岐させる。
 図4の(d)のように話し手側に傾けられるのは、例えば、表示画面18上に表示された音声認識結果を見た話し手が、その音声認識結果が自身の意図と異なると判断した場合である。
 上記ステップS405において、提示方向が受け手に向かう向きに傾けられた場合(ステップS405で「受け手側」)には、ステップS401で表示画面18に表示させた音声認識結果を確定させることとして、本フロー図に示される一連の処理を終了する。一方、上記ステップS405において、提示方向が話し手に向かう向きに傾けられた場合(ステップS405で「話し手側」)には、ステップS401で表示画面18に表示させた音声認識結果をキャンセルすることとして、本フロー図に示される一連の処理を終了する。
 このようにすることで、翻訳装置1は2者間の対話における翻訳処理の音声認識の精度を向上させることができる。また翻訳装置1の利用者は違和感のない操作によるやりとりで、異なる言語間の対話を簡易に行うことができる。
 なお、本実施の形態によれば2者間の対話における翻訳装置1の動作を想定して説明したが、1人で使用することも可能である。
 なお、音声認識処理部14は、図1のように翻訳装置1の内部にある必要はなく、クラウドサーバなど通信経路を経た外部のサーバ上に配置されていてもよい。
 なお、翻訳処理部20は、図1のように翻訳装置1の内部にある必要はなく、クラウドサーバなど通信経路を経た外部のサーバ等にあってもよい。
 なお、表示画面18は、図1のように翻訳装置1の内部にある必要はなく、利用者が確認可能な場所にあればよく、例えば翻訳装置1と接続された外部ディスプレイなどで代替してもよい。
 なお、本実施の形態では、翻訳結果を合成音声で出力する例を説明したが、合成音声での確認は必須ではない。翻訳結果を合成音声で出力することが必要ではない場合には、音声合成部30、音声出力部32及びスピーカ34は必要ない。
 なお、翻訳装置1は、上記で説明した表示画面18に加えて、翻訳装置1の翻訳に関する動作の状態を示す表示画面18Aを備えていてもよい。表示画面18Aについて具体例を用いて説明する。
 図11は、本実施の形態に係る表示画面18Aの説明図である。図12は、本実施の形態に係る表示画面18Aの表示内容の説明図である。図11及び図12に示される表示画面18Aは、表示領域18B、18C及び18Dを含む。
 表示領域18B、18C及び18Dは、ジャイロセンサ24により検知される翻訳装置1の姿勢、つまり、翻訳装置1の翻訳に関する動作の状態に対応して設けられている。すなわち、表示領域18Bは、翻訳装置1が翻訳結果を表示している状態(図4の(e)の状態)に対応している。表示領域18Cは、翻訳装置1が音声認識結果を表示している状態(図4の(c)の状態)に対応している。表示領域18Dは、翻訳装置1が録音している状態(図4の(b)から(c)までの間の状態)に対応している。
 そして、表示領域18B、18C及び18Dのいずれかには、インジケータ(指示子又は表示子である画像)18Eが表示されている。表示領域18B、18C及び18Dのうち、インジケータ18Eが表示されている表示領域に対応する状態が、翻訳装置1の現在の状態を示している。このように、翻訳装置1の姿勢に応じてインジケータ18E(画像に相当)が表示画面18Aに表示される。
 例えば、翻訳装置1が話し手の音声を録音している状態では、表示領域18Dにインジケータ18Eが表示されている(図12の(a))。これにより、話し手は、翻訳装置1が確かに自身の音声を録音していることを認識しながら、翻訳装置1に音声の録音をさせることができる。仮に話し手の意思に反して手ぶれなどにより翻訳装置1の姿勢が変化して、録音状態が終了した場合には、話し手はそのことを認識し、適切な行動を取ることができる利点もある。
 また、翻訳装置1が翻訳結果を表示している状態では、表示領域18Bにインジケータ18Eが表示されている(図12の(b))。これにより、受け手は、翻訳装置1が翻訳結果を表示していることを認識することができる。
 なお、各表示領域におけるインジケータ18Eの表示位置は、任意としてもよいが、翻訳装置1の姿勢に応じて変化してもよい。例えば、図12の(a)の場合、提示方向がx軸マイナス方向に近づくほど、インジケータ18Eの表示位置が、表示領域18Cから離れた位置に変化してもよい。また、図12の(b)の場合、提示方向がx軸プラス方向に近づくほど、インジケータ18Eの表示位置が、表示領域18Cから離れた位置に変化してもよい。
 すなわち、インジケータ18Eの表示は、提示方向と、受け手に向かう方向として予め定められた方向または話し手に向かう方向として予め定められた方向と、の角度の差分に応じたインジケータ18Eの表示を含んでもよい。また、インジケータ18Eの表示は、提示方向が、(a)受け手に向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、または、(b)話し手に向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、に応じた画像の表示を含んでもよい。これにより、翻訳装置1の姿勢の変化をインジケータ18Eの表示位置によって表現することができる。
 また、表示領域18B、18C及び18Dのうち、翻訳装置1の現在の状態に対応した表示領域の色を変化させるようにしてもよい。話し手及び受け手に、より直観的に現在の翻訳装置1の状態を認識させることができる利点がある。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の翻訳装置などを実現するソフトウェアは、次のようなプログラムである。
 すなわち、このプログラムは、コンピュータに、翻訳装置の制御方法であって、前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、前記制御方法では、前記マイクにより第一ユーザの音声を示す音声信号を生成し、前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる制御方法を実行させる。
 以上、一つまたは複数の態様に係る翻訳装置などについて、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
 本開示は、翻訳装置を介した円滑な対話を阻害することを抑制する翻訳装置に利用可能である。
  1  翻訳装置
  10  マイク
  12  音声入力制御部
  14  音声認識処理部
  16  表示制御部
  18,18A  表示画面
  18B,18C,18D  表示領域
  18E  インジケータ
  20  翻訳処理部
  22  対話制御部
  24  ジャイロセンサ
  26  センサ値処理部
  28  対話管理記憶部
  30  音声合成部
  32  音声出力部
  34  スピーカ
  40  制御部
  50,60  画像
  52,54,56,62  ボタン

Claims (12)

  1.  翻訳装置の制御方法であって、
     前記翻訳装置は、マイクと、前記翻訳装置の姿勢を検出するセンサと、表示画面とを備え、
     前記制御方法では、
     前記マイクにより第一ユーザの音声を示す音声信号を生成し、
     前記センサにより検出される前記翻訳装置の姿勢の変化を検知し、
     前記翻訳装置の姿勢の変化の検知までに生成された前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを前記表示画面に表示させる
     制御方法。
  2.  前記翻訳装置の姿勢の変化の検知は、
     前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、前記翻訳装置から、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたことを検知することを含む
     請求項1に記載の制御方法。
  3.  前記制御方法では、さらに、
     前記提示方向が、前記翻訳装置から、前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたことを検知すると、前記マイクによる前記音声信号の生成を開始する
     請求項2に記載の制御方法。
  4.  前記制御方法では、さらに、
     前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向から第三所定角度だけ遠ざかったことを検知すると、前記マイクによる前記音声信号の生成を終了し、
     前記音声信号に対する音声認識処理を行うことで前記第一テキストを取得し、
     取得した前記第一テキストを前記表示画面に表示させる
     請求項2又は3に記載の制御方法。
  5.  前記制御方法では、さらに、
     前記第一テキストを前記表示画面に表示した後に、前記提示方向が、前記翻訳装置から前記第一ユーザに向かう方向として予め定められた方向へ向けて前記第一所定角度だけ近づいたことを検知すると、新たな音声信号の生成を開始する
     請求項4に記載の制御方法。
  6.  前記翻訳装置は、
     前記翻訳装置の姿勢と、前記姿勢において音声認識処理をするための言語を示す言語情報とを対応付けた対応情報を記憶しており、
     前記制御方法では、さらに、
     前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を用いて前記音声認識処理を行う
     請求項1~5のいずれか1項に記載の制御方法。
  7.  前記制御方法では、さらに、
     前記翻訳装置の現時点の姿勢に、前記対応情報により対応づけられた言語情報が示す言語を翻訳元言語として前記翻訳処理を行う
     請求項6に記載の制御方法。
  8.  検知される前記翻訳装置の姿勢に応じて画像を前記表示画面に表示させる
     請求項1~7のいずれか1項に記載の制御方法。
  9.  前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向と、前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向または前記第一ユーザに向かう方向として予め定められた方向と、の角度の差分に応じた画像の表示を含む
     請求項8に記載の制御方法。
  10.  前記翻訳装置の姿勢に応じた画像の表示は、前記表示画面の法線に平行な方向であって前記表示画面が画像を提示する方向である提示方向が、
      前記第一ユーザによる発話を受ける第二ユーザに向かう方向として予め定められた方向へ向けて第一所定角度だけ近づいたこと、
      または前記第一ユーザに向かう方向として予め定められた方向へ向けて第二所定角度だけ近づいたこと、
     に応じた画像の表示を含む
     請求項8に記載の制御方法。
  11.  翻訳装置であって、
     マイクと、
     前記翻訳装置の姿勢を検出するセンサと、
     前記マイクにより第一ユーザの音声を示す音声信号を生成する音声入力制御部と、
     前記センサにより検出される前記翻訳装置の姿勢の変化を検知すると、前記音声信号が音声認識された第一テキストに対する翻訳処理により生成された第二テキストを表示画面に表示させる表示制御部とを備える
     翻訳装置。
  12.  請求項1~10のいずれか1項に記載の制御方法をコンピュータに実行させるためのプログラム。
PCT/JP2017/028512 2016-11-11 2017-08-07 翻訳装置の制御方法、翻訳装置、および、プログラム WO2018087969A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020187004003A KR20190082162A (ko) 2016-11-11 2017-08-07 번역 장치의 제어 방법, 번역 장치, 및, 프로그램
CN201780003302.6A CN108307659A (zh) 2016-11-11 2017-08-07 翻译装置的控制方法、翻译装置以及程序
EP17857667.4A EP3540565A4 (en) 2016-11-11 2017-08-07 CONTROL METHOD FOR TRANSLATION DEVICE, TRANSLATION DEVICE AND PROGRAM
US15/939,390 US20180217985A1 (en) 2016-11-11 2018-03-29 Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016-220987 2016-11-11
JP2016220987 2016-11-11
JP2017-132069 2017-07-05
JP2017132069A JP6876936B2 (ja) 2016-11-11 2017-07-05 翻訳装置の制御方法、翻訳装置、および、プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/939,390 Continuation US20180217985A1 (en) 2016-11-11 2018-03-29 Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program

Publications (1)

Publication Number Publication Date
WO2018087969A1 true WO2018087969A1 (ja) 2018-05-17

Family

ID=62110603

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/028512 WO2018087969A1 (ja) 2016-11-11 2017-08-07 翻訳装置の制御方法、翻訳装置、および、プログラム

Country Status (1)

Country Link
WO (1) WO2018087969A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020053913A1 (ja) * 2018-09-10 2020-03-19 株式会社ウフル ウェアラブル端末表示システム、方法、プログラム及びウェアラブル端末

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278972A (ja) * 1995-04-06 1996-10-22 Sony Corp 音声入力翻訳装置
JP2000098990A (ja) * 1998-09-21 2000-04-07 Sharp Corp 画像表示装置
JP2005141759A (ja) * 2001-01-24 2005-06-02 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び記録媒体
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007264473A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2010033414A (ja) * 2008-07-30 2010-02-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置及びプログラム
JP2011076349A (ja) * 2009-09-30 2011-04-14 Nec Corp 携帯情報端末および表示制御方法
JP2011150657A (ja) 2010-01-25 2011-08-04 Fujitsu Toshiba Mobile Communications Ltd 翻訳音声再生装置およびその再生方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2015005250A (ja) * 2013-06-24 2015-01-08 レノボ・シンガポール・プライベート・リミテッド 携帯型情報処理装置、そのポインタ移動方法、およびコンピュータが実行可能なプログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278972A (ja) * 1995-04-06 1996-10-22 Sony Corp 音声入力翻訳装置
JP2000098990A (ja) * 1998-09-21 2000-04-07 Sharp Corp 画像表示装置
JP2005141759A (ja) * 2001-01-24 2005-06-02 Matsushita Electric Ind Co Ltd 音声変換装置、音声変換方法、プログラム、及び記録媒体
JP2007080097A (ja) * 2005-09-15 2007-03-29 Toshiba Corp 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007264473A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2010033414A (ja) * 2008-07-30 2010-02-12 Casio Hitachi Mobile Communications Co Ltd 携帯端末装置及びプログラム
JP2011076349A (ja) * 2009-09-30 2011-04-14 Nec Corp 携帯情報端末および表示制御方法
JP2011150657A (ja) 2010-01-25 2011-08-04 Fujitsu Toshiba Mobile Communications Ltd 翻訳音声再生装置およびその再生方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2015005250A (ja) * 2013-06-24 2015-01-08 レノボ・シンガポール・プライベート・リミテッド 携帯型情報処理装置、そのポインタ移動方法、およびコンピュータが実行可能なプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3540565A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020053913A1 (ja) * 2018-09-10 2020-03-19 株式会社ウフル ウェアラブル端末表示システム、方法、プログラム及びウェアラブル端末

Similar Documents

Publication Publication Date Title
JP6876936B2 (ja) 翻訳装置の制御方法、翻訳装置、および、プログラム
JP7334120B2 (ja) タッチ式操作システムのハンズフリーナビゲーション
JP6400109B2 (ja) 音声認識システム
ES2958183T3 (es) Procedimiento de control de aparatos electrónicos basado en el reconocimiento de voz y de movimiento, y aparato electrónico que aplica el mismo
US10542369B2 (en) Sound control apparatus, program, and control method
JP4667138B2 (ja) 音声認識方法及び音声認識装置
WO2015128960A1 (ja) 車載制御装置および車載制御方法
US20070203699A1 (en) Speech recognizer control system, speech recognizer control method, and speech recognizer control program
JP3702867B2 (ja) 音声制御装置
GB2524877A (en) Non-audible voice input correction
KR20150016776A (ko) 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
US20100229116A1 (en) Control aparatus
JP2015153325A (ja) 情報処理装置、操作支援方法及び操作支援プログラム
WO2016151956A1 (ja) 情報処理システムおよび情報処理方法
KR20140117771A (ko) 움직임 센서 기반의 휴대용 자동 통역 장치 및 그의 제어방법
WO2018087969A1 (ja) 翻訳装置の制御方法、翻訳装置、および、プログラム
JP6591167B2 (ja) 電子機器
JP2017219746A (ja) 音声出力制御装置および音声出力制御プログラム
JP7223561B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
US20050120046A1 (en) User interaction and operation-parameter determination system and operation-parameter determination method
JP2003316384A (ja) リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体
JP5157596B2 (ja) 音声認識装置
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2019020475A (ja) 音声認識装置、音声認識方法

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 20187004003

Country of ref document: KR

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17857667

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE