WO2017191713A1 - 制御装置、制御方法及びコンピュータプログラム - Google Patents

制御装置、制御方法及びコンピュータプログラム Download PDF

Info

Publication number
WO2017191713A1
WO2017191713A1 PCT/JP2017/010313 JP2017010313W WO2017191713A1 WO 2017191713 A1 WO2017191713 A1 WO 2017191713A1 JP 2017010313 W JP2017010313 W JP 2017010313W WO 2017191713 A1 WO2017191713 A1 WO 2017191713A1
Authority
WO
WIPO (PCT)
Prior art keywords
communication system
user
speaker
translation
result
Prior art date
Application number
PCT/JP2017/010313
Other languages
English (en)
French (fr)
Inventor
真一 河野
美和 市川
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/096,754 priority Critical patent/US10649715B2/en
Priority to JP2018515404A priority patent/JPWO2017191713A1/ja
Priority to EP17792646.6A priority patent/EP3454332A4/en
Publication of WO2017191713A1 publication Critical patent/WO2017191713A1/ja
Priority to US16/843,501 priority patent/US11188288B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F27/00Combined visual and audible advertising or displaying, e.g. for public address
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present disclosure relates to a control device, a control method, and a computer program.
  • Patent Document 1 discloses an example of a technique in which a translation technique is applied to a signage terminal.
  • a person who speaks hereinafter also referred to as “speaker”
  • the listener will not be able to process the information, but if the listener forces the speaker to stop speaking, smooth communication Cannot be done.
  • the present disclosure proposes a new and improved control device, control method, and computer program capable of allowing the speaker and the listener to grasp the situation of the listener while the speaker is speaking.
  • the speaker on the basis of the result of analyzing the utterance content by the result of the speaker speaking to the device, the speaker is allowed to stop speaking to the device on which the speaker is speaking
  • a control device including a control unit that executes processing is provided.
  • a control method including executing the process.
  • a computer program for causing a computer to execute the process is provided.
  • Embodiment of the present disclosure [1.1. Overview] Before describing the embodiments of the present disclosure in detail, an outline of the embodiments of the present disclosure will be described.
  • Patent Document 1 discloses an example of a technique for facilitating communication between humans by applying a translation technique to a signage terminal having a transparent display.
  • the speaker needs to bring his mouth close to the microphone, but if the speaker moves his body close to the microphone or his mouth close to the microphone, the posture of the speaker collapses, and the conversation partner is likely to feel uncomfortable. Further, when a user interface for activating voice recognition is displayed on the display, it is necessary for the speaker to move his / her line of sight or to operate the user interface in order to search for the user interface. As a result, the speaker is looking in a different direction from the conversation person's face when he wants to confront the conversation, and since these actions are originally unnecessary actions for conversation, the situation becomes unnatural as a conversation.
  • Talkers often talk while thinking or thinking about what they want to ask, even if they are not comfortable with what they speak. Therefore, even when not speaking, there is often no desire to block the conversation from the listener side. However, it is difficult for the speaker to convey the intention up to that naturally to the listener, such as in an utterance, especially in situations where translation occurs. As a result, there is a possibility that the listener side starts speaking while blocking the speaker's speech.
  • the listener side must stop the utterer from speaking.
  • the speaker notifies the speaker that he / she feels a large amount of information, communication becomes unnatural and the notification itself tends to hesitate in the first place.
  • the speaker is close to the microphone, the state of facing the speaker collapses, so that the receiver side does not actively approach the microphone.
  • the present disclosure person enables communication in a human face-to-face communication, particularly in a situation where conversation and translation results are presented, through a signage terminal or the like.
  • a signage terminal or the like We conducted an intensive study on the technology.
  • the present disclosing person has a technology for enabling natural communication by detecting the situation of the speaker and the interlocutor when communicating with each other through signage terminals. It came to devise.
  • FIG. 1 is an explanatory diagram illustrating a communication system using a signage terminal 100 according to an embodiment of the present disclosure.
  • the signage terminal 100 is an information display terminal equipped with a large display installed in a city, for example, a station, department store, shopping mall, stadium or the like where many people gather.
  • the signage terminal 100 according to the present embodiment has a function that allows humans to communicate with each other in a face-to-face relationship, and particularly has a function that analyzes and translates the content of human speech and transmits it to a conversation partner.
  • a description will be given on the assumption that two people (users u1 and u2) are interacting with each other with the signage terminal 100 interposed therebetween.
  • FIG. 2 is an explanatory diagram illustrating an overall configuration example of the communication system 1 using the signage terminal 100 according to the embodiment of the present disclosure.
  • an overall configuration example of the communication system 1 according to the embodiment of the present disclosure will be described with reference to FIG.
  • the communication system 1 includes a signage terminal 100, an information processing device 200, a speech information processing device 300, and a translation processing device 400.
  • the communication system 1 includes a signage terminal 100, an information processing device 200, a speech information processing device 300, and a translation processing device 400.
  • the signage terminal 100 is an information display terminal having a function of helping communication between people.
  • the signage terminal 100 includes a camera 101, microphones 102a to 102h, and a display 103 on one surface.
  • the camera 101 captures an image of a person using the signage terminal 100.
  • the microphones 102a to 102h collect the utterance content of a person using the signage terminal 100.
  • the microphones 102a to 102d are provided on one side and the microphones 102e to 102h are provided on the opposite side.
  • the number and arrangement of microphones are not limited to this example.
  • the microphones 102a to 102h may be simply referred to as the microphone 102 in some cases.
  • all the microphones 102a to 102h do not have to be in a state where sound can be collected, and at least one of them may be in a state where sound can be collected according to the positions of the faces of the users u1 and u2. A method of selecting the microphone 102 that can collect sound will be described in detail later.
  • the display 103 is a display device that displays various types of information, and includes a liquid crystal display, an organic EL display, and the like.
  • the display 103 may be transparent or non-transparent.
  • the display 103 displays a translation of the contents of the utterances of the users u1 and u2, and displays information for conveying the utterance status of the users u1 and u2 to the other party.
  • FIG. 3 is an explanatory diagram showing an example when the signage terminal 100 is viewed from above.
  • the signage terminal 100 includes the camera 101, the microphones 102a to 102h, and the display 103 on one surface, and the camera 101 ′, the microphones 102a ′ to 102h ′, and the display 103 ′ on the surface opposite to the surface. Is provided.
  • the information processing apparatus 200 is an apparatus that mainly executes processing related to display of information to be displayed on the signage terminal 100.
  • the information processing apparatus 200 is connected to the signage terminal 100 by some communication path.
  • the communication path may be wired or wireless.
  • the communication protocol for communication between the signage terminal 100 and the information processing apparatus 200 is not limited.
  • the voice information processing device 300 is a device that mainly performs processing on the voice collected by the microphones 102a to 102h of the signage terminal 100.
  • the audio information processing apparatus 300 is connected to the information processing apparatus 200 through some communication path.
  • the communication path may be wired or wireless.
  • a communication protocol for communication between the information processing apparatus 200 and the voice information processing apparatus 300 is not limited.
  • the translation processing device 400 is a device that mainly executes processing related to translation, and in particular, is a device that executes a translation process on the content uttered by the users u1 and u2 and recognized by the voice information processing device 300.
  • the translation processing apparatus 400 is connected to the audio information processing apparatus 300 through some communication path.
  • the communication path may be wired or wireless.
  • a communication protocol in communication between the speech information processing apparatus 300 and the translation processing apparatus 400 is not limited.
  • FIG. 2 shows three devices, the information processing device 200, the speech information processing device 300, and the translation processing device 400, but the present disclosure is not limited to such an example, and is provided in any of the devices. At least a part of the functions may be provided in another device.
  • FIG. 4 is an explanatory diagram illustrating a functional configuration example of the signage terminal 100 according to the embodiment of the present disclosure.
  • the functional configuration example of the signage terminal 100 according to the embodiment of the present disclosure will be described with reference to FIG.
  • the signage terminal 100 includes a camera 101, a microphone 102, a display 103, a communication unit 104, and a control unit 105.
  • the camera 101 captures a human image using the signage terminal 100 with a moving image.
  • a moving image captured by the camera 101 is sent to the control unit 105 or sent to the information processing apparatus 200 via the communication unit 104.
  • the microphone 102 collects a voice uttered by a person using the signage terminal 100.
  • the sound collected by the microphone 102 is sent to the control unit 105 or sent to the voice information processing apparatus 300 via the communication unit 104.
  • the display 103 is a display device that displays various types of information, and includes a liquid crystal display, an organic EL display, or the like.
  • the display 103 may be transparent or non-transparent.
  • the display 103 displays a translation of the contents of the utterances of the users u1 and u2, and displays information for conveying the utterance status of the users u1 and u2 to the other party.
  • the display of information on the display 103 is controlled by, for example, a control unit 105 described later or the information processing apparatus 200.
  • the communication unit 104 is a communication interface for exchanging information with other devices.
  • the communication unit 104 may perform wired communication with another device or may be wireless communication.
  • the communication unit 104 can apply any communication protocol for communication with other devices.
  • the control unit 105 includes, for example, a processor such as a CPU (Central Processing Unit), a ROM, a RAM, and the like, and controls the operation of each unit of the signage terminal 100.
  • a processor such as a CPU (Central Processing Unit), a ROM, a RAM, and the like, and controls the operation of each unit of the signage terminal 100.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • control unit 105 includes a display control unit 106, a sound collection control unit 107, and a detection unit 108.
  • the display control unit 106 controls display of information on the display 103.
  • An example of information displayed on the display 103 by the display control unit 106 will be described in detail later.
  • the sound collection control unit 107 performs control to switch the sound collection mechanism on and off with respect to the plurality of microphones 102.
  • the sound collection control unit 107 performs a process of turning on the sound collection mechanism only for the microphone 102 determined as the high sensitivity microphone position by the high sensitivity microphone position acquisition flow described later.
  • the sound collection control unit 107 selects the microphone 102 that turns on or off the sound collection mechanism based on the position of the human face imaged by the camera 101.
  • a specific example of the on / off switching of the sound collection mechanism for the microphone 102 by the sound collection control unit 107 will be described in detail later.
  • the detection unit 108 performs various detection processes using images captured by the camera 101.
  • detection processing performed by the detection unit 108 includes human detection, face detection, facial part detection, ear position estimation, motion amount detection, and the sound collection control unit 107 turns on the sound collection mechanism. For example, determination of the proximity of the mouth to the microphone 102, detection of the user's line of sight, detection of the user's conflict or nodding, detection of the user's palm, and the like.
  • Information detected by the detection unit 108 includes various processes described later, such as an initial process flow, an ear position estimation flow, a high-sensitivity microphone position acquisition flow, a translation mode processing flow, a sphere object animation processing flow, and a translation mode continuation determination process. It can be used for a flow, processing amount overflow judgment processing flow, and the like.
  • FIG. 5 is an explanatory diagram illustrating a functional configuration example of the information processing apparatus 200 according to the embodiment of the present disclosure.
  • a functional configuration example of the information processing apparatus 200 according to the embodiment of the present disclosure will be described with reference to FIG.
  • the information processing apparatus 200 includes a communication unit 210. And a control unit 220.
  • the communication unit 210 is a communication interface for exchanging information with other devices.
  • the communication unit 210 may perform wired communication with other devices or may be wireless communication.
  • the communication unit 210 can apply any communication protocol for communication with other devices.
  • the control unit 220 includes, for example, a processor such as a CPU, a ROM, a RAM, and the like, and controls the operation of each unit of the information processing apparatus 200.
  • the control unit 220 is a processing flow of the communication system 1 to be described later, for example, an initial processing flow, an ear position estimation flow, a high sensitivity microphone position acquisition flow, a translation mode processing flow, a sphere object animation processing flow, a translation mode continuation determination processing flow, A processing amount overflow determination processing flow or the like is executed.
  • control unit 220 includes a display control unit 221, an image generation unit 222, and a determination unit 223.
  • the display control unit 221 controls the display of information on the display 103 of the signage terminal 100.
  • the display control unit 221 performs image processing on an image in which a person using the signage terminal 100 is captured. The contents of image processing that can be performed by the display control unit 221 will be described in detail later.
  • the image generation unit 222 generates an image to be displayed on the display 103 according to the result of image processing that can be performed by the display control unit 221, for example.
  • the contents of the image generation processing that can be performed by the image generation unit 222 will be described in detail later.
  • the determination unit 223 executes processing related to communication performed in the communication system 1, specifically, various determination processing in the processing flow of the communication system 1 described later.
  • the contents of the determination process that can be performed by the determination unit 223 will be described in detail later. For example, when the speaker temporarily stops speaking, for example, whether or not the translation process should be continued It is possible to determine whether or not the receiver receiving the utterance content or the translation result feels a large amount of utterance.
  • the determination unit 223 continues the translation processing based on the utterance content and the utterance status of the utterer. Make a decision. If the determination unit 223 determines that the translation process should be continued as a result of performing the translation process continuation determination, the information processing apparatus 200 causes the translation processing apparatus 400 to continue the translation process and ends the translation process. If it is determined that it should be, the translation processing device 400 ends the translation process.
  • FIG. 6 is an explanatory diagram illustrating a functional configuration example of the audio information processing apparatus 300 according to the embodiment of the present disclosure.
  • a functional configuration example of the audio information processing apparatus 300 according to the embodiment of the present disclosure will be described with reference to FIG.
  • the audio information processing apparatus 300 includes a communication unit 310. And a control unit 320.
  • the communication unit 310 is a communication interface for exchanging information with other devices.
  • the communication unit 310 may perform wired communication with another device or may be wireless communication.
  • the communication unit 310 can apply any communication protocol in communication with other devices.
  • the control unit 320 includes, for example, a processor such as a CPU, a ROM, a RAM, and the like, and controls the operation of each unit of the audio information processing apparatus 300.
  • control unit 320 includes a detection unit 321, an analysis unit 322, and a generation unit 323.
  • the detecting unit 321 detects a human voice uttered toward the signage terminal 100.
  • the voice detected by the detection unit 321 is analyzed by the analysis unit 322.
  • the detecting unit 321 detects speech content, detects speech, detects a predetermined word (filler word), detects an utterance tone, and detects a silent section. sell.
  • the analysis unit 322 performs various analysis processes on the human voice detected by the detection unit 321. As the analysis processing executed by the analysis unit 322, for example, analysis of speech information, analysis of language, analysis of morphemes and phrases included in the utterance content, and the like can be performed.
  • the generation unit 323 generates a text version of the content issued toward the signage terminal 100 based on the analysis result of the analysis unit 322.
  • the text generated by the generation unit 323 is used for translation processing in the translation processing apparatus 400.
  • FIG. 7 is an explanatory diagram illustrating a functional configuration example of the translation processing apparatus 400 according to the embodiment of the present disclosure.
  • a functional configuration example of the translation processing apparatus 400 according to the embodiment of the present disclosure will be described with reference to FIG.
  • the translation processing device 400 includes a communication unit 410. And a control unit 420.
  • the communication unit 410 is a communication interface for exchanging information with other devices.
  • the communication unit 410 may perform wired communication with another device or may be wireless communication.
  • the communication unit 410 can apply any communication protocol for communication with other devices.
  • the control unit 420 includes, for example, a processor such as a CPU, ROM, RAM, and the like, and controls the operation of each unit of the translation processing apparatus 400.
  • control unit 420 includes a translation processing unit 421 and a score generation unit 422.
  • the translation processing unit 421 uses a text generated by the voice information processing apparatus 300 from the human voice uttered toward the signage terminal 100 or another language directly using the human voice uttered toward the signage terminal 100. Perform the translation process.
  • the score generation unit 422 generates a score for translation processing in the translation processing unit 421.
  • the score generation processing by the score generation unit 422 will be described in detail later.
  • FIG. 8 is an explanatory diagram illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • a user u1 from a foreign country is in trouble without knowing how to get to his destination or where to buy food.
  • the user u1 is walking around the city, he finds a signage terminal 100 with a message indicating that communication is possible while translating, so he stands in front of it in hopes of telling someone.
  • the appearance of the user u1 captured by the camera 101 is displayed on the display 103 '.
  • FIG. 9 is an explanatory diagram illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • the user u2 who finds the user u1 standing in front of the signage terminal 100 with a troubled face wants to help the user u1, but is not good at English. However, the user u2 thinks that it may be managed through the signage terminal 100 that can communicate while translating, and stands in front of the signage terminal 100.
  • the signage terminal 100 acquires the utterance content of the user u1, and outputs the content of the translation processing in the server at the back to the display on the user u2 side.
  • the user u2 can know the content of the utterance of the user u1 by confirming the content of the translation process output by the signage terminal 100.
  • the communication system 1 shifts to the conversation mode as an initial process.
  • the communication system 1 detects a person from an image captured by the camera 101, detects that a face is directly facing the camera 101, and can detect the face, and further indicates that the person has remained in the place for a predetermined time or more. Transition to conversation mode according to conditions.
  • the communication system 1 executes various processes from the image information of the user facing the signage terminal 100 as an initial process.
  • the communication system 1 generates, for example, an image that simulates a user's face, a user interface that uses contour information of the user's head, face, and body, and information on the positions of the user's eyes, mouth, and nose. And the calculation of the position of the ear based on the information on the position of the nose in the mouth.
  • These initial processes may be executed by the information processing apparatus 200, for example.
  • the communication system 1 performs a process of reflecting microphone position information on the user interface as an initial process. Specifically, the communication system 1 uses the information on the position of the microphone 102 provided in the signage terminal 100 and the acquired information on the position of the mouth of the user, and the position of the microphone 102 that allows the user to speak with the mouth approached. Generate a user interface to indicate
  • FIG. 10 is an explanatory diagram illustrating an example of a user interface displayed on the display 103 of the signage terminal 100.
  • FIG. 10 shows an example of a user interface when the user u1 stands in front of the signage terminal 100.
  • the communication system 1 generates the body contour UI 111 facing the user u 1 from the image information of the user u 1 facing the signage terminal 100 and displays it on the display 103.
  • the communication system 1 determines the position of the microphone 102 (referred to as a high-sensitive microphone position) from which the user approaches the mouth and speaks from the information on the position of the microphone 102 and the acquired information on the position of the user's mouth.
  • a microphone UI 112 indicating the position of the highly sensitive microphone is generated and displayed on the display 103.
  • the communication system 1 may determine the position of the microphone 102 at a position far from the position corresponding to the mouth in the directly facing body contour UI111 as a highly sensitive microphone position where the user approaches the mouth and speaks. This is to prompt the user to speak as far as possible from the body contour UI 111 when speaking.
  • the communication system 1 displays the microphone UI 112 on the display 103
  • the communication system 1 displays the microphone UI 112 so that the microphone UI 112 is moved from the position corresponding to the mouth in the directly facing body outline UI 111 to the high sensitivity microphone position where the user approaches the mouth and speaks. Also good. Further, the communication system 1 may display the microphone UI 112 on the display 103 so as to blink or move up and down.
  • FIG. 11 is an explanatory diagram showing an example of a state where the user u2 stands on the opposite side of the signage terminal 100 as viewed from the user u1.
  • 12 shows a display example of the display 103 when the user u2 stands on the opposite side of the signage terminal 100 when viewed from the user u1 when the user interface shown in FIG. 10 is displayed on the display 103. It is explanatory drawing. As described above, the display 103 can display an image captured by the camera 101 ′ provided on the opposite side.
  • FIG. 13 is an explanatory diagram showing an example of a user interface displayed on the display 103 ′ of the signage terminal 100.
  • FIG. 13 shows an example of a user interface when the user u2 stands in front of the signage terminal 100.
  • the communication system 1 generates the body contour UI 111 'facing the user u2 from the image information of the user u2 facing the signage terminal 100, and displays the contour on the display 103'.
  • the communication system 1 determines the position of the microphone 102 ′ (highly sensitive microphone position) from which the user speaks with the mouth close based on the information on the position of the microphone 102 ′ and the acquired information on the position of the user's mouth.
  • a microphone UI 112 ′ is generated and displayed on the display 103 ′.
  • the communication system 1 executes initial processing.
  • the communication system 1 subsequently performs a transition to the translation mode and a voice recognition activation process.
  • FIG. 14 is an explanatory diagram showing a state in which the user u1 brings his face close to the high sensitivity microphone position. In this way, when the user u1 brings his face close to the high-sensitivity microphone position and the distance between the user's mouth position and the high-sensitivity microphone position is detected to be equal to or less than a predetermined threshold value, the communication system 1 translates Switch to mode.
  • the communication system 1 shifts to the translation mode, it activates speech recognition.
  • the communication system 1 activates speech recognition, an image simulating the face of the user u1 generated in the initial process is displayed on the partner's display 103 ′ on the opposite body contour UI111 of the user u1. Processing to display at the face position is executed.
  • FIG. 15 is an explanatory diagram showing an example of a user interface displayed on the display 103 ′ when the communication system 1 activates voice recognition.
  • the communication system 1 displays an image 114 simulating the user u1 face at the position of the user u1 face.
  • the communication system 1 is a case where the user u1 brings the face close to the high sensitivity microphone position.
  • the user u1 and the user u2 are interacting with each other across the signage terminal 100.
  • the communication system 1 may replace part or all of the appearance of the user u1 that is visible to the user u2 with the image 114.
  • the image 114 simulating the face of the user u1 may be the entire face, or may be a part of the face such as just the mouth or the eyes.
  • the image 114 moves the mouth portion as if speaking or blinks at random intervals. Processing may be performed.
  • the communication system 1 may replace part or all of the appearance of the user u1 that is visible to the user u2 with the image 114 when the user u1 faces the signage terminal 100.
  • the communication system 1 when the communication system 1 activates speech recognition, the communication system 1 turns off the microphone 102 at a position other than the high sensitivity microphone position. In addition, when the voice recognition is activated, the communication system 1 continues to acquire the line-of-sight information of the user u1 while the voice recognition is activated. Further, when the voice recognition is activated, the communication system 1 continues to acquire the frequency information of the user u1 while the voice recognition is activated.
  • the communication system 1 displays a user interface for ending the voice recognition on the display 103 when starting the voice recognition.
  • the communication system 1 may, for example, blink the directly-facing body contour UI111 or display information on the current body contour as a body contour user interface.
  • the communication system 1 may display a user interface indicating that the content of the speech reaches the partner user u2.
  • FIG. 16 is an explanatory diagram showing an example of a user interface displayed on the display 103 on the user u1 side.
  • the communication system 1 causes the display 103 to display a sphere UI 115 that displays the recognition result of the speech.
  • the sphere UI 115 is a user interface displayed so as to move from the height of the mouth of the user u1 toward the ear of the user u2 displayed on the display 103.
  • the communication system 1 can indicate that the content of the utterance of the user u1 has reached the partner user u2.
  • the communication system 1 may display the voice recognition result of the speech on the display 103.
  • FIG. 16 shows an example in which the speech recognition result 116 of the utterance of the user u1 is displayed on the display 103.
  • the voice information processing apparatus 300 recognizes that the user u1 is speaking in English, and the content of the user's utterance is displayed on the display 103 as English. Whether or not the user speaks may be automatically recognized by the voice information processing apparatus 300 or may be determined by the voice information processing apparatus 300 analyzing the utterance content.
  • the user may operate the signage terminal 100 so that the signage terminal 100 is designated as to which language to speak.
  • the communication system 1 executes a translation process using the voice recognition result of the user u1's utterance.
  • the communication system 1 continues to acquire the score of the translation process when executing the translation process.
  • the method for obtaining the score will be described in detail later.
  • the communication system 1 may translate the entire text of the speech recognition result, or may summarize the speech recognition result after summarizing the speech recognition result.
  • the communication system 1 may perform morphological analysis on the speech recognition results and extract parts of speech that seem to be the main points.
  • the communication system 1 may display a user interface indicating to the user u2 that the user u1 is speaking.
  • FIG. 17 is an explanatory diagram showing an example of a user interface displayed on the display 103 ′ on the user u 2 side.
  • the communication system 1 displays a sphere UI117 that displays the recognition result of the speech from the position of the mouth of the image 114 that simulates the face of the user u1. 103 '.
  • the communication system 1 can indicate to the partner user u2 that the user u1 is speaking.
  • the communication system 1 may display the translation result for the speech recognition result of the speech on the display 103 '.
  • FIG. 17 shows an example in which the translation result 118 for the speech recognition result of the user u1's utterance is displayed on the display 103 '.
  • the translation result 118 indicates that “the train in my country does not arrive on time”, but when the above summary is translated, for example, the translation result 118 indicates that “the train does not arrive on time” "Can be displayed.
  • the communication system 1 displays the translation result 118 on the signage terminal 100, it is desirable that the communication system 1 display the translation result 118 in a position where the confrontation state of the listener does not collapse.
  • the translation result 118 is displayed near the speaker's image 114. Since the translation result 118 is displayed near the speaker's image 114, the user u2 who is a listener can check the translation result without breaking the facing state.
  • the communication system 1 may display the voice recognition results side by side on the time axis.
  • FIG. 18 is an explanatory diagram illustrating an example of a user interface displayed on the display 103 on the user u1 side.
  • the communication system 1 may display the voice recognition result 116 of the user u1 side by side on the time axis as shown in FIG. By displaying the voice recognition result of the user u1 in time series, the communication system 1 can make the speaker confirm the past utterance content.
  • the communication system 1 may also display a photograph of the speaker as shown in FIG.
  • the communication system 1 displays the speech recognition result 116 together with the photograph of the speaker, thereby allowing the speaker to confirm who spoke the content in the past.
  • the translation score for the utterance content of the user u 1 is lower than a predetermined value, and the line of sight of the user u 1 who is the speaker is the user u 2. If you are not facing, continue translation mode. This is based on the human psychology that if the information to be communicated is lost, the eyes of the person will not be met or the line of sight will swim.
  • FIG. 19 is an explanatory diagram for explaining that the communication system 1 determines whether or not to continue the translation mode.
  • FIG. 19 illustrates a state where the appearance of the user u2 is displayed on the display 103 on the user u1 side.
  • FIG. 19 shows a region 119 obtained by adding a predetermined threshold value d_surrounding_thresh to the directly facing body contour region of the user u2. This area 119 may not be displayed on the display 103.
  • the communication system 1 continues the translation mode when the translation score for the utterance content of the user u1 is lower than a predetermined value and the line of sight of the user u1 exists outside the region 119 for a predetermined time t_surrounding_thresh. to decide.
  • the communication system 1 Judges cancel.
  • a predetermined threshold d_surrounding_thresh is uniformly added to the entire body contour region of the user u2, but this predetermined threshold is determined based on the body of the user u2.
  • the communication system 1 may change the predetermined threshold value above and below the neck.
  • the communication system 1 may change the judgment as to whether or not to continue the translation mode according to the point of view of the user u1. That is, the communication system 1 changes the judgment as to whether or not to continue the translation mode depending on whether the user u1 is looking at the face of the user u2, looking at the body, looking at the hand, or the like. Also good.
  • the communication system 1 may change the determination as to whether or not to continue the translation mode according to the presence or absence of the background movement of the user u2. As a result, the communication system 1 changes the judgment as to whether or not to continue the translation mode depending on whether the user u1 is unaware of what the user speaks and the eyes are swimming in the background of the user u2. it can.
  • the communication system 1 may determine whether the translation mode should be continued using the user's bag. For example, if the user easily moves his / her line of sight, it may be determined that the translation mode should be continued even if the user shifts his / her line of sight from the conversation partner.
  • the communication system 1 may change a threshold used for determining whether or not to continue the translation mode according to a situation in which users are communicating with each other. For example, the communication system 1 may change the threshold used for determining whether or not to continue the translation mode depending on whether the situation in which the communication is performed is a route guidance, a meeting, or the like. Further, for example, the communication system 1 is used to determine whether or not the translation mode should be continued depending on whether the situation in which the user is communicating is a situation where the user is in a hurry or a situation where time is available. The threshold value may be changed.
  • the communication system 1 may change the threshold value used for determining whether or not to continue the translation mode depending on the relationship with the communication partner. For example, whether the communication system 1 should continue the translation mode depending on whether the person who is communicating is the first person to meet, whether it is the opposite sex, or a person with a high job title
  • the threshold value used for the determination may be changed.
  • the communication system 1 detects, for example, an utterance in the content of the utterance of the user u1 when the voice input is lost, that is, even when the utterance of the user u1 is interrupted, if the sentence uttered by the user u1 is not completed, for example.
  • Continue translation mode The communication system 1 includes a predetermined filler word before silence, and continues the translation mode until a predetermined time t_fillerwords_thresh elapses after the filler word is issued.
  • FIG. 20 is an explanatory diagram for explaining that the communication system 1 determines whether to continue the translation mode.
  • FIG. 20 shows three determination examples of whether or not the communication system 1 should continue the translation mode.
  • the first example is an example in which the communication system 1 cancels the translation mode when a predetermined time elapses after the utterance of the user u1 is interrupted.
  • the second example is an example in which the communication system 1 continues the translation mode when an utterance is detected even if the user u1 stops speaking.
  • the communication system 1 continues the translation mode until a predetermined time t_fillerwords_thresh elapses after the filler word is issued. It is an example.
  • the communication system 1 determines whether or not to continue the translation mode based on the voice quality of the user even when the voice input is lost, that is, when the user u1 stops speaking. For example, in the communication system 1, even when the voice input is lost, that is, when the utterance of the user u ⁇ b> 1 is interrupted, the frequency information of the last utterance is below a certain threshold compared to the average of the frequencies that have been acquired so far. If yes, continue translation mode.
  • the communication system 1 matches the person included in a predetermined database (here, “conversation end determination word database”) as a result of performing the voice recognition before the voice input is lost, the voice input from the user is performed.
  • the translation mode is continued until the predetermined time t_convendwords_thresh elapses without any remaining time, and the translation mode is terminated when the predetermined time t_convendwords_thresh elapses.
  • FIG. 21 is an explanatory diagram for explaining that the communication system 1 determines whether or not to continue the translation mode.
  • FIG. 21 shows an example in which the user utters the phrase “What do you think of that?” Registered in the conversation end determination word database immediately before the utterance is stopped.
  • the communication system 1 that has detected the utterance of the phrase continues the translation mode until a predetermined time t_convendwords_thresh elapses without any voice input from the user. Then, the communication system 1 ends the translation mode when a predetermined time t_convendwords_thresh elapses without any voice input from the user.
  • the communication system 1 cancels the translation mode when the user performs an operation for intentionally canceling the translation mode.
  • the operation for intentionally releasing the translation mode may include, for example, pressing an end button displayed on the display 103, returning the body to a confrontation state, finishing the utterance and returning the line of sight to the conversation partner. However, it is not limited to these examples.
  • FIG. 22 is an explanatory diagram illustrating an example of a user interface displayed on the display 103 by the communication system 1.
  • FIG. 22 shows an example in which the display 103 displays “STOP” and an end button 120 for canceling the translation mode.
  • the communication system 1 detects that the user has touched the end button 120 or has brought a finger close to the end button 120, the communication system 1 cancels the translation mode.
  • the language displayed on the end button 120 may be changed according to the language spoken by the user u1.
  • the communication system 1 When the communication system 1 detects that the user touches the end button 120 or closes the finger to the end button 120, the communication system 1 uses, for example, a message that prompts the user to return the body to the facing state. It may be displayed on the display 103 or output by voice.
  • FIG. 23 is an explanatory diagram for explaining that the communication system 1 determines whether or not to continue the translation mode.
  • FIG. 23 shows an example in which the user returns the posture to the position corresponding to the directly facing body outline UI111.
  • the communication system 1 cancels the translation mode when it detects that the user has returned the posture to the position corresponding to the directly-facing body contour UI111 and has passed a predetermined time after returning the posture.
  • the communication system 1 It may be determined that the body has returned to the facing state.
  • the communication system 1 may determine whether or not to continue the translation mode based on, for example, noise around the signage terminal 100 and the presence or absence of noise. If noise or noise is generated around the signage terminal 100 when the speaker stops speaking, the speaker may have been distracted by the noise or noise. Therefore, when the speaker stops speaking, the communication system 1 may determine that the translation mode is continued if noise or noise is generated around the signage terminal 100.
  • the communication system 1 may determine whether or not to continue the translation mode based on, for example, the content of the response from the other party. For example, if the answer from the other party is a question, the user tries to utter the answer, and therefore the communication system 1 determines to continue the translation mode even if the user does not utter for a while. On the other hand, if the answer from the other party is not a question, the communication system 1 determines to end the translation mode if the user has not spoken for a while.
  • the communication system 1 detects the situation on the listener side and determines whether or not there is a processing overflow on the listener side. If the listener side determines that processing overflow has occurred, the communication system 1 notifies the speaker side to temporarily stop the utterance.
  • the line of sight of the user u2 who is the listener is not facing the user u1, and is a distance greater than or equal to a predetermined threshold from the body contour information of the user u1
  • a predetermined threshold from the body contour information of the user u1
  • FIG. 24 is an explanatory diagram for explaining that the communication system 1 determines the processing overflow on the listener side.
  • FIG. 24 illustrates a state where the appearance of the user u1 is displayed on the display 103 'on the user u2 side.
  • FIG. 24 shows a region 119 ′ in which a predetermined threshold value d_surrounding_thresh is added to the body contour region facing the user u 1.
  • This area 119 ' may not be displayed on the display 103'.
  • the user u2 is overflowing in processing when the line of sight of the user u2 exists outside the area 119 ′ for a predetermined time t_surrounding_thresh.
  • the communication system 1 determines that the user u2 is overflowing when a predetermined time has elapsed since the user u1 who is the speaker is not speaking and the user u2 who is the listener stops talking. .
  • FIG. 25 is an explanatory diagram for explaining that the communication system 1 determines the processing overflow on the listener side.
  • the communication system 1 determines that the user u2 has overflowed.
  • FIG. 26 is an explanatory diagram for explaining that the communication system 1 determines the processing overflow on the listener side.
  • the communication system 1 determines that the user u2 is overflowing.
  • the text of the speech recognition result or the text when the speech recognition result is translated satisfies a predetermined condition, and the user u2 overflows processing.
  • a predetermined condition for example, as a result of the phrase analysis, the number of phrases exceeds a certain threshold (the number of words exceeds a certain threshold in the case of a spelling language), the morpheme (in English, a word) Among them, the number of nouns and verbs that are main parts of speech exceeded a certain threshold, the number of characters exceeded a certain threshold, and so on.
  • FIG. 27 is an explanatory diagram for explaining that the communication system 1 determines the processing overflow on the listener side.
  • the communication system 1 determines that the user u2 is overflowing in processing. To do.
  • the communication system 1 can reduce the number of the above phrases when the content is difficult because the content uttered by the speaker or the translation result of the utterance content includes a highly specialized word. Good. In addition, when it is difficult for the speaker to speak, the communication system 1 may determine whether or not the listener side is overflowing by weighting highly specialized words.
  • the communication system 1 determines whether the listener has caused processing overflow by any one of the methods described above or by combining a plurality of the methods described above. It goes without saying that what has been described above is merely an example for determining whether or not the listener has caused processing overflow.
  • the amount until processing overflows depends on the attributes of the listener. For adults, the amount of processing overflow is large, but for children, the amount of processing overflow is small. Therefore, the communication system 1 may change the threshold until it is determined that processing overflow occurs according to the attribute of the listener.
  • the communication system 1 may determine whether processing overflow has occurred based on the biometric information on the listener side. For example, by acquiring information such as an increased heart rate and increased sweating with a sensor provided in a device owned by the listener, and obtaining information from the device, the communication system 1 can be It may be determined whether processing overflow has occurred.
  • the communication system 1 presents on the display 103 on the speaker side a user interface for telling the speaker side that the listener side is overflowing in processing.
  • the communication system 1 shows a user interface in which the sphere UI 115 enters the ear of the listener when the speaker is speaking.
  • the communication system 1 displays a user interface in which the ball UI 115 bounces off the listener's ear and spills out. May be.
  • FIG. 28 is an explanatory diagram showing an example of a user interface displayed on the display 103 on the user u1 side.
  • the communication system 1 determines that the user u2 on the listener side is overflowing by the above-described determination, the communication system 1 displays a user interface such that the ball UI 115 bounces off the user u2 and spills out.
  • the communication system 1 can notify the speaker side that the listener side is overflowing.
  • the user interface displayed on the display 103 on the user u1 side include stopping the display of the recognition result of the utterance content and stopping the display of the sphere UI 115 itself. Further, the communication system 1 may output a sound that cancels the utterance sound of the speaker in order to notify the speaker side that the listener side is overflowing in processing.
  • FIG. 28 shows an example in which a user interface for telling the speaker side that the listener side is overflowing is shown on the display 103 of the speaker side, but the communication system 1 shows the utterance of the speaker.
  • a user interface for blocking may be displayed on the listener side.
  • the communication system 1 may display the translation result of the utterance content near the position where the listener's confrontation state collapses, for example, near the microphone UI.
  • the communication system 1 can tell the listener himself that the listener is overflowing by taking his / her gaze off or changing his / her body direction to deliberately destroy the confrontation of the listener. Become.
  • the communication system 1 may change the user interface to be displayed on the display 103 according to the condition that caused the processing overflow. For example, if the communication system 1 determines that the processing overflow has occurred because the line of sight does not face the speaker side, the communication system 1 may display a CG on the display 103 such that sweat appears around the listener side. Good. In addition, for example, if it is determined that processing has overflowed due to the absence of whispering, the communication system 1 may display on the display 103 a CG representing an expression in which the listener is in trouble on the listener's head. .
  • FIG. 29 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 29 shows the entire flow on the speaker side.
  • step S101 When a speaker (user u1 in the above example) stands in front of the signage terminal 100, the communication system 1 executes an initial process (step S101). This initial processing can be executed by the information processing apparatus 200 based on the information acquired by the signage terminal 100. Details of the initial process will be described later.
  • step S101 the communication system 1 executes the initial process in step S101, the communication system 1 subsequently determines whether or not the initial flow of the other party (user u2 in the above example) has ended (step S102).
  • This determination processing can be executed by, for example, the information processing apparatus 200 (for example, the determination unit 223).
  • step S102 determines whether the initial flow on the other side has been completed. If the result of determination in step S102 is that the initial flow on the other side has been completed (step S102, Yes), the communication system 1 executes translation mode processing (step S103). On the other hand, as a result of the determination in step S102, if the other party's initial flow is not completed (No in step S102), the communication system 1 stands by until the other party's initial flow is completed. Note that the communication system 1 may end the initial flow if the other party's initial flow is not completed even after a predetermined time has elapsed, for example, because the other party does not appear.
  • step S101 of FIG. 29 is flowcharts illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • 30A and 30B show a detailed flow of the initial process shown in step S101 of FIG.
  • the information processing apparatus 200 shall perform the initial process shown below based on the information acquired with the signage terminal 100, an initial process may be performed by which apparatus which comprises the communication system 1. good.
  • the communication system 1 determines whether a face can be detected by face detection processing using a camera image captured by the camera 101 (step S112).
  • step S112 If it is determined in step S112 that a face cannot be detected (step S112, No), the communication system 1 returns to step S111. On the other hand, when the face is detected as a result of the determination in step S112 (step S112, Yes), the communication system 1 then increments the time counter t_stay (step S113).
  • step S113 the communication system 1 subsequently determines whether or not the time counter t_stay is greater than the threshold value t_stay_thresh (step S114).
  • step S114 If it is determined in step S114 that the time counter t_stay is less than the threshold t_stay_thresh (step S114, No), the communication system 1 returns to the process in step S112. On the other hand, if the time counter t_stay is larger than the threshold value t_stay_thresh as a result of the determination in step S114 (step S114, Yes), the communication system 1 sets the flag f_conv_mode indicating whether or not the conversation mode is true (step S115). Then, the user's face information info_face at the time of identity is acquired (step S116).
  • the communication system 1 When the flag f_conv_mode is set to true and the face information info_face of the user at the time of authenticity is acquired, the communication system 1 subsequently generates the contour information info_outline_confront of the person at the time of facing and reflects it on the screen as the facing body contour UI (Step S117).
  • the communication system 1 subsequently uses the face information info_face of the user at the time of identity and the contour information info_outline_confront of the person at the time of facing. Eye information info_eye, mouth information info_mouth and nose information info_nose are acquired (step S118).
  • the communication system 1 When the eye information info_eye, mouth information info_mouth and nose information info_nose are acquired, the communication system 1 generates face information info_facial_exp in which facial expressions are changed from info_fase (step S119).
  • the facial expressions here may include, for example, facial expressions that are not emotional, laughing facial expressions, and uneasy facial expressions, but are not limited to these facial expressions.
  • step S119 When the face information info_facial_exp is generated in step S119, the communication system 1 executes the ear position estimation flow (step S120). Details of the ear position estimation flow will be described later.
  • step S120 When the ear position estimation flow is executed in step S120, the communication system 1 subsequently executes a high sensitivity microphone position acquisition flow (step S121). Details of the high-sensitivity microphone position acquisition flow will be described later.
  • the communication system 1 moves the microphone UI by animation from the mouth position information p_mouth toward the high-sensitivity microphone position p_h_sensitive_mic (step S122).
  • step S101 of FIG. 29 The detailed flow of the initial process shown in step S101 of FIG. 29 has been described above. Next, a detailed flow of the ear position estimation flow in step S120 will be described.
  • FIG. 31 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 31 shows a detailed flow of the ear position estimation flow in step S120 of FIG. 30B. Note that the ear position estimation flow shown below is executed by the information processing apparatus 200 based on the information acquired by the signage terminal 100, but the ear position estimation flow is performed by any device constituting the communication system 1. It may be done.
  • the communication system 1 When executing the ear position estimation flow, the communication system 1 first acquires mouth position information p_mouth from mouth information info_mouth (step S131). Further, the communication system 1 acquires the left eye position information p_eye_l and the right eye position information p_eye_r from the eye information info_eye (step S132). Furthermore, the communication system 1 acquires the nose bottom position information p_nose_d from the nose information info_nose (step S133).
  • FIG. 32 is an explanatory diagram showing mouth position information p_mouth, left eye position information p_eye_l, right eye position information p_eye_r, and nose bottom position information p_nose_d.
  • the communication system 1 uses the eye information info_eye, mouth information info_mouth and nose information info_nose of the user standing in front of the signage terminal 100, as shown in FIG. 32, mouth position information p_mouth, left eye position information p_eye_l, and right eye position information. Obtain p_eye_r and nose bottom position information p_nose_d.
  • the communication system 1 doubles the vector vec_eye_rl from the right eye position information p_eye_r to the left eye position information p_eye_l, and the vector vec_r_nose from the right eye position information p_eye_r to the lowest nose position information p_nose_d by 0.5.
  • the left ear position p_ear_l is obtained by taking the sum with the doubled one (step S134).
  • the communication system 1 takes the sum of the vector vec_eye_lr from the left eye position information p_eye_l to the right eye position information p_eye_r twice and the vector vec_l_nose from p_eye_l to p_nose_d multiplied by 0.5.
  • the right ear position p_ear_r is acquired (step S135).
  • FIG. 33 is an explanatory diagram showing left ear position p_ear_l and right ear position p_ear_r calculated from mouth position information p_mouth, left eye position information p_eye_l, right eye position information p_eye_r, and nose bottom position information p_nose_d. is there.
  • the communication system 1 calculates the approximate left ear position p_ear_l and right ear position p_ear_r of the user.
  • step S120 of FIG. 30B The detailed flow of the ear position estimation flow shown in step S120 of FIG. 30B has been described above. Subsequently, a detailed flow of the high-sensitivity microphone position acquisition flow in step S121 of FIG. 30B will be described.
  • FIG. 34 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 34 shows the detailed flow of the high-sensitivity microphone position acquisition flow in step S121 of FIG. 30B.
  • the high sensitivity microphone position acquisition flow shown below shall be performed by the information processing apparatus 200 based on the information acquired by the signage terminal 100
  • the high sensitivity microphone position acquisition flow comprises the communication system 1. It can be done with any device.
  • the communication system 1 subsequently determines the position of the microphone 102 at the position where the distance between the position information p_mouth of the user's mouth and the position p_mic_lower_i of the microphone 102 is the closest.
  • p_mic_nearest is acquired (step S142).
  • the communication system 1 acquires the position p_mic_next of the microphone 102 at the second closest position between the position information p_mouth of the user's mouth and the position p_mic_lower_i of the microphone 102 (step S143).
  • the communication system 1 determines the position p_mic_next of the microphone 102 acquired in step S143 as the high sensitivity microphone position p_h_sensitive_mic (step S144).
  • FIG. 35 is an explanatory diagram for explaining a method of determining a highly sensitive microphone position.
  • p_mic_lower_i is p_mic_2, p_mic_3, p_mic_6, and p_mic_7.
  • p_mic_nearest becomes p_mic_2, and p_mic_next becomes p_mic_6. Therefore, when the user's face and the microphone 102 are arranged as illustrated in FIG. 35, the communication system 1 determines the microphone at the position p_mic_6 as the high-sensitivity microphone position p_h_sensitive_mic.
  • the communication system 1 determines the high-sensitivity microphone position based on the position of the user's face as described above, thereby allowing the user's voice input to succeed without depending on the position of the microphone or the height of the user's back. Is possible.
  • step S121 of FIG. 30B The detailed flow of the high-sensitivity microphone position acquisition flow shown in step S121 of FIG. 30B has been described above. Subsequently, a detailed flow of the translation mode processing flow in step S103 of FIG. 29 will be described.
  • Translation mode processing flow 36A and 36B are flowcharts illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 36A and 36B show the detailed flow of the translation mode processing flow in step S103 of FIG.
  • the translation mode process flow shown below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100 or information generated by the translation processing apparatus 400. May be performed by any device constituting the communication system 1.
  • step S152 the communication system 1 subsequently executes a translation mode activation process.
  • the translation mode activation process will be described in detail later.
  • the communication system 1 determines whether the distance d_mic_mouth between the high sensitivity microphone position p_h_sensitive_mic and the mouth position information p_mouth is smaller than the threshold value d_mic_mouth_thresh (step S153).
  • step S153 if the distance d_mic_mouth between the highly sensitive microphone position p_h_sensitive_mic and the mouth position information p_mouth is equal to or greater than the threshold value d_mic_mouth_thresh (step S153, No), the communication system 1 then continues to the body contour at that time It is determined from the information info_outline_current and the contour information info_outline_confront of the person at the time of confrontation whether or not the current body contour information remains more than the threshold value t_stay_confront_thresh in the confrontation contour information (step S154).
  • step S154 if the current body contour information remains more than the threshold t_stay_confront_thresh in the facing contour information (step S154, Yes), the communication system 1 executes a translation mode end process (step S155). ). The translation mode end process will be described in detail later.
  • step S154 if the current body contour information does not remain in the facing contour information beyond the threshold value t_stay_confront_thresh (step S154, No), the communication system 1 returns to the determination processing in step S153. .
  • step S153 Yes
  • the communication system 1 continues to face the body contour.
  • the fade-in and fade-out animations are repeated for the UI (step S156).
  • the communication system 1 When the fade-in and fade-out animations are repeated for the directly-facing body contour UI, the communication system 1 subsequently generates body contour information info_outline_current at that time and reflects it on the screen as the current body contour UI (step S157). .
  • the communication system 1 subsequently determines whether the volume of the sound information info_voice collected by the microphone 102 exceeds the voice input determination threshold recognition_vol_thresh. (Step S158).
  • step S158 determines whether the volume of the sound information info_voice exceeds the voice input determination threshold recognition_vol_thresh (step S158, Yes). If, as a result of the determination in step S158, the volume of the sound information info_voice exceeds the voice input determination threshold recognition_vol_thresh (step S158, Yes), the communication system 1 executes a speech translation feedback process (step S159). Details of the speech translation feedback process will be described later. When the speech translation feedback process is executed, the communication system 1 returns to the determination process in step S153.
  • step S158 if the volume of the sound information info_voice does not exceed the voice input determination threshold recognition_vol_thresh (No in step S158), the communication system 1 executes the translation mode continuation determination process (step S160). .
  • the translation mode continuation determination process will be described in detail later.
  • step S160 the communication system 1 subsequently determines whether the value of the flag f_trans_mode indicating whether or not the translation mode is true (step S161). If the value of the flag f_trans_mode is true (step S161, Yes), the communication system 1 returns to the determination process of step S153. On the other hand, if the value of the flag f_trans_mode is not true, that is, false (step S161, No), the communication system 1 executes the translation mode end process of step S155.
  • step S103 of FIG. 29 has been described above with reference to FIGS. 36A and 36B.
  • step S152 of FIG. 36A will be described.
  • FIG. 37 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 37 shows a detailed flow of the translation mode activation processing flow in step S152 of FIG. 36A.
  • the translation mode activation process flow shown below is executed by the information processing apparatus 200 based on the information acquired by the signage terminal 100.
  • the translation mode activation process flow indicates which of the communication systems 1 is configured. It may be performed on the device.
  • the communication system 1 determines whether the distance d_mic_mouth between the high-sensitive microphone position p_h_sensitive_mic and the mouth position information p_mouth is smaller than the threshold value d_mic_mouth_thresh (step S171).
  • step S171 if the distance d_mic_mouth between the highly sensitive microphone position p_h_sensitive_mic and the mouth position information p_mouth is not smaller than the threshold value d_mic_mouth_thresh (step S171, No), the communication system 1 repeats the process in step S171.
  • step S171 if the distance d_mic_mouth between the high-sensitivity microphone position p_h_sensitive_mic and the mouth position information p_mouth is smaller than the threshold value d_mic_mouth_thresh (step S171, Yes), the communication system 1 subsequently determines the user's face information. Reflection of the info_face image on the other party's screen is started (step S172).
  • the communication system 1 stops the microphone processing of the microphone that has not reached the high sensitivity microphone position p_h_sensitive_mic, that is, the sound collection processing (step S173).
  • the communication system 1 starts to acquire the user's line-of-sight information info_gaze using the image captured by the camera 101 (step S173).
  • the communication system 1 starts acquiring the frequency information info_voice_freq of the user's utterance collected by the microphone 102 at the high sensitivity microphone position (step S174).
  • the communication system 1 starts voice recognition with the sound information info_voice for the high sensitivity microphone position p_h_sensitive_mic (step S175).
  • the communication system 1 sets the value of the flag f_trans_mode indicating whether or not the translation mode is true (step S176). Note that setting the value of the flag f_trans_mode indicating whether or not the translation mode is true is not limited to this timing. Also, the start and activation timing of each process in the process flow shown in FIG. 37 is not limited to the order shown in FIG.
  • step S152 of FIG. 36A The detailed flow of the translation mode activation process flow in step S152 of FIG. 36A has been described above. Next, a detailed flow of the translation mode end flow in step S155 of FIG. 36A will be described.
  • FIG. 38 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 38 shows a detailed flow of the translation mode end flow in step S155 of FIG. 36A. Note that the translation mode end flow shown below is executed by the information processing apparatus 200 based on the information acquired by the signage terminal 100, but the translation mode end flow is performed by any device constituting the communication system 1. It may be done.
  • the communication system 1 When executing the translation mode end flow, the communication system 1 first sets the value of the flag f_trans_mode indicating whether the translation mode is set to false (step S181). Note that setting the value of the flag f_trans_mode indicating whether or not the translation mode is false is not limited to this timing.
  • the communication system 1 subsequently stops presenting the user's body contour information info_outline_current on the display 103 (step S182).
  • the communication system 1 stops the repetition of the fade-in and fade-out animations for the directly-facing body contour UI (step S183).
  • the communication system 1 subsequently stops the voice recognition with the sound information info_voice for the high-sensitive microphone position p_h_sensitive_mic (step S184).
  • the communication system 1 subsequently stops the acquisition of the frequency information info_voice_freq of the user's utterance collected by the microphone 102 at the high sensitivity microphone position (step) S185).
  • the communication system 1 subsequently stops acquiring the user's line-of-sight information info_gaze (step S186).
  • the communication system 1 When the acquisition of the user's line-of-sight information info_gaze is stopped, the communication system 1 subsequently cancels the microphone processing of the microphone that has not reached the high sensitivity microphone position p_h_sensitive_mic, that is, the stop of the sound collection processing (step S187).
  • the communication system 1 stops reflecting the image of the user's face information info_face on the other party's screen (step S188).
  • timing of stopping each process in the process flow shown in FIG. 38 is not limited to the order shown in FIG.
  • step S155 of FIG. 36A The detailed flow of the translation mode end flow in step S155 of FIG. 36A has been described above. Subsequently, a detailed flow of the speech translation feedback process in step S159 of FIG. 36B will be described.
  • FIGS. 39A and 39B are flowcharts illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIGS. 39A and 39B show the detailed flow of the speech translation feedback process in step S159 of FIG. 36B. Note that the speech translation feedback processing flow shown below is executed by the information processing apparatus 200 based on the information acquired by the signage terminal 100, but the speech translation feedback processing flow indicates which of the communication systems 1 It may be performed on the device.
  • the communication system 1 determines whether or not the volume of the sound information info_voice input to the microphone 102 at the high sensitivity microphone position p_h_sensitive_mic exceeds the threshold voice_vol_thresh (step S201).
  • step S201 if the volume of the sound information info_voice exceeds the threshold voice_vol_thresh (step S201, Yes), the communication system 1 subsequently generates a sphere object obj_ball having a radius corresponding to the volume level. (Step S202). After generating the sphere object obj_ball, the communication system 1 executes the sphere object animation process (step S203). Details of the sphere object animation process will be described later.
  • step S203 When the sphere object animation process in step S203 is executed or, as a result of the determination in step S201, if the volume of the sound information info_voice does not exceed the threshold voice_vol_thresh (No in step S201), the communication system 1 continues to Info_voice_freq_ave is calculated as frequency average information of past utterances (step S204).
  • the communication system 1 determines whether or not the voice information processing apparatus 300 has obtained the voice recognition result voice_result (step S205).
  • step S205 when the voice information processing apparatus 300 has obtained the voice recognition result voice_result (step S205, Yes), the communication system 1 subsequently executes voice recognition result display processing (step S206). . Details of the voice recognition result display processing will be described later.
  • the communication system 1 starts a translation process in the translation processing device 400 for the voice recognition result voice_result (step S207).
  • the communication system 1 determines whether or not the translation result trans_result in the translation processing apparatus 400 for the voice recognition result voice_result has been obtained (step S208).
  • step S208 when the translation result trans_result in the translation processing apparatus 400 for the voice recognition result voice_result is obtained (step S208, Yes), the communication system 1 then translates in the translation processing apparatus 400.
  • the result trans_result is displayed on the signage terminal 100 (step S209).
  • the communication system 1 stores the score trans_result_score when the translation result trans_result is obtained (step S210).
  • the score generation unit 422 of the translation processing apparatus 400 generates the translation score according to the probability of the translation result trans_result.
  • the communication system 1 subsequently executes a translation result display process (step S211). Details of the translation result display process will be described later.
  • the communication system 1 When the translation result display process is executed, the communication system 1 subsequently executes a process amount overflow determination process (step S212). Details of the processing amount overflow determination processing will be described later.
  • the communication system 1 When the processing amount overflow determination processing is executed, the communication system 1 subsequently executes processing amount overflow presentation processing (step S213). Details of the processing amount overflow presentation processing will be described later.
  • the processing amount overflow presentation process When the processing amount overflow presentation process is executed, the communication system 1 ends the speech translation feedback process.
  • step S205 when the speech information processing apparatus 300 cannot obtain the speech recognition result voice_result (step S205, No), or as a result of the determination in step S208, the translation processing apparatus 400 for the speech recognition result voice_result If the translation result trans_result is not obtained (step S208, No), the communication system 1 ends the speech translation feedback process.
  • step S159 of FIG. 36B The detailed flow of the speech translation feedback process in step S159 of FIG. 36B has been described above. Next, a detailed flow of the sphere object animation process in step S203 of FIG. 39A will be described.
  • FIG. 40 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 40 shows a detailed flow of the sphere object animation process in step S203 of FIG. 39A.
  • the sphere object animation processing flow shown below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100.
  • the sphere object animation processing flow indicates which of the communication systems 1 It may be performed on the device.
  • the communication system 1 determines whether or not the user is speaking (step S211).
  • step S211 If the result of the determination in step S211 is that the user is speaking (step S211, Yes), the communication system 1 then moves the ball object obj_ball to the position of the opponent's left ear position p_ear_l and right ear position p_ear_r. The image is moved while being animated (step S212).
  • step S211 determines the left ear position p_ear_l and the ball object obj_ball from the position information p_mouth of the opponent's mouth.
  • the animation is moved toward the right ear position p_ear_r while being animated (step S213).
  • step S203 of FIG. 39A The detailed flow of the sphere object animation process in step S203 of FIG. 39A has been described above. Subsequently, a detailed flow of the processing amount overflow determination process in step S212 of FIG. 39B will be described.
  • FIG. 41 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 41 shows a detailed flow of the processing amount overflow determination process in step S212 of FIG. 39B. Note that the processing amount overflow determination processing flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the processing amount overflow determination processing flow is executed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 When executing the processing amount overflow determination process, the communication system 1 first determines whether or not the user is speaking (step S221).
  • step S221 If the result of the determination in step S221 is that the user is speaking (step S221, Yes), the communication system 1 then sets the value of the flag f_task_over_mode for determining the processing amount overflow to false (step S222). .
  • step S221 determines whether or not the user's line-of-sight information info_gaze is contained therein (step S223).
  • step S223 if the user's line-of-sight information info_gaze is not included in the area obtained by adding the distance of the threshold d_surrounding_thresh to the opponent's directly-facing body contour information area (step S223, No), then the communication system 1 Determines whether the user's line-of-sight information info_gaze is within the area obtained by adding the distance of the threshold d_surrounding_thresh to the directly-facing body contour information area is greater than the threshold t_surrounding_thresh (step S224).
  • step S224 if the user's line-of-sight information info_gaze is within the region obtained by adding the distance of the threshold d_surrounding_thresh to the directly-facing body contour information region is not greater than the threshold t_surrounding_thresh (step S224, No Subsequently, the communication system 1 sets the value of the flag f_task_over_mode for determining the processing amount overflow to false (step S222).
  • step S223 if the user's line-of-sight information info_gaze is included in the area obtained by adding the distance of the threshold d_surrounding_thresh to the opponent's directly-facing body contour information area (step S223, Yes), or As a result of the determination in step S224, if the time during which the user's line-of-sight information info_gaze is within the area obtained by adding the distance of the threshold d_surrounding_thresh to the directly-facing body contour information area is greater than the threshold t_surrounding_thresh (step S224, Yes) Subsequently, the communication system 1 sets the value of the flag f_task_over_mode for determining the processing amount overflow to true (step S225).
  • FIG. 42 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 42 shows a detailed flow of the processing amount overflow determination process in step S212 of FIG. 39B. Note that the processing amount overflow determination processing flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the processing amount overflow determination processing flow is executed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 When executing the processing amount overflow determination process, the communication system 1 first determines whether the user is speaking (step S231).
  • step S231 If the result of the determination in step S231 is that the user is speaking (step S231, Yes), then the communication system 1 sets the value of the flag f_task_over_mode for determining the processing amount overflow to false (step S232). .
  • step S231 determines whether or not the user's conflict has been detected (step S233).
  • step S233 if the user's conflict cannot be detected (No in step S233), then the communication system 1 determines whether the time from when the conflict was last detected to the current time is greater than the threshold t_nod_thresh. Judgment is made (step S234).
  • step S234 if the time from the last time when the conflict was detected to the current time is not greater than the threshold value t_nod_thresh (step S234, No), the communication system 1 subsequently determines the flag f_task_over_mode Is set to false (step S232).
  • step S233 If it is determined in step S233 that the user's conflict can be detected (step S233, Yes), then the communication system 1 sets the value of the flag f_task_over_mode for determining the processing amount overflow to false (step S232).
  • step S234 if the time from the last time the conflict was detected to the current time is greater than the threshold value t_nod_thresh (step S234, Yes), the communication system 1 subsequently determines the flag for determining the overflow of processing amount.
  • the value of f_task_over_mode is set to true (step S235).
  • FIG. 43 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 43 shows a detailed flow of the processing amount overflow determination process in step S212 of FIG. 39B. Note that the processing amount overflow determination processing flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the processing amount overflow determination processing flow is executed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 When executing the processing amount overflow determination process, the communication system 1 first determines whether or not the user is speaking (step S241).
  • step S241 If the result of the determination in step S241 is that the user is speaking (step S241, Yes), then the communication system 1 sets the value of the flag f_task_over_mode for determining the processing amount overflow to false (step S242). .
  • step S241 determines whether the user's palm has been detected (step S243).
  • step S243 If the user's palm can be detected as a result of the determination in step S243 (step S243, Yes), the communication system 1 subsequently updates the accumulated time t_palm_accum of the time when the user's palm was detected (step S244). When the accumulated time t_palm_accum of the time when the user's palm is detected is updated, the communication system 1 subsequently determines whether the accumulated time t_palm_accum of the time when the user's palm is detected is greater than the threshold value t_palm_accum_thresh (step S245).
  • step S245 If the accumulated time t_palm_accum of the time when the user's palm is detected is not larger than the threshold value t_palm_accum_thresh as a result of the determination in step S245 (step S245, No), the communication system 1 then sets the flag f_task_over_mode for determining the processing amount overflow The value is set to false (step S242).
  • step S243 If the user's palm cannot be detected as a result of the determination in step S243 (step S243, Yes), the communication system 1 subsequently sets the value of the flag f_task_over_mode for determining the processing amount overflow to false (step S242). ).
  • step S245 if the accumulated time t_palm_accum of the time when the user's palm is detected is larger than the threshold value t_palm_accum_thresh (step S245, Yes) as a result of the determination in step S245, the communication system 1 subsequently determines the flag f_task_over_mode Is set to true (step S246).
  • FIG. 44 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 44 shows a detailed flow of the processing amount overflow determination process in step S212 of FIG. 39B. Note that the processing amount overflow determination processing flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the processing amount overflow determination processing flow is executed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 When executing the processing amount overflow determination process, the communication system 1 first determines whether or not the user is speaking (step S251).
  • step S251 If the result of the determination in step S251 is that the user is speaking (step S251, Yes), then the communication system 1 sets the value of the flag f_task_over_mode for determining the processing amount overflow to false (step S252). .
  • step S251 determines whether the user is not speaking (step S251, No). If the result of the determination in step S251 is that the user is not speaking (step S251, No), then the communication system 1 divides the speech recognition result voice_result into phrases by natural language analysis processing (Ste S253).
  • the communication system 1 When the speech recognition result voice_result is divided into phrases by natural language analysis processing, the communication system 1 subsequently adds the number of phrases num_phrase of the speech recognition result voice_result to the cumulative number num_accum_phrase so far (step S254).
  • the communication system 1 determines whether or not the cumulative number num_phrase_accum after the addition exceeds the threshold num_phrase_accum_thresh (step S255).
  • step S255 the communication system 1 subsequently sets the value of the flag f_task_over_mode for determining the processing amount overflow to false Set (step S252).
  • step S255 if the cumulative number num_phrase_accum after addition exceeds the threshold num_phrase_accum_thresh (step S255, Yes) as a result of the determination in step S255, the communication system 1 subsequently sets the value of the flag f_task_over_mode for determining the processing amount overflow Set to true (step S256).
  • the communication system 1 may select one of these five flows and execute the processing amount overflow judgment processing. This flow may be selected to execute the processing amount overflow determination processing flow.
  • the flow results may be different. Accordingly, when a plurality of flows are selected, the communication system 1 may select an odd number of flows and adopt a method with a larger result of setting the value of the flag f_task_over_mode. Subsequently, a detailed flow of the processing amount overflow presentation processing in step S213 in FIG. 39B will be described.
  • FIG. 45 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 45 shows a detailed flow of the processing amount overflow presentation processing in step S213 in FIG. 39B. Note that the processing amount overflow presentation processing flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the processing amount overflow presentation processing flow is executed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 determines whether or not the user is speaking (step S261).
  • step S261 If the result of the determination in step S261 is that the user is speaking (step S261, Yes), the communication system 1 sets the ball object obj_ball having a radius corresponding to the volume of the user's utterance to the right of the opponent. It is displayed on the signage terminal 100 so as to move while moving toward the position of the ear position p_ear_r and the left ear position p_ear_l and then moving vertically from that position while animate vertically (step S262).
  • step S261 determines whether the user is not speaking (step S261, No). If the result of the determination in step S261 is that the user is not speaking (step S261, No), the communication system 1 ends the processing amount overflow presentation process as it is.
  • FIG. 46 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 46 shows a detailed flow of the speech recognition result display process in step S206 of FIG. 39A. Note that the following speech recognition result display processing flow is executed by the information processing apparatus 200 based on the information acquired by the signage terminal 100, but the speech recognition result display processing flow is the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 When executing the speech recognition result display process, the communication system 1 first determines whether or not the user is speaking (step S271).
  • step S271 If the result of the determination in step S271 is that the user is speaking (step S271, Yes), the communication system 1 displays the voice recognition result on the signage terminal 100 on the partner's right ear position p_ear_r or left ear. It is displayed near the position p_ear_l (step S272).
  • step S271 determines whether the user is not speaking (step S271, No). If the result of determination in step S271 is that the user is not speaking (step S271, No), the communication system 1 ends the speech recognition result display process as it is.
  • FIG. 47 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 47 shows a detailed flow of the translation result display process in step S211 of FIG. 39B.
  • the translation result display processing flow shown below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the translation result display processing flow constitutes the communication system 1. Any device may be used.
  • the communication system 1 When executing the translation result display process, the communication system 1 first determines whether the user is speaking (step S281).
  • step S281 if the user is not speaking (step S281, No), the communication system 1 displays the translation result in the vicinity of the partner mouth position information p_mouth in the signage terminal 100 (step S281). S282).
  • step S281 determines whether the user is speaking (step S281, Yes). If the result of the determination in step S281 is that the user is speaking (step S281, Yes), the communication system 1 ends the translation result display process as it is.
  • FIG. 48 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 48 shows a detailed flow of the translation mode continuation determination process in step S160 of FIG. 36B. Note that the translation mode continuation determination process flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the translation mode continuation determination process flow is performed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 When executing the translation mode continuation determination processing flow, the communication system 1 first determines whether the translation score trans_score is lower than the threshold trans_score_thresh (step S291).
  • step S292 If the translation score trans_score is lower than the threshold trans_score_thresh as a result of the determination in step S291 (step S291, Yes), the communication system 1 sets the value of the flag f_trans_mode indicating whether or not the translation mode is false to determine whether the translation mode is continued The processing flow ends (step S292).
  • step S293 the communication system 1 indicates that the user's line-of-sight information info_gaze is within the opponent's directly-facing body contour information area. It is determined whether or not it is present (step S293).
  • step S293 if the user's line-of-sight information info_gaze is not within the opponent's directly-facing body contour information area (No in step S293), then the communication system 1 determines that the user's line-of-sight information info_gaze is It is determined whether it is within the area obtained by adding the distance of the threshold d_surrounding_thresh to the directly facing body contour information area (step S294).
  • step S294 if the user's line-of-sight information info_gaze is not within the area obtained by adding the distance of the threshold d_surrounding_thresh to the opponent's directly-facing body contour information area (step S294, No), the communication system 1 The value of the flag f_trans_mode indicating whether or not the translation mode is set to false, and the translation mode continuation determination processing flow is ended (step S292).
  • step S293 determines whether the user's line-of-sight information info_gaze is within the opposite body contour information area of the opponent (Yes in step S293), or the result of the determination in step S294 is that the user's line of sight
  • the communication system 1 sets the value of the flag f_trans_mode indicating whether or not the translation mode is set. It is set to true, and the translation mode continuation determination processing flow is ended (step S295).
  • FIG. 49 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 49 shows a detailed flow of the translation mode continuation determination process in step S160 of FIG. 36B. Note that the translation mode continuation determination process flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the translation mode continuation determination process flow is performed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 determines whether or not the user's stagnation can be detected in the sound information info_voice obtained by the user's utterance (step S301).
  • step S301 if the user's stagnation can be detected in the sound information info_voice (step S301, Yes), then the communication system 1 indicates that the user's voice recognition result voice_result obtained last is stored in the filler word database. It is determined whether or not it is present (step S302).
  • Table 1 is a table showing an example of the contents of the filler word database.
  • the communication system 1 may determine whether the voice recognition result voice_result of the user matches not only the filler word group included in the filler word database but also the similar sound filler word group.
  • step S302 determines whether the user's voice recognition result voice_result is in the filler word database (step S302, Yes).
  • the communication system 1 determines the time from the last spoken filler word as a threshold value. It is determined whether t_fillerwords_thresh is not exceeded (step S303).
  • step S301 if the user's stagnation can be detected in the sound information info_voice (No in step S301), or as a result of the determination in step S302, the user's voice recognition result voice_result is included in the filler word database. If there is not (step S302, No), or if the time from the last filler word exceeds the threshold t_fillerwords_thresh (step S303, No) as a result of the determination in the above step S303, the communication system 1 It is determined whether or not a condition for determining a silent section is satisfied as info_voice (step S304). As a condition for determining a silent section, there may be, for example, whether or not a section with a very low volume continues.
  • step S304 if the sound information info_voice satisfies the condition for determining a silent section (step S304, Yes), the communication system 1 sets the value of the flag f_trans_mode indicating whether it is the translation mode to false. Then, the translation mode continuation determination processing flow is ended (step S305).
  • step S303 if the time from the filler word that has been uttered last does not exceed the threshold t_fillerwords_thresh (step S303, Yes), or as a result of the determination in step S304, Is not satisfied (No in step S304), the communication system 1 sets the value of the flag f_trans_mode indicating whether or not the translation mode is true, and ends the translation mode continuation determination processing flow (step S306). ).
  • FIG. 50 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 50 shows a detailed flow of the translation mode continuation determination process in step S160 of FIG. 36B. Note that the translation mode continuation determination process flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the translation mode continuation determination process flow is performed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 When executing the translation mode continuation determination processing flow, the communication system 1 first determines whether or not the frequency information info_last_voice_freq of the last acquired utterance is larger than the past average information info_voice_freq_ave minus the threshold f_thresh (step). S311).
  • step S312 If the frequency information info_last_voice_freq of the last acquired utterance is larger than the information obtained by subtracting the threshold f_thresh from the past average information info_voice_freq_ave (Yes in step S311) as a result of the determination in step S311, the communication system 1 The flag f_trans_mode indicating whether or not is set to false, and the translation mode continuation determination processing flow ends (step S312).
  • step S313 the frequency information info_last_voice_freq of the last acquired utterance is not larger than the information obtained by subtracting the threshold f_thresh from the past average information info_voice_freq_ave (No in step S311) as a result of the determination in step S311, the communication system 1 Then, the value of the flag f_trans_mode indicating whether or not the translation mode is set to true, and the translation mode continuation determination processing flow is ended (step S313).
  • FIG. 51 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 51 shows a detailed flow of the translation mode continuation determination process in step S160 of FIG. 36B. Note that the translation mode continuation determination process flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the translation mode continuation determination process flow is performed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 determines whether or not the voice recognition result voice_result of the user acquired last is included in the conversation end determination word database (step S321).
  • Table 2 is a table showing an example of the contents of the conversation end determination word database.
  • the communication system 1 determines whether or not the voice recognition result voice_result of the user matches not only the conversation end determination word group in the conversation end determination word database but also the similar sound conversation end determination word group. You may judge.
  • step S321 if the voice recognition result voice_result of the user that was finally acquired is in the conversation end determination word database (step S321, Yes), the communication system 1 subsequently uttered It is determined whether the time from the conversation end determination word has not exceeded the threshold value t_convendwords_thresh (step S322).
  • step S321 if the voice recognition result voice_result of the user acquired last is not in the conversation end determination word database (No in step S321), or the result of determination in step S322 is the last If the time from the conversation end determination word uttered to exceeds the threshold t_convendwords_thresh (step S322, No), the communication system 1 determines whether or not the sound information info_voice satisfies the condition for determining the silent section (step S323). . As a condition for determining a silent section, there may be, for example, whether or not a section with a very low volume continues.
  • step S323 if the sound information info_voice satisfies the condition for determining a silent section (step S323, Yes), the communication system 1 sets the value of the flag f_trans_mode indicating whether or not the translation mode is false. Then, the translation mode continuation determination processing flow is ended (step S324).
  • step S322 if the time from the last spoken conversation end determination word does not exceed the threshold value t_convendwords_thresh (step S322, Yes), or as a result of the determination in step S323, the sound information info_voice If the condition for determining the silent section is not satisfied (step S323, No), the communication system 1 sets the value of the flag f_trans_mode indicating whether or not the translation mode is true to end the translation mode continuation determination processing flow ( Step S324).
  • FIG. 52 is a flowchart illustrating an operation example of the communication system 1 according to the embodiment of the present disclosure.
  • FIG. 52 shows a detailed flow of the translation mode continuation determination process in step S160 of FIG. 36B. Note that the translation mode continuation determination process flow described below is executed by the information processing apparatus 200 based on information acquired by the signage terminal 100, but the translation mode continuation determination process flow is performed by the communication system 1. It may be performed by any device that constitutes.
  • the communication system 1 determines whether or not the translation mode release button on the screen has been pressed (step S331).
  • step S331 If the result of determination in step S331 is that the translation mode release button has been pressed (step S331, Yes), the communication system 1 sets the value of the flag f_trans_mode indicating whether or not the translation mode is false to continue translation mode. The determination process flow is terminated (step S332).
  • step S331 determines whether or not the translation mode is true to the translation.
  • step S333 determines whether or not the translation mode is true to the translation.
  • the communication system 1 may select one of the five flows and execute the translation mode continuation determination processing. This flow may be selected to execute the translation mode continuation determination processing flow. When selecting a plurality of flows, the flow results may be different. Therefore, when a plurality of flows are selected, the communication system 1 may select an odd number of flows and adopt a method with a larger result of setting the value of the flag f_trans_mode.
  • the communication system 1 performs the above-described operation, so that when humans communicate with each other through a signage terminal or the like, the communication system 1 is based on a situation of a speaker or a talker. And natural communication.
  • the communication system 1 wants to translate even when the utterer cannot imagine the utterance content by not stopping the translation just because the utterance has stopped. You can tell only the subject to the translation partner and prevent the other party from blocking the utterance.
  • the processing amount on the listener side overflows while the speaker side is speaking.
  • the communication system 1 is provided to notify the speaker using the signage terminal 100.
  • the communication system 1 notifies the speaker side that the processing amount on the listener side is overflowing while the speaker side is speaking by using the signage terminal 100 to the listener side. It is possible to convey the image of the processing amount of information on the side to the speaker side without blocking the speaker's utterance.
  • the communication system 1 avoids being blocked by the other person's utterance or tells the speaker that the processing amount on the listener side is overflowing. Enable smooth communication for the speaker and listener.
  • the present disclosure is not limited to such an example.
  • the present disclosure can also be applied to a system in which humans who are not present communicate with each other via a display, a speaker, and a microphone, such as a video phone system, a video conference system, and a virtual conversation support system using AR (augmented reality). is there.
  • the video conferencing system tends to be unnatural when participants in the conference turn to the microphone instead of the camera during the conference. For this reason, in the video conference system to which the present disclosure is applied, when the participant of the conference faces the microphone, it is displayed on the display on the other party instead of the image created in advance as described above. In this way, the video conference system to which the present disclosure is applied can avoid an unnatural situation by replacing it with an image at the time of facing and presenting it on the display of the other party.
  • the utterance content of a speaker may be recorded as a log, and the log may be used for translation.
  • phrases such as “that” and “sakino” are often spoken, but the video conference system to which the present disclosure is applied has a concrete phrase such as “that” or “sakino”. They may be translated into nouns and translated and presented to the other party.
  • each step in the processing executed by each device in this specification does not necessarily have to be processed in chronological order in the order described as a sequence diagram or flowchart.
  • each step in the processing executed by each device may be processed in an order different from the order described as the flowchart, or may be processed in parallel.
  • a computer system in which a single computer or a plurality of computers performs a series of processes for causing hardware such as a CPU, ROM, and RAM incorporated in each device to exhibit functions equivalent to the configuration of each device described above. It is also possible to create a program to be executed in. A storage medium storing the computer program can also be provided. In addition, by configuring each functional block shown in the functional block diagram with hardware or a hardware circuit, a series of processing can be realized with hardware or hardware circuit.
  • each functional block shown in the functional block diagram used in the above description may be realized by a server device connected via a network such as the Internet.
  • the configuration of each functional block shown in the functional block diagram used in the above description may be realized by a single device or a system in which a plurality of devices cooperate.
  • a system in which a plurality of devices are linked may include, for example, a combination of a plurality of server devices, a combination of a server device and a terminal device, or the like.
  • a control unit that executes processing for causing the speaker to stop speaking to the device on which the speaker is speaking based on the result of analyzing the utterance content by the result of the speaker speaking to the device
  • a control device comprising: (2) The control device according to (1), wherein the control unit determines a situation of a listener who is listening to the utterance content of the speaker and executes the process. (3) The said control part is a control apparatus as described in said (2) which performs the said process based on the generation
  • the said control part is a control apparatus as described in said (2) which performs the said process based on the detection of the gesture for the said speaker to stop the speech by the said listener.
  • the control device determines whether to execute the process according to the number of words or parts of speech included in the utterance content.
  • the control device determines whether to execute the processing according to a difficulty level of the utterance content.
  • the device comprises display devices on the speaker side and the listener side, The control device according to any one of (1) to (7), wherein the control unit outputs information for causing the speaker to stop speaking to the display device on the speaker side.
  • the said control part is a control apparatus as described in said (8) which displays the effect that the content of speech does not enter into the listener's ear on the said display apparatus by the side of the said speaker.
  • the said control part is a control apparatus as described in said (8) which stops the display of the recognition result of the utterance content currently displayed on the said display apparatus by the said speaker side.
  • the said control part is a control apparatus as described in said (8) which makes the sound which cancels the speech by the said speaker output from the said apparatus.
  • the device comprises display devices on the speaker side and the listener side, The control device according to any one of (1) to (7), wherein the control unit outputs information for causing the speaker to stop speaking to the display device on the listener side.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

【課題】発話者が発話中に、聞き手の状況を発話者や聞き手に把握させることが可能な制御装置を提供する。 【解決手段】発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置が提供される。

Description

制御装置、制御方法及びコンピュータプログラム
 本開示は、制御装置、制御方法及びコンピュータプログラムに関する。
 文字や音声を認識し、その文字や音声を他の言語に翻訳する技術の開発が進んでいる。そして、そのような翻訳の技術を様々な分野に適用するための技術の開発も進んでいる。例えば、特許文献1には、サイネージ端末に対して翻訳技術を適用した技術の例が開示されている。
特開2015-219768号公報
 発話を行う者(以下「発話者」とも称する)が一方的に話し続けると、聞き手側は情報を処理しきれなくなるが、聞き手が発話者に対して発話を強制的に止めさせると円滑なコミュニケーションが出来なくなる。
 そこで、本開示では、発話者が発話中に、聞き手の状況を発話者や聞き手に把握させることが可能な、新規かつ改良された制御装置、制御方法およびコンピュータプログラムを提案する。
 本開示によれば、発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置が提供される。
 また本開示によれば、発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することを含む、制御方法が提供される。
 また本開示によれば、発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することをコンピュータに実行させる、コンピュータプログラムが提供される。
 以上説明したように本開示によれば、翻訳処理をスムーズに継続させることが可能な、新規かつ改良された制御装置、制御方法およびコンピュータプログラムを提供することができる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施の形態に係る、サイネージ端末100を用いたコミュニケーションシステムについて示す説明図である。 同実施の形態に係る、サイネージ端末100を用いたコミュニケーションシステム1の全体構成例を示す説明図である。 サイネージ端末100を上方向から見た場合の例を示す説明図である。 同実施の形態に係るサイネージ端末100の機能構成例を示す説明図である。 同実施の形態に係る情報処理装置200の機能構成例を示す説明図である。 同実施の形態に係る音声信号処理装置300の機能構成例を示す説明図である。 同実施の形態に係る翻訳処理装置400の機能構成例を示す説明図である。 同実施の形態に係るコミュニケーションシステム1の動作例を説明する説明図である。 同実施の形態に係るコミュニケーションシステム1の動作例を説明する説明図である。 ユーザインターフェースの例を示す説明図である。 ユーザu1から見てサイネージ端末100の反対側にユーザu2が立った状態の例を示す説明図である。 ディスプレイ103の表示例を示す説明図である。 ユーザインターフェースの例を示す説明図である。 ユーザu1が顔を高感度マイク位置に近付ける様子を示す説明図である。 ユーザインターフェースの例を示す説明図である。 ユーザインターフェースの例を示す説明図である。 ユーザインターフェースの例を示す説明図である。 ユーザインターフェースの例を示す説明図である。 コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。 コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。 コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。 ユーザインターフェースの例を示す説明図である。 コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。 コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。 コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。 コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。 コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。 ユーザインターフェースの例を示す説明図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 口の位置情報、左目の位置情報、右目の位置情報、および鼻の最下部位置情報を示す説明図である。 左の耳位置および右の耳位置を示す説明図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 高感度マイク位置の決定方法を説明するための説明図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。 同実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の実施の形態
  1.1.概要
  1.2.構成例
  1.3.動作例
 2.まとめ
 <1.本開示の実施の形態>
 [1.1.概要]
 本開示の実施の形態について詳細に説明する前に、本開示の実施の形態の概要を説明する。
 上述したように、文字や音声を認識し、その文字や音声を他の言語に翻訳する技術の開発が進んでいる。そして、そのような翻訳の技術を様々な分野に適用するための技術の開発も進んでいる。例えば、上記特許文献1には、透明なディスプレイを備えるサイネージ端末に対して翻訳技術を適用して、人間同士がコミュニケーションを取りやすくするための技術の例が開示されている。
 例えば、街中に置かれているサイネージ端末や、遠隔地同士を結ぶテレビ電話などを介して、人間同士が正対してコミュニケーション、特に、会話及び翻訳結果の提示を行う状況を考える。このようにサイネージ端末を介して人間同士が正対してコミュニケーションをとる場合、以下に示すような点を考慮する必要がある。
 (1)発話開始時
 発話者の口と、サイネージ端末に設けられるマイクとの距離が遠いと、サイネージ端末は音声認識を失敗する可能性が高くなる。また、サイネージ端末は、音声認識処理を常時起動させておくと、音声認識の対象となる区間を特定しにくくなるため、音声認識を失敗する可能性が高くなる。さらに、ディスプレイサイズが大きいサイネージ端末において、マイクの位置を全ての人に向けて最適化することは現実的では無く、誰かによっては、発話時に体の移動が大きくなる位置にマイクを配置せざるを得ない。
 つまり、発話者は口をマイクに近付ける必要があるが、発話者が体をマイクに近付けたり、口をマイクに近付けたりすることで発話者の姿勢が崩れ、対話相手は違和感を覚えやすくなる。また、音声認識を起動させるためのユーザインターフェースをディスプレイに表示させる場合、発話者がユーザインターフェースを探すために視線を移動させたり、ユーザインターフェースを操作したりする必要が生じる。これにより、正対して会話をしたいのに発話者が対話者の顔とは違う方向を見ることとなり、そもそもこれらの行動は本来会話には不要な行動なので、対話として不自然な状況となる。
 ディスプレイの全面がマイクになる等の技術を開発することで、発話者が発話時に不自然な場所を見ることに起因する不自然な対話を回避することは出来るかもしれない。しかし、人によって口の位置が異なるために、特定のマイクの感度だけを高めて音声認識の成功率を高めるのは難しく、またマイクが多くなればなるほど周囲の雑音などが拾われやすくなるため、かえって音声認識を失敗する可能性が高くなってしまう。ビームフォーミング技術によって特定の方向のマイク感度だけを上げることも可能ではあるが、この場合でも周囲の雑音などの影響を受けやすくなり、音声認識を失敗する可能性が高くなってしまう。
 (2)発話者が発話中における発話側の考慮点
 サイネージ端末を介して、人間同士が正対して、発話内容を翻訳しながらコミュニケーションする場合、発話における風習や慣習の違い、使用言語の違いなどにより、発話側の発話内容を理解できない聞き手側は、受け取った音声と、その音声の翻訳結果とが一致しているかどうかを理解することが非常に困難である。発話者が単に独り言を呟いただけかもしれないし、考え込んで間が空いた状態で変な認識や翻訳が行われただけかもしれないが、聞き手側はそのことを完全に把握することは困難である。そして、発話者の発話が止まると聞き手側が話し始める場合もありうるが、その行動が発話者の意図に沿わないことも考えられ、お互いにとって期待されたコミュニケーションとならないおそれがある。
 しかし、サイネージ端末が翻訳処理中であることを発話側が聞き手側に伝え続けるのは手間が多い。また人間は不要な言葉を発話しやすいので、発話した言葉が翻訳すべきものなのかをサイネージ端末が区別するのも非常ニコン案である。そもそも、サイネージ端末が翻訳処理中であることを発話側が聞き手側に伝えられたとしても、そのこと自体はコミュニケーションには不要であり、そもそも会話としては不自然である。
 発話者は、発話する内容に困りつつも、考えながら話したり、質問したい内容を思い出しながら話したりする状況も多い。従って、発話していない場合でも、聞き手側から会話を遮って欲しくないことが多い。しかし、そこまでの意図を発話者が発話等で自然に聞き手側に伝えることは難しく、特に翻訳が発生する状況であれば尚更である。その結果、発話者の発話を遮って聞き手側が話し始めてしまう可能性がある。
 すなわち、サイネージ端末を介した、翻訳を要するコミュニケーションにおいて、余計な言葉を翻訳せず、必要な部分だけを翻訳し、サイネージ端末が翻訳処理中であることを聞き手側に簡単に伝えることで、会話を自然な状態に保つことが強く求められる。
 (3)発話者が発話中における聞き手側の考慮点
 サイネージ端末を介した、翻訳を要するコミュニケーションにおいて、サイネージ端末が次々に発話者の発話内容を翻訳し続け、翻訳結果を多量に提示すると、翻訳結果の受け手は処理ができなくなり、コミュニケーションが破綻する。
 一方、発話側は自分の発話量を把握し続けることは難しく、発話に夢中になると、気が付かない内に情報量が大きく膨れあがってしまう。聞き手側に提示される情報量は翻訳されているため、その翻訳後の情報量の大小を発話側が把握することは困難であるとともに、聞き手側が発話量の多さを感じていることを把握することも困難である。聞き手側としては、発話側に適切な量で発話を止めて欲しいので、聞き手側は、言語の壁によらずにそのことを発話側に伝えることが求められる。
 また、発話側の発話量や、翻訳後の情報量が大きく膨れあがった際に、聞き手側は、発話者に対して発話を止めさせる必要がある。しかし、聞き手側が情報量の多さを感じていることを発話者に通知すると、コミュニケーションが不自然となり、そもそも通知自体をためらいがちになる。さらに発話者がマイクに口を近付けていると正対している状態が崩れるため、受け手側が積極的にマイクに近づきづらい。
 そこで本件開示者は、上述した点に鑑みて、サイネージ端末等を介して、人間同士が正対してコミュニケーション、特に、会話及び翻訳結果の提示を行う状況において、自然なコミュニケーションを可能にするための技術について鋭意検討を行った。その結果、本件開示者は、サイネージ端末等を介して、人間同士が正対してコミュニケーションを行う際に、発話者や対話者の状況を検出することで自然なコミュニケーションを可能にするための技術を考案するに至った。
 以上、本開示の実施の形態の概要について説明した。続いて、本開示の実施の形態についてより詳細に説明する。
 [1.2.構成例]
 図1は、本開示の実施の形態に係る、サイネージ端末100を用いたコミュニケーションシステムについて示す説明図である。
 サイネージ端末100は、街中、例えば駅、デパート、ショッピングモール、スタジアムなどの人が多く集まる場所に設置される、大型のディスプレイを備えた情報表示端末である。本実施形態に係るサイネージ端末100は、正対して人間同士のコミュニケーションを行える機能を有しており、特に、人間の発話内容を解析し、翻訳して、対話相手に伝える機能を有する。本実施形態では、2人の人間(ユーザu1、u2)が、サイネージ端末100を挟んで対話しているケースを前提として説明する。
 (コミュニケーションシステム1)
 図2は、本開示の実施の形態に係る、サイネージ端末100を用いたコミュニケーションシステム1の全体構成例を示す説明図である。以下、図2を用いて、本開示の実施の形態に係るコミュニケーションシステム1の全体構成例について説明する。
 図2に示したように、本開示の実施の形態に係るコミュニケーションシステム1は、サイネージ端末100と、情報処理装置200と、音声情報処理装置300と、翻訳処理装置400と、を含んで構成される。
 サイネージ端末100は、人間同士のコミュニケーションを手助けする機能を有する情報表示端末である。本実施形態では、サイネージ端末100は、一方の面に、カメラ101、マイク102a~102h、ディスプレイ103を備える。カメラ101は、サイネージ端末100を利用する人間の姿を撮像する。マイク102a~102hは、サイネージ端末100を利用する人間の発話内容を集音する。本実施形態では、マイク102a~102dが一方の辺に設けられ、マイク102e~102hが反対の辺に設けられているが、マイクの数及び配置は係る例に限定されるものでは無い。以下の説明では、マイク102a~102hと単にマイク102と総称する場合がある。
 なお、マイク102a~102hは、全てが集音可能状態となっている必要は無く、ユーザu1、u2の顔の位置に応じて少なくとも一つだけが集音可能な状態となっていてもよい。集音可能な状態とするマイク102の選択方法については後に詳述する。
 ディスプレイ103は、種々の情報を表示する表示デバイスであり、液晶ディスプレイ、有機ELディスプレイなどで構成される。ディスプレイ103は透明であっても良く非透明であってもよい。本実施形態では、ディスプレイ103は、ユーザu1、u2の発話内容を翻訳したものを表示したり、ユーザu1、u2の発話状況を相手に伝えるための情報を表示したりする。
 図3は、サイネージ端末100を上方向から見た場合の例を示す説明図である。このように、サイネージ端末100は、一方の面に、カメラ101、マイク102a~102h、ディスプレイ103を備え、その面の反対側の面に、カメラ101’、マイク102a’~102h’、ディスプレイ103’を備える。
 情報処理装置200は、主に、サイネージ端末100に表示させる情報の表示に関する処理を実行する装置である。情報処理装置200は、サイネージ端末100との間で何らかの通信路により接続されている。通信路は有線であっても良く、無線であっても良い。またサイネージ端末100と情報処理装置200との間の通信における通信プロトコルは問わない。
 音声情報処理装置300は、主に、サイネージ端末100のマイク102a~102hで集音された音声に対する処理を実行する装置である。音声情報処理装置300は、情報処理装置200との間で何らかの通信路により接続されている。通信路は有線であっても良く、無線であっても良い。また情報処理装置200と音声情報処理装置300との間の通信における通信プロトコルは問わない。
 翻訳処理装置400は、主に、翻訳に関する処理を実行する装置であり、特に、ユーザu1、u2によって発話され、音声情報処理装置300によって認識された内容に対する翻訳処理を実行する装置である。翻訳処理装置400は、音声情報処理装置300との間で何らかの通信路により接続されている。通信路は有線であっても良く、無線であっても良い。音声情報処理装置300と翻訳処理装置400との間の通信における通信プロトコルは問わない。
 なお、図2に示した例では、サイネージ端末100が情報処理装置200、音声情報処理装置300および翻訳処理装置400とネットワークで接続されている構成を示したが、本開示は係る例に限定されるものでは無い。情報処理装置200、音声情報処理装置300および翻訳処理装置400に設けられる機能の少なくとも一部がサイネージ端末100に設けられていてもよく、逆にサイネージ端末100に設けられる機能の一部が情報処理装置200、音声情報処理装置300または翻訳処理装置400に設けられても良い。また図2には、情報処理装置200、音声情報処理装置300および翻訳処理装置400の3つの装置を示したが、本開示は係る例に限定されるものでは無く、いずれかの装置に設けられる機能の少なくとも一部が別の装置に設けられても良い。
 以上、図2を用いて、本開示の実施の形態に係るコミュニケーションシステム1の全体構成例について説明した。続いて、本開示の実施の形態に係るサイネージ端末100の機能構成例について説明する。
 (サイネージ端末100)
 図4は、本開示の実施の形態に係るサイネージ端末100の機能構成例を示す説明図である。以下、図4を用いて本開示の実施の形態に係るサイネージ端末100の機能構成例について説明する。
 図4に示したように、本開示の実施の形態に係るサイネージ端末100は、カメラ101、マイク102、ディスプレイ103、通信部104、及び制御部105を含んで構成される。
 カメラ101は、上述したように、サイネージ端末100を利用する人間の姿を動画像で撮像する。カメラ101が撮像する動画像は制御部105に送られたり、また通信部104を介して情報処理装置200に送られたりする。
 マイク102は、上述したように、サイネージ端末100を利用する人間が発話する声を集音する。マイク102が集音した音は、制御部105に送られたり、また通信部104を介して音声情報処理装置300に送られたりする。
 ディスプレイ103は、上述したように、種々の情報を表示する表示デバイスであり、液晶ディスプレイ、有機ELディスプレイなどで構成される。ディスプレイ103は透明であっても良く非透明であってもよい。本実施形態では、ディスプレイ103は、ユーザu1、u2の発話内容を翻訳したものを表示したり、ユーザu1、u2の発話状況を相手に伝えるための情報を表示したりする。ディスプレイ103への情報の表示は、例えば後述の制御部105や、情報処理装置200によって制御される。
 通信部104は、他の装置との間の情報を授受するための通信インターフェースである。通信部104は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部104は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。
 制御部105は、例えばCPU(Central Processing Unit)等のプロセッサや、ROM、RAMなどで構成され、サイネージ端末100の各部の動作を制御する。
 本実施形態では、制御部105は、表示制御部106と、集音制御部107と、検出部108と、を含んで構成される。
 表示制御部106は、ディスプレイ103への情報の表示を制御する。表示制御部106によってディスプレイ103へ表示される情報の例は後に詳述する。
 集音制御部107は、複数のマイク102に対して、集音機構のオン、オフを切り替える制御を行う。集音制御部107は、後述する高感度マイク位置取得フローによって高感度マイク位置として決定されたマイク102のみ、集音機構をオンさせる処理を行う。集音制御部107は、例えば、カメラ101で撮像された人間の顔の位置に基づいて、集音機構をオン、またはオフさせるマイク102を選択する。集音制御部107による、マイク102に対する集音機構のオン、オフの切り替えの具体例は後に詳述する。
 検出部108は、カメラ101が撮像した画像を用いて様々な検出処理を行う。本実施形態では、検出部108が行う検出処理として、人物の検出、顔の検出、顔のパーツの検出、耳の位置の推定、動き量の検出、集音制御部107が集音機構をオンさせたマイク102への口の近接の判断、ユーザの視線検出、ユーザの相槌やうなずきの検出、ユーザの掌の検出、等がある。検出部108によって検出される情報は、後述の様々な処理、例えば、初期処理フロー、耳位置推定フロー、高感度マイク位置取得フロー、翻訳モード処理フロー、球オブジェクトアニメーション処理フロー、翻訳モード継続判断処理フロー、処理量あふれ判断処理フローなどに用いられうる。
 以上、図4を用いて本開示の実施の形態に係るサイネージ端末100の機能構成例について説明した。続いて、本開示の実施の形態に係る情報処理装置200の機能構成例について説明する。
 (情報処理装置200)
 図5は、本開示の実施の形態に係る情報処理装置200の機能構成例を示す説明図である。以下、図5を用いて本開示の実施の形態に係る情報処理装置200の機能構成例について説明する。
 図5に示したように、本開示の実施の形態に係る情報処理装置200は、通信部210と。制御部220と、を含んで構成される。
 通信部210は、他の装置との間の情報を授受するための通信インターフェースである。通信部210は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部210は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。
 制御部220は、例えばCPU等のプロセッサや、ROM、RAMなどで構成され、情報処理装置200の各部の動作を制御する。制御部220は、後述するコミュニケーションシステム1の処理フロー、例えば、初期処理フロー、耳位置推定フロー、高感度マイク位置取得フロー、翻訳モード処理フロー、球オブジェクトアニメーション処理フロー、翻訳モード継続判断処理フロー、処理量あふれ判断処理フローなどを実行する。
 本実施形態では、制御部220は、表示制御部221と、画像生成部222と、判断部223と、を含んで構成される。
 表示制御部221は、サイネージ端末100のディスプレイ103への情報の表示を制御する。表示制御部221は、例えば、サイネージ端末100を使用している人物が写っている画像に対する画像処理を行う。表示制御部221によって行われうる画像処理の内容については後に詳述する。
 画像生成部222は、例えば表示制御部221によって行われうる画像処理の結果に応じて、ディスプレイ103へ表示する画像を生成する。画像生成部222によって行われうる画像生成処理の内容については後に詳述する。
 判断部223は、コミュニケーションシステム1において行われるコミュニケーションに関する処理、具体的には、後述するコミュニケーションシステム1の処理フローにおける様々な判断処理を実行する。判断部223によって行われうる判断処理の内容については後に詳述するが、一例を挙げれば、例えば、発話者が発話を一時的に止めた場合に、翻訳処理を継続すべきか否かの判断や、発話内容または翻訳結果を受け取っている受け手が発話量の多さを感じているか否かの判断などを行いうる。
 判断部223は、例えば、発話者による発話内容が、発話内容に対する翻訳処理を継続すべきかどうかを判断するレベルとなった場合に、発話者の発話内容及び発話状況に基づいて、翻訳処理の継続判断を行う。判断部223が翻訳処理の継続判断を行った結果、翻訳処理を継続すべきであると判断した場合は、情報処理装置200は、翻訳処理装置400に翻訳処理を継続させ、翻訳処理を終了すべきであると判断した場合は、翻訳処理装置400に翻訳処理を終了させる。
 以上、図5を用いて本開示の実施の形態に係る情報処理装置200の機能構成例について説明した。続いて、本開示の実施の形態に係る音声情報処理装置300の機能構成例について説明する。
 (音声情報処理装置300)
 図6は、本開示の実施の形態に係る音声情報処理装置300の機能構成例を示す説明図である。以下、図6を用いて本開示の実施の形態に係る音声情報処理装置300の機能構成例について説明する。
 図6に示したように、本開示の実施の形態に係る音声情報処理装置300は、通信部310と。制御部320と、を含んで構成される。
 通信部310は、他の装置との間の情報を授受するための通信インターフェースである。通信部310は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部310は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。
 制御部320は、例えばCPU等のプロセッサや、ROM、RAMなどで構成され、音声情報処理装置300の各部の動作を制御する。
 本実施形態では、制御部320は、検出部321と、解析部322と、生成部323と、を含んで構成される。
 検出部321は、サイネージ端末100に向かって発せられた人間の声を検出する。検出部321が検出した声は解析部322において解析が行われる。検出部321は、人間の声を検出する際に、発話の内容を検出する他、言い淀みの検出、所定の言葉(フィラーワード)の検出、発話のトーンの検出、無音区間の検出などを行いうる。
 解析部322は、検出部321によって検出された人間の声に対して様々な解析処理を実行する。解析部322が実行する解析処理としては、例えば、音声情報の解析、言語の解析、発話内容に含まれる形態素や句の解析などが行われうる。
 生成部323は、解析部322による解析結果に基づいて、サイネージ端末100に向かって発せられた内容をテキストにしたものを生成する。生成部323が生成したテキストは、翻訳処理装置400での翻訳処理に用いられる。
 以上、図6を用いて本開示の実施の形態に係る音声情報処理装置300の機能構成例について説明した。続いて、本開示の実施の形態に係る翻訳処理装置400の機能構成例について説明する。
 (翻訳処理装置400)
 図7は、本開示の実施の形態に係る翻訳処理装置400の機能構成例を示す説明図である。以下、図7を用いて本開示の実施の形態に係る翻訳処理装置400の機能構成例について説明する。
 図7に示したように、本開示の実施の形態に係る翻訳処理装置400は、通信部410と。制御部420と、を含んで構成される。
 通信部410は、他の装置との間の情報を授受するための通信インターフェースである。通信部410は、他の装置との間で有線通信を行っても良く、無線通信であっても良い。また通信部410は、他の装置との間の通信における通信プロトコルに任意のものを適用することができる。
 制御部420は、例えばCPU等のプロセッサや、ROM、RAMなどで構成され、翻訳処理装置400の各部の動作を制御する。
 本実施形態では、制御部420は、翻訳処理部421と、スコア生成部422と、を含んで構成される。
 翻訳処理部421は、音声情報処理装置300がサイネージ端末100に向かって発せられた人間の声から生成したテキスト、またはサイネージ端末100に向かって発せられた人間の声を直接用いた、別の言語への翻訳処理を行う。
 スコア生成部422は、翻訳処理部421における翻訳処理の際のスコアを生成する。スコア生成部422によるスコアの生成処理については後に詳述する。
 以上、図7を用いて本開示の実施の形態に係る翻訳処理装置400の機能構成例について説明した。続いて、本開示の実施の形態に係るコミュニケーションシステム1の動作例を説明する。
 [1.3.動作例]
 (ユースケース例)
 本開示の実施の形態に係るコミュニケーションシステム1の動作例を説明するにあたり、以下で説明するようなユースケースを用いる。以下の説明では、ユーザu1の母国語は英語、ユーザu2の母国語は英語以外の言語、例えば日本語であるとする。
 図8は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を説明する説明図である。例えば、外国から来たユーザu1が、目的地への行き方や、食べ物を買える場所などが分からずに困っている状況を考える。ユーザu1は、街中を彷徨っていると、翻訳をしながらコミュニケーションが可能である旨のメッセージが書かれたサイネージ端末100を見つけたので、誰かに教えて貰うことを期待してその前に立つ。このとき、ディスプレイ103’には、カメラ101が撮像するユーザu1の姿が映し出されている。
 図9は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を説明する説明図である。困った顔をしてサイネージ端末100の前に立っているユーザu1を見つけたユーザu2は、そのユーザu1を助けたいと思っているが、英語が苦手である。しかし、ユーザu2は、翻訳をしながらコミュニケーションが可能なサイネージ端末100を介してなら何とかなるかもしれないと思い、意を決してサイネージ端末100の前に立つ。
 すると、ユーザu1は、サイネージ端末100の反対側にユーザu2が現れたので、サイネージ端末100に向かって話しかける。サイネージ端末100は、ユーザu1の発話内容を取得して、バックにあるサーバでの翻訳処理の内容を、ユーザu2の側にあるディスプレイに出力する。ユーザu2は、サイネージ端末100が出力する翻訳処理の内容を確認することで、ユーザu1の発話内容を知ることが出来る。
 (初期処理)
 まず初期処理について説明する。コミュニケーションシステム1は、ユーザがサイネージ端末100の前に立つと、初期処理として、会話モードへの移行を行う。コミュニケーションシステム1は、例えば、カメラ101が撮像した画像から人を検出し、顔がカメラ101に正対していて顔検出が可能な状態となり、さらにその人が所定時間以上その場にとどまったことを条件に会話モードへと移行する。
 コミュニケーションシステム1は、会話モードへ移行すると、サイネージ端末100に正対しているユーザの画像情報から種々の処理を初期処理として実行する。コミュニケーションシステム1は、初期処理として、例えばユーザの顔をシミュレートした画像の生成、ユーザの頭、顔、体の輪郭情報を用いたユーザインターフェースの生成、ユーザの目、口、鼻の位置の情報の取得及び口並びの鼻の位置の情報に基づく耳の位置の計算などを行う。これらの初期処理は、例えば情報処理装置200が実行しうる。
 また、コミュニケーションシステム1は、初期処理として、マイク位置の情報をユーザインターフェースに反映させる処理を行う。具体的には、コミュニケーションシステム1は、サイネージ端末100に備えられるマイク102の位置の情報と、取得したユーザの口の位置の情報とから、ユーザに口を近付けて発話してもらうマイク102の位置を示すためのユーザインターフェースを生成する。
 図10は、サイネージ端末100のディスプレイ103に表示されるユーザインターフェースの例を示す説明図である。図10に示したのは、ユーザu1がサイネージ端末100の前に立った場合におけるユーザインターフェースの例である。コミュニケーションシステム1は、サイネージ端末100に正対しているユーザu1の画像情報から、ユーザu1の正対身体輪郭UI111を生成し、ディスプレイ103に表示させる。また、コミュニケーションシステム1は、マイク102の位置の情報と、取得したユーザの口の位置の情報とから、ユーザに口を近付けて発話してもらうマイク102の位置(高感度マイク位置と称する)を決定し、その高感度マイク位置を示すマイクUI112を生成し、ディスプレイ103に表示させる。
 コミュニケーションシステム1は、正対身体輪郭UI111における口に該当する位置から遠くなる位置にあるマイク102の位置を、ユーザに口を近付けて発話してもらう高感度マイク位置として決定しても良い。これは、発話時にはなるべく正対身体輪郭UI111から外れて発話することをユーザに促すためである。
 コミュニケーションシステム1は、マイクUI112をディスプレイ103に表示させる際に、正対身体輪郭UI111における口に該当する位置から、ユーザに口を近付けて発話してもらう高感度マイク位置へ移動させるよう表示しても良い。またコミュニケーションシステム1は、マイクUI112をディスプレイ103に表示させる際に、点滅して表示させたり、上下に動くよう表示させたりしてもよい。
 図11は、ユーザu1から見てサイネージ端末100の反対側にユーザu2が立った状態の例を示す説明図である。そして図12は、図10に示したユーザインターフェースがディスプレイ103に表示されている場合において、ユーザu1から見てサイネージ端末100の反対側にユーザu2が立った際の、ディスプレイ103の表示例を示す説明図である。このようにディスプレイ103には、反対側に設けられたカメラ101’が撮像した画像が表示されうる。
 図13は、サイネージ端末100のディスプレイ103’に表示されるユーザインターフェースの例を示す説明図である。図13に示したのは、ユーザu2がサイネージ端末100の前に立った場合におけるユーザインターフェースの例である。コミュニケーションシステム1は、サイネージ端末100に正対しているユーザu2の画像情報から、ユーザu2の正対身体輪郭UI111’を生成し、ディスプレイ103’に表示させる。また、コミュニケーションシステム1は、マイク102’の位置の情報と、取得したユーザの口の位置の情報とから、ユーザに口を近付けて発話してもらうマイク102’の位置(高感度マイク位置)を示すマイクUI112’を生成し、ディスプレイ103’に表示させる。
 このように、サイネージ端末100の前にユーザu1、u2が立つと、コミュニケーションシステム1は初期処理を実行する。初期処理が完了すると、続いてコミュニケーションシステム1は、翻訳モードへの移行、及び音声認識の起動処理を行う。
 (翻訳モードへの移行、音声認識の起動)
 コミュニケーションシステム1は、サイネージ端末100の前に立つユーザの口の位置と、高感度マイク位置との距離が所定の閾値以下となると、翻訳モードへ移行させる。図14は、ユーザu1が顔を高感度マイク位置に近付ける様子を示す説明図である。このようにユーザu1が顔を高感度マイク位置に近付けて、ユーザの口の位置と、高感度マイク位置との距離が所定の閾値以下となることが検出されると、コミュニケーションシステム1は、翻訳モードへ移行させる。
 そして、コミュニケーションシステム1は、翻訳モードへと移行させると、音声認識を起動させる。コミュニケーションシステム1は、音声認識を起動させる際には、初期処理で生成していた、ユーザu1の顔をシミュレートした画像を、相手側のディスプレイ103’における、ユーザu1の正対身体輪郭UI111の顔の位置に表示させる処理を実行する。
 図15は、コミュニケーションシステム1が音声認識を起動させた際に、ディスプレイ103’に表示されるユーザインターフェースの例を示す説明図である。ユーザu1が顔を高感度マイク位置に近付けて、体の位置が正対身体輪郭から外れると、コミュニケーションシステム1は、ユーザu1の顔の位置に、ユーザu1の顔をシミュレートした画像114を表示させる。
 このように、ユーザu1の顔の位置に、ユーザu1の顔をシミュレートした画像114を表示させることで、コミュニケーションシステム1は、ユーザu1が顔を高感度マイク位置に近付けている場合であっても、ユーザu1とユーザu2とが、サイネージ端末100を挟んで向かい合って対話しているように見せることが出来る。
 コミュニケーションシステム1は、ユーザu1の顔をシミュレートした画像114を表示させる際、ユーザu2の方に見えているユーザu1の姿の一部、または全部を画像114に置き換えても良い。ユーザu1の顔をシミュレートした画像114は、顔全体であってもよく、口元や目元だけなど顔の一部分であっても良い。またコミュニケーションシステム1は、ユーザu1の顔をシミュレートした画像114を表示させる際、その画像114に対して、話しているように口の部分を動かしたり、ランダムな間隔で瞬きをさせたりする画像処理を行っても良い。
 なお、コミュニケーションシステム1は、ユーザu1がサイネージ端末100に正対した時点で、ユーザu2の方に見えているユーザu1の姿の一部、または全部を画像114に置き換えても良い。
 またコミュニケーションシステム1は、音声認識を起動させる際には、高感度マイク位置以外の位置にあるマイク102をオフさせる。またコミュニケーションシステム1は、音声認識を起動させると、音声認識を起動させている間、ユーザu1の視線情報を取得し続ける。またコミュニケーションシステム1は、音声認識を起動させると、音声認識を起動させている間、ユーザu1の発話の周波数情報を取得し続ける。
 またコミュニケーションシステム1は、音声認識を起動させる際には、音声認識を終了させるためのユーザインターフェースをディスプレイ103に表示させる。コミュニケーションシステム1は、音声認識を終了させるためのユーザインターフェースとして、例えば、正対身体輪郭UI111を点滅させたり、現在の身体輪郭の情報を身体輪郭ユーザインターフェースとして表示させたりしてもよい。
 (音声入力、翻訳処理)
 コミュニケーションシステム1は、ユーザu1が高感度マイク位置のマイク102に向かって発話を行うと、その発話の内容が相手のユーザu2に届いていることを示すユーザインターフェースを表示させても良い。
 図16は、ユーザu1の側のディスプレイ103に表示されるユーザインターフェースの例を示す説明図である。ユーザu1が高感度マイク位置のマイク102に向かって発話を行うと、コミュニケーションシステム1は、その発話の認識結果を表示する球UI115をディスプレイ103に表示させる。この球UI115は、ユーザu1の口の高さから、ディスプレイ103に表示されているユーザu2の耳に向かって移動するように表示されるユーザインターフェースである。
 このような演出を行うことで、コミュニケーションシステム1は、ユーザu1の発話の内容が相手のユーザu2に届いていることを示すことができる。
 またコミュニケーションシステム1は、ユーザu1が高感度マイク位置のマイク102に向かって発話を行うと、その発話の音声認識結果をディスプレイ103に表示させてもよい。図16には、ユーザu1の発話の音声認識結果116がディスプレイ103に表示されている例が示されている。図16に示した例では、ユーザu1が英語で発話していることを音声情報処理装置300が認識し、ユーザu1の発話内容が英語としてディスプレイ103にされている。ユーザがどの言語で発話したかどうかは、音声情報処理装置300が自動的に認識しても良いし、音声情報処理装置300が発話内容を解析することによって判定してもよい。また、ユーザにサイネージ端末100を操作させて、どの言語で発話するかをサイネージ端末100に対して指定させてもよい。
 コミュニケーションシステム1は、ユーザu1の発話の音声認識結果を用いて翻訳処理を実行する。コミュニケーションシステム1は、翻訳処理の実行の際には、翻訳処理のスコアを取得し続ける。スコアの取得方法は後に詳述する。またコミュニケーションシステム1は、翻訳処理の実行の際には、音声認識結果の全文を翻訳してもよく、音声認識結果を要約した上でその要約を翻訳しても良い。コミュニケーションシステム1は、音声認識結果を要約する際には、例えば、音声認識結果に対して形態素解析を行い、要点と思われる品詞を抽出してもよい。
 一方、コミュニケーションシステム1は、ユーザu1が発話中であることをユーザu2に対して示すユーザインターフェースを表示させても良い。
 図17は、ユーザu2の側のディスプレイ103’に表示されるユーザインターフェースの例を示す説明図である。ユーザu1が高感度マイク位置のマイク102に向かって発話を行うと、コミュニケーションシステム1は、ユーザu1の顔をシミュレートした画像114の口の位置から、発話の認識結果を表示する球UI117をディスプレイ103’に表示させる。
 このような演出を行うことで、コミュニケーションシステム1は、ユーザu1が発話中であることを相手のユーザu2に示すことができる。
 またコミュニケーションシステム1は、ユーザu1が高感度マイク位置のマイク102に向かって発話を行うと、その発話の音声認識結果に対する翻訳結果をディスプレイ103’に表示させてもよい。図17には、ユーザu1の発話の音声認識結果に対する翻訳結果118がディスプレイ103’に表示されている例が示されている。
 なお、図17には、翻訳結果118として「私の国の電車は定刻通りに到着しない」と示されているが、上述した要約の翻訳を行うと、例えば翻訳結果118として「電車 定刻 到着しない」のように表示されうる。
 コミュニケーションシステム1は、翻訳結果118をサイネージ端末100に表示する際に、聞き手の正対状態が崩れないような位置に表示させることが望ましい。図18に示した例では、翻訳結果118が、発話者の画像114の近くに表示されている。翻訳結果118が、発話者の画像114の近くに表示されていることで、聞き手であるユーザu2は、正対状態を崩さずに翻訳結果を確認することが出来る。
 コミュニケーションシステム1は、音声認識結果を時間軸上に並べて表示させてもよい。図18は、ユーザu1の側のディスプレイ103に表示されるユーザインターフェースの例を示す説明図である。コミュニケーションシステム1は、ユーザu1の音声認識結果116を、図18に示すように時間軸上に並べて表示させてもよい。ユーザu1の音声認識結果を時系列で表示させることで、コミュニケーションシステム1は、発話者に対して過去の発話内容を確認させることができる。
 またコミュニケーションシステム1は、ユーザu1の音声認識結果116を時間軸上に並べて表示させる際に、図18に示すように発話者の写真を併せて表示させても良い。コミュニケーションシステム1は、音声認識結果116に発話者の写真を併せて表示させることで、過去に誰がその内容を話したのかを発話者に確認させることができる。
 (翻訳モードの継続判断(1))
 コミュニケーションシステム1は、ユーザu1の発話が途絶えたことを検出した場合に、例えば、ユーザu1の過去の発話内容及びユーザu1の発話状況を用いて、翻訳モードを継続すべきかどうかの判断を行う。まず、翻訳モードを継続すべきかどうかの最初の判断例を示す。
 コミュニケーションシステム1は、音声入力が無くなった、すなわち、ユーザu1の発話が途絶えた場合でも、ユーザu1の発話内容に対する翻訳スコアが所定値より低く、かつ、発話者であるユーザu1の視線がユーザu2の方を向いていないときは、翻訳モードを継続する。これは、伝える情報が分からなくなると、人と目を合わせない、または視線が泳ぐようになるという人間の心理に基づくものである。
 図19は、コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図19には、ユーザu1の側のディスプレイ103に、ユーザu2の姿が表示されている状態が例示されている。
 図19には、ユーザu2の正対身体輪郭領域に、所定の閾値d_surrounding_threshを加えた領域119が示されている。この領域119は、ディスプレイ103に表示されていなくても良い。コミュニケーションシステム1は、ユーザu1の発話内容に対する翻訳スコアが所定値より低く、かつ、ユーザu1の視線が、領域119の外側に、所定の時間t_surrounding_thresh以上存在している場合は、翻訳モードを継続すると判断する。
 一方、コミュニケーションシステム1は、ユーザu1の発話内容に対する翻訳スコアが所定値より低く、かつ、ユーザu1の視線が、領域119の内側に、所定の時間t_surrounding_thresh以上存在している場合は、翻訳モードを解除すると判断する。
 なお、図19に示した例では、ユーザu2の正対身体輪郭領域の全体に、一律に所定の閾値d_surrounding_threshを加えた例が示されているが、この所定の閾値は、ユーザu2の体の部位に応じて変化させても良い。コミュニケーションシステム1は、例えば、首より上と首より下とで、この所定の閾値を変化させても良い。
 またコミュニケーションシステム1は、ユーザu1の視線の先に応じて、翻訳モードを継続すべきかどうかの判断を変化させても良い。すなわち、コミュニケーションシステム1は、ユーザu1が、ユーザu2の顔を見ているか、体を見ているか、手を見ているか、等に応じて、翻訳モードを継続すべきかどうかの判断を変化させても良い。
 またコミュニケーションシステム1は、ユーザu2の背景の動きの有無に応じて、翻訳モードを継続すべきかどうかの判断を変化させても良い。これによりコミュニケーションシステム1は、ユーザu1が話す内容が分からなくなって目が泳いでいるのか、ユーザu2の背景に目を取られたのか、に応じて、翻訳モードを継続すべきかどうかの判断を変化できる。
 コミュニケーションシステム1は、コミュニケーションシステム1を利用するユーザが過去にもコミュニケーションシステム1を利用したことがあれば、そのユーザの癖を用いて翻訳モードを継続すべきかどうか判断しても良い。例えば、視線を動かしやすいユーザであれば、ユーザが対話相手から視線を逸らしても翻訳モードを継続すべきであると判断しても良い。
 コミュニケーションシステム1は、ユーザ同士がコミュニケーションを行っているシチュエーションによって、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。例えば、コミュニケーションシステム1は、コミュニケーションを行っているシチュエーションが、道案内であるのか、会議であるのか、等に応じて、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。また例えば、コミュニケーションシステム1は、コミュニケーションを行っているシチュエーションとして、ユーザが急いでいる状況なのか、時間に余裕がある状況なのか、等に応じて、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。
 コミュニケーションシステム1は、コミュニケーションを行っている相手との関係によって、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。例えば、コミュニケーションシステム1は、コミュニケーションを行っている相手が、初対面の人物であるのか、異性であるのか、取引先の高い役職の人であるのか、等に応じて、翻訳モードを継続すべきかどうかの判断に用いる閾値を変化させても良い。
 (翻訳モードの継続判断(2))
 次に、翻訳モードを継続すべきかどうかの2つ目の判断例を示す。
 コミュニケーションシステム1は、音声入力が無くなった、すなわち、ユーザu1の発話が途絶えた場合でも、ユーザu1が発話した文章が完結していなければ、例えば、ユーザu1の発話内容に言い淀みが検出されれば翻訳モードを継続する。またコミュニケーションシステム1は、無音になる前に所定のフィラーワードが含まれており、そのフィラーワードが発せられてから所定の時間t_fillerwords_threshが経過するまでは、翻訳モードを継続する。
 図20は、コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図20には、コミュニケーションシステム1が翻訳モードを継続すべきかどうかの3つの判断例を示している。1つ目の例は、ユーザu1の発話が途絶えてから所定の時間が経過すると、コミュニケーションシステム1が翻訳モードを解除する例である。2つ目の例は、ユーザu1の発話が途絶えても、言い淀みを検出するとコミュニケーションシステム1が翻訳モードを継続する例である。3つ目の例は、ユーザu1が所定のフィラーワードを発したことを検出すると、コミュニケーションシステム1は、そのフィラーワードが発せられてから所定の時間t_fillerwords_threshが経過するまでは、翻訳モードを継続する例である。
 (翻訳モードの継続判断(3))
 次に、翻訳モードを継続すべきかどうかの3つ目の判断例を示す。
 コミュニケーションシステム1は、音声入力が無くなった、すなわち、ユーザu1の発話が途絶えた場合でも、ユーザの声質に基づいて翻訳モードを継続するかどうか判断する。例えば、コミュニケーションシステム1は、音声入力が無くなった、すなわち、ユーザu1の発話が途絶えた場合でも、最後の発話の周波数情報が、それまで取得し続けた周波数の平均と比べてある閾値以下となっていた場合は、翻訳モードを継続する。
 具体的には、コミュニケーションシステム1は、音声入力が無くなった、すなわち、ユーザu1の発話が途絶えた際に、最後の発話の周波数情報info_last_voice_freqを算出し、それまで行われた発話すべての平均の周波数情報f_all_voiceを算出する。そして、コミュニケーションシステム1は、info_last_voice_freq
< info_voice_freq_ave - f_threshを満たす場合は声のトーンが下がった、つまり、発話者が自信を無くしている状態であると判断し、翻訳モードを継続する。一方、コミュニケーションシステム1は、info_last_voice_freq >= info_voice_freq_ave - f_threshを満たす場合は、翻訳モードを解除する。
 (翻訳モードの継続判断(4))
 次に、翻訳モードを継続すべきかどうかの4つ目の判断例を示す。
 コミュニケーションシステム1は、音声入力が無くなる前に音声認識を行った結果、所定のデータベース(ここでは「会話終了判断ワードデータベース」とする)に含まれる者と一致していれば、ユーザからの音声入力が無いまま所定の時間t_convendwords_threshが経過するまでは翻訳モードを継続し、所定の時間t_convendwords_threshが経過すると翻訳モードを終了する。
 図21は、コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図21には、ユーザが、発話を停止する直前に、会話終了判断ワードデータベースに登録されている”What do you think of that?”という語句を発話した場合の例が示されている。この語句の発話を検出したコミュニケーションシステム1は、ユーザからの音声入力が無いまま所定の時間t_convendwords_threshが経過するまでは翻訳モードを継続する。そしてコミュニケーションシステム1は、ユーザからの音声入力が無いまま所定の時間t_convendwords_threshが経過すると翻訳モードを終了する。
 (翻訳モードの継続判断(5))
 次に、翻訳モードを継続すべきかどうかの5つ目の判断例を示す。
 コミュニケーションシステム1は、ユーザが意図的に翻訳モードを解除するための動作を行った場合は、翻訳モードを解除する。意図的に翻訳モードを解除するための動作には、例えばディスプレイ103に表示された終了ボタンを押す、体を正対状態に戻す、発話を終えて視線を対話相手に戻す、等があり得るが、これらの例に限定されるものでは無い。
 図22は、コミュニケーションシステム1がディスプレイ103に表示させるユーザインターフェースの例を示す説明図である。図22には、ディスプレイ103に、「STOP」と表示された、翻訳モードを解除するための終了ボタン120が表示されている例が示されている。コミュニケーションシステム1は、ユーザが終了ボタン120をタッチしたこと、または終了ボタン120に指を近接させたことを検出すると、翻訳モードを解除する。なお、終了ボタン120に表示される言葉は、ユーザu1が発話している言語に応じて変化させても良い。
 ユーザが終了ボタン120をタッチしたこと、または終了ボタン120に指を近接させたことを検出すると、コミュニケーションシステム1は、例えば、ユーザに対して体を正対状態に戻すよう促すメッセージを、文字でディスプレイ103に表示したり、音声で出力したりしても良い。
 図23は、コミュニケーションシステム1が翻訳モードを継続すべきかどうかの判断を行うことを説明するための説明図である。図23には、ユーザが正対身体輪郭UI111に対応する位置に姿勢を戻した場合の例が示されている。コミュニケーションシステム1は、ユーザが正対身体輪郭UI111に対応する位置に姿勢を戻し、姿勢を戻してから所定時間経過したことを検出すると、翻訳モードを解除する。
 コミュニケーションシステム1は、ユーザが正対身体輪郭UI111に対応する位置に完全に姿勢を戻していなくても、例えば体の5割以上が正対身体輪郭UI111に対応する範囲に含まれていれば、体が正対状態に戻ったと判断しても良い。
 その他、コミュニケーションシステム1は、例えばサイネージ端末100の周囲の騒音や雑音の有無によって翻訳モードを継続の可否を判断しても良い。発話者が発話を停止した場合に、サイネージ端末100の周囲で騒音や雑音が発生していれば、発話者はもしかしてその騒音や雑音に気を取られたのかもしれない。従って、コミュニケーションシステム1は、発話者が発話を停止した場合に、サイネージ端末100の周囲で騒音や雑音が発生していれば、翻訳モードを継続すると判断しても良い。
 その他、コミュニケーションシステム1は、例えば相手からの回答に対する内容に基づいて、翻訳モードを継続の可否を判断しても良い。例えば、相手からの回答が質問であれば、ユーザはその回答に対して発話しようとするので、ユーザがしばらく発話を行わなかったとしても、コミュニケーションシステム1は、翻訳モードを継続すると判断する。一方、相手からの回答が質問でなければ、ユーザがしばらく発話を行わなかったとすると、コミュニケーションシステム1は、翻訳モードを終了すると判断する。
 (聞き手側の処理あふれ判断)
 上述の「(3)発話者が発話中における聞き手側の考慮点」において指摘したように、サイネージ端末を介した、翻訳を要するコミュニケーションにおいて、サイネージ端末が次々に発話者の発話内容を翻訳し続け、翻訳結果を多量に提示すると、翻訳結果の受け手は処理ができなくなり、コミュニケーションが破綻する。
 そこでコミュニケーションシステム1は、聞き手側の状況を検出して、聞き手側の処理あふれの有無を判断する。そして聞き手側が処理あふれを起こしていると判断した場合は、コミュニケーションシステム1は、発話者側に、発話を一時的に止めるよう通知する。
 (聞き手側の処理あふれ判断(1))
 まず、聞き手側の処理あふれ判断の最初の例を示す。
 コミュニケーションシステム1は、発話者であるユーザu1が発話中に、聞き手側であるユーザu2の視線がユーザu1の方を向いておらず、ユーザu1の正対身体輪郭情報から所定の閾値以上の距離の外側にあり、その状態が所定時間以上継続したときは、ユーザu2が処理あふれを起こしていると判断する。
 図24は、コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。図24には、ユーザu2の側のディスプレイ103’に、ユーザu1の姿が表示されている状態が例示されている。
 図24には、ユーザu1の正対身体輪郭領域に、所定の閾値d_surrounding_threshを加えた領域119’が示されている。この領域119’は、ディスプレイ103’に表示されていなくても良い。コミュニケーションシステム1は、発話者であるユーザu1が発話中に、ユーザu2の視線が、領域119’の外側に、所定の時間t_surrounding_thresh以上存在している場合は、ユーザu2が処理あふれを起こしていると判断する。一方、発話者であるユーザu1が発話中に、ユーザu2の視線が、領域119’の内側に存在していれば、また領域119’の外側に視線があっても、所定の時間t_surrounding_threshの経過前に領域119’の内側に視線が戻れば、ユーザu2が処理あふれを起こしていないと判断する。
 (聞き手側の処理あふれ判断(2))
 次に、聞き手側の処理あふれ判断の2つ目の例を示す。
 コミュニケーションシステム1は、発話者であるユーザu1が発話中に、聞き手側であるユーザu2が相槌を打たなくなってから所定時間以上経過したときは、ユーザu2が処理あふれを起こしていると判断する。
 図25は、コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。ユーザu2がある時点で相槌を打たなくなり、その後、相槌を検出しなくなってから所定時間以上経過したときは、コミュニケーションシステム1は、ユーザu2が処理あふれを起こしていると判断する。
 (聞き手側の処理あふれ判断(3))
 次に、聞き手側の処理あふれ判断の3つ目の例を示す。
 コミュニケーションシステム1は、発話者であるユーザu1が発話中に、聞き手側であるユーザu2が掌をユーザu1に向け、その状態が所定時間以上継続したときは、ユーザu2が処理あふれを起こしていると判断する。
 図26は、コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。ユーザu2がある時点で掌をユーザu1に向け、その後、その状態が所定時間以上継続したときは、コミュニケーションシステム1は、ユーザu2が処理あふれを起こしていると判断する。
 (聞き手側の処理あふれ判断(4))
 次に、聞き手側の処理あふれ判断の4つ目の例を示す。
 コミュニケーションシステム1は、発話者であるユーザu1が発話中に、音声認識結果のテキスト、または音声認識結果を翻訳した際のテキストが、所定の条件を満たした場合に、ユーザu2が処理あふれを起こしていると判断する。所定の条件としては、例えば、句解析を行った結果、句の数がある閾値を超えた(分かち書き言語であれば単語の数がある閾値を超えた)、形態素(英語ならば、単語)のうち、主要品詞である名詞及び動詞の数がある閾値を超えた、文字数がある閾値を超えた、などがある。
 図27は、コミュニケーションシステム1が聞き手側の処理あふれの判断を行うことを説明するための説明図である。ユーザu1が発話中に、音声認識結果のテキスト、または音声認識結果を翻訳した際のテキストが、所定の条件を満たした場合は、コミュニケーションシステム1は、ユーザu2が処理あふれを起こしていると判断する。
 コミュニケーションシステム1は、発話者が発話した内容、または発話内容の翻訳結果に、専門性の高い単語が含まれているなどして、内容が難しい場合は、上記の句の数を少なくしてもよい。また、コミュニケーションシステム1は、発話者が発話した内容が難しい場合は、専門性の高い単語に重みを付けることで、聞き手側の処理あふれを起こしているかどうかの判断を行っても良い。
 以上、聞き手側が処理あふれを起こしているかどうかを判断する5つの例を示した。コミュニケーションシステム1は、上述したいずれかの方法により、また上述した方法を複数組み合わせることにより、聞き手側が処理あふれを起こしているかどうかを判断する。なお上述したものは聞き手側が処理あふれを起こしているかどうかを判断するための一例に過ぎないことはいうまでも無い。
 また、聞き手の属性に応じて処理あふれを起こすまでの量は異なる。大人であれば処理あふれを起こすまでの量は多いが、子供であれば処理あふれを起こすまでの量は少ない。従って、コミュニケーションシステム1は、聞き手の属性に応じて処理あふれを起こすと判断するまでの閾値を変化させても良い。
 またコミュニケーションシステム1は、聞き手側の生体情報に基づいて処理あふれを起こしているかどうかを判断してもよい。例えば、心拍数が上昇した、発汗量が増えた、等の情報を、聞き手側が所持しているデバイスに備えられるセンサで取得し、そのデバイスから情報を得ることで、コミュニケーションシステム1は、聞き手側が処理あふれを起こしているかどうかを判断してもよい。
 (処理あふれを起こしたと判断した場合のユーザインターフェース)
 コミュニケーションシステム1は、聞き手側が処理あふれを起こしていることを発話者側に伝えるためのユーザインターフェースを発話者側のディスプレイ103に提示する。
 上述した例では、コミュニケーションシステム1は、発話者が発話していると、球UI115が聞き手側の耳に入っていくユーザインターフェースを示した。このようなユーザインターフェースを表示している場合、聞き手側が処理あふれを起こしていることを判断すると、コミュニケーションシステム1は、球UI115が聞き手側の耳で跳ね返り、こぼれ落ちていくようなユーザインターフェースを表示させてもよい。
 図28は、ユーザu1の側のディスプレイ103に表示されるユーザインターフェースの例を示す説明図である。コミュニケーションシステム1は、上述の判断によって聞き手側であるユーザu2が処理あふれを起こしていることを判断すると、球UI115がユーザu2の耳で跳ね返り、こぼれ落ちていくようなユーザインターフェースを表示させる。このようなユーザインターフェースを発話者側のディスプレイ103に表示させることで、コミュニケーションシステム1は、聞き手側が処理あふれを起こしていることを発話者側に伝えることが可能となる。
 ユーザu1の側のディスプレイ103に表示されるユーザインターフェースとしては、この他にも、例えば発話内容の認識結果の表示を止める、球UI115自体の表示を止める、などがあり得る。また、コミュニケーションシステム1は、聞き手側が処理あふれを起こしていることを発話者側に伝えるために、発話者の発話音を打ち消すような音を出力してもよい。
 図28には、聞き手側が処理あふれを起こしていることを発話者側に伝えるためのユーザインターフェースを発話者側のディスプレイ103に提示する例を示したが、コミュニケーションシステム1は、発話者の発話を遮るためのユーザインターフェースを聞き手側に表示させても良い。例えば、コミュニケーションシステム1は、発話内容の翻訳結果を、あえて聞き手の正対状態が崩れる位置、例えばマイクUIの近くに表示させてもよい。コミュニケーションシステム1は、視線を外させたり、体の向きを変えさせて聞き手の正対状態を敢えて崩させたりすることで、聞き手側が処理あふれを起こしていることを聞き手自身に伝えることが可能となる。
 コミュニケーションシステム1は、処理あふれを起こした条件に応じて、ディスプレイ103に表示させるユーザインターフェースを変化させてもよい。例えば、視線が発話者側を向かなくなったことで処理あふれを起こしたと判断すれば、コミュニケーションシステム1は、聞き手側の姿の周囲に汗が飛び出ているようなCGをディスプレイ103に表示さてもよい。また例えば、頷きが無くなったことで処理あふれを起こしたと判断すれば、コミュニケーションシステム1は、聞き手側の頭の上に、聞き手側が困っているような表現を表すCGをディスプレイ103に表示さてもよい。
 以上、本開示の実施の形態に係るコミュニケーションシステム1の動作例を、一つのユースケースを取り上げて説明した。続いて、本開示の実施の形態に係るコミュニケーションシステム1の動作例をより詳細に説明する。
 (発話者側の全体フロー)
 図29は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図29に示したのは、発話者側の全体フローを示したものである。
 発話者(上述の例では、ユーザu1)がサイネージ端末100の前に立つと、コミュニケーションシステム1は初期処理を実行する(ステップS101)。この初期処理は、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行しうる。初期処理の詳細については後に詳述する。
 コミュニケーションシステム1は、上記ステップS101で初期処理を実行すると、続いて、相手側(上述の例では、ユーザu2)の初期フローが終了しているかどうか判断する(ステップS102)。この判断処理は例えば情報処理装置200(例えば、判断部223)が実行しうる。
 上記ステップS102の判断の結果、相手側の初期フローが終了していれば(ステップS102,Yes)、コミュニケーションシステム1は、翻訳モードの処理を実行する(ステップS103)。一方、上記ステップS102の判断の結果、相手側の初期フローが終了していなければ(ステップS102,No)、コミュニケーションシステム1は、相手側の初期フローが終了するまで待機する。なお、コミュニケーションシステム1は、相手が現れないなどの理由で、所定時間経過しても相手側の初期フローが終了していなければ、初期フローを終了させても良い。
 (初期処理フロー)
 続いて、図29のステップS101で示した初期処理の詳細な流れを説明する。図30A、30Bは、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図30A、30Bに示したのは、図29のステップS101で示した初期処理の詳細なフローを示したものである。なお、以下で示す初期処理は、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行するものとするが、初期処理は、コミュニケーションシステム1を構成するどの装置で行われても良い。
 まずコミュニケーションシステム1は、ユーザがサイネージ端末100の前にとどまった時間カウンタt_stayをリセット(t_stay=0)し、会話モードかどうかを示すフラグf_conv_modeをリセット(f_conv_mode=false)し、マイク102の位置情報p_mic_i(i=0,…,n)を取得する(ステップS111)。
 続いて、コミュニケーションシステム1は、カメラ101が撮像したカメラ画像を用いた顔検出処理によって顔が検出できたかどうか判断する(ステップS112)。
 上記ステップS112の判断の結果、顔が検出できない場合は(ステップS112、No)、続いてコミュニケーションシステム1は、上記ステップS111に戻る。一方、上記ステップS112の判断の結果、顔が検出できた場合は(ステップS112、Yes)、続いてコミュニケーションシステム1は、時間カウンタt_stayをインクリメントする(ステップS113)。
 上記ステップS113で時間カウンタt_stayをインクリメントすると、続いてコミュニケーションシステム1は、時間カウンタt_stayが閾値t_stay_threshより大きいかどうか判断する(ステップS114)。
 上記ステップS114の判断の結果、時間カウンタt_stayが閾値t_stay_thresh未満の場合は(ステップS114、No)、コミュニケーションシステム1は上記ステップS112の処理に戻る。一方、上記ステップS114の判断の結果、時間カウンタt_stayが閾値t_stay_threshより大きい場合は(ステップS114、Yes)、コミュニケーションシステム1は、会話モードかどうかを示すフラグf_conv_modeをtrueにセットし、(ステップS115)、正体時のユーザの顔情報info_faceを取得する(ステップS116)。
 フラグf_conv_modeをtrueにセットし、正体時のユーザの顔情報info_faceを取得すると、続いてコミュニケーションシステム1は、正対時の人の輪郭情報info_outline_confrontを生成して正対身体輪郭UIとして画面へ反映させる(ステップS117)。
 正対時の人の輪郭情報info_outline_confrontを生成すると、続いてコミュニケーションシステム1は、正体時のユーザの顔情報info_faceや正対時の人の輪郭情報info_outline_confrontから。目情報info_eye、口情報info_mouth及び鼻情報info_noseを取得する(ステップS118)。
 目情報info_eye、口情報info_mouth及び鼻情報info_noseを取得すると、続いてコミュニケーションシステム1は、info_faseから表情を様々なものに変えた顔情報info_facial_expを生成する(ステップS119)。ここでの表情としては、例えば感情を出していない状態の表情、笑っている表情、不安な表情などがありうるが、これらの表情に限定されるものではない。
 上記ステップS119で顔情報info_facial_expを生成すると、続いてコミュニケーションシステム1は、耳位置推定フローを実行する(ステップS120)。耳位置推定フローの詳細は後に詳述する。
 上記ステップS120で耳位置推定フローを実行すると、続いてコミュニケーションシステム1は、高感度マイク位置取得フローを実行する(ステップS121)。高感度マイク位置取得フローの詳細は後に詳述する。
 上記ステップS121で高感度マイク位置取得フローを実行すると、続いてコミュニケーションシステム1は、口の位置情報p_mouthから高感度マイク位置p_h_sensitive_micに向けて、マイクUIをアニメーションで移動させる(ステップS122)。
 以上、図29のステップS101で示した初期処理の詳細な流れを説明した。続いて、上記ステップS120の耳位置推定フローの詳細な流れを説明する。
 (耳位置推定フロー)
 図31は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図31に示したのは、図30BのステップS120の耳位置推定フローの詳細な流れである。なお、以下で示す耳位置推定フローは、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行するものとするが、耳位置推定フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 コミュニケーションシステム1は、耳位置推定フローを実行する際に、まず口情報info_mouthから口の位置情報p_mouthを取得する(ステップS131)。さらにコミュニケーションシステム1は、目情報info_eyeから、左目の位置情報p_eye_lと、右目の位置情報p_eye_rと、を取得する(ステップS132)。さらにコミュニケーションシステム1は、鼻情報info_noseから鼻の最下部位置情報p_nose_dを取得する(ステップS133)。
 図32は、口の位置情報p_mouth、左目の位置情報p_eye_l、右目の位置情報p_eye_r、および鼻の最下部位置情報p_nose_dを示す説明図である。コミュニケーションシステム1は、サイネージ端末100の前に立つユーザの目情報info_eye、口情報info_mouth及び鼻情報info_noseから、図32に示したように口の位置情報p_mouth、左目の位置情報p_eye_l、右目の位置情報p_eye_r、および鼻の最下部位置情報p_nose_dを取得する。
 続いてコミュニケーションシステム1は、右目の位置情報p_eye_rから左目の位置情報p_eye_lへのベクトルvec_eye_rlを2倍したものと、右目の位置情報p_eye_rから鼻の最下部位置情報p_nose_dへのベクトルvec_r_noseを0.5倍したものとの和をとって、左の耳位置p_ear_lを取得する(ステップS134)。
 同様に、コミュニケーションシステム1は、左目の位置情報p_eye_lから右目の位置情報p_eye_rへのベクトルvec_eye_lrを2倍したものと、p_eye_lからp_nose_dへのベクトルvec_l_noseを0.5倍したものとの和をとって、右の耳位置p_ear_rを取得する(ステップS135)。
 図33は、口の位置情報p_mouth、左目の位置情報p_eye_l、右目の位置情報p_eye_r、および鼻の最下部位置情報p_nose_dから算出される左の耳位置p_ear_l及び右の耳位置p_ear_rを示す説明図である。このように、コミュニケーションシステム1はユーザのおおよその左の耳位置p_ear_l及び右の耳位置p_ear_rを算出する。
 以上、図30BのステップS120で示した耳位置推定フローの詳細な流れを説明した。続いて、図30BのステップS121の、高感度マイク位置取得フローの詳細な流れを説明する。
 (高感度マイク位置取得フロー)
 図34は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図34に示したのは、図30BのステップS121の、高感度マイク位置取得フローの詳細な流れである。なお、以下で示す高感度マイク位置取得フローは、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行するものとするが、高感度マイク位置取得フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 コミュニケーションシステム1は、高感度マイク位置取得フローを実行する際に、まず口の位置情報p_mouthの高さより低い位置にあるマイク102の位置p_mic_lower_i(i=0,…n)を取得する(ステップS141)。
 マイク102の位置p_mic_lower_i(i=0,…n)を取得すると、続いてコミュニケーションシステム1は、ユーザの口の位置情報p_mouthと、マイク102の位置p_mic_lower_iとの距離が最も近い位置のマイク102の位置p_mic_nearestを取得する(ステップS142)。
 続いてコミュニケーションシステム1は、ユーザの口の位置情報p_mouthと、マイク102の位置p_mic_lower_iとの距離が2番目に近い位置のマイク102の位置p_mic_nextを取得する(ステップS143)。
 そしてコミュニケーションシステム1は、ステップS143で取得したマイク102の位置p_mic_nextを、高感度マイク位置p_h_sensitive_micに決定する(ステップS144)。
 図35は、高感度マイク位置の決定方法を説明するための説明図である。図35に示したようにユーザの顔及びマイク102が配置されている場合、p_mic_lower_iは、p_mic_2、p_mic_3、p_mic_6、p_mic_7である。そして、p_mic_nearestはp_mic_2となり、p_mic_nextはp_mic_6となる。従って、図35に示したようにユーザの顔及びマイク102が配置されている場合、コミュニケーションシステム1は、p_mic_6の位置にあるマイクを高感度マイク位置p_h_sensitive_micに決定する。
 コミュニケーションシステム1は、このようにユーザの顔の位置に基づいて高感度マイク位置を決定することで、マイクの位置やユーザの背の高さなどに依存せず、ユーザの音声入力を成功させることが可能となる。
 以上、図30BのステップS121で示した高感度マイク位置取得フローの詳細な流れを説明した。続いて、図29のステップS103の、翻訳モード処理フローの詳細な流れを説明する。
 (翻訳モード処理フロー)
 図36A、36Bは、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図36A、36Bに示したのは、図29のステップS103の、翻訳モード処理フローの詳細な流れである。なお、以下で示す翻訳モード処理フローは、サイネージ端末100で取得された情報や、翻訳処理装置400で生成された情報に基づいて、情報処理装置200が実行するものとするが、翻訳モード処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 コミュニケーションシステム1は、翻訳モード処理フローを実行する際には、まず翻訳モードかどうかを示すフラグf_trans_modeをリセット(f_trans_mode=false)する(ステップS151)。
 フラグf_trans_modeをリセットすると、続いてコミュニケーションシステム1は翻訳モード起動処理を実行する(ステップS152)。翻訳モード起動処理については後に詳述する。
 翻訳モード起動処理を実行すると、続いてコミュニケーションシステム1は高感度マイク位置p_h_sensitive_micと口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshよりも小さいかどうかを判断する(ステップS153)。
 上記ステップS153の判断の結果、高感度マイク位置p_h_sensitive_micと口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_thresh以上であれば(ステップS153、No)、続いてコミュニケーションシステム1は、その時点の身体輪郭情報info_outline_currentと正対時の人の輪郭情報info_outline_confrontとから、現在の身体輪郭情報が正対輪郭情報内に閾値t_stay_confront_threshよりも多くとどまったかどうかを判断する(ステップS154)。
 上記ステップS154の判断の結果、現在の身体輪郭情報が正対輪郭情報内に閾値t_stay_confront_threshよりも多くとどまっていれば(ステップS154、Yes)、コミュニケーションシステム1は翻訳モード終了処理を実行する(ステップS155)。翻訳モード終了処理については後に詳述する。一方、上記ステップS154の判断の結果、現在の身体輪郭情報が正対輪郭情報内に閾値t_stay_confront_threshよりも多くとどまっていなければ(ステップS154、No)、コミュニケーションシステム1は上記ステップS153の判断処理に戻る。
 一方、上記ステップS153の判断の結果、高感度マイク位置p_h_sensitive_micと口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshより小さければ(ステップS153、Yes)、続いてコミュニケーションシステム1は、正対身体輪郭UIに対し、フェードインとフェードアウトのアニメーションを繰り返す(ステップS156)。
 正対身体輪郭UIに対し、フェードインとフェードアウトのアニメーションを繰り返すと、続いてコミュニケーションシステム1は、その時点の身体輪郭情報info_outline_currentを生成し、現在の身体輪郭UIとして画面へ反映させる(ステップS157)。
 身体輪郭情報info_outline_currentを生成し、現在の身体輪郭UIとして画面へ反映させると、続いてコミュニケーションシステム1は、マイク102が集音した音情報info_voiceの音量が音声入力判断閾値recognition_vol_threshを超えているかどうか判断する(ステップS158)。
 ステップS158の判断の結果、音情報info_voiceの音量が音声入力判断閾値recognition_vol_threshを超えていれば(ステップS158、Yes)、コミュニケーションシステム1は、音声翻訳フィードバック処理を実行する(ステップS159)。音声翻訳フィードバック処理の詳細については後に詳述する。音声翻訳フィードバック処理を実行すると、コミュニケーションシステム1は、上記ステップS153の判断処理に戻る。
 一方、ステップS158の判断の結果、音情報info_voiceの音量が音声入力判断閾値recognition_vol_threshを超えていなければ(ステップS158、No)、コミュニケーションシステム1は、翻訳モードの継続判断処理を実行する(ステップS160)。翻訳モードの継続判断処理は後に詳述する。
 上記ステップS160の翻訳モードの継続判断処理を実行すると、続いてコミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値がtrueかどうか判断する(ステップS161)。フラグf_trans_modeの値がtrueであれば(ステップS161、Yes)、コミュニケーションシステム1は、上記ステップS153の判断処理に戻る。一方、フラグf_trans_modeの値がtrueでない、すなわちfalseであれば(ステップS161、No)、コミュニケーションシステム1は、上記ステップS155の翻訳モード終了処理を実行する。
 以上、図36A、36Bを用いて、図29のステップS103の、翻訳モード処理フローの詳細な流れを説明した。続いて、図36AのステップS152の翻訳モード起動処理フローの詳細な流れを説明する。
 (翻訳モード起動処理フロー)
 図37は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図37に示したのは、図36AのステップS152の翻訳モード起動処理フローの詳細な流れである。なお、以下で示す翻訳モード起動処理フローは、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行するものとするが、翻訳モード起動処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 コミュニケーションシステム1は、高感度マイク位置p_h_sensitive_micと、口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshよりも小さいかどうか判断する(ステップS171)。
 ステップS171の判断の結果、高感度マイク位置p_h_sensitive_micと、口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshより小さくなければ(ステップS171、No)、コミュニケーションシステム1は、ステップS171の処理を繰り返す。一方、ステップS171の判断の結果、高感度マイク位置p_h_sensitive_micと、口の位置情報p_mouthとの距離d_mic_mouthが、閾値d_mic_mouth_threshより小さければ(ステップS171、Yes)、続いてコミュニケーションシステム1は、ユーザの顔情報info_faceの画像の、相手側の画面への反映を開始する(ステップS172)。
 続いてコミュニケーションシステム1は、高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理、すなわち集音処理を停止する(ステップS173)。
 高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理を停止すると、続いてコミュニケーションシステム1は、カメラ101で撮像された画像を用いて、ユーザの視線情報info_gazeの取得を開始する(ステップS173)。
 ユーザの視線情報info_gazeの取得を開始すると、続いてコミュニケーションシステム1は、高感度マイク位置のマイク102で集音されるユーザの発話の周波数情報info_voice_freqの取得を開始する(ステップS174)。
 周波数情報info_voice_freqの取得を開始すると、続いてコミュニケーションシステム1は、高感度マイク位置p_h_sensitive_micに対する音情報info_voiceでの音声認識を起動する(ステップS175)。
 音声認識を起動すると、続いてコミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定する(ステップS176)。なお、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定するのはこのタイミングに限定されるものではない。また、図37に示した処理フローにおける各処理の開始や起動のタイミングは、図37に示した順序に限定されるものではない。
 以上、図36AのステップS152の翻訳モード起動処理フローの詳細な流れを説明した。続いて、図36AのステップS155の翻訳モード終了フローの詳細な流れを説明する。
 (翻訳モード終了フロー)
 図38は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図38に示したのは、図36AのステップS155の翻訳モード終了フローの詳細な流れである。なお、以下で示す翻訳モード終了フローは、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行するものとするが、翻訳モード終了フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 コミュニケーションシステム1は、翻訳モード終了フローを実行する場合には、まず翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定する(ステップS181)。なお、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定するのはこのタイミングに限定されるものではない。
 翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定すると、続いてコミュニケーションシステム1は、ユーザの身体輪郭情報info_outline_currentの、ディスプレイ103への提示を停止する(ステップS182)。
 ユーザの身体輪郭情報info_outline_currentの、ディスプレイ103への提示を停止すると、続いてコミュニケーションシステム1は、正対身体輪郭UIに対する、フェードインとフェードアウトのアニメーションの繰り返しを停止する(ステップS183)。
 正対身体輪郭UIに対する、フェードインとフェードアウトのアニメーションの繰り返しを停止すると、続いてコミュニケーションシステム1は、高感度マイク位置p_h_sensitive_micに対する音情報info_voiceでの音声認識を停止する(ステップS184)。
 高感度マイク位置p_h_sensitive_micに対する音情報info_voiceでの音声認識を停止すると、続いてコミュニケーションシステム1は、高感度マイク位置のマイク102で集音されるユーザの発話の周波数情報info_voice_freqの取得を停止する(ステップS185)。
 ユーザの発話の周波数情報info_voice_freqの取得を停止すると、続いてコミュニケーションシステム1は、ユーザの視線情報info_gazeの取得を停止する(ステップS186)。
 ユーザの視線情報info_gazeの取得を停止すると、続いてコミュニケーションシステム1は、高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理、すなわち集音処理の停止を解除する(ステップS187)。
 高感度マイク位置p_h_sensitive_micにならなかったマイクのマイク処理の停止を解除すると、続いてコミュニケーションシステム1は、ユーザの顔情報info_faceの画像の、相手側の画面への反映を停止する(ステップS188)。
 なお、図38に示した処理フローにおける各処理の停止のタイミングは、図38に示した順序に限定されるものではない。
 以上、図36AのステップS155の翻訳モード終了フローの詳細な流れを説明した。続いて、図36BのステップS159の音声翻訳フィードバック処理の詳細な流れを説明する。
 (音声翻訳フィードバック処理フロー)
 図39A、39Bは、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図39A、39Bに示したのは、図36BのステップS159の音声翻訳フィードバック処理の詳細な流れである。なお、以下で示す音声翻訳フィードバック処理フローは、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行するものとするが、音声翻訳フィードバック処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 コミュニケーションシステム1は、高感度マイク位置p_h_sensitive_micのマイク102に入力される音情報info_voiceの音量が閾値voice_vol_threshを超えたかどうか判断する(ステップS201)。
 ステップS201の判断の結果、音情報info_voiceの音量が閾値voice_vol_threshを超えていれば(ステップS201、Yes)、続いてコミュニケーションシステム1は、音量の大きさに応じた半径を持つ球オブジェクトobj_ballを生成する(ステップS202)。球オブジェクトobj_ballを生成すると、続いてコミュニケーションシステム1は、球オブジェクトアニメーション処理を実行する(ステップS203)。球オブジェクトアニメーション処理の詳細については後に詳述する。
 上記ステップS203の球オブジェクトアニメーション処理を実行すると、または、ステップS201の判断の結果、音情報info_voiceの音量が閾値voice_vol_threshを超えていなければ(ステップS201、No)、続いてコミュニケーションシステム1は、ユーザの過去の発話の周波数平均情報としてinfo_voice_freq_aveを計算する(ステップS204)。
 周波数平均情報info_voice_freq_aveを計算すると、続いてコミュニケーションシステム1は、音声情報処理装置300で音声認識結果voice_resultを得られたかどうか判断する(ステップS205)。
 上記ステップS205の判断の結果、音声情報処理装置300で音声認識結果voice_resultを得られた場合は(ステップS205、Yes)、続いてコミュニケーションシステム1は、音声認識結果表示処理を実行する(ステップS206)。音声認識結果表示処理の詳細については後に詳述する。
 音声認識結果表示処理を実行すると、続いてコミュニケーションシステム1は、音声認識結果voice_resultに対する翻訳処理装置400での翻訳処理を起動する(ステップS207)。
 音声認識結果voice_resultに対する翻訳処理装置400での翻訳処理を起動すると、続いてコミュニケーションシステム1は、音声認識結果voice_resultに対する翻訳処理装置400での翻訳結果trans_resultを得られたかどうか判断する(ステップS208)。
 上記ステップS208での判断の結果、音声認識結果voice_resultに対する翻訳処理装置400での翻訳結果trans_resultを得られた場合は(ステップS208、Yes)、続いてコミュニケーションシステム1は、翻訳処理装置400での翻訳結果trans_resultをサイネージ端末100に表示する(ステップS209)。
 翻訳処理装置400での翻訳結果trans_resultをサイネージ端末100に表示すると、続いてコミュニケーションシステム1は、翻訳結果trans_resultを得たときのスコアtrans_result_scoreを記憶する(ステップS210)。翻訳スコアは、翻訳処理装置400のスコア生成部422が、翻訳結果trans_resultの確からしさに応じて生成する。
 翻訳結果trans_resultを得たときのスコアtrans_result_scoreを記憶すると、続いてコミュニケーションシステム1は、翻訳結果表示処理を実行する(ステップS211)。翻訳結果表示処理の詳細については後に詳述する。
 翻訳結果表示処理を実行すると、続いてコミュニケーションシステム1は、処理量あふれ判断処理を実行する(ステップS212)。処理量あふれ判断処理の詳細については後に詳述する。
 処理量あふれ判断処理を実行すると、続いてコミュニケーションシステム1は、処理量あふれ提示処理を実行する(ステップS213)。処理量あふれ提示処理の詳細については後に詳述する。処理量あふれ提示処理を実行すると、コミュニケーションシステム1は、音声翻訳フィードバック処理を終了する。
 上記ステップS205の判断の結果、音声情報処理装置300で音声認識結果voice_resultを得られなかった場合(ステップS205、No)、または上記ステップS208での判断の結果、音声認識結果voice_resultに対する翻訳処理装置400での翻訳結果trans_resultを得られなかった場合は(ステップS208、No)、コミュニケーションシステム1は、音声翻訳フィードバック処理を終了する。
 以上、図36BのステップS159の音声翻訳フィードバック処理の詳細な流れを説明した。続いて、図39AのステップS203の球オブジェクトアニメーション処理の詳細な流れを説明する。
 (球オブジェクトアニメーション処理フロー)
 図40は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図40に示したのは、図39AのステップS203の球オブジェクトアニメーション処理の詳細な流れである。なお、以下で示す球オブジェクトアニメーション処理フローは、サイネージ端末100で取得された情報に基づいて、情報処理装置200が実行するものとするが、球オブジェクトアニメーション処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 球オブジェクトアニメーション処理を実行する場合、コミュニケーションシステム1は、ユーザが発話中であるかどうかを判断する(ステップS211)。
 上記ステップS211の判断の結果、ユーザが発話中である場合は(ステップS211、Yes)、続いてコミュニケーションシステム1は、球オブジェクトobj_ballを相手の左の耳位置p_ear_l及び右の耳位置p_ear_rの位置へ向かってアニメーションしながら移動させる(ステップS212)。
 一方、上記ステップS211の判断の結果、ユーザが発話中でない場合は(ステップS211、No)、続いてコミュニケーションシステム1は、球オブジェクトobj_ballを相手の口の位置情報p_mouthから、左の耳位置p_ear_l及び右の耳位置p_ear_rの位置へ向かってアニメーションしながら移動させる(ステップS213)。
 以上、図39AのステップS203の球オブジェクトアニメーション処理の詳細な流れを説明した。続いて、図39BのステップS212の処理量あふれ判断処理の詳細な流れを説明する。
 (処理量あふれ判断処理フロー(1))
 図41は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図41に示したのは、図39BのステップS212の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム1は、ユーザが発話中であるかどうかを判断する(ステップS221)。
 上記ステップS221の判断の結果、ユーザが発話中であった場合は(ステップS221、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS222)。
 一方、上記ステップS221の判断の結果、ユーザが発話中でなかった場合は(ステップS221、No)、続いてコミュニケーションシステム1は、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に、ユーザの視線情報info_gazeが入っているかどうか判断する(ステップS223)。
 上記ステップS223の判断の結果、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に、ユーザの視線情報info_gazeが入っていなければ(ステップS223、No)、続いてコミュニケーションシステム1は、ユーザの視線情報info_gazeが、正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っている時間が、閾値t_surrounding_threshよりも大きいかどうか判断する(ステップS224)。
 上記ステップS224の判断の結果、ユーザの視線情報info_gazeが、正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っている時間が、閾値t_surrounding_threshよりも大きくなければ(ステップS224、No)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS222)。
 一方、上記ステップS223の判断の結果、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に、ユーザの視線情報info_gazeが入っていれば(ステップS223、Yes)、または、上記ステップS224の判断の結果、ユーザの視線情報info_gazeが、正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っている時間が、閾値t_surrounding_threshよりも大きければ(ステップS224、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する(ステップS225)。
 (処理量あふれ判断処理フロー(2))
 処理量あふれ判断処理フローの2つ目の例を説明する。図42は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図42に示したのは、図39BのステップS212の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム1は、ユーザが発話中であるかどうかを判断する(ステップS231)。
 上記ステップS231の判断の結果、ユーザが発話中であった場合は(ステップS231、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS232)。
 一方、上記ステップS231の判断の結果、ユーザが発話中でなかった場合は(ステップS231、No)、続いてコミュニケーションシステム1は、ユーザの相槌を検出できたかどうか判断する(ステップS233)。
 上記ステップS233の判断の結果、ユーザの相槌を検出できなければ(ステップS233、No)、続いてコミュニケーションシステム1は、最後に相槌を検出した時間から現時点までの時間が閾値t_nod_threshよりも大きいかどうか判断する(ステップS234)。
 上記ステップS234の判断の結果、最後に相槌を検出した時間から現時点までの時間が閾値t_nod_threshよりも大きくなければ(ステップS234、No)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS232)。
 また、上記ステップS233の判断の結果、ユーザの相槌を検出できれば(ステップS233、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS232)。
 一方、上記ステップS234の判断の結果、最後に相槌を検出した時間から現時点までの時間が閾値t_nod_threshよりも大きければ(ステップS234、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する(ステップS235)。
 (処理量あふれ判断処理フロー(3))
 処理量あふれ判断処理フローの3つ目の例を説明する。図43は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図43に示したのは、図39BのステップS212の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム1は、ユーザが発話中であるかどうかを判断する(ステップS241)。
 上記ステップS241の判断の結果、ユーザが発話中であった場合は(ステップS241、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS242)。
 一方、上記ステップS241の判断の結果、ユーザが発話中でなかった場合は(ステップS241、No)、続いてコミュニケーションシステム1は、ユーザの掌を検出できたかどうか判断する(ステップS243)。
 上記ステップS243の判断の結果、ユーザの掌を検出できれば(ステップS243、Yes)、続いてコミュニケーションシステム1は、ユーザの掌を検出した時間の累積時間t_palm_accumを更新する(ステップS244)。ユーザの掌を検出した時間の累積時間t_palm_accumを更新すると、続いてコミュニケーションシステム1は、ユーザの掌を検出した時間の累積時間t_palm_accumが閾値t_palm_accum_threshよりも大きいかどうか判断する(ステップS245)。
 上記ステップS245の判断の結果、ユーザの掌を検出した時間の累積時間t_palm_accumが閾値t_palm_accum_threshよりも大きくなければ(ステップS245、No)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS242)。
 また、上記ステップS243の判断の結果、ユーザの掌を検出できなければ(ステップS243、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS242)。
 一方、上記ステップS245の判断の結果、ユーザの掌を検出した時間の累積時間t_palm_accumが閾値t_palm_accum_threshよりも大きければ(ステップS245、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する(ステップS246)。
 (処理量あふれ判断処理フロー(4))
 処理量あふれ判断処理フローの4つ目の例を説明する。図44は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図44に示したのは、図39BのステップS212の処理量あふれ判断処理の詳細な流れである。なお、以下で示す処理量あふれ判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、処理量あふれ判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 処理量あふれ判断処理を実行する場合、まずコミュニケーションシステム1は、ユーザが発話中であるかどうかを判断する(ステップS251)。
 上記ステップS251の判断の結果、ユーザが発話中であった場合は(ステップS251、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS252)。
 一方、上記ステップS251の判断の結果、ユーザが発話中でなかった場合は(ステップS251、No)、続いてコミュニケーションシステム1は、音声認識結果voice_resultを、自然言語解析処理によって句単位に分割する(ステップS253)。
 音声認識結果voice_resultを、自然言語解析処理によって句単位に分割すると、続いてコミュニケーションシステム1は、その音声認識結果voice_resultの句の数num_phraseを、それまでの累積数num_accum_phraseへ加算する(ステップS254)。
 音声認識結果voice_resultの句の数num_phraseを、それまでの累積数num_accum_phraseへ加算すると、続いてコミュニケーションシステム1は、加算後の累積数num_phrase_accumが、閾値num_phrase_accum_threshを超えたかどうか判断する(ステップS255)。
 上記ステップS255の判断の結果、加算後の累積数num_phrase_accumが、閾値num_phrase_accum_threshを超えていなければ(ステップS255、No)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をfalseに設定する(ステップS252)。
 一方、上記ステップS255の判断の結果、加算後の累積数num_phrase_accumが、閾値num_phrase_accum_threshを超えていれば(ステップS255、Yes)、続いてコミュニケーションシステム1は、処理量あふれを判断するフラグf_task_over_modeの値をtrueに設定する(ステップS256)。
 以上、処理量あふれ判断処理の詳細なフローを説明した。なお、ここでは5つの処理量あふれ判断処理フローの例を示したが、コミュニケーションシステム1は、この5つのフローの中から1つを選択して処理量あふれ判断処理を実行しても良く、複数のフローを選択して処理量あふれ判断処理フローを実行しても良い。複数のフローを選択する場合は、フローの結果が異なる場合があり得る。従って、複数のフローを選択する場合、コミュニケーションシステム1は、奇数個のフローを選択して、フラグf_task_over_modeの値の設定の結果が多い方を採用してもよい。続いて、図39BのステップS213の処理量あふれ提示処理の詳細な流れを説明する。
 (処理量あふれ提示処理フロー)
 図45は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図45に示したのは、図39BのステップS213の処理量あふれ提示処理の詳細な流れである。なお、以下で示す処理量あふれ提示処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、処理量あふれ提示処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 処理量あふれ提示処理を実行する場合、まずコミュニケーションシステム1は、ユーザが発話中であるかどうかを判断する(ステップS261)。
 上記ステップS261の判断の結果、ユーザが発話中であれば(ステップS261、Yes)、コミュニケーションシステム1は、ユーザの発話の音量の大きさに応じた半径を持つ球オブジェクトobj_ballを、相手の右の耳位置p_ear_rと左の耳位置p_ear_lの位置へ向かってアニメーションながら移動し、その後、その位置から垂直下方向へアニメーションしながら移動させるよう、サイネージ端末100に表示させる(ステップS262)。
 一方、上記ステップS261の判断の結果、ユーザが発話中でなければ(ステップS261、No)、コミュニケーションシステム1は、そのまま処理量あふれ提示処理を終了する。
 以上、処理量あふれ提示処理の詳細な流れを説明した。続いて、音声認識結果表示処理の詳細な流れを説明する。
 (音声認識結果表示処理フロー)
 図46は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図46に示したのは、図39AのステップS206の音声認識結果表示処理の詳細な流れである。なお、以下で示す音声認識結果表示処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、音声認識結果表示処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 音声認識結果表示処理を実行する場合、まずコミュニケーションシステム1は、ユーザが発話中であったかどうかを判断する(ステップS271)。
 上記ステップS271の判断の結果、ユーザが発話中であった場合は(ステップS271、Yes)、コミュニケーションシステム1は、音声認識結果を、サイネージ端末100における、相手の右の耳位置p_ear_rまたは左の耳位置p_ear_lの付近に表示させる(ステップS272)。
 一方、上記ステップS271の判断の結果、ユーザが発話中でなかった場合は(ステップS271、No)、コミュニケーションシステム1は、そのまま音声認識結果表示処理を終了する。
 以上、音声認識結果表示処理の詳細な流れを説明した。続いて、翻訳結果表示処理の詳細な流れを説明する。
 (翻訳結果表示処理フロー)
 図47は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図47に示したのは、図39BのステップS211の翻訳結果表示処理の詳細な流れである。なお、以下で示す翻訳結果表示処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、翻訳結果表示処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 翻訳結果表示処理を実行する場合、まずコミュニケーションシステム1は、ユーザが発話中であるかどうかを判断する(ステップS281)。
 上記ステップS281の判断の結果、ユーザが発話中でない場合は(ステップS281、No)、コミュニケーションシステム1は、翻訳結果を、サイネージ端末100における、相手の口の位置情報p_mouthの付近に表示させる(ステップS282)。
 一方、上記ステップS281の判断の結果、ユーザが発話中である場合は(ステップS281、Yes)、コミュニケーションシステム1は、そのまま翻訳結果表示処理を終了する。
 以上、翻訳結果表示処理の詳細な流れを説明した。続いて、図36BのステップS160の翻訳モード継続判断処理の詳細な流れを説明する。
 (翻訳モード継続判断処理フロー(1))
 図48は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図48に示したのは、図36BのステップS160の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム1は、翻訳スコアtrans_scoreが閾値trans_score_threshより低いかどうか判断する(ステップS291)。
 上記ステップS291の判断の結果、翻訳スコアtrans_scoreが閾値trans_score_threshより低ければ(ステップS291、Yes)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する(ステップS292)。
 一方、上記ステップS291の判断の結果、翻訳スコアtrans_scoreが閾値trans_score_threshより低くなければ(ステップS291、No)、続いてコミュニケーションシステム1は、ユーザの視線情報info_gazeが相手の正対身体輪郭情報領域内に入っているかどうか判断する(ステップS293)。
 上記ステップS293の判断の結果、ユーザの視線情報info_gazeが相手の正対身体輪郭情報領域内に入っていなければ(ステップS293、No)、続いてコミュニケーションシステム1は、ユーザの視線情報info_gazeが、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っているかどうか判断する(ステップS294)。
 上記ステップS294の判断の結果、ユーザの視線情報info_gazeが、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っていなければ(ステップS294、No)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する(ステップS292)。
 一方、上記ステップS293の判断の結果、ユーザの視線情報info_gazeが相手の正対身体輪郭情報領域内に入っていれば(ステップS293、Yes)、または、上記ステップS294の判断の結果、ユーザの視線情報info_gazeが、相手の正対身体輪郭情報領域に閾値d_surrounding_threshの距離を加えた領域内に入っていれば(ステップS294、Yes)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する(ステップS295)。
 (翻訳モード継続判断処理フロー(2))
 翻訳モード継続判断処理フローの2つ目の例を説明する。図49は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図49に示したのは、図36BのステップS160の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム1は、ユーザの発話によって得られる音情報info_voiceにユーザの言いよどみが検出できるかどうか判断する(ステップS301)。
 上記ステップS301の判断の結果、音情報info_voiceにユーザの言いよどみが検出できれば(ステップS301、Yes)、続いてコミュニケーションシステム1は、最後に取得できたユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っているかどうか判断する(ステップS302)。
 表1は、フィラーワードデータベースの内容の例を示す表である。コミュニケーションシステム1は、ユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っているフィラーワード群と一致するかどうかだけではなく、類似音フィラーワード群と一致するかどうかを判断しても良い。
Figure JPOXMLDOC01-appb-T000001
 上記ステップS302の判断の結果、ユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っていれば(ステップS302、Yes)、続いてコミュニケーションシステム1は、最後に発話したフィラーワードからの時間が閾値t_fillerwords_threshを超えていないかどうか判断する(ステップS303)。
 上記ステップS301の判断の結果、音情報info_voiceにユーザの言いよどみが検出できれば(ステップS301、No)、または、上記ステップS302の判断の結果、ユーザの音声認識結果voice_resultが、フィラーワードデータベース内に入っていなければ(ステップS302、No)、または、上記ステップS303の判断の結果、最後に発話したフィラーワードからの時間が閾値t_fillerwords_threshを超えていれば(ステップS303、No)、コミュニケーションシステム1は、音情報info_voiceとして無音区間と判断する条件を満たすかどうか判断する(ステップS304)。無音区間と判断する条件としては、例えば音量が極めて小さい区間が継続しているかどうか、等があり得る。
 上記ステップS304の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていれば(ステップS304、Yes)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する(ステップS305)。
 一方、上記ステップS303の判断の結果、最後に発話したフィラーワードからの時間が閾値t_fillerwords_threshを超えていなければ(ステップS303、Yes)、または、上記ステップS304の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていなければ(ステップS304、No)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する(ステップS306)。
 (翻訳モード継続判断処理フロー(3))
 翻訳モード継続判断処理フローの3つ目の例を説明する。図50は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図50に示したのは、図36BのステップS160の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム1は、最後に取得した発話の周波数情報info_last_voice_freqが過去の平均情報であるinfo_voice_freq_aveから閾値f_threshを引いたものよりも大きいかどうか判断する(ステップS311)。
 上記ステップS311の判断の結果、最後に取得した発話の周波数情報info_last_voice_freqが過去の平均情報であるinfo_voice_freq_aveから閾値f_threshを引いたものよりも大きければ(ステップS311、Yes)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する(ステップS312)。
 一方、上記ステップS311の判断の結果、最後に取得した発話の周波数情報info_last_voice_freqが過去の平均情報であるinfo_voice_freq_aveから閾値f_threshを引いたものよりも大きくなければ(ステップS311、No)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する(ステップS313)。
 (翻訳モード継続判断処理フロー(4))
 翻訳モード継続判断処理フローの4つ目の例を説明する。図51は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図51に示したのは、図36BのステップS160の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム1は、最後に取得できたユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っているかどうか判断する(ステップS321)。
 表2は、会話終了判断ワードデータベースの内容の例を示す表である。コミュニケーションシステム1は、ユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っている会話終了判断ワード群と一致するかどうかだけではなく、類似音会話終了判断ワード群と一致するかどうかを判断しても良い。
Figure JPOXMLDOC01-appb-T000002
 上記ステップS321の判断の結果、最後に取得できたユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っていれば(ステップS321、Yes)、続いてコミュニケーションシステム1は、最後に発話した会話終了判断ワードからの時間が閾値t_convendwords_threshを超えていないかどうか判断する(ステップS322)。
 上記ステップS321の判断の結果、最後に取得できたユーザの音声認識結果voice_resultが、会話終了判断ワードデータベース内に入っていなければ(ステップS321、No)、または、上記ステップS322の判断の結果、最後に発話した会話終了判断ワードからの時間が閾値t_convendwords_threshを超えていれば(ステップS322、No)、コミュニケーションシステム1は、音情報info_voiceとして無音区間と判断する条件を満たすかどうか判断する(ステップS323)。無音区間と判断する条件としては、例えば音量が極めて小さい区間が継続しているかどうか、等があり得る。
 上記ステップS323の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていれば(ステップS323、Yes)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する(ステップS324)。
 一方、上記ステップS322の判断の結果、最後に発話した会話終了判断ワードからの時間が閾値t_convendwords_threshを超えていなければ(ステップS322、Yes)、または、上記ステップS323の判断の結果、音情報info_voiceとして無音区間と判断する条件を満たしていなければ(ステップS323、No)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する(ステップS324)。
 (翻訳モード継続判断処理フロー(5))
 翻訳モード継続判断処理フローの5つ目の例を説明する。図52は、本開示の実施の形態に係るコミュニケーションシステム1の動作例を示す流れ図である。図52に示したのは、図36BのステップS160の翻訳モード継続判断処理の詳細な流れである。なお、以下で示す翻訳モード継続判断処理フローは、サイネージ端末100で取得された情報などに基づいて、情報処理装置200が実行するものとするが、翻訳モード継続判断処理フローは、コミュニケーションシステム1を構成するどの装置で行われても良い。
 翻訳モード継続判断処理フローを実行する場合、まずコミュニケーションシステム1は、画面上に出ている翻訳モード解除ボタンが押されたかどうか判断する(ステップS331)。
 上記ステップS331の判断の結果、翻訳モード解除ボタンが押されていれば(ステップS331、Yes)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をfalseに設定して、翻訳モード継続判断処理フローを終了する(ステップS332)。
 一方、上記ステップS331の判断の結果、翻訳モード解除ボタンが押されていなければ(ステップS331、No)、コミュニケーションシステム1は、翻訳モードかどうかを示すフラグf_trans_modeの値をtrueに設定して、翻訳モード継続判断処理フローを終了する(ステップS333)。
 以上、翻訳モード継続判断処理の詳細な流れを説明した。なお、ここでは5つの翻訳モード継続判断処理フローの例を示したが、コミュニケーションシステム1は、この5つのフローの中から1つを選択して翻訳モード継続判断処理を実行しても良く、複数のフローを選択して翻訳モード継続判断処理フローを実行しても良い。複数のフローを選択する場合は、フローの結果が異なる場合があり得る。従って、複数のフローを選択する場合、コミュニケーションシステム1は、奇数個のフローを選択して、フラグf_trans_modeの値の設定の結果が多い方を採用してもよい。
 本開示の実施の形態に係るコミュニケーションシステム1は、上述した動作を実行することで、サイネージ端末等を介して、人間同士が正対してコミュニケーションを行う際に、発話者や対話者の状況に基づいて自然なコミュニケーションを行わせることが可能となる。
 <2.まとめ>
 以上説明したように本開示の実施の形態によれば、サイネージ端末100を介して、翻訳をしながら人間同士が会話を行えるコミュニケーションシステム1において、仮に発話が途絶えたとしても、発話が途絶えたことのみを理由として翻訳を打ち切らないようにするコミュニケーションシステム1が提供される。
 本開示の実施の形態に係るコミュニケーションシステム1は、発話が途絶えたことのみを理由として翻訳を打ち切らないようにすることで、発話者側が発話内容を思い浮かべることが出来ない場合にも、翻訳したい対象だけを翻訳相手に伝えられるとともに、相手に発話を遮られないようにできる。
 また本開示の実施の形態によれば、サイネージ端末100を介して、翻訳をしながら人間同士が会話を行えるコミュニケーションシステム1において、話し手側が発話している最中に、聞き手側の処理量があふれていることを、話し手側にサイネージ端末100を用いて通知するコミュニケーションシステム1が提供される。
 本開示の実施の形態に係るコミュニケーションシステム1は、話し手側が発話している最中に、聞き手側の処理量があふれていることを、話し手側にサイネージ端末100を用いて通知することで、聞き手側の情報の処理量のイメージを、話し手の発話を遮ること無く、話し手側に伝えることが可能となる。
 すなわち、本開示の実施の形態に係るコミュニケーションシステム1は、自分の発話を相手に遮られることを回避したり、聞き手側の処理量があふれていることを、話し手側に伝えたりすることで、話し手側及び聞き手側にとって円滑なコミュニケーションを可能にさせる。
 なお上記実施形態では、サイネージ端末100を介したコミュニケーションシステム1の例を示したが、本開示は係る例に限定されるものではない。本開示は、ディスプレイ、スピーカー、マイクを介してその場に無い人間同士がコミュニケーションするシステム、例えばテレビ電話システム、テレビ会議システム、AR(拡張現実)を利用したバーチャル会話支援システムなどにも適用可能である。
 テレビ会議システムは、会議の参加者が会議中にカメラでは無くマイクの方を向いてしまうと不自然な状況になりやすい。そのため、本開示を適用するテレビ会議システムは、会議の参加者がマイクの方を向いた場合には、上述したように予め作成した正対時の画像に置き換えて相手側のディスプレイに提示する。このように正対時の画像に置き換えて相手側のディスプレイに提示することで、本開示を適用するテレビ会議システムは、不自然な状況となることを回避出来る。
 また、本開示をテレビ会議システムに適用する場合、例えば、発話者の発話内容をログとして記録しておき、そのログを翻訳に活用しても良い。会議では頻繁に「あれ」や「さっきの」等といった句が発話されることが多いが、本開示を適用するテレビ会議システムは、その「あれ」や「さっきの」等の句を具体的な名詞等に置き換えて翻訳し、相手側に提示しても良い。
 本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、各装置に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるための、単体のコンピュータまたは複数のコンピュータが一連の処理を行うコンピュータシステムで実行されるプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアまたはハードウェア回路で構成することで、一連の処理をハードウェアまたはハードウェア回路で実現することもできる。
 また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの一部又は全部は、たとえばインターネット等のネットワークを介して接続されるサーバ装置で実現されてもよい。また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置。
(2)
 前記制御部は、前記発話者の発話内容を聴いている聞き手の状況を判断して前記処理を実行する、前記(1)に記載の制御装置。
(3)
 前記制御部は、前記聞き手の相槌の発生状況に基づいて前記処理を実行する、前記(2)に記載の制御装置。
(4)
 前記制御部は、前記聞き手の前記発話者の方向に向けた視線の状況に基づいて前記処理を実行する、前記(2)に記載の制御装置。
(5)
 前記制御部は、前記聞き手による、前記発話者に発話を停止させるためのジェスチャの検出に基づいて前記処理を実行する、前記(2)に記載の制御装置。
(6)
 前記制御部は、前記発話内容に含まれる単語または品詞の数に応じて前記処理を実行するかどうか判断する、前記(1)~(5)のいずれかに記載の制御装置。
(7)
 前記制御部は、前記発話内容の難易度に応じて前記処理を実行するかどうか判断する、前記(1)~(6)のいずれかに記載の制御装置。
(8)
 前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
 前記制御部は、前記発話者側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、前記(1)~(7)のいずれかに記載の制御装置。
(9)
 前記制御部は、前記発話者側の前記表示装置へ、発話内容が前記聞き手の耳に入っていないような効果を表示させる、前記(8)に記載の制御装置。
(10)
 前記制御部は、前記発話者側の前記表示装置へ表示していた発話内容の認識結果の表示を停止する、前記(8)に記載の制御装置。
(11)
 前記制御部は、前記発話者による発話を打ち消す音を前記装置から出力させる、前記(8)に記載の制御装置。
(12)
 前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
 前記制御部は、前記聞き手側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、前記(1)~(7)のいずれかに記載の制御装置。
(13)
 前記制御部は、前記聞き手の姿勢を崩させるための情報を出力する、前記(12)に記載の制御装置。
(14)
 発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することを含む、制御方法。
(15)
 発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することをコンピュータに実行させる、コンピュータプログラム。
 1    コミュニケーションシステム
 100  サイネージ端末

Claims (15)

  1.  発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行する制御部を備える、制御装置。
  2.  前記制御部は、前記発話者の発話内容を聴いている聞き手の状況を判断して前記処理を実行する、請求項1に記載の制御装置。
  3.  前記制御部は、前記聞き手の相槌の発生状況に基づいて前記処理を実行する、請求項2に記載の制御装置。
  4.  前記制御部は、前記聞き手の前記発話者の方向に向けた視線の状況に基づいて前記処理を実行する、請求項2に記載の制御装置。
  5.  前記制御部は、前記聞き手による、前記発話者に発話を停止させるためのジェスチャの検出に基づいて前記処理を実行する、請求項2に記載の制御装置。
  6.  前記制御部は、前記発話内容に含まれる単語または品詞の数に応じて前記処理を実行するかどうか判断する、請求項1に記載の制御装置。
  7.  前記制御部は、前記発話内容の難易度に応じて前記処理を実行するかどうか判断する、請求項1に記載の制御装置。
  8.  前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
     前記制御部は、前記発話者側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、請求項1に記載の制御装置。
  9.  前記制御部は、前記発話者側の前記表示装置へ、発話内容が前記聞き手の耳に入っていないような効果を表示させる、請求項8に記載の制御装置。
  10.  前記制御部は、前記発話者側の前記表示装置へ表示していた発話内容の認識結果の表示を停止する、請求項8に記載の制御装置。
  11.  前記制御部は、前記発話者による発話を打ち消す音を前記装置から出力させる、請求項8に記載の制御装置。
  12.  前記装置は、前記発話者側及び前記聞き手側に表示装置を備え、
     前記制御部は、前記聞き手側の前記表示装置へ、前記発話者に発話を停止させるための情報を出力する、請求項1に記載の制御装置。
  13.  前記制御部は、前記聞き手の姿勢を崩させるための情報を出力する、請求項12に記載の制御装置。
  14.  発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することを含む、制御方法。
  15.  発話者が装置に対して発話した結果による発話内容を解析した結果に基づいて、前記発話者が発話している前記装置に対して前記発話者に発話を停止させるための処理を実行することをコンピュータに実行させる、コンピュータプログラム。
PCT/JP2017/010313 2016-05-02 2017-03-15 制御装置、制御方法及びコンピュータプログラム WO2017191713A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/096,754 US10649715B2 (en) 2016-05-02 2017-03-15 Control device and control method to issue notification on occurrence of processing overflow
JP2018515404A JPWO2017191713A1 (ja) 2016-05-02 2017-03-15 制御装置、制御方法及びコンピュータプログラム
EP17792646.6A EP3454332A4 (en) 2016-05-02 2017-03-15 CONTROL DEVICE, CONTROL METHOD, AND COMPUTER PROGRAM
US16/843,501 US11188288B2 (en) 2016-05-02 2020-04-08 Control device and control method to issue notification on occurrence of processing overflow

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016092413 2016-05-02
JP2016-092413 2016-05-02

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/096,754 A-371-Of-International US10649715B2 (en) 2016-05-02 2017-03-15 Control device and control method to issue notification on occurrence of processing overflow
US16/843,501 Continuation US11188288B2 (en) 2016-05-02 2020-04-08 Control device and control method to issue notification on occurrence of processing overflow

Publications (1)

Publication Number Publication Date
WO2017191713A1 true WO2017191713A1 (ja) 2017-11-09

Family

ID=60203703

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/010313 WO2017191713A1 (ja) 2016-05-02 2017-03-15 制御装置、制御方法及びコンピュータプログラム

Country Status (4)

Country Link
US (2) US10649715B2 (ja)
EP (1) EP3454332A4 (ja)
JP (1) JPWO2017191713A1 (ja)
WO (1) WO2017191713A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109424A (ja) * 2017-12-20 2019-07-04 株式会社日立製作所 計算機、言語解析方法、及びプログラム
WO2019239656A1 (ja) * 2018-06-12 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2017191711A1 (ja) * 2016-05-02 2019-03-07 ソニー株式会社 制御装置、制御方法およびコンピュータプログラム
JP6950708B2 (ja) * 2016-12-05 2021-10-13 ソニーグループ株式会社 情報処理装置、情報処理方法、および情報処理システム
US11256878B1 (en) * 2020-12-04 2022-02-22 Zaps Labs, Inc. Directed sound transmission systems and methods

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085440A (ja) * 2004-09-16 2006-03-30 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
JP2009276495A (ja) * 2008-05-14 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
JP2011141819A (ja) * 2010-01-08 2011-07-21 Fujitsu Toshiba Mobile Communications Ltd 情報処理装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822050B2 (en) * 2007-01-09 2010-10-26 Cisco Technology, Inc. Buffering, pausing and condensing a live phone call
US20090138507A1 (en) * 2007-11-27 2009-05-28 International Business Machines Corporation Automated playback control for audio devices using environmental cues as indicators for automatically pausing audio playback
US20100283829A1 (en) * 2009-05-11 2010-11-11 Cisco Technology, Inc. System and method for translating communications between participants in a conferencing environment
JP5211001B2 (ja) * 2009-09-09 2013-06-12 日本電信電話株式会社 会議通信システム、会議通信方法及びプログラム
JP2013191103A (ja) * 2012-03-14 2013-09-26 Nikon Corp 電子機器、およびプログラム
JP2015219768A (ja) 2014-05-19 2015-12-07 ソニー株式会社 情報処理システム、記憶媒体及び情報処理方法
US20150347399A1 (en) * 2014-05-27 2015-12-03 Microsoft Technology Licensing, Llc In-Call Translation
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
WO2016103809A1 (ja) * 2014-12-25 2016-06-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085440A (ja) * 2004-09-16 2006-03-30 Fuji Xerox Co Ltd 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
JP2009276495A (ja) * 2008-05-14 2009-11-26 Nippon Telegr & Teleph Corp <Ntt> 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
JP2011141819A (ja) * 2010-01-08 2011-07-21 Fujitsu Toshiba Mobile Communications Ltd 情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3454332A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019109424A (ja) * 2017-12-20 2019-07-04 株式会社日立製作所 計算機、言語解析方法、及びプログラム
WO2019239656A1 (ja) * 2018-06-12 2019-12-19 ソニー株式会社 情報処理装置および情報処理方法
US12062360B2 (en) 2018-06-12 2024-08-13 Sony Corporation Information processing device and information processing method

Also Published As

Publication number Publication date
EP3454332A1 (en) 2019-03-13
JPWO2017191713A1 (ja) 2019-03-07
EP3454332A4 (en) 2019-05-01
US20190121600A1 (en) 2019-04-25
US11188288B2 (en) 2021-11-30
US10649715B2 (en) 2020-05-12
US20200233630A1 (en) 2020-07-23

Similar Documents

Publication Publication Date Title
WO2017191711A1 (ja) 制御装置、制御方法およびコンピュータプログラム
WO2017191713A1 (ja) 制御装置、制御方法及びコンピュータプログラム
US11423909B2 (en) Word flow annotation
CN111492328B (zh) 虚拟助手的非口头接合
US20220254343A1 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US11468894B2 (en) System and method for personalizing dialogue based on user&#39;s appearances
JP6772023B2 (ja) ユーザー状態検出による集団相互作用の方法及びシステム
Maatman et al. Natural behavior of a listening agent
KR20190100957A (ko) 외부 조건들에 기초한 웨어러블 디스플레이 디바이스의 자동 제어
US10877555B2 (en) Information processing device and information processing method for controlling user immersion degree in a virtual reality environment
US20170301037A1 (en) Group discourse architecture
US20230367960A1 (en) Summarization based on timing data
Goetze et al. Multimodal human-machine interaction for service robots in home-care environments
CN116888574A (zh) 共存会话中的数字助理交互
Vieira et al. " Read That Article" Exploring Synergies between Gaze and Speech Interaction
WO2023080105A1 (ja) オンライン端末およびプログラム
JP2020038432A (ja) 画像解析装置、画像解析方法、およびプログラム
US11270682B2 (en) Information processing device and information processing method for presentation of word-of-mouth information
JP2022106887A (ja) 画像解析装置、画像解析方法、およびプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018515404

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17792646

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017792646

Country of ref document: EP

Effective date: 20181203