WO2020031781A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2020031781A1
WO2020031781A1 PCT/JP2019/029716 JP2019029716W WO2020031781A1 WO 2020031781 A1 WO2020031781 A1 WO 2020031781A1 JP 2019029716 W JP2019029716 W JP 2019029716W WO 2020031781 A1 WO2020031781 A1 WO 2020031781A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
utterance
dictation
case
initiative
Prior art date
Application number
PCT/JP2019/029716
Other languages
English (en)
French (fr)
Inventor
真里 斎藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/265,796 priority Critical patent/US20210166698A1/en
Publication of WO2020031781A1 publication Critical patent/WO2020031781A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present technology relates to an information processing apparatus and an information processing method, and more particularly, to an information processing apparatus and an information processing method capable of favorably giving an instruction on a newly written dictation sentence.
  • Patent Literature 1 an input voice is divided into a plurality of segments, one or more phonemes are assigned to each segment, one or more words are determined based on the phonemes, and stored in a storage unit.
  • One of the above words is displayed on the monitor as a confirmed word, and a word other than the confirmed word is set as a next candidate for display.
  • the purpose of the present technology is to enable the user to satisfactorily give instructions relating to a newly written sentence of dictation.
  • a display control unit for controlling the display of a newly written dictation utterance;
  • An assigning unit that assigns initiative to a predetermined user;
  • An information processing apparatus includes an editing control unit that controls an instruction related to a written sentence of the utterance by a user to whom the initiative has been given.
  • the display control unit controls the display of the newly written sentence of the dictation utterance.
  • the display control unit may display a newly written sentence of the utterance in a state where the uttered user can identify it.
  • the user who made the utterance can be identified by performing color-coded display or adding icons or symbols.
  • the display control unit may display the newly written utterance in an undetermined state until the utterance is determined. For example, it is blinking or gray characters.
  • the written sentence of the utterance may be determined by a timeout or a determination process.
  • the initiative is given to a predetermined user by the giving unit.
  • the giving unit may give the initiative to the user who has started the dictation.
  • the giving unit may not give the initiative when the user who has started dictation has a predetermined attribute.
  • the giving unit may not give the initiative when the user who started dictation is younger than a predetermined age. Thereby, mischief by a child can be avoided.
  • the giving unit may give the initiative according to the party to which the transcribed sentence of the utterance is transmitted, even if the user who started dictation is under a predetermined age. This allows the child to transmit to, for example, a family.
  • the editing control unit is controlled so that the user to whom the initiative has been given can give an instruction relating to the newly written utterance.
  • the instructions related to the newly written utterance include transmission, confirmation, completion, registration, cancellation, and clear.
  • the instruction related to the newly written utterance can be performed by the user to whom the initiative is given. Therefore, the user to whom the initiative has been given can satisfactorily give instructions relating to the newly written sentence of the dictation utterance. For example, even in an environment where a plurality of people compose a message, the initiative user can compose and transmit a message as intended.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing apparatus according to an embodiment.
  • 9 is a flowchart illustrating an example of a processing procedure of a control unit when a user utters; It is a figure showing an example of a presentation screen in the case of an utterance request mode. It is a figure showing an example of a presentation screen in the case of a dictation mode. It is a figure showing an example of a presentation screen in the case of ambiguous mode. It is a figure showing an example in the case of performing dictation by a plurality of people alternately. It is a figure showing an example in the case of transmitting a message.
  • FIG. 11 is a diagram for explaining a case of timeout (a case of using alone).
  • FIG. 7 is a diagram for explaining a case of a timeout (a case of using by a plurality of persons).
  • FIG. 11 is a diagram for explaining a case of a timeout (a case of canceling when used by a plurality of persons).
  • FIG. 9 is a diagram for explaining a timeout start point for determining a newly written sentence. It is a figure for explaining the case of performing a decision processing (case of using alone). It is a figure for explaining the case of performing a decision process (case of using by two or more people).
  • FIG. 9 is a diagram for explaining a case of performing a confirmation process (a case of canceling when used by a plurality of people).
  • 6 is a flowchart illustrating an example of a procedure of dictation mode processing in a control unit.
  • FIG. 9 is a diagram illustrating an example of a sequence when a plurality of users alternately input a sentence.
  • FIG. 9 is a diagram illustrating an example of a sequence when a sentence is corrected. It is a figure for explaining utilization of other modalities when performing by two or more persons. It is a figure for explaining utilization of other modalities when performing by two or more persons. It is a figure for explaining utilization of other modalities when performing by two or more persons.
  • FIG. 11 is a diagram illustrating an example in which a draft sentence related to an utterance of another user is merged into a display position of a written sentence related to an utterance of a user having an initiative.
  • FIG. 1 shows a configuration example of an information processing apparatus 100 as an embodiment.
  • the information processing device 100 constitutes a voice agent.
  • the information processing apparatus 100 includes a control unit 101, an input / output interface 102, an operation input device 103, a camera 104, a microphone 105, a speaker 106, a display 107, a user recognition unit 108, a voice recognition unit 109 , A communication interface 110, a semantic analysis guide database 111, and a dictation guide database 112.
  • the control unit 101, the input / output interface 102, the user recognition unit 108, the voice recognition unit 109, the communication interface 110, the semantic analysis guide database 111, and the dictation guide database 112 are connected to the bus 113.
  • the control unit 101 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like, and controls the operation of each unit of the information processing apparatus 100.
  • the input / output interface 102 connects the operation input device 103, the camera 104, the microphone 105, the speaker 106, and the display 107.
  • the operation input device 103 constitutes an operation unit for an administrator or a user of the information processing apparatus 100 to perform various operation inputs.
  • the operation input device 103 includes a touch panel arranged on the screen of the display 107.
  • the camera 104 captures, for example, a user in front of the information processing apparatus 100 to obtain image data.
  • the microphone 105 detects voice of the user and obtains voice data.
  • the speaker 106 outputs a sound as a response output to the user.
  • the display 107 outputs a screen to the user as a response output.
  • the user recognition unit 108 performs face recognition processing on the image data, detects each user's face present in the image that is the field of view of the information processing apparatus 100, and performs processing on the detected image of each user's face.
  • the user is subjected to image analysis processing and is compared with the feature amount of each user registered in advance to identify the user.
  • the user recognizing unit 108 may analyze the voice data and identify the user by comparing the voice data with the feature amount of each user registered in advance. Further, the recognition of the user may be specified by an arbitrary means (such as a button operation or a voice operation) without being automatically recognized.
  • the user recognizing unit 108 performs image analysis processing on the detected image of each user's face to detect the direction and the line of sight of each user's face. Further, the user recognition unit 108 performs an analysis process on the image data of each user, and detects a pointing direction indicating which direction the pointing is performed, for example, when pointing. The various types of detection information obtained by the user recognition unit 108 are sent to the control unit 101.
  • the voice recognition unit 109 performs voice recognition processing on voice data to obtain utterance text information.
  • the utterance text information is sent to the control unit 101.
  • the speech text information is held in a state of being linked to the user based on the user identification information obtained by the user recognition unit 108 as described above.
  • the communication interface 110 communicates with a cloud server (not shown) via a network such as the Internet to acquire various information.
  • the semantic analysis guide database 111 is a database referred to when the user utterance is “tell me the weather of tomorrow”, “what time is it now”, and is in the request utterance mode?
  • the dictation guide database 112 is a database that is referred to when the user utterance is “send a message to XX”, “scheduled registration for next month”, “registers ToDo”, etc. and is in the dictation mode.
  • the dictation mode is a mode in which a user's utterance is directly input as text, unlike the utterance of a request.
  • each time a user utters it is determined whether the mode is the request utterance mode or the dictation mode. If the requested utterance mode is set, a requested utterance mode process is performed. If the mode is the dictation mode, dictation mode processing is performed. Further, depending on the utterance of the user, it may not be possible to determine the mode in which mode. In that case, ambiguous mode processing corresponding to both modes is performed.
  • the flowchart of FIG. 2 shows an example of a processing procedure of the control unit 101 when a user utters.
  • the control unit 101 starts the process when there is a user utterance in step ST1.
  • the control section 101 determines whether or not the mode can be determined.
  • the control unit 101 may determine whether mode discrimination is possible or not based on not only the utterance contents but also the operation history of the user with respect to the utterance contents in the past.
  • the control unit 101 determines in step ST3 whether the mode corresponding to the utterance of the user is the request utterance mode or the dictation mode.
  • the control unit 101 performs a request utterance mode process in step ST4.
  • the control section 101 performs dictation mode processing in step ST5.
  • control unit 101 performs ambiguous mode processing corresponding to both the request utterance mode and the dictation mode in step ST6.
  • FIG. 3 shows an example of the presentation screen in the utterance request mode. This example is an example in which the user utters “Show today's news”. In the illustrated example, similar or related commands are presented together with presenting today's news as an execution result.
  • the user wants to correct the sentence when it is not written down as described.
  • a partial paraphrase phrase or a phrase to which a symbol such as a question mark “?” Is added is presented.
  • FIG. 4A shows an example of the first presentation screen in the case of the dictation mode. This example is an example in which the user utters “send a message to dad”.
  • a dictation waiting state is displayed in which a guide prompting the user to input a message, "Please speak your message,” is displayed.
  • FIG. 4B shows an example of a presentation screen when the user actually speaks according to the guide display and inputs a message.
  • This example is an example of a case where the user utters “Did you eat dinner today?”.
  • a rewritten sentence that is recognized as “to eat today is eaten” is displayed, and a conversion candidate for restatement of erroneous recognition is also displayed.
  • “Kyoto” and “Kyoto” are displayed with numbers respectively corresponding to "Today”.
  • “Yu-chan” and “dinner” are displayed with numbers, respectively, corresponding to “Yuha”.
  • “Eat?” And “talk” are displayed with numbers corresponding to “eat”.
  • both request utterance and dictation are accepted.
  • the dictation is awaited while executing the request.
  • dictation standby is performed while performing requests, such as displaying the area separately.
  • FIG. 5A shows an example of the first presentation screen in the case of the fuzzy mode.
  • This example is an example of a case where the user utters “Make a dad's message”. In this case, it is difficult to determine whether to request message reading or to create a message.
  • a message item display corresponding to message browsing and a dictation standby display corresponding to message creation are divided into areas and displayed.
  • FIG. 5 (b) is an example of a presentation screen when the user wants to view a message and utters “show me second”.
  • the rewritten sentence recognized as “Show Second” is also displayed, and conversion candidates for rephrasing are also displayed with numbers.
  • FIG. 5C is an example of a presentation screen when the user wants to create a message and utters “What do you want to buy?”.
  • the message item display corresponding to the message browsing is left as it is, a rewritten sentence that is recognized as "something to buy" is displayed, and candidates for rephrasing are also displayed with numbers.
  • FIGS. 6A to 6C show an example of a case where dictation is performed alternately by a plurality of persons.
  • FIG. 6A shows an example in which a message is transmitted. In the example shown in the figure, an example is given in which the mom utters "To dad, buy milk on the way home and send it", and then the child utters "Buy strawberry jam”. Is shown.
  • the mom gives an instruction utterance of “transmit”, which causes a message to be sent to dad to “buy milk on the way home and buy strawberry jam”. If the child's utterance "buy strawberry jam” is incorrect, the information processing apparatus 100 itself cannot determine the utterance, so that the mom needs to cancel the part at will. Also, in this case, if the child's utterance "buy strawberry jam” is incorrect, and then the child makes an instruction utterance of "send”, then "if you buy milk on the way home It is also important that the transmission of the "buy” message not be performed.
  • FIG. 6B shows an example in which calendar registration is performed.
  • the mom utters “Register the schedule for the next month, put out oversized garbage on June 5”, and then the child utters “Buy strawberry jam”. Is shown.
  • the mom must cancel the part at will and then make an instruction utterance of "confirm” to register.
  • the child's utterance "buy strawberry jam” is incorrect, and then the child gives an instruction utterance of "confirmation", on June 5 "buy strawberry jam” Is also incorrectly registered.
  • FIG. 6C shows an example of a case where Todo registration is performed.
  • the child after the mum utters “Register Todo” and further utters “Yuta's Todo, bring tomorrow's paint”, the child (Yuta) says “My Todo @ gymnastics on Wednesday.
  • An example in which the utterance of “wearing” is performed is shown.
  • the mom must cancel the part at will and then make an instruction utterance of "OK” to register.
  • the child's utterance “My Todo @ gym wear on Wednesday” is incorrect, and then the child makes an instruction utterance of “confirmation”, then “I bring my gym wear on Wednesday” Is incorrectly registered.
  • the information processing apparatus 100 displays the dictation utterance in a state where the uttered user can be identified. For example, it is possible to identify which user's utterance is related to each user's utterance by color-coding each user or using icons and symbols.
  • the user who initiated the dictation is given the initiative, and instructions such as transmission, confirmation, completion, registration, cancellation, and clearing can be performed only by the user having the initiative. And aggressive interrupts are prevented.
  • the initiative may not be given. As a result, it is possible to prevent inconvenience caused by giving the initiative to a user having a predetermined attribute.
  • the initiative may be given only to an adult. In this case, for example, when the user who started dictation is younger than a predetermined age, the initiative is not given. Further, for example, the processing of the initiative may be changed depending on the partner, for example, a family member can send a child. In this case, for example, the initiative is given according to the party to which the transcribed sentence of the utterance is transmitted, even if the user who has started dictation is under a predetermined age.
  • FIGS. 7A to 7D show an example of a case where a message is transmitted.
  • FIG. 7A shows a presentation example in the case where the mum utters “What time should I go back today and send a message to my dad”.
  • the rewritten sentence recognized as "What time will you return today?" Is displayed in an undetermined state.
  • the mom since the mom is the user who started the dictation, she has the initiative for instructions such as transmission, confirmation, completion, registration, cancellation, and clearing.
  • FIG. 7 (b) shows an example of presentation in a case where the child utters "buy a toy” after the written sentence "What time will you return today?"
  • the rewritten sentence recognized as "buy a toy” is displayed in an undetermined state.
  • the undetermined state is, for example, a blinking or gray character display.
  • FIG. 7 (c) shows an example of presentation in a case where the mom has made an instruction utterance of “clear”. In this case, the unwritten sentence "Bought a toy” is canceled. Note that even after the part of "buy a toy” is determined by timeout, it is possible to cancel the part by designating the part.
  • FIG. 7D shows a presentation example in the case where the mom has made an instruction utterance of “transmit”. In this case, a message "What time will you return today?" Is sent to Dad.
  • the example in which the utterance input of the child is canceled has been described, but similarly, a newly-written sentence whose meaning is unclear due to erroneous recognition of an external sound or the like may be used as the utterance input. Also in this case, the user having the initiative can delete the instruction by giving the instruction utterance “clear”. Also, when used in business or the like, it can also be used for purposes such as giving the initiative to only a person with a specific authority.
  • the session management of the input in the dictation mode will be described.
  • another user can additionally perform utterance input without starting a new session.
  • another user around the user is detected, and the utterance input of the user is additionally written down. If it is apparent from the information such as the face orientation of another user that the input is not an additional utterance input, the utterance input is not written down.
  • a user who performs additional utterance input later does not need to say a start word, and each user can perform utterance input alternately.
  • the end of the utterance is detected, and a determination process is performed for each end.
  • This confirmation processing is performed by the user having the initiative in giving an instruction speech of “confirmation”, or by a time-out due to the lapse of a certain time after the end point is detected.
  • the clearing of the interrupt utterance can be performed before the timeout at each termination. If not cleared, it will be confirmed by timeout or confirmed utterance.
  • the utterance input is continued even if the utterance ends.
  • the part up to the part to be fixed is designated and fixed. For example, it is possible to specify the part to be determined by uttering “determine until“ go back? ”” And “send until“ return? ”. Clearing is performed by specifying the part to be cleared. For example, the utterance of the "toy” clears (the following) the "toy”. Further, for example, the utterance of “buy a toy” is cleared by the utterance of “buy a toy”.
  • FIG. 8A shows an example of presentation in a case where the mum utters “What time should I go back today and send a message to my dad”.
  • the rewritten sentence recognized as "What time will you return today?" Is displayed in an undetermined state. In this state, after a certain period of time, for example, 4 seconds, a timeout occurs, and as shown in FIG. 8B, the written sentence "What time will you return today?" Is determined.
  • FIG. 9A shows a presentation example in a case where the mum has made an utterance, "What time do you want to go back today and send a message to Dad?" In this case, the rewritten sentence recognized as "What time will you return today?" Is displayed in an undetermined state.
  • the mom's utterance part "What time do you want to return today?" And the child's utterance part, "buy a toy,” can be identified by which user the utterance part is, for example, color-coded. Is displayed. It is also possible to make the user identifiable by icons or symbols instead of color coding. For example, in FIG. 9 (d), it is possible to identify which user's utterance part by adding a name. An example is shown. In the state of FIGS. 9C and 9D, when the mom utters the instruction of "Send”, the message "What time do you want to return today? Buy toys" is sent to Dad.
  • FIGS. 10A and 10B are the same as FIGS. 9A and 9B.
  • the mom who has started the dictation has the initiative, and can cancel the undetermined portion by uttering an instruction of “clear” in the state of FIG. 10B, and as a result, as shown in FIG. As shown in ()), the draft sentence of "buy a toy” is canceled.
  • FIG. 11 is a diagram for explaining a timeout start point for determining a newly written sentence.
  • the end (termination) of the utterance of the user 1 is the timeout start point.
  • the timeout of the user 1 is canceled, and the end (end) of the utterance of the user 2 becomes a new timeout start point. Therefore, the utterance of the user 1 and the utterance of the user 2 are both in an undetermined state from the end (end) of the utterance of the user 2 until the timeout occurs. Further, since the utterance of the user 3 starts after the timeout, the utterance of the user 3 is processed as a new utterance.
  • the user having the initiative can perform the canceling process in a state where the newly written sentence of the utterance input is unconfirmed, but in this state, each user can also perform the processing of correcting the sentence. Is done. Even in this case, the final determination of the sentence correction process can be performed by the user having the initiative.
  • FIG. 12A shows a presentation example in a case where the mum utters “What time should I go back today and send a message to my dad”.
  • the rewritten sentence recognized as "What time will you return today?" Is displayed in an undetermined state. In this state, the mom can perform a clearing process and a sentence correcting process.
  • FIG. 13A shows a presentation example in a case where the mum has made an utterance, "What time should I go back today and send a message to my dad?" In this case, the rewritten sentence recognized as "What time will you return today?" Is displayed in an undetermined state.
  • FIGS. 14A and 14B are the same as FIGS. 13A and 13B.
  • the mom who has started the dictation has the initiative, and can cancel the undetermined portion by giving the “clear” instruction utterance in the state of FIG. 14B. Further, in this case, it is possible to directly specify a part to be canceled with respect to the undetermined part. For example, it is possible to cancel a written sentence of "buy a toy” by giving an instruction utterance such as "buy a toy and clear", “clear after the toy", and "turn off Yuta input”. Becomes FIG. 14C shows a state in which the newly-written sentence "Bought a toy" is canceled.
  • FIG. 15 illustrates an example of the procedure of the dictation mode process (see step ST5 in FIG. 2) in the control unit 101 of the information processing apparatus 100. It is assumed that the user identification, that is, the identification processing of the speaking user, is always performed in another processing flow.
  • control unit 101 starts dictation mode processing in step ST11.
  • control unit 101 gives the initiative to the start utterance user.
  • control unit 101 determines whether or not there is an utterance.
  • step ST14 determines in step ST14 whether the utterance is a correction instruction utterance. If the utterance is a correction instruction utterance, the control unit 101 performs a correction process on the newly written sentence in step ST15, and thereafter returns to the process of step ST13.
  • step ST16 determines whether it is an instruction utterance other than the correction instruction, that is, an instruction utterance such as “clear”, “fixed”, “registered”, “transmitted”, or “corrected”. Judge. If it is not another instruction utterance, in step ST17, the control unit 101 displays a newly written sentence corresponding to the utterance on the display 107, and then returns to the process of step ST13.
  • step ST16 the control unit 101 determines in step ST18 whether or not the utterance user is the initiative granter. When the uttering user is not the initiative grantor, the control unit 101 determines that other instruction utterances are invalid, and returns to the process of step ST13.
  • step ST18 the control unit 101 determines in step ST19 whether or not the instruction is finalized (transmission, registration, etc.). If the instruction is not finalized (transmission, registration, etc.), the control unit 101 performs processing other than finalization (transmission, registration, etc.) in step ST20, and thereafter returns to the processing of step ST13.
  • control unit 101 performs finalization processing (transmission, registration, etc.) in step ST21, and then ends a series of processing in step ST22.
  • the information processing apparatus 100 performs processing by regarding the utterance as an alternate utterance.
  • the domain means, for example, message transmission, calendar registration, ToDo registration, and the like.
  • the slot means, for example, a destination in the case of a message transmission domain, a month and a day in the case of calendar registration, and a target person in the case of ToDo registration. Therefore, the case where the domain and the slot are the same corresponds to the case where the address is the same in the case of sending a message, the date and time is the same in the case of calendar registration, and the subject is the same in the case of ToDo registration.
  • the information processing apparatus 100 executes the same screen. If the domains are different, the information processing apparatus 100 divides the screen, performs the processing in a bulletin board, and substitutes audio output for a domain that cannot be divided and displayed. For example, if the task of sending a message based on the utterance of "send a message to dad" of mom and the request task based on the utterance of "show the weather" of the child are executed, the task of sending the message is executed on the screen. It is conceivable that the weather can be conveyed to the child by voice.
  • Similar sound candidates are prioritized over candidates for spelling variations (for example, whether to use kanji or hiragana, use kanji or arithmetic numerals). This is because, even if there is a spelling variation, it makes sense.
  • a spelling variation candidate may be presented. It is also conceivable to use only hiragana candidates for child users. Whether the user is particular about the spelling variation may be determined based on the user's personal attribute database, or may be determined based on past correction history information of the user. Whether or not the user is a child can be determined based on the user recognition result.
  • a conversion candidate is presented by utilizing the history for each uttering user.
  • the history of another user such as a family may be referred to.
  • those similar to the utterance are presented as candidates.
  • the protection that is, the candidate that matches the place, time, situation, and the like is preferentially presented.
  • the correction of the newly written portion is performed by rephrasing only the conversion candidate or designating the number of the conversion candidate. For example, consider a case where a recognized draft is "Yuha Eat" for an utterance input of "Eat dinner?" In this case, if there is a modified utterance of "dinner", it is corrected to "eat dinner".
  • ⁇ I explain the correction when long sentences are inserted alternately.
  • the input sentence can be corrected.
  • another user can correct the previous sentence.
  • the utterance is compared with the sentence that has already been input. If the similarity is equal to or higher than a certain ratio, the utterance is regarded as an input of a corrected sentence and is changed.
  • the changed portion may be displayed so that the changed portion can be understood by a user other than the corrector, for example, the user who is inputting the next sentence.
  • the utterance is compared with the sentence that has already been input. If the similarity is equal to or higher than a certain ratio, it is regarded as an input of a correction sentence, and after a certain user confirms the correction, the correction is determined. As a result, the modification of the text of a certain user is prevented from being modified by another user without permission.
  • FIG. 16 shows an example of a sequence when a plurality of users alternately input a sentence.
  • the plurality of users are two users, user 1 and user 2.
  • a dictation mode process for creating an activity plan is started by the utterance input of “create an activity plan” by the user 1, and “activity plan” as a draft is displayed.
  • the sentence after the budget is deleted from the newly written sentence.
  • the user 1 is made aware of the deletion (see the hatched portion).
  • the utterance input of the user 2 “the budget is 350,000 yen in total”
  • a newly written sentence corresponding to the utterance input is added.
  • the color of the additional portion is displayed differently from the others so that the user 1 can recognize the additional portion.
  • FIG. 17 shows an example of a sequence in the case where the input sentence is corrected as shown in FIG. 16 described above.
  • the “cultural edge” portion is corrected to a “citizen cultural edge”.
  • the color of the corrected portion is displayed so as to be different from the others so that the user 2 can recognize the corrected portion.
  • the drawing is a black-and-white drawing, no color difference is shown. The same applies to the following.
  • the user 2 utters the correction instruction “Citizen Festival Stage Announcement”, and the “Citizen Festival” part is modified to “Citizen Festival Stage Announcement”. Also in this case, the color of the corrected portion is displayed in a different color from the others so that the user 1 can also recognize the corrected portion. In this case, the input portion of a user other than the user is corrected, and is made more conspicuous.
  • the “activity plan” part is modified to the “2018 activity plan” by the utterance input of “18 year plan” by a remote place or a third party who is not co-authoring.
  • a third party corrects the input part of the user, and is made more conspicuous. Note that this conspicuousness is, for example, a special color. However, in FIG. 17, since the drawing is a black-and-white drawing, no difference in color is shown.
  • a conversion candidate is selected and corrected by mixing utterances and touches. For example, in response to a user's utterance input of “return, buy a softener”, the recognized draft is “bought 100,000 times on the return”, and (1) 100,000, (2) ) Softener, (3) Consider a case where a conversion candidate of ten years old is presented. In this case, the second utterance is uttered as "buy back (touch (2)) and come back" or as "turn back and buy (2) come” as a conversion candidate. (2) Correction with the softener selected.
  • FIG. 18A shows that in response to the user's utterance input of “buy pudding on the way home”, the recognized draft is “buy wind chimes on the way home”, and “fishing” in the horizontal direction of the screen.
  • This is an example in which conversion candidates of “”, “pudding”, and “print” are presented in this order.
  • This example shows a case where the user utters “change to the middle” in that state. In this case, a conversion candidate of “pudding” is selected, and the part of “wind chime” is corrected to “pudding”.
  • FIG. 18B shows that in response to the user's utterance input of “buy pudding on the return”, the recognized draft is “buy a wind chime on the return”, and “fishing” in the horizontal direction of the screen.
  • This is an example in which conversion candidates of “”, “pudding”, and “print” are presented in this order.
  • this example is an example of a case where the user touches the presentation part of the selection candidate of “pudding” and utters “change to this” in that state. Also in this case, the conversion candidate of “pudding” is selected, and the part of “wind chime” is corrected to “pudding”.
  • FIG. 18C shows that in response to the user's utterance input of “buy pudding on the way home”, the recognized draft is “buy a wind chime on the way home” and “fishing” in the horizontal direction of the screen.
  • This is an example in which conversion candidates of “”, “pudding”, and “print” are presented in this order.
  • this example is an example in which the user points to the presentation part of the selection candidate of “pudding” and utters “change to this” in that state.
  • the conversion candidate of “pudding” is selected, and the part of “wind chime” is corrected to “pudding”.
  • FIG. 20 in response to the user A's utterance input of “buy back pudding”, a recognized rewritten sentence “buy wind chimes” is displayed.
  • a conversion candidate related to the “wind chime” portion is presented.
  • “fishing”, “pudding”, and “print” are presented.
  • not only the stay but also the movement of the line of sight such as alternately viewing between the erroneously recognized portion and the candidate to be corrected may be detected.
  • the initiative is given to the user who has started dictation, and only the user to whom the initiative is given is “clear” or “clear”. Instructions such as “confirm”, “register”, and “send” can be given. Therefore, the user to whom the initiative has been given can satisfactorily give instructions related to the written sentence of the dictation utterance.For example, even in an environment where a plurality of people compose a message, the user who has the initiative can Message can be created and transmitted.
  • an Undo function may be provided in editing processing such as addition or correction of a newly written sentence in the dictation mode processing. This makes it possible to efficiently perform editing processing such as addition, clearing, and modification.
  • the user who has started dictation has the initiative, but it may be possible to pass this initiative to another user during the dictation. Thus, even when the user who has started dictation leaves for some reason on the way, the user who has been given the initiative can complete the dictation.
  • the user who has started dictation has the initiative, but instead of deciding the user who has the initiative at the time of starting the dictation, the user who has the initiative has the initiative when necessary.
  • the user may be determined.
  • the plurality of users performing dictation are composed of humans, but some of the plurality of users may include an artificial intelligence (AI) device.
  • AI artificial intelligence
  • the newly written sentence of the dictation utterance when the newly written sentence of the dictation utterance is cleared, it may be left in a translucent state, for example, for a certain period of time. As a result, the cleared contents can be confirmed, and if the contents are cleared by mistake, it is possible to easily return to the original state.
  • a preset NG word may be filtered so as not to be written down.
  • the NG word may be set for each user.
  • a newly written sentence uttered by the initiative user may be highlighted. As a result, it is possible to easily recognize that the sentence is a newly written sentence made by the utterance of the user having the initiative, and it is possible to know who has the initiative.
  • the newly written sentence related to the utterance of the initiative user is displayed first, and the utterance of the other user is displayed. Such a newly written sentence may be displayed thereafter.
  • a draft sentence related to another user's utterance may be merged with a display position of a written sentence related to the utterance of the initiative user. Thereby, it is possible to easily know which user has the initiative.
  • FIG. 21 shows an example of the merge operation.
  • a dictation mode process for creating an activity plan is started by the utterance input of “create an activity plan” by the user 1, and “activity plan” as a draft is displayed.
  • the user 1 inputs an utterance saying that "participation in cultural and citizen festivals will be a major activity this year," a corresponding written sentence is added.
  • the present technology can also have the following configurations.
  • a display control unit for controlling display of a newly written sentence of dictation utterance;
  • An assigning unit that assigns initiative to a predetermined user;
  • An information processing apparatus comprising: an editing control unit that controls an instruction relating to a written sentence of the utterance by a user to whom the initiative has been given.
  • the display control unit displays the newly written utterance of the utterance in a state where the uttered user can identify the newly written utterance.
  • the assigning unit assigns the initiative according to the party to which the transcribed sentence of the utterance is transmitted, even if the user who has started the dictation is under the predetermined age.
  • Processing equipment. (9) a procedure for controlling the display of a written sentence of the dictation utterance; The steps to give initiative to a given user; An information processing method comprising a procedure of controlling an instruction related to a written sentence of an utterance to be performed by a user to which the initiative has been given.
  • Control unit 102 Input / output interface 103 Operation input device 104 Camera 105 Microphone 106 Speaker 107 Display 108 ... User recognition unit 109 Voice recognition unit 110 Communication interface 111 Semantic analysis guide database 112 Dictation guide database 113 Bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

ディクテーションの発話の書き下し文に係る指示を良好に行い得るようにする。 表示制御部は、ディクテーションの発話の書き下し文の表示を制御する。例えば、表示制御部は、発話の書き下し文を、発話したユーザが識別可能な状態で表示する。付与部により、所定のユーザに主導権を付与する。例えば、付与部は、ディクテーションを開始したユーザに主導権を付与する。編集制御部は、発話の書き下し文に係る指示を主導権が付与されたユーザが行い得るように制御する。例えば、指示は、送信、確定、完了、登録、キャンセル、クリア等である。

Description

情報処理装置および情報処理方法
 本技術は、情報処理装置および情報処理方法に関し、詳しくは、ディクテーションの発話の書き下し文に係る指示を良好に行い得るようにした情報処理装置および情報処理方法に関する。
 複数人でディクテーションを行う場合、関係ない会話をしているのか、交互にディクテーションをしているのか、判別しにくい。また、人によって言い方が異なるので、コマンドの区別を精度良く行ったとしても、ユーザの発話の曖昧性や表現の個人差などにより、必ずしも意図通りの認識結果にはならない。
 例えば、特許文献1には、入力された音声を複数のセグメントに分割して各セグメントに対して1以上の音素を割り当て、この音素に基づいて1以上の単語を決定し、記憶部に格納された前記単語の1つを確定単語としてモニタに表示するとともに確定単語以外の単語を表示の次候補とすること、が記載されている。
特開平11-143487号公報
 一人でディクテーションを行う場合は、その人が今入力したものが必要か否か等を判断して進めればよいが、複数人でディクテーションを行う場合は、ユーザに対する話しかけなのか、エージェントへの入力なのか判断できない。さらに、交互に入力する場合、人によって発話の特性や表現も異なるので、一人のときと同様の候補では誤認識の修正などがしにくい。
 本技術の目的は、ディクテーションの発話の書き下し文に係る指示を良好に行い得るようにすることにある。
 本技術の概念は、
 ディクテーションの発話の書き下し文の表示を制御する表示制御部と、
 所定のユーザに主導権を付与する付与部と、
 上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する編集制御部を備える
 情報処理装置にある。
 本技術において、表示制御部により、ディクテーションの発話の書き下し文の表示が制御される。例えば、表示制御部は、発話の書き下し文を、発話したユーザが識別可能な状態で表示する、ようにされてもよい。例えば、色分け表示をし、あるいはアイコンや記号を付加することで、発話したユーザが識別可能な状態とされる。また、表示制御部は、発話の書き下し文を、確定するまで、非確定状態で表示する、ようにされてもよい。例えば、点滅、あるいはグレー文字等とされる。この場合、例えば、発話の書き下し文は、タイムアウトまたは確定処理により確定される、ようにされてもよい。
 付与部により、所定のユーザに主導権が付与される。例えば、付与部は、ディクテーションを開始したユーザに主導権を付与する、ようにされてもよい。この場合、例えば、付与部は、ディクテーションを開始したユーザが所定の属性であるときは、主導権を付与しない、ようにされてもよい。これにより、所定の属性のユーザに主導権を付与することによる不都合の発生を防止できる。例えば、付与部は、ディクテーションを開始したユーザが所定の年齢以下であるときは、主導権を付与しない、ようにされてもよい。これにより、子供によるいたずらを回避することができる。また、この場合、例えば、付与部は、発話の書き下し文を送信する相手に応じて、ディクテーションを開始したユーザが所定の年齢以下であっても主導権を付与する、ようにされてもよい。これにより、子供は例えば家族には送信することが可能となる。
 編集制御部により、発話の書き下し文に係る指示を主導権が付与されたユーザが行い得るように制御される。例えば、発話の書き下し文に係る指示は、送信、確定、完了、登録、キャンセル、クリア等である。
 このように本技術においては、発話の書き下し文に係る指示は、主導権が付与されたユーザが行い得るものである。そのため、主導権が付与されたユーザは、ディクテーションの発話の書き下し文に係る指示を良好に行い得る。例えば、複数人でメッセージを作成する環境にあっても、主導権のあるユーザは意図通りにメッセージを作成して送信することが可能となる。
実施の形態としての情報処理装置の構成例を示すブロック図である。 ユーザの発話があった場合における制御部の処理手順の一例を示すフローチャートである。 発話依頼モードの場合における提示画面の一例を示す図である。 ディクテーションモードの場合における提示画面の一例を示す図である。 あいまいモードの場合における提示画面の一例を示す図である。 複数人で交互にディクテーションを行う場合の一例を示す図である。 メッセージ送信を行う場合の一例を示す図である。 タイムアウトの場合(一人で使う場合)について説明するための図である。 タイムアウトの場合(複数人で使う場合)について説明するための図である。 タイムアウトの場合(複数人で使う場合でキャンセルする場合)について説明するための図である。 書き下し文の確定のためのタイムアウト開始ポイントを説明するための図である。 確定処理をする場合(一人で使う場合)について説明するための図である。 確定処理をする場合(複数人で使う場合)について説明するための図である。 確定処理をする場合(複数人で使う場合でキャンセルする場合)について説明するための図である。 制御部におけるディクテーションモード処理の手順の一例を示すフローチャートである。 複数ユーザが文章を交互に入力する場合のシーケンスの一例を示す図である。 文章を修正する場合のシーケンスの一例を示す図である。 複数人で行う場合の他のモダリティの活用について説明するための図である。 複数人で行う場合の他のモダリティの活用について説明するための図である。 複数人で行う場合の他のモダリティの活用について説明するための図である。 主導権のあるユーザの発話に係る書き下し文の表示位置に他のユーザの発話に係る書き下し文がマージされる例を示す図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [情報処理システムの構成例]
 図1は、実施の形態としての情報処理装置100の構成例を示している。この情報処理装置100は、音声エージェントを構成している。この情報処理装置100は、制御部101と、入出力インタフェース102と、操作入力デバイス103と、カメラ104と、マイク105と、スピーカ106と、ディスプレイ107と、ユーザ認識部108と、音声認識部109と、通信インタフェース110と、意味解析ガイドデータベース111と、ディクテーションガイドデータベース112を有している。制御部101、入出力インタフェース102、ユーザ認識部108、音声認識部109、通信インタフェース110、意味解析ガイドデータベース111およびディクテーションガイドデータベース112は、バス113に接続されている。
 制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random access memory)等を備えてなり、情報処理装置100の各部の動作を制御する。入出力インタフェース102は、操作入力デバイス103、カメラ104、マイク105、スピーカ106およびディスプレイ107を接続する。操作入力デバイス103は、情報処理装置100の管理者あるいはユーザが種々の操作入力を行うための操作部を構成する。この操作入力デバイス103には、ディスプレイ107の画面上に配置されるタッチパネルも含まれる。
 カメラ104は、例えば情報処理装置100の前側にいるユーザを撮像して画像データを得る。マイク105は、ユーザの発話を検出して音声データを得る。スピーカ106は、ユーザに応答出力としての音声出力をする。ディスプレイ107は、ユーザに応答出力としての画面出力をする。
 ユーザ認識部108は、画像データに対して顔認識処理を施して、情報処理装置100の視野である画像に存在する各ユーザの顔を検出し、その検出された各ユーザの顔の画像に対して画像解析処理を施して予め登録されている各ユーザの特徴量と比較して、ユーザを識別する。なお、このユーザ認識部108では、音声データを解析して、予め登録されている各ユーザの特徴量と比較して、ユーザを識別することも考えられる。また、ユーザの認識については、自動的に認識されなくても、ユーザが任意の手段(ボタン操作や音声操作など)で指定してもよい。
 また、ユーザ認識部108は、その検出された各ユーザの顔の画像に対して画像解析処理を施して、各ユーザの顔の向きや視線を検出する。また、ユーザ認識部108は、各ユーザの画像データに対して解析処理を行って、例えば指差している場合に、どの方向を指差しているかを示す指差し方向を検出する。このようにユーザ認識部108で得られる各種検出情報は、制御部101に送られる。
 音声認識部109は、音声データに対して音声認識処理を施して発話テキスト情報を得る。この発話テキスト情報は、制御部101に送られる。この音声テキスト情報は、上述したようにユーザ認識部108で得られたユーザ識別情報に基づいて、ユーザと結び付けられた状態で保持される。通信インタフェース110は、インターネット等のネットワークを介して、図示しないクラウド・サーバと通信を行って、種々の情報を取得する。
 意味解析ガイドデータベース111は、ユーザ発話が「明日の天気を教えて」、「今の時間は何時」などであって依頼発話モードである場合に参照するデータベースである。ディクテーションガイドデータベース112は、ユーザ発話が「○○にメッセージ送って」、「来月の予定登録」、「ToDoを登録」などであってディクテーションモードである場合に参照するデータベースである。ここで、ディクテーションモードは、依頼を発話するのと異なり、ユーザの発話をそのままテキストにして入力するモードである。
 図1に示す情報処理装置100では、ユーザの発話がある毎に、依頼発話モードであるか、ディクテーションモードであるかなどが判断される。そして、依頼発話モードである場合には、依頼発話モード処理が行われる。また、ディクテーションモードである場合には、ディクテーションモード処理が行われる。また、ユーザの発話によっては、いずれのモードであるかモード判別が不可能な場合もある。その場合には、双方のモードに対応したあいまいモード処理が行われる。
 図2のフローチャートは、ユーザの発話があった場合における制御部101の処理手順の一例を示している。制御部101は、ステップST1において、ユーザの発話があるとき処理を開始する。次に、制御部101は、ステップST2において、モード判別が可能か否かを判別する。ここで、制御部101は、発話内容からだけではなく、過去のその発話内容に対するユーザの操作履歴などから、モード判別の可否を判断することも考えられる。
 モード判別が可能であった場合、制御部101は、ステップST3において、ユーザの発話に対応したモードは、依頼発話モードであるかディクテーションモードであるかが判断される。依頼発話モードである場合、制御部101は、ステップST4において、依頼発話モード処理をする。一方、ディクテーションモードである場合、制御部101は、ステップST5において、ディクテーションモード処理をする。
 また、ステップST2でモード判別が可能でなかった場合、制御部101は、ステップST6において、依頼発話モードとディクテーションモードの双方のモードに対応したあいまいモード処理をする。
 発話依頼モードの場合、一字一句正確に書き下される必要はなく、コマンドが伝わればよい。また、この場合は、書き下さずに実行のみを行ってもよい。誤認識の場合、ユーザはコマンドとして実行し直すための候補を知ることを希望すると思われるので、実行結果と共に、部分一致等で類似するコマンドあるいは関連するコマンドが提示される。
 図3は、発話依頼モードの場合における、提示画面の一例を示している。この例は、ユーザが「今日のニュース見せて」という発話を行った場合の例である。図示の例では、実行結果である今日のニュースの提示と共に、類似あるいは関連するコマンドの提示もなされている。
 また、ディクテーションモードの場合、言った通りに書き下されないとき、ユーザは文章を直すことを希望する。誤認識の場合、ユーザは言い直し候補を見たいと思われるので、部分的な言い換えフレーズや、クエスチョンマーク「?」などの記号を付加したフレーズが提示される。
 図4(a)は、ディクテーションモードの場合における、最初の提示画面の一例を示している。この例は、ユーザが「パパに、メッセージを送って」という発話を行った場合の例である。図示の例では、「メッセージをお話しください」というユーザにメッセージ入力を促すガイド表示がなされた、ディクテーション待ち受けとなっている。
 図4(b)は、ユーザがガイド表示に従って実際に発話を行ってメッセージ入力を行った場合の提示画面の一例を示している。この例では、ユーザが「今日、夕飯食べる?」という発話を行った場合の例である。この場合、「今日、ゆうは食べる」という認識された書き下し文が表示され、誤認識の言い直しのための変換候補も表示されている。ここで、「今日」に対応して「京」および「京都」がそれぞれ番号付きで表示されている。また、「ゆうは」に対応して「ゆうちゃん」および「夕飯」がそれぞれ番号付きで表示されている。また、「食べる」に対応して「食べる?」および「しゃべる」がそれぞれ番号付きで表示されている。
 また、あいまいモードの場合、依頼発話およびディクテーションのいずれも受け付けられるようにする。つまり、依頼を実行しつつ、ディクテーション待ち受けにする。この場合、提示画面では、エリアを分けて表示するなど、依頼実行しつつ、ディクテーション待ち受けにする。
 図5(a)は、あいまいモードの場合における、最初の提示画面の一例を示している。この例は、ユーザが「パパのメッセージにして」という発話を行った場合の例である。この場合、メッセージの閲覧を依頼するものか、メッセージの作成を行うものか判別が困難である。図示の例では、メッセージ閲覧に対応したメッセージ項目表示と、メッセージ作成に対応したディクテーション待ち受け表示とがエリア分割されて表示されている。
 図5(b)は、ユーザがメッセージ閲覧を希望していて、「2番みせて」という発話を行った場合の提示画面の一例である。この場合、「2番みせて」という認識された書き下し文も表示され、言い直しのための変換候補も番号付きで表示されている。図5(c)は、ユーザがメッセージ作成を希望していて、「なにか買っておくものある?」という発話を行った場合の提示画面の一例である。この場合、メッセージ閲覧に対応したメッセージ項目表示はそのままとされ、「なにか買っておくものある」という認識された書き下し文が表示され、言い直しのための候補も番号付きで表示されている。
 「ディクテーションモード処理」
 ディクテーションモード処理についてさらに説明する。図6(a)~(c)は、複数人で交互にディクテーションを行う場合の一例を示している。図6(a)は、メッセージ送信を行う場合の例である。図示の例においては、ママが「パパに、帰りに牛乳を買って来てって送って」という発話を行った後に、子供が「イチゴジャムも買って」という発話を行った場合の例を示している。
 この場合、ママは、「送信」という指示発話を行っているが、これにより「帰りに牛乳買って来て イチゴジャムも買って」というメッセージがパパに送信されることになる。なお、子供の発話である「イチゴジャムも買って」が間違いである場合、情報処理装置100自体はそれを判別できないので、ママが意志をもってその部分をキャンセルする必要がある。また、この場合、子供の発話である「イチゴジャムも買って」が間違いである場合に、その後に子供が「送信」という指示発話を行った場合、「帰りに牛乳買って来て イチゴジャムも買って」のメッセージの送信が実行されないようにすることも重要である。
 図6(b)は、カレンダー登録を行う場合の一例を示している。図示の例においては、ママが「来月の予定を登録 6月5日に粗大ごみを出す」という発話を行った後に、子供が「イチゴジャムも買って」という発話を行った場合の例を示している。この場合、子供の発話である「イチゴジャムも買って」が間違いである場合、ママが意志をもってその部分をキャンセルした後に、「確定」という指示発話を行って、登録をする必要がある。また、この場合、子供の発話である「イチゴジャムも買って」が間違いである場合に、その後に子供が「確定」という指示発話を行った場合、6月5日に「イチゴジャムも買って」も誤って登録されることになる。
 図6(c)は、Todo登録を行う場合の一例を示している。図示の例においては、ママが「Todoを登録」という発話をし、さらに「ゆうたのTodo、明日絵具をもっていく」という発話を行った後に、子供(ゆうた)が「ぼくのTodo 水曜日は体操着」という発話を行った場合の例を示している。この場合、子供の発話である「ぼくのTodo 水曜日は体操着」が間違いである場合、ママが意志をもってその部分をキャンセルした後に、「確定」という指示発話を行って、登録をする必要がある。また、この場合、子供の発話である「ぼくのTodo 水曜日は体操着」が間違いである場合に、その後に子供が「確定」という指示発話を行った場合、「水曜日に体操着を持っていく」が誤って登録されることになる。
 上述の図6(a)~(c)の例で示したように、複数人でディクテーションをしているのか、関係のない発話が混在したのか判別しにくい。この実施の形態において、情報処理装置100は、ディクテーションの発話の書き下し文を提示画面上に表示する場合、発話したユーザが識別可能な状態で表示する。例えば、ユーザ別に色分けをするとか、あるいはアイコンや記号を用いて、それぞれの書き下し文がいずれのユーザの発話に係るものであるか識別可能にされる。
 また、この実施の形態において、ディクテーションを開始したユーザに主導権を持たせ、送信、確定、完了、登録、キャンセル、クリア等の指示に関しては、主導権を持ったユーザのみ行えるようにして、いたずらや強引な割り込みが防止される。この場合、ディクテーションを開始したユーザが所定の属性(年齢、性別、性格、能力など)であるときは、主導権を付与しないようにされてもよい。これにより、所定の属性のユーザに主導権を付与することによる不都合の発生を防止できる。
 この場合、意図せず入力されてしまった発話や外音などは、ディクテーションはされるが、実行されないので致命的にはならない。また、確定処理がされない限り、仮入力情報(例えば点滅、グレー文字など)にして、確定処理までのタイムアウトを設けるようにされてもよい。また、子供などいたずらすることがある場合は、主導権は大人だけに付与するなどとされてもよい。この場合、例えば、ディクテーションを開始したユーザが所定の年齢以下であるときは主導権を付与しないものとされる。さらに、例えば、家族なら子供でも送れるなど、相手によって主導権の処理を変えるようにされてもよい。この場合、例えば、発話の書き下し文を送信する相手に応じて、ディクテーションを開始したユーザが所定の年齢以下であっても主導権を付与するものとされる。
 例えば、図7(a)~(d)は、メッセージ送信を行う場合の一例を示している。図7(a)において、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る?」という認識された書き下し文が、未確定の状態で表示されている。この場合、ママはディクテーションを開始したユーザであることから、送信、確定、完了、登録、キャンセル、クリア等の指示に関して、主導権を持っている。
 図7(b)は、ママの確定指示あるいはタイムアウトにより「今日何時に帰る?」の書き下し文が確定した後に、子供が「おもちゃ買ってきて」という発話を行った場合の提示例を示している。この場合、「おもちゃ買ってきて」という認識された書き下し文が、未確定の状態で表示されている。ここで、未確定の状態は、例えば、点滅、グレー文字による表示である。
 図7(c)は、ママが「クリア」という指示発話を行った場合の提示例を示している。この場合、未確定の状態にあった「おもちゃ買ってきて」という書き下し文がキャンセルされた状態となる。なお、この「おもちゃ買ってきて」の部分がタイムアウトにより確定した後であっても、その部分を指定することで、その部分をキャンセルすることは可能である。
 また、この場合、「今日何時に帰る?」の部分と「おもちゃ買ってきて」の部分とは、発話したユーザが識別可能に、例えば色分けなどされて表示される。このように識別されて表示されることで、キャンセル部分を指定する場合等に便利となる。図7(d)は、ママが「送信」という指示発話を行った場合の提示例を示している。この場合、「今日何時に帰る?」というメッセージがパパに送信される。
 なお、上述では、子供の発話入力をキャンセルする例を示したが、同様に、外音等の誤認識によって意味不明な書き下し文が発話入力となることもある。その場合にも、主導権を持ったユーザは「クリア」という指示発話を行うことで削除することが可能となる。また、業務などで用いる場合にも、特定の権限がある立場の人にだけ主導権を与えるなどの用途でも用いることができる。
 ここで、ディクテーションモードにおける入力のセッション管理について述べる。ディクテーションの発話入力をしているユーザがいる場合、特に改めてセッションを開始することなく、他のユーザが追加で発話入力を行い得るようにされる。この場合、発話入力をしているユーザがいる場合、そのユーザの周囲にいる他のユーザが検知され、そのユーザの発話入力が追加で書き下される。また、他のユーザの顔向き等の情報から、明らかに追加の発話入力ではないと分かる場合は、その発話入力については書き下されないようにされる。このようなセッション管理をすることで、後から追加の発話入力を行うユーザは起動ワードを言う必要はなく、各ユーザは交互に発話入力を行うことができる。
 次に、ディクテーションモードにおける確定処理について述べる。発話の終端が検出されて、終端ごとに確定処理がされる。この確定処理は、主導権を持ったユーザが「確定」の指示発話を行うことで行われるか、あるいは終端が検出されてから一定時間が経過することによるタイムアウトで行われる。例えば、割り込み発話のクリアは、終端毎にタイムアウト前に行うことが可能とされる。クリアしない場合は、タイムアウトか確定発話で確定される。
 ユーザの確定発話まで、発話の終端があっても、そのまま発話入力が続けられる。この場合、部分をクリアしたい場合、確定する部分までを指定して確定させる。例えば、“「帰る?」まで確定”、“「帰る?」まで送信”という発話により、確定する部分までの指定が可能となる。また、クリアしたい部分を指定することで、クリアが実行される。例えば、「おもちゃ」の発話により、「おもちゃ」から先(以降)がクリアされる。また、例えば、「おもちゃ買って来て」の発話により、「おもちゃ買って来て」のそのものがクリアされる。
 ここで、図8(a)~(b)を用いて、タイムアウトの場合(一人で使う場合)について説明する。図8(a)は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る?」という認識された書き下し文が、未確定の状態で表示されている。この状態で、一定時間、例えば4秒経過したらタイムアウトとされ、図8(b)に示すように、「今日何時に帰る?」の書き下し文か確定された状態となる。
 そして、この図8(b)の状態で、ママが「送信」の指示発話を行うことで、「今日何時に帰る?」というメッセージがパパに送信される。なお、図示のように。図8(a)の状態からタイムアウトとなった場合、「今日何時に帰る?」の書き下し文か確定されて、直ちにその「今日何時に帰る?」というメッセージがパパに送信されることも考えられる。
 次に、図9(a)~(d)を用いて、タイムアウトの場合(複数人で使う場合)について説明する。図9(a)は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る?」という認識された書き下し文が、未確定の状態で表示されている。
 この状態で、一定時間、例えば4秒経過したらタイムアウトとされ、図9(b)に示すように、「今日何時に帰る?」の書き下し文が確定された状態となる。この状態で、図示のように、子供(ゆうた)が「おもちゃを買ってきて」という発話を行った場合、その書き下し文が、未確定の状態で表示される。この状態で、一定時間、例えば4秒経過したらタイムアウトとされ、図9(c)に示すように、「おもちゃを買ってきて」の書き下し文も確定された状態となる。
 この場合、ママの発話部分である「今日何時に帰る?」と、子供の発話部分である「おもちゃを買ってきて」とは、いずれのユーザの発話部分であるかを識別可能に、例えば色分けされて表示される。なお、色分けの代わりにアイコンや記号でユーザ識別可能とすることも可能であり、例えば図9(d)は、名前を付加することで、いずれのユーザの発話部分であるかを識別可能とした例を示している。なお、図9(c),(d)の状態で、ママが「送信」の指示発話を行うことで、「今日何時に帰る?おもちゃ買ってきて」というメッセージがパパに送信される。
 次に、図10(a)~(c)を用いて、タイムアウトの場合(複数人で使う場合でキャンセルする場合)について説明する。詳細説明は省略するが、図10(a),(b)は、図9(a),(b)と同じである。
 ディクテーションを開始したママは、主導権を持っており、図10(b)の状態で、「クリア」の指示発話をすることで、未確定部分をキャンセルでき、ここでは結果として、図10(c)に示すように、「おもちゃを買ってきて」の書き下し文がキャンセルされた状態となる。なお、この場合、未確定部分に関して、キャンセルしたい部分を直接的に指定することも可能とされる。例えば、「おもちゃを買って来てクリア」、「おもちゃ以降をクリア」、「ゆうたの入力を消して」などの指示発話を行うことで、「おもちゃを買ってきて」の書き下し文のキャンセルが可能となる。
 なお、図10の例においては、ママの発話部分である「今日何時に帰る?」がタイムアウトで確定した後に、子供の発話部分である「おもちゃ買ってきて」の発話がされて、その書き下し文が未確定の状態で表示される例を示した。しかし、あるユーザの発話についてタイムアウトになる前に、次のユーザの発話が開始される場合も想定される。その場合には、あるユーザの発話についてタイムアウトの開始も次のユーザの発話の終端からとなり、あるユーザの発話と次のユーザの発話の双方が未確定のままに置かれた状態となる。その場合には、双方の発話についての未確定な書き下し文に関してキャンセル処理を行うことが可能となる。
 図11は、書き下し文の確定のためのタイムアウト開始ポイントを説明するための図である。この図11において、ユーザ1の発話に関して、その発話の終了(終端)がタイムアウト開始ポイントとなる。しかし、ユーザ1の発話に関してタイムアウトとなる前に、ユーザ2の発話が開始されると、ユーザ1のタイムアウトがキャンセルされ、ユーザ2の発話の終了(終端)が新たなタイムアウト開始ポイントとなる。そのため、ユーザ1の発話とユーザ2の発話とは、ユーザ2の発話の終了(終端)からタイムアウトとなるまでは、いずれも未確定な状態におかれる。また、ユーザ3の発話の開始は、そのタイムアウト後であるので、ユーザ3の発話は、新たな発話として処理される。
 なお、上述では、発話入力の書き下し文が未確定の状態において、主導権を持つユーザがキャンセル処理を行い得るように説明したが、この状態において、各ユーザは文章の修正処理を行うことも可能とされる。この場合にあっても、文章の修正処理の最終的な確定は、主導権を持つユーザが行うようにすることができる。
 また、キャンセルや文章修正などの処理を行った場合には、例えば、その時点が新たなタイムアウト処理開始ポイントとされる。これにより、ユーザがキャンセルや文章修正などの処理を複数行う場合であっても、十分に余裕をもって処理することが可能となる。
 また、図12(a)~(b)を用いて、確定処理をする場合(一人で使う場合)について説明する。図12(a)は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る?」という認識された書き下し文が、未確定の状態で表示されている。この状態で、ママはクリア処理や文章の修正処理を行うことができる。
 そして、ママが「送信」の指示発話を行うことで、図12(b)に示すように、「今日何時に帰る?」という書き下し文が確定し、「今日何時に帰る?」というメッセージがパパに送信される。なお、図示の例では、「送信」の指示発話によって書き下し文の確定と、その送信を指示するものであるが、書き下し文の確定を例えば「確定」という指示発話を持って指示し、その後に「送信」の指示発話で送信を指示することも考えられる。
 次に、図13(a)~(c)を用いて、確定処理をする場合(複数人で使う場合)について説明する。図13(a)は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る?」という認識された書き下し文が、未確定の状態で表示されている。
 この状態で、図13(b)に示すように、子供(ゆうた)が「おもちゃを買ってきて」という発話を行った場合、その書き下し文が、未確定の状態で追加表示される。この状態で、主導権を持つママは、クリア処理や文章修正処理を行うことができる。なお、子供(ゆうた)も文章の修正処理を行うことができるが、主導権を持たないので、最終的な修正決定の処理はママが行うことになる。
 そして、主導権を持つママが「送信」の指示発話を行うことで、図13(c)に示すように、
「今日何時に帰る?(ママ) おもちゃ買ってきて(ゆうた)」という書き下し文が確定し、「今日何時に帰る? おもちゃ買ってきて(ゆうた)」というメッセージがパパに送信される。なお、図示の例では、「送信」の指示発話によって書き下し文の確定と、その送信を指示するものであるが、書き下し文の確定を例えば「確定」という指示発話を持って指示し、その後に「送信」の指示発話で送信を指示することも考えられる。
 次に、図14(a)~(c)を用いて、確定処理をする場合(複数人で使う場合でキャンセルする場合)について説明する。詳細説明は省略するが、図14(a),(b)は、図13(a),(b)と同じである。
 ディクテーションを開始したママは、主導権を持っており、図14(b)の状態で、「クリア」の指示発話をすることで、未確定部分をキャンセルできる。また、この場合、未確定部分に関して、キャンセルしたい部分を直接的に指定することも可能とされる。例えば、「おもちゃを買って来てクリア」、「おもちゃ以降をクリア」、「ゆうたの入力を消して」などの指示発話を行うことで、「おもちゃを買ってきて」の書き下し文のキャンセルが可能となる。図14(c)は、「おもちゃを買ってきて」の書き下し文がキャンセルされた状態を示している。
 図15のフローチャートは、情報処理装置100の制御部101におけるディクテーションモード処理(図2のステップST5参照)の手順の一例を示している。なお、ユーザ識別、つまり発話ユーザの識別処理に関しては、別の処理フローで、常に行われているものとする。
 まず、制御部101は、ステップST11において、ディクテーションモード処理を開始する。次に、制御部101は、ステップST12において、開始発話ユーザに主導権を付与する。次に、制御部101は、ステップST13において、発話があるか否かを判断する。
 発話があるとき、制御部101は、ステップST14において、修正指示発話であるか否かを判断する。修正指示発話であるとき、制御部101は、ステップST15において、書き下し文に対する修正処理を行い、その後に、ステップST13の処理に戻る。
 修正指示発話でないとき、制御部101は、ステップST16において、修正指示以外のその他の指示発話、つまり「クリア」、「確定」、「登録」、「送信」、「修正」などの指示発話か否かを判断する。その他の指示発話でないとき、制御部101は、ステップST17において、発話に対応した書き下し文をディスプレイ107に表示し、その後、ステップST13の処理に戻る。
 ステップST16でその他の指示発話であるとき、制御部101は、ステップST18において、発話ユーザは、主導権付与者か否かを判断する。発話ユーザが主導権付与者でないとき、その他の指示発話は無効であるとして、制御部101は、ステップST13の処理に戻る。
 ステップST18で発話ユーザが主導権付与者であるとき、制御部101は、ステップST19において、指示が確定(送信、登録等)であるか否かを判断する。指示が確定(送信、登録等)でないときは、制御部101は、ステップST20において、確定(送信、登録等)以外の処理を行い、その後に、ステップST13の処理に戻る。
 一方、指示が確定(送信、登録等)であるときは、制御部101は、ステップST21において、確定(送信、登録等)の処理を行い、その後、ステップST22において、一連の処理を終了する。
 複数ユーザが別のタスクを実行したい場合について説明する。この場合、情報処理装置100は、ドメイン(インテント)とスロット(エンティティ)が同じ場合は、交互の発話と見なして処理をする。ここで、ドメインは、例えば、メッセージ送信、カレンダー登録、ToDo登録などを意味する。また、スロットは、例えば、メッセージ送信のドメインの場合は宛先などを意味し、カレンダー登録の場合は月日などを意味し、ToDo登録の場合は対象者などを意味する。従って、ドメインとスロットが同じ場合とは、メッセージ送信の場合のあて名が同じ、カレンダー登録の場合の月日が同じ、ToDo登録の場合の対象者が同じ、などが該当する。
 なお、スロットが異なる場合であっても、ドメインが同じで、かつ表示が可能な場合、情報処理装置100は、同一画面上で実行する。また、ドメインが異なる場合、情報処理装置100は、画面を分割するか、掲示的に処理をするか、さらには分割表示できないドメインに関しては音声出力で代用して実行する。例えば、ママの「パパにメッセージを送って」という発話に基づくメッセージ送信のタスクと子供の「天気見せて」という発話に基づく依頼タスクを実行する場合、メッセージ送信のタスクは画面上で実行するが、天気に関しては音声で子供に伝えることが考えられる。
 書き下し文の変換候補について説明する。上述したように、ディクテーションモード処理においては、ディクテーションの発話の書き下し文の表示がなされる。この場合、誤認識の言い直しのための変換候補を表示することが行われる。
 変換候補の出し方について述べる。基本としては、表記ゆれ(例えば、漢字にするかひらがなのままか、漢数字か算用数字を使うかなど)の候補より、類似音候補が優先される。これは、表記ゆれに関しては、それがあったとしても意味が通じるからである。なお、表記ゆれにこだわりのあるユーザに関しては、表記ゆれ候補を提示することも考えられる。また、子供のユーザに関しては、ひらがな候補だけにすることも考えられる。表記ゆれにこだわりのあるユーザか否かは、そのユーザの人物属性データベースに基づいて判断してもよく、あるいは過去のそのユーザの修正履歴情報に基づいて判断してもよい。また、子供のユーザか否かは、ユーザ認識結果に基づいて判断できる。
 変換候補の出し方は、発話ユーザ毎に、履歴が活用されて提示される。この場合、対象ユーザの履歴に類似音候補がない場合は、家族等の他のユーザの履歴を参照することも考えられる。この場合、過去の対象ユーザの発話入力文の中から、あるいは過去の他のユーザが使った文の中から、発話と類似するものが候補として提示される。また、この場合、コンテクト、つまり場所、時間、状況等に合った候補が優先して提示される。
 次に、修正時の指定の仕方について述べる。同じ発話が入力されたときは、その発話部分が誤認識であったと判断して、前とは異なる変換候補に変更する。例えば、1回目の発話が「夕飯食べる」で2回目の発話(修正発話)が「夕飯食べる」である場合、1回目の書き下し文が「夕飯食べる」であったとき、2回目の書き下し文は、1回目とは異なる、例えば「夕飯食べる?」と修正される。
 また、「○○じゃなくて××」との修正発話があった場合、書き下し文の「○○」の該当部分が「××」に修正される。例えば、「夕飯食べる?」の発話入力に対して、認識された書き下し文が「ゆうは食べる」であった場合を例として考える。この場合、「ゆうはじゃなくて夕飯」との修正発話があった場合、「ゆうは」の部分が「夕飯」に修正される。
 また、書き下し分の修正は、変換候補のみの言い直し、あるいは変換候補の番号の指定などで行われる。例えば、「夕飯食べる?」の発話入力に対して、認識された書き下し文が「ゆうは食べる」であった場合を例として考える。この場合、「夕飯」との修正発話があった場合、「夕飯食べる」に修正される。
 また、あるユーザの発話による書き下し文に関して、他のユーザによる言い直しも、あるユーザによる言い直しと同等に処理される。これにより、あるユーザの音声では入りにくい場合、他の家族が言い直してあげることが可能となる。
 長い文章を交互に入れる場合の修正について説明する。この場合、入力済みの文章修正が可能とされる。つまり、あるユーザが次の文章を入力中に、他のユーザが以前の分を直すことが可能とされる。この場合、発話と既に入力されている文が比較され、類似度が一定比率以上の場合、修正文の入力と見なされて、変更される。この場合、変更された部分が修正者以外、例えば次の文章を入力中のユーザにも分かるように、変更部分が示されるようにされてもよい。
 また、この場合、あるユーザが入力した文章の修正を他のユーザが行うことも可能とされる。この場合、発話と既に入力されている文が比較され、類似度が一定比率以上の場合、修正文の入力と見なされ、あるユーザによる確認になされた後に、その修正が確定される。これにより、あるユーザの文章の修正が他のユーザにより勝手に修正されることが防止される。
 図16は、複数ユーザが文章を交互に入力する場合のシーケンスの一例を示している。ここでは、複数ユーザはユーザ1とユーザ2の2ユーザである。最初に、ユーザ1による「活動計画書を作成」という発話入力によって、活動計画書を作成するためのディクテーションモード処理が開始され、書き下し文としての「活動計画」が表示される。
 次に、ユーザ1の「今年度は、文化際と市民祭りへの参加が大きな活動になります。」という発話入力によって、それに対応した書き下し文が追加される。次に、ユーザ2の「予算的には、総額35万円を計上しています。」という発話入力によって、それに対応した書き下し文が追加される。
 次に、ユーザ2の「予算的、以降を削除」という指示発話の入力に応じて、書き下し文の中から、予算的以降の文章が削除される。この場合、削除されたことがユーザ1に分かるようにされる(ハッチング部分参照)。次に、ユーザ2の「予算は、総額35万円となっています。」という発話入力によって、それに対応した書き下し文が追加される。この場合、ユーザ1に追加部分が分かるように、その追加部分の色が他とは異なるように表示される。
 図17は、上述の図16で示すように入力された文章を修正する場合のシーケンスの一例を示している。最初に、ユーザ1の「文化際じゃなくて市民文化際」という修正指示の発話入力によって、「文化際」の部分が「市民文化際」に修正される。この場合、修正部分がユーザ2にも分かるように、その修正部分の色が他とは異なるように表示される。なお、図17では、白黒の図面であることから、色の違いは表れていない。以下においても同様である。
 次に、ユーザ2の「市民祭りのステージ発表」という修正指示の発話によって、「市民祭り」の部分が「市民祭りのステージ発表」に修正される。この場合も、修正部分がユーザ1にも分かるように、その修正部分の色が他とは異なるように表示される。この場合、自分以外のユーザの入力部分を直すものであり、より目立つようにされる。
 次に、遠隔地、または共同執筆していない第三者の「18年度計画」とう発話入力によって、「活動計画」の部分が「18年度活動計画」に修正される。この場合、第三者がユーザの入力部分を直すものであり、より目立つようにされる。なお、この目立ちは例えば特別な色にするとかであるが、図17では、白黒の図面であることから、色の違いは表れていない。
 複数人で行う場合の他のモダリティの活用について説明する。指示語・位置の利用について説明する。例えば、発話ユーザのいる位置を基準に、「真ん中のに変更」などの発話に応じた変換候補を選択して修正を行うことが考えられる。また、例えば、それぞれのユーザの立っている位置を検出して、「これ」と言ったら相対的に近くの変換候補を選択し、「あれ」と言ったら相対的に遠くの変換候補が選択して修正を行うことが考えられる。
 手、ジェスチャー、視線の利用について説明する。指さし、またはタッチ等で変換候補を指示しながら、「これに修正」、「これに変更」などと発話をすることで、指示された変換候補による修正が行われる。
 また、発話とタッチなどを混在させて、変換候補を選択して修正を行うことが行われる。例えば、ユーザの「帰りに、柔軟剤買って来て」の発話入力に対して、認識された書き下し文が「帰りに十万回買って来て」であって、(1)十万、(2)柔軟剤、(3)十何歳の変換候補が提示された場合を考える。この場合、2度目の発話を「帰りに((2)をタッチ)買って来て」の発話をするか、「帰りに(2)買って来て」のようにすることで、変換候補として(2)柔軟剤を選択した修正が行われる。
 なお、複数ユーザで発話を行うときは、変換候補を現在発話しているユーザの付近に出して、見やすくかつタッチし易くすることが考えられる。また、書き下し文において、ユーザの視線が滞留している部分に関する変換候補だけを提示することで、ユーザの変換候補の選択を精度よく行い得るようにすることが考えられる。
 図18(a)は、ユーザの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文が「帰りに風鈴買って来て」であって、画面水平方向に、「釣り」、「プリン」、「プリント」の変換候補がこの順序で並べて提示されている例である。そして、この例は、その状態で、ユーザが「真ん中のに変更」という発話を行った場合を示している。この場合、「プリン」の変換候補が選択されて、「風鈴」の部分が「プリン」に修正される。
 図18(b)は、ユーザの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文が「帰りに風鈴買って来て」であって、画面水平方向に、「釣り」、「プリン」、「プリント」の変換候補がこの順序で並べて提示されている例である。そして、この例は、その状態で、ユーザが「プリン」の選択候補の提示部分をタッチして、「これに変更」の発話を行った場合の例である。この場合も、「プリン」の変換候補が選択されて、「風鈴」の部分が「プリン」に修正される。
 図18(c)は、ユーザの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文が「帰りに風鈴買って来て」であって、画面水平方向に、「釣り」、「プリン」、「プリント」の変換候補がこの順序で並べて提示されている例である。そして、この例は、その状態で、ユーザが「プリン」の選択候補の提示部分を指さして、「これに変更」の発話を行った場合の例である。この場合も、「プリン」の変換候補が選択されて、「風鈴」の部分が「プリン」に修正される。
 図19は、ユーザAの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文「帰りに風鈴買って来て」が表示されている。また、ユーザBの「アイスもほしい」の発話入力に対して、認識された書き下し文「アイスもほしい」が表示されている。ユーザAの発話入力に係る「帰りに風鈴買って来て」の書き下し文における変換候補は、ユーザAの近くに表示される。一方、ユーザBの発話入力に係る「アイスほしい」の書き下し文における変換候補が、ユーザBの近くに表示される。
 なお、各ユーザの発話の書き下し文を修正する変換候補を、画面表示ではなく、音声で与えることも考えらえる。その場合にあっても、その音声を与えるべきユーザのみに聞こえるような音声で出すことも可能である。
 図20は、ユーザAの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文「帰りに風鈴買って来て」が表示されている。この場合、ユーザの視線が「風鈴」の部分(ハッチングを付して示している)に滞留されていることが検知されることで、この「風鈴」の部分に係る変換候補が提示される。図示の例においては、「釣り」、「プリン」、「プリント」が提示されている。なお、滞留だけでなく、誤認識部分と修正したい候補の間を交互に見るなどの視線移動を検知してもよい。
 表示領域による制御について説明する。表示領域がある程度取れる場合には、変換候補として候補の差分を強調して、全文を表示することが考えられる。また、表示領域が小さい場合には、変更が生じる部分だけを表示することが考えられる。さらに、例えば、表示がない場合には、音声で復唱し、変更部分だけ修正すると、修正したものを復唱するということが考えられる。なお、表示がない場合として、例えば、時計型、イヤホン型などのウェラブルデバイスが該当する。
 以上説明したように、図1に示す情報処理装置100においては、ディクテーションモード処理において、ディクテーションを開始したユーザに主導権が与えられ、当該主導権が与えられたユーザのみが、「クリア」、「確定」、「登録」、「送信」などの指示を行うことができる。そのため、主導権が付与されたユーザは、ディクテーションの発話の書き下し文に係る指示を良好に行うことができ、例えば、複数人でメッセージを作成する環境にあっても、主導権のあるユーザは意図通りにメッセージを作成して送信することが可能となる。
 <2.変形例>
 なお、上述実施の形態では、依頼発話モードとディクテーションモードについて述べたが、発話から依頼部分とディクテーション部分を識別して、適宜入力を行う混在モードも考えられる。
 また、上述実施の形態においては、ディクテーションを行う場合の例として、メッセージ送信、カレンダー登録およびTodo登録を行う場合を示した(図6参照)。しかし、これに限定されるものではなく、その他にも、考えられる。例えば、日記等の文書作成、写真や動画へのメタデータ付与、任意のメモの作成などである。
 なお、上述の実施の形態においては、ユーザの発話により入力をする例を示したが、タッチやジェスチャーなどで入力していく場合にも、先に入力したユーザに主導権を付与することが考えられる。これにより、タッチやジェスチャーなどで入力していく場合であっても、ディクテーションを開始したユーザに主導権を付与することができ、主導権を付与されたユーザは確定操作などを行うことができる。
 また、上述していないが、メッセージ送信、カレンダー登録などのアプリ別に、共同編集者のリストを持たせておくことも考えられる。このようにリストを持たせておくことで、例えば、特定のユーザが編集に関わることを回避することが可能となる。
 また、上述していないが、ディクテーションモード処理における書き下し文の追加、修正等の編集処理においてUndo機能を持たせるようにしてもよい。これにより、追加、クリア、修正等の編集処理を効率的に行うことが可能となる。
 また、上述していないが、ディクテーションモード処理において、特定のユーザ、例えば子供の発話を無視するようにすることも考えられる。これにより、いたずらなど不要な発話による書き下し文の追加などを回避できる。
 また、上述実施の形態においては、ディクテーションを開始したユーザが主導権を持つようにしたが、この主導権をディクテーションの途中で別のユーザに渡すことを可能とすることが考えられる。これにより、ディクテーションを開始したユーザが何等かの都合により途中で退席する場合であっても、主導権を渡されたユーザがディクテーションを完了させることが可能となる。
 また、上述実施の形態においては、ディクテーションを開始したユーザが主導権を持つようにしたが、ディクテーションを開始時に主導権を持つユーザを決めるのではなく、必要となったときに、主導権を持つユーザを決めるようにしてもよい。
 また、上述していないが、アプリによっては、どの発話はどのユーザが行ったものであるかを残しておくようにしてもよい。これにより、それぞれのユーザの発話に対応した書き下し文に色を付けたり、アイコンや記号、名前表示などを行って、発話をしたユーザが識別可能な状態とすることが可能となる。
 また、上述していないが、書き下し文をクリアしたときに、ユーザ名でフィルタできるようにしてもよい。例えば、「○○の発言はクリア」等である。これにより、いちいちクリアする文章を指定する手間を省くことができる。
 また、上述実施の形態においては、ディクテーションを行う複数のユーザは人間で構成されるが、この複数のユーザの一部にAI(artificial intelligence)機器が含まれていてもよい。
 また、上述していないが、ディクテーションの発話の書き下し文をクリアした際には、例えば、半透明状態等にして、一定時間残しておくことも考えられる。これにより、クリアした内容を確認でき、誤ってクリアした場合に容易にもとに戻すことが可能となる。
 また、上述していないが、発話による入力において、予め設定されたNGワードに関しては、書き下されないようにフィルタリングされてもよい。この場合、NGワードは、ユーザ毎に設定することも考えられる。
 また、上述していないが、主導権のあるユーザの発話による書き下し文は強調して表示するようにされてもよい。これにより、主導権のあるユーザの発話による書き下し文であることを容易に認識でき、また誰が主導権を持っているかを把握することが可能となる。
 また、上述していないが、主導権のあるユーザの発話と他のユーザの発話とが重複した場合に、主導権のあるユーザの発話に係る書き下し文を先に表示し、他のユーザの発話に係る書き下し文をその後に表示するようにされてもよい。
 また、上述していないが、主導権のあるユーザの発話に係る書き下し文の表示位置に、他のユーザの発話に係る書き下し文がマージされるようにされてもよい。これにより、いずれのユーザが主導権を持っているかを容易に知ることができる。
 図21は、マージ動作の一例を示している。最初に、ユーザ1による「活動計画書を作成」という発話入力によって、活動計画書を作成するためのディクテーションモード処理が開始され、書き下し文としての「活動計画」が表示される。次に、ユーザ1の「今年度は、文化際と市民祭りへの参加が大きな活動になります。」という発話入力によって、それに対応した書き下し文が追加される。
 次に、ユーザ2の「予算的には、総額35万円を計上しています。」という発話入力によって、それに対応した書き下し文が追加される。この場合、「活動計画 今年度は、文化際と市民祭りへの参加が大きな活動になります。」の文章に、「予算的には、総額35万円を計上しています。」の文章が、画面上ではアニメーション的にマージされていく。
 また、本技術は、以下のような構成を取ることもできる。
 (1)ディクテーションの発話の書き下し文の表示を制御する表示制御部と、
 所定のユーザに主導権を付与する付与部と、
 上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する編集制御部を備える
 情報処理装置。
 (2)上記表示制御部は、上記発話の書き下し文を、発話したユーザが識別可能な状態で表示する
 前記(1)に記載の情報処理装置。
 (3)上記表示制御部は、上記発話の書き下し文を、確定するまで、非確定状態で表示する
 前記(1)または(2)に記載の情報処理装置。
 (4)上記発話の書き下し文は、タイムアウトまたは確定処理により確定される
 前記(3)に記載の情報処理装置。
 (5)上記付与部は、上記ディクテーションを開始したユーザに上記主導権を付与する
 前記(1)から(4)のいずれかに記載の情報処理装置。
 (6)上記付与部は、上記ディクテーションを開始したユーザが所定の属性であるときは、上記主導権を付与しない
 前記(5)に記載の情報処理装置。
 (7)上記付与部は、上記ディクテーションを開始したユーザが所定の年齢以下であるときは、上記主導権を付与しない
 前記(6)に記載の情報処理装置。
 (8)上記付与部は、上記発話の書き下し文を送信する相手に応じて、上記ディクテーションを開始したユーザが上記所定の年齢以下であっても上記主導権を付与する
 前記(7)に記載の情報処理装置。
 (9)ディクテーションの発話の書き下し文の表示を制御する手順と、
 所定のユーザに主導権を付与する手順と、
 上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する手順を有する
 情報処理方法。
 100・・・情報処理装置
 101・・・制御部
 102・・・入出力インタフェース
 103・・・操作入力デバイス
 104・・・カメラ
 105・・・マイク
 106・・・スピーカ
 107・・・ディスプレイ
 108・・・ユーザ認識部
 109・・・音声認識部
 110・・・通信インタフェース
 111・・・意味解析ガイドデータベース
 112・・・ディクテーションガイドデータベース
 113・・・バス

Claims (9)

  1.  ディクテーションの発話の書き下し文の表示を制御する表示制御部と、
     所定のユーザに主導権を付与する付与部と、
     上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する編集制御部を備える
     情報処理装置。
  2.  上記表示制御部は、上記発話の書き下し文を、発話したユーザが識別可能な状態で表示する
     請求項1に記載の情報処理装置。
  3.  上記表示制御部は、上記発話の書き下し文を、確定するまで、非確定状態で表示する
     請求項1に記載の情報処理装置。
  4.  上記発話の書き下し文は、タイムアウトまたは確定処理により確定される
     請求項3に記載の情報処理装置。
  5.  上記付与部は、上記ディクテーションを開始したユーザに上記主導権を付与する
     請求項1に記載の情報処理装置。
  6.  上記付与部は、上記ディクテーションを開始したユーザが所定の属性であるときは、上記主導権を付与しない
     請求項5に記載の情報処理装置。
  7.  上記付与部は、上記ディクテーションを開始したユーザが所定の年齢以下であるときは、上記主導権を付与しない
     請求項6に記載の情報処理装置。
  8.  上記付与部は、上記発話の書き下し文を送信する相手に応じて、上記ディクテーションを開始したユーザが上記所定の年齢以下であっても上記主導権を付与する
     請求項7に記載の情報処理装置。
  9.  ディクテーションの発話の書き下し文の表示を制御する手順と、
     所定のユーザに主導権を付与する手順と、
     上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する手順を有する
     情報処理方法。
PCT/JP2019/029716 2018-08-10 2019-07-29 情報処理装置および情報処理方法 WO2020031781A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/265,796 US20210166698A1 (en) 2018-08-10 2019-07-29 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018150961 2018-08-10
JP2018-150961 2018-08-10

Publications (1)

Publication Number Publication Date
WO2020031781A1 true WO2020031781A1 (ja) 2020-02-13

Family

ID=69415193

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/029716 WO2020031781A1 (ja) 2018-08-10 2019-07-29 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US20210166698A1 (ja)
WO (1) WO2020031781A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278671A (ja) * 2001-03-16 2002-09-27 Just Syst Corp 文字列変換装置、文字列変換方法およびその方法をコンピュータに実行させるプログラム
WO2013128508A1 (ja) * 2012-02-27 2013-09-06 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、音声入力方法及びプログラム
JP2015011621A (ja) * 2013-07-01 2015-01-19 シャープ株式会社 会話処理装置、制御方法、制御プログラム、および記録媒体
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243545A1 (en) * 2003-05-29 2004-12-02 Dictaphone Corporation Systems and methods utilizing natural language medical records
US20100169092A1 (en) * 2008-11-26 2010-07-01 Backes Steven J Voice interface ocx
US20150142434A1 (en) * 2013-11-20 2015-05-21 David Wittich Illustrated Story Creation System and Device
US10257314B2 (en) * 2016-06-22 2019-04-09 Microsoft Technology Licensing, Llc End-to-end user experiences with a digital assistant
US20180060088A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc Group Interactions
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR102388539B1 (ko) * 2017-04-30 2022-04-20 삼성전자주식회사 사용자 발화를 처리하는 전자 장치
US20190057189A1 (en) * 2017-08-17 2019-02-21 Innovative World Solutions, LLC Alert and Response Integration System, Device, and Process
KR102428782B1 (ko) * 2017-12-29 2022-08-03 엘지전자 주식회사 세탁기 및 세탁기의 동작방법
US20190235831A1 (en) * 2018-01-31 2019-08-01 Amazon Technologies, Inc. User input processing restriction in a speech processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278671A (ja) * 2001-03-16 2002-09-27 Just Syst Corp 文字列変換装置、文字列変換方法およびその方法をコンピュータに実行させるプログラム
WO2013128508A1 (ja) * 2012-02-27 2013-09-06 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、音声入力方法及びプログラム
JP2015011621A (ja) * 2013-07-01 2015-01-19 シャープ株式会社 会話処理装置、制御方法、制御プログラム、および記録媒体
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム

Also Published As

Publication number Publication date
US20210166698A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
US11670289B2 (en) Multi-command single utterance input method
US11475898B2 (en) Low-latency multi-speaker speech recognition
AU2020201464B2 (en) Systems and methods for integrating third party services with a digital assistant
US11544458B2 (en) Automatic grammar detection and correction
US20190213999A1 (en) Multi-directional dialog
KR101888801B1 (ko) 음성 작동형 문서 탐색 및 브라우징을 위한 디바이스, 방법 및 사용자 인터페이스
EP4004719B1 (en) Ambiguity resolution with dialogue search history
DK201670539A1 (en) Dictation that allows editing
KR20190005194A (ko) 메시지 분류에 기반한 메시지 교환 스레드의 자동화된 증대
CN112867985A (zh) 确定在中断第二会话的中止后是否自动恢复第一自动助理会话
KR20240007261A (ko) 자동화된 어시스턴트 응답(들) 생성에 대규모 언어 모델 사용
da Silva et al. How do illiterate people interact with an intelligent voice assistant?
US20240055017A1 (en) Multiple state digital assistant for continuous dialog
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
WO2020031781A1 (ja) 情報処理装置および情報処理方法
JP7341111B2 (ja) 会話支援装置、会話支援システム、会話支援方法およびプログラム
US11924150B2 (en) System(s) and method(s) for enabling a representative associated with an entity to modify a trained voice bot associated with the entity
US20240185856A1 (en) Gaze based dictation
WO2023034497A2 (en) Gaze based dictation
CN117136405A (zh) 使用大型语言模型生成自动化助理响应

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19846085

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19846085

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP