WO2004034279A2 - 文章生成装置 - Google Patents

文章生成装置 Download PDF

Info

Publication number
WO2004034279A2
WO2004034279A2 PCT/JP2003/012867 JP0312867W WO2004034279A2 WO 2004034279 A2 WO2004034279 A2 WO 2004034279A2 JP 0312867 W JP0312867 W JP 0312867W WO 2004034279 A2 WO2004034279 A2 WO 2004034279A2
Authority
WO
WIPO (PCT)
Prior art keywords
information
sentence
text
input
time
Prior art date
Application number
PCT/JP2003/012867
Other languages
English (en)
French (fr)
Inventor
Eiji Noguchi
Hiroshi Yamamoto
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Publication of WO2004034279A2 publication Critical patent/WO2004034279A2/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Definitions

  • the present invention relates to a sentence generation device for automatically generating a sentence embedded in a doll or a robot capable of interacting with a human, for example.
  • FIG. 9 is an explanatory diagram of Table 110 for table lookup used by the conventional text generation device.
  • a technique called a table lookup has been used in a text generating apparatus, and a text has been generated in the form of a table in which an output corresponding to information input in advance is stored in a table.
  • a conventional sentence generator for generating a response sentence to a question sentence generates a response sentence related to a subject, a predicate, a time, a place, and the like as shown in Table 110.
  • the input for this is generated in advance from a question sentence (for example, see Japanese Patent Application Laid-Open No. H10-190842).
  • the response text was generated by the programmer describing all the state transitions in advance with respect to the input for generating the response text on the generated subject, predicate, time, location, and the like.
  • the programmer must describe all the state transitions in advance for the input for generating the response text.
  • the present invention has been made in consideration of the above-described conventional problems, and provides, for example, a text generation apparatus that can generate a response text that is not monotonous and that allows a user who interacts with the text to feel more enjoyable. It is the purpose.
  • the first aspect of the present invention uses two or more pieces of information among subject information, predicate information, time information, and location information to obtain a plurality of text candidates to be output to the outside.
  • a text preparation method for preparing individual texts
  • a sentence selecting means for selecting one sentence to be output to the outside from the plurality of created sentences.
  • a second aspect of the present invention is the text generating apparatus according to the first aspect of the present invention, wherein the text generating means generates the plurality of texts such that the arrangement order of the two or more pieces of information is different.
  • a text creation database storing text creation data to be used for the text creation
  • a text generation device further comprising a text selection database storing text selection data to be used for selecting the text.
  • a fourth aspect of the present invention is the text generating apparatus according to the first aspect, wherein the two or more pieces of information are input using characters and / or voice.
  • the fifth invention further includes a current time information obtaining means for obtaining current time information on the current time,
  • the creation of the text is performed using the obtained time information as the information relating to the time. Device.
  • the sixth invention further includes a history information storage unit that stores history information regarding the history of the selection of the sentence,
  • the sentence selection device according to any one of the first to fourth inventions, wherein the selection of the sentence is performed in consideration of the stored history information.
  • the seventh invention further comprises an environmental information obtaining means for obtaining environmental information on the surrounding environment,
  • the text is created by adding the obtained environment information.
  • the text generation device according to any one of the present invention.
  • An eighth aspect of the present invention provides a candidate output unit that outputs a candidate for each of the two or more pieces of information to be used to the outside,
  • a text generating apparatus further comprising first information determining means for determining the ⁇ information based on an instruction input from the outside.
  • the sentence to be output to the outside is a response to an utterance input from the outside
  • a tenth aspect of the present invention is a mouth pot including the sentence generating apparatus according to the ninth aspect of the present invention, and a housing having a predetermined outer shape and incorporating the sentence generating apparatus.
  • the utterance is an utterance uttered by a user using voice
  • the response is a response issued to the user using voice.
  • the twelfth aspect of the present invention uses two or more of information on a subject, information on a predicate, information on time, and information on a place to generate a plurality of candidates for sentences to be output to the outside.
  • a sentence creating step of creating a plurality of sentences as candidates for a sentence to be output to a sentence, and a sentence selection of selecting one sentence to be output to the outside from the plurality of created sentences Is a program for causing a computer to execute the steps.
  • a fourteenth aspect of the present invention is a recording medium carrying the program of the thirteenth aspect of the present invention, which is a recording medium that can be processed by a computer.
  • FIG. 1 is a block diagram of a text generation device according to a first embodiment of the present invention.
  • FIG. 2 is a block diagram of a text generation device according to a second embodiment of the present invention.
  • FIG. 3 is a block diagram of a text generation device according to a third embodiment of the present invention.
  • FIG. 4 is a block diagram of a text generation device according to a fourth embodiment of the present invention.
  • FIG. 5 is an explanatory diagram of data processing of the text generation device according to the first embodiment of the present invention.
  • FIG. 6 is an explanatory diagram of data processing of the text generation device according to the second embodiment of the present invention.
  • FIG. 7 is an explanatory diagram of data processing of the text generation device according to the third embodiment of the present invention.
  • FIG. 8 is an explanatory diagram of data processing of a sentence 'generation device according to a fourth embodiment of the present invention.
  • FIG. 9 is an explanatory diagram of a table lookup table 110 used by a conventional text generation device.
  • FIG. 10 is a block diagram of a text generation device according to a fifth embodiment of the present invention.
  • FIG. 11 is an external view of a text generation device according to a sixth embodiment of the present invention.
  • FIG. 12 is an explanatory diagram of the usage status of the text generation device according to the fifth embodiment of the present invention.
  • FIG. 13 is an explanatory diagram of the usage status of the robot according to the seventh embodiment of the present invention.
  • Time input means Location input means 0 5 Text preparation method
  • FIG. 1 is a block diagram of the text generation apparatus according to the first embodiment of the present invention.
  • 100 is, for example, a simple selection method composed of a selection menu capable of presenting a word expressing the subject in the menu and a cross cursor, and a PDA of the PDA.
  • This is a character input means that can input characters by selecting a list of words displayed on the screen using a pen.
  • Reference numeral 101 denotes a subject input unit that can input subject information from character string information output from the character input unit 100.
  • Reference numeral 102 denotes a predicate input unit that can input predicate information from character string information output from the character input unit 100.
  • Reference numeral 103 denotes a time input unit that can input time information from character string information output from the character input unit 100.
  • Reference numeral 104 denotes a location input unit that can input location information from character string information output from the character input unit 100.
  • 105 is, for example, the word “I” representing the subject inputted by the subject input means 101, the word “go” representing the predicate inputted by the predicate input means 102, and the time input means 103 From the time entered by "now” and the location input means 104 "there” and the sentence corresponding to those inputs "Sorry, I will go there now” etc. I can do it.
  • Reference numeral 106 denotes a dictionary database that stores, for example, grammar information, background information, fixed phrases, and the like, necessary for creating sentences.
  • 107 is a sentence candidate created by the sentence creation means 105 referring to the dictionary database 106, for example, "I'm going there now", “I'm going there now” This is a sentence selection method that selects the most suitable sentence from one or more candidates.
  • Reference numeral 108 denotes a grammar rule database that stores grammar information that is used as a reference when selecting a candidate by the text selection unit 107.
  • Reference numeral 109 denotes an output sentence from the sentence selection means 107.
  • characters such as Japanese and English are input, and the subject, predicate, time, and location, which are the components of the sentence, are specified, and the order is randomly generated based on the information.
  • the sentence database consider the connection information between words, order information, grammar information, idiom expressions, etc., and generate sentences.
  • the Japanese will be the subject first and the predicate last considering the word order. Are stored in the dictionary database.
  • one sentence can be output from the input characters.
  • the subject is determined from the data string 700 that reads "subject: me, predicate: go, time: now, place: usual place", and the subject data "01" is entered into the subject input means 101. assign.
  • predicate data 720 of “go” is assigned to the predicate input means 102.
  • time is determined from the data string 700, and time data 703 “now” is assigned to the time input means 103.
  • the location is determined from the data string 700, and the location data 704 of "usual location" is assigned to the location input means 104.
  • a sentence candidate is assembled (by changing the order of words constituting the created sentence, etc.), and a generated character string candidate 705 is created.
  • the candidates for the text creation means 105 are narrowed down, and at the same time, the connection relations such as particles are expressed. Attach the word and output candidate 706.
  • the sentence selection means 107 in accordance with the rule for determining whether or not the text has been generated in the past determines the final output. As described above, in the present embodiment, it is possible to automatically generate a corresponding sentence for a character input by the character input unit 100.
  • SW switch
  • the user inputs characters using a touch sensor, SW, keyboard, etc., specifies the subject, predicate, time, and place, which are the components of the sentence, among them, and uses that information to create a sentence database.
  • a sentence may be generated in consideration of connection information between words, order information, grammar information, idiom expression, and the like.
  • the voice uttered by the user may be converted to a character string and characters may be input.
  • the location may be specified, and a sentence may be generated from the sentence database by considering connection information between words, order information, grammar information, idiom expression, and the like based on the information.
  • sentences can be selected in the following priority order (I go here. I go now.
  • the word-to-word distance between two words is defined as the number of words contained between the two words.
  • the inter-word distance between the subject and the predicate is 2, 1, 1, 0, 0, 0 in order.
  • Sentences with the same inter-word distance between the subject and the predicate are selected with the same probability.
  • a plurality of candidate sentences by selecting a sentence in accordance with certain rules that are, c can generate one sentence from the inputted character for example, "subject precedes predicate, and time First, randomly select a group of sentences that meet a certain criterion, such as "A place precedes the place.” Then, from the second time on, the sentences selected in the past are memorized, and the sentences that have not been selected in the past (for example, from a sentence group having the above-mentioned six sentences) are randomly selected and presented. .
  • a certain rules that are, c can generate one sentence from the inputted character for example, "subject precedes predicate, and time First, randomly select a group of sentences that meet a certain criterion, such as "A place precedes the place.” Then, from the second time on, the sentences selected in the past are memorized, and the sentences that have not been selected in the past (for example, from a sentence group having the above-mentioned six sentences) are randomly selected and presented.
  • the word order is different from the word order in normal Japanese, such as "I go now so there", and people who speak Japanese as their native language are listening, There may be sentences that make you feel. However, humans can become mechanical and boring if they always talk in the right sentences that make sense.
  • the word order is similar to the word order in English, such as "I'm going here now", and people who have learned English have heard, It may also include curiosity. In this way, strange sentences sometimes included can be felt fresh.
  • the sentence generation device is implemented in a robot or the like for interacting with the elderly, a desirable effect is expected that the elderly will laugh because they are strange sentences.
  • FIG. 2 is a block diagram of the text generation apparatus according to the second embodiment of the present invention.
  • 200 is, for example, a simple selection method composed of a selection menu that presents the word expressing the subject in the menu and a crosshair cursor, or displayed on the screen using a pen like a PDA It is a character input means that can input characters by selecting a list of words.
  • Reference numeral 201 denotes a subject input unit capable of inputting subject information from character string information output from the character input unit 200.
  • Reference numeral 202 denotes a predicate input unit capable of inputting predicate information from character string information output from the character input unit 200.
  • Reference numeral 203 denotes a time input unit capable of inputting time information from character string information output from the character input unit 200.
  • Reference numeral 204 denotes a location input unit capable of inputting location information from character string information output from the character input unit 200.
  • the word “I” representing the subject input by the subject input means 201 is, for example, the word “I” representing the subject input by the subject input means 201, the word “go” representing the predicate input by the predicate input means 202, and the time input means 200 3 Time entered by "now" and location input means
  • a sentence creation method that creates a sentence corresponding to those inputs from the place entered by 204, such as "I'll go there now.” It is.
  • Reference numeral 206 denotes a dictionary database that stores, for example, grammar information, background information, fixed phrases, and the like necessary for creating sentences.
  • Reference numeral 210 denotes time information obtaining means for presenting time information to the text creating means 205.
  • Reference numeral 208 denotes a grammar rule database storing grammar information that is used as a reference when selecting a candidate by the sentence selection means 207.
  • Reference numeral 209 denotes an output sentence from the sentence selection means 207.
  • characters such as Japanese and English are input, and the subject, predicate, time, and place, which are the components of the sentence, are specified therein, and words are exchanged from the sentence database based on the information.
  • connection information For the connection information, order information, grammar information, idiom expression, etc., and generate sentences.
  • one sentence can be output from the input characters c
  • a grammar check was performed and a certain criterion was met
  • a rule that presents sentences that were not selected in the past may be used.
  • a sentence is generated based on the characters input in this manner.
  • data 800 as shown in FIG. 6, which is an explanatory diagram of the data processing of the text generating apparatus according to the second embodiment of the present invention, is input from character input means 200.
  • the subject is determined from the data sequence 800 of "subject: me, predicate: go, time: now, place: usual place", and the subject data 8001 of "me” is input to the subject input means 201. assign.
  • a predicate is determined from the data sequence, and the predicate data 802 of “go” is assigned to the predicate input means 202.
  • the time is determined from the data sequence for the data sequence 800, and the time data 8003 "now" is assigned to the time input means 203.
  • a predicate is determined from the data sequence, and the location data 804 of "usual location" is assigned to the location input means 204.
  • sentence creation means 205 Based on text, assemble sentences and generate strings Create candidate 800.
  • candidates of the sentence creating means 205 are narrowed by deleting data combinations that are impossible in terms of grammar using the dictionary database 206.
  • words representing connection relations such as particles are attached, and the time information obtained from the time information obtaining means 210 is added, and a generated sentence candidate with time information 806 is output.
  • the sentence selection means 207 determines the final output 209 from among the generated sentence candidates 806 with time information according to, for example, a rule for determining whether or not the sentence has been generated in the past.
  • the current time and the like are reflected in the text of the character input by the character input unit 200, and the corresponding text is automatically generated. It is possible to do.
  • FIG. 3 is a block diagram of the text generation apparatus according to the third embodiment of the present invention.
  • 300 is a simple selection method consisting of a selection menu that presents the word expressing the subject in the menu and a crosshair cursor, or displayed on the screen using a pen like a PDA.
  • This is a character input means that allows you to input characters by selecting a list of words.
  • Reference numeral 301 denotes a subject input unit that can input subject information from character string information output from the character input unit 300.
  • Reference numeral 302 denotes a predicate input unit that can input predicate information from character string information output from the character input unit 300.
  • Reference numeral 303 denotes a time input unit that can input time information from character string information output from the character input unit 300.
  • Reference numeral 304 denotes a location input unit that can input location information from character string information output from the character input unit 300.
  • 3 0 5 is, for example, a word “I” representing the subject input by the subject input means 3 0 1, a word “Go” representing the predicate input by the predicate input means 3 0 2, and a time input means 3 0 From the time entered by 3 (now) and the location entered by the location input means 3 0 4 (there), create a sentence corresponding to those inputs, such as "I will go there now.” This is a way to create sentences.
  • Reference numeral 36 denotes a dictionary database that stores, for example, grammar information, background information, fixed phrases, and the like necessary for creating sentences.
  • Reference numeral 310 denotes a creation storage device that presents past sentence generation information to the sentence creation means 30.5.
  • Reference numeral 308 denotes a grammar rule database in which the grammar selection means 307 stores grammatical information used as a reference when selecting a catch.
  • Reference numeral 309 denotes a sentence output from the sentence selection means 307.
  • characters such as Japanese and English are input, and the subject, predicate, time, and place, which are the components of the sentence, are specified therein, and words are exchanged from the sentence database based on the information.
  • connection information For the connection information, order information, grammar information, idiom expression, etc., and generate sentences.
  • the rules are dictated so that the subject comes first and the predicate comes last. According to the rules stored in the database, a sentence such as "I will go there now” is created.
  • a log of sentences created in the past is stored, and for example, for that word, the location of the word "that" is identified from the past logs to make the sentence easier to understand. It can be.
  • data 900 as shown in FIG. 7, which is an explanatory diagram of the data processing of the text generating apparatus according to the third embodiment of the present invention, is input from character input means 300.
  • the subject is determined from the data column 900 of "subject: me, predicate: go, time: now, place: usual place", and the subject data 9 01 of "me” is input to the subject input means 310. assign.
  • predicate data 902 of “go” is assigned to the predicate input means 302.
  • the time is determined from the data string 900, and the time data 903 named "now J is assigned to the time input means 303.
  • the location is determined from the data string 900, and the location data 904 called “usual location” is assigned to the location input means 304.
  • sentence creation means 300 Based on the data composed of subject input means 301, predicate input means 302, time input means 303, and place input means 304, sentence creation means 300 based on the composition order and connection information Based on, the sentence candidates are assembled, and the generated character string candidate 905 is output.
  • candidates of the sentence creation means 300 are narrowed down by deleting data combinations of combinations that are impossible in terms of grammar by using the dictionary database 300.
  • the sentence selection means 307 makes a decision, and determines a final output sentence 309.
  • FIG. 4 is a block diagram of the text generation apparatus according to the fourth embodiment of the present invention.
  • 400 is a simple selection method consisting of a selection menu that presents a word expressing the subject in the menu and a cross cursor, and a word displayed on the screen using a pen like a PDA.
  • This is a character input means that allows you to enter characters by selecting a list from the list.
  • Reference numeral 401 denotes a subject input unit that can input subject information from character string information output from the character input unit 400.
  • Reference numeral 402 denotes a predicate input unit that can input predicate information from character string information output from the character input unit 400.
  • Reference numeral 4003 denotes a time input unit capable of inputting time information from character string information output from the character input unit 400.
  • Numeral 404 denotes a location input unit that can input location information from character string information output from the character input unit 400.
  • Reference numeral 406 denotes a dictionary database that stores, for example, grammar information, background information, fixed phrases, and the like necessary for creating sentences.
  • Reference numeral 410 denotes a sensor information acquisition unit that senses the situation of various users and the environment in addition to the text creation unit 405.
  • a thermometer or the like is mounted to sense the user's body temperature.
  • 4 0 7 is a sentence candidate created by the sentence creation means 4 0 5 with reference to the dictionary database 4 0 6, for example, “I am going to a hospital now”, “I am going to a hospital now” It is a sentence selection method that selects the most suitable sentence from one or more candidates.
  • Reference numeral 408 denotes a grammar 'rule database in which the grammar selection means 407 stores grammatical information used as a reference when selecting candidates.
  • Reference numeral 409 denotes a sentence output from the sentence selection means 407.
  • characters such as Japanese and English are input, and the subject, predicate, time, and place, which are the components of the sentence, are specified therein, and words are exchanged from the sentence database based on the information.
  • connection information For the connection information, order information, grammar information, idiom expression, etc., and generate sentences.
  • the user's situation and surrounding environment are acquired by a sensor, and based on the information, for example, when the body temperature is high, a sentence such as “because of heat” can be added to the sentence.
  • a set of information such as the predicate “go” and the place “hospital”
  • the sentence generation device is gentler to the user, easier to understand, and boring because of the advantages of easier understanding of the sentence, the benefits of the spread of the parities, and the like, as compared with the conventional sentence generation device. It is possible to generate a sentence with no difficulty.
  • predicate is determined from the data sequence 100 0 0, and predicate data 1 0 2 of “go” is assigned to the predicate input means 4 02.
  • time is determined from the data string 100 00, and time data 100 3 of “now” is assigned to the time input means 400 3.
  • the location is determined from the data string 10000, and the location data 1004 of "hospital” is assigned to the location input means 4104.
  • Subject input means 410 predicate input means 402, time input means 400, field Input means.
  • Sentence creation means 4 0 5 Based on the data composed of 4 4 4 4 S, texts are assembled based on the composition order and connection information, and generated character string candidates 1 0 5 are created. I do.
  • candidates of the sentence creation means 405 are narrowed by deleting data combinations of combinations that are impossible in terms of grammar by using the dictionary database 406.
  • the information obtained by the sensor information acquisition means 410 such as information indicating that the body temperature is 38 degrees high, is added to the generated sentence candidate 1006, and the output sentence 409 is already selected with sensor information.
  • Generated sentence 1 0 0 7 It is finally created as a sentence such as "I have a fever, so I am going to a hospital now.”
  • FIG. 10 is a block diagram of the text generation apparatus according to the fifth embodiment of the present invention.
  • 1200 is, for example, a person who can utter a voice (mainly the elderly). '
  • Reference numeral 1201 denotes a sound acquisition unit which is configured by, for example, a device such as a microphone in order to capture a voice uttered by the person 1200, and converts vibration in the air into an electric signal.
  • Reference numeral 122 denotes voice recognition means for inputting the electric signal of the voice of the person 1200 obtained by the voice obtaining means 122 and converting the uttered content into a character string.
  • Numeral 1203 is a word selecting means for selecting a basic word for synthesizing a conversation based on the word recognized by the voice recognizing means 122.
  • the utterance based on the utterance (question) input from the outside, it is used for the utterance that may be input to determine information such as subject information, predicate information, time information, and location information to be used.
  • a table is registered that contains a set of words used as subject information, predicate information, time information, location information, and the like corresponding to such words.
  • Reference numeral 1204 denotes character input means for receiving subject information, predicate information, time information, and location information selected by the word selection means 122.
  • Reference numeral 125 denotes a speech database (A) storing speech data to be recognized by the speech recognition means 122.
  • Reference numeral 1206 denotes a voice database (B) storing words to be selected by the word selection means 1203. Next, the operation of the text generating apparatus according to the present embodiment will be described.
  • a voice uttered by a human is acquired, and the voice is recognized, a response word suitable for the recognized word is selected, and a plurality of sentences are generated from the word by prioritizing. You.
  • FIG. 10 is a block diagram of the text generation apparatus according to the fifth embodiment of the present invention
  • a text obtained by human 1 201 converts it into an electric signal.
  • the speech recognizing means 122 refers to the speech database (A) 125 to recognize whether or not a word that triggers a dialogue has been uttered.
  • the target device has a robot-like shape like a dot, and its functions and the like cannot be understood from the appearance and the like.
  • the speech recognition means 122 refers to the speech database (A) 125, and can judge that it should respond to the word.
  • the word selection means 1203 selects a word suitable for generating a response sentence from the voice database (B) 122.
  • the subject information is “I”
  • the predicate information is “Sing a nursery rhyme”
  • the time information is “Immediately”
  • the location information is “here”. Is selected and transmitted to the character input means 1 204.
  • the character input means 1 204 generates the text to which the robot should respond by using the input character information by using the means described in the first embodiment.
  • the sentence "I will sing a nursery rhyme now right now” is presented by text, a display device, or speech synthesis.
  • the word selecting means 122 3 outputs the subject information “(blank)”, the predicate information “sunny”, the time information “pm” Kara ”and location information“ Osaka region is ” Thus, the sentence “Osaka area is sunny from the afternoon” can be generated in response to the person 1 200.
  • the subject information is "(blank)"
  • the predicate information is "is”
  • the time information is "5 o'clock”
  • the location information is "just now”. Can be generated.
  • FIG. 12 is an explanatory diagram of the usage status of the text generation device according to the fifth embodiment of the present invention.
  • the robot 1401 includes the housing 1402 having an external shape of an animal and incorporating the text generation device according to the above-described embodiment.
  • the question is then uttered by the person 1200 using voice, and the response is uttered to the person 1200 using voice.
  • the sound uttered by person 1200 It is possible to automatically generate a response sentence that can realize various dialogues in response to voice.
  • FIG. 11 is an external view of a text generation device according to Embodiment 6 of the present invention.
  • the mobile phone 1300 has a character input function used for creating an e-mail or the like. '
  • the display screen 1301 is configured by a liquid crystal device or the like capable of displaying electronic mail and Internet information transmitted / received to / from the mobile phone 1300.
  • the selection cursor 1302 is constituted by a shape such as an arrow and a display such as black-and-white inversion so that the user can know which word is selected on the display screen 1301.
  • the arrow key 1 3 0 3 is an input device for issuing an instruction to move the selection cursor 1 3 0 2, and when pressed up, down, left and right, the selection cursor 1 3 0 2 can be moved in that direction and the center Press the part to confirm the selected word.
  • the subject information, the predicate information, the time information, and the location information are selected by moving the cursor 1302 without inputting characters one by one. By doing so, sentences can be generated.
  • the selected words are input to, for example, the subject input unit 101, the predicate input unit 102, the time input unit 103, and the location input unit 104 in the above-described embodiment 1. Then, you can generate the sentence "Tomorrow, you meet before the ticket gate" without having to type every single character. As described above, in the present embodiment, a sentence can be easily generated without inputting one character at a time in a sentence input system such as a mobile phone.
  • FIG. 13 is an explanatory diagram of the usage status of the robot according to the seventh embodiment of the present invention.
  • 150.sub.0 is a person who can utter a voice, such as an elderly person.
  • Reference numeral 1501 denotes a person's hand or a tool or the like held by the hand.
  • Reference numeral 1502 denotes a mouth pot of the present embodiment provided with a text generation device (not shown) built in a character-shaped housing 1504.
  • 1503 is a sensor for detecting contact with the robot.
  • a voice uttered by a human is acquired, and by recognizing the voice, a response word suitable for the recognized word is selected, and a plurality of sentences are generated from the word with priorities.
  • FIG. 13 is a conceptual diagram of the sentence generation apparatus according to the seventh embodiment of the present invention
  • the robot 150 When talking to 502, use the hand or tool 1501 to stroke the sensor 1503 located on the head of the robot 1502 While vocalizing, it refers to the output of the sensor 1503, recognizes that it is touching, recognizes it, and outputs a voice saying "It hurts! If no contact is detected from the sensor 1503, synthesis is performed only by normal dialog generation.
  • an additional sound such as “stroke” or “please feel good” can be output.
  • an additional sound such as “Fun” or “Touch more” may be output.
  • the contact information and the like to the robot 1502 are detected by the sensor 1503 by the person 1500 and the response is changed according to the presence or absence of the sensor.
  • the response is changed according to the presence or absence of the sensor.
  • it is possible to automatically generate a response sentence that can realize various dialogues in real time.
  • the robot of the present invention is a character-type mouth pot (see FIG. 13) that appears in animation and the like.
  • the mouth pot of the present invention is not limited thereto, and may be a mechanic mouth pot, an android-type robot, a humanoid robot such as a mannequin or a doll, or a moving robot such as a pet.
  • the senor 1503 has been described as a sensor that detects contact, it may be a sensor that measures the outside air temperature, and when a certain temperature or more is detected, an additional sound such as "hot” is output. However, if the temperature is lower than a certain temperature, a sound such as “cold” or “hiyaa” may be added.
  • the senor 1503 was described as a sensor that detects contact, but it may be a sensor that measures the weather, and if it detects a sunny day, a sound saying “It's good weather” or “It seems to be hot” is added If the rain is detected, or if rain is detected, a sound such as "Rain is not good” or "Is laundry safe?" No.
  • the senor 1503 has been described as a sensor that detects contact, it may be a sensor that measures human physiological information, for example, a heart rate. It is also acceptable to add the sound of “throbbing” and output it.
  • the information on the subject, the information on the predicate, the information on the time, and the information on the place of the present invention were one word constituting the text to be created in the above-described embodiment.
  • the information on the subject of the present invention is not limited to this.
  • a sentence phrase consisting of two or more noun phrases with a modifier such as “red dragonfly” may be used.
  • the information about the predicate, the information about the time, and the information about the location may be a sentence of two or more words with a modifier and an adverb phrase.
  • the sentence creating means of the present invention is the sentence creating means 105, 205, 305, and 405, respectively.
  • the present invention is not limited to this.
  • the sentence selecting means of the present invention is the sentence selecting means 107, 207, 307, 407, respectively, but is not limited thereto. In short, any means may be used as long as it selects one sentence to be output from the plurality of created sentences.
  • the sentence creation database of the present invention is a dictionary database 106, 206, 303, 406 in the above-described embodiment, but is not limited thereto.
  • Sentences that should be used to create sentences Any means may be used as long as it accumulates data for ⁇ 3 ⁇ 4.
  • sentence selection database of the present invention is a grammar rule database 108, 208, 308, 408 in the above-described embodiment, but is not limited thereto.
  • any means may be used as long as the means for storing text selection data to be used for text selection.
  • the present time information obtaining means of the present invention is the time information obtaining means 210 in the above-described second embodiment, but is not limited to this.
  • the present time information regarding the current time is obtained. Any means may be used.
  • the text may be created by using the obtained time information as the time information.
  • the present time of the present invention relates to hours and minutes in Embodiment 2 described above, the present time is not limited to this, and may be related to days and hours, or may be related to years, months and days.
  • the history information storage unit of the present invention is the created log storage device 310 in the above-described third embodiment, but is not limited thereto.
  • the history information storage unit stores the history information relating to the history of the selection of the text. Should be fine. Of course, the selection of the sentence may be performed in consideration of the stored history information.
  • the environmental information obtaining means of the present invention is the sensor information obtaining means 410 in the above-described fourth embodiment, and the sensor 1503 in the above-described seventh embodiment, but is not limited thereto. In short, any means can be used to obtain environmental information about the surrounding environment. Needless to say, if two or more pieces of information have a predetermined relationship with the acquired environmental information, the acquired environmental information may be added.
  • the candidate output means of the present invention is the display screen 1301, in the above-described embodiment, but is not limited thereto.
  • each of the two or more pieces of information to be used is used. Any means for outputting information candidates to the outside may be used.
  • the first information determination means of the present invention is the arrow key 133 in the above-described embodiment, but is not limited to this. In short, each information determination means is based on an externally input instruction. Any means may be used as long as it determines information.
  • the second information determining means of the present invention is the word selecting means 123 in the above-described embodiment, but is not limited to this.
  • the sentence to be output to the outside is This is a response to an utterance input from outside.
  • Any means may be used to determine two or more pieces of information to be used based on the input utterance.
  • the program of the present invention is a program for causing a computer to execute all or some of the steps (or steps, operations, actions, and the like) of the above-described sentence generation method of the present invention. It is a program that works in cooperation.
  • the recording medium of the present invention is a computer-readable recording medium for causing a computer to execute all or a part of all or some of the steps (or steps, operations, actions, etc.) of the above-described sentence generation method of the present invention.
  • a recording medium carrying a program, the recording medium being readable by a computer and executing the operation in cooperation with the computer.
  • the “partial steps (or steps, operations, actions, etc.)” of the present invention means one or several of the plurality of steps.
  • step means the operation of all or part of the step.
  • One use form of the program of the present invention may be such that the program is recorded on a computer-readable recording medium and operates in cooperation with the computer.
  • One use form of the program of the present invention may be a form in which the program is transmitted through a transmission medium, read by a computer, and operates in cooperation with the computer.
  • the recording medium includes ROM and the like
  • the transmission medium includes a transmission medium such as the Internet, light, radio waves, and sound waves.
  • the computer of the present invention described above is not limited to pure hardware such as CPU, but may include firmware, OS, and peripheral devices.
  • the configuration of the present invention may be realized by software or hardware.
  • the present invention has an advantage that the generated response sentence does not become monotonous, and the user who interacts with the conversation can feel more enjoyable.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

明 細 書 文章生成装置 技術分野
本発明は、 たとえば、 人間と対話可能な人形やロボッ トに内蔵される 自動的に文章を生成するための文章生成装置に関するものである。 背景技術
はじめに、 従来の文章生成装置が利用するテーブルルックアップ用の 表 1 1 0 0の説明図である図 9を参照しながら、 従来の文章生成装置の 構成および動作について説明する。
従来、 文章生成装置には、 テーブルルックアップと言われる手法が用 いられており、 事前に入力される情報に対するァゥトプッ トをテーブル という形で持っておき文章を生成していた。
より具体的に述べると、 質問文章に対する応答文章を生成するための 従来の文章生成装置では、 表 1 1 0 0に示されているような主語、 述語 、 時間、 場所等に関する応答文章を生成するための入力は、 質問文章か らあらかじめ生成されている (たとえば特開平 1 0— 1 9 0 8 4 2号公 報参照) 。
ここに、 特開平 1 0— 1 9 0 8 4 2号公報の全ての開示は、 そっく り そのままここに引用 (参照) することにより、 一体化される。
そして、 その生成された主語、 述語、 時間、 場所等に関する応答文章 を生成するための入力についてプログラマが事前に状態遷移を全て記述 しておくことにより、 応答文章が生成されていた。 しかしながら、 このような従来の文章生成装置では、 応答文章を生成 するための入力についてプログラマが事前に状態遷移を全て記述してお かなければならない。
このため、 プログラミングの手間を考えると、 生成可能な文章のパリ エーションが限られてしまう。
結果的に、 生成される応答文章が単調になりがちであり、 対話を行う ユーザが楽しさを感じられないことがあるという課題があった。 発明の開示
本発明は、 上記従来のこのような課題を考慮し、 たとえば、 生成され る応答文章が単調にならず、 対話を行うユーザがより楽しさを感じるこ とができる文章生成装置を提供することを目的とするものである。
第 1の本発明は、 主語に関する情報、 述語に関する情報、 時間に関す る情報、 および場所に関する情報の内の二つ以上の情報を利用して、 外 部に出力されるべき文章の候補として複数個の文章を作成する文章作成 手段と、
前記作成された複数個の文章の内から前記外部に出力されるべき文章 を一つ選択する文章選択手段とを備えた文章生成装置である。
第 2の本発明は、 前記文章作成手段は、 前記二つ以上の情報の配列順 序が異なるように、 前記複数個の文章を作成する第 1の本発明の文章生 成装置である。
第 3の本発明は、 前記文章の作成に利用されるべき文章作成用データ を蓄積する文章作成用データベースと、
前記文章の選択に利用されるべき文章選択用データを蓄積する文章選 択用データベースとをさらに備えた第 1の本発明の文章生成装置である 第 4の本発明は、 前記二つ以上の情報は、 文字および/または音声を 利用して入力される第 1の本発明の文章生成装置である。
第 5の本発明は、 現在時刻に関する現在時刻情報を入手する現在時刻 情報入手手段をさらに備え、
前記文章の作成は、 前記時間に関する情報が前記現在時刻に関する場 合には、 前記入手された時刻情報を前記時間に関する情報として利用し て行われる第 1から 4の何れかの本発明の文章生成装置である。
第 6の本発明は、 前記文章の選択の履歴に関する履歴情報を記憶する 履歴情報記憶手段をさらに備え、
前記文章の選択は、 前記記憶されている履歴情報を考慮して行われる 第 1から 4の何れかの本発明の文章生成装置である。
第 7の本発明は、 周囲の環境に関する環境情報を入手する環境情報入 手手段をさらに備え、
前記文章の作成は、 前記二つ以上の情報が前記入手された環境情報と あらかじめ定められた所定の関係を有する場合には、 前記入手された環 境情報を付加して行われる第 1から 4の何れかの本発明の文章生成装置 である。
第 8の本発明は、 前記利用されるべき二つ以上の情報の内の各情報の 候補を外部に出力する候補出力手段と、
外部から入力された指示に基づいて、 前記^情報を決定する第 1の情 報決定手段とをさらに備えた第 1の本発明の文章生成装置である。
第 9の本発明は、 前記外部に出力されるべき文章は、 外部から入力さ れた発話に対する応答であり、
前記入力された発話に基づいて、 前記利用されるべき二つ以上の情報 を決定する第 2の情報決定手段をさらに備えた第 1の本発明の文章生成 装置である。 第 1 0の本発明は、 第 9の本発明の文章生成装置と、 前記文章生成装置を内蔵する、 所定の外形を有する筐体とを備えた口 ポットである。
第 1 1の本発明は、 前記発話は、 音声を利用してユーザによって発せ られる発話であり、
前記応答は、 音声を利用してユーザに対して発せられる応答である第
1 0の本発明のロボットである。
第 1 2の本発明は、 主語に関する情報、 述語に関する情報、 時間に関 する情報、 および場所に関する情報の内の二つ以上の情報を利用して、 外部に出力されるべき文章の候補として複数個の文章を作成する文章作 成ステップと、
前記作成され,た複数個の文章の内から前記外部に出力されるべき文章 を一つ選択する文章選択ステップとを備えた文章生成方法である。
第 1 3の本発明は、 第 1 2の本発明の文章生成方法の、 主語に関する 情報、 述語に関する情報、 時間に関する情報、 および場所に関する情報 の内の二つ以上の情報を利用して、 外部に出力されるべき文章の候補と して複数個の文章を作成する文章作成ステップと、 前記作成された複数 個の文章の内から前記外部に出力されるべき文章を一つ選択する文章選 択ステップとをコンピュータに実行させるためのプログラムである。 第 1 4の本発明は、 第 1 3の本発明のプログラムを担持した記録媒体 であって、 コンピュータにより処理可能な記録媒体である。 図面の簡単な説明
図 1は、 本発明にかかる実施の形態 1の文章生成装置のプロック図で ある。 図 2は、 本発明にかかる実施の形態 2の文章生成装置のプロック図で ある。
図 3は、 本発明にかかる実施の形態 3の文章生成装置のプロック図で ある。
図 4は、 本発明にかかる実施の形態 4の文章生成装置のプロック図で ある。
図 5は、 本発明にかかる実施の形態 1の文章生成装置のデータ処理の 説明図である。
図 6は、 本発明にかかる実施の形態 2の文章生成装置のデータ処理の 説明図である。
図 7は、 本発明にかかる実施の形態 3の文章生成装置のデータ処理の 説明図である。
図 8は、 本発明にかかる実施の形態 4の文章'生成装置のデータ処理の 説明図である。
図 9は、 従来の文章生成装置が利用するテーブルルックアップ用の表 1 1 0 0の説明図である。
図 1 0は、 本発明にかかる実施の形態 5の文章生成装置のブロック図 である。
図 1 1は、 本発明にかかる実施の形態 6の文章生成装置の外観図であ る。
図 1 2は、 本発明にかかる実施の形態 5の文章生成装置の利用状況の 説明図である。
図 1 3は、 本発明にかかる実施の形態 7のロボットの利用状況の説明 図である。
(符号の説明) 0 文字入力手段
1 主語入力手段
2 述語入力手段
3 時間入力手段
4 場所入力手段
5 文章作成手段
6 辞書データベース 7 文章選択手段
8 文法規則データベース 9 出力文章
0 文字入力手段
1 主語入力手段
2 述語入力手段
3 時間入力手段
4 場所入力手段
5 文章作成手段
6 辞書データベース 7 文章選択手段
8 文法規則データベース 9 出力文章
0 時刻情報入手手段
文字入力手段
1 主語入力手段
2 述語入力手段
時間入力手段 場所入力手段 0 5 文章作成手段
0 6 辞書データベース 0 7 文章選択手段
0 8 文法規則データベース 0 9 出力文章
1 0 作成ログ記憶装置 0 0 文字入力手段
0 1 主語入力手段
0 2 述語入力手段
0 3 時間入力手段
0 4 場所入力手段
0 5 文章作成手段
0 6 辞書データベース 0 7 文章選択手段
0 8 文法規則データベース 0 9 出力文章
1 0 センサ情報入手手段 0 0 入力文章
0 1 主語データ
0 2 述語データ
0 3 時間データ
4 場所データ
5 生成文字列候補
6 生成文章候補
0 入力文章
1 主語データ 8 0 2 述語データ
8 0 3 時間データ
8 04 場所データ
8 0 5 生成文字列候補
8 0 6 時刻情報付き生成文章候補
9 00 入力文章
90 1 主語データ
90 2 述語データ
9 0 3 時間データ
904 場所データ
90 5 生成文字列候補
9 0 6 生成文章候補
9 0 7 選択済み生成文章 '
90 8 文章生成記録ログ
1 000 データ列
1 00 1 主語データ
1 00 2 述語データ
1 00 3 時間データ
1 004 場所データ
1 00 5 生成文字列候補
1 00 6 生成文章候補
1 00 7 センサ情報付き選択済み生成文章
1 00 8 センサ情報
1 1 00 テーブルルックアップ用の表
1 200 人
1 20 1 音声取得手段 1 20 2 音声認識手段
1 20 3 単語選択手段
1 204 文字入力手段
1 20 5 音声データベース (A)
1 20 6 音声データベース (B)
1 300
1 3 0 1 表示画面
1 30 2 選択カーソル
1 30 3 矢印キー
1 40 1 ロボッ ト
1 500 人
1 50 1 手もしくは道具
1 50 2 口ボッ ト
1 50 3 センサ
1 504 発明を実施するための最良の形態
以下に、 本発明にかかる実施の形態について、 図面を参照しつつ説明 を行う。
(実施の形態 1)
はじめに、 本発明にかかる実施の形態 1の文章生成装置のプロック図 である図 1を主として参照しながら、 本実施の形態の文章生成装置の構 成について説明する。
1 00は、 例えば、 メニュー内に主語を表現する単語を提示できる選 択メニューと十字カーソルとで構成される簡易な選択方法や、 P D Aの ようにペンを使って画面上に表示されている単語の一覧を選択する方法 により、 文字を入力する事ができる文字入力手段である。
1 0 1は、 主語情報を、 文字入力手段 1 0 0からの出力である文字列 情報より入力する事ができる主語入力手段である。
1 0 2は、 述語情報を、 文字入力手段 1 0 0からの出力である文字列 情報より入力する事ができる述語入力手段である。
1 0 3は、 時間情報を、 文字入力手段 1 0 0からの出力である文字列 情報より入力する事ができる時間入力手段である。 1
1 0 4は、 場所情報を、 文字入力手段 1 0 0からの出力である文字列 情報より入力する事ができる場所入力手段である。
1 0 5は、 例えば、 主語入力手段 1 0 1により入力された主語を表す 単語 「私」 と述語入力手段 1 0 2により入力された述語を表す単語 「行 く」 と時間入力手段 1 0 3により入力された時間 「今」 と場所入力手段 1 0 4により入力された場所 「そちら」 とからそれらの入力に対応した 文章 「私は、 今からそちらに行きます」 などを作成する文章作成手段で める。
1 0 6は、 文章を作成するのに必要な、 例えば、 文法情報や背景情報 、 定型文等を蓄積している辞書データベースである。
1 0 7は、 文章作成手段 1 0 5が辞書データベース 1 0 6を参照して 作成した文章候補、 例えば、 「私は、 今からそちらに行きます」 、 「今 からそちらに行く」 のような 1つ以上の候補の中からもっとも適した文 章を選択する文章選択手段である。
1 0 8は、 文章選択手段 1 0 7が、 候補を選択する際に基準となる文 法情報を格納している文法規則データベースである。
1 0 9は、 文章選択手段 1 0 7からの出力文章である。
つぎに、 本実施の形態の文章生成装置の動作について説明する。 なお 、 本実施の形態の文章生成装置の動作について説明しながら、 本発明の 文章生成方法の一実施の形態についても説明する (以下の実施の形態に ついても同様である) 。
本実施の形態では、 日本語や英語などの文字を入力とし、 その中で文 章の構成要素である主語、 述語、 時間、 場所をそれぞれ特定し、 それら の情報を元に順序をランダムに生成するか、 もしくは、 文章データべ一 スから言葉同士の接続情報、 順序情報、 文法情報、 慣用句表現等を考慮 し、 文章を生成する。
例えば、 入力が主語 「私」 、 述語 「行く」 、 時間 「今」 、 場所 「そち ら」 とした場合に、 単語の順序を考慮して、 主語が最初、 述語が最後に 来るような日本語のルールを辞書データベースに蓄えておく。
そして、 そのルールに従って、 「私は、 今からそちらに行く」 という ような文寧を作成する。
この際に、 「今から、 私がそちらに行きます」 、 「私は、 そちらに今 行きます」 等の複数の候補が生成される (もちろん、 日本語では主語が 省略されることもあり、 「そちらに今から行きます」 等も生成されるこ とがある) 。
そこで、 主語と述語との間の距離を尺度として、 その距離に応じて優 先順をつけて文章を選択する事により、 入力された文字より一つの文章 を出力する事ができる。
例えば、 語順をランダムに並べ生成した、 主語が述語に先行するとい うルールを満たした文章群に対し、 二度目以降に同じ単語から文章を生 成する際には、 過去に選択されなかった文章を提示するルールを使う等 が挙げられる。
このようにして、 入力された文字を元に文章を生成する。
より具体的には、 本発明にかかる実施の形態 1の文章生成装置のデー タ処理の説明図である図 5に示されるようなデータ 7 0 0が、 文字入力 手段 1 0 0より入力された場合について説明する。
たとえば、 「主語:私、 述語:行く、 時間:今、 場所:いつもの所」 というデータ列 7 0 0から主語を判定し、 主語入力手段 1 0 1に 「私」 という主語データ 7 0 1を割り当てる。
同様に、 データ列 7 0 0から述語を判定し、 述語入力手段 1 0 2に 「 行く」 という述語データ 7 0 2を割り当てる。
同様に、 データ列 7 0 0から時間を判定し、 時間入力手段 1 0 3に 「 今」 という時間データ 7 0 3を割り当てる。
同様に、 データ列 7 0 0から場所を判定し、 場所入力手段 1 0 4に 「 いつもの所」 という場所データ 7 0 4を割り当てる。
主語入力手段 1 0 1、 述語入力手段 1 0 2、 時間入力手段 1 0 3、 場 所入力手段 1 0 4により構成されるデータを元に、 文章作成手段 1 0 5 力 その構成順位や接続情報を元に文章の候補を組み立て (作成される 文章を構成する単語の順序の入れ替えなどを行って) 、 生成文字列候補 7 0 5を作成する。
その際に、 辞書データベース 1 0 6により、 文法上あり得ない組み合 わせのデータの組み合わせを削除したりする事により文章作成手段 1 0 5の候補を絞り込むと同時に、 助詞などの接続関係を表す語句を付随さ せ、 候補 7 0 6を出力する。
その候補 7 0 6から、 例えば、 過去に生成したことがあるかどうかの 判断ルールに従った文章選択手段 1 0 7が最終的な出力を決定する。 以上のように、 本実施の形態では、 文字入力手段 1 0 0によって入力 された文字に対して、 対応する文章を自動的に生成することが可能とな る。
なお、 入力手段として使用者がタツチセンサや S W ( s w i t c h ) 、 キーボード等を使用して文字を入力してもよい。
すなわち、 使用者がタツチセンサや S W、 キーボード等を使用して文 字を入力し、 その中で文章の構成要素である主語、 述語、 時間、 場所を それぞれ特定し、 それらの情報を元に文章データベースから言葉同士の 接続情報、 順序情報、 文法情報、 慣用句表現等を考慮し、 文章を生成し てもよい。
また、 使用者が発声した音声を文字列に変換し文字を入力してもよい すなわち、 使用者が発声した音声を文字列に変換し、 その中で文章の 構成要素である主語、 述語、 時間、 場所をそれぞれ特定し、 それらの情 報を元に文章データベースから言葉同士の接続情報、 順序情報、 文法情 報、 慣用句表現等を考慮し、 文章を生成してもよい。
例えば、 主語 「私」 、 述語 「行く」 、 時間 「今」 、 場所 「そちら」 と した場合に、 全くランダムに全ての組み合わせだけ文章作成した場合、 (語順に関しては) 以下の 2 4通りが生成される。
私 行く 今 てちら
私 行く そちら 今
私 今 行く そちら
私 そちら 行く 今
私 今 そちら 行く
私 そちら 今 行く
行く 私 今 そちら
行く 私 そちら 今
今 私 行く てちら
そちら 私 行く 今
今 私 そちら 行く
そちら 私 今 行く 行く 今 私 そちら
行く そちら 私 今
今' 行く 私 そちら
そちら 行く 私 今
今 そちら 私 行く
そちら 今 私 行く
行く 今 そちら 私
行く そちら 今 私
今 行く そちら 私
そちら 行く 今 私
今 そちら 行く 私
そちら 今 行く 私
この中から、 選択ルールとして、 主語が述語に先行し、 かつ、 時間は 場所に先行するものを考慮すると、 以下の 6通りとなる。
私 行く 今 そちら
私 今 行く そちら
私 今 てちら 行く
今 私 行く そちら
今 私 てちら 行く
今 そちら 私 行く
さらに、 選択ルールに対して主語と述語との間の単語間距離から優先 順位をつけると以下のような優先順位にて文章を選択することができる ( 私 今 そちら 行く . 私 今 行く そちら
今 私 そちら 行く
私 行く 今 そちら 今 私 行く そちら ,
今 そちら 私 行く
ここに、 二つの単語の間の単語間距離は、 二つの単語の間に含まれる 単語の個数として定義される。 たとえば、 上述の 6通りの文章に関して は、 主語と述語との間の単語間距離は、 順に 2、 1、 1、 0、 0、 0で ¾>る。
なお、 主語と述語との間の単語間距離が同じ文章は、 同じ確率で選択 される。
このように複数の候補文章から、 ある一定のルールに従って文章を選 択する事により、 入力された文字より一つの文章を生成する事ができる c 例えば、 「主語が述語に先行し、 かつ、 時間は場所に先行する」 とい うような一定の基準を満たした文章群に対し、 最初はこの文章群からラ ンダムに選択する。 そして、 二度目以降は、 過去に選択された文章を記 憶しておき、 (たとえば、 上述の 6通りの文章を有する文章群から) 過 去に選択されなかった文章をランダムに選択 ·提示する。 このようなル ールを使う事により、 以前生成された文章との違いが得られ、 マンネリ 感を防ぐことができる。
なお、 このように生成された文章の中には、 「私 行く 今 そちら 」 のように、 語順が通常の日本語における語順とは異なり、 日本語を母 語とする人間が聞いていて、 違和感を感じさせる文章も含まれることが ある。 しかしながら、 人間は、 常に意味の通る正しい文章で対話してい ると、 機械的でつまらなくなってしまう可能性がある。
また、 このように生成された文章の中には、 「今 私 行く そちら 」 のように、 語順が英語における語順と類似しており、 英語を学習した ことがある人間が聞いていて、 知的好奇心を感じさせる文章も含まれる ことがある。 このように、 時々含まれるおかしな文章が、 新鮮に感じられることも める。
結果的に、 老人と対話するためのロボットなどに文章生成装置が実装 された場合には、 老人がおかしな文章であるが故に笑ってしまうという 望ましい効果も期待される。
, (実施の形態 2 )
はじめに、 本発明にかかる実施の形態 2の文章生成装置のブロック図 である図 2を主として参照しながら、 本実施の形態の文章生成装置の構 成について説明する。
2 0 0は、 例えば、 メニュー内に主語を表現する単語を提示する選択 メニューと十字力一ソルとで構成される簡易な選択方法や P D Aのよう にペンを使って画面上に表示されている単語の一覧を選択する方法によ り、 文字を入力する事ができる文字入力手段である。
2 0 1は、 主語情報を、 文字入力手段 2 0 0からの出力である文字列 情報より入力する事ができる主語入力手段である。
2 0 2は、 述語情報を、 文字入力手段 2 0 0からの出力である文字列 情報より入力する事ができる述語入力手段である。
2 0 3は、 時間情報を、 文字入力手段 2 0 0からの出力である文字列 情報より入力する事ができる時間入力手段である。
2 0 4は、 場所情報を、 文字入力手段 2 0 0からの出力である文字列 情報より入力する事ができる場所入力手段である。
2 0 5は、 例えば、 主語入力手段 2 0 1により入力された主語を表す 単語 「私」 と述語入力手段 2 0 2により入力された述語を表す単語 「行 く」 と時間入力手段 2 0 3により入力された時間 「今」 と場所入力手段
2 0 4により入力された場所 「そちら」 とからそれらの入力に対応し た文章 「私は、 今からそちらに行きます」 などを作成する文章作成手段 である。
2 0 6は、 文章を作成するのに必要な例えば文法情報や背景情報、 定 型文等を蓄積している辞書データベースである。
2 1 0は、 文章作成手段 2 0 5に対して、 時刻情報を提示する時刻情 報入手手段である。
2 0 7は、 文章作成手段 3 0 5が辞書デ タベース 2 0 6を参照して 作成した文章候補、 例えば、 「私は、 今からそちらに行きます」 、 「今 からそちらに行く」 のような 1つ以上の候補の中からもっとも適した文 章を選択する文章選択手段である。
2 0 8は、 文章選択手段 2 0 7が、 候補を選択する際に基準となる文 法情報を格納している文法規則データベースである。
2 0 9は、 文章選択手段 2 0 7からの出力文章である。
つぎに、 本実施の形態の文章生成装置の動作について説明する。
本実施の形態では、 日本語や英語などの文字を入力とし、 その中で文 章の構成要素である主語、 述語、 時間、 場所をそれぞれ特定し、 それら の情報を元に文章データベースから言葉同士の接続情報、 順序情報、 文 法情報、 慣用句表現等を考慮し、 文章を生成する。
例えば、 入力が主語 「私」 、 述語 「行く」 、 時間 「今」 、 場所 「そち ら」 とした場合に、 主語が最初、 述語が最後に来るというような日本語 のルールを辞書データベース 2 0 6に蓄えておきそのルールに従って、 「私は、 今からそちらに行く」 というような文章を作成する。
また、 現在時刻を考慮して、 「今」 を現在の時刻に変換したり、 時刻 によって挨拶を加えたりする等、 より理解しやすい文章にする事ができ る。
現在の.時刻が 1 0時の場合、 先の例では、 「おはようございます。 私 は、 1 0時からそちらに行く」 というようにより理解しやすい文章を生 成することができる。
また、 この際に、 「おはようございます。 1 0時から、 私がそちらに 行きます」 、 「私は、 そちらに 1 0時に行きます。 おはよう」 等が生成 される。 また、 日本語では主語が省略されることもあり 「そちらに今か ら行きます。 おはよう」 等も生成される。
このように複数の候補文章から、 ある一定のルールに従って文章を選 択する事により、 入力された文字より一つの文章を出力する事ができる c 例えば、 文法チェックを行い、 一定の基準を満たした文章群に対し、 二度目以降に同じ内容の質問があった際には、 過去に選択されなかった 文章を提示したりするルールを使う等が挙げられる。 このように入力さ れた文字を元に、 文章を生成する。
より具体的には、 本発明にかかる実施の形態 2の文章生成装置のデー タ処理の説明図である図 6に示されるようなデータ 8 0 0が、 文字入力 手段 2 0 0より入力された場合、 「主語:私、 述語:行く、 時間:今、 場所:いつもの所」 というデータ列 8 0 0から主語を判定し、 主語入力 手段 2 0 1に 「私」 という主語データ 8 0 1を割り当てる。
• 同様に、 データ列 8 0 0に対し、 そのデータ列から述語を判定し、 述 語入力手段 2 0 2に 「行く」 という述語データ 8 0 2を割り当てる。
同様に、 データ列 8 0 0に対し、 そのデータ列から時間を判定し、 時 間入力手段 2 0 3に 「今」 という時間データ 8 0 3を割り当てる。
同様に、 データ列 8 0 0に対し、 そのデータ列から述語を判定し、 場 所入力手段 2 0 4に 「いつもの所」 という場所データ 8 0 4を割り当て る。
主語入力手段 2 0 1、 述語入力手段 2 0 2、 時間入力手段 2 0 3、 場 所入力手段 2 0 4により構成されるデータを元に、 文章作成手段 2 0 5 力 その構成順位や接続情報を元に文章を候補を組み立て、 生成文字列 候補 8 0 5を作成する。
その際に、 辞書データベース 2 0 6により、 文法上あり得ない組み合 わせのデータの組み合わせを削除したりする事により文章作成手段 2 0 5の候補を絞り込む。 これと同時に、 助詞などの接続関係を表す語句を 付随させ、 さらに時刻情報入手手段 2 1 0から得られた時刻情報を付け 加え、 時刻情報付き生成文章候補 8 0 6を出力する。
文章選択手段 2 0 7は、 例えば、 過去に生成したことがあるかどうか の判断ルールに従い、 その時刻情報付き生成文章候補 8 0 6の内から最 終的な出力 2 0 9を決定する。
以上のように、 本実施の形態では、 文字入力手段 2 0 0によって入力 された文字に対して.、 現在の時刻等を文章中に反映させる等を行い、 対 応する文章を自動的に生成することが可能となる。
(実施の形態 3 )
はじめに、 本発明にかかる実施の形態 3の文章生成装置のプロック図 である図 3を主として参照しながら、 本実施の形態の文章生成装置の構 成について説明する。
3 0 0は、 例えば、 メニュー内に主語を表現する単語を提示する選択 メニューと十字力一ソルとで構成される簡易な選択方法や、 P D Aのよ うにペンを使って画面上に表示されている単語の一覧を選択する方法に より、 文字を入力する事ができる文字入力手段である。
3 0 1は、 主語情報を、 文字入力手段 3 0 0からの出力である文字列 情報より入力する事ができる主語入力手段である。
3 0 2は、 述語情報を、 文字入力手段 3 0 0からの出力である文字列 情報より入力する事ができる述語入力手段である。
3 0 3は、 時間情報を、 文字入力手段 3 0 0からの出力である文字列 情報より入力する事ができる時間入力手段である。 3 0 4は、 場所情報を、 文字入力手段 3 0 0からの出力である文字列 情報より入力する事ができる場所入力手段である。
3 0 5は、 例えば、 主語入力手段 3 0 1により入力された主語を表す 単語 「私」 と、 述語入力手段 3 0 2により入力された述語を表す単語 「 行く」 と、 時間入力手段 3 0 3により入力された時間 「今」 と、 場所入 力手段 3 0 4により入力された場所 「そちら」 とからそれらの入力に対 応した文章 「私は、 今からそちらに行きます」 などを作成する文章作成 手段である。
3 0 6は、 文章を作成するのに必要な例えば文法情報や背景情報、 定 型文-等を蓄積している辞書データベースである。
3 1 0は、 文章作成手段 3 0 5に対して、 過去の文章生成情報を提示 する作成口グ記憶装置である。
3 0 7'は、 文章作成手段 3 0 5が辞書データベース 3 0 6を参照して 作成した文章候補、 例えば、 「私は、 今からそちらに行きます」 、 「今 からそちらに行く」 のような 1つ以上の候捕の中からもつとも適した文 章を選択する文章選択手段である。
3 0 8は、 文章選択手段 3 0 7が、 候捕を選択する際に基準となる文 法情報を格納している文法規則データベースである。
3 0 9は、 文章選択手段 3 0 7からの出力文章である。
つぎに、 本実施の形態の文章生成装置の動作について説明する。
本実施の形態では、 日本語や英語などの文字を入力とし、 その中で文 章の構成要素である主語、 述語、 時間、 場所をそれぞれ特定し、 それら の情報を元に文章データベースから言葉同士の接続情報、 順序情報、 文 法情報、 慣用句表現等を考慮し、 文章を生成する。
例えば、 入力が主語 「私」 、 述語 「行く」 、 時間 「今」 、 場所 「そち ら」 とした場合に、 主語が最初、 述語が最後に来るようにルールを辞書 データベースに蓄えておきそのルールに従って、 「私は、 今からそちら に行く」 というような文章を作成する。
また、 過去に作成された文章のログを記憶しておき、 その情報から例 え,ば、 「そちら」 という単語に対して、 過去のログから、 その場所の特 定を行いより理解しやすい文章にする事ができる。
より具体的には、 本発明にかかる実施の形態 3の文章生成装置のデー タ処理の説明図である図 7に示されるようなデータ 9 0 0が、 文字入力 手段 3 0 0より入力された場合、 「主語:私、 述語:行く、 時間:今、 場所:いつもの所」 というデータ列 9 0 0から主語を判定し、 主語入力 手段 3 0 1に 「私」 という主語データ 9 0 1を割り当てる。
同様に、 データ列 9 0 0から述語を判定し、 述語入力手段 3 0 2に 「 行く」 という述語データ 9 0 2を割り当てる。
同様に、 データ列 9 0 0から時間を判定し、 時間入力手段 3 0 3に 「今 J という時間データ 9 0 3を割り当てる。
同様に、 データ列 9 0 0から場所を判定し、 場所入力手段 3 0 4に 「 いつもの所」 という場所データ 9 0 4を割り当てる。
主語入力手段 3 0 1、 述語入力手段 3 0 2、 時間入力手段 3 0 3、 場 所入力手段 3 0 4により構成されるデータを元に、 文章作成手段 3 0 5 力 その構成順位や接続情報を元に文章の候補を組み立て、 生成文字列 候補 9 0 5を出力する。'
その際に、 辞書データベース 3 0 6により、 文法上あり得ない組み合 わせのデータの組み合わせを削除したりする事により文章作成手段 3 0 5の候補を絞り込む。
これと同時に、 助詞などの接続関係を表す語句を付随させ、 生成文章 候補 9 0 6を出力する。
その生成文章候補 9 0 6から、 さらに作成ログ記憶装置 3 1 0から得 られた過去の記録情報により図面上でチヱックのついている文章生成記 録ログ 9 0 8を考慮し (出力文章にバリエーションをもたせるために、 過去に利用された出力文章を避けるようにして) 候補を絞り込む。
そして、 文章選択手段 3 0 7が判断を行い、 最終的な出力文章 3 0 9 を決定する。
以上のように、 本実施の形態では、 文字入力手段 3 0 0によって入力 された文字に対して、 過去の記録を参照した上で、 過去に生成した文章 を再出力しないでより新味のある文章を確実に生成することが可能とな る。
(実施の形態 4 )
はじめに、 本発明にかかる実施の形態 4の文章生成装置のプロック図 である図 4を主として参照しながら、 本実施の形態の文章生成装置の構 成について説明する。
4 0 0は、 例えば、 メュユー内に主語を表現する単語を提示する選択 メニューと十字カーソルとで構成される簡易な選択方法や、 P D Aのよ うにペンを使って画面上に表示されている単語の一覧を選択する方法に より、 文字を入力する事ができる文字入力手段である。
4 0 1は、 主語情報を、 文字入力手段 4 0 0からの出力である文字列 情報より入力する事ができる主語入力手段である。
4 0 2は、 述語情報を、 文字入力手段 4 0 0からの出力である文字列 情報より入力する事ができる述語入力手段である。
4 0 3は、 時間情報を、 文字入力手段 4 0 0からの出力である文字列 情報より入力する事ができる時間入力手段である。
4 0 4は、 場所情報を、 文字入力手段 4 0 0からの出力である文字列 情報より入力する事ができる場所入力手段である。
4 0 5は、 例えば、 主語入力手段 4 0 1により入力された主語を表す 単語 「私」 と述語入力手段 4 0 2により入力された述語を表す単語 「行 く」 と時間入力手段 4 0 3により入力された時間 「今」 と場所入力手段 4 0 4により入力された場所 「そちら」 とからそれらの入力に対応した 文章 「私は、 今からそちらに行きます」 などを作成する文章作成手段で ある。
4 0 6は、 文章を作成するのに必要な例えば文法情報や背景情報、 定 型文等を蓄積している辞書データベースである。
4 1 0は、 文章作成手段 4 0 5に対して、 各種ユーザの状況、 ならび に環境をセンシングするセンサ情報入手手段である。 たとえば、 本実施 の形態の文章生成装置を人形に内蔵する場合には、 ユーザの体温をセン シングするために温度計などが実装される。
4 0 7は、 文章作成手段 4 0 5が辞書データベース 4 0 6を参照して 作成した文章候補、 例えば、 「私は、 今から病院に行きます」 、 「今か ら病院に行く」 のような 1つ以上の候補の中からもっとも適した文章を 選択する文章選択手段である。
4 0 8は、 文章選択手段 4 0 7が、 候補を選択する際に基準となる文 法情報を格納している文法'規則データベースである。
4 0 9は、 文章選択手段 4 0 7からの出力文章である。
つぎに、 本実施の形態の文章生成装置の動作について説明する。
本実施の形態では、 日本語や英語などの文字を入力とし、 その中で文 章の構成要素である主語、 述語、 時間、 場所をそれぞれ特定し、 それら の情報を元に文章データベースから言葉同士の接続情報、 順序情報、 文 法情報、 慣用句表現等を考慮し、 文章を生成する。
例えば、 入力が主語 「私」 、 述語 「行く」 、 時間 「今」 、 場所 「病院 」 とした場合に、 主語が最初、 述語が最後に来るようなルールを辞書デ ータベースに蓄えておきそのルールに従って、 「私は、 今から病院に行 く」 というような文章を作成する。
また、 ユーザの状況や周りの環境をセンサにより取得し、 その情報を 元に例えば、 体温が高い場合に、 「熱があるので」 というようなフレー ズを追加する文章にする事ができる。
つまり、 たとえば、 述語 「行く」 、 場所 「病院」 のような情報の組は
、 3 7度以上の高い体温と意味的に高い相関性を有すると考えられる。 そこで、 これらの述語 「行く」 、 場所 「病院」 のような情報の組をあら かじめ登録しておく。 そして、 これらが入力され、 しかも 3 7度以上の 高い体温が取得された場合には、 情報 「熱があるので」 を付加して、 文 章の作成を行う。
本実施の形態の文章生成装置では、 従来の文章生成装置に比べて、 文 章の理解しやすさによるメリッ ト、 パリエーションの広がりよるメリッ ト等から、 ユーザにとってより優しく、 理解しやすく、 飽きのこない文 章を生成する事が可能となる。
より具体的には、 本発明にかかる実施の形態 4の文章生成装置のデー タ処理の説明図である図 8に示されるようなデータ列 1 0 0 0が、 文字 入力手段 4 0 0より入力された場合、 「主語:私、 述語:行く、 時間 : 今、 場所:病院」 というデータ列 1 0 0 0から主語を判定し、 主語入力 手段 4 0 1に 「私」 という主語データ 1 0 0 1を割り当てる。
同様に、 データ列 1 0 0 0から述語を判定し、 述語入力手段 4 0 2に 「行く」 という述語データ 1 0 0 2を割り当てる。
同様に、 データ列 1 0 0 0から時間を判定し、 時間入力手段 4 0 3に 「今」 という時間データ 1 0 0 3を割り当てる。
同様に、 データ列 1 0 0 0から場所を判定し、 場所入力手段 4 0 4に 「病院」 という場所データ 1 0 0 4を割り当てる。
主語入力手段 4 0 1、 述語入力手段 4 0 2、 時間入力手段 4 0 3、 場 所入力手段.4 0 4により構成されるデータを元に、 文章作成手段 4 0 5 力 S、 その構成順位や接続情報を元に文章を候補を組み立て、 生成文字列 候補 1 0 0 5を作成する。
その際に、 辞書データベース 4 0 6により、 文法上あり得ない組み合 わせのデータの組み合わせを削除したりする事により文章作成手段 4 0 5の候補を絞り込む。
これと同時に、 助詞などの接続関係を表す語句を付随させ、 生成文章 候補 1 0 0, 6を出力する。 .
例えば、 体温が 3 8度の高熱であるといった情報など、 センサ情報入 手手段 4 1 0が得た情報が生成文章候補 1 0 0 6に加味され、 出力文章 4 0 9がセンサ情報付き選択済み生成文章 1 0 0 7 「私は、 熱があるの で、 今から病院に行く」 のような文章として最終的に作成される。
(実施の形態 5 )
はじめに、 本発明にかかる実施の形態 5の文章生成装置のプロック図 である図 1 0を主として参照しながら、 本実施の形態の文章生成装置の 構成につ 、て説明する。
1 2 0 0は、 例えば音声を発声することができる人 (主として高齢者 ) である。'
. 1 2 0 1は、 人 1 2 0 0の発声する音声を取り込むために、 例えばマ ィクロホン等の素子で構成され、 空気中の振動を電気信号に変換する音 声取得手段である。
1 2 0 2は、 音声取得手段 1 2 0 1により得られた人 1 2 0 0の音声 の電気信号を入力し、 発声した内容を文字列に変換する音声認識手段で ある。
1 2 0 3は、 音声認識手段 1 2 0 2により認識された単語を基に、 対 話を合成するための基礎となる単語を選択する単語選択手段である。 なお、 外部から入力された発話 (質問) に基づいて、 利用されるべき 主語情報、 述語情報、 時間情報、 場所情報などの情報を決定するために 、 入力される可能性のある発話に使用される単語とそのような単語に対 応する主語情報、 述語情報、 時間情報、 場所情報などとして利用される 単語との組からなるテーブルを登録しておく。 実際に発話が入力された 際には、 その発話に使用されている単語に対応する、 主語情報、 述語情 報、 時間情報、 場所情報などとして利用されるべき単語を、 上述のテー ブルを見て選び出すわけである。
1 2 0 4は、 単語選択手段 1 2 0 3より選 れた主語情報、 述語情報 、 時間情報、 場所情報を受け取る文字入力手段である。
1 2 0 5は、 音声認識手段 1 2 0 2の認識対象となる音声のデータを 保管している音声データベース (A) である。
1 2 0 6は、 単語選択手段 1 2 0 3が選ぶべき単語を保存している音 声データベース (B ) である。 次に、 本実施の形態の文章生成装置の動作について説明する。
本実施の形態では、 人間が発声する音声を取得し、 その音声を認識す る事により、 認識単語にふさわしい応答単語を選択し、 その単語から複 数の文章を優先順位をつけて生成す.る。
より具体的には、 本発明にかかる実施の形態 5の文章生成装置のプロ ック図である図 1 0に示されるように、 人 1 2 0 0が音声として発声し た文章を音声取得手段 1 2 0 1が電気信号に変換する。
そして、 音声認識手段 1 2 0 2が、 音声データベース (A) 1 2 0 5 を参照し、 対話のきっかけとなる単語を発声したかどうかを認識する。 例えば、 対象となる装置がぺッ トのようなロポット形状をしており、 その機能等が外観等では分からない場合が考えられる。
そこで、 「何ができるの?」 という問いかけを人 1 2 0 0が行う可能 性があり、 それに対して、 音声認識手段 1 2 0 2は、 音声データベース (A) 1 2 0 5を参照し、 その単語に対して、 .応答すべきであると判断 できる。
音声認識手段 1 2 0 2の認識結果を受けて、 単語選択手段 1 2 0 3は 、 応答文章を生成するにふさわしい単語を音声データベース (B ) 1 2 0 6より、 選択する。
「何ができるの?」 と問いかけられた場合、 ロボット自身が 「童謡を 歌う」 、 「俳句を詠む」 、 「ダンスを踊る」 等を備えているとすると、 それらの機能のうちから任意の機能を抽出する。
例えば、 「童謡を歌う」 という機能を紹介するために、 主語情報とし て、 「私は」 、 述語情報として 「童謡を歌う」 、 時間情報として 「今す ぐ」 、 場所情報として 「ここで」 という単語を選択し、 文字入力手段 1 2 0 4に伝える。
文字入力手段 1 2 0 4は、 入力された文字情報を、 実施の形態 1に説 明されるような手段を用いてロボットが応答すべき文章を生成し、 最終 的に、 人 1 2 0 0に対して、 「私は今すぐここで童謡を歌う」 という文 章をテキストや表示装置、 もしくは、 音声合成により提示する。 かく し て、 人 1 2 0 0との対話を行うことが可能となる。
もちろん、 同じ質問 「何ができるの?」 が何度も発せられて、 主語情 報 「私は」 、 述語情報 「童謡を歌う」 、 時間情報 「今すぐ」 、 場所情報 「ここで」 が同じように選択されたとしても、 「ここで今すぐ私は童謡 を歌う」 等のように情報の配列順序が異なる応答を返すことも可能であ る。
また、 人 1 2 0 0が 「お天気は?」 と発声した場合、 例えば、 単語選 択手段 1 2 0 3は、 主語情報 「 (空白) 」 、 述語情報 「晴れです」 、 時 間情報 「午後から」 、 場所情報 「大阪地方は」 という単語を選択するこ とにより、 人 1 2 0 0に応答する文章 「大阪地方は午後から晴れです」 と生成することができる。
同様に 「お腹空いた」 と発声した場合、 主語情報 「ケーキが」 、 述語 情報 「あります」 、 時間情報 「今」 、 場所情報 「冷蔵庫の中に」 から、
「今、 冷蔵庫の中にケーキがあります」 と応答を生成するこ':とができる c
「今何時?」 と発声した場合、 主語情報 「 (空白) 」 、 述語情報 「で す」 、 時間情報 「5時」 、 場所情報 「ただ今」 から、 「ただ今、 5時で す。 」 と応答を生成することができる。
「おはよう」 と発声した場合、 主語情報 「僕は」 、 述語情報 「元気で す」 、 時間情報 「朝から」 、 場所情報 「 (空白) 」 から、 「僕は朝から 元気です」 と応答を生成することができる。
「寒いね」 と発声した場合、 主語情報 「 (空白) 」 、 述語情報 「寒い です」 、 時間情報 「朝」 、 場所情報 「外は」 から、 「朝外は寒いです」 と応答を生成することができる。
上記のような対話文章を自動的に生成することにより、 本発明にかか る実施の形態 5の文章生成装置の利用状況の説明図である図 1 2に示さ れているように、 人 1 2 0 0が口ポット (対話型ペットロボット) 1 4 0 1に対して会話を行うと、 「Q 1 :おはよう」 に対し 「A 1 :僕は朝 から元気です」 、 「Q 2 :今何時?」 に対し 「A 2 :ただ今 5時です」 、 「Q 3 :寒いね」 に対し 「A 3 :朝外は寒いです」 という流れのよう にリアルタイムで対話を行うことができる。
要するに、 本実施の形態のロボット 1 4 0 1は、 上述した実施の形態 の文章生成装置を内蔵する、 動物の外形を有する筐体 1 4 0 2とを備え ている。 そして、 質問が音声を利用して人 1 2 0 0によって発せられ、 応答が音声を利用して人 1 2 0 0に対して発せられるわけである。
以上のように、 本実施の形態では、 人 1 2 0 0によって発声された音 声に対して、 様々な対話を実現できる応答文を自動的にリアルタイムで 生成することが可能となる。
(実施の形態 6 )
図 1 1は、 本発明の実施の形態 6における文章生成装置の外観図であ る。
携帯電話 1 3 0 0は、 電子メール等の作成に利用される文字入力機能 を有している。 '
表示画面 1 3 0 1は、 携帯電話 1 3 0 0へ送受信される電子メールや インターネット情報を表示することができる液晶デバイス等で構成され ている。
選択カーソル 1 3 0 2は、 表示画面 1 3 0 1上において、 どの単語を 選択しているのかが分かるように矢印等の形状や白黒反転等の表示によ り構成されている。
矢印キー 1 3 0 3は、 選択カーソル 1 3 0 2を移動させる指示を出す ための入力デバイスで上下左右方向に押すとそちらの方向に選択カーソ ル 1 3 0 2を移動することができ、 中心部分を押すと選択した単語を確 定することができる。
かかる構成によれば、 電子メール等の文章を作成する際に、 文字を一 つづつ入力することなく、 主語情報、 述語情報、 時間情報、 場所情報を 選択カーソル 1 3 0 2を移動させ選択することにより、 文章を生成でき る。
例えば、 主語情報としては 「私は」 、 「僕は」 、 「俺は」 、 「あなた は」 、 「 (空白) 」 より 「あなたは」 を選択し、 述語情報としては 「行 く J 、 「来る」 、 「会う」 等より 「会う」 を選択し、 時間情報としては 「今」 、 「これから」 、 「明日」 、 「来週」 等より 「明日」 を選択し、 場所情報としては 「いつもの所」 、 「改札前」 、 「喫茶店」 、 「学校」 等より 「改札前」 を選択する。
すると、 選択されたこれらの単語は、 たとえば、 上述した本実施の形 態 1における主語入力手段 1 0 1、 述語入力手段 1 0 2、 時間入力手段 1 0 3、 場所入力手段 1 0 4に入力され、 「明日、 改札前であなたは会 う」 という文章を一文字づっ入力することなく生成することができる。 以上のように、 本実施の形態では、 携帯電話等の文章入力システムに おいて一文字づっ入力することなく簡便に文章を生成することが可能と なる。
(実施の形態 Ί )
はじめに、 本発明にかかる実施の形態 7のロボットの利用状況の説明図 である図 1 3を主として参照しながら、 本実施の形態のロボットの構成につ いて説明する。
1 5 0 0は、 例えば高齢者のように音声を発声することができる人である。 1 5 0 1は、 人 1 5 0 0の手もしくは手に持った道具等である。
そして、 1 5 0 2は、 キャラクター形状の筐体 1 5 0 4に内蔵された文章 生成装置 (図示省略) を備えた本実施の形態の口ポットである。
1 5 0 3は、 前記ロポットに対する接触を検知するセンサである。
次に、 本実施の形態のロポットの動作について説明する。
本実施の形態では、 人間が発声する音声を取得し、 その音声を認識する事 により、 認識単語にふさわしい応答単語を選択し、 その単語から複数の文章 を優先順位をつけて生成する。
その際に、 センサ 1 5 0 3からの入力を利用して応答文章を作成できる。 より具体的には、 本発明にかかる実施の形態 7の文章生成装置の概念図で ある図 1 3に示されるように人 1 5 0 0が音声として 「元気?」 と発声した 音声をロボット 1 5 0 2に話しかける時に、 手もしくは手に持った道具 1 5 0 1を用いて、 ロボット 1 5 0 2の頭部に設置されたセンサ 1 5 0 3を撫で ながら発声を行うと、 センサ 1 5 0 3の出力を参照して、 接触していること を認、識し、 「痛つ !」 という音声を追カ卩して出力する。 センサ 1 5 0 3から 接触が感知されない場合は、 通常の対話生成のみで合成する。
また、 これ以外にセンサ 1 5 0 3から接触が検知された場合は、 「撫で撫 で」 「頭が気持ちよい」 等の追加の音声を出力することもできる。
また、 逆にセンサ 1 5 0 3から接触が検知されない場合において、 「ふ一 ん」 「もっと触って J 等の追加音声を出力しても構わない。
以上のように、 本実施の形態では、 人 1 5 0 0によってロボット 1 5 0 2 に対する接触情報等をセンサ 1 5 0 3で検知し、 その有無に応じて応答を変 化させることにより、 発^された音声に対して、 様々な対話を実現できる応 答文を自動的にリアルタイムで生成することが可能となる。
なお、 本発明のロボットは、 本実施の形態においては、 アニメーションな どに登場するキャラクター型の口ポット (図 1 3参照) であった。 しかし、 本発明の口ポットは、 これに限らず、 メカニックな口ポット、 アンドロイド 型のロボット、 マネキン、 人形のような人型のロボット、 ペットのような動 物型のロボット等でもよい。 ただし、 ロボットに対話を行う機能が実装され ていることがー見して予想でき、 しかもユーザが対話を行ってみたくなるよ うな形状をロボットが有することが望ましい。
また、 センサ 1 5 0 3は、 接触を検知するセンサとして説明したが、 外気 温を計測するセンサでも構わず、 一定温度以上を検知した場合は、 「暑い」 という音声を追加して出力したり、 一定温度以下の場合は、 「寒い」 「ひや あ〜」 等という音声を追カ卩しても構わない。
また、 センサ 1 5 0 3は、 接触を検知するセンサとして説明したが、 天候 を計測するセンサでも構わず、 晴れを検知した場合は、 「いい天気だね」 「 暑くなりそうだ」 という音声を追加して出力したり、 雨を検知した場合は、 「雨はィャだね」 「洗濯物は大丈夫かな」 等という音声を追加しても構わな い。
また、 センサ 1 5 0 3は、 接触を検知するセンサとして説明したが、 人間 の生理情報、 例えば、 心拍数を計測するセンサでも構わず、 一定値以上の心 拍数の場合は、 「緊張しないで」 「ドキドキ」 という音声を追カ卩して出力し ても構わない。
以上においては、 実施の形態 1〜 7について詳細に説明した。
なお、 本発明の主語に関する情報、 述語に関する情報、 時間に関する 情報、 および場所に関する情報は、 上述した実施の形態においては、 作 成される文章を構成する 1語の単語であった。 しかしながら、 本発明の 主語に関する情報は、 これに限らず、 たとえば、 「赤いトンボ」 のよう に修飾語を伴う名詞句で 2語以上から構成される文章句であってもよレ、。
また、 述語に関する情報、 時間に関する情報、 場所に関する情報も、 修飾語 ·副詞句をともなった 2語以上の文章句であってもよい。
また、 本発明の文章作成手段は、 上述した実施の形態においては、 そ れぞれ文章作成手段 1 0 5、 2 0 5、 3 0 5、 4 0 5であったが、 これ に限らず、 要するに、 主語に関する情報、 述語に関する情報、 時間に関 する情報、 および場所に関する情報の内の二つ以上の情報を利用して、 外部に出力されるべき文章の候補として複数個の文章を作成する手段で あればよい。
また、 本発明の文章選択手段は、 上述した実施の形態においては、 そ れぞれ文章選択手段 1 0 7、 2 0 7、 3 0 7、 4 0 7であったが、 これ に限らず、 要するに、 作成された複数個の文章の内から外部に出力され るべき文章を一つ選択する手段であればよい。
また、 本発明の文章作成用データベースは、 上述した実施の形態にお いては、 それぞれ辞書データベース 1 0 6、 2 0 6、 3 0 6、 4 0 6で あつたが、 これに限らず、 要するに、 文章の作成に利用されるべき文章 作 β¾用データを蓄積する手段であればよい。
また、 本発明の文章選択用データベースは、 上述した実施の形態にお いては、 それぞれ文法規則データベース 1 0 8、 2 0 8、 3 0 8、 4 0 8であったが、 これに限らず、 要するに、 文章の選択に利用されるべき 文章選択用データを蓄積する手段であればよい。
また、 本発明の現在時刻情報入手手段は、 上述した実施の形態 2にお いては、 時刻情報入手手段 2 1 0であったが、 これに限らず、 要するに 、 現在時刻に関する現在時刻情報を入手する手段であればよい。 もちろ ん、 文章の作成は、 時間に関する情報が現在時刻に関する場合には、 入 手された時刻情報を時間に関する情報として利用して行われてもよい。 なお、 本発明の現在時刻は、 上述した実施の形態 2においては、 時 ·分 に関したが、 これに限らず、 日 ·時に関してもよいし、 年 ·月 · 日に関 してもよい。
また、 本発明の履歴情報記憶手段は、 上述した実施の形態 3において は作成ログ記憶装置 3 1 0であったが、 これに限らず、 要するに、 文章 の選択の履歴に関する履歴情報を記憶する手段であればよい。 もちろん 、 文章の選択は、 記憶されている履歴情報を考慮して行われてもよい。 また、 本発明の環境情報入手手段は、 上述した実施の形態 4において はセンサ情報入手手段 4 1 0であり、 上述した実施の形態 7においては センサ 1 5 0 3であったが、 これに限らず、 要するに、 周囲の環境に関す る環境情報を入手する手段であればよい。 もちろん、 文章の作成は、 二 つ以上の情報が入手された環境情報とあらかじめ定められた所定の関係 を有する場合には、 入手された環境情報を付加して行われてもよい。 また、 本発明の候補出力手段は、 上述した実施の形態においては、 表 示画面 1 3 0 1であったが、 これに限らず、 要するに、 利用されるべき 二つ以上の情報の内の各情報の候補を外部に出力する手段であればよい。 また、 本発明の第 1の情報決定手段は、 上述した実施の形態において は、 矢印キー 1 3 0 3であったが、 これに限らず、 要するに、 外部から 入力された指示に基づいて、 各情報を決定する手段であればよい。
また、 本発明の第 2の情報決定手段は、 上述した実施の形態において は、 単語選択手段 1 2 0 3であったが、 これに限らず、 要するに、 (外 部に出力されるべき文章は、 外部から入力された発話に対する応答であ り、 ) 入力された発話に基づいて、 利用されるべき二つ以上の情報を決 定する手段であればよい。
なお、 本発明のプログラムは、 上述した本発明の文章生成方法の全部 または一部のステップ (または、 工程、 動作、 作用等) の動作をコンビ ユータにより実行させるためのプログラムであって、 コンピュータと協 働して動作するプログラムである。
また、 本発明の記録媒体は、 上述した本発明の文章生成方法の全部ま たは一部のステップ (または、 工程、 動作、 作用等) の全部または一部 の動作をコンピュータにより実行させるためのプログラムを担持した記 録媒体であり、 コンピュータにより読み取り可能かつ、 読み取られた前 記プログラムが前記コンピュータと協動して前記動作を実行する記録媒 体である。
なお、 本発明の上記 「一部のステップ (または、 工程、 動作、 作用等 ) 」 とは、 それらの複数のステップの内の、 一つまたは幾つかのステツ プを意味する。
また、 本発明の上記 「ステップ (または、 工程、 動作、 作用等) の動 作」 とは、 前記ステップの全部または一部の動作を意味する。
また、 本発明のプログラムの一利用形態は、 コンピュータにより読み 取り可能な記録媒体に記録され、 コンピュータと協働して動作する態様 であっても良い。 また、 本発明のプログラムの一利用形態は、 伝送媒体中を伝送し、 コ ンピュータにより読みとられ、 コンピュータと協働して動作する態様で あっても良い。
また、 記録媒体としては、 R O M等が含まれ、 伝送媒体としては、 ィ ンターネット等の伝送媒体、 光 ·電波 ·音波等が含まれる。
また、 上述した本発明のコンピュータは、 C P U等の純然たるハード ウェアに限らず、 ファームウェアや、 O S、 更に周辺機器を含むもので あっても良い。
なお、 以上説明した様に、 本発明の構成は、 ソフトウェア的に実現し ても良いし、 ハードウェア的に実現しても良い。
上述した本実施の形態によれば、 応答文章を事前に一つづつ設計して おかなければならなかったプログラマの手間が不要となるのみならず、 応答文章をその都度生成するからメモリの容量が少なくて済む。
産業上の利用可能性
以上述べたところから明らかなように、 本発明は、 生成される応答文 章が単調にならず、 対話を行うユーザがより楽しさを感じることができ るという長所を有する。

Claims

求 の 囲
1 . 主語に関する情報、 述語に関する情報、 時間に関する情報、 お よび場所に関する情報の内の二つ以上の情報を利用して、 外部に出力さ れるべき文章の候補として複数個の文章を作成する文章作成手段と、 前記作成された複数個の文章の内から前記外部に出力されるべき文章 を一つ選択する文章選択手段とを備えた文章生成装置。
2 . 前記文章作成手段は、 前記二つ以上の情報の配列順序が異なる ように、 前記複数個の文章を作成する請求の範囲第 1項記載の文章生成
3 . 前記文章の作成に利用されるべき文章作成用データを蓄積する 文章作成用データベースと、
前記文章の選択に利用されるべき文章選択用データを蓄積する文章選 択用データベースとをさらに備えた請求の範囲第 1項記載の文章生成装 置。
4 . 前記二つ以上の情報は、 文字および/または音声を利用して入 力される請求の範囲第 1項記載の文章生成装置。
5 . 現在時刻に関する現在時刻情報を入手する現在時刻情報入手手 段をさらに備え、
前記文章の作成は、 前記時間に関する情報が前記現在時刻に関する場 合には、 前記入手された時刻情報を前記時間に関する情報として利用し て行われる請求の範囲第 1から第 4項の何れかに記載の文章生成装置。
6 . 前記文章の選択の履歴に関する履歴情報を記憶する履歴情報記 憶手段をさらに備え、
前記文章の選択は、 前記記憶されている履歴情報を考慮して行われる 請求の範囲第 1から第 4項の何れかに記載の文章生成装置。
7 . 周囲の環境に関する環境情報を入手する環境情報入手手段をさ らに備え、
前記文章の作成は、 前記二つ以上の情報が前記入手された環境情報と あらかじめ定められた所定の関係を有する場合には、 前記入手された環 境情報を付加して行われる請求の範囲第 1から第 4項の何れかに記載の 文章生成装置。
8 . 前記利用されるべき二つ以上の情報の内の各情報の候補を外部 に出力する候捕出力手段と、
外部から入力された指示に基づいて、 前記各情報を決定する第 1の情 報決定手段とをさらに備えた請求の範囲第 1項記載の文章生成装置。
9 . 前記外部に出力されるべき文章は、 外部から入力された発話に 対する応答であり、
前記入力された発話に基づいて、 前記利用されるべき二つ以上の情報 を決定する第 2の情報決定手段をさらに備えた請求の範囲第 1項記載の 文章生成装置。
PCT/JP2003/012867 2002-10-09 2003-10-08 文章生成装置 WO2004034279A2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002-296088 2002-10-09
JP2002296088 2002-10-09

Publications (1)

Publication Number Publication Date
WO2004034279A2 true WO2004034279A2 (ja) 2004-04-22

Family

ID=32089229

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/012867 WO2004034279A2 (ja) 2002-10-09 2003-10-08 文章生成装置

Country Status (1)

Country Link
WO (1) WO2004034279A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备
CN111008519A (zh) * 2019-12-25 2020-04-14 掌阅科技股份有限公司 阅读页面的展示方法、电子设备及计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722483A (zh) * 2011-03-29 2012-10-10 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备
CN102722483B (zh) * 2011-03-29 2017-07-25 百度在线网络技术(北京)有限公司 用于确定输入法的候选项排序的方法、装置和设备
CN111008519A (zh) * 2019-12-25 2020-04-14 掌阅科技股份有限公司 阅读页面的展示方法、电子设备及计算机存储介质

Similar Documents

Publication Publication Date Title
McTear Conversational ai: Dialogue systems, conversational agents, and chatbots
CN107077841B (zh) 用于文本到语音的超结构循环神经网络
Taylor Text-to-speech synthesis
US10878817B2 (en) Systems and methods for generating comedy
JP3581881B2 (ja) 音声補完方法、装置および記録媒体
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP4729902B2 (ja) 音声対話システム
JP5198046B2 (ja) 音声処理装置及びそのプログラム
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
JP2010048953A (ja) 対話文生成装置
JP2012073519A (ja) 読み上げ支援装置、方法、およびプログラム
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
Aylett et al. Building and designing expressive speech synthesis
US20230148275A1 (en) Speech synthesis device and speech synthesis method
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2001209644A (ja) 情報処理装置および情報処理方法、並びに記録媒体
WO2004034279A2 (ja) 文章生成装置
JP2003099089A (ja) 音声認識・合成装置および方法
Trouvain et al. Speech synthesis: text-to-speech conversion and artificial voices
JP2000222406A (ja) 音声認識翻訳装置及び方法
JP2006330060A (ja) 音声合成装置、音声処理装置、およびプログラム
US11705115B2 (en) Phonetic keyboard and system to facilitate communication in English
Lin et al. A hierarchical tag-graph search scheme with layered grammar rules for spontaneous speech understanding
Fellbaum Speech input and output technology-state of the art and selected applications
Islam et al. Voice command based android java code generator

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): CN JP US

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase in:

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP

122 Ep: pct application non-entry in european phase