WO2008029881A1 - Système de traitement du langage naturel et système d'enregistrement de dictionnaire - Google Patents

Système de traitement du langage naturel et système d'enregistrement de dictionnaire Download PDF

Info

Publication number
WO2008029881A1
WO2008029881A1 PCT/JP2007/067416 JP2007067416W WO2008029881A1 WO 2008029881 A1 WO2008029881 A1 WO 2008029881A1 JP 2007067416 W JP2007067416 W JP 2007067416W WO 2008029881 A1 WO2008029881 A1 WO 2008029881A1
Authority
WO
WIPO (PCT)
Prior art keywords
dictionary
data
input
dictionary data
registration
Prior art date
Application number
PCT/JP2007/067416
Other languages
English (en)
French (fr)
Inventor
Shinichi Ando
Kunihiko Sadamasa
Shinichi Doi
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2008533198A priority Critical patent/JP5239863B2/ja
Priority to CN200780033343.6A priority patent/CN101512518B/zh
Priority to US12/310,773 priority patent/US9575953B2/en
Publication of WO2008029881A1 publication Critical patent/WO2008029881A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Definitions

  • the present invention relates to a technology for processing a natural language using language information stored in a dictionary, and in particular, a natural language processing system capable of easily updating a dictionary, and an application for the system.
  • the present invention relates to a dictionary registration system.
  • Kana-Kanji conversion, machine translation, speech recognition, speech synthesis, and! / The natural language processing system is basically based on the words stored in the dictionary and the language information assigned to them! It is difficult to appropriately process words that are processed and are not stored in the dictionary, that is, unknown words. On the other hand, natural languages are changing day by day, and new words are born, and even if they are known words, new usages occur, so it is difficult to store them all in the dictionary in advance. Therefore, this problem has been addressed by providing a user dictionary function that allows each user to register the words they need individually.
  • Dictionary registration work is costly and costly for individual users. For this reason, a method of sharing dictionary data registered by individual users among a plurality of users has been proposed for the purpose of reducing the cost of dictionary registration work.
  • Non-Patent Document 1 describes a method in which the latest dictionaries and user dictionaries created by individual users are published on a dedicated web page and used by each user.
  • this method unless individual users are constantly monitoring the homepage, it will not be possible to immediately know whether a dictionary useful for them has been published! /! There was a problem.
  • Patent Document 1 dictionary data registered in the user dictionaries of a plurality of users is extracted by traversing the dictionary data registered by each user in their user dictionaries. It describes how to reflect the extracted dictionary data to the user dictionaries of all users as dictionary data to be shared!
  • Patent Document 2 manages individual user dictionaries in association with specific technical term dictionaries.
  • Dictionary data that is registered in common with multiple user dictionaries associated with the same technical term dictionary by examining the dictionary data registered by each user in their own user dictionary.
  • a method of sharing the dictionary data among a plurality of users is described by extracting the dictionary data and reflecting the extracted dictionary data as dictionary data to be shared in the technical term dictionary.
  • Patent Document 2 and Patent Document 3 also describe a method of notifying each user that new dictionary data has been registered in the shared dictionary and asking whether or not to use that word! Yes. These methods immediately inform the user that new dictionary data is available, and leave the final decision on whether or not to use the dictionary data to the user. It is intended to prevent mixing into individual user dictionaries.
  • Non-Patent Document 1 NEC Corporation, “Translation Adapter II CROSSROAD Ver.3 HANDBO OK”, 1999, ⁇ .134-135
  • Patent Document 1 Patent Publication 346488 IB
  • Patent Document 2 Patent Public Goods SJP— 2003— 157257A
  • the first problem in the prior art is that it is difficult for an individual user to make a determination as to whether or not each dictionary data is necessary. The reason for this is that even if the user is forced to use it at that time! /, Na! /, Or the dictionary data of words! / This is because it is difficult for the user to determine whether data is needed.
  • the second problem is that, in the conventional method, the ability to inquire whether or not to use the dictionary data to be registered as needed from each user, and this hinders user behavior.
  • the reason is that notifications and inquiries in the conventional method are accepted. This is because it is performed without considering the convenience of the user on the side of the network.
  • An object of the present invention is to provide a natural language processing system that allows a user to easily determine whether or not individual dictionary data is necessary.
  • Another object of the present invention is to provide a natural language processing system capable of notifying and inquiring about the necessity of dictionary data without impeding user behavior.
  • the present invention compares a registration candidate storage unit that stores registration candidate dictionary data with input data and registration candidate dictionary data, and determines whether or not a word corresponding to the registration candidate dictionary data exists in the input data.
  • a determination means for inquiring the user whether to register the registration candidate dictionary data in the dictionary when the determination means determines that a corresponding word exists, and an inquiry means for receiving a user instruction.
  • a natural language processing system comprising a dictionary registration means for registering corresponding dictionary data in a dictionary in accordance with an instruction input to and a natural language processing means for performing natural language processing on the input data using dictionary data registered in the dictionary provide.
  • the present invention compares a registration candidate storage unit that stores registration candidate dictionary data with the input data and the registration candidate dictionary data, and determines whether or not a word corresponding to the registration candidate dictionary data exists in the input data.
  • a determination means for inquiring the user whether to register the registration candidate dictionary data in the dictionary when the determination means determines that a corresponding word exists, and an inquiry means for receiving a user instruction.
  • a dictionary registration system comprising dictionary registration means for registering corresponding dictionary data in a dictionary in accordance with an instruction input to.
  • the present invention compares input data with registration candidate dictionary data stored in a storage device to determine whether or not a word corresponding to the registration candidate dictionary data exists in the input data.
  • the user is inquired whether to register the registration candidate dictionary data in the dictionary, accepts the user's instruction, and the corresponding dictionary data is registered in the dictionary according to the input instruction.
  • We provide a natural language processing method that performs natural language processing by applying natural language processing to input data using dictionary data.
  • the present invention compares input data with registration candidate dictionary data stored in a storage device to determine whether or not a word corresponding to the registration candidate dictionary data exists in the input data. If it is determined that the registration candidate dictionary data is present, the user is inquired whether to register the registration candidate dictionary data in the dictionary, accepts the user's instruction, and registers the corresponding dictionary data in the dictionary according to the input instructions.
  • the present invention is a recording medium encoded with a computer readable computer program for operating a control arithmetic unit (CPU), and storing registration candidate dictionary data in the CPU
  • the input data and the registration candidate dictionary data are compared to determine whether a word corresponding to the registration candidate dictionary data exists in the input data, and the determination processing corresponds to
  • a process of inquiring the user whether to register the registration candidate dictionary data in the dictionary and receiving the user's instruction; and the registration candidate dictionary data according to the instruction input to the inquiry means Are registered in the dictionary, and natural language processing is performed on the input data using dictionary data registered in the dictionary.
  • the present invention is a recording medium encoded with a computer-readable computer program for operating a control arithmetic unit (CPU), and storing registration candidate dictionary data in the CPU
  • the input data and the registration candidate dictionary data are compared, a determination is made as to whether or not a word corresponding to the registration candidate dictionary data exists in the input data, and the determination process includes the correspondence If it is determined that there is a word to be registered, the user is asked whether to register the registration candidate dictionary data in the dictionary, the user's instruction is accepted, and the instruction input in the inquiry process is followed.
  • a medium for executing processing for registering the registration candidate dictionary data in the dictionary is provided.
  • FIG. 1 is a block diagram showing a configuration of a natural language processing system according to a first embodiment of the present invention.
  • FIG. 2 is a flowchart showing the operation of the natural language processing system of FIG.
  • FIG. 3 is a block diagram showing a configuration of a dictionary registration system according to a second exemplary embodiment of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a computer system according to a third embodiment of the present invention.
  • FIG. 5 is a diagram showing an example of a data structure of a registration candidate storage unit.
  • FIG. 6 is a diagram showing an example of a registration confirmation screen for dictionary data.
  • FIG. 7 is a diagram showing an example of a registration confirmation screen for dictionary data.
  • a natural language processing system 10 according to a first exemplary embodiment of the present invention will be described in detail with reference to the drawings.
  • a natural language processing system 10 includes an input device 1 such as a keyboard and a microphone, a data processing device 2 that operates under program control, a storage device 3 that stores information, a display device, a printing device, and a speaker. Output device 4 and the like.
  • the storage device 3 includes a dictionary storage unit 31 and a registration candidate storage unit 32.
  • the dictionary storage unit 31 stores individual user dictionaries, and each dictionary stores words and corresponding language information! /.
  • the linguistic information is information that the natural language processing means 21 to be described later refers to for the processing, and includes, for example, kana notation, reading, translation, part of speech, meaning information, and the like.
  • the registration candidate storage unit 32 stores registration candidate dictionary data, which are candidates for dictionary data to be newly registered in the dictionary of each user!
  • the dictionary data is the smallest unit of information registered in the dictionary, and consists of words and corresponding language information.
  • the data processing device 2 includes a natural language processing means 21, a determination means 22, an inquiry means 23, and a dictionary registration means 24.
  • the natural language processing means 21 accepts input from the user and performs natural language processing using the user's dictionary stored in the dictionary storage unit 31 for the input data! , Output the processing result.
  • the natural language processing performed by the natural language processing means 21 is, for example, machine translation processing or speech synthesis processing.
  • the machine translation process is a process of converting the input character string of the first language into a character string of the second language
  • the speech synthesis process is a process of converting the input character string into a speech signal.
  • the natural language processing means 21 outputs the input data to the determination means 22 before performing natural language processing on the input data.
  • the natural language processing means 21 is provided with an unknown word detection function and the input data is not input to the determination means 22 only when an unknown word is found in the input data rather than always outputting the input data to the determination means 22. May be output and the determination means 22 may operate.
  • the determination unit 22 compares the input data input from the natural language processing unit 21 with the words in the dictionary data stored in the registration candidate storage unit 32, and stores the input data in the registration candidate storage unit 32. Check whether the dictionary data contains the corresponding word (hereinafter referred to as “corresponding word”). When a word corresponding to the input data is found here, registration candidate dictionary data (hereinafter referred to as “corresponding dictionary data”) corresponding to the corresponding word is output to the inquiry means 23. If the determining means 22 operates only when an unknown word is found in the input data, when the determining means 22 further checks whether the word corresponding to the input data is included. Alternatively, it may be determined that the corresponding word is included only when there is an overlap between the part of the input data including the unknown word and the word of the dictionary data.
  • the inquiry unit 23 displays the corresponding dictionary data input from the determination unit 22 on the output device 4 and asks the user whether or not to register it in the dictionary.
  • the inquiry means 23 outputs the corresponding dictionary data to the dictionary registration means 24.
  • the control is returned to the natural language processing means 21.
  • the corresponding dictionary data is recorded in the registration candidate storage unit 32 together with information indicating that it is not registered, and then registered. Even if the same dictionary data is registered in the candidate storage unit 32, it may be processed as being out of registration.
  • the dictionary registration unit 24 registers the corresponding dictionary data input from the inquiry unit 23 in the dictionary, and returns control to the natural language processing unit 21.
  • the natural language processing means 21 receives an input from the input device 1, it outputs the input data input before executing the natural language processing to the determination means 22.
  • the judging means 22 takes out the registered candidate dictionary data from the registration candidate storage section 32 (step A1 in FIG. 2).
  • step A2 the ability to extract the registration candidate dictionary data from the registration candidate storage unit 32 is checked, and if it is extracted, the dictionary data is not subject to registration, and candidates for dictionary data to be registered in the dictionary are determined.
  • Check for existence step A2). If there is no candidate dictionary data to be registered here! /, The natural language processing means 21 performs natural language processing on the input data and outputs the result to the output device 4 (determination in step A2). No, step A10).
  • the determination means 22 compares the input data with the respective dictionary data (steps A3 and A4). If the input data contains a word corresponding to! /, NA! /, The natural language processing means 21 performs natural language processing on the input data and outputs the result to the output device 4 (determination in step A4). No, step A10).
  • the inquiry means 23 displays the dictionary data (corresponding dictionary data) on the output device 4, and inquires the user whether or not to register it in the dictionary (step A5). Thereafter, an input of a response to the inquiry from the input device 1 is accepted, and it is checked whether or not there is correspondence dictionary data that has been input as not being registered (step A6). If there is corresponding dictionary data that is input as not registered, the inquiry means 23 records the dictionary data in the registered candidate storage unit 32 together with information indicating that it is not registered (step A7).
  • the inquiry means 23 checks whether or not the corresponding dictionary data entered is present after registration (step A8). . If the corresponding dictionary data entered after registration exists, The book registration means 23 registers the dictionary data in the dictionary (step A9).
  • the natural language processing means 21 After that, or when there is no corresponding dictionary data input when registered in step A8, the natural language processing means 21 performs natural language processing on the input data using the dictionary stored in the dictionary storage unit 31, The result is output to the output device 4 (step A10).
  • the user can determine the usefulness in accordance with the context of the input data that he / she inputs only for dictionary data that is expected to be used, and can easily determine whether it is necessary.
  • the user can determine whether the dictionary data is necessary or not in a series of operations that perform natural language processing on the input data entered by the user. Will be able to.
  • the dictionary registration system 11 is composed of parts of the natural language processing system 10 that are necessary for registering dictionary data in the dictionary. Therefore, the parts common to the natural language processing system 10 are the same as those in FIG. The description is omitted with the symbol.
  • the dictionary registration system 11 includes an unknown word search means 25 corresponding to the unknown word detection function of the natural language processing means 21 instead of the natural language processing means 21 of FIG.
  • the input data input from is not a data subject to natural language processing but data such as sentences prepared in advance for dictionary registration processing.
  • the output device 4 is used only for inputting an inquiry about whether or not the corresponding dictionary data can be registered and a response to the inquiry.
  • the computer system 12 is similar to the first embodiment of the present invention. , Input device 1, data processing device 6, storage device 3, and output device 4.
  • the natural language processing program 5 is read by the data processing device 6 to control the operation of the data processing device 6, and a dictionary storage unit 31 and a registration candidate storage unit 32 are generated in the storage device 3.
  • the data processing device 6 executes the same processing as the processing by the data processing device 2 in the first embodiment under the control of the search program 5 for natural language processing.
  • the dictionary registration processing program 7 may be read into the data processing device 6 instead of the natural language registration processing program 5, and the same processing as that performed by the data processing device 2 in the second embodiment may be executed! /.
  • the present embodiment includes a keyboard as the input device 1, a personal computer as the data processing device 2, a magnetic disk recording device as the data storage device 3, and a display as the output device 4.
  • the personal computer includes natural language processing means 21, determination means 22, and inquiry means.
  • the dictionary data shown in FIG. 5 is stored in the registration candidate storage unit 32 as registration candidates.
  • the contents of dictionary data as registration candidates are shown in a table format, and each line of the table represents one dictionary data.
  • the first line represents dictionary data with Japanese language ability S “gene”, English “ gene ”, and part of speech “noun”.
  • the fourth column stores information indicating whether the dictionary data is not registered.
  • “” indicates that the inspection to determine if it is not subject to registration, which will be described later, has been completed! /, !, and “not applicable” refers to dictionary data that has been designated as not subject to inspection in the past. It represents that.
  • Fig. 5 the contents of dictionary data as registration candidates are shown in a table format, and each line of the table represents one dictionary data.
  • the first line represents dictionary data with Japanese language ability S “gene”, English “ gene ”, and part of speech “noun”.
  • the fourth column stores information indicating whether the dictionary data is not registered.
  • “” indicates that the inspection to determine if it is not
  • the central processing unit extracts dictionary data as registration candidates from the registration candidate storage unit 32 and inspects the contents before performing machine translation processing on the input data. For example, by extracting dictionary data from the registration candidate storage unit 32 shown in FIG. 5 and examining the non-registration fields, the “gene diagnosis” dictionary data is out of registration, and the “gene” and “transposon” dictionaries Confirm that the data is an untested registration candidate.
  • the central processing unit compares the input data input as the target of natural language processing with the dictionary data as registration candidates extracted from the registration candidate storage unit 32, and records it as "transposon” in the dictionary data. Detects that the character string (corresponding word) is included in the input data. Therefore, the central processing unit displays “transposon” dictionary data (corresponding dictionary data) on the output device 4 and asks the user whether or not to register it.
  • FIG. 6 shows an example of an inquiry screen for the user. If the user checks radio button 51 of “Register” in “Transposon” and presses “Execute” button 54, the central processing unit registers the dictionary data of “Transposon” in the dictionary, and registers the candidate storage unit. Delete “Transposon” dictionary data in 32. Also, if the user checks the radio button 52 for “Do not register! /,” And presses the “execute” button 54, the central processing unit will not be registered in the dictionary data of “transposon” in the registration candidate storage unit 32. Indicate information that indicates “Not applicable” in the field. If the user selects the “Hold” radio button 53 or the “Cancel” button 55, the dictionary registration and the registration candidate storage unit 32 are not updated.
  • Temporal use a radio button called “Temporary use” is added, and the displayed dictionary data is registered in the dictionary and registered in a temporary dictionary rather than permanently used, and only for natural language processing of the input data. You may take the structure which operate
  • FIG. 6 a force indicating an example in which a radio button is used for a user interface for designating whether to register or not may be used as shown in FIG.
  • the dictionary data with the check box 56 checked is processed in the same way as when the radio button 51 of "Register” is selected in Fig. Therefore, the same processing as when the “not register” radio button 52 is selected in FIG.
  • the central processing unit performs a translation process on the input processing target, and outputs the result to the output device 4.
  • the input data is compared with dictionary data.
  • natural language processing is applied to the input data to detect that "transposon" or part of it is an unknown word.
  • this is displayed on the output device 4 to inquire the user whether to register. It may take a form.
  • the notification related to the dictionary data only when the word corresponding to the dictionary data to be registered is included in the input data input by the user to the natural language processing means.
  • the user In order to make an inquiry, the user only has to determine the usefulness of the dictionary data that is expected to be used in accordance with the context of the input data that he / she entered.
  • the user can determine whether or not the dictionary data is necessary in a series of operations that perform natural language processing on the input data that he / she entered, so that the user's behavior is not hindered. Can notify and inquire about the necessity of dictionary data.
  • the natural language processing means has an unknown word detection function for determining whether or not the input data contains an unknown word! /, And the natural language processing means is the input data.
  • the determination means may be activated when an unknown word contained in is detected.
  • the determination means when the natural language processing means detects an unknown word included in the input data, the determination means includes a portion including the unknown word of the input data, registration candidate dictionary data, It is also possible to determine whether there is a word corresponding to the part containing the unknown word.
  • unknown words exist in the input data. Only in the case of a fatal case, the user is notified and inquires about the corresponding word in the input data, so the user can respond to fewer inquiries and maximize the effectiveness of dictionary registration for unknown words. Obtainable.
  • the natural language processing means may perform the natural language processing on the input data using only the dictionary data registered in the dictionary. .
  • the natural language processing means is a machine translation means for converting a character string of the first language into a character string of the second language.
  • it may be a speech synthesizer that converts an input character string into a speech signal.
  • the dictionary registration system of the embodiment since the input data input by the user includes a word corresponding to the dictionary data to be registered, the user is notified and inquired about the dictionary data. Only for dictionary data that is expected to be used, the usefulness should be judged according to the context of the input data that you entered. Therefore, it is possible for the user to easily determine whether or not each dictionary data is necessary.
  • the input data includes unknown word detecting means for determining whether or not an unknown word is included! /, And the unknown word detecting means is included in the input data.
  • the determination means may be activated when an unknown word is detected.
  • the determination unit determines the portion including the unknown word of the input data and the registration candidate dictionary data. You can also compare and determine if there is a word corresponding to the part containing the unknown word! /.
  • the dictionary data is used in the machine translation process for converting the input first language character string into the second language character string.
  • dictionary data used in speech synthesis processing for converting an input character string into a speech signal is used in the dictionary registration system of the embodiment.
  • the dictionary is used in the machine translation process for converting the dictionary data into the second language character string from the input first language character string.
  • Voice recognition that is data or dictionary data used in kana-kanji conversion processing that converts the input kana character string into a kanji-kana mixed character string, or converts the input voice signal into a character string
  • the judgment means compares the input data with the registration candidate dictionary data, the input data is compared with the character string stored as a conversion result in the registration candidate dictionary data. It may be determined whether a corresponding word exists.
  • the notification and inquiry regarding the dictionary data are performed only when the word corresponding to the dictionary data to be registered is included in the input data input by the user.
  • the user only has to judge the usefulness of the dictionary data expected to be used in accordance with the context of the input data he / she entered. Therefore, it is possible for the user to easily determine whether or not each dictionary data is necessary.
  • the user can determine whether or not the dictionary data is necessary in a series of operations that perform natural language processing on the input data that he / she entered, so that the user's behavior is not hindered. Can notify and inquire about the necessity of dictionary data.
  • the registration candidate dictionary data may be compared to determine whether a word corresponding to the input data exists.
  • the part including the unknown word in the input data is compared with the registration candidate dictionary data, and the unknown word is determined. It may be possible to determine whether or not a word corresponding to the included portion exists.
  • an unknown word exists in the input data. Only in a fatal case, the user is notified and inquired about the corresponding word in the input data, so the user can obtain the maximum effect of dictionary registration for unknown words by responding to fewer inquiries. it can.
  • the natural language processing is machine translation processing for converting a character string in the first language into a character string in the second language, or input.
  • This is a speech synthesis process that converts the converted character string into a speech signal.
  • the dictionary registration method of the embodiment in order to notify and inquire about the dictionary data only when the word corresponding to the dictionary data to be registered is included in the input data input by the user, The user only has to judge the usefulness of the dictionary data that is expected to be used according to the context of the input data that he / she entered.
  • the input data and registration are determined when it is determined whether or not the input data includes an unknown word, and it is determined that the input data includes an unknown word. Compare the candidate dictionary data and determine whether there is a word corresponding to the input data.
  • the dictionary registration method of the embodiment when it is determined that the input data includes an unknown word, the part including the unknown word in the input data is compared with the registration candidate dictionary data, and the unknown word is determined. You may make it determine whether the word corresponding to the part to include exists. According to the dictionary registration method of the above-described embodiment, only when a fatal case where an unknown word is present in the input data is fatal, a notification or inquiry about the corresponding word existing in the input data is performed, so the user can The effect of dictionary registration for unknown words can be maximized by responding to a small number of inquiries.
  • the dictionary data is dictionary data used in a machine translation process for converting an input character string of a first language into a character string of a second language.
  • a dictionary used in speech synthesis processing that converts input character strings into speech signals It may be written data.
  • the notification related to the dictionary data only when the word corresponding to the dictionary data to be registered is included in the input data input by the user, Since the computer is operated so as to make an inquiry, the user only has to determine the usefulness of the dictionary data that he / she expects to use according to the context of the input data he / she entered.
  • the user can determine whether or not the dictionary data is necessary in a series of operations that perform natural language processing on the input data that he / she entered, so that the user's behavior is not hindered. Can notify and inquire about the necessity of dictionary data.
  • the natural language processing function has a function of determining whether or not an unknown word is included in the input data. If it is determined that an unknown word is included, the determination process may be executed by a computer.
  • the determination process includes the unknown word of the input data.
  • registration candidate dictionary data may be compared to determine whether or not there is a word corresponding to a portion including an unknown word.
  • the input data Only in the case of a fatal case where an unknown word exists in the data, the user is notified and inquired about the corresponding word existing in the input data, so the user can register the dictionary for the unknown word by responding to fewer inquiries. You can get the maximum effect.
  • the natural language processing function may perform natural language processing on input data using only dictionary data registered in the dictionary.
  • the natural language processing function is a machine translation function that converts a character string of the first language into a character string of the second language, Or as a voice synthesis function that converts the input character string into a voice signal! /.
  • the dictionary registration program of the embodiment only when the word corresponding to the dictionary data to be registered is included in the input data input by the user, the notification and inquiry regarding the dictionary data are made.
  • the user In order to make the computer operate like this, the user should only determine the usefulness of the dictionary based on the input data entered for the dictionary data that is expected to be used.
  • the medium in which the dictionary registration program of the embodiment is recorded! / causes the computer to execute an unknown word detection process for determining whether or not an unknown word is included in the input data, thereby detecting the unknown word.
  • the determination process may be executed by a computer.
  • the determination process determines that the input data is unknown. Compare the part containing the word with the registration candidate dictionary data to determine whether there is a word corresponding to the part containing the unknown word! /.
  • the dictionary data may be used in the dictionary, or may be dictionary data used in a voice synthesis function that converts an input character string into a voice signal.
  • a machine translation function for converting dictionary data into a second language character string by converting the dictionary data into a medium recording the dictionary registration program of the embodiment! Is dictionary data used by the Kana / Kanji conversion function that converts the input kana character string to a kanji-kana mixed character string, or the input audio signal as a character string
  • the input data and the registration candidate dictionary data are compared. Make sure that the corresponding word exists semi-IJ.
  • the first effect achieved in the preferred embodiment of the present invention is that the user can easily determine whether or not each dictionary data is necessary.
  • the reason is that notification and inquiry regarding the dictionary data are performed only when words corresponding to the dictionary data to be registered are included in the input data input to the natural language processing means by the user. This is because the user only has to judge the usefulness of the dictionary data that he / she expects to use according to the context of the input data he / she entered.
  • the second effect is that it is possible to notify and inquire about the necessity of dictionary data without obstructing user behavior.
  • the reason is to notify and inquire only when the dictionary data to be registered is included in the input data entered by the user into the natural language processing means. This is because the user can determine whether the dictionary data is necessary or not in a series of operations for performing natural language processing on the input data input by the user.
  • the present invention provides a computer with a mechanical translation device that converts an input character string of a first language into a character string of a second language, and a speech synthesizer that converts the input character string into a speech signal. It can be applied to uses such as a program for realizing. In the embodiment, the example is shown in which the user starts the operation by inputting the data to be processed by the natural language processing. In addition, a program for implementing a dictionary creation support device that supports creation of a dictionary used in natural language processing on a computer by adopting a configuration that starts operation by inputting data that is not directly subject to natural language processing. It can also be applied to applications.
  • an operation is started by inputting a document to be obtained as a result of natural language processing in the future, and this input data is compared with a character string stored as a result of natural language processing in dictionary data.
  • a configuration that determines whether or not the dictionary data included in the input data exists for example, creation of a dictionary used in machine translation processing, kana-kanji conversion processing, voice recognition processing, and! /, Natural language processing It can also be applied to applications such as a program for realizing a dictionary creation support device on a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

明 細 書
自然言語処理システムおよび辞書登録システム 技術分野
[0001] 本発明は、辞書に格納された言語情報を用いて自然言語を処理する技術に関し、 特に辞書の更新を容易に行なうことができる自然言語処理システム、及び、該システ ムに用レ、る辞書登録システムに関する。
背景技術
[0002] 仮名漢字変換、機械翻訳、音声認識、音声合成と!/、つた自然言語処理システムは 、基本的に辞書に格納された単語とそこに付与された言語情報に基づ!/、て処理を行 なっており、辞書に格納されていない単語、すなわち未知語を適切に処理することは 困難である。一方、 自然言語は日々変化しており、新語が生まれたり、また既知語で あっても新たな用法が発生したりするため、予めこれら全てを辞書に格納しておくこと は難しい。そこで従来から、個々のユーザが必要になった単語を個別に登録すること 力 Sできるユーザ辞書機能を提供することでこの問題に対応してきた。
[0003] 辞書登録作業は個々のユーザにとってはコストの力、かる作業である。このため、辞 書登録作業のコスト軽減を目的として、個々のユーザが登録した辞書データを複数 のユーザ間で共有する方法が提案されてレ、る。
例えば非特許文献 1には最新の辞書や個々のユーザが作成したユーザ辞書を専 用のウェブページ上で公開し、各ユーザにこれを活用させる方法が記載されている。 ただしこの方法では、個々のユーザは該ホームページを常に監視していない限り、 自分にとって有用な辞書が公開されて!/、るかどうかを即座に知ることができな!/、と!/、う 問題があった。
[0004] また特許文献 1には、個々のユーザが各自のユーザ辞書に登録した辞書データを 横断的に検査して複数のユーザのユーザ辞書に共通して登録されている辞書デー タを抽出し、抽出した辞書データを共有すべき辞書データとしてユーザ全員のユー ザ辞書に反映する方法が記載されて!/、る。
[0005] さらに特許文献 2には、個々のユーザ辞書を特定の専門用語辞書に関連付けて管 理する機構を備え、個々のユーザが各自のユーザ辞書に登録した辞書データを横 断的に検査して同一の専門用語辞書に関連付けられた複数のユーザ辞書に共通し て登録されている辞書データを抽出し、抽出した辞書データを共有すべき辞書デー タとして該専門用語辞書に反映することで、複数のユーザ間でその辞書データを共 有する方法が記載されて!/、る。
[0006] 上記方法では、自動的に抽出した辞書データが辞書に登録されることで、あるユー ザにとっては却って自然言語処理の精度が落ちる場合がある。これは抽出された辞 書データが、多くのユーザにとっては有用であっても、その他のユーザにとっては必 ずしも有益であるとは限らないためである。また、このように不必要な単語の辞書デー タが登録されることで自然言語処理システムが判断を誤る可能性が高まるためである 。このため特許文献 2や特許文献 3には、個々のユーザに新たな辞書データが共有 辞書に登録されたことを通知し、その単語を利用するかどうかを問!/、合わせる方法も 記載されている。これらの方法は新たな辞書データが利用可能であることを即座にュ 一ザに伝達し、また該辞書データを利用するか否かの最終判断をユーザに任せるこ とで不適切な辞書データが個々のユーザ辞書に混入することを防ごうとするものであ
[0007] 非特許文献 1 :日本電気株式会社、「翻訳アダプタ II CROSSROAD Ver.3 HANDBO OK」、 1999年、 Ρ.134-135
特許文献 1:特許公報 346488 IB
特許文献 2:特許公幸 SJP— 2003— 157257A
[0008] 従来技術における第 1の問題点は、個々のユーザにとって各々の辞書データに対 して要不要の判断を下すことが難しいことである。その理由は、ユーザがその時点で 利用して!/、な!/、単語の辞書データにつ!/、て要不要の判断を迫られたとしても、将来 的な可能性を含めてその辞書データが必要になるかどうかはそのユーザにも判断が つかないためである。
また第 2の問題点は、従来の方法においては個々のユーザに随時、登録すべき辞 書データを通知して利用するかどうかを問い合わせる力 S、これがユーザの行動を阻 害することである。その理由は、従来の方法における通知、問い合わせが、それを受 ける側のユーザの都合を考慮せずに行なわれているためである。
発明の概要
[0009] 本発明の目的は、ユーザが個々の辞書データに対する要不要の判断を容易に下 すことができる自然言語処理システムを提供することにある。
本発明の他の目的は、ユーザの行動を阻害せずに辞書データの要不要を通知、 問い合わせすることができる自然言語処理システムを提供することにある。
[0010] 本発明は、登録候補辞書データを記憶する登録候補記憶部と、入力データと登録 候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が 存在するかどうかを判定する判定手段と、判定手段で対応する単語が存在すると判 定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問 い合わせてユーザの指示を受け付ける問い合わせ手段と、問い合わせ手段へ入力 された指示に従って対応辞書データを辞書に登録する辞書登録手段と、辞書に登 録された辞書データを用いて入力データに自然言語処理を施す自然言語処理手段 とを備える自然言語処理システムを提供する。
[0011] 本発明は、登録候補辞書データを記憶する登録候補記憶部と、入力データと登録 候補辞書データとを比較し、入力データに登録候補辞書データに対応する単語が 存在するかどうかを判定する判定手段と、判定手段で対応する単語が存在すると判 定された場合に前記登録候補辞書データを辞書に登録するかどうかをユーザに問 い合わせてユーザの指示を受け付ける問い合わせ手段と、問い合わせ手段へ入力 された指示に従って対応辞書データを辞書に登録する辞書登録手段とを備える辞 書登録システムを提供する。
[0012] 本発明は、入力データと記憶装置に記憶されている登録候補辞書データとを比較 し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定し 、対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に 登録するかどうかをユーザに問い合わせてユーザの指示を受け付け、入力された指 示に従って対応辞書データを辞書に登録し、辞書に登録された辞書データを用いて 入力データに自然言語処理を施すことにより自然言語処理を行う自然言語処理方法 を提供する。 [0013] 本発明は、入力データと記憶装置に記憶されている登録候補辞書データとを比較 し、入力データに登録候補辞書データに対応する単語が存在するかどうかを判定し 、対応する単語が存在すると判定された場合に前記登録候補辞書データを辞書に 登録するかどうかをユーザに問い合わせてユーザの指示を受け付け、入力された指 示に従って対応辞書データを辞書に登録することにより辞書データの登録を行う辞 書登録方法を提供する。
[0014] 本発明は、制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンビュ ータ 'プログラムで符号化された記録媒体であって、前記 CPUに、登録候補辞書デ ータを記憶装置に記憶する処理と、入力データと前記登録候補辞書データとを比較 し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうか を判定する処理と、前記判定処理で前記対応する単語が存在すると判定された場合 に前記登録候補辞書データを前記辞書に登録するかどうかをユーザに問い合わせ て前記ユーザの指示を受け付ける処理と、前記問い合わせ手段へ入力された指示 に従って前記登録候補辞書データを前記辞書に登録する処理と、前記辞書に登録 された辞書データを用いて前記入力データに自然言語処理を施す処理とを実行さ せる媒体を提供する。
[0015] 本発明は、制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンビュ ータ 'プログラムで符号化された記録媒体であって、前記 CPUに、登録候補辞書デ ータを記憶装置に記憶する処理と、入力データと前記登録候補辞書データとを比較 し、前記入力データに前記登録候補辞書データに対応する単語が存在するかどうか を判定する処理と、前記判定処理で、前記対応する単語が存在すると判定された場 合に前記登録候補辞書データを前記辞書に登録するかどうかをユーザに問い合わ せて前記ユーザの指示を受け付ける処理と、前記問い合わせ処理で入力された指 示に従って前記登録候補辞書データを前記辞書に登録する処理とを実行させる媒 体を提供する。
[0016] 本発明の上記、及び、他の目的、特徴及び利益は、図面を参照する以下の説明に より明らかになる。
図面の簡単な説明 [0017] [図 1]本発明の第 1の実施形態例に係る自然言語処理システムの構成を示すブロック 図である。
[図 2]図 1の自然言語処理システムの動作を示すフローチャートである。
[図 3]本発明の第 2の実施形態例に係る辞書登録システムの構成を示すブロック図で ある。
[図 4]本発明の第 3の実施形態に係るコンピュータシステムの構成を示すブロック図で ある。
[図 5]登録候補記憶部のデータ構造例を示す図である。
[図 6]辞書データの登録確認画面の一例を示す図である。
[図 7]辞書データの登録確認画面の一例を示す図である。
発明を実施するための最良の形態
[0018] 本発明の第 1の実施形態例に係る自然言語処理システム 10について図面を参照 して詳細に説明する。
図 1を参照すると、自然言語処理システム 10は、キーボードやマイク等の入力装置 1と、プログラム制御により動作するデータ処理装置 2と、情報を記憶する記憶装置 3 と、ディスプレイ装置や印刷装置、スピーカ等の出力装置 4とを含む。
[0019] 記憶装置 3は、辞書記憶部 31と登録候補記憶部 32とを備えて!/、る。辞書記憶部 3 1は、個々のユーザの辞書を格納しており、また各々の辞書には単語とそれに対応 する言語情報が格納されて!/、る。ここで言語情報は後述する自然言語処理手段 21 がその処理のために参照する情報であり、例えば、仮名表記、読み、訳語、品詞、意 味情報などから構成される。登録候補記憶部 32は、個々のユーザの辞書に新たに 登録すべき辞書データの候補である登録候補辞書データを記憶して!/、る。ここで辞 書データは辞書に登録された情報の最小単位であり、単語とそれに対応する言語情 報からなる。
[0020] データ処理装置 2は、 自然言語処理手段 21と判定手段 22と問い合わせ手段 23と 辞書登録手段 24とを備える。
自然言語処理手段 21は、ユーザからの入力を受け付け、その入力データに対して 辞書記憶部 31に格納されて!/、るそのユーザの辞書を利用して自然言語処理を施し 、処理の結果を出力する。ここで自然言語処理手段 21の行なう自然言語処理は例え ば、機械翻訳処理や音声合成処理である。ここで機械翻訳処理は入力された第一の 言語の文字列を第二の言語の文字列に変換する処理であり、音声合成処理は入力 された文字列を音声信号に変換する処理である。また自然言語処理手段 21は入力 データに対して自然言語処理を施す前に、その入力データを判定手段 22に出力す る。なお自然言語処理手段 21が未知語検出機能を備えるようにし、入力データを常 に判定手段 22に出力するのではなぐ入力データ内に未知語が発見された場合に 限って判定手段 22に入力データが出力され、判定手段 22が動作する形態を取って も良い。
[0021] 判定手段 22は、自然言語処理手段 21から入力された入力データと登録候補記憶 部 32に格納された辞書データの単語を比較し、当該入力データに登録候補記憶部 32に格納された辞書データに対応する単語 (以下、「対応する単語」という)が含まれ るかどうかを検査する。ここで当該入力データに対応する単語が発見された場合、そ の対応する単語に対応する登録候補辞書データ(以下、「対応辞書データ」とレ、う)を 問い合わせ手段 23に出力する。なお入力データに未知語が発見された場合に限つ て判定手段 22が動作する形態をとつた場合には、さらに判定手段 22が入力データ に対応する単語が含まれるかどうかを検査する際に、入力データ中の未知語を含む 部分と辞書データの単語に重なりがある場合に限って対応する単語が含まれると判 定する形態を取っても良い。
[0022] 問い合わせ手段 23は、判定手段 22から入力された対応辞書データを出力装置 4 に表示して辞書に登録するかどうかをユーザに問!/、合わせる。ここで入力装置 1から 登録する旨の入力がなされた場合、問い合わせ手段 23はその対応辞書データを辞 書登録手段 24に出力する。また入力装置 1から登録する必要がない旨の入力がなさ れた場合は自然言語処理手段 21に制御を戻す。なお入力装置 1から登録する必要 カ¾い旨の入力がなされた場合には、さらに対応辞書データを登録対象外であるこ とを表す情報とともに登録候補記憶部 32に記録することで、その後で登録候補記憶 部 32に同じ辞書データが登録されたとしても登録対象外として処理する形態を取つ ても良い。 [0023] 辞書登録手段 24は、問い合わせ手段 23から入力された対応辞書データを辞書に 登録し、自然言語処理手段 21に制御を戻す。
[0024] 次に、図 1及び図 2のフローチャートを参照して、自然言語処理システム 10の動作 について詳細に説明する。
まず自然言語処理手段 21は入力装置 1から入力を受け付けると、自然言語処理を 実行する前に入力された入力データを判定手段 22に出力する。判定手段 22は、 自 然言語処理手段 21から入力データを受け付けると、登録候補記憶部 32から登録候 補辞書データを取り出す(図 2のステップ A1)。
[0025] 次に登録候補記憶部 32から登録候補辞書データが取り出せた力、、取り出せたなら その辞書データが登録対象外でなレ、かを検査し、辞書に登録すべき辞書データの 候補が存在するかどうかを調べる (ステップ A2)。ここで登録すべき辞書データの候 補が存在しな!/、場合、 自然言語処理手段 21は入力データに対して自然言語処理を 施し、その結果を出力装置 4に出力する(ステップ A2の判定がノー、ステップ A10)。
[0026] また登録すべき辞書データの候補が存在する場合、判定手段 22は入力データとそ の各々の辞書データとを比較する(ステップ A3および A4)。入力データに対応する 単語が含まれて!/、な!/、場合、自然言語処理手段 21は入力データに対して自然言語 処理を施し、その結果を出力装置 4に出力する(ステップ A4の判定がノー、ステップ A10)。
[0027] 入力データに対応する単語が含まれている場合、問い合わせ手段 23は出力装置 4にその辞書データ(対応辞書データ)を表示し、辞書に登録するかどうかをユーザ に問い合わせる(ステップ A5)。その後、入力装置 1から問い合わせに対する応答の 入力を受け付け、登録対象外と入力された対応辞書データが存在するかどうかを調 ベる (ステップ A6)。登録対象外と入力された対応辞書データが存在する場合、問い 合わせ手段 23は当該辞書データを登録対象外であることを表す情報とともに登録候 補記憶部 32に記録する(ステップ A7)。
[0028] その後、もしくはステップ A6で登録対象外と入力された辞書データが存在しない場 合、問レ、合わせ手段 23は登録すると入力された対応辞書データが存在するかどうか を調べる (ステップ A8)。登録すると入力された対応辞書データが存在する場合、辞 書登録手段 23は当該辞書データを辞書に登録する(ステップ A9)。
[0029] その後、もしくはステップ A8で登録すると入力された対応辞書データが存在しない 場合、 自然言語処理手段 21は辞書記憶部 31に記憶された辞書を用いて入力デー タに自然言語処理を施し、その結果を出力装置 4に出力する (ステップ A10)。
[0030] 次に、本実施の形態の効果について説明する。
本実施の形態では、ユーザが自然言語処理手段 21に入力した入力データに登録 すべき辞書データに対応する単語が含まれる場合に限って、その辞書データに関す る通知、問レ、合わせを行なうように構成されてレ、る。
このため、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入 力データの文脈に沿って有用性を判断することができ、その要不要の判断を容易に 下せるようになる。またユーザは自分が入力した入力データに対して自然言語処理 を施す一連の作業の中でその辞書データの要不要を判断することができ、行動を阻 害されずに辞書データの要不要を判断することができるようになる。
[0031] 次に、本発明の第 2の実施形態例に係る辞書登録システム 11について図面を参照 して詳細に説明する。辞書登録システム 11は、 自然言語処理システム 10のうち辞書 データを辞書に登録するために必要な部分により構成されているため、自然言語処 理システム 10と共通する部分については図面に図 1と同一の符号を付して説明を省 略する。
[0032] 図 3を参照すると、辞書登録システム 11は、図 1の自然言語処理手段 21に代わり、 自然言語処理手段 21の未知語検出機能に相当する未知語検索手段 25を備えてい 入力装置 1から入力される入力データは、自然言語処理の対象となるデータではな ぐ辞書登録処理のために予め用意された文章等のデータである。
また、出力装置 4は、対応辞書データの登録可否問い合わせとそれに対する応答 の入力にのみ用いられる。
[0033] 次に、本発明の第 3の実施形態例に係るコンピュータシステム 12について図面を 参照して詳細に説明する。
図 4を参照すると、コンピュータシステム 12は、本発明の第 1の実施の形態と同様に 、入力装置 1、データ処理装置 6、記憶装置 3、出力装置 4を備える。
自然言語処理用プログラム 5は、データ処理装置 6に読み込まれデータ処理装置 6 の動作を制御し、記憶装置 3に辞書記憶部 31と登録候補記憶部 32を生成する。デ ータ処理装置 6は自然言語処理用検索プログラム 5の制御により第 1の実施の形態 におけるデータ処理装置 2による処理と同一の処理を実行する。
また、自然言語登録処理プログラム 5の代わりに辞書登録処理プログラム 7をデータ 処理装置 6に読み込み、第 2の実施形態におけるデータ処理装置 2による処理と同 一の処理を実行するようにしてもよ!/、。
[0034] 次に、本発明の第 1の実施例を、図面を参照して説明する。かかる実施例は本発明 の第 1の実施形態に対応するものである。以下では特に自然言語処理手段 21が機 械翻訳処理を行なう場合を考える。
本実施例は、入力装置 1としてキーボードを、データ処理装置 2としてパーソナルコ ンピュータを、データ記憶装置 3として磁気ディスク記録装置を、出力装置 4としてデ イスプレイを備えている。
[0035] パーソナルコンピュータは、自然言語処理手段 21、判定手段 22、問い合わせ手段
23、辞書登録手段 24として機能する中央演算装置を有しており、また磁気ディスク 記憶装置には、辞書記憶部 31および登録候補記憶部 32として機能する記憶領域 が確保されている。
[0036] ここでは登録候補記憶部 32に登録候補として図 5に示した辞書データが格納され ている場合を考える。図 5では登録候補となる辞書データの内容を表形式で示して おり、その表の一行一行が一つの辞書データを表している。例えば 1行目は、 日本語 力 S「ジーン」、英語が「gene」、品詞が「名詞」である辞書データを表している。またさら に 4列目にはその辞書データが登録対象外であるかどうかを示す情報を格納してい る。ここで「 」は後述する登録対象外であるかどうかの検査が完了して!/、な!/、ことを 表し、「対象外」は過去に後述する検査によって対象外と指定された辞書データであ ることを表している。すなわち図 5において「ジーン」は未検査であるのに対して、「遺 伝子診断」は以前にユーザに登録の要不要を問い合わせたことがあり、その結果とし て登録の必要なしと指示された経緯があるとレ、うことを表して!/、る。 [0037] 本発明の処理は、ユーザが自然言語処理手段 21に処理の対象として入力データ を入力することで動作を開始する。ここではユーザが「このような遺伝子はトランスポゾ ンと呼ばれる」という文を入力データとして入力した場合を考える。
中央演算装置は、入力データに対して機械翻訳処理を施す前に、登録候補記憶 部 32から登録候補となる辞書データを取り出し、その内容を検査する。例えば図 5で 示される登録候補記憶部 32から辞書データを取り出し、登録対象外の欄を検査する ことで「遺伝子診断」の辞書データは登録対象外であり、「ジーン」と「トランスポゾン」 の辞書データが未検査の登録候補であることを確認する。
[0038] 次に中央演算装置は自然言語処理の対象として入力された入力データと登録候 補記憶部 32から取り出した登録候補となる辞書データを比較し、この辞書データ中 の「トランスポゾン」とレ、う文字列(対応する単語)が入力データの中に含まれることを 検出する。そこで中央演算装置は「トランスポゾン」の辞書データ(対応辞書データ) を出力装置 4に表示し、これを登録するかどうかをユーザに問い合わせる。
[0039] 図 6にユーザに対する問い合わせ画面の例を示す。ここでユーザが「トランスポゾン 」の「登録する」のラジオボタン 51をチェックして「実行」ボタン 54を押した場合、中央 演算装置は辞書に「トランスポゾン」の辞書データを登録し、登録候補記憶部 32の中 の「トランスポゾン」の辞書データを削除する。またユーザが「登録しな!/、」のラジオボ タン 52をチェックして「実行」ボタン 54を押した場合、中央演算装置は登録候補記憶 部 32の「トランスポゾン」の辞書データの登録対象外の欄に「対象外」であることを示 す情報を書き込む。「保留」のラジオボタン 53や「キャンセル」ボタン 55をユーザが選 択した場合、辞書登録や登録候補記憶部 32の更新を行わない。またさらに「一時的 に利用」というラジオボタンを付加し、表示された辞書データを辞書に登録して恒久 的に利用するのではなぐテンポラリな辞書に登録してその入力データの自然言語 処理にのみ利用するように動作する構成を取っても良い。
[0040] ここで図 6では登録するかどうかを指定するユーザインターフェイスにラジオボタン を用いる例を示した力 図 7のようにチェックボックス 56を用いても良い。図 7の場合、 チェックボックス 56がチェックされた辞書データについては、図 6で「登録する」のラジ オボタン 51が選択された場合と同様の処理を行ない、チェックがない辞書データに ついては、図 6で「登録しない」のラジオボタン 52が選択された場合と同様の処理を fiなっても良い。
[0041] その後、中央演算装置は入力された処理対象に翻訳処理を施し、その結果を出力 装置 4に出力する。
[0042] なお、ここでは入力データと辞書データとを比較する形態の実施例を記した力 ま ず入力データに自然言語処理を施して「トランスポゾン」もしくはその一部が未知語で あることを検出し、この未知語部分が登録候補記憶部 32から取り出した辞書データ「 トランスポゾン」と重なりがあると判定された場合に限って、これを出力装置 4に表示し て登録するかどうかをユーザに問い合わせる形態を取っても良い。
[0043] 実施形態例の自然言語処理システムによれば、ユーザが自然言語処理手段に入 力した入力データに登録すべき辞書データに対応する単語が含まれる場合に限つ てその辞書データに関する通知、問い合わせを行なうため、ユーザは利用が見込ま れる辞書データに対してのみ自分の入力した入力データの文脈に沿ってその有用 性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことが できる。
また、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作 業の中でその辞書データの要不要を判断することができるようになるから、ユーザの 行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる。
[0044] 実施形態例の自然言語処理システムにおいて、自然言語処理手段が入力データ に未知語が含まれて!/、るかどうかを判定する未知語検出機能を備え、自然言語処理 手段が入力データに含まれている未知語を検出した場合に、判定手段が作動するよ うにしてもよい。
[0045] 実施形態例の自然言語処理システムにおいて、自然言語処理手段が入力データ に含まれている未知語を検出した場合に、判定手段が入力データの未知語を含む 部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在 するかどうかを判定するようにしてもょレヽ。
上記の実施形態例の自然言語処理システムによれば、入力データに未知語が存 在するという致命的な場合に限って、その入力データに存在する対応する単語に関 する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで 未知語に対する辞書登録の効果を最大限に得ることができる。
[0046] 実施形態例の自然言語処理システムにお!/、て、自然言語処理手段は、辞書に登 録された辞書データのみを用いて入力データに自然言語処理を施すようにしてもよ い。
[0047] 実施形態例の自然言語処理システムにお!/、て、自然言語処理手段を、第一の言 語の文字列を第二の言語の文字列に変換する機械翻訳手段であるか、または入力 された文字列を音声信号に変換する音声合成手段としてもよい。
[0048] 実施形態例の辞書登録システムによれば、ユーザが入力した入力データに登録す べき辞書データに対応する単語が含まれる場合に限ってその辞書データに関する 通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対しての み自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。 そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことが できる。
[0049] 実施形態例の辞書登録システムにおいて、入力された入力データに未知語が含ま れて!/、るかどうかを判定する未知語検出手段を備え、未知語検出手段が入力データ に含まれている未知語を検出した場合に、判定手段が作動するようにしてもよい。
[0050] 実施形態例の辞書登録システムにおいて、未知語検出手段が入力データに含ま れている未知語を検出した場合に、判定手段が入力データの未知語を含む部分と 登録候補辞書データとを比較し、未知語を含む部分に対応する単語が存在するかど うかを判定するようにしてもよ!/、。
上記の辞書登録システムによれば、入力データに未知語が存在するという致命的 な場合に限って、その入力データに存在する対応する単語に関する通知、問い合わ せを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に対する辞 書登録の効果を最大限に得ることができる。
[0051] 実施形態例の辞書登録システムにおいて、辞書データを、入力された第一の言語 の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ であるか、または入力された文字列を音声信号に変換する音声合成処理で利用され る辞書データとしてあよい。
[0052] 実施形態例の辞書登録システムにお!/、て、辞書データを、入力された第一の言語 の文字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データ であるか、または入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢 字変換処理で利用される辞書データであるか、または入力された音声信号を文字列 に変換する音声認識処理で利用される辞書データとし、判定手段が入力データと登 録候補辞書データとを比較する際には、入力データと登録候補辞書データに変換結 果として格納された文字列とを比較し、対応する単語が存在するかどうかを判定する ようにしてもよい。
[0053] 実施形態例の自然言語処理方法によれば、ユーザが入力した入力データに登録 すべき辞書データに対応する単語が含まれる場合に限ってその辞書データに関す る通知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対して のみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。 そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことが できる。
また、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作 業の中でその辞書データの要不要を判断することができるようになるから、ユーザの 行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる。
[0054] 実施形態例の自然言語処理方法において、入力データに未知語が含まれている 力、どうかを判定し、入力データに未知語が含まれていると判定した場合に、入力デー タと登録候補辞書データとを比較し、入力データに対応する単語が存在するかどうか を判定するようにしてもよい。
[0055] 実施形態例の自然言語処理方法において、入力データに未知語が含まれていると 判定した場合に、入力データの未知語を含む部分と登録候補辞書データとを比較し 、未知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい 上記の実施形態例の自然言語処理方法によれば、入力データに未知語が存在す るという致命的な場合に限って、その入力データに存在する対応する単語に関する 通知、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知 語に対する辞書登録の効果を最大限に得ることができる。
[0056] 実施形態例の自然言語処理方法にお!/、て、自然言語処理では、辞書に登録され た辞書データのみを用いるようにしてもよ!/、。
[0057] 実施形態例の自然言語処理方法にお!/、て、自然言語処理を、第一の言語の文字 列を第二の言語の文字列に変換する機械翻訳処理であるか、または入力された文 字列を音声信号に変換する音声合成処理としてもょレ、。
[0058] 実施形態例の辞書登録方法によれば、ユーザが入力した入力データに登録すベ き辞書データに対応する単語が含まれる場合に限ってその辞書データに関する通 知、問い合わせを行なうため、ユーザは利用が見込まれる辞書データに対してのみ 自分の入力した入力データの文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことが できる。
[0059] 実施形態例の辞書登録方法において、入力データに未知語が含まれているかどう 力、を判定し、入力データに未知語が含まれていると判定した場合に、入力データと登 録候補辞書データとを比較し、入力データに対応する単語が存在するかどうかを判 定するようにしてあよレヽ。
[0060] 実施形態例の辞書登録方法において、入力データに未知語が含まれていると判定 した場合に、入力データの未知語を含む部分と登録候補辞書データとを比較し、未 知語を含む部分に対応する単語が存在するかどうかを判定するようにしてもよい。 上記の実施形態例の辞書登録方法によれば、入力データに未知語が存在すると いう致命的な場合に限って、その入力データに存在する対応する単語に関する通知 、問い合わせを行なうため、ユーザはより少ない問い合わせに応じるだけで未知語に 対する辞書登録の効果を最大限に得ることができる。
[0061] 実施形態例の辞書登録方法において、辞書データを、入力された第一の言語の文 字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであ るか、または入力された文字列を音声信号に変換する音声合成処理で利用される辞 書データとしてもよい。
[0062] 実施形態例の辞書登録方法にお!/、て、辞書データを、入力された第一の言語の文 字列を第二の言語の文字列に変換する機械翻訳処理で利用される辞書データであ るか、または入力された仮名文字歹 IJを漢字仮名混じり文字列に変換する仮名漢字変 換処理で利用される辞書データであるか、または入力された音声信号を文字列に変 換する音声認識処理で利用される辞書データとし、入力データと登録候補辞書デー タとを比較する際には、入力データと登録候補辞書データに変換結果として格納さ れた文字列とを比較し、対応する単語が存在するかどうかを判定するようにしてもよい
[0063] 実施形態例の自然言語処理プログラムを記録した媒体によれば、ユーザが入力し た入力データに登録すべき辞書データに対応する単語が含まれる場合に限ってそ の辞書データに関する通知、問い合わせを行なうようにコンピュータを動作させるた め、ユーザは利用が見込まれる辞書データに対してのみ自分の入力した入力データ の文脈に沿ってその有用性を判断すれば良い。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことが できる。
また、ユーザは自分が入力した入力データに対して自然言語処理を施す一連の作 業の中でその辞書データの要不要を判断することができるようになるから、ユーザの 行動を阻害せずに辞書データの要不要を通知、問い合わせすることができる。
[0064] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機 能が入力データに未知語が含まれているかどうかを判定する機能を備えるようにし、 自然言語処理機能が入力データに未知語が含まれていると判定した場合に、判定 処理をコンピュータに実行させるようにしてもよい。
[0065] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機 能が入力データに未知語が含まれていると判定した場合に、判定処理が入力データ の未知語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応 する単語が存在するかどうかを判定するようにしてもよい。
上記の実施形態例の自然言語処理プログラムを記録した媒体によれば、入力デー タに未知語が存在するという致命的な場合に限って、その入力データに存在する対 応する単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わ せに応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。
[0066] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機 能は、辞書に登録された辞書データのみを用いて入力データに自然言語処理を施 すようにしてもよい。
[0067] 実施形態例の自然言語処理プログラムを記録した媒体において、自然言語処理機 能を、第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能である 力、、または入力された文字列を音声信号に変換する音声合成機能としてもよ!/、。
[0068] 実施形態例の辞書登録プログラムを記録した媒体によれば、ユーザが入力した入 力データに登録すべき辞書データに対応する単語が含まれる場合に限ってその辞 書データに関する通知、問い合わせを行なうようにコンピュータを動作させるため、ュ 一ザは利用が見込まれる辞書データに対してのみ自分の入力した入力データの文 脈に沿ってその有用性を判断すれば良レ、。
そのため、ユーザが個々の辞書データに対する要不要の判断を容易に下すことが できる。
[0069] 実施形態例の辞書登録プログラムを記録した媒体にお!/、て、コンピュータに、入力 データに未知語が含まれているかどうかを判定する未知語検出処理を実行させ、未 知語検出処理が入力データに未知語が含まれていると判定した場合に、判定処理を コンピュータに実行させるようにしてもよい。
[0070] 実施形態例の辞書登録プログラムを記録した媒体にお!/、て、未知語検出処理が入 力データに未知語が含まれていると判定した場合に、判定処理が入力データの未知 語を含む部分と登録候補辞書データとを比較し、未知語を含む部分に対応する単語 が存在するかどうかを判定するようにしてもよ!/、。
上記の実施形態例の辞書登録プログラムを記録した媒体によれば、入力データに 未知語が存在するという致命的な場合に限って、その入力データに存在する対応す る単語に関する通知、問い合わせを行なうため、ユーザはより少ない問い合わせに 応じるだけで未知語に対する辞書登録の効果を最大限に得ることができる。 [0071] 実施形態例の辞書登録プログラムを記録した媒体にお!/ヽて、辞書データを、入力さ れた第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用 される辞書データであるか、または入力された文字列を音声信号に変換する音声合 成機能で利用される辞書データとしてもよい。
[0072] 実施形態例の辞書登録プログラムを記録した媒体にお!/ヽて、辞書データを、入力さ れた第一の言語の文字列を第二の言語の文字列に変換する機械翻訳機能で利用 される辞書データであるか、または入力された仮名文字列を漢字仮名混じり文字列 に変換する仮名漢字変換機能で利用される辞書データであるか、または入力された 音声信号を文字列に変換する音声認識機能で利用される辞書データとし、入力デ ータと登録候補辞書データとを比較する際には、入力データと登録候補辞書データ に変換結果として格納された文字列とを比較し、対応する単語が存在するかどうかを 半 IJ定するようにしてあよレヽ。
[0073] 以上、説明したように、本発明の好適な態様で達成される第 1の効果は、ユーザが 個々の辞書データに対する要不要の判断を容易に下すことができることにある。その 理由は、ユーザが自然言語処理手段に入力した入力データに登録すべき辞書デー タに対応する単語が含まれる場合に限ってその辞書データに関する通知、問い合わ せを行なうためである。これにより、ユーザは利用が見込まれる辞書データに対して のみ自分の入力した入力データの文脈に沿ってその有用性を判断すれば良くなる ためである。
また、第 2の効果は、ユーザの行動を阻害せずに辞書データの要不要を通知、問 い合わせすることができることにある。その理由は、ユーザが自然言語処理手段に入 力した入力データに登録すべき辞書データが含まれる場合に限って通知、問い合わ せを fiなうためである。これにより、ユーザは自分が入力した入力データに対して自 然言語処理を施す一連の作業の中でその辞書データの要不要を判断することがで きるようになるためである。
[0074] 本発明は、入力された第一の言語の文字列を第二の言語の文字列に変換する機 械翻訳装置、入力された文字列を音声信号に変換する音声合成装置をコンピュータ に実現するためのプログラムといった用途に適用できる。 なお、実施例ではユーザが自然言語処理の対象とするデータを入力することで動 作を開始する例を示したが、例えば将来的に自然言語処理の対象とする可能性があ る文書のように、直接自然言語処理の対象としないデータの入力によって動作を開 始する構成を取ることで、自然言語処理で用いる辞書の作成を支援する辞書作成支 援装置をコンピュータに実現するためのプログラムといった用途にも適用できる。さら には例えば、将来的に自然言語処理の結果として得られるべき文書を入力すること によって動作を開始し、この入力データと辞書データに自然言語処理の結果として 格納された文字列とを比較して前記入力データに含まれる辞書データが存在するか どうかを判定する構成を取ることで、例えば機械翻訳処理や仮名漢字変換処理や音 声認識処理と!/、つた自然言語処理で用いる辞書の作成を支援する辞書作成支援装 置をコンピュータに実現するためのプログラムといった用途にも適用できる。
本出願は、 2006年 9月 7日出願に係る日本特許出願 2006— 242519号を基礎と し且つその優先権を主張するものであり、引用によってその開示の内容の全てを本 出願の明細書中に加入する。

Claims

請求の範囲
[1] 入力データに自然言語処理を施す自然言語処理システムにおレ、て、
登録候補辞書データを記憶する登録候補記憶部(32)と、
前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記登 録候補辞書データに対応する単語が存在するかどうかを判定する判定手段(22)と、 前記判定手段で前記対応する単語が存在すると判定された場合に前記登録候補 辞書データを辞書記憶部(31)に登録するかどうかをユーザに問い合わせて前記ュ 一ザの指示を受け付ける問い合わせ手段(23)と、
前記問い合わせ手段へ入力された指示に従って前記登録候補辞書データを前記 辞書記憶部に登録する辞書登録手段(24)と、
前記辞書記憶部に登録された辞書データを用いて前記入力データに自然言語処 理を施す自然言語処理手段(21)とを備えることを特徴とする自然言語処理システム
[2] 前記自然言語処理手段(21)が前記入力データに含まれて!/、る未知語を検出する 未知語検出機能を備え、
前記自然言語処理手段が前記入力データに含まれて!/、る未知語を検出した場合 に、前記判定手段(22)が作動することを特徴とする請求項 1に記載の自然言語処理 システム。
[3] 前記自然言語処理手段(21)が前記入力データに含まれて!/、る未知語を検出した 場合に、前記判定手段(22)が前記入力データの未知語を含む部分と前記登録候 補辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在する 力、どうかを判定することを特徴とする請求項 2に記載の自然言語処理システム。
[4] 前記自然言語処理手段(21)は、前記辞書記憶部(31)に登録された辞書データ のみを用いて前記入力データに自然言語処理を施すことを特徴とする請求項 1ない し請求項 3のいずれかひとつに記載の自然言語処理システム。
[5] 前記自然言語処理手段(21)が、第一の言語の文字列を第二の言語の文字列に 変換する機械翻訳手段、および/または、入力された文字列を音声信号に変換する 音声合成手段を含むことを特徴とする請求項 1ないし請求項 4のいずれかひとつに 記載の自然言語処理システム。
[6] 登録候補辞書データを記憶する登録候補記憶部(32)と、
入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候 補辞書データに対応する単語が存在するかどうかを判定する判定手段(22)と、 前記判定手段で前記対応する単語が存在すると判定された場合に前記登録候補 辞書データを辞書記憶部(31)に登録するかどうかをユーザに問い合わせて前記ュ 一ザの指示を受け付ける問い合わせ手段(23)と、
前記問い合わせ手段へ入力された指示に従って前記登録候補辞書データを前記 辞書記憶部に登録する辞書登録手段(24)とを備えることを特徴とする辞書登録シス テム。
[7] 前記入力データに含まれている未知語を検出する未知語検出手段(25)を更に備 え、
前記未知語検出手段が前記入力データに含まれている未知語を検出した場合に、 前記判定手段(22)が作動することを特徴とする請求項 6記載の辞書登録システム。
[8] 前記未知語検出手段(25)が前記入力データに含まれている未知語を検出した場 合に、前記判定手段(22)が前記入力データの未知語を含む部分と前記登録候補 辞書データとを比較し、前記未知語を含む部分に前記対応する単語が存在するかど うかを判定することを特徴とする請求項 7に記載の辞書登録システム。
[9] 前記辞書データが、入力された第一の言語の文字歹 IJを第二の言語の文字列に変 換する機械翻訳処理で利用される辞書データ、および/または、入力された文字列 を音声信号に変換する音声合成処理で利用される辞書データを含むことを特徴とす る請求項 6ないし請求項 8のいずれかひとつに記載の辞書登録システム。
[10] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変 換する機械翻訳処理で利用される辞書データ、入力された仮名文字歹 IJを漢字仮名 混じり文字列に変換する仮名漢字変換処理で利用される辞書データ、および/また は、入力された音声信号を文字列に変換する音声認識処理で利用される辞書デー タを含み、
前記判定手段(22)が前記入力データと前記登録候補辞書データとを比較する際 には、前記入力データと前記登録候補記憶部(31)に変換結果として格納された登 録候補データの文字列とを比較し、前記対応する単語が存在するかどうかを判定す ることを特徴とする請求項 6ないし請求項 8のいずれかひとつに記載の辞書登録シス テム。
[11] 入力データと記憶装置に記憶されている登録候補辞書データとを比較し、前記入 力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定し、 前記対応する単語が存在すると判定された場合に前記登録候補辞書データを辞 書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を受け付け、 入力された指示に従って前記登録候補辞書データを前記辞書に登録し、 前記辞書に登録された辞書データを用いて前記入力データに自然言語処理を施 すことを特徴とする自然言語処理方法。
[12] 前記入力データに未知語が含まれているかどうかを判定し、
前記入力データに未知語が含まれていると判定した場合に、前記入力データと前 記登録候補辞書データとを比較し、前記入力データに前記対応する単語が存在す るかどうかを判定することを特徴とする請求項 11記載の自然言語処理方法。
[13] 前記入力データに未知語が含まれていると判定した場合に、前記入力データの未 知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に 前記対応する単語が存在するかどうかを判定することを特徴とする請求項 12記載の 自然言語処理方法。
[14] 前記自然言語処理では、前記辞書に登録された辞書データのみを用いることを特 徴とする請求項 11な!/、し請求項 13の!/、ずれかひとつに記載の自然言語処理方法。
[15] 前記自然言語処理が、第一の言語の文字列を第二の言語の文字列に変換する機 械翻訳処理、および/または、入力された文字列を音声信号に変換する音声合成 処理を含むことを特徴とする請求項 11ないし請求項 14のいずれかひとつに記載の 自然言語処理方法。
[16] 入力データと記憶装置に記憶されている登録候補辞書データとを比較し、前記入 力データに前記登録候補辞書データに対応する単語が存在するかどうかを判定し、 前記対応する単語が存在すると判定された場合に前記登録候補辞書データ対応 辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を 受け付け、
入力された指示に従って前記登録候補辞書データを前記辞書に登録することを特 徴とする辞書登録方法。
[17] 前記入力データに未知語が含まれているかどうかを判定し、
前記入力データに未知語が含まれていると判定した場合に、前記入力データと前 記登録候補辞書データとを比較し、前記入力データに前記対応する単語が存在す るかどうかを判定することを特徴とする請求項 16記載の辞書登録方法。
[18] 前記入力データに未知語が含まれていると判定した場合に、前記入力データの未 知語を含む部分と前記登録候補辞書データとを比較し、前記未知語を含む部分に 前記対応する単語が存在するかどうかを判定することを特徴とする請求項 17記載の 辞書登録方法。
[19] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変 換する機械翻訳処理で利用される辞書データ、および/または、入力された文字列 を音声信号に変換する音声合成処理で利用される辞書データを含むことを特徴とす る請求項 16ないし請求項 18のいずれかひとつに記載の辞書登録方法。
[20] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変 換する機械翻訳処理で利用される辞書データ、入力された仮名文字歹 IJを漢字仮名 混じり文字列に変換する仮名漢字変換処理で利用される辞書データで、および/ま たは、入力された音声信号を文字列に変換する音声認識処理で利用される辞書デ ータを含み、
前記入力データと前記登録候補辞書データとを比較する際には、前記入力データ と前記登録候補辞書データに変換結果として格納された文字列とを比較し、前記対 応する単語が存在するかどうかを判定することを特徴とする請求項 16ないし請求項 1 8のいずれかひとつに記載の辞書登録方法。
[21] 制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンピュータ 'プロ グラムで符号化された記録媒体であって、前記 CPUに、
登録候補辞書データを記憶装置に記憶する処理と、 前記入力データと前記登録候補辞書データとを比較し、前記入力データに前記登 録候補辞書データに対応する単語が存在するかどうかを判定する処理と、
前記判定処理で前記対応する単語が存在すると判定された場合に前記登録候補 辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指示を 受け付ける処理と、
前記問い合わせ手段処理で入力された指示に従って前記登録候補辞書データを 前記辞書に登録する処理と、
前記辞書に登録された辞書データを用いて前記入力データに自然言語処理を施 す処理とを実行させることを特徴とする媒体。
[22] 前記自然言語処理が、前記入力データに未知語が含まれているかどうかを判定す る処理を含み、
前記自然言語処理が前記入力データに未知語が含まれていると判定した場合に、 前記判定処理を前記コンピュータに実行させることを特徴とする請求項 21記載の媒 体。
[23] 前記自然言語処理が前記入力データに前記未知語が含まれていると判定した場 合に、前記判定処理が前記入力データの未知語を含む部分と前記登録候補辞書デ 一タとを比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを 判定することを特徴とする請求項 22に記載の媒体。
[24] 前記自然言語処理は、前記辞書に登録された辞書データのみを用いて前記入力 データに自然言語処理を施すことを特徴とする請求項 21ないし請求項 23のいずれ かひとつに記載の媒体。
[25] 前記自然言語処理が、第一の言語の文字列を第二の言語の文字列に変換する機 械翻訳機能、および/または、入力された文字列を音声信号に変換する音声合成 機能を含むことを特徴とする請求項 21ないし請求項 24のいずれかひとつに記載の 媒体。
[26] 制御演算装置(CPU)を作動させる、コンピュータ読込み可能なコンピュータ 'プロ グラムで符号化された記録媒体であって、前記 CPUに、
登録候補辞書データを記憶する処理と、 入力データと前記登録候補辞書データとを比較し、前記入力データに前記登録候 補辞書データに対応する単語が存在するかどうかを判定する処理と、
前記判定処理で、前記対応する単語が存在すると判定された場合に前記登録候 補辞書データを辞書に登録するかどうかをユーザに問い合わせて前記ユーザの指 示を受け付ける処理と、
前記問い合わせ処理で入力された指示に従って前記登録候補辞書データを前記 辞書に登録する処理とを実行させることを特徴とする媒体。
[27] 前記コンピュータに、前記入力データに未知語が含まれているかどうかを判定する 処理を更に実行させ、
前記未知語検出処理が前記入力データに含まれている未知語を検出した場合に、 前記判定処理を前記コンピュータに実行させることを特徴とする請求項 26に記載の 媒体。
[28] 前記未知語検出処理が前記入力データに含まれている未知語を検出した場合に、 前記判定処理が前記入力データの未知語を含む部分と前記登録候補辞書データと を比較し、前記未知語を含む部分に前記対応する単語が存在するかどうかを判定す ることを特徴とする請求項 27に記載の媒体。
[29] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変 換する機械翻訳機能で利用される辞書データ、および/または、入力された文字列 を音声信号に変換する音声合成機能で利用される辞書データを含むことを特徴とす る請求項 26ないし請求項 28のいずれかひとつに記載の媒体。
[30] 前記辞書データが、入力された第一の言語の文字列を第二の言語の文字列に変 換する機械翻訳機能で利用される辞書データ、入力された仮名文字歹 IJを漢字仮名 混じり文字列に変換する仮名漢字変換機能で利用される辞書データ、および/また は、入力された音声信号を文字列に変換する音声認識機能で利用される辞書デー タを含み、
前記判定処理が前記入力データと前記登録候補辞書データとを比較する際には、 前記入力データと前記登録候補辞書データに変換結果として格納された文字列とを 比較し、前記対応する単語が存在するかどうかを判定することを特徴とする請求項 2 6な!/、し請求項 28の!/、ずれかひとつに記載の媒体。
PCT/JP2007/067416 2006-09-07 2007-09-06 Système de traitement du langage naturel et système d'enregistrement de dictionnaire WO2008029881A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008533198A JP5239863B2 (ja) 2006-09-07 2007-09-06 自然言語処理システムおよび辞書登録システム
CN200780033343.6A CN101512518B (zh) 2006-09-07 2007-09-06 自然语言处理系统和词典登录系统
US12/310,773 US9575953B2 (en) 2006-09-07 2007-09-06 Natural-language processing system and dictionary registration system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-242519 2006-09-07
JP2006242519 2006-09-07

Publications (1)

Publication Number Publication Date
WO2008029881A1 true WO2008029881A1 (fr) 2008-03-13

Family

ID=39157306

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/067416 WO2008029881A1 (fr) 2006-09-07 2007-09-06 Système de traitement du langage naturel et système d'enregistrement de dictionnaire

Country Status (4)

Country Link
US (1) US9575953B2 (ja)
JP (1) JP5239863B2 (ja)
CN (1) CN101512518B (ja)
WO (1) WO2008029881A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140077788A (ko) * 2012-12-14 2014-06-24 한국전자통신연구원 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법
KR20200036419A (ko) * 2018-09-28 2020-04-07 우석대학교 산학협력단 음성을 이용한 키워드 추출 방법 및 서버

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system
JP2009099056A (ja) * 2007-10-18 2009-05-07 Panasonic Corp 文字列受信装置、文字列転送装置、文字列送受信システム、コンテンツ受信端末向けシステムlsi、名簿共有システム、名簿共有方法およびコンテンツ推薦方法
JP5335227B2 (ja) * 2007-12-10 2013-11-06 京セラ株式会社 情報端末装置
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP6447068B2 (ja) * 2014-12-05 2019-01-09 カシオ計算機株式会社 情報処理装置、情報表示方法及びプログラム
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11250872B2 (en) * 2019-12-14 2022-02-15 International Business Machines Corporation Using closed captions as parallel training data for customization of closed captioning systems

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260984A (ja) * 1997-03-19 1998-09-29 Toshiba Corp 辞書管理方法および辞書管理装置および辞書利用システム

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
GB2199170A (en) * 1986-11-28 1988-06-29 Sharp Kk Translation apparatus
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JP2836159B2 (ja) * 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
JPH03268062A (ja) * 1990-03-19 1991-11-28 Fujitsu Ltd 機械翻訳電子メール装置における私用単語の登録装置
JPH0594436A (ja) * 1990-10-10 1993-04-16 Fuji Xerox Co Ltd 文書処理装置
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5742834A (en) * 1992-06-24 1998-04-21 Canon Kabushiki Kaisha Document processing apparatus using a synonym dictionary
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JPH06314274A (ja) * 1993-04-28 1994-11-08 Toshiba Corp 文書作成装置及び文書情報入力方法
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
JPH07175813A (ja) * 1993-10-27 1995-07-14 Ricoh Co Ltd 複合通信処理装置
JPH07182465A (ja) * 1993-12-22 1995-07-21 Hitachi Ltd 文字認識方法
TW274135B (ja) * 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
KR970701886A (ko) * 1994-11-21 1997-04-12 다떼이시 요시오 복수의 클라이언트 장치에 공유되는 데이터베이스 시스템, 데이터 갱신방법 및 문자 처리장치에의 응용(Data base system shared by a plurality of client apparatuses, data updating method and application to character processor)
JPH08167006A (ja) * 1994-12-13 1996-06-25 Canon Inc 自然言語処理装置及びその方法
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities
JPH09114828A (ja) * 1995-10-20 1997-05-02 Sanyo Electric Co Ltd 変換候補の優先順位情報の更新方法
JPH09161014A (ja) * 1995-12-13 1997-06-20 Oki Electric Ind Co Ltd 文字認識装置
JP3254642B2 (ja) * 1996-01-11 2002-02-12 株式会社日立製作所 索引の表示方法
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
JP3464881B2 (ja) 1997-03-25 2003-11-10 株式会社東芝 辞書構築装置および方法
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
US6507678B2 (en) * 1998-06-19 2003-01-14 Fujitsu Limited Apparatus and method for retrieving character string based on classification of character
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US7254531B2 (en) * 2000-09-05 2007-08-07 Nir Einat H In-context analysis and automatic translation
JP2002108858A (ja) * 2000-09-20 2002-04-12 Internatl Business Mach Corp <Ibm> 機械翻訳方法、機械翻訳装置および記録媒体
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7254530B2 (en) * 2001-09-26 2007-08-07 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
JP3838904B2 (ja) 2001-11-22 2006-10-25 沖電気工業株式会社 辞書装置及び自然言語処理システム
JP4650920B2 (ja) * 2002-04-16 2011-03-16 富士通株式会社 情報処理装置及び情報処理プログラム
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7548863B2 (en) * 2002-08-06 2009-06-16 Apple Inc. Adaptive context sensitive analysis
JP4355138B2 (ja) * 2002-12-13 2009-10-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳サーバ、コラボレーションサーバ及びプログラム
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
US20070174041A1 (en) * 2003-05-01 2007-07-26 Ryan Yeske Method and system for concept generation and management
CN100429648C (zh) * 2003-05-28 2008-10-29 洛昆多股份公司 一种文本自动分块的方法、分块器和文本到语言合成系统
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
CN100568230C (zh) * 2004-07-30 2009-12-09 国际商业机器公司 基于超文本的多语言网络信息搜索方法和系统
JP4570509B2 (ja) * 2005-04-22 2010-10-27 富士通株式会社 読み生成装置、読み生成方法及びコンピュータプログラム
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
JP2007058509A (ja) * 2005-08-24 2007-03-08 Toshiba Corp 言語処理システム
JP2007206975A (ja) * 2006-02-01 2007-08-16 Toshiba Corp 言語情報変換装置及びその方法
US7899664B2 (en) * 2006-05-22 2011-03-01 Sharp Kabushiki Kaisha Information processing apparatus, computer, information processing system, information processing method, and program for receiving a character string and returning conversion candidates
US9575953B2 (en) * 2006-09-07 2017-02-21 Nec Corporation Natural-language processing system and dictionary registration system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260984A (ja) * 1997-03-19 1998-09-29 Toshiba Corp 辞書管理方法および辞書管理装置および辞書利用システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140077788A (ko) * 2012-12-14 2014-06-24 한국전자통신연구원 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법
KR101711941B1 (ko) * 2012-12-14 2017-03-03 한국전자통신연구원 음성인식 시스템에서 유사도를 기반으로 한 비인식 대상 단어 생성 방법
KR20200036419A (ko) * 2018-09-28 2020-04-07 우석대학교 산학협력단 음성을 이용한 키워드 추출 방법 및 서버
KR102166446B1 (ko) 2018-09-28 2020-10-15 우석대학교 산학협력단 음성을 이용한 키워드 추출 방법 및 서버

Also Published As

Publication number Publication date
US20090281786A1 (en) 2009-11-12
CN101512518B (zh) 2015-06-24
US9575953B2 (en) 2017-02-21
JP5239863B2 (ja) 2013-07-17
JPWO2008029881A1 (ja) 2010-01-21
CN101512518A (zh) 2009-08-19

Similar Documents

Publication Publication Date Title
WO2008029881A1 (fr) Système de traitement du langage naturel et système d&#39;enregistrement de dictionnaire
JP4416643B2 (ja) マルチモーダル入力方法
JP2014010623A (ja) 音声翻訳装置、方法およびプログラム
WO2008113717A1 (en) Disambiguating text that is to be converted to speech using configurable lexeme based rules
JPH11338858A (ja) 入力予測装置、入力予測方法及び入力予測プログラムを記録した記録媒体
JP2007219190A (ja) 音声認識装置と認識方法及びそのプログラム
JPH05324702A (ja) 情報処理装置
JPWO2007066433A1 (ja) 音声認識装置
JPH08314910A (ja) 異種コード文字列転記装置および電子辞書
JP2006065651A (ja) 商標称呼検索プログラム、商標称呼検索装置及び商標称呼検索方法
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP2008225774A (ja) 情報処理装置及びこの装置の階層メニュー表示方法並びに階層メニュー表示プログラム
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置
JP2000285112A (ja) 予測入力装置及び予測入力方法並びに記録媒体
JP2005208825A (ja) データ検索システム、データ検索方法及びプログラム
JP2015072701A (ja) 翻訳装置、方法およびプログラム
JP2006155529A (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP2010055506A (ja) 音声翻訳装置および方法
Troxel Exploring the Isaiah Scrolls and Their Textual Variants by Donald W. Parry
JP3410163B2 (ja) 言語処理装置
JP5363522B2 (ja) 日本語の単字入力を支援する機能を提供する方法及びシステム
JP2006155262A (ja) 入力支援システム、入力支援方法及びプログラム
JP2004334728A (ja) 漸進的文解釈支援装置、及び漸進的文解釈支援プログラム
JPH083795B2 (ja) 質問推定装置
JPH04116763A (ja) 漢字読み変換方式

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780033343.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07806857

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2008533198

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12310773

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07806857

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)