WO2022118720A1 - 画像と文字との混在文章を生成する装置 - Google Patents

画像と文字との混在文章を生成する装置 Download PDF

Info

Publication number
WO2022118720A1
WO2022118720A1 PCT/JP2021/043079 JP2021043079W WO2022118720A1 WO 2022118720 A1 WO2022118720 A1 WO 2022118720A1 JP 2021043079 W JP2021043079 W JP 2021043079W WO 2022118720 A1 WO2022118720 A1 WO 2022118720A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
conversion target
natural language
target portion
conversion
Prior art date
Application number
PCT/JP2021/043079
Other languages
English (en)
French (fr)
Inventor
謙一 上田
Original Assignee
株式会社Adeu.Nek
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Adeu.Nek filed Critical 株式会社Adeu.Nek
Priority to US17/997,315 priority Critical patent/US20230169257A1/en
Priority to JP2022566868A priority patent/JP7418761B2/ja
Publication of WO2022118720A1 publication Critical patent/WO2022118720A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Definitions

  • the present invention relates to a device for generating mixed sentences of images and characters.
  • the device for generating a mixed sentence of an image and a character is The first module to read natural language sentences and The second module that identifies the part to be converted in the natural language sentence, The converted image corresponding to the conversion target portion is specified by referring to the image database in which the image and the word expressing the content are associated with each other and stored, and the conversion target portion is stored in the natural language sentence after the conversion.
  • the device for generating a mixed sentence of an image and a character is The first module that reads natural language sentences in the order of input, The second module that accepts the input of the conversion command and specifies the part to be converted in the natural language sentence, The third module, When the conversion target portion is specified for the first time in the natural language sentence, a plurality of conversion target portions corresponding to the conversion target portion are referred to by referring to an image database in which an image and a word expressing the content are associated and stored. The candidate image is displayed, the selection of one candidate image from the plurality of candidate images is accepted, the conversion target portion is converted into the one candidate image and displayed, and the conversion target portion and the one candidate image are displayed. Correspond and memorize When the conversion target portion is specified from the second time onward in the natural language sentence, the conversion target portion is converted into the one stored candidate image and displayed. With the third module including.
  • An example of a natural language sentence read by the mixed sentence generation device 20 in S110 is shown.
  • a word extracted from a natural language sentence in S120 is shown.
  • the word specified as the conversion target part in S120 is shown.
  • the converted image specified in S131 is shown.
  • the mixed sentence of the image and the character generated in S132 is shown.
  • An example of a natural language sentence read by the mixed sentence generation device 20 in S110 is shown.
  • a word extracted from a natural language sentence in S120 is shown.
  • the word specified as the conversion target part in S120 is shown.
  • the converted image specified in S131 is shown.
  • the mixed sentence of the image and the character generated in S132 is shown.
  • a part of the natural language sentences read in the input order in S210 is shown.
  • the display when the conversion command is input in S220 is shown.
  • a plurality of candidate images displayed in S232 are shown. An example in which the conversion target portion is converted into one candidate image selected by the user in S233 and displayed is shown.
  • the display when the conversion command is input in S220 is shown.
  • An example in which the conversion target portion is converted into one candidate image stored in the memory and displayed in S235 is shown.
  • a part of the natural language sentences read in the input order in S210 is shown.
  • the display when the conversion command is input in S220 is shown.
  • a plurality of candidate images displayed in S232 are shown.
  • An example in which the conversion target portion is converted into one candidate image selected by the user in S233 and displayed is shown.
  • the display when the conversion command is input in S220 is shown.
  • An example in which the conversion target portion is converted into one candidate image stored in the memory and displayed in S235 is shown. It is a flowchart which shows the detail of the process which specifies the image corresponding to the conversion target part in 3rd Embodiment.
  • An example of a conversion target portion in which elements are extracted by semantic analysis in S131a is shown.
  • the elements extracted in S131a are shown.
  • the image extracted in S131b is shown.
  • An image resized or deformed in S131c is shown.
  • the image synthesized in S131d is shown.
  • An example of a conversion target portion in which elements are extracted by semantic analysis in S131a is shown.
  • the elements extracted in S131a are shown.
  • the image extracted in S131b is shown.
  • An image resized or deformed in S131c is shown.
  • the image synthesized in S131d is shown.
  • the mixed sentence generator 20 reads the natural language sentence before conversion (S110, FIG. 4A, FIG. 5A).
  • the mixed sentence generation device 20 specifies a conversion target portion of the natural language sentence (S120, FIG. 4C, FIG. 5C).
  • the mixed sentence generation device 20 identifies the converted image corresponding to the conversion target portion with reference to the image database 30 (S131, FIG. 4D, FIG. 5D), and converts the conversion target portion into the converted image in the natural language sentence. It is converted and displayed (S132, FIG. 4E, FIG. 5E).
  • the mixed sentence generator 20 reads the natural language sentences before conversion in the order of input (S210, FIG. 7A, FIG. 8A).
  • the mixed sentence generation device 20 receives the input of the conversion command and specifies the conversion target portion of the natural language sentence (S220, S225, FIG. 7B, FIG. 8B).
  • the mixed sentence generation device 20 refers to the image database 30 to display a plurality of candidate images corresponding to the conversion target portion, and displays a plurality of candidate images.
  • the selection of one candidate image is accepted from the image, and the conversion target portion is converted into one selected candidate image and displayed (S231 to S233, FIG. 7C, FIG. 7D, FIG. 8C, FIG. 8D).
  • the conversion target portion and one selected candidate image are stored in association with each other (S234).
  • the mixed sentence generation device 20 converts the conversion target portion into one stored candidate image and displays it (S235, FIG. 7F, FIG. 8F).
  • the third embodiment is a further development of the configuration for specifying the converted image.
  • the mixed sentence generation device 20 performs semantic analysis of the conversion target portion, edits the image based on the analysis result, and generates the converted image (FIGS. 9 to 11E).
  • FIG. 1 is a block diagram of the mixed sentence generation device 20 and its peripheral devices. The configuration shown in FIG. 1 is common to the first to third embodiments.
  • the mixed sentence generation device 20 is connected to an input device 10, an image database 30, and a display device 40.
  • the input device 10 includes, for example, a keyboard, a mouse, or a touch panel for a user to input a natural language sentence or a command.
  • the input device 10 may be a communication device that receives a natural language sentence from another computer (not shown).
  • the image database 30 is a database in which images and concepts are associated and stored. Images include photographs and illustrations. Alternatively, a three-dimensional model for generating a two-dimensional image may be included. A concept is a verbal expression of the content of an image.
  • the concept associated with an image in the image database 30 constitutes a multi-layer structure including a superordinate concept and a subordinate concept.
  • FIG. 2 shows a part of the image database 30.
  • the image database 30 corresponds to each subordinate concept such as “boy, boy”, “young man, young man”, “uncle, middle-aged man”, “grandfather, elderly man” included in the superordinate concept of "male". I remember the image.
  • the concept associated with the image may include a more detailed index.
  • the index includes, for example, the presence or absence of glasses, the presence or absence of a beard, and facial expressions indicating emotions.
  • the display device 40 includes, for example, a display device for displaying a mixed sentence of a generated image and characters.
  • a printer that prints a mixed text of images and characters, or a communication device that transmits the mixed text to another computer may be used.
  • the mixed sentence generator 20 is a computer equipped with a processor, memory, storage, etc. (not shown).
  • the mixed sentence generation device 20 may be configured by one computer or may be configured by a plurality of computers.
  • the mixed sentence generation device 20 includes a sentence reading module 21, a conversion target specifying module 22, and an image conversion module 23.
  • the function of each module is realized by loading the program stored in the storage into the memory and executing it by the processor.
  • the sentence reading module 21 corresponds to the "first module" in the present invention, and reads a natural language sentence before conversion.
  • the text reading module 21 may be realized by application software for text editing.
  • the conversion target specifying module 22 corresponds to the "second module" in the present invention, and specifies the conversion target portion of the natural language sentence to be converted.
  • the image conversion module 23 corresponds to the "third module" in the present invention, and accesses the image database 30 to specify the converted image corresponding to the conversion target portion. Further, the image conversion module 23 converts the conversion target portion into a converted image and displays it on the display device 40.
  • FIG. 3A is a flowchart of the mixed sentence generation device 20 according to the first embodiment.
  • the mixed sentence generation device 20 generates a mixed sentence of an image and a character by reading a natural language sentence and converting a conversion target portion into an image by the following processing.
  • the mixed sentence generation device 20 reads a natural language sentence input from the input device 10.
  • the mixed sentence generation device 20 may read a natural language sentence specified by a command input from the input device 10 from a storage device (not shown).
  • the mixed sentence generation device 20 specifies a conversion target portion of the natural language sentence.
  • the conversion target part is specified according to the specification when the user specifies it.
  • the user specifies the part to be converted by attaching a marker such as a symbol to the part of the natural language sentence to be converted into an image.
  • the conversion target portion may be specified by some standard by the mixed sentence generation device 20 regardless of the user's designation. Some criteria are, for example, the following criteria.
  • the criteria for specifying the conversion target portion by the mixed sentence generator 20 may be a combination of (1) and (2), or may be another criterion.
  • the mixed sentence generation device 20 refers to the image database 30 to convert the conversion target portion into an image and display it. After S130, the mixed sentence generation device 20 ends the processing of this flowchart.
  • FIG. 3B is a flowchart showing the details of the process of converting the conversion target portion into an image and displaying it.
  • the process shown in FIG. 3B corresponds to the subroutine of S130 in FIG. 3A.
  • the mixed sentence generation device 20 identifies the converted image corresponding to the conversion target portion specified in S120.
  • the converted image is specified by searching the image database 30 with words included in the conversion target portion. If multiple images are hit in the search, the image with the highest degree of matching is identified as the converted image by referring to the detailed index or the search results in words before and after the conversion target part. do.
  • the image is edited to generate an image corresponding to the conversion target portion will be described in the third embodiment.
  • the mixed sentence generation device 20 scans the entire natural language sentence, converts the conversion target portion into a converted image, and displays it on the display device 40. After S132, the mixed sentence generation device 20 ends the process of this flowchart and returns to the process shown in FIG. 3A.
  • 4A-4E show a process of converting a part of a Japanese natural language sentence into an image in the first embodiment.
  • 5A-5E show the process of converting a part of an English natural language sentence into an image in the first embodiment.
  • sentences in which images and characters are mixed are generated based on natural language sentences having the same contents.
  • FIGS. 4A and 5A show an example of a natural language sentence read by the mixed sentence generator 20 in S110.
  • the natural language texts shown in FIGS. 4A and 5A are part of "The Sweethearts" by Hans Christian Andersen.
  • a word is an element that constitutes a sentence and is the smallest unit that makes sense as a word. In the case of Japanese, it may be a phrase.
  • Word extraction is performed by a process called morphological analysis.
  • morphological analysis In a language such as Japanese in which the word-to-word delimiter is not clear in terms of notation, the word is extracted by referring to a dictionary database (not shown) to determine the delimiter.
  • words In a language such as English where word-to-word delimiters are clear in terms of notation, words are extracted according to the notation rules.
  • 4C and 5C show words specified as conversion target parts in S120.
  • the conversion target portion may be specified in a unit larger than a word.
  • a noun phrase containing a modifier such as "boy”, “young man”, “middle-aged man”, and “elderly man” may be specified as a conversion target part. It may be a longer phrase or clause, such as "a young man in a haori” or "a girl walking with a dog".
  • 4D and 5D show the converted images identified in S131.
  • One image is specified for each of the conversion target parts "top”, “ball”, and “swallow”.
  • FIGS. 4E and 5E show mixed sentences of images and characters generated in S132. Each of the conversion target portions “top”, “ball”, and “swallow” in the natural language sentences shown in FIGS. 4A and 5A is converted into an image.
  • the conversion target part As shown in FIGS. 4E and 5E, in the place where the conversion target part "top”, “mari (ball)”, and “swallow” appear for the first time in the sentence, the conversion target part is converted into an image. In addition to replacing it with, the conversion target parts "top”, “ball”, and “swallow” with emphasis such as underline are added to the image.
  • the mixed sentence generation device 20 for generating a mixed sentence of an image and a character has a sentence reading module 21 for reading a natural language sentence and a conversion for specifying a conversion target portion of the natural language sentence.
  • the converted image corresponding to the conversion target part is specified by referring to the target identification module 22 and the image database 30 that stores the image and the word expressing the content in association with each other, and the conversion target part is specified in the natural language sentence.
  • the image conversion module 23 replaces the conversion target portion with the converted image at the place where the conversion target portion first appears in the natural language sentence, and adds the conversion target portion (FIGS. 4E and FIG. See 5E). According to this, the correspondence between the conversion target portion and the converted image is clarified, and the ease of understanding the mixed sentence is improved.
  • the image conversion module 23 replaces the conversion target portion with the converted image at the position where the conversion target portion appears for the second time or later in the natural language sentence. This enables a concise and easy-to-understand display.
  • FIG. 6A is a flowchart of the mixed sentence generation device 20 according to the second embodiment.
  • the mixed sentence generation device 20 generates a mixed sentence of an image and a character by reading the natural language sentence in the input order and converting the conversion target portion into an image by the following processing.
  • the conversion target part is specified for the first time in the natural language sentence
  • a plurality of candidate images are displayed so that the user can select the conversion target part, and the conversion target part is specified for the second time or later in the natural language sentence. If it is, it is converted to the already selected candidate image.
  • the mixed sentence generation device 20 reads the natural language sentences input from the input device 10 in the order of input. Normally, the text is entered in order from the beginning, but it is not always the case from the beginning because the text that has already been entered may be corrected retroactively.
  • the mixed sentence generator 20 determines whether or not a conversion command has been input.
  • the conversion command is entered by the user.
  • the mixed sentence generator 20 returns the process to S210 and continues reading the sentence.
  • the mixed sentence generator 20 accepts the input of the conversion command and proceeds to the process in S225.
  • the mixed sentence generator 20 specifies the conversion target portion of the natural language sentence.
  • the conversion target part is specified by the user. For example, when the user specifies the start point and the end point of the conversion target portion, the conversion target portion is specified according to the specification.
  • the word including that one place is specified as the conversion target part.
  • the phrase including the one place may be set to be specified as the conversion target part, or the clause including the one place may be set to be specified as the conversion target part.
  • a morphological analysis is performed for that purpose. Semantic analysis is performed to identify phrases and clauses.
  • the mixed sentence generation device 20 refers to the image database 30 to convert the conversion target portion into an image and display it. After S230, the mixed sentence generator 20 returns the process to S210 and continues reading the sentence.
  • FIG. 6B is a flowchart showing the details of the process of converting the conversion target portion into an image and displaying it.
  • the process shown in FIG. 6B corresponds to the subroutine of S230 in FIG. 6A.
  • the mixed sentence generation device 20 determines whether or not the conversion target portion specified in S225 is the part specified for the first time in the natural language sentence.
  • the conversion target portion is the portion specified for the first time (S231: YES)
  • the mixed sentence generation device 20 proceeds to S232 for processing.
  • the mixed sentence generation device 20 displays a plurality of candidate images corresponding to the conversion target portion. For example, when a plurality of images are hit in the search of the image database 30 using the conversion target part called "top", a detailed index is referred to, or a search result in words before and after the conversion target part is referred to. By doing so, multiple candidate images are displayed in descending order of matching degree. There may be a limit on the number of candidate images displayed. A case where the image is edited to generate an image corresponding to the conversion target portion will be described in the third embodiment.
  • the mixed sentence generation device 20 accepts the selection of the candidate image by the user, converts the conversion target portion into one selected candidate image, and displays it on the display device 40.
  • the mixed sentence generation device 20 stores the conversion target portion and one selected candidate image in association with each other in a memory (not shown). After S234, the mixed sentence generation device 20 ends the process of this flowchart and returns to the process shown in FIG. 6A.
  • the mixed sentence generation device 20 proceeds to S235.
  • the mixed sentence generation device 20 converts the conversion target portion into one candidate image stored in S234 and displays it on the display device 40.
  • the mixed sentence generation device 20 ends the process of this flowchart and returns to the process shown in FIG. 6A.
  • 7A-7F show a process of converting a part of a Japanese natural language sentence into an image in the second embodiment.
  • 8A-8F show the process of converting a part of an English natural language sentence into an image in the second embodiment.
  • sentences in which images and characters are mixed are generated based on natural language sentences having the same contents.
  • 7A and 8A show a part of the natural language sentences read in the input order in S210.
  • the natural language sentences shown in FIGS. 4A and 5A are input from the beginning.
  • 7B and 8B show the display when the conversion command is input in S220.
  • the "top” is displayed with emphasis such as a double line.
  • 7C and 8C show a plurality of candidate images displayed in S232.
  • the conversion target portion is the portion specified for the first time in the natural language sentence, for example, candidate images 1 to 3 corresponding to the word "top" are displayed.
  • 7D and 8D show an example in which the conversion target portion is converted into one candidate image selected by the user in S233 and displayed.
  • the candidate image 1 is selected from the candidate images 1 to 3
  • the display of the candidate images 2 and 3 disappears and the candidate image 1 is displayed.
  • the correspondence between the word "top" and the candidate image 1 is stored in the memory.
  • the conversion target part is replaced with the converted image, and the conversion with emphasis such as underline is added.
  • the target part "top” is added to the image.
  • the highlighting indicating that the conversion target portion appears for the first time shown in FIGS. 7D and 8D is different from the highlighting indicating that the conversion target portion has been designated as shown in FIGS. 7B and 8B.
  • the format is used.
  • FIGS. 7E and 8E show the display when the conversion command is input in S220.
  • the “top” is displayed with emphasis such as a double line.
  • “top” is a term once designated in FIGS. 7B and 8B. In such a case, the input operation of the conversion command by the user may be reduced by regarding the fact that the specified word is input again as the input of the conversion command.
  • 7F and 8F show an example in which the conversion target portion is converted into one candidate image stored in the memory and displayed in S235.
  • the conversion target parts “top”, “mari (ball)”, and “swallow” appear after the second time, the conversion target part is replaced with the converted image, and the conversion target part is replaced. "Top”, “mari” and “swallow” are not added.
  • the mixed sentence generation device 20 that generates a mixed sentence of an image and a character has a sentence reading module 21 that reads natural language sentences in the order of input, and a sentence reading module 21 that accepts input of a conversion command to generate a natural language sentence.
  • the conversion target identification module 22 that specifies the conversion target part and the conversion target part are specified for the first time in the natural language sentence, the image and the word expressing the content are stored in association with each other.
  • a plurality of candidate images corresponding to the conversion target portion are displayed with reference to the database 30, the selection of one candidate image is accepted from the plurality of candidate images, and the conversion target portion is converted into the selected one candidate image.
  • the conversion target part is stored in association with one selected candidate image. If the conversion target part is specified from the second time onward in the natural language sentence, the conversion target part is stored. It includes an image conversion module 23 that converts and displays only one candidate image (see FIGS. 1, 2, 6A and 6B). According to this, a part of natural language sentences can be converted into images to help people in different languages understand and to expand the possibility of communication beyond different languages. , Can be generated while typing by the user. When the conversion target portion is specified for the first time in the natural language sentence, the user can select an appropriate image by displaying a plurality of candidate images and accepting the selection of one candidate image.
  • the conversion target part can be converted into one memorized candidate image to reduce the selection operation by the user and one natural language. Correspondence can be unified by converting the same conversion target part into the same image in the text.
  • the image conversion module 23 replaces the conversion target part with one selected candidate image at the place where the conversion target part first appears in the natural language sentence, and adds the conversion target part (Fig.). 7F and FIG. 8F). According to this, the correspondence between the conversion target portion and the converted image is clarified, and the ease of understanding the mixed sentence is improved.
  • the image conversion module 23 replaces the conversion target portion with one selected candidate image at the position where the conversion target portion appears for the second time or later in the natural language sentence. This enables a concise and easy-to-understand display.
  • FIG. 9 is a flowchart showing the details of the process of specifying the image corresponding to the conversion target portion in the third embodiment.
  • the image existing in the image database 30 is edited to generate the image corresponding to the conversion target portion.
  • the process shown in FIG. 9 corresponds to the subroutine of S131 in FIG. 3B.
  • the same processing may be performed in order to display a plurality of candidate images corresponding to the conversion target portion in S232 of FIG. 6B.
  • the mixed sentence generation device 20 performs semantic analysis of the conversion target portion and extracts elements.
  • the element here may be a word or a phrase.
  • Semantic analysis is a process of analyzing the relationship between a subject and a predicate, and the relationship between modification and modification according to the attributes of words such as part of speech and the rules of syntax.
  • the mixed sentence generation device 20 extracts an image for each element extracted in S131a.
  • the image included in the image database 30 is extracted as it is as in the first and second embodiments.
  • the mixed text generator 20 performs one or both of image resizing and image transformation.
  • Resizing the image is an enlargement or reduction process for matching the scales when compositing the images in S131d.
  • Image transformation is a process of processing a part of an image extracted from the image database 30.
  • the image database 30 includes the data of the three-dimensional model, the processing of the three-dimensional model and the change of the viewpoint for generating the two-dimensional image from the three-dimensional model may be performed.
  • the mixed sentence generator 20 synthesizes images.
  • Image composition is a process of generating one image by synthesizing an image extracted by S131b or an image resized or deformed by S131c when a plurality of elements are extracted by S131a.
  • an image corresponding to the conversion target portion is generated according to the result of the semantic analysis performed in S131a.
  • hostile generation networks generative adversarial networks
  • the hostile generation network is composed of two neural networks, a generation network that is a learning model that generates a large number of images, and an identification network that is a learning model that determines the correctness of images.
  • the generation network learns to get a positive judgment from the identification network, and the identification network learns to make a more accurate judgment.
  • Such artificial intelligence may be used in place of S131c and S131d.
  • the mixed sentence generation device 20 ends the process of this flowchart and returns to the process shown in FIG. 3B.
  • FIGS. 11A to 11E show a process of editing an image in the third embodiment to generate an image corresponding to a conversion target portion.
  • FIG. 10A and 11A show an example of a conversion target portion in which elements are extracted by semantic analysis in S131a.
  • the "young man in haori” is the conversion target portion. It is assumed that the image corresponding to the "young man in haori” does not exist in the image database 30.
  • the conversion target portion is "a girl taking a walk with a dog”. It is assumed that the image corresponding to "a girl walking with a dog" does not exist in the image database 30.
  • 10B and 11B show the elements extracted in S131a.
  • the modifier "haori”, the modifier “young”, and the subject “male” are extracted.
  • the modifier "haori” and the subject noun phrase “young man” may be extracted.
  • the modifier "dog”, the modifier “take”, the modifier "walk”, and the subject “girl” are extracted.
  • FIG. 10C and 11C show the images extracted in S131b.
  • images corresponding to "haori” and “young man” are extracted.
  • a plurality of images of the "male” may be extracted and then further narrowed down by "young”.
  • images corresponding to "dog”, “taken”, and “girl” are extracted.
  • An image of a dog lead for dogs has been extracted as an image corresponding to "take”. It is assumed that the image corresponding to "walking" does not exist in the image database 30.
  • 10D and 11D show images resized or modified in S131c.
  • the sizes of the images corresponding to "haori” and “young man” are resized to match.
  • the image corresponding to the "girl” is transformed so that the image corresponding to the "girl” becomes the image of the "girl walking".
  • 10E and 11E show images synthesized in S131d.
  • these images are combined so that the face of the "young man” is located on the “haori”.
  • FIG. 11E these images are combined in a positional relationship such that the neck of the "dog” is connected to one end of the towline and the hand of the "girl” grips the other end of the towline.
  • the image conversion module 23 performs semantic analysis of the conversion target portion, edits the image based on the analysis result, and generates the converted image. According to this, even if the image corresponding to the conversion target portion does not exist in the image database 30, the image existing in the image database 30 can be edited to generate an appropriate image, and a mixed sentence of the image and the character can be generated. ..

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

画像と文字との混在文章を生成する混在文章生成装置20は、自然言語文章を読み込む文章読み込みモジュール21と、自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール22と、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース30を参照して変換対象部分に対応する変換後の画像を特定し、自然言語文章において変換対象部分を変換後の画像に変換して表示させる画像変換モジュール23と、を含む。これにより、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を自動的に生成する。

Description

画像と文字との混在文章を生成する装置
 本発明は画像と文字との混在文章を生成する装置に関する。
 今日、パソコンや携帯電話が普及し、これらを用いた電子メールやSNS(social networking service)では、無味乾燥な文字に絵文字を加えることがより親しみ易い表現方法として広く利用されて来ている。また、地図記号、交通標識、電車内の優先座席標識などには、文字ではなく絵が表示されるのが一般的である。
 一方、インターネットの普及により、世界中の人々がリアルタイムでコミュニケーションをとることが可能になってきている。しかし、言語の違う人々とのコミュニケーションは難しい。従って、コミュニケーションを補助するために、絵やイラストなどを利用したコミュニケーション手段が求められている。
 本発明の1つの観点において、画像と文字との混在文章を生成する装置は、
 自然言語文章を読み込む第1のモジュールと、
 前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
 画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する変換後の画像を特定し、前記自然言語文章において前記変換対象部分を前記変換後の画像に変換して表示させる第3のモジュールと、
を含む。
 本発明の他の1つの観点において、画像と文字との混在文章を生成する装置は、
 自然言語文章を入力順に読み込む第1のモジュールと、
 変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
 第3のモジュールであって、
  前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
  前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
前記第3のモジュールと、
を含む。
混在文章生成装置20及びその周辺装置のブロック図である。 画像データベース30の一部を示す。 第1の実施形態に係る混在文章生成装置20のフローチャートである。 変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。 S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。 S120において自然言語文章から抽出された単語を示す。 S120において変換対象部分として特定された単語を示す。 S131において特定された変換後の画像を示す。 S132において生成された画像と文字との混在文章を示す。 S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。 S120において自然言語文章から抽出された単語を示す。 S120において変換対象部分として特定された単語を示す。 S131において特定された変換後の画像を示す。 S132において生成された画像と文字との混在文章を示す。 第2の実施形態に係る混在文章生成装置20のフローチャートである。 変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。 S210において入力順に読み込まれた自然言語文章の一部を示す。 S220において変換コマンドが入力されたときの表示を示す。 S232において表示される複数の候補画像を示す。 S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。 S220において変換コマンドが入力されたときの表示を示す。 S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。 S210において入力順に読み込まれた自然言語文章の一部を示す。 S220において変換コマンドが入力されたときの表示を示す。 S232において表示される複数の候補画像を示す。 S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。 S220において変換コマンドが入力されたときの表示を示す。 S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。 第3の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。 S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。 S131aにおいて抽出された要素を示す。 S131bにおいて抽出された画像を示す。 S131cにおいてサイズ変更又は変形された画像を示す。 S131dにおいて合成された画像を示す。 S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。 S131aにおいて抽出された要素を示す。 S131bにおいて抽出された画像を示す。 S131cにおいてサイズ変更又は変形された画像を示す。 S131dにおいて合成された画像を示す。
 以下、本発明の実施形態を、図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明の一例を示すものであって、本発明の内容を限定するものではない。また、各実施形態で説明される構成及び動作のすべてが本発明の構成及び動作として必須であるとは限らない。なお、同一の構成要素には同一の参照符号を付して、重複する説明を省略する。
 <1.実施形態の概要>
 第1の実施形態において、混在文章生成装置20は、変換前の自然言語文章を読み込む(S110、図4A、図5A)。
 混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する(S120、図4C、図5C)。
 混在文章生成装置20は、画像データベース30を参照して変換対象部分に対応する変換後の画像を特定し(S131、図4D、図5D)、自然言語文章において変換対象部分を変換後の画像に変換して表示させる(S132、図4E、図5E)。
 第2の実施形態において、混在文章生成装置20は、変換前の自然言語文章を入力順に読み込む(S210、図7A、図8A)。
 混在文章生成装置20は、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する(S220、S225、図7B、図8B)。
 混在文章生成装置20は、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像データベース30を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から1つの候補画像の選択を受け付けて、変換対象部分を選択された1つの候補画像に変換して表示させる(S231~S233、図7C、図7D、図8C、図8D)。また、変換対象部分と選択された1つの候補画像とを対応付けて記憶する(S234)。
 混在文章生成装置20は、変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、変換対象部分を記憶された1つの候補画像に変換して表示させる(S235、図7F、図8F)。
 第3の実施形態は、変換後の画像を特定する構成をさらに発展させたものである。混在文章生成装置20は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する(図9~図11E)。
 <2.構成>
 図1は、混在文章生成装置20及びその周辺装置のブロック図である。図1に示される構成は、第1~第3の実施形態で共通である。
 混在文章生成装置20は、入力装置10、画像データベース30、及び表示装置40に接続されている。
 入力装置10は、例えば、ユーザーが自然言語文章やコマンドを入力するためのキーボード、マウス、あるいはタッチパネルを含む。あるいは、入力装置10は、自然言語文章を図示しない他のコンピュータから受信する通信装置であってもよい。
 画像データベース30は、画像と概念とを対応付けて記憶したデータベースである。画像には、写真及びイラストが含まれる。あるいは、2次元の画像を生成するための3次元モデルが含まれてもよい。概念とは、画像の内容を言葉で表現したものである。画像データベース30において画像と対応づけられた概念は、上位概念及び下位概念を含む多層構造を構成する。
 図2は、画像データベース30の一部を示す。画像データベース30は、例えば、「男性」という上位概念に含まれる「少年、男の子」「若者、若い男性」「おじさん、中年の男性」「おじいさん、高齢の男性」といった下位概念ごとに、対応する画像を記憶している。画像に対応づけられる概念は、より詳細なインデックスを含んでもよい。インデックスは、例えば、眼鏡の有無、ひげの有無、喜怒哀楽を示す表情を含む。
 図1を再び参照し、表示装置40は、例えば、生成された画像と文字との混在文章を表示するディスプレイ装置を含む。表示装置40の代わりに、画像と文字との混在文章を印刷するプリンターや、混在文章を他のコンピュータに送信する通信装置が用いられてもよい。
 混在文章生成装置20は、図示しないプロセッサ、メモリ、ストレージ等を備えたコンピュータである。混在文章生成装置20は、1台のコンピュータで構成されてもよいし、複数のコンピュータで構成されてもよい。
 混在文章生成装置20は、文章読み込みモジュール21と、変換対象特定モジュール22と、画像変換モジュール23と、を含む。それぞれのモジュールの機能は、ストレージに記憶されたプログラムがメモリにロードされ、プロセッサによって実行されることにより実現される。
 文章読み込みモジュール21は本発明における「第1のモジュール」に相当し、変換前の自然言語文章を読み込む。文章読み込みモジュール21は、文章編集のためのアプリケーションソフトウエアで実現されてもよい。
 変換対象特定モジュール22は本発明における「第2のモジュール」に相当し、自然言語文章のうちの変換対象となる変換対象部分を特定する。
 画像変換モジュール23は本発明における「第3のモジュール」に相当し、画像データベース30にアクセスして、変換対象部分に対応する変換後の画像を特定する。さらに、画像変換モジュール23は、変換対象部分を変換後の画像に変換し、表示装置40に表示させる。
 <3.第1の実施形態>
 <3-1.動作>
 図3Aは、第1の実施形態に係る混在文章生成装置20のフローチャートである。混在文章生成装置20は、以下の処理により、自然言語文章を読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。
 S110において、混在文章生成装置20は、入力装置10から入力される自然言語文章を読み込む。あるいは、混在文章生成装置20は入力装置10から入力されるコマンドによって指定された自然言語文章を図示しない記憶装置から読み込んでもよい。
 S120において、混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する。
 変換対象部分は、ユーザーが指定する場合にはその指定に従って特定される。ユーザーは、自然言語文章のうちの画像に変換したい部分に記号などのマーカーを付すことにより、変換対象部分を指定する。
 あるいは、変換対象部分は、ユーザーの指定によらず、混在文章生成装置20によって何らかの基準で特定されてもよい。何らかの基準とは、例えば以下の基準である。
 (1)読み込んだ自然言語文章に含まれる単語のうち、当該文章における主語としての出現頻度が閾値以上の単語を特定する。そのような出現頻度は、主語に限定された索引語頻度(term frequency)ということもできる。主語としての出現頻度を計算するには後述の意味解析が必要である。例えば、当該文章において主語として出現した「ぼくたち」「わたし」等の代名詞以外の単語が「コマ」「マリ」「坊ちゃん」の3種類であって、「コマ」と「マリ」の登場回数が閾値以上で、「坊ちゃん」の登場回数が閾値より少ない場合には、「コマ」と「マリ」が変換対象部分として特定される。
 (2)読み込んだ自然言語文章に含まれる単語のうち、多数の文書を含む標本文書群において当該単語が出現する文書数が閾値以下の単語を特定する。そのような文書数を文書頻度(document frequency)という。例えば、当該文章において出現した多数の単語のうち、「ぼくたち」「わたし」は多くの文書で登場するありふれた単語であるのに対し、「コマ」「マリ」は閾値以下の少数の文書でしか登場しない単語である場合には、「コマ」と「マリ」が変換対象部分として特定される。
 混在文章生成装置20によって変換対象部分を特定する基準は、(1)と(2)を組み合わせたものでもよいし、他の基準であってもよい。
 S130において、混在文章生成装置20は、画像データベース30を参照して変換対象部分を画像に変換して表示させる。
 S130の後、混在文章生成装置20は本フローチャートの処理を終了する。
 図3Bは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。図3Bに示される処理は、図3AのS130のサブルーチンに相当する。
 S131において、混在文章生成装置20は、S120で特定された変換対象部分に対応する変換後の画像を特定する。例えば、画像データベース30を変換対象部分に含まれる単語で検索することにより、変換後の画像を特定する。検索で複数の画像がヒットした場合には、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、最も一致度の高い画像を変換後の画像として特定する。
 画像の編集を行って変換対象部分に対応する画像を生成する場合については、第3の実施形態において説明する。
 S132において、混在文章生成装置20は、当該自然言語文章の全体をスキャンし、変換対象部分を変換後の画像に変換して表示装置40に表示させる。
 S132の後、混在文章生成装置20は、本フローチャートの処理を終了して図3Aに示される処理に戻る。
 <3-2.具体例>
 図4A~図4Eは、第1の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
 図5A~図5Eは、第1の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
 図4A~図4Eと図5A~図5Eとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。
 図4A及び図5Aは、S110において混在文章生成装置20が読み込んだ自然言語文章の例を示す。図4A及び図5Aに示される自然言語文章は、ハンス・クリスチャン・アンデルセン(Hans Christian Andersen)作の「コマとマリ(The Sweethearts)」の一部である。
 図4B及び図5Bは、S120において自然言語文章から抽出された単語を示す。単語とは、文章を構成する要素であって、言葉として意味をなす最小の単位をいう。日本語の場合は文節でもよい。
 単語の抽出は、形態素解析と呼ばれる処理によって行われる。日本語のように単語と単語の区切りが表記上明確でない言語においては、図示しない辞書データベースを参照して区切りを判別することにより単語が抽出される。英語のように単語と単語の区切りが表記上明確である言語においては、その表記ルールに従って単語が抽出される。
 図4C及び図5Cは、S120において変換対象部分として特定された単語を示す。ここでは「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の3語が特定されたものとする。変換対象部分は、単語よりも大きい単位で特定されてもよい。例えば、変換対象部分として「男の子」「若い男性」「中年の男性」「高齢の男性」のように修飾語を含んだ名詞句が特定されてもよい。「羽織の若い男性」「犬を連れて散歩する少女」のように、より長い句や節でもよい。
 図4D及び図5Dは、S131において特定された変換後の画像を示す。変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の各々について1つの画像が特定されている。
 図4E及び図5Eは、S132において生成された画像と文字との混在文章を示す。図4A及び図5Aに示される自然言語文章のうちの変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の各々が画像に変換されている。
 図4E及び図5Eに示されるように、当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」を画像に付記している。
 当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ2回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の付記はされていない。
 <3-3.第1の実施形態の効果>
 第1の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置20は、自然言語文章を読み込む文章読み込みモジュール21と、自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール22と、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース30を参照して変換対象部分に対応する変換後の画像を特定し、自然言語文章において変換対象部分を変換後の画像に変換して表示させる画像変換モジュール23と、を含む(図1~図3B参照)。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を自動的に生成できる。
 第1の実施形態によれば、画像変換モジュール23は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに変換対象部分を付記する(図4E及び図5E参照)。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
 画像変換モジュール23は、自然言語文章において変換対象部分が2回目以降に出現した箇所で変換対象部分を変換後の画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。
 <4.第2の実施形態>
 <4-1.動作>
 図6Aは、第2の実施形態に係る混在文章生成装置20のフローチャートである。混在文章生成装置20は、以下の処理により、自然言語文章を入力順に読み込んで変換対象部分を画像に変換することにより、画像と文字との混在文章を生成する。当該変換対象部分が当該自然言語文章において初めて特定されたものである場合は、複数の候補画像を表示させてユーザーが選択できるようにし、当該変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、既に選択された候補画像に変換する。
 S210において、混在文章生成装置20は、入力装置10から入力される自然言語文章を入力順に読み込む。通常は文章の先頭から順に入力されるが、入力済みの文章を遡って修正する場合もあり得るので必ずしも先頭からとは限らない。
 S220において、混在文章生成装置20は、変換コマンドが入力されたか否かを判定する。変換コマンドはユーザーによって入力される。変換コマンドが入力されない場合(S220:NO)、混在文章生成装置20はS210に処理を戻して文章の読み込みを続ける。変換コマンドが入力された場合(S220:YES)、混在文章生成装置20は変換コマンドの入力を受け付け、S225に処理を進める。
 S225において、混在文章生成装置20は、自然言語文章のうちの変換対象部分を特定する。変換対象部分はユーザーによって指定される。例えば、ユーザーが変換対象部分の始点と終点とを指定した場合には、その指定に従って変換対象部分が特定される。あるいは、ユーザーが自然言語文章のうちの任意の1箇所を指定した場合には、その1箇所が含まれる単語が変換対象部分として特定される。あるいは、その1箇所が含まれる句が変換対象部分として特定されるように設定されてもよいし、その1箇所が含まれる節が変換対象部分として特定されるように設定されてもよい。単語を特定する場合にはそのために形態素解析が行われることは上述の通りである。句や節を特定する場合には意味解析が行われる。
 S230において、混在文章生成装置20は、画像データベース30を参照して変換対象部分を画像に変換して表示させる。
 S230の後、混在文章生成装置20はS210に処理を戻して文章の読み込みを続ける。
 図6Bは、変換対象部分を画像に変換して表示させる処理の詳細を示すフローチャートである。図6Bに示される処理は、図6AのS230のサブルーチンに相当する。
 S231において、混在文章生成装置20は、S225で特定された変換対象部分が当該自然言語文章において初めて特定された部分であるか否かを判定する。変換対象部分が初めて特定された部分である場合(S231:YES)、混在文章生成装置20はS232に処理を進める。
 S232において、混在文章生成装置20は、変換対象部分に対応する複数の候補画像を表示させる。例えば、「コマ(top)」という変換対象部分を用いた画像データベース30の検索で複数の画像がヒットした場合に、詳細なインデックスを参照したり、変換対象部分の前後の言葉による検索結果を参照したりして、一致度の高い順に、複数の候補画像を表示させる。表示される候補画像の数には制限が設けられてもよい。
 画像の編集を行って変換対象部分に対応する画像を生成する場合については、第3の実施形態において説明する。
 S233において、混在文章生成装置20は、ユーザーによる候補画像の選択を受け付け、変換対象部分を選択された1つの候補画像に変換して、表示装置40に表示させる。
 S234において、混在文章生成装置20は、変換対象部分と選択された1つの候補画像とを対応付けて図示しないメモリに記憶させる。
 S234の後、混在文章生成装置20は、本フローチャートの処理を終了して図6Aに示される処理に戻る。
 変換対象部分が当該自然言語文章において2回目以降に特定された部分である場合(S231:NO)、混在文章生成装置20はS235に処理を進める。
 S235において、混在文章生成装置20は、変換対象部分をS234で記憶された1つの候補画像に変換して、表示装置40に表示させる。
 S235の後、混在文章生成装置20は、本フローチャートの処理を終了して図6Aに示される処理に戻る。
 <4-2.具体例>
 図7A~図7Fは、第2の実施形態において日本語の自然言語文章の一部を画像に変換する過程を示す。
 図8A~図8Fは、第2の実施形態において英語の自然言語文章の一部を画像に変換する過程を示す。
 図7A~図7Fと図8A~図8Fとでは、同じ内容の自然言語文章をもとに、画像と文字とが混在する文章を生成している。
 図7A及び図8Aは、S210において入力順に読み込まれた自然言語文章の一部を示す。ここでは例として、図4A及び図5Aに示される自然言語文章が先頭から入力されている。
 図7B及び図8Bは、S220において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ(top)」という単語が指定されると、「コマ(top)」に二重線などの強調が付されて表示される。
 図7C及び図8Cは、S232において表示される複数の候補画像を示す。当該変換対象部分が当該自然言語文章において初めて特定された部分である場合は、例えば「コマ(top)」という単語に対応する候補画像1~3が表示される。
 図7D及び図8Dは、S233において変換対象部分をユーザーによって選択された1つの候補画像に変換して表示させた例を示す。例えば、候補画像1~3のうちの候補画像1が選択された場合に、候補画像2及び3の表示は消えて、候補画像1が表示される。「コマ(top)」という単語と候補画像1との対応関係はメモリに記憶される。
 図7D及び図8Dに示されるように、当該文章において変換対象部分「コマ(top)」が初めて出現した箇所では変換対象部分を変換後の画像に置き換えるとともに、アンダーラインなどの強調を付した変換対象部分「コマ(top)」を画像に付記している。但し、図7D及び図8Dに示される変換対象部分が初めて出現したことを示す強調の表示は、図7B及び図8Bに示される変換対象部分として指定されたことを示す強調の表示とは異なる表示形式が用いられる。
 図7E及び図8Eは、S220において変換コマンドが入力されたときの表示を示す。変換対象部分として例えば「コマ(top)」という単語が指定されると、「コマ(top)」に二重線などの強調が付されて表示される。図7E及び図8Eに示されるように、「コマ(top)」は図7B及び図8Bにおいて一度指定された言葉である。このような場合、一度指定された言葉が再度入力されたことを変換コマンドの入力とみなすことにして、ユーザーによる変換コマンドの入力操作を軽減してもよい。
 図7F及び図8Fは、S235において変換対象部分をメモリに記憶された1つの候補画像に変換して表示させた例を示す。当該文章において変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」がそれぞれ2回目以降に出現した箇所では変換対象部分を変換後の画像に置き換えており、変換対象部分「コマ(top)」「マリ(ball)」「ツバメ(swallow)」の付記はされていない。
 <4-3.第2の実施形態の効果>
 第2の実施形態によれば、画像と文字との混在文章を生成する混在文章生成装置20は、自然言語文章を入力順に読み込む文章読み込みモジュール21と、変換コマンドの入力を受け付けて自然言語文章のうちの変換対象部分を特定する変換対象特定モジュール22と、変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベース30を参照して変換対象部分に対応する複数の候補画像を表示させ、複数の候補画像から1つの候補画像の選択を受け付けて、変換対象部分を選択された1つの候補画像に変換して表示させ、変換対象部分と選択された1つの候補画像とを対応付けて記憶し、変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、変換対象部分を記憶された1つの候補画像に変換して表示させる画像変換モジュール23と、を含む(図1、図2、図6A及び図6B参照)。これによれば、自然言語文章の一部を画像に変換して、言語の異なる人々の理解を助け、言語の違いを超えたコミュニケーションの可能性を拡げることのできる画像と文字との混在文章を、ユーザーがタイピングしながら生成できる。変換対象部分が当該自然言語文章において初めて特定されたものである場合は複数の候補画像を表示させて1つの候補画像の選択を受け付けることで、ユーザーが適切な画像を選択できる。変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は変換対象部分を記憶された1つの候補画像に変換することで、ユーザーによる選択操作を軽減でき、1つの自然言語文章の中で同じ変換対象部分については同じ画像に変換することで対応関係を統一できる。
 第2の実施形態によれば、画像変換モジュール23は、自然言語文章において変換対象部分が初めて出現した箇所では変換対象部分を選択された1つの候補画像に置き換えるとともに変換対象部分を付記する(図7F及び図8F参照)。これによれば、変換対象部分と変換後の画像との対応関係が明確となり、混在文章の理解のしやすさが向上する。
 画像変換モジュール23は、自然言語文章において変換対象部分が2回目以降に出現した箇所で変換対象部分を選択された1つの候補画像に置き換える。これによれば、簡潔なわかりやすい表示が可能となる。
 <5.第3の実施形態>
 <5-1.動作>
 図9は、第3の実施形態において変換対象部分に対応する画像を特定する処理の詳細を示すフローチャートである。第3の実施形態においては、変換対象部分に対応する画像が画像データベース30に存在しない場合に、画像データベース30に存在する画像の編集を行って変換対象部分に対応する画像を生成する。
 図9に示される処理は、図3BのS131のサブルーチンに相当する。あるいは、図6BのS232において変換対象部分に対応する複数の候補画像を表示させるために、同様の処理が行われてもよい。
 S131aにおいて、混在文章生成装置20は、変換対象部分の意味解析を行い、要素を抽出する。ここでいう要素は、単語でもよいし、句でもよい。意味解析は、品詞などの単語の属性と、構文のルールと、に従って、主語及び述語の関係や、修飾及び被修飾の関係などを解析する処理である。
 S131bにおいて、混在文章生成装置20は、S131aで抽出された要素ごとに画像を抽出する。S131bにおいては、第1及び第2の実施形態と同様に画像データベース30に含まれる画像をそのまま抽出する。
 S131cにおいて、混在文章生成装置20は、画像のサイズ変更及び画像の変形の一方又は両方を行う。
 画像のサイズ変更は、S131dにおいて画像の合成を行う際に縮尺を一致させるための拡大又は縮小の処理である。
 画像の変形は、画像データベース30から抽出された画像の一部を加工する処理である。あるいは、画像データベース30が3次元モデルのデータを含む場合に、その3次元モデルの加工や、その3次元モデルから2次元の画像を生成するための視点の変更が行われても良い。
 S131dにおいて、混在文章生成装置20は、画像の合成を行う。画像の合成は、S131aで複数の要素が抽出された場合に、S131bで抽出された画像、又はS131cでサイズ変更又は変形された画像を合成して、1枚の画像を生成する処理である。
 S131c及びS131dにおいては、S131aにおいて行われた意味解析の結果に従い、変換対象部分に対応する画像が生成される。そのような画像を生成するシステムとして、深層学習(deep learning)を用いた敵対的生成ネットワーク(generative adversarial networks)が知られている。敵対的生成ネットワークは、多数の画像を生成する学習モデルである生成ネットワークと、画像の正否を判定する学習モデルである識別ネットワークという2つのニューラルネットワークから構成される。生成ネットワークは識別ネットワークから正判定を得ようと学習し、識別ネットワークはより正確に判定しようと学習する。S131c及びS131dの代わりに、そのような人工知能が用いられてもよい。
 S131dの後、混在文章生成装置20は、本フローチャートの処理を終了し、図3Bに示される処理に戻る。
 <5-2.具体例>
 図10A~図10E及び図11A~図11Eは、第3の実施形態において画像の編集を行って変換対象部分に対応する画像を生成する過程を示す。
 図10A及び図11Aは、S131aにおいて意味解析により要素の抽出が行われる変換対象部分の例を示す。
 図10Aにおいては「羽織の若い男性」を変換対象部分としている。「羽織の若い男性」に対応する画像は画像データベース30に存在しないものとする。
 図11Aにおいては「犬を連れて散歩する少女」を変換対象部分としている。「犬を連れて散歩する少女」に対応する画像は画像データベース30に存在しないものとする。
 図10B及び図11Bは、S131aにおいて抽出された要素を示す。
 図10Bにおいては修飾語である「羽織」、修飾語である「若い」、及び主語である「男性」が抽出されている。あるいは、修飾語である「羽織」と、主語である名詞句「若い男性」が抽出されてもよい。
 図11Bにおいては修飾語である「犬」、修飾語である「連れて」、修飾語である「散歩する」、及び主語である「少女」が抽出されている。
 図10C及び図11Cは、S131bにおいて抽出された画像を示す。
 図10Cにおいては「羽織」及び「若い男性」に対応する画像が抽出されている。画像データベース30から「若い男性」に対応する画像を抽出するために、「男性」の複数の画像を抽出した後、さらに「若い」で絞り込んでもよい。
 図11Cにおいては「犬」、「連れて」、及び「少女」に対応する画像が抽出されている。「連れて」に対応する画像としては犬用の引綱(dog lead)の画像が抽出されている。「散歩する」に対応する画像は画像データベース30に存在しないものとする。
 図10D及び図11Dは、S131cにおいてサイズ変更又は変形された画像を示す。
 図10Dにおいては、「羽織」及び「若い男性」に対応する画像の縮尺が一致するようにこれらの画像のサイズが変更されている。
 図11Dにおいては、「少女」に対応する画像が「散歩する少女」の画像となるように、「少女」に対応する画像が変形されている。
 図10E及び図11Eは、S131dにおいて合成された画像を示す。
 図10Eにおいては、「羽織」の上に「若い男性」の顔が位置するようにこれらの画像が組み合わされている。
 図11Eにおいては、「犬」の首が引綱の一端に接続され、「少女」の手が引綱の他端を握るような位置関係にこれらの画像が組み合わされている。
 <5-3.第3の実施形態の効果>
 第3の実施形態によれば、画像変換モジュール23は、変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って変換後の画像を生成する。これによれば、変換対象部分に対応する画像が画像データベース30に存在しない場合でも、画像データベース30に存在する画像を編集して適切な画像を生成し、画像と文字との混在文章を生成できる。

Claims (6)

  1.  自然言語文章を読み込む第1のモジュールと、
     前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
     画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する変換後の画像を特定し、前記自然言語文章において前記変換対象部分を前記変換後の画像に変換して表示させる第3のモジュールと、
    を含む、画像と文字との混在文章を生成する装置。
  2.  請求項1において、
     前記第3のモジュールは、
      前記自然言語文章において前記変換対象部分が初めて出現した箇所では前記変換対象部分を前記変換後の画像に置き換えるとともに前記変換対象部分を付記し、
      前記自然言語文章において前記変換対象部分が2回目以降に出現した箇所で前記変換対象部分を前記変換後の画像に置き換える、
    画像と文字との混在文章を生成する装置。
  3.  請求項1において、
     前記第3のモジュールは、
      前記変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って前記変換後の画像を特定する、
    画像と文字との混在文章を生成する装置。
  4.  自然言語文章を入力順に読み込む第1のモジュールと、
     変換コマンドの入力を受け付けて前記自然言語文章のうちの変換対象部分を特定する第2のモジュールと、
     第3のモジュールであって、
      前記変換対象部分が当該自然言語文章において初めて特定されたものである場合は、画像とその内容を表現する言葉とを対応付けて記憶した画像データベースを参照して前記変換対象部分に対応する複数の候補画像を表示させ、前記複数の候補画像から1つの候補画像の選択を受け付けて前記変換対象部分を前記1つの候補画像に変換して表示させ、前記変換対象部分と前記1つの候補画像とを対応付けて記憶し、
      前記変換対象部分が当該自然言語文章において2回目以降に特定されたものである場合は、前記変換対象部分を記憶された前記1つの候補画像に変換して表示させる、
    前記第3のモジュールと、
    を含む、画像と文字との混在文章を生成する装置。
  5.  請求項4において、
     前記第3のモジュールは、
      前記自然言語文章において前記変換対象部分が初めて出現した箇所では前記変換対象部分を前記1つの候補画像に置き換えるとともに前記変換対象部分を付記し、
      前記自然言語文章において前記変換対象部分が2回目以降に出現した箇所で前記変換対象部分を前記1つの候補画像に置き換える、
    画像と文字との混在文章を生成する装置。
  6.  請求項4において、
     前記第3のモジュールは、
      前記変換対象部分の意味解析を行い、解析結果に基づいて画像の編集を行って前記複数の候補画像を表示させる、
    画像と文字との混在文章を生成する装置。
PCT/JP2021/043079 2020-12-02 2021-11-24 画像と文字との混在文章を生成する装置 WO2022118720A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/997,315 US20230169257A1 (en) 2020-12-02 2021-11-24 Device for generating combined sentences of images and characters
JP2022566868A JP7418761B2 (ja) 2020-12-02 2021-11-24 画像と文字との混在文章を生成する装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020209704 2020-12-02
JP2020-209704 2020-12-02

Publications (1)

Publication Number Publication Date
WO2022118720A1 true WO2022118720A1 (ja) 2022-06-09

Family

ID=81853543

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/043079 WO2022118720A1 (ja) 2020-12-02 2021-11-24 画像と文字との混在文章を生成する装置

Country Status (3)

Country Link
US (1) US20230169257A1 (ja)
JP (1) JP7418761B2 (ja)
WO (1) WO2022118720A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176083A (ja) * 2003-12-12 2005-06-30 National Institute Of Information & Communication Technology 字幕番組データ制作システムにおける自動ルビ付与装置
JP2008287517A (ja) * 2007-05-17 2008-11-27 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP2015036886A (ja) * 2013-08-13 2015-02-23 ソニー株式会社 情報処理装置、記憶媒体、および方法
JP2018077794A (ja) * 2016-11-11 2018-05-17 京セラドキュメントソリューションズ株式会社 画像処理装置、及び画像形成装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005176083A (ja) * 2003-12-12 2005-06-30 National Institute Of Information & Communication Technology 字幕番組データ制作システムにおける自動ルビ付与装置
JP2008287517A (ja) * 2007-05-17 2008-11-27 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP2015036886A (ja) * 2013-08-13 2015-02-23 ソニー株式会社 情報処理装置、記憶媒体、および方法
JP2018077794A (ja) * 2016-11-11 2018-05-17 京セラドキュメントソリューションズ株式会社 画像処理装置、及び画像形成装置

Also Published As

Publication number Publication date
JP7418761B2 (ja) 2024-01-22
JPWO2022118720A1 (ja) 2022-06-09
US20230169257A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
Daud et al. Urdu language processing: a survey
JP4448450B2 (ja) 多モードの音声言語翻訳及び表示
Sugandhi et al. Sign language generation system based on Indian sign language grammar
Hockey Electronic texts in the humanities: principles and practice
Morrissey Data-driven machine translation for sign languages
Pennell et al. Normalization of text messages for text-to-speech
Karim Technical challenges and design issues in bangla language processing
CN110678868B (zh) 翻译支持系统、装置和方法以及计算机可读介质
Jamil Design and implementation of an intelligent system to translate arabic text into arabic sign language
Varghese et al. English to SiGML conversion for sign language generation
CN105335356A (zh) 一种面向语义识别的纸质翻译方法及翻译笔装置
KR20220084915A (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
JPH05120324A (ja) 言語処理方式
JP4200874B2 (ja) 感性情報推定方法および文字アニメーション作成方法、これらの方法を用いたプログラム、記憶媒体、感性情報推定装置、文字アニメーション作成装置
US20230069113A1 (en) Text Summarization Method and Text Summarization System
WO2022118720A1 (ja) 画像と文字との混在文章を生成する装置
Othman et al. An XML-gloss annotation system for sign language processing
Van Zijl et al. The South African sign language machine translation project: issues on non-manual sign generation
JP2005050156A (ja) コンテンツの置換方法及びシステム
JP2005250525A (ja) 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
Mohtar et al. Development of a Web-based Jahai–Malay Language Repository
Rajendran et al. Tamil NLP Technologies: Challenges, State of the Art, Trends and Future Scope
JP5632213B2 (ja) 機械翻訳装置及び機械翻訳プログラム
Goyal et al. SIG
Oak et al. RETRACTED CHAPTER: Literature Review on Sign Language Generation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21900474

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022566868

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21900474

Country of ref document: EP

Kind code of ref document: A1