WO2023085695A1 - Image editing device - Google Patents

Image editing device Download PDF

Info

Publication number
WO2023085695A1
WO2023085695A1 PCT/KR2022/017172 KR2022017172W WO2023085695A1 WO 2023085695 A1 WO2023085695 A1 WO 2023085695A1 KR 2022017172 W KR2022017172 W KR 2022017172W WO 2023085695 A1 WO2023085695 A1 WO 2023085695A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
data
translation
text
image data
Prior art date
Application number
PCT/KR2022/017172
Other languages
French (fr)
Korean (ko)
Inventor
이상연
Original Assignee
주식회사 벨루가
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220144529A external-priority patent/KR20230068315A/en
Application filed by 주식회사 벨루가 filed Critical 주식회사 벨루가
Publication of WO2023085695A1 publication Critical patent/WO2023085695A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0489Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using dedicated keyboard keys or combinations thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Definitions

  • the present invention relates to an image editing apparatus, and more particularly, to an image editing apparatus capable of providing translation for text data included in an image and editing the image.
  • An object of the present invention is to provide an image editing device that provides a webtoon providing method through speech bubble recognition that sets a speech bubble area by executing a speech bubble recognition algorithm when an input event occurs and adjusts the size of text in the speech bubble area.
  • an object of the present invention is to provide a webtoon providing method through speech bubble recognition, which learns to distinguish between speech bubble images and error images through a deep learning module and sets a speech bubble area in image data using the learned deep learning module. It is to provide an image editing device.
  • Another object of the present invention is to provide an image editing device that provides a translation based on information of image data using deep learning.
  • An image editing apparatus includes a processor and a memory operatively connected to the processor, wherein the memory, when executed, causes the processor to identify text data in first image data; , Based on the information of the first image data, a translation algorithm for providing at least one translation for the text data is executed, and based on a result of execution of the translation algorithm, one of the at least one translation from the outside is executed. instructions for receiving a translation selection signal for selecting a first translation and identifying second image data to which the first translation is applied to the first image data based on receiving the translation selection signal; Save.
  • the instructions may cause the processor to execute a speech bubble recognition algorithm using the first image data according to the generation of an input event received from the outside, and to execute the speech bubble recognition algorithm based on the execution of the speech bubble recognition algorithm, to determine the first image.
  • a speech bubble area included in the data is set, and the text data within the speech bubble area is identified.
  • the instructions cause the processor to set the speech bubble area based on the first image data through a deep learning module, wherein the deep learning module uses a generative adversarial network to generate a speech bubble area. It is trained to distinguish between an image and an error image, the deep learning module includes a generator module and an identifier module, the generator module is trained to generate fake data associated with the error image, and the identifier module is associated with the speech bubble image. It is learned to distinguish between real data and the fake data.
  • the instructions include, in the processor, applying the information of the first image data, the text data, and the at least one translation to an input node, and applying the first translation to an output node, so that the translation deep learning module Through this, the translation algorithm is learned.
  • the instructions cause the processor to identify a text area in the first image data and to identify the text data for the text area.
  • the instructions cause the processor to provide an editing screen that simultaneously displays the first image data and the second image data, and to provide a user interface capable of inputting user data for the second image data.
  • the instructions cause the processor to identify the second image data in which the font of the first translation is changed based on a font selection signal received from the outside.
  • the instructions cause the processor to identify at least one image excluding the text data from the second image data, and to perform image editing on the at least one image.
  • the instructions include, the processor receives an inpainting signal for a first image of the at least one image from a unit, removes the first image based on the inpainting signal, and A background image surrounding the first image is applied to a region from which the first image is removed.
  • the instructions cause the processor to receive input text data from the outside and identify a text conversion image corresponding to the input text data based on a result of execution of a pre-translation algorithm.
  • the image editing apparatus providing the webtoon providing method through speech bubble recognition according to the present invention may output an image in which the size of the text in the speech bubble area is adjusted when an input event occurs in the user terminal.
  • the size of the text may be adjusted so as to be included within the speech bubble area. Therefore, even if the image output to the user terminal is small and it is difficult to read the text, the user can adjust the size of the text by generating an input event.
  • the size of the text is adjusted only within the speech bubble area, so there is an advantage in that the webtoon can be read without covering the image included in the webtoon.
  • An image editing device that provides a webtoon providing method through speech bubble recognition according to the present invention can learn to distinguish a speech bubble image from an erroneous image through a deep learning module, and set a speech bubble area in image data using the learned deep learning module. there is. Since the deep learning module learns to distinguish between speech bubble images and erroneous images, it is possible to accurately and quickly set speech bubble areas within image data input by the deep learning module without the need to manually designate speech bubble areas for each image data.
  • the image editing apparatus of the present invention can increase the accuracy of translation and provide a natural translation by providing a translation based on information of image data through deep learning.
  • FIG. 1 is a conceptual diagram illustrating a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
  • FIG. 2 is a flowchart illustrating a webtoon providing method through speech bubble recognition according to some embodiments of the present invention.
  • FIG. 3 is an exemplary view of a user interface for explaining a method of displaying the image data of FIG. 2 on a screen of a user terminal.
  • FIG. 4 is a block diagram schematically illustrating a deep learning module included in a first server according to some embodiments of the present invention.
  • FIG. 5 is a diagram showing the configuration of the deep learning module of FIG. 4 .
  • 6 to 8 are exemplary views of a user interface for explaining a webtoon providing method according to some embodiments of the present invention.
  • 9 to 11 are exemplary views of a user interface for explaining a method of adjusting the size of a speech bubble area and text according to some embodiments of the present invention.
  • FIG. 12 is a diagram for explaining hardware implementation for performing a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
  • FIG. 13 is a diagram for explaining a system including an image editing apparatus according to some embodiments of the present invention.
  • FIG. 14 is a diagram for explaining an image editing apparatus according to some embodiments of the present invention.
  • FIG 15 are diagrams for explaining the operation of an image editing apparatus according to some embodiments of the present invention.
  • FIG. 16 is a diagram for explaining step S1001 of FIG. 15 .
  • FIG. 17 is a diagram for explaining step S1007 of FIG. 15 .
  • FIG. 18 is a diagram for explaining step S1007 of FIG. 15 .
  • 19 is a diagram for explaining a learning method of a translation deep learning module according to some embodiments of the present invention.
  • 20 is a sequence diagram illustrating operations of an image editing device and a deep learning translation module according to some embodiments of the present invention.
  • FIG. 21A is a diagram for explaining step S2005 of FIG. 20 .
  • FIG. 21B is a diagram for explaining step S2005 of FIG. 20 .
  • FIG. 22 is a diagram for explaining step S2015 of FIG. 20 .
  • FIG. 23 is a diagram for explaining a learning method of a translation deep learning module according to some embodiments of the present invention.
  • 24 is a diagram for explaining image editing of an image editing apparatus according to some embodiments of the present disclosure.
  • 25 is a sequence diagram illustrating operations of an image editing apparatus and an image editing module according to some embodiments of the present disclosure.
  • FIG. 26 is a diagram for explaining step S3001 of FIG. 25 .
  • 27, 28 and 29 are diagrams for explaining step S3005 of FIG. 25 .
  • first, second, A, and B used in this specification and claims may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention.
  • the term 'and/or' includes a combination of a plurality of related recited items or any one of a plurality of related recited items.
  • FIG. 1 is a conceptual diagram illustrating a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
  • a webtoon providing system (hereinafter, the system) through speech bubble recognition according to some embodiments of the present invention may include a first server 100, a user terminal 200, and a communication network 300. .
  • the first server 100 operates in association with the user terminal 200, and can be a subject of a webtoon providing method through speech bubble recognition according to some embodiments of the present invention.
  • the first server 100 may execute a speech bubble recognition algorithm using image data.
  • the first server 100 may perform an operation of setting a speech bubble area within the image data, recognizing text within the speech bubble area, and adjusting the size of the text through a speech bubble recognition algorithm.
  • the user terminal 200 may transmit a reading request for a webtoon that the user wants to read to the first server 100 .
  • the first server 100 may provide image data to the user terminal 200 in response to a webtoon reading request.
  • the image data may include one or more images included in the webtoon requested by the user.
  • the user terminal 200 may display and visualize the received image data on a screen.
  • an input event may mean that the user terminal 200 receives an input signal.
  • the input signal may include at least one of a click signal, a double click signal, a tap signal, a double tap signal, and a screen transition signal.
  • the double-click signal or the double-tap signal means that both the first input signal (eg, the first click signal) and the second input signal (eg, the second click signal) are generated within a predetermined time.
  • the user terminal 200 may provide an input event generation signal to the first server 100.
  • the first server 100 may execute a speech bubble recognition algorithm for image data based on the input event generation signal.
  • the first server 100 may set a speech bubble area included in the image data based on an execution result of the speech bubble recognition algorithm.
  • the speech bubble area refers to a virtual area formed along the edge of the speech bubble image.
  • the speech bubble image is an image in which text about a person's lines, thoughts, and stories are described in image data, and pictures and text can be distinguished due to the speech bubble image.
  • the size and shape of the speech bubble area and the speech bubble image are dependent on each other. For example, when the size of the speech bubble image increases, the size of the speech bubble area also increases. Conversely, when the size of the speech bubble area increases, the size of the speech bubble image may also increase. Therefore, in the following, the word bubble area and the word bubble image may be used interchangeably.
  • the first server 100 may recognize text within the speech bubble area. Also, the first server 100 may adjust the size of the recognized text. In this case, the size of the text may be determined based on the speech bubble area. Specifically, the size of the text may be determined so that all of the text is included within the speech bubble area. In other words, even if the size of the text is adjusted, the text may not deviate from the speech bubble area.
  • image data before text size adjustment is defined as first image data
  • image data after text size adjustment is defined as second image data.
  • the first server 100 sets a speech bubble area included in the first image data, recognizes text in the speech bubble area, and adjusts the size of the text to generate second image data. can do.
  • the second image data generated by the first server 100 may be provided to the user terminal 200 .
  • the user terminal 200 may display the second image data on the screen of the user terminal 200 .
  • the second image data may include an animation effect in which the size of text is gradually adjusted, but the embodiments are not limited thereto.
  • the user terminal 200 may communicate with the first server 100 through a network.
  • the user terminal 200 may be, for example, a personal digital assistant (PDA), a portable computer, a web tablet, a wireless phone, a mobile phone, It can be applied to a digital music player, a memory card, or any electronic product capable of transmitting and/or receiving information in a wireless environment.
  • PDA personal digital assistant
  • portable computer a portable computer
  • web tablet a wireless phone
  • a mobile phone It can be applied to a digital music player, a memory card, or any electronic product capable of transmitting and/or receiving information in a wireless environment.
  • the present invention is not limited thereto, and the first server 100 may operate in conjunction with a plurality of user terminals 200 .
  • the user terminal 200 includes an input unit for receiving a user's input, a display unit for displaying visual information, a communication unit for sending and receiving signals to and from the outside, a camera unit for photographing the user's face, and converting the user's voice into digital data. It may include a microphone unit that converts, and a control unit that processes data, controls each unit inside the user terminal 200, and controls data transmission/reception between units.
  • the input unit of the user terminal 200 may include at least one of a keypad, a keyboard, a touchpad, and a touchscreen.
  • the user terminal 200 may receive an input signal through an input unit. Accordingly, the input signal may be generated by at least one of a keypad, keyboard, touchpad, and touchscreen.
  • the communication network 300 serves to connect the first server 100 and the user terminal 200 . That is, the communication network 300 means a communication network that provides an access path so that the user terminal 200 can transmit and receive data after accessing the first server 100 .
  • the communication network 300 may be, for example, a wired network such as LANs (Local Area Networks), WANs (Wide Area Networks), MANs (Metropolitan Area Networks), ISDNs (Integrated Service Digital Networks), wireless LANs, CDMA, Bluetooth, satellite communication, etc.
  • LANs Local Area Networks
  • WANs Wide Area Networks
  • MANs Metropolitan Area Networks
  • ISDNs Integrated Service Digital Networks
  • wireless LANs Code Division Multiple Access
  • CDMA Code Division Multiple Access
  • Bluetooth satellite communication
  • the webtoon providing method through speech bubble recognition according to some embodiments of the present invention may be performed by omitting some steps of the flow charts shown in this specification, or may be performed by adding specific steps not shown in this specification. is of course
  • the webtoon providing method through speech bubble recognition according to some embodiments of the present invention does not necessarily need to be performed in the order of the flow charts shown in this specification, and may be performed by changing the order of specific steps or simultaneously.
  • Those skilled in the art will be able to implement the embodiments of the present invention through various modifications without departing from the scope of the present invention.
  • FIG. 2 is a flowchart illustrating a webtoon providing method through speech bubble recognition according to some embodiments of the present invention.
  • the user terminal 200 may provide the first server 100 with a reading request for a webtoon that the user wants to read.
  • the first server 100 may provide the first image data to the user terminal 200 in response to a webtoon reading request.
  • the user terminal 200 displays the received first image data on the screen of the user terminal 200 (S100). To describe an example of displaying the first image data on the screen of the user terminal 200 , further reference is made to FIG. 3 .
  • FIG. 3 is an exemplary view of a user interface for explaining a method of displaying the image data of FIG. 2 on a screen of a user terminal.
  • the user terminal 200 may display the first image data received from the first server 100 on the screen of the user terminal 200 .
  • the first image data may include a first image A1 and a second image A2.
  • the first image A1 may include a first speech bubble area B1, a first text area T1, and a first background area C1.
  • the first word balloon area B1 refers to a virtual area formed along the contour of the word balloon image included in the first image A1.
  • the speech bubble image may be an image in which text about lines, thoughts, and stories of characters appearing in the webtoon are described.
  • the first text area T1 may be a virtual area surrounding text included in the first speech bubble area B1. Similar to the relationship between the speech bubble image and the speech bubble area, it is assumed that the text and the size of the text area are dependent on each other. For example, when the size of the text increases, the size of the text area also increases, and when the size of the text area increases, the size of the text also increases. Therefore, the term 'text' and the term 'text area' may be used interchangeably below.
  • the first text area T1 may be included in the first speech bubble area B1. In other words, the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1.
  • the first background area C1 may be an area other than the first speech bubble area B1 in the first image A1. That is, the first background area C1 may be an area including characters and a background included in the first image A1 excluding the first speech bubble area B1.
  • the second image A2 may include a second speech bubble area B2, a second text area T2, and a second background area C2.
  • the first image A1 and the second image A2 are illustrated as including one speech bubble area and one text area, but the present invention is not limited thereto.
  • the user terminal 200 may further include a scroll bar (SB) for switching images displayed on the screen of the user terminal 200, but the embodiments are not limited thereto.
  • SB scroll bar
  • the first server 100 executes a speech bubble recognition algorithm for the first image data (S200).
  • the first server 100 sets a speech bubble area in the first image data based on the execution result of the speech bubble recognition algorithm (S300).
  • the first server 100 may set a speech bubble area included in the first image data by using a deep learning module.
  • a deep learning module that sets the speech bubble area included in the first image data
  • FIG. 4 is a block diagram schematically illustrating a deep learning module included in a first server according to some embodiments of the present invention
  • FIG. 5 is a diagram showing the configuration of the deep learning module of FIG. 4 .
  • (b1) of FIG. 4 shows a learning process of the deep learning module (DM) included in the first server 100.
  • the first server 100 may train the deep learning module (DM) using the speech bubble image.
  • the speech bubble image may be an image in which text about lines, thoughts, and stories of characters appearing in the webtoon are described.
  • the speech bubble image may be a circular balloon with a triangular tip attached to it, a cloud-shaped balloon with a circular tip attached to it, or a square balloon with a triangular tip attached to it. It may have a polygonal balloon shape.
  • the shape of the speech bubble image is not limited to the above-described example.
  • the deep learning module (DM) may perform learning based on a generative adversarial network (GAN).
  • the deep learning module (DM) may include a generator module and an identifier module.
  • the generator module may generate fake data by receiving the noise vector.
  • the identifier module may receive real data and fake data generated by the generator module, and learn to distinguish between real data and fake data.
  • the classification result value in the identifier module is provided to the generator module again and can be used for learning of the generator module.
  • the generator module may be trained in a direction of generating fake data that is difficult to distinguish from real data, and the identifier module may be trained in a direction of increasing classification accuracy between real data and fake data.
  • the deep learning module may receive a speech bubble image previously stored in the first server 100 as real data. That is, the identifier module may receive a speech bubble image as real data.
  • the generator module may generate an error image similar to the speech bubble image but not the speech bubble image as fake data by using the noise vector.
  • the error image generated by the creator module may be provided to the identifier module as fake data. For example, when the speech bubble image has a shape in which a circular balloon has a triangular tip attached to it, the error image may be a circular shape image.
  • the identifier module may receive the error image as fake data and the speech bubble image as real data.
  • the identifier module may learn to distinguish between fake data and real data, that is, an error image and a speech bubble image.
  • the trained deep learning module (DM) may receive image data as input data and provide a speech bubble area as output data.
  • the trained deep learning module (DM) may set a speech bubble area in the image data by distinguishing real data included in the image data.
  • Deep learning technology a type of machine learning, learns by going down to a multi-level deep level based on data. That is, deep learning represents a set of machine learning algorithms that extract core data from a plurality of data while stepping up.
  • the deep learning module (DM) may derive a speech bubble area by performing an algorithm with image data as an input. Although the deep learning module (DM) has been described herein as performing productive adversarial network-based learning, the embodiments are not limited thereto.
  • the deep learning module (DM) may use various well-known neural network structures.
  • the deep learning module (DM) may include a convolutional neural network (CNN), a recurrent neural network (RNN), a deep belief network (DBN), and a GNN. (Graph Neural Network).
  • the deep learning module (DM) may be trained to distinguish between a speech bubble image and an erroneous image through a productive adversarial neural network by inputting a speech bubble image and a noise vector. Accordingly, the trained deep learning module (DM) can distinguish a speech bubble image, which is real data, from image data, and accordingly, a speech bubble area can be set.
  • image data is only an example of an input parameter input to the deep learning module (DM), and input data applied to the deep learning module (DM) may be variously added or changed and used.
  • learning of the deep learning module (DM) can be performed by adjusting the weight of the connection line between nodes (and adjusting the bias value if necessary) so that a desired output is produced for a given input.
  • the deep learning module (DM) may continuously update weight values by learning.
  • the operation of the deep learning module (DM) may be implemented in the first server 100 or a separate cloud first server.
  • the aforementioned deep learning module (DM) will be described.
  • the deep learning module includes an input layer (Input) including an input node receiving image data, an output layer (Output) including an output node for outputting a speech bubble area, and an input layer and It includes M hidden layers arranged between output layers.
  • a weight may be set to an edge connecting nodes of each layer.
  • the presence or absence of these weights or edges can be added, removed, or updated in the learning process. Therefore, through the learning process, weights of nodes and edges disposed between k input nodes and i output nodes may be updated.
  • All nodes and edges may be set to initial values before the deep learning module (DM) performs learning.
  • DM deep learning module
  • the weights of nodes and edges are changed, and in this process, the parameters input as learning factors (ie, image data) and values assigned to output nodes (ie, speech bubble areas) are changed. matching can be made.
  • the deep learning module (DM) may receive and process a large number of parameters. Therefore, the deep learning module (DM) can perform learning based on massive data.
  • weights of nodes and edges between an input node and an output node constituting the deep learning module (DM) may be updated by the learning process of the deep learning module (DM).
  • parameters output from the deep learning module (DM) can be additionally extended to various data besides the speech bubble area.
  • the webtoon providing method through speech bubble recognition of the present invention learning to distinguish a speech bubble image from an erroneous image through a deep learning module, and setting a speech bubble area in image data using the learned deep learning module is possible. Since the deep learning module learns to distinguish between speech bubble images and erroneous images, it is possible to accurately and quickly set speech bubble areas within image data input by the deep learning module without the need to manually designate speech bubble areas for each image data.
  • the first server 100 recognizes text within a set speech bubble area (S400).
  • the first server 100 may recognize text within the speech bubble area through a character recognition technique.
  • the first server 100 may recognize text in the first speech bubble area B1 through a character recognition technique, and set the area including the recognized text as the first text area T1.
  • the first server 100 may generate second image data by adjusting the size of the text in the speech bubble area (S500).
  • the size of the adjusted text may not deviate from the speech bubble area.
  • the size of the text within the speech bubble area may be adjusted so as to be included within the speech bubble area.
  • the second image data may include an animation effect in which the size of text is gradually changed, but the embodiments are not limited thereto.
  • the second image data generated by the first server 100 may be provided to the user terminal 200 through the communication network 300 .
  • the user terminal 200 may receive the second image data and display it on the screen of the user terminal 200 (S600).
  • the first server 100 may readjust the text size (S700).
  • the user terminal 200 may generate an input event end signal.
  • the generated input event termination signal may be provided to the first server 100 through the communication network 300 .
  • the first server 100 may receive the input event end signal and provide the first image data to the user terminal 200 again.
  • the user terminal 200 may output the first image data to the screen of the user terminal 200 .
  • an image having a text size adjusted in a speech bubble area may be output.
  • the size of the text may be adjusted so as to be included within the speech bubble area. Therefore, even if the image output to the user terminal is small and it is difficult to read the text, the user can adjust the size of the text by generating an input event.
  • the size of the text is adjusted only within the speech bubble area, so there is an advantage in that the webtoon can be read without covering the image included in the webtoon.
  • the first server 100 may increase the size of the text while fixing the size of the speech bubble image. According to some other embodiments, the first server 100 may increase the size of the speech bubble area and increase the size of the text. For exemplary explanation, it will be described with reference to FIGS. 6 to 11 .
  • 6 to 8 are exemplary views of a user interface for explaining a webtoon providing method according to some embodiments of the present invention.
  • the same or similar content as the above description will be omitted or briefly described.
  • the user may provide an input signal through the user terminal 200 .
  • the user terminal 200 may generate an input event. That is, the occurrence of an input event in the user terminal 200 may mean that an input signal is provided to the user terminal 200 .
  • the user terminal 200 may provide an input event generation signal to the first server 100 .
  • the user terminal 200 may receive any one of a click signal, a tap signal, a double click signal, and a double tap signal.
  • an input signal When an input signal is provided to the user terminal 200, an input event may occur.
  • the double-click signal or double-tap signal may mean inputting two click signals or tap signals within a predetermined period. In other words, when the user terminal 200 receives the first signal and the second signal within a predetermined time, it may be determined that a double click signal or a double tap signal is input.
  • the first server 100 Upon receiving the input event generation signal, the first server 100 sets a first speech bubble area B1 included in the first image A1, and sets a first text area T1 within the first speech bubble area B1. ) can be set.
  • the first server 100 may increase the size of the first text area T1 to generate second image data. In this case, the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1. In other words, the first text area T1 may be included in the first speech bubble area B1.
  • the second image data generated by the first server 100 may be provided to the user terminal 200.
  • the user terminal 200 may receive the second image data and display it on the screen of the user terminal 200 . That is, the user terminal 200 may display the second image data in which the size of the first text area T1 in the first speech bubble area B1 is increased on the screen of the user terminal 200 .
  • the user terminal 200 may generate an input event end signal and provide it to the first server 100 .
  • the first server 100 provides first image data to the user terminal 200 again, and the user terminal 200 may output the first image data.
  • An input event may be terminated according to various circumstances. For example, the input event may end after a specific time elapses (eg, 3 seconds later) after the input event has occurred. For another example, when an input signal is provided to the user terminal 200 again after an input event has occurred, the input event may end. For another example, an input event may occur only while an input signal is provided to the user terminal 200, and may end when the supply of the input signal is stopped.
  • the user terminal 200 generates an input event when an input signal is provided and ends the input event when the input signal is stopped.
  • the user terminal 200 may generate an input event only while the input signal continues.
  • the user terminal 200 may generate an input event while a tap signal or a click signal is maintained, and may end the input event when the tap signal or click signal is stopped.
  • the user terminal 200 may output the second image data with the text size adjusted only while the tap signal or the click signal is maintained.
  • the user terminal 200 may generate an input event when receiving a screen change signal.
  • the screen switching signal may mean that the first image A1 included in the image data is switched to a second image A2 different from the first image A1.
  • the user terminal 200 may generate an input event and provide the input event generation signal to the first server 100 when receiving a screen switching signal for switching from the first image A1 to the second image A2. there is.
  • the first server 100 may increase the size of the second text area T2 to generate second image data.
  • the second image data is provided to the user terminal 200, and the user terminal 200 may output the second image data.
  • a user may generate a screen switching signal using a scroll bar SB displayed on the screen of the user terminal 200, but embodiments are not limited thereto.
  • 9 to 11 are exemplary views of a user interface for explaining a method of adjusting the size of a speech bubble area and text according to some embodiments of the present invention.
  • the first server 100 may increase the size of the speech bubble area and the text area together. Even in this case, the size of the text area may be smaller than or equal to the size of the speech bubble area.
  • the first server 100 may generate second image data in which the sizes of the speech bubble area and the text area are increased, and provide the second image data to the user terminal 200 .
  • the user terminal 200 may output the second image data provided to the screen of the user terminal 200 .
  • the user terminal 200 when the user terminal 200 receives one of a tap signal, a click signal, a double tap signal, and a double click signal, the user terminal 200 You can generate input events.
  • the user terminal 200 provides an input event generation signal to the first server 100, and the first server 100 receives the input event generation signal to form a first speech bubble area B1 and a first text area T1. ) can be increased. Even in this case, the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1.
  • an input event is generated when an input signal is provided to the user terminal 200, and an input event is generated when the supply of the input signal is stopped.
  • the first server 100 may increase the size of the first speech bubble area B1 and the first text area T1.
  • the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1.
  • the user terminal 200 may generate an input event.
  • the user terminal 200 may receive a screen switching signal for switching from the first image A1 to the second image A2.
  • the user terminal 200 may receive a screen change signal, generate an input event, and provide an input event generation signal to the first server 100 .
  • the first server 100 may receive an input event generation signal and increase the size of the first speech bubble area B1 and the first text area T1.
  • FIG. 12 is a diagram for explaining hardware implementation for performing a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
  • the first server 100 may be implemented as an electronic device 1000 .
  • the electronic device 1000 may include a controller 1010, an input/output device 1020 (I/O), a memory device 1030 (memory device), an interface 1040, and a bus 1050.
  • the controller 1010 , the input/output device 1020 , the memory device 1030 and/or the interface 1040 may be coupled to each other through a bus 1050 .
  • the bus 1050 corresponds to a path through which data is moved.
  • the controller 1010 includes a central processing unit (CPU), a micro processor unit (MPU), a micro controller unit (MCU), a graphic processing unit (GPU), a microprocessor, a digital signal processor, a microcontroller, and an application processor (AP). , application processor), and logic elements capable of performing functions similar thereto.
  • CPU central processing unit
  • MPU micro processor unit
  • MCU micro controller unit
  • GPU graphic processing unit
  • AP application processor
  • application processor application processor
  • the input/output device 1020 may include at least one of a keypad, keyboard, touchpad, touchscreen, display device, and joystick.
  • the memory device 1030 may store data and/or programs.
  • the memory device 1030 is an operating memory for improving the operation of the controller 1010 and may include high-speed DRAM and/or SRAM.
  • the memory device 1030 may store a program or application for a webtoon providing method through speech bubble recognition therein.
  • the interface 1040 may perform a function of transmitting data to a communication network or receiving data from the communication network.
  • the interface 1040 may operate in a wired or wireless form.
  • the interface 1040 may include an antenna or a wired/wireless transceiver.
  • a method for providing a webtoon through speech bubble recognition performed in a first server associated with a user terminal includes displaying first image data on a screen of a user terminal; According to generation, executing a speech bubble recognition algorithm using the first image data, setting a speech bubble area included in the first image data based on a result of the execution of the speech bubble recognition algorithm, setting a first word in the first speech bubble area.
  • the size of is smaller than or equal to the size of the first speech bubble area.
  • adjusting the size of the first text area may include fixing the size of the first speech bubble area and increasing the size of the first text area.
  • the method may further include displaying the first image data on the screen of the user terminal according to the end of the input event.
  • adjusting the size of the first text area may include increasing the size of the first speech bubble area and increasing the size of the first text area.
  • an input event may occur when an input signal is provided to a user terminal.
  • the first signal and the second signal may be provided as input signals within a predetermined time period.
  • the input signal may be generated by at least one of a touch pad, a touch screen, a mouse, and a keyboard.
  • an input signal may be provided to the user terminal.
  • an input event may occur when an input signal is provided to the user terminal, and may end when the input signal is stopped to the user terminal.
  • the speech bubble recognition algorithm includes setting a first speech bubble region based on the first image data through a deep learning module, wherein the deep learning module uses a generative adversarial network.
  • the deep learning module includes a generator module and an identifier module, the generator module is trained to generate fake data associated with the error image, and the identifier module is trained to generate fake data associated with the speech bubble image and the identifier module , can be learned to distinguish fake data.
  • Steps according to the webtoon providing method through speech bubble recognition according to some embodiments of the present invention may be performed by an image editing device described below.
  • FIG. 13 is a diagram for explaining a system including an image editing device 400 according to some embodiments of the present invention.
  • an image editing device 400 may communicate with a first server 100 and a second server 2000 through a communication network 300 .
  • the image editing device 400 may be included in the user terminal 200 .
  • the second server 2000 may operate in association with the image editing device 400 .
  • the second server 2000 may provide at least one translation based on information of the first image data (eg, original data) by using a translation algorithm.
  • the second server 2000 may include, for example, a translation deep learning module capable of executing a translation algorithm.
  • the second server 2000 may identify a text conversion image corresponding to the input text data using a translation algorithm. For example, when input text data is input, the second server 2000 may identify the input text data through a translation algorithm, and may identify an image corresponding to the text content of the input text data as a text conversion image.
  • the translation algorithm is performed by the second server 2000, it is not limited thereto.
  • the operation of the second server 2000 may be executed in the image editing device 400 .
  • FIG. 14 is a diagram for explaining an image editing apparatus 400 according to some embodiments of the present invention.
  • an image editing device 400 may include a processor 410, a memory 420, a communication module 430, and a display 440.
  • the memory 420 may store commands, information, or data related to operations of components included in the image editing device 400 .
  • memory 420 may store instructions that, when executed, enable processor 410 to perform various operations described herein.
  • the image editing device 400 communicates with other devices (eg, at least one of a user, a first server (100 in FIG. 13) and a second server (2000 in FIG. 13)) through the communication module 430. can communicate with other devices (eg, at least one of a user, a first server (100 in FIG. 13) and a second server (2000 in FIG. 13) through the communication module 430. can communicate with other devices (eg, at least one of a user, a first server (100 in FIG. 13) and a second server (2000 in FIG. 13)) through the communication module 430. can communicate with other devices (eg, at least one of a user, a first server (100 in FIG. 13) and a second server (2000 in FIG. 13)) through the communication module 430. can communicate
  • the display 440 may visually provide information to the outside of the image editing apparatus 400 (eg, a user).
  • the processor 410 may be operatively coupled to the display 440 , the memory 420 , and the communication module 430 in order to perform overall functions of the image editing device 400 .
  • Processor 410 may include, for example, one or more processors.
  • the one or more processors may include, for example, an image signal processor (ISP), an application processor (AP), or a communication processor (CP).
  • ISP image signal processor
  • AP application processor
  • CP communication processor
  • the processor 410 may identify text data in the first image data. For example, the processor 410 may identify a text area including text data of the first image data and identify text data included in the text area. For example, the processor 410 may identify a speech bubble area of the first image data and identify text included in the speech bubble area.
  • the processor 410 may execute a translation algorithm that provides at least one translation of text data based on information of the first image data.
  • the information of the first image data may include, for example, at least one of information about a source of the first image data, information about a creator who created the first image data, and information about a category of the first image data.
  • Information of the first image data has been described with three examples, but is not limited thereto. For example, if the information is the basis for executing the translation algorithm, it can be included in the information of the first image data.
  • the processor 410 may communicate with an external server to execute a translation algorithm in order to provide at least one translation of text data.
  • the translation algorithm may be executed, for example, in an external server (eg, the second server 2000 of FIG. 13).
  • the processor 410 may receive a translation selection signal for selecting a first translation, which is one of at least one translation, from the outside, based on an execution result of the translation algorithm. For example, the processor 410 may receive data including at least one translation from an external server (eg, the second server 2000 of FIG. 13 ) based on an execution result of a translation algorithm. The processor 410 may provide, for example, at least one translated text through the display 440 . For example, the processor 410 may receive a translation selection signal for selecting a first translation, which is one of at least one translation, from the outside (eg, a user). The processor 410 may notify an external server that a translation selection signal has been received, for example.
  • an external server eg, the second server 2000 of FIG. 13
  • the processor 410 may notify an external server that a translation selection signal has been received, for example.
  • the processor 410 may identify second image data to which the first translation is applied to the first image data, based on receiving the translation selection signal.
  • the processor 410 may receive, for example, second image data to which the first translation is applied from an external server (eg, the second server 2000 of FIG. 13 ).
  • the processor 410 may provide, for example, second image data through the display 440 .
  • the processor 410 performs a speech bubble recognition algorithm using the first image data according to generation of an input event received from the outside (eg, a user). can run Based on the execution of the speech bubble recognition algorithm, the processor 410 may set a speech bubble area included in the first image data and identify text data within the speech bubble area.
  • the processor 410 may set a speech bubble area through a deep learning module based on the first image data.
  • the processor 410 may identify the second image data in which the font of the first translation is changed, based on the font selection signal received from the outside.
  • the processor 410 may notify an external server (eg, the second server 2000 of FIG. 13 ) that a font selection signal has been received.
  • the processor 410 receives, for example, the second image data in which the font of the first translation is changed from an external server (eg, the second server 2000 of FIG. 13 ), and provides it through the display 440 .
  • the processor 410 may receive input text data from an external source (eg, a user), and may identify a text conversion image corresponding to the input text data based on an execution result of a translation algorithm.
  • the processor 410 transmits the input text data to an external server (eg, the second server 2000 of FIG. 13 ) using, for example, a translation algorithm that can interpret the text and identify its meaning.
  • the processor 410 may receive, for example, a text conversion image corresponding to the content of the text included in the input text data from an external server (eg, the second server 2000 of FIG. 13 ).
  • the processor 410 may provide, for example, a text conversion image through the display 440 .
  • the processor 410 applies information of the first image data, text data, and at least one translation to an input node, and applies the first translation to an output node so that the translation algorithm is learned through a translation deep learning module.
  • the processor 410 may provide an editing screen that simultaneously displays the first image data and the second image data.
  • the processor 410 may provide a user interface through which user data may be input for the second image data.
  • the processor 410 identifies at least one image excluding the text data from the first image data, and enables image editing on the at least one image. can do.
  • the processor 410 may cause an external server (eg, the second server 2000 of FIG. 13 ) to identify at least one image excluding text data from the first image data.
  • the at least one image may be, for example, any one of at least one main image and/or at least one background image.
  • the processor 410 may execute an operation related to image editing of an external server (eg, the second server 2000 of FIG. 13 ) to enable image editing of at least one image.
  • Image editing may mean performing image processing, such as changing resolution, removing a background image, changing size, and the like.
  • the processor 410 receives an inpainting signal for a first image of at least one image from an outside (eg, user), and removes the first image based on the inpainting signal. and apply a background image surrounding the first image to the region from which the first image is removed.
  • the processor 410 may notify an external server (eg, the second server 2000 of FIG. 13 ) that an inpainting signal for the first image has been received.
  • the processor 410 removes the first image based on the inpainting signal, and transfers second image data to an external server (eg, a background image surrounding the first image) applied to the area where the first image is removed. , may be received from the second server 2000 of FIG. 13 .
  • the processor 410 may provide second image data through, for example, the display 440 .
  • FIG. 14 the operation of the image editing device (400 in FIG. 14) according to some embodiments of the present invention will be described with reference to FIGS. 15 to 18.
  • FIGS. 15 to 18 For clarity of description, overlapping with those described above are simplified or omitted.
  • FIG. 15 are diagrams for explaining the operation of an image editing apparatus according to some embodiments of the present invention.
  • FIG. 16 is a diagram for explaining step S1001 of FIG. 15 .
  • FIG. 17 is a diagram for explaining step S1007 of FIG. 15 .
  • FIG. 18 is a diagram for explaining step S1007 of FIG. 15 .
  • An operation described as being performed by the image editing device 400 is an instruction (command) that can be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device (400 in FIGS. 13 and 14 ).
  • the instructions may be stored, for example, in a computer recording medium or a memory (420 in FIG. 14) of the image editing device 400 of FIGS. 13 and 14.
  • the image editing device may identify text data from the first image data.
  • the first image data may further include, for example, at least one of a main image and a background image.
  • the image editing device may transmit the first image data, which is the text data to be identified, to the second server ( 2000 in FIG. 13 ).
  • the image editing apparatus may identify text data in the first image data by receiving information on the text data of the first image data from the second server (2000 in FIG. 13 ).
  • the image editing device may identify text data 513 , a main image 517 , and a background image 519 from first image data 510 .
  • the image editing device receives information on the text data 513, the main image 517, and the background image 519 from the second server (2000 in FIG. 13), so that the text data ( 513), a main image 517 and a background image 519 can be identified.
  • the image editing device may identify text data 513 from the first image data 510 .
  • the image editing device receives information about the text area 511 and the text data 513 included in the text area 511 from the second server (2000 in FIG. 13), thereby converting the text data from the first image data 510 to (513) can be identified.
  • the image editing device may identify a speech bubble area 515 in the first image data 510 as described with reference to FIGS. 1 to 12 .
  • the image editing device receives text data from the first image data 510 by receiving information about the speech bubble area 515 and the text data 513 included in the speech bubble area 515 from the second server (2000 in FIG. 13 ). (513) can be identified.
  • the image editing device may execute a translation algorithm that provides at least one translation of the text data based on the information of the first image data.
  • the translation algorithm may be executed, for example, in the second server (2000 in FIG. 13).
  • the image editing device may transmit information of the first image data to the second server (2000 in FIG. 13).
  • the second server (2000 of FIG. 13) may execute the translation algorithm.
  • the second server (2000 in FIG. 13) may generate at least one translation of the text data using a translation algorithm.
  • the image editing device may generate at least one translation including at least one of a direct translation of the text data and a paraphrase of the text data, based on information of the first image data.
  • the image editing device may receive at least one translated text from the second server (2000 in FIG. 13).
  • the image editing device may provide at least one translated text through a display ( 440 in FIG. 14 ).
  • the image editing device may receive a translation selection signal for selecting a first translation, which is one of at least one translation, from the outside based on the execution result of the translation algorithm.
  • the image editing device may receive a translation selection signal from the outside (eg, a user).
  • the image editing device may identify second image data to which a first translation is applied to the first image data, based on receiving the translation selection signal.
  • the image editing device may inform the second server (2000 in FIG. 13) that the translation selection signal has been received.
  • the second server (2000 in FIG. 13 ) may generate second image data obtained by changing the text data of the text area of the first image data into the first translation, based on the translation selection signal.
  • the image editing apparatus may identify the second image data by receiving the second image data from the second server (2000 in FIG. 13 ).
  • an image editing device may provide an editing screen 600 that simultaneously displays first image data 510 and second image data 520 .
  • the image editing device may provide the editing screen 600 through the display ( 440 of FIG. 14 ).
  • the second image data 520 may be image data to which the first translation 523 is applied to the text area 511 .
  • the image editing device provides the first image data 510 to the first area 601 of the editing screen 600 and provides the second image data 520 to the second area 603 of the editing screen 600. can do.
  • the user can simultaneously view the first image data 510 and the second image data 520 to which the first translation 523 is applied on one editing screen 600 .
  • the image editing device may provide an editing screen 600 that further includes a user interface 530 through which user data may be input for second image data 520 .
  • a user may input data (eg, text) into the user interface 530 .
  • User data input to the user interface 530 may be editable.
  • user data input to the user interface 530 and the user interface 530 may be deleted by the user.
  • the second user when a plurality of users edit the second image data 520 using the editing screen 600, when a first user inputs a comment (ie, user data) into the user interface 530 and then saves it , the second user, who is the next user, may check the comments left by the first user through the user interface 530 .
  • the second user may create another user interface 530 to input and store comments (ie, user data).
  • the third user who is the next user, may check both the comments left by the first user and the comments left by the second user.
  • the image editing apparatus can provide convenience by enabling a plurality of users to leave comments using the user interface 530 when editing image data, and it is possible to provide convenience when editing image data by a plurality of users. can be done easily
  • 19 is a diagram for explaining a learning method of a translation deep learning module 2001 according to some embodiments of the present invention.
  • the description of FIG. 5 can be applied to the translation deep learning module 2001 of FIG. 19 .
  • the operation described as being performed by the image editing device (400 of FIG. 14) is an instruction (command) that can be performed (or executed) by the processor (410 of FIG. 14) of the image editing device (400 of FIG. 14).
  • the instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing device 400 of FIGS. 13 and 14 .
  • the image editing device applies information of first image data, text data, and at least one translation to an input node, and applies the first translation to an output node, so that a translation deep learning module (2001 ), the translation algorithm can be learned.
  • the image editing device may transmit the first learning input data to the translation deep learning module 2001 included in the second server (2000 in FIG. 13 ) so that the translation deep learning module 2001 is trained.
  • the first learning input data may include information of the first image data, text data, at least one translation, and first translation.
  • the translation deep learning module 2001 may be learned by applying information of the first image data, text data, and at least one translation to an input node, and applying the first translation to an output node.
  • FIG. 20 is a sequence diagram illustrating operations of an image editing device 400 and a translation deep learning module 2001 according to some embodiments of the present invention.
  • FIG. 21A is a diagram for explaining step S2005 of FIG. 20 .
  • FIG. 21B is a diagram for explaining step S2005 of FIG. 20 .
  • FIG. 22 is a diagram for explaining step S2015 of FIG. 20 .
  • An operation described as being performed by the image editing device 400 may be implemented as instructions (commands) that may be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device 400.
  • the instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing device 400 of FIGS. 13 and 14 .
  • the image editing apparatus 400 may receive input text data.
  • the input text data may be received before or after, for example, the second image data to which the first translation is applied is identified by the image editing device 400 .
  • the image editing device 400 may receive input text data from the outside (eg, a user).
  • the input text data may be text data input to obtain an image.
  • step S2003 the image editing device 400 may transmit the input text data to the translation deep learning module 2001.
  • the translation deep learning module 2001 may be included in the second server (2000 in FIG. 13).
  • step S2005 the translation deep learning module 2001 may generate at least one text conversion image corresponding to the input text data.
  • the translation deep learning module 2001 generates at least one text conversion image 701 or 703 corresponding to the input text data by identifying the meaning of the input text data using a translation algorithm. can do. For example, when the image editing device 400 receives input text data of “separate collection box” from the outside, the translation deep learning module 2001 converts at least one text corresponding to the input text data “separate collection box”. Images 701 and 703 can be created.
  • the at least one text conversion image 701 or 703 may include a reference image 701 corresponding to the input text data and a derivative image 703 of the reference image 701 .
  • the translation deep learning module 2001 may transmit at least one text conversion image to the image editing device 400 .
  • the image editing device 400 may identify at least one text conversion image.
  • the image editing device 400 may provide at least one text converted image through a display ( 440 of FIG. 14 ).
  • the image editing apparatus 400 may receive a correction signal for a first text conversion image that is one of at least one text conversion image.
  • the image editing apparatus 400 may receive a correction signal for correcting the first text conversion image from an outside (eg, user).
  • the modification may include, for example, changing the background image of the first text conversion image.
  • step S2013 the image editing device 400 may transmit a correction signal for the first text conversion image to the translation deep learning module 2001.
  • the translation deep learning module 2001 may generate a modified image of the first text converted image based on the modified signal. For example, when the correction signal includes content for changing the background image of the first converted text image by modifying the first converted text image, the translation deep learning module 2001 changes the background image of the first converted text image. A modified image can be created.
  • the image editing apparatus 400 includes content for selecting a first text conversion image, which is one of at least one text conversion image, and content for requesting modification of the first text conversion image.
  • a signal may be received from the outside (eg, user).
  • the translation deep learning module 2001 may generate a modified image 705 obtained by changing the background image of the first text converted image (eg, 703 of FIG. 21B ) based on the modified signal.
  • the translation deep learning module 2001 may transmit the corrected image to the image editing device 400.
  • the image editing device 400 may identify a modified image.
  • the image editing device 400 may provide a modified image through a display ( 440 of FIG. 14 ).
  • FIG. 23 is a diagram for explaining a learning method of a translation deep learning module 2001 according to some embodiments of the present invention.
  • the description of FIG. 5 can be applied to the translation deep learning module 2001 of FIG. 19 .
  • the operation described as being performed by the image editing device (400 of FIG. 14) is an instruction (command) that can be performed (or executed) by the processor (410 of FIG. 14) of the image editing device (400 of FIG. 14).
  • the instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing device 400 of FIGS. 13 and 14 .
  • the image editing device applies input text data and a correction signal to an input node, and applies at least one text conversion image and a correction image to an output node to perform a translation deep learning module (2001).
  • the image editing device may transmit the second learning input data to the translation deep learning module 2001 included in the second server (2000 in FIG. 13 ) so that the translation deep learning module 2001 is trained.
  • the second learning input data may include input text data, a correction signal, at least one text conversion image, and a correction image.
  • the translation deep learning module 2001 may be learned by applying input text data and a correction signal to an input node and applying at least one text conversion image and a correction image to an output node.
  • FIGS. 13 and 24 For clarity of description, overlapping with those described above are simplified or omitted.
  • 24 is a diagram for explaining image editing by the image editing device 400 according to some embodiments of the present disclosure.
  • An operation described as being performed by the image editing device 400 may be implemented as instructions (commands) that may be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device 400.
  • the instructions may be stored, for example, in a computer recording medium or a memory (420 in FIG. 14) of the image editing apparatus 400 of FIGS. 14 and 24.
  • the image editing device 400 may edit the first translation 523 . Also, the image editing device 400 may perform image editing on at least one image other than text data of the second image data 520 .
  • the image editing device 400 may provide third image data, which is image data in which the font of the first translation is changed from the second image data, based on a font selection signal received from the outside (eg, a user) ( 540) can be identified.
  • the image editing device 400 receives the third image data 540 in which the font of the first translation has been changed from the second server 2000 to identify the third image data 540 in which the font of the first translation has been changed.
  • the image editing device 400 may notify the second server 2000 that a font selection signal has been received.
  • the second server 2000 applies the modified first translation 524, in which the font of the first translation 523 is changed, to the second image data 520 based on the font selection signal, thereby providing third image data ( 540) can be created.
  • the image editing device 400 may identify the third image data 540 by receiving the third image data 540 from the second server 2000 .
  • the image editing device 400 may provide the third image data 540 to the second area 603 of the editing screen 600 through the display 440 of FIG. 14 .
  • the image editing device 400 identifies at least one image (the main image 517 and the background image 519) except for the first translation 523 that is text data from the second image data 520. can do.
  • the image editing device 400 may perform image editing on at least one image.
  • the image editing device 400 may receive a signal for selecting a background image 519 , which is one of at least one image, and notify the second server 2000 of the signal.
  • the second server 2000 further receives a signal related to image editing of the selected background image 519 from the image editing device 400, performs image editing related to the received signal, and generates third image data 540.
  • the image editing device 400 may identify the third image data 540 by receiving the third image data 540 to which the changed background image 529 is applied from the second server 2000 .
  • the image editing device 400 may provide the third image data 540 to the second area 603 of the editing screen 600 through the display 440 of FIG. 14 .
  • image editing is performed on the background image 519 with reference to FIG. 24 , but is not limited thereto.
  • the description of image editing of the background image 519 may also be applied to the main image 517 .
  • the image editing device 400 may receive an inpainting signal from the outside (eg, a user).
  • the image editing device 400 may notify the second server 2000 that the inpainting signal has been received.
  • the second server 2000 may perform an editing operation of removing a specific image and applying a background image surrounding the specific image to an area where the specific image is removed. This is explained below with reference to FIGS. 25 to 29 .
  • FIG. 25 is a sequence diagram illustrating operations of an image editing device 400 and an image editing module 2003 according to some embodiments of the present disclosure.
  • FIG. 26 is a diagram for explaining step S3001 of FIG. 25 .
  • 27, 28 and 29 are diagrams for explaining step S3005 of FIG. 25 .
  • An operation described as being performed by the image editing device 400 may be implemented as instructions (commands) that may be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device 400.
  • the instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing apparatus 400 of FIG. 14 .
  • the image editing apparatus 400 may receive an inpainting signal for the first image.
  • the first image may be, for example, one of at least one image excluding the first translation in the image data to which the translation for the text data is applied.
  • the image editing device 400 may identify at least one image excluding the first translation 523 from the fourth image data 550 to which the translation for text data is applied.
  • the at least one image may include a main image 517 , a background image 519 , and a first image 516 .
  • the image editing device 400 may receive an inpainting signal for the first image 516 of at least one image.
  • the image editing device 400 may transmit an inpainting signal to the image editing module 2003.
  • the image editing module 2003 may be, for example, a module included in the second server (2000 in FIG. 13 ).
  • the image editing module 2003 may perform an editing operation of image data.
  • step S3005 the image editing module 2003 removes the first image based on receiving the inpainting signal, and applies a background image surrounding the removed first image to the region from which the first image is removed. Inpainting image data can be created.
  • the image editing module 2003 may identify a background image surrounding the first image.
  • the image editing module 2003 may generate inpainting image data by removing the first image and then applying a background image surrounding the identified first image to a region from which the first image is removed.
  • the image editing module 2003 may identify a background image 518 surrounding the first image 516 based on the inpainting signal.
  • the background image 518 surrounding the first image 516 may be a partial area of the fourth image data 550 including the first image 516 .
  • the image editing module 2003 may remove the first image 516 .
  • the image editing module 2003 generates inpainting image data 560 by applying the background image 518 surrounding the identified first image 516 to the area 516' from which the first image 516 is removed. can do.
  • the image editing module 2003 may generate the inpainting image data 560 by inserting clouds as the background image 518 into the region 516′ from which the first image 516 is removed. .
  • the image editing module 2003 may transmit inpainting image data to the image editing device 400.
  • the image editing device 400 may identify inpainting image data.
  • the image editing device 400 may provide inpainting image data through a display ( 440 of FIG. 14 ).
  • An image editing device can improve user convenience by simultaneously providing an image editing function as well as a translation function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

An image editing device is disclosed in the present invention. The image editing device comprises: a processor; and a memory operatively connected to the processor, wherein the memory stores instructions that, when executed, cause the processor to identify text data from first image data, execute a translation algorithm for providing at least one translation of the text data on the basis of information on the first image data, receive a translation selection signal for selecting, from the outside, a first translation which is one of the at least one translation, from the outside, on the basis of the execution result of the translation algorithm, and identify second image data to which the first translation is applied to the first image data, on the basis of the reception of the translation selection signal.

Description

이미지 편집 장치image editing device
본 발명은 이미지 편집 장치에 관한 것으로, 구체적으로 이미지에 포함된 텍스트 데이터에 대한 번역을 제공하고, 이미지를 편집할 수 있는 이미지 편집 장치에 관한 것이다.The present invention relates to an image editing apparatus, and more particularly, to an image editing apparatus capable of providing translation for text data included in an image and editing the image.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다. The contents described in this part merely provide background information on the present embodiment and do not constitute prior art.
최근 인터넷 등의 통신 네트워크의 발달로 인하여, 네트워크 통신을 통해 PC뿐만 아니라 다양한 모바일 기기를 이용하여 웹툰을 열람하는 것이 일반화되었다. Recently, due to the development of communication networks such as the Internet, it has become common to read webtoons using various mobile devices as well as PCs through network communication.
한편, 모바일 기기를 통해 웹툰을 열람하는 경우, 일반적으로 모바일 기기의 화면이 PC 화면보다 작기 때문에 웹툰의 이미지나 텍스트가 작아 사용자가 웹툰을 보는데 불편함을 느낄 수 있다. On the other hand, when reading webtoons through a mobile device, since the screen of the mobile device is generally smaller than the screen of a PC, the image or text of the webtoon is small, so the user may feel uncomfortable reading the webtoon.
따라서, 사용자의 니즈에 맞게 말풍선 영역 내의 텍스트 크기를 조절하는 말풍선 인식을 통한 웹툰 제공 방법에 대한 개발이 필요한 실정이다.Therefore, it is necessary to develop a webtoon providing method through speech bubble recognition that adjusts the size of the text in the speech bubble area according to the user's needs.
또한, 통신 네트워크의 발달로 인해 네트워크 통신을 통해 세계 각국의 이미지 콘텐츠를 열람하는 것이 일반화되었다. 한편, 세계 각국의 이미지 콘텐츠를 열람하는 경우 이미지 콘텐츠에 포함된 텍스트 해석에 어려움이 있을 수 있다. In addition, due to the development of communication networks, it has become common to view image contents from around the world through network communication. On the other hand, when browsing image content from around the world, there may be difficulties in interpreting text included in image content.
따라서, 이미지 콘텐츠에 포함된 다양한 언어의 번역을 용이하게 하고 나아가 이미지 편집도 가능한 장치에 대한 니즈가 존재하였다.Accordingly, there is a need for a device capable of easily translating various languages included in image content and further editing images.
본 발명의 목적은, 입력이벤트가 발생한 경우, 말풍선 인식 알고리즘을 실행하여 말풍선 영역을 설정하고, 말풍선 영역 내의 텍스트의 크기를 조절하는 말풍선 인식을 통한 웹툰 제공 방법을 제공하는 이미지 편집 장치를 제공하는 것이다. An object of the present invention is to provide an image editing device that provides a webtoon providing method through speech bubble recognition that sets a speech bubble area by executing a speech bubble recognition algorithm when an input event occurs and adjusts the size of text in the speech bubble area. .
또한, 본 발명의 목적은, 딥러닝 모듈을 통해 말풍선 이미지와 오류 이미지를 구분하도록 학습하고, 학습된 딥러닝 모듈을 이용하여 이미지 데이터에서 말풍선 영역을 설정하는 말풍선 인식을 통한 웹툰 제공 방법을 제공하는 이미지 편집 장치를 제공하는 것이다. In addition, an object of the present invention is to provide a webtoon providing method through speech bubble recognition, which learns to distinguish between speech bubble images and error images through a deep learning module and sets a speech bubble area in image data using the learned deep learning module. It is to provide an image editing device.
또한, 본 발명의 목적은, 딥러닝을 이용하여 이미지 데이터의 정보에 기반한 번역문을 제공하는 이미지 편집 장치를 제공하는 것이다.Another object of the present invention is to provide an image editing device that provides a translation based on information of image data using deep learning.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects and advantages of the present invention not mentioned above can be understood by the following description and will be more clearly understood by the examples of the present invention. It will also be readily apparent that the objects and advantages of the present invention may be realized by means of the instrumentalities and combinations indicated in the claims.
본 발명의 실시예에 따른 이미지 편집 장치는 프로세서 및 상기 프로세서에 작동적으로(operatively) 연결된 메모리를 포함하고, 상기 메모리는, 실행되었을 때 상기 프로세서로 하여금, 제1 이미지 데이터에서 텍스트 데이터를 식별하고, 상기 제1 이미지 데이터의 정보에 기반하여, 상기 텍스트 데이터에 대해 적어도 하나의 번역문을 제공하는 번역 알고리즘을 실행하고, 상기 번역 알고리즘의 실행 결과에 기반하여, 외부로부터 상기 적어도 하나의 번역문 중 하나인 제1 번역문을 선택하는 번역 선택 신호를 수신하고, 상기 번역 선택 신호를 수신한 것에 기반하여, 상기 제1 이미지 데이터에 상기 제1 번역문이 적용된 제2 이미지 데이터를 식별하도록 하는 인스트럭션들(instructions)을 저장한다.An image editing apparatus according to an embodiment of the present invention includes a processor and a memory operatively connected to the processor, wherein the memory, when executed, causes the processor to identify text data in first image data; , Based on the information of the first image data, a translation algorithm for providing at least one translation for the text data is executed, and based on a result of execution of the translation algorithm, one of the at least one translation from the outside is executed. instructions for receiving a translation selection signal for selecting a first translation and identifying second image data to which the first translation is applied to the first image data based on receiving the translation selection signal; Save.
또한, 상기 인스트럭션들은, 상기 프로세서가, 외부로부터 수신되는 입력이벤트의 생성에 따라, 상기 제1 이미지 데이터를 이용하여 말풍선 인식 알고리즘을 실행하고, 상기 말풍선 인식 알고리즘의 실행에 기반하여, 상기 제1 이미지 데이터에 포함된 말풍선 영역을 설정하고, 상기 말풍선 영역 내의 상기 텍스트 데이터를 식별하도록 한다.In addition, the instructions may cause the processor to execute a speech bubble recognition algorithm using the first image data according to the generation of an input event received from the outside, and to execute the speech bubble recognition algorithm based on the execution of the speech bubble recognition algorithm, to determine the first image. A speech bubble area included in the data is set, and the text data within the speech bubble area is identified.
또한, 상기 인스트럭션들은, 상기 프로세서가, 상기 제1 이미지 데이터를 기초로, 딥러닝 모듈을 통해 상기 말풍선 영역을 설정하도록 하고, 상기 딥러닝 모듈은, 생산적 적대 신경망(Generative Adversarial Network)을 이용하여 말풍선 이미지와 오류 이미지를 구분하도록 학습되고, 상기 딥러닝 모듈은 생성자 모듈과 식별자 모듈을 포함하고, 상기 생성자 모듈은 상기 오류 이미지와 연관된 페이크 데이터를 생성하도록 학습되고, 상기 식별자 모듈은 상기 말풍선 이미지와 연관된 리얼 데이터와, 상기 페이크 데이터를 구분하도록 학습되도록 한다.Further, the instructions cause the processor to set the speech bubble area based on the first image data through a deep learning module, wherein the deep learning module uses a generative adversarial network to generate a speech bubble area. It is trained to distinguish between an image and an error image, the deep learning module includes a generator module and an identifier module, the generator module is trained to generate fake data associated with the error image, and the identifier module is associated with the speech bubble image. It is learned to distinguish between real data and the fake data.
또한, 상기 인스트럭션들은, 상기 프로세서가, 상기 제1 이미지 데이터의 정보, 상기 텍스트 데이터 및 상기 적어도 하나의 번역문을 입력 노드로 인가 하고, 상기 제1 번역문을 출력 노드로 인가 하여, 번역 딥러닝 모듈을 통해 상기 번역 알고리즘이 학습되도록 한다.In addition, the instructions include, in the processor, applying the information of the first image data, the text data, and the at least one translation to an input node, and applying the first translation to an output node, so that the translation deep learning module Through this, the translation algorithm is learned.
또한, 상기 인스트럭션들은, 상기 프로세서가, 상기 제1 이미지 데이터에서 텍스트 영역을 식별하고, 상기 텍스트 영역에 대해 상기 텍스트 데이터를 식별하도록 한다.Further, the instructions cause the processor to identify a text area in the first image data and to identify the text data for the text area.
또한, 상기 인스트럭션들은, 상기 프로세서가, 상기 제1 이미지 데이터와 상기 제2 이미지 데이터를 동시에 보여주는 편집 화면을 제공하고, 상기 제2 이미지 데이터에 대해 사용자 데이터를 입력할 수 있는 사용자 인터페이스를 제공하도록 한다.Further, the instructions cause the processor to provide an editing screen that simultaneously displays the first image data and the second image data, and to provide a user interface capable of inputting user data for the second image data. .
또한, 상기 인스트럭션들은, 상기 프로세서가, 외부로부터 수신된 글자체 선택 신호에 기반하여 상기 제1 번역문의 글자체가 변경된 상기 제2 이미지 데이터를 식별하도록 한다.Further, the instructions cause the processor to identify the second image data in which the font of the first translation is changed based on a font selection signal received from the outside.
또한, 상기 인스트럭션들은, 상기 프로세서가, 상기 제2 이미지 데이터에서 상기 텍스트 데이터를 제외한 적어도 하나의 이미지를 식별하고, 기 적어도 하나의 이미지에 대한 이미지 편집을 수행하도록 한다.Further, the instructions cause the processor to identify at least one image excluding the text data from the second image data, and to perform image editing on the at least one image.
또한, 상기 인스트럭션들은, 상기 프로세서가, 부로부터 상기 적어도 하나의 이미지 중 제1 이미지에 대한 인페인팅(inpainting) 신호를 수신하고, 기 인페인팅 신호에 기반하여, 상기 제1 이미지를 제거하고, 상기 제1 이미지가 제거된 영역에 상기 제1 이미지를 둘러싼 배경 이미지를 적용하도록 한다.In addition, the instructions include, the processor receives an inpainting signal for a first image of the at least one image from a unit, removes the first image based on the inpainting signal, and A background image surrounding the first image is applied to a region from which the first image is removed.
또한, 상기 인스트럭션들은, 상기 프로세서가, 외부로부터 입력 텍스트 데이터를 수신하고, 기 번역 알고리즘의 실행 결과에 기반하여, 상기 입력 텍스트 데이터에 상응하는 텍스트 변환 이미지를 식별하도록 한다.Further, the instructions cause the processor to receive input text data from the outside and identify a text conversion image corresponding to the input text data based on a result of execution of a pre-translation algorithm.
본 발명의 말풍선 인식을 통한 웹툰 제공 방법을 제공하는 이미지 편집 장치는, 사용자 단말에서 입력이벤트가 발생하는 경우, 말풍선 영역 내의 텍스트의 크기를 조절한 이미지를 출력하도록 할 수 있다. 이때, 텍스트의 크기는 말풍선 영역 내에 모두 포함되도록 조절될 수 있다. 따라서, 사용자 단말에 출력되는 이미지가 작아서 텍스트를 판독하기 어렵더라도, 사용자는 입력이벤트를 생성하여 텍스트의 크기를 조절할 수 있다. 또한, 텍스트의 크기를 조절하더라도, 텍스트는 말풍선 영역 내에서만 크기가 조절되어 웹툰에 포함된 이미지를 가리지 않고 웹툰을 열람할 수 있다는 장점이 있다. The image editing apparatus providing the webtoon providing method through speech bubble recognition according to the present invention may output an image in which the size of the text in the speech bubble area is adjusted when an input event occurs in the user terminal. In this case, the size of the text may be adjusted so as to be included within the speech bubble area. Therefore, even if the image output to the user terminal is small and it is difficult to read the text, the user can adjust the size of the text by generating an input event. In addition, even if the size of the text is adjusted, the size of the text is adjusted only within the speech bubble area, so there is an advantage in that the webtoon can be read without covering the image included in the webtoon.
본 발명의 말풍선 인식을 통한 웹툰 제공 방법을 제공하는 이미지 편집 장치는, 딥러닝 모듈을 통해 말풍선 이미지와 오류 이미지를 구분하도록 학습하고, 학습된 딥러닝 모듈을 이용하여 이미지 데이터에서 말풍선 영역을 설정할 수 있다. 딥러닝 모듈은 말풍선 이미지와 오류 이미지를 구분하도록 학습되기 때문에, 이미지 데이터마다 수동으로 말풍선 영역을 지정해줄 필요 없이, 딥러닝 모듈로 입력된 이미지 데이터 내의 말풍선 영역을 정확하고 빠르게 설정할 수 있다.An image editing device that provides a webtoon providing method through speech bubble recognition according to the present invention can learn to distinguish a speech bubble image from an erroneous image through a deep learning module, and set a speech bubble area in image data using the learned deep learning module. there is. Since the deep learning module learns to distinguish between speech bubble images and erroneous images, it is possible to accurately and quickly set speech bubble areas within image data input by the deep learning module without the need to manually designate speech bubble areas for each image data.
본 발명의 이미지 편집 장치는, 딥러닝을 통해 이미지 데이터의 정보에 기반한 번역문을 제공함으로써, 번역의 정확도를 상승시키고 자연스러운 번역문을 제공할 수 있다. The image editing apparatus of the present invention can increase the accuracy of translation and provide a natural translation by providing a translation based on information of image data through deep learning.
상술한 내용과 더불어 본 발명의 구체적인 효과는 이하 발명을 실시하기 위한 구체적인 사항을 설명하면서 함께 기술한다.In addition to the above description, specific effects of the present invention will be described together while explaining specific details for carrying out the present invention.
도 1은 본 발명의 몇몇 실시예에 따른 말풍선 인식을 통한 웹툰 제공 시스템을 설명하기 위한 개념도이다.1 is a conceptual diagram illustrating a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
도 2는 본 발명의 몇몇 실시예에 따른 말풍선 인식을 통한 웹툰 제공 방법을 설명하기 위한 순서도이다. 2 is a flowchart illustrating a webtoon providing method through speech bubble recognition according to some embodiments of the present invention.
도 3은 도 2의 이미지 데이터를 사용자 단말의 화면에 표시하는 방법을 설명하기 위한 사용자 인터페이스의 예시도이다. FIG. 3 is an exemplary view of a user interface for explaining a method of displaying the image data of FIG. 2 on a screen of a user terminal.
도 4는 본 발명의 몇몇 실시예에 따른 제1 서버에 포함된 딥러닝 모듈을 개략적으로 설명하기 위한 블록도이다.4 is a block diagram schematically illustrating a deep learning module included in a first server according to some embodiments of the present invention.
도 5는 도 4의 딥러닝 모듈의 구성을 도시한 도면이다. FIG. 5 is a diagram showing the configuration of the deep learning module of FIG. 4 .
도 6 내지 도 8은 본 발명의 몇몇 실시예들에 따른 웹툰 제공 방법을 설명하기 위한 사용자 인터페이스의 예시도이다.6 to 8 are exemplary views of a user interface for explaining a webtoon providing method according to some embodiments of the present invention.
도 9 내지 도 11은 본 발명의 몇몇 실시예들에 따른 말풍선 영역 및 텍스트의 크기를 조절하는 방법을 설명하기 위한 사용자 인터페이스의 예시도이다.9 to 11 are exemplary views of a user interface for explaining a method of adjusting the size of a speech bubble area and text according to some embodiments of the present invention.
도 12는 본 발명의 몇몇 실시예들에 따른 말풍선 인식을 통한 웹툰 제공 시스템을 수행하는 하드웨어 구현을 설명하기 위한 도면이다.12 is a diagram for explaining hardware implementation for performing a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
도 13는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치를 포함하는 시스템을 설명하기 위한 도면이다.13 is a diagram for explaining a system including an image editing apparatus according to some embodiments of the present invention.
도 14는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치를 설명하기 위한 도면이다. 14 is a diagram for explaining an image editing apparatus according to some embodiments of the present invention.
도 15는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치의 동작을 설명하기 위한 도면들이다. 15 are diagrams for explaining the operation of an image editing apparatus according to some embodiments of the present invention.
도 16은 도 15의 단계(S1001)를 설명하기 위한 도면이다. FIG. 16 is a diagram for explaining step S1001 of FIG. 15 .
도 17은 도 15의 단계(S1007)를 설명하기 위한 도면이다. FIG. 17 is a diagram for explaining step S1007 of FIG. 15 .
도 18은 도 15의 단계(S1007)를 설명하기 위한 도면이다.FIG. 18 is a diagram for explaining step S1007 of FIG. 15 .
도 19는 본 발명의 몇몇 실시예에 따른 번역 딥러닝 모듈의 학습 방법을 설명하기 위한 도면이다.19 is a diagram for explaining a learning method of a translation deep learning module according to some embodiments of the present invention.
도 20은 본 발명의 몇몇 실시예에 따른 이미지 편집 장치 및 번역 딥러닝 모듈의 동작을 설명하기 위한 시퀀스도이다. 20 is a sequence diagram illustrating operations of an image editing device and a deep learning translation module according to some embodiments of the present invention.
도 21a은 도 20의 단계(S2005)를 설명하기 위한 도면이다. FIG. 21A is a diagram for explaining step S2005 of FIG. 20 .
도 21b는 도 20의 단계(S2005)를 설명하기 위한 도면이다. FIG. 21B is a diagram for explaining step S2005 of FIG. 20 .
도 22는 도 20의 단계(S2015)를 설명하기 위한 도면이다.FIG. 22 is a diagram for explaining step S2015 of FIG. 20 .
도 23은 본 발명의 몇몇 실시예에 따른 번역 딥러닝 모듈의 학습 방법을 설명하기 위한 도면이다.23 is a diagram for explaining a learning method of a translation deep learning module according to some embodiments of the present invention.
도 24는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치의 이미지 편집을 설명하기 위한 도면이다.24 is a diagram for explaining image editing of an image editing apparatus according to some embodiments of the present disclosure.
도 25는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치 및 이미지 편집 모듈의 동작을 설명하기 위한 시퀀스도이다. 25 is a sequence diagram illustrating operations of an image editing apparatus and an image editing module according to some embodiments of the present disclosure.
도 26은 도 25의 단계(S3001)를 설명하기 위한 도면이다. FIG. 26 is a diagram for explaining step S3001 of FIG. 25 .
도 27, 도 28 및 도 29는 도 25의 단계(S3005)를 설명하기 위한 도면이다.27, 28 and 29 are diagrams for explaining step S3005 of FIG. 25 .
본 명세서 및 특허청구범위에서 사용된 용어나 단어는 일반적이거나 사전적인 의미로 한정하여 해석되어서는 아니된다. 발명자가 그 자신의 발명을 최선의 방법으로 설명하기 위해 용어나 단어의 개념을 정의할 수 있다는 원칙에 따라, 본 발명의 기술적 사상과 부합하는 의미와 개념으로 해석되어야 한다. 또한, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명이 실현되는 하나의 실시예에 불과하고, 본 발명의 기술적 사상을 전부 대변하는 것이 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 및 응용 가능한 예들이 있을 수 있음을 이해하여야 한다.Terms or words used in this specification and claims should not be construed as being limited to a general or dictionary meaning. According to the principle that an inventor may define a term or a concept of a word in order to best describe his/her invention, it should be interpreted as meaning and concept consistent with the technical spirit of the present invention. In addition, the embodiments described in this specification and the configurations shown in the drawings are only one embodiment in which the present invention is realized, and do not represent all of the technical spirit of the present invention, so they can be replaced at the time of the present application. It should be understood that there may be many equivalents and variations and applicable examples.
본 명세서 및 특허청구범위에서 사용된 제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. '및/또는' 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, and B used in this specification and claims may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention. The term 'and/or' includes a combination of a plurality of related recited items or any one of a plurality of related recited items.
본 명세서 및 특허청구범위에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Terms used in this specification and claims are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly dictates otherwise. It should be understood that terms such as "include" or "having" in this application do not exclude in advance the possibility of existence or addition of features, numbers, steps, operations, components, parts, or combinations thereof described in the specification. .
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해서 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 또한, 본 발명의 각 실시예에 포함된 각 구성, 과정, 공정 또는 방법 등은 기술적으로 상호 간 모순되지 않는 범위 내에서 공유될 수 있다. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the present application, they should not be interpreted in an ideal or excessively formal meaning. don't In addition, each configuration, process, process or method included in each embodiment of the present invention may be shared within a range that does not contradict each other technically.
이하에서는, 도 1 내지 도 12를 참조하여, 본 발명의 몇몇 실시예들에 따른 이미지 편집 장치가 제공하는 말풍선 인식을 통한 웹툰 제공 방법에 대해 자세히 설명하도록 한다.Hereinafter, with reference to FIGS. 1 to 12 , a webtoon providing method through speech bubble recognition provided by an image editing device according to some embodiments of the present invention will be described in detail.
도 1은 본 발명의 몇몇 실시예에 따른 말풍선 인식을 통한 웹툰 제공 시스템을 설명하기 위한 개념도이다.1 is a conceptual diagram illustrating a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
도 1을 참조하면, 본 발명의 몇몇 실시예들에 따른 말풍선 인식을 통한 웹툰 제공 시스템(이하, 시스템)은 제1 서버(100), 사용자 단말(200) 및 통신망(300)을 포함할 수 있다. Referring to FIG. 1 , a webtoon providing system (hereinafter, the system) through speech bubble recognition according to some embodiments of the present invention may include a first server 100, a user terminal 200, and a communication network 300. .
제1 서버(100)는 사용자 단말(200)과 연계되어 동작하며, 본 발명의 몇몇 실시예들에 따른 말풍선 인식을 통한 웹툰 제공 방법의 수행주체가 될 수 있다. 제1 서버(100)는 이미지 데이터를 이용하여 말풍선 인식 알고리즘을 실행할 수 있다. 제1 서버(100)는 말풍선 인식 알고리즘을 통해, 이미지 데이터 내에서 말풍선 영역을 설정하고, 말풍선 영역 내의 텍스트를 인식하여, 텍스트의 크기를 조절하는 동작을 수행할 수 있다. The first server 100 operates in association with the user terminal 200, and can be a subject of a webtoon providing method through speech bubble recognition according to some embodiments of the present invention. The first server 100 may execute a speech bubble recognition algorithm using image data. The first server 100 may perform an operation of setting a speech bubble area within the image data, recognizing text within the speech bubble area, and adjusting the size of the text through a speech bubble recognition algorithm.
몇몇 실시예에 따르면, 사용자 단말(200)은 사용자가 열람을 원하는 웹툰에 대한 열람 요청을 제1 서버(100)에 전송할 수 있다. 제1 서버(100)는 웹툰에 대한 열람 요청에 응답하여, 이미지 데이터를 사용자 단말(200)에 제공할 수 있다. 이미지 데이터는 사용자가 열람을 요청한 웹툰에 포함된 하나 이상의 이미지를 포함할 수 있다. 사용자 단말(200)은 수신한 이미지 데이터를 화면에 디스플레이하여 시각화할 수 있다. According to some embodiments, the user terminal 200 may transmit a reading request for a webtoon that the user wants to read to the first server 100 . The first server 100 may provide image data to the user terminal 200 in response to a webtoon reading request. The image data may include one or more images included in the webtoon requested by the user. The user terminal 200 may display and visualize the received image data on a screen.
사용자 단말(200)에서 입력이벤트가 발생하는 경우, 제1 서버(100)는 이미지 데이터를 이용하여 말풍선 인식 알고리즘을 실행할 수 있다. 몇몇 실시예에 따르면, 입력이벤트는 사용자 단말(200)에서 입력 신호를 수신하는 것을 의미할 수 있다. 입력 신호는 클릭 신호, 더블클릭 신호, 탭 신호, 더블탭 신호 및 화면 전환 신호 중 적어도 하나를 포함할 수 있다. 이때, 더블클릭 신호 또는 더블탭 신호는 미리 정한 시간 내에 제1 입력 신호(예를 들어, 첫번째 클릭 신호)와 제2 입력 신호(예를 들어, 두번째 클릭 신호)가 모두 발생되는 것을 의미한다. When an input event occurs in the user terminal 200, the first server 100 may execute a speech bubble recognition algorithm using image data. According to some embodiments, an input event may mean that the user terminal 200 receives an input signal. The input signal may include at least one of a click signal, a double click signal, a tap signal, a double tap signal, and a screen transition signal. In this case, the double-click signal or the double-tap signal means that both the first input signal (eg, the first click signal) and the second input signal (eg, the second click signal) are generated within a predetermined time.
예를 들어, 사용자 단말(200)에서 입력이벤트가 발생하는 경우, 사용자 단말(200)은 입력이벤트 발생 신호를 제1 서버(100)에 제공할 수 있다. 제1 서버(100)는 입력이벤트 발생 신호에 기초하여, 이미지 데이터에 대한 말풍선 인식 알고리즘을 실행할 수 있다. For example, when an input event occurs in the user terminal 200, the user terminal 200 may provide an input event generation signal to the first server 100. The first server 100 may execute a speech bubble recognition algorithm for image data based on the input event generation signal.
제1 서버(100)는 말풍선 인식 알고리즘의 실행 결과를 기초로 이미지 데이터에 포함된 말풍선 영역을 설정할 수 있다. 말풍선 영역은 말풍선 이미지의 테두리를 따라 형성된 가상의 영역을 의미한다. 말풍선 이미지는 이미지 데이터에서 인물의 대사, 생각 및 스토리에 대한 텍스트가 기재되는 이미지이며, 말풍선 이미지로 인해 그림과 글이 구분될 수 있다. 이하에서는, 설명의 편의를 위해, 말풍선 영역과 말풍선 이미지의 크기 및 모양은 서로 종속된 것으로 가정하여 설명한다. 예를 들어, 말풍선 이미지의 크기가 커지면, 말풍선 영역의 크기도 함께 커지며, 반대로 말풍선 영역의 크기가 커지면, 말풍선 이미지의 크기도 함께 커질 수 있다. 따라서, 이하에서는, 말풍선 영역과 말풍선 이미지가 서로 혼용될 수 있다.The first server 100 may set a speech bubble area included in the image data based on an execution result of the speech bubble recognition algorithm. The speech bubble area refers to a virtual area formed along the edge of the speech bubble image. The speech bubble image is an image in which text about a person's lines, thoughts, and stories are described in image data, and pictures and text can be distinguished due to the speech bubble image. Hereinafter, for convenience of explanation, it is assumed that the size and shape of the speech bubble area and the speech bubble image are dependent on each other. For example, when the size of the speech bubble image increases, the size of the speech bubble area also increases. Conversely, when the size of the speech bubble area increases, the size of the speech bubble image may also increase. Therefore, in the following, the word bubble area and the word bubble image may be used interchangeably.
말풍선 영역이 설정되면, 제1 서버(100)는 말풍선 영역 내의 텍스트를 인식할 수 있다. 또한, 제1 서버(100)는 인식한 텍스트의 크기를 조절할 수 있다. 이때, 텍스트의 크기는 말풍선 영역에 기초하여 결정될 수 있다. 구체적으로, 텍스트의 크기는 텍스트가 말풍선 영역 내에 모두 포함되도록 결정될 수 있다. 다시 말해서, 텍스트의 크기가 조절되더라도, 텍스트는 말풍선 영역을 벗어나지 않을 수 있다. 설명의 편의를 위해, 텍스트의 크기가 조절되기 전의 이미지 데이터를 제1 이미지 데이터로, 텍스트의 크기가 조절된 후의 이미지 데이터를 제2 이미지 데이터로 정의한다. When the speech bubble area is set, the first server 100 may recognize text within the speech bubble area. Also, the first server 100 may adjust the size of the recognized text. In this case, the size of the text may be determined based on the speech bubble area. Specifically, the size of the text may be determined so that all of the text is included within the speech bubble area. In other words, even if the size of the text is adjusted, the text may not deviate from the speech bubble area. For convenience of explanation, image data before text size adjustment is defined as first image data, and image data after text size adjustment is defined as second image data.
다시 말해서, 제1 서버(100)는 입력이벤트의 발생에 따라, 제1 이미지 데이터에 포함된 말풍선 영역을 설정하고, 말풍선 영역 내의 텍스트를 인식하고, 텍스트의 크기를 조절하여 제2 이미지 데이터를 생성할 수 있다. 제1 서버(100)에서 생성된 제2 이미지 데이터는 사용자 단말(200)에 제공될 수 있다. 사용자 단말(200)은 제2 이미지 데이터를 사용자 단말(200)의 화면에 표시할 수 있다. 몇몇 실시예에서, 제2 이미지 데이터는 텍스트의 크기가 점진적으로 조절되는 애니메이션 효과를 포함할 수 있으나, 실시예들이 이에 제한되지는 않는다. In other words, according to the occurrence of an input event, the first server 100 sets a speech bubble area included in the first image data, recognizes text in the speech bubble area, and adjusts the size of the text to generate second image data. can do. The second image data generated by the first server 100 may be provided to the user terminal 200 . The user terminal 200 may display the second image data on the screen of the user terminal 200 . In some embodiments, the second image data may include an animation effect in which the size of text is gradually adjusted, but the embodiments are not limited thereto.
사용자 단말(200)은 네트워크를 통하여 제1 서버(100)와 통신할 수 있다. 사용자 단말(200)은 예를 들어, 개인 휴대용 정보 단말기(PDA, personal digital assistant), 포터블 컴퓨터(portable computer), 웹 타블렛(web tablet), 무선 전화기(wireless phone), 모바일 폰(mobile phone), 디지털 뮤직 플레이어(digital music player), 메모리 카드(memory card) 또는 정보를 무선환경에서 송신 및/또는 수신할 수 있는 모든 전자 제품에 적용될 수 있다.The user terminal 200 may communicate with the first server 100 through a network. The user terminal 200 may be, for example, a personal digital assistant (PDA), a portable computer, a web tablet, a wireless phone, a mobile phone, It can be applied to a digital music player, a memory card, or any electronic product capable of transmitting and/or receiving information in a wireless environment.
또한, 도면 상에는 하나의 사용자 단말(200)만을 도시하였으나, 본 발명이 이에 한정되는 것은 아니며, 제1 서버(100)는 복수의 사용자 단말(200)과 연동하여 동작할 수 있다.In addition, although only one user terminal 200 is shown in the drawing, the present invention is not limited thereto, and the first server 100 may operate in conjunction with a plurality of user terminals 200 .
부가적으로, 사용자 단말(200)은 사용자의 입력을 수신하는 입력부, 비주얼 정보를 디스플레이 하는 디스플레이부, 외부와 신호를 송수신하는 통신부, 사용자의 얼굴을 촬영하는 카메라부, 사용자의 음성을 디지털 데이터로 변환하는 마이크부, 및 데이터를 프로세싱하고 사용자 단말(200) 내부의 각 유닛들을 제어하며 유닛들 간의 데이터 송/수신을 제어하는 제어부를 포함할 수 있다. Additionally, the user terminal 200 includes an input unit for receiving a user's input, a display unit for displaying visual information, a communication unit for sending and receiving signals to and from the outside, a camera unit for photographing the user's face, and converting the user's voice into digital data. It may include a microphone unit that converts, and a control unit that processes data, controls each unit inside the user terminal 200, and controls data transmission/reception between units.
사용자 단말(200)의 입력부는 키패드(keypad), 키보드, 터치패드 및 터치스크린 중 적어도 하나를 포함할 수 있다. 사용자 단말(200)은 입력부를 통해 입력 신호를 수신할 수 있다. 따라서, 입력 신호는 키패드, 키보드, 터치패드 및 터치스크린 중 적어도 하나에 의해 성성될 수 있다. The input unit of the user terminal 200 may include at least one of a keypad, a keyboard, a touchpad, and a touchscreen. The user terminal 200 may receive an input signal through an input unit. Accordingly, the input signal may be generated by at least one of a keypad, keyboard, touchpad, and touchscreen.
한편, 통신망(300)은 제1 서버(100) 및 사용자 단말(200)을 연결하는 역할을 수행한다. 즉, 통신망(300)은 사용자 단말(200)이 제1 서버(100)에 접속한 후 데이터를 송수신할 수 있도록 접속 경로를 제공하는 통신망을 의미한다. 통신망(300)은 예컨대 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.Meanwhile, the communication network 300 serves to connect the first server 100 and the user terminal 200 . That is, the communication network 300 means a communication network that provides an access path so that the user terminal 200 can transmit and receive data after accessing the first server 100 . The communication network 300 may be, for example, a wired network such as LANs (Local Area Networks), WANs (Wide Area Networks), MANs (Metropolitan Area Networks), ISDNs (Integrated Service Digital Networks), wireless LANs, CDMA, Bluetooth, satellite communication, etc. However, the scope of the present invention is not limited thereto.
이하에서는, 본 발명의 몇몇 실시예에 따른 시스템에서 수행되는 말풍선 인식을 통한 웹툰 제공 방법에 대해 순서도와 예시적인 도면을 이용하여 구체적으로 살펴본다. 다만, 본 발명의 몇몇 실시예에 따른 말풍선 인식을 통한 웹툰 제공 방법은 본 명세서에 도시된 순서도들의 일부 단계를 생략하여 수행될 수도 있고, 본 명세서에 도시되지 않은 특정 단계를 추가하여 수행될 수 있음은 물론이다. 또한, 본 발명의 몇몇 실시예에 따른 말풍선 인식을 통한 웹툰 제공 방법은 반드시 본 명세서에 도시된 순서도들의 순서로 수행될 필요는 없으며, 특정 단계의 순서를 바꾸어 수행되거나 동시에 수행될 수도 있다. 본 발명의 기술 분야에서 통상의 지식을 가진 자는 본 발명의 범위를 벗어나지 않고 다양한 변형을 통해 본 발명의 실시예들을 구현할 수 있을 것이다. Hereinafter, a webtoon providing method through speech bubble recognition performed in a system according to some embodiments of the present invention will be examined in detail using flowcharts and exemplary drawings. However, the webtoon providing method through speech bubble recognition according to some embodiments of the present invention may be performed by omitting some steps of the flow charts shown in this specification, or may be performed by adding specific steps not shown in this specification. is of course In addition, the webtoon providing method through speech bubble recognition according to some embodiments of the present invention does not necessarily need to be performed in the order of the flow charts shown in this specification, and may be performed by changing the order of specific steps or simultaneously. Those skilled in the art will be able to implement the embodiments of the present invention through various modifications without departing from the scope of the present invention.
도 2는 본 발명의 몇몇 실시예에 따른 말풍선 인식을 통한 웹툰 제공 방법을 설명하기 위한 순서도이다. 2 is a flowchart illustrating a webtoon providing method through speech bubble recognition according to some embodiments of the present invention.
도 1 및 도 2를 참조하면, 사용자 단말(200)은 사용자가 열람을 원하는 웹툰에 대한 열람 요청을 제1 서버(100)에 제공할 수 있다. 제1 서버(100)는 웹툰에 대한 열람 요청에 응답하여, 제1 이미지 데이터를 사용자 단말(200)에 제공할 수 있다. 사용자 단말(200)은 수신한 제1 이미지 데이터를 사용자 단말(200)의 화면에 표시한다(S100). 사용자 단말(200)의 화면에 제1 이미지 데이터를 표시하는 예시를 설명하기 위해, 도 3을 더 참조한다. Referring to FIGS. 1 and 2 , the user terminal 200 may provide the first server 100 with a reading request for a webtoon that the user wants to read. The first server 100 may provide the first image data to the user terminal 200 in response to a webtoon reading request. The user terminal 200 displays the received first image data on the screen of the user terminal 200 (S100). To describe an example of displaying the first image data on the screen of the user terminal 200 , further reference is made to FIG. 3 .
도 3은 도 2의 이미지 데이터를 사용자 단말의 화면에 표시하는 방법을 설명하기 위한 사용자 인터페이스의 예시도이다. FIG. 3 is an exemplary view of a user interface for explaining a method of displaying the image data of FIG. 2 on a screen of a user terminal.
도 1 내지 도 3을 참조하면, 사용자 단말(200)은 제1 서버(100)로부터 수신한 제1 이미지 데이터를 사용자 단말(200)의 화면에 표시할 수 있다. 제1 이미지 데이터는 제1 이미지(A1) 및 제2 이미지(A2)를 포함할 수 있다. 1 to 3 , the user terminal 200 may display the first image data received from the first server 100 on the screen of the user terminal 200 . The first image data may include a first image A1 and a second image A2.
제1 이미지(A1)는 제1 말풍선 영역(B1), 제1 텍스트 영역(T1) 및 제1 배경 영역(C1)을 포함할 수 있다. 예를 들어, 제1 말풍선 영역(B1)은 제1 이미지(A1) 내에 포함된 말풍선 이미지의 윤곽을 따라 형성된 가상의 영역을 의미한다. 말풍선 이미지는 웹툰에 등장하는 인물이 하는 대사, 생각 및 스토리에 대한 텍스트가 기재되는 이미지일 수 있다. The first image A1 may include a first speech bubble area B1, a first text area T1, and a first background area C1. For example, the first word balloon area B1 refers to a virtual area formed along the contour of the word balloon image included in the first image A1. The speech bubble image may be an image in which text about lines, thoughts, and stories of characters appearing in the webtoon are described.
제1 텍스트 영역(T1)은 제1 말풍선 영역(B1)에 포함된 텍스트를 둘러싸는 가상의 영역일 수 있다. 말풍선 이미지 및 말풍선 영역 사이의 관계와 유사하게, 텍스트와 텍스트 영역의 크기는 서로 종속적인 것으로 가정한다. 예를 들어, 텍스트의 크기가 증가되면 텍스트 영역의 크기도 증가되며, 텍스트 영역의 크기가 증가되면 텍스트의 크기도 증가되는 것으로 본다. 따라서, 아래에서는 용어 '텍스트'와 용어 '텍스트 영역'은 서로 혼용될 수 있다. 제1 텍스트 영역(T1)은 제1 말풍선 영역(B1)내에 포함될 수 있다. 다시 말해서, 제1 텍스트 영역(T1)의 크기는 제1 말풍선 영역(B1)의 크기보다 작거나 같을 수 있다.The first text area T1 may be a virtual area surrounding text included in the first speech bubble area B1. Similar to the relationship between the speech bubble image and the speech bubble area, it is assumed that the text and the size of the text area are dependent on each other. For example, when the size of the text increases, the size of the text area also increases, and when the size of the text area increases, the size of the text also increases. Therefore, the term 'text' and the term 'text area' may be used interchangeably below. The first text area T1 may be included in the first speech bubble area B1. In other words, the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1.
제1 배경 영역(C1)은 제1 이미지(A1)에서 제1 말풍선 영역(B1)을 제외한 나머지 영역일 수 있다. 즉, 제1 배경 영역(C1)은 제1 말풍선 영역(B1)을 제외하고 제1 이미지(A1)에 포함된 등장인물 및 배경을 포함하는 영역일 수 있다. The first background area C1 may be an area other than the first speech bubble area B1 in the first image A1. That is, the first background area C1 may be an area including characters and a background included in the first image A1 excluding the first speech bubble area B1.
이와 유사하게, 제2 이미지(A2)는 제2 말풍선 영역(B2), 제2 텍스트 영역(T2) 및 제2 배경 영역(C2)을 포함할 수 있다. 도면 상에는 제1 이미지(A1) 및 제2 이미지(A2)는 각각 하나의 말풍선 영역과 텍스트 영역을 포함하는 것으로 도시하였으나, 본 발명이 이에 제한되는 것은 아니다.Similarly, the second image A2 may include a second speech bubble area B2, a second text area T2, and a second background area C2. In the drawings, the first image A1 and the second image A2 are illustrated as including one speech bubble area and one text area, but the present invention is not limited thereto.
몇몇 실시예에 따르면, 사용자 단말(200)은 사용자 단말(200)의 화면에 표시된 이미지를 전환하기 위한 스크롤바(SB)를 더 포함할 수 있으나, 실시예들이 이에 제한되는 것은 아니다. According to some embodiments, the user terminal 200 may further include a scroll bar (SB) for switching images displayed on the screen of the user terminal 200, but the embodiments are not limited thereto.
사용자 단말(200)에서 입력이벤트가 발생하는 경우, 제1 서버(100)는 제1 이미지 데이터에 대한 말풍선 인식 알고리즘을 실행한다(S200). 제1 서버(100)는 말풍선 인식 알고리즘의 실행 결과를 기초로 제1 이미지 데이터에서 말풍선 영역을 설정한다(S300). When an input event occurs in the user terminal 200, the first server 100 executes a speech bubble recognition algorithm for the first image data (S200). The first server 100 sets a speech bubble area in the first image data based on the execution result of the speech bubble recognition algorithm (S300).
몇몇 실시예에 따르면, 제1 서버(100)는 딥러닝 모듈을 이용하여 제1 이미지 데이터에 포함된 말풍선 영역을 설정할 수 있다. 제1 이미지 데이터에 포함된 말풍선 영역을 설정하는 딥러닝 모듈에 대해 구체적으로 설명하기 위해, 도 4를 더 참조한다. According to some embodiments, the first server 100 may set a speech bubble area included in the first image data by using a deep learning module. For a detailed description of the deep learning module that sets the speech bubble area included in the first image data, further reference is made to FIG. 4 .
도 4는 본 발명의 몇몇 실시예에 따른 제1 서버에 포함된 딥러닝 모듈을 개략적으로 설명하기 위한 블록도이고, 도 5는 도 4의 딥러닝 모듈의 구성을 도시한 도면이다. 4 is a block diagram schematically illustrating a deep learning module included in a first server according to some embodiments of the present invention, and FIG. 5 is a diagram showing the configuration of the deep learning module of FIG. 4 .
도 4의 (b1)은 제1 서버(100)에 포함된 딥러닝 모듈(DM)의 학습 과정에 대해 도시한다. 제1 서버(100)는 말풍선 이미지를 이용하여 딥러닝 모듈(DM)을 학습시킬 수 있다. (b1) of FIG. 4 shows a learning process of the deep learning module (DM) included in the first server 100. The first server 100 may train the deep learning module (DM) using the speech bubble image.
전술한 바와 같이, 말풍선 이미지는 웹툰에 등장하는 인물이 하는 대사, 생각 및 스토리에 대한 텍스트가 기재되는 이미지일 수 있다. 예를 들어, 말풍선 이미지는 원형 모양의 풍선에 삼각형의 꼭지가 달려 있는 모양일 수 있고, 구름 모양의 풍선에 원형 모양의 꼭지가 달려 있는 모양일 수 있으며, 사각형 모양의 풍선에 삼각형의 꼭지가 달려 있는 모양일 수 있고, 다각형 모양의 풍선 모양일 수 있다. 다만, 말풍선 이미지의 형태가 상술한 예시에 한정되는 것은 아니다. As described above, the speech bubble image may be an image in which text about lines, thoughts, and stories of characters appearing in the webtoon are described. For example, the speech bubble image may be a circular balloon with a triangular tip attached to it, a cloud-shaped balloon with a circular tip attached to it, or a square balloon with a triangular tip attached to it. It may have a polygonal balloon shape. However, the shape of the speech bubble image is not limited to the above-described example.
딥러닝 모듈(DM)은 생산적 적대 신경망(Generative Adversarial Network; GAN) 기반의 학습을 수행할 수 있다. 딥러닝 모듈(DM)은 생성자 모듈 및 식별자 모듈을 포함할 수 있다. 생성자 모듈은 잡음 벡터를 입력 받아, 페이크 데이터를 생성할 수 있다. 식별자 모듈은 리얼 데이터와, 생성자 모듈에서 생성된 페이크 데이터를 입력 받고, 리얼 데이터와 페이크 데이터를 구분하도록 학습될 수 있다. 식별자 모듈에서의 분류 결과 값은 다시 생성자 모듈로 제공되어 생성자 모듈의 학습에 이용될 수 있다. 다시 말해서, 생성자 모듈은 리얼 데이터와 구분하기 어려운 페이크 데이터를 생성하는 방향으로 학습되고, 식별자 모듈은 리얼 데이터와 페이크 데이터에 대한 구분 정확도를 증가시키는 방향으로 학습될 수 있다. The deep learning module (DM) may perform learning based on a generative adversarial network (GAN). The deep learning module (DM) may include a generator module and an identifier module. The generator module may generate fake data by receiving the noise vector. The identifier module may receive real data and fake data generated by the generator module, and learn to distinguish between real data and fake data. The classification result value in the identifier module is provided to the generator module again and can be used for learning of the generator module. In other words, the generator module may be trained in a direction of generating fake data that is difficult to distinguish from real data, and the identifier module may be trained in a direction of increasing classification accuracy between real data and fake data.
몇몇 실시예에 따르면, 딥러닝 모듈(DM)은 제1 서버(100)에 미리 저장되어 있던 말풍선 이미지를 리얼 데이터로 입력 받을 수 있다. 즉, 식별자 모듈은 말풍선 이미지를 리얼 데이터로 입력 받을 수 있다. 생성자 모듈은 잡음 벡터를 이용하여, 말풍선 이미지와 유사하지만, 말풍선 이미지는 아닌 오류 이미지를 페이크 데이터로 생성할 수 있다. 생성자 모듈에서 생성된 오류 이미지는 페이크 데이터로 식별자 모듈에 제공될 수 있다. 예를 들어, 말풍선 이미지가 원형 모양의 풍선에 삼각형의 꼭지가 달려 있는 모양일 경우, 오류 이미지는 원형 모양의 이미지일 수 있다. According to some embodiments, the deep learning module (DM) may receive a speech bubble image previously stored in the first server 100 as real data. That is, the identifier module may receive a speech bubble image as real data. The generator module may generate an error image similar to the speech bubble image but not the speech bubble image as fake data by using the noise vector. The error image generated by the creator module may be provided to the identifier module as fake data. For example, when the speech bubble image has a shape in which a circular balloon has a triangular tip attached to it, the error image may be a circular shape image.
다시 말해서, 식별자 모듈은 오류 이미지를 페이크 데이터로, 말풍선 이미지를 리얼 데이터로 제공받을 수 있다. 식별자 모듈은 페이크 데이터와 리얼 데이터, 즉, 오류 이미지와 말풍선 이미지를 구분하도록 학습할 수 있다. In other words, the identifier module may receive the error image as fake data and the speech bubble image as real data. The identifier module may learn to distinguish between fake data and real data, that is, an error image and a speech bubble image.
따라서, 도 4의 (b2)와 같이, 학습된 딥러닝 모듈(DM)은 이미지 데이터를 입력 데이터로 수신하고, 말풍선 영역을 출력 데이터로 제공할 수 있다. 다시 말해서, 학습된 딥러닝 모듈(DM)은 이미지 데이터에 포함된 리얼 데이터를 구분함으로써, 이미지 데이터에서 말풍선 영역을 설정할 수 있다. Accordingly, as shown in (b2) of FIG. 4, the trained deep learning module (DM) may receive image data as input data and provide a speech bubble area as output data. In other words, the trained deep learning module (DM) may set a speech bubble area in the image data by distinguishing real data included in the image data.
머신 러닝(Machine Learning)의 일종인 딥러닝(Deep Learning) 기술은 데이터를 기반으로 다단계로 깊은 수준까지 내려가 학습하는 것이다. 즉, 딥러닝(Deep learning)은, 단계를 높여가면서 복수의 데이터들로부터 핵심적인 데이터를 추출하는 머신 러닝(Machine Learning) 알고리즘의 집합을 나타낸다.Deep learning technology, a type of machine learning, learns by going down to a multi-level deep level based on data. That is, deep learning represents a set of machine learning algorithms that extract core data from a plurality of data while stepping up.
딥러닝 모듈(DM)은 이미지 데이터를 입력으로 알고리즘을 수행하여 말풍선 영역을 도출할 수 있다. 비록 본 명세서에서는 딥러닝 모듈(DM)이 생산적 적대 신경망 기반의 학습을 수행하는 것으로 설명하였으나, 실시예들이 이에 제한되는 것은 아니다. 딥러닝 모듈(DM)은 공지된 다양한 신경망 구조를 이용할 수 있으며, 예를 들어, 딥러닝 모듈(DM)은 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), DBN(Deep Belief Network) 및 GNN(Graph Neural Network) 중 적어도 하나를 이용할 수 있다. The deep learning module (DM) may derive a speech bubble area by performing an algorithm with image data as an input. Although the deep learning module (DM) has been described herein as performing productive adversarial network-based learning, the embodiments are not limited thereto. The deep learning module (DM) may use various well-known neural network structures. For example, the deep learning module (DM) may include a convolutional neural network (CNN), a recurrent neural network (RNN), a deep belief network (DBN), and a GNN. (Graph Neural Network).
전술한 바와 같이, 딥러닝 모듈(DM)은 말풍선 이미지와 잡음 벡터를 입력하여 생산적 적대 신경망을 통해 말풍선 이미지와 오류 이미지를 구분하도록 학습될 수 있다. 따라서 학습된 딥러닝 모듈(DM)은 이미지 데이터에서 리얼 데이터인 말풍선 이미지를 구분할 수 있고, 이에 따라, 말풍선 영역을 설정할 수 있다. As described above, the deep learning module (DM) may be trained to distinguish between a speech bubble image and an erroneous image through a productive adversarial neural network by inputting a speech bubble image and a noise vector. Accordingly, the trained deep learning module (DM) can distinguish a speech bubble image, which is real data, from image data, and accordingly, a speech bubble area can be set.
다만, 전술한 이미지 데이터는 딥러닝 모듈(DM)에 입력되는 입력 파라미터의 일 예에 불과하며, 딥러닝 모듈(DM)에 인가되는 입력 데이터는 다양하게 추가 또는 변경되어 이용될 수 있다.However, the above-described image data is only an example of an input parameter input to the deep learning module (DM), and input data applied to the deep learning module (DM) may be variously added or changed and used.
한편, 딥러닝 모듈(DM)의 학습은 주어진 입력에 대하여 원하는 출력이 나오도록 노드간 연결선의 가중치(Weight)를 조정(필요한 경우 바이어스(Bias) 값도 조정)함으로써 이루어질 수 있다. 또한, 딥러닝 모듈(DM)은 학습에 의해 가중치(Weight) 값을 지속적으로 업데이트 시킬 수 있다. Meanwhile, learning of the deep learning module (DM) can be performed by adjusting the weight of the connection line between nodes (and adjusting the bias value if necessary) so that a desired output is produced for a given input. In addition, the deep learning module (DM) may continuously update weight values by learning.
추가적으로, 도면에 명확하게 도시하지는 않았으나, 본 발명의 다른 실시예에서, 딥러닝 모듈(DM)의 동작은 제1 서버(100) 또는 별도의 클라우드 제1 서버에서 실시될 수 있다. 이하에서는, 전술한 딥러닝 모듈(DM)의 일 예에 대해 살펴보도록 한다.Additionally, although not clearly shown in the drawing, in another embodiment of the present invention, the operation of the deep learning module (DM) may be implemented in the first server 100 or a separate cloud first server. Hereinafter, an example of the aforementioned deep learning module (DM) will be described.
도 5를 참조하면, 딥러닝 모듈(DM)은 이미지 데이터를 입력 받는 입력노드를 포함하는 입력 레이어(Input)와, 말풍선 영역을 출력하는 출력노드를 포함하는 출력 레이어(Output)와, 입력 레이어와 출력 레이어 사이에 배치되는 M 개의 히든 레이어를 포함한다.Referring to FIG. 5, the deep learning module (DM) includes an input layer (Input) including an input node receiving image data, an output layer (Output) including an output node for outputting a speech bubble area, and an input layer and It includes M hidden layers arranged between output layers.
여기서, 각 레이어들의 노드를 연결하는 에지(Edge)에는 가중치가 설정될 수 있다. 이러한 가중치 혹은 에지의 유무는 학습 과정에서 추가, 제거, 또는 업데이트 될 수 있다. 따라서, 학습 과정을 통하여, k개의 입력노드와 i개의 출력노드 사이에 배치되는 노드들 및 에지들의 가중치는 업데이트될 수 있다.Here, a weight may be set to an edge connecting nodes of each layer. The presence or absence of these weights or edges can be added, removed, or updated in the learning process. Therefore, through the learning process, weights of nodes and edges disposed between k input nodes and i output nodes may be updated.
딥러닝 모듈(DM)이 학습을 수행하기 전에는 모든 노드와 에지는 초기값으로 설정될 수 있다. 그러나, 누적하여 정보가 입력될 경우, 노드 및 에지들의 가중치는 변경되고, 이 과정에서 학습인자로 입력되는 파라미터들(즉, 이미지 데이터)과 출력노드로 할당되는 값(즉, 말풍선 영역) 사이의 매칭이 이루어질 수 있다. All nodes and edges may be set to initial values before the deep learning module (DM) performs learning. However, when information is input cumulatively, the weights of nodes and edges are changed, and in this process, the parameters input as learning factors (ie, image data) and values assigned to output nodes (ie, speech bubble areas) are changed. matching can be made.
추가적으로, 클라우드 제1 서버를 이용하는 경우, 딥러닝 모듈(DM)은 많은 수의 파라미터들을 수신하여 처리할 수 있다. 따라서, 딥러닝 모듈(DM)은 방대한 데이터에 기반하여 학습을 수행할 수 있다.Additionally, in the case of using the first cloud server, the deep learning module (DM) may receive and process a large number of parameters. Therefore, the deep learning module (DM) can perform learning based on massive data.
또한, 딥러닝 모듈(DM)을 구성하는 입력노드와 출력노드 사이의 노드 및 에지의 가중치는 딥러닝 모듈(DM)의 학습 과정에 의해 업데이트될 수 있다. 또한, 딥러닝 모듈(DM)에서 출력되는 파라미터는 말풍선 영역 외에도 다양한 데이터로 추가 확장될 수 있음은 물론이다.In addition, the weights of nodes and edges between an input node and an output node constituting the deep learning module (DM) may be updated by the learning process of the deep learning module (DM). In addition, it goes without saying that parameters output from the deep learning module (DM) can be additionally extended to various data besides the speech bubble area.
본 발명의 말풍선 인식을 통한 웹툰 제공 방법은, 딥러닝 모듈을 통해 말풍선 이미지와 오류 이미지를 구분하도록 학습하고, 학습된 딥러닝 모듈을 이용하여 이미지 데이터에서 말풍선 영역을 설정할 수 있다. 딥러닝 모듈은 말풍선 이미지와 오류 이미지를 구분하도록 학습되기 때문에, 이미지 데이터마다 수동으로 말풍선 영역을 지정해줄 필요 없이, 딥러닝 모듈로 입력된 이미지 데이터 내의 말풍선 영역을 정확하고 빠르게 설정할 수 있다.In the webtoon providing method through speech bubble recognition of the present invention, learning to distinguish a speech bubble image from an erroneous image through a deep learning module, and setting a speech bubble area in image data using the learned deep learning module is possible. Since the deep learning module learns to distinguish between speech bubble images and erroneous images, it is possible to accurately and quickly set speech bubble areas within image data input by the deep learning module without the need to manually designate speech bubble areas for each image data.
다시, 도 1 내지 도 3을 참조하면, 제1 서버(100)는 설정된 말풍선 영역 내의 텍스트를 인식한다(S400). 제1 서버(100)는 말풍선 영역 내에서 문자인식기법을 통해 텍스트를 인식할 수 있다. 예를 들어, 제1 서버(100)는 제1 말풍선 영역(B1) 내에서, 문자인식기법을 통해 텍스트를 인식할 수 있으며, 인식된 텍스트가 포함된 영역을 제1 텍스트 영역(T1)으로 설정할 수 있다. Again, referring to FIGS. 1 to 3 , the first server 100 recognizes text within a set speech bubble area (S400). The first server 100 may recognize text within the speech bubble area through a character recognition technique. For example, the first server 100 may recognize text in the first speech bubble area B1 through a character recognition technique, and set the area including the recognized text as the first text area T1. can
제1 서버(100)는 말풍선 영역 내의 텍스트의 크기를 조절하여 제2 이미지 데이터를 생성할 수 있다(S500). 이때, 조절된 텍스트의 크기는 말풍선 영역을 벗어나지 않을 수 있다. 다시 말해서, 말풍선 영역 내의 텍스트의 크기는 말풍선 영역 내에 모두 포함되도록 조절될 수 있다. 몇몇 실시예에서, 제2 이미지 데이터는 텍스트의 크기가 점진적으로(gradually) 변화되는 애니메이션 효과를 포함할 수 있으나 실시예들이 이에 제한되는 것은 아니다. The first server 100 may generate second image data by adjusting the size of the text in the speech bubble area (S500). In this case, the size of the adjusted text may not deviate from the speech bubble area. In other words, the size of the text within the speech bubble area may be adjusted so as to be included within the speech bubble area. In some embodiments, the second image data may include an animation effect in which the size of text is gradually changed, but the embodiments are not limited thereto.
제1 서버(100)에서 생성된 제2 이미지 데이터는 통신망(300)을 통해 사용자 단말(200)에 제공될 수 있다. 사용자 단말(200)은 제2 이미지 데이터를 수신하여, 이를 사용자 단말(200)의 화면에 표시할 수 있다(S600). The second image data generated by the first server 100 may be provided to the user terminal 200 through the communication network 300 . The user terminal 200 may receive the second image data and display it on the screen of the user terminal 200 (S600).
입력이벤트가 종료되는 경우, 제1 서버(100)는 텍스트의 크기를 재조절할 수 있다(S700). 몇몇 실시예에 따르면, 사용자 단말(200)에서 입력이벤트가 종료되는 경우, 사용자 단말(200)은 입력이벤트 종료 신호를 생성할 수 있다. 생성된 입력이벤트 종료 신호는 통신망(300)을 통해 제1 서버(100)에 제공될 수 있다. 제1 서버(100)는 입력이벤트 종료 신호를 수신하고, 다시 제1 이미지 데이터를 사용자 단말(200)에 제공할 수 있다. 사용자 단말(200)은 제1 이미지 데이터를 사용자 단말(200)의 화면에 출력할 수 있다. When the input event ends, the first server 100 may readjust the text size (S700). According to some embodiments, when an input event ends in the user terminal 200, the user terminal 200 may generate an input event end signal. The generated input event termination signal may be provided to the first server 100 through the communication network 300 . The first server 100 may receive the input event end signal and provide the first image data to the user terminal 200 again. The user terminal 200 may output the first image data to the screen of the user terminal 200 .
본 발명의 말풍선 인식을 통한 웹툰 제공 방법은, 사용자 단말에서 입력이벤트가 발생하는 경우, 말풍선 영역 내의 텍스트의 크기를 조절한 이미지를 출력하도록 할 수 있다. 이때, 텍스트의 크기는 말풍선 영역 내에 모두 포함되도록 조절될 수 있다. 따라서, 사용자 단말에 출력되는 이미지가 작아, 텍스트를 판독하기 어렵더라도, 사용자는 입력이벤트를 생성하여 텍스트의 크기를 조절할 수 있다. 또한, 텍스트의 크기를 조절하더라도, 텍스트는 말풍선 영역 내에서만 크기가 조절되어 웹툰에 포함된 이미지를 가리지 않고 웹툰을 열람할 수 있다는 장점이 있다. In the webtoon providing method through speech bubble recognition according to the present invention, when an input event occurs in a user terminal, an image having a text size adjusted in a speech bubble area may be output. In this case, the size of the text may be adjusted so as to be included within the speech bubble area. Therefore, even if the image output to the user terminal is small and it is difficult to read the text, the user can adjust the size of the text by generating an input event. In addition, even if the size of the text is adjusted, the size of the text is adjusted only within the speech bubble area, so there is an advantage in that the webtoon can be read without covering the image included in the webtoon.
몇몇 실시예에 따르면, 제1 서버(100)는 말풍선 이미지의 크기를 고정한 채 텍스트의 크기를 증가시킬 수 있다. 다른 몇몇 실시예에 따르면, 제1 서버(100)는 말풍선 영역의 크기를 증가시키고 텍스트의 크기를 증가시킬 수 있다. 예시적인 설명을 위해, 도 6 내지 도 11을 참조하여 설명하도록 한다. According to some embodiments, the first server 100 may increase the size of the text while fixing the size of the speech bubble image. According to some other embodiments, the first server 100 may increase the size of the speech bubble area and increase the size of the text. For exemplary explanation, it will be described with reference to FIGS. 6 to 11 .
먼저, 도 6 내지 도 8을 참조하여 말풍선 영역의 크기는 고정하고 텍스트의 크기를 증가하는 방법에 대한 설명하도록 한다. First, referring to FIGS. 6 to 8 , a method of increasing the size of text while fixing the size of the speech bubble area will be described.
도 6 내지 도 8은 본 발명의 몇몇 실시예들에 따른 웹툰 제공 방법을 설명하기 위한 사용자 인터페이스의 예시도이다. 설명의 편의를 위해 전술한 내용과 동일하거나 유사한 내용은 생략하거나 간단히 설명한다.6 to 8 are exemplary views of a user interface for explaining a webtoon providing method according to some embodiments of the present invention. For convenience of description, the same or similar content as the above description will be omitted or briefly described.
먼저 도 6의 (c1)을 참조하면, 사용자는 사용자 단말(200)을 통해 입력 신호를 제공할 수 있다. 사용자 단말(200)에 입력 신호가 제공되면, 사용자 단말(200)은 입력이벤트를 발생시킬 수 있다. 즉, 사용자 단말(200)에 입력이벤트가 발생하였다는 것은, 사용자 단말(200)에 입력 신호가 제공되었다는 것을 의미할 수 있다. 사용자 단말(200)은 입력이벤트가 발생되면, 입력이벤트 발생 신호를 제1 서버(100)에 제공할 수 있다. First, referring to (c1) of FIG. 6 , the user may provide an input signal through the user terminal 200 . When an input signal is provided to the user terminal 200, the user terminal 200 may generate an input event. That is, the occurrence of an input event in the user terminal 200 may mean that an input signal is provided to the user terminal 200 . When an input event occurs, the user terminal 200 may provide an input event generation signal to the first server 100 .
예를 들어, 사용자 단말(200)은 클릭 신호, 탭 신호, 더블클릭 신호, 더블탭 신호 중 어느 하나를 제공받을 수 있다. 사용자 단말(200)에 입력 신호가 제공되면, 입력이벤트가 발생될 수 있다. 더블클릭 신호 또는 더블탭 신호는, 미리 정한 기간 내에 두번의 클릭 신호 또는 탭 신호를 입력하는 것을 의미할 수 있다. 다시 말해서, 사용자 단말(200)은 미리 정한 시간 내에, 제1 신호와 제2 신호를 수신하는 경우 더블클릭 신호 또는 더블탭 신호가 입력된 것으로 판단할 수 있다. For example, the user terminal 200 may receive any one of a click signal, a tap signal, a double click signal, and a double tap signal. When an input signal is provided to the user terminal 200, an input event may occur. The double-click signal or double-tap signal may mean inputting two click signals or tap signals within a predetermined period. In other words, when the user terminal 200 receives the first signal and the second signal within a predetermined time, it may be determined that a double click signal or a double tap signal is input.
제1 서버(100)는 입력이벤트 발생 신호를 수신함에 따라, 제1 이미지(A1) 내에 포함된 제1 말풍선 영역(B1)을 설정하고, 제1 말풍선 영역(B1) 내의 제1 텍스트 영역(T1)을 설정할 수 있다. 제1 서버(100)는 제1 텍스트 영역(T1)의 크기를 증가시켜 제2 이미지 데이터를 생성할 수 있다. 이때, 제1 텍스트 영역(T1)의 크기는 제1 말풍선 영역(B1)의 크기보다 작거나 같을 수 있다. 다시 말해서, 제1 텍스트 영역(T1)은 제1 말풍선 영역(B1) 내에 포함될 수 있다.Upon receiving the input event generation signal, the first server 100 sets a first speech bubble area B1 included in the first image A1, and sets a first text area T1 within the first speech bubble area B1. ) can be set. The first server 100 may increase the size of the first text area T1 to generate second image data. In this case, the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1. In other words, the first text area T1 may be included in the first speech bubble area B1.
도 6 (c2)에 도시된 바와 같이, 제1 서버(100)에서 생성된 제2 이미지 데이터는 사용자 단말(200)에 제공될 수 있다. 사용자 단말(200)은 제2 이미지 데이터를 제공받아, 이를 사용자 단말(200)의 화면에 표시할 수 있다. 즉, 사용자 단말(200)은 제1 말풍선 영역(B1) 내의 제1 텍스트 영역(T1)의 크기가 증가된 제2 이미지 데이터를 사용자 단말(200)의 화면에 표시할 수 있다. As shown in FIG. 6 (c2), the second image data generated by the first server 100 may be provided to the user terminal 200. The user terminal 200 may receive the second image data and display it on the screen of the user terminal 200 . That is, the user terminal 200 may display the second image data in which the size of the first text area T1 in the first speech bubble area B1 is increased on the screen of the user terminal 200 .
도 6의 (c3)에 도시된 바와 같이, 사용자 단말(200)은 입력이벤트가 종료되면, 입력이벤트 종료 신호를 생성하고, 이를 제1 서버(100)에 제공할 수 있다. 제1 서버(100)는 입력이벤트 종료 신호를 수신하는 경우, 다시 제1 이미지 데이터를 사용자 단말(200)에 제공하고, 사용자 단말(200)은 제1 이미지 데이터를 출력할 수 있다. As shown in (c3) of FIG. 6 , when the input event ends, the user terminal 200 may generate an input event end signal and provide it to the first server 100 . When receiving the input event end signal, the first server 100 provides first image data to the user terminal 200 again, and the user terminal 200 may output the first image data.
입력이벤트는 다양한 상황에 따라 종료될 수 있다. 예를 들어, 입력이벤트가 발생된 후 특정 시간이 지나면(예를 들어, 3초 뒤) 입력이벤트는 종료될 수 있다. 다른 예를 들어, 입력이벤트가 발생된 후 사용자 단말(200)에 입력 신호가 다시 제공되는 경우, 입력이벤트는 종료될 수 있다. 또 다른 예를 들어, 입력이벤트는 사용자 단말(200)에 입력 신호가 제공되는 동안에만 발생하고, 입력 신호의 제공이 중단된 경우 종료될 수 있다. An input event may be terminated according to various circumstances. For example, the input event may end after a specific time elapses (eg, 3 seconds later) after the input event has occurred. For another example, when an input signal is provided to the user terminal 200 again after an input event has occurred, the input event may end. For another example, an input event may occur only while an input signal is provided to the user terminal 200, and may end when the supply of the input signal is stopped.
도 7의 (d1) 및 (d2)를 참조하면, 몇몇 실시예에 따른 사용자 단말(200)은 입력 신호가 제공되는 시점에 입력이벤트를 생성하고, 입력 신호가 중단되는 시점에 입력이벤트를 종료할 수 있다. 다시 말해서, 사용자 단말(200)은 입력 신호가 지속되는 동안에만 입력이벤트를 발생시킬 수 있다. 예를 들어, 사용자 단말(200)은 탭 신호 또는 클릭 신호가 유지되는 동안 입력이벤트를 생성하고, 탭 신호 또는 클릭 신호가 중단되는 경우 입력이벤트를 종료할 수 있다. 따라서, 사용자 단말(200)은 탭 신호 또는 클릭 신호가 유지되는 동안만, 텍스트 크기가 조절된 제2 이미지 데이터를 출력할 수 있다. Referring to (d1) and (d2) of FIG. 7 , the user terminal 200 according to some embodiments generates an input event when an input signal is provided and ends the input event when the input signal is stopped. can In other words, the user terminal 200 may generate an input event only while the input signal continues. For example, the user terminal 200 may generate an input event while a tap signal or a click signal is maintained, and may end the input event when the tap signal or click signal is stopped. Accordingly, the user terminal 200 may output the second image data with the text size adjusted only while the tap signal or the click signal is maintained.
도 8의 (e1) 및 (e2)를 참조하면, 사용자 단말(200)은 화면 전환 신호를 수신하면 입력이벤트를 생성할 수 있다. 화면 전환 신호는 이미지 데이터에 포함된 제1 이미지(A1)가 제1 이미지(A1)와 다른 제2 이미지(A2)로 전환되는 것을 의미할 수 있다. 사용자 단말(200)은 제1 이미지(A1)에서 제2 이미지(A2)로 전환시키는 화면 전환 신호를 수신하면, 입력이벤트를 생성하고, 입력이벤트 생성 신호를 제1 서버(100)에 제공할 수 있다. 제1 서버(100)는 제2 텍스트 영역(T2)의 크기를 증가시켜 제2 이미지 데이터를 생성할 수 있다. 제2 이미지 데이터는 사용자 단말(200)으로 제공되고, 사용자 단말(200)은 제2 이미지 데이터를 출력할 수 있다. 예를 들어, 사용자는 사용자 단말(200) 화면에 표시된 스크롤바(SB)를 이용하여 화면 전환 신호를 생성할 수 있으나, 실시예들이 이에 제한되는 것은 아니다. Referring to (e1) and (e2) of FIG. 8 , the user terminal 200 may generate an input event when receiving a screen change signal. The screen switching signal may mean that the first image A1 included in the image data is switched to a second image A2 different from the first image A1. The user terminal 200 may generate an input event and provide the input event generation signal to the first server 100 when receiving a screen switching signal for switching from the first image A1 to the second image A2. there is. The first server 100 may increase the size of the second text area T2 to generate second image data. The second image data is provided to the user terminal 200, and the user terminal 200 may output the second image data. For example, a user may generate a screen switching signal using a scroll bar SB displayed on the screen of the user terminal 200, but embodiments are not limited thereto.
이하에서는, 도 9 내지 도 11을 참조하여 말풍선 영역의 크기를 증가시키고 텍스트 영역의 크기를 증가시키는 방법에 대한 설명하도록 한다. 또한, 이하에서는 상술한 실시예와 중복되는 부분은 간략히 하거나 생략하여 기술하도록 한다. Hereinafter, a method of increasing the size of a speech bubble area and a text area will be described with reference to FIGS. 9 to 11 . In addition, in the following description, parts overlapping with the above-described embodiment are simplified or omitted.
도 9 내지 도 11은 본 발명의 몇몇 실시예들에 따른 말풍선 영역 및 텍스트의 크기를 조절하는 방법을 설명하기 위한 사용자 인터페이스의 예시도이다.9 to 11 are exemplary views of a user interface for explaining a method of adjusting the size of a speech bubble area and text according to some embodiments of the present invention.
도 1, 도 3 및 도 9 내지 도 11을 참조하면, 입력이벤트가 발생되면, 제1 서버(100)는 말풍선 영역의 크기와 텍스트 영역의 크기를 함께 증가시킬 수 있다. 이 경우에도, 텍스트 영역의 크기는 말풍선 영역의 크기보다 작거나 같을 수 있다. 제1 서버(100)는 말풍선 영역과 텍스트 영역의 크기가 증가된 제2 이미지 데이터를 생성하고, 이를 사용자 단말(200)에 제공할 수 있다. 사용자 단말(200)은 제공받은 제2 이미지 데이터를 사용자 단말(200)의 화면에 출력할 수 있다. Referring to FIGS. 1, 3, and 9 to 11 , when an input event occurs, the first server 100 may increase the size of the speech bubble area and the text area together. Even in this case, the size of the text area may be smaller than or equal to the size of the speech bubble area. The first server 100 may generate second image data in which the sizes of the speech bubble area and the text area are increased, and provide the second image data to the user terminal 200 . The user terminal 200 may output the second image data provided to the screen of the user terminal 200 .
몇몇 실시예에 따르면, 도 9의 (f1) 및 (f2)와 같이, 사용자 단말(200)이 탭 신호, 클릭 신호, 더블탭 신호 및 더블 클릭신호 중 하나를 수신하면, 사용자 단말(200)은 입력이벤트를 생성할 수 있다. 사용자 단말(200)은 입력이벤트 발생 신호를 제1 서버(100)에 제공하고, 제1 서버(100)는 입력이벤트 발생 신호를 수신하여, 제1 말풍선 영역(B1)과 제1 텍스트 영역(T1)의 크기를 증가시킬 수 있다. 이 경우에도, 제1 텍스트 영역(T1)의 크기는 제1 말풍선 영역(B1)의 크기보다 작거나 같을 수 있다. According to some embodiments, as shown in (f1) and (f2) of FIG. 9, when the user terminal 200 receives one of a tap signal, a click signal, a double tap signal, and a double click signal, the user terminal 200 You can generate input events. The user terminal 200 provides an input event generation signal to the first server 100, and the first server 100 receives the input event generation signal to form a first speech bubble area B1 and a first text area T1. ) can be increased. Even in this case, the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1.
다른 몇몇 실시예에 따르면, 도 10의 (g1) 및 (g2)와 같이, 사용자 단말(200)에 입력 신호가 제공되는 시점에서 입력이벤트는 생성되고, 입력 신호의 제공이 중단될 때 입력이벤트가 종료될 수 있다. 다시 말해서, 사용자 단말(200)로부터 입력 신호가 수신되는 동안, 제1 서버(100)는 제1 말풍선 영역(B1) 및 제1 텍스트 영역(T1)의 크기를 증가시킬 수 있다. 이 경우에도 마찬가지로, 제1 텍스트 영역(T1)의 크기는 제1 말풍선 영역(B1)의 크기보다 작거나 같을 수 있다. According to some other embodiments, as shown in (g1) and (g2) of FIG. 10 , an input event is generated when an input signal is provided to the user terminal 200, and an input event is generated when the supply of the input signal is stopped. may end In other words, while an input signal is received from the user terminal 200, the first server 100 may increase the size of the first speech bubble area B1 and the first text area T1. Similarly in this case, the size of the first text area T1 may be smaller than or equal to the size of the first speech bubble area B1.
또 다른 몇몇 실시예에 따르면, 도 11의 (h1) 및 (h2)와 같이, 사용자 단말(200)에 화면 전환 신호가 제공되는 경우, 사용자 단말(200)은 입력이벤트를 생성할 수 있다. 예를 들어, 사용자 단말(200)은 제1 이미지(A1)에서 제2 이미지(A2)로 전환시키는 화면 전환 신호를 수신할 수 있다. 사용자 단말(200)은 화면 전환 신호를 수신하여, 입력이벤트를 생성하고, 입력이벤트 발생 신호를 제1 서버(100)에 제공할 수 있다. 제1 서버(100)는 입력이벤트 발생 신호를 수신하고, 제1 말풍선 영역(B1) 및 제1 텍스트 영역(T1)의 크기를 증가시킬 수 있다. According to some other embodiments, as shown in (h1) and (h2) of FIG. 11, when a screen change signal is provided to the user terminal 200, the user terminal 200 may generate an input event. For example, the user terminal 200 may receive a screen switching signal for switching from the first image A1 to the second image A2. The user terminal 200 may receive a screen change signal, generate an input event, and provide an input event generation signal to the first server 100 . The first server 100 may receive an input event generation signal and increase the size of the first speech bubble area B1 and the first text area T1.
이하에서는, 말풍선 인식을 통한 웹툰 제공 시스템을 수행하는 하드웨어 구현을 구체적으로 설명하도록 한다. Hereinafter, hardware implementation that performs a webtoon providing system through speech bubble recognition will be described in detail.
도 12는 본 발명의 몇몇 실시예들에 따른 말풍선 인식을 통한 웹툰 제공 시스템을 수행하는 하드웨어 구현을 설명하기 위한 도면이다. 12 is a diagram for explaining hardware implementation for performing a webtoon providing system through speech bubble recognition according to some embodiments of the present invention.
도 1 및 도 12를 참조하면, 제1 서버(100)는 전자 장치(1000)로 구현될 수 있다. 전자 장치(1000)는 컨트롤러(1010), 입출력 장치(1020, I/O), 메모리 장치(1030, memory device), 인터페이스(1040, interface) 및 버스(1050, bus)를 포함할 수 있다. 컨트롤러(1010), 입출력 장치(1020), 메모리 장치(1030) 및/또는 인터페이스(1040)는 버스(1050)를 통하여 서로 결합될 수 있다. 버스(1050)는 데이터들이 이동되는 통로(path)에 해당한다.Referring to FIGS. 1 and 12 , the first server 100 may be implemented as an electronic device 1000 . The electronic device 1000 may include a controller 1010, an input/output device 1020 (I/O), a memory device 1030 (memory device), an interface 1040, and a bus 1050. The controller 1010 , the input/output device 1020 , the memory device 1030 and/or the interface 1040 may be coupled to each other through a bus 1050 . The bus 1050 corresponds to a path through which data is moved.
구체적으로, 컨트롤러(1010)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit), 마이크로프로세서, 디지털 신호 프로세스, 마이크로컨트롤러, 어플리케이션 프로세서(AP, application processor) 및 이들과 유사한 기능을 수행할 수 있는 논리 소자들 중에서 적어도 하나를 포함할 수 있다. Specifically, the controller 1010 includes a central processing unit (CPU), a micro processor unit (MPU), a micro controller unit (MCU), a graphic processing unit (GPU), a microprocessor, a digital signal processor, a microcontroller, and an application processor (AP). , application processor), and logic elements capable of performing functions similar thereto.
입출력 장치(1020)는 키패드, 키보드, 터치패드, 터치스크린, 디스플레이 장치 및 조이스틱 중 적어도 하나를 포함할 수 있다. 메모리 장치(1030)는 데이터 및/또는 프로그램 등을 저장할 수 있다.The input/output device 1020 may include at least one of a keypad, keyboard, touchpad, touchscreen, display device, and joystick. The memory device 1030 may store data and/or programs.
메모리 장치(1030)는 컨트롤러(1010)의 동작을 향상시키기 위한 동작 메모리로서, 고속의 디램 및/또는 에스램 등을 포함할 수 있다. 메모리 장치(1030)는 내부에 말풍선 인식을 통한 웹툰 제공 방법에 대한 프로그램 또는 어플리케이션을 저장할 수 있다.The memory device 1030 is an operating memory for improving the operation of the controller 1010 and may include high-speed DRAM and/or SRAM. The memory device 1030 may store a program or application for a webtoon providing method through speech bubble recognition therein.
인터페이스(1040)는 통신 네트워크로 데이터를 전송하거나 통신 네트워크로부터 데이터를 수신하는 기능을 수행할 수 있다. 인터페이스(1040)는 유선 또는 무선 형태로 동작할 수 있다. 예컨대, 인터페이스(1040)는 안테나 또는 유무선 트랜시버 등을 포함할 수 있다.The interface 1040 may perform a function of transmitting data to a communication network or receiving data from the communication network. The interface 1040 may operate in a wired or wireless form. For example, the interface 1040 may include an antenna or a wired/wireless transceiver.
다만, 이는 본 발명의 시스템이 구현된 전자 장치(1000)의 일 예시에 불과하며, 본 발명의 말풍선 인식을 통한 웹툰 제공 방법은 다양한 시스템 및 하드웨어에 구현되어 동작할 수 있음은 물론이다.However, this is only an example of the electronic device 1000 in which the system of the present invention is implemented, and the webtoon providing method through speech bubble recognition of the present invention can be implemented and operated in various systems and hardware.
본 발명의 몇몇 실시예에 따른 사용자 단말과 연계된 제1 서버에서 수행되는 말풍선 인식을 통한 웹툰 제공 방법은, 제1 이미지 데이터를 사용자 단말의 화면에 표시하는 단계, 사용자 단말에서 발생되는 입력이벤트의 생성에 따라, 제1 이미지 데이터를 이용하여 말풍선 인식 알고리즘을 실행하는 단계, 말풍선 인식 알고리즘의 실행 결과를 기초로, 제1 이미지 데이터에 포함된 말풍선 영역을 설정하는 단계, 제1 말풍선 영역 내의 제1 텍스트 영역을 설정하는 단계, 제1 텍스트 영역의 크기를 조절하여 제2 이미지 데이터를 생성하는 단계 및 제2 이미지 데이터를 사용자 단말의 화면에 표시하는 단계를 포함하고, 크기가 조절된 제1 텍스트 영역의 크기는 제1 말풍선 영역의 크기보다 작거나 같다.According to some embodiments of the present invention, a method for providing a webtoon through speech bubble recognition performed in a first server associated with a user terminal includes displaying first image data on a screen of a user terminal; According to generation, executing a speech bubble recognition algorithm using the first image data, setting a speech bubble area included in the first image data based on a result of the execution of the speech bubble recognition algorithm, setting a first word in the first speech bubble area The steps of setting a text area, generating second image data by adjusting the size of the first text area, and displaying the second image data on a screen of a user terminal, wherein the size of the first text area is adjusted. The size of is smaller than or equal to the size of the first speech bubble area.
몇몇 실시예에서, 제1 텍스트 영역의 크기를 조절하는 단계는, 제1 말풍선 영역의 크기를 고정하고, 제1 텍스트 영역의 크기를 증가시키는 단계를 포함할 수 있다. In some embodiments, adjusting the size of the first text area may include fixing the size of the first speech bubble area and increasing the size of the first text area.
몇몇 실시예에서, 입력이벤트의 종료에 따라, 제1 이미지 데이터를 사용자 단말의 화면에 표시하는 단계를 더 포함할 수 있다.In some embodiments, the method may further include displaying the first image data on the screen of the user terminal according to the end of the input event.
몇몇 실시예에서, 제1 텍스트 영역의 크기를 조절하는 단계는, 제1 말풍선 영역의 크기를 증가시키고, 제1 텍스트 영역의 크기를 증가시키는 단계를 포함할 수 있다.In some embodiments, adjusting the size of the first text area may include increasing the size of the first speech bubble area and increasing the size of the first text area.
몇몇 실시예에서, 사용자 단말에 입력 신호가 제공되면 입력이벤트가 발생할 수 있다.In some embodiments, an input event may occur when an input signal is provided to a user terminal.
몇몇 실시예에서, 입력 신호는 미리 정한 시간 내에 제1 신호 및 제2 신호가 제공될 수 있다.In some embodiments, the first signal and the second signal may be provided as input signals within a predetermined time period.
몇몇 실시예에서, 입력 신호는 터치패드, 터치스크린, 마우스, 키보드 중 적어도 하나에 의해 생성될 수 있다.In some embodiments, the input signal may be generated by at least one of a touch pad, a touch screen, a mouse, and a keyboard.
몇몇 실시예에서, 사용자 단말의 화면에 표시된, 제1 이미지 데이터에 포함된 제1 이미지가, 제1 이미지와 다른 제2 이미지로 전환되면, 사용자 단말에 입력 신호가 제공될 수 있다.In some embodiments, when the first image included in the first image data displayed on the screen of the user terminal is converted to a second image different from the first image, an input signal may be provided to the user terminal.
몇몇 실시예에서, 사용자 단말에 입력 신호가 제공되는 시점에 입력이벤트가 발생하고, 사용자 단말에 입력 신호가 중단되는 시점에 입력이벤트가 종료할 수 있다.In some embodiments, an input event may occur when an input signal is provided to the user terminal, and may end when the input signal is stopped to the user terminal.
몇몇 실시예에서, 말풍선 인식 알고리즘은, 제1 이미지 데이터를 기초로, 딥러닝 모듈을 통해 제1 말풍선 영역을 설정하는 단계를 포함하되, 딥러닝 모듈은, 생산적 적대 신경망(Generative Adversarial Network)을 이용하여 말풍선 이미지와 오류 이미지를 구분하도록 학습되고, 딥러닝 모듈은 생성자 모듈과 식별자 모듈을 포함하고, 생성자 모듈은 오류 이미지와 연관된 페이크 데이터를 생성하도록 학습되고, 식별자 모듈은 말풍선 이미지와 연관된 리얼 데이터와, 페이크 데이터를 구분하도록 학습될 수 있다.In some embodiments, the speech bubble recognition algorithm includes setting a first speech bubble region based on the first image data through a deep learning module, wherein the deep learning module uses a generative adversarial network. The deep learning module includes a generator module and an identifier module, the generator module is trained to generate fake data associated with the error image, and the identifier module is trained to generate fake data associated with the speech bubble image and the identifier module , can be learned to distinguish fake data.
본 발명의 몇몇 실시예에 따른 말풍선 인식을 통한 웹툰 제공 방법에 따른 단계들은, 이하에서 설명하는 이미지 편집 장치에서 수행될 수 있다.Steps according to the webtoon providing method through speech bubble recognition according to some embodiments of the present invention may be performed by an image editing device described below.
이하에서는, 도 13을 참조하여 본 발명의 몇몇 실시예에 따른 이미지 편집 장치에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, an image editing apparatus according to some embodiments of the present invention will be described with reference to FIG. 13 . For clarity of description, overlapping with those described above are simplified or omitted.
도 13는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)를 포함하는 시스템을 설명하기 위한 도면이다.13 is a diagram for explaining a system including an image editing device 400 according to some embodiments of the present invention.
도 13을 참조하면, 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)는, 통신망(300)을 통해 제1 서버(100) 및 제2 서버(2000)와 통신할 수 있다. 이미지 편집 장치(400)는, 사용자 단말(200)에 포함될 수 있다.Referring to FIG. 13 , an image editing device 400 according to some embodiments of the present invention may communicate with a first server 100 and a second server 2000 through a communication network 300 . The image editing device 400 may be included in the user terminal 200 .
제2 서버(2000)는 이미지 편집 장치(400)와 연계되어 동작할 수 있다. The second server 2000 may operate in association with the image editing device 400 .
몇몇 실시예에서, 제2 서버(2000)는 번역 알고리즘을 이용하여 제1 이미지 데이터(예를 들어, 원본 데이터)의 정보에 기반한 적어도 하나의 번역문을 제공할 수 있다. 제2 서버(2000)는 예를 들어, 번역 알고리즘을 실행할 수 있는 번역 딥러닝 모듈을 포함할 수 있다.In some embodiments, the second server 2000 may provide at least one translation based on information of the first image data (eg, original data) by using a translation algorithm. The second server 2000 may include, for example, a translation deep learning module capable of executing a translation algorithm.
몇몇 실시예에서, 제2 서버(2000)는 번역 알고리즘을 이용하여 입력 텍스트 데이터에 상응하는 텍스트 변환 이미지를 식별할 수 있다. 예를 들어, 입력 텍스트 데이터가 입력된 경우, 제2 서버(2000)는 번역 알고리즘을 통해 입력 텍스트 데이터를 식별하고, 입력 텍스트 데이터의 텍스트 내용에 상응하는 이미지를 텍스트 변환 이미지로 식별할 수 있다.In some embodiments, the second server 2000 may identify a text conversion image corresponding to the input text data using a translation algorithm. For example, when input text data is input, the second server 2000 may identify the input text data through a translation algorithm, and may identify an image corresponding to the text content of the input text data as a text conversion image.
도 13에서 제2 서버(2000)에 의해 번역 알고리즘이 수행되는 것으로 설명하였으나, 이에 제한되는 것은 아니다. 예를 들어, 제2 서버(2000)의 동작은 이미지 편집 장치(400)에서 실행될 수도 있다.Although it has been described in FIG. 13 that the translation algorithm is performed by the second server 2000, it is not limited thereto. For example, the operation of the second server 2000 may be executed in the image editing device 400 .
이하에서는, 도 14를 참조하여 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, an image editing apparatus 400 according to some embodiments of the present invention will be described with reference to FIG. 14 . For clarity of description, overlapping with those described above are simplified or omitted.
도 14는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)를 설명하기 위한 도면이다.14 is a diagram for explaining an image editing apparatus 400 according to some embodiments of the present invention.
도 14를 참조하면, 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)는, 프로세서(410), 메모리(420), 통신 모듈(430) 및 디스플레이(440)를 포함할 수 있다.Referring to FIG. 14 , an image editing device 400 according to some embodiments of the present invention may include a processor 410, a memory 420, a communication module 430, and a display 440.
메모리(420)는 이미지 편집 장치(400)에 포함된 구성요소들의 동작과 연관된 명령, 정보 또는 데이터를 저장할 수 있다. 예를 들어, 메모리(420)는, 실행 시에, 프로세서(410)가 본 문서에 기재된 다양한 동작을 수행할 수 있도록 하는 인스트럭션들(instructions)을 저장할 수 있다.The memory 420 may store commands, information, or data related to operations of components included in the image editing device 400 . For example, memory 420 may store instructions that, when executed, enable processor 410 to perform various operations described herein.
이미지 편집 장치(400)는, 통신 모듈(430)을 통해 다른 장치들(예를 들어, 사용자, 제1 서버(도 13의 100) 및 제2 서버(도 13의 2000) 중 적어도 어느 하나)과 통신할 수 있다. The image editing device 400 communicates with other devices (eg, at least one of a user, a first server (100 in FIG. 13) and a second server (2000 in FIG. 13)) through the communication module 430. can communicate
디스플레이(440)는, 이미지 편집 장치(400)의 외부(예를 들어, 사용자)로 정보를 시각적으로 제공할 수 있다. The display 440 may visually provide information to the outside of the image editing apparatus 400 (eg, a user).
프로세서(410)는 이미지 편집 장치(400)의 전반적인 기능을 수행하기 위하여 디스플레이(440), 메모리(420), 및 통신 모듈(430)과 작동적으로(operatively) 연결될(coupled) 수 있다. 프로세서(410)는 예를 들어, 하나 이상의 프로세서를 포함할 수 있다. 하나 이상의 프로세서는 예를 들어, 이미지 시그널 프로세서(image signal processor, ISP), 애플리케이션 프로세서(application processor, AP), 또는 통신 프로세서(communication processor, CP)를 포함할 수 있다.The processor 410 may be operatively coupled to the display 440 , the memory 420 , and the communication module 430 in order to perform overall functions of the image editing device 400 . Processor 410 may include, for example, one or more processors. The one or more processors may include, for example, an image signal processor (ISP), an application processor (AP), or a communication processor (CP).
몇몇 실시예에서, 프로세서(410)는, 제1 이미지 데이터에서 텍스트 데이터를 식별할 수 있다. 프로세서(410)는 예를 들어, 제1 이미지 데이터의 텍스트 데이터가 포함된 텍스트 영역을 식별하고, 텍스트 영역에 포함된 텍스트 데이터를 식별할 수 있다. 프로세서(410)는 예를 들어, 제1 이미지 데이터의 말풍선 영역을 식별하고, 말풍선 영역에 포함된 텍스트를 식별할 수 있다.In some embodiments, the processor 410 may identify text data in the first image data. For example, the processor 410 may identify a text area including text data of the first image data and identify text data included in the text area. For example, the processor 410 may identify a speech bubble area of the first image data and identify text included in the speech bubble area.
프로세서(410)는, 제1 이미지 데이터의 정보에 기반하여, 텍스트 데이터에 대해 적어도 하나의 번역문을 제공하는 번역 알고리즘을 실행할 수 있다. 제1 이미지 데이터의 정보는 예를 들어, 제1 이미지 데이터의 출처에 관한 정보, 제1 이미지 데이터를 생성한 창작자에 관한 정보, 또는 제1 이미지 데이터의 카테고리에 관한 정보 중 적어도 어느 하나를 포함할 수 있다. 제1 이미지 데이터의 정보에 대해 세 가지 예시를 들어 설명하였으나 이에 제한되는 것은 아니다. 예를 들어, 번역 알고리즘을 실행하는 데에 기반이 되는 정보라면, 제1 이미지 데이터의 정보에 포함될 수 있음은 물론이다.The processor 410 may execute a translation algorithm that provides at least one translation of text data based on information of the first image data. The information of the first image data may include, for example, at least one of information about a source of the first image data, information about a creator who created the first image data, and information about a category of the first image data. can Information of the first image data has been described with three examples, but is not limited thereto. For example, if the information is the basis for executing the translation algorithm, it can be included in the information of the first image data.
프로세서(410)는, 텍스트 데이터에 대한 적어도 하나의 번역문을 제공하기 위해, 외부 서버와 통신하여 번역 알고리즘을 실행하도록 할 수 있다. 번역 알고리즘은 예를 들어, 외부 서버(예를 들어, 도 13의 제2 서버(2000))에서 실행될 수 있다.The processor 410 may communicate with an external server to execute a translation algorithm in order to provide at least one translation of text data. The translation algorithm may be executed, for example, in an external server (eg, the second server 2000 of FIG. 13).
프로세서(410)는, 번역 알고리즘의 실행 결과에 기반하여, 외부로부터 적어도 하나의 번역문 중 하나인 제1 번역문을 선택하는 번역 선택 신호를 수신할 수 있다. 프로세서(410)는 예를 들어, 번역 알고리즘의 실행 결과에 기반하여, 외부 서버(예를 들어, 도 13의 제2 서버(2000))로부터 적어도 하나의 번역문을 포함하는 데이터를 수신할 수 있다. 프로세서(410)는 예를 들어, 적어도 하나의 번역문을 디스플레이(440)를 통해 제공할 수 있다. 프로세서(410)는 예를 들어, 외부(예를 들어, 사용자)로부터 적어도 하나의 번역문 중 하나인 제1 번역문을 선택하는 번역 선택 신호를 수신할 수 있다. 프로세서(410)는 예를 들어, 번역 선택 신호를 수신하였음을 외부 서버에 알릴 수 있다.The processor 410 may receive a translation selection signal for selecting a first translation, which is one of at least one translation, from the outside, based on an execution result of the translation algorithm. For example, the processor 410 may receive data including at least one translation from an external server (eg, the second server 2000 of FIG. 13 ) based on an execution result of a translation algorithm. The processor 410 may provide, for example, at least one translated text through the display 440 . For example, the processor 410 may receive a translation selection signal for selecting a first translation, which is one of at least one translation, from the outside (eg, a user). The processor 410 may notify an external server that a translation selection signal has been received, for example.
프로세서(410)는, 번역 선택 신호를 수신한 것에 기반하여, 제1 이미지 데이터에 제1 번역문이 적용된 제2 이미지 데이터를 식별하도록 할 수 있다. 프로세서(410)는 예를 들어, 제1 번역문이 적용된 제2 이미지 데이터를 외부 서버(예를 들어, 도 13의 제2 서버(2000))로부터 수신할 수 있다. 프로세서(410)는 예를 들어, 제2 이미지 데이터를 디스플레이(440)를 통해 제공할 수 있다.The processor 410 may identify second image data to which the first translation is applied to the first image data, based on receiving the translation selection signal. The processor 410 may receive, for example, second image data to which the first translation is applied from an external server (eg, the second server 2000 of FIG. 13 ). The processor 410 may provide, for example, second image data through the display 440 .
몇몇 실시예에서, 프로세서(410)는 도 1 내지 도 12를 참조하여 설명한 바와 같이, 외부(예를 들어, 사용자)부터 수신되는 입력이벤트의 생성에 따라, 제1 이미지 데이터를 이용하여 말풍선 인식 알고리즘을 실행할 수 있다. 프로세서(410)는, 말풍선 인식 알고리즘의 실행에 기반하여, 제1 이미지 데이터에 포함된 말풍선 영역을 설정하고, 말풍선 영역 내의 텍스트 데이터를 식별하도록 할 수 있다. In some embodiments, as described with reference to FIGS. 1 to 12 , the processor 410 performs a speech bubble recognition algorithm using the first image data according to generation of an input event received from the outside (eg, a user). can run Based on the execution of the speech bubble recognition algorithm, the processor 410 may set a speech bubble area included in the first image data and identify text data within the speech bubble area.
프로세서(410)는, 제1 이미지 데이터를 기초로, 딥러닝 모듈을 통해 말풍선 영역을 설정하도록 할 수 있다. The processor 410 may set a speech bubble area through a deep learning module based on the first image data.
몇몇 실시예에서, 프로세서(410)는, 외부로부터 수신된 글자체 선택 신호에 기반하여, 제1 번역문의 글자체가 변경된 제2 이미지 데이터를 식별할 수 있다. 프로세서(410)는 예를 들어, 글자체 선택 신호가 수신되었음을 외부 서버(예를 들어, 도 13의 제2 서버(2000))에 알릴 수 있다. 프로세서(410)는 예를 들어, 제1 번역문의 글자체가 변경된 제2 이미지 데이터를 외부 서버(예를 들어, 도 13의 제2 서버(2000))로부터 수신하여, 디스플레이(440)를 통해 제공할 수 있다.In some embodiments, the processor 410 may identify the second image data in which the font of the first translation is changed, based on the font selection signal received from the outside. The processor 410 may notify an external server (eg, the second server 2000 of FIG. 13 ) that a font selection signal has been received. The processor 410 receives, for example, the second image data in which the font of the first translation is changed from an external server (eg, the second server 2000 of FIG. 13 ), and provides it through the display 440 . can
몇몇 실시예에서, 프로세서(410)는, 외부(예를 들어, 사용자)로부터 입력 텍스트 데이터를 수신하고, 번역 알고리즘의 실행 결과에 기반하여 입력 텍스트 데이터에 상응하는 텍스트 변환 이미지를 식별할 수 있다. 프로세서(410)는 예를 들어, 번역 알고리즘이 텍스트를 해석하고 그 의미를 식별할 수 있는 것을 이용하여, 입력 텍스트 데이터를 외부 서버(예를 들어, 도 13의 제2 서버(2000))로 전송할 수 있다. 프로세서(410)는 예를 들어, 입력 텍스트 데이터에 포함된 텍스트의 내용과 상응하는 텍스트 변환 이미지를 외부 서버(예를 들어, 도 13의 제2 서버(2000))로부터 수신할 수 있다. 프로세서(410)는 예를 들어, 텍스트 변환 이미지를 디스플레이(440)를 통해 제공할 수 있다.In some embodiments, the processor 410 may receive input text data from an external source (eg, a user), and may identify a text conversion image corresponding to the input text data based on an execution result of a translation algorithm. The processor 410 transmits the input text data to an external server (eg, the second server 2000 of FIG. 13 ) using, for example, a translation algorithm that can interpret the text and identify its meaning. can The processor 410 may receive, for example, a text conversion image corresponding to the content of the text included in the input text data from an external server (eg, the second server 2000 of FIG. 13 ). The processor 410 may provide, for example, a text conversion image through the display 440 .
몇몇 실시예에서 프로세서(410)는, 제1 이미지 데이터의 정보, 텍스트 데이터 및 적어도 하나의 번역문을 입력 노드로 인가하고, 제1 번역문을 출력 노드로 인가하여 번역 딥러닝 모듈을 통해 번역 알고리즘이 학습되도록 할 수 있다. In some embodiments, the processor 410 applies information of the first image data, text data, and at least one translation to an input node, and applies the first translation to an output node so that the translation algorithm is learned through a translation deep learning module. can be made
몇몇 실시예에서, 프로세서(410)는, 제1 이미지 데이터와 제2 이미지 데이터를 동시에 보여주는 편집 화면을 제공할 수 있다. In some embodiments, the processor 410 may provide an editing screen that simultaneously displays the first image data and the second image data.
몇몇 실시예에서 프로세서(410)는, 제2 이미지 데이터에 대해 사용자 데이터를 입력할 수 있는 사용자 인터페이스를 제공할 수 있다. In some embodiments, the processor 410 may provide a user interface through which user data may be input for the second image data.
몇몇 실시예에서 프로세서(410)는, 제1 이미지 데이터에서 텍스트 데이터가 식별된 후, 제1 이미지 데이터에서 텍스트 데이터를 제외한 적어도 하나의 이미지를 식별하고, 적어도 하나의 이미지에 대한 이미지 편집이 가능하도록 할 수 있다. 프로세서(410)는, 외부 서버(예를 들어, 도 13의 제2 서버(2000))가 제1 이미지 데이터에서 텍스트 데이터를 제외한 적어도 하나의 이미지를 식별하도록 할 수 있다. 적어도 하나의 이미지는 예를 들어, 적어도 하나의 메인 이미지 및/또는 적어도 하나의 배경 이미지 중 어느 하나일 수 있다. 프로세서(410)는, 적어도 하나의 이미지에 대한 이미지 편집이 가능하도록, 외부 서버(예를 들어, 도 13의 제2 서버(2000))의 이미지 편집과 관련된 동작을 실행시킬 수 있다. 이미지 편집은 예를 들어, 해상도 변경, 배경 이미지 제거, 사이즈 변경 등, 이미지 프로세싱을 수행하는 것을 의미할 수 있다. In some embodiments, after text data is identified in the first image data, the processor 410 identifies at least one image excluding the text data from the first image data, and enables image editing on the at least one image. can do. The processor 410 may cause an external server (eg, the second server 2000 of FIG. 13 ) to identify at least one image excluding text data from the first image data. The at least one image may be, for example, any one of at least one main image and/or at least one background image. The processor 410 may execute an operation related to image editing of an external server (eg, the second server 2000 of FIG. 13 ) to enable image editing of at least one image. Image editing may mean performing image processing, such as changing resolution, removing a background image, changing size, and the like.
몇몇 실시예에서 프로세서(410)는, 외부(예를 들어, 사용자)로부터 적어도 하나의 이미지 중 제1 이미지에 대한 인페인팅(inpainting) 신호를 수신하고, 인페인팅 신호에 기반하여 제1 이미지를 제거하고, 제1 이미지가 제거된 영역에 제1 이미지를 둘러싼 배경 이미지를 적용하도록 할 수 있다. 프로세서(410)는 예를 들어, 제1 이미지에 대한 인페인팅 신호가 수신되었음을 외부 서버(예를 들어, 도 13의 제2 서버(2000))에 알릴 수 있다. 프로세서(410)는 예를 들어, 인페인팅 신호에 기반하여 제1 이미지를 제거하고, 제1 이미지가 제거된 영역에 제1 이미지를 둘러싼 배경 이미지가 적용된 제2 이미지 데이터를 외부 서버(예를 들어, 도 13의 제2 서버(2000))로부터 수신할 수 있다. 프로세서(410)는 예를 들어, 디스플레이(440)를 통해 제2 이미지 데이터를 제공할 수 있다. In some embodiments, the processor 410 receives an inpainting signal for a first image of at least one image from an outside (eg, user), and removes the first image based on the inpainting signal. and apply a background image surrounding the first image to the region from which the first image is removed. The processor 410 may notify an external server (eg, the second server 2000 of FIG. 13 ) that an inpainting signal for the first image has been received. For example, the processor 410 removes the first image based on the inpainting signal, and transfers second image data to an external server (eg, a background image surrounding the first image) applied to the area where the first image is removed. , may be received from the second server 2000 of FIG. 13 . The processor 410 may provide second image data through, for example, the display 440 .
이하에서는, 도 15 내지 도 18을 참조하여 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(도 14의 400)의 동작에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, the operation of the image editing device (400 in FIG. 14) according to some embodiments of the present invention will be described with reference to FIGS. 15 to 18. For clarity of description, overlapping with those described above are simplified or omitted.
도 15는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치의 동작을 설명하기 위한 도면들이다. 도 16은 도 15의 단계(S1001)를 설명하기 위한 도면이다. 도 17은 도 15의 단계(S1007)를 설명하기 위한 도면이다. 도 18은 도 15의 단계(S1007)를 설명하기 위한 도면이다.15 are diagrams for explaining the operation of an image editing apparatus according to some embodiments of the present invention. FIG. 16 is a diagram for explaining step S1001 of FIG. 15 . FIG. 17 is a diagram for explaining step S1007 of FIG. 15 . FIG. 18 is a diagram for explaining step S1007 of FIG. 15 .
이하에서는 도 13 및 도 14의 이미지 편집 장치(400)가 도 15의 프로세스를 수행하는 것을 가정한다. 이미지 편집 장치(400)에 의해 수행되는 것으로 기술된 동작은 이미지 편집 장치(도 13 및 도 14의 400)의 프로세서(도 14의 410)에 의해 수행(혹은, 실행)될 수 있는 인스트럭션(명령어)들로 구현될 수 있다. 상기 인스트럭션들은, 예를 들어, 컴퓨터 기록 매체 또는 도 13 및 도 14의 이미지 편집 장치(400)의 메모리(도 14의 420)에 저장될 수 있다.Hereinafter, it is assumed that the image editing device 400 of FIGS. 13 and 14 performs the process of FIG. 15 . An operation described as being performed by the image editing device 400 is an instruction (command) that can be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device (400 in FIGS. 13 and 14 ). can be implemented with The instructions may be stored, for example, in a computer recording medium or a memory (420 in FIG. 14) of the image editing device 400 of FIGS. 13 and 14.
도 15를 참조하면, 단계(S1001)에서, 이미지 편집 장치는 제1 이미지 데이터에서 텍스트 데이터를 식별할 수 있다. 제1 이미지 데이터는 예를 들어, 메인 이미지 및 배경 이미지 중 적어도 어느 하나를 더 포함할 수 있다. 이미지 편집 장치는, 텍스트 데이터를 식별해야 할 대상인 제1 이미지 데이터를 제2 서버(도 13의 2000)로 전송할 수 있다. 이미지 편집 장치는, 제2 서버(도 13의 2000)로부터 제1 이미지 데이터의 텍스트 데이터에 관한 정보를 수신함으로써, 제1 이미지 데이터에서 텍스트 데이터를 식별할 수 있다. Referring to FIG. 15 , in step S1001, the image editing device may identify text data from the first image data. The first image data may further include, for example, at least one of a main image and a background image. The image editing device may transmit the first image data, which is the text data to be identified, to the second server ( 2000 in FIG. 13 ). The image editing apparatus may identify text data in the first image data by receiving information on the text data of the first image data from the second server (2000 in FIG. 13 ).
도 16을 참조하면, 이미지 편집 장치는 제1 이미지 데이터(510)에서 텍스트 데이터(513), 메인 이미지(517) 및 배경 이미지(519)를 식별할 수 있다. 이미지 편집 장치는, 제2 서버(도 13의 2000)로부터 텍스트 데이터(513), 메인 이미지(517) 및 배경 이미지(519)에 관한 정보를 수신함으로써, 제1 이미지 데이터(510)에서 텍스트 데이터(513), 메인 이미지(517) 및 배경 이미지(519)를 식별할 수 있다.Referring to FIG. 16 , the image editing device may identify text data 513 , a main image 517 , and a background image 519 from first image data 510 . The image editing device receives information on the text data 513, the main image 517, and the background image 519 from the second server (2000 in FIG. 13), so that the text data ( 513), a main image 517 and a background image 519 can be identified.
몇몇 실시예에서 이미지 편집 장치는, 제1 이미지 데이터(510)에서 텍스트 데이터(513)를 식별할 수 있다. 이미지 편집 장치는 제2 서버(도 13의 2000)로부터 텍스트 영역(511) 및 텍스트 영역(511)에 포함된 텍스트 데이터(513)에 관한 정보를 수신함으로써, 제1 이미지 데이터(510)에서 텍스트 데이터(513)를 식별할 수 있다. In some embodiments, the image editing device may identify text data 513 from the first image data 510 . The image editing device receives information about the text area 511 and the text data 513 included in the text area 511 from the second server (2000 in FIG. 13), thereby converting the text data from the first image data 510 to (513) can be identified.
몇몇 실시예에서 이미지 편집 장치는, 도 1 내지 도 12를 참조하여 설명한 바와 같이, 제1 이미지 데이터(510)에서 말풍선 영역(515)을 식별할 수 있다. 이미지 편집 장치는 제2 서버(도 13의 2000)로부터 말풍선 영역(515) 및 말풍선 영역(515)에 포함된 텍스트 데이터(513)에 관한 정보를 수신함으로써, 제1 이미지 데이터(510)에서 텍스트 데이터(513)를 식별할 수 있다.In some embodiments, the image editing device may identify a speech bubble area 515 in the first image data 510 as described with reference to FIGS. 1 to 12 . The image editing device receives text data from the first image data 510 by receiving information about the speech bubble area 515 and the text data 513 included in the speech bubble area 515 from the second server (2000 in FIG. 13 ). (513) can be identified.
다시 도 15를 참조하면, 단계(S1003)에서, 이미지 편집 장치는 제1 이미지 데이터의 정보에 기반하여, 텍스트 데이터에 대해 적어도 하나의 번역문을 제공하는 번역 알고리즘을 실행하도록 할 수 있다. 번역 알고리즘은 예를 들어, 제2 서버(도 13의 2000)에서 실행될 수 있다. 이미지 편집 장치는, 제1 이미지 데이터의 정보를 제2 서버(도 13의 2000)로 전송할 수 있다. 이미지 편집 장치가 제1 이미지 데이터의 정보를 제2 서버(도 13의 2000)에 전송함으로써, 제2 서버(도 13의 2000)는 번역 알고리즘을 실행시킬 수 있다. 제2 서버(도 13의 2000)는 번역 알고리즘을 이용하여 텍스트 데이터에 대해 적어도 하나의 번역문을 생성할 수 있다. 제2 서버(도 13의 2000)는 제1 이미지 데이터의 정보에 기반하여, 텍스트 데이터를 직역한 번역문 및 텍스트 데이터를 의역한 번역문 중 적어도 하나를 포함하는 적어도 하나의 번역문을 생성할 수 있다. 이미지 편집 장치는, 제2 서버(도 13의 2000)로부터 적어도 하나의 번역문을 수신할 수 있다. 이미지 편집 장치는, 적어도 하나의 번역문을 디스플레이(도 14의 440)를 통해 제공할 수 있다.Referring back to FIG. 15 , in step S1003 , the image editing device may execute a translation algorithm that provides at least one translation of the text data based on the information of the first image data. The translation algorithm may be executed, for example, in the second server (2000 in FIG. 13). The image editing device may transmit information of the first image data to the second server (2000 in FIG. 13). When the image editing device transmits information of the first image data to the second server (2000 of FIG. 13), the second server (2000 of FIG. 13) may execute the translation algorithm. The second server (2000 in FIG. 13) may generate at least one translation of the text data using a translation algorithm. The second server (2000 in FIG. 13 ) may generate at least one translation including at least one of a direct translation of the text data and a paraphrase of the text data, based on information of the first image data. The image editing device may receive at least one translated text from the second server (2000 in FIG. 13). The image editing device may provide at least one translated text through a display ( 440 in FIG. 14 ).
단계(S1005)에서, 이미지 편집 장치는 번역 알고리즘의 실행 결과에 기반하여, 외부로부터 적어도 하나의 번역문 중 하나인 제1 번역문을 선택하는 번역 선택 신호를 수신할 수 있다. 이미지 편집 장치는, 외부(예를 들어, 사용자)로부터 번역 선택 신호를 수신할 수 있다. In step S1005, the image editing device may receive a translation selection signal for selecting a first translation, which is one of at least one translation, from the outside based on the execution result of the translation algorithm. The image editing device may receive a translation selection signal from the outside (eg, a user).
단계(S1007)에서, 이미지 편집 장치는, 번역 선택 신호를 수신한 것에 기반하여, 제1 이미지 데이터에 제1 번역문이 적용된 제2 이미지 데이터를 식별할 수 있다. 이미지 편집 장치는, 번역 선택 신호를 수신하였음을 제2 서버(도 13의 2000)에 알릴 수 있다. 제2 서버(도 13의 2000)는 번역 선택 신호에 기반하여, 제1 이미지 데이터의 텍스트 영역의 텍스트 데이터를 제1 번역문으로 변경한 제2 이미지 데이터를 생성할 수 있다. 이미지 편집 장치는 제2 서버(도 13의 2000)로부터 제2 이미지 데이터를 수신함으로써, 제2 이미지 데이터를 식별할 수 있다.In operation S1007, the image editing device may identify second image data to which a first translation is applied to the first image data, based on receiving the translation selection signal. The image editing device may inform the second server (2000 in FIG. 13) that the translation selection signal has been received. The second server (2000 in FIG. 13 ) may generate second image data obtained by changing the text data of the text area of the first image data into the first translation, based on the translation selection signal. The image editing apparatus may identify the second image data by receiving the second image data from the second server (2000 in FIG. 13 ).
도 17을 참조하면, 몇몇 실시예에서 이미지 편집 장치는 제1 이미지 데이터(510)와 제2 이미지 데이터(520)를 동시에 보여주는 편집 화면(600)을 제공할 수 있다. 이미지 편집 장치는 디스플레이(도 14의 440)를 통해 편집 화면(600)을 제공할 수 있다. 제2 이미지 데이터(520)는, 텍스트 영역(511)에 제1 번역문(523)이 적용된 이미지 데이터일 수 있다. 이미지 편집 장치는 편집 화면(600)의 제1 영역(601)에 제1 이미지 데이터(510)를 제공하고, 편집 화면(600)의 제2 영역(603)에 제2 이미지 데이터(520)를 제공할 수 있다. 사용자는, 하나의 편집 화면(600)에서 제1 이미지 데이터(510) 및 제1 번역문(523)이 적용된 제2 이미지 데이터(520)를 동시에 볼 수 있다. Referring to FIG. 17 , in some embodiments, an image editing device may provide an editing screen 600 that simultaneously displays first image data 510 and second image data 520 . The image editing device may provide the editing screen 600 through the display ( 440 of FIG. 14 ). The second image data 520 may be image data to which the first translation 523 is applied to the text area 511 . The image editing device provides the first image data 510 to the first area 601 of the editing screen 600 and provides the second image data 520 to the second area 603 of the editing screen 600. can do. The user can simultaneously view the first image data 510 and the second image data 520 to which the first translation 523 is applied on one editing screen 600 .
도 18을 참조하면, 몇몇 실시예에서 이미지 편집 장치는, 제2 이미지 데이터(520)에 대해 사용자 데이터를 입력할 수 있는 사용자 인터페이스(530)를 더 포함한 편집 화면(600)을 제공할 수 있다. 사용자는 사용자 인터페이스(530)에 데이터(예를 들어, 텍스트)를 입력할 수 있다. 사용자 인터페이스(530)에 입력된 사용자 데이터는 편집 가능할 수 있다. 나아가 사용자 인터페이스(530)에 입력된 사용자 데이터 및 사용자 인터페이스(530)는 사용자에 의해 삭제될 수 있다.Referring to FIG. 18 , in some embodiments, the image editing device may provide an editing screen 600 that further includes a user interface 530 through which user data may be input for second image data 520 . A user may input data (eg, text) into the user interface 530 . User data input to the user interface 530 may be editable. Furthermore, user data input to the user interface 530 and the user interface 530 may be deleted by the user.
예를 들어, 복수의 사용자가 편집 화면(600)을 이용해 제2 이미지 데이터(520)를 편집하는 경우, 제1 사용자가 사용자 인터페이스(530)에 코멘트(즉, 사용자 데이터)를 입력한 후 저장하면, 그 다음 사용자인 제2 사용자는 제1 사용자가 남긴 코멘트를 사용자 인터페이스(530)를 통해 확인할 수 있다. 제2 사용자는 다른 사용자 인터페이스(530)를 생성하여 코멘트(즉, 사용자 데이터)를 입력하여 저장할 수 있다. 그 다음 사용자인 제3 사용자는, 제1 사용자가 남긴 코멘트와 제2 사용자가 남긴 코멘트를 모두 확인할 수 있다. 본 발명의 실시예에 따른 이미지 편집 장치는 복수의 사용자가 이미지 데이터를 편집하는 경우 사용자 인터페이스(530)를 이용해 코멘트를 남길 수 있도록 함으로써 편리함을 제공할 수 있고, 복수의 사용자에 의한 이미지 데이터 편집이 용이하게 할 수 있다.For example, when a plurality of users edit the second image data 520 using the editing screen 600, when a first user inputs a comment (ie, user data) into the user interface 530 and then saves it , the second user, who is the next user, may check the comments left by the first user through the user interface 530 . The second user may create another user interface 530 to input and store comments (ie, user data). The third user, who is the next user, may check both the comments left by the first user and the comments left by the second user. The image editing apparatus according to an embodiment of the present invention can provide convenience by enabling a plurality of users to leave comments using the user interface 530 when editing image data, and it is possible to provide convenience when editing image data by a plurality of users. can be done easily
이하에서, 도 5 및 도 19를 참조하여 본 발명의 몇몇 실시예에 따른 제2 서버(도 13의 2000)에 포함된 번역 딥러닝 모듈(2001)의 학습에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, learning of the translation deep learning module 2001 included in the second server (2000 in FIG. 13 ) according to some embodiments of the present invention will be described with reference to FIGS. 5 and 19 . For clarity of description, overlapping with those described above are simplified or omitted.
도 19는 본 발명의 몇몇 실시예에 따른 번역 딥러닝 모듈(2001)의 학습 방법을 설명하기 위한 도면이다.19 is a diagram for explaining a learning method of a translation deep learning module 2001 according to some embodiments of the present invention.
도 5에 대한 설명은 도 19의 번역 딥러닝 모듈(2001)에 적용될 수 있다. 이미지 편집 장치(도 14의 400)에 의해 수행되는 것으로 기술된 동작은 이미지 편집 장치(도 14의 400)의 프로세서(도 14의 410)에 의해 수행(혹은, 실행)될 수 있는 인스트럭션(명령어)들로 구현될 수 있다. 상기 인스트럭션들은, 예를 들어, 컴퓨터 기록 매체 또는 도 13 및 도 14의 이미지 편집 장치(400)의 메모리(420)에 저장될 수 있다.The description of FIG. 5 can be applied to the translation deep learning module 2001 of FIG. 19 . The operation described as being performed by the image editing device (400 of FIG. 14) is an instruction (command) that can be performed (or executed) by the processor (410 of FIG. 14) of the image editing device (400 of FIG. 14). can be implemented with The instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing device 400 of FIGS. 13 and 14 .
도 5 및 도 19를 참조하면, 이미지 편집 장치는 제1 이미지 데이터의 정보, 텍스트 데이터 및 적어도 하나의 번역문을 입력 노드로 인가 하고, 제1 번역문을 출력 노드로 인가 하여, 번역 딥러닝 모듈(2001)을 통해 번역 알고리즘이 학습되도록 할 수 있다. 이미지 편집 장치는, 제1 학습 입력 데이터를 제2 서버(도 13의 2000)에 포함된 번역 딥러닝 모듈(2001)로 전송함으로써, 번역 딥러닝 모듈(2001)이 학습되도록 할 수 있다. 제1 학습 입력 데이터는 제1 이미지 데이터의 정보, 텍스트 데이터, 적어도 하나의 번역문 및 제1 번역문을 포함할 수 있다. 번역 딥러닝 모듈(2001)은, 입력 노드에 제1 이미지 데이터의 정보, 텍스트 데이터 및 적어도 하나의 번역문이 인가되고, 출력 노드에 제1 번역문이 인가됨으로써 학습될 수 있다. 5 and 19, the image editing device applies information of first image data, text data, and at least one translation to an input node, and applies the first translation to an output node, so that a translation deep learning module (2001 ), the translation algorithm can be learned. The image editing device may transmit the first learning input data to the translation deep learning module 2001 included in the second server (2000 in FIG. 13 ) so that the translation deep learning module 2001 is trained. The first learning input data may include information of the first image data, text data, at least one translation, and first translation. The translation deep learning module 2001 may be learned by applying information of the first image data, text data, and at least one translation to an input node, and applying the first translation to an output node.
이하에서, 도 20 내지 도 22를 참조하여 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)와 번역 딥러닝 모듈(2001)의 동작에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, operations of the image editing device 400 and the translation deep learning module 2001 according to some embodiments of the present invention will be described with reference to FIGS. 20 to 22 . For clarity of description, overlapping with those described above are simplified or omitted.
도 20은 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400) 및 번역 딥러닝 모듈(2001)의 동작을 설명하기 위한 시퀀스도이다. 도 21a은 도 20의 단계(S2005)를 설명하기 위한 도면이다. 도 21b는 도 20의 단계(S2005)를 설명하기 위한 도면이다. 도 22는 도 20의 단계(S2015)를 설명하기 위한 도면이다. 20 is a sequence diagram illustrating operations of an image editing device 400 and a translation deep learning module 2001 according to some embodiments of the present invention. FIG. 21A is a diagram for explaining step S2005 of FIG. 20 . FIG. 21B is a diagram for explaining step S2005 of FIG. 20 . FIG. 22 is a diagram for explaining step S2015 of FIG. 20 .
이미지 편집 장치(400)에 의해 수행되는 것으로 기술된 동작은 이미지 편집 장치(400)의 프로세서(도 14의 410)에 의해 수행(혹은, 실행)될 수 있는 인스트럭션(명령어)들로 구현될 수 있다. 상기 인스트럭션들은, 예를 들어, 컴퓨터 기록 매체 또는 도 13 및 도 14의 이미지 편집 장치(400)의 메모리(420)에 저장될 수 있다. An operation described as being performed by the image editing device 400 may be implemented as instructions (commands) that may be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device 400. . The instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing device 400 of FIGS. 13 and 14 .
도 20을 참조하면, 단계(S2001)에서, 이미지 편집 장치(400)는 입력 텍스트 데이터를 수신할 수 있다. 입력 텍스트 데이터는 예를 들어, 제1 번역문이 적용된 제2 이미지 데이터가 이미지 편집 장치(400)에 의해 식별되기 전 또는 후에 수신될 수 있다. 이미지 편집 장치(400)는 외부(예를 들어, 사용자)로부터 입력 텍스트 데이터를 수신할 수 있다. 입력 텍스트 데이터는, 이미지를 얻기 위해 입력되는 텍스트 데이터일 수 있다.Referring to FIG. 20 , in step S2001, the image editing apparatus 400 may receive input text data. The input text data may be received before or after, for example, the second image data to which the first translation is applied is identified by the image editing device 400 . The image editing device 400 may receive input text data from the outside (eg, a user). The input text data may be text data input to obtain an image.
단계(S2003)에서, 이미지 편집 장치(400)는 입력 텍스트 데이터를 번역 딥러닝 모듈(2001)로 전송할 수 있다. 번역 딥러닝 모듈(2001)은 제2 서버(도 13의 2000)에 포함될 수 있다.In step S2003, the image editing device 400 may transmit the input text data to the translation deep learning module 2001. The translation deep learning module 2001 may be included in the second server (2000 in FIG. 13).
단계(S2005)에서, 번역 딥러닝 모듈(2001)은 입력 텍스트 데이터에 상응하는 적어도 하나의 텍스트 변환 이미지를 생성할 수 있다.In step S2005, the translation deep learning module 2001 may generate at least one text conversion image corresponding to the input text data.
도 21a 및 도 21b를 참조하면, 번역 딥러닝 모듈(2001)은 번역 알고리즘을 이용하여 입력 텍스트 데이터의 의미를 식별함으로써, 입력 텍스트 데이터에 상응하는 적어도 하나의 텍스트 변환 이미지(701, 703)를 생성할 수 있다. 예를 들어, 이미지 편집 장치(400)가 외부로부터 “분리수거함”이라는 입력 텍스트 데이터를 수신한 경우, 번역 딥러닝 모듈(2001)은 입력 텍스트 데이터인 “분리수거함”에 상응하는 적어도 하나의 텍스트 변환 이미지(701, 703)를 생성할 수 있다. 적어도 하나의 텍스트 변환 이미지(701, 703)는, 입력 텍스트 데이터와 상응하는 기준 이미지(701) 및 기준 이미지(701)의 파생 이미지(703)를 포함할 수 있다. Referring to FIGS. 21A and 21B , the translation deep learning module 2001 generates at least one text conversion image 701 or 703 corresponding to the input text data by identifying the meaning of the input text data using a translation algorithm. can do. For example, when the image editing device 400 receives input text data of “separate collection box” from the outside, the translation deep learning module 2001 converts at least one text corresponding to the input text data “separate collection box”. Images 701 and 703 can be created. The at least one text conversion image 701 or 703 may include a reference image 701 corresponding to the input text data and a derivative image 703 of the reference image 701 .
다시 도 20을 참조하면 단계(S2007)에서, 번역 딥러닝 모듈(2001)은 적어도 하나의 텍스트 변환 이미지를 이미지 편집 장치(400)로 전송할 수 있다.Referring back to FIG. 20 , in step S2007 , the translation deep learning module 2001 may transmit at least one text conversion image to the image editing device 400 .
단계(S2009)에서, 이미지 편집 장치(400)는 적어도 하나의 텍스트 변환 이미지를 식별할 수 있다. 이미지 편집 장치(400)는 적어도 하나의 텍스트 변환 이미지를 디스플레이(도 14의 440)를 통해 제공할 수 있다.In step S2009, the image editing device 400 may identify at least one text conversion image. The image editing device 400 may provide at least one text converted image through a display ( 440 of FIG. 14 ).
단계(S2011)에서, 이미지 편집 장치(400)는 적어도 하나의 텍스트 변환 이미지 중 하나인 제1 텍스트 변환 이미지에 대한 수정 신호를 수신할 수 있다. 이미지 편집 장치(400)는 외부(예를 들어, 사용자)로부터, 제1 텍스트 변환 이미지의 수정을 위한 수정 신호를 수신할 수 있다. 수정은 예를 들어, 제1 텍스트 변환 이미지의 배경 이미지를 변경하는 것을 포함할 수 있다.In operation S2011, the image editing apparatus 400 may receive a correction signal for a first text conversion image that is one of at least one text conversion image. The image editing apparatus 400 may receive a correction signal for correcting the first text conversion image from an outside (eg, user). The modification may include, for example, changing the background image of the first text conversion image.
단계(S2013)에서, 이미지 편집 장치(400)는 제1 텍스트 변환 이미지에 대한 수정 신호를 번역 딥러닝 모듈(2001)로 전송할 수 있다. In step S2013, the image editing device 400 may transmit a correction signal for the first text conversion image to the translation deep learning module 2001.
단계(S2015)에서, 번역 딥러닝 모듈(2001)은 수정 신호에 기반하여, 제1 텍스트 변환 이미지의 수정 이미지를 생성할 수 있다. 예를 들어 수정 신호가 제1 텍스트 변환 이미지의 수정으로 제1 텍스트 변환 이미지의 배경 이미지를 변경하는 내용을 포함하고 있는 경우, 번역 딥러닝 모듈(2001)은 제1 텍스트 변환 이미지의 배경 이미지를 변경한 수정 이미지를 생성할 수 있다. In step S2015, the translation deep learning module 2001 may generate a modified image of the first text converted image based on the modified signal. For example, when the correction signal includes content for changing the background image of the first converted text image by modifying the first converted text image, the translation deep learning module 2001 changes the background image of the first converted text image. A modified image can be created.
도 22를 참조하면, 이미지 편집 장치(400)는, 적어도 하나의 텍스트 변환 이미지 중 하나인 제1 텍스트 변환 이미지를 선택하는 내용 및 제1 텍스트 변환 이미지에 대한 수정을 요청하는 내용을 포함하는, 수정 신호를 외부(예를 들어, 사용자)로부터 수신할 수 있다. 번역 딥러닝 모듈(2001)은 수정 신호에 기반하여, 제1 텍스트 변환 이미지(예를 들어, 도 21b의 703)의 배경 이미지를 변경한 수정 이미지(705)를 생성할 수 있다. Referring to FIG. 22 , the image editing apparatus 400 includes content for selecting a first text conversion image, which is one of at least one text conversion image, and content for requesting modification of the first text conversion image. A signal may be received from the outside (eg, user). The translation deep learning module 2001 may generate a modified image 705 obtained by changing the background image of the first text converted image (eg, 703 of FIG. 21B ) based on the modified signal.
다시 도 20을 참조하면, 단계(S2017)에서, 번역 딥러닝 모듈(2001)은 수정 이미지를 이미지 편집 장치(400)로 전송할 수 있다.Referring back to FIG. 20 , in step S2017, the translation deep learning module 2001 may transmit the corrected image to the image editing device 400.
단계(S2019)에서, 이미지 편집 장치(400)는 수정 이미지를 식별할 수 있다. 이미지 편집 장치(400)는 수정 이미지를 디스플레이(도 14의 440)를 통해 제공할 수 있다.In step S2019, the image editing device 400 may identify a modified image. The image editing device 400 may provide a modified image through a display ( 440 of FIG. 14 ).
이하에서, 도 5 및 도 23을 참조하여 본 발명의 몇몇 실시예에 따른 제2 서버(도 13의 2000)에 포함된 번역 딥러닝 모듈(2001)의 학습에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, learning of the translation deep learning module 2001 included in the second server (2000 in FIG. 13 ) according to some embodiments of the present invention will be described with reference to FIGS. 5 and 23 . For clarity of description, overlapping with those described above are simplified or omitted.
도 23은 본 발명의 몇몇 실시예에 따른 번역 딥러닝 모듈(2001)의 학습 방법을 설명하기 위한 도면이다.23 is a diagram for explaining a learning method of a translation deep learning module 2001 according to some embodiments of the present invention.
도 5에 대한 설명은 도 19의 번역 딥러닝 모듈(2001)에 적용될 수 있다. 이미지 편집 장치(도 14의 400)에 의해 수행되는 것으로 기술된 동작은 이미지 편집 장치(도 14의 400)의 프로세서(도 14의 410)에 의해 수행(혹은, 실행)될 수 있는 인스트럭션(명령어)들로 구현될 수 있다. 상기 인스트럭션들은, 예를 들어, 컴퓨터 기록 매체 또는 도 13 및 도 14의 이미지 편집 장치(400)의 메모리(420)에 저장될 수 있다.The description of FIG. 5 can be applied to the translation deep learning module 2001 of FIG. 19 . The operation described as being performed by the image editing device (400 of FIG. 14) is an instruction (command) that can be performed (or executed) by the processor (410 of FIG. 14) of the image editing device (400 of FIG. 14). can be implemented with The instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing device 400 of FIGS. 13 and 14 .
도 5 및 도 23을 참조하면, 이미지 편집 장치는 입력 텍스트 데이터 및 수정 신호를 입력 노드로 인가하고, 적어도 하나의 텍스트 변환 이미지 및 수정 이미지를 출력 노드로 인가하여, 번역 딥러닝 모듈(2001)을 통해 번역 알고리즘이 학습되도록 할 수 있다. 이미지 편집 장치는, 제2 학습 입력 데이터를 제2 서버(도 13의 2000)에 포함된 번역 딥러닝 모듈(2001)로 전송함으로써, 번역 딥러닝 모듈(2001)이 학습되도록 할 수 있다. 제2 학습 입력 데이터는, 입력 텍스트 데이터, 수정 신호, 적어도 하나의 텍스트 변환 이미지 및 수정 이미지를 포함할 수 있다. 번역 딥러닝 모듈(2001)은, 입력 노드에 입력 텍스트 데이터 및 수정 신호가 인가되고, 출력 노드에 적어도 하나의 텍스트 변환 이미지 및 수정 이미지가 인가됨으로써 학습될 수 있다.Referring to FIGS. 5 and 23 , the image editing device applies input text data and a correction signal to an input node, and applies at least one text conversion image and a correction image to an output node to perform a translation deep learning module (2001). Through this, the translation algorithm can be learned. The image editing device may transmit the second learning input data to the translation deep learning module 2001 included in the second server (2000 in FIG. 13 ) so that the translation deep learning module 2001 is trained. The second learning input data may include input text data, a correction signal, at least one text conversion image, and a correction image. The translation deep learning module 2001 may be learned by applying input text data and a correction signal to an input node and applying at least one text conversion image and a correction image to an output node.
이하에서, 도 13 및 도 24를 참조하여 본 발명의 몇몇 실시예에 따른 이미지 편집 장치의 이미지 편집 동작에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, an image editing operation of an image editing apparatus according to some embodiments of the present invention will be described with reference to FIGS. 13 and 24 . For clarity of description, overlapping with those described above are simplified or omitted.
도 24는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)의 이미지 편집을 설명하기 위한 도면이다. 24 is a diagram for explaining image editing by the image editing device 400 according to some embodiments of the present disclosure.
이미지 편집 장치(400)에 의해 수행되는 것으로 기술된 동작은 이미지 편집 장치(400)의 프로세서(도 14의 410)에 의해 수행(혹은, 실행)될 수 있는 인스트럭션(명령어)들로 구현될 수 있다. 상기 인스트럭션들은, 예를 들어, 컴퓨터 기록 매체 또는 도 14 및 도 24의 이미지 편집 장치(400)의 메모리(도 14의 420)에 저장될 수 있다.An operation described as being performed by the image editing device 400 may be implemented as instructions (commands) that may be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device 400. . The instructions may be stored, for example, in a computer recording medium or a memory (420 in FIG. 14) of the image editing apparatus 400 of FIGS. 14 and 24.
도 13 및 도 24를 참조하면, 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400)는, 제1 번역문(523)에 대한 편집을 수행하도록 할 수 있다. 또한 이미지 편집 장치(400)는, 제2 이미지 데이터(520)의 텍스트 데이터를 제외한 적어도 하나의 이미지에 대한 이미지 편집을 수행하도록 할 수 있다. Referring to FIGS. 13 and 24 , the image editing device 400 according to some embodiments of the present invention may edit the first translation 523 . Also, the image editing device 400 may perform image editing on at least one image other than text data of the second image data 520 .
몇몇 실시예에서, 이미지 편집 장치(400)는 외부(예를 들어, 사용자)로부터 수신된 글자체 선택 신호에 기반하여, 제2 이미지 데이터에서 제1 번역문의 글자체가 변경된 이미지 데이터인 제3 이미지 데이터(540)를 식별할 수 있다. 이미지 편집 장치(400)는, 제2 서버(2000)로부터 제1 번역문의 글자체가 변경된 제3 이미지 데이터(540)를 수신함으로써, 제1 번역문의 글자체가 변경된 제3 이미지 데이터(540)를 식별할 수 있다.In some embodiments, the image editing device 400 may provide third image data, which is image data in which the font of the first translation is changed from the second image data, based on a font selection signal received from the outside (eg, a user) ( 540) can be identified. The image editing device 400 receives the third image data 540 in which the font of the first translation has been changed from the second server 2000 to identify the third image data 540 in which the font of the first translation has been changed. can
예를 들어, 이미지 편집 장치(400)는 글자체 선택 신호를 수신하였음을 제2 서버(2000)에 알릴 수 있다. 제2 서버(2000)는 글자체 선택 신호에 기반하여, 제1 번역문(523)의 글자체를 변경한 수정된 제1 번역문(524)을 제2 이미지 데이터(520)에 적용함으로써, 제3 이미지 데이터(540)를 생성할 수 있다. 이미지 편집 장치(400)는 제2 서버(2000)로부터 제3 이미지 데이터(540)를 수신함으로써, 제3 이미지 데이터(540)를 식별할 수 있다. 이미지 편집 장치(400)는 제3 이미지 데이터(540)를 디스플레이(도 14의 440)를 통해 편집 화면(600)의 제2 영역(603)에 제공할 수 있다. For example, the image editing device 400 may notify the second server 2000 that a font selection signal has been received. The second server 2000 applies the modified first translation 524, in which the font of the first translation 523 is changed, to the second image data 520 based on the font selection signal, thereby providing third image data ( 540) can be created. The image editing device 400 may identify the third image data 540 by receiving the third image data 540 from the second server 2000 . The image editing device 400 may provide the third image data 540 to the second area 603 of the editing screen 600 through the display 440 of FIG. 14 .
몇몇 실시예에서 이미지 편집 장치(400)는, 제2 이미지 데이터(520)에서 텍스트 데이터인 제1 번역문(523)을 제외한 적어도 하나의 이미지(메인 이미지(517) 및 배경 이미지(519))를 식별할 수 있다. 이미지 편집 장치(400)는, 적어도 하나의 이미지에 대한 이미지 편집을 수행하도록 할 수 있다. In some embodiments, the image editing device 400 identifies at least one image (the main image 517 and the background image 519) except for the first translation 523 that is text data from the second image data 520. can do. The image editing device 400 may perform image editing on at least one image.
예를 들어 이미지 편집 장치(400)는, 적어도 하나의 이미지 중 하나인 배경 이미지(519)를 선택하는 신호를 수신하고, 이를 제2 서버(2000)에 알릴 수 있다. 제2 서버(2000)는 선택된 배경 이미지(519)에 대한 이미지 편집과 관련된 신호를 이미지 편집 장치(400)로부터 더 수신하고, 수신된 신호와 관련된 이미지 편집을 수행하여 제3 이미지 데이터(540)를 생성할 수 있다. 예를 들어, 이미지 편집 장치(400)는 변경된 배경 이미지(529)가 적용된 제3 이미지 데이터(540)를 제2 서버(2000)로부터 수신함으로써, 제3 이미지 데이터(540)를 식별할 수 있다. 이미지 편집 장치(400)는 제3 이미지 데이터(540)를 디스플레이(도 14의 440)를 통해 편집 화면(600)의 제2 영역(603)에 제공할 수 있다. For example, the image editing device 400 may receive a signal for selecting a background image 519 , which is one of at least one image, and notify the second server 2000 of the signal. The second server 2000 further receives a signal related to image editing of the selected background image 519 from the image editing device 400, performs image editing related to the received signal, and generates third image data 540. can create For example, the image editing device 400 may identify the third image data 540 by receiving the third image data 540 to which the changed background image 529 is applied from the second server 2000 . The image editing device 400 may provide the third image data 540 to the second area 603 of the editing screen 600 through the display 440 of FIG. 14 .
도 24를 참조하여 배경 이미지(519)에 대한 이미지 편집이 수행되는 것으로 설명하였으나 이에 제한되는 것은 아니다. 예를 들어, 메인 이미지(517)에 대해서도, 배경 이미지(519)의 이미지 편집에 대한 설명이 적용될 수 있다.It has been described that image editing is performed on the background image 519 with reference to FIG. 24 , but is not limited thereto. For example, the description of image editing of the background image 519 may also be applied to the main image 517 .
또한 도 24에서 배경 이미지(519)와 제1 번역문(523)의 글자체가 모두 변경된 경우를 예로 들어 설명하였으나, 이에 제한되는 것은 아니다. 예를 들어, 몇몇 실시예에서 적어도 하나의 이미지에 대한 이미지 편집만 수행될 수 있거나, 또는 제1 번역문(523)의 글자체 변경만 수행될 수도 있음은 물론이다.In addition, the case where both the background image 519 and the font of the first translation 523 are changed in FIG. 24 has been described as an example, but is not limited thereto. For example, in some embodiments, only image editing may be performed on at least one image, or only a font change of the first translation 523 may be performed.
몇몇 실시예에서, 이미지 편집 장치(400)는 외부(예를 들어, 사용자)로부터 인페인팅(inpainting) 신호를 수신할 수 있다. 이미지 편집 장치(400)는 인페인팅 신호를 수신하였음을 제2 서버(2000)에 알릴 수 있다. 제2 서버(2000)는 인페인팅 신호에 기반하여, 특정 이미지를 제거하고 특정 이미지가 제거된 영역에 특정 이미지를 둘러싼 배경 이미지를 적용하는 편집 동작을 수행할 수 있다. 이는 도 25 내지 도 29를 참조하여 이하에서 설명한다.In some embodiments, the image editing device 400 may receive an inpainting signal from the outside (eg, a user). The image editing device 400 may notify the second server 2000 that the inpainting signal has been received. Based on the inpainting signal, the second server 2000 may perform an editing operation of removing a specific image and applying a background image surrounding the specific image to an area where the specific image is removed. This is explained below with reference to FIGS. 25 to 29 .
이하에서, 도 25 내지 도 29를 참조하여 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400) 및 이미지 편집 모듈(2003)의 동작에 대해 설명한다. 설명의 명확성을 위해, 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.Hereinafter, operations of the image editing device 400 and the image editing module 2003 according to some embodiments of the present invention will be described with reference to FIGS. 25 to 29 . For clarity of description, overlapping with those described above are simplified or omitted.
도 25는 본 발명의 몇몇 실시예에 따른 이미지 편집 장치(400) 및 이미지 편집 모듈(2003)의 동작을 설명하기 위한 시퀀스도이다. 도 26은 도 25의 단계(S3001)를 설명하기 위한 도면이다. 도 27, 도 28 및 도 29는 도 25의 단계(S3005)를 설명하기 위한 도면이다. 25 is a sequence diagram illustrating operations of an image editing device 400 and an image editing module 2003 according to some embodiments of the present disclosure. FIG. 26 is a diagram for explaining step S3001 of FIG. 25 . 27, 28 and 29 are diagrams for explaining step S3005 of FIG. 25 .
이미지 편집 장치(400)에 의해 수행되는 것으로 기술된 동작은 이미지 편집 장치(400)의 프로세서(도 14의 410)에 의해 수행(혹은, 실행)될 수 있는 인스트럭션(명령어)들로 구현될 수 있다. 상기 인스트럭션들은, 예를 들어, 컴퓨터 기록 매체 또는 도 14의 이미지 편집 장치(400)의 메모리(420)에 저장될 수 있다.An operation described as being performed by the image editing device 400 may be implemented as instructions (commands) that may be performed (or executed) by a processor (410 in FIG. 14 ) of the image editing device 400. . The instructions may be stored in, for example, a computer recording medium or the memory 420 of the image editing apparatus 400 of FIG. 14 .
도 25를 참조하면, 단계(S3001)에서, 이미지 편집 장치(400)는 제1 이미지에 대한 인페인팅 신호를 수신할 수 있다. 제1 이미지는 예를 들어, 텍스트 데이터에 대한 번역문이 적용된 이미지 데이터에서, 제1 번역문을 제외한 적어도 하나의 이미지 중 하나일 수 있다. Referring to FIG. 25 , in step S3001, the image editing apparatus 400 may receive an inpainting signal for the first image. The first image may be, for example, one of at least one image excluding the first translation in the image data to which the translation for the text data is applied.
도 26을 참조하면, 이미지 편집 장치(400)는 텍스트 데이터에 대한 번역문이 적용된 제4 이미지 데이터(550)에서, 제1 번역문(523)을 제외한 적어도 하나의 이미지를 식별할 수 있다. 적어도 하나의 이미지는, 메인 이미지(517), 배경 이미지(519) 및 제1 이미지(516)를 포함할 수 있다. 이미지 편집 장치(400)는, 적어도 하나의 이미지 중 제1 이미지(516)에 대한 인페인팅 신호를 수신할 수 있다.Referring to FIG. 26 , the image editing device 400 may identify at least one image excluding the first translation 523 from the fourth image data 550 to which the translation for text data is applied. The at least one image may include a main image 517 , a background image 519 , and a first image 516 . The image editing device 400 may receive an inpainting signal for the first image 516 of at least one image.
도 25를 참조하면, 단계(S3003)에서, 이미지 편집 장치(400)는 이미지 편집 모듈(2003)로 인페인팅 신호를 전송할 수 있다. 이미지 편집 모듈(2003)은 예를 들어, 제2 서버(도 13의 2000)에 포함된 모듈일 수 있다. 이미지 편집 모듈(2003)은 이미지 데이터의 편집 동작을 수행할 수 있다. Referring to FIG. 25 , in step S3003, the image editing device 400 may transmit an inpainting signal to the image editing module 2003. The image editing module 2003 may be, for example, a module included in the second server (2000 in FIG. 13 ). The image editing module 2003 may perform an editing operation of image data.
단계(S3005)에서, 이미지 편집 모듈(2003)은, 인페인팅 신호를 수신한 것에 기반하여, 제1 이미지를 제거하고, 제1 이미지가 제거된 영역에 제거된 제1 이미지를 둘러싼 배경 이미지를 적용한 인페인팅 이미지 데이터 생성할 수 있다. In step S3005, the image editing module 2003 removes the first image based on receiving the inpainting signal, and applies a background image surrounding the removed first image to the region from which the first image is removed. Inpainting image data can be created.
이미지 편집 모듈(2003)은 제1 이미지를 둘러싼 배경 이미지를 식별할 수 있다. 이미지 편집 모듈(2003)은 제1 이미지를 제거한 후, 제1 이미지가 제거된 영역에 식별된 제1 이미지를 둘러싼 배경 이미지를 적용함으로써 인페인팅 이미지 데이터를 생성할 수 있다.The image editing module 2003 may identify a background image surrounding the first image. The image editing module 2003 may generate inpainting image data by removing the first image and then applying a background image surrounding the identified first image to a region from which the first image is removed.
도 27을 참조하면, 이미지 편집 모듈(2003)은 인페인팅 신호에 기반하여, 제1 이미지(516)를 둘러싼 배경 이미지(518)를 식별할 수 있다. 제1 이미지(516)를 둘러싼 배경 이미지(518)는, 제1 이미지(516)를 포함하는 제4 이미지 데이터(550)의 일부 영역일 수 있다. Referring to FIG. 27 , the image editing module 2003 may identify a background image 518 surrounding the first image 516 based on the inpainting signal. The background image 518 surrounding the first image 516 may be a partial area of the fourth image data 550 including the first image 516 .
도 28 및 도 29를 참조하면, 이미지 편집 모듈(2003)은 제1 이미지(516)를 제거할 수 있다. 이미지 편집 모듈(2003)은 식별된 제1 이미지(516)를 둘러싼 배경 이미지(518)를, 제1 이미지(516)가 제거된 영역(516')에 적용하여 인페인팅 이미지 데이터(560)를 생성할 수 있다. 예를 들어, 이미지 편집 모듈(2003)은 제1 이미지(516)가 제거된 영역(516')에, 배경 이미지(518)인 구름을 삽입함으로써, 인페인팅 이미지 데이터(560)를 생성할 수 있다. Referring to FIGS. 28 and 29 , the image editing module 2003 may remove the first image 516 . The image editing module 2003 generates inpainting image data 560 by applying the background image 518 surrounding the identified first image 516 to the area 516' from which the first image 516 is removed. can do. For example, the image editing module 2003 may generate the inpainting image data 560 by inserting clouds as the background image 518 into the region 516′ from which the first image 516 is removed. .
다시 도 25를 참조하면, 단계(S3007)에서 이미지 편집 모듈(2003)은 인페인팅 이미지 데이터를 이미지 편집 장치(400)로 전송할 수 있다.Referring back to FIG. 25 , in step S3007, the image editing module 2003 may transmit inpainting image data to the image editing device 400.
단계(S3009)에서, 이미지 편집 장치(400)는 인페인팅 이미지 데이터를 식별할 수 있다. 이미지 편집 장치(400)는 인페인팅 이미지 데이터를 디스플레이(도 14의 440)를 통해 제공할 수 있다.In step S3009, the image editing device 400 may identify inpainting image data. The image editing device 400 may provide inpainting image data through a display ( 440 of FIG. 14 ).
본 발명의 실시예에 따른 이미지 편집 장치는, 번역 기능뿐만 아니라 이미지 편집 기능을 동시에 제공함으로써, 사용자의 편의성을 향상시킬 수 있다.An image editing device according to an embodiment of the present invention can improve user convenience by simultaneously providing an image editing function as well as a translation function.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely an example of the technical idea of the present embodiment, and various modifications and variations can be made to those skilled in the art without departing from the essential characteristics of the present embodiment. Therefore, the present embodiments are not intended to limit the technical idea of the present embodiment, but to explain, and the scope of the technical idea of the present embodiment is not limited by these embodiments. The scope of protection of this embodiment should be construed according to the claims below, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of rights of this embodiment.

Claims (10)

  1. 이미지 편집 장치에 있어서,In the image editing device,
    프로세서; 및processor; and
    상기 프로세서에 작동적으로(operatively) 연결된 메모리를 포함하고,a memory operatively coupled to the processor;
    상기 메모리는, 실행되었을 때 상기 프로세서로 하여금:The memory, when executed, causes the processor to:
    제1 이미지 데이터에서 텍스트 데이터를 식별하고,identify text data in the first image data;
    상기 제1 이미지 데이터의 정보에 기반하여, 상기 텍스트 데이터에 대해 적어도 하나의 번역문을 제공하는 번역 알고리즘을 실행하고,Executing a translation algorithm that provides at least one translation for the text data based on information of the first image data;
    상기 번역 알고리즘의 실행 결과에 기반하여, 외부로부터 상기 적어도 하나의 번역문 중 하나인 제1 번역문을 선택하는 번역 선택 신호를 수신하고,Based on the execution result of the translation algorithm, receiving a translation selection signal for selecting a first translation, which is one of the at least one translation, from the outside;
    상기 번역 선택 신호를 수신한 것에 기반하여, 상기 제1 이미지 데이터에 상기 제1 번역문이 적용된 제2 이미지 데이터를 식별하도록 하는 인스트럭션들(instructions)을 저장하는Based on receiving the translation selection signal, storing instructions for identifying second image data to which the first translation is applied to the first image data
    이미지 편집 장치.image editing device.
  2. 제1 항에 있어서, According to claim 1,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    외부로부터 수신되는 입력이벤트의 생성에 따라, 상기 제1 이미지 데이터를 이용하여 말풍선 인식 알고리즘을 실행하고,According to the generation of an input event received from the outside, a speech bubble recognition algorithm is executed using the first image data,
    상기 말풍선 인식 알고리즘의 실행에 기반하여, 상기 제1 이미지 데이터에 포함된 말풍선 영역을 설정하고,Based on the execution of the speech bubble recognition algorithm, setting a speech bubble area included in the first image data;
    상기 말풍선 영역 내의 상기 텍스트 데이터를 식별하도록 하는To identify the text data in the speech bubble area
    이미지 편집 장치.image editing device.
  3. 제2 항에 있어서, According to claim 2,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    상기 제1 이미지 데이터를 기초로, 딥러닝 모듈을 통해 상기 말풍선 영역을 설정하도록 하고,Based on the first image data, set the speech bubble area through a deep learning module;
    상기 딥러닝 모듈은, 생산적 적대 신경망(Generative Adversarial Network)을 이용하여 말풍선 이미지와 오류 이미지를 구분하도록 학습되고, The deep learning module is trained to distinguish a speech bubble image from an error image using a generative adversarial network;
    상기 딥러닝 모듈은 생성자 모듈과 식별자 모듈을 포함하고, 상기 생성자 모듈은 상기 오류 이미지와 연관된 페이크 데이터를 생성하도록 학습되고, 상기 식별자 모듈은 상기 말풍선 이미지와 연관된 리얼 데이터와, 상기 페이크 데이터를 구분하도록 학습되도록 하는The deep learning module includes a generator module and an identifier module, the generator module is trained to generate fake data associated with the error image, and the identifier module is configured to distinguish between real data associated with the speech bubble image and the fake data. to learn
    이미지 편집 장치.image editing device.
  4. 제1 항에 있어서, According to claim 1,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    상기 제1 이미지 데이터의 정보, 상기 텍스트 데이터 및 상기 적어도 하나의 번역문을 입력 노드로 인가 하고, 상기 제1 번역문을 출력 노드로 인가 하여, 번역 딥러닝 모듈을 통해 상기 번역 알고리즘이 학습되도록 하는Applying the information of the first image data, the text data, and the at least one translation to an input node, and applying the first translation to an output node, so that the translation algorithm is learned through a translation deep learning module
    이미지 편집 장치.image editing device.
  5. 제1 항에 있어서,According to claim 1,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    상기 제1 이미지 데이터에서 텍스트 영역을 식별하고,Identifying a text area in the first image data;
    상기 텍스트 영역에 대해 상기 텍스트 데이터를 식별하도록 하는To identify the text data for the text area.
    이미지 편집 장치.image editing device.
  6. 제1 항에 있어서, According to claim 1,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    상기 제1 이미지 데이터와 상기 제2 이미지 데이터를 동시에 보여주는 편집 화면을 제공하고,Provide an editing screen that simultaneously displays the first image data and the second image data;
    상기 제2 이미지 데이터에 대해 사용자 데이터를 입력할 수 있는 사용자 인터페이스를 제공하도록 하는To provide a user interface for inputting user data for the second image data
    이미지 편집 장치.image editing device.
  7. 제1 항에 있어서, According to claim 1,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    외부로부터 수신된 글자체 선택 신호에 기반하여 상기 제1 번역문의 글자체가 변경된 상기 제2 이미지 데이터를 식별하도록 하는Identifying the second image data in which the font of the first translation is changed based on a font selection signal received from the outside
    이미지 편집 장치.image editing device.
  8. 제1 항에 있어서, According to claim 1,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    상기 제2 이미지 데이터에서 상기 텍스트 데이터를 제외한 적어도 하나의 이미지를 식별하고,Identifying at least one image excluding the text data from the second image data;
    상기 적어도 하나의 이미지에 대한 이미지 편집을 수행하도록 하는To perform image editing on the at least one image
    이미지 편집 장치.image editing device.
  9. 제8 항에 있어서, According to claim 8,
    상기 인스트럭션들은, 상기 프로세서가,The instructions, the processor,
    외부로부터 상기 적어도 하나의 이미지 중 제1 이미지에 대한 인페인팅(inpainting) 신호를 수신하고,Receiving an inpainting signal for a first image of the at least one image from the outside;
    상기 인페인팅 신호에 기반하여, 상기 제1 이미지를 제거하고, 상기 제1 이미지가 제거된 영역에 상기 제1 이미지를 둘러싼 배경 이미지를 적용하도록 하는Based on the inpainting signal, the first image is removed, and a background image surrounding the first image is applied to a region from which the first image is removed.
    이미지 편집 장치.image editing device.
  10. 제1 항에 있어서, According to claim 1,
    상기 인스트럭션들은, 상기 프로세서가, The instructions, the processor,
    외부로부터 입력 텍스트 데이터를 수신하고,Receive input text data from the outside,
    상기 번역 알고리즘의 실행 결과에 기반하여, 상기 입력 텍스트 데이터에 상응하는 텍스트 변환 이미지를 식별하도록 하는Based on the execution result of the translation algorithm, to identify a text conversion image corresponding to the input text data
    이미지 편집 장치.image editing device.
PCT/KR2022/017172 2021-11-10 2022-11-03 Image editing device WO2023085695A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0154138 2021-11-10
KR20210154138 2021-11-10
KR10-2022-0144529 2022-11-02
KR1020220144529A KR20230068315A (en) 2021-11-10 2022-11-02 Device for image editing

Publications (1)

Publication Number Publication Date
WO2023085695A1 true WO2023085695A1 (en) 2023-05-19

Family

ID=86335993

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/017172 WO2023085695A1 (en) 2021-11-10 2022-11-03 Image editing device

Country Status (1)

Country Link
WO (1) WO2023085695A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133660A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Electronic comic viewer device, electronic comic browsing system, viewer program, recording medium recorded with viewer program, and electronic comic display method
KR20150111540A (en) * 2014-03-25 2015-10-06 콘텐츠퍼스트(주) Method and system for providing platform of webtoon translation
KR102213350B1 (en) * 2020-06-30 2021-02-05 나경모 Comics promotion platform system through multilingual translation
KR102306344B1 (en) * 2021-03-17 2021-09-28 남지원 Transformer Translation System for Deep Learning Using Triple Sentence Pair
KR102316473B1 (en) * 2014-11-26 2021-10-21 네이버웹툰 유한회사 Cartoon participation translation apparatus and method for cartoon participation translation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133660A (en) * 2010-12-22 2012-07-12 Fujifilm Corp Electronic comic viewer device, electronic comic browsing system, viewer program, recording medium recorded with viewer program, and electronic comic display method
KR20150111540A (en) * 2014-03-25 2015-10-06 콘텐츠퍼스트(주) Method and system for providing platform of webtoon translation
KR102316473B1 (en) * 2014-11-26 2021-10-21 네이버웹툰 유한회사 Cartoon participation translation apparatus and method for cartoon participation translation
KR102213350B1 (en) * 2020-06-30 2021-02-05 나경모 Comics promotion platform system through multilingual translation
KR102306344B1 (en) * 2021-03-17 2021-09-28 남지원 Transformer Translation System for Deep Learning Using Triple Sentence Pair

Similar Documents

Publication Publication Date Title
WO2020045927A1 (en) Electronic device and method for generating short cut of quick command
WO2022065811A1 (en) Multimodal translation method, apparatus, electronic device and computer-readable storage medium
WO2020130447A1 (en) Method for providing sentences on basis of persona, and electronic device supporting same
WO2015170832A1 (en) Display device and video call performing method therefor
WO2020091183A1 (en) Electronic device for sharing user-specific voice command and method for controlling same
WO2016089079A1 (en) Device and method for outputting response
WO2021054589A1 (en) Electronic apparatus and controlling method thereof
WO2014007425A1 (en) Display device including touchscreen and method for controlling the same
WO2022131521A1 (en) Input device comprising touchscreen, and operation method of same
WO2020167006A1 (en) Method of providing speech recognition service and electronic device for same
WO2022010157A1 (en) Method for providing screen in artificial intelligence virtual secretary service, and user terminal device and server for supporting same
WO2020032564A1 (en) Electronic device and method for providing one or more items in response to user speech
WO2018097439A1 (en) Electronic device for performing translation by sharing context of utterance and operation method therefor
EP4367628A1 (en) Image processing method and related device
WO2023085695A1 (en) Image editing device
WO2021167210A1 (en) Server, electronic device, and control methods therefor
WO2021075705A1 (en) Electronic device and control method therefor
WO2018128214A1 (en) Machine learning based artificial intelligence emoticon service providing method
WO2021158040A1 (en) Electronic device providing utterance corresponding to context of conversation, and method of operating same
WO2021085855A1 (en) Method and apparatus for supporting voice agent in which plurality of users participate
WO2020071858A1 (en) Electronic apparatus and assistant service providing method thereof
WO2023058812A1 (en) Method, apparatus, and computer program for switching image
WO2022065561A1 (en) Method for classifying intention of character string and computer program
WO2021095932A1 (en) Input determining method and apparatus for dialogue prediction model, and text embedding method and apparatus
WO2022265448A1 (en) Electronic apparatus for searching for application screen and method for operating same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22893116

Country of ref document: EP

Kind code of ref document: A1