WO2017217613A1 - 머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법 - Google Patents

머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법 Download PDF

Info

Publication number
WO2017217613A1
WO2017217613A1 PCT/KR2016/012890 KR2016012890W WO2017217613A1 WO 2017217613 A1 WO2017217613 A1 WO 2017217613A1 KR 2016012890 W KR2016012890 W KR 2016012890W WO 2017217613 A1 WO2017217613 A1 WO 2017217613A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
video content
user
time interval
server
Prior art date
Application number
PCT/KR2016/012890
Other languages
English (en)
French (fr)
Inventor
박문수
Original Assignee
주식회사 사이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 사이 filed Critical 주식회사 사이
Publication of WO2017217613A1 publication Critical patent/WO2017217613A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Definitions

  • the present invention relates to a method for generating and sharing captions of video content.
  • Korean Patent Publication No. 10-1419871 discloses a caption editing apparatus and a caption editing method.
  • the caption editing method displays a video preview screen, displays a video clip corresponding to the preview screen, detects a user gesture for the video clip, and enters a caption editing mode for the video clip.
  • the subtitle editing method may detect a user's gesture for inputting a subtitle, deleting a subtitle, moving a subtitle, copying a subtitle, and performing a subtitle editing operation in response to the detected gesture.
  • An object of the present invention is to provide a method for generating and sharing captions of video content.
  • a method for generating and sharing captions of video content is a computer-implemented method, including: playing back video content and real-time prediction using machine learning. Providing information about a first time interval, setting at least one second time duration according to a user's touch operation, and text corresponding to the at least one second time interval from the user ( receiving a text) and generating a caption of the video content by combining text corresponding to the at least one second time interval and the at least one second time interval, wherein the user's touch manipulation is performed.
  • the setting of at least one second time duration according to the present invention may be performed according to a touch input of the user.
  • the user's touch input time point is set as a start time of the second time interval during the play time of the previous video content, and the user of the play time of the video content according to the user's touch release.
  • the method may further include displaying an object that visualizes an audio signal of the video content adjacent to the played video content, wherein a reference corresponding to a current view is displayed on the object that visualizes the audio signal. It further includes the step of displaying.
  • the method further comprises receiving information regarding the at least one first time interval from a server, and transmitting subtitles of the video content to the server, wherein the server The machine learns at least one time interval set by an audio signal or another user of the video content by using machine learning, and predicts information about the at least one first time interval according to the learning result in real time.
  • a method of generating and sharing captions of video contents including: playing back video contents and real-time prediction using machine learning.
  • Generating a subtitle of the video content by combining text corresponding to the at least one time interval, and setting the at least one time interval according to the touch operation of the user comprises: a touch input of the user; of the user during the playback time of the video content according to the touch input).
  • a touch input time point is set as an end time of the time interval, and a start time of the time period is defined as a time point before the predetermined unit time from the touch input time point of the user among the playback time of the video content. Set to).
  • the method may further include displaying an object that visualizes an audio signal of the video content adjacent to the played video content, wherein a reference corresponding to a current view is displayed on the object that visualizes the audio signal. It further includes the step of displaying.
  • the method further comprises displaying a unit time manipulation window providing the at least one predetermined unit time adjacent to the reproduced video content, and wherein the touch manipulation of the user is performed.
  • the setting of the at least one time interval may include: using the predetermined unit time selected by the user among the at least one predetermined unit time, from the touch input time point of the user during the playback time of the video content. A time point before a predetermined unit time is set as a start time of the time interval.
  • the setting of the at least one time interval according to the touch operation of the user may include setting the at least one time interval by using a predetermined unit time selected by the user's touch input among the at least one predetermined unit time. A time point before the predetermined unit time from the user's touch input time point of the play time is set as a start time of the time interval.
  • the method further comprises receiving the at least one predetermined unit time from a server, and transmitting the subtitles of the video content to the server, wherein the server is a machine; Learning is used to learn at least one time interval set by an audio signal or another user of the video content, and predict the at least one predetermined unit time in real time according to the learning result.
  • the method further comprises receiving the at least one predetermined unit time from a server, and transmitting the subtitles of the video content to the server, wherein the server is a machine; Learning is used to learn the at least one time interval setting pattern of the user, and predicts the at least one predetermined unit time in real time according to the learning result.
  • a user can generate subtitles of video contents in real time and easily through touch operations, and can share and modify subtitles with other users in real time, and through collective intelligence, Subtitles with high reliability can be distributed.
  • FIG. 1 is a schematic block diagram illustrating a configuration of a caption generation and sharing system of video content.
  • FIG. 2 is a schematic block diagram for describing the configuration of the server of FIG. 1.
  • FIG. 3 is a schematic block diagram illustrating the configuration of the client of FIG. 1.
  • FIG. 4 is a flowchart schematically illustrating a method of generating and sharing captions of video content according to an exemplary embodiment of the present invention.
  • FIG. 5 is a flowchart schematically illustrating a method of playing video content by sharing captions of video content according to an exemplary embodiment of the present invention.
  • FIG. 6 is a flowchart schematically illustrating a method of generating a new subtitle of the video content by sharing the subtitles of the video content according to an embodiment of the present invention.
  • FIG. 7 is a schematic flowchart illustrating a subtitle generation interface according to an embodiment of the present invention.
  • FIG. 8 is a diagram schematically illustrating a time section setting screen of a caption generating interface according to an embodiment of the present invention.
  • FIG. 9 is a schematic diagram illustrating a time section setting method of a caption generating interface according to an embodiment of the present invention.
  • FIG. 10 is a schematic flowchart illustrating a subtitle generation interface according to another embodiment of the present invention.
  • FIG. 11 is a diagram schematically illustrating a time section setting screen of a caption generating interface according to another embodiment of the present invention.
  • FIG. 12 is a schematic diagram for explaining a method of setting a time interval of a caption generation interface according to another embodiment of the present invention.
  • FIG. 13 is a schematic diagram illustrating a subtitle generation interface according to another embodiment of the present invention.
  • FIGS. 14 to 15 are schematic diagrams for describing a time interval setting method of a caption generation interface according to another embodiment of the present invention.
  • 16 is a diagram schematically illustrating a time section selection screen of a subtitle generation interface according to embodiments of the present invention.
  • 17 to 18 are schematic diagrams illustrating a time section modification screen of a caption generation interface according to embodiments of the present invention.
  • 19 is a diagram schematically illustrating a text input screen of a caption generating interface according to embodiments of the present invention.
  • FIG. 20 is a diagram schematically illustrating a caption selection screen of a caption generating interface according to embodiments of the present invention.
  • FIG. 21 is a diagram schematically illustrating a time interval sharing screen of a caption generating interface according to embodiments of the present invention.
  • FIG. 22 is a diagram schematically illustrating a time section and a text sharing screen of a caption generating interface according to embodiments of the present invention.
  • spatially relative terms below “, “ beneath “, “ lower”, “ above “, “ upper” It can be used to easily describe a component's correlation with other components. Spatially relative terms are to be understood as including terms in different directions of components in use or operation in addition to the directions shown in the figures. For example, when flipping a component shown in the drawing, a component described as “below” or “beneath” of another component may be placed “above” the other component. Can be. Thus, the exemplary term “below” can encompass both an orientation of above and below. Components may be oriented in other directions as well, so spatially relative terms may be interpreted according to orientation.
  • Subtitle refers to a character displayed on the screen together with the video content when the video content is played back.
  • Captions include any text for explanation to the viewer in relation to the title, cast, place, time, dialogue, production, etc. of the video content.
  • the caption is configured to include a time duration for displaying the caption in the reproduction time of the video content and text displayed on the screen as the caption corresponding to the time period.
  • FIG. 1 is a schematic block diagram illustrating a configuration of a caption generation and sharing system of video content.
  • a subtitle generation and sharing system of video content includes a server 100 and a plurality of clients 200.
  • the server 100 and the plurality of clients 200 communicate data and / or information with each other via a network.
  • the network is provided in a wired and / or wireless network.
  • the network can have any protocol, scale, or topology.
  • the server 100 stores at least one video content and provides the at least one video content to the client 200 in response to a request of the client 200.
  • the server 100 receives and stores at least one subtitle of at least one video content from the client 200.
  • the server 100 provides the client 200 with at least one subtitle of the at least one video content in response to a request of the client 200.
  • the server 100 provides the client 200 with at least one video content, at least one video content, subtitles of the video content, or subtitles of the video content at the request of the client 200.
  • FIG. 2 is a schematic block diagram for describing the configuration of the server of FIG. 1.
  • the server 100 includes a communication unit 110, a user management unit 120, a content providing unit 130, a subtitle providing unit 140, a user database 150, a content database 160, and a subtitle database. And 170.
  • the communication unit 110 performs wired and / or wireless communication with the client 200.
  • the user manager 120 registers a user and creates a user account.
  • the user manager 120 performs addition, deletion, modification, search, and the like of user account information.
  • the content provider 130 searches for the video content requested by the client 200 from at least one video content stored in the content database 160, and provides the searched video content to the client 200 through the communication unit 110.
  • the caption provider 140 searches for captions of the video content requested by the client 200 from among at least one caption of the at least one video content stored in the caption database 170, and transmits the caption of the searched video content to the communication unit 110.
  • the user database 150 stores user information such as user accounts, user profiles, user logs, and the like.
  • the content database 160 stores at least one video content.
  • at least one video content stored in the content database 160 is divided by country or type.
  • video content such as entertainment, drama, movies, documentaries, courses, and the like may be stored in the content database 160, but is not limited thereto.
  • the caption database 170 stores captions of at least one video content.
  • subtitles stored in subtitle database 170 are classified according to the associated video content.
  • subtitle related information such as the creator of the subtitle, the date of creation, a subtitle language or a description of the subtitle, and the like are stored together in the subtitle database 170.
  • server 100 further includes components not shown in FIG. 2, or does not include some components shown in FIG. 2. May be deformed.
  • Client 200 represents a computer device used by a user.
  • the client 200 may be provided as a mobile device such as a smart phone, a tablet, a personal digital assistant (PDA), but is not limited thereto.
  • Client 200 may be provided to any non-exemplified computer device capable of communicating data and / or information over a network.
  • the client 200 receives only predetermined video content from the server 100, plays the received video content, and generates captions of the video content according to a user's manipulation.
  • the client 200 transmits the caption of the video content generated by the user to the server 100.
  • the client 200 receives a caption of the video content generated by a user different from the predetermined video content from the server 100, and plays the video content by using the caption.
  • the client 200 receives a caption of predetermined video content generated by another user from the server 100, and generates a new caption of the video content according to a user's operation based on the caption.
  • the client 200 transmits a new subtitle of the video content generated by the user to the server 100.
  • the client 200 performs a client program for generating and sharing captions of video content.
  • the client program may be provided in the form of a web browser, a desktop application, a mobile application, and the like, but is not limited thereto.
  • FIG. 3 is a schematic block diagram illustrating the configuration of the client of FIG. 1.
  • the client 200 includes a wireless communication unit 210, an A / V input unit 220, a user input unit 230, a sensing unit 240, an output unit 250, a storage unit 260, and an interface.
  • the unit 270, a controller 280, and a power supply unit 290 are included.
  • the wireless communication unit 210 communicates wirelessly with an external device such as the server 100.
  • the wireless communication unit 210 wirelessly communicates using a wireless communication scheme such as mobile communication, WiBro, Bluetooth, Wi-Fi, Zigbee, ultrasound, infrared, RF, and the like.
  • a wireless communication scheme such as mobile communication, WiBro, Bluetooth, Wi-Fi, Zigbee, ultrasound, infrared, RF, and the like.
  • the wireless communication scheme of the client 200 is not limited to the specific embodiment.
  • the wireless communication unit 210 transmits data and / or information received from the external device to the controller 280, and transmits data and / or information transmitted from the controller 280 to the external device.
  • the wireless communication unit 210 may include a mobile communication module 211 and a short-range communication module 212.
  • the wireless communication unit 210 includes the location information module 213 to obtain location information of the client 200.
  • Location information of the client 200 may be provided from, for example, a GPS positioning system, a WiFi positioning system, a cellular positioning system, or a beacon positioning system, but the present invention is not limited thereto. Location information may be provided from the positioning systems.
  • the wireless communication unit 210 transmits the location information received from the positioning system to the control unit 280.
  • the A / V input unit 220 is for inputting a video or audio signal, and may include a camera module 221 and a microphone module 222.
  • the user input unit 230 receives various information from the user.
  • the user input unit 230 includes input means such as a keypad, a button, a switch, a touch pad, and a jog wheel.
  • input means such as a keypad, a button, a switch, a touch pad, and a jog wheel.
  • a touch screen may be configured.
  • the sensing unit 240 detects the state of the client 200 or the state of the user.
  • the sensing unit 240 may include sensing means such as a touch sensor, a proximity sensor, a pressure sensor, a vibration sensor, a geomagnetic sensor, a gyro sensor, a speed sensor, an acceleration sensor, and a biometric sensor. In some embodiments, the sensing unit 240 is used for user input.
  • the output unit 250 notifies the user of various kinds of information.
  • the output unit 250 outputs information in the form of text, video or audio.
  • the output unit 250 may include a display module 251 and a speaker module 252.
  • the display module 251 is a plasma display panel (PDP), liquid crystal display (LCD), thin film transistor (TFT) LCD, organic light emitting diode (OLED), flexible display, three-dimensional display, electronic ink display, or the present invention. It may be provided in any form well known in the art.
  • the output unit 250 may further include any form of output means well known in the art.
  • the storage unit 260 stores various data and commands.
  • the storage unit 260 stores system software and various applications for the operation of the client 200.
  • the storage unit 260 may be a random access memory (RAM), a read only memory (ROM), an erasable-programmable ROM (EPROM), an electrically EPROM (EEPROM), a flash memory, a hard disk, a removable disk, or a technical field to which the present invention belongs.
  • the interface unit 270 serves as a path to an external device connected to the client 200.
  • the interface unit 270 receives data and / or information from an external device or receives power and transmits the data and / or information to components inside the client 200, or transmits data and / or information inside the client 200 to an external device. Or supply internal power.
  • the interface unit 270 may include, for example, a wired / wireless headset port, a charging port, a wired / wireless data port, a memory card port, a universal serial bus (USB) port, and an identification module. Port may be connected to a connected device, an audio input / output (I / O) port, a video input / output (I / O) port, or the like.
  • the controller 280 controls other components to control the overall operation of the client 200.
  • the controller 280 performs system software and various applications stored in the storage 260.
  • the power supply unit 290 may include a wireless communication unit 210, an A / V input unit 220, a user input unit 230, a sensing unit 240, an output unit 250, a storage unit 260, an interface unit 270, Supply power for the operation of the control unit 280.
  • the power supply unit 290 may include an internal battery.
  • the client 200 further includes components not shown in FIG. 3 or does not include some components shown in FIG. 3. May be deformed.
  • server 100 may be modified to be provided in plural as necessary.
  • a user directly generates captions of predetermined video content or shares captions of the video content generated by another user, and uses the captions to make the video content. You can watch it. Alternatively, the user may modify the subtitles of the video content generated by another user to be more complete. Within the subtitle generation and sharing system of the video content of FIG. 1, at least some subtitles generated by the user may be traded to another user for a fee.
  • FIG. 4 is a flowchart schematically illustrating a method of generating and sharing captions of video content according to an exemplary embodiment of the present invention.
  • the client 200 receives predetermined video content from the server 100.
  • step S320 the client 200 generates a caption of the video content according to a user's manipulation.
  • a method of generating subtitles of specific video content will be described in detail with reference to FIGS. 7 to 15.
  • step S330 the client 200 transmits the caption of the video content generated by the user to the server 100.
  • FIG. 5 is a flowchart schematically illustrating a method of playing video content by sharing captions of video content according to an exemplary embodiment of the present invention.
  • the client 200 receives predetermined video content from the server 100.
  • step S420 the client 200 receives at least one subtitle of the video content generated by another user from the server 100.
  • step S430 the client 200 plays the video content by using the caption selected by the user among the at least one caption received from the server 100.
  • FIG. 6 is a flowchart schematically illustrating a method of generating a new subtitle of the video content by sharing the subtitles of the video content according to an embodiment of the present invention.
  • the client 200 receives predetermined video content from the server 100.
  • step S520 the client 200 receives at least one subtitle of the video content generated by another user from the server 100.
  • the client 200 provides a subtitle selected by a user among the at least one subtitle generated by another user or a time interval of the subtitle in an editable state.
  • the client 200 generates a new caption of the video content according to the user's operation based on the caption or the time interval of the caption.
  • step S550 the client 200 transmits the caption of the video content generated by the user to the server 100.
  • FIG. 7 is a schematic flowchart illustrating a subtitle generation interface according to an embodiment of the present invention.
  • the client 200 plays predetermined video content received from the server 100.
  • the client 200 displays an audio signal object of the video content.
  • An audio signal object visualizes the audio signal of the video content.
  • a reference that corresponds to the current time is displayed on the audio signal object. The user may recognize the audio signal of the current time point through the reference and may refer to it for setting a time section to be described later.
  • the client 200 sets at least one time interval according to the user's touch input and touch release.
  • the client 200 sets the user's touch input time point as a start time of the time interval among the playing time of the video content according to a user's touch input, and releases the user's touch.
  • the touch release time point of the user is set as an end time of the time interval during the playback time of the video content.
  • step S640 the client 200 receives a text corresponding to the at least one time interval from the user.
  • the client 200 In operation S650, the client 200 generates the caption of the video content by combining the at least one time interval with the text. Each time interval has its own text mapped to it.
  • FIG. 8 is a diagram schematically illustrating a time section setting screen of a caption generating interface according to an embodiment of the present invention.
  • the video content 10 is played in the video playback window.
  • the timeline 11 of the video content 10 is displayed adjacent to the video content 10.
  • the timeline 11 represents the total playback time and the current time point of the video content 10.
  • the timeline 11 is disposed inside or outside the video playback window. In some embodiments, when the timeline 11 is placed inside the video playback window, the timeline 11 is displayed overlapped on the video content 10 being played.
  • the audio signal object 12 of the video content 10 is displayed in the audio signal window adjacent to the timeline 11. Below the audio signal object 12, a list of at least one time interval 15 of the video content 10 is displayed in the caption editing window.
  • a reference 13 corresponding to the current time is displayed on the audio signal object 12 .
  • the region 14 corresponding to the time interval 15 set by the user among the audio signals of the video content 10 on the audio signal object 12 is displayed to be distinguished from other regions.
  • the region 14 is distinguished from other regions by using a bounding box as shown in FIG. 8.
  • the area 14 is displayed differently from other areas of different sizes or brightness.
  • the display method of the region 14 is not limited thereto.
  • the user sets the time period 15 via a touch 30 to the audio signal window.
  • the user sets the time period 15 via a touch 30 to the audio signal window and the subtitle editing window. The user may set the time interval 15 through the touch 30 for an arbitrary region.
  • FIG. 9 is a schematic diagram illustrating a time section setting method of a caption generating interface according to an embodiment of the present invention.
  • the first time point is displayed.
  • the time between t1 and the second time point t2 is set as a time interval for displaying subtitles. That is, the first time point t1 is set as the start time of the time section, and the second time point t2 is set as the end time of the time section.
  • FIG. 10 is a schematic flowchart illustrating a subtitle generation interface according to another embodiment of the present invention.
  • the client 200 plays predetermined video content received from the server 100.
  • the client 200 displays an audio signal object of the video content.
  • An audio signal object visualizes the audio signal of the video content.
  • the reference corresponding to the current time point is displayed on the audio signal object.
  • step S730 the client 200 displays the unit time operation window.
  • the unit time operation window is for selecting the unit time of the user.
  • the unit time operation window provides a plurality of predetermined unit times.
  • the client 200 sets at least one time interval according to the user's touch input and unit time.
  • the client 200 sets the user's touch input time point as an end time of the time interval during the playback time of the video content according to the user's touch input, and during the playback time of the video content.
  • a time point before a predetermined unit time from the touch input time point of the user is set as a start time of the time interval.
  • step S750 the client 200 receives a text corresponding to the at least one time interval from the user.
  • the client 200 In operation S760, the client 200 generates the caption of the video content by combining the at least one time interval with the text.
  • FIG. 11 is a diagram schematically illustrating a time section setting screen of a caption generating interface according to another embodiment of the present invention.
  • the video content 10 is played in the video playback window.
  • the timeline 11 of the video content 10 is displayed adjacent to the video content 10.
  • the timeline 11 represents the total playback time and the current time point of the video content 10.
  • the audio signal object 12 of the video content 10 is displayed in the audio signal window adjacent to the timeline 11.
  • the unit time operation window 16 is displayed adjacent to the audio signal object 12.
  • the unit time operation window 16 provides a plurality of predetermined unit times.
  • the user may set a plurality of predetermined unit times provided by the unit time manipulation window 16.
  • the unit time operation window 16 may provide unit times such as 0.3 seconds, 1 second, 2 seconds, 4 seconds, AUTO, and the like, but is not limited thereto.
  • a list of at least one time interval 15 of the video content 10 is displayed in the subtitle editing window at the bottom of the unit time operation window 16.
  • a reference 13 corresponding to the current time is displayed on the audio signal object 12 .
  • the region 14 corresponding to the time interval 15 set by the user among the audio signals of the video content 10 on the audio signal object 12 is displayed to be distinguished from other regions.
  • the user selects the unit time for setting the time interval through the touch 30 on the unit time operation window 16.
  • the client 200 sets the time interval 15 using the unit time selected by the user among a plurality of predetermined unit times on the unit time operation window 16.
  • the user sets the time period 15 via a touch 30 to the audio signal window. In some embodiments, the user sets the time period 15 via a touch 30 to the audio signal window and the subtitle editing window. The user may set the time interval 15 through the touch 30 for an arbitrary region. The user selects a specific unit time by inputting the touch 30 to the unit time operation window 16 before setting the time section 15.
  • the user sets the time interval 15 via a touch 30 to the unit time manipulation window 16.
  • the touch input is not only for selecting a specific unit time but also for setting an end time of a time interval for displaying a subtitle.
  • the client 200 when the user selects AUTO, the client 200 automatically determines the unit time. In some embodiments, the client 200 automatically determines the unit time based on the audio signal of the video content 10. In some embodiments, the client 200 automatically determines the unit time based on subtitles generated by other users (at least one time interval set by another user). In some embodiments, the client 200 analyzes the unit time frequently used by the user, and automatically determines an appropriate unit time according to the analysis result.
  • FIG. 12 is a schematic diagram for explaining a method of setting a time interval of a caption generation interface according to another embodiment of the present invention.
  • the time between the first time point t1 and the second time point t2 displays a caption. It is set to a time interval to.
  • the first time point t1 is determined as a time point that is before a predetermined unit time from the second time point t2.
  • the second time point t2 is set as the end time of the time period, and then the first time point t1 is set as the start time of the time period. 12 illustrates a case where 4 seconds is selected as a unit time, for example.
  • FIG. 13 is a schematic diagram illustrating a subtitle generation interface according to another embodiment of the present invention.
  • the subtitle providing unit 140 of the server 100 includes a machine learning module 141.
  • the machine learning module 141 learns the audio signal of the video content.
  • machine learning module 141 learns subtitles (at least one time interval set by another user) generated by another user.
  • the machine learning module 141 may learn a plurality of subtitles related to one video content or learn a plurality of subtitles having different target video contents.
  • Reference numeral 161 denotes predetermined video content
  • reference numeral 171 denotes a plurality of subtitles related to the video content.
  • the machine learning module 141 learns at least one time interval setting pattern of the user. According to the learning result, the machine learning module 141 predicts in real time an optimal time interval for displaying captions of predetermined video content. Similarly, the machine learning module 141 may predict in real time an optimal unit time for setting the start time of the time interval.
  • FIGS. 14 to 15 are schematic diagrams for describing a time interval setting method of a caption generation interface according to another embodiment of the present invention.
  • the client 200 receives information on the optimal time interval predicted by using machine learning from the server 100 and provides the information to the user for reference in the process of setting the time interval.
  • an area 17 corresponding to an optimal time interval predicted using machine learning is displayed on the audio signal object 12 before a user's touch input for setting the time interval is displayed. do.
  • the user may set a start time and an end time of a time interval for displaying a subtitle with reference to the area 17. Naturally, the user may set the time interval differently from the optimal time interval predicted using machine learning.
  • the client 200 receives information about the optimal unit time predicted by using machine learning from the server 100 and provides the information to the user for reference in the process of setting the time interval. .
  • an optimal unit time is provided in the unit time operation window 18.
  • the unit time manipulation window 18 provides one or a plurality of optimal unit times.
  • the unit time manipulation window 18 simultaneously provides the unit time set by the user and the optimal unit time predicted using machine learning. The user may select the optimal unit time with reference to the unit time operation window 18. Naturally, without using the optimal unit time, the user may select the unit time set by the user.
  • an area 17 corresponding to the optimal time interval predicted by using machine learning may be displayed on the audio signal object 12.
  • 16 is a diagram schematically illustrating a time section selection screen of a subtitle generation interface according to embodiments of the present invention.
  • any one time interval 15 of the list of at least one time interval 15 of the video content 10 is selected by the user, the time of the video content 10 in the video playback window.
  • the image corresponding to the start time of the section 15 is displayed.
  • an area 14 corresponding to the time interval 15 of the audio signal of the video content 10 is displayed on the audio signal object 12.
  • 17 to 18 are schematic diagrams illustrating a time section modification screen of a caption generation interface according to embodiments of the present invention.
  • the user adjusts the start time or end time of the time interval 15 by touching the area 14 corresponding to the time interval 15 on the audio signal object 12.
  • the user may adjust a start time or end time of the time interval 15 by inputting a predetermined gesture (eg, drag) after a touch input to the area 14, but is not limited thereto. .
  • a predetermined gesture eg, drag
  • the time adjustment object 19 is displayed in the audio signal window adjacent to the audio signal object 12.
  • the time adjustment object 19 may be disposed adjacent to the left and right of the audio signal object 12, but is not limited thereto.
  • the user may adjust the start time or the end time of the time interval 15 through a touch on the time adjustment object 19.
  • 19 is a diagram schematically illustrating a text input screen of a caption generating interface according to embodiments of the present invention.
  • a user's primary touch 30 is provided for any one time interval 15 of a list of at least one time interval 15 of the video content 10.
  • a video corresponding to the start time of the time section 15 of the video content 10 is displayed in the video playback window, and the user's second touch 30 is provided for the time section 15, the user
  • the text 20 corresponding to the time interval 15 may be input.
  • the text input window is overlapped and disposed on the video playback window.
  • a text input window is disposed adjacent to the time interval 15.
  • FIG. 20 is a diagram schematically illustrating a caption selection screen of a caption generating interface according to embodiments of the present invention.
  • the menu window 21 is displayed adjacent to the video playing window.
  • the menu window 21 may provide a plurality of menus for selecting subtitles, generating subtitles, and the like, but is not limited thereto.
  • the caption selection is selected, a list of at least one caption 22 of the video content 10 is displayed in the caption selection window at the bottom of the menu window 21.
  • subtitle related information such as the creator, date of creation, subtitle language or description of the subtitle, etc., of each subtitle 22 is displayed together within the subtitle selection window.
  • the selected subtitles are overlapped and displayed on the video playback window.
  • FIG. 21 is a diagram schematically illustrating a time interval sharing screen of a caption generating interface according to embodiments of the present invention.
  • the user selects editing of any one of the subtitles 22 from the list of at least one subtitles 22 of the given video content 10.
  • the caption generation screen described with reference to FIG. 8 is displayed, and the caption 22 selected by the user is provided in an editable state.
  • the user may share only at least one time interval 15 of the subtitle 22.
  • an area 14 corresponding to at least one time interval 15 set by another user is displayed, and set by another user in the subtitle editing window at the bottom of the audio signal object 12.
  • a list of at least one time period 15 is displayed.
  • the user may adjust the start time or end time of the time interval 15 set by another user.
  • the user may delete the time interval 15 set by another user.
  • the user may additionally set a time period 15 not set by another user.
  • FIG. 22 is a diagram schematically illustrating a time section and a text sharing screen of a caption generating interface according to embodiments of the present invention.
  • the user selects editing of any one of the subtitles 22 from the list of at least one subtitles 22 of the given video content 10.
  • the caption generation screen described with reference to FIG. 8 is displayed, and the caption 22 selected by the user is provided in an editable state.
  • the user may share both the at least one time interval 15 of the subtitle 22 and the corresponding text 23.
  • a list of at least one time interval 15 and corresponding text 23 set by another user in the subtitle editing window is displayed.
  • the user may adjust the start time or end time of the time interval 15 set by another user.
  • the user may delete the time interval 15 set by another user.
  • the user may additionally set a time period 15 not set by another user.
  • the user can modify the text 23 input by another user.
  • the steps of a method or algorithm described in connection with an embodiment of the invention may be implemented directly in a hardware module, in a software module executed by hardware, or by a combination thereof.
  • Software modules may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art.

Abstract

머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법이 제공된다. 상기 방법은, 컴퓨터에 의해 실현되는 방법으로서, 동영상 컨텐츠를 재생하는 단계, 머신러닝을 이용하여 실시간 예측된 적어도 하나의 제1 시간 구간에 관한 정보를 제공하는 단계, 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간을 설정하는 단계, 상기 사용자로부터 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 수신하는 단계, 및 상기 적어도 하나의 제2 시간 구간과 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함한다.

Description

머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법
본 발명은 동영상 컨텐츠의 자막 생성 및 공유 방법에 관한 것이다.
대한민국 등록특허공보 제10-1419871호에는 자막 편집 장치 및 자막 편집방법이 제시되어 있다. 상기 자막 편집 방법은 동영상 미리보기 화면을 표시하고, 상기 미리보기 화면에 대응하는 동영상 클립을 표시하고, 상기 동영상 클립에 대한 사용자 제스처를 감지하여 상기 동영상 클립에 대한 자막 편집 모드로 진입한다. 상기 자막 편집 방법은, 상기 자막 편집 모드에서, 사용자의 자막 입력, 자막 삭제, 자막 이동, 자막 복사 등을 위한 제스처를 감지하고, 감지된 제스처에 대응하여 자막 편집 동작을 수행한다.
본 발명이 해결하고자 하는 과제는 동영상 컨텐츠의 자막 생성 및 공유 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 동영상 컨텐츠의 자막 생성 및 공유 방법은, 컴퓨터에 의해 실현되는 방법으로서, 동영상 컨텐츠를 재생하는 단계, 머신러닝을 이용하여 실시간 예측된 적어도 하나의 제1 시간 구간에 관한 정보를 제공하는 단계, 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계, 상기 사용자로부터 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트(text)를 수신하는 단계, 및 상기 적어도 하나의 제2 시간 구간과 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되, 상기 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계는, 상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 제2 시간 구간의 시작 시간(start time)으로 설정하고, 상기 사용자의 터치 해제(touch release)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 해제 시점을 상기 제2 시간 구간의 종료 시간(end time)으로 설정한다.
본 발명의 일부 실시예에서, 상기 방법은, 상기 재생되는 동영상 컨텐츠에 인접하여 상기 동영상 컨텐츠의 오디오 신호를 시각화한 객체를 표시하되, 상기 오디오 신호를 시각화한 객체 상에 현재 시점에 상응하는 기준자를 표시하는 단계를 더 포함한다.
본 발명의 일부 실시예에서, 상기 방법은, 서버로부터 상기 적어도 하나의 제1 시간 구간에 관한 정보를 수신하는 단계, 및 상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고, 상기 서버는, 머신러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 제1 시간 구간에 관한 정보를 실시간 예측한다.
상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 동영상 컨텐츠의 자막 생성 및 공유 방법은, 컴퓨터에 의해 실현되는 방법으로서, 동영상 컨텐츠를 재생하는 단계, 머신러닝을 이용하여 실시간 예측된 적어도 하나의 미리 정해진 단위 시간을 제공하는 단계, 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계, 상기 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신하는 단계 및 상기 적어도 하나의 시간 구간과 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되, 상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는, 상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 종료 시간(end time)으로 설정하고, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간(start time)으로 설정한다.
본 발명의 일부 실시예에서, 상기 방법은, 상기 재생되는 동영상 컨텐츠에 인접하여 상기 동영상 컨텐츠의 오디오 신호를 시각화한 객체를 표시하되, 상기 오디오 신호를 시각화한 객체 상에 현재 시점에 상응하는 기준자를 표시하는 단계를 더 포함한다.
본 발명의 일부 실시예에서, 상기 방법은, 상기 재생되는 동영상 컨텐츠에 인접하여 상기 적어도 하나의 미리 정해진 단위 시간을 제공하는 단위 시간 조작 창을 표시하는 단계를 더 포함하고, 상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는, 상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정한다.
또한, 상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는, 상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자의 상기 터치 입력에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정한다.
본 발명의 일부 실시예에서, 상기 방법은, 서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계, 및 상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고, 상기 서버는, 머신 러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측한다.
본 발명의 일부 실시예에서, 상기 방법은, 서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계, 및 상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고, 상기 서버는, 머신러닝을 이용하여 상기 사용자의 상기 적어도 하나의 시간 구간 설정 패턴을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측한다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명에 의하면, 모바일 환경 하에서도, 터치 조작을 통해서, 사용자가 동영상 컨텐츠의 자막을 실시간으로 그리고 쉽게 생성할 수 있고, 다른 사용자와 자막을 실시간으로 공유하고 수정할 수 있으며, 집단지성을 통해서 완성도 및 신뢰도가 높은 자막이 배포될 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 동영상 컨텐츠의 자막 생성 및 공유 시스템의 구성을 설명하기 위한 개략적인 블록도이다.
도 2는 도 1의 서버의 구성을 설명하기 위한 개략적인 블록도이다.
도 3은 도 1의 클라이언트의 구성을 설명하기 위한 개략적인 블록도이다.
도 4는 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 생성하여 공유하는 방법을 개략적으로 도시한 흐름도이다.
도 5는 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 공유하여 동영상 컨텐츠를 재생하는 방법을 개략적으로 도시한 흐름도이다.
도 6은 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 공유하여 동영상 컨텐츠의 새로운 자막을 생성하는 방법을 개략적으로 도시한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 화면을 개략적으로 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.
도 10은 본 발명의 다른 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 흐름도이다.
도 11은 본 발명의 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 화면를 개략적으로 도시한 도면이다.
도 12는 본 발명의 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.
도 13은 본 발명의 또 다른 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 도면이다.
도 14 내지 15는 본 발명의 또 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.
도 16은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 선택 화면를 개략적으로 도시한 도면이다.
도 17 내지 도 18은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 수정 화면를 개략적으로 도시한 도면이다.
도 19는 본 발명의 실시예들에 따른 자막 생성 인터페이스의 텍스트 입력 화면를 개략적으로 도시한 도면이다.
도 20은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 자막 선택 화면를 개략적으로 도시한 도면이다.
도 21은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 공유 화면를 개략적으로 도시한 도면이다.
도 22는 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 및 텍스트 공유 화면를 개략적으로 도시한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
“자막”은 동영상 컨텐츠의 재생시 상기 동영상 컨텐츠와 함께 화면에 표시되는 문자를 나타낸다. 자막은 동영상 컨텐츠의 제목, 배역, 장소, 시간, 대사, 제작 등과 관련하여 시청자에게 설명을 위한 임의의 문자를 포함한다. 자막은 동영상 컨텐츠의 재생 시간 중 자막을 표시하기 위한 시간 구간(time duration)과 상기 시간 구간에 상응하여 자막으로서 화면에 표시되는 텍스트(text)를 포함하여 구성된다.
도 1은 동영상 컨텐츠의 자막 생성 및 공유 시스템의 구성을 설명하기 위한 개략적인 블록도이다.
도 1을 참조하면, 동영상 컨텐츠의 자막 생성 및 공유 시스템은 서버(100)와 복수의 클라이언트(200)를 포함한다.
서버(100)와 복수의 클라이언트(200)는 네트워크를 통해서 서로 데이터 및/또는 정보를 통신한다. 네트워크는 유선 및/또는 무선 네트워크로 제공된다. 네트워크는 임의의 프로토콜, 규모, 토폴로지를 가질 수 있다.
서버(100)는 적어도 하나의 동영상 컨텐츠를 저장하고, 클라이언트(200)의 요청에 응답하여 클라이언트(200)에게 적어도 하나의 동영상 컨텐츠를 제공한다. 서버(100)는 클라이언트(200)로부터 적어도 하나의 동영상 컨텐츠의 적어도 하나의 자막을 수신하여 저장한다. 서버(100)는 클라이언트(200)의 요청에 응답하여 클라이언트(200)에게 적어도 하나의 동영상 컨텐츠의 적어도 하나의 자막을 제공한다. 서버(100)는 클라이언트(200)의 요청에 따라 적어도 하나의 동영상 컨텐츠를, 적어도 하나의 동영상 컨텐츠와 상기 동영상 컨텐츠의 자막을, 또는 상기 동영상 컨텐츠의 자막을 클라이언트(200)에게 제공한다.
도 2는 도 1의 서버의 구성을 설명하기 위한 개략적인 블록도이다.
도 2를 참조하면, 서버(100)는 통신부(110), 사용자 관리부(120), 컨텐츠 제공부(130), 자막 제공부(140), 사용자 데이터베이스(150), 컨텐츠 데이터베이스(160), 자막 데이터베이스(170)를 포함한다.
통신부(110)는 클라이언트(200)와 유선 및/또는 무선 통신한다. 사용자 관리부(120)는 사용자를 등록하고 사용자 계정을 생성한다. 사용자 관리부(120)는 사용자 계정의 정보의 추가, 삭제, 수정, 검색 등을 수행한다. 컨텐츠 제공부(130)는 컨텐츠 데이터베이스(160)에 저장된 적어도 하나의 동영상 컨텐츠 중에서 클라이언트(200)가 요청한 동영상 컨텐츠를 검색하고, 검색된 동영상 컨텐츠를 통신부(110)를 통해서 클라이언트(200)에게 제공한다. 자막 제공부(140)는 자막 데이터베이스(170)에 저장된 적어도 하나의 동영상 컨텐츠의 적어도 하나의 자막 중에서 클라이언트(200)가 요청한 동영상 컨텐츠의 자막을 검색하고, 검색된 동영상 컨텐츠의 자막을 통신부(110)를 통해서 클라이언트(200)에게 제공한다. 사용자 데이터베이스(150)는 사용자 계정, 사용자 프로파일, 사용자 로그 등과 같은 사용자 정보를 저장한다. 컨텐츠 데이터베이스(160)는 적어도 하나의 동영상 컨텐츠를 저장한다. 일부 실시예에서, 컨텐츠 데이터베이스(160)에 저장된 적어도 하나의 동영상 컨텐츠는 국가별로 또는 유형별로 구분된다. 예를 들어, 예능, 드라마, 영화, 다큐멘터리, 강좌 등과 같은 동영상 컨텐츠가 컨텐츠 데이터베이스(160) 내에 저장될 수 있으나, 이에 한정되는 것은 아니다. 자막 데이터베이스(170)는 적어도 하나의 동영상 컨텐츠의 자막을 저장한다. 일부 실시예에서, 자막 데이터베이스(170)에 저장된 자막들은 관계된 동영상 컨텐츠에 따라 구분된다. 일부 실시예에서, 자막의 생성자, 생성 일자, 자막 언어 또는 자막에 관한 설명 등과 같은 자막 관련 정보가 자막 데이터베이스(170) 내에 함께 저장된다.
한편, 도 2에 도시된 구성요소들이 필수적인 것은 아니어서, 일부 실시예에서, 서버(100)는 도 2에 도시되지 않은 구성요소를 더 포함하거나, 또는 도 2에 도시된 일부 구성요소를 포함하지 않도록 변형될 수 있다.
클라이언트(200)는 사용자에 의해 사용되는 컴퓨터 장치를 나타낸다. 예를 들어, 클라이언트(200)는 스마트폰, 태블릿, PDA(Personal Digital Assist) 등과 같은 모바일 장치로 제공될 수 있으나, 이에 한정되는 것은 아니다. 클라이언트(200)는 네트워크를 통해서 데이터 및/또는 정보의 통신이 가능한 예시되지 않은 임의의 컴퓨터 장치로 제공될 수 있다.
클라이언트(200)는 서버(100)로부터 소정의 동영상 컨텐츠만을 수신하고, 수신한 소정의 동영상 컨텐츠를 재생하고, 사용자의 조작에 따라 상기 동영상 컨텐츠의 자막을 생성한다. 클라이언트(200)는 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 전송한다. 클라이언트(200)는 서버(100)로부터 소정의 동영상 컨텐츠와 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 수신하고, 상기 자막을 이용하여 상기 동영상 컨텐츠를 재생한다. 클라이언트(200)는 서버(100)로부터 다른 사용자에 의해 생성된 소정의 동영상 컨텐츠의 자막을 수신하고, 상기 자막을 기초로 하여 사용자의 조작에 따라 상기 동영상 컨텐츠의 새로운 자막을 생성한다. 클라이언트(200)는 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 새로운 자막을 전송한다. 클라이언트(200)는 동영상 컨텐츠의 자막 생성 및 공유를 위한 클라이언트 프로그램을 수행한다. 예를 들어, 클라이언트 프로그램은 웹 브라우저, 데스크톱 애플리케이션, 모바일 애플리케이션 등의 형태로 제공될 수 있으나, 이에 한정되는 것은 아니다.
도 3은 도 1의 클라이언트의 구성을 설명하기 위한 개략적인 블록도이다.
도 3을 참조하면, 클라이언트(200)는 무선 통신부(210), A/V 입력부(220), 사용자 입력부(230), 센싱부(240), 출력부(250), 저장부(260), 인터페이스부(270), 제어부(280), 전원 공급부(290)를 포함한다.
무선 통신부(210)는 서버(100)와 같은 외부 디바이스와 무선 통신한다. 무선 통신부(210)는 예를 들어 이동 통신, 와이브로, 블루투스(Bluetooth), 와이파이(WiFi), 지그비(Zigbee), 초음파, 적외선, RF(Radio Frequency) 등과 같은 무선 통신 방식을 이용하여 무선 통신한다. 그러나, 클라이언트(200)의 무선 통신 방식이 특정한 실시예에 제한되는 것은 아니다. 무선 통신부(210)는 외부 디바이스로부터 수신한 데이터 및/또는 정보를 제어부(280)에 전달하고, 제어부(280)로부터 전달된 데이터 및/또는 정보를 외부 디바이스에 전송한다. 이를 위하여, 무선 통신부(210)는 이동 통신 모듈(211) 및 근거리 통신 모듈(212)을 포함할 수 있다.
또한, 무선 통신부(210)는 위치 정보 모듈(213)을 포함하여 클라이언트(200)의 위치 정보를 획득한다. 클라이언트(200)의 위치 정보는 예를 들어 GPS 측위 시스템, WiFi 측위 시스템, 셀룰러(Cellular) 측위 시스템 또는 비콘(beacon) 측위 시스템들로부터 제공될 수 있으나, 본 발명이 이에 제한되는 것은 아니고, 임의의 측위 시스템들로부터 위치 정보가 제공될 수 있다. 무선 통신부(210)는 측위 시스템으로부터 수신한 위치 정보를 제어부(280)에 전달한다.
A/V 입력부(220)는 영상 또는 음성 신호 입력을 위한 것으로, 카메라 모듈(221)과 마이크 모듈(222)을 포함할 수 있다.
사용자 입력부(230)는 사용자로부터 각종 정보를 입력받는다. 사용자 입력부(230)는 키패드, 버튼, 스위치, 터치 패드, 조그 휠 등의 입력 수단을 포함한다. 터치 패드가 후술하는 디스플레이 모듈(251)과 상호 레이어 구조를 이루는 경우, 터치스크린을 구성할 수 있다.
센싱부(240)는 클라이언트(200)의 상태 또는 사용자의 상태를 감지한다. 센싱부(240)는 터치 센서, 근접 센서, 압력 센서, 진동 센서, 지자기 센서, 자이로 센서, 속도 센서, 가속도 센서, 생체 인식 센서 등의 감지 수단을 포함할 수 있다. 일부 실시예에서 센싱부(240)는 사용자 입력을 위하여 이용된다.
출력부(250)는 사용자에게 각종 정보를 통보한다. 출력부(250)는 텍스트, 영상 또는 음성의 형태로 정보를 출력한다. 이를 위하여, 출력부(250)는 디스플레이 모듈(251) 및 스피커 모듈(252)을 포함할 수 있다. 디스플레이 모듈(251)은 PDP(Plasma Display Panel), LCD(Liquid Crystal Display), TFT(Thin Film Transistor) LCD, OLED(Organic Light Emitting Diode), 플렉시블 디스플레이, 3차원 디스플레이, 전자잉크 디스플레이, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태로 제공될 수 있다. 출력부(250)는 본 발명이 속하는 기술분야에서 잘 알려진 임의의 형태의 출력 수단을 더 포함하여 구성될 수 있다.
저장부(260)는 각종 데이터 및 명령을 저장한다. 저장부(260)는 클라이언트(200)의 동작을 위한 시스템 소프트웨어와 각종 애플리케이션을 저장한다. 저장부(260)는 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable-Programmable ROM), EEPROM(Electrically EPROM), 플래시 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함할 수 있다.
인터페이스부(270)는 클라이언트(200)에 접속되는 외부 디바이스와의 통로 역할을 수행한다. 인터페이스부(270)는 외부 디바이스로부터 데이터 및/또는 정보를 수신하거나 전원을 공급받아 클라이언트(200) 내부의 구성요소들에 전달하거나, 외부 디바이스에 클라이언트(200) 내부의 데이터 및/또는 정보를 전송하거나 내부의 전원을 공급한다. 인터페이스부(270)는 예를 들어, 유/무선 헤드셋 포트, 충전용 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 범용 직렬 버스(Universal Serial Bus; USB) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트 등을 포함할 수 있다.
제어부(280)는 다른 구성요소들을 제어하여 클라이언트(200)의 전반적인 동작을 제어한다. 제어부(280)는 저장부(260)에 저장된 시스템 소프트웨어와 각종 애플리케이션을 수행한다.
전원 공급부(290)는 무선 통신부(210), A/V 입력부(220), 사용자 입력부(230), 센싱부(240), 출력부(250), 저장부(260), 인터페이스부(270), 제어부(280)의 동작에 필요한 전원을 공급한다. 전원 공급부(290)는 내장 배터리를 포함할 수 있다.
한편, 도 3에 도시된 구성요소들이 필수적인 것은 아니어서, 일부 실시예에서, 클라이언트(200)는 도 3에 도시되지 않은 구성요소를 더 포함하거나, 또는 도 3에 도시된 일부 구성요소를 포함하지 않도록 변형될 수 있다.
한편, 도 1에서는 하나의 서버(100)만이 도시되어 있으나, 일부 실시예에서, 서버(100)는 필요에 따라 복수 개가 제공되도록 변형될 수 있다.
도 1의 동영상 컨텐츠의 자막 생성 및 공유 시스템에 따르면, 사용자는 소정의 동영상 컨텐츠의 자막을 직접 생성하거나, 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 공유하고, 상기 자막을 이용하여 상기 동영상 컨텐츠를 시청할 수 있다. 또는, 사용자는 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 보다 완성도 높게 수정할 수 있다. 도 1의 동영상 컨텐츠의 자막 생성 및 공유 시스템 내에서, 사용자에 의해 생성된 적어도 일부의 자막은 다른 사용자에게 유료로 거래될 수 있다.
도 4는 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 생성하여 공유하는 방법을 개략적으로 도시한 흐름도이다.
도 4를 참조하면, 단계 S310에서, 클라이언트(200)가 서버(100)로부터 소정의 동영상 컨텐츠를 수신한다.
이어서, 단계 S320에서, 클라이언트(200)가 사용자의 조작에 따라 상기 동영상 컨텐츠의 자막을 생성한다. 구체적인 동영상 컨텐츠의 자막 생성 방법은 이하에서 도 7 내지 도 15를 참조하여 상세하게 설명한다.
이어서, 단계 S330에서, 클라이언트(200)가 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 자막을 전송한다.
도 5는 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 공유하여 동영상 컨텐츠를 재생하는 방법을 개략적으로 도시한 흐름도이다.
도 5를 참조하면, 단계 S410에서, 클라이언트(200)가 서버(100)로부터 소정의 동영상 컨텐츠를 수신한다.
이어서, 단계 S420에서, 클라이언트(200)가 서버(100)로부터 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 적어도 하나의 자막을 수신한다.
이어서, 단계 S430에서, 클라이언트(200)가 서버(100)로부터 수신한 상기 적어도 하나의 자막 중 사용자에 의해 선택된 자막을 이용하여 상기 동영상 컨텐츠를 재생한다.
도 6은 본 발명의 실시예에 따른 동영상 컨텐츠의 자막을 공유하여 동영상 컨텐츠의 새로운 자막을 생성하는 방법을 개략적으로 도시한 흐름도이다.
도 6을 참조하면, 단계 S510에서, 클라이언트(200)가 서버(100)로부터 소정의 동영상 컨텐츠를 수신한다.
이어서, 단계 S520에서, 클라이언트(200)가 서버(100)로부터 다른 사용자에 의해 생성된 상기 동영상 컨텐츠의 적어도 하나의 자막을 수신한다.
이어서, 단계 S530에서, 클라이언트(200)가 다른 사용자에 의해 생성된 상기 적어도 하나의 자막 중 사용자에 의해 선택된 자막을 또는 상기 자막의 시간 구간을 편집 가능한 상태로 제공한다.
이어서, 단계 S540에서, 클라이언트(200)가 상기 자막을 또는 상기 자막의 시간 구간을 기초로 하여 사용자의 조작에 따라 상기 동영상 컨텐츠의 새로운 자막을 생성한다.
이어서, 단계 S550에서, 클라이언트(200)가 서버(100)에게 사용자에 의해 생성된 상기 동영상 컨텐츠의 상기 자막을 전송한다.
도 7은 본 발명의 일 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 흐름도이다.
도 7을 참조하면, 단계 S610에서, 클라이언트(200)가 서버(100)로부터 수신한 소정의 동영상 컨텐츠를 재생한다.
이어서, 단계 S620에서, 클라이언트(200)가 상기 동영상 컨텐츠의 오디오 신호 객체를 표시한다. 오디오 신호 객체는 상기 동영상 컨텐츠의 오디오 신호를 시각화한다. 일부 실시예에서, 오디오 신호 객체 상에는 현재 시점에 상응하는 기준자(referencer)가 표시된다. 사용자는 기준자를 통해서 현재 시점의 오디오 신호를 인식하고, 후술하는 시간 구간의 설정을 위하여 참고할 수 있다.
이어서, 단계 S630에서, 클라이언트(200)가 사용자의 터치 입력과 터치 해제에 따라 적어도 하나의 시간 구간을 설정한다. 클라이언트(200)는 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 시작 시간(start time)으로 설정하고, 사용자의 터치 해제(touch release)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 해제 시점을 상기 시간 구간의 종료 시간(end time)으로 설정한다.
이어서, 단계 S640에서, 클라이언트(200)가 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신한다.
이어서, 단계 S650에서, 클라이언트(200)가 상기 적어도 하나의 시간 구간과 상기 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성한다. 각각의 시간 구간은 그에 매핑된 각각의 텍스트를 갖는다.
도 8은 본 발명의 일 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 화면을 개략적으로 도시한 도면이다.
도 8을 참조하면, 동영상 재생 창 내에서 동영상 컨텐츠(10)가 재생된다. 동영상 컨텐츠(10)에 인접하여 동영상 컨텐츠(10)의 타임라인(11)이 표시된다. 타임라인(11)은 동영상 컨텐츠(10)의 전체 재생 시간과 현재 시점을 나타낸다. 타임라인(11)은 동영상 재생 창 내부에 또는 외부에 배치된다. 일부 시시예에서, 타임라인(11)이 동영상 재생 창 내부에 배치되는 경우, 타임라인(11)은 재생되는 동영상 컨텐츠(10) 상에 오버랩되어 표시된다. 타임라인(11)에 인접하여 오디오 신호 창 내에서 동영상 컨텐츠(10)의 오디오 신호 객체(12)가 표시된다. 오디오 신호 객체(12)의 하부에 자막 편집 창 내에서 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록이 표시된다.
오디오 신호 객체(12) 상에는 현재 시점에 상응하는 기준자(13)가 표시된다. 오디오 신호 객체(12) 상에 동영상 컨텐츠(10)의 오디오 신호 중 사용자에 의해 설정된 시간 구간(15)에 상응하는 영역(14)이 다른 영역과 구별되도록 표시된다. 일부 실시예에서, 도 8에 도시된 바와 같이 경계 박스를 이용하여 상기 영역(14)이 다른 영역과 구별되어 표시된다. 일부 실시예에서, 상기 영역(14)은 크기 또는 밝기 등이 다른 영역과 다르게 표시된다. 그러나, 상기 영역(14)의 표시 방법이 이에 한정되는 것은 아니다. 일부 실시예에서, 사용자는 오디오 신호 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 일부 실시예에서, 사용자는 오디오 신호 창 및 자막 편집 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 사용자는 임의의 영역에 대한 터치(30)를 통해서 시간 구간(15)을 설정할 수 있다.
도 9는 본 발명의 일 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.
도 9를 참조하면, 동영상 컨텐츠의 재생 시간 중 제1 시점(t1)에서 사용자의 터치 입력(30)이 제공되고 제2 시점(t2)에서 사용자의 터치 해제(30)가 제공되면, 제1 시점(t1)과 제2 시점(t2) 사이의 시간이 자막을 표시하기 위한 시간 구간으로 설정된다. 즉, 제1 시점(t1)이 시간 구간의 시작 시간으로 설정되고, 제2 시점(t2)이 시간 구간의 종료 시간으로 설정된다.
도 10은 본 발명의 다른 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 흐름도이다.
도 10을 참조하면, 단계 S710에서, 클라이언트(200)가 서버(100)로부터 수신한 소정의 동영상 컨텐츠를 재생한다.
이어서, 단계 S720에서, 클라이언트(200)가 상기 동영상 컨텐츠의 오디오 신호 객체를 표시한다. 오디오 신호 객체는 상기 동영상 컨텐츠의 오디오 신호를 시각화한다. 일부 실시예에서, 오디오 신호 객체 상에는 현재 시점에 상응하는 기준자가 표시된다.
이어서, 단계 S730에서, 클라이언트(200)가 단위 시간 조작창을 표시한다. 단위 시간 조작창은 사용자의 단위 시간을 선택을 위한 것이다. 단위 시간 조작창은 복수의 미리 정해진 단위 시간을 제공한다.
이어서, 단계 S740에서, 클라이언트(200)가 사용자의 터치 입력과 단위 시간에 따라 적어도 하나의 시간 구간을 설정한다. 클라이언트(200)는 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 종료 시간(end time)으로 설정하고, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간(start time)으로 설정한다.
이어서, 단계 S750에서, 클라이언트(200)가 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신한다.
이어서, 단계 S760에서, 클라이언트(200)가 상기 적어도 하나의 시간 구간과 상기 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성한다.
도 11은 본 발명의 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 화면를 개략적으로 도시한 도면이다.
도 11을 참조하면, 동영상 재생 창 내에서 동영상 컨텐츠(10)가 재생된다. 동영상 컨텐츠(10)에 인접하여 동영상 컨텐츠(10)의 타임라인(11)이 표시된다. 타임라인(11)은 동영상 컨텐츠(10)의 전체 재생 시간과 현재 시점을 나타낸다. 타임라인(11)에 인접하여 오디오 신호 창 내에서 동영상 컨텐츠(10)의 오디오 신호 객체(12)가 표시된다. 오디오 신호 객체(12)에 인접하여 단위 시간 조작창(16)이 표시된다. 단위 시간 조작창(16)은 복수의 미리 정해진 단위 시간을 제공한다. 일부 실시예에서, 사용자는 단위 시간 조작창(16)이 제공하는 복수의 미리 정해진 단위 시간을 설정할 수 있다. 도 11에 도시된 바와 같이, 예를 들어, 단위 시간 조작창(16)은 0.3초, 1초, 2초, 4초, AUTO 등과 같은 단위 시간을 제공할 수 있으나, 이에 한정되는 것은 아니다. 단위 시간 조작창(16)의 하부에 자막 편집 창 내에서 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록이 표시된다.
오디오 신호 객체(12) 상에는 현재 시점에 상응하는 기준자(13)가 표시된다. 오디오 신호 객체(12) 상에 동영상 컨텐츠(10)의 오디오 신호 중 사용자에 의해 설정된 시간 구간(15)에 상응하는 영역(14)이 다른 영역과 구별되도록 표시된다.
사용자는 단위 시간 조작창(16)에 대한 터치(30)를 통해서 시간 구간 설정을 위한 단위 시간을 선택한다. 클라이언트(200)는 단위 시간 조작창(16) 상의 복수의 미리 정해진 단위 시간 중 사용자에 의해 선택된 단위 시간을 이용하여 시간 구간(15)을 설정한다.
일부 실시예에서, 사용자는 오디오 신호 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 일부 실시예에서, 사용자는 오디오 신호 창 및 자막 편집 창에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 사용자는 임의의 영역에 대한 터치(30)를 통해서 시간 구간(15)을 설정할 수 있다. 사용자는 시간 구간(15)의 설정 전에 단위 시간 조작창(16)에 터치(30)를 입력하여 특정 단위 시간을 선택한다.
일부 실시예에서, 사용자는 단위 시간 조작창(16)에 대한 터치(30)를 통해서 시간 구간(15)을 설정한다. 이 경우, 상기 터치 입력은 특정 단위 시간의 선택뿐만 아니라, 자막을 표시하기 위한 시간 구간의 종료 시간의 설정을 위한 것이다.
일부 실시예에서, 사용자가 AUTO를 선택하는 경우, 클라이언트(200)는 단위 시간을 자동으로 결정한다. 일부 실시예에서, 클라이언트(200)는 동영상 컨텐츠(10)의 오디오 신호를 기초로 하여 단위 시간을 자동으로 결정한다. 일부 실시예에서, 클라이언트(200)는 다른 사용자에 의해 생성된 자막(다른 사용자에 의해 설정된 적어도 하나의 시간 구간)을 기초로 하여 단위 시간을 자동으로 결정한다. 일부 실시예에서, 클라이언트(200)는 사용자가 자주 사용하는 단위 시간을 분석하고, 상기 분석 결과에 따라 적절한 단위 시간을 자동으로 결정한다.
도 12는 본 발명의 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.
도 12를 참조하면, 동영상 컨텐츠의 재생 시간 중 제2 시점(t2)에서 사용자의 터치 입력(30)이 제공되면, 제1 시점(t1)과 제2 시점(t2) 사이의 시간이 자막을 표시하기 위한 시간 구간으로 설정된다. 제1 시점(t1)은 제2 시점(t2)으로부터 미리 정해진 단위 시간 이전인 시점으로 결정된다. 먼저, 제2 시점(t2)이 시간 구간의 종료 시간으로 설정되고, 이어서, 제1 시점(t1)이 시간 구간의 시작 시간으로 설정되는 것이다. 도 12는, 예를 들어, 단위 시간으로 4초가 선택된 경우를 도시한다.
도 13은 본 발명의 또 다른 실시예에 따른 자막 생성 인터페이스를 설명하기 위한 개략적인 도면이다.
도 13을 참조하면, 서버(100)의 자막 제공부(140)는 머신러닝 모듈(141)을 포함한다. 일부 실시예에서, 머신러닝 모듈(141)은 동영상 컨텐츠의 오디오 신호를 학습한다. 일부 실시예에서, 머신러닝 모듈(141)은 다른 사용자에 의해 생성된 자막(다른 사용자에 의해 설정된 적어도 하나의 시간 구간)을 학습한다. 머신러닝 모듈(141)은 하나의 동영상 컨텐츠에 관한 복수의 자막을 학습하거나, 대상 동영상 컨텐츠가 서로 다른 복수의 자막을 학습할 수 있다. 도면 부호 161은 소정의 동영상 컨텐츠를 나타내고, 도면 부호 171은 상기 동영상 컨텐츠에 관한 복수의 자막을 나타낸 것이다. 일부 실시예에서, 머신러닝 모듈(141)은 사용자의 적어도 하나의 시간 구간 설정 패턴을 학습한다. 이러한 학습 결과에 따라, 머신러닝 모듈(141)은 소정의 동영상 컨텐츠의 자막을 표시하기 위한 최적의 시간 구간을 실시간 예측한다. 마찬가지로, 머신러닝 모듈(141)은 시간 구간의 시작 시간을 설정하기 위한 최적의 단위 시간을 실시간 예측할 수도 있다.
도 14 내지 15는 본 발명의 또 다른 실시예에 따른 자막 생성 인터페이스의 시간 구간 설정 방식를 설명하기 위한 개략적인 도면이다.
클라이언트(200)는 서버(100)로부터 머신러닝을 이용하여 예측된 최적의 시간 구간에 관한 정보를 수신하고, 상기 정보를 사용자가 시간 구간을 설정하는 과정에서 참조할 수 있도록 사용자에게 제공한다.
도 14를 참조하면, 일부 실시예에서, 시간 구간 설정을 위한 사용자의 터치 입력 전에, 오디오 신호 객체(12) 상에 머신러닝을 이용하여 예측된 최적의 시간 구간에 상응하는 영역(17)이 표시된다. 사용자는 상기 영역(17)을 참조하여, 자막을 표시하기 위한 시간 구간의 시작 시간과 종료 시간을 설정할 수 있다. 당연하게도, 사용자는 머신러닝을 이용하여 예측된 최적의 시간 구간과 다르게 시간 구간을 설정할 수도 있다.
또한, 클라이언트(200)는 서버(100)로부터 머신러닝을 이용하여 예측된 최적의 단위 시간에 관한 정보를 수신하고, 상기 정보를 사용자가 시간 구간을 설정하는 과정에서 참조할 수 있도록 사용자에게 제공한다.
도 15를 참조하면, 일부 실시예에서, 시간 구간 설정을 위한 사용자의 터치 입력 전에, 최적의 단위 시간이 단위 시간 조작창(18) 내에 제공된다. 일부 실시예에서, 단위 시간 조작창(18)은 하나의 또는 복수의 최적의 단위 시간을 제공한다. 일부 실시예에서, 단위 시간 조작창(18)은 사용자에 의해 설정된 단위 시간과 머신러닝을 이용하여 예측된 최적의 단위 시간을 동시에 제공한다. 사용자는 단위 시간 조작창(18)을 참조하여 최적의 단위 시간을 선택할 수 있다. 당연하게도, 최적의 단위 시간을 이용하지 않고, 사용자는 사용자에 의해 설정된 단위 시간을 선택할 수도 있다. 명확하게 도시하지 않았으나, 오디오 신호 객체(12) 상에 머신러닝을 이용하여 예측된 최적의 시간 구간에 상응하는 영역(17)이 표시될 수도 있다.
도 16은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 선택 화면를 개략적으로 도시한 도면이다.
도 16을 참조하면, 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록 중 어느 하나의 시간 구간(15)이 사용자에 의해 선택되면, 동영상 재생 창 내에 동영상 컨텐츠(10)의 상기 시간 구간(15)의 시작 시간에 상응하는 영상이 표시된다. 오디오 신호 창 내에서는 오디오 신호 객체(12) 상에 동영상 컨텐츠(10)의 오디오 신호 중 상기 시간 구간(15)에 상응하는 영역(14)이 표시된다.
도 17 내지 도 18은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 수정 화면를 개략적으로 도시한 도면이다.
도 17을 참조하면, 일부 실시예에서, 사용자는 오디오 신호 객체(12) 상의 시간 구간(15)에 상응하는 영역(14)에 대한 터치를 통해서 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다. 예를 들어, 사용자는 상기 영역(14)에 대한 터치 입력 후 소정의 제스처(예를 들어, 드래그)를 입력함으로써 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있으나, 이에 제한되는 것은 아니다.
도 18을 참조하면, 일부 실시예에서, 오디오 신호 창 내에 오디오 신호 객체(12)에 인접하여 시간 조정 객체(19)가 표시된다. 예를 들어, 시간 조정 객체(19)는 오디오 신호 객체(12)의 좌우에 인접하게 배치될 수 있으나, 이에 한정되는 것은 아니다. 사용자는 시간 조정 객체(19)에 대한 터치를 통해서 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다.
도 19는 본 발명의 실시예들에 따른 자막 생성 인터페이스의 텍스트 입력 화면를 개략적으로 도시한 도면이다.
도 19를 참조하면, 일부 실시예에서, 동영상 컨텐츠(10)의 적어도 하나의 시간 구간(15)의 목록 중 어느 하나의 시간 구간(15)에 대해서 사용자의 1차 터치(30)가 제공되면, 동영상 재생 창 내에 동영상 컨텐츠(10)의 상기 시간 구간(15)의 시작 시간에 상응하는 영상이 표시되고, 상기 시간 구간(15)에 대해서 사용자의 2차 터치(30)가 제공되면, 사용자는 상기 시간 구간(15)에 상응하는 텍스트(20)를 입력할 수 있다. 일부 실시예에서, 텍스트 입력 창이 동영상 재생 창 상에 오버랩되어 배치된다. 일부 실시예에서, 상기 시간 구간(15)에 인접하여 텍스트 입력 창이 배치된다.
도 20은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 자막 선택 화면를 개략적으로 도시한 도면이다.
도 20을 참조하면, 일부 실시예에서, 사용자에 의해 소정의 동영상 컨텐츠(10)가 선택되면, 동영상 재생 창에 인접하여 메뉴 창(21)이 표시된다. 예를 들어, 메뉴 창(21)은 자막 선택, 자막 생성 등을 위한 복수의 메뉴를 제공할 수 있으나, 이에 제한되는 것은 아니다. 자막 선택이 선택되면, 메뉴 창(21)의 하부에 자막 선택 창 내에서 동영상 컨텐츠(10)의 적어도 하나의 자막(22)의 목록이 표시된다. 일부 실시예에서, 자막 선택 창 내에 각각의 자막(22)의 생성자, 생성 일자, 자막 언어 또는 자막에 관한 설명 등과 같은 자막 관련 정보가 함께 표시된다. 동영상 컨텐츠(10)의 적어도 하나의 자막(2)의 목록 중 어느 하나의 자막(22)이 사용자에 의해 선택되면, 선택된 자막이 동영상 재생 창 상에 오버랩되어 표시된다.
도 21은 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 공유 화면를 개략적으로 도시한 도면이다.
도 21을 참조하면, 일부 실시예에서, 사용자는 소정의 동영상 컨텐츠(10)의 적어도 하나의 자막(22)의 목록 중 어느 하나의 자막(22)의 편집을 선택한다. 이 경우, 도 8을 참조하여 설명한 자막 생성 화면이 표시되고, 사용자에 의해 선택된 자막(22)은 편집 가능한 상태로 제공된다. 사용자는 상기 자막(22)의 적어도 하나의 시간 구간(15)만을 공유할 수 있다. 오디오 신호 객체(12) 상에는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간(15)에 상응하는 영역(14)이 표시되고, 오디오 신호 객체(12)의 하부에 자막 편집 창 내에서 다른 사용자에 의해 설정된 적어도 하나의 시간 구간(15)의 목록이 표시된다.
사용자는 다른 사용자에 의해 설정된 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정된 시간 구간(15)을 삭제할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정되지 않은 시간 구간(15)을 추가적으로 설정할 수 있다.
도 22는 본 발명의 실시예들에 따른 자막 생성 인터페이스의 시간 구간 및 텍스트 공유 화면를 개략적으로 도시한 도면이다.
도 22를 참조하면, 일부 실시예에서, 사용자는 소정의 동영상 컨텐츠(10)의 적어도 하나의 자막(22)의 목록 중 어느 하나의 자막(22)의 편집을 선택한다. 이 경우, 도 8을 참조하여 설명한 자막 생성 화면이 표시되고, 사용자에 의해 선택된 자막(22)은 편집 가능한 상태로 제공된다. . 사용자는 상기 자막(22)의 적어도 하나의 시간 구간(15)과 그에 상응하는 텍스트(23)를 모두 공유할 수 있다. 오디오 신호 객체(12)의 하부에 자막 편집 창 내에서 다른 사용자에 의해 설정된 적어도 하나의 시간 구간(15)과 그에 상응하는 텍스트(23)의 목록이 표시된다.
사용자는 다른 사용자에 의해 설정된 시간 구간(15)의 시작 시간 또는 종료 시간을 조정할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정된 시간 구간(15)을 삭제할 수 있다. 또는, 사용자는 다른 사용자에 의해 설정되지 않은 시간 구간(15)을 추가적으로 설정할 수 있다. 또한, 사용자는 다른 사용자에 의해 입력된 텍스트(23)를 수정할 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어 모듈로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (10)

  1. 컴퓨터에 의해 실현되는 방법으로서,
    동영상 컨텐츠를 재생하는 단계;
    머신러닝을 이용하여 실시간 예측된 적어도 하나의 제1 시간 구간에 관한 정보를 제공하는 단계;
    사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계;
    상기 사용자로부터 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트(text)를 수신하는 단계; 및
    상기 적어도 하나의 제2 시간 구간과 상기 적어도 하나의 제2 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되,
    상기 사용자의 터치 조작에 따라 적어도 하나의 제2 시간 구간(time duration)을 설정하는 단계는,
    상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 제2 시간 구간의 시작 시간(start time)으로 설정하고,
    상기 사용자의 터치 해제(touch release)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 해제 시점을 상기 제2 시간 구간의 종료 시간(end time)으로 설정하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  2. 제1항에 있어서,
    상기 재생되는 동영상 컨텐츠에 인접하여 상기 동영상 컨텐츠의 오디오 신호를 시각화한 객체를 표시하되, 상기 오디오 신호를 시각화한 객체 상에 현재 시점에 상응하는 기준자를 표시하는 단계를 더 포함하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  3. 제1항에 있어서,
    서버로부터 상기 적어도 하나의 제1 시간 구간에 관한 정보를 수신하는 단계; 및
    상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고,
    상기 서버는,
    머신러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 제1 시간 구간에 관한 정보를 실시간 예측하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  4. 컴퓨터에 의해 실현되는 방법으로서,
    동영상 컨텐츠를 재생하는 단계;
    머신러닝을 이용하여 실시간 예측된 적어도 하나의 미리 정해진 단위 시간을 제공하는 단계;
    사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계;
    상기 사용자로부터 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 수신하는 단계; 및
    상기 적어도 하나의 시간 구간과 상기 적어도 하나의 시간 구간에 상응하는 텍스트를 조합하여 상기 동영상 컨텐츠의 자막을 생성하는 단계를 포함하되,
    상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는,
    상기 사용자의 터치 입력(touch input)에 따라 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점을 상기 시간 구간의 종료 시간(end time)으로 설정하고,
    상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간(start time)으로 설정하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  5. 제4항에 있어서,
    상기 재생되는 동영상 컨텐츠에 인접하여 상기 동영상 컨텐츠의 오디오 신호를 시각화한 객체를 표시하되, 상기 오디오 신호를 시각화한 객체 상에 현재 시점에 상응하는 기준자를 표시하는 단계를 더 포함하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  6. 제4항에 있어서,
    상기 재생되는 동영상 컨텐츠에 인접하여 상기 적어도 하나의 미리 정해진 단위 시간을 제공하는 단위 시간 조작 창을 표시하는 단계를 더 포함하고,
    상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는,
    상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  7. 제6항에 있어서,
    상기 사용자의 터치 조작에 따라 적어도 하나의 시간 구간을 설정하는 단계는,
    상기 적어도 하나의 미리 정해진 단위 시간 중 상기 사용자의 상기 터치 입력에 의해 선택된 미리 정해진 단위 시간을 이용하여, 상기 동영상 컨텐츠의 재생 시간 중 상기 사용자의 터치 입력 시점으로부터 상기 미리 정해진 단위 시간 이전인 시점을 상기 시간 구간의 시작 시간으로 설정하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  8. 제4항에 있어서,
    서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계; 및
    상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고,
    상기 서버는,
    머신 러닝을 이용하여 상기 동영상 컨텐츠의 오디오 신호 또는 다른 사용자에 의해 설정된 적어도 하나의 시간 구간을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  9. 제4항에 있어서,
    서버로부터 상기 적어도 하나의 미리 정해진 단위 시간을 수신하는 단계; 및
    상기 서버에 상기 동영상 컨텐츠의 자막을 전송하는 단계를 더 포함하고,
    상기 서버는,
    머신러닝을 이용하여 상기 사용자의 상기 적어도 하나의 시간 구간 설정 패턴을 학습하고, 상기 학습 결과에 따라 상기 적어도 하나의 미리 정해진 단위 시간을 실시간 예측하는,
    동영상 컨텐츠의 자막 생성 및 공유 방법.
  10. 컴퓨터와 결합되어, 제1항 내지 제9항 중 어느 하나의 항의 방법을 수행하기 위하여 컴퓨터 판독가능 기록매체에 저장된 애플리케이션.
PCT/KR2016/012890 2016-06-17 2016-11-10 머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법 WO2017217613A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160075799 2016-06-17
KR10-2016-0075799 2016-06-17

Publications (1)

Publication Number Publication Date
WO2017217613A1 true WO2017217613A1 (ko) 2017-12-21

Family

ID=60663103

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/KR2016/012890 WO2017217613A1 (ko) 2016-06-17 2016-11-10 머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법
PCT/KR2016/012880 WO2017217612A1 (ko) 2016-06-17 2016-11-10 원터치를 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/012880 WO2017217612A1 (ko) 2016-06-17 2016-11-10 원터치를 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법

Country Status (1)

Country Link
WO (2) WO2017217613A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593567A (zh) * 2021-06-23 2021-11-02 荣耀终端有限公司 视频声音转文本的方法及相关设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110475146B (zh) * 2019-09-05 2022-01-14 珠海市杰理科技股份有限公司 字幕矫正方法、装置及智能音箱

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000049475A (ko) * 2000-03-27 2000-08-05 김기찬 인터넷 멀티미디어형 자막방송 솔루션 장치 개발 및 서비스
JP2004336668A (ja) * 2003-05-12 2004-11-25 National Institute Of Information & Communication Technology 字幕作成用管理サーバおよび分散型字幕番組制作システム
KR20090124240A (ko) * 2008-05-29 2009-12-03 주식회사 케이티테크 자막 편집 장치 및 그 방법
WO2015088196A1 (ko) * 2013-12-09 2015-06-18 넥스트리밍(주) 자막 편집 장치 및 자막 편집 방법
KR20160024002A (ko) * 2014-08-21 2016-03-04 삼성전자주식회사 비쥬얼 사운드 이미지를 제공하는 방법 및 이를 구현하는 전자 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8848109B2 (en) * 2013-01-15 2014-09-30 Viki, Inc. System and method for captioning media
CN104079838A (zh) * 2014-07-08 2014-10-01 丽水桉阳生物科技有限公司 一种具有财经数据字幕制播功能的字幕机

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000049475A (ko) * 2000-03-27 2000-08-05 김기찬 인터넷 멀티미디어형 자막방송 솔루션 장치 개발 및 서비스
JP2004336668A (ja) * 2003-05-12 2004-11-25 National Institute Of Information & Communication Technology 字幕作成用管理サーバおよび分散型字幕番組制作システム
KR20090124240A (ko) * 2008-05-29 2009-12-03 주식회사 케이티테크 자막 편집 장치 및 그 방법
WO2015088196A1 (ko) * 2013-12-09 2015-06-18 넥스트리밍(주) 자막 편집 장치 및 자막 편집 방법
KR20160024002A (ko) * 2014-08-21 2016-03-04 삼성전자주식회사 비쥬얼 사운드 이미지를 제공하는 방법 및 이를 구현하는 전자 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593567A (zh) * 2021-06-23 2021-11-02 荣耀终端有限公司 视频声音转文本的方法及相关设备

Also Published As

Publication number Publication date
WO2017217612A1 (ko) 2017-12-21

Similar Documents

Publication Publication Date Title
WO2011021907A2 (en) Metadata tagging system, image searching method and device, and method for tagging a gesture thereof
WO2012133982A1 (ko) 영상처리장치 및 영상처리장치의 제어 방법
WO2016093506A1 (ko) 이동 단말기 및 그 제어 방법
WO2011078540A2 (en) Mobile device and related control method for external output depending on user interaction based on image sensing module
WO2014017858A1 (en) User terminal apparatus and control method thereof
WO2013103275A1 (en) Method and apparatus for implementing multi-vision system by using multiple portable terminals
WO2012133983A1 (ko) 차량에 장착되는 영상표시기기에서의 이미지 처리
WO2015030321A1 (en) Portable device and method of controlling therefor
WO2012133981A1 (ko) 영상표시장치 및 그 영상표시장치의 동작 방법
WO2019112342A1 (en) Voice recognition apparatus and operation method thereof cross-reference to related application
EP2766801A1 (en) Input interface controlling apparatus and method thereof
EP2907103A1 (en) User terminal device, sns providing server, and contents providing method thereof
WO2020162709A1 (en) Electronic device for providing graphic data based on voice and operating method thereof
WO2016089047A1 (ko) 컨텐트를 제공하는 방법 및 디바이스
WO2018169374A1 (ko) 전자 장치 및 그 제어 방법
WO2015072803A1 (ko) 단말기 및 단말기의 제어 방법
WO2020096288A1 (en) Display apparatus and control method thereof
WO2018093160A2 (ko) 디스플레이장치, 시스템 및 기록매체
WO2018056617A1 (ko) 웨어러블 장치 및 이의 위젯 제공 방법
WO2017217613A1 (ko) 머신러닝을 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법
WO2014061905A1 (ko) 동작 및 음성 기반 북마크 제공 시스템 과 그 방법
WO2021080290A1 (en) Electronic apparatus and control method thereof
WO2018056587A1 (en) Electronic apparatus and controlling method thereof
WO2012081787A1 (en) Image processing apparatus of mobile terminal and method thereof
WO2017026817A1 (ko) 통역음성 정보를 제공하는 방법, 이를 운용하는 맞춤형 통역 서버 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16905597

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16905597

Country of ref document: EP

Kind code of ref document: A1