WO2023022316A1 - 외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템 - Google Patents

외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템 Download PDF

Info

Publication number
WO2023022316A1
WO2023022316A1 PCT/KR2022/003858 KR2022003858W WO2023022316A1 WO 2023022316 A1 WO2023022316 A1 WO 2023022316A1 KR 2022003858 W KR2022003858 W KR 2022003858W WO 2023022316 A1 WO2023022316 A1 WO 2023022316A1
Authority
WO
WIPO (PCT)
Prior art keywords
difficulty
video
phoneme
voice
unit
Prior art date
Application number
PCT/KR2022/003858
Other languages
English (en)
French (fr)
Inventor
박봉래
Original Assignee
박봉래
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박봉래 filed Critical 박봉래
Publication of WO2023022316A1 publication Critical patent/WO2023022316A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker

Definitions

  • the present invention relates to a technology for providing a new video viewing environment in which subtitles are not displayed for lines that do not require translated subtitles while watching foreign language videos.
  • Subtitles provided with videos in a foreign language make it easy to understand the content of the video so that you can understand the content even in situations where you do not know the foreign language well. .
  • An object of various embodiments of the present invention is to efficiently provide subtitles displayed in an environment in which foreign language videos are viewed according to a viewer's foreign language level.
  • a pattern management unit for managing foreign language pronunciation patterns and expression patterns; a viewer ability setting unit that sets a viewer's foreign language listening ability; a voice difficulty evaluator that evaluates voice difficulty based on the voice and dialogue script of the video; an expression difficulty evaluation unit that evaluates expression difficulty based on the dialogue script of the video; a listening difficulty evaluation unit that calculates a listening difficulty level for video audio by integrating the voice difficulty level and the expression difficulty level; and a caption filtering unit configured to determine whether or not to filter captions through a comparison between the viewer's foreign language listening ability and the evaluated listening difficulty.
  • the pattern management unit manages phoneme sequence and phoneme segment information for each word or sentence
  • the voice difficulty evaluation unit includes: a reference phoneme sequence extractor extracting a reference phoneme sequence and phoneme segment from a dialogue script of a video; a candidate phoneme string generating unit for generating at least one candidate phoneme string including the reference phoneme string by applying a pronunciation conversion rule to the dialogue script or the reference phoneme string of the video; and an optimum phoneme sequence selector for selecting an optimum phoneme sequence based on the candidate phoneme sequences generated by the candidate phoneme sequence generation unit and extracting a phoneme section length for each constituent phoneme, wherein the voice difficulty evaluation unit includes the reference phoneme sequence.
  • the voice difficulty may be evaluated by comparing the reference phoneme sequence extracted by the extraction unit with the optimum phoneme sequence selected by the optimum phoneme sequence selection unit.
  • the voice difficulty evaluation unit may evaluate the voice difficulty based on a pronunciation conversion rule applied to a reference phoneme sequence versus an optimal phoneme sequence for a specific voice.
  • the reference phoneme string extractor may check whether the dialogue script of the video is of a basic type, and if not, restore the dialogue script to a basic type, and extract a basic phoneme string and phoneme section from the restored dialogue script.
  • the pattern management unit extracts phoneme sequences and phoneme interval information for text input based on an artificial intelligence data set constructed by deep learning of phoneme sequence and phoneme segment information for each voice and sentence text, and the artificial intelligence data set.
  • the voice difficulty evaluation unit may evaluate the voice difficulty based on the phoneme interval length of the optimal phoneme sequence compared to the phoneme interval length of the reference phoneme sequence in the process of evaluating the voice difficulty through comparison between the reference phoneme sequence and the optimum phoneme sequence.
  • the pattern management unit may additionally manage pattern information for the hearing-impaired pronunciation, and the voice difficulty evaluation unit may evaluate the voice difficulty based on hearing-impaired pronunciation pattern information detected from a reference phoneme sequence or an optimal phoneme sequence.
  • the pattern management unit further provides the frequency of occurrence of pronunciation patterns or pronunciation conversion rules for the foreign language, and the voice difficulty evaluation unit determines the frequency of occurrence of pronunciation patterns or pronunciation conversion rules appearing in the reference phoneme sequence or the optimal phoneme sequence. It may be characterized in that the voice difficulty is evaluated.
  • the pattern management unit additionally provides an occurrence frequency of a phoneme sequence in which a pronunciation pattern for a foreign language is displayed or a phoneme sequence to which a pronunciation conversion rule is applied, and the voice difficulty evaluation unit is a phoneme in which a pronunciation pattern appearing in a reference phoneme sequence or an optimum phoneme sequence is applied.
  • the voice difficulty may be evaluated based on the occurrence frequency of a string or a phoneme string to which a pronunciation conversion rule is applied.
  • the pattern management unit manages at least one of word statistics, phrase type statistics, and word sequence statistics in relation to the expression pattern, and the process of evaluating the expression difficulty based on the dialogue script of the video by the expression difficulty evaluation unit, It may be characterized in that expression difficulty is evaluated based on word statistics, phrase type statistics, or word sequence statistics of expression patterns for words, phrase types, or word sequences included in the dialogue script.
  • the pattern management unit additionally manages information for determining whether words included in the dialogue script are verbs in relation to the expression pattern, and the expression difficulty evaluation unit evaluates the expression difficulty based on the dialogue script of the video.
  • the process may be to evaluate expression difficulty based on the number of verbs included in the video dialogue script.
  • the caption filter unit may determine whether or not to display subtitles based on a predetermined probability when it is determined that the foreign language listening ability of the viewer and the listening difficulty calculated by the listening difficulty evaluation unit are within a predetermined difference.
  • a method for performing filtering of video subtitles by a video subtitle filtering system comprising: storing and managing foreign language pronunciation patterns and expression patterns; Setting the viewer's foreign language listening difficulty; Evaluating voice difficulty based on the voice and dialogue script of the video; Evaluating expression difficulty based on the dialogue script of the video; calculating a hearing difficulty for video audio by integrating the voice difficulty and the expression difficulty; and determining whether or not to filter subtitles by comparing the foreign language listening difficulty of the viewer with the evaluated listening difficulty.
  • the foreign language listening difficulty level of the video viewer and the listening difficulty of voice lines provided in the video are compared and selective filtering of the corresponding subtitle is performed, so that subtitles are not displayed for content with a difficulty lower than the skill level.
  • subtitles are selectively filtered based on the viewer's foreign language listening ability, the viewer can be provided with a more pleasant video listening environment and help improve language skills.
  • FIG. 1 is a schematic diagram of an environment in which a video caption filtering system according to an embodiment of the present invention operates.
  • FIG. 2 is a block diagram schematically showing the configuration of a video caption filtering system according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating an operating method of a video caption filtering system according to an embodiment of the present invention.
  • FIG. 4 is a diagram for explaining an operation method of a phoneme interval analyzer operating in a video caption filtering system according to an embodiment of the present invention.
  • FIG. 5 is a diagram for explaining a state in which captions are filtered by a video caption filtering system according to an embodiment of the present invention.
  • FIG. 6 is a diagram for explaining a viewer capability setting unit operating in a video caption filtering system according to an embodiment of the present invention.
  • the video subtitle filtering system provided by the present invention is a technology for filtering a part of subtitles displayed in foreign language videos, and 'foreign language' may mean a language different from the language corresponding to the displayed subtitles.
  • 'foreign language' may mean a language other than Korean, but from the point of view of a person who speaks another language, 'foreign language' may be Korean. That is, the foreign language and subtitles in the present invention may be limited to a specific language or a concept that does not exclude a specific language.
  • FIG. 1 is a schematic diagram of an environment in which a video caption filtering system 100 according to an embodiment of the present invention operates.
  • a video caption filtering system 100 can operate in an environment in which a viewer terminal 200, an administrator terminal 300, and an external server 400 are connected and communicated with each other. there is.
  • the video caption filtering system 100 may be configured as a system such as an electronic device or a server that determines whether or not to filter captions by receiving a video and dialogue script for the video from a connected device.
  • the video caption filtering system 100 may be configured with software in the form of a program, such as an application that is installed and operated on a specific electronic device such as a smartphone or tablet.
  • the video subtitle filtering system 100 may use the foreign language subtitles as dialogue scripts when foreign language subtitles exist, or may receive and use dialogue scripts separately from a connected external device when foreign language subtitles do not exist, or use subtitles and subtitles.
  • a dialogue script may be generated from speech dialogue in a corresponding video through speech recognition.
  • each dialogue script is assigned section information about the corresponding video play time, so that each dialogue script can be interlocked with the audio in the video. Also, preferably, section information about the video play time of each dialogue script may be matched with section information about the video play time assigned to the subtitle.
  • the video subtitle filtering system 100 measures the listening difficulty with the video voice and dialogue script, secures the foreign language listening ability of the viewer who will watch the video, compares the listening difficulty and the listening ability, and displays the corresponding subtitle among the audio of the video. You can make decisions about what to do and what not to show.
  • the video subtitle filtering system 100 measures listening difficulty for each voice and dialogue script in the video in advance, and then determines whether or not to filter subtitles corresponding to each audio line according to the viewer's foreign language listening ability.
  • the video subtitle filtering system 100 evaluates the difficulty of 'voice' based on the audio and dialogue scripts of the video, and 'expression' itself based only on the dialogue script of the video. After evaluating the difficulty of voice, the difficulty of 'listening' for the video voice can be finally evaluated by combining the difficulty of voice and expression.
  • the viewer terminal 200 is a terminal controlled by a viewer who wants to watch a video using the video subtitle filtering system 100, and the viewer filters video subtitles through a web browser or a video viewing program installed on the viewer terminal 200. You can enjoy a video to which the technology of the system 100 is applied.
  • the viewer terminal 200 communicates with the video caption filtering system 100 to determine whether or not to display captions for a video played on the viewer terminal 200 based on data received from the video caption filtering system 100. In addition, it is possible to determine whether or not to display subtitles of a video played on the viewer terminal 200 by utilizing the video caption filtering system 100 installed in the form of software in the viewer terminal 200 . Also, the viewer terminal 200 may receive subtitles from the video subtitle filtering system 100 in which filtering or non-filtering of all dialogues in accordance with the viewer's foreign language level is reflected in advance, and displayed together with the video.
  • the manager terminal 300 is a terminal controlled by an entity that manages the video caption filtering system 100.
  • the manager may be a producer of the video caption filtering system 100.
  • the manager may perform detailed settings on how the video subtitle filtering system 100 operates through the manager terminal 300, and in detail, how to secure the viewer's foreign language skills, how to evaluate the voice difficulty, and how to evaluate the expression difficulty. Method, calculation method of listening difficulty, etc. can be set.
  • the viewer terminal 200 and the manager terminal 300 may include a memory for storing information necessary for operation, a central processing unit such as a CPU for performing various operations necessary for operation, and an input/output device.
  • the viewer terminal 200 and the manager terminal 300 are all kinds of hands that can be connected to a web server through a network, such as a mobile phone, a smart phone, a personal digital assistant (PDA), a portable multimedia player (PMP), a tablet PC, and the like. It may include a handheld-based wireless communication device, and has a memory means such as a personal computer (eg, a desktop computer, a notebook computer, etc.), a workstation, a web pad, etc., and is equipped with a microprocessor to provide computing power. It could be one of your digital devices.
  • the external server 400 is a server that provides data necessary for smooth operation of the video subtitle filtering system 100.
  • the external server 400 is composed of a server that provides an OTT service, Foreign language subtitles or translated subtitles for Korean may be provided to the video subtitle filtering system 100.
  • a communication network used for communication by entities operating within the operating environment of the video caption filtering system 100 can be configured regardless of its communication mode, such as wired or wireless.
  • it may be implemented in various communication networks such as a local area network (LAN), a metropolitan area network (MAN), and a wide area network (WAN).
  • LAN local area network
  • MAN metropolitan area network
  • WAN wide area network
  • the communication network according to an embodiment of the present invention may be a well-known World Wide Web (WWW) or the like.
  • WWW World Wide Web
  • FIG. 2 is a block diagram schematically showing the configuration of a video caption filtering system 100 according to an embodiment of the present invention.
  • the video subtitle filtering system 100 includes a pattern management unit 110, a viewer ability setting unit 120, an audio difficulty evaluation unit 130, an expression difficulty evaluation unit 140, and a listening difficulty evaluation unit 150. ), a caption filter unit 160, a communication unit 170, a storage unit 180, and a control unit 190.
  • the pattern management unit 110 may store and manage pronunciation patterns and expression patterns for a specific language. Pronunciation patterns and expression patterns managed by the pattern management unit 110 may be used later in the process of evaluating voice difficulty and expression difficulty based on voice and dialogue scripts of videos.
  • the pattern management unit 110 may manage information about phoneme strings and phoneme sections for each word or sentence as pronunciation pattern information. In addition, the pattern management unit 110 may also manage pattern information for hard-of-hearing pronunciation and information on pronunciation conversion rules as pronunciation pattern information.
  • the pattern management unit 110 may directly manage phoneme sequence and phoneme interval information for each word or sentence.
  • the pattern management unit 110 inputs text based on an artificial intelligence data set built by deep learning of a large amount of voice and phoneme sequence and phoneme interval information for each text of a sentence corresponding to each voice, and an artificial intelligence data set or an artificial intelligence model.
  • a phoneme interval extractor for providing phoneme sequence and phoneme interval information may be further included, and phoneme sequence and phoneme interval information for each sentence text may be provided through the phoneme interval extractor.
  • Pronunciation conversion rules managed by the pattern management unit 110 may include various types of rules. For example, a rule in which a weak vowel is omitted when a spontaneous consonant and a weak vowel are consecutive, a rule in which an involuntary consonant is omitted when an involuntary consonant and a consonant are consecutive, a rule in which a short vowel is weakened (schwa) when there is no stress , a rule in which a weak vowel at the beginning of a sentence is omitted, a rule in which only a strong vowel appears when a weak vowel and a strong vowel are consecutive may be included. In addition, rules such as abbreviation, deletion, conversion, etc.
  • consonant t and consonant r may be included, such as a rule for converting consonant t and consonant r to ch when consonant t and consonant r are consecutive.
  • Spontaneous consonants are consonants such as s, z, f, v, sh, ch, r, and l that can be uttered on their own without being supported by vowels, and involuntary consonants are p, t, k, b, d, g and In principle, consonants are not produced unless there is a vowel.
  • the pronunciation conversion rules when they are applied, they may be applied consecutively. For example, when a spontaneous consonant and a weak vowel are continued again in a state in which a phonetic conversion has occurred according to a rule in which a single vowel is weakened when there is no stress, a rule in which a weak vowel is omitted may be continuously applied.
  • the hearing loss pronunciation pattern managed by the pattern management unit 110 is a pattern in which the same consonants appear in succession, a pattern in which similar consonants appear in succession, a pattern in which similar vowels appear in succession, and an alphabet such as t, p, and k in English as an example. Pronunciations may include a pattern in which pronunciations are hardened.
  • the pattern management unit 110 provides statistical information about the frequency of occurrence of pronunciation patterns and the frequency of application of pronunciation conversion rules, and furthermore, the frequency of occurrence of specific phoneme strings in which pronunciation patterns appear and the frequency of occurrence of specific phoneme strings to which pronunciation conversion rules are applied. Statistical information about may be additionally included.
  • the pattern management unit 110 may manage information about word statistics, phrase type statistics, and word string statistics in relation to expression patterns.
  • Word string statistics are N-Gram statistics, which means occurrence frequency information of N consecutive words.
  • the pattern management unit 110 may manage information capable of determining whether words in a dialogue script are verbs in relation to expression patterns.
  • the viewer's ability setting unit 120 may set the viewer's foreign language listening ability by determining the viewer's foreign language listening ability before the viewer watches a video using the video caption filtering system 100 .
  • the foreign language listening ability setting of the viewer's ability setting unit 120 may be performed in various ways.
  • the viewer's foreign language listening ability may be set as the viewer inputs his or her skill level through the viewer terminal 200, and in contrast, the listening ability test quiz provided by the viewer skill setting unit 120 If the viewer inputs the correct answer to , the viewer ability setting unit 120 may set the viewer's foreigner listening skill based on the questions the viewer answered correctly and the questions the viewer failed to answer.
  • the viewer capability setting unit 120 provides a quiz
  • the quiz may be provided as a question related to the voice and dialogue script of the video before or after the viewer listens to the video.
  • the viewer's foreign language listening ability setting by the viewer's ability setting unit 120 can be performed in real time even while the viewer is watching a video, and accordingly, the criterion for displaying subtitles corresponding to voice lines can also be changed in real time. .
  • the filtering of which is collectively determined in advance, re-filtered subtitles may be provided according to newly set viewer skills.
  • the voice difficulty evaluation unit 130 may evaluate the voice difficulty of the video based on the audio output from the video and the dialogue script of the video. That is, voice difficulty may be evaluated in a form in which voice difficulty output from a video itself and voice difficulty by a pronunciation pattern analyzed based on a dialogue script of the video are synthesized.
  • the voice difficulty evaluation unit 130 may include a reference phoneme sequence extraction unit 131, a candidate phoneme sequence generation unit 132, and an optimum phoneme sequence selection unit 133.
  • the reference phoneme sequence extractor 131 may perform an operation of extracting the reference phoneme sequence and phoneme intervals from the dialogue script of the video.
  • the reference phoneme sequence extraction unit 131 may extract a phoneme sequence and a phoneme segment based on information on phoneme intervals for each word or sentence managed by or provided by the pattern management unit 110 .
  • the reference phoneme sequence and phoneme interval information of the dialogue script may be obtained by combining the phoneme sequence and phoneme interval information of words managed by the pattern management unit 110 by default.
  • the reference phoneme sequence extractor 131 checks whether the dialogue script is in the basic format, and if it is not in the basic format, restores the dialogue script to the basic format, and may extract the reference phoneme sequence and phoneme interval from the restored dialogue script.
  • the basic form refers to the basic form of syntax before the form of words is transformed by contraction or the like. For example, if an expression such as 'should've, don't, whatcha, warmtha' is included, the reference phoneme sequence extractor 131 converts the corresponding part to 'should have, do not, what are you, want to' After restoring to the basic form, it is possible to extract the basic phoneme sequence and phoneme interval from the restored dialogue script.
  • the candidate phoneme string generating unit 132 may generate at least one candidate phoneme string by applying a pronunciation conversion rule to the dialogue script or the reference phoneme string of the video.
  • the candidate phoneme string generated by the candidate phoneme string generator 132 may basically include the reference phoneme string.
  • the applied pronunciation conversion rules may be managed by the pattern management unit 110 described above.
  • the dialogue script may be composed of a basic type.
  • the optimal phoneme string selector 133 selects one of the plurality of candidate phoneme strings generated by the candidate phoneme string generator 132 as the optimal phoneme string, and in the process may also extract the phoneme section length for each constituent phoneme.
  • the optimal phoneme sequence selection unit 133 may perform phoneme section analysis by applying each of the plurality of candidate phoneme sequences to the sound output from the video, and select an optimal phoneme sequence through the analysis.
  • the phoneme interval analysis may be performed by the phoneme interval analysis unit, which is an additional component of the voice difficulty evaluation unit 130, and the phoneme interval analysis unit outputs the phoneme interval based on the Gaussian Hidden Markov Model or the Gaussian Neural Network model. can do.
  • the optimal phoneme sequence selector 133 may input the candidate phoneme sequences to the phoneme segment analyzer and receive the phoneme sequence and phoneme segment having the greatest suitability for the corresponding speech as output.
  • the voice difficulty evaluation unit 130 compares the reference phoneme sequence extracted by the reference phoneme sequence extraction unit 131 with the optimum phoneme sequence selected by the optimum phoneme sequence selection unit 133 to evaluate the voice difficulty.
  • the voice difficulty evaluation unit 130 may evaluate the voice difficulty based on the phoneme interval length of the optimal phoneme sequence compared to the phoneme interval length of the reference phoneme sequence in the process of evaluating the voice difficulty through comparison between the reference phoneme sequence and the optimum phoneme sequence. For example, as the phoneme interval length of the optimal phoneme sequence for each corresponding phoneme becomes shorter than the phoneme interval length of the reference phoneme sequence, voice difficulty may be evaluated higher.
  • the voice difficulty evaluation unit 130 may evaluate the voice difficulty based on hearing loss pronunciation pattern information detected from the reference phoneme sequence or the optimal phoneme sequence.
  • the voice difficulty evaluation unit 130 determines the voice difficulty on the basis of a hearing loss pronunciation pattern, such as a sequence of similar consonants, a sequence of vowels, a sequence of spontaneous consonants and weak vowels, which makes it difficult for non-native speakers to hear in the standard phoneme sequence or the optimal phoneme sequence. difficulty can be assessed. For example, in an expression such as 'have books', there is a possibility that the consonant [v] at the end of the first word may be difficult to hear because the consonant at the end of the first word and the first consonant at the end of the second word are similar, so the voice difficulty may increase accordingly.
  • the voice difficulty evaluation unit 130 may perform voice difficulty evaluation based on a pronunciation conversion rule applied to an optimal phoneme sequence selected for a specific voice output through a video.
  • the voice difficulty evaluation unit 130 may perform voice difficulty evaluation based on pronunciation conversion rules such as various types of contraction, deletion, conversion, etc. applied to the optimal phoneme sequence selected for each dialogue voice in the video. For example, an expression such as 'suit you' can be pronounced as [ch] by converting the consonant [t] at the end of the first word and the first consonant [y] at the end of the second word. If not, voice difficulty may increase. Meanwhile, the pronunciation conversion rules applied to the optimal phoneme sequence refer to one or more pronunciation conversion rules applied when the candidate phoneme sequence generator generates the candidate phoneme sequence selected as the optimal phoneme sequence.
  • the voice difficulty evaluation unit 130 may apply weights to pronunciation conversion rules or hard-of-hearing pronunciation patterns and apply them to the voice difficulty evaluation by varying the degree.
  • the speech difficulty evaluation unit 130 determines pronunciation patterns or pronunciation conversion rules appearing in the reference phoneme sequence or the optimal phoneme sequence based on the information on the frequency of occurrence of pronunciation patterns or pronunciation conversion rules provided by the pattern management unit 110. It is also possible to perform evaluation of voice difficulty based on the frequency of occurrence.
  • the voice difficulty evaluation unit 130 determines the frequency of occurrence of a specific phoneme sequence in which a pronunciation pattern appears or a pronunciation conversion rule is applied, provided by the pattern management unit 110, to a reference phoneme sequence or an optimal phoneme sequence. Speech difficulty may be evaluated based on the occurrence frequency of an actual phoneme sequence in which a pronunciation pattern appears or a pronunciation conversion rule is applied.
  • the expression difficulty evaluation unit 140 may evaluate the expression difficulty based only on the dialogue script of the video. That is, the expression difficulty evaluated by the expression difficulty evaluation unit 140 may be determined only through the text of the dialogue script regardless of the actual voice output through the video.
  • the expression difficulty evaluation unit 140 determines the expression pattern for words, phrase types, or word sequences included in the dialogue script of the video.
  • Expression difficulty may be evaluated based on word statistics, phrase type statistics, or word sequence statistics.
  • the expression difficulty evaluation unit 140 may measure the difficulty level higher based on various statistics when a specific word, phrase type, or word sequence is not statistically well used.
  • the expression difficulty evaluation unit 140 evaluates the expression difficulty based on the dialogue script of the video, based on verb determination information for words managed by the pattern management unit 110, The number of verbs included in the video dialogue script can be identified, and expression difficulty can be evaluated based on this.
  • the listening difficulty evaluator 150 calculates the final listening difficulty for the audio of the video by synthesizing the voice difficulty evaluated by the voice difficulty evaluator 130 and the expression difficulty evaluated by the expression difficulty evaluator 140.
  • the caption filter unit 160 may determine whether or not to filter subtitles by comparing the foreign language listening ability of the viewer set by the viewer capability setting unit 120 and the listening level calculated by the listening level evaluation unit 150 .
  • the subtitle filter unit 160 displays translated subtitles for the lines classified as a level of listening difficulty higher than the viewer's foreign language listening ability based on the level of difficulty calculated for each line of voice in the video, Lines classified as a listening level lower than the viewer's foreign language listening ability may be controlled so that translated subtitles for the line are not displayed.
  • the subtitle filter unit 160 operates according to a preset method when the foreign language listening ability of the viewer and the listening difficulty of each voice line in the video are the same, or when the viewer's foreign language listening ability and the listening difficulty of the specific voice line are within a predetermined difference. It may be determined whether or not to display a subtitle of the line.
  • a certain viewer may want to receive subtitles for voice lines evaluated at a listening difficulty similar to his or her foreign language listening ability, and other viewers may want to receive subtitles for voice lines evaluated at a listening difficulty similar to their own foreign language listening ability. For , you may not want subtitles to be displayed. In this situation, whether or not to display subtitles may be determined by a viewer's setting or a manager's setting.
  • the subtitle filter unit 160 determines whether the viewer's foreign language listening ability and the listening difficulty of each voice line in the video are the same, or a predetermined difference between the viewer's foreign language listening ability and the listening difficulty of a specific voice line. In the case of being within the range, it is possible to randomly determine whether or not to display a subtitle based on a predetermined probability.
  • the probability of displaying subtitles determined in the above case is 50%
  • the dialogues in which the foreign language listening ability of the viewer and the difficulty of hearing the audio output from the video are within a certain difference are displayed with a probability of 50%.
  • subtitles may not be displayed with the remaining 50% probability.
  • the communication unit 170 enables the video caption filtering system 100 to communicate with the viewer terminal 200 , the manager terminal 300 and the external server 400 .
  • the communication network used by the communication unit 170 to perform communication may be configured regardless of its communication mode, such as wired and wireless, for example, a local area network (LAN) and a metropolitan area network (MAN). Area Network), wide area network (WAN), etc. may be implemented in various communication networks.
  • LAN local area network
  • MAN metropolitan area network
  • Area Network Area Network
  • WAN wide area network
  • the storage unit 180 serves to store information collected, generated, and processed in various components of the video caption filtering system 100 . That is, various types of information such as pronunciation patterns and expression patterns managed by the pattern management unit 110 and information about viewers may be stored in the storage unit 180 .
  • the storage unit 180 may include, for example, a memory, a cache, a buffer, and the like, and may be composed of software, firmware, hardware, or a combination of at least two or more of these.
  • the control unit 190 includes a pattern management unit 110, a viewer ability setting unit 120, a voice difficulty evaluation unit 130, an expression difficulty evaluation unit 140, a listening difficulty evaluation unit 150, a subtitle filter unit 160, It may play a role of controlling data flow between the communication unit 170 and the storage unit 180 . That is, the control unit 190 according to an embodiment of the present invention includes a pattern management unit 110, a viewer ability setting unit 120, a voice difficulty evaluation unit 130, an expression difficulty evaluation unit 140, a listening difficulty evaluation unit ( 150), the caption filter unit 160, the communication unit 170, and the storage unit 180 can be controlled to perform unique roles.
  • the pattern management unit 110, the viewer ability setting unit 120, the voice difficulty evaluation unit 130, the expression difficulty evaluation unit 140, the listening difficulty evaluation unit 150, and the subtitle filter unit 160 include a control unit ( 190) is functionally classified, so it may be integrated and configured as one control unit 190.
  • FIG. 3 is a flowchart illustrating an operating method of the video caption filtering system 100 according to an embodiment of the present invention.
  • the video caption filtering system 100 may start operating when a viewer selects a video he/she wants to watch through the viewer terminal 200 (S310).
  • the video caption filtering system 100 may first set the foreign language listening ability of the viewer (S320). This is because whether or not to display subtitles can be determined according to the level of difficulty of each voice line in a video when the viewer's foreign language listening ability is set. Difficulty evaluation for each voice line in the video can be performed independently of the viewer's foreign language listening ability setting.
  • the viewer's foreign language listening ability may be set by default by the viewer or administrator's choice, and the viewer's foreign language listening ability measured based on the results of the quiz after listening to other videos in the past Set according to information may have been
  • the video caption filtering system 100 may extract audio and dialogue scripts from the selected video (S330).
  • the video caption filtering system 100 may check exposure time section information included in each caption to determine whether or not to filter, and extract audio and dialogue scripts in the video corresponding to the section.
  • the dialogue script may be a foreign language version of the subtitle, may be received from an external device in synchronization with the subtitle, or may be extracted from the video audio of the corresponding section through voice recognition.
  • the video caption filtering system 100 may perform voice difficulty evaluation and expression difficulty evaluation based on the audio and dialogue scripts of the video (S340).
  • evaluation of voice difficulty may be performed based on voice analysis of a video and text analysis of dialogue scripts, and evaluation of expression difficulty may be performed based only on text analysis of dialogue scripts.
  • the video caption filtering system 100 may calculate the listening difficulty used for caption filtering by synthesizing the voice difficulty and expression difficulty (S350).
  • the video caption filtering system 100 separates the audio provided in the video for each voice line corresponding to the subtitle and determines whether the viewer's foreign language listening ability is higher than the listening difficulty of the corresponding line (S360), and the viewer's foreign language listening ability corresponds to the corresponding line. If the line is higher than the listening level, filtering may be determined so that the subtitle corresponding to the line is not displayed (S370). In contrast, if the viewer's foreign language listening ability is lower than the listening difficulty of the corresponding voice line, the subtitle corresponding to the line may be displayed without being filtered.
  • FIG. 4 is a diagram for explaining an operating method of a phoneme interval analyzer operating in the video caption filtering system 100 according to an embodiment of the present invention.
  • the voice difficulty evaluation unit 130 in the video caption filtering system 100 may include the phoneme interval analysis unit of FIG. Phoneme strings and phoneme intervals can be output.
  • the audio waveform of the video and the candidate phoneme array are displayed as input values provided to the phoneme interval analyzer.
  • acoustic feature values extracted from voice lines, not voice waveforms may be input and utilized.
  • the plurality of candidate phoneme strings may be generated by the candidate phoneme string generation unit 132, and the phoneme interval analyzer may apply each of the candidate phoneme strings to the audio of the video and output a degree of suitability for each phoneme string. Thereafter, the optimal phoneme sequence selection unit 133 may select a candidate phoneme sequence having the highest degree of suitability as the optimum phoneme sequence.
  • FIG. 5 is a diagram for explaining a state in which captions are filtered by the video caption filtering system 100 according to an embodiment of the present invention.
  • FIG. 5 illustrates a state in which a viewer watches two scenes of a video through the viewer terminal 200, in which English lines are provided by characters, respectively.
  • FIG. 6 is a diagram for explaining the viewer capability setting unit 120 operating within the video caption filtering system 100 according to an embodiment of the present invention.
  • the viewer ability setting unit 120 may receive a listening difficulty level value corresponding to the foreign language listening ability of the viewer through a viewer ability setting unit displayed on one side of the screen of the viewer terminal 200 .
  • subtitles of a video can be selectively filtered according to the viewer's foreign language listening ability, and accordingly, the viewer's video viewing environment can be improved and language learning can be helpful.
  • Steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, implemented in a software module executed by hardware, or implemented by a combination thereof.
  • a software module may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art to which the present invention pertains.
  • the present invention is expected to contribute to the development of the foreign language education industry in particular as an exemplary application of artificial intelligence technology such as deep learning to the education industry.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

외국어 동영상 자막 필터링 방법 및 이를 수행하는 시스템이 개시된다. 본 발명의 다양한 실시예 중 하나에 따르면, 동영상 자막을 필터링하는 시스템에 있어서, 외국어 발음 패턴 및 표현 패턴을 관리하는 패턴 관리부; 시청자의 외국어 청취 실력을 설정하는 시청자 실력 설정부; 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 음성 난이도 평가부; 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 표현 난이도 평가부; 상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 청취 난이도 평가부; 및 상기 시청자의 외국어 청취 실력과 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 자막 필터부를 포함하는, 동영상 자막 필터링 시스템이 개시될 수 있다.

Description

외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템
본 발명은 외국어 동영상 시청중 번역 자막이 필요없는 대사의 경우 자막을 표출하지 않는 새로운 동영상 시청 환경을 제공하고자 하는 기술에 대한 것이다.
외국어가 나오는 동영상과 함께 제공되는 자막은 동영상의 내용을 쉽게 파악할 수 있게 하여 해당 외국어를 잘 알지 못하는 상황에서도 콘텐츠의 내용을 파악할 수 있게 하나, 모순적으로 자막이 콘텐츠의 감상을 방해하는 경우 또한 존재한다.
자막이 영상의 내용을 완벽하게 번역하지 못하는 경우도 있으며, 자막없이도 이해 가능한 장면에서 자막에 신경 쓰다가 영상에 집중하지 못하게 되는 경우도 존재한다.
따라서, 동영상의 시청자가 자막 없이 이해 가능한 대사가 제공되는 상황에서는 자막이 없는 것이 시청에 효과적일 수 있다. 다만, 어떠한 장면에서 자막이 표시되고 어떠한 장면에서 자막이 표시되지 않는 것이 효율적인지에 대한 연구가 필요한 실정이다.
자막에 대한 적절한 필터링은 시청자들이 동영상에 보다 집중할 수 있게 하며, 어학 학습에도 도움이 될 수 있어, 자막을 필터링할 수 있는 적절한 시스템이 필요한 상황이다.
본 발명의 다양한 실시예는 외국어 동영상을 시청하는 환경에서 표시되는 자막을 시청자의 외국어 수준에 맞춰 효율적으로 제공하는 것을 그 목적으로 한다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 다양한 실시예 중 하나에 따르면, 동영상 자막을 필터링하는 시스템에 있어서, 외국어 발음 패턴 및 표현 패턴을 관리하는 패턴 관리부; 시청자의 외국어 청취 실력을 설정하는 시청자 실력 설정부; 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 음성 난이도 평가부; 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 표현 난이도 평가부; 상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 청취 난이도 평가부; 및 상기 시청자의 외국어 청취 실력과 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 자막 필터부를 포함하는, 동영상 자막 필터링 시스템이 개시될 수 있다.
상기 패턴 관리부는 단어별 또는 문장별 음소열 및 음소 구간 정보를 관리하며, 상기 음성 난이도 평가부는, 동영상의 대사 스크립트에서 기준 음소열 및 음소 구간을 추출하는 기준 음소열 추출부; 동영상의 대사 스크립트 또는 기준 음소열에 발음 변환 규칙을 적용하여 기준 음소열 포함 적어도 하나 이상의 후보 음소열을 생성하는 후보 음소열 생성부; 및 상기 후보 음소열 생성부에 의해 생성된 후보 음소열들을 기초로 최적 음소열을 선정하고 구성 음소별 음소 구간 길이를 추출하는 최적 음소열 선정부를 더 포함하며, 상기 음성 난이도 평가부는 상기 기준 음소열 추출부에 의해 추출된 기준 음소열과 상기 최적 음소열 선정부에 의해 선정된 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.
상기 음성 난이도 평가부는, 특정 음성에 대해 기준 음소열 대비 최적 음소열에 적용된 발음 변환 규칙을 기초로 상기 음성 난이도를 평가할 수 있다.
상기 기준 음소열 추출부는, 동영상의 대사 스크립트가 기본형인지 여부를 체크하고 기본형이 아닌 경우 대사 스크립트를 기본형으로 복원하고 복원된 대사 스크립트로부터 기본 음소열 및 음소 구간을 추출할 수 있다.
상기 패턴 관리부는, 음성 및 문장 텍스트별 음소열 및 음소 구간 정보를 딥러닝하여 구축된 인공지능 데이터 세트 및 상기 인공지능 데이터 세트에 기초하여 텍스트 입력에 대해 음소열과 음소 구간 정보를 제공하는 음소 구간 추출부를 추가로 포함하고, 상기 기준 음소열 추출부는, 상기 음소 구간 추출부를 통해 음소열 및 음소 구간을 추출하는 것을 특징으로 할 수 있다.
상기 음성 난이도 평가부는, 기준 음소열과 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 과정에서, 기준 음소열의 음소 구간 길이 대비 최적 음소열의 음소 구간 길이에 기초하여 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.
상기 패턴 관리부는, 난청 발음에 대한 패턴 정보를 추가로 관리하며, 상기 음성 난이도 평가부는, 기준 음소열 또는 최적 음소열로부터 검출되는 난청 발음 패턴 정보를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.
상기 패턴 관리부는, 외국어에 대한 발음 패턴 또는 발음 변환 규칙들의 발생 빈도를 추가로 제공하며, 상기 음성 난이도 평가부는, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴 또는 발음 변환 규칙의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.
상기 패턴 관리부는, 외국어에 대한 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 추가로 제공하며, 상기 음성 난이도 평가부는, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 할 수 있다.
상기 패턴 관리부는, 표현 패턴과 관련하여 단어 통계, 구문 유형 통계 또는 단어열 통계 중 적어도 하나 이상을 관리하며, 상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은, 상기 동영상의 대사 스크립트에 포함되는 단어, 구문 유형 또는 단어열에 대해 표현 패턴의 단어 통계, 구문 유형 통계 또는 단어열 통계를 기초로 표현 난이도를 평가하는 것을 특징으로 할 수 있다.
상기 패턴 관리부는, 표현 패턴과 관련하여 대사 스크립트에 포함된 단어들에 대한 동사 여부를 판단할 수 있는 정보를 추가로 관리하며, 상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은, 동영상 대사 스크립트에 포함된 동사의 숫자를 기초로 표현 난이도를 평가하는 것일 수 있다.
상기 자막 필터부는, 시청자의 외국어 청취 실력과 상기 청취 난이도 평가부에 의해 계산된 청취 난이도가 기 정해진 일정한 차이 이내로 판단되면, 기 정해진 일정 확률을 기반으로 하여 자막의 표시 여부를 결정하는 것을 특징으로 할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다양한 실시예 중 하나에 따르면, 동영상 자막 필터링 시스템이 동영상 자막의 필터링을 수행하는 방법에 있어서, 외국어 발음 패턴 및 표현 패턴을 저장하여 관리하는 단계; 시청자의 외국어 청취 난이도를 설정하는 단계; 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 단계; 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 단계; 상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 단계; 및 상기 시청자의 외국어 청취 난이도와 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 단계를 포함하는, 동영상 자막 필터링 시스템의 동영상 자막 필터링 수행 방법이 개시될 수 있다.
본 발명의 실시예에 따르면, 동영상 시청자의 외국어 청취 난이도 수준과 동영상에서 제공되는 음성 대사의 청취 난이도가 비교되어 해당 자막의 선택적 필터링이 수행됨으로써, 실력보다 낮은 난이도에 대한 내용은 자막이 표시되지 않을 수 있다.
시청자의 외국어 청취 실력에 기초한 자막의 선택적 필터링이 수행됨에 따라, 시청자는 보다 쾌적한 동영상 청취 환경을 제공받을 수 있으며, 어학 능력 향상에도 도움을 받을 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템이 동작하는 환경에 대한 개략도이다.
도 2는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템의 구성을 개략적으로 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템의 동작 방식을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템 내에서 동작하는 음소 구간 분석부의 동작 방식을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템에 의해 자막이 필터링되는 상태를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템 내에서 동작하는 시청자 실력 설정부를 설명하기 위한 도면이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 발명을 통해 제공되는 동영상 자막 필터링 시스템은 외국어 동영상에 표시되는 자막 중 일부분을 필터링하는 기술로, '외국어'라 함은 표시되는 자막에 해당하는 언어와 상이한 언어를 의미할 수 있다. 즉, 한국인의 입장에서 '외국어'는 한국어가 아닌 상이한 언어를 의미할 수 있지만, 다른 언어를 쓰는 사람의 입장에서는 '외국어'가 한국어가 될 수도 있다. 즉, 본 발명에서의 외국어 및 자막은 특정 언어에 한정되거나 특정 언어를 배제하지 않는 개념일 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 다양한 실시예들을 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)이 동작하는 환경에 대한 개략도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)은 시청자 단말기(200), 관리자 단말기(300) 및 외부 서버(400)와 연결되어 통신하는 환경 내에서 동작할 수 있다.
동영상 자막 필터링 시스템(100)은 연결된 기기로부터 동영상 및 동영상에 대한 대사 스크립트를 수신하여 자막 필터링 여부를 결정하는 전자 장치 또는 서버와 같은 형태의 시스템으로 구성될 수 있다. 또한, 동영상 자막 필터링 시스템(100)은 스마트폰, 태블릿 등과 같은 특정 전자기기에 설치되어 동작하는 어플리케이션 등과 같은 프로그램 형태의 소프트웨어로 구성될 수도 있다.
한편, 동영상 자막 필터링 시스템(100)은 외국어 자막이 존재하는 경우 외국어 자막을 대사 스크립트로 사용할 수도 있고, 외국어 자막이 존재하지 않는 경우 연결된 외부기기로부터 별도로 대사 스크립트를 입력받아 사용할 수도 있으며, 또는 자막과 대응되는 동영상내 음성 대사로부터 음성인식을 통해 대사 스크립트를 생성할 수도 있다.
다른 한편, 각 대사 스크립트에는 대응되는 동영상 플레이 시간에 대한 구간 정보가 배정되어 있어 각 대사 스크립트와 동영상 내의 음성이 연동될 수 있다. 또한, 바람직하게는, 각 대사 스크립트의 동영상 플레이 시간에 대한 구간 정보는 자막에 배정된 동영상 플레이 시간에 대한 구간 정보와 호응될 수 있다.
동영상 자막 필터링 시스템(100)은 동영상 음성 및 대사 스크립트로 청취 난이도를 측정하고, 동영상을 감상할 시청자의 외국어 청취 실력을 확보하여 청취 난이도와 청취 실력을 비교함으로써, 동영상의 음성 중 대응되는 자막을 표시할 부분과 표시하지 않을 부분의 결정을 수행할 수 있다.
동영상 자막 필터링 시스템(100)은 동영상내 모든 음성 및 대사 스크립트별로 미리 청취 난이도를 측정해 두고, 이후 시청자에 따라 시청자 외국어 청취 실력에 맞춰 각 음성 대사에 대응되는 자막의 필터링 여부를 결정할 수도 있다.
일 실시예에 따르면, 동영상 자막 필터링 시스템(100)은 청취 난이도를 측정함에 있어, 동영상의 음성 및 대사 스크립트를 기초로 '음성'의 난이도를 평가하고, 동영상의 대사 스크립트만을 기초로 '표현' 자체의 난이도를 평가한 이후에 음성 난이도와 표현 난이도를 종합하여 최종적으로 동영상 음성에 대한 '청취' 난이도를 평가할 수 있다.
시청자 단말기(200)는 동영상 자막 필터링 시스템(100)을 활용하여 동영상을 감상하고자 하는 시청자에 의해 제어되는 단말기로, 시청자는 웹 브라우저 또는 시청자 단말기(200) 상에 설치된 동영상 감상 프로그램을 통하여 동영상 자막 필터링 시스템(100)의 기술이 적용된 동영상을 감상할 수 있다.
시청자 단말기(200)는 동영상 자막 필터링 시스템(100)과의 통신을 수행하여 동영상 자막 필터링 시스템(100)으로부터 수신하는 데이터를 기초로 하여 시청자 단말기(200) 상에서 재생되는 동영상의 자막 표시 여부를 결정할 수 있으며, 시청자 단말기(200) 내에 소프트웨어 형태로 설치된 동영상 자막 필터링 시스템(100)을 활용하여 시청자 단말기(200) 상에서 재생되는 동영상의 자막 표시 여부를 결정할 수도 있다. 또한, 시청자 단말기(200)는 동영상 자막 필터링 시스템(100)으로부터 시청자의 외국어 수준에 맞게 모든 대사에 대해 필터링 여부가 미리 반영된 자막을 수신하여 동영상과 함께 표출만 할 수도 있다.
관리자 단말기(300)는 동영상 자막 필터링 시스템(100)을 관리하는 주체에 의해 제어되는 단말기로, 일 실시예에 따르면 관리자는 동영상 자막 필터링 시스템(100)의 제작자일 수 있다.
관리자는 관리자 단말기(300)를 통해 동영상 자막 필터링 시스템(100)이 동작하는 방법에 대한 상세 설정을 수행할 수 있으며, 상세하게는 시청자의 외국어 실력 확보 방법, 음성 난이도의 평가 방법, 표현 난이도의 평가 방법, 청취 난이도의 계산 방법 등을 설정할 수 있다.
시청자 단말기(200) 및 관리자 단말기(300)는 동작에 필요한 정보들을 저장하는 메모리, 동작에 필요한 각종 연산을 수행하는 CPU와 같은 중앙처리장치, 입출력 장치 등을 포함하여 구성될 수 있다.
이러한 시청자 단말기(200) 및 관리자 단말기(300)는 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC, 등과 같이 네트워크를 통하여 웹 서버와 연결될 수 있는 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있으며, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터 등), 워크스테이션, 웹 패드 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기 중 하나일 수도 있다.
외부 서버(400)는 동영상 자막 필터링 시스템(100)의 원활한 동작을 위해 필요한 데이터를 제공하는 서버로, 일 실시예에 따르면 외부 서버(400)는 OTT 서비스를 제공하는 서버로 구성되어 동영상 및 동영상에 대한 외국어 자막 또는 번역 자막을 동영상 자막 필터링 시스템(100) 측으로 제공할 수 있다.
본 발명의 일 실시예에 따르면, 동영상 자막 필터링 시스템(100)의 동작 환경 내에서 동작하는 각 주체들이 통신하기 위해서 사용하는 통신망은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 예를 들면, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구현될 수 있다. 바람직하게는, 본 발명의 일 실시예에 따른 통신망은 공지의 월드와이드웹(WWW: World Wide Web) 등일 수도 있다.
도 2는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)의 구성을 개략적으로 나타낸 블록도이다.
도 2를 참조하면, 동영상 자막 필터링 시스템(100)은 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150), 자막 필터부(160), 통신부(170), 저장부(180) 및 제어부(190)를 포함하여 구성될 수 있다.
패턴 관리부(110)는 특정 언어에 대한 발음 패턴 및 표현 패턴을 저장하여 관리할 수 있다. 패턴 관리부(110)에 의해 관리되는 발음 패턴 및 표현 패턴 등은 추후 동영상의 음성 및 대사 스크립트를 기초로 음성 난이도 및 표현 난이도를 평가하는 과정에서 활용될 수 있다.
패턴 관리부(110)는 발음 패턴 정보로서 단어별 또는 문장별 음소열 및 음소 구간에 대한 정보를 관리할 수 있다. 또한, 패턴 관리부(110)는 발음 패턴 정보로서 난청 발음에 대한 패턴 정보 및 발음 변환 규칙에 대한 정보 또한 관리할 수 있다.
패턴 관리부(110)는 단어별 또는 문장별 음소열 및 음소 구간 정보를 직접 관리할 수 있다. 패턴 관리부(110)는 다량의 음성 및 각각의 음성에 해당하는 문장의 텍스트별 음소열 및 음소 구간 정보를 딥러닝하여 구축된 인공지능 데이터 세트 및 인공지능 데이터 세트 또는 인공지능 모델에 기초하여 텍스트 입력에 대해 음소열과 음소 구간 정보를 제공하는 음소 구간 추출부를 추가로 포함하고, 음소 구간 추출부를 통해 문장 텍스트별 음소열 및 음소 구간 정보를 제공할 수도 있다.
패턴 관리부(110)에 의해 관리되는 발음 변환 규칙은 다양한 형태의 규칙을 포함할 수 있다. 예를 들어, 자발성 자음과 약모음이 연속될 경우에 약모음이 생략되는 규칙, 비자발성 자음과 자음이 연속될 경우에 비자발성 자음이 생략되는 규칙, 단모음이 강세가 없으면 약화(schwa)되는 규칙, 문장을 시작하는 약모음이 생략되는 규칙, 약모음과 강모음이 연속될 경우에 강모음만 나타나는 규칙 등이 포함될 수 있다. 또한, 자음 t와 자음 r이 연속될 경우 ch로 변환되는 규칙과 같이 구체적 발음과 관련된 축약, 삭제, 변환 등의 규칙 등이 포함될 수도 있다. 자발성 자음이란 모음이 받쳐주지 않아도 자체로 발성이 가능한 s, z, f, v, sh, ch, r, l과 같은 자음들이고, 비자발성 자음이란, p, t, k, b, d, g와 같이 원칙적으로 모음이 없으면 발성되지 않는 자음들이다.
한편, 상기 발음 변환 규칙들이 적용될 때에는 연이어 적용될 수도 있다. 예를 들어, 단모음이 강세가 없으면 약화되는 규칙에 따라 발음 변환이 일어난 상태에 다시 자발성 자음과 약모음이 연속될 경우에 약모음이 생략되는 규칙이 연속으로 적용될 수도 있다.
패턴 관리부(110)에 의해 관리되는 난청 발음 패턴은, 동일한 자음이 연속되어 나타나는 패턴, 유사한 자음이 연속되는 패턴, 유사한 모음이 연속되는 패턴, 영어를 예로 들었을 때에 t, p, k와 같은 알파벳에 대한 발음들이 경음화되는 패턴 등을 포함할 수 있다.
한편, 패턴 관리부(110)는 발음 패턴이 나타나는 빈도 및 발음 변환 규칙이 적용되는 빈도에 대한 통계 정보, 더 나아가, 발음 패턴이 나타나는 구체적 음소열의 발생 빈도 및 발음 변환 규칙이 적용되는 구체적 음소열의 발생 빈도에 대한 통계 정보를 추가로 포함할 수도 있다.
패턴 관리부(110)는 표현 패턴과 관련하여 단어 통계, 구문 유형 통계 및 단어열 통계에 대한 정보를 관리할 수 있다. 단어열 통계란 N-Gram 통계로서 N개의 연속 단어들의 발생 빈도 정보를 의미한다.
패턴 관리부(110)는 표현 패턴과 관련하여 대사 스크립트내 단어들에 대해 동사 여부를 판단할 수 있는 정보를 관리할 수 있다.
시청자 실력 설정부(120)는 시청자가 동영상 자막 필터링 시스템(100)을 활용하여 동영상을 감상하기 이전에 해당 시청자의 외국어 청취 실력을 판단하여 시청자의 외국어 청취 실력을 설정할 수 있다.
시청자 실력 설정부(120)의 시청자 외국어 청취 실력 설정은 다양한 방식으로 수행될 수 있다. 일 실시예에 따르면, 시청자가 시청자 단말기(200)를 통해 자신의 실력 정도를 입력함에 따라 시청자의 외국어 청취 실력이 설정될 수 있으며, 이와 달리 시청자 실력 설정부(120)에 의해 제공되는 청취력 테스트 퀴즈에 대한 정답을 시청자가 입력하면 시청자 실력 설정부(120)가 시청자가 맞힌 문제와 맞히지 못한 문제에 근거하여 시청자의 외국인 청취 실력을 설정할 수도 있다. 시청자 실력 설정부(120)가 퀴즈를 제공하는 경우, 퀴즈는 시청자가 특정 동영상을 청취하기 이전 또는 청취한 이후에 해당 동영상의 음성 및 대사 스크립트와 관련된 문제로 제공될 수도 있다.
시청자 실력 설정부(120)의 시청자 외국어 청취 실력 설정은 시청자가 동영상을 감상하는 동안에도 실시간으로 수행될 수 있으며, 그에 따라 음성 대사에 대응되는 자막이 표시될 것인지에 대한 기준 또한 실시간으로 변경될 수 있다. 필터링 여부가 사전에 일괄 결정된 자막을 제공하는 방식에서는 새로 설정된 시청자 실력에 맞춰 재필터링된 자막이 제공될 수 있다.
음성 난이도 평가부(130)는 동영상에서 출력되는 음성 및 동영상의 대사 스크립트를 기초로 동영상의 음성 난이도를 평가할 수 있다. 즉, 음성 난이도는 동영상에서 출력되는 음성 그 자체와 동영상의 대사 스크립트를 기초로 분석되는 발음 패턴에 의한 음성 난이도가 종합되는 형태로 평가될 수 있다.
일 실시예에 따르면, 음성 난이도 평가부(130)는 기준 음소열 추출부(131), 후보 음소열 생성부(132) 및 최적 음소열 선정부(133)를 포함하는 형태로 구성될 수 있다.
기준 음소열 추출부(131)는 동영상의 대사 스크립트에서 기준 음소열 및 음소 구간을 추출하는 동작을 수행할 수 있다.
기준 음소열 추출부(131)는 패턴 관리부(110)에 의해 관리되는 또는 제공되는 단어별 또는 문장별 음소 구간 정보에 기초하여 음소열 및 음소 구간을 추출할 수 있다. 대사 스크립트의 기준 음소열 및 음소 구간 정보는 기본적으로 패턴 관리부(110)에 의해 관리되는 단어들의 음소열 및 음소 구간 정보의 조합에 의해 획득될 수도 있다.
기준 음소열 추출부(131)는 대사 스크립트가 기본형인지 여부를 체크하고 기본형이 아닌 경우 대사 스크립트를 기본형으로 복원하고 복원된 대사 스크립트로부터 기준 음소열 및 음소 구간을 추출할 수도 있다. 기본형이란 축약 등으로 단어들의 형태가 변형되기 전의 기본 형태의 구문을 의미한다. 예를 들어, 기준 음소열 추출부(131)는 'should've, don't, whatcha, wanna' 와 같은 표현이 포함되어 있으면 해당 부분을 'should have, do not, what are you, want to'와 같은 기본형으로 복원한 후 복원된 대사 스크립트로부터 기본 음소열 및 음소 구간을 추출할 수도 있다.
후보 음소열 생성부(132)는 동영상의 대사 스크립트 또는 기준 음소열에 발음 변환 규칙을 적용하여 적어도 하나 이상의 후보 음소열을 생성할 수 있다. 이 과정에서 후보 음소열 생성부(132)가 생성하는 후보 음소열에는 기준 음소열이 기본적으로 포함될 수 있다. 적용되는 발음 변환 규칙들은 전술된 패턴 관리부(110)에 의해 관리될 수 있다. 한편, 바람직하게는, 대사 스크립트는 기본형으로 구성될 수 있다.
최적 음소열 선정부(133)는 후보 음소열 생성부(132)가 생성한 복수의 후보 음소열 중 하나를 최적 음소열로 선정하고 그 과정에서 구성 음소별 음소 구간 길이도 추출할 수 있다.
최적 음소열 선정부(133)는 복수의 후보 음소열 각각을 동영상에서 출력되는 음성에 적용하여 음소 구간 분석을 수행하고 이를 통해 최적 음소열을 선정할 수 있다. 이와 같은 과정에서 음소 구간 분석은 음성 난이도 평가부(130)의 추가적인 구성인 음소 구간 분석부에 의해 수행될 수 있으며, 음소 구간 분석부는 Gaussian Hidden Markov Model 또는 Gaussian Neural Network 모델 등에 기반하여 음소 구간을 출력할 수 있다. 최적 음소열 선정부(133)는 음소 구간 분석부에 후보 음소열들을 입력하여 해당 음성에 대한 적합도가 가장 큰 음소열 및 음소 구간을 출력으로 받을 수 있다.
최종적으로, 음성 난이도 평가부(130)는 기준 음소열 추출부(131)에 의해 추출된 기준 음소열과, 최적 음소열 선정부(133)에 의해 선정된 최적 음소열 간의 비교를 통해 음성 난이도를 평가할 수 있다.
음성 난이도 평가부(130)는 이와 같이 기준 음소열과 최적 음소열의 비교를 통해 음성 난이도를 평가하는 과정에서, 기준 음소열의 음소 구간 길이 대비 최적 음소열의 음소 구간 길이에 기초하여 음성 난이도를 평가할 수 있다. 예를 들어, 대응되는 음소별로 최적 음소열의 음소 구간 길이가 기준 음소열의 음소 구간 길이에 비해 짧아질수록, 음성 난이도는 높게 평가될 수 있다.
일 실시예에 따르면, 음성 난이도 평가부(130)는 기준 음소열 또는 최적 음소열로부터 검출되는 난청 발음 패턴 정보를 기초로 음성 난이도의 평가를 수행할 수 있다.
음성 난이도 평가부(130)는 기준 음소열 또는 최적 음소열상에 원어민이 아닌 시청자의 청취를 어렵게 하는 유사 자음의 연속, 모음 연속, 자발성 자음과 약모음의 연속 등 난청 발음 패턴이 나타나면 이를 기초로 음성 난이도를 평가할 수 있다. 예를 들어, 'have books'와 같은 표현에서는 앞 단어 끝 자음과 뒷 단어 첫 자음이 유사하여 앞 단어 끝 자음 [v]가 잘 안 들릴 가능성이 있기에 그에 따라 음성 난이도가 상승될 수 있다.
일 실시예에 따르면, 음성 난이도 평가부(130)는 동영상을 통해 출력되는 특정 음성에 대해 선정된 최적 음소열에 적용된 발음 변환 규칙을 기초로 음성 난이도 평가를 수행할 수 있다.
음성 난이도 평가부(130)는 동영상 각 대사 음성에 대해 선정된 최적 음소열에 적용된 각종 유형의 축약, 삭제, 변환 등 발음 변환 규칙을 기초로 음성 난이도 평가를 수행할 수 있다. 예를 들어, 'suit you'와 같은 표현은 앞 단어 끝 자음 [t]와 뒷 단어 첫 자음 [y]가 변환하여 [ch]로 발음될 수 있는데 이런 경우에 있어 시청자에게 연속된 단어들이 익숙하지 않은 경우에 음성 난이도가 증가할 수 있다. 한편, 최적 음소열에 적용된 발음 변환 규칙은 최적 음소열로 선정된 후보 음소열을 후보 음소열 생성부에서 생성할 때 적용한 하나 이상의 발음 변환 규칙들을 의미한다.
음성 난이도 평가부(130)는 발음 변환 규칙 또는 난청 발음 패턴에 가중치를 두고 정도를 달리하여 음성 난이도 평가에 반영할 수도 있다.
음성 난이도 평가부(130)는 패턴 관리부(110)에 의해 제공되는 발음 패턴 또는 발음 변환 규칙들의 발생 빈도에 대한 정보를 기초로 하여, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴 또는 발음 변환 규칙의 발생 빈도를 토대로 음성 난이도의 평가를 수행할 수도 있다.
더 나아가, 음성 난이도 평가부(130)는 패턴 관리부(110)에 의해 제공되는 발음 패턴이 나타난 또는 발음 변환 규칙이 적용된 구체적 음소열의 발생 빈도에 대한 정보를 기초로 하여, 기준 음소열 또는 최적 음소열에 등장하는 발음 패턴이 나타난 또는 발음 변환 규칙이 적용된 실제 음소열의 발생 빈도를 토대로 음성 난이도의 평가를 수행할 수도 있다.
표현 난이도 평가부(140)는 동영상의 대사 스크립트만을 기초로 하여 표현 난이도를 평가할 수 있다. 즉, 표현 난이도 평가부(140)에 의해 평가되는 표현 난이도는 동영상을 통해 출력되는 실제 음성과는 상관없이 대사 스크립트의 텍스트 만을 통해 결정되는 것일 수 있다.
본 발명의 일 실시예에 따르면, 표현 난이도 평가부(140)는 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정에서, 동영상의 대사 스크립트에 포함되는 단어, 구문 유형 또는 단어열에 대해 표현 패턴의 단어 통계, 구문 유형 통계 또는 단어열 통계를 기초로 표현 난이도의 평가를 수행할 수 있다. 예를 들어, 표현 난이도 평가부(140)는 다양한 통계를 바탕으로 특정 단어, 구문 유형, 단어열이 통계상 잘 활용되지 않는 경우에는 난이도를 보다 높게 측정할 수 있다.
일 실시예에 따르면, 표현 난이도 평가부(140)는 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정에서, 패턴 관리부(110)에 의해 관리되는 단어들에 대한 동사 여부 판단 정보에 기초하여, 동영상 대사 스크립트에 포함된 동사의 숫자를 파악하고 이를 기초로 표현 난이도의 평가를 수행할 수 있다.
즉, 특정 표현에 동사의 수가 많을수록 해당 표현의 구문 복잡도가 증가하게 되어 해당 표현을 청취하여 이해하기 위한 난이도가 증가할 수 있으므로, 표현 난이도 평가부(140)는 동사의 숫자가 많을수록 표현 난이도가 증가되게 하는 방식으로 평가를 수행할 수 있게 된다.
청취 난이도 평가부(150)는 음성 난이도 평가부(130)에 의해 평가된 음성 난이도와, 표현 난이도 평가부(140)에 의해 평가된 표현 난이도를 종합하여 동영상의 음성에 대한 최종적인 청취 난이도를 계산할 수 있다.
자막 필터부(160)는 시청자 실력 설정부(120)에 의해 설정된 시청자의 외국어 청취 실력과, 청취 난이도 평가부(150)에 의해 계산된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정할 수 있다.
즉, 자막 필터부(160)는 동영상에 나오는 음성 대사별로 계산된 청취 난이도를 기초로, 시청자의 외국어 청취 실력보다 높은 난이도의 청취 난이도로 분류되는 대사는 해당 대사에 대한 번역된 자막을 표시하고, 시청자의 외국어 청취 실력보다 낮은 난이도의 청취 난이도로 분류되는 대사는 해당 대사에 대한 번역된 자막이 표시되지 않도록 제어할 수 있다.
자막 필터부(160)는 시청자의 외국어 청취 실력과 동영상내 음성 대사별 청취 난이도가 동일한 경우나, 시청자 외국어 청취 실력과 특정 음성 대사의 청취 난이도가 기 정해진 일정한 차이 이내인 경우에는 미리 설정된 방식에 따라 해당 대사의 자막 표시 여부가 결정될 수 있다.
예를 들어, 특정 시청자는 자신의 외국어 청취 실력과 비슷한 청취 난이도로 평가되는 음성 대사에 대해서는 자막을 제공받고 싶을 수 있으며, 다른 시청자는 이와 달리 자신의 외국어 청취 실력과 비슷한 청취 난이도로 평가되는 음성 대사에 대해서는 자막이 표시되는 것을 원하지 않을 수 있다. 이와 같은 상황에서는, 시청자의 설정 또는 관리자의 설정에 의해 자막의 표시 여부가 결정될 수도 있다.
본 발명의 일 실시예에 따르면, 자막 필터부(160)는 시청자의 외국어 청취 실력과 동영상내 음성 대사별 청취 난이도가 동일한 경우나, 시청자 외국어 청취 실력과 특정 음성 대사의 청취 난이도가 기 정해진 일정한 차이 이내인 경우에 있어서, 기 정해진 일정 확률을 기반으로 하여 랜덤으로 자막의 표시 여부를 결정할 수 있다.
예를 들어, 상기와 같은 경우에 정해진 자막 표시 확률이 50%인 경우에는, 시청자의 외국어 청취 실력과 동영상에서 출력되는 음성의 청취 난이도가 일정한 차이 이내인 대사는 50%의 확률로 자막이 표시되고, 나머지 50%의 확률로 자막이 표시되지 않을 수 있다.
통신부(170)는 동영상 자막 필터링 시스템(100)이 시청자 단말기(200), 관리자 단말기(300) 및 외부 서버(400)와의 통신을 수행할 수 있도록 한다. 통신부(170)가 통신을 수행하기 위해서 사용하는 통신망은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 예를 들면, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구현될 수 있다.
저장부(180)는 동영상 자막 필터링 시스템(100)의 각종 구성부 내에서 수집되고, 생성되고, 가공되는 정보들을 저장하는 역할을 수행한다. 즉, 저장부(180)에는 패턴 관리부(110)가 관리하는 발음 패턴, 표현 패턴 등의 각종 정보와 시청자들에 대한 정보 등이 저장될 수 있다. 이러한 저장부(180)는 예를 들어, 메모리(memory), 캐시(cash), 버퍼(buffer) 등을 포함할 수 있으며, 소프트웨어, 펌웨어, 하드웨어 또는 이들 중 적어도 둘 이상의 조합으로 구성될 수 있다.
제어부(190)는 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150), 자막 필터부(160), 통신부(170) 및 저장부(180) 간의 데이터 흐름을 제어하는 역할을 수행할 수 있다. 즉, 본 발명의 일 실시예에 따른 제어부(190)는 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150), 자막 필터부(160), 통신부(170) 및 저장부(180)에서 각각 고유한 역할을 수행하도록 제어할 수 있다.
도 2에서 패턴 관리부(110), 시청자 실력 설정부(120), 음성 난이도 평가부(130), 표현 난이도 평가부(140), 청취 난이도 평가부(150) 및 자막 필터부(160)는 제어부(190)를 기능적으로 분류한 구성이므로 하나의 제어부(190)로서 통합되어 구성될 수도 있다.
도 3은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)의 동작 방식을 설명하기 위한 흐름도이다.
도 3을 참조하면, 동영상 자막 필터링 시스템(100)은 시청자가 시청자 단말기(200)를 통해 자신이 시청하기를 원하는 동영상을 선택하면 동작을 시작할 수 있다(S310).
동영상 자막 필터링 시스템(100)은 우선적으로 시청자의 외국어 청취 실력을 설정할 수 있다(S320). 시청자의 외국어 청취 실력이 설정되어 있어야 동영상의 각 음성 대사에 대한 난이도에 따라 자막의 표시 여부가 결정될 수 있기 때문이다. 동영상의 각 음성 대사에 대한 난이도 평가는 시청자의 외국어 청취 실력 설정과 독립적으로 수행될 수 있다.
시청자의 외국어 청취 실력은 시청자 또는 관리자의 선택에 의해 기본으로 설정되어 있을 수 있으며, 시청자가 과거에 다른 동영상을 청취하고 난 후 퀴즈를 푼 결과에 기초하여 측정된 외국어 청취 실력에 대한 정보에 따라 설정되어 있을 수도 있다.
이후, 동영상 자막 필터링 시스템(100)은 선택된 동영상내 음성 및 대사 스크립트를 추출할 수 있다(S330). 동영상 자막 필터링 시스템(100)은 필터링 여부를 결정해야 하는 자막별로 내포되어 있는 노출 시간 구간 정보를 확인하여 해당 구간에 대응되는 동영상내 음성 및 대사 스크립트를 추출할 수 있다. 이 과정에서, 대사 스크립트는 자막의 외국어 버전일 수도 있고, 자막과 동기화되어 외부 기기로부터 수신될 수도 있고, 음성인식을 통해 해당 구간의 동영상 음성으로부터 추출될 수도 있다.
동영상 자막 필터링 시스템(100)은 동영상의 음성 및 대사 스크립트를 기초로 하여 음성 난이도의 평가 및 표현 난이도의 평가를 수행할 수 있다(S340).
일 실시예에 따르면, 음성 난이도의 평가는 동영상의 음성 분석 및 대사 스크립트의 텍스트 분석에 기초하여 수행될 수 있으며, 표현 난이도의 평가는 대사 스크립트의 텍스트 분석에만 기초하여 수행될 수 있다.
이후, 동영상 자막 필터링 시스템(100)은 음성 난이도 및 표현 난이도를 종합하여 최종적으로 자막 필터링에 활용되는 청취 난이도를 계산할 수 있다(S350).
동영상 자막 필터링 시스템(100)은 동영상에서 제공되는 음성을 자막에 대응되는 음성 대사별로 분리하여 시청자의 외국어 청취 실력이 해당 대사의 청취 난이도보다 높은지를 판단하고(S360), 시청자의 외국어 청취 실력이 해당 대사의 청취 난이도보다 높은 경우 해당 대사에 대응되는 자막이 표시되지 않도록 필터링을 결정할 수 있다(S370). 이와 달리, 시청자의 외국어 청취 실력이 해당 음성 대사의 청취 난이도보다 낮은 경우 해당 대사에 대응되는 자막은 필터링 되지 않고 표시될 수 있다. 또한, 시청자의 외국어 청취 실력과 해당 음성 대사의 청취 난이도가 동일하거나 기 정해진 일정 차이 이내로 판단되는 경우에는, 시청자 또는 관리자의 설정에 따라 필터링 여부가 결정되거나 기 정해진 일정 확률을 기반으로 하여 자막의 필터링 여부가 랜덤으로 결정될 수도 있다.
도 4는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100) 내에서 동작하는 음소 구간 분석부의 동작 방식을 설명하기 위한 도면이다.
도 4를 참조하면, 동영상 자막 필터링 시스템(100) 내의 음성 난이도 평가부(130)는 도 4의 음소 구간 분석부를 포함할 수 있으며, 음소 구간 분석부는 Gaussian Hidden Markov Model 또는 Gaussian Neural Network 모델 등에 기반하여 음소열 및 음소 구간을 출력할 수 있다.
도 4에서는 음소 구간 분석부에 제공되는 입력 값으로 동영상의 음성 파형 및 후보 음소열이 표시되어 있다. 실제로는 음성 파형이 아니라 음성 대사로부터 추출된 음향학적 특징값들이 입력되어 활용될 수 있다. 복수의 후보 음소열은 후보 음소열 생성부(132)에 의해 생성된 것일 수 있으며, 음소 구간 분석부는 동영상의 음성에 후보 음소열 각각을 적용하여 음소열별 적합도를 출력할 수 있다. 이후, 최적 음소열 선정부(133)는 적합도가 가장 높은 후보 음소열을 최적 음소열로 선정할 수 있다.
영어의 한 문장이 음소 구간 분석부에 의해 분석되는 방식을 예시로 들어보면, 'How was your date?" 라는 문장이 동영상의 대사 스크립트에 존재하였을 때에, 발음 변환 규칙들에 따라 후보 음소열로 [h aw w ax z y uh r d ey t], [h aw z y uh r d ey t], [h aw w ax dj uh r d ey t], [h aw dj uh r d ey t], [h a- dj uh r d ey t] 와 같이 5개의 후보 음소열이 생성되어 음소 구간 분석부에 제공될 수 있으며, 동영상에서 해당 문장에 대한 음성 또한 음소 구간 분석부에 제공될 수 있다. 음소 구간 분석부는 5개의 후보 음소열 각각에 대해, 입력된 음성에 대한 적합도를 출력하며 최적 음소열 선정부(133)는 적합도가 가장 높게 출력된 후보 음소열을 최적 음소열로 선정할 수 있다.
도 5는 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100)에 의해 자막이 필터링되는 상태를 설명하기 위한 도면이다.
도 5는 시청자가 시청자 단말기(200)를 통해 동영상 두 가지 장면을 시청하는 상태를 도시하고 있으며, 각각 영어 대사가 등장인물에 의해 제공되는 상태이다.
한 장면에서는 외국어 대사의 청취 난이도가 시청자의 외국어 청취 실력보다 낮다고 판단되어 자막이 표시되지 않은 상태가 도시되어 있으며, 다른 한 장면에서는 외국어 대사의 청취 난이도가 시청자의 외국어 청취 실력보다 높다고 판단되어 자막이 표시된 상태가 도시되어 있다.
도 6은 본 발명의 일 실시예에 따른 동영상 자막 필터링 시스템(100) 내에서 동작하는 시청자 실력 설정부(120)를 설명하기 위한 도면이다.
도 6에 따르면 시청자 실력 설정부(120)는 시청자 단말기(200) 화면 일측에 표시되는 시청자 실력 설정 수단을 통해 시청자의 외국어 청취 실력에 대응되는 청취 난이도 수준값을 입력받을 수 있다.
이와 같이, 본 발명의 다양한 실시예들에 따르면 시청자의 외국어 청취 실력에 따라 동영상의 자막이 선택적으로 필터링 될 수 있으며 그에 따라 시청자의 동영상 감상 환경이 개선될 수 있고 어학 학습에도 도움이 될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.
본 발명은 교육산업 분야에 대한 딥러닝 등 인공지능 기술의 모범적 적용 사례로서 특히 외국어 교육 산업 발전에 기여할 것으로 기대된다.

Claims (13)

  1. 동영상 자막을 필터링하는 시스템에 있어서,
    외국어 발음 패턴 및 표현 패턴을 관리하는 패턴 관리부;
    시청자의 외국어 청취 실력을 설정하는 시청자 실력 설정부;
    동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 음성 난이도 평가부;
    동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 표현 난이도 평가부;
    상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 청취 난이도 평가부; 및
    상기 시청자의 외국어 청취 실력과 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 자막 필터부를 포함하는, 동영상 자막 필터링 시스템.
  2. 제1항에 있어서,
    상기 패턴 관리부는 단어별 또는 문장별 음소열 및 음소 구간 정보를 관리하며,
    상기 음성 난이도 평가부는,
    동영상의 대사 스크립트에서 기준 음소열 및 음소 구간을 추출하는 기준 음소열 추출부;
    동영상의 대사 스크립트 또는 기준 음소열에 발음 변환 규칙을 적용하여 기준 음소열 포함 적어도 하나 이상의 후보 음소열을 생성하는 후보 음소열 생성부; 및
    상기 후보 음소열 생성부에 의해 생성된 후보 음소열들을 기초로 최적 음소열을 선정하고 구성 음소별 음소 구간 길이를 추출하는 최적 음소열 선정부를 더 포함하며,
    상기 음성 난이도 평가부는 상기 기준 음소열 추출부에 의해 추출된 기준 음소열과 상기 최적 음소열 선정부에 의해 선정된 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  3. 제2항에 있어서,
    상기 음성 난이도 평가부는,
    특정 음성에 대해 기준 음소열 대비 최적 음소열에 적용된 발음 변환 규칙을 기초로 상기 음성 난이도를 평가하는, 동영상 자막 필터링 시스템.
  4. 제2항에 있어서,
    상기 기준 음소열 추출부는,
    동영상의 대사 스크립트가 기본형인지 여부를 체크하고 기본형이 아닌 경우 대사 스크립트를 기본형으로 복원하고 복원된 대사 스크립트로부터 기본 음소열 및 음소 구간을 추출하는, 동영상 자막 필터링 시스템
  5. 제2항에 있어서,
    상기 패턴 관리부는,
    음성 및 문장 텍스트별 음소열 및 음소 구간 정보를 딥러닝하여 구축된 인공지능 데이터 세트 및 상기 인공지능 데이터 세트에 기초하여 텍스트 입력에 대해 음소열과 음소 구간 정보를 제공하는 음소 구간 추출부를 추가로 포함하고,
    상기 기준 음소열 추출부는, 상기 음소 구간 추출부를 통해 음소열 및 음소 구간을 추출하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  6. 제2항에 있어서,
    상기 음성 난이도 평가부는,
    기준 음소열과 최적 음소열의 비교를 통해 상기 음성 난이도를 평가하는 과정에서,
    기준 음소열의 음소 구간 길이 대비 최적 음소열의 음소 구간 길이에 기초하여 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  7. 제2항에 있어서,
    상기 패턴 관리부는,
    난청 발음에 대한 패턴 정보를 추가로 관리하며,
    상기 음성 난이도 평가부는,
    기준 음소열 또는 최적 음소열로부터 검출되는 난청 발음 패턴 정보를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  8. 제2항에 있어서,
    상기 패턴 관리부는,
    외국어에 대한 발음 패턴 또는 발음 변환 규칙들의 발생 빈도를 추가로 제공하며,
    상기 음성 난이도 평가부는,
    기준 음소열 또는 최적 음소열에 등장하는 발음 패턴 또는 발음 변환 규칙의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  9. 제2항에 있어서,
    상기 패턴 관리부는,
    외국어에 대한 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 추가로 제공하며,
    상기 음성 난이도 평가부는,
    기준 음소열 또는 최적 음소열에 등장하는 발음 패턴이 나타난 음소열 또는 발음 변환 규칙이 적용된 음소열의 발생 빈도를 기초로 상기 음성 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  10. 제1항에 있어서,
    상기 패턴 관리부는,
    표현 패턴과 관련하여 단어 통계, 구문 유형 통계 또는 단어열 통계 중 적어도 하나 이상을 관리하며,
    상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은,
    상기 동영상의 대사 스크립트에 포함되는 단어, 구문 유형 또는 단어열에 대해 표현 패턴의 단어 통계, 구문 유형 통계 또는 단어열 통계를 기초로 표현 난이도를 평가하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  11. 제1항에 있어서,
    상기 패턴 관리부는,
    표현 패턴과 관련하여 대사 스크립트에 포함된 단어들에 대한 동사 여부를 판단할 수 있는 정보를 추가로 관리하며,
    상기 표현 난이도 평가부가 동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 과정은,
    동영상 대사 스크립트에 포함된 동사의 숫자를 기초로 표현 난이도를 평가하는 것인, 동영상 자막 필터링 시스템.
  12. 제1항에 있어서,
    상기 자막 필터부는,
    시청자의 외국어 청취 실력과 상기 청취 난이도 평가부에 의해 계산된 청취 난이도가 기 정해진 일정한 차이 이내로 판단되면,
    기 정해진 일정 확률을 기반으로 하여 자막의 표시 여부를 결정하는 것을 특징으로 하는, 동영상 자막 필터링 시스템.
  13. 동영상 자막 필터링 시스템이 동영상 자막의 필터링을 수행하는 방법에 있어서,
    외국어 발음 패턴 및 표현 패턴을 저장하여 관리하는 단계;
    시청자의 외국어 청취 난이도를 설정하는 단계;
    동영상의 음성 및 대사 스크립트를 기초로 음성 난이도를 평가하는 단계;
    동영상의 대사 스크립트를 기초로 표현 난이도를 평가하는 단계;
    상기 음성 난이도 및 상기 표현 난이도를 종합하여 동영상 음성에 대한 청취 난이도를 계산하는 단계; 및
    상기 시청자의 외국어 청취 난이도와 평가된 청취 난이도의 비교를 통해 자막의 필터링 여부를 결정하는 단계를 포함하는, 동영상 자막 필터링 시스템의 동영상 자막 필터링 수행 방법.
PCT/KR2022/003858 2021-08-16 2022-03-18 외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템 WO2023022316A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0107761 2021-08-16
KR20210107761 2021-08-16
KR10-2021-0134567 2021-10-11
KR20210134567 2021-10-11

Publications (1)

Publication Number Publication Date
WO2023022316A1 true WO2023022316A1 (ko) 2023-02-23

Family

ID=85239618

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/003858 WO2023022316A1 (ko) 2021-08-16 2022-03-18 외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템

Country Status (1)

Country Link
WO (1) WO2023022316A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000008172A (ko) * 1998-07-10 2000-02-07 윤종용 자막을 선택적으로 디스플레이하기 위한 장치 및 그 방법
KR20140077730A (ko) * 2012-12-14 2014-06-24 성균관대학교산학협력단 사용자 선호도 기반의 선택적 자막 표시 방법 및 장치
KR20140084438A (ko) * 2012-12-26 2014-07-07 주식회사 케이티 청취 난이도를 이용하여 학습 데이터를 생성하는 서버 및 방법
CN104602136A (zh) * 2015-02-28 2015-05-06 科大讯飞股份有限公司 用于外语学习的字幕显示方法及系统
KR20190031829A (ko) * 2017-09-18 2019-03-27 엘지전자 주식회사 전자 장치 및 그 제어 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000008172A (ko) * 1998-07-10 2000-02-07 윤종용 자막을 선택적으로 디스플레이하기 위한 장치 및 그 방법
KR20140077730A (ko) * 2012-12-14 2014-06-24 성균관대학교산학협력단 사용자 선호도 기반의 선택적 자막 표시 방법 및 장치
KR20140084438A (ko) * 2012-12-26 2014-07-07 주식회사 케이티 청취 난이도를 이용하여 학습 데이터를 생성하는 서버 및 방법
CN104602136A (zh) * 2015-02-28 2015-05-06 科大讯飞股份有限公司 用于外语学习的字幕显示方法及系统
KR20190031829A (ko) * 2017-09-18 2019-03-27 엘지전자 주식회사 전자 장치 및 그 제어 방법

Similar Documents

Publication Publication Date Title
CN108133632B (zh) 英语听力的训练方法及系统
JP6172769B2 (ja) 理解支援システム、理解支援サーバ、理解支援方法、及びプログラム
CN105975569A (zh) 一种语音处理的方法及终端
CN111711834B (zh) 录播互动课的生成方法、装置、存储介质以及终端
Yarra et al. Indic TIMIT and Indic English lexicon: A speech database of Indian speakers using TIMIT stimuli and a lexicon from their mispronunciations
CN109584906A (zh) 口语发音评测方法、装置、设备及存储设备
WO2009119991A4 (ko) 인터넷상에서의 소리분석 기반 어학 학습방법 및 시스템
WO2020204256A1 (ko) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
WO2021137534A1 (ko) 음성 분석을 통한 한국어 발음 학습 방법 및 시스템
WO2016072569A1 (ko) 음절과 강세로 익히는 영어단어 학습 서비스 시스템
KR20010088350A (ko) 언어 학습장치 및 그것의 언어 분석방법
WO2023022316A1 (ko) 외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템
WO2018074658A1 (ko) 하이브리드 자막 효과 구현 단말 및 방법
KR20220048958A (ko) 외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템
EP2977983A1 (en) Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium
Williams et al. Frame rate and viseme analysis for multimedia applications
CN114170856A (zh) 用机器实施的听力训练方法、设备及可读存储介质
KR102011595B1 (ko) 청각 장애인을 위한 소통 지원 장치 및 방법
Setiawan et al. The effect of Lyricstraining on students’ speaking ability
RU153322U1 (ru) Устройство для обучения разговорной(устной) речи с визуальной обратной связью
Wang Training for learning Mandarin tones
CN115206342A (zh) 一种数据处理方法、装置、计算机设备及可读存储介质
CN106331844A (zh) 一种媒体文件字幕的生成方法、装置及电子设备
CN111556372A (zh) 为视音频节目实时添加字幕的方法和装置
Pucci Towards Universally Designed Communication: Opportunities and Challenges in the Use of Automatic Speech Recognition Systems to Support Access, Understanding and Use of Information in Communicative Settings

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22858558

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE