WO2020045753A1 - 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법 - Google Patents

클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법 Download PDF

Info

Publication number
WO2020045753A1
WO2020045753A1 PCT/KR2018/015579 KR2018015579W WO2020045753A1 WO 2020045753 A1 WO2020045753 A1 WO 2020045753A1 KR 2018015579 W KR2018015579 W KR 2018015579W WO 2020045753 A1 WO2020045753 A1 WO 2020045753A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
text
translation
file
texts
Prior art date
Application number
PCT/KR2018/015579
Other languages
English (en)
French (fr)
Inventor
오유철
Original Assignee
주식회사 산타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 산타 filed Critical 주식회사 산타
Publication of WO2020045753A1 publication Critical patent/WO2020045753A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present invention relates to a system for providing a voice translation and machine translation interworking service of image content using a cloud service. More specifically, the extracted voice information is converted into text through the cloud service, and the converted text is converted into the target language through the cloud service, so that the voice recognition and translation service can be integrated and implemented in one system. Translated video contents into the target language more easily to convert them into subtitles, and provide higher quality translated video contents through the inspection process by the inspector for errors in voice recognition and machine translation using the cloud service.
  • the present invention relates to a system for providing voice extraction and machine translation interworking services of video contents using a cloud service.
  • the cloud self-service is inconvenient in use because it does not meet the expectations of the consumers and suppliers of video contents in voice recognition and translation quality.
  • the present invention has been made to solve the above problems, in particular, by integrating a service for recognizing voice information output from video content and translating it into multiple languages into a single system can be easily produced by subtitles in multiple languages
  • the purpose of the present invention is to provide a system for providing voice extraction and machine translation interworking services of video contents using a cloud service that can provide higher quality video contents by minimizing errors in speech recognition and machine translation.
  • a voice file is extracted from the video content stored in a cloud storage and a plurality of voices are used for voice recognition.
  • a voice preprocessor for dividing into a file; The voice text conversion unit and the plurality of voices are configured to transmit the plurality of divided voice files to a voice recognition server, to receive a plurality of texts and trust values corresponding to the plurality of voice files from the voice recognition server, and to store them in storage.
  • a checker configured to correct the plurality of texts corresponding to the file.
  • the voice preprocessor analyzes a section in which the speech file is absent from the speech file, and divides the speech file so that the divided speech file is longer than a predetermined minimum length. Can be divided
  • the voice preprocessor determines the stabilization period of the voice by measuring the amount of change in the spectrum in the voice file, and divides the speech file into sentence units based on the stabilization period of the voice.
  • the voice file may be divided to be longer than a predetermined minimum length.
  • the voice preprocessing unit extracts a termination ending and determines whether or not the extracted ending ending is identical to the ending ending extracted from a database in which a pre-stored ending ending is collected. Can be divided.
  • the inspecting unit outputs the plurality of texts together with the image content, receives a correction input for at least one text of the plurality of texts from a user, and according to the correction input. It may include a caption inspecting unit for modifying the text to generate the verified text.
  • the caption checking unit determines the accuracy of the captioned text based on the confidence value received by the voice text converter, and when the accuracy of the captioned text is equal to or less than a predetermined level, The user may request a correction input for the caption.
  • the system transmits the completed text and the target language to be translated to a translation server to request a translation, and receives the translated text converted into the target language according to the request and stores the translation in a storage. It may include.
  • the checker further includes a translation checker for inspecting the original text of which the speech information is textualized by the voice recognition server and the translated text translated into the target language by the translation server.
  • the unit may output the translated text together with the original text and the image content, receive a correction input for the translated text from a user, and modify the translated text according to the correction input.
  • a method of providing voice extraction and machine translation interworking service for video content using a cloud service extracts a voice file from video content stored in a cloud storage, and provides a plurality of voice files to favor voice recognition.
  • Dividing into voice files Transmitting the plurality of divided voice files to a voice recognition server, and receiving a plurality of texts and trust values corresponding to the plurality of voice files from the voice recognition server; Inspecting the plurality of texts to generate verified texts; And requesting a translation by transmitting the completed text and the target language information to a translation server. And receiving the translated text converted into a target language from the translation server and storing the translated text in storage.
  • the generating of the verified text may include: outputting the text along with the image content; Receiving a correction input for the text from a user; And modifying the text according to the correction input to generate the verified text.
  • the generating of the inspected text may include determining the accuracy of the captioned text based on the confidence value, and when the accuracy of the captioned text is equal to or less than a predetermined level, Requesting a user for correction input for the caption; Receiving a correction input for the text from the user; And modifying the text according to the correction input to generate the verified text.
  • the voice information extracted from the lecture video is converted into text through the cloud voice recognition service, and the converted text is converted into the target language through the cloud translation service.
  • FIG. 1 is a conceptual diagram of a system for providing a voice extraction and a machine translation interworking service for image content using a cloud service according to an exemplary embodiment of the present invention.
  • FIG. 2 is a block diagram of a system for providing a voice extraction and a machine translation interworking service of image content using a cloud service according to an exemplary embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a method of providing a voice extraction and a machine translation interworking service of image content using a cloud service according to an exemplary embodiment of the present invention.
  • FIG. 4 is a block diagram of an inspection unit according to an embodiment of the present invention.
  • FIG 5 is an exemplary screen by a checker according to an embodiment of the present invention.
  • FIG. 1 is a conceptual diagram of a system for providing a voice extraction and a machine translation interworking service for image content using a cloud service according to an exemplary embodiment of the present invention.
  • the system for providing voice extraction and machine translation interworking service 1 of image content using a cloud service receives an image content to be translated in an input step 10.
  • the original image may be stored in the storage 90 to prevent the original from being lost.
  • the storage 90 may be a storage medium such as an HDD or SSD in the system, or may be a cloud storage outside the system.
  • the system 1 extracts the audio information from the image. At this time, only the voice is extracted and then converted into a coding form that can be accepted by the cloud speech recognition server 100.
  • the speech preprocessing step 20 may further include a step of separating the sentences to improve the speech recognition rate, or preprocessing the speech information according to the section, ending ending, and the like.
  • the voice information is transmitted to the cloud voice recognition server 100 in the voice conversion request step 30.
  • the system 1 receives the converted text based on the original language output from the video content by the voice recognition API in the cloud voice recognition server 100.
  • the received text is stored in the storage 90, and the system 1 prepares the translation text by processing the received text in the pre-translational processing step 50.
  • the original caption text of the audio file may be inspected by the inspector.
  • the system 1 transmits the translation request to the target language to be translated to the cloud translation server 110.
  • the system 1 receives the translated text file and stores it in the storage 250.
  • the inspection unit may perform the inspection of the translation text.
  • the system 1 may subtitle the final checked text into the image content, and provide the image with the translated subtitles.
  • the voice information extracted from the lecture video is converted into text through the cloud voice recognition service, and the converted text is converted into the target language through the cloud translation service, thereby integrating the voice recognition and translation service in one system.
  • FIG. 2 there is shown a block diagram of a system for providing voice extraction and machine translation interworking service 1 of image content using a cloud service according to an embodiment of the present invention.
  • the system for providing a voice extraction and machine translation interworking service for image content using a cloud service includes a voice preprocessor 210, a voice text converter 220, a checker 230, and a translator 240. ), Storage 250.
  • the input unit mounts an image, which the user wants to extract and translate, into the storage 250. More specifically, the input unit (not shown) includes an input module (not shown) for inputting image information including a title, a subject, a language information, a language information to be translated, a file title, a file extension, and the like of the image content. Can be configured.
  • the input unit may be connected to a camera device for capturing an image, and may store the original image content received from the camera device in the storage 250.
  • the storage 250 may be a physical storage window such as an HDD or SSD in the system 1, or may be cloud storage outside the system 1.
  • the storage 250 may be a combination of physical storage inside the system 1 and cloud storage outside the system 1.
  • the system 1 may store the original image content received from the camera device in the storage 250 inside the system 1 and at the same time in the cloud storage outside the system 1 via a network. .
  • the communication method between the input unit (not shown) and the storage 250 may be any communication means such as, for example, wired communication means (using a cable), wireless communication means (eg, Bluetooth, etc.), or a combination thereof.
  • a general wired network may be used in addition to a wireless network and a wireless network such as 3G communication, 4G communication, and WIFI communication.
  • the communication method between the input module (not shown) and the storage 250 is not limited.
  • the voice preprocessor 210 extracts a voice file from the video content stored in the storage 250 or the cloud storage, and divides the voice file into a plurality of voice files for voice recognition.
  • the voice preprocessor 210 may extract the voice file from the video content stored in the cloud storage and calculate metadata of the voice information including the playback time and the sampling rate of the voice file. More specifically, the voice preprocessor 20 may extract digital image content into a voice file using a media encoder application.
  • the voice file format may be stored in a lossless compression format such as FLAC.
  • the audio file is not limited to a specific format.
  • the speech preprocessor 210 may detect a speech section and divide a sentence for each speech section.
  • the voice preprocessor 210 may analyze a section in which there is no voice in the voice file, and divide the voice file so that the divided voice file is longer than a predetermined minimum length.
  • the reason for dividing the file to be longer than the predetermined minimum length is to prevent excessive division of the voice file when there are many sections including no voice, depending on the characteristics of the voice file.
  • the predetermined minimum length may be set based on a playback section of 10 seconds, and it is possible to prevent the audio file from being split in 10 seconds or less.
  • the voice preprocessor 210 may divide the voice file so that it is not longer than a predetermined maximum length. For example, if the length of the voice file is longer than the length of the file that can be recognized by the voice recognition server, the voice file may be forcibly divided into several files. In this case, since the file may be divided in the middle of the voice, it is preferable to divide the files before and after the file so that the playback sections overlap with each other.
  • the first audio file may include a playback time from the split time up to 3 seconds later, and the second audio file consecutive to the first audio file may be played from the split time up to the previous 3 seconds. Can be included.
  • the voice preprocessor 210 determines the stabilization period of the voice by measuring the amount of change in the spectrum in the voice file, and divides it for each sentence unit based on the stabilization period of the voice, but the divided voice file is longer than a predetermined minimum length.
  • Voice files can be split to Specifically, since the speech stabilization section can be viewed as a part with little change in the spectrum, the speech stabilization section is determined by referring to the spectral change amount over time, and when the start section of the speech is detected based on the speech stabilization section, the speech stabilization section is divided into sentence units suitable for speech recognition. can do.
  • the voice preprocessor 210 extracts the ending mother and preprocesses the extracted ending mother by a method of determining whether or not the extracted ending mother matches the ending mother extracted from a database (not shown) in which the stored ending mother is collected.
  • the cloud voice recognition server 100 can recognize the voice more accurately.
  • the storage 90 may store data about characteristics of the voice, such as a sentence divided by each voice section and a ending ending, such as a voice recognition rate, which may improve the voice recognition rate.
  • the voice preprocessor 210 may convert the voice file into a specific form that can be recognized by the cloud voice recognition server 100. For example, in the case of using the Google cloud speech recognition server, the voice file having a length of 5 minutes or less should be divided and transmitted, and the voice preprocessor 210 may convert the voice file according to this type. However, the voice preprocessor 210 often divides the voice file into a length shorter than the recognition limit length of the cloud voice recognition server 100, because the voice preprocessor 210 divides the voice file based on the stabilization period of the voice.
  • the voice text converter 220 transmits the preprocessed voice file and metadata to the cloud voice recognition server 100 to request voice recognition. More specifically, the voice text converter 220 converts the metadata and the file or the URL of the metadata and the file into JSON notation and transmits the converted URL to the cloud voice recognition server 100.
  • the data exchange format is not limited to a specific one.
  • the transmission request data may include an encoding, a sample rate hertz, a language code, a URI, and the like.
  • the transmission request data may help the voice recognition server 100 to recognize the voice more accurately.
  • the transmission request data may include a voice keyword related to the content so that the voice recognition server 100 can recognize the voice more accurately.
  • a voice keyword related to the content For example, if the subject of the voice file is about alcohol, a voice keyword called alcohol may be included, and the voice recognition server 100 may determine the recognized word in consideration of the voice keyword when the recognition of a specific word is ambiguous.
  • the voice text converter 220 receives the original subtitle text and other information of the voice file converted by the voice recognition server 100 and stores it in the storage 250.
  • the cloud voice recognition server 100 may receive a result written in JSON notation.
  • the other information may include results, alternatives, transcript, confidence, and the like.
  • the transcript may be text data converted from the audio file of the digital video content
  • confidence may be a numerical value representing the reliability of the text converted from the audio file of the digital video content.
  • Subtitle data corresponding to each language code of the received digital video content is stored in the storage 250 in a text format.
  • the text format may be stored in a format such as txt or smi.
  • the text format stored in the storage 250 is not limited.
  • the user may select a target language to be translated from the original subtitle text of the received voice file, search the multilingual database (not shown) for the language to be translated, and select the target language. For example, when a user wants to translate video content processed in 'English' into 'Korean' subtitles, the input unit (not shown) may search for a multilingual database (not shown) and select 'Korean' as the target language.
  • the translation unit 240 transmits the voice file subtitle text and the target language to be translated to the cloud translation server 110 to request a translation.
  • the translation unit 240 may transmit one or more complete sentences in sentence units before transmitting to the cloud translation server 110.
  • the translation unit 240 may be implemented through JAVA, PHP, Node.js, Python, C #, etc. for smooth communication with the cloud translation server 110.
  • the translation unit 240 receives the subtitle text of the voice file translated into the target language from the translation server 110 and stores it in the storage 250.
  • the inspector 230 compares the original subtitle text in which the voice information is textified by the cloud speech recognition server 100 with the target language subtitle text translated into the target language by the cloud translation server 110.
  • the inspecting operation in the inspecting unit 230 may be performed through a dedicated application that provides audio extraction and machine translation interworking services of the image content.
  • the inspection unit 230 will be described in more detail with reference to FIGS. 4 to 5.
  • FIG. 3 is a flowchart illustrating a method of providing a voice extraction and a machine translation interworking service of image content using a cloud service according to an exemplary embodiment of the present invention.
  • step 310 the system 1 extracts a voice file from the video content stored in the cloud storage, and in step 320, the system 1 converts the voice file into a plurality of voice files for voice recognition.
  • step 330 the system 1 transmits the divided plurality of voice files to the voice recognition server, and in step 340, the system 1 sends a plurality of texts corresponding to the plurality of voice files from the voice recognition server and Receive a confidence value.
  • Steps 310 to 340 are the same as the functions of the elements described with reference to FIG. 2, and thus, further description thereof is omitted.
  • the system 1 inspects the plurality of texts to generate the verified texts.
  • the system 1 may output a plurality of texts together with image content, receive a correction input for each text from a user, and modify the text according to the correction input to generate the verified text. .
  • the system 1 may request correction input by outputting together with the image content only when the text needs correction among the plurality of texts. For example, the system 1 determines the accuracy of the captioned text based on the confidence value received with the plurality of texts, and if the accuracy of the captioned text is below a predetermined level, input correction for that text. Can be requested to the user.
  • step 360 the system 1 transmits the checked text and the target language information to the translation server to request a translation.
  • the system 1 may set the target language information in English and transmit the verified Korean text to the translation server to request translation into English text.
  • step 370 the system 1 receives the translated text translated into the target language from the translation server. For example, in step 360, if the requested Korean text is translated into the English text by transmitting the inspected Korean text to the translation server, the system 1 receives the translated English text.
  • system 1 may perform a check on the translated text. Inspection of the translated text is described with reference to FIG. 5 (b).
  • FIG. 4 is a block diagram of the checker 230 according to an embodiment of the present invention
  • FIG. 5 shows an embodiment of the caption checker 231 and the translation checker 233.
  • the inspector 230 includes a caption inspector 230 and a translation inspector 231.
  • the quality of the machine speech recognition depends on the type of language, noise, sampling rate of the voice file, etc.
  • the subtitle checker 230 allows a user to listen to the voice file, If the original language output from the voice file is correctly converted to text, break the subtitle text of the voice file into sentence units and edit the voice file subtitle text to add punctuation marks so that the user can check the error due to the machine voice recognition. To improve quality.
  • the caption inspecting unit 230 outputs a plurality of texts together with image content, receives a correction input for at least one of the plurality of texts from a user, and corrects the text according to the correction input. You can generate completed text.
  • the inspecting unit 230 may be implemented through a web page, an application for a PC, or an application of a smart device.
  • the text 512 corresponding to the image content 511 in the application of the smart device the replay button 514, a button 515 for inputting a correction request, and A screen is shown that includes a button 516 for checking the next text.
  • the caption checking unit 230 determines the accuracy of the captioned text based on the confidence value received from the voice text converter, and if the accuracy of the captioned text is equal to or less than a predetermined level, You can ask the user for correction input. For example, if it is determined that the accuracy of the captioned text is not reliable when the confidence value is 80 or less, the user may request a correction input for each text whose confidence value of the text is 80 or less.
  • the translation inspector 233 inspects the subtitle text of the translated voice file to the target language to which the text is translated. It allows the user to check whether the translation is implemented, the commonly used idiomatic language, and some parts of the context that are not smooth, so that the error of machine translation can be minimized and the quality can be improved.
  • the translation unit 240 may transmit the inspected text and the target language to be translated to the translation server, request a translation, and receive and store the translated text converted into the target language according to the request.
  • the translation inspecting unit 233 may output the translated text together with the original text and the image content, receive a correction input for the translation text from the user, and correct the translation text according to the correction input.
  • the inspection unit 230 performed according to the inspection process as described above enables the user, for example, to check and correct whether or not the audio is normally subtitled as text in the image lectured by the user. It can also be inspected by a third party, administrator, or professional translator as needed.
  • the inspection unit 230 to improve the translation quality of the translated text file by scoring the inspection content.
  • the inspection unit 230 is a basic information input unit (not shown) for inputting the basic information of the inspector, the inspection target to list up the inspection target files to be inspected so as to select any one of the listed inspection target files.
  • the inspection content register not shown
  • inspection content registration unit not shown
  • the inspection target selection unit It may further include an inspection content storage unit (not shown) for storing the inspection items.
  • the apparatus may further include a compensation unit (not shown) for selecting and rewarding users who have obtained a high score according to the inspection quality, and an inspection content sharing unit (not shown) for sharing the inspection content with other inspectors.
  • a compensation unit for selecting and rewarding users who have obtained a high score according to the inspection quality
  • an inspection content sharing unit for sharing the inspection content with other inspectors.
  • the inspection unit 230 further includes a pre-test progress unit (not shown) for performing a pre-test, which comprehensively evaluates a checker's activity history, evaluation score, language ability, and the like, online.
  • the number of voice files that can be inspected and the difficulty level of the voice files can be adjusted and provided according to the test grade of the inspector who has passed the self-test by the department (not shown).
  • the system for providing a voice extraction and machine translation interworking service for video content using the cloud service converts the voice information extracted through the cloud service into text, and converts the converted text into translated text again.
  • voice recognition and translation services By integrating voice recognition and translation services into the system, the video content produced can be easily translated into the target language and subtitled.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명은 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템에 관한 것으로서, 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있게 한 것이다. 이를 위해 본 발명은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할하는 음성 전처리부; 상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하여 스토리지에 저장하는 음성텍스트변환부; 및 상기 복수의 음성 파일에 대응하는 복수의 텍스트에 대한 정정을 수행하는 검수부를 포함하는, 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템을 제공한다.

Description

클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
본 발명은 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템에 관한 것이다. 보다 상세하게는 추출된 음성정보를 클라우드 서비스를 통해 텍스트로 변환하고, 변환된 텍스트를 클라우드 서비스를 통해 목적언어로 변환함으로써 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있도록 함으로써 다국어로 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 영상 콘텐츠에 자막화할 수 있도록 하고, 클라우드 서비스를 이용한 음성 인식 및 기계 번역의 오류를 검수부에 의해 검수과정을 거쳐 보다 높은 품질의 번역된 영상 콘텐츠를 제공할 수 있도록 하는 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템에 관한 것이다.
최근 들어 온라인을 통한 교육 시장이 성장함에 따라 외국의 좋은 콘텐츠를 들여와 국내에 유통하거나, 국내의 교육 콘텐츠를 외국으로 유통시키는 경우가 증가하고 있다. 현재, 온라인 교육 업체에서 보유한 강의 중 일부는 우리말로 번역되어 화면 및 음성신호와 동기화된 자막을 출력하여 제공하고 있다.
그러나, 디지털 영상 콘텐츠를 접하는 일반 수요자들은 외국어로 제작된 영상 콘텐츠에 익숙하지 않은 경우가 대다수이므로, 이들의 경우, 외국어로 제작된 영상 콘텐츠에 친숙하지 않다는 단점이 있다.
또한, 디지털 영상 콘텐츠 공급자는 자신이 제작한 영상을 해외에 수출할 경우 수출하고자 하는 국가로 번역을 해야 하는 데, 번역에 소요되는 비용과 시간 상의 문제로 수출장벽에 어려움을 겪고 있다.
최근 들어, 클라우드 음성 인식 서비스, 클라우드 번역 서비스 등이 도입됨에 따라 상술한 문제점을 해결할 수 있는 기능이 제안되고 있다.
그러나, 클라우드 자체 서비스는 현재 음성 인식이나 번역 품질에 있어서, 영상 콘텐츠의 수요자 및 공급자의 기대에 미치지 못하여 이용 상에 불편함을 초래하고 있다.
선행기술문헌 : KR 공개특허공보 제2015-0057591호(2015.05.28.공개)
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 특히 영상콘텐츠로부터 출력되는 음성정보를 인식하고 이를 다국어로 번역화하는 서비스를 하나의 시스템으로 통합화하여 보다 용이하게 다국어로 자막화하여 생산할 수 있도록 하고, 음성 인식 및 기계 번역의 오류를 최소화하여 보다 높은 품질의 영상 콘텐츠를 제공할 수 있도록 하는 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템을 제공하는 데 그 목적이 있다.
본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할하는 음성 전처리부; 상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하여 스토리지에 저장하는 음성텍스트변환부 및 상기 복수의 음성 파일에 대응하는 복수의 텍스트에 대한 정정을 수행하는 검수부를 포함한다.
본 발명의 다양한 실시예에 따르면, 상기 음성 전처리부는 상기 음성파일에서 음성이 없는 구간을 분석하여, 상기 음성이 없는 구간마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할할 수 있다.
본 발명의 다양한 실시예에 따르면, 상기 음성 전처리부는 상기 음성파일에서 스펙트럼의 변화량을 측정하여, 음성의 안정화 구간을 정하고, 상기 음성의 안정화 구간에 기초하여 문장 단위마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할할 수 있다.
본 발명의 다양한 실시예에 따르면, 상기 음성 전처리부는 종결 어미를 추출하여 추출된 종결어미를 기 저장된 종결어미가 집합된 데이터베이스로부터 추출된 종결어미와의 일치성 여부를 판단하여 문장 단위로 상기 음성파일을 분할할 수 있다.
본 발명의 다양한 실시예에 따르면, 상기 검수부는 상기 복수의 텍스트를 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 복수의 텍스트 중 적어도 하나의 텍스트에 대한 수정 입력을 수신하고, 상기 수정 입력에 따라 상기 텍스트를 수정하여 검수완료된 텍스트를 생성하는 자막검수부를 포함할 수 있다.
본 발명의 다양한 실시예에 따르면, 상기 자막검수부는 상기 음성텍스트변환부에서 수신한 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 상기 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 상기 자막에 대한 수정 입력을 사용자에게 요청할 수 있다.
본 발명의 다양한 실시예에 따른 시스템은 검수완료된 텍스트와 번역할 목적언어를 번역 서버로 전송하여 번역을 요청하고, 상기 요청에 따라 목적언어로 변환된 번역텍스트를 수신하여 스토리지에 저장하는 번역부를 더 포함할 수 있다.
본 발명의 다양한 실시예에 따르면, 상기 검수부는 음성인식서버에 의해 음성정보를 텍스트화한 원어텍스트와 번역서버에 의해 목적언어로 번역된 번역텍스트를 검수하는 번역검수부를 더 포함하고, 상기 번역검수부는 상기 번역텍스트를 상기 원어텍스트 및 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 번역텍스트에 대한 수정 입력을 받고, 상기 수정 입력에 따라 상기 번역텍스트를 수정할 수 있다.
본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 방법은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식에 유리하도록 복수의 음성파일로 분할하는 단계; 상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하는 단계; 상기 복수의 텍스트를 검수하여 검수완료된 텍스트를 생성하는 단계; 및 상기 검수완료된 텍스트 및 목적언어정보를 번역 서버로 전송하여 번역을 요청하는 단계; 상기 번역서버로부터 목적언어로 변환된 번역 텍스트를 수신하여 스토리지에 저장하는 단계를 포함한다.
본 발명의 다양한 실시예에 따르면, 상기 검수완료된 텍스트를 생성하는 단계는, 상기 텍스트를 상기 영상 콘텐츠와 함께 출력하는 단계; 사용자로부터 상기 텍스트에 대한 수정 입력을 수신하는 단계; 상기 수정 입력에 따라 상기 텍스트를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함할 수 있다.
본 발명의 다양한 실시예에 따르면, 상기 검수완료된 텍스트를 생성하는 단계는, 상기 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 상기 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 상기 자막에 대한 수정 입력을 사용자에게 요청하는 단계; 상기 사용자로부터 상기 텍스트에 대한 수정 입력을 수신하는 단계; 상기 수정 입력에 따라 상기 텍스트를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함할 수 있다.
본 발명에 의하면 강의영상으로부터 추출된 음성정보를 클라우드 음성인식 서비스를 통해 텍스트로 변환하고, 변환된 텍스트를 클라우드 번역 서비스를 통해 목적언어로 변환함으로써 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있다. 따라서 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 다국어 영상 콘텐츠를 서비스할 수 있다.
또한, 본 발명에 의하면 클라우드 서비스를 이용한 음성 인식 및 기계 번역의 오류를 여러 단계를 걸쳐 수정하여 보다 높은 품질의 번역된 영상 콘텐츠를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 방법의 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 검수부의 블록도이다.
도 5은 본 발명의 일 실시예에 따른 검수부에 의한 예시화면이다.
이하, 본 발명의 일 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 일 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템의 개념도이다.
이하, 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템의 프로세스를 설명한다.
도 1을 참조하면, 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)은 입력 단계(10)에서, 번역하고자 하는 영상콘텐츠를 입력 받는다. 이 때, 원본 소실 방지를 위해 스토리지(90)에 원본영상을 저장할 수 있다. 이때, 스토리지(90)는 시스템 내부의 HDD, SSD 등의 저장매체일 수 있으나, 시스템 외부의 클라우드 저장소일 수도 있다.
그 다음, 음성전처리 단계(20)에서, 시스템(1)은 영상으로부터 음성정보를 추출한다. 이 때, 음성만을 추출하여 이후 클라우드 음성인식서버(100)에서 받아들일 수 있는 코딩형태로 변환한다. 이 때, 음성전처리 단계(20)에서 음성인식률 향상을 위해 문장을 분리하거나, 구간 별, 종결어미 등에 따라 음성정보를 전처리하는 단계가 더 포함될 수 있다.
그 다음, 음성변환요청 단계(30)에서 클라우드 음성인식서버(100)로 음성정보를 전송한다. 음성수신단계(40)에서 시스템(1)은 클라우드 음성인식서버(100)에서 음성인식API에 의해 영상콘텐츠로부터 출력되는 원어에 기초하여 변환된 텍스트를 수신한다. 이때, 수신된 텍스트는 스토리지(90)에 저장되며, 시스템(1)은 번역전처리 단계(50)에서 수신된 텍스트를 가공하여 번역요청을 위한 준비를 한다. 이 때, 검수부에 의해 음성 파일의 원어 자막 텍스트의 검수가 수행될 수 있다. 그 다음, 번역요청 단계(60)에서 시스템(1)은 클라우드 번역서버(110)로 번역하고자 하는 목적언어로 번역요청을 전달한다.
그런 다음, 번역 수신 단계(70)에서 시스템(1)은 번역된 텍스트 파일을 받아 스토리지(250)에 저장한다. 이 때, 검수부에 의해 번역텍스트의 검수가 수행될 수 있다. 이후, 시스템(1)은 최종 검수된 텍스트를 영상 콘텐츠에 자막화하여, 번역된 자막과 함께 영상을 제공할 수 있다.
따라서 본 발명에 의하면 강의영상으로부터 추출된 음성정보를 클라우드 음성인식 서비스를 통해 텍스트로 변환하고, 변환된 텍스트를 클라우드 번역 서비스를 통해 목적언어로 변환함으로써 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있다. 따라서 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 다국어 영상 콘텐츠를 서비스할 수 있다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)의 블록도가 도시된다.
일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)은 음성 전처리부(210), 음성텍스트변환부(220), 검수부(230), 번역부(240), 스토리지(250)를 포함한다.
입력부(미도시)는 사용자가 음성을 추출하여 번역하고자 하는 영상을 스토리지(250)에 탑재한다. 보다 구체적으로, 입력부(미도시)는 영상 콘텐츠의 제목, 주제, 언어정보, 번역할 언어정보, 파일제목, 파일 확장자 등을 포함하는 영상정보를 입력할 수 있도록 하는 입력모듈(미도시)을 포함하여 구성될 수 있다.
입력부(미도시)는 영상 촬영을 위한 카메라 장치 등과 연결될 수 있으며, 카메라 장치로부터 수신한 원본 영상 콘텐츠를 스토리지(250)에 저장할 수 있다. 이때 스토리지(250)는 시스템(1) 내부의 HDD, SSD 등의 물리적 저장창치일 수 있으나, 시스템(1) 외부의 클라우드 스토리지일 수도 있다. 또한, 스토리지(250)는 시스템(1) 내부의 물리적 저장장치와 시스템(1) 외부의 클라우드 스토리지를 결합한 형태일 수 있다.
또 다른 실시예에 따르면, 시스템(1)은 카메라 장치로부터 수신한 원본 영상 콘텐츠를 시스템(1) 내부의 스토리지(250)에 저장함과 동시에 네트워크를 통해 시스템(1) 외부의 클라우드 저장소에 저장할 수 있다.
입력부(미도시)와 스토리지(250) 간의 통신방식은 예컨대 유선의 통신 수단(케이블을 이용함), 무선의 통신 수단(예컨대 블루투스 등), 혹은 이들의 조합 같은 임의의 통신 수단일 수 있다. 또한, 3G통신, 4G 통신, WIFI 통신 등 무선네트워크와 무선네트워크 이외에 일반 유선네트워크를 이용할 수 있다. 여기서, 입력모듈(미도시)과 스토리지(250) 간의 통신방식을 한정하는 것은 아니다.
음성 전처리부(210)는 스토리지(250) 또는 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할한다.
예를 들어, 음성 전처리부(210)는 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고 음성파일의 재생시간, 샘플링 레이트를 포함하는 음성정보의 메타데이터를 산출할 수 있다. 보다 구체적으로, 음성 전처리부(20)는 디지털 영상 콘텐츠를 미디어 인코더 어플리케이션을 이용하여 음성 파일로 추출할 수 있다. 일례로, 음성 파일형식은 FLAC 등 무손실 압축 포맷으로 저장될 수 있다. 여기서, 음성파일을 특정한 형식으로 한정하는 것은 아니다.
또한, 음성 전처리부(210)는 음성 구간을 검출하여 음성 구간 별로 문장을 분할할 수 있다. 예를 들어, 음성 전처리부(210)는 음성파일에서 음성이 없는 구간을 분석하여, 음성이 없는 구간마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 음성파일을 분할할 수 있다. 미리 결정된 최소길이보다 길도록 분할하는 이유는 음성파일의 특징에 따라 음성이 없는 구간 등이 많은 경우 음성파일을 과도하게 분할하는 것을 방지하기 위함이다. 예를 들어 미리 결정된 최소길이는 재생구간 10초를 기준으로 설정할 수 있고, 이때 음성파일이 10초 이하에서 분할되는 것을 방지할 수 있다.
또한, 음성 전처리부(210)는 음성파일이 미리 결정된 최대길이보다 길지 않도록 분할할 수 있다. 예를 들어, 음성파일의 길이가 음성인식 서버에서 인식할 수 있는 파일의 길이보다 긴 경우, 음성파일을 여러 개의 파일로 강제분할할 수 있다. 이때, 음성의 중간에서 파일이 분할될 수 있으므로, 전후에 있는 파일이 서로 재생구간이 일부 중첩될 수 있도록 분할하는 것이 바람직하다. 예를 들어, 제1 음성파일은 분할시점에서 뒤의 3초까지의 재생시점을 포함하는 것으로 하고, 제1 음성파일과 연속되는 제2음성파일은 분할시점에서 앞의 3초까지의 재생시점을 포함하도록 할 수 있다.
또한, 음성 전처리부(210)는 음성파일에서 스펙트럼의 변화량을 측정하여, 음성의 안정화 구간을 정하고, 음성의 안정화 구간에 기초하여 문장 단위마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 음성파일을 분할할 수 있다. 구체적으로, 음성의 안정화 구간은 스펙트럼의 변화가 적은 부분으로 볼 수 있으므로 시간에 따른 스펙트럼 변화량을 참조하여 음성의 안정화 구간을 정하고 이에 기초하여 음성의 시작 구간을 검출하면 음성인식에 적합한 문장단위로 분할할 수 있다.
또한, 음성 전처리부(210)는 종결 어미를 추출하여 추출된 종결어미를 미리 저장된 종결어미가 집합된 데이터베이스(미도시)로부터 추출된 종결어미와의 일치성 여부를 판단하는 방식 등을 통해 전처리함으로써 클라우드 음성인식서버(100)에서 보다 정확하게 음성을 인식할 수 있다. 이를 위해, 음성 구간 별로 분할된 문장, 종결 어미 등 음성인식률을 향상시킬 수 있는 음성의 특징에 관한 데이터가 스토리지(90)에 저장될 수 있다.
또한, 음성 전처리부(210)는 음성파일에 대해 클라우드 음성인식서버(100)에서 인식할 수 있는 특정한 형태로 변환할 수 있다. 예를 들어, 구글 클라우드 음성인식서버를 이용하는 경우, 5분 이하의 길이를 가진 음성파일로 분할하여, 전송해야 하는데, 음성 전처리부(210)는 음성파일을 이러한 형태에 맞게 변환시킬 수 있다. 다만, 음성 전처리부(210)는 클라우드 음성인식서버(100)의 인식 한계 길이보다 짧은 길이로 음성파일을 분할하는 경우가 많은데, 음성의 안정화 구간에 기초하여 분할하는 경우가 많기 때문이다.
음성텍스트변환부(220)는 전처리된 음성파일과 메타데이터를 클라우드 음성인식서버(100)로 전송하여 음성 인식을 요청한다. 보다 구체적으로, 음성텍스트변환부(220)는 메타데이터와 파일 또는 메타 데이터와 파일의 URL을 JSON 표기법으로 변환하여 클라우드 음성인식서버(100)로 전송한다. 여기서, 데이터 교환형식을 특정한 것으로 한정하는 것은 아니다.
일례로, 전송 요청 데이터에는 인코딩(encoding), 샘플 레이트 헤르츠(sample rate hertz), 언어코드(language code), URI 등을 포함할 수 있다. 이러한 전송 요청 데이터는 음성인식서버(100)가 음성을 보다 정확하게 인식할 수 있는데 도움을 줄 수 있다.
또한, 전송 요청 데이터에는 음성인식서버(100)가 음성을 보다 정확하게 인식할 수 있도록, 해당 내용과 관련있는 음성 키워드가 포함될 수 있다. 예를 들어, 음성파일의 주제가 술에 관한 것이라면, alcohol이라는 음성 키워드가 포함될 수 있고, 음성인식서버(100)는 특정 단어의 인식이 모호한 경우 음성 키워드를 고려하여 인식된 단어를 결정할 수 있다.
음성텍스트변환부(220)는 음성인식 서버(100)에서 변환된 음성파일의 원어 자막 텍스트와 기타 정보를 수신하여 스토리지(250)에 저장한다. 이 때, 클라우드 음성인식서버(100)로부터 JSON 표기법으로 작성된 결과를 수신할 수 있다. 이때, 기타 정보에는 results, alternatives, transcript, confidence 등을 포함할 수 있다. 이때, transcript는 디지털 영상 콘텐츠의 음성 파일로부터 변환된 텍스트 데이터일 수 있고, confidence는 디지털 영상 콘텐츠의 음성 파일로부터 변환된 텍스트의 신뢰도를 나타낸 수치일 수 있다.
수신한 디지털 영상 콘텐츠의 각 언어 코드에 맞는 자막 데이터는 텍스트 형식으로 스토리지(250)에 저장된다. 예컨대, 텍스트 형식은 txt, smi 등의 형식으로 저장될 수 있다. 여기서, 스토리지(250)에 저장되는 텍스트 형식을 한정하는 것은 아니다.
사용자는 수신된 음성파일의 원어 자막 텍스트로부터 번역할 목적언어를 선택하여, 번역하고자 하는 언어를 다국어 데이터베이스(미도시)를 탐색하여 목적언어를 선택할 수 있다. 일례로, 사용자가 '영어'로 처리된 영상 콘텐츠를 '한국어' 자막으로 번역하고자 할 경우, 입력부(미도시)에서 다국어 데이터베이스(미도시)를 탐색하여 목적언어로 '한국어'를 선택할 수 있다.
그런 다음, 번역부(240)는 음성 파일 자막 텍스트와 번역할 목적언어를 클라우드 번역서버(110)로 전송하여 번역을 요청한다. 이 때, 번역부(240)는 클라우드 번역서버(110)로 전송하기 전 하나 또는 그 이상의 완전한 문장을 문장 단위로 끊어서 전송할 수도 있다. 일례로, 번역부(240)는 클라우드 번역서버(110)와의 원활한 통신을 위해 JAVA, PHP, Node.js, Python, C# 등을 통해 구현될 수 있다.
그런 다음, 번역부(240)는 번역 서버(110)로부터 목적언어로 번역된 음성파일의 자막 텍스트를 수신하여 스토리지(250)에 저장한다.
검수부(230)는 클라우드 음성인식서버(100)에 의해 음성정보를 텍스트화한 원어 자막 텍스트와 클라우드 번역서버(110)에 의해 목적언어로 번역된 목적언어 자막 텍스트를 비교하여 검수한다.
이때, 검수부(230)에서의 검수 작업은 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스를 제공하는 전용 애플리케이션을 통해 이루어질 수 있다. 검수부(230)와 관련해서는 도 4 내지 도 5를 참조하여 더 자세히 설명된다.
도 3은 본 발명의 일 실시예에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 방법의 흐름도이다.
도 3을 참조하면, 단계 310에서, 시스템(1)은 클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 단계 320에서, 시스템(1)은 음성파일을 음성인식을 위한 복수의 음성파일로 분할하고, 단계 330에서, 시스템(1)은 분할된 복수의 음성파일을 음성인식서버로 전송하고, 단계 340에서, 시스템(1)은 음성인식서버로부터 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신한다. 단계 310 내지 단계 340은 도 2를 참조하여 설명된 구성들의 기능과 동일하므로, 추가적인 설명은 생략한다.
단계 350에서, 시스템(1)은 복수의 텍스트를 검수하여 검수완료된 텍스트를 생성한다. 예를 들어, 시스템(1)은 복수의 텍스트를 영상 콘텐츠와 함께 출력하고, 사용자로부터 각각의 텍스트에 대한 수정 입력을 수신하고, 수정 입력에 따라 해당 텍스트를 수정하여 검수완료된 텍스트를 생성할 수 있다.
이때, 시스템(1)은 복수의 텍스트 중 수정이 필요한 텍스트인 경우에만 영상 콘텐츠와 함께 출력하여 수정입력을 요청할 수 있다. 예를 들어, 시스템(1)은 복수의 텍스트와 함께 수신된 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 해당 텍스트에 대한 수정 입력을 사용자에게 요청할 수 있다.
단계 360에서, 시스템(1)은 검수완료된 텍스트 및 목적언어정보를 번역 서버로 전송하여 번역을 요청한다. 예를 들어, 시스템(1)은 목적언어정보를 영어로 설정하고 검수완료된 한국어 텍스트를 번역서버로 전송하여 영어 텍스트로의 번역을 요청할 수 있다.
단계 370에서, 시스템(1)은 번역서버로부터 목적언어로 변환된 번역 텍스트를 수신한다. 예를 들어, 단계 360에서, 검수완료된 한국어 텍스트를 번역서버로 전송하여 영어 텍스트로의 번역을 요청한 경우, 시스템(1)은 번역된 영어 텍스트를 수신하게 된다.
도 3에 도시되지는 않았으나, 시스템(1)은 번역된 텍스트에 대한 검수를 수행할 수 있다. 번역된 텍스트에 대한 검수는 도 5의 (b)를 참조하여 설명된다.
도 4는 본 발명의 일 실시예에 따른 검수부(230)의 구성도를 도시하고, 도 5는 자막검수부(231)와 번역검수부(233)의 일 실시예를 도시한다.
도 4를 참조하면, 검수부(230)는 자막검수부(230) 및 번역검수부(231)을 포함한다.
일반적으로, 기계 음성 인식의 품질은 언어의 종류, 잡음, 음성 파일의 샘플링 레이트 등에 따라 달라지게 되는 데, 본 발명에서는 자막검수부(230)에 의해 임의의 사용자가 음성 파일을 청취하고, 청취된 음성파일로부터 출력되는 원어가 텍스트로 정확하게 변환되었는 지 음성 파일 자막 텍스트를 문장 단위로 끊고, 문장 부호를 추가하는 음성파일 자막 텍스트 편집을 통해 기계 음성 인식으로 인한 오류를 사용자가 검수할 수 있도록 함으로써 그 품질을 향상시킬 수 있도록 한다.
일 실시예에 따른 자막검수부(230)는 복수의 텍스트를 영상 콘텐츠와 함께 출력하고, 사용자로부터 복수의 텍스트 중 적어도 하나의 텍스트에 대한 수정 입력을 수신하고, 수정 입력에 따라 텍스트를 수정하여 검수완료된 텍스트를 생성할 수 있다.
여기서, 검수부(230)는 웹페이지, PC용 어플리케이션 또는 스마트기기의 어플리케이션 등을 통해 구현될 수 있다.
예를 들어, 도 5의 (a)에서 스마트기기의 어플리케이션에서 영상 콘텐츠(511)와 함께 대응하는 텍스트(512), 다시 재생하기 버튼(514), 수정요청을 입력하기 위한 버튼(515), 그리고 다음 텍스트를 확인하기 위한 버튼(516)이 포함된 화면이 도시되었다.
일 실시예에 따르면, 자막검수부(230)는 음성텍스트변환부에서 수신한 신뢰값을 기초로 자막처리된 텍스트의 정확성을 판단하고, 자막처리된 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 자막에 대한 수정 입력을 사용자에게 요청할 수 있다. 예를 들어, 신뢰값(confidence)이 80이하인 경우 자막처리된 텍스트의 정확성을 신뢰할 수 없다고 정한 경우, 텍스트의 신뢰값(confidence)이 80이하인 텍스트마다 사용자에게 수정 입력을 요청할 수 있다.
또한, 기계 번역의 품질은 통계 데이터, 알고리즘의 종류 등에 따라 달라지는 데, 본 발명에 따른 번역검수부(233)는 검수자가 번역된 음성 파일의 자막 텍스트를 검수하여 텍스트가 번역하고자 하는 목적언어로 잘 변환이 되었는 지, 통상적으로 이용되고 있는 관용언어로 구현되었는 지, 일부 문맥 상 매끄럽지 못한 부분 등을 사용자가 검수할 수 있도록 함으로써 기계 번역의 오류를 최소화하고 그 품질을 향상시킬 수 있도록 한다.
일 실시예에 따른 번역부(240)는 검수완료된 텍스트와 번역할 목적언어를 번역 서버로 전송하여 번역을 요청하고, 요청에 따라 목적언어로 변환된 번역텍스트를 수신하여 스토리지에 저장할 수 있다.
이때, 번역검수부(233)는 번역텍스트를 원어텍스트 및 영상 콘텐츠와 함께 출력하고, 사용자로부터 번역텍스트에 대한 수정 입력을 받고, 수정 입력에 따라 번역텍스트를 수정할 수 있다.
예를 들어, 도 5의 (b)에서, 스마트기기의 어플리케이션에서, 원어텍스트(521)와 함께 대응하는 번역텍스트(522), 그리고 수정요청을 입력하기 위한 버튼(525)과 다음 텍스트를 확인하기 위한 버튼(526)이 포함된 화면이 도시되었다.
상술한 바와 같은 검수 프로세스에 따라 진행된 검수부(230)는 사용자, 예를 들어 강의자에 의해 자신이 강의한 영상에서 음성이 텍스트로 정상적으로 자막 처리되었는지를 확인하고 수정할 수 있게 한다. 또한, 필요에 따라 제3 자, 관리자, 또는 전문 번역사에 의해 검수가 될 수 있다.
또한, 본 발명의 다른 실시예에 의하면, 검수부(230)는 검수내용을 점수화하여 번역된 텍스트 파일의 번역품질을 향상시킬 수 있도록 한다.
예를 들어, 검수부(230)는 검수자의 기본 정보를 입력하는 기본정보 입력부(미도시), 검수하고자 하는 검수 대상 파일을 리스트업 하여 리스트업된 검수 대상 파일 중 어느 하나를 선택하도록 하는 검수대상 선택부(미도시), 검수대상 선택부(미도시)에 의해 선택된 검수 대상 파일의 검수사항을 입력하고 이를 저장하도록 하는 검수내용 등록부(미도시), 검수내용 등록부(미도시)에 의해 등록된 검수사항을 저장하는 검수내용 저장부(미도시)를 더 포함할 수 있다.
또한, 검수 품질에 따라 높은 점수를 획득한 사용자를 선별하여 보상하는 보상부(미도시), 검수 내용을 타 검수자와 공유할 수 있도록 하는 검수내용 공유부(미도시)를 더 포함할 수 있다.
또한, 검수부(230)는 검수자의 활동 내역, 평가 점수, 언어 능력 등을 종합적으로 평가한 사전 테스트가 온라인을 통해 이루어질 수 있도록 하는 사전 테스트 진행부(미도시)를 더 포함하고, 사전 테스트 진행부(미도시)에 의해 자체 테스트를 통과한 검수자의 테스트 등급에 따라 검수할 수 있는 음성 파일의 갯수 및 음성 파일의 원어난이도를 조정하여 제공할 수도 있다.
따라서, 본 발명에 의하면 클라우드 서비스를 이용한 음성 인식 및 기계 번역의 오류를 여러 단계를 걸쳐 수정하여 보다 높은 품질의 번역된 영상 콘텐츠를 제공할 수 있다.
이처럼 본 발명에 따른 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템(1)은 클라우드 서비스를 통해 추출된 음성정보를 텍스트로 변환하고, 변환된 텍스트를 번역텍스트로 다시 변환하여 하나의 시스템 안에서 음성인식 및 번역 서비스를 통합화하여 구현할 수 있도록 함으로써 제작된 영상 콘텐츠를 보다 손쉽게 목적언어로 번역하여 자막화할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (11)

  1. 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템으로서,
    클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식을 위한 복수의 음성파일로 분할하는 음성 전처리부;
    상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하여 스토리지에 저장하는 음성텍스트변환부; 및
    상기 복수의 음성 파일에 대응하는 복수의 텍스트에 대한 정정을 수행하는 검수부를 포함하는, 시스템.
  2. 제1 항에 있어서, 상기 음성 전처리부는,
    상기 음성파일에서 음성이 없는 구간을 분석하여, 상기 음성이 없는 구간마다 상기 음성파일을 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할하는, 시스템.
  3. 제1 항에 있어서, 상기 음성 전처리부는,
    상기 음성파일에서 스펙트럼의 변화량을 측정하여, 음성의 안정화 구간을 정하고, 상기 음성의 안정화 구간에 기초하여 상기 음성파일을 문장 단위마다 분할하되, 분할된 음성파일이 미리 결정된 최소길이보다 길도록 상기 음성파일을 분할하는, 시스템.
  4. 제1 항에 있어서, 상기 음성 전처리부는,
    상기 음성파일로부터 종결 어미를 추출하여 추출된 종결어미를 기 저장된 종결어미가 집합된 데이터베이스로부터 추출된 종결어미와의 일치성 여부를 판단하여 문장 단위로 상기 음성파일을 분할하는, 시스템.
  5. 제1 항에 있어서, 상기 검수부는,
    상기 복수의 텍스트를 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 복수의 텍스트 중 적어도 하나의 텍스트에 대한 수정 입력을 수신하고, 상기 수정 입력에 따라 상기 적어도 하나의 텍스트를 수정하여 검수완료된 텍스트를 생성하는 자막검수부를 포함하는, 시스템.
  6. 제5 항에 있어서, 상기 자막검수부는,
    상기 음성텍스트변환부에서 수신한 신뢰값을 기초로 상기 복수의 텍스트에 대한 정확성을 판단하고, 상기 복수의 텍스트 중 적어도 하나의 텍스트의 정확성이 미리 결정된 수준 이하인 경우, 상기 적어도 하나의 텍스트에 대한 수정 입력을 사용자에게 요청하는, 시스템.
  7. 제5 항에 있어서,
    상기 검수완료된 텍스트와 번역할 목적언어를 번역 서버로 전송하여 번역을 요청하고, 상기 요청에 따라 목적언어로 변환된 번역텍스트를 수신하여 스토리지에 저장하는 번역부를 더 포함하는, 시스템.
  8. 제5 항에 있어서, 상기 검수부는,
    음성인식서버에 의해 음성정보를 텍스트화한 원어텍스트와 번역서버에 의해 목적언어로 번역된 번역텍스트를 비교하여 검수하는 번역검수부를 더 포함하고,
    상기 번역검수부는 상기 번역텍스트를 상기 원어텍스트 및 상기 영상 콘텐츠와 함께 출력하고, 사용자로부터 상기 번역텍스트에 대한 수정 입력을 받고, 상기 수정 입력에 따라 상기 번역텍스트를 수정하는, 시스템.
  9. 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 방법으로서,
    클라우드 저장소에 보관중인 영상 콘텐츠로부터 음성파일을 추출하고, 상기 음성파일을 음성인식에 유리하도록 복수의 음성파일로 분할하는 단계;
    상기 분할된 복수의 음성파일을 음성인식서버로 전송하고, 상기 음성인식서버로부터 상기 복수의 음성파일에 대응하는 복수의 텍스트 및 신뢰값을 수신하는 단계;
    상기 복수의 텍스트를 검수하여 검수완료된 텍스트를 생성하는 단계; 및
    상기 검수완료된 텍스트 및 목적언어정보를 번역 서버로 전송하여 번역을 요청하는 단계;
    상기 번역 서버로부터 목적언어로 변환된 번역 텍스트를 수신하여 스토리지에 저장하는 단계를 포함하는, 방법.
  10. 제9 항에 있어서, 상기 검수완료된 텍스트를 생성하는 단계는,
    상기 복수의 텍스트를 상기 영상 콘텐츠와 함께 출력하는 단계;
    사용자로부터 상기 복수의 텍스트 중 적어도 하나에 대한 수정 입력을 수신하는 단계;
    상기 수정 입력에 따라 상기 복수의 텍스트 중 적어도 하나를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함하는, 방법.
  11. 제9 항에 있어서, 상기 검수완료된 텍스트를 생성하는 단계는,
    상기 신뢰값을 기초로 상기 복수의 텍스트의 정확성을 판단하고, 상기 복수의 텍스트 중 적어도 하나의 텍스트에 대한 정확성이 미리 결정된 수준 이하인 경우, 상기 적어도 하나의 텍스트에 대한 수정 입력을 사용자에게 요청하는 단계;
    상기 사용자로부터 상기 적어도 하나의 텍스트에 대한 수정 입력을 수신하는 단계;
    상기 수정 입력에 따라 상기 적어도 하나의 텍스트를 수정하여 검수완료된 텍스트를 생성하는 단계를 포함하는, 방법.
PCT/KR2018/015579 2017-10-11 2018-12-07 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법 WO2020045753A1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020170129865 2017-10-11
KR1020180100650A KR102143755B1 (ko) 2017-10-11 2018-08-27 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
KR10-2018-0100650 2018-08-27

Publications (1)

Publication Number Publication Date
WO2020045753A1 true WO2020045753A1 (ko) 2020-03-05

Family

ID=66283301

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/015579 WO2020045753A1 (ko) 2017-10-11 2018-12-07 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR102143755B1 (ko)
WO (1) WO2020045753A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581975A (zh) * 2020-05-09 2020-08-25 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN113505612A (zh) * 2021-07-23 2021-10-15 平安科技(深圳)有限公司 多人对话语音实时翻译方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102178175B1 (ko) * 2019-12-09 2020-11-12 김경철 사용자 단말 및 그 제어방법
KR102639477B1 (ko) * 2023-09-21 2024-02-22 (주) 아하 Chat GPT를 활용한 실시간 번역 및 전자 회의록 작성 방법 및 이를 위한 전자 칠판

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100045336A (ko) * 2008-10-23 2010-05-03 엔에이치엔(주) 웹 상의 멀티미디어 컨텐츠에 포함되는 특정 언어를 다른 언어로 번역하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20120004151A (ko) * 2010-07-06 2012-01-12 한국전자통신연구원 문장 번역 장치 및 그 방법
KR20170017379A (ko) * 2015-08-06 2017-02-15 한국전자통신연구원 자동 음성 번역 장치 및 그 방법
KR20170052974A (ko) * 2015-11-05 2017-05-15 윤제현 언어 학습을 위한 원어민 번역 교정 방법 및 번역 교정 서비스 제공 서버
KR20180020368A (ko) * 2016-08-18 2018-02-28 주식회사 하이퍼커넥트 통역 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110110382A (ko) * 2010-04-01 2011-10-07 이성기 언어 학습을 위해 멀티미디어 자막으로 음성 인식 시스템을 사용하는 방법
KR20140121580A (ko) * 2013-04-08 2014-10-16 한국전자통신연구원 자동 번역 및 통역 장치 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100045336A (ko) * 2008-10-23 2010-05-03 엔에이치엔(주) 웹 상의 멀티미디어 컨텐츠에 포함되는 특정 언어를 다른 언어로 번역하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20120004151A (ko) * 2010-07-06 2012-01-12 한국전자통신연구원 문장 번역 장치 및 그 방법
KR20170017379A (ko) * 2015-08-06 2017-02-15 한국전자통신연구원 자동 음성 번역 장치 및 그 방법
KR20170052974A (ko) * 2015-11-05 2017-05-15 윤제현 언어 학습을 위한 원어민 번역 교정 방법 및 번역 교정 서비스 제공 서버
KR20180020368A (ko) * 2016-08-18 2018-02-28 주식회사 하이퍼커넥트 통역 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581975A (zh) * 2020-05-09 2020-08-25 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN111581975B (zh) * 2020-05-09 2023-06-20 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN113505612A (zh) * 2021-07-23 2021-10-15 平安科技(深圳)有限公司 多人对话语音实时翻译方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20190040891A (ko) 2019-04-19
KR102143755B1 (ko) 2020-08-12

Similar Documents

Publication Publication Date Title
WO2020045753A1 (ko) 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
KR101998728B1 (ko) 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템
US11997344B2 (en) Translating a media asset with vocal characteristics of a speaker
CN112115706B (zh) 文本处理方法、装置、电子设备及介质
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
US8082142B2 (en) Speech recognition method, speech recognition system and server thereof
CN104731767B (zh) 交流支援装置以及交流支援方法
US7899670B1 (en) Server-based speech recognition
CN111798833B (zh) 一种语音测试方法、装置、设备和存储介质
WO2014046401A1 (ko) 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
WO2020151317A1 (zh) 语音验证方法、装置、计算机设备及存储介质
WO2016208941A1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
WO2020141883A2 (ko) 인공지능 대화형 홈쇼핑 전화 주문 시스템
WO2019123854A1 (ja) 翻訳装置、翻訳方法、及びプログラム
JP2018045639A (ja) 対話ログ分析装置、対話ログ分析方法およびプログラム
JP7117629B2 (ja) 翻訳装置
CN110008314B (zh) 一种意图解析方法及装置
WO2020111374A1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
WO2022065537A1 (ko) 자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법
KR20160131730A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
JP7202938B2 (ja) 番組名検索支援装置、及び、番組名検索支援方法
JP2015215681A (ja) キーワード抽出装置およびプログラム
CN112653916B (zh) 一种音视频同步优化的方法及设备
CN110275860B (zh) 一种记录讲授过程的系统及方法

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18931560

Country of ref document: EP

Kind code of ref document: A1