KR102628304B1 - 자연어 처리 프로세서를 이용한 영상 원문 수정 장치 - Google Patents

자연어 처리 프로세서를 이용한 영상 원문 수정 장치 Download PDF

Info

Publication number
KR102628304B1
KR102628304B1 KR1020230084365A KR20230084365A KR102628304B1 KR 102628304 B1 KR102628304 B1 KR 102628304B1 KR 1020230084365 A KR1020230084365 A KR 1020230084365A KR 20230084365 A KR20230084365 A KR 20230084365A KR 102628304 B1 KR102628304 B1 KR 102628304B1
Authority
KR
South Korea
Prior art keywords
sentence
natural language
language processing
processing processor
data
Prior art date
Application number
KR1020230084365A
Other languages
English (en)
Inventor
문상준
Original Assignee
주식회사 멜로우컴퍼니
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 멜로우컴퍼니 filed Critical 주식회사 멜로우컴퍼니
Priority to KR1020230084365A priority Critical patent/KR102628304B1/ko
Application granted granted Critical
Publication of KR102628304B1 publication Critical patent/KR102628304B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 개시한다. 상기 자연어 처리 프로세서를 이용한 영상 원문 수정 장치는, 자연어 처리 프로세서 및 메모리를 포함하고, 메모리는, 실행되었을 때 자연어 처리 프로세서로 하여금 영상 데이터로부터 변환된 텍스트 데이터를 식별하고, 형태소에 기반하여 텍스트 데이터를 문장 별로 구분하고, 문장 별로 구분된 텍스트 데이터에서 주어 및 목적어 중 적어도 하나가 누락된 제1 문장을 식별하고, 제1 문장과 영상 데이터의 도메인을 미리 학습된 딥러닝 모델에 입력하고, 딥러닝 모델로부터 제1 수정 데이터를 수신하고, 제1 수정 데이터를 제1 문장에 포함시켜 제1 최종 문장을 식별하고, 제1 문장 대신 제1 최종 문장을 텍스트 데이터에 포함시켜 번역을 위한 수정된 텍스트 데이터를 생성하도록 하는 인스트럭션들(instructions)을 저장한다.

Description

자연어 처리 프로세서를 이용한 영상 원문 수정 장치{Device for correcting original text of image using natural language processing processor}
본 발명은 영상 데이터로부터 추출된 음성 데이터에 대해 자연어 처리 프로세서를 이용하여 번역이 이루어지기 전, 원문을 수정하기 위한 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
최근 동영상의 활용이 증가되면서, 다양한 언어로 제작된 동영상에 대해 자막이 제공될 필요성이 증가하고 있다. 특히, 제작된 언어와 상이한 언어로 구성된 자막을 제공하기 위해서는, 동영상인 영상 데이터로부터 추출된 음성 데이터에 대한 번역이 필요하다.
번역은, 음성 데이터를 텍스트 데이터로 변환한 후 수행될 수 있다. 그러나 단순히 기계 번역이 수행되는 경우, 번역의 정확도가 낮아지는 문제점이 발생될 수 있다. 또한, 원문의 텍스트 데이터에 주어, 목적어 및 서술어 중 적어도 하나가 누락된 문장이 포함되어 있는 경우, 그대로 번역이 수행된다면 번역의 정확도 및 완성도가 낮아질 수 있다. 나아가, 영상 데이터에 특정 도메인(domain)에서 이용되는 용어(예: 전문 용어, 줄임말 등)가 포함되어 있는 경우, 오역의 가능성이 높아질 수 있다.
따라서, 번역에 대한 정확성을 향상시킬 수 있는 장치에 대한 니즈가 존재하였다.
본 발명의 목적은, 미리 학습된 딥러닝 모델을 이용하여 주어 및 목적어 중 적어도 하나가 누락된 문장을 완성된 문장으로 변환한 수정 텍스트 데이터를 생성하여 번역이 수행되도록 할 수 있는 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 제공하는 것이다.
또한, 본 발명의 목적은, 서술어가 누락된 문장을 완성된 문장으로 변환할 수 있는 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 제공하는 것이다.
또한, 본 발명의 목적은, 번역 수행 전 텍스트 데이터를 수정한 후 수정된 텍스트 데이터에 대해 번역이 수행되도록 할 수 있는 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 제공하는 것이다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치는 자연어 처리 프로세서 및 상기 자연어 처리 프로세서에 작동적으로(operatively) 연결된 메모리를 포함하고, 상기 메모리는, 실행되었을 때 상기 자연어 처리 프로세서로 하여금 영상 데이터로부터 변환된 텍스트 데이터를 식별하고, 상기 텍스트 데이터를 문장 별로 구분하고, 상기 문장 별로 구분된 상기 텍스트 데이터에서, 주어 및 목적어 중 적어도 하나가 누락된 제1 문장을 식별하고, 상기 제1 문장과 상기 영상 데이터의 도메인을, 미리 학습된 딥러닝 모델에 입력하고, 상기 딥러닝 모델로부터 누락된 상기 제1 문장의 주어 및 목적어 중 적어도 하나에 대응되는 제1 수정 데이터를 수신하고, 상기 제1 수정 데이터를 상기 제1 문장에 포함시켜, 누락된 상기 제1 문장의 주어 및 목적어 중 적어도 하나가 보완된 제1 최종 문장을 식별하고, 상기 제1 문장 대신 상기 제1 최종 문장을 상기 텍스트 데이터에 포함시켜, 번역을 위한 수정된 텍스트 데이터를 생성하도록 하는 인스트럭션들(instructions)을 저장한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 문장 별로 구분된 상기 텍스트 데이터에서, 서술어가 누락된 제2 문장을 식별하고, 상기 영상 데이터에서, 상기 제2 문장의 종료 시간으로부터 일정 시간 사이의 일부 영상 데이터를 식별하고, 상기 일부 영상 데이터의 등장 인물의 얼굴 표정 및 행동에 기반하여, 누락된 상기 제2 문장의 서술어에 대응되는 제2 수정 데이터를 식별하고, 상기 제2 수정 데이터를 상기 제2 문장에 포함시켜, 누락된 상기 제2 문장의 서술어가 보완된 제2 최종 문장을 식별하고, 상기 제2 문장 대신 상기 제2 최종 문장을 상기 텍스트 데이터에 포함시켜, 상기 수정된 텍스트 데이터를 생성한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 문장 별로 구분된 상기 텍스트 데이터에서, 서술어가 누락된 제2 문장을 식별하고, 상기 텍스트 데이터에서 상기 제2 문장 다음에 위치하는 제3 문장과, 상기 제2 문장 이전에 위치하는 제4 문장을 식별하고, 상기 제3 문장의 서술어와 상기 제4 문장의 서술어를 각각 식별하고, 상기 제3 문장의 서술어 및 상기 제4 문장의 서술어에 기반하여, 맥락을 판단하고, 판단된 상기 맥락을 기초로 누락된 상기 제2 문장의 서술어에 대응되는 제2 수정 데이터를 식별하고, 상기 제2 수정 데이터를 상기 제2 문장에 포함시켜, 누락된 상기 제2 문장의 서술어가 보완된 제2 최종 문장을 식별하고, 상기 제2 문장 대신 상기 제2 최종 문장을 상기 텍스트 데이터에 포함시켜, 상기 수정된 텍스트 데이터를 생성한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 문장 별로 구분된 상기 텍스트 데이터에서, 서술어가 누락된 제2 문장을 식별하고, 상기 영상 데이터의 도메인, 상기 제2 문장 및 상기 텍스트 데이터를, 미리 학습된 상기 딥러닝 모델에 입력하고, 상기 딥러닝 모델로부터 누락된 상기 제2 문장의 서술어에 대응되는 제2 수정 데이터를 수신하고, 상기 제2 수정 데이터를 상기 제2 문장에 포함시켜, 누락된 상기 제2 문장의 서술어가 보완된 제2 최종 문장을 식별하고, 상기 제2 문장 대신 상기 제2 최종 문장을 상기 텍스트 데이터에 포함시켜, 상기 수정된 텍스트 데이터를 생성하고, 상기 딥러닝 모델은, 상기 제2 문장 및 상기 텍스트 데이터를 기초로, 맥락을 판단하여 상기 제2 수정 데이터를 출력한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 영상 데이터의 도메인, 주어 및 목적어 중 적어도 하나가 누락된 학습용 문장, 및 학습용 최종 문장을 포함하는 학습 데이터를 이용하여 상기 딥러닝 모델을 학습시키도록 하고, 상기 학습용 최종 문장은, 누락된 상기 학습용 문장의 주어 및 목적어 중 적어도 하나가 보완되어 완성된 문장이다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 사용자가 상기 영상 데이터를 업로드 하는 채널을 등록한 경우, 상기 영상 데이터의 업로드 여부를 모니터링하고, 상기 영상 데이터가 상기 채널에 업로드되면 상기 영상 데이터를 식별한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 문장 별로 구분된 상기 텍스트 데이터에, 상기 영상 데이터의 도메인과 관련된 용어가 포함되어 있는지 여부를 식별하고, 상기 문장 별로 구분된 상기 텍스트 데이터에 상기 용어가 포함된 것에 기반하여, 상기 용어를 대체 용어로 전환하고, 상기 용어를 상기 대체 용어로 전환한 후, 상기 제1 문장을 식별한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 문장 별로 구분된 상기 텍스트 데이터에서, 상기 영상 데이터의 시작 시점부터 설정된 시점까지에 대응되는 일부 텍스트 데이터를 식별하고, 상기 일부 텍스트 데이터를 미리 학습된 상기 딥러닝 모델에 입력하고, 상기 딥러닝 모델로부터 상기 영상 데이터의 도메인을 수신한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 도메인이 확인될 수 있는 단어가 포함된 도메인 학습용 문장 및 상기 도메인을 포함하는 도메인 학습 데이터를 이용하여 상기 딥러닝 모델을 학습시키도록 한다.
또한, 상기 인스트럭션들은, 상기 자연어 처리 프로세서가, 상기 문장 별로 구분된 상기 텍스트 데이터에서, 금지어가 포함된 제2 문장을 식별하고, 상기 제2 문장의 상기 금지어에 대한 자막은 제외되도록 한다.
본 발명의 자연어 처리 프로세서를 이용한 영상 원문 수정 장치는, 미리 학습된 딥러닝 모델을 이용하여 주어 및 목적어 중 적어도 하나가 누락된 문장을 완성된 문장으로 변환한 후 번역이 수행되도록 함으로써, 번역의 정확도 및 완성도를 향상시킬 수 있다.
또한, 본 발명의 자연어 처리 프로세서를 이용한 영상 원문 수정 장치는, 서술어가 누락된 문장을 완성된 문장으로 변환한 후 번역이 수행되도록 함으로써, 번역의 정확도 및 완성도를 향상시킬 수 있다.
또한, 본 발명의 자연어 처리 프로세서를 이용한 영상 원문 수정 장치는, 번역 수행 전 텍스트 데이터를 수정한 후 번역이 수행되도록 함으로써, 번역의 정확도 및 완성도를 향상시킬 수 있다.
상술한 내용과 더불어 본 발명의 구체적인 효과는 이하 발명을 실시하기 위한 구체적인 사항을 설명하면서 함께 기술한다.
도 1은 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 순서도이다.
도 3은 도 2의 단계(S105)를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치와 딥러닝 모델을 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 설명하기 위한 도면이다.
도 6은 도 4의 딥러닝 모델의 구성을 예시적으로 도시한 도면이다.
도 7은 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 도면이다.
도 8 및 도 9는 도 7의 단계(S203), 단계(S205) 및 단계(S207)를 설명하기 위한 도면이다.
도 10은 도 7의 단계(S203), 단계(S205) 및 단계(S207)를 설명하기 위한 도면이다.
도 11은 도 7의 단계(S203), 단계(S205) 및 단계(S207)를 설명하기 위한 도면이다.
도 12는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 도면이다.
도 13은 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 설명하기 위한 도면이다.
도 14 및 도 15는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 도면이다.
도 16은 본 발명의 몇몇 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 하드웨어 구현을 설명하기 위한 도면이다.
본 명세서 및 특허청구범위에서 사용된 용어나 단어는 일반적이거나 사전적인 의미로 한정하여 해석되어서는 아니된다. 발명자가 그 자신의 발명을 최선의 방법으로 설명하기 위해 용어나 단어의 개념을 정의할 수 있다는 원칙에 따라, 본 발명의 기술적 사상과 부합하는 의미와 개념으로 해석되어야 한다. 또한, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명이 실현되는 하나의 실시예에 불과하고, 본 발명의 기술적 사상을 전부 대변하는 것이 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 및 응용 가능한 예들이 있을 수 있음을 이해하여야 한다.
본 명세서 및 특허청구범위에서 사용된 제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. '및/또는' 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서 및 특허청구범위에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해서 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 또한, 본 발명의 각 실시예에 포함된 각 구성, 과정, 공정 또는 방법 등은 기술적으로 상호 간 모순되지 않는 범위 내에서 공유될 수 있다.
이하에서 도 1 내지 도 6을 참조하여 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치에 대해 설명한다.
도 1은 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 순서도이다. 도 3은 도 2의 단계(S105)를 설명하기 위한 도면이다. 도 4는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치와 딥러닝 모델을 설명하기 위한 도면이다. 도 5는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 설명하기 위한 도면이다. 도 6은 도 4의 딥러닝 모델의 구성을 예시적으로 도시한 도면이다.
도 1 및 도 2를 참조하면, 본 발명의 몇몇 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는, 자연어 처리 프로세서(110) 및 메모리(120)를 포함할 수 있다. 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는 도 1에 도시된 구성요소들 이외에 추가적인 구성요소를 적어도 하나 더 포함할 수 있다. 예를 들어 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는, 통신 모듈 또는 디스플레이 중 적어도 하나를 더 포함할 수 있다. 예를 들어, 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)의 구성요소들은 동일한 개체(entity)이거나, 별도의 개체를 구성할 수 있다.
메모리(120)는, 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)의 적어도 하나의 구성요소(예: 자연어 처리 프로세서(120))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(120)는, 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다.
메모리(120)는 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)에 포함된 구성요소들의 동작과 연관된 명령, 정보 또는 데이터를 저장할 수 있다. 예를 들어, 메모리(120)는, 실행 시에, 자연어 처리 프로세서(110)가 본 문서에 기재된 다양한 동작을 수행할 수 있도록 하는 인스트럭션들(instructions)을 저장할 수 있다.
자연어 처리 프로세서(110)는 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)의 전반적인 기능을 수행하기 위하여 메모리(120)와 작동적으로(operatively) 연결될(coupled) 수 있다. 자연어 처리 프로세서(110)는 예를 들어, 하나 이상의 자연어 처리 프로세서를 포함할 수 있다. 하나 이상의 자연어 처리 프로세서는 예를 들어, 이미지 시그널 자연어 처리 프로세서(image signal processor, ISP), 애플리케이션 자연어 처리 프로세서(application processor, AP), 또는 통신 자연어 처리 프로세서(communication processor, CP)를 포함할 수 있다.
자연어 처리 프로세서(110)는, 예를 들면, 소프트웨어(예: 프로그램)를 실행하여 자연어 처리 프로세서(110)에 연결된 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시 예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 자연어 처리 프로세서(110)는 다른 구성요소(예: 통신 모듈)로부터 수신된 명령 또는 데이터를 메모리(120)에 로드하고, 메모리(120)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 메모리(120)에 저장할 수 있다. 일 실시 예에 따르면, 자연어 처리 프로세서(110)는 메인 자연어 처리 프로세서(예: 중앙 처리 장치 또는 어플리케이션 자연어 처리 프로세서), 및 이와는 독립적으로 또는 함께 운영 가능한 보조 자연어 처리 프로세서(예: 그래픽 처리 장치, 이미지 시그널 자연어 처리 프로세서, 센서 허브 자연어 처리 프로세서, 또는 커뮤니케이션 자연어 처리 프로세서)를 포함할 수 있다. 추가적으로 또는 대체적으로, 보조 자연어 처리 프로세서는 메인 자연어 처리 프로세서보다 저전력을 사용하거나, 또는 지정된 기능에 특화되도록 설정될 수 있다. 보조 자연어 처리 프로세서는 메인 자연어 처리 프로세서와 별개로, 또는 그 일부로서 구현될 수 있다.
프로그램은 메모리(120)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제, 미들 웨어 또는 어플리케이션을 포함할 수 있다.
자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는, 딥러닝 모델(200)과 데이터를 주고 받을 수 있다. 딥러닝 모델(200)은 미리 학습된 것일 수 있다. 도면에서 딥러닝 모델(200)이 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)에 포함되지 않는 것으로 도시하였으나, 이에 제한되는 것은 아니다. 예를 들어, 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는 딥러닝 모델(200)을 포함할 수 있다.
자연어 처리 프로세서(110)는, 영상 데이터로부터 변환된 텍스트 데이터를 식별할 수 있다(S101). 영상 데이터는, 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)가 원문(텍스트 데이터)을 수정한 후 번역하고자 하는 대상일 수 있다. 번역이 완료된 후, 영상 데이터로 번역문에 대한 자막이 제공될 수 있다.
예를 들어 텍스트 데이터는, 영상 데이터로부터 음성 데이터가 추출되고, 음성 데이터로부터 변환된 것일 수 있다. 자연어 처리 프로세서(110)는 데이터를 공유할 수 있는 수단(예: 인터넷)을 통해 업로드된 영상 데이터를 식별할 수 있다. 또는 자연어 처리 프로세서(110)는 사용자로부터 직접 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)로 업로드 된 영상 데이터를 식별할 수 있다.
몇몇 실시예에서 자연어 처리 프로세서(110)는 사용자가 영상 데이터를 업로드 하는 채널을 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)에 등록한 경우, 영상 데이터의 업로드 여부를 모니터링할 수 있다. 자연어 처리 프로세서(110)는, 사용자가 등록한 채널을 모니터링하고, 채널에 영상 데이터가 업로드된 경우 업로드된 영상 데이터를 식별할 수 있다.
몇몇 실시예에서 자연어 처리 프로세서(110)는 사용자에 의해 등록된 영상 데이터를 식별할 수 있다. 사용자는 영상 데이터의 음성을 번역하고 자막을 제공하기 위해, 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)로 영상 데이터를 업로드할 수 있다.
자연어 처리 프로세서(110)는 형태소에 기반하여, 텍스트 데이터를 문장 별로 구분할 수 있다(S105). 예를 들어 자연어 처리 프로세서(110)는 식별된 형태소에 기반하여, 종결 어미 또는 문장 끝 부호 중 적어도 어느 하나를 식별함으로써, 텍스트 데이터에 포함된 각각의 문장을 구분하여 식별할 수 있다. 문장 끝 부호는 예를 들어, 마침표, 물음표, 느낌표 등일 수 있다. 자연어 처리 프로세서(110)는 분리된 각 문장에 대한 시작 시간과 종료 시간을 식별할 수 있다. 또한 자연어 처리 프로세서(110)는 분리된 문장에 포함된 단어 각각에 대한 시작 시간과 종료 시간을 식별할 수 있다.
도 3을 참조하면, 자연어 처리 프로세서(110)는 텍스트 데이터를 형태소 단위(301)로 나누어 식별할 수 있다. 자연어 처리 프로세서(110)는 식별된 형태소를 분석하여, 텍스트 데이터를 문장 별로 구분(302)할 수 있다.
다시 도 1 및 도 2를 참조하면, 자연어 처리 프로세서(110)는 문장 별로 구분된 텍스트 데이터에서, 주어 및 목적어 중 적어도 하나가 누락된 제1 문장을 식별할 수 있다(S107). 텍스트 데이터는 자연어 처리 프로세서(110)에 의해 문장 별로 구분되어 식별되어 있을 수 있다. 자연어 처리 프로세서(110)는 텍스트 데이터에서 각각 별개로 구분된 문장에 대해, 주어 및 목적어 중 적어도 하나가 누락되어 있는지 여부를 판단할 수 있다.
자연어 처리 프로세서(110)는 식별된 제1 문장과 영상 데이터의 도메인(domain)을, 미리 학습된 딥러닝 모델(200)에 입력할 수 있다(S109). 영상 데이터의 도메인은 예를 들어, 영상 데이터의 내용이 속할 수 있는 카테고리(예: 패션, 음식 등)일 수 있다.
몇몇 실시예에서 영상 데이터의 도메인은 사용자에 의해 등록될 수 있다.
몇몇 실시예에서 자연어 처리 프로세서(110)는 미리 학습된 딥러닝 모델을 이용하여 영상 데이터의 도메인을 식별할 수 있다. 이는 도 13 내지 도 15를 이용하여 후술한다.
몇몇 실시예에서 자연어 처리 프로세서(110)는 텍스트 데이터의 일부를 분석하여 영상 데이터의 도메인을 식별할 수 있다. 이는 도 13 내지 도 15를 이용하여 후술한다.
자연어 처리 프로세서(110)는 딥러닝 모델(200)로부터 제1 수정 데이터를 수신할 수 있다(S111). 제1 수정 데이터는, 누락된 제1 문장의 주어 및 목적어 중 적어도 하나에 대응되는 것일 수 있다.
도 4, 도 5 및 도 6을 참조하면, 자연어 처리 프로세서(110)는 제1 문장 및 영상 데이터의 도메인을 딥러닝 모델(200)에 입력하고, 누락된 제1 문장의 주어 및 목적어 중 적어도 하나에 대응되는 제1 수정 데이터를 딥러닝 모델(200)로부터 수신될 수 있다. 딥러닝 모델(200)은 미리 학습된 것일 수 있다.
예를 들어, 제1 문장이 “자기 집인 것을 인지해요.”라는 문장인 경우, 자연어 처리 프로세서(110)는 텍스트 데이터에서 상기 제1 문장이 주어가 누락된 문장임을 식별할 수 있다. 자연어 처리 프로세서(110)는 영상 데이터의 도메인인 강아지와 제1 문장을 딥러닝 모델(200)에 입력할 수 있다. 자연어 처리 프로세서(110)는 제1 문장에서 누락된 주어에 대응되는 제1 수정 데이터(예: “강아지가”)를 딥러닝 모델(200)로부터 수신할 수 있다.
자연어 처리 프로세서(110)는 학습 데이터를 이용하여 딥러닝 모델(200)이 학습되도록 할 수 있다. 학습 데이터는 예를 들어, 영상 데이터의 도메인, 학습용 문장 및 학습용 최종 문장을 포함할 수 있다. 학습용 문장은 예를 들어, 주어 및 목적어 중 적어도 하나가 누락된 문장일 수 있다. 학습용 최종 문장은 예를 들어, 누락된 학습용 문장의 주어 및 목적어 중 적어도 하나가 보완되어 완성된 문장일 수 있다.
예를 들어, 자연어 처리 프로세서(110)는 도메인으로 강아지와, 학습용 문장으로 “집어 먹는다”와, 학습용 최종 문장으로 “강아지가 집어 먹는다”를 포함하는 학습 데이터를 이용하여, 딥러닝 모델(200)이 학습되도록 할 수 있다.
예를 들어, 자연어 처리 프로세서(110)는 도메인으로 이종 격투기와, 학습용 문장으로 “선수가 무릎으로 시도합니다”와, 학습용 최종 문장으로 “선수가 무릎으로 니킥을 시도합니다”를 포함하는 학습 데이터를 이용하여, 딥러닝 모델(200)이 학습되도록 할 수 있다.
딥러닝 모델(200)은 영상 데이터의 도메인 및 학습용 문장을 입력노드로 하는 입력 레이어(input)와, 학습용 최종 문장을 출력노드로 하는 출력 레이어(Output)와, 입력 레이어와 출력 레이어 사이에 배치되는 M 개의 히든 레이어를 포함할 수 있다.
여기서, 각 레이어들의 노드를 연결하는 에지(edge)에는 가중치가 설정될 수 있다. 이러한 가중치 혹은 에지의 유무는 학습 과정에서 추가, 제거, 또는 업데이트 될 수 있다. 따라서, 학습 과정을 통하여, k개의 입력노드와 i개의 출력노드 사이에 배치되는 노드들 및 에지들의 가중치는 업데이트될 수 있다.
딥러닝 모델(200)이 학습을 수행하기 전에는 모든 노드와 에지는 초기값으로 설정될 수 있다. 그러나, 누적하여 정보가 입력될 경우, 노드 및 에지들의 가중치는 변경되고, 이 과정에서 학습인자로 입력되는 파라미터들(즉, 영상 데이터의 도메인 및 학습용 문장)과 출력노드로 할당되는 값(즉, 학습용 최종 문장) 사이의 매칭이 이루어질 수 있다.
추가적으로, 클라우드 서버(미도시)를 이용하는 경우, 딥러닝 모델(200)은 많은 수의 파라미터들을 수신하여 처리할 수 있다. 따라서, 딥러닝 모델(200)은 방대한 데이터에 기반하여 학습을 수행할 수 있다.
딥러닝 모델(200)을 구성하는 입력노드와 출력노드 사이의 노드 및 에지의 가중치는 딥러닝 모델(200)의 학습 과정에 의해 업데이트될 수 있다. 또한, 딥러닝 모델(200)에서 출력되는 파라미터는 학습용 최종 문장 외에도 다양한 데이터로 추가 확장될 수 있음은 물론이다.
다시 도 1 및 도 2를 참조하면, 자연어 처리 프로세서(110)는 제1 최종 문장을 식별할 수 있다(S113). 예를 들어 자연어 처리 프로세서(110)는, 제1 수정 데이터를 제1 문장에 포함시켜, 제1 최종 문장을 식별할 수 있다. 제1 최종 문장은, 누락된 제1 문장의 주어 및 목적어 중 적어도 하나가 보완된 것일 수 있다.
예를 들어 자연어 처리 프로세서(110)는 제1 문장이 “자기 집인 것을 인지해요.”라는 문장이고, 영상 데이터의 도메인이 강아지이고, 제1 수정 데이터(예: “강아지가”)를 딥러닝 모델(200)로부터 수신한 경우, 제1 문장에서 누락된 주어에 대응되는 제1 수정 데이터를 제1 문장에 포함시켜, 제1 최종 문장(예: “강아지가 자기 집인 것을 인지해요”)을 식별할 수 있다.
자연어 처리 프로세서(110)는 수정된 텍스트 데이터를 생성할 수 있다(S115). 예를 들어, 자연어 처리 프로세서(110)는 제1 문장 대신 제1 최종 문장을 텍스트 데이터에 포함시켜, 수정된 텍스트 데이터를 생성할 수 있다. 예를 들어 수정된 텍스트 데이터에는, 제1 문장인 “자기 집인 것을 인지해요.”가 수정된 제1 최종 문장인 “강아지가 자기 집인 것을 인지해요”가 포함될 수 있다.
수정 텍스트 데이터는, 번역 및 자막 생성에 이용될 수 있다. 자연어 처리 프로세서(110)는 원문인 텍스트 데이터를 문장 별로 구분하고, 문장 별로 구분된 텍스트 데이터에서 주어 및 목적어 중 적어도 하나가 누락된 제1 문장을 식별하고, 누락된 주어 및 목적어 중 적어도 하나가 보완된 완성된 문장을 제1 문장 대신 포함시켜 수정 텍스트 데이터를 생성한 후, 수정 텍스트 데이터에 기반하여 번역이 수행되도록 할 수 있다. 수정 텍스트 데이터에 기반한 번역의 결과는 자막으로 제공될 수 있다.
몇몇 실시예에서 자연어 처리 프로세서(110)는 원문 데이터인 텍스트 데이터 및 수정된 텍스트 데이터 중 어느 하나에 금지어(예: 욕설)가 포함된 경우, 해당 금지어에 대한 자막이 제공되지 않도록 할 수 있다. 또는 자연어 처리 프로세서(110)는 미리 설정된 기호가 해당 금지어에 대응되어 자막에 표시되도록 할 수 있다. 자연어 처리 프로세서(110)는 원문 데이터인 텍스트 데이터 및 수정된 텍스트 데이터 중 어느 하나에 금지어가 포함되어 금지어에 대응되는 번역문이 자막으로 제공되지 않았음을 표시할 수 있다. 자연어 처리 프로세서(110)는 원문 데이터인 텍스트 데이터 및 수정된 텍스트 데이터 중 어느 하나에 금지어가 포함되어 있음을 사용자에게 알릴 수 있다.
원문인 텍스트 데이터에 수정 대상 문장이 포함되어 있다면, 번역 후 수정하는 경우 원문의 맥락을 파악하기 어렵고 나아가 맥락과 맞지 않은 단어로 수정될 수 있어 오역의 가능성이 높아질 수 있다. 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는, 원문인 텍스트 데이터를 수정한 후의 수정된 텍스트 데이터를 이용하여 번역이 수행되고, 번역 결과에 기반하여 자막이 생성되도록 함으로써, 번역의 완성도 및 정확도를 향상시킬 수 있다.
도 2에서 설명된 각 단계들은, 자연어 처리 프로세서(110)에 포함될 수 있는 적어도 하나의 모듈을 통해 각각 수행될 수 있다.
이하에서 도 1, 도 7 내지 도 9를 참조하여 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치에 대해 설명한다. 설명의 명확성을 위해 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.
도 7은 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 도면이다. 도 8 및 도 9는 도 7의 단계(S203), 단계(S205) 및 단계(S207)를 설명하기 위한 도면이다.
도 1 및 도 7을 참조하면, 자연어 처리 프로세서(110)는 영상 데이터로부터 변환된 텍스트 데이터를 식별할 수 있다(S101). 자연어 처리 프로세서(110)는 형태소에 기반하여, 텍스트 데이터를 문장 별로 구분할 수 있다(S105).
자연어 처리 프로세서(110)는 각각 구분된 텍스트 데이터의 문장들에 대해, 주어 및 목적어 중 적어도 하나가 누락되었는지 여부를 판단할 수 있다(S201).
예를 들어 자연어 처리 프로세서(110)는 문장 별로 구분된 텍스트 데이터에서, 주어 및 목적어 중 적어도 하나가 누락된 제1 문장을 식별할 수 있다(S201에서 Y).
자연어 처리 프로세서(110)는 제1 문장과 영상 데이터의 도메인을, 미리 학습된 딥러닝 모델(200)에 입력할 수 있다(S109). 자연어 처리 프로세서(110)는 딥러닝 모델(200)로부터 제1 수정 데이터를 수신할 수 있다(S111). 제1 수정 데이터는, 제1 문장에서 누락된 주어 및 목적어 중 적어도 하나에 대응되는 것일 수 있다. 자연어 처리 프로세서(110)는 제1 수정 데이터에 기반하여 제1 문장을 보완하여, 완성된 문장인 제1 최종 문장을 식별할 수 있다(S113). 자연어 처리 프로세서(110)는 텍스트 데이터에 제1 문장 대신 제1 최종 문장을 포함시킴으로써, 수정된 텍스트 데이터를 생성할 수 있다(S115).
자연어 처리 프로세서(110)는 주어 및 목적어가 포함된 문장이 서술어를 포함하고 있는지 여부를 판단할 수 있다(S203). 예를 들어 자연어 처리 프로세서(110)는 각각 구분된 텍스트 데이터의 문장 중 주어 및 목적어가 포함된 제2 문장을 식별할 수 있다(S201에서 N). 자연어 처리 프로세서(110)는 제2 문장에 서술어가 누락되었음을 식별할 수 있다(S203에서 Y). 예를 들어 자연어 처리 프로세서(110)는 강아지와 관련된 영상 데이터에서, “강아지가 먹이를”이라는 제2 문장을 식별할 수 있다.
자연어 처리 프로세서(110)는, 제2 문장과 관련된 제2 수정 데이터를 식별할 수 있다(S205).
도 8 및 도 9를 참조하면, 자연어 처리 프로세서(110)는 텍스트 데이터(400)에서 서술어가 누락된 제2 문장(402)을 식별할 수 있다.
자연어 처리 프로세서(110)는 제2 문장(402)의 종료 시간(402b) 및 제2 문장(402)의 종료 시간(402b)으로부터 일정 시간(403a)을 식별할 수 있다. 예를 들어 제2 문장(402)의 종료 시간(402b)은 종결 어미(4021)에 기반하여 식별될 수 있다.
영상 데이터는 영상 데이터의 시작 시점(501)부터 종료 시점(503)까지 재생 가능한 영상 데이터일 수 있다. 자연어 처리 프로세서(110)는 영상 데이터에서, 제2 문장(402)의 종료 시간(402b)으로부터 일정 시간(403a) 사이의 일부 영상 데이터를 식별할 수 있다.
자연어 처리 프로세서(110)는 일부 영상 데이터에서 등장하는 등장 인물의 얼굴 표정 및 행동에 기반하여, 누락된 제2 문장(402)의 서술어에 대응되는 제2 수정 데이터를 식별할 수 있다. 예를 들어 자연어 처리 프로세서(110)는 서술어가 누락된 제2 문장(“강아지가 먹이를”)에 대해, “먹어요”라는 제2 수정 데이터를 식별할 수 있다.
다시 도 1 및 도 7을 참조하면, 자연어 처리 프로세서(110)는 제2 최종 문장을 식별할 수 있다(S207). 자연어 처리 프로세서(110)는 제2 수정 데이터를 제2 문장에 포함시켜, 누락된 서술어가 보완된 제2 최종 문장을 식별할 수 있다. 예를 들어 자연어 처리 프로세서(110)는 서술어가 누락된 제2 문장(“강아지가 먹이를”)에 제2 수정 데이터(“먹어요”)를 포함시켜, 제2 최종 문장(“강아지가 먹이를 먹어요”)을 식별할 수 있다.
자연어 처리 프로세서(110)는 제2 문장 대신 제2 최종 문장을 텍스트 데이터에 포함시켜, 수정된 텍스트 데이터를 생성할 수 있다(S115).
자연어 처리 프로세서(110)는 각각 구분된 텍스트 데이터의 문장 중 주어 및 목적어가 포함된 문장이 서술어도 포함하고 있음을 식별할 수 있다(S203에서 N).
자연어 처리 프로세서(110)는 제1 문장이 보완된 제1 최종 문장 및 제2 문장이 보완된 제2 최종 문장을 포함하는 수정된 텍스트 데이터에 대한 번역이 수행되도록 할 수 있다. 번역의 결과는, 자막으로 제공될 수 있다.
본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는, 원문인 텍스트 데이터를 수정한 후의 수정된 텍스트 데이터를 이용하여 번역이 수행되도록 함으로써, 번역의 완성도 및 정확도를 향상시킬 수 있다.
이하에서 도 1, 도 7 및 도 10을 참조하여 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치에 대해 설명한다. 설명의 명확성을 위해 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.
도 10은 도 7의 단계(S203), 단계(S205) 및 단계(S207)를 설명하기 위한 도면이다.
도 1 및 도 7을 참조하면, 자연어 처리 프로세서(110)는 각각 구분된 텍스트 데이터의 문장 중 주어 및 목적어가 포함된 제2 문장을 식별할 수 있다(S201에서 N). 자연어 처리 프로세서(110)는 제2 문장에 서술어가 누락되었음을 식별할 수 있다(S203에서 Y).
자연어 처리 프로세서(110)는, 제2 문장과 관련된 제2 수정 데이터를 식별할 수 있다(S205).
도 10을 참조하면, 자연어 처리 프로세서(110)는 텍스트 데이터(400)에서 서술어가 누락된 제2 문장(402) 다음에 위치하는 제3 문장(403)과, 제2 문장(402) 이전에 위치하는 제4 문장(404)을 식별할 수 있다.
자연어 처리 프로세서(110)는 제3 문장(403)의 종결 어미인 서술어(4035)를 포함한 제3 문장(403)의 일부와, 제4 문장(404)의 종결 어미인 서술어(4044)를 포함하는 제4 문장(404)의 일부 각각을 식별할 수 있다.
예를 들어, 제2 문장(402)의 바로 직전의 문장인 제4 문장(404)에 서술어가 포함되어 있지 않은 경우, 제4 문장(404)의 바로 직전의 문장인 제5 문장(405)에서 서술어(4054)를 포함한 제5 문장(405)의 일부를 식별할 수 있다. 예를 들어, 제2 문장(402)의 바로 직후의 문장인 제3 문장(403)에 서술어가 포함되어 있지 않은 경우, 제4 문장(404)의 바로 직후의 문장인 제6 문장(406)에서 서술어(4064)를 포함한 제6 문장(406)의 일부를 식별할 수 있다.
자연어 처리 프로세서(110)는 제3 문장(403)의 서술어(4035)를 포함한 일부 및 제4 문장(404)의 서술어(4044)를 포함한 일부에 기반하여, 맥락을 판단할 수 있다.
예를 들어 제2 문장은 “강아지가 먹이를”일 수 있다. 예를 들어, 제4 문장(404)이 “강아지는 하루에 세 번 먹이를 줘야 해요”이고, 제3 문장(403)이 “강아지가 먹이를 먹고 나서, 목이 마를 수 있어요”인 경우, 자연어 처리 프로세서(110)는 맥락을 판단하여, 제2 문장(“강아지가 먹이를”)에서 누락된 서술어에 대응되는 제2 수정 데이터(“먹어요”)를 식별할 수 있다.
자연어 처리 프로세서(110)는 제2 수정 데이터를 이용하여 완성된 문장으로 수정한 제2 최종 문장을 식별하고(S207), 제2 최종 문장을 텍스트 데이터에 포함시켜 수정된 텍스트 데이터를 생성할 수 있다.
이하에서 도 1, 도 5, 도 7 및 도 11을 참조하여 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치에 대해 설명한다. 설명의 명확성을 위해 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.
도 11은 도 7의 단계(S203), 단계(S205) 및 단계(S207)를 설명하기 위한 도면이다.
도 1 및 도 7을 참조하면, 자연어 처리 프로세서(110)는 각각 구분된 텍스트 데이터의 문장 중 주어 및 목적어가 포함된 제2 문장을 식별할 수 있다(S201에서 N). 자연어 처리 프로세서(110)는 제2 문장에 서술어가 누락되었음을 식별할 수 있다(S203에서 Y).
자연어 처리 프로세서(110)는, 제2 문장과 관련된 제2 수정 데이터를 식별할 수 있다(S205).
도 11을 참조하면, 자연어 처리 프로세서(110)는 영상 데이터의 도메인, 서술어가 누락된 제2 문장 및 텍스트 데이터를, 미리 학습된 딥러닝 모델(200)에 입력할 수 있다.
딥러닝 모델(200)은, 제2 문장 및 텍스트 데이터를 기초로, 맥락을 판단하여 제2 수정 데이터를 출력할 수 있다. 딥러닝 모델(200)은 미리 학습된 것일 수 있다.
도 5를 함께 참조하면, 자연어 처리 프로세서(110)는 학습 데이터를 이용하여 딥러닝 모델(200)이 학습되도록 할 수 있다. 학습 데이터는 예를 들어, 영상 데이터의 도메인, 텍스트 데이터, 학습용 문장 및 학습용 최종 문장을 포함할 수 있다. 학습용 문장은 예를 들어, 서술어가 누락된 문장일 수 있다. 학습용 최종 문장은 예를 들어, 누락된 학습용 문장의 서술어가 보완되어 완성된 문장일 수 있다.
딥러닝 모델(200)은 학습 데이터를 이용하여 맥락을 판단하고, 맥락에 기초하여 제2 수정 데이터인 누락된 서술어를 출력할 수 있다.
자연어 처리 프로세서(110)는 딥러닝 모델(200)로부터 누락된 제2 문장의 서술어에 대응되는 제2 수정 데이터를 수신할 수 있다.
몇몇 실시예에서 딥러닝 모델(200)은, 적어도 하나 이상의 모델을 포함할 수 있다. 예를 들어, 딥러닝 모델(200)은, 주어 및 목적어 중 적어도 하나를 보완하기 위한 제1 모델과, 서술어를 보완하기 위한 제2 모델을 포함할 수 있다.
이하에서 도 1 및 도 12를 참조하여 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치에 대해 설명한다. 설명의 명확성을 위해 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.
도 12는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 도면이다.
도 1 및 도 12를 참조하면, 자연어 처리 프로세서(110)는 영상 데이터로부터 변환된 텍스트 데이터를 식별하고(S101), 형태소에 기반하여 텍스트 데이터를 문장 별로 구분(S105)할 수 있다.
자연어 처리 프로세서(110)는 문장 별로 구분된 텍스트 데이터에, 용어가 포함되어 있는지 여부를 식별할 수 있다(S301). 용어는 예를 들어, 영상 데이터의 도메인과 관련된 용어일 수 있다. 용어는 예를 들어, 특정 도메인에서만 사용되고 일반적으로는 사용되지 않는 것일 수 있다. 용어는 예를 들어, 줄임말 또는 신조어일 수 있다. 자연어 처리 프로세서(110)는 텍스트 데이터의 구분된 각각의 문장에 대해, 용어의 포함 여부를 식별할 수 있다.
자연어 처리 프로세서(110)는 예를 들어, 도메인 별로 용어를 데이터 베이스에 저장할 수 있다. 자연어 처리 프로세서(110)는 데이터 베이스에 저장된 용어 및 이와 관련된 도메인에 기반하여, 문장 별로 구분된 텍스트 데이터에, 용어가 포함되어 있는지 여부를 식별할 수 있다
예를 들어, 자연어 처리 프로세서(110)는 영상 도메인이 메이크업이고, 텍스트 데이터의 구분된 각각의 문장 중 “여쿨라”라는 용어를 포함하는 문장을 식별할 수 있다.
자연어 처리 프로세서(110)는 용어가 포함된 것에 기반하여(S301에서 Y), 용어를 대체 용어로 전환할 수 있다(S303). 자연어 처리 프로세서(110)는 번역을 수행하기 전, 원문인 텍스트 데이터에 포함된 용어를 대체 용어로 변경할 수 있다. 대체 용어는 예를 들어, 용어를 대체할 수 있는 일반적인 단어일 수 있다.
예를 들어, 자연어 처리 프로세서(110)는 “여쿨라”라는 용어를 포함하는 문장에 대해, 용어인 “여쿨라”를 “여름 쿨톤 라이트”인 대체 용어로 전환할 수 있다.
자연어 처리 프로세서(110)는 용어를 대체 용어로 전환한 후, 주어 및 목적어 중 적어도 하나가 누락된 문장을 문장 별로 구분된 텍스트 데이터에서 식별할 수 있다(S201).
자연어 처리 프로세서(110)는, 문장 별로 구분된 텍스트 데이터에 용어가 포함되지 않은 것에 기반하여(S301에서 N), 단계(S201)를 수행할 수 있다.
이하에서 도 5, 도 13 내지 도 15를 참조하여 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치에 대해 설명한다. 설명의 명확성을 위해 앞서 설명한 것과 중복되는 것은 간략히 하거나 생략한다.
도 13은 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 설명하기 위한 도면이다. 도 14 및 도 15는 본 발명의 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 동작을 설명하기 위한 도면이다.
도 13, 도 14 및 도 15를 참조하면, 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)의 자연어 처리 프로세서(110)는, 딥러닝 모델(200)을 이용하여 영상 데이터의 도메인을 식별할 수 있다.
자연어 처리 프로세서(110)는, 문장 별로 구분된 텍스트 데이터에서, 일부 텍스트 데이터를 식별할 수 있다. 일부 텍스트 데이터는, 영상 데이터의 시작 시점부터 설정된 시점까지 대응되는 텍스트 데이터 중 일부일 수 있다.
영상 데이터는 시작 시점(501)부터 종료 시점(503)까지 재생되는 영상 데이터일 수 있다.
자연어 처리 프로세서(110)는, 영상 데이터의 시작 시점(501)부터 설정된 시점(510)까지의 도메인 확인용 영상 데이터를 식별할 수 있다. 자연어 처리 프로세서(110)는, 텍스트 데이터(400)에서 영상 데이터의 시작 시점(501)부터 설정된 시점(510)까지에 대응되는 일부 텍스트 데이터를 식별할 수 있다.
예를 들어, 텍스트 데이터(400)의 첫 문장은 제7 문장(407)이고, 제7 문장(407) 다음에 제8 문장(408)이 위치할 수 있다. 자연어 처리 프로세서(110)는, 영상 데이터의 시작 시점(501)과 대응되는 제7 문장(407)의 시작 시점(407a)을 식별하고, 설정된 시점(510)과 대응되는 제8 문장(408)의 시점(408c)을 식별할 수 있다. 자연어 처리 프로세서(110)는 제7 문장(407)의 시작 시점(407a)에서부터 제8 문장(408)의 시점(408c)까지의 일부 텍스트 데이터를 식별할 수 있다.
일부 텍스트 데이터는, 문장 별로 구분된 텍스트 데이터(400)에서 특정 문장의 일부만 포함할 수 있다.
자연어 처리 프로세서(110)는, 일부 텍스트 데이터를 딥러닝 모델(200)에 입력할 수 있다. 자연어 처리 프로세서(110)는, 딥러닝 모델(200)로부터 영상 데이터의 도메인을 수신할 수 있다.
딥러닝 모델(200)은 미리 학습된 것일 수 있다.
도 5를 함께 참조하면, 자연어 처리 프로세서(110)는 학습 데이터를 이용하여 딥러닝 모델(200)이 학습되도록 할 수 있다. 학습 데이터는 예를 들어, 도메인 학습용 문장 및 영상 데이터의 도메인을 포함할 수 있다. 도메인 학습용 문장은, 영상 데이터의 도메인이 확인될 수 있는 단어가 포함된 문장일 수 있다.
몇몇 실시예에서, 자연어 처리 프로세서(110)는 딥러닝 모델(200)을 이용하지 않고 영상 데이터의 도메인을 식별할 수 있다. 자연어 처리 프로세서(110)는, 일부 텍스트 데이터에 도메인의 식별이 가능한 단어가 포함되어 있는지 여부를 확인할 수 있다. 자연어 처리 프로세서(110)는, 일부 텍스트 데이터에 도메인의 식별이 가능한 단어가 포함된 것에 기반하여, 영상 데이터의 도메인을 식별할 수 있다.
자연어 처리 프로세서(110)는, 도메인의 식별이 가능한 단어가 데이터 베이스에 저장되도록 할 수 있다. 자연어 처리 프로세서(110)는, 일부 텍스트 데이터로부터 영상 데이터의 도메인을 식별할 때, 데이터 베이스에 저장된 데이터를 기초로 영상 데이터의 도메인을 식별할 수 있다.
이하에서 도 16을 참조하여 본 발명의 몇몇 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치를 설명한다. 설명의 명확성을 위해 앞서 설명한 것과 중복되는 것은 생략한다.
도 16은 본 발명의 몇몇 실시예에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치의 하드웨어 구현을 설명하기 위한 도면이다.
도 16을 참조하면, 본 발명의 몇몇 실시예들에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는 전자 장치(1000)로 구현될 수 있다. 전자 장치(1000)는 프로세서(1010), 입출력 장치(1020, I/O), 메모리(1030, memory), 인터페이스(1040), 스토리지(1050, storage) 및 버스(1060, bus)를 포함할 수 있다. 프로세서(1010), 입출력 장치(1020), 메모리(1030), 인터페이스(1040), 및/또는 스토리지(1050)는 버스(1060)를 통하여 서로 결합될 수 있다. 버스(1060)는 데이터들이 이동되는 통로(path)에 해당한다.
구체적으로, 프로세서(1010)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit), 마이크로프로세서, 디지털 신호 프로세스, 마이크로컨트롤러, 어플리케이션 프로세서(AP, application processor) 및 이들과 유사한 기능을 수행할 수 있는 논리 소자들 중에서 적어도 하나를 포함할 수 있다.
입출력 장치(1020)는 키패드(keypad), 키보드, 터치스크린 및 디스플레이 장치 중 적어도 하나를 포함할 수 있다.
메모리(1030)는 데이터 및/또는 프로그램 등을 로드할 수 있다. 이때, 메모리(1030)는 프로세서(1010)의 동작을 향상시키기 위한 동작 메모리로서, 고속의 디램 및/또는 에스램 등을 포함할 수 있다. 메모리(1030)는 DDR SDRAM(Double Data Rate Static DRAM), SDR SDRAM(Single Data Rate SDRAM)과 같은 하나 이상의 휘발성 메모리 장치 및/또는 EEPROM(Electrical Erasable Programmable ROM), 플래시 메모리(flash memory)과 같은 하나 이상의 비휘발성 메모리 장치를 포함할 수 있다.
인터페이스(1040)는 통신 네트워크로 데이터를 전송하거나 통신 네트워크로부터 데이터를 수신하는 기능을 수행할 수 있다. 인터페이스(1040)는 유선 또는 무선 형태일 수 있다. 예컨대, 인터페이스(1040)는 안테나 또는 유무선 트랜시버 등을 포함할 수 있다.
스토리지(1050)는 데이터 및/또는 프로그램 등을 저장 및 보관할 수 있다. 스토리지(1050)는 반도체 드라이브(SSD, Solid State Drive), 하드 드라이브(hard drive), 플래시 메모리(flash memory)와 같은 하나 이상의 비휘발성 메모리 장치를 포함할 수 있다. 본 발명에서 스토리지(1050)는 이상거래 탐지 방법을 수행하기 위한 인스트럭션(instruction)으로 구성된 컴퓨터 프로그램을 저장할 수 있다.
또는, 본 발명의 실시예들에 따른 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)는 복수의 전자 장치(1000)가 네트워크를 통해서 서로 연결되어 형성된 시스템일 수 있다. 이러한 경우에는 각각의 모듈 또는 모듈의 조합들이 전자 장치(1000)로 구현될 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.
본 문서의 다양한 실시 예들은 기기(machine)(예: 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(120))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램)로서 구현될 수 있다. 예를 들면, 기기(예: 자연어 처리 프로세서를 이용한 영상 원문 수정 장치(100))의 자연어 처리 프로세서(110)는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어™)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시 예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시 예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 자연어 처리 프로세서를 이용한 영상 원문 수정 장치에 있어서,
    자연어 처리 프로세서; 및
    상기 자연어 처리 프로세서에 작동적으로(operatively) 연결된 메모리를 포함하고,
    상기 메모리는, 실행되었을 때 상기 자연어 처리 프로세서로 하여금:
    영상 데이터로부터 변환된 텍스트 데이터를 식별하고,
    상기 텍스트 데이터를 문장 별로 구분하고,
    상기 문장 별로 구분된 상기 텍스트 데이터에서, 주어가 누락된 제1 문장 및 서술어가 누락된 제2 문장 중 적어도 하나를 식별하고,
    상기 주어가 누락된 제1 문장이 식별된 것에 기반하여,
    상기 제1 문장과 상기 영상 데이터의 도메인을, 미리 학습된 딥러닝 모델에 입력하고,
    상기 딥러닝 모델로부터 누락된 상기 제1 문장의 주어에 대응되는 제1 수정 데이터를 수신하고,
    상기 제1 수정 데이터를 상기 제1 문장에 포함시켜, 누락된 상기 제1 문장의 주어가 보완된 제1 최종 문장을 식별하고,
    상기 서술어가 누락된 제2 문장이 식별된 것에 기반하여,
    상기 영상 데이터에서, 상기 제2 문장의 종료 시간으로부터 일정 시간 사이의 일부 영상 데이터를 식별하고,
    상기 일부 영상 데이터의 등장 인물의 얼굴 표정 및 행동에 기반하여, 누락된 상기 제2 문장의 서술어에 대응되는 제2 수정 데이터를 식별하고,
    상기 제2 수정 데이터를 상기 제2 문장에 포함시켜, 누락된 상기 제2 문장의 서술어가 보완된 제2 최종 문장을 식별하고,
    상기 제1 문장 대신 상기 제1 최종 문장을 상기 텍스트 데이터에 포함시키고, 상기 제2 문장 대신 상기 제2 최종 문장을 상기 텍스트 데이터에 포함시켜, 번역을 위한 수정된 텍스트 데이터를 생성하도록 하는 인스트럭션들(instructions)을 저장하는
    자연어 처리 프로세서를 이용한 영상 원문 수정 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1 항에 있어서,
    상기 인스트럭션들은, 상기 자연어 처리 프로세서가,
    상기 영상 데이터의 도메인, 주어가 누락된 학습용 문장, 및 학습용 최종 문장을 포함하는 학습 데이터를 이용하여 상기 딥러닝 모델을 학습시키도록 하고,
    상기 학습용 최종 문장은, 누락된 상기 학습용 문장의 주어가 보완되어 완성된 문장인
    자연어 처리 프로세서를 이용한 영상 원문 수정 장치.
  6. 제1 항에 있어서,
    상기 인스트럭션들은, 상기 자연어 처리 프로세서가,
    사용자가 상기 영상 데이터를 업로드 하는 채널을 등록한 경우, 상기 영상 데이터의 업로드 여부를 모니터링하고,
    상기 영상 데이터가 상기 채널에 업로드되면 상기 영상 데이터를 식별하는
    자연어 처리 프로세서를 이용한 영상 원문 수정 장치.
  7. 제1 항에 있어서,
    상기 인스트럭션들은, 상기 자연어 처리 프로세서가,
    상기 문장 별로 구분된 상기 텍스트 데이터에, 상기 영상 데이터의 도메인과 관련된 용어가 포함되어 있는지 여부를 식별하고,
    상기 문장 별로 구분된 상기 텍스트 데이터에 상기 용어가 포함된 것에 기반하여, 상기 용어를 대체 용어로 전환하고,
    상기 용어를 상기 대체 용어로 전환한 후, 상기 제1 문장을 식별하는
    자연어 처리 프로세서를 이용한 영상 원문 수정 장치.
  8. 제1 항에 있어서,
    상기 인스트럭션들은, 상기 자연어 처리 프로세서가,
    상기 문장 별로 구분된 상기 텍스트 데이터에서, 상기 영상 데이터의 시작 시점부터 설정된 시점까지에 대응되는 일부 텍스트 데이터를 식별하고,
    상기 일부 텍스트 데이터를 미리 학습된 상기 딥러닝 모델에 입력하고,
    상기 딥러닝 모델로부터 상기 영상 데이터의 도메인을 수신하는
    자연어 처리 프로세서를 이용한 영상 원문 수정 장치.
  9. 제8 항에 있어서,
    상기 인스트럭션들은, 상기 자연어 처리 프로세서가,
    상기 도메인이 확인될 수 있는 단어가 포함된 도메인 학습용 문장 및 상기 도메인을 포함하는 도메인 학습 데이터를 이용하여 상기 딥러닝 모델을 학습시키도록 하는
    자연어 처리 프로세서를 이용한 영상 원문 수정 장치.
  10. 제1 항에 있어서,
    상기 인스트럭션들은, 상기 자연어 처리 프로세서가,
    상기 문장 별로 구분된 상기 텍스트 데이터에서, 금지어가 포함된 제2 문장을 식별하고,
    상기 제2 문장의 상기 금지어에 대한 자막은 제외되도록 하는
    자연어 처리 프로세서를 이용한 영상 원문 수정 장치.
KR1020230084365A 2023-06-29 2023-06-29 자연어 처리 프로세서를 이용한 영상 원문 수정 장치 KR102628304B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230084365A KR102628304B1 (ko) 2023-06-29 2023-06-29 자연어 처리 프로세서를 이용한 영상 원문 수정 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230084365A KR102628304B1 (ko) 2023-06-29 2023-06-29 자연어 처리 프로세서를 이용한 영상 원문 수정 장치

Publications (1)

Publication Number Publication Date
KR102628304B1 true KR102628304B1 (ko) 2024-01-24

Family

ID=89717900

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230084365A KR102628304B1 (ko) 2023-06-29 2023-06-29 자연어 처리 프로세서를 이용한 영상 원문 수정 장치

Country Status (1)

Country Link
KR (1) KR102628304B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170094A (ja) * 2014-03-06 2015-09-28 株式会社Nttドコモ 翻訳装置及び翻訳方法
KR101806151B1 (ko) * 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
WO2018066258A1 (ja) * 2016-10-06 2018-04-12 シャープ株式会社 対話装置、対話装置の制御方法、および制御プログラム
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법
KR102411095B1 (ko) * 2021-12-30 2022-06-22 주식회사 파일러 광고 적합 콘텐츠 탐색 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015170094A (ja) * 2014-03-06 2015-09-28 株式会社Nttドコモ 翻訳装置及び翻訳方法
KR101806151B1 (ko) * 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
WO2018066258A1 (ja) * 2016-10-06 2018-04-12 シャープ株式会社 対話装置、対話装置の制御方法、および制御プログラム
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법
KR102411095B1 (ko) * 2021-12-30 2022-06-22 주식회사 파일러 광고 적합 콘텐츠 탐색 시스템 및 방법

Similar Documents

Publication Publication Date Title
Fagni et al. TweepFake: About detecting deepfake tweets
US10061769B2 (en) Machine translation method for performing translation between languages
Kumar et al. Syntax-guided controlled generation of paraphrases
KR102589637B1 (ko) 기계 번역 방법 및 장치
US9734143B2 (en) Multi-media context language processing
US11729120B2 (en) Generating responses in automated chatting
Giorgi et al. End-to-end named entity recognition and relation extraction using pre-trained language models
Fernandes et al. Latent trees for coreference resolution
US9575965B2 (en) Translation assessment based on computer-generated subjective translation quality score
US20220309357A1 (en) Knowledge graph (kg) construction method for eventuality prediction and eventuality prediction method
KR20200031154A (ko) 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정
KR20190125863A (ko) 다중언어 번역 장치 및 다중언어 번역 방법
CN105468585A (zh) 机器翻译装置和机器翻译方法
US11232358B1 (en) Task specific processing of regulatory content
CN111680159A (zh) 数据处理方法、装置及电子设备
Okur et al. Data augmentation with paraphrase generation and entity extraction for multimodal dialogue system
CN113407709A (zh) 生成式文本摘要系统和方法
Real et al. SICK-BR: a Portuguese corpus for inference
US20150205788A1 (en) Machine translation apparatus, translation method, and translation system
KR20210044559A (ko) 출력 토큰 결정 방법 및 장치
Zhu et al. IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding
JP5317061B2 (ja) 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。
Onan et al. Improving Turkish text sentiment classification through task-specific and universal transformations: an ensemble data augmentation approach
KR102628304B1 (ko) 자연어 처리 프로세서를 이용한 영상 원문 수정 장치
US10902219B2 (en) Natural language processing based sign language generation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant