KR20210116379A - 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 - Google Patents

텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210116379A
KR20210116379A KR1020210118996A KR20210118996A KR20210116379A KR 20210116379 A KR20210116379 A KR 20210116379A KR 1020210118996 A KR1020210118996 A KR 1020210118996A KR 20210118996 A KR20210118996 A KR 20210118996A KR 20210116379 A KR20210116379 A KR 20210116379A
Authority
KR
South Korea
Prior art keywords
text
creative
creation
model
sub
Prior art date
Application number
KR1020210118996A
Other languages
English (en)
Other versions
KR102577514B1 (ko
Inventor
지아첸 리우
신얀 시아오
후아 우
하이펑 왕
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210116379A publication Critical patent/KR20210116379A/ko
Application granted granted Critical
Publication of KR102577514B1 publication Critical patent/KR102577514B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0445
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체를 제공하며, 자연어 처리 분야에 관한 것이다. 본 발명의 구체적인 구현 방식은, 코퍼스 데이터를 획득하며; 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하며; 제1 창작 목표를 획득하며; 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성한다. 따라서, 연관성이 비교적 높은 텍스트 및 다양한 목표의 텍스트를 창작할 수 있고, 창작의 다양성을 구현하고 다양한 창작 요구를 충족시키며, 창작 품질과 효율을 향상시킬 수 있다.

Description

텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체{ METHOD, APPARATUS FOR TEXT GENERATION, DEVICE AND STORAGE MEDIUM}
본 발명은 데이터 처리 분야의 자연어 처리 기술에 관한 것으로, 특히 텍스트 창작 방법, 텍스트 창작 장치, 장치 및 저장 매체에 관한 것이다.
일반적으로, 창작은 인간 사회의 중요한 생산 활동 중 하나이며, 현재의 인터넷 시대에서 창작에 의해 생성된 대량의 정보 소비 콘텐츠가 일상 소비의 핵심 구성 부분으로 되었다.
관련 기술에서, 인기 검색 등 경로를 통해 최신 핫토픽을 획득하여 창작을 시작하기 위한 참조 자료로 사용자에게 푸시를 발송하는데, 구체적인 창작 내용과 연관성이 상대적으로 약하고 창작 기능이 단일하여 사용자의 창작 수요를 확실하게 만족할 수 없다.
본 발명은 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체를 제공한다.
본 발명의 제1 양태는 텍스트 창작 방법을 제공하며, 상기 방법은,
코퍼스 데이터를 획득하는 단계;
상기 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하는 단계;
제1 창작 목표를 획득하는 단계;
상기 코퍼스 데이터 및 상기 제1 창작 제약 요소를 창작 모델에 입력하여 상기 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성하는 단계;를 포함한다.
본 발명의 제2 양태는 텍스트 창작 장치를 제공하며, 상기 장치는,
코퍼스 데이터를 획득하기 위한 제1 획득 모듈;
상기 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하기 위한 제1 레이블링 모듈;
제1 창작 목표를 획득하기 위한 제2 획득 모듈;
상기 코퍼스 데이터 및 상기 제1 창작 제약 요소를 창작 모델에 입력하여 상기 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성하는 제1 처리 모듈;을 포함한다.
본 발명의 제3 양태의 실시예는 적어도 하나의 프로세서; 및, 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하는 전자 기기를 제공하며, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 본 발명의 제1 양태의 실시예의 텍스트 창작 방법이 수행되도록 한다.
본 발명의 제4 양태의 실시예는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 본 발명의 제1 양태의 실시예의 텍스트 창작 방법을 수행하도록 한다.
본 발명의 제5 양태의 실시예는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 본 발명의 제1 양태의 실시예의 텍스트 창작 방법이 실행된다.
본 발명은 하기와 같은 유익한 효과를 갖는다.
본 발명에 따르면, 코퍼스 데이터를 획득하며; 코퍼스 데이터를 레이블링하여 제1 창작 제약 요소를 획득하며; 제1 창작 목표를 획득하며; 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성한다. 따라서, 연관성이 비교적 높은 텍스트 및 다양한 목표의 텍스트를 창작할 수 있고, 창작의 다양성을 구현하고 다양한 창작 요구를 충족시키며, 창작 품질과 효율을 향상시킬 수 있다.
본 부분에서 설명된 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 표시하기 위한 것이 아니며, 또한 본 발명의 범위를 제한하기 위한 것이 아님을 이해해야 한다. 본 발명의 다른 특징은 다음의 설명에 의해 쉽게 이해될 수 있을 것이다.
본 발명에 따르면, 연관성이 비교적 높은 텍스트 및 다양한 목표의 텍스트를 창작할 수 있고, 창작의 다양성을 구현하고 다양한 창작 요구를 충족시키며, 창작 품질과 효율을 향상시킬 수 있다.
첨부도면은 기술적 해결책을 더 잘 이해하기 위해 사용되며, 본 발명에 대한 제한을 구성하지 않는다. 여기서,
도 1은 본 발명의 제1 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 2는 본 발명의 제2 실시예에 따른 창작 모델 훈련 방법의 흐름도이다.
도 3은 본 발명의 제2 실시예에 따른 텍스트 창작 방법의 예시도이다.
도 4는 본 발명의 제3실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 5는 본 발명의 제4 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 6은 본 발명의 제5 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 7은 본 발명의 제6 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 8은 본 발명의 제7 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 9는 본 발명의 제8 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 10은 본 발명의 제9 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 11은 본 발명의 제10 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 12는 본 발명의 제11 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 13은 본 발명의 제12 실시예에 따른 텍스트 창작 장치의 구조도이다.
도 14는 본 발명의 제13 실시예에 따른 텍스트 창작 장치의 구조도이다.
도 15는 본 발명의 제14 실시예에 따른 텍스트 창작 장치의 구조도이다.
도 16은 본 발명의 제15 실시예에 따른 텍스트 창작 장치의 구조도이다.
도 17은 본 발명의 제16 실시예에 따른 텍스트 창작 장치의 구조도이다.
도 18은 본 발명의 실시예의 텍스트 창작 방법을 구현하기 위한 전자 기기의 블록도이다.
이하, 첨부 도면을 결부하여 본 발명의 예시적인 실시예에 대해 설명하며, 이해를 돕기 위해, 본 설명에는 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이를 단순히 예시적인 것으로 간주해야 한다. 따라서, 당업자는 본 발명의 범위 및 사상을 벗어나지 않고 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있다는 것을 인식해야 한다. 마찬가지로, 이하의 설명에서 명확성과 간결성을 위해 잘 알려진 기능 및 구조에 대한 설명은 생략한다.
이하, 첨부도면을 결부하여, 본 발명의 실시예에 따른 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체에 대해 설명한다.
도 1은 본 발명의 제1 실시예에 따른 텍스트 창작 방법의 흐름도이다.
실제 응용에서, 보조 창작 기능이 상대적으로 단일한데, 예를 들면, 소재의 추천 방식은 일반적으로 키워드에 연관된 방식뿐이며, 구체적인 창작 내용과의 연관성이 약하고, 창작의 다양성을 만족할 수 없다.
본 발명의 텍스트 창작 방법은, 코퍼스 데이터를 획득하며; 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하며; 제1 창작 목표를 획득하며; 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성한다.
따라서, 창작자에게 창작의 목표에 부합되는 영감을 제공하고 창작의 영감을 얻는 속도를 향상하며, 제목, 서문, 요약, 총결산과 같은 창작 요소를 추천할 수 있고 수정 제안을 하여 창작자가 참고할 수 있도록 함으로써, 창작 품질을 향상하고, 동일한 유형의 내용에 대한 정기적인 창작 및 동일한 주제에 대한 재서술 등 여러 차례 연관된 창작 과정을 통해, 연관된 창작을 가속화하고 창작의 다양성을 구현하며, 서로 다른 창작 요구를 만족시키고 창작 품질과 효율을 향상하여 사용자의 사용 경험을 향상할 수 있다. 구체적인 내용은 다음 실시예에 대한 설명을 참조할 수 있다.
구체적으로, 도 1에 도시된 바와 같이, 상기 텍스트 창작 방법은 하기와 같은 단계를 포함할 수 있다. 즉:
단계101, 코퍼스 데이터를 획득한다.
단계102, 코퍼스 데이터를 레이블링하여 제1 창작 제약 요소를 획득한다.
본 발명의 실시예에서, 서로 다른 창작 수요 시나리오에 따라 서로 다른 코퍼스 데이터를 선택할 수 있으며, 엔터테인먼트 뉴스, 재경 뉴스, 논평 기사, 문장, 단락 및 장절 등을 모두 코퍼스 데이터로 할 수 있다.
시나리오의 예로서, 창작 목표는 개요를 생성하는 것이고, 코퍼스 데이터는 장절일 수 있으며; 시나리오의 또 다른 예로서, 창작 목표는 계속 작성 추천이고, 코퍼스 데이터는 문장이며, 실제 응용에 따라 선택하여 설정할 수 있다.
본 발명의 실시예에서, 코퍼스 데이터를 레이블링하여 제1 창작 제약 요소를 획득하는 방식은 여러가지 방식이 있는데, 서로 다른 코퍼스 데이터에 대해 응용 시나리오에 따라 적절한 방식을 선택하여 레이블링하여 제1 창작 제약 요소를 획득할 수 있으며, 하기와 같이 예를 들어 설명할 수 있다.
하나의 예로서, 직접 코퍼스 데이터를 리터럴 특징으로 레이블링하는 것인데, 예를 들어 문형(진술, 질문, 감탄) 등과 같은 리터럴 제어 파라미터, 또는, 코퍼스 데이터의 문장의 구두점 및 표지어를 직접 판단하여 문장 길이와 같은 리터럴 제어 파라미터를 얻고, 정감 분류 모델을 미리 설정하여 코퍼스 데이터에 대해 분류하여 어투(진술, 분석, 선동적 등) 등 리터럴 제어 파라미터를 획득하며, 상기 리터럴 제어 파라미터를 제1 창작 제약 요소로 한다.
다른 하나의 예로서, 분야 분류기를 미리 설정하여 코퍼스 데이터에 대해 분류함으로써, 과학기술, 스포츠, 사회, 문화 등 분야의 제어 파라미터를 얻어 제1 창작 제약 요소로 한다.
제1 창작 제약 요소는 리터럴 제어 파라미터일 수 있고, 길이, 문형(진술, 의문, 감탄 등), 어투(진술, 분석, 선동적 등) 등을 포함하며; 스타일 제어 파라미터는 일반, 활발, 학습형, 긍정적, 부정적 등을 포함하며; 분야 제어 파라미터는 과학기술, 스포츠, 사회, 문화 등을 포함하며; 기능 제어 파라미터는 도입, 배경, 진술, 분석, 과도, 결미 등을 포함한다.
본 발명의 실시예에서, 구체적인 창작 시나리오에 따라 적어도 하나의 제어 파라미터를 제1 창작 제약 요소로 선택할 수 있는데, 예를 들어, 코퍼스 데이터가 문장 "이것은 하나의 짧은 문장입니까?"인 경우, "길이-짧다" 및 "문형-질문" 등 두개의 제어 파라미터를 제1 창작 제약 요소로 한다.
단계103, 제1 창작 목표를 획득한다.
단계104, 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 창작 모델은 훈련 방식을 통해 형성된다. 본 발명의 후속 실시예에서 상기 창작 모델의 훈련 방법을 개시할 것이며, 여기서는 상세한 설명을 생략한다.
본 발명의 실시예에서, 창작 수요에 따라 적어도 하나의 창작 목표를 선택할 수 있으며, 상기 창작 목표는 개요 생성, 창작, 영감 자극, 계속 작성 추천(전체 텍스트 계속 작성 추천, 단락 계속 작성 추천 및 문장 계속 작성 추천 등), 최적화 제안(전체 텍스트 최적화 제안, 단락 최적화 제안 및 문장 최적화 제안), 윤색 추천, 수사(수식) 제안, 창작 구성 요소 추천 및 창작 재사용 제안 중의 하나 이상을 포함할 수 있지만 이에 제한되지 않는다.
또한, 제1 창작 목표를 획득한 후, 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여, 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성할 수 있으며, 상이한 제1 창작 목표 및 제1 창작 제약 요소에 의해 생성된 제1 창작 텍스트는 서로 다른데, 예를 들면 하기와 같다.
첫번째 예로서, 창작 모델에 복수의 창작 서브 모델이 있으며, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 제1 창작 서브 모델을 획득하고, 훈련 코퍼스 및 제1 창작 제약 요소를 제1 창작 서브 모델에 입력하여 제1 창작 서브 모델에 의해 제1 창작 텍스트를 생성한다.
더 구체적으로, 코퍼스 데이터에 따라, 제1 창작 서브 모델의 제1 창작 소재를 획득하고, 제1 창작 소재 및 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
두번째 예로서, 창작 모델이 단지 하나이고, 훈련 코퍼스 및 제1 창작 제약 요소를 직접 창작 모델에 입력하며, 창작 모델은 창작 목표에 따라 제1 창작 텍스트를 생성한다.
상술한 바와 같이, 본 발명의 텍스트 창작 방법은, 코퍼스 데이터를 획득하며; 코퍼스 데이터를 레이블링하여 제1 창작 제약 요소를 획득하며; 제1 창작 목표를 획득하며; 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성한다. 따라서, 연관성이 비교적 높은 텍스트 및 다양한 목표의 텍스트를 창작할 수 있고, 창작의 다양성을 구현하고 다양한 창작 요구를 충족시키며, 창작 품질과 효율을 향상시킬 수 있다.
전술한 실시예의 설명에 따르면, 창작 모델은 사전 훈련에 의해 생성되고 적어도 하나의 서브 저작 모델을 포함할 수 있다는 것을 알 수 있으며, 구체적인 훈련 과정은 도 2를 참조하여 상세히 설명한다.
도 2는 본 발명의 제2 실시예에 따른 창작 모델 훈련 방법의 흐름도이다.
도 2에 도시된 바와 같이, 상기 창작 모델 훈련 방법은 하기와 같은 단계를 포함한다. 즉:
단계201, 복수의 훈련 코퍼스 및 훈련 코퍼스에 대응하는 훈련 창작 텍스트를 획득한다.
단계202, 훈련 코퍼스를 레이블링하여 훈련 코퍼스의 훈련 제약 요소를 획득한다.
본 발명의 실시예에서, 창작 모델의 정확성을 확보하기 위해, 대량의 훈련 코퍼스 및 훈련 코퍼스에 대응하는 훈련 창작 텍스트를 획득할 수 있으며; 하나의 훈련 코퍼스는 복수의 훈련 창작 텍스트에 대응될 수 있는데, 예를 들어, 문장 A에 대응하는 훈련 창작 텍스트는 계속 작성 추천 문장(1), 문장 최적화 제안(2) 및 문장 수사 제안(3) 등을 포함함으로써, 창작 모델 응용의 다양성을 향상할 수 있다.
본 발명의 일 실시예에서, 훈련 제약 요소는 적어도 하나의 제어 파라미터를 포함하는데, 예를 들어, 제1 창작 제약 요소는 리터럴 제어 파라미터일 수 있고, 길이, 문형(진술, 의문, 감탄 등), 어투(진술, 분석, 선동적 등) 등을 포함하며; 스타일 제어 파라미터는 일반, 활발, 학습형, 긍정적, 부정적 등을 포함하며; 분야 제어 파라미터는 과학기술, 스포츠, 사회, 문화 등을 포함하며; 기능 제어 파라미터는 도입, 배경, 진술, 분석, 과도, 결미 등을 포함한다.
본 발명의 일 실시예에서, 훈련 코퍼스를 레이블링하며, 상기 설명의 일부분 제어 파라미터는 직접 레이블링(예를 들어, 길이)할 수 있고, 다른 제어 파라미터는 분류기를 각각 구축하여 규칙에 따라 분류하거나 또는 훈련된 텍스트 분류 모델을 사용하여 자동으로 레이블링할 수 있다.
상기 규칙에 따른 분류는 리터럴 특징에 따라 분류하는 것인데, 예를 들어, 문형(문장, 질문, 감탄)은 직접 구두점 및 표지어를 통해 판단할 수 있으며; 만일 단순히 리터럴 특징에 따라 제어 파라미터를 판단할 수 없는 경우, 먼저 분류기를 구축하고 텍스트 분류 모델을 훈련시킨 후, 텍스트 분류 모델의 예측 결과에 따라 레이블링할 수 있다.
설명해야 하는 바로는, 텍스트 분류 모델은 훈련 텍스트 샘플 및 대응하는 분류 결과에 의해 획득할 수 있는데, 예를 들어, 훈련 텍스트 샘플(X)에 대응하는 감정(18)의 경우, 신경망 모델을 통해 훈련하여 텍스트 분류 모델을 생성하고 텍스트 분류 모델에 텍스트 A를 입력함으로써 해당 감정(18)(예를 들어, 긍정, 부정 등) 분류를 직접 획득할 수 있으며, 구체적으로 응용 시나리오에 따라 샘플과 분류 알고리즘을 선택하여 훈련하여 텍스트 분류 모델을 획득할 수 있다.
단계203, 훈련 코퍼스, 훈련 제약 요소 및 훈련 창작 텍스트를 훈련 샘플로 초기 창작 모델에 입력하여 훈련을 수행하여 훈련된 창작 모델을 생성한다.
본 발명의 실시예에서, 훈련된 창작 모델을 하나만 생성할 수 있고, 훈련 코퍼스를 레이블링하여 복수의 훈련 제약 요소를 획득할 수 있는데, 예를 들어, "이것은 하나의 짧은 문장입니까?(
Figure pat00001
)"는 훈련 제약 요소로서 "길이-짧다(
Figure pat00002
)" 및 "문형-질문(
Figure pat00003
)" 등 두개의 제어 파라미터를 갖는다.
설명해야 하는 바로는, 다만, 구체적인 작업인 경우, 일반적으로 모델을 별도로 훈련하여 복수의 훈련된 창작 모델을 생성해야 하는데, 예를 들어, 개요 생성 서브 모델, 텍스트 요소(제목, 서문 및 개요, 총결산 등) 생성 서브 모델, 텍스트 생성 서브 모델, 창작 주제 생성 서브 모델(영감 자극 등), 텍스트 계속 작성 서브 모델, 텍스트 윤색 서브 모델, 텍스트 수사 서브 모델 및 텍스트 재사용 서브 모델 등 일 수 있다.
본 발명의 실시예에서, 상이한 창작 서브 모델에 대한 훈련 방식은 동일하거나 동일하지 않을 수 있으며, 하기와 같이 예를 들어 설명할 수 있다.
첫번째 예로서, 개요 생성 서브 모델을 예를 들면, 개요 생성 시나리오 요구에 따라 적어도 하나의 제어 파라미터 및 그 값범위(예를 들어, 길이 -8 바이트 등)를 결정하여 훈련 제약 요소로 하며, 훈련 제약 요소가 레이블링된 훈련 코퍼스 및 훈련 창작 텍스트를 단어 시퀀스 또는 문자 시퀀스 방식으로 초기 생성 모델에 입력하여 훈련을 수행하여 개요 생성 서브 모델을 생성하고, 텍스트 A를 개요 생성 서브 모델에 입력하여 신경망 인코딩 및 신경망 디코딩 처리를 수행하여 출력된 텍스트B를 획득한다. 신경망 인코딩 및 신경망 디코딩은 LSTM (Long Short-Term Memor 18, 장단기 메모리) 기반 시퀀스 생성 모델, Transformer (기계 번역) 기반 시퀀스 생성 모델 등과 같은 일반적인 신경망 시퀀스 생성 모델 등 일 수 있다.
설명해야 하는 바로는, 텍스트 요소 생성 서브 모델은 상기 훈련 방식을 통해 획득할 수도 있으며, 여기서는 그 상세한 설명을 생략한다.
두번째 예로서, 텍스트 계속 작성 서브 모델을 예를 들면, 훈련 코퍼스에 대해 슬라이딩 윈도우 스캔을 수행하여 일부 입력 텍스트 및 일부 이상적인 출력 텍스트가 포함되는 복수의 훈련 코퍼스 데이터를 획득하며, 개요에 따라 시나리오 요구 사항을 생성하고, 적어도 하나의 제어 파라미터 및 그 값범위를 결정하여 훈련 제약 요소로 하며, 그 다음에, 훈련 코퍼스에 대해 훈련을 수행하고, 각 훈련 코퍼스 데이터의 훈련 제약 요소를 보완적으로 계산하며, 훈련 제약 요소의 훈련 데이터는 텍스트 계속 작성 서브 모델을 훈련하기 위해 사용되고, 기존 텍스트와 훈련 제약 요소를 통해 다음 단어의 확률 분포를 예측함으로써, 생성된 텍스트 계속 작성 서브 모델은 입력된 텍스트에 대한 다음 단어의 확률 분포를 출력할 수 있다.
창작 주제 생성 서브 모델도 상기 훈련 방식을 통해 획득할 수 있으며, 여기서는 그 상세한 설명을 생략한다.
세번째 예로서, 텍스트 윤색 서브 모델을 예를 들면, 모든 훈련 코퍼스에 대해 병렬 코퍼스 훈련 방식으로 노이즈 제거 오토 인코더 모델을 획득하며, 예를 들어 텍스트 C는 임의의 파괴(무작위 삭제, 추가, 일부 단어 교환)를 거쳐 원본 텍스트 D를 생성하며, 그 다음에 노이즈 제거 오토 인코더 모델을 기반으로 계속 훈련하고 유형 1의 텍스트를 입력하여 출력 텍스트 유형이 2인지 여부를 확인하고 훈련 손실을 계산하며(예를 들어, 손실 함수를 통해 계산함), 강제로 모델이 생성시 유형을 전환하는 방법을 학습하도록 하며, 훈련 손실을 계산하는 과정에서, 훈련 제약 요소의 설정을 중첩함으로써, 생성된 텍스트 윤색 서브 모델에 의해 입력된 텍스트 1을 처리하여 출력 텍스트 2를 획득하며, 그 의미는 변경되지 않지만 입력 및 출력 유형이 다르다.
설명해야 하는 바로는, 텍스트 수사 서브 모델도 상기 훈련 방식을 통해 획득할 수 있으며, 여기서는 그 상세한 설명을 생략한다.
설명해야 하는 바로는, 상기 텍스트 윤색 서브 모델에서 훈련 코퍼스는 병렬 코퍼스가 없으며, 노이즈 제거 오토 인코더 모델을 사용하여 훈련을 위한 의사 병렬 코퍼스를 생성할 수 있고, 분류 손실을 통해 훈련 제약 요소를 모델에 도입하는 것은 별도로 훈련 제약 요소를 도입하는 방식인데, 예를 들어, 스타일 전환 창작 목표에서, 스타일A를 스타일B로 전환하는 경우, 스타일A/B의 분류기를 통해 의사 병렬 코퍼스에 의해 생성된 창작 모델의 손실을 계산하며, 다시 말하면, 창작 모델을 훈련할 때 다양한 훈련 제약 요소에 따라 창작 모델의 확률에 영향을 미치는 방법을 학습하며, 제목을 생성하는 구체적인 작업에서, 병렬 코퍼스는 전체 텍스트->(구조 또는 엔터티에 대한 포인터를 사용하여 해당 멤버에 액세스) 제목의 생성을 훈련하기 위해 사용되며, 창작 모델에서 학습한 훈련 제약 요소는 계속 사용될 수 있다.
네번째 예로서, 텍스트 생성 서브 모델을 예를 들면, 텍스트 생성 시나리오 요구에 따라 적어도 하나의 제어 파라미터 및 그 값범위를 결정하여 훈련 제약 요소로 하며, 훈련 제약 요소가 레이블링된 훈련 코퍼스 및 훈련 창작 텍스트를 인코더로 인코딩(특정 유형 코딩에 따라, 숫자 유형은 직접 사용하고, 텍스트 유형은 먼저 코딩함)한 다음에 초기 창작 모델에 입력하여 훈련을 수행하여 텍스트 생성 서브 모델을 생성하고, 구조화된 데이터를 텍스트 생성 서브 모델에 입력하여 신경망 인코딩 및 신경망 디코딩 처리를 수행하여 출력 텍스트를 획득한다.
다시 말하면, 병렬 코퍼스a->b를 갖는 창작 목표에 대해, 병렬 코퍼스를 사용하여 훈련할 수 있고, 훈련 목표는 구체적인 창작 목표를 기준으로 하며; 창작 목표의 창작 모델이 획득되면, W를 입력하여 인코딩 및 디코딩 단계를 수행하여 출력 Z를 획득할 수 있으며; 입력 시퀀스는 단어 시퀀스 또는 문자 시퀀스일 수 있고, 중국어 작업의 경우 단어 시퀀스가 바람직하고 단어의 분할이 필요하지 않으며, 구체적으로 수요에 따라 선택하여 설정할 수 있다.
예를 들어, 도 3에 도시된 바와 같이, 구체적인 창작 목표에서 "제목 생성"의 창작 목표를 예를 들면, 입력은 창작 내용이고 출력은 제목으로서 각각 도 3 중의 "입력 텍스트"와 "출력 텍스트"에 대응되며, 이러한 병렬 훈련 코퍼스를 사용하여 창작 모델 훈련을 수행할 수 있고, 점선 상자로 표시된 부분은 훈련 단계에서 훈련 제약 요소에 의해 초기화한 것이므로, 제목 생성 기능도 필요한 훈련 제약 요소를 통해 제한하여 결과를 생성할 수 있다. 예를 들어, "진술", "감탄", "질문" 등 3가지 문형을 문형 훈련 제약 요소로 하여 훈련된 창작 모델은, 실제 사용시, 특정 문형을 지정하여 새 입력 텍스트에 대해 지정된 문형의 제목을 생성할 수 있다.
설명해야 하는 바로는, 응용 수요에 따라 훈련 코퍼스 및 대응하는 훈련 창작 텍스트를 선택하여 상기 적어도 하나의 방식을 통해 대응하는 창작 모델을 획득할 수 있다.
상술한 바와 같이, 본 발명의 텍스트 창작 방법은, 복수의 훈련 코퍼스 및 훈련 코퍼스에 대응하는 훈련 창작 텍스트를 획득하며; 훈련 코퍼스를 레이블링하여 훈련 코퍼스의 훈련 제약 요소를 획득하며; 훈련 코퍼스, 훈련 제약 요소 및 훈련 창작 텍스트를 훈련 샘플로 초기 창작 모델에 입력하여 훈련을 수행하여 훈련된 창작 모델을 생성한다. 따라서, 창작 모델의 정확성을 확보하고 창작 모델 응용의 다양성을 한층 더 향상함으로써, 연관성이 비교적 높은 텍스트 및 다양한 목표의 텍스트를 창작할 수 있고, 창작의 다양성을 구현하고 다양한 창작 요구를 충족시키며, 창작 품질과 효율을 향상시킬 수 있다.
전술한 실시예의 설명에 따르면, 제1 창작 텍스트를 생성한 다음, 다시 창작을 수행할 수 있으며, 도 4는 본 발명의 제3실시예에 따른 텍스트 창작 방법의 흐름도이고, 도 4에 도시된 바와 같이, 단계104 다음에 하기와 같은 단계를 더 포함한다. 즉:
단계301, 제1 창작 서브 모델에 연관된 제2 창작 서브 모델을 획득하며, 상기 제2 창작 서브 모델의 코퍼스 데이터는 제1 작성 텍스트이다.
단계302, 제1 창작 텍스트를 레이블링하여 제2 창작 서브 모델에 대응되는 제2 창작 제약 요소를 획득한다.
단계303, 제1 창작 텍스트와 제2 창작 제약 요소를 상기 제2 창작 서브 모델에 입력하여 제2 창작 텍스트를 생성한다.
본 발명의 실시예에서, 제1 창작 서브 모델과 제2 창작 서브 모델은 동일할 수도 있고 동일하지 않을 수도 있으며, 예를 들어, 각각 개요 생성 서브 모델 및 텍스트 생성 서브 모델일 수 있고, 모두 텍스트 윤색 서브 모델 등 일 수도 있으며, 구체적으로, 창작 시나리오 요구에 따라 제1 창작 서브 모델과 제2 창작 서브 모델을 연관시킬 수 있다.
본 발명의 실시예에서, 제1 창작 텍스트를 생성한 다음, 제1 창작 텍스트를 코퍼스 데이터로 입력하고 제1 창작 텍스트를 레이블링하여 제2 창작 서브 모델에 대응되는 제2 창작 제약 요소를 획득할 수 있으며, 구체적인 레이블링 방식은 상기 실시예의 설명을 참조할 수 있으며, 여기서는 상세한 설명을 생략한다.
또한, 제1 창작 텍스트 및 제2 창작 제약 요소를 제2 창작 서브 모델에 입력하여 제2 창작 텍스트를 생성할 수 있으며, 창작 목표에 따라 대응되는 제2 창작 서브 모델을 미리 연관시킴으로써, 직접 제2 창작 서브 모델을 통해 제1 창작 텍스트 및 제2 창작 제약 요소를 처리하여 제2 창작 텍스트를 획득할 수 있다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법에 따르면, 제1 창작 서브 모델에 연관된 제2 창작 서브 모델을 획득하여 제1 창작 텍스트를 레이블링하여 제2 창작 서브 모델에 대응되는 제2 창작 제약 요소를 획득하고, 제1 창작 텍스트 및 제2 창작 제약 요소를 제2 창작 서브 모델에 입력하여 제2 창작 텍스트를 생성할 수 있으며, 상기 제2 창작 서브 모델의 코퍼스 데이터는 제1 창작 텍스트이다. 따라서, 제1 창작 텍스트에 기초하여 계속하여 창작을 수행하여 창작 연관성이 비교적 강한 텍스트를 창작함으로써, 창작 효율과 품질을 향상시킬 수 있다.
전술한 실시예의 설명에 따르면, 응용 시나리오 요구에 따라 적어도 하나의 창작 목표를 갖는 창작 텍스트를 생성할 수 있으며, 다시 말하면, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 제1 창작 서브 모델을 획득할 수 있고, 훈련 코퍼스 및 제1 창작 제약 요소를 제1 창작 서브 모델에 입력하여 제1 창작 서브 모델에 의해 제1 창작 텍스트를 생성할 수 있으며, 구체적으로, 코퍼스 데이터에 따라 제1 창작 서브 모델의 제1 창작 소재를 획득하고 제1 창작 제약 요소에 의해 제1 창작 텍스트를 생성하며, 즉, 상이한 제1 창작 서브 모델에 의해 상이한 제1 창작 텍스트를 생성하여 창작 다양성 요구를 만족하며, 구체적인 내용은 도 5내지 도 12를 결부하여 상세히 설명한다.
도 5는 본 발명의 제4 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 5에 도시된 바와 같이, 제1 창작 서브 모델은 개요 생성 서브 모델이고, 코퍼스 데이터는 제1 텍스트이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계401, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 개요 생성 서브 모델을 획득한다.
단계402, 제1 텍스트 및 제1 창작 제약 요소를 개요 생성 서브 모델에 입력하고, 제1 텍스트 중의 각 단락에 대해, 단락 내용에 대해 유형 식별을 수행하여 단락의 유형 특징을 획득한다.
단계403, 단락의 유형 특징에 따라 단락을 분류하여 단락 집합을 획득하고, 단락 집합과 단락 집합에 대응되는 유형 특징을 제1 창작 소재로 하며, 제1 창작 소재 및 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 제1 창작 목표는 개요를 생성하는 것이고, 창작 모델에서 생성된 개요에 대응하는 개요 생성 서브 모델을 획득하며, 제1 텍스트는 "리뷰 기사"와 같이 필요에 따라 선택된 기사일 수 있으며, 텍스트의 단락을 레이블링 및 통계하여 "이벤트 검토", "관련 엔터티" 및 "댓글 보기" 등과 같은 단락의 유형 특징을 생성할 수 있으며, 실제 응용 분야에 따라 선택하고 설정할 수 있다.
본 발명의 실시예에서, 응용 분야의 기사 단락에 대해 분류 체계를 구축하는 것을 기반으로 단락에 대해 기능 태그를 부여하며, 각 기사는 모두 기능 태그의 순서로 간주될 수 있고, 텍스트 분류 모델을 사용하여 단락 기능 태그를 자동으로 완성할 수 있으며, 그 다음에 통계를 통해 자주 사용하는 창작 개요를 획득할 수 있다.
다시 말하면, 단락의 내용에 대해 유형 식별을 수행하여 "이벤트 검토", "관련 엔터티" 및 "댓글 보기" 등과 같은 단락 유형 특징을 얻은 다음에 데이터 레이블링 및 텍스트 분류 모델을 통해 단락을 분류하여 단락 집합에 대응하는 유형 특징을 획득하여 제1 창작 소재로 하며, 즉, 제공된 제1 창작 제약 요소(주제 또는 제목 등)와 제1 창작 소재에 따라 다양한 유형의 단락을 생성하고, 자동 생성된 개요로 조합할 수 있다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 개요 생성 서브 모델을 획득하고, 제1 텍스트 및 제1 창작 제약 요소를 개요 생성 서브 모델에 입력하여 제1 텍스트 중의 각 단락에 대해 단락의 내용에 대해 유형 식별을 수행하여 단락의 유형 특징을 획득하고, 단락의 유형 특징에 따라 단락을 분류하여 단락 집합을 획득하며, 단락 집합 및 단락 집합에 대응되는 유형 특징을 제1 창작 소재로 제1 창작 소재 및 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 정확한 개요를 신속히 생성하여 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
도 6은 본 발명의 제5 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 6에 도시된 바와 같이, 제1 창작 서브 모델은 개요 생성 서브 모델이고, 코퍼스 데이터는 제2 텍스트이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계501, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 요소 생성 서브 모델을 획득한다.
단계502, 제2 텍스트와 제1 창작 제약 요소를 텍스트 요소 생성 서브 모델에 입력하여 제2 텍스트의 텍스트 주제와 주간 문장을 획득하며, 텍스트 주제와 주간 문장을 제1 창작 소재로 한다.
단계503, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 본 발명의 실시예에서, 생성된 제1 창작 텍스트는 "제목", "요약", "서문" 및 "라벨" 등 텍스트 요소이다.
본 발명의 실시예에서, 제1 창작 목표는 텍스트 요소를 생성하는 것이고, 창작 모델에서 텍스트 요소의 생성에 대응되는 텍스트 요소 생성 서브 모델을 획득하며, 제2 텍스트는 필요에 따라 선택한 기사일 수 있다.
다시 말하면, 제2 텍스트의 주제를 획득하고 제2 텍스트 주제를 나타내는 주간 문장은 적어도 하나의 문장일 수 있으며, 따라서, 텍스트 주제와 주간 문장을 제1 창작 소재로 하고 제1 창작 제약 요소를 결부하여 제1 창작 텍스트를 생성한다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 요소 생성 서브 모델을 획득하고, 제1 텍스트 및 제1 창작 제약 요소를 텍스트 요소 생성 서브 모델에 입력하여 제2 텍스트의 텍스트 주제와 주간 문장을 획득하며, 텍스트 주제와 주간 문장을 제1 창작 소재로 하여 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 정확한 텍스트 요소를 신속히 생성하여 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
도 7은 본 발명의 제6 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 7에 도시된 바와 같이, 제1 창작 서브 모델은 개요 생성 서브 모델이고, 코퍼스 데이터는 키워드이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계601, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 생성 서브 모델을 획득한다.
단계602, 키워드와 제1 창작 제약 요소를 텍스트 요소 생성 서브 모델에 입력하며, 키워드에 의해 검색 규칙을 생성하고, 검색 규칙에 따라 키워드에 대해 소재 검색을 수행하여 제1 창작 소재를 획득한다.
단계603, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 검색 규칙은 창작 시나리오에 따라 설정할 수 있는데, 예를 들어, 검색 시간, 검색 횟수 및 검색 데이터 등에 따라 설정할 수 있다.
본 발명의 실시예에서, 제1 창작 목표는 텍스트를 생성하는 것이고, 창작 모델에서 텍스트의 생성에 대응되는 텍스트 생성 서브 모델을 획득하며, 키워드는 필요에 따라 선택한 문구 등 일 수 있다.
본 발명의 실시예에서는 비교적 고정된 형태의 창작이 가능하며, 예를 들어, 키워드가 "매일 재경 뉴스 리뷰(
Figure pat00004
)"인 경우, 특정 고정 방식에 따라 제1 창작 소재를 획득할 수 있다. 키워드가 "매일 재경 뉴스 리뷰(
Figure pat00005
)"인 경우를 예를 들면, 제1 창작 소재를 획득하는 가능한 방식은, 매일 오후 5시에 데이터 소스에서 "재경(
Figure pat00006
)" 뉴스 및 오늘날의 경제 지수의 변동 상황을 획득한다. 장절 클러스터링, 자동 요약, 데이터 구조화에 의한 텍스트 생성 등 기술을 통해 소재를 단락으로 변환하고 제1 창작 텍스트를 생성할 수 있다. 일반적으로 사용되는 기술적 수단은, 자동 요약; 기존 장절을 단락으로 변환하거나; 또는, 구조화된 데이터를 통해 텍스트를 생성하고; 데이터를 단락으로 변환하는; 등 수단을 포함한다.
하나의 예로서, 자동 요약 알고리즘을 사용하고, 장절을 입력하여 단락을 출력하며, 키워드 "매일 재경 뉴스 리뷰"를 예를 들면, 여러가지 소재 기사에서 각각 단락을 추출하고, 상기 "단락을 추출"하는 단계는 자동 요약 알고리즘을 통해 수행하며, 제1 창작 제약 요소는 예를 들어 "완전히 모델에 의해 생성/모델에 의해 생성 후, 원본 텍스트를 결부하여 추출/완전히 원본 텍스트에 의해 추출" 등이다.
또 다른 예로, 데이터 구조화에 의해 텍스트를 생성하고, 데이터를 입력하여 단락을 출력하며, 예를 들어 "완전히 모델에 의해 생성/모델에 의해 생성 후, 원본 텍스트를 결부하여 추출/완전히 원본 텍스트에 의해 추출" 등과 같은 제1 창작 제약 요소에 따라 제어한다.
"완전히 모델에 의해 생성/모델에 의해 생성 후, 원본 텍스트를 결부하여 추출/완전히 원본 텍스트에 의해 추출" 및 "모든 데이터 표시/부분 데이터 표시"는 직접 간단한 규칙을 통해 훈련 코퍼스에 보완하여 텍스트 생성 서브 모델을 생성할 수 있으며, "공식 데이터 설명/구어적 데이터 설명"은 별도로 데이터를 레이블링하고 텍스트 분류 모델을 훈련하여 훈련 코퍼스에 보완하여 텍스트 생성 서브 모델을 생성할 수 있다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 생성 서브 모델을 획득하고, 키워드 및 제1 창작 제약 요소를 텍스트 요소 생성 서브 모델에 입력하여 키워드에 따라 검색 규칙을 생성하며, 검색 규칙에 따라 키워드에 대해 소재 검색을 수행하여 제1 창작 소재를 획득하고, 제1 창작 소재 및 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 정확한 텍스트를 신속히 생성하여 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
도 8은 본 발명의 제7 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 8에 도시된 바와 같이, 제1 창작 서브 모델은 창작 주제 생성 서브 모델이고, 코퍼스 데이터는 시드 워드이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계701, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 창작 주제 생성 서브 모델을 획득한다.
단계702, 시드 워드와 제1 창작 제약 요소를 창작 주제 생성 서브 모델에 입력하여 시드 워드에서 제1 엔터티를 추출하고, 제1 엔터티에 따라 미리 구축된 지식 그래프에서 제1 엔터티에 연관된 제2 엔터티를 획득한다.
단계703, 제1 엔터티와 제2 엔터티 사이의 연관 관계를 획득하고, 제2 엔터티와 연관 관계를 제1 작성 소재로 하며, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 제1 창작 목표는 창작 주제를 생성하는 것이고, 창작 모델에서 생성된 창작 주제에 대응하는 창작 주제 생성 서브 모델을 획득한다.
본 발명의 실시예에서, 창작자에 의해 지정된 시드 워드(예를 들어, 문구, 이벤트 등)에서 시작하여 미리 구축된 지식 그래프로 "관련 개념"을 추천하고, 창작 주제 생성 서브 모델에 의해 "작문 단편"을 추천하며, 창작자는 기대에 부합하는 추천 내용을 남기고, 창작 영감을 위한 준비가 완료될 때까지 추천 내용을 계속 획득할 수 있으며, 선정된 내용은 실제 창작을 위한 참고 자료로 한다.
예를 들어, 사용자가 입력 한 시드 워드가 엔터테인먼트 뉴스(유형), 샤오밍(인물), 샤오 화가 샤오밍에 대한 평가(이벤트) 등 일 수 있고, 인기순에 따라 추천할 수도 있다.
본 발명의 실시예에서, 지식 그래프는 엔터티의 연관을 기초로 설정한 엔터티 관계 및 엔터티 속성이며, 시드 워드에 대응되는 엔터티를 입력하는 것으로부터 연관된 엔터티를 추천할 수 있고, 시드 워드으로부터 직접 단편(창작 주제 생성 서브 모델은 현재 내용을 기반으로 다음 문자/단어의 확률을 예측할 수 있으며, 이와 같이 순환됨)을 생성할 수도 있다.
따라서, 키워드/문구/이벤트 등 시드 워드를 핵심으로 관련 내용을 확장하는 것을 구현하며, 창작 아이디어를 구축하여 창작 효율을 향상한다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 창작 주제 생성 서브 모델을 획득하고, 시드 워드 및 제1 창작 제약 요소를 창작 주제 생성 서브 모델에 입력하여 시드 워드에서 제1 엔터티를 추출하고, 제1 엔터티에 따라 미리 구축된 지식 그래프에서 제1 엔터티에 연관된 제2 엔터티를 획득하며, 제1 엔터티와 제2 엔터티 사이의 연관 관계를 획득하고, 제2 엔터티와 연관 관계를 제1 창작 소재로 하여 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 정확한 추천 텍스트를 신속히 생성하여 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
도 9는 본 발명의 제8 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 9에 도시된 바와 같이, 제1 창작 서브 모델은 텍스트 계속 작성 서브 모델이고, 코퍼스 데이터는 창작된 텍스트이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계801, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 계속 작성 서브 모을 획득한다.
단계802, 창작된 텍스트와 제1 창작 제약 요소를 텍스트 계속 작성 서브 모델에 입력하고, 창작된 텍스트를 분할하여 형성된 분할 코퍼스를 제1 창작 소재로 한다.
단계803, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 제1 창작 목표는 텍스트의 계속 작성이고, 창작 모델에서 텍스트의 계속 작성에 대응되는 텍스트 계속 작성 서브 모델을 획득하며, 필요에 따라 창작된 텍스트를 선택할 수 있다.
본 발명의 실시예에서, 분할 코퍼스는 문장, 단락, 장절 등 중의 하나 이상일 수 있으며, 문장, 단락 또는 장절 등을 제1 창작 소재 및 제1 창작 제약 요소로 입력하여 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 계속 작성은 완성된 단락을 기반으로 후속 단락의 샘플을 추천하는 전체 텍스트 계속 작성 추천이거나 또는 완성된 일부분 단락을 기반으로 해당 단락에 연관된 샘플을 추천하거나 작문 방식을 추천하는 단락 계속 작성 추천이거나 또는 완성된 일부분 문장을 기반으로 후속 문장의 작성 방식 등을 추천하는 문장 계속 작성 추천일 수도 있다.
실용성을 향상하기 위해, 텍스트 계속 작성 서브 모델은 사용자가 영감 자극 단계에서 준비한 내용에 의해 제한되거나 또는 별도로 키워드를 지정하여 창작 제약 조건으로 할 수 있다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 계속 작성 서브 모델을 획득하고, 창작된 텍스트 및 제1 창작 제약 요소를 텍스트 계속 작성 서브 모델에 입력하며, 창작된 텍스트를 분할하여 형성된 분할 코퍼스를 제1 창작 소재로 하고, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 정확한 계속 작성 추천 텍스트를 신속히 생성하여 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
도 10은 본 발명의 제9 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 10에 도시된 바와 같이, 제1 창작 서브 모델은 텍스트 윤색 서브 모델이고, 코퍼스 데이터는 창작된 텍스트이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계901, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 윤색 서브 모델을 획득한다.
단계902, 창작된 텍스트와 제1 창작 제약 요소를 텍스트 윤색 서브 모델에 입력하고, 창작된 텍스트에 대해 단어 분할을 수행하며, 분할된 단어의 품사를 식별하여 품사에 따라 분할된 단어에서 목표 분할 단어를 선택하여 제1 창작 소재로 한다.
단계903, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 제1 창작 목표는 텍스트의 윤색이고, 창작 모델에서 텍스트의 윤색에 대응되는 텍스트 윤색 서브 모델을 획득하며, 필요에 따라 창작된 텍스트를 선택할 수 있다.
본 발명의 실시예에서, 모든 단어를 대체하는 것이 아니며, 분할된 단어에서 품사(긍정, 부정 등)별로 목표 분할 단어를 선택하여 제1 창작 소재로 함으로써, 창작 효율을 향상할 수 있다.
본 발명의 실시예에서, 텍스트 윤색 서브 모델은 고품질 텍스트 코퍼스를 기반으로 문장에 대해 다양한 윤색 수정 결과(예를 들어, 스타일 변환)를 생성하여 창작자가 참조할 수 있도록 제공하며, 주로 단어 수준의 변경, 즉 단어 수준의 최적화에 중점을 둔다.
예를 들면, 문장 내 윤색 추천과 같이 완성된 일부분 문장을 기반으로 단어 단위 윤색 방안을 추천한다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 윤색 서브 모델을 획득하고, 창작된 텍스트 및 제1 창작 제약 요소를 텍스트 윤색 서브 모델에 입력하며, 창작된 텍스트에 대해 단어 분할을 수행하고 분할된 단어의 품사를 식별하며, 분할된 단어에서 품사에 따라 목표 분할 단어를 선택하여 제1 창작 소재로 하며, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 창작된 텍스트에 대해 윤색 처리를 수행하여, 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
도 11은 본 발명의 제10 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 11에 도시된 바와 같이, 제1 창작 서브 모델은 텍스트 수사 서브 모델이고, 코퍼스 데이터는 창작된 텍스트이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계1001, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 수사 서브 모델을 획득한다.
단계1002, 창작된 텍스트와 제1 창작 제약 요소를 텍스트 수사 서브 모델에 입력하고, 창작된 텍스트에서 문장을 추출하며, 추출된 문장에서 엔터티와 개념을 식별하여 제1 창작 소재로 한다.
단계1003, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 제1 창작 목표는 텍스트의 수사이고, 창작 모델에서 텍스트의 수사에 대응되는 텍스트 수사 서브 모델을 획득하며, 필요에 따라 창작된 텍스트를 선택할 수 있다.
본 발명의 실시예에서, 비유, 인용 등 수사의 사용은 창작 결과의 품질을 향상시킬 수 있으며, 창작된 텍스트를 기초로 엔터티 및 개념 (예를 들어, "태양"은 엔터티이고, "날씨"는 개념) 등을 식별하여 제1 창작 소재로 제1 창작 제약 요소와 결부하여 대응하는 수사 내용, 즉 제1 창작 텍스트를 생성하여 창작자가 참조할 수 있도록 제공한다.
예를 들어, 문장 내 수사적 제안은, 완성된 문장의 일부분에 대해 비유, 인용 등 수사적 제안을 제공한다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 수사 서브 모델을 획득하고, 창작된 텍스트 및 제1 창작 제약 요소를 텍스트 수사 서브 모델에 입력하며, 창작된 텍스트에서 문장을 추출하고, 추출된 문장에서 엔터티 및 개념을 식별하여 제1 창작 소재로 하며, 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 창작된 텍스트에 대해 수사적 처리를 수행하여, 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
도 12는 본 발명의 제11 실시예에 따른 텍스트 창작 방법의 흐름도이다.
도 12에 도시된 바와 같이, 제1 창작 서브 모델은 텍스트 재사용 서브 모델이고, 코퍼스 데이터는 창작된 텍스트이며, 단계104는 하기와 같은 단계를 포함한다. 즉:
단계1101, 제1 창작 목표에 따라, 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 재사용 서브 모델을 획득한다.
단계1102, 창작된 텍스트와 제1 창작 제약 요소를 텍스트 재사용 서브 모델에 입력하여 창작된 텍스트를 획득하고 단락을 추출한다.
단계1103, 창작된 텍스트의 요약 정보를 획득하고, 요약 정보에 따라 요약 정보와 유사한 제1 단락을 획득하며, 및/또는, 단락 중의 데이터 내용을 식별하여 단락에서 데이터 내용이 미리 설정한 양을 초과하는 제2 단락을 선택한다.
단계1104, 제1 단락과 제2 단락을 제1 창작 소재로 하여 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다.
본 발명의 실시예에서, 제1 창작 목표는 텍스트의 재사용이고, 창작 모델에서 텍스트의 재사용에 대응되는 텍스트 재사용 서브 모델을 획득하며, 필요에 따라 창작된 텍스트를 선택할 수 있다.
본 발명의 실시예에서, 창작 완료 후, 창작된 텍스트에 대한 분석에 따라 창작된 텍스트 중의 데이터가 밀집된 단락 또는 창작된 텍스트의 요약과 매우 유사한 내용을 식별하여 창작자가 자동 작문 방식으로 후속의 유사한 단락의 작문을 완성하도록 추천하며; 여기서, 미리 설정 양은 응용 수요에 따라 선택하여 설정할 수 있다.
예를 들어, 단락에 많은 양의 데이터 내용(단어 반복 횟수의 통계와 같은 미리 설정된 규칙으로 판단)이 있는 것을 식별하면 창작자가 자동 작문 방식으로 후속의 유사한 단락의 작문을 완성하도록 추천한다.
상술한 바와 같이, 본 발명의 실시예의 텍스트 창작 방법은, 제1 창작 목표에 따라 창작 모델에서 제1 창작 목표에 매칭하는 텍스트 재사용 서브 모델을 획득하고, 창작된 텍스트 및 제1 창작 제약 요소를 텍스트 재사용 서브 모델에 입력하여 창작된 텍스트를 획득하고 단락을 추출하며, 창작된 텍스트의 요약 정보를 획득하고, 요약 정보에 따라 요약 정보와 유사한 제1 단락을 획득하며, 및/또는, 단락 중의 데이터 내용을 식별하여 단락에서 데이터 내용이 미리 설정된 양을 초과하는 제2 단락을 선택하고, 제1 단락과 제2 단락을 제1 창작 소재로 하여 제1 창작 소재와 제1 창작 제약 요소에 따라 제1 창작 텍스트를 생성한다. 따라서, 창작된 텍스트에 대해 재사용 처리를 수행하여, 사용자의 창작 수요를 만족하고, 창작 효율 및 품질을 향상시킬 수 있다.
전술한 실시예의 설명에 따르면, 사용 시나리오, 사용자 및 응용 분야에 따라 창작 서브 모델에 대해 추가, 삭제 또는 수정할 수 있으며, 인공 지능 서브 모델을 기반으로 문장, 단락, 장절 및 다른 사전 정의된 질문과 같은 코퍼스 데이터를 식별하여 단락 길이, 단락과 문장 사이의 연속성 및 문법 최적화, 문장 길이, 구두점 오용, 단락 분할 및 삽화 밀도 등과 같은 검토 및 수정을 위한 제안을 제공할 수 있다.
전술한 실시예의 설명에 따르면, 본 발명의 텍스트 창작 방법은 창작 과정의 시작부터 끝까지 모든 과정에서 인공 지능의 보조 추천 정보를 획득할 수 있고, 실제 요구사항에 따라 인공 지능의 제안을 참고하거나 채택할 수 있으며, 인간과 기계의 협업이 뛰어나고, 각각의 창작 과정에서 제공되는 추천 정보는 완성된 창작 내용 및 창작 중인 내용과 강한 연관성을 가지기 때문에, 창작자가 작문 내용과 참조 내용 사이의 사고의 전환을 피할 수 있어 자신의 창작에 집중할 수 있으며, 생성된 창작 텍스트도 더욱 제어 가능하고 다양하다.
상기 실시예를 구현하기 위해, 본 발명은 텍스트 창작 장치를 제공한다.
도 13은 본 발명의 제12 실시예에 따른 텍스트 창작 장치의 구조도이다.
도 13에 도시된 바와 같이, 상기 텍스트 창작 장치(12)는 제1 획득 모듈(120), 제1 레이블링 모듈(121), 제2 획득 모듈(123) 및 제1 처리 모듈(124)을 포함할 수 있다.
상기 제1 획득 모듈(120)은 코퍼스 데이터를 획득하기 위해 사용된다.
제1 레이블링 모듈(121)은 상기 코퍼스 데이터를 레이블링하여 제1 작성 제약 요소를 획득하기 위해 사용된다.
제2 획득 모듈(123)은 제1 창작 목표를 획득하기 위해 사용된다.
제1 처리 모듈(124)은 상기 코퍼스 데이터 및 상기 제1 창작 제약 요소를 창작 모델에 입력하여 상기 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성하기 위해 사용된다.
본 발명의 일 실시예에서, 도 14에 도시된 바와 같이, 도 13의 기초에서 제3 획득 모듈(125), 제2 레이블링 모듈(126) 및 훈련 모듈(127)을 더 포함한다.
상기 제3 획득 모듈(125)은 복수의 훈련 코퍼스 및 상기 훈련 코퍼스에 대응하는 훈련 창작 텍스트를 획득하기 위해 사용된다.
제2 레이블링 모듈(126)은 상기 훈련 코퍼스를 레이블링하여 상기 훈련 코퍼스의 훈련 제약 요소를 획득하기 위해 사용된다.
훈련 모듈(127)은 상기 훈련 코퍼스, 상기 훈련 제약 요소 및 상기 훈련 작성 텍스트를 훈련 샘플로 초기 상기 창작 모델에 입력하여 훈련을 수행하여 훈련된 상기 창작 모델을 생성하기 위해 사용된다.
본 발명의 일 실시예에서, 도 15에 도시된 바와 같이, 도 14의 기초에서 제1 처리 모듈(124)은 획득 유닛(1241) 및 처리 유닛(1242)을 포함한다.
획득 유닛(1241)은 상기 제1 창작 목표에 따라, 상기 창작 모델에서 상기 제1 창작 목표에 매칭하는 제1 창작 서브 모델을 획득하기 위해 사용된다.
처리 유닛(1242)은 상기 훈련 코퍼스와 상기 제1 작성 제약 요소를 제1 창작 서브 모델에 입력하여 상기 제1 작성 서브 모델에 의해 상기 제1 작성 텍스트를 생성하기 위해 사용된다.
본 발명의 일 실시예에서, 도 16에 도시된 바와 같이, 도 15의 기초에서 제4 획득 모듈(128), 제3 레이블링 모듈(129) 및 제2 처리 모듈(1210)을 더 포함한다.
상기 제4 획득 모듈(128)은 상기 제1 창작 서브 모델에 연관된 제2 창작 서브 모델을 획득하기 위해 사용되며, 상기 제2 창작 서브 모델의 코퍼스 데이터는 상기 제1 창작 텍스트이다.
제3 레이블링 모듈(129)은 상기 제1 창작 텍스트를 레이블링하여 상기 제2 작성 서브 모델에 대응되는 제2 창작 제약 요소를 획득하기 위해 사용된다.
제2 처리 모듈(1210)은 상기 제1 창작 텍스트와 상기 제2 창작 제약 요소를 상기 제2 창작 서브 모델에 입력하여 제2 창작 텍스트를 생성하기 위해 사용된다.
본 발명의 일 실시예에서, 도 17에 도시된 바와 같이, 도 15의 기초에서 처리 유닛(1242)은 획득 서브 유닛(12421) 및 생성 서브 유닛(12422)을 포함한다.
획득 서브 유닛(12421)은 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하기 위해 사용된다.
생성 서브 유닛(12422)은 상기 제1 창작 소재와 상기 제1 창작 제약 요소에 따라, 상기 제1 창작 텍스트를 생성하기 위해 사용된다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 개요 생성 서브 모델이고, 상기 코퍼스 데이터는 제1 텍스트이며, 상기 획득 서브 유닛(12421)은 구체적으로, 상기 제1 텍스트 중의 각 단락에 대해, 상기 단락의 내용에 대해 유형 식별을 수행하여 상기 단락의 유형 특징을 획득하며; 상기 단락의 유형 특징에 따라, 상기 단락을 분류하여 단락 집합을 획득하며; 상기 단락 집합 및 상기 단락 집합에 대응되는 유형 특징을 상기 제1 창작 소재로 한다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 텍스트 요소 생성 서브 모델이고, 상기 코퍼스 데이터는 제2 텍스트이며, 상기 획득 서브 유닛(12421)은 구체적으로, 상기 제2 텍스트의 텍스트 주제와 주간 문장을 획득하여 상기 텍스트 주제와 상기 주간 문장을 상기 제1 창작 소재로 한다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 텍스트 생성 서브 모델이고, 상기 코퍼스 데이터는 키워드이며, 상기 획득 서브 유닛(12421)은 구체적으로, 상기 키워드에 따라 검색 규칙을 생성하고, 상기 검색 규칙에 따라 상기 키워드에 대해 소재 검색을 수행하여 제1 창작 소재를 획득한다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 창작 주제 생성 서브 모델이고, 상기 코퍼스 데이터는 시드 워드이며, 상기 획득 서브 유닛(12421)은 구체적으로, 상기 시드 워드에서 제1 엔터티를 추출하며; 상기 제1 엔터티에 따라, 미리 구축된 지식 그래프에서 상기 제1 엔터티에 연관된 제2 엔터티를 획득하며; 상기 제1 엔터티와 상기 제2 엔터티 사이의 연관 관계를 획득하고, 상기 제2 엔터티와 상기 연관 관계를 상기 제1 창작 소재로 한다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 텍스트 계속 작성 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛(12421)은 구체적으로, 상기 창작된 텍스트를 분할하여 형성된 분할 코퍼스를 상기 제1 창작 소재로 한다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 텍스트 윤색 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛(12421)은 구체적으로, 상기 창작된 텍스트에 대해 단어 분할을 수행하며; 상기 분할된 단어의 품사를 식별하고, 상기 품사에 따라 상기 분할된 단어에서 목표 분할 단어를 선택하여 상기 제1 창작 소재로 한다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 텍스트 수사 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛(12421)은 구체적으로, 상기 창작된 텍스트에서 문장을 추출하고, 추출된 상기 문장에서 엔터티와 개념을 식별하여 상기 제1 창작 소재로 한다.
본 발명의 일 실시예에서, 상기 제1 창작 서브 모델은 텍스트 재사용 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛은 구체적으로, 창작된 텍스트를 획득하여 단락을 추출하며; 상기 창작된 텍스트의 요약 정보를 획득하고, 상기 요약 정보에 의해 상기 요약 정보와 유사한 제1 단락을 획득하며; 및/또는, 상기 단락 중의 데이터 내용을 식별하여, 상기 단락에서 데이터 내용이 미리 설정된 양을 초과하는 제2 단락을 선택하며; 상기 제1 단락 및 상기 제2 단락을 상기 제1 창작 소재로 한다.
상술한 바와 같이, 본 발명의 텍스트 창작 장치는 코퍼스 데이터를 획득하며; 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하며; 제1 창작 목표를 획득하며; 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성한다. 따라서, 연관성이 비교적 높은 텍스트 및 다양한 목표의 텍스트를 창작할 수 있고, 창작의 다양성을 구현하고 다양한 창작 요구를 충족시키며, 창작 품질과 효율을 향상시킬 수 있다.
본 발명의 실시예에 따르면, 본 발명은 또한 전자 기기 및 판독 가능한 저장 매체를 제공한다. 본 발명의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 텍스트 창작 방법이 실행된다.
도 18은 본 발명의 실시예의 텍스트 창작 방법을 구현하기 위한 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자 기기는 개인용 디지털 처리, 휴대폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 가리킬 수도 있다. 본 명세서에 표시된 구성 요소, 이들의 연결 및 관계, 및 그 기능은 단지 예시일 뿐이며, 본 명세서에서 설명된 및/또는 요구되는 발명의 구현을 제한하려는 것이 아니다.
도 18에 도시된 바와 같이, 상기 전자 기기는 적어도 하나의 프로세서(1801), 메모리(1802) 및 고속 인터페이스와 저속 인터페이스를 포함하는 각 구성 요소를 연결하기 위한 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스에 의해 서로 연결되고, 공통 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 메모리에 저장되어 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위한 명령를 포함하는 전자 기기에 의해 실행되는 명령를 처리할 수 ????있다. 다른 실시예에서, 필요한 경우, 다중 프로세서 및/또는 다중 버스를 다중 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자 기기를 연결할 수 있으며, 각 장치는 필요한 작업의 일부분(예를 들어, 서버 어레이, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 18은 프로세서(1801)가 하나인 경우를 예를 들어 나타낸 것이다.
메모리(1802)는 본 발명에 따라 제공되는 비 일시적 컴퓨터 판독 가능 저장 매체이다. 상기 적어도 하나의 프로세서를 통해 본 발명의 텍스트 창작 방법을 수행할 수 있도록, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본 발명의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터가 본 발명의 텍스트 창작 방법을 수행하도록 컴퓨터 명령이 저장된다.
비 일시적 컴퓨터 판독 가능 저장 매체로서, 메모리(1802)는 본 발명의 실시예의 텍스트 창작 방법에 대응하는 프로그램 명령/모듈(예를 들어, 첨부도면 13에 도시된 제1 획득 모듈(120), 제1 레이블링 모듈(121), 제2 획득 모듈(123) 및 제1 처리 모듈(124))과 같은 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하기 위해 사용된다. 프로세서(1801)는 메모리(1802)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 실행한다. 즉, 상기 방법 실시예의 텍스트 창작 방법을 구현한다.
메모리(1802)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 프로그램 저장 영역에는 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고, 데이터 저장 영역에는 텍스트 창작 방법을 구현하기 위한 전자 기기의 사용에 따라 생성된 데이터가 저장될 수 있다. 또한, 메모리(1802)는 고속 랜덤 액세스 메모리를 포함할 수 있으며, 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치 또는 기타 비 일시적 고체 상태 저장 장치와 같은 비 일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(1802)는 프로세서(1801)에 대해 원격으로 제공되는 메모리를 선택적으로 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 텍스트 창작 방법을 구현하기 위한 전자 기기에 연결될 수 있다. 상기 네트워크의 예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 제한되지 않는다.
텍스트 창작 방법의 전자 기기는 입력 장치(1803) 및 출력 장치(1804)를 더 포함할 수 있다. 프로세서(1801), 메모리(1802), 입력 장치(1803) 및 출력 장치(1804)는 버스에 의해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 18은 버스에 의한 연결을 예를 들어 나타낸 것이다.
입력 장치(1803)는 입력된 숫자 또는 문자 정보를 수신하고, 텍스트 창작 방법을 구현하기 위한 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수있으며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 표시기 스틱, 적어도 하나의 마우스 버튼, 트랙볼, 조이스틱 및 기타 입력 장치를 포함할 수 있다. 출력 장치(1804)는 디스플레이 장치, 보조 조명 장치 (예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 제한되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 구현은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합을 통해 구현될 수 있다. 이러한 다양한 구현 방식은 다음을 포함할 수 있다. 즉: 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석될 수 있는 적어도 하나의 컴퓨터 프로그램에서 구현되며, 상기 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터 및 명령를 수신할 수 있고, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그래밍 가능한 프로세서에 대한 기계 명령이 포함되며, 고급 프로그래밍 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용되는 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 장비 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치 (PLD))를 지칭하며, 기계가 판독할 수 있는 신호인 기계 명령를 수신할 수 있는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는 모든 신호를 지칭한다.
사용자와의 상호 작용을 위해, 여기에 설명된 시스템 및 기술을 컴퓨터에서 구현할 수 있으며, 상기 컴퓨터는 사용자에게 정보를 표시하는 디스플레이 장치(예를 들어, CRT모니터 또는 LCD모니터)와, 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 키보드 및 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 유형의 장치를 사용하여 사용자와의 상호 작용을 제공할 수도 있는데, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백) 일 수 있고, 임의의 방식(사운드 입력, 음성 입력 또는 촉각 입력 포함)을 통해 사용자에 의한 입력을 수신할 수 있다.
여기에 설명된 시스템 및 기술은 백엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프런트엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저가 있는 사용자 컴퓨터를 포함할 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술 구현과 상호 작용할 수 있음), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소 또는 프런트엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 모든 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 구성 요소를 서로 연결할 수 있다. 통신 네트워크의 예로는 LAN (Local Area Network), WAN (Wide Area Network) 및 인터넷을 포함할 수 있다.
컴퓨터 시스템에는 클라이언트와 서버가 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 컴퓨터 프로그램을 실행하고 서로 클라이언트-서버 관계를 유지함으로써 생성된다.
본 발명의 실시예의 기술적 해결책은, 코퍼스 데이터를 획득하며; 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하며; 제1 창작 목표를 획득하며; 코퍼스 데이터 및 제1 창작 제약 요소를 창작 모델에 입력하여 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성한다. 따라서, 연관성이 비교적 높은 텍스트 및 다양한 목표의 텍스트를 창작할 수 있고, 창작의 다양성을 구현하고 다양한 창작 요구를 충족시키며, 창작 품질과 효율을 향상시킬 수 있다.
위에 표시된 다양한 형태의 프로세스를 사용하여 단계를 재정렬, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에서 설명된 다양한 단계들은 본 발명에 개시된 기술적 해결책의 원하는 결과를 달성할 수 있는 한, 병렬로 수행되거나, 순차적으로 또는 서로 다른 순서로 수행될 수 있으며, 본 명세서에서는 이를 제한하지 않는다.
상기 구체적인 구현 방식은 본 발명의 보호 범위에 대한 제한을 구성하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 하위 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본 발명의 보호 범위에 속한다.

Claims (29)

  1. 텍스트 창작 방법에 있어서,
    코퍼스 데이터를 획득하는 단계;
    상기 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하는 단계;
    제1 창작 목표를 획득하는 단계; 및,
    상기 코퍼스 데이터 및 상기 제1 창작 제약 요소를 창작 모델에 입력하여 상기 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  2. 제1항에 있어서,
    상기 창작 모델의 훈련 과정은,
    복수의 훈련 코퍼스 및 상기 훈련 코퍼스에 대응하는 훈련 창작 텍스트를 획득하는 단계;
    상기 훈련 코퍼스를 레이블링하여 상기 훈련 코퍼스의 훈련 제약 요소를 획득하는 단계; 및,
    상기 훈련 코퍼스, 상기 훈련 제약 요소 및 상기 훈련 창작 텍스트를 훈련 샘플로 초기 상기 창작 모델에 입력하여 훈련을 수행하여 훈련된 상기 창작 모델을 생성하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  3. 제2항에 있어서,
    상기 코퍼스 데이터 및 상기 제1 창작 제약 요소를 창작 모델에 입력하여 상기 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성하는 단계는,
    상기 제1 창작 목표에 따라, 상기 창작 모델에서 상기 제1 창작 목표에 매칭하는 제1 창작 서브 모델을 획득하는 단계; 및,
    상기 훈련 코퍼스와 상기 제1 창작 제약 요소를 제1 창작 서브 모델에 입력하여 상기 제1 창작 서브 모델에 의해 상기 제1 창작 텍스트를 생성하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  4. 제3항에 있어서,
    상기 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성하는 단계 후에,
    상기 제1 창작 서브 모델에 연관된 제2 창작 서브 모델을 획득하는 단계 - 상기 제2 창작 서브 모델의 코퍼스 데이터는 상기 제1 창작 텍스트임 - ;
    상기 제1 창작 텍스트를 레이블링하여 상기 제2 창작 서브 모델에 대응되는 제2 창작 제약 요소를 획득하는 단계; 및,
    상기 제1 창작 텍스트와 상기 제2 창작 제약 요소를 상기 제2 창작 서브 모델에 입력하여 제2 창작 텍스트를 생성하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  5. 제3항에 있어서,
    상기 제1 창작 서브 모델에 의해 상기 제1 창작 텍스트를 생성하는 단계는,
    상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하고, 상기 제1 창작 소재와 상기 제1 창작 제약 요소에 따라, 상기 제1 창작 텍스트를 생성하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  6. 제5항에 있어서,
    상기 제1 창작 서브 모델은 개요 생성 서브 모델이고, 상기 코퍼스 데이터는 제1 텍스트이며, 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하는 단계는,
    상기 제1 텍스트 중의 각 단락에 대해, 상기 단락의 내용에 대해 유형 식별을 수행하여 상기 단락의 유형 특징을 획득하는 단계;
    상기 단락의 유형 특징에 따라, 상기 단락을 분류하여 단락 집합을 획득하는 단계; 및,
    상기 단락 집합 및 상기 단락 집합에 대응되는 유형 특징을 상기 제1 창작 소재로 하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  7. 제5항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 요소 생성 서브 모델이고, 상기 코퍼스 데이터는 제2 텍스트이며, 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하는 단계는,
    상기 제2 텍스트의 텍스트 주제와 주간 문장을 획득하여 상기 텍스트 주제와 상기 주간 문장을 상기 제1 창작 소재로 하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  8. 제5항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 생성 서브 모델이고, 상기 코퍼스 데이터는 키워드이며, 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하는 단계는,
    상기 키워드에 따라 검색 규칙을 생성하고, 상기 검색 규칙에 따라 상기 키워드에 대해 소재 검색을 수행하여 제1 창작 소재를 획득하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  9. 제5항에 있어서,
    상기 제1 창작 서브 모델은 창작 주제 생성 서브 모델이고, 상기 코퍼스 데이터는 시드 워드이며, 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하는 단계는,
    상기 시드 워드에서 제1 엔터티를 추출하는 단계;
    상기 제1 엔터티에 따라, 미리 구축된 지식 그래프에서 상기 제1 엔터티에 연관된 제2 엔터티를 획득하는 단계; 및,
    상기 제1 엔터티와 상기 제2 엔터티 사이의 연관 관계를 획득하고, 상기 제2 엔터티와 상기 연관 관계를 상기 제1 창작 소재로 하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  10. 제5항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 계속 작성 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하는 단계는,
    상기 창작된 텍스트를 분할하여 형성된 분할 코퍼스를 상기 제1 창작 소재로 하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  11. 제5항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 윤색 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하는 단계는,
    상기 창작된 텍스트에 대해 단어 분할을 수행하는 단계; 및,
    상기 분할된 단어의 품사를 식별하고, 상기 품사에 따라 상기 분할된 단어에서 목표 분할 단어를 선택하여 상기 제1 창작 소재로 하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  12. 제5항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 수사 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하는 단계는,
    상기 창작된 텍스트에서 문장을 추출하고, 추출된 상기 문장에서 엔터티와 개념을 식별하여 상기 제1 창작 소재로 하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  13. 제5항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 재사용 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 제1 창작 목표 및 상기 코퍼스 데이터에 따라, 제1 창작 소재를 획득하는 단계는,
    창작된 텍스트를 획득하여 단락을 추출하는 단계;
    상기 창작된 텍스트의 요약 정보를 획득하고, 상기 요약 정보에 의해 상기 요약 정보와 유사한 제1 단락을 획득하는 단계; 및/또는,
    상기 단락 중의 데이터 내용을 식별하여, 상기 단락에서 데이터 내용이 미리 설정된 양을 초과하는 제2 단락을 선택하는 단계;
    상기 제1 단락 및 상기 제2 단락을 상기 제1 창작 소재로 하는 단계;를 포함하는,
    것을 특징으로 하는 텍스트 창작 방법.
  14. 텍스트 창작 장치에 있어서,
    코퍼스 데이터를 획득하기 위한 제1 획득 모듈;
    상기 코퍼스 데이터를 레이블링하여, 제1 창작 제약 요소를 획득하기 위한 제1 레이블링 모듈;
    제1 창작 목표를 획득하기 위한 제2 획득 모듈; 및,
    상기 코퍼스 데이터 및 상기 제1 창작 제약 요소를 창작 모델에 입력하여 상기 제1 창작 목표에 매칭하는 제1 창작 텍스트를 생성하는 제1 처리 모듈;을 포함하는,
    것을 특징으로 하는 텍스트 창작 장치.
  15. 제14항에 있어서,
    복수의 훈련 코퍼스 및 상기 훈련 코퍼스에 대응하는 훈련 창작 텍스트를 획득하기 위한 제3 획득 모듈;
    상기 훈련 코퍼스를 레이블링하여 상기 훈련 코퍼스의 훈련 제약 요소를 획득하기 위한 제2 레이블링 모듈; 및,
    상기 훈련 코퍼스, 상기 훈련 제약 요소 및 상기 훈련 창작 텍스트를 훈련 샘플로 초기 상기 창작 모델에 입력하여 훈련을 수행하여 훈련된 상기 창작 모델을 생성하는 훈련 모듈;을 더 포함하는,
    것을 특징으로 하는 텍스트 창작 장치.
  16. 제15항에 있어서,
    상기 제1 처리 모듈은,
    상기 제1 창작 목표에 따라, 상기 창작 모델에서 상기 제1 창작 목표에 매칭하는 제1 창작 서브 모델을 획득하기 위한 획득 유닛; 및,
    상기 훈련 코퍼스와 상기 제1 창작 제약 요소를 제1 창작 서브 모델에 입력하여 상기 제1 창작 서브 모델에 의해 상기 제1 창작 텍스트를 생성하기 위한 처리 유닛;을 포함하는,
    것을 특징으로 하는 텍스트 창작 장치.
  17. 제16항에 있어서,
    상기 제1 창작 서브 모델에 연관된 제2 창작 서브 모델을 획득하기 위한 제4 획득 모듈 - 상기 제2 창작 서브 모델의 코퍼스 데이터는 상기 제1 창작 텍스트임 - ;
    상기 제1 창작 텍스트를 레이블링하여 상기 제2 창작 서브 모델에 대응되는 제2 창작 제약 요소를 획득하기 위한 제3 레이블링 모듈; 및,
    상기 제1 창작 텍스트와 상기 제2 창작 제약 요소를 상기 제2 창작 서브 모델에 입력하여 제2 창작 텍스트를 생성하기 위한 제2 처리 모듈;을 더 포함하는,
    것을 특징으로 하는 텍스트 창작 장치.
  18. 제16항에 있어서,
    상기 처리 유닛은,
    상기 코퍼스 데이터에 따라, 상기 제1 창작 서브 모델의 제1 창작 소재를 획득하기 위한 획득 서브 유닛; 및,
    상기 제1 창작 소재와 상기 제1 창작 제약 요소에 따라, 상기 제1 창작 텍스트를 생성하기 위한 생성 서브 유닛;을 포함하는,
    것을 특징으로 하는 텍스트 창작 장치.
  19. 제18항에 있어서,
    상기 제1 창작 서브 모델은 개요 생성 서브 모델이고, 상기 코퍼스 데이터는 제1 텍스트이며, 상기 획득 서브 유닛은 구체적으로,
    상기 제1 텍스트 중의 각 단락에 대해, 상기 단락의 내용에 대해 유형 식별을 수행하여 상기 단락의 유형 특징을 획득하며;
    상기 단락의 유형 특징에 따라, 상기 단락을 분류하여 단락 집합을 획득하며;
    상기 단락 집합 및 상기 단락 집합에 대응되는 유형 특징을 상기 제1 창작 소재로 하는,
    것을 특징으로 하는 텍스트 창작 장치.
  20. 제18항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 요소 생성 서브 모델이고, 상기 코퍼스 데이터는 제2 텍스트이며, 상기 획득 서브 유닛은 구체적으로,
    상기 제2 텍스트의 텍스트 주제와 주간 문장을 획득하여 상기 텍스트 주제와 상기 주간 문장을 상기 제1 창작 소재로 하는,
    것을 특징으로 하는 텍스트 창작 장치.
  21. 제18항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 생성 서브 모델이고, 상기 코퍼스 데이터는 키워드이며, 상기 획득 서브 유닛은 구체적으로,
    상기 키워드에 따라 검색 규칙을 생성하고, 상기 검색 규칙에 따라 상기 키워드에 대해 소재 검색을 수행하여 제1 창작 소재를 획득하는,
    것을 특징으로 하는 텍스트 창작 장치.
  22. 제18항에 있어서,
    상기 제1 창작 서브 모델은 창작 주제 생성 서브 모델이고, 상기 코퍼스 데이터는 시드 워드이며, 상기 획득 서브 유닛은 구체적으로,
    상기 시드 워드에서 제1 엔터티를 추출하며;
    상기 제1 엔터티에 따라, 미리 구축된 지식 그래프에서 상기 제1 엔터티에 연관된 제2 엔터티를 획득하며;
    상기 제1 엔터티와 상기 제2 엔터티 사이의 연관 관계를 획득하고, 상기 제2 엔터티와 상기 연관 관계를 상기 제1 창작 소재로 하는,
    것을 특징으로 하는 텍스트 창작 장치.
  23. 제18항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 계속 작성 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛은 구체적으로,
    상기 창작된 텍스트를 분할하여 형성된 분할 코퍼스를 상기 제1 창작 소재로 하는,
    것을 특징으로 하는 텍스트 창작 장치.
  24. 제18항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 윤색 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛은 구체적으로,
    상기 창작된 텍스트에 대해 단어 분할을 수행하며;
    상기 분할된 단어의 품사를 식별하고, 상기 품사에 따라 상기 분할된 단어에서 목표 분할 단어를 선택하여 상기 제1 창작 소재로 하는,
    것을 특징으로 하는 텍스트 창작 장치.
  25. 제18항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 수사 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛은 구체적으로,
    상기 창작된 텍스트에서 문장을 추출하고, 추출된 상기 문장에서 엔터티와 개념을 식별하여 상기 제1 창작 소재로 하는,
    것을 특징으로 하는 텍스트 창작 장치.
  26. 제18항에 있어서,
    상기 제1 창작 서브 모델은 텍스트 재사용 서브 모델이고, 상기 코퍼스 데이터는 창작된 텍스트이며, 상기 획득 서브 유닛은 구체적으로,
    창작된 텍스트를 획득하여 단락을 추출하며;
    상기 창작된 텍스트의 요약 정보를 획득하고, 상기 요약 정보에 의해 상기 요약 정보와 유사한 제1 단락을 획득하며; 및/또는,
    상기 단락 중의 데이터 내용을 식별하고, 상기 단락에서 데이터 내용이 미리 설정된 양을 초과하는 제2 단락을 선택하며;
    상기 제1 단락 및 상기 제2 단락을 상기 제1 창작 소재로 하는,
    것을 특징으로 하는 텍스트 창작 장치.
  27. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및,
    상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하며,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제13항 중 어느 한 항의 텍스트 창작 방법이 수행되도록 하는,
    것을 특징으로 하는 전자 기기.
  28. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제13항 중 어느 한 항의 텍스트 창작 방법을 수행하도록 하는,
    것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체.
  29. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제13항 중 어느 한 항의 텍스트 창작 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210118996A 2020-09-21 2021-09-07 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 KR102577514B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010991790.XA CN111832275B (zh) 2020-09-21 2020-09-21 文本的创作方法、装置、设备以及存储介质
CN202010991790.X 2020-09-21

Publications (2)

Publication Number Publication Date
KR20210116379A true KR20210116379A (ko) 2021-09-27
KR102577514B1 KR102577514B1 (ko) 2023-09-12

Family

ID=72918491

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210118996A KR102577514B1 (ko) 2020-09-21 2021-09-07 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11928434B2 (ko)
EP (1) EP3896597A3 (ko)
JP (1) JP7430660B2 (ko)
KR (1) KR102577514B1 (ko)
CN (1) CN111832275B (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395416A (zh) * 2020-11-11 2021-02-23 湖南正宇软件技术开发有限公司 提案处理方法、装置、计算机设备和存储介质
CN112487151A (zh) * 2020-12-14 2021-03-12 深圳市欢太科技有限公司 文案生成方法及装置、存储介质与电子设备
CN112733515B (zh) * 2020-12-31 2022-11-11 贝壳技术有限公司 文本生成方法、装置、电子设备及可读存储介质
CN112966479A (zh) * 2021-03-02 2021-06-15 北京彩彻区明科技有限公司 基于语言模型的辅助写作方法、装置和系统
CN113033182B (zh) * 2021-03-25 2024-03-01 网易(杭州)网络有限公司 文本创作的辅助方法、装置及服务器
CN113239309A (zh) * 2021-06-15 2021-08-10 广州聚焦网络技术有限公司 一种适用于营销推广的内容创作方法及装置
CN113850083A (zh) * 2021-08-17 2021-12-28 北京百度网讯科技有限公司 确定播报风格的方法、装置、设备和计算机存储介质
CN113779994B (zh) * 2021-08-25 2024-01-23 上海浦东发展银行股份有限公司 一种要素抽取方法、装置、计算机设备和存储介质
US11775734B2 (en) * 2021-11-24 2023-10-03 Adobe Inc. Multimodal input contextual font recommendations
CN114492384A (zh) * 2022-01-17 2022-05-13 海南车智易通信息技术有限公司 训练生成文本生成模型的方法及文本生成方法
CN114925668B (zh) * 2022-05-20 2023-04-07 电子科技大学 自动生成新闻的系统、方法及存储介质
CN114997164A (zh) * 2022-05-31 2022-09-02 北京深言科技有限责任公司 文本生成方法及装置
CN114969343B (zh) * 2022-06-07 2024-04-19 重庆邮电大学 结合相对位置信息的弱监督文本分类方法
CN117744598A (zh) * 2022-09-20 2024-03-22 花瓣云科技有限公司 创作方法、电子设备、服务器和相关装置
CN115658866B (zh) * 2022-10-27 2024-03-12 国网山东省电力公司烟台供电公司 一种可自适应输入的文本续写方法、存储介质和装置
CN115879469B (zh) * 2022-12-30 2023-10-03 北京百度网讯科技有限公司 文本数据处理方法、模型训练方法、装置及介质
CN115934933B (zh) * 2023-03-09 2023-07-04 合肥工业大学 基于双端对比学习的文本摘要生成方法和系统
CN116151194B (zh) * 2023-04-04 2023-07-07 上海燧原科技有限公司 中文通用语言的生成方法、装置、设备及存储介质
CN116341502A (zh) * 2023-04-13 2023-06-27 石家庄伟航科技有限公司 基于数字工厂的产品数据检测方法及系统
CN116861861A (zh) * 2023-07-06 2023-10-10 百度(中国)有限公司 文本处理方法及装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN106407168A (zh) * 2016-09-06 2017-02-15 首都师范大学 一种应用文自动生成方法
CN108170676A (zh) * 2017-12-27 2018-06-15 百度在线网络技术(北京)有限公司 故事创作的方法、系统和终端
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101421587B1 (ko) * 2007-08-23 2014-07-22 삼성전자주식회사 무선 영상 전화 단말간의 선호 영상 규격을 결정하는 방법및 장치
CN103177036A (zh) * 2011-12-23 2013-06-26 盛乐信息技术(上海)有限公司 一种标签自动提取方法和系统
US10095692B2 (en) * 2012-11-29 2018-10-09 Thornson Reuters Global Resources Unlimited Company Template bootstrapping for domain-adaptable natural language generation
US10049106B2 (en) 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
US10333868B2 (en) * 2017-04-14 2019-06-25 Facebook, Inc. Techniques to automate bot creation for web pages
CN107491434A (zh) * 2017-08-10 2017-12-19 北京邮电大学 基于语义相关性的文本摘要自动生成方法及装置
CN108664465B (zh) * 2018-03-07 2023-06-27 珍岛信息技术(上海)股份有限公司 一种自动生成文本方法以及相关装置
US10685050B2 (en) * 2018-04-23 2020-06-16 Adobe Inc. Generating a topic-based summary of textual content
CN109086408B (zh) * 2018-08-02 2022-10-28 腾讯科技(深圳)有限公司 文本生成方法、装置、电子设备及计算机可读介质
US20200042547A1 (en) 2018-08-06 2020-02-06 Koninklijke Philips N.V. Unsupervised text simplification using autoencoders with a constrained decoder
JP7211045B2 (ja) 2018-11-30 2023-01-24 富士通株式会社 要約文生成方法、要約文生成プログラム及び要約文生成装置
JP7315321B2 (ja) * 2018-12-14 2023-07-26 ヤフー株式会社 生成装置、生成方法および生成プログラム
JP7293729B2 (ja) 2019-03-01 2023-06-20 富士フイルムビジネスイノベーション株式会社 学習装置、情報出力装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN106407168A (zh) * 2016-09-06 2017-02-15 首都师范大学 一种应用文自动生成方法
US20180329883A1 (en) * 2017-05-15 2018-11-15 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN108170676A (zh) * 2017-12-27 2018-06-15 百度在线网络技术(北京)有限公司 故事创作的方法、系统和终端

Also Published As

Publication number Publication date
EP3896597A2 (en) 2021-10-20
JP2021106017A (ja) 2021-07-26
CN111832275B (zh) 2022-02-25
JP7430660B2 (ja) 2024-02-13
US20210374349A1 (en) 2021-12-02
CN111832275A (zh) 2020-10-27
KR102577514B1 (ko) 2023-09-12
US11928434B2 (en) 2024-03-12
EP3896597A3 (en) 2022-03-02

Similar Documents

Publication Publication Date Title
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
JP7247441B2 (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
CN110717017B (zh) 一种处理语料的方法
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
CN111738016B (zh) 多意图识别方法及相关设备
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
KR20210040329A (ko) 비디오 태그의 생성 방법, 장치, 전자 기기 및 저장 매체
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN111832278B (zh) 文档流畅度的检测方法、装置、电子设备及介质
Zhang et al. Subword-augmented embedding for cloze reading comprehension
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
CN111767694B (zh) 文本生成方法、装置和计算机可读存储介质
JP2021192283A (ja) 情報照会方法、装置及び電子機器
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN108664464B (zh) 一种语义相关度的确定方法及确定装置
CN111382563A (zh) 文本相关性的确定方法及装置
CN113609840B (zh) 一种汉语法律判决摘要生成方法及系统
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
JP7160986B2 (ja) 検索モデルの訓練方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN112015866B (zh) 用于生成同义文本的方法、装置、电子设备及存储介质
Xue et al. A method of chinese tourism named entity recognition based on bblc model
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN112100335B (zh) 问题生成方法、模型训练方法、装置、设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant