KR20210129605A - 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체 - Google Patents

텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체 Download PDF

Info

Publication number
KR20210129605A
KR20210129605A KR1020210050120A KR20210050120A KR20210129605A KR 20210129605 A KR20210129605 A KR 20210129605A KR 1020210050120 A KR1020210050120 A KR 1020210050120A KR 20210050120 A KR20210050120 A KR 20210050120A KR 20210129605 A KR20210129605 A KR 20210129605A
Authority
KR
South Korea
Prior art keywords
fragment
training
text
information extraction
information
Prior art date
Application number
KR1020210050120A
Other languages
English (en)
Other versions
KR102521586B1 (ko
Inventor
씬 왕
밍밍 쑨
핑 리
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210129605A publication Critical patent/KR20210129605A/ko
Application granted granted Critical
Publication of KR102521586B1 publication Critical patent/KR102521586B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체를 개시하였고, 인공지능 기술분야에 관한 것이다. 구체적으로 구현방안은 원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 상기 원시 텍스트에 대응되는 유닛 시퀀스를 생성하는 단계, 상기 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 상기 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하는 단계, 상기 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성하는 단계를 포함한다. 본 출원의 기술적 해결수단은 연속된 단어를 포함한 프래그먼트를 하나의 목표 프래그먼트로서 복사할 수 있어, 핵심정보 추출과정에서 필요한 복사 차수를 효과적으로 줄일 수 있고, 누적오류를 저하시키고, 핵심정보 추출의 속도 및 정확도를 효과적으로 향상시킬 수 있다.

Description

텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체{TEXT KEY INFORMATION EXTRACTING METHOD, APPARATUS, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 출원은 컴퓨터 기술에 관한 것이며, 특히 인공지능 기술분야에 관한 것이며, 구체적으로 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체에 관한 것이다.
텍스트 핵심정보 추출이란 바로 텍스트(text)에서 핵심정보(key information)의 프래그먼트(fragment)를 복사하여 핵심정보로 접합시키는 것을 가리키며, 많은 자연언어(natural language) 처리작업에서 널리 사용되고 있다. 예를 들어, 텍스트로부터 자동적으로 요약을 추출하는 작업에서, 본문으로부터 핵심정보를 복사하여 요약 또는 표제로 할 수 있다. 또 예를 들면, 정보 추출작업에서 실체 및 실체 사이의 관계를 구현하는 텍스트를 정확히 복사하여 추출을 구현한다. 따라, 핵심정보 프래그먼트의 복사 정확도를 높이면 상위 앱 태스크의 성능을 향상시킬 수 있고, 최종제품에 효과적으로 기여할 수 있다.
기존 텍스트 핵심정보 추출에서, 일반적으로 "글자 및 단어 레벨 복사" 기술이 사용되는데, 즉 단어 단위로 복사되며, 앞 단어의 복사 정확도는 뒤 단어의 정확도에 영향을 미친다. 복사하고자 하는 세그먼트가 연속된 여러 단어로 구성된 세그먼트인 경우에도 세그먼트의 각 단어에 대해 단어 단위에 따라 하나씩 복사되어야 한다.
하지만, 상술한 기존 핵심정보 추출과정에서의 글자 및 단어 레벨 복사방안에 있어서, 여러 단어를 포함하는 세그먼트를 연속적으로 복사할 경우, 연속적으로 여러 차수의 복사를 행해야 하므로 오류가 누적되어 텍스트 핵심정보 추출의 정확도가 떨어질 수 있다.
상술한 기술 문제를 해결하기 위하여, 본 출원은 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체를 제공한다.
제1 양태에 있어서,
원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 상기 원시 텍스트에 대응되는 유닛 시퀀스를 생성하는 단계,
상기 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 상기 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하는 단계,
상기 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성하는 단계를 포함하는 텍스트 핵심정보 추출방법을 제공한다.
제2 양태에 있어서,
복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집하는 단계,
각 상기 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 상기 훈련 텍스트를 분할하며, 상기 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하며, 상기 이미 알려진 핵심정보에 포함된 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링하는 단계,
각 상기 훈련 텍스트의 상기 훈련 유닛 시퀀스 및 각 상기 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 상기 정보추출 모델을 훈련하는 단계를 포함하는 정보추출 모델 훈련방법을 제공한다.
제3 양태에 있어서,
원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 상기 원시 텍스트에 대응되는 유닛 시퀀스를 생성하기 위한 분할처리모듈,
상기 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 상기 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하기 위한 추출처리모듈,
상기 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성하기 위한 생성모듈을 포함하는 텍스트 핵심정보 추출장치를 제공한다.
제4 양태에 있어서,
복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집하기 위한 수집모듈,
각 상기 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 상기 훈련 텍스트를 분할하며, 상기 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하며, 상기 이미 알려진 핵심정보에 포함된 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링하기 위한 생성모듈,
각 상기 훈련 텍스트의 상기 훈련 유닛 시퀀스 및 각 상기 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 상기 정보추출 모델을 훈련하기 위한 훈련 모듈을 포함하는 정보추출 모델 훈련장치를 제공한다.
제5 양태에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 상기 방법을 수행하도록 하는 전자기기를 제공한다.
제6 양태에 있어서,
컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체를 제공하며, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기 방법을 수행하도록 한다.
본 출원의 기술적 해결수단은 종래기술의 글자 및 단어레벨의 복사 방안이 정확도가 떨어지는 문제점을 해결하였고, 연속된 단어를 포함한 프래그먼트를 하나의 목표 프래그먼트로서 복사할 수 있어, 핵심정보 추출 과정에서 필요한 복사 차수를 효과적으로 줄일 수 있고, 누적오류를 저하시키고, 핵심정보 추출의 속도 및 정확도를 효과적으로 향상시킬 수 있다.
또한, 본 출원은 정보추출 모델을 훈련함으로써 훈련된 정보추출 모델이 하나의 단대단(End-to-end)의 예측 모델로 형성되도록 하여, 유닛 시퀀스 입력 시 핵심정보에 대응되는 복수개의 목표 프래그먼트를 직접 예측할 수 있어, 복수개의 목표 프래그먼트에 기초하여 핵심정보를 생성할 수 있으므로 사용하기 아주 편하다. 또한 본 출원의 훈련된 정보추출 모델은 프래그먼트를 기반하여 복사하기에 핵심정보 추출 속도 및 정확도가 아주 높다.
여기서 설명된 내용은 본 개시 내용의 실시예들의 핵심 또는 중요한 특징들을 레이블링하기 위한 것이 아니며, 본 개시 내용의 범위를 제한하려는 의도가 아님을 이해해야 한다. 본 개시 내용의 다른 특징은 다음의 설명에 의해 쉽게 이해될 것이다.
도면은 본 방안을 더욱 잘 이해하기 위하여 이용되며 본 발명을 제한하지 않는다.
도 1은 본 출원의 실시예 1에 따른 개략도이다.
도 2는 본 출원의 실시예 2에 따른 개략도이다.
도 3은 본 출원의 실시예 3에 따른 개략도이다.
도 4는 본 출원의 실시예 4에 따른 개략도이다.
도 5는 본 출원의 실시예 5에 따른 개략도이다.
도 6은 본 출원의 실시예 6에 따른 개략도이다.
도 7은 본 출원의 실시예 7에 따른 개략도이다.
도 8은 본 출원의 실시예 8에 따른 개략도이다.
도 9는 본 출원의 실시예 9에 따른 개략도이다.
도 10은 본 출원의 실시예 10에 따른 개략도이다.
도 11은 본 출원의 실시예의 상술 관련방법을 구현하기 위한 전자기기의 블럭도이다.
이하, 도면을 참조하여 본 발명의 시범적인 실시예를 기술하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 상기 단계를 순차적으로 실행하여, 명확성 및 간결성을 위하여 이하의 기술에서는 잘 알려진 기능 및 구조의 기술을 생략하였다.
도 1은 본 출원의 실시예 1에 따른 개략도이며, 도 1에 도시된 바와 같이, 본 실시예는 텍스트 핵심정보 추출방법을 제공하며, 구체적으로 단계 S101, 단계 S102 및 단계 S103을 포함한다.
단계 S101에서, 원시 텍스트(raw text)를 사전 설정된 분할유닛에 따라 분할하여, 원시 텍스트에 대응되는 유닛 시퀀스(unit sequence)를 생성한다.
본 실시예의 텍스트 핵심정보 추출방법의 수행주체는 텍스트 핵심정보 추출장치이며, 상기 장치는 원시 텍스트를 기반으로 핵심정보를 추출하며, 예를 들어 원시 텍스트의 표제 또는 요약 등 핵심정보를 추출할 수 있다.
구체적으로, 상기 단계에서 원시 텍스트를 사전 설정된 분할유닛에 따라 분할 시, 선택되는 사전 설정된 분할유닛은 단어(word) 또는 글자(character)일 수 있다. 글자에 따라 원시 텍스트 분할 시, 그 구현방식이 비교적 간단하고, 즉 원시 텍스트 중의 각 글자를 독립적인 유닛으로 하여, 분할을 수행하며, 원시 텍스트 중에서의 선후 순서에 따라 배열하여, 상기 원시 텍스트에 대응되는 유닛 시퀀스를 획득할 수 있다. 단어에 따라 원시 텍스트 분할 시, 구체적으로 관련되는 단어분할 책략을 참조할 수 있으며, 분할 시, 각 분할용 단어가 독립적인 분할유닛으로 작용하도록 하고, 분할 후의 각 유닛의 원시 텍스트 중에서의 선후 순서에 따라 배열하여, 대응되는 유닛 시퀀스를 획득한다. 본 실시예에서, 단어에 따라 분할 시, 획득된 각 유닛에는 하나의 글자를 포함할 수 있고, 2개 또는 복수 개의 글자를 포함할 수 있다.
단계 S102에서, 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트(target fragment)의 식별정보를 추출한다.
구체적으로, 유닛 시퀀스를 사전 훈련된 상기 정보추출 모델에 입력하며, 상기 정보추출 모델은 프래그먼트 복사원리에 의거하여, 유닛 시퀀스에서 제공한 원시 텍스트 중의 각 유닛에 따라, 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 획득할 수 있다. 여기서, 프래그먼트 복사원리는 한 번에 2개 이상의 유닛을 포함하는 텍스트를 복사하는 것일 수 있다. 예를 들어, 요약 추출 시, 원시 텍스트 중에 추출해야 할 문자가 연속된 10개 글자일 경우, 기존의 글자 레벨의 추출방식을 사용하면 10번 추출해야 한다. 하지만, 본 실시예의 프래그먼트 복사원리를 사용할 경우, 핵심정보 추출 시, 상기 연속된 10개 글자의 프래그먼트를 한 번에 복사하여 목표 프래그먼트로 사용할 수 있다. 종래기술에 비하여, 한 번의 작업으로 연속된 10개 글자를 포함하는 프래그먼트 복사를 완료할 수 있다. 상기 프래그먼트 복사원리에 따르면, 상기 정보추출 모델은 유닛 시퀀스를 참조하여, 핵심정보를 생성하기 위한 하나 또는 2개 이상의 연속 유닛을 포함하는 목표 프래그먼트의 식별정보를 추출할 수 있다.
본 실시예의 목표 프래그먼트의 식별정보는 목표 프래그먼트의 위치 또는 내용을 지시하기 위해 사용될 수 있다. 예를 들면, 목표 프래그먼트의 식별정보는 X부터 Y번째까지의 유닛 형식 또는 a부터 b번째까지의 글자 형식일 수 있다. 유닛 시퀀스가 이미 형성되었기에 유닛 시퀀스 중의 유닛의 위치도 결정된 것이다. 따라서 X부터 Y번째까지의 유닛에 기초하여도 대응되는 프래그먼트에 정확히 위치결정될 수 있다. 또한, 유닛 시퀀스가 결정된 후, 각 유닛에 포함된 글자 개수도 결정된 것이므로, a부터 b번째까지의 글자 형식에 기초하여도 대응되는 프래그먼트에 정확히 위치결정될 수 있다.
목표 프래그먼트가 종료태그(Terminator)일 경우, 상기 목표 프래그먼트의 식별정보는 상기 종료태그를 직접 지시할 수 있으며, 이때 목표 프래그먼트에 대한 추출이 종료되었음을 나타낸다.
단계 S103에서, 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성한다.
구체적으로, 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 원시 텍스트를 참조하여, 목표 프래그먼트에 대응되는 구체적 내용을 복사한다. 정보추출 모델에서 출력되는 각 목표 프래그먼트의 선후 순서에 따라, 각 목표 프래그먼트를 접합시켜, 핵심정보를 생성한다.
본 실시예의 텍스트 핵심정보 추출방법은 원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 원시 텍스트에 대응되는 유닛 시퀀스를 생성하고, 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하며, 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성한다. 종래기술의 글자 및 단어레벨의 복사 방안에 비해, 연속된 단어를 포함한 프래그먼트를 목표 프래그먼트로서 복사할 수 있어, 핵심정보 추출과정에서 필요한 복사 차수를 효과적으로 줄일 수 있고, 누적오류를 저하시키고, 핵심정보 추출의 속도 및 정확도를 효과적으로 향상시킬 수 있다.
도 2는 본 출원의 실시예 2에 따른 개략도이며, 도 2에 도시된 바와 같이, 본 실시예의 텍스트 핵심정보 추출방법은 상술한 도 1에 도시된 실시예의 기술적 해결책의 기초 상에, 본 출원의 기술적 해결책을 더 상세히 소개한다. 도 2에 도시된 바와 같이, 본 실시예의 텍스트 핵심정보 추출방법은 구체적으로 단계 S201, 단계 S202, 단계 S203, 단계 S204 및 단계 S205를 포함한다.
단계 S201에서, 원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 원시 텍스트에 대응되는 유닛 시퀀스를 생성한다.
상기 단계의 구체적으로 구현방식은 상술한 도 1에 도시된 실시예의 단계 S101를 참조할 수 있으며, 여기서 반복하여 설명하지 않는다.
단계 S202에서, 정보추출 모델을 사용하여 유닛 시퀀스 중의 각 유닛을 기반으로, 원시 텍스트의 특징표현 및 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하며, 여기서 프래그먼트는 원시 텍스트 중의 하나의 유닛 또는 2개 이상의 연속 유닛을 포함한다.
예를 들어, 상기 단계는 구체적으로 단계 (a1), 단계 (b1)을 포함한다.
단계 (a1)에서, 정보추출 모델의 인코더를 사용하여 유닛 시퀀스 중의 각 유닛에 대해 부호화하여, 각 유닛의 특징표현을 얻으며, 각 유닛의 특징표현에 기초하여, 원시 텍스트의 특징표현을 생성한다.
구체적으로, 각 유닛의 특징표현 획득과정은 단어에서 벡터로의 매핑(mapping)표현을 참조할 수 있으며, 따라서 문자를 컴퓨터 처리 가능한 특징정보로 변환할 수 있다. 본 실시예에서 얻은 각 유닛의 특징표현은 구체적으로 벡터형태를 사용할 수 있는 바, 구체적인 벡터의 차원은 정보추출 모델의 인코더의 요구에 따라 설정할 수 있으며, 예를 들어, 순환신경망(Recurrent Neural Network, RNN)을 사용하여 부호화를 구현할 수 있다.
각 유닛의 특징표현은 각 유닛의 특징정보를 식별하는데 사용된다. 나아가 원시 텍스트 중의 각 유닛의 특징표현에 따라, 상기 원시 텍스트의 특징표현을 산출하며, 관련기술 중 일부로부터 전체를 얻는 계산방식을 참조할 수 있다. 상기 원시 텍스트의 특징표현은 전체 원시 텍스트의 특징정보를 포괄적으로 나타낼 수 있다.
단계 (b1)에서, 정보추출 모델의 프래그먼트 표현 생성기를 사용하여, 원시 텍스트 중의 각 유닛의 특징표현에 기초하여, 원시 텍스트 중의 각 프래그먼트의 특징표현을 생성한다.
본 실시예에서 원시 텍스트의 각 프래그먼트의 특징표현을 생성할 시, 원시 텍스트에 포함 가능한 모든 프래그먼트의 특징표현을 생성해야 한다. 예를 들어, 원시 텍스트의 유닛 시퀀스에 [유닛1, 유닛2, ....., 유닛N]이 포함될 경우, 대응 가능한 프래그먼트는 유닛1-1, 유닛1-2, 유닛1-3, ....., 유닛1-N, 유닛2-2, 유닛2-3, ....., 유닛2-N, ....., 유닛N-N일 수 있으며, 여기서 유닛1-1은 다만 유닛1을 포함하는 프래그먼트를 의미하며, 유닛1-2은 유닛1 및 유닛2를 포함하는 프래그먼트를 의미하며, 나머지도 이와 유사하다. 원시 텍스트의 유닛 시퀀스가 결정되었을 경우, 대응되는 포함 가능한 프래그먼트도 결정되었다.
상기 단계에서, 각 유닛의 특징표현에 기초하여, 각 프래그먼트의 특징표현을 생성해야 한다. 구체적으로, 프래그먼트 중 각 유닛의 특징표현에 따라, 프래그먼트 전체의 특징표현을 얻을 수 있다. 실제적용에 있어서, 각 부분을 이용하여 전체를 얻는 방법은 여러가지 있으며, 시작/끝유닛접합레이블링, 시작/끝유닛연산(예를 들면 감하기)레이블링, 프래그먼트 내의 모든 유닛이 인코더에 의해 부호화 레이블링 되는 것 등을 포함하나 이에 한정되지 않는다. 바람직하게는, 프래그먼트 중간 부분에 위치하는 특이하거나 비규범적이며 또는 잘못된 텍스트의 영향을 낮추기 위해, 바람직하게는, 프래그먼트의 시작/끝유닛의 특징표현에 기초하여, 상기 프래그먼트의 특징표현을 생성할 수 있다. 따라서, 프래그먼트의 특징표현의 정확도를 효과적으로 향상시킬 수 있다.
단계 S203에서, 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 부호의 특징표현을 얻는다. 여기서 부호는 독립적인 프래그먼트로서 사용된다.
실제적용에 있어서, 정보추출 과정에 플레이스홀더(Placeholder) 또는 기타 레이블링부호를 생성할 필요가 있을 수 있다. 따라서, 부호표를 사전에 설정하고, 상기 부호표에 일부 부호를 설정하여, 목표 프래그먼트의 추출과정에 참여하도록 한다. 예를 들어 종료태그를 설정할 수 있으며, 핵심정보의 목표 프래그먼트 추출 과정에서, 상기 종료태그가 추출되면 목표 프래그먼트의 추출 종료를 의미한다. 또는 핵심정보에 사용될 수 있는 일부 플레이스홀더를 부호표에 설정할 수도 있다.
부호와 프래그먼트를 일치시키기 위해, 다양한 방법을 이용하여 부호를 프래그먼트와 동일 공간의 특징표현으로 추상화하여 프래그먼트와 부호의 일치적인 처리를 구현할 수 있다.
예를 들어, 구체적으로 정보추출 모델의 부호특징매핑기(Mapper)를 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 부호의 특징표현을 얻는다.
단계 S204에서, 정보추출 모델을 사용하여 원시 텍스트의 특징표현, 원시 텍스트 중 각 프래그먼트의 특징표현 및 부호의 특징표현에 기초하여 복호화를 수행하여, 적어도 하나의 목표 프래그먼트의 식별정보를 획득한다.
본 실시예에서 복호화할 시, 각 부호 및 원시 텍스트에 포함된 각 프래그먼트를 각각 독립적인 후보 프래그먼트로 사용하여, 복호화 과정에서 원시 텍스트 중의 각 프래그먼트 및 부호로부터 목표 프래그먼트로 사용할 수 있는 프래그먼트의 식별정보를 예측한다. 예를 들어, 상기 단계는 구체적으로 단계 (a2), 단계 (b2)를 포함할 수 있다.
단계 (a2)에서, 원시 텍스트의 특징표현을 초기 은신층 상태로 사용하며, 정보추출 모델의 디코더를 사용하여 은신층 상태, 각 프래그먼트의 특징표현 및 각 부호의 특징표현에 따라, 각 프래그먼트에 대해 각각 스코어링하고, 스코어가 가장 높은 프래그먼트의 식별정보를 획득하여 목표 프래그먼트의 식별정보로 사용한다.
예를 들어, 복호화 첫 단계에서, 상기 초기 은신층 상태와 시작태그의 특징표현을 연산하고, 모든 후보 프래그먼트의 특징표현 즉 원시 텍스트 중의 각 프래그먼트 및 독립적인 프래그먼트인 각 부호의 특징표현을 참조하여, 각 프래그먼트가 목표 프래그먼트로 사용될 수 있는 확률을 획득하는바, 상기 과정이 바로 스코어링 과정이며, 확률이 높을수록, 상기 프래그먼트를 목표 프래그먼트로 식별되는 가능성이 더 높다. 각 프래그먼트는 모두 하나의 대응되는 확률 값을 가지며, 이를 스코어링 결과로 사용된다. 그리고 확률 값이 가장 큰 프래그먼트의 식별정보를 획득하여, 목표 프래그먼트의 식별정보로 사용한다. 여기서 구체적인 연산방식은 사용되는 네트워크 구조에 의해 결정되며, 네트워크 구조가 다름에 따라 서로 다른 연산방식이 대응된다.
단계 (b2)에서, 디코더를 사용하여 앞 단계에서 복호화하여 얻은 목표 프래그먼트의 특징표현에 기초하여, 은신층 상태를 업데이트한다. 업데이트 후의 은신층 상태, 각 프래그먼트의 특징표현 및 각 부호의 특징표현에 따라, 각 프래그먼트 및 부호에 대해 다시 각각 스코어링하여, 스코어가 가장 높은 다음 하나의 목표 프래그먼트의 식별정보를 획득한다. 상기 단계를 순차적으로 실행하여, 종료태그를 획득하거나 또는 획득된 모든 목표 프래그먼트의 글자수 합이 사전 설정된 글자수 역치에 이르기까지, 적어도 하나의 목표 프래그먼트의 식별정보를 얻는다.
본 실시예의 복호화 원리는 다음과 같다. 즉 초기 은신층 상태 및 시작태그를 기반하여 복호화 첫 단계를 행할 경우, 하나의 목표 프래그먼트의 식별정보를 획득할 수 있다. 나아가 복호화 기타 단계를 행할 경우, 앞 단계에서 복호화하여 얻은 목표 프래그먼트의 특징표현을 먼저 획득하고, 다음에 우선 앞 단계에서 복호화하여 얻은 목표 프래그먼트의 특징표현과 은신층 상태를 연산하여, 은신층 상태를 업데이트한다. 그 후 업데이트 후의 은신층 상태를 각 후보의 프래그먼트의 특징표현 즉 원시 텍스트 중의 각 프래그먼트의 특징표현 및 각 부호의 특징표현과 각각 연산을 진행하여, 각 후보의 프래그먼트를 획득하여 목표 프래그먼트의 확률로 하고, 확률 값이 가장 큰 프래그먼트의 식별정보를 획득하여 목표 프래그먼트의 식별정보로 한다. 이런 식으로 종료태그를 획득하거나 또는 획득된 모든 목표 프래그먼트의 글자수 합이 사전 설정된 글자수 역치에 이르기까지, 모든 목표 프래그먼트의 식별정보를 얻는다.
상술한 목표 프래그먼트의 식별정보를 획득하는 것은 하나의 순환단계이며, 핵심정보에 포함된 글자수가 제한되어, 목표 프래그먼트를 끊임없이 무제한으로 순환추출할 수 없다. 종료태그가 획득될 경우, 이는 목표 프래그먼트의 식별정보 획득 종료를 레이블링한다. 이때 이미 획득된 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여 핵심정보를 생성할 수 있다. 하지만, 종료태그를 계속 획득하지 못하였을 경우, 이때 모든 목표 프래그먼트의 글자수 합을 종료조건으로 설정하여, 모든 목표 프래그먼트의 글자수 합이 사전 설정된 글자수 역치에 이르면, 목표 프래그먼트의 식별정보를 계속하여 획득하는 것을 정지시킨다.
여기서, 사전 설정된 글자수 역치는 추출하고자 하는 핵심정보에 따라 결정할 수 있으며, 예를 들어, 핵심정보가 표제일 경우, 사전 설정된 글자수 역치를 예를 들어 25개 글자보다 작거나 같은 비교적 작은 수치로 정할 수 있다. 핵심정보가 요약일 경우, 사전 설정된 글자수 역치를 예를 들어 300보다 작거나 같은 비교적 큰 수치로 정할 수 있다.
본 실시예에서, 정보추출 모델을 해부하여 정보추출 모델 내부로 침입하여 모듈 내 각 부분의 처리결과를 획득할 수 있는 것을 예로 들어, 목표 프래그먼트의 식별정보 획득과정을 설명한다. 본 실시예의 정보추출 모델 내의 인코더, 프래그먼트 표현 생성기, 부호특징매핑기(Mapper) 및 디코더 등은 모두 신경망으로 구성된다.
단계 S205에서, 적어도 하나의 목표 프래그먼트의 식별정보에 따라, 원시 텍스트 또는 사전 설정된 부호표로부터 각 목표 프래그먼트의 내용을 복사하고, 각 목표 프래그먼트 획득 시의 선후 순서에 따라, 적어도 하나의 목표 프래그먼트의 내용을 접합시켜 핵심정보를 얻는다.
본 실시예에서, 정보추출 모델은 부호표 중의 임의의 플레이스홀더를 추출하여 목표 프래그먼트로 할 때가 있다. 이때, 핵심정보의 접합을 위해 부호표로부터 대응되는 부호를 복사해야 한다. 하지만, 종료태그일 경우, 종료태그는 상기 핵심정보의 종료를 레이블링하므로, 이때 종료태그 부호를 복사할 필요가 없다.
상기 단계 S205는 상술한 단계 S204와 협동하여 수행할 수 있고, 단계 S204에서 하나의 목표 프래그먼트 식별정보를 획득할 때마다, 단계 S205에서 복사 작업을 한번 수행하는 것에 유의해야 한다. 또는 단계 S204에서 모든 목표 프래그먼트의 식별정보를 얻은 후, 단계 S205에서 순차적으로 목표 프래그먼트의 식별정보에 기초하여 각 목표 프래그먼트의 복사를 수행한다.
본 실시예의 텍스트 핵심정보 추출방법에서 정보추출 모델을 사용하여 유닛 시퀀스 중의 각 유닛을 기반으로, 원시 텍스트의 특징표현 및 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하고, 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 부호의 특징표현을 얻으며, 정보추출 모델을 사용하여 원시 텍스트의 특징표현, 각 프래그먼트의 특징표현 및 부호의 특징표현에 기초하여, 복호화를 수행하여, 적어도 하나의 목표 프래그먼트의 식별정보를 획득한다. 따라서 획득한 목표 프래그먼트의 정확도를 효과적으로 확보할 수 있고, 추출된 핵심정보의 정확도를 효과적으로 확보할 수 있다.
또한, 종래기술의 글자 및 단어 레벨의 복사에 있어서, 텍스트 중에 특이하거나 비규범적이며 또는 잘못된 텍스트가 있을 경우, 부호화 시 부호화 효율을 저하시킬 수 있고, 복사 시 정확도가 떨어진다. 본 실시예에서는 적어도 하나의 목표 프래그먼트의 식별정보를 획득함으로써, 원시 텍스트 또는 사전 설정된 부호표로부터 각 목표 프래그먼트의 내용을 복사할 수 있어, 프래그먼트의 가장자리에만 기초하여 프래그먼트 내용을 복사하는 것에 대응하여, 추출되는 핵심정보의 정확도에 대한 프래그먼트 내의 특이하거나 비규범적이며 또는 잘못된 텍스트의 영향을 효과적으로 줄일 수 있고, 핵심정보 추출 정확도를 효과적으로 향상시킬 수 있다.
본 실시예의 기술적 해결수단에 의하면, 핵심정보 추출 시, "프래그먼트 선택" 작업을 몇 번만 진행하면 되고, 즉 글자 및 단어 레벨의 복사에서의 수십번의 "글자 또는 단어 선택" 작업을 대체할 수 있어, 디코더 네트워크의 복호화 절차 차수를 효과적으로 줄일 수 있고, 누적오류를 저하시키고, 복호화 과정을 효과적으로 가속시킬 수 있고, 목표 프래그먼트 복사 정확도를 향상시키고, 핵심정보 획득 속도를 효과적으로 가속시키며, 추출되는 핵심정보의 정확도를 향상시킬 수 있다. 또한 본 실시예의 기술적 해결수단은 프래그먼트 방식으로 복사를 실현하므로, 원시 텍스트에 대한 규범적 요구사항이 낮고, 적용 가능성이 아주 높다.
도 3은 본 출원의 실시예 3에 따른 개략도이며, 도 3에 도시된 바와 같이, 본 실시예의 텍스트 핵심정보 추출방법은 상술한 도 1에 도시된 실시예의 기술적 해결수단에 기초하여 본 출원의 기술적 해결수단을 더 상세히 소개한다. 도 3에 도시된 바와 같이, 본 실시예의 텍스트 핵심정보 추출방법은 구체적으로 단계 S301, 단계 S302, 단계 S303, 단계 S304 및 단계 S305를 포함할 수 있다.
단계 S301에서, 원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 원시 텍스트에 대응되는 유닛 시퀀스를 생성한다.
단계 S302에서, 정보추출 모델을 사용하여, 유닛 시퀀스 중의 각 유닛을 기반으로, 원시 텍스트의 특징표현 및 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하며, 여기서 프래그먼트는 원시 텍스트 중의 하나 유닛 또는 2개 이상의 연속 유닛을 포함한다.
단계 S303에서, 정보추출 모델을 사용하여, 사전 설정된 부호표 중의 부호 및 사전 설정된 단어표 중의 각 단어에 대해 각각 특징매핑을 수행하여, 부호의 특징표현 및 각 단어의 특징표현을 얻는다. 부호 및 각 단어는 각각 독립적인 프래그먼트로서 사용된다.
단계 S304에서, 정보추출 모델을 사용하여 원시 텍스트의 특징표현, 각 프래그먼트의 특징표현, 부호의 특징표현 및 각 단어의 특징표현에 기초하여 복호화를 수행하여, 적어도 하나의 목표 프래그먼트의 식별정보를 획득한다.
단계 S305에서, 적어도 하나의 목표 프래그먼트의 식별정보에 따라, 원시 텍스트, 사전 설정된 부호표 또는 사전 설정된 단어표로부터 각 상기 목표 프래그먼트의 내용을 복사하고, 각 목표 프래그먼트의 획득 시의 선후 순서에 따라, 적어도 하나의 목표 프래그먼트의 내용을 접합시켜 핵심정보를 얻는다.
본 실시예는 상술한 도 2에 도시된 실시예에 비하여 그 상이점은 본 실시예에서는 복호화할 시 사전 설정된 단어표 중의 각 단어의 특징표현을 인입하였고, 각 단어를 하나의 독립적인 후보 프래그먼트로 취하고, 따라서 단계 S304에서 복호화할 시, 각 단어를 목표 프래그먼트로 사용할 수 있다. 여기서 상기 사전 설정된 단어표 중의 각 단어에 대한 특징매핑은 정보추출 모델의 인코더를 사용하여 구현할 수 있고, 원시 텍스트 중의 각 유닛의 특징표현의 획득방식과 동일하다. 그 구현단계의 실시는 상술한 도 2에 도시된 실시예와 동일하다. 세부사항은 상술한 도 2에 도시된 실시예의 기재를 참조할 수 있다.
실제적용에 있어서, 핵심정보 추출 과정 중의 복사는 종종 독립적으로 존재하는 것이 아니라, "입력하기 위한 원시 텍스트에 존재하지 않는 글자 및 단어의 생성"과 결합해야 하며, 즉 복사는 생성과 효과적으로 결합되어야 한다. 예를 들어, 요약을 생성하려면 원시 텍스트에 존재하지 않는 글자 및 단어를 이용하여 임의의 정보에 대해 요약해야 할 때가 있다. 따라서, 정보추출 과정에서 사전 설정된 부호표 중의 부호뿐만 아니라 사전 설정된 단어표 중의 단어도 필요하다. 예를 들어, 원시 텍스트가 "중화인민공화국"일 경우, 사전 설정된 단어표에 "중국"으로 요약하여 설정할 수 있다. 또는 사전 설정된 단어표에 원시 텍스트의 문자의미와 같거나 비슷한 단어를 설정하여, 핵심정보에 더 적절히 활용될 수 있다.
본 실시예의 텍스트 핵심정보 추출방법은 사전 설정된 단어표를 인입하는 것을 통해, 핵심정보 추출과정에 사전 설정된 단어표 중의 단어를 목표 프래그먼트로 사용하여, 핵심정보 생성에 참여시키며, 핵심정보 추출과정에 복사 및 생성을 모두 사용함으로써, 핵심정보 생성 정확도를 더 효과적으로 향상시킬 수 있다.
도 4는 본 출원의 실시예 4에 따른 개략도이며, 도 4에 도시된 바와 같이, 상술한 도 1 내지 도 3에 도시된 실시예의 텍스트 핵심정보 추출방법을 참조하여, 본 실시예의 정보추출 모델의 동작원리를 소개한다. 도 4는 원시 텍스트에 하나의 유닛을 포함하는 것을 예로 든 것이고, 여기서 b1, b2, ..., bl-1, bl은 정보추출 모델의 인코더가 원시 텍스트에 대응되는 유닛 시퀀스 중의 각 유닛에 대해 부호화하여 얻은 각 유닛의 특징표현이며, c는 각 유닛의 특징표현을 기반으로 얻은 원시 텍스트의 특징표현이며, 디코더의 은신층 상태의 초기화에 사용될 수 있다. 여기서 g1, g2, ..., gN는 사전 설정된 부호표 중의 부호 및 사전 설정된 단어표 중의 각 단어에 대하여 각각 특징매핑하여 얻은 특징표현이다.
원시 텍스트의 각 유닛, 각 부호 및 각 단어를 기반하여, 모든 후보 프래그먼트를 얻을 수 있고, 여기서 원시 텍스트의 각 유닛은 개별적으로 프래그먼트를 구성할 수 있고, 원시 텍스트 중의 인접한 유닛들이 함께 프래그먼트를 구성할 수도 있으며, 유사한 방식으로 원시 텍스트의 모든 프래그먼트를 획득할 수 있다. 여기서 부호 및 각 단어는 모두 독립적인 하나의 프래그먼트이다. 정보추출 모델의 프래그먼트 식별자 생성기는 원시 텍스트 중의 각 프래그먼트의 특징표현을 기반하여 시작/끝유닛의 특징표현을 사용하여 계산하여 얻을 수 있다. 예를 들어, 도 4 중의 k1,1은 제1 유닛이 독립적으로 구성한 프래그먼트이고, k1,2는 제1 유닛 및 제2 유닛에 의해 구성된 프래그먼트이며, 상기 단계를 순차적으로 실행하여, k1,3, ..., k1,l, k2,2, k2,3, ..., k2,l, ..., kl,l가 존재할 수 있다. 프래그먼트의 구성방식에 따라, 원시 텍스트 중의 모든 프래그먼트의 특징표현을 얻을 수 있다. 또한, 정보추출 모델의 부호특징매핑기를 사용하여 각 부호에 대해 특징매핑을 수행하여 각 부호의 특징표현을 얻을 수 있다. 또한 인코더를 사용하여 사전 설정된 단어표 중의 각 단어에 대해 부호화하여 대응하는 특징표현을 얻을 수 있다. 따라서, 모든 후보 프래그먼트의 특징표현을 얻을 수 있다. 도 4에 도시된 바와 같이, kl+1,l+1, ..., kl+N,l+N는 N개 부호 및 단어가 각각 독립적인 하나의 프래그먼트로 사용되는 특징표현을 나타낸다.
도 4에 도시된 바와 같이, 디코더는 순환 신경망을 사용하여, 초기화의 원시 텍스트의 특징표현, 각 프래그먼트의 특징표현에 기초하여, 상술한 도 3에 나타낸 단계 S403를 통해, 각 목표 프래그먼트의 식별정보를 예측하며, 도 4에 도시된 바와 같이, 목표 프래그먼트의 식별정보가 Text(7,9)=[타, 대]로 예측되는 것을 예로 들면, 상기 목표 프래그먼트는 원시 텍스트 중의 7번째 글자부터 9번째 글자까지이며, 여기서 7번째 글자가 "타"이고, 9번째 글자가 "대"이다. 따라서, 상기 목표 프래그먼트의 식별정보에 기초하여, 원시 텍스트로부터 7번째 글자인 "타"글자부터 9번째 글자인 "대"글자까지의 내용정보를 복사할 수 있다. 유사한 방식으로, 각 프래그먼트의 내용을 순차적으로 획득할 수 있으며, 프래그먼트의 획득 순서에 따라, 순차적으로 접합시켜 상기 원시 텍스트를 기반하여 추출된 핵심정보를 얻을 수 있다.
도 5는 본 출원의 실시예 5에 따른 개략도이며, 도 5에 도시된 바와 같이, 본 실시예는 정보추출 모델 훈련방법을 제공하며, 구체적으로 단계 S501, 단계 S502 및 단계 S503을 포함할 수 있다.
단계 S501에서, 복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집한다.
본 실시예에서 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보는 인위적으로 추출된 것일 수 있다.
단계 S502에서, 각 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 훈련 텍스트를 분할하며, 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하며, 이미 알려진 핵심정보에 포함된 각 훈련목표 프래그먼트의 이미 알려진 확률분포를 레이블링한다.
본 실시예의 훈련 유닛 시퀀스의 생성과정은 상술한 도 1에 도시된 실시예의 유닛 시퀀스의 생성과정을 참조하면 되는바, 여기서 반복하여 설명하지 않는다.
단계 S503에서, 각 훈련 텍스트의 훈련 유닛 시퀀스 및 각 훈련목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 정보추출 모델을 훈련한다.
본 실시예의 정보추출 모델의 훈련방법의 수행주체는 정보추출 모델 훈련장치이고, 상기 장치는 실체적인 전자장치일 수 있고, 소프트웨어 통합을 사용할 수도 있으며, 사용 시 컴퓨터 장비에 의해 실행되어, 정보추출 모델을 훈련할 수 있다.
상술한 내용에 따르면, 본 실시예의 각 훈련 데이터에 하나의 훈련 텍스트의 훈련 유닛 시퀀스 및 이미 알려진 핵심정보 중의 복수개의 훈련목표 프래그먼트의 이미 알려진 확률분포가 대응하여 포함되는 것으로 이해할 수 있다. 여기서 각 훈련 프래그먼트의 이미 알려진 확률분포는 감독용 데이터로서, 정보추출 모델의 파라미터의 조정에 사용되며, 정보추출 모델에 대한 훈련을 구현한다.
본 실시예의 정보추출 모델 훈련방법에 있어서, 복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집하고, 각 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 훈련 텍스트를 분할하며, 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하며, 이미 알려진 핵심정보에 포함된 각 훈련목표 프래그먼트의 이미 알려진 확률분포를 레이블링하고, 각 훈련 텍스트의 훈련 유닛 시퀀스 및 복수개의 훈련목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 정보추출 모델을 훈련함으로써 훈련된 정보추출 모델이 하나의 단대단(End-to-end)의 예측 모델로 형성되도록 하여, 유닛 시퀀스 입력 시 핵심정보에 대응되는 복수개의 목표 프래그먼트를 직접 예측할 수 있어, 복수개의 목표 프래그먼트에 기초하여 핵심정보를 생성할 수 있으므로 사용하기 아주 편하다. 또한 본 실시예의 훈련된 정보추출 모델은 프래그먼트를 기반하여 복사하기에 핵심정보 추출 속도 및 정확도가 아주 높다.
도 6은 본 출원의 실시예 6에 따른 개략도이고, 도 6에 도시된 바와 같이, 본 실시예의 정보추출 모델 훈련방법은 상술한 도 5에 도시된 실시예의 기술적 해결수단에 기초하여, 각 훈련 텍스트의 훈련 유닛 시퀀스 및 복수개의 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 정보추출 모델을 훈련하는 단계 S503의 구체적인 구현방식에 대해 더 상세히 소개한다. 도 6에 도시된 바와 같이, 구체적으로 단계 S601, 단계 S602, 단계 S603 및 단계 S604를 포함할 수 있다.
단계 S601에서, 각 훈련 텍스트에 대하여, 훈련 유닛 시퀀스 및 정보추출 모델에 기초하여, 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포를 생성한다.
본 실시예의 예측 핵심정보 중 각 예측 목표 프래그먼트의 예측 확률분포를 생성하는 과정은 상술한 도 2 및 도 3에 도시된 실시예의 적어도 하나의 목표 프래그먼트의 식별정보를 획득하는 원리와 유사하며, 세부사항은 상술한 관련기재를 참조할 수 있다.
예를 들어, 상기 단계 S601는 구체적으로 단계 (a3), 단계 (b3) 및 단계 (c3)를 포함할 수 있다.
단계(a3)에서, 각 훈련 텍스트에 대하여, 정보추출 모델을 사용하여 훈련 유닛 시퀀스 중의 각 유닛에 기초하여, 훈련 텍스트의 특징표현 및 훈련 텍스트 중의 각 프래그먼트의 특징표현을 획득한다. 프래그먼트는 훈련 텍스트 중의 하나 유닛 또는 2개 이상의 연속된 유닛을 포함한다.
예를 들어, 각 훈련 텍스트에 대하여, 정보추출 모델의 인코더를 사용하여 훈련 유닛 시퀀스 중의 각 유닛에 대해 부호화를 수행하여, 각 유닛의 특징표현을 얻으며, 각 유닛의 특징표현에 기초하여, 훈련 텍스트의 특징표현을 생성하며, 정보추출 모델의 프래그먼트 표현 생성기를 사용하여, 훈련 텍스트 중의 각 유닛의 특징표현을 기반하여, 훈련 텍스트 중의 각 프래그먼트의 특징표현을 생성한다.
단계 (b3)에서, 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 부호의 특징표현을 얻는다. 부호는 독립적인 프래그먼트로 사용된다.
단계 (c3)에서, 정보추출 모델을 사용하여, 훈련 텍스트의 특징표현, 각 프래그먼트의 특징표현 및 부호의 특징표현에 기초하여 복호화를 수행하여, 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포를 획득한다.
예를 들어, 예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트에 대해 복호화할 시, 디코더를 사용하여 훈련 텍스트의 특징표현을 초기 은신층 상태로서 복호화를 수행하여, 각 프래그먼트가 예측 목표 프래그먼트로 되는 확률을 획득하며, 각 프래그먼트의 확률에 기초하여, 예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트의 예측 확률분포를 생성한다.
예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트 외의 기타 예측 목표 프래그먼트에 대해 복호화할 시, 인코더를 사용하여 복호화하여 얻은 하나 전의 예측 목표 프래그먼트에 대해 특징매핑을 수행하여, 대응하는 특징표현을 얻으며, 디코더를 사용하여 하나 전의 예측 목표 프래그먼트의 특징표현에 기초하여, 은신층 상태를 업데이트하며, 업데이트 후의 은신층 상태에 기초하여 계속하여 복호화하여, 예측 핵심정보 중의 기타 예측 목표 프래그먼트의 예측 확률분포를 획득한다.
본 실시예에서 사전 설정된 단어표가 더 마련되었을 경우, 정보추출 모델은 사전 설정된 단어표 중의 각 단어를 독립적인 후보 프래그먼트로 사용하여, 핵심정보 추출과정에 복사하는 동시에 단어 생성 기능도 함께 실현하는 것에 더 유의해야 한다. 이때 이에 대응하여 상술한 단계 (b3)는 아래와 같이 더 확장될 수 있다. 즉 정보추출 모델을 사용하여, 사전 설정된 부호 및 사전 설정된 단어표 중의 각 단어에 대해 특징매핑을 수행하여, 부호의 특징표현 및 각 단어의 특징표현을 얻는다. 부호 및 각 단어는 각각 독립적인 프래그먼트로 사용된다.
이와 대응하여, 상술한 단계 (c3)은 아래와 같이 확장될 수 있다. 즉 정보추출 모델을 사용하여, 훈련 텍스트의 특징표현, 각 프래그먼트의 특징표현, 부호의 특징표현 및 각 단어의 특징표현을 기반하여, 복호화를 수행하여, 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포를 획득한다.
본 실시예의 상기 단계 S601는 상술한 도 2 및 도 3에 나타낸 실시예의 적어도 하나의 목표 프래그먼트의 식별정보를 획득하는 과정과 비하여 서로 다른 점은 아래와 같다. 즉 도 2 및 도 3에 도시된 실시예의 관련단계에서 훈련 텍스트에 대하여 직접 목표 프래그먼트의 식별정보를 획득하며, 목표 프래그먼트의 식별정보는 모든 후보 프래그먼트에 대한 스코어링 확률에 기초하며, 확률이 가장 큰 프래그먼트를 선택하여 목표 프래그먼트로 사용한다. 하지만 본 실시예에서, 확률이 가장 큰 프래그먼트를 선택할 필요없이, 상술한 도 2 또는 도 3에 도시된 실시예와 유사한 방식을 사용하여 복호화를 수행할 시, 직접 모든 후보 프래그먼트의 확률에 기초하여, 현재 예측 목표 프래그먼트의 예측 확률분포를 생성한다. 예를 들어, 도 2 및 도 3에 도시된 실시예에서 모두 N개 프래그먼트가 있고, 스코어링 후 첫 번째 프래그먼트의 확률이 0.01이고, 두 번째 프래그먼트의 확률이 0.005이며, ..., i번째 프래그먼트의 확률이 0.7이고, ..., N번째 프래그먼트의 확률이 0.2이였을 경우, 상술한 도 2 및 도 3에 도시된 실시예 방식에 따르면, 직접 i번째 프래그먼트를 선택하여 목표 프래그먼트로 사용하며, 목표 프래그먼트의 식별정보를 출력한다. 본 실시예에서, 상기 단계에서 얻은 것은 예측 목표 프래그먼트의 예측 확률분포이며, 예를 들어, [0.01, 0.005, ..., 0.7, ..., 0.2]로 레이블링될 수 있고, 나머지 구현원리는 모두 같으며, 여기서 반복하여 설명하지 않는다.
단계 S602에서, 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포가 이미 알려진 핵심정보 중의 대응위치의 훈련 목표 프래그먼트의 이미 알려진 확률분포와 일치한지 여부를 검출하며, 일치하지 않을 경우, 단계 S603을 수행하며, 아닐 경우 단계 S604를 수행한다.
본 실시예에서, 이미 알려진 핵심정보 중의 각 훈련 목표 프래그먼트의 이미 알려진 확률분포는 정보추출 모델 훈련장치에 의해 레이블링되며, 수동 심사를 거친다. 훈련 목표 프래그먼트는 원시 텍스트 중의 프래그먼트일 수 있고, 부호표 중의 부호 또는 사전 설정된 단어표 중의 임의의 단어일 수도 있어, 따라서, 레이블링할 때, 대응되는 훈련 텍스트 중의 모든 후보의 프래그먼트, 부호표 중의 모든 후보의 부호 및 사전 설정된 단어표 중의 모든 단어를 참조할 수 있다. 여기서 각 부호 및 각 단어는 모두 독립적으로 하나의 프래그먼트로 사용할 수 있고, 훈련 목표 프래그먼트의 확률분포를 레이블링할 수 있다. 레이블링할 때, 후보 프래그먼트가 몇 개 있으면, 대응하여 레이블링되는 이미 알려진 확률분포가 몇 차원이며, 각 차원은 하나의 프래그먼트에 대응된다. 훈련 목표 프래그먼트에 대응되는 위치의 확률은 1이고, 기타 위치의 확률은 0이다. 종료태그의 확률분포를 예로 들면, 다만 종료태그에 대응되는 위치가 1이고, 기타 위치는 모두 0이다.
실제적용에 있어서, 목표 프래그먼트를 다만 원시 텍스트로부터 획득할 경우, 사전 설정된 단어표 또는 부호표를 참조할 필요가 없으며, 해당 부분의 후보를 제거하기만 하면 되는 것에 유의해야 한다.
다시 말해서, 본 실시예에서 훈련 텍스트의 훈련 유닛 시퀀스 중의 유닛만 참조하여, 이미 알려진 핵심정보 중의 각 훈련목표 프래그먼트의 이미 알려진 확률분포를 레이블링할 수 있어, 이때, 훈련 목표 프래그먼트는 훈련 유닛 시퀀스 중의 하나의 유닛 또는 2개 이상의 연속된 유닛을 포함할 수 있다. 또는, 다만 훈련 텍스트의 훈련 유닛 시퀀스 중의 유닛 및 부호표를 참조하여, 이미 알려진 핵심정보 중의 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링할 수 있으며, 이때, 훈련 목표 프래그먼트는 훈련 유닛 시퀀스 중의 하나의 유닛 또는 2개 이상의 연속된 유닛을 포함할 수 있을 뿐만 아니라, 부호표 중의 부호를 포함할 수도 있다. 또는, 동시에 훈련 텍스트의 훈련 유닛 시퀀스 중의 유닛, 부호표 및 사전 설정된 단어표를 참조하여, 이미 알려진 핵심정보 중의 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링할 수도 있다. 이때, 훈련 목표 프래그먼트는 훈련 유닛 시퀀스 중의 하나 유닛 또는 2개 이상의 연속된 유닛을 포함할 수 있을 뿐만 아니라, 부호표 중의 부호 또는 사전 설정된 단어표 중의 단어를 포함할 수도 있다.
단계 S603에서, 각 예측 목표 프래그먼트의 예측 확률분포가 이미 알려진 확률분포에 근접하도록 정보추출 모델의 파라미터를 조정하며, 단계 S601에 돌아와 종료태그를 예측할 때까지 계속하여 다음 하나의 예측 목표 프래그먼트를 예측하며, 계속하여 다음 하나의 훈련 텍스트의 상관정보를 사용하여 계속하여 훈련한다.
본 실시예에서, 정보추출 모델은 각 예측 목표 프래그먼트가 예측되었을 경우, 이미 알려진 핵심정보 중의 상기 위치의 이미 알려진 훈련 목표 프래그먼트의 이미 알려진 확률분포와 비교해야 하며, 일치하지 않을 경우, 예측 확률분포가 이미 알려진 확률분포에 근접하도록 정보추출 모델의 네트워크 구조의 파라미터를 조정해야 한다.
단계 S604에서, 연속된 사전 설정된 차수의 훈련에서 예측 목표 프래그먼트의 예측 확률분포가 대응되는 위치의 훈련 목표 프래그먼트의 이미 알려진 확률분포와 항상 일치한지 여부를 검출하며, 일치될 경우, 훈련종료를 결정하고, 정보추출 모델의 파라미터를 결정하고, 정보추출 모델을 결정한다. 일치하지 않을 경우, 단계 S601에 돌아와 계속하여 각 훈련 텍스트를 사용하여 정보추출 모델을 훈련한다.
상기 단계는 정보추출 모델의 훈련 종료조건이다. 여기서 연속된 사전 설정된 차수는 실제수요 따라 설정될 수 있으며, 예를 들어, 연속 50차, 80차, 100차 또는 기타 차수로 훈련할 수 있다. 또는 실제적용에 있어서, 훈련 종료조건을 사전 설정된 차수 역치만큼의 훈련을 완성하였을 경우 훈련종료로 설정할 수 있다. 여기서 사전 설정된 차수는 실제수요 따라 100만 또는 기타 수치로 설정될 수 있으며, 여기서 반복하여 설명하지 않는다.
본 실시예의 정보추출 모델 훈련방법은 상술한 기술적 해결수단을 통해 프래그먼트 복사원리를 기반한 목표 프래그먼트의 예측 능력의 훈련을 실현할 수 있으며, 훈련하여 얻은 정보추출 모델의 목표 프래그먼트의 식별정보를 획득하는 정확도 및 속도를 효과적으로 확보할 수 있고, 핵심정보 추출의 속도 및 정확도를 효과적으로 향상시킬 수 있다.
도 7은 본 출원의 실시예 7에 따른 개략도이며, 도 7에 도시된 바와 같이, 본 실시예는 분할처리모듈(701), 추출처리모듈(702), 생성모듈(703)을 포함하는 텍스트 핵심정보 추출장치(700)를 제공한다.
분할처리모듈(701)은 원시 텍스트(raw text )를 사전 설정된 분할유닛에 따라 분할하여, 원시 텍스트에 대응되는 유닛 시퀀스를 생성한다.
추출처리모듈(702)은 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출한다.
생성모듈(703)은 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성한다.
본 실시예의 텍스트 핵심정보 추출장치(700)가 상술한 모듈을 통해 텍스트 핵심정보 추출을 구현하는 구현원리 및 기술적 효과는 상술한 관련방법 실시예의 구현과 같으며 세부사항은 상술한 관련방법 실시예의 기재를 참조할 수 있으며, 여기서 반복하여 설명하지 않는다.
도 8은 본 출원의 실시예 8에 따른 개략도이며, 도 8에 도시된 바와 같이, 본 실시예의 텍스트 핵심정보 추출장치(700)는 상술한 도 7에 도시된 실시예에 기초하여 본 출원의 기술적 해결수단을 더 상세히 소개한다.
도 8에 도시된 바와 같이, 본 실시예의 텍스트 핵심정보 추출장치(700)의 추출처리모듈(702)은 특징획득유닛(7021), 복호화 처리유닛(7022)을 더 포함한다.
특징획득유닛(7021)은 정보추출 모델을 사용하여 유닛 시퀀스 중의 각 유닛을 기반으로, 원시 텍스트의 특징표현 및 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하며, 프래그먼트는 원시 텍스트 중의 하나의 유닛 또는 2개 이상의 연속 유닛을 포함한다.
특징획득유닛(7021)은 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 부호의 특징표현을 얻는다. 여기서 부호는 독립적인 프래그먼트로서 사용된다.
복호화 처리유닛(7022)은 정보추출 모델을 사용하여 원시 텍스트의 특징표현, 원시 텍스트 중 각 프래그먼트의 특징표현 및 부호의 특징표현에 기초하여 복호화를 수행하여, 적어도 하나의 목표 프래그먼트의 식별정보를 획득한다.
보다 선택적으로, 특징획득유닛(7021)은
정보추출 모델의 인코더를 사용하여 유닛 시퀀스 중의 각 유닛에 대해 부호화하여, 각 유닛의 특징표현을 얻으며,
각 유닛의 특징표현에 기초하여, 원시 텍스트의 특징표현을 생성하며,
정보추출 모델의 프래그먼트 표현 생성기를 사용하여, 원시 텍스트 중의 각 유닛의 특징표현에 기초하여, 원시 텍스트 중의 각 프래그먼트의 특징표현을 생성한다.
보다 선택적으로, 특징획득유닛(7021)은
정보추출 모델 중의 부호특징 매핑기를 사용하여 사전 설정된 부호에 대해 특징매핑을 수행하여, 부호의 특징표현을 얻는다.
보다 선택적으로, 복호화 처리유닛(7022)은
원시 텍스트의 특징표현을 초기 은신층 상태로 사용하며, 정보추출 모델의 디코더를 사용하여 은신층 상태, 각 프래그먼트의 특징표현 및 각 부호의 특징표현에 따라, 각 프래그먼트에 대해 각각 스코어링하고, 스코어가 가장 높은 프래그먼트의 식별정보를 획득하여 목표 프래그먼트의 식별정보로 사용하며,
디코더를 사용하여 앞 단계에서 복호화하여 얻은 목표 프래그먼트의 특징표현에 기초하여, 은신층 상태를 업데이트한다. 업데이트 후의 은신층 상태, 각 프래그먼트의 특징표현 및 각 부호의 특징표현에 따라, 각 프래그먼트 및 부호에 대해 다시 각각 스코어링하여, 스코어가 가장 높은 다음 하나의 목표 프래그먼트의 식별정보를 획득한다. 상기 단계를 순차적으로 실행하여, 종료태그를 획득하거나 또는 획득된 모든 목표 프래그먼트의 글자수 합이 사전 설정된 글자수 역치에 이르기까지, 적어도 하나의 목표 프래그먼트의 식별정보를 얻는다.
또는 보다 선택적으로, 특징획득유닛(7021)은 정보추출 모델을 사용하여, 사전 설정된 부호 및 사전 설정된 단어표 중의 각 단어에 대해 각각 특징매핑을 수행하여, 부호의 특징표현 및 각 단어의 특징표현을 얻는다. 부호 및 각 단어는 각각 독립적인 프래그먼트로서 사용된다.
이와 대응하여, 복호화 처리유닛(7022)은 정보추출 모델을 사용하여 원시 텍스트의 특징표현, 각 프래그먼트의 특징표현, 부호의 특징표현 및 각 단어의 특징표현에 기초하여 복호화를 수행하여, 적어도 하나의 목표 프래그먼트의 식별정보를 획득한다.
본 실시예의 텍스트 핵심정보 추출장치(700)에 있어서, 상술한 모듈을 통해 텍스트 핵심정보 추출을 구현하는 구현원리 및 기술적 효과는 상술한 관련방법 실시예의 구현과 같으며 세부사항은 상술한 관련방법 실시예의 기재를 참조할 수 있으며, 여기서 반복하여 설명하지 않는다.
도 9는 본 출원의 실시예 9에 따른 개략도이며, 도 9에 도시된 바와 같이, 본 실시예는 수집모듈(901), 생성모듈(902) 및 훈련 모듈(903)을 포함하는 정보추출 모델 훈련장치(900)를 제공한다.
수집모듈(901)은 복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집한다.
생성모듈(902)은 각 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 훈련 텍스트를 분할하며, 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하며, 이미 알려진 핵심정보에 포함된 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링한다.
훈련 모듈(903)은 각 훈련 텍스트의 훈련 유닛 시퀀스 및 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 정보추출 모델을 훈련한다.
본 실시예의 정보추출 모델 훈련장치(900)에 있어서 상술한 모듈을 통해 정보추출 모델 훈련을 구현하는 구현원리 및 기술효과는 상술한 관련방법 실시예의 구현과 같으며, 세부사항은 상술한 관련방법 실시예의 기재를 참조할 수 있으며, 여기서 반복하여 설명하지 않는다.
도 10은 본 출원의 실시예 10에 따른 개략도이며, 도 10에 도시된 바와 같이, 본 실시예의 정보추출 모델 훈련장치(900)는 상술한 도 9에 도시된 실시예에 기초하여 본 출원의 기술적 해결수단을 더 상세히 소개한다.
도 10에 도시된 바와 같이, 본 실시예의 정보추출 모델 훈련장치(900)에서 훈련 모듈(903)은 확률분포생성유닛(9031), 검출유닛(9032) 및 조정유닛(9033)을 포함한다.
확률분포생성유닛(9031)은 각 훈련 텍스트에 대하여, 훈련 유닛 시퀀스 및 정보추출 모델에 기초하여, 예측 핵심정보 중 각 예측 목표 프래그먼트의 예측 확률분포를 생성한다.
검출유닛(9032)은 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포가 이미 알려진 핵심정보 중의 대응위치의 훈련목표 프래그먼트의 이미 알려진 확률분포와 일치한지 여부를 검출한다.
조정유닛(9033)은 일치하지 않을 경우, 각 예측 목표 프래그먼트의 예측 확률분포가 이미 알려진 확률분포에 근접하도록 정보추출 모델의 파라미터를 조정한다.
보다 선택적으로, 확률분포생성유닛(9031)은
각 훈련 텍스트에 대하여, 정보추출 모델을 사용하여 훈련 유닛 시퀀스 중의 각 유닛에 기초하여, 훈련 텍스트의 특징표현 및 훈련 텍스트 중의 각 프래그먼트의 특징표현을 획득한다. 프래그먼트는 훈련 텍스트 중의 하나의 유닛 또는 2개 이상의 연속된 유닛을 포함하며,
정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 부호의 특징표현을 얻는다. 부호는 독립적인 프래그먼트로 취하며,
정보추출 모델을 사용하여, 훈련 텍스트의 특징표현, 각 프래그먼트의 특징표현 및 부호의 특징표현에 기초하여 복호화를 수행하여, 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포를 획득한다.
보다 선택적으로, 확률분포생성유닛(9031)은
각 훈련 텍스트에 대하여, 정보추출 모델의 인코더를 사용하여 훈련 유닛 시퀀스 중의 각 유닛에 대해 부호화를 수행하여, 각 유닛의 특징표현을 얻으며,
각 유닛의 특징표현에 기초하여, 훈련 텍스트의 특징표현을 생성하며,
정보추출 모델의 프래그먼트 표현 생성기를 사용하여, 훈련 텍스트 중의 각 유닛의 특징표현을 기반하여, 훈련 텍스트 중의 각 프래그먼트의 특징표현을 생성한다.
보다 선택적으로, 확률분포생성유닛(9031)은
예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트에 대해 복호화할 시, 디코더를 사용하여 훈련 텍스트의 특징표현을 초기 은신층 상태로서 복호화를 수행하여, 각 프래그먼트가 예측 목표 프래그먼트로 되는 확률을 획득하며, 각 프래그먼트의 확률에 기초하여, 예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트의 예측 확률분포를 생성하며,
예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트 외의 기타 예측 목표 프래그먼트에 대해 복호화할 시, 인코더를 사용하여 복호화하여 얻은 하나 전의 예측 목표 프래그먼트에 대해 특징매핑을 수행하여, 대응하는 특징표현을 얻으며, 디코더를 사용하여 하나 전의 예측 목표 프래그먼트의 특징표현에 기초하여, 은신층 상태를 업데이트하며, 업데이트 후의 은신층 상태에 기초하여 계속하여 복호화하여, 예측 핵심정보 중의 기타 예측 목표 프래그먼트의 예측 확률분포를 획득한다.
또는 선택적으로, 확률분포생성유닛(9031)은
각 훈련 텍스트에 대하여, 정보추출 모델을 사용하여 훈련 유닛 시퀀스 중의 각 유닛에 기초하여, 훈련 텍스트의 특징표현 및 훈련 텍스트 중의 각 프래그먼트의 특징표현을 획득한다. 프래그먼트는 훈련 텍스트 중의 하나의 유닛 또는 2개 이상의 연속된 유닛을 포함하며,
정보추출 모델을 사용하여, 사전 설정된 부호 및 사전 설정된 단어표 중의 각 단어에 대해 특징매핑을 수행하여, 부호의 특징표현 및 각 단어의 특징표현을 얻는다. 부호 및 각 단어는 각각 독립적인 프래그먼트로 사용되며,
정보추출 모델을 사용하여, 훈련 텍스트의 특징표현, 각 프래그먼트의 특징표현, 부호의 특징표현 및 각 단어의 특징표현을 기반하여, 복호화를 수행하여, 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포를 획득한다.
본 실시예의 정보추출 모델 훈련장치(900)에 있어서 상술한 모듈을 통해 정보추출 모델 훈련을 구현하는 구현원리 및 기술효과는 상술한 관련방법 실시예의 구현과 같으며, 세부사항은 상술한 관련방법 실시예의 기재를 참조할 수 있으며, 여기서 반복하여 설명하지 않는다.
본 발명에 따른 실시예에 의하면, 본 발명은 전자기기 및 판독 가능 기록 매체를 더 제공한다.
도 11에 도시된 바와 같이, 본 출원 실시예의 상술한 관련방법을 구현하기 위한 전자기기의 블럭도이다. 전자기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자기기는 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일뿐이며, 본 명세서에서 기술하거나 및/또는 요구하는 본 발명의 구현을 한정하려는 것이 아니다.
도 11에 도시된 바와 같이, 상기 전자기기는 하나 또는 복수의 프로세서(1101), 메모리(1102) 및 각 구성 요소를 연결하기 위한 인터페이스를 구비하며, 상기 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서는 전자기기 내에서 수행되는 명령에 대해 처리를 수행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 (예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 레이블링하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 상기 단계를 순차적으로 실행하여, 복수의 전자기기를 연결할 수 있으며, 각 기기는 부분적인 필요한 조작 (예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 11에서는 하나의 프로세서(1101)의 예를 들었다.
메모리(1102)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기록 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 기억하며, 상기 컴퓨터 명령은 컴퓨터로 하여금 본 발명에 의해 제공되는 텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법을 수행하도록 한다.
메모리(1102)는 일종의 비 일시적 컴퓨터 판독 가능 기록 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈을 기억하는데 사용될 수 있는 바, 예를 들면 본 발명 실시예의 텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법에 대응하는 프로그램 명령/모듈(예를 들어, 도 7 내지 도 10에 도시된 관련 모듈)을 기억하는데 사용될 수 있다. 프로세서(1101)는 메모리(1102) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용(function application) 및 데이터 처리를 수행하는 바, 상술한 방법 실시예의 텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법을 구현한다.
메모리(1102)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기억할 수 있고, 데이터 기억 영역은 텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법을 구현하기 위한 전자기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(1102)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(1102)는 선택적으로 프로세서(1101)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법을 구현하기 위한 전자기기에 연결될 수 있다. 상술한 네트워크의 실예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법을 구현하기 위한 전자기기는 입력장치(1103)와 출력장치(1104)를 더 포함할 수 있다. 프로세서(1101), 메모리(1102), 입력장치(1103) 및 출력장치(1104)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 11에서는 버스를 통해 연결하는 예를 들었다.
입력장치(1103)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 텍스트 핵심정보 추출방법 또는 정보추출 모델 훈련방법을 구현하기 위한 전자기기의 유저 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(1104)는 디스플레이 기기, 보조 조명 장치(예를 들면 LED) 및 촉각 피드백 장치(예를 들면 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 상기 기억 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 계산 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. "기계 판독 가능 신호"와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 상기 컴퓨터는 유저에게 정보를 레이블링하기 위한 디스플레이 장치(예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 상기 키보드 및 상기 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 (예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.
여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템(예를 들면 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템(예를 들면 응용 서버), 또는 프런트엔드 구성 요소를 포함하는 계산 시스템(예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 상기 그래픽 유저 인터페이스 또는 상기 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 수행한다. 대응되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.
본 출원의 실시예에 따른 기술적 해결수단에 의하면, 원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 원시 텍스트에 대응되는 유닛 시퀀스를 생성하고, 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하며, 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성한다. 종래기술의 글자 및 단어레벨의 복사 방안에 비해, 연속된 단어를 포함한 프래그먼트를 하나의 목표 프래그먼트로서 복사할 수 있어, 핵심정보 추출과정에서 필요한 복사 차수를 효과적으로 줄일 수 있고, 누적오류를 저하시키고, 핵심정보추출의 속도 및 정확도를 효과적으로 향상시킬 수 있다.
본 출원의 실시예에 따른 기술적 해결수단에 의하면, 복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집하는 것을 통해, 각 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 훈련 텍스트를 분할하며, 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하며, 이미 알려진 핵심정보에 포함된 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링하고, 각 훈련 텍스트의 훈련 유닛 시퀀스 및 복수개의 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 정보추출 모델을 훈련함으로써 훈련된 정보추출 모델이 하나의 단대단(End-to-end)의 예측 모델로 형성되도록 하여, 유닛 시퀀스 입력 시 핵심정보에 대응되는 복수개의 목표 프래그먼트를 직접 예측할 수 있어, 복수개의 목표 프래그먼트에 기초하여 핵심정보를 생성할 수 있으므로 사용하기 아주 편하다. 또한 본 출원 실시예의 훈련된 정보추출 모델은 프래그먼트를 기반하여 복사하기에 핵심정보 추출 속도 및 정확도가 아주 높다.
상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정열, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각 단계는 병렬로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 방안이 원하는 결과를 구현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 수행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (23)

  1. 텍스트 핵심정보 추출방법(text key information extracting method)으로서,
    원시 텍스트(raw text)를 사전 설정된 분할유닛에 따라 분할하여, 상기 원시 텍스트에 대응되는 유닛 시퀀스(unit sequence)를 생성하는 단계,
    상기 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 상기 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트(target fragment)의 식별정보를 추출하는 단계, 및
    상기 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는,
    텍스트 핵심정보 추출방법.
  2. 제1항에 있어서,
    상기 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 상기 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하는 단계는:
    상기 정보추출 모델을 사용하여 상기 유닛 시퀀스 중의 각 유닛을 기반으로, 상기 원시 텍스트의 특징표현 및 상기 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하는 단계,
    상기 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 상기 부호의 특징표현을 얻는 단계,
    상기 정보추출 모델을 사용하여 상기 원시 텍스트의 특징표현, 상기 원시 텍스트 중 각 프래그먼트의 특징표현 및 상기 부호의 특징표현에 기초하여 복호화를 수행하여, 상기 적어도 하나의 목표 프래그먼트의 식별정보를 획득하는 단계를 포함하며,
    상기 프래그먼트는 상기 원시 텍스트 중의 하나의 유닛 또는 2개 이상의 연속 유닛을 포함하고, 상기 부호는 독립적인 프래그먼트로서 사용되는 것을 특징으로 하는,
    텍스트 핵심정보 추출방법.
  3. 제2항에 있어서,
    상기 정보추출 모델을 사용하여 상기 유닛 시퀀스 중의 각 유닛을 기반으로, 상기 원시 텍스트의 특징표현 및 상기 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하는 단계는:
    상기 정보추출 모델의 인코더를 사용하여 상기 유닛 시퀀스 중의 각 유닛에 대해 부호화하여, 각 상기 유닛의 특징표현을 얻는 단계,
    각 상기 유닛의 특징표현에 기초하여, 상기 원시 텍스트의 특징표현을 생성하는 단계, 및
    상기 정보추출 모델의 프래그먼트 표현 생성기를 사용하여, 상기 원시 텍스트 중의 각 상기 유닛의 특징표현에 기초하여, 상기 원시 텍스트 중의 각 프래그먼트의 특징표현을 생성하는 단계를 포함하는 것을 특징으로 하는,
    텍스트 핵심정보 추출방법.
  4. 제2항 또는 제3항에 있어서,
    상기 정보추출 모델을 사용하여 상기 원시 텍스트의 특징표현, 상기 각 프래그먼트의 특징표현 및 상기 부호의 특징표현에 기초하여 복호화를 수행하여, 상기 적어도 하나의 목표 프래그먼트의 식별정보를 획득하는 단계는:
    상기 원시 텍스트의 특징표현을 초기 은신층 상태로 사용하며, 상기 정보추출 모델의 디코더를 사용하여 상기 은신층 상태, 각 상기 프래그먼트의 특징표현 및 각 상기 부호의 특징표현에 따라, 각 상기 프래그먼트에 대해 각각 스코어링하고, 스코어가 가장 높은 상기 프래그먼트의 정보를 획득하여 상기 목표 프래그먼트의 식별정보로 사용하는 단계,
    상기 디코더를 사용하여 앞 단계에서 복호화하여 얻은 상기 목표 프래그먼트의 특징표현에 기초하여, 상기 은신층 상태를 업데이트하며, 업데이트 후의 상기 은신층 상태, 각 상기 프래그먼트의 특징표현 및 각 상기 부호의 특징표현에 따라, 각 상기 프래그먼트 및 상기 부호에 대해 다시 각각 스코어링하여, 스코어가 가장 높은 다음의 목표 프래그먼트의 식별정보를 획득하며, 종료태그를 획득하거나 또는 획득된 모든 상기 목표 프래그먼트의 글자수 합이 사전 설정된 글자수 역치에 이르기까지, 상기와 같은 단계를 순차적으로 실행하여, 상기 적어도 하나의 목표 프래그먼트의 식별정보를 얻는 단계를 포함하는 것을 특징으로 하는,
    텍스트 핵심정보 추출방법.
  5. 제1항에 있어서,
    상기 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 상기 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하는 단계는:
    상기 정보추출 모델을 사용하여, 상기 유닛 시퀀스 중의 각 유닛을 기반으로, 상기 원시 텍스트의 특징표현 및 상기 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하는 단계,
    상기 정보추출 모델을 사용하여, 사전 설정된 부호 및 사전 설정된 단어표 중의 각 단어에 대해 특징매핑을 수행하여, 상기 부호의 특징표현 및 각 상기 단어의 특징표현을 얻는 단계, 및
    상기 정보추출 모델을 사용하여 상기 원시 텍스트의 특징표현, 각 상기 프래그먼트의 특징표현, 상기 부호의 특징표현 및 각 상기 단어의 특징표현에 기초하여 복호화를 수행하여, 상기 적어도 하나의 목표 프래그먼트의 식별정보를 획득하는 단계를 포함하며,
    상기 프래그먼트는 상기 원시 텍스트 중의 하나의 유닛 또는 2개 이상의 연속 유닛을 포함하고, 상기 부호 및 각 상기 단어는 각각 독립적인 프래그먼트로 사용되는 것을 특징으로 하는,
    텍스트 핵심정보 추출방법.
  6. 정보추출 모델 훈련방법(information extracting model training method)으로서,
    복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집하는 단계,
    각 상기 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 상기 훈련 텍스트를 분할하고, 상기 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하고, 상기 이미 알려진 핵심정보에 포함된 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링하는 단계,
    각 상기 훈련 텍스트의 상기 훈련 유닛 시퀀스 및 각 상기 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 상기 정보추출 모델을 훈련하는 단계를 포함하는 것을 특징으로 하는,
    정보추출 모델 훈련방법.
  7. 제6항에 있어서,
    각 상기 훈련 텍스트의 상기 훈련 유닛 시퀀스 및 각 상기 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 상기 정보추출 모델을 훈련하는 단계는:
    각 상기 훈련 텍스트에 대하여, 상기 훈련 유닛 시퀀스 및 상기 정보추출 모델에 기초하여, 예측 핵심정보 중 각 예측 목표 프래그먼트의 예측 확률분포를 생성하는 단계,
    상기 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포가 상기 이미 알려진 핵심정보 중의 대응위치의 상기 훈련 목표 프래그먼트의 이미 알려진 확률분포와 일치한지 여부를 검출하는 단계, 및
    일치하지 않을 경우, 각 상기 예측 목표 프래그먼트의 예측 확률분포가 상기 이미 알려진 확률분포에 근접하도록 상기 정보추출 모델의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는,
    정보추출 모델 훈련방법.
  8. 제7항에 있어서,
    각 상기 훈련 텍스트에 대하여, 상기 훈련 유닛 시퀀스 및 상기 정보추출 모델에 기초하여, 예측 핵심정보 중 각 예측 목표 프래그먼트의 예측 확률분포를 생성하는 단계는:
    각 상기 훈련 텍스트에 대하여, 상기 정보추출 모델을 사용하여 상기 훈련 유닛 시퀀스 중의 각 유닛에 기초하여, 상기 훈련 텍스트의 특징표현 및 상기 훈련 텍스트 중의 각 프래그먼트의 특징표현을 획득하는 단계,
    상기 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 상기 부호의 특징표현을 얻는 단계,
    상기 정보추출 모델을 사용하여, 상기 훈련 텍스트의 특징표현, 각 상기 프래그먼트의 특징표현 및 상기 부호의 특징표현에 기초하여 복호화를 수행하여, 상기 예측 핵심정보 중의 각 상기 예측 목표 프래그먼트의 예측 확률분포를 획득하는 단계를 포함하며,
    상기 프래그먼트는 상기 훈련 텍스트 중의 하나의 유닛 또는 2개 이상의 연속된 유닛을 포함하고, 상기 부호는 독립적인 프래그먼트로 사용되는 것을 특징으로 하는,
    정보추출 모델 훈련방법.
  9. 제8항에 있어서,
    상기 정보추출 모델을 사용하여, 상기 훈련 텍스트의 특징표현, 각 상기 프래그먼트의 특징표현 및 상기 부호의 특징표현에 기초하여 복호화를 수행하여, 상기 예측 핵심정보 중의 각 상기 예측 목표 프래그먼트의 예측 확률분포를 획득하는 단계는:
    상기 예측 핵심정보 중의 첫 번째 상기 예측 목표 프래그먼트에 대해 복호화할 시, 상기 디코더를 사용하여 상기 훈련 텍스트의 특징표현을 초기 은신층 상태로서 복호화를 수행하여, 각 상기 프래그먼트가 상기 예측 목표 프래그먼트로 되는 확률을 획득하며, 각 상기 프래그먼트의 확률에 기초하여, 상기 예측 핵심정보 중의 첫 번째 상기 예측 목표 프래그먼트의 예측 확률분포를 생성하는 단계, 및
    상기 예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트 외의 기타 예측 목표 프래그먼트에 대해 복호화할 시, 인코더를 사용하여 상기 복호화하여 얻은 하나 전의 예측 목표 프래그먼트에 대해 특징매핑을 수행하여, 대응하는 특징표현을 얻으며, 상기 디코더를 사용하여 상기 하나 전의 예측 목표 프래그먼트의 특징표현에 기초하여, 은신층 상태를 업데이트하며, 업데이트 후의 상기 은신층 상태에 기초하여 계속하여 복호화하여, 상기 예측 핵심정보 중의 상기 기타 예측 목표 프래그먼트의 예측 확률분포를 획득하는 단계를 포함하는 것을 특징으로 하는,
    정보추출 모델 훈련방법.
  10. 제7항에 있어서,
    각 상기 훈련 텍스트에 대하여, 상기 훈련 유닛 시퀀스 및 상기 정보추출 모델에 기초하여, 예측 핵심정보 중 각 예측 목표 프래그먼트의 예측 확률분포를 생성하는 단계는:
    각 상기 훈련 텍스트에 대하여, 상기 정보추출 모델을 사용하여 상기 훈련 유닛 시퀀스 중의 각 유닛에 기초하여, 상기 훈련 텍스트의 특징표현 및 상기 훈련 텍스트 중의 각 프래그먼트의 특징표현을 획득하는 단계,
    상기 정보추출 모델을 사용하여, 사전 설정된 부호 및 사전 설정된 단어표 중의 각 단어에 대해 특징매핑을 수행하여, 상기 부호의 특징표현 및 각 상기 단어의 특징표현을 얻는 단계,
    상기 정보추출 모델을 사용하여, 상기 훈련 텍스트의 특징표현, 각 상기 프래그먼트의 특징표현, 상기 부호의 특징표현 및 각 상기 단어의 특징표현을 기반하여, 복호화를 수행하여, 상기 예측 핵심정보 중의 각 상기 예측 목표 프래그먼트의 예측 확률분포를 획득하는 단계를 포함하며,
    상기 프래그먼트는 상기 훈련 텍스트 중의 하나의 유닛 또는 2개 이상의 연속된 유닛을 포함하고, 상기 부호 및 각 상기 단어는 각각 독립적인 프래그먼트로 사용되는 것을 특징으로 하는,
    정보추출 모델 훈련방법.
  11. 텍스트 핵심정보 추출장치(text key information extracting apparatus)로서,
    원시 텍스트를 사전 설정된 분할유닛에 따라 분할하여, 상기 원시 텍스트에 대응되는 유닛 시퀀스를 생성하기 위한 분할처리모듈,
    상기 유닛 시퀀스 및 사전 훈련된 정보추출 모델을 이용하여, 프래그먼트 복사원리에 의거하여, 상기 원시 텍스트를 기반으로 적어도 하나의 목표 프래그먼트의 식별정보를 추출하기 위한 추출처리모듈, 및
    상기 적어도 하나의 목표 프래그먼트의 식별정보에 기초하여, 핵심정보를 생성하기 위한 생성모듈
    을 포함하는 것을 특징으로 하는,
    텍스트 핵심정보 추출장치.
  12. 제11항에 있어서,
    상기 추출처리모듈은 특징획득유닛 및 복호화 처리유닛을 더 포함하며,
    상기 특징획득유닛은 상기 정보추출 모델을 사용하여 상기 유닛 시퀀스 중의 각 유닛을 기반으로, 상기 원시 텍스트의 특징표현 및 상기 원시 텍스트 중의 각 프래그먼트의 특징표현을 획득하며,
    상기 특징획득유닛은 또한 상기 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 상기 부호의 특징표현을 얻으며,
    상기 복호화 처리유닛은 상기 정보추출 모델을 사용하여 상기 원시 텍스트의 특징표현, 상기 원시 텍스트 중 각 프래그먼트의 특징표현 및 상기 부호의 특징표현에 기초하여 복호화를 수행하여, 상기 적어도 하나의 목표 프래그먼트의 식별정보를 획득하며,
    상기 프래그먼트는 상기 원시 텍스트 중의 하나의 유닛 또는 2개 이상의 연속 유닛을 포함하고, 상기 부호는 독립적인 프래그먼트로서 사용되는 것을 특징으로 하는,
    텍스트 핵심정보 추출장치.
  13. 제12항에 있어서,
    상기 특징획득유닛은
    상기 정보추출 모델의 인코더를 사용하여 상기 유닛 시퀀스 중의 각 유닛에 대해 부호화하여, 각 상기 유닛의 특징표현을 얻고,
    각 상기 유닛의 특징표현에 기초하여, 상기 원시 텍스트의 특징표현을 생성하며,
    상기 정보추출 모델의 프래그먼트 표현 생성기를 사용하여, 상기 원시 텍스트 중의 각 상기 유닛의 특징표현에 기초하여, 상기 원시 텍스트 중의 각 프래그먼트의 특징표현을 생성하는 것을 특징으로 하는,
    텍스트 핵심정보 추출장치.
  14. 제12항 또는 제13항에 있어서,
    상기 복호화 처리유닛은
    상기 원시 텍스트의 특징표현을 초기 은신층 상태로 사용하며, 상기 정보추출 모델의 디코더를 사용하여 상기 은신층 상태, 각 상기 프래그먼트의 특징표현 및 각 상기 부호의 특징표현에 따라, 각 상기 프래그먼트에 대해 각각 스코어링하고, 스코어가 가장 높은 상기 프래그먼트의 정보를 획득하여 상기 목표 프래그먼트의 식별정보로 사용하며,
    상기 디코더를 사용하여 앞 단계에서 복호화하여 얻은 상기 목표 프래그먼트의 특징표현에 기초하여, 상기 은신층 상태를 업데이트하며, 업데이트 후의 상기 은신층 상태, 각 상기 프래그먼트의 특징표현 및 각 상기 부호의 특징표현에 따라, 각 상기 프래그먼트 및 상기 부호에 대해 다시 각각 스코어링하여, 스코어가 가장 높은 다음의 목표 프래그먼트의 식별정보를 획득하며, 상기 단계를 순차적으로 실행하여, 종료태그를 획득하거나 또는 획득된 모든 상기 목표 프래그먼트의 글자수 합이 사전 설정된 글자수 역치에 이르기까지, 상기 적어도 하나의 목표 프래그먼트의 식별정보를 얻는 것을 특징으로 하는,
    텍스트 핵심정보 추출장치.
  15. 제12항에 있어서,
    상기 특징획득유닛은 상기 정보추출 모델을 사용하여, 사전 설정된 부호 및 사전 설정된 단어표 중의 각 단어에 대해 특징매핑을 수행하여, 상기 부호의 특징표현 및 각 상기 단어의 특징표현을 얻으며,
    상기 복호화 처리유닛은 상기 정보추출 모델을 사용하여 상기 원시 텍스트의 특징표현, 각 상기 프래그먼트의 특징표현, 상기 부호의 특징표현 및 각 상기 단어의 특징표현에 기초하여 복호화를 수행하여, 상기 적어도 하나의 목표 프래그먼트의 식별정보를 획득하며,
    상기 부호 및 각 상기 단어는 각각 독립적인 프래그먼트로 사용되는 것을 특징으로 하는,
    텍스트 핵심정보 추출장치.
  16. 정보추출 모델 훈련장치(information extracting model training apparatus)로서,
    복수개의 훈련 텍스트 및 훈련 텍스트를 기반하여 추출된 이미 알려진 핵심정보를 수집하기 위한 수집모듈,
    각 상기 훈련 텍스트에 대하여 사전 설정된 분할유닛에 따라 상기 훈련 텍스트를 분할하고, 상기 훈련 텍스트에 대응되는 훈련 유닛 시퀀스를 생성하고, 상기 이미 알려진 핵심정보에 포함된 각 훈련 목표 프래그먼트의 이미 알려진 확률분포를 레이블링하기 위한 생성모듈, 및
    각 상기 훈련 텍스트의 상기 훈련 유닛 시퀀스 및 각 상기 훈련 목표 프래그먼트의 이미 알려진 확률분포를 사용하여, 상기 정보추출 모델을 훈련하기 위한 훈련 모듈
    을 포함하는 것을 특징으로 하는,
    정보추출 모델 훈련장치.
  17. 제16항에 있어서,
    상기 훈련 모듈은:
    각 상기 훈련 텍스트에 대하여, 상기 훈련 유닛 시퀀스 및 상기 정보추출 모델에 기초하여, 예측 핵심정보 중 각 예측 목표 프래그먼트의 예측 확률분포를 생성하기 위한 확률분포생성유닛,
    상기 예측 핵심정보 중의 각 예측 목표 프래그먼트의 예측 확률분포가 상기 이미 알려진 핵심정보 중의 대응위치의 상기 훈련 목표 프래그먼트의 이미 알려진 확률분포와 일치한지 여부를 검출하기 위한 검출유닛, 및
    일치하지 않을 경우, 각 상기 예측 목표 프래그먼트의 예측 확률분포가 상기 이미 알려진 확률분포에 근접하도록 상기 정보추출 모델의 파라미터를 조정하기 위한 조정유닛을 포함하는 것을 특징으로 하는,
    정보추출 모델 훈련장치.
  18. 제17항에 있어서,
    상기 확률분포생성유닛은
    각 상기 훈련 텍스트에 대하여, 상기 정보추출 모델을 사용하여 상기 훈련 유닛 시퀀스 중의 각 유닛에 기초하여, 상기 훈련 텍스트의 특징표현 및 상기 훈련 텍스트 중의 각 프래그먼트의 특징표현을 획득하고,
    상기 정보추출 모델을 사용하여 사전 설정된 부호표 중의 부호에 대해 특징매핑을 수행하여, 상기 부호의 특징표현을 얻으며,
    상기 정보추출 모델을 사용하여, 상기 훈련 텍스트의 특징표현, 각 상기 프래그먼트의 특징표현 및 상기 부호의 특징표현에 기초하여 복호화를 수행하여, 상기 예측 핵심정보 중의 각 상기 예측 목표 프래그먼트의 예측 확률분포를 획득하는 것을 특징으로 하는,
    정보추출 모델 훈련장치.
  19. 제18항에 있어서,
    상기 확률분포생성유닛은
    상기 예측 핵심정보 중의 첫 번째 상기 예측 목표 프래그먼트에 대해 복호화할 시, 디코더를 사용하여 상기 훈련 텍스트의 특징표현을 초기 은신층 상태로서 복호화를 수행하여, 각 상기 프래그먼트가 상기 예측 목표 프래그먼트로 되는 확률을 획득하며, 각 상기 프래그먼트의 확률에 기초하여, 상기 예측 핵심정보 중의 첫 번째 상기 예측 목표 프래그먼트의 예측 확률분포를 생성하고,
    상기 예측 핵심정보 중의 첫 번째 예측 목표 프래그먼트 외의 기타 예측 목표 프래그먼트에 대해 복호화할 시, 인코더를 사용하여 상기 복호화하여 얻은 하나 전의 예측 목표 프래그먼트에 대해 특징매핑을 수행하여, 대응하는 특징표현을 얻으며, 상기 디코더를 사용하여 상기 하나 전의 예측 목표 프래그먼트의 특징표현에 기초하여, 은신층 상태를 업데이트하며, 업데이트 후의 상기 은신층 상태에 기초하여 계속하여 복호화하여, 상기 예측 핵심정보 중의 상기 기타 예측 목표 프래그먼트의 예측 확률분포를 획득하는 것을 특징으로 하는,
    정보추출 모델 훈련장치.
  20. 제17항에 있어서,
    상기 확률분포생성유닛은:
    각 상기 훈련 텍스트에 대하여, 상기 정보추출 모델을 사용하여 상기 훈련 유닛 시퀀스 중의 각 유닛에 기초하여, 상기 훈련 텍스트의 특징표현 및 상기 훈련 텍스트 중의 각 프래그먼트의 특징표현을 획득하고,
    상기 정보추출 모델을 사용하여, 사전 설정된 부호 및 사전 설정된 단어표 중의 각 단어에 대해 특징매핑을 수행하여, 상기 부호의 특징표현 및 각 상기 단어의 특징표현을 얻으며,
    상기 정보추출 모델을 사용하여, 상기 훈련 텍스트의 특징표현, 각 상기 프래그먼트의 특징표현, 상기 부호의 특징표현 및 각 상기 단어의 특징표현을 기반하여, 복호화를 수행하여, 상기 예측 핵심정보 중의 각 상기 예측 목표 프래그먼트의 예측 확률분포를 획득하며,
    상기 프래그먼트는 상기 훈련 텍스트 중의 하나의 유닛 또는 2개 이상의 연속된 유닛을 포함하고, 상기 부호 및 각 상기 단어는 각각 독립적인 프래그먼트로 사용되는 것을 특징으로 하는,
    정보추출 모델 훈련장치.
  21. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제5항 및 제6항 내지 제10항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
    전자기기.
  22. 컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제5항 및 제6항 내지 제10항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
    기록 매체.
  23. 비 일시적 컴퓨터 판독 가능 기록 매체에 기억되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제5항 및 제6항 내지 제10항 중 어느 한 항에 기재된 방법을 수행하도록 하는
    것을 특징으로 하는,
    컴퓨터 프로그램.
KR1020210050120A 2020-04-17 2021-04-16 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체 KR102521586B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010305486.5 2020-04-17
CN202010305486.5A CN111666759B (zh) 2020-04-17 2020-04-17 文本的关键信息的抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20210129605A true KR20210129605A (ko) 2021-10-28
KR102521586B1 KR102521586B1 (ko) 2023-04-12

Family

ID=72382857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210050120A KR102521586B1 (ko) 2020-04-17 2021-04-16 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체

Country Status (4)

Country Link
EP (1) EP3896595A1 (ko)
JP (1) JP7344926B2 (ko)
KR (1) KR102521586B1 (ko)
CN (1) CN111666759B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507702B (zh) * 2020-12-03 2023-08-22 北京百度网讯科技有限公司 文本信息的抽取方法、装置、电子设备及存储介质
CN112818077B (zh) * 2020-12-31 2023-05-30 科大讯飞股份有限公司 文本处理方法、装置、设备及存储介质
CN114218940B (zh) * 2021-12-23 2023-08-04 北京百度网讯科技有限公司 文本信息处理、模型训练方法、装置、设备及存储介质
CN115982343B (zh) * 2023-03-13 2023-08-22 阿里巴巴达摩院(杭州)科技有限公司 摘要生成方法、训练摘要生成模型的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
WO2019169719A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 文摘自动提取方法、装置、计算机设备及存储介质
WO2020012483A1 (en) * 2018-07-11 2020-01-16 Ofek - Eshkolot Research And Development Ltd. Method for defining meaning and extracting novelty from text

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229162A (ja) * 2000-02-15 2001-08-24 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及び装置
US10373067B1 (en) * 2014-08-13 2019-08-06 Intuit, Inc. Domain-specific sentiment keyword extraction with weighted labels
CN107193973B (zh) * 2017-05-25 2021-07-20 百度在线网络技术(北京)有限公司 语义解析信息的领域识别方法及装置、设备及可读介质
CN107291836B (zh) * 2017-05-31 2020-06-02 北京大学 一种基于语义相关度模型的中文文本摘要获取方法
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN110472198B (zh) * 2018-05-10 2023-01-24 腾讯科技(深圳)有限公司 一种关键词的确定方法、文本处理的方法及服务器
US20200057807A1 (en) * 2018-08-20 2020-02-20 Nirveda Cognition, Inc. Systems and methods providing a cognitive augmented memory network
CN109635288B (zh) * 2018-11-29 2023-05-23 东莞理工学院 一种基于深度神经网络的简历抽取方法
CN110008472B (zh) * 2019-03-29 2022-11-11 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN110209801B (zh) * 2019-05-15 2021-05-14 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110321426B (zh) * 2019-07-02 2023-10-27 腾讯科技(深圳)有限公司 摘要抽取方法、装置及计算机设备
CN110532554B (zh) * 2019-08-26 2023-05-05 南京信息职业技术学院 一种中文摘要生成方法、系统及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019169719A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 文摘自动提取方法、装置、计算机设备及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
WO2019214149A1 (zh) * 2018-05-11 2019-11-14 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
WO2020012483A1 (en) * 2018-07-11 2020-01-16 Ofek - Eshkolot Research And Development Ltd. Method for defining meaning and extracting novelty from text

Also Published As

Publication number Publication date
KR102521586B1 (ko) 2023-04-12
CN111666759B (zh) 2024-03-26
EP3896595A1 (en) 2021-10-20
CN111666759A (zh) 2020-09-15
JP2021174540A (ja) 2021-11-01
JP7344926B2 (ja) 2023-09-14

Similar Documents

Publication Publication Date Title
CN111709248B (zh) 文本生成模型的训练方法、装置及电子设备
KR20210129605A (ko) 텍스트 핵심정보 추출방법, 장치, 전자기기 및 기록매체
CN111078865B (zh) 文本标题生成方法和装置
CN112597753A (zh) 文本纠错处理方法、装置、电子设备和存储介质
KR102554758B1 (ko) 기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체
JP2021111416A (ja) コアエンティティのタグ付け方法、コアエンティティのタグ付け装置、電子機器、記憶媒体及びコンピュータプログラム
CN111709234B (zh) 文本处理模型的训练方法、装置及电子设备
JP7079311B2 (ja) 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体
CN110797005B (zh) 韵律预测方法、装置、设备和介质
JP2021152963A (ja) 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム
CN112001169B (zh) 文本纠错的方法、装置、电子设备和可读存储介质
KR20220011082A (ko) 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체
CN111079945B (zh) 端到端模型的训练方法及装置
CN111950291A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
JP7133002B2 (ja) 句読点予測方法および装置
CN114022882B (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
US10872203B2 (en) Data input system using trained keypress encoder
CN113743101B (zh) 文本纠错方法、装置、电子设备和计算机存储介质
JP2023012522A (ja) クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
CN112148856B (zh) 建立标点预测模型的方法、装置
CN111858883A (zh) 三元组样本的生成方法、装置、电子设备及存储介质
CN111950293A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
CN112560499A (zh) 语义表示模型的预训练方法、装置、电子设备及存储介质
CN113160822B (zh) 语音识别处理方法、装置、电子设备以及存储介质
CN111667828B (zh) 语音识别方法和装置、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant