KR102451496B1 - 텍스트 주제 생성 방법, 장치 및 전자기기 - Google Patents

텍스트 주제 생성 방법, 장치 및 전자기기 Download PDF

Info

Publication number
KR102451496B1
KR102451496B1 KR1020210003937A KR20210003937A KR102451496B1 KR 102451496 B1 KR102451496 B1 KR 102451496B1 KR 1020210003937 A KR1020210003937 A KR 1020210003937A KR 20210003937 A KR20210003937 A KR 20210003937A KR 102451496 B1 KR102451496 B1 KR 102451496B1
Authority
KR
South Korea
Prior art keywords
text
entity
core
candidate
processed
Prior art date
Application number
KR1020210003937A
Other languages
English (en)
Other versions
KR20210092142A (ko
Inventor
즈제 리우
치 왕
즈판 펑
양 쟝
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210092142A publication Critical patent/KR20210092142A/ko
Application granted granted Critical
Publication of KR102451496B1 publication Critical patent/KR102451496B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

본 출원은 스마트 검색 기술 분야에 관한 것으로, 텍스트 주제 생성 방법, 장치 및 전자기기를 제공한다. 당해 방법은, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여 처리 대상 텍스트에 포함된 각 엔티티를 획득하는 단계; 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하고, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 단계; 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하는 단계; 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득하는 단계; 를 포함한다. 따라서, 당해 텍스트 주제 생성 방법을 통해, 더욱 많은 암시적인 주제 정보를 마이닝하여 텍스트 주제를 생성하는 정확도를 향상시킨다.

Description

텍스트 주제 생성 방법, 장치 및 전자기기{METHOD AND APPARATUS FOR GENERATING TEXT TOPICS, AND ELECTRONIC DEVICE}
본 출원은 컴퓨터 기술 분야에 관한 것이고, 특히 스마트 검색 기술 분야에 관한 것이며, 텍스트 주제 생성 방법, 장치 및 전자기기를 제공한다.
관련 기술에서, 일반적으로 잠재 디리클레 할당(Latent Dirichlet Allocation,LDA)모델을 사용하여 텍스트를 분석하여 텍스트의 주제를 결정한다. LDA 주제 생성 모델은3 계층 베이지안 확률 모델이라고도 하며, 단어, 주제와 문서의 3 계층 구조를 포함하고, 대규모 문서 세트 또는 말뭉치에 숨겨진 주제 정보를 식별하는데 사용된다. LDA는 단어 가방(bag-of-words) 모델을 기반으로, 텍스트 내의 단어의 분포 정황 및 단어 주제의 분포 정황을 분석하여 텍스트 주제를 결정한다.
그러나, 이런 텍스트 주제를 결정하는 방법은 긴 텍스트 데이터에 더 적합하며, 짧은 텍스트의 경우, 정확도가 낮다.
본 출원은 텍스트 주제 생성 방법, 장치 및 전자기기를 제공하며, 관련 기술에서 LDA 모델을 사용하여 텍스트 주제를 결정하는 방법이 긴 텍스트 데이터에 더 적합하고, 짧은 텍스트의 경우 정확도가 낮은 문제를 해결한다.
본 출원의 일 실시예에서 제공하는 텍스트 주제 생성 방법은, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득하는 단계; 엔티티 링크를 통해, 지식 그래프에서 상기 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하는 단계; 상기 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여, 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 단계; 상기 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 상기 처리 대상 텍스트에 포함된 각 후보 주제를 결정하는 단계; 및 상기 핵심 엔티티 세트 내의 각 핵심 엔티티와 상기 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 상기 처리 대상 텍스트 간의 관련성에 따라, 상기 핵심 엔티티 세트 및 상기 각 후보 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 단계; 를 포함한다.
본 출원의 다른 실시예에서 제공하는 텍스트 주제 생성 장치는, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득하는 제 1 획득 모듈; 엔티티 링크를 통해, 지식 그래프에서 상기 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하는 제 1 결정 모듈; 상기 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여, 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 제 2 결정 모듈; 상기 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 상기 처리 대상 텍스트에 포함된 각 후보 주제를 결정하는 제 3 결정 모듈; 상기 핵심 엔티티 세트 내의 각 핵심 엔티티와 상기 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 상기 처리 대상 텍스트 간의 관련성에 따라, 상기 핵심 엔티티 세트 및 상기 각 후보 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 제 2 획득 모듈; 을 포함한다.
본 출원의 또 다른 실시예에서 제공하는 전자기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 전술한 텍스트 주제 생성 방법을 수행하도록 한다.
본 출원의 또 다른 실시예에서 제공하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 컴퓨터 명령은 상기 컴퓨터가 전술한 텍스트 주제 생성 방법을 수행하도록 한다.
본 출원의 또 다른 실시예에서 제공하는 비일시적 컴퓨터 판독가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램은 상기 컴퓨터가 전술한 텍스트 주제 생성 방법을 수행하도록 한다.
상술한 출원의 실시예 중 임의의 하나는 다음과 같은 장점 또는 유익한 효과를 갖는다. 지식 그래프와 주제 그래프 정보를 융합하여 짧은 텍스트 정보와 후보 주제를 확장하여 더욱 많은 암시적인 주제 정보를 마이닝하고 텍스트 주제를 생성하는 정확도를 향상시킨다. 엔티티 링크를 통해, 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하며, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라 각 후보 엔티티를 클러스터링하여, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 핵심 엔티티 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성, 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트와 각 후보 주제에서 처리 대상 텍스트의 주제를 획득하는 기술 수단을 사용하였기 때문에, LDA 모델을 적용하여 텍스트 주제를 결정하는 방법이 짧은 텍스트의 경우 정확도가 낮은 문제를 해결할 수 있으며, 짧은 텍스트 정보 및 후보 주제를 확장하여 더욱 많은 암시적인 주제 정보를 마이닝하고 텍스트 주제를 생성하는 정확도를 향상시키는 기술효과가 있다.
전술한 선택적 형태의 기타 효과는 구체적인 실시예와 관련하여 후술 될 것이다.
도면은 본 기술 수단을 더 잘 이해하기 위한 것으로 본 출원을 한정하지 않는다.
도 1은 본 출원의 실시예에 의해 제공되는 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 2는 본 출원의 실시예에 의해 제공되는 각 후보 엔티티를 포함하는 관련성 네트워크의 개략도이다.
도 3은 본 출원의 실시예에 의해 제공되는 이진 분류 네트워크 모델의 네트워크 구조의 개략도이다.
도 4는 본 출원의 실시예에 의해 제공되는 다른 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 5는 본 출원의 실시예에 의해 제공되는 또 다른 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 6은 본 출원의 실시예에 의해 제공되는 또 다른 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 7은 본 출원의 실시예에 의해 제공되는 텍스트 주제 생성 장치의 개략적인 구조도이다.
도 8은 본 출원의 실시예에 의해 제공되는 전자기기의 개략적인 구조도이다.
이하 첨부된 도면을 참조하여 본 출원의 예시적인 실시예를 설명하며, 이해를 용이하게 하기 위해 본 출원의 실시예들의 다양한 세부 사항을 포함하며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 당업자들은 본 출원의 범위 및 사상을 벗어나지 않는 전제하에 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있음을 인식해야 한다. 마찬가지로, 이하의 설명에서는 명확성과 간결성을 위해 공지된 기능 및 구조에 대한 설명은 생략한다.
본 출원의 실시예에서는, LDA 모델을 사용하여 텍스트 주제를 결정하는 방법이 긴 텍스트 데이터에 더 적합하고 짧은 텍스트의 경우 정확도가 낮은 문제에 대하여, 텍스트 주제 생성 방법을 제공한다.
이하, 첨부된 도면을 참조하여 본 출원에서 제공하는 텍스트 주제 생성 방법, 장치, 전자기기 및 저장 매체에 대해 상세히 설명한다.
도 1은 본 출원의 실시예에 의해 제공되는 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 1을 참조하면, 당해 텍스트 주제 생성 방법은 다음과 같은 단계를 포함한다.
단계 (101)에서, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득한다.
여기서, 처리 대상 텍스트는 현재 처리가 필요한 텍스트 데이터를 의미하며, 짧은 문장, 제목 등 짧은 텍스트이거나, 문장 등 긴 텍스트일 수 있으며, 본 출원의 실시예에서는 이에 대해 한정하지 않는다.
유의해야 할 점은, 처리 대상 텍스트는 임의의 텍스트 데이터일 수 있다. 실제 사용시, 본 출원 실시예의 텍스트 주제 생성 방법의 적용 시나리오는 상이하며, 처리대상 텍스트를 획득하는 방법 및 유형도 상이할 수 있다. 예를 들어, 본 출원 실시예의 텍스트 주제 생성 방법이 검색 시스템에 적용되는 경우, 처리 대상 텍스트는 사용자가 입력한 검색어, 시스템에서 분류가 필요하거나 주제를 결정해야 되는 네트워크 자원 등이 될 수 있다.
본 출원 실시예에서, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하는 단게는, 먼저, 처리 대상 텍스트에 대해 단어 분할을 수행하여 처리 대상 텍스트에 포함된 단어 세그먼트를 결정하며, 처리 대상 텍스트에 포함된 각 단어 세그먼트를 하나씩 인식 처리하여 처리 대상 텍스트에 포함된 각 단어 세그먼트가 지식 그래프에 포함된 엔티티인지 여부를 판단하며, 그러한 경우, 당해 단어 세그먼트를 처리 대상 텍스트에 포함된 엔티티로 결정하고, 그러하지 않은 경우, 당해 단어 세그먼트를 폐기한다.
선택적으로, 처리 대상 텍스트에 포함된 단어 세그먼트를 인식 처리하는 것은, 처리 대상 텍스트 내의 각 단어 세그먼트의 품사를 인식하고, 각 단어 세그먼트의 품사에 따라 각 단어 세그먼트가 엔티티인지 여부를 결정한다. 구체적으로, 품사가 명사인 단어 세그먼트를 처리 대상 텍스트에 포함된 엔티티로 결정한다. 예를 들어, 인물, 시간, 장소, 물품 이름, 작품 이름, 동식물 이름 등은 모두 처리 대상 텍스트에 포함된 엔티티로 결정될 수 있다.
예를 들어, 처리 대상 텍스트가 "드라마 <초교전>의 피날레 완결, 조려영과 임경신이 주연 담당한 스파이 전쟁, 비주얼과 연기력으로 팬덤 형성"인 경우, 처리 대상 텍스트에 대해 단어 분할을 수행하여 처리 대상 텍스트에 포함된 각 단어 세그먼트가 "드라마, 초교전, 피날레, 완결, 조려영, 임경신, 주연 담당, 스파이 전쟁, 비주얼, 연기력, 팬덤 형성"이라고 결정할 수 있으며, 각 단어 세그먼트의 품사에 따라 처리 대상 텍스트에 포함된 엔티티가 "드라마, 초교전, 피날레, 조려영, 임경신, 비주얼, 연기력"이라고 결정할 수 있다.
또한, 전술한 예는 단지 예시적인 것으로, 본 출원에 대한 제한으로 간주될 수 없다는 점에 유의해야 한다. 실제 적용시, 실제 수요 및 구체적인 시나리오에 따라, 처리 대상 텍스트에 포함된 엔티티를 결정하는 방법을 선택하고, 본 출원 실시예에서는 제한하지 않는다.
단계 (102)에서, 엔티티 링크를 통해, 지식 그래프 중 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정한다.
지식 그래프는 인공 지능 기술의 중요한 부분으로, 객관적인 세계 중의개념, 엔티티 및 이들 간의 관계를 구조화된 방식으로 설명한다. 지식 그래프 기술은 인터넷의 방대한 정보를 더욱 잘 구성하고, 관리 및 이해하여, 인터넷의 정보를 인간의 인지 세계에 더 가까운 형태로 표현한다. 따라서, 시맨틱 처리 기능과 개방형 상호 연결 기능을 갖춘 지식 베이스를 구축하면, 지능형 검색, 지능형 질의 응답, 개인화 추천 등 지능형 정보 서비스에서 응용 가치를 구현할 수 있다. 본 출원 실시예의 지식 그래프는 일반적인 지식 그래프이거나, 특정된 요구사항에 따라 미리 구축된 것일 수 있다. 본 출원 실시예의 지식 그래프 내의 각 엔티티는 고유한 엔티티 식별 번호(Identity, ID로 약칭함)를 가지며, 엔티티 ID를 기반으로 지식 그래프 내의 엔티티를 식별할 수 있다.
엔티티 링크는 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티가 대응하는 엔티티 ID를 결정하는 과정을 의미한다.
후보 엔티티는 처리 대상 텍스트에 포함되어 있고, 지식 그래프에 대응하는 엔티티 ID가 존재하는 엔티티를 의미한다.
본 출원의 실시예에서, 처리 대상 텍스트에 포함된 각 엔티티를 결정한 후, 풍부한 지식 그래프 데이터를 충분히 사용하여, 지식 강화 기술을 이용하여 인식 모델을 훈련시키고, 처리 대상 텍스트에 포함된 각 엔티티를 인식 처리하여, 처리 대상 텍스트에 포함된 각 엔티티가 지식 그래프에 포함되어 있는지 여부를 판단하며, 지식 그래프에 어느 한 엔티티가 포함된 경우, 처리 대상 텍스트의 문맥에 따라 당해 엔티티의 엔티티 ID를 획득한다. 즉, 당해 엔티티를 지식 그래프 내의 고유한 엔티티 ID에 링크시켜, 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정한다.
예를 들면, 처리 대상 텍스트가 "애플 폰"인 경우, 처리 대상 텍스트에 포함된 엔티티 "애플"에 대하여, 엔티티 링크를 통해 당해 엔티티에 대응하는 엔티티 ID가 휴대폰 브랜드 "애플"에 대응하는 엔티티ID이며, 과일 "애플"에 대응하는 엔티티 ID가 아님을 확인할 수 있다.
또 다른 예로, 처리 대상 텍스트가 "드라마 <초교전>의 피날레 완결, 조려영과 임경신이 주연 담당한 스파이 전쟁, 비주얼과 연기력으로 팬덤 형성"인 경우, 처리 대상 텍스트에 포함된 각 엔티티는 "드라마, 초교전, 피날레, 조려영, 임경신, 비주얼, 연기력"일 수 있으며, 엔티티 링크를 통해 지식 그래프에 포함되지 않은 일부 엔티티를 제거할 수 있으며, 지식 그래프에 포함된 각 엔티티에 대응하는 엔티티 ID를 결정하고, 최종 결정된 각 후보 엔티티는 "초교전, 조려영, 임경신"이다.
단계 (103)에서, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티간의 관련성에 따라, 각 후보 엔티티를 클러스터링하고, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정한다.
핵심 엔티티 세트는 처리 대상 텍스트에 대응하는 각 후보 엔티티에서 선택되고, 처리 대상 텍스트의 주요 정보를 어느 정도 요약할 수 있는 엔티티 세트를 의미한다.
지식 그래프 내의 각 엔티티는 독립적으로 존재하는 것이 아니라, 지식 그래프 내의 각 엔티티에는 모두 하나 또는 복수의 관련된 엔티티가 존재하며, 지식 그래프는 대량의 "엔티티-관계-엔티티" 트리플을 포함하는 지식 베이스로 간주 될 수 있다.
본 출원의 실시예에서,처리 대상 텍스트에 대응하는 후보 엔티티는 복수개 일 수 있으며, 후보 엔티티가 많을 경우, 모든 엔티티가 처리 대상 텍스트의 주요 정보를 표현할 수 있는 것은 아니므로, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티간의 관련성에 따라, 불필요한 후보 엔티티를 제거하고, 처리 대상 텍스트의 주요 정보를 요약 할 수 있는 엔티티를 이용하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 구성한다.
구체적으로, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티 간의 관련성에 따라, 각 후보 엔티티를 포함하는 관련성 네트워크를 구축하여, 구축된 관련성 네트워크에 따라 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정한다. 즉, 본 출원의 실시예의 가능한 구현 형태에서, 전술한 단계 (103)는 이하 내용을 포함한다. 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티 간의 관련성에 따라, 각 후보 엔티티를 포함하는 관련성 네트워크를 구축하며, 관련성 네트워크 내의 각 노드는 하나의 후보 엔티티에 대응하고, 두 개의 노드 간의 에지의 방향은 두 개의 노드 간의 계층적 관계를 나타내며; 각 후보 엔티티 간의 에지의 방향에 따라 각 후보 엔티티를 클러스터링하여, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정한다.
본 출원의 실시예에서, 각 후보 엔티티를 포함하는 관련성 네트워크를 구축할 때, 관련성 네트워크 내의 하나의 노드를 이용하여 하나의 후보 엔티티를 나타낼 수 있고, 관련성 네트워크 내의 두 개의 노드 간의 에지를 이용하여 두 개의 노드 간에 관련성이 있음을 나타낼 수 있으며, 두 개의 노드 간의 에지의 방향을 이용하여 두 개의 노드 간의 계층적 관계를 나타낼 수 있다. 선택적으로, 관련성을 구비한 두 개의 노드에 대하여, 두 개의 노드 간의 에지의 방향이 가리키는 노드를 상위 노드로 할 수 있고, 즉, 에지의 방향이 가리키는 노드의 계층이 다른 하나의 노드의 계층보다 높다.
예를 들어, 지식 그래프에서 각 엔티티 간의 관련성에 따라, 엔티티 "야오밍"과 엔티티 "로켓츠"간에 관련성이 있으며, 구축된 관련성 네트워크에서,엔티티 "야오밍"에 대응하는 노드와 엔티티 "로켓츠"에 대응하는 노드 간의 에지의 방향이 엔티티 "로켓츠"에 대응하는 노드를 가리키면, 엔티티 "로켓츠"의 계층이 "야오밍"의 계층보다 높다고 결정할 수 있다.
가능한 구현 형태로서, 각 후보 엔티티를 포함하는 관련성 네트워크에 따라 각 후보 엔티티를 클러스터링 하는 경우, 관련성 네트워크에서 계층이 가장 높은 각 후보 엔티티를 핵심 엔티티로 결정하여, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 구성할 수 있다.
예를 들어, 처리 대상 텍스트에 대응하는 각 후보 엔티티가 "초교전, 조려영, 임경신"이고, 조려영과 임경신이 모두 드라마 "초교전"의 배우이므로, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티간의 관련성에 따라 구축된 관련성 네트워크는 도 2와 같으며, 후보 엔티티 "초교전"에 대응하는 노드는 관련성 네트워크에서 계층이 가장 높은 노드이므로, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트가 "초교전"인 것으로 결정할 수 있다.
단계 (104)에서, 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정한다.
처리 대상 텍스트 내의 각 키워드는, 처리 대상 텍스트에 대해 단어 분할을 수행한 후, 처리 대상 텍스트에 포함된 각 단어 세그먼트에서 선택된, 처리 대상 텍스트의 주요 정보를 표현할 수 있는 단어 세그먼트를 의미한다. 예를 들어, 처리 대상 텍스트인 "드라마 <초교전>의 피날레 완결, 조려영과 임경신이 주연 담당한 스파이 전쟁, 비주얼과 연기력으로 팬덤 형성"의 키워드는 "초교전, 피날레 완결, 조려영, 임경신"을 포함할 수 있다. 본 출원의 실시예에서, 키워드 매칭 기술로 처리 대상 텍스트 내의 각 키워드를 결정할 수 있다.
미리 설정된 주제 그래프는, 미리 구축된 주제 및 각 주제 간의 계층적 관계를 포함하는 지식 베이스를 의미한다. 선택적으로, 미리 설정된 주제 그래프는 인터넷의 방대한 데이터를 기반으로 구축된 일반 주제 그래프거나, 적용 시나리오를 기반으로 당해 적용 시나리오와 관련된 분야의 데이터를 이용하여 구축한 전용 주제 그래프 일 수 있다.
참조 주제는 미리 설정된 주제 그래프에 포함된 각 주제를 의미한다.
키워드와 참조 주제의 매칭 정도는 키워드와 참조 주제 간의 유사도를 의미할 수 있다. 예를 들어, 키워드와 참조 주제 간의 코사인 유사도를 키워드와 참조 주제의 매칭 정도로 결정할 수 있으며, 본 출원의 실시예는 이에 대해 제한하지 않는다.
처리 대상 텍스트에 포함된 후보 주제는, 처리 대상 텍스트 내의 키워드 와의 매칭 정도가 미리 설정된 조건에 부합되는 참조 주제를 의미한다. 선택적으로, 미리 설정된 조건은 "후보 주제와 처리 대상 텍스트 내의 적어도 하나의 키워드의 매칭 정도가 매칭 정도 임계값보다 크다"일 수 있다. 실제 적용시, 후보 주제가 충족해야 하는 미리 설정된 조건은 실제 필요에 따라 선택할 수 있으며, 본 출원의 실시예는이에 대해 제한하지 않는다.
본 출원의 실시예에서, 지식 그래프에 따라 처리 대상 텍스트에 포함된 암묵적 주제 정보를 마이닝할 수 있으므로, 텍스트 주제 생성의 정확도를 더욱 높이기 위해, 처리 대상 텍스트에 포함된 각 키워드에 따라 처리 대상 텍스트에 나타나는 주제 정보를 마이닝할 수 있다. 따라서, 본 출원의 실시예에서, 처리 대상 텍스트에 포함된 각 키워드도 획득하고, 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제 간의 매칭 정도에 따라, 각 키워드 와의 매칭 정도가 미리 설정된 조건에 부합되는 참조 주제를 처리 대상 텍스트에 포함된 각 후보 주제로 결정할 수 있다.
예를 들어, 미리 설정된 조건이 "후보 주제와 처리 대상 텍스트 내의 적어도 하나의 키워드 간의 매칭 정도가 0.9보다 크다"이고, 처리 대상 텍스트가 "민난어 노래, 진백담의 《달콤한 인생》, 인생을 돌아보니 달콤하더라"이며, 키워드 매칭 기술을 통해 결정된 처리 대상 텍스트 내의 키워드가 "민난어 노래, 진백담"이며, 키워드인 "민난어 노래"와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도, 및 키워드인 "진백담"과 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도를 각각 계산하여, 키워드인 "민난어 노래"와 참조 주제인 "민난어 노래"의 매칭 정도가 1이며, 주제 그래프에 키워드인 "진백담"과의 매칭 정도가 0.9보다 큰 참조 주제가 존재하지 않음을 결정할 수 있으면, 처리 대상 텍스트에 포함된 후보 주제가 "민난어 노래"인 것을 결정할 수 있다.
단계 (105)에서, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다.
핵심 엔티티와 처리 대상 텍스트 간의 관련성은, 핵심 엔티티와 처리 대상 텍스트가 문법, 의미, 문맥 등 측면에서의 관련성에 의해 가늠할 수 있다.
본 출원의 실시예에서, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트 및 처리 대상 텍스트에 포함된 각 후보 주제를 결정한 후, 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성을 결정할 수 있으며, 더 나아가 처리 대상 텍스트 와의 관련성이 비교적 높은 핵심 엔티티 또는 후보 주제를 처리 대상 텍스트의 주제로 결정한다.
가능한 구현 형태로서, 미리 분류 모델을 훈련시켜, 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 후보 주제와 처리 대상 텍스트 간의 관련성을 결정할 수 있다. 즉, 본 출원의 실시예의 가능한 구현 형태에서, 전술한 단계 (105)는 다음과 같은 내용을 포함 할 수 있다.
미리 설정된 분류 모델을 이용하여 제 1 핵심 엔티티에 대응하는 각 개념 정보 및 처리 대상 텍스트에 대해 각각 인코딩 및 디코딩 처리를 수행하여, 각 개념 정보와 처리 대상 텍스트의 관련성을 결정하며, 제 1 핵심 엔티티는 지식 그래프에서 적어도 두 개의 개념 정보를 포함한다. 제 1 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성에 따라, 제 1 핵심 엔티티와 처리 대상 텍스트의 관련성을 결정한다. 제 1 핵심 엔티티와 처리 대상 텍스트의 관련성에 따라, 제 1 핵심 엔티티가 처리 대상 텍스트의 주제인지 여부를 결정한다.
미리 설정된 분류 모델은, 미리 훈련되고, 입력된 두가지 텍스트 정보의 관련성을 인식할 수 있는 모델을 의미한다. 예를 들어, 미리 설정된 분류 모델은 이진 분류 네트워크 모델일 수 있으며, 입력 모델의 두가지 텍스트 정보의 관련성을 인식하고, 인식 결과와 인식 결과의 신뢰도를 출력한다. “0”과“1”의 두가지 인식 결과를 출력할 수 있으며, “0”은 입력 모델의 두가지 텍스트 정보가 관련성이 없음을 의미하고, “1”은 입력 모델의 두가지 텍스트 정보가 관련성이 있음을 의미한다.
제 1 핵심 엔티티는 핵심 엔티티 세트에서 적어도 두 개의 개념 정보를 포함하는 핵심 엔티티를 의미한다. 본 출원의 실시예에서, 지식 그래프는 각 엔티티에 포함된 개념 정보를 포함할 수 있다. 예를 들어, 엔티티인 "초교전"에 포함된 개념 정보에는 여성 격려 레전드 시대극, 만다린 드라마, 로맨틱 드라마, 스토리 드라마 등이 포함될 수 있다.
본 출원의 실시예에서, 복수의 개념 정보를 포함하는 제 1 핵심 엔티티에 대하여, 처리 대상 텍스트와 제 1 핵심 엔티티의 각 개념 정보를 미리 설정된 분류 모델에 각각 입력하여, 처리 대상 텍스트와 각 개념 정보의 관련성을 결정할 수 있으며, 처리 대상 텍스트와 각 개념 정보의 관련성에 따라, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성을 결정할 수 있다.
구체적으로, 만일 미리 설정된 분류 모델이 이진 분류 네트워크 모델인 경우, 제 1 핵심 엔티티가 관련성이 “1”인 개념 정보를 포함할 때, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성을 “1”로 결정한다. 즉, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성이 "관련"이라고 결정한다. 만일 제 1 핵심 엔티티에 포함된 각 개념 정보의 관련성이 모두 “0”이면, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성을 “0”으로 결정할 수 있다. 즉, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성이 "관련되지 않음"이라고 결정한다.
선택적으로, 이진 분류 네트워크 모델의 출력은 인식 결과의 신뢰도를 포함하고, 신뢰도 임계값은 미리 설정될 수 있으며, 처리 대상 텍스트와 각 개념 정보의 관련성 및 신뢰도 임계값에 따라, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성을 결정한다. 예를 들어, 제 1 핵심 엔티티가 처리 대상 텍스트와의 관련성이 “1” 인 개념 정보를 포함하고, 당해 개념 정보와 처리 대상 텍스트의 관련성이 “1”인 신뢰도가 신뢰도 임계값보다 크면, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성을 "1"로 결정할 수 있다. 즉, 처리 대상 텍스트와 제 1 핵심 엔티티의 관련성이 "관련"이라고 결정한다.
본 출원의 실시예에서, 만일 제 1 핵심 엔티티와 처리 대상 텍스트의 관련성이 "관련"이라고 결정되면, 제 1 핵심 엔티티를 처리 대상 텍스트의 주제로 결정할 수 있고, 제 1 핵심 엔티티와 처리 대상 텍스트의 관련성이 "관련되지 않음"인 경우, 제 1 핵심 엔티티를 폐기할 수 있다. 마찬가지로, 미리 설정된 분류 모델을 이용하여 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트의 관련성을 결정할 수 있으며, 핵심 엔티티 내의 모든 핵심 엔티티에 대해 결정하여, 처리 대상 텍스트의 주제가 될 수 있는 모든 핵심 엔티티를 결정한다.
예를 들어, 미리 설정된 분류 모델이 이진 분류 네트워크 모델인 경우, 도 3에 도시 된 바와 같이, 본 출원의 실시예에서 제공하는 이진 분류 네트워크 모델의 네트워크 구조의 개략도이다. 이진 분류 네트워크 모델은 입력층, 임베디드층, 네트워크층, 활성화층 및 출력층을 포함할 수 있다. 입력층에는 처리 대상 텍스트와 제 1 핵심 엔티티의 하나의 개념 정보라는 두 개의 입력 정보가 포함된다. 임베디드층은 처리 대상 텍스트 내의 단어와 개념 정보 내의 단어를 각각 의미 및 문법 정보를 가질 수 있는 저차원 벡터 표현에 매핑하여 특징 차원을 줄일 수 있다. 장단기 기억(long-short term memory,LSTM) 네트워크층은 처리 대상 텍스트의 문맥 정보를 개념 정보의 문맥 정보에 연관시켜, 처리 대상 텍스트 및 개념 정보 내의 고차원 정보 표현을 추출한다. 활성화층은 처리 대상 텍스트의 LSTM 출력과 개념 정보의 LSTM 출력을 병합하고, 파라미터를 통해 양자간의 내재적 관련성을 획득하고, 함수를 활성화 한 후 출력한다. 출력층의 출력 공간은 “0”과 “1”의 두 개의 라벨을 포함하며, “1”은 개념 정보와 처리 대상 텍스트가 관련됨을 표시하고, “0”은 개념 정보와 처리 대상 텍스트가 관련되지 않음을 표시하며, 인식 결과의 신뢰도를 동시에 출력한다.
만일 신뢰도 임계값이 0.8이고, 제 1 핵심 엔티티가 "초교전"이며, 제 1 핵심 엔티티인 "초교전"이 지식 그래프에 포함된 개념 정보가 "여성 격려 레전드 시대극, 만다린 드라마, 로맨틱 드라마, 스토리 드라마" 등 인 경우, 각 개념 정보와 처리 대상 텍스트를 이진 분류 네트워크 모델에 입력하여, 개념 정보인 "여성 격려 레전드 시대극"과 처리 대상 텍스트의 관련성이 “1”이고, 신뢰도는 0.9임을 결정하고; 개념 정보인 "만다린 드라마"와 처리 대상 텍스트의 관련성이 “1”이고, 신뢰도가 0.7임을 결정하며; 개념 정보인 "로맨틱 드라마"와 처리 대상 텍스트의 관련성이 “0”이고, 신뢰도가 0.8임을 결정하며; 개념 정보 "스토리 드라마"와 처리 대상 텍스트의 관련성이 “0”이고, 신뢰도가 0.9임을 결정하며; 관련성이 "1"이고 신뢰도가 신뢰도 임계값보다 큰 개념 정보인 "여성 격려 레전드 시대극"이 존재하므로, 제1 핵심 엔티티인 "초교전"과 처리 대상 텍스트의 관련성이 "관련"임을 결정하여 "초교전"을 처리 대상 텍스트의 주제로 결정할 수 있다.
마찬가지로, 처리 대상 텍스트에 포함된 후보 주제에서 처리 대상 텍스트의 주제를 획득할 경우에도, 동일한 방법을 사용하여 각 후보 주제가 처리 대상 텍스트의 주제가 될 수 있는지 여부를 결정할 수 있다. 즉, 미리 설정된 분류 모델을 이용하여 처리 대상 텍스트와 각 후보 주제의 관련성을 결정하고, 처리 대상 텍스트와의 관련성이 "관련"인 후보 주제를 처리 대상 텍스트의 주제로 결정한다.
본 출원의 실시예의 기술 수단에 따르면, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하고, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트와 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다. 따라서, 지식 그래프와 주제 그래프 정보를 융합하여 짧은 텍스트 정보 및 후보 주제를 확장하여, 더욱 많은 암시적인 주제 정보를 마이닝하여 텍스트 주제 생성의 정확도를 향상시킨다.
본 출원의 가능한 구현 형태에서, 처리 대상 텍스트 내의 암시적인 주제 정보를 추가로 마이닝하기 위해, 지식 그래프를 통해 처리 대상 텍스트의 주제 정보를 마이닝 할 때, 핵심 엔티티의 개념 정보를 이용하여 처리 대상 텍스트의 주제를 생성함으로써, 텍스트 주제 생성의 정확도를 더욱 향상시킨다.
이하 도 4를 결합하여, 본 출원의 실시예에서 제공하는 텍스트 주제 생성 방법을 더욱 구체적으로 설명한다.
도 4는 본 출원의 실시예에 의해 제공되는 다른 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 4에 도시된 바와 같이, 당해 텍스트 주제 생성 방법은 다음과 같은 단계를 포함한다.
단계 (201)에서, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득한다.
단계 (202)에서, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 각각 대응하는 각 후보 엔티티를 결정한다.
단계 (203)에서, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정한다.
단계 (204)에서, 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정한다.
전술한 단계 (201-204)의 구체적인 구현 과정 및 원리에 대해, 전술한 실시예의 상세한 설명을 참조할 수 있으며, 여기서는 설명을 생략한다.
단계 (205)에서, 미리 설정된 분류 모델을 이용하여, 각 핵심 엔티티의 지식 그래프에서의 각 개념 정보 및 처리 대상 텍스트에 대해 각각 인코딩 및 디코딩 처리를 수행하여, 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성을 결정한다.
본 출원의 실시예에서, 처리 대상 텍스트에 포함된 암시적인 주제를 충분히 마이닝하고, 텍스트 주제 생성의 정확도를 더욱 향상시키기 위해, 핵심 엔티티의 지식 그래프에서의 개념 정보를 이용하여 처리 대상 텍스트의 주제를 생성할 수 있다. 구체적으로, 각 핵심 엔티티의 지식 그래프에서의 각 개념 정보와 처리 대상 텍스트의 관련성에 따라, 처리 대상 텍스트의 주제로 사용될 수 있는 개념 정보를 결정할 수 있다.
가능한 구현 형태로서, 각 핵심 엔티티의 지식 그래프에서의 각 개념 정보와 처리 대상 텍스트를 미리 설정된 분류 모델에 입력하여, 미리 설정된 분류 모델이 입력된 개념 정보와 처리 대상 텍스트에 대하여 인코딩 및 디코딩 처리를 수행하도록 함으로써, 각 핵심 엔티티의 지식 그래프에서의 각 개념 정보와 처리 대상 텍스트의 관련성을 결정하고 출력한다.
예를 들어, 미리 설정된 분류 모델이 이진 분류 네트워크 모델인 경우, 이진 분류 네트워크 모델에 의해 출력된 인식 결과가 “1”인 경우, 개념 정보와 처리 대상 텍스트의 관련성이 “관련”이라고 결정할 수 있으며, 이진 분류 네트워크 모델에 의해 출력된 인식 결과가 “0”인 경우, 개념 정보와 처리 대상 텍스트의 관련성이 “관련되지 않음”이라고 결정할 수 있다.
단계 (206)에서, 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성에 따라, 각 핵심 엔티티에 대응하는 개념 정보에서 처리 대상 텍스트의 주제를 획득한다.
본 출원의 실시예에서, 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성이 결정된 후, 처리 대상 텍스트와의 관련성이 높은 개념 정보를 처리 대상 텍스트의 주제로 결정할 수 있다.
선택적으로, 미리 설정된 분류 모델이 관련성 인식 결과 및 인식 결과 신뢰도를 동시에 출력할 수 있는 이진 분류 네트워크 모델인 경우, 신뢰도 임계값을 미리 설정하여, 각 개념 정보와 처리 대상 텍스트의 관련성 및 신뢰도 임계값에 따라, 각 개념 정보에서 관련성이 "1"이고 신뢰도가 신뢰도 임계값보다 큰 개념 정보를 획득하여, 처리 대상 텍스트의 주제로 결정할수 도 있다.
예를 들어, 미리 설정된 분류 모델이 이진 분류 네트워크 모델인 경우, 입력된 두가지 텍스트 정보의 관련성에 대한 인식 결과 및 인식 결과의 신뢰도를 출력하며, 신뢰도 임계값은 0.8이다. 처리 대상 텍스트에 대응하는 핵심 엔티티 세트에는 하나의 핵심 엔티티인 "초교전"이 포함되며, 핵심 엔티티인 "초교전"이 지식 그래프에서의 개념 정보는 "여성 격려 레전드 시대극, 만다린 드라마, 로맨틱 드라마, 스토리 드라마"이며, 각 개념 정보와 처리 대상 텍스트를 이진 분류 네트워크 모델에 입력하여, 개념 정보인 "여성 격려 레전드 시대극"과 처리 대상 텍스트의 관련성이 "1"이고, 신뢰도는 0.9임을 결정하고; 개념 정보인 "만다린 드라마"와 처리 대상 텍스트의 관련성이 “1”이고, 신뢰도가 0.7임을 결정하며; 개념 정보인 "로맨틱 드라마"와 처리 대상 텍스트의 관련성이 “0”이고, 신뢰도가 0.8임을 결정하며; 개념 정보인 "스토리 드라마"와 처리 대상 텍스트의 관련성이 “0”이고, 신뢰도가 0.9임을 결정하며; 개념 정보인 "여성 격려 레전드 시대극"의 관련성이 "1"이고 신뢰도가 신뢰도 임계값보다 크기에, "여성 격려 레전드 시대극"을 처리 대상 텍스트의 주제로 결정할 수 있다.
처리 대상 텍스트에 포함된 후보 주제에서 처리 대상 텍스트의 주제를 획득하는 구체적인 구현 과정 및 원리에 대해서는, 전술한 실시예의 상세한 설명을 참조할 수 있으며, 여기서는 설명을 생략한다.
본 출원의 실시예의 기술 수단에 따르면, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하고, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 미리 설정된 분류 모델을 이용하여 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성을 결정하여, 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성에 따라, 각 핵심 엔티티에 대응하는 개념 정보에서 처리 대상 텍스트의 주제를 획득한다. 따라서, 지식 그래프를 융합함으로써 핵심 엔티티의 지식 그래프에서의 개념 정보를 이용하여 짧은 텍스트 정보를 확장함으로써, 더욱 많은 암시적인 주제 정보를 마이닝하여 텍스트 주제 생성의 정확도를 향상시킨다.
본 출원의 가능한 구현 형태에서, 처리 대상 텍스트 내의 암시적인 주제 정보를 추가로 마이닝하기 위해, 주제 그래프를 통해 처리 대상 텍스트의 주제 정보를 마이닝할 때, 후보 엔티티에 대응하는 상위 주제를 이용하여 처리 대상 텍스트의 주제를 심사함으로써, 텍스트 주제 생성의 정확도를 더욱 향상시킨다.
아래 도 5를 참조하여, 본 출원의 실시예에서 제공하는 텍스트 주제 생성 방법을 더 상세히 설명한다.
도 5는 본 출원의 실시예에 의해 제공되는 또 다른 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 5에 도시된 바와 같이, 당해 텍스트 주제 생성 방법은 다음과 같은 단계를 포함한다.
단계 (301)에서, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득한다.
단계 (302)에서, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정한다.
단계 (303)에서, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정한다.
단계 (304)에서, 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정한다.
전술한 단계 (301-304)의 구체적인 구현 과정 및 원리에 대해, 전술한 실시예의 상세한 설명을 참조할 수 있으며, 여기서는 설명을 생략한다.
단계 (305)에서, 미리 설정된 주제 그래프에서 각 후보 주제에 대응하는 상위 주제를 추출하여 처리 대상 텍스트의 확장 주제로 한다.
본 출원의 실시예에서, 미리 설정된 주제 그래프는 주제 및 각 주제 간의 계층 관계를 포함할 수 있다. 따라서, 가능한 구현 형태로서, 처리 대상 텍스트에 대응하는 각 후보 주제를 결정한 후, 각 후보 주제의 미리 설정된 주제 그래프에서의 계층 관계에 따라, 미리 설정된 주제 그래프에서 각 후보 주제의 상위 주제를 추출하여 처리 대상 텍스트의 확장 주제로 함으로써, 미리 설정된 주제 그래프를 통해 처리 대상 텍스트의 암시적인 주제 정보를 더욱 많이 마이닝하여 주제 생성의 정확도를 향상시킨다.
단계 (306)에서, 각 확장 주제와 처리 대상 텍스트 간의 관련성에 따라, 확장 주제에서 처리 대상 텍스트의 주제를 획득한다.
본 출원의 실시예에서, 처리 대상 텍스트에 대응하는 각 확장 주제를 결정한 후, 미리 설정된 분류 모델을 이용하여 각 확장 주제와 처리 대상 텍스트 간의 관련성을 결정함으로써, 처리 대상 텍스트와의 관련성이 높은 확장 주제를 처리 대상 텍스트의 주제로 결정할 수 있다.
확장 주제와 처리 대상 텍스트의 관련성을 결정하는 방법은, 핵심 엔티티의 개념 정보와 처리 대상 텍스트의 관련성을 결정하는 방법과 동일하다. 각 확장 주제와 처리 대상 텍스트 간의 관련성에 따라, 확장 주제에서 처리 대상 텍스트의 주제를 획득하는 방법은, 각 개념 정보와 처리 대상 텍스트 간의 관련성에 따라 각 개념 정보에서 처리 대상 텍스트를 획득하는 방법과 동일하다. 구체적인 구현 과정 및 원리는 전술한 실시예의 상세한 설명을 참조할 수 있으며, 여기서는 설명을 생략한다.
단계 (307)에서, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다.
전술한 단계 (307)의 구체적인 구현 과정 및 원리에 대해서는 전술한 실시예의 상세한 설명을 참조할 수 있으며, 여기서는 설명을 생략한다.
본 출원의 실시예의 기술 수단에 따르면, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하고, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 미리 설정된 주제 그래프에서 각 후보 주제에 대응하는 상위 주제를 추출하여 처리 대상 텍스트에 대응하는 확장 주제로 하여, 각 확장 주제와 처리 대상 텍스트 간의 관련성에 따라 확장 주제에서 처리 대상 텍스트의 주제를 획득하며, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다. 따라서, 주제 그래프를 융합함으로써 핵심 엔티티의 주제 그래프에서의 상위 주제를 이용하여 처리 대상 텍스트의 주제를 확장함으로써, 더욱 많은 암시적인 주제 정보를 마이닝하여 텍스트 주제 생성의 정확도를 향상시킨다.
본 출원의 가능한 구현 형태에서, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트가 결정된 후, 핵심 엔티티 세트의 지식 그래프에서의 특성에 따라, 핵심 엔티티 세트를 크로핑(cropping)함으로써,크로핑된 핵심 엔티티 세트가 처리 대상 텍스트의 주제에 더 부합되도록 하여, 텍스트 주제 생성의 정확도를 더욱 향상시킨다.
아래 도 6과 결합하여, 본 출원의 실시예에서 제공하는 텍스트 주제 생성 방법을 더욱 상세히 설명한다.
도 6은 본 출원의 실시예에 의해 제공되는 또 다른 텍스트 주제 생성 방법의 개략적인 흐름도이다.
도 6에 도시된 바와 같이, 당해 텍스트 주제 생성 방법은 다음과 같은 단계를 포함한다.
단계 (401)에서, 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득한다.
단계 (402)에서, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정한다.
단계 (403)에서, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정한다.
전술한 단계 (401-403)의 구체적인 구현 과정 및 원리에 대해, 전술한 실시예의 상세한 설명을 참조할 수 있으며, 여기서는 설명을 생략한다.
단계 (404)에서, 각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도를 결정하며, 핵심 엔티티 세트에는 각 핵심 엔티티에 대응하는 개념 정보 세트 및 상위 경로 정보가 포함된다.
개념 정보와 상위 경로 정보의 매칭 정도는 의미적 유사도와 같은 개념 정보와 상위 경로 정보의 유사도일 수 있다. 예를 들어, 개념 정보와 상위 경로 정보 간의 코사인 유사도를 이용하여 양자의 매칭 정도를 나타낼 수 있다.
본 출원의 실시예에서, 지식 그래프에는 엔티티 및 각 엔티티에 대응하는 개념 정보와 상위 경로 정보가 포함된다. 예를 들어, 엔티티인 "초교전"에 대응하는 개념 정보 세트는 "여성 격려 레전드 시대극, 만다린 드라마, 로맨틱 드라마, 스토리 드라마"이며, 상위 경로 정보는 "초교전→리메이크 드라마→리메이크 극→리메이크 작품→작품→문화→루트 (root)”이다. 엔티티의 지식 그래프에서의 개념 정보와 상위 경로 정보 간의 매칭 정도는, 당해 엔티티 정보의 신뢰도를 반영할 수 있으므로, 핵심 엔티티의 각 개념 정보와 상위 경로 정보 간의 매칭 정도에 따라 핵심 엔티티 세트를 크로핑할 수 있다.
구체적으로, 처리 대상 텍스트에 대응하는 핵심 엔티티가 결정된 후, 지식 그래프에서 당해 핵심 엔티티에 대응하는 개념 정보 세트 및 상위 경로 정보를 획득하여, 핵심 엔티티 세트를 구성할 수 있다. 핵심 엔티티 세트 내의 각 핵심 엔티티에 대하여, 개념 정보 세트 내의 각 개념 정보와 상위 경로 정보 내의 각 경로 정보 간의 매칭 정도를 각각 결정할 수 있다.
예를 들면, 개념 정보와 상위 경로 정보의 매칭 정도는 양자 간의 코사인 유사도이고, 핵심 엔티티 세트에는 하나의 핵심 엔티티인 "초교전"이 포함되며, 핵심 엔티티인 "초교전"에 대응하는 개념 정보 세트는 "여성 격려 레전드 시대극, 만다린 드라마, 로맨틱 드라마, 스토리 드라마"이며, 상위 경로 정보는 "초교전→리메이크 드라마→리메이크 극→리메이크 작품→작품→문화→루트(root)”이므로, 개념 정보인 "여성 격려 레전드 시대극"과 리메이크 드라마, 리메이크 극, 리메이크 작품, 작품, 문화, 루트(root)의 코사인 유사도, 즉 개념 정보인 "여성 격려 레전드 시대극"과 각 경로 정보의 매칭 정도를 각각 계산할 수 있다. 마찬가지로, 동일한 방법으로 개념 정보 세트 내의 나머지 각 개념정보와 각 상위 경로 정보의 매칭 정도를 순차적으로 결정할 수 있다.
단계 (405)에서, 각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 크로핑한다.
본 출원의 실시예에서, 각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 핵심 엔티티 세트에서 매칭 정도가 낮은 핵심 엔티티를 제거하거나, 또는 핵심 엔티티에 대응하는 매칭 정도가 낮은 개념 정보를 제거함으로써, 핵심 엔티티 세트에 대한 크로핑을 구현할 수 있다. 즉, 본 출원의 실시예의 가능한 구현 형태에서, 전술한 단계 (405)는 다음 내용을 포함할 수 있다.
각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 개념 정보 세트를 크로핑하는 단계;
각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 신뢰도를 결정하며, 각 핵심 엔티티의 신뢰도에 따라, 핵심 엔티티의 수량을 크로핑하는 단계; 중의 적어도 하나를 포함할 수 있다.
가능한 구현 형태로서, 매칭 정도 임계값을 미리 설정하여, 각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도 및 매칭 정도 임계값에 따라, 각 상위 경로 정보와의 매칭 정도가 모두 매칭 정도 임계값 미만인 개념 정보를 핵심 엔티티 세트에서 제거한다.
가능한 구현 형태로서, 만일 핵심 엔티티의 각 개념 정보와 각 상위 경로 정보의 매칭 정도가 모두 매칭 정도 임계값 미만이면, 당해 핵심 엔티티의 신뢰도가 낮다고 결정하여, 당해 핵심 엔티티를 핵심 엔티티 세트에서 제거한다.
예를 들면, 핵심 엔티티 세트에는 핵심 엔티티인 "초교전"과 "조려영"이 포함되며, 핵심 엔티티인 "초교전"에 대응하는 개념 정보 세트는 "여성 격려 레전드 시대극, 만다린 드라마, 로맨틱 드라마, 러브 스토리"이며, 상위 경로 정보는 "초교전→리메이크 드라마→리메이크 극→리메이크 작품→작품→문화→루트 (root)”이다. 핵심 엔티티인 "조려영"에 대응하는 개념 정보 세트는 "배우, 여성"이며, 상위 경로 정보는 "조려영→리메이크 드라마→리메이크 극→리메이크 작품→작품→문화→루트 (root)”이다. 개념 정보인 "여성 격려 레전드 시대극"과 "리메이크 드라마"의 매칭 정도는 매칭 정도 임계값보다 크며, 개념 정보인 "만다린 드라마", "로맨틱 드라마", "스토리 드라마"는 모두 "작품"과의 매칭 정도가 매칭 정도 임계값보다 크고, 개념 정보인 "러브 스토리"와 임의의 상위 경로 정보의 매칭 정도는 모두 매칭 정도 임계값 미만임이 결정되면, 개념 정보인 "러브 스토리"를 핵심 엔티티 세트에서 제거할 수 있다. 핵심 엔티티인 "조려영", 개념정보인 "배우, 여성"과 임의의 상위 경로 정보의 매칭 정도가 모두 매칭 정도 임계값 미만임이 결정되면, 핵심 엔티티인 "조려영"의 신뢰도가 낮다고 결정할 수 있으며, 이로써 핵심 엔티티인 "조려영"을 핵심 엔티티 세트에서 제거할 수 있다.
단계 (406)에서, 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정한다.
단계 (407)에서, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다.
전술한 단계 (406-407)의 구체적인 구현 과정 및 원리에 대해, 전술한 실시예의 상세한 설명을 참조할 수 있으며, 여기서는 설명을 생략한다.
본 출원의 실시예의 기술 수단에 따르면, 엔티티 링크를 통해, 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하고, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도를 결정하고, 각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트을 크로핑하며, 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다. 따라서, 지식 그래프와 주제 그래프 정보를 융합하여 짧은 텍스트 정보 및 후보 주제를 확장할 수 있으며, 지식 그래프 정보를 이용하여 신뢰도가 낮은 핵심 엔티티를 제거하여, 더욱 많은 암시적 주제 정보를 마이닝할 뿐만 아니라, 암시적 주제의 신뢰성을 향상시키며, 더 나아가, 텍스트 주제 생성의 정확도를 향상시킨다.
전술한 실시예들을 구현하기 위해 본 출원은 또한 텍스트 주제 생성 장치를 제공한다.
도 7은 본 출원의 실시예에 의해 제공되는 텍스트 주제 생성 장치의 개략적인 구조도이다.
도 7에 도시된 바와 같이, 당해 텍스트 주제 생성 장치(50)는,
처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득하는 제 1 획득 모듈(51);
엔티티 링크를 통해, 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하는 제 1 결정 모듈(52);
지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하고, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 제 2 결정 모듈(53);
처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하는 제 3 결정 모듈(54); 및
핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득하는 제 2 획득 모듈(55)를 포함한다.
실제 사용시, 본 출원의 실시예에 의해 제공되는 텍스트 주제 생성 장치는, 전술한 텍스트 주제 생성 방법을 실행하기 위해 임의의 전자기기에 배치될 수 있다.
본 출원의 실 시예의 기술 수단에 따르면, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하고, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트 및 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다. 따라서, 지식 그래프와 주제 그래프 정보를 융합하여 짧은 텍스트 정보와 후보 주제를 확장하여, 더욱 많은 암시적 주제 정보를 마이닝함으로써, 텍스트 주제 생성의 정확도를 향상시킨다.
본 출원의 가능한 구현 형태에서, 상술한 제 2 결정 모듈(53)은 구체적으로,
지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 포함하는 관련성 네트워크를 구축하고, 관련성 네트워크의 각 노드는 하나의 후보 엔티티에 대응하고, 두 개의 노드 간의 에지의 방향은 두 개의 노드 간의 계층 관계를 표시하며;
각 후보 엔티티 간의 에지의 방향에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정한다.
더 나아가, 본 출원의 다른 가능한 구현 형태에서, 전술한 핵심 엔티티 세트는 각 핵심 엔티티에 대응하는 개념 정보 및 상위 경로 정보를 포함하고, 이에 대응되게, 전술한 텍스트 주제 생성 장치(50)는,
각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도를 결정하는 제 4 결정 모듈; 및
각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 크로핑하는 크로핑 모듈; 을 더 포함한다.
더 나아가, 본 출원의 다른 가능한 구현 형태에서, 전술한 크로핑 모듈은 구체적으로,
각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 개념 정보 세트를 크로핑하는 단계;
각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 신뢰도를 결정하며, 각 핵심 엔티티의 신뢰도에 따라, 핵심 엔티티의 수량을 크로핑하는 단계; 중의 적어도 하나를 수행한다.
더 나아가, 본 출원의 다른 가능한 구현 형태에서, 전술한 텍스트 주제 생성 장치(50)는
미리 설정된 주제 그래프에서 각 후보 주제에 대응하는 상위 주제를 추출하여, 처리 대상 텍스트에 대응하는 확장 주제로 하는 추출 모듈; 및
각 확장 주제와 처리 대상 텍스트 간의 관련성에 따라, 확장 주제에서 처리 대상 텍스트의 주제를 선택하는 제 3 획득 모듈; 을 더 포함한다.
더 나아가, 본 출원의 또 다른 가능한 구현 형태에서, 제 1 핵심 엔티티는 지식 그래프에서 적어도 두 개의 개념 정보를 포함한다.
이에 대응하게, 상기 제 2 획득 모듈(55)은 구체적으로,
미리 설정된 분류 모델을 이용하여, 제 1 핵심 엔티티에 대응하는 각 개념 정보 및 처리 대상 텍스트에 대해 인코딩 및 디코딩 처리를 수행하여, 각 개념 정보와 처리 대상 텍스트의 관련성을 결정하고;
제 1 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성에 따라, 제 1 핵심 엔티티와 처리 대상 텍스트의 관련성을 결정하며;
제 1 핵심 엔티티와 처리 대상 텍스트의 관련성에 따라, 제 1 핵심 엔티티가 처리 대상 텍스트의 주제인지 여부를 결정한다.
더 나아가, 본 출원의 또 다른 가능한 구현 형태에서, 전술한 텍스트 주제 생성 장치(50)는, 미리 설정된 분류 모델을 이용하여, 각 핵심 엔티티의 지식 그래프에서의 각 개념 정보 및 처리 대상 텍스트에 대해 인코딩 및 디코딩 처리를 수행하여, 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성을 결정하는 제 5 결정 모듈; 을 더 포함한다.
상기 제 2 획득 모듈(55)은 또한, 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성에 따라, 각 핵심 엔티티에 대응하는 각 개념 정보에서 처리 대상 텍스트의 주제를 획득한다.
전술한 도 1, 4, 5 및 6에 도시된 텍스트 주제 생성 방법의 실시예에 대한 해석 설명은 당해 실시예의 텍스트 주제 생성 장치(50)에도 적용될 수 있으며, 여기서는 설명을 생략한다.
본 출원의 실시예의 기술 수단에 따르면, 엔티티 링크를 통해 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하고, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 미리 설정된 분류 모델을 이용하여 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성을 결정하여, 각 핵심 엔티티의 각 개념 정보와 처리 대상 텍스트의 관련성에 따라, 각 핵심 엔티티에 대응하는 각 개념 정보에서 처리 대상 텍스트의 주제를 획득한다. 따라서, 지식 그래프를 융합하고 핵심 엔티티의 지식 그래프에서의 개념 정보를 이용하여 짧은 텍스트 정보를 확장하여, 더욱 많은 암시적 주제 정보를 마이닝함으로써, 텍스트 주제 생성의 정확도를 더욱 향상시킨다.
본 출원의 실시예에 따르면, 본 출원은 또한 전자기기 및 판독 가능 저장 매체를 제공한다.
본 출원의 또 다른 실시예에 따르면, 본 출원은 비일시적 컴퓨터 판독가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램은 상기 컴퓨터가 전술한 텍스트 주제 생성 방법을 수행하도록 한다.
도 8에 도시된 바와 같이, 본 출원의 실시예에 따른 텍스트 주제 생성 방법에 따른 전자기기의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자기기는 또한 개인 디지털 프로세서, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치를 의미한다. 본 명세서에 나타낸 부품, 그들의 연결과 관계, 및 그들의 기능은 단지 예시적인 것이며, 본 명세서에 설명 및/또는 요구하는 본 발명의 구현을 제한하도록 의도되지 않는다.
도 8에 도시된 바와 같이, 전자기기는 하나 또는 복수의 프로세서(801), 메모리(802) 및 고속 인터페이스와 저속 인터페이스를 포함하는 각 부품을 연결하기 위한 인터페이스를 포함한다. 각 부품은 상이한 버스를 이용하여 상호 연결되고, 공통 마더보드 상에 장착되거나 또는 필요에 따라 다른 방식으로 장착될 수도 있다. 프로세서는 전자기기 내에서 실행되는 명령을 프로세싱할 수 있고, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 장치) 상에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 또는 메모리 상에 저장된 명령을 포함한다. 다른 실시예에서, 필요에 따라 복수의 프로세서 및/또는 복수의 버스는 복수의 메모리와 함께 사용될 수 있다. 또한, 복수의 전자기기를 연결할 수 있고, 각 전자기기는 필요한 동작의 일부를 제공할 수 있다(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 멀티 프로세서 시스템). 도 8에서는 하나의 프로세서(801)를 예로 든다.
메모리(802)는 본 발명에 의해 제공되는 비일시적 컴퓨터 판독가능 저장 매체이다. 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 적어도 하나의 프로세서가 본 발명에 의해 제공되는 텍스트 주제 생성 방법을 수행하게 한다. 본 발명의 비일시적 컴퓨터 판독가능 저장 매체에는, 컴퓨터가 본 발명에 의해 제공되는 텍스트 주제 생성 방법을 실행하게 하기 위한 컴퓨터 명령이 저장되어 있다.
메모리(802)는 비일시적 컴퓨터 판독가능 저장 매체로서, 본 발명의 실시예에 따른 텍스트 주제 생성 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도 7에 도시된 제 1 획득 모듈(51), 제 1 결정 모듈(52), 제 2 결정 모듈(53), 제 3 결정 모듈(54) 및 제 2 획득 모듈(55))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(801)는 메모리(802)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 애플리케이션 및 데이터 처리를 실행하며, 즉 전술한 방법의 실시예에 따른 텍스트 주제 생성 방법을 구현한다.
메모리(802)는 프로그램 저장영역 및 데이터 저장영역을 포함할 수 있으며, 프로그램 저장영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있다. 데이터 저장영역은 텍스트 주제 생성 방법의 전자기기의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(802)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 다른 비일시적 솔리드 스테이트 저장 장치와 같은 비일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(802)는 선택적으로 프로세서(801)에 대해 원격으로 설치된 메모리를 포함할 수 있고, 당해 원격 메모리는 네트워크를 통해 텍스트 주제 생성 방법의 전자기기에 연결될 수 있다. 이러한 네트워크의 예는 인터넷, 인트라넷, 로컬 영역 네트워크, 이동 통신 네트워크, 및 이들의 조합을 포함하지만, 이에 제한되지 않는다.
텍스트 주제 생성 방법의 전자기기는 입력장치(803) 및 출력장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력장치(803) 및 출력장치(804)는 버스 또는 다른 수단에 의해 연결될 수 있으며, 도 8에는 버스를 통한 연결이 예시되어 있다.
입력장치(803)는 입력된 숫자 또는 문자 정보를 수신할 수 있을 뿐만 아니라, 텍스트 주제 생성 방법의 전자기기의 사용자 설정 및 기능제어에 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등과 같은 입력장치이다. 출력장치(804)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 및 햅틱 피드백 장치(예를 들어, 진동 모터)등을 포함할 수 있다. 당해 디스플레이 장치는 액정표시장치(LCD), 발광 다이오드(LED) 디스플레이, 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지 않는다. 일부 실시 형태에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 명세서에 기술된 시스템 및 기술의 다양한 실시 형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(특정 용도 지향 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 실시예는 하나 또는 복수의 컴퓨터 프로그램에서 구현하는 것을 포함할 수 있으며, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능한 시스템 상에서 실행 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 당해 저장 시스템, 당해 적어도 하나의 입력장치, 및 당해 적어도 하나의 출력장치에 송신할 수 있다.
이들 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로 또한 지칭됨)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 하이 레벨 절차 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, “기계 판독가능 매체”및 “컴퓨터 판독가능 매체”라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 디바이스, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 소자(PLD)) 를 지칭하며, 기계 판독 가능 신호인 기계 명령을 수신하기 위한 기계 판독가능 매체를 포함한다. “기계 판독 가능 신호”라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 지칭한다.
사용자와의 대화를 제공하기 위해, 본 명세서에 설명된 시스템 및 기술은 컴퓨터 상에서 구현될 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, 음극선관(CRT) 또는 액정표시장치(LCD) 모니터), 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)을 가지고, 사용자가 당해 키보드 및 당해 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 종류의 장치도 사용자와의 대화를 제공하기 위해 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백) 일 수 있고, 임의의 형태(음향 입력, 음성 입력, 또는 촉각 입력을 포함함)로 사용자로부터의 입력을 수신할 수 있다.
본 명세서에 설명된 시스템 및 기술은 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템 (예를 들어, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 사용자 컴퓨터이고, 사용자는 당해 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 본 명세서에 기술된 시스템 및 기술의 실시예와 대화할 수 있다), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광역통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통상적으로 통신 네트워크를 통해 대화한다. 클라이언트와 서버 사이의 관계는 대응하는 컴퓨터 상에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 생성된다.
본 발명의 실시예에 따른 기술 수단에 의하면, 엔티티 링크를 적용하여, 지식 그래프에서 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하며, 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하며, 다음 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 처리 대상 텍스트에 포함된 각 후보 주제를 결정하며, 핵심 엔티티 세트 내의 각 핵심 엔티티와 처리 대상 텍스트 간의 관련성, 및 각 후보 주제와 처리 대상 텍스트 간의 관련성에 따라, 핵심 엔티티 세트와 각 후보 주제에서 처리 대상 텍스트의 주제를 획득한다. 따라서, 지식 그래프와 주제 그래프 정보를 융합하여 짧은 텍스트 정보 및 후보 주제를 확장하여, 더욱 많은 암시적인 주제 정보를 마이닝하고 텍스트 주제를 생성하는 정확도를 향상시킨다.
전술한 다양한 형태의 흐름을 사용하여, 단계를 재배열, 부가 또는 삭제할 수 있다는 것을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 본 발명에 개시된 기술 수단의 원하는 결과를 구현할 수 있는 한, 병렬로 또는 순서로 또는 상이한 순서로 수행될 수 있으며, 본 명세서에서는 제한하지 않는다.
상기 상세한 실시 형태는 본 발명의 청구 범위를 제한하는 것으로 의도되지 않는다. 다양한 수정, 조합, 서브 조합, 및 대체가 설계 요건 및 다른 요인을 고려하여 이루어질 수 있다는 것은 당업자에게 명백할 것이다. 본 발명의 사상 및 원리 내에서 이루어진 임의의 수정, 동등한 교체, 및 개선 등은 본 발명의 청구 범위 내에 포함된다.

Claims (17)

  1. 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득하는 단계;
    엔티티 링크를 통해, 지식 그래프에서 상기 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하는 단계;
    상기 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여, 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 단계;
    상기 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 상기 처리 대상 텍스트에 포함된 각 후보 주제를 결정하는 단계; 및
    상기 핵심 엔티티 세트 내의 각 핵심 엔티티와 상기 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 상기 처리 대상 텍스트 간의 관련성에 따라, 상기 핵심 엔티티 세트 및 상기 각 후보 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 단계; 를 포함하는
    것을 특징으로 하는 텍스트 주제 생성 방법.
  2. 제 1 항에 있어서,
    상기 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 단계는,
    상기 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 상기 각 후보 엔티티를 포함하는 관련성 네트워크를 구축하는 단계 - 상기 관련성 네트워크의 각 노드는 하나의 후보 엔티티에 대응하고, 두 개의 노드 간의 에지의 방향은 두 개의 노드 간의 계층 관계를 나타냄 - ; 및
    각 후보 엔티티 간의 에지의 방향에 따라 각 후보 엔티티를 클러스터링하여, 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 단계; 를 포함하는
    것을 특징으로 하는 텍스트 주제 생성 방법.
  3. 제 1 항에 있어서,
    상기 핵심 엔티티 세트는 각 핵심 엔티티에 대응하는 개념 정보 세트 및 상위 경로 정보를 포함하고,
    상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 단계 후에,
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도를 결정하는 단계; 및
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 크로핑하는 단계; 를 더 포함하는
    것을 특징으로 하는 텍스트 주제 생성 방법.
  4. 제 3 항에 있어서,
    상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 크로핑하는 단계는,
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 개념 정보 세트를 크로핑하는 단계;
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 신뢰도를 결정하며, 각 핵심 엔티티의 신뢰도에 따라, 핵심 엔티티의 수량을 크로핑하는 단계; 중의 적어도 하나를 포함하는
    것을 특징으로 하는 텍스트 주제 생성 방법.
  5. 제 1 항에 있어서,
    상기 처리 대상 텍스트에 포함된 각 후보 주제를 결정하는 단계 후에,
    상기 미리 설정된 주제 그래프에서 각 후보 주제에 대응하는 상위 주제를 추출하여, 상기 처리 대상 텍스트에 대응하는 확장 주제로 하는 단계; 및
    각 확장 주제와 상기 처리 대상 텍스트 간의 관련성에 따라, 상기 확장 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 단계; 를 더 포함하는
    것을 특징으로 하는 텍스트 주제 생성 방법.
  6. 제 1 항에 있어서,
    제 1 핵심 엔티티는 상기 지식 그래프에서 적어도 두 개의 개념 정보를 포함하고,
    상기 핵심 엔티티 세트 및 상기 각 후보 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 단계는,
    미리 설정된 분류 모델을 이용하여 제 1 핵심 엔티티에 대응하는 각 개념 정보 및 상기 처리 대상 텍스트에 대해 각각 인코딩 및 디코딩 처리를 수행하여, 각 개념 정보와 상기 처리 대상 텍스트의 관련성을 결정하는 단계;
    상기 제 1 핵심 엔티티의 각 개념 정보와 상기 처리 대상 텍스트의 관련성에 따라, 상기 제 1 핵심 엔티티와 상기 처리 대상 텍스트의 관련성을 결정하는 단계; 및
    상기 제 1 핵심 엔티티와 상기 처리 대상 텍스트의 관련성에 따라, 상기 제 1 핵심 엔티티가 상기 처리 대상 텍스트의 주제인지 여부를 결정하는 단계; 를 포함하는
    것을 특징으로 하는 텍스트 주제 생성 방법.
  7. 제 1 항에 있어서,
    상기 핵심 엔티티 세트 및 상기 각 후보 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 단계 전에,
    미리 설정된 분류 모델을 이용하여, 각 핵심 엔티티의 상기 지식 그래프에서의 각 개념 정보 및 상기 처리 대상 텍스트에 대해 각각 인코딩 및 디코딩 처리를 수행하여, 각 핵심 엔티티의 각 개념 정보와 상기 처리 대상 텍스트의 관련성을 결정하는 단계; 를 더 포함하며,
    상기 핵심 엔티티 세트 및 상기 각 후보 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 단계는,
    각 핵심 엔티티의 각 개념 정보와 상기 처리 대상 텍스트의 관련성에 따라, 각 핵심 엔티티에 대응하는 각 개념 정보에서 상기 처리 대상 텍스트의 주제를 획득하는 단계; 를 포함하는
    것을 특징으로 하는 텍스트 주제 생성 방법.
  8. 처리 대상 텍스트에 대해 엔티티 마이닝을 수행하여, 처리 대상 텍스트에 포함된 각 엔티티를 획득하는 제 1 획득 모듈;
    엔티티 링크를 통해, 지식 그래프에서 상기 처리 대상 텍스트에 포함된 각 엔티티에 대응하는 각 후보 엔티티를 결정하는 제 1 결정 모듈;
    상기 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 클러스터링하여, 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는 제 2 결정 모듈;
    상기 처리 대상 텍스트 내의 각 키워드와 미리 설정된 주제 그래프 내의 각 참조 주제의 매칭 정도에 따라, 상기 처리 대상 텍스트에 포함된 각 후보 주제를 결정하는 제 3 결정 모듈; 및
    상기 핵심 엔티티 세트 내의 각 핵심 엔티티와 상기 처리 대상 텍스트 간의 관련성 및 각 후보 주제와 상기 처리 대상 텍스트 간의 관련성에 따라, 상기 핵심 엔티티 세트 및 상기 각 후보 주제에서 상기 처리 대상 텍스트의 주제를 획득하는 제 2 획득 모듈; 을 포함하는
    것을 특징으로 하는 텍스트 주제 생성 장치.
  9. 제 8 항에 있어서,
    상기 제 2 결정 모듈은,
    상기 지식 그래프에서 각 후보 엔티티와 기타 후보 엔티티의 관련성에 따라, 각 후보 엔티티를 포함하는 관련성 네트워크를 구축하며, 상기 관련성 네트워크의 각 노드는 하나의 후보 엔티티에 대응하고, 두 개의 노드 간의 에지의 방향은 두 개의 노드 간의 계층 관계를 표시하며;
    각 후보 엔티티 간의 에지의 방향에 따라 각 후보 엔티티를 클러스터링하여, 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 결정하는
    것을 특징으로 하는 텍스트 주제 생성 장치.
  10. 제 8 항에 있어서,
    상기 핵심 엔티티 세트는 각 핵심 엔티티에 대응하는 개념 정보 세트 및 상위 경로 정보를 포함하며,
    상기 텍스트 주제 생성 장치는,
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도를 결정하는 제 4 결정 모듈; 및
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 상기 처리 대상 텍스트에 대응하는 핵심 엔티티 세트를 크로핑하는 크로핑 모듈; 을 더 포함하는
    것을 특징으로 하는 텍스트 주제 생성 장치.
  11. 제 10 항에 있어서,
    상기 크로핑 모듈은,
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 개념 정보 세트를 크로핑하는 단계;
    각 핵심 엔티티의 각 개념 정보와 상위 경로 정보의 매칭 정도에 따라, 각 핵심 엔티티의 신뢰도를 결정하며, 각 핵심 엔티티의 신뢰도에 따라, 핵심 엔티티의 수량을 크로핑하는 단계; 중의 적어도 하나를 수행하는
    것을 특징으로 하는 텍스트 주제 생성 장치.
  12. 제 8 항에 있어서,
    상기 미리 설정된 주제 그래프에서 각 후보 주제에 대응하는 상위 주제를 추출하여, 상기 처리 대상 텍스트에 대응하는 확장 주제로 하는 추출 모듈; 및
    각 확장 주제와 상기 처리 대상 텍스트 간의 관련성에 따라, 상기 확장 주제에서 상기 처리 대상 텍스트의 주제를 선택하는 제 3 획득 모듈; 을 더 포함하는
    것을 특징으로 하는 텍스트 주제 생성 장치.
  13. 제 8 항 내지 제 12 항 중 어느 한 항에 있어서,
    제 1 핵심 엔티티는 상기 지식 그래프에서 적어도 두 개의 개념 정보를 포함하고,
    상기 제 2 획득 모듈은,
    미리 설정된 분류 모델을 이용하여, 제 1 핵심 엔티티에 대응하는 각 개념 정보 및 상기 처리 대상 텍스트에 대해 인코딩 및 디코딩 처리를 수행하여, 각 개념 정보와 상기 처리 대상 텍스트의 관련성을 결정하고;
    상기 제 1 핵심 엔티티의 각 개념 정보와 상기 처리 대상 텍스트의 관련성에 따라, 상기 제 1 핵심 엔티티와 상기 처리 대상 텍스트의 관련성을 결정하며;
    상기 제 1 핵심 엔티티와 상기 처리 대상 텍스트의 관련성에 따라, 상기 제 1 핵심 엔티티가 상기 처리 대상 텍스트의 주제인지 여부를 결정하는
    것을 특징으로 하는 텍스트 주제 생성 장치.
  14. 제 8 항 내지 제 12 항 중 어느 한 항에 있어서,
    미리 설정된 분류 모델을 이용하여, 각 핵심 엔티티의 상기 지식 그래프에서의 각 개념 정보 및 상기 처리 대상 텍스트에 대해 인코딩 및 디코딩 처리를 수행하여, 각 핵심 엔티티의 각 개념 정보와 상기 처리 대상 텍스트의 관련성을 결정하는 제 5 결정 모듈; 을 더 포함하며,
    상기 제 2 획득 모듈은 또한,
    각 핵심 엔티티의 각 개념 정보와 상기 처리 대상 텍스트의 관련성에 따라, 각 핵심 엔티티에 대응하는 각 개념 정보에서 상기 처리 대상 텍스트의 주제를 획득하는
    것을 특징으로 하는 텍스트 주제 생성 장치.
  15. 적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제 1 항 내지 제 7 항 중 어느 한 항에 따른 텍스트 주제 생성 방법을 수행하도록 하는
    것을 특징으로 하는 전자기기.
  16. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제 1 항 내지 제 7 항 중 어느 한 항에 따른 텍스트 주제 생성 방법을 수행하도록 하는
    것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  17. 비일시적 컴퓨터 판독가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 상기 컴퓨터가 제 1 항 내지 제 7 항 중 어느 한 항에 따른 텍스트 주제 생성 방법을 수행하도록 하는
    것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210003937A 2020-01-14 2021-01-12 텍스트 주제 생성 방법, 장치 및 전자기기 KR102451496B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010039104.9A CN111241282B (zh) 2020-01-14 2020-01-14 文本主题生成方法、装置及电子设备
CN202010039104.9 2020-01-14

Publications (2)

Publication Number Publication Date
KR20210092142A KR20210092142A (ko) 2021-07-23
KR102451496B1 true KR102451496B1 (ko) 2022-10-06

Family

ID=70864536

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210003937A KR102451496B1 (ko) 2020-01-14 2021-01-12 텍스트 주제 생성 방법, 장치 및 전자기기

Country Status (5)

Country Link
US (1) US20210216580A1 (ko)
EP (1) EP3851975A1 (ko)
JP (1) JP7118184B2 (ko)
KR (1) KR102451496B1 (ko)
CN (1) CN111241282B (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527977A (zh) * 2020-11-09 2021-03-19 清华大学 概念抽取方法、装置、电子设备及存储介质
CN112148843B (zh) * 2020-11-25 2021-05-07 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112541359B (zh) * 2020-11-27 2024-02-02 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质
CN112463895A (zh) * 2020-12-01 2021-03-09 零氪科技(北京)有限公司 基于药物名称挖掘自动发现药物成分的方法和装置
CN113407842B (zh) * 2021-06-28 2024-03-22 携程旅游信息技术(上海)有限公司 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN113792115B (zh) * 2021-08-17 2024-03-22 北京百度网讯科技有限公司 实体相关性确定方法、装置、电子设备及存储介质
CN113836313B (zh) * 2021-09-13 2022-11-25 北京信息科技大学 一种基于图谱的审计信息识别方法与系统
CN113868508B (zh) * 2021-09-23 2022-09-27 北京百度网讯科技有限公司 写作素材查询方法、装置、电子设备和存储介质
WO2023057988A1 (en) * 2021-10-08 2023-04-13 Graphite Growth, Inc. Generation and use of content briefs for network content authoring
CN114492429B (zh) * 2022-01-12 2023-07-18 平安科技(深圳)有限公司 文本主题的生成方法、装置、设备及存储介质
CN116955573B (zh) * 2023-09-19 2024-03-29 北京奇虎科技有限公司 问题搜索方法、装置、设备及存储介质
CN117371440B (zh) * 2023-12-05 2024-03-12 广州阿凡提电子科技有限公司 基于aigc的话题文本大数据分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278949A (ja) 2001-03-19 2002-09-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 表題生成装置及び方法
JP2015125650A (ja) 2013-12-26 2015-07-06 日本放送協会 トピック抽出装置、及びプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8385971B2 (en) * 2008-08-19 2013-02-26 Digimarc Corporation Methods and systems for content processing
US9158838B2 (en) * 2008-12-15 2015-10-13 Raytheon Company Determining query return referents for concept types in conceptual graphs
US10324598B2 (en) * 2009-12-18 2019-06-18 Graphika, Inc. System and method for a search engine content filter
JP5486525B2 (ja) 2011-02-17 2014-05-07 日本電信電話株式会社 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
US11386096B2 (en) * 2011-02-22 2022-07-12 Refinitiv Us Organization Llc Entity fingerprints
US11222052B2 (en) * 2011-02-22 2022-01-11 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and
US8589408B2 (en) * 2011-06-20 2013-11-19 Microsoft Corporation Iterative set expansion using samples
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
US9466297B2 (en) * 2014-12-09 2016-10-11 Microsoft Technology Licensing, Llc Communication system
CN106933789B (zh) 2015-12-30 2023-06-20 阿里巴巴集团控股有限公司 旅游攻略生成方法和生成系统
DK179588B1 (en) * 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10606952B2 (en) * 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
US10963273B2 (en) * 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
CN110309316B (zh) * 2018-06-08 2022-10-25 腾讯科技(深圳)有限公司 一种知识图谱向量的确定方法、装置、终端设备和介质
CN109508391B (zh) * 2018-12-28 2022-04-08 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质
US11080491B2 (en) * 2019-10-14 2021-08-03 International Business Machines Corporation Filtering spurious knowledge graph relationships between labeled entities
US11636438B1 (en) * 2019-10-18 2023-04-25 Meta Platforms Technologies, Llc Generating smart reminders by assistant systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278949A (ja) 2001-03-19 2002-09-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 表題生成装置及び方法
JP2015125650A (ja) 2013-12-26 2015-07-06 日本放送協会 トピック抽出装置、及びプログラム

Also Published As

Publication number Publication date
JP7118184B2 (ja) 2022-08-15
CN111241282A (zh) 2020-06-05
EP3851975A1 (en) 2021-07-21
KR20210092142A (ko) 2021-07-23
US20210216580A1 (en) 2021-07-15
CN111241282B (zh) 2023-09-08
JP2021111415A (ja) 2021-08-02

Similar Documents

Publication Publication Date Title
KR102451496B1 (ko) 텍스트 주제 생성 방법, 장치 및 전자기기
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR102532152B1 (ko) 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
KR102448129B1 (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR102466399B1 (ko) 핵심 엔티티를 레이블링하는 방법, 장치 및 전자 기기
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
JP7096919B2 (ja) エンティティワードの認識方法と装置
US20210334669A1 (en) Method, apparatus, device and storage medium for constructing knowledge graph
CN111460083A (zh) 文档标题树的构建方法、装置、电子设备及存储介质
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
KR102475235B1 (ko) 리소스 정렬 방법, 정렬 모델을 트레이닝하는 방법 및 대응하는 장치
KR20220011082A (ko) 자연 언어 처리 모델의 트레이닝 방법, 장치, 전자 기기 및 기록 매체
KR20210081309A (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
US20210326538A1 (en) Method, apparatus, electronic device for text translation and storage medium
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN114818736B (zh) 文本处理方法、用于短文本的链指方法、装置及存储介质
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
CN112487815B (zh) 核心实体抽取方法、装置以及电子设备
CN115828915B (zh) 实体消歧方法、装置、电子设备和存储介质
US20220028370A1 (en) Method and apparatus for recognizing speech, electronic device and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right