KR20200127020A - 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 - Google Patents

의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 Download PDF

Info

Publication number
KR20200127020A
KR20200127020A KR1020207028156A KR20207028156A KR20200127020A KR 20200127020 A KR20200127020 A KR 20200127020A KR 1020207028156 A KR1020207028156 A KR 1020207028156A KR 20207028156 A KR20207028156 A KR 20207028156A KR 20200127020 A KR20200127020 A KR 20200127020A
Authority
KR
South Korea
Prior art keywords
subject
semantic
tag
text data
clustering
Prior art date
Application number
KR1020207028156A
Other languages
English (en)
Inventor
위 왕
쉬에타오 치우
시슈앙 완
샤오한 서
양 왕
치 장
지준 페이
Original Assignee
차이나 유니온페이 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 차이나 유니온페이 컴퍼니 리미티드 filed Critical 차이나 유니온페이 컴퍼니 리미티드
Publication of KR20200127020A publication Critical patent/KR20200127020A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 의미 텍스트 데이터를 태그와 매칭시키는 방법에 관한 것으로, 상기 방법은 복수의 의미 텍스트 데이터를 전처리하여 복수의 의미 독립 멤버를 포함하는 원시 코퍼스 데이터를 획득하는 단계; 자연 텍스트에서 복수의 의미 독립 멤버의 재현 관계에 따라 복수의 의미 독립 멤버 중 임의의 둘 간의 관련도를 결정하고, 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하고, 복수의 의미 텍스트 데이터와 주제 간의 매핑 확률 관계를 결정하는 단계; 해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 주제의 태그로 선택하고, 결정된 복수의 의미 텍스트 데이터와 주제 간의 매핑 확률 관계에 따라 복수의 의미 텍스트 데이터를 태그에 매핑시키는 단계; 및 결정된 복수의 의미 텍스트 데이터와 태그 간의 매핑 관계를 감독 재료로 사용하고, 매핑되지 않은 의미 텍스트 데이터를 감독 재료에 따라 태그에 매칭시키는 단계를 포함한다.

Description

의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
본 발명은 데이터 처리 방법에 관한 것으로, 특히 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체에 관한 것이다.
모바일 인터넷이 발전함에 따라 사람들은 모바일 기기 상에서 의견을 표명하거나 관련된 자문을 구하는 경향이 높아지고 있다. 예를 들어, APP의 셀프 서비스를 이용하여 메시지로 자문을 구하거나 마이크로 블로그 등 SNS를 이용하여 생각을 표현하는 등의 경우가 있다. 이러한 상황에서는 대량의 구조화되지 않은 짧은 텍스트 데이터가 생성되는데, 이러한 데이터에는 종종 사용자의 핵심 요구 사항이나 제품 및 서비스에 대한 최적화된 제안이 포함된다.
이렇게 가치가 높은 데이터에 대해 관련 부서는 일상적인 분석 작업에서 종종 먼저 텍스트 분류를 수행하는데, 종래의 방식은 주로 수작업으로 표시하므로 효율성이 떨어진다. 따라서 이러한 데이터 분석 및 발굴 능력, 특히 자동 발굴 수준을 향상시킨다면 일상적인 운영 비용을 크게 절감시킬 수 있다. 또한 현재 모바일 네트워크에서 사용자의 댓글 데이터 텍스트는 상당히 짧고 구어화가 심하며, 정보 가치가 분산적이고, 언어 스타일이 불규칙적이며, 성격에 따라 사용자의 표현 방식이 각각 다르기 때문에 기존의 의미 분석에 의한 특징 추출에 큰 과제를 안겨주고 있다.
기존의 짧은 텍스트 분류 방법은 주로 많은 사용자 표시 샘플 코퍼스를 기반으로 하여 분류 모델을 학습시키는 것으로, 그 주요 특징은 사용자가 샘플 코퍼스를 분석하여 하나의 고정된 샘플 분류 태그 체계를 인위적으로 정의하는 것이다. 정의된 업무 분류 태그 체계에 따라 수동으로 샘플 코퍼스의 각 샘플을 하나씩 검사하고, 샘플에 적절한 태그를 붙여 분류 모델 학습을 위한 샘플 데이터 세트를 구축한다. 그리고 구축된 샘플 데이터 세트에 대해 분류 모델을 학습시킨다. 벡터 공간 모델, "빈출 단어 세트 추출" 또는 단어 빈도-역문서 빈도(TF-IDF)의 방법에 따라 짧은 텍스트의 특징을 추출하고, 다시 추출된 텍스트 특징에 따라 분류 알고리즘, 예를 들어 SVM을 이용하여 학습을 실시하여 최종 분류 모델을 형성한다.
본 발명은 사용자 댓글과 같은 의미 텍스트 데이터를 분류하기 위해, 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체를 제안한다.
본 발명의 일 측면에 따르면, 의미 텍스트 데이터를 태그와 매칭시키는 방법은, 복수의 의미 텍스트 데이터를 전처리하여 복수의 의미 독립 멤버를 포함하는 원시 코퍼스 데이터를 획득하는 단계; 자연 텍스트에서 복수의 상기 의미 독립 멤버의 재현 관계에 따라 복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도를 결정하고, 상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계를 결정하는 단계; 해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하고, 결정된 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 상기 복수의 의미 텍스트 데이터를 상기 태그에 매핑시키는 단계; 및 결정된 상기 복수의 의미 텍스트 데이터와 상기 태그 간의 매핑 관계를 감독 재료로 사용하고, 매핑되지 않은 의미 텍스트 데이터를 상기 감독 재료에 따라 상기 태그에 매칭시키는 단계를 포함한다.
선택적으로, 상기 전처리는 상기 복수의 의미 텍스트 데이터에 대하여 단어 분할, 불용어(stop word) 제거, 비(非)중국어 문자 제거, 숫자 기호 제거 및 단어 오류 정정 중 하나 이상을 수행하는 것을 포함한다.
선택적으로, 상기 전처리는 부정 의미 및/또는 의문 의미를 포함하는 상기 복수의 의미 텍스트 데이터만 추출하는 단계를 포함한다.
선택적으로, 상기 자연 텍스트에서의 재현 관계는, 상기 원시 코퍼스 데이터 및/또는 자연 텍스트 코퍼스에서의 문맥 재현 관련 정도를 나타낸다.
선택적으로, 복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도을 결정하는 단계는, 상기 원시 코퍼스 데이터에서 모든 의미 독립 멤버를 인덱스하는 단계; 상기 원시 코퍼스 데이터에서 상기 의미 독립 멤버의 단어 벡터를 결정하고, 상기 의미 독립 멤버의 임의의 둘 간의 유사성을 결정하는 단계; 및 상기 인덱스 및 상기 유사성에 따라 의미 독립 멤버 쌍의 유사성 매트릭스를 구축하는 단계를 포함한다.
선택적으로, 상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하는 단계는, 상기 유사성 매트릭스에 깁스 반복 샘플링(Gibbs iterative sampling)을 수행하여 상기 원시 코퍼스 데이터와 상기 주제 간의 매핑 관계 및 상기 주제와 상기 의미 독립 멤버 쌍 간의 매핑 관계를 획득하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계 및 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계를 결정하는 단계를 포함한다.
선택적으로, 해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하는 단계는, 상기 복수의 의미 텍스트 데이터를 클러스터링하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하는 단계; 및 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 의미 독립 멤버에 매핑하여 클러스터링 후의 주제에 대응하는 상기 태그로 사용하는 단계를 포함한다.
선택적으로, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하는 단계는, 상기 복수의 의미 텍스트 데이터 각각의 최대 확률 주제를 결정하는 단계; 각 클러스터링에서 상기 최대 확률 주제의 수를 결정하는 단계; 및 클러스터링 중 수가 가장 큰 상기 최대 확률 주제를 클러스터링 후의 주제로 사용하는 단계를 포함한다.
선택적으로, 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 주제에 대응하는 확률 값이 가장 큰 소정 수의 의미 독립 멤버를 결정하여 상기 클러스터링 후의 주제의 태그로 사용한다.
선택적으로, 다른 클러스터링 후의 주제의 태그에 같은 태그가 포함되는 경우, 상기 다른 클러스터링 후의 주제에서의 상기 같은 태그의 확률 값을 비교하고, 최대 확률 값을 가지는 태그를 상기 최대 확률 값을 가지는 태그가 속하는 상기 클러스터링 후의 주제의 태그로 유지하고, 최대 확률 값을 가지는 태그를 제외한 태그가 속하는 상기 클러스터링 후의 주제에 대해서는, 확률 값이 상기 같은 태그의 확률 값보다 작은 의미 독립 멤버를 상기 클러스터링 후의 주제의 태그로 사용한다.
본 발명의 다른 일 측면에 따르면, 의미 텍스트 데이터를 태그와 매칭시키는 장치는, 복수의 의미 텍스트 데이터를 전처리하여 복수의 의미 독립 멤버를 포함하는 원시 코퍼스 데이터를 획득하도록 구성되는 전처리 유닛; 자연 텍스트에서 복수의 상기 의미 독립 멤버의 재현 관계에 따라 복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도를 결정하고, 상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계를 결정하도록 구성되는 주제 모델 유닛; 해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하고, 결정된 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 상기 복수의 의미 텍스트 데이터를 상기 태그에 매핑시키도록 구성되는 태그 결정 유닛; 및 결정된 상기 복수의 의미 텍스트 데이터와 상기 태그 간의 매핑 관계를 감독 재료로 사용하고, 매핑되지 않은 의미 텍스트 데이터를 상기 감독 재료에 따라 상기 태그에 매칭시키도록 구성되는 태그 매칭 유닛을 포함한다.
선택적으로, 상기 전처리는 상기 복수의 의미 텍스트 데이터에 대하여 단어 분할, 불용어 제거, 비중국어 문자 제거, 숫자 기호 제거 및 단어 오류 정정 중 하나 이상을 수행하는 것을 포함한다.
선택적으로, 상기 전처리는 부정 의미 및/또는 의문 의미를 포함하는 상기 복수의 의미 텍스트 데이터만 추출하는 단계를 포함한다.
선택적으로, 상기 자연 텍스트에서의 재현 관계는, 상기 원시 코퍼스 데이터 및/또는 자연 텍스트 코퍼스에서의 문맥 재현 관련 정도를 나타낸다.
선택적으로, 복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도을 결정하도록 구성되는 상기 주제 모델 유닛은, 상기 원시 코퍼스 데이터에서 모든 의미 독립 멤버를 인덱스하고; 상기 원시 코퍼스 데이터에서 상기 의미 독립 멤버의 단어 벡터를 결정하고, 상기 의미 독립 멤버의 임의의 둘 간의 유사성을 결정하고; 및 상기 인덱스 및 상기 유사성에 따라 의미 독립 멤버 쌍의 유사성 매트릭스를 구축하는 프로세스를 수행한다.
선택적으로, 상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하도록 구성되는 상기 주제 모델 유닛은, 상기 유사성 매트릭스에 깁스 반복 샘플링을 수행하여 상기 원시 코퍼스 데이터와 상기 주제 간의 매핑 관계 및 상기 주제와 상기 의미 독립 멤버 쌍 간의 매핑 관계를 획득하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계 및 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계를 결정하는 프로세스를 수행한다.
선택적으로, 해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하도록 구성되는 상기 태그 결정 유닛은, 상기 복수의 의미 텍스트 데이터를 클러스터링하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하고; 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 의미 독립 멤버에 매핑하여 클러스터링 후의 주제에 대응하는 상기 태그로 사용하는 프로세스를 수행한다.
선택적으로, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하도록 구성되는 상기 태그 결정 유닛은, 상기 복수의 의미 텍스트 데이터 각각의 최대 확률 주제를 결정하고; 각 클러스터링에서 상기 최대 확률 주제의 수를 결정하고; 및 클러스터링 중 수가 가장 큰 상기 최대 확률 주제를 클러스터링 후의 주제로 사용하는 프로세스를 수행한다.
선택적으로, 상기 태그 결정 유닛은, 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 주제에 대응하는 확률 값이 가장 큰 소정 수의 의미 독립 멤버를 결정하여 상기 클러스터링 후의 주제의 태그로 사용하도록 구성된다.
선택적으로, 상기 태그 결정 유닛은, 다른 클러스터링 후의 주제의 태그에 같은 태그가 포함되는 경우, 상기 다른 클러스터링 후의 주제에서의 상기 같은 태그의 확률 값을 비교하고, 최대 확률 값을 가지는 태그를 상기 최대 확률 값을 가지는 태그가 속하는 상기 클러스터링 후의 주제의 태그로 유지하고; 최대 확률 값을 가지는 태그를 제외한 태그가 속하는 상기 클러스터링 후의 주제에 대해서는, 확률 값이 상기 같은 태그의 확률 값보다 작은 의미 독립 멤버를 상기 클러스터링 후의 주제의 태그로 사용하도록 구성된다.
본 발명의 또 다른 측면에 따르면, 명령을 저장하는 컴퓨터 판독 가능한 기억 매체를 제안하며, 상기 명령이 프로세서에 의해 실행될 때, 상기 프로세서는 상기에 기재된 방법을 실행하도록 구성된다.
본 발명의 상기 목적과 다른 목적 및 장점은 첨부된 도면과 함께 이하의 상세한 설명을 통해 더욱 명확해질 것이다. 여기에서 동일하거나 유사한 요소는 동일한 부호로 표시된다.
도 1은 본 발명의 일 실시예에 따른 의미 텍스트 데이터를 태그와 매칭시키는 방법의 흐름도를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 전처리 흐름도를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 주제 모델을 구축하는 흐름도를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 분류 태그 학습의 흐름도를 나타낸다.
도 5는 본 발명의 일 실시예에 따른 분류 모델 학습의 흐름도를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 K-means 클러스터링의 개략도를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 SVM 분류기의 카테고리 태그별 예측 결과를 나타낸다.
간결하게 설명하기 위해, 본 명세서는 주로 예시적인 실시예를 참조하여 본 발명의 원리를 설명한다. 그러나 당업자는 동일한 원리가 모든 유형의 시각 인식 시스템에 사용되는 성능 테스트 시스템 및/또는 성능 테스트 방법에 동등하게 적용될 수 있고, 이러한 동일하거나 유사한 원리는 그안에서 구현될 수 있으며, 이러한 변경은 본 특허 출원의 사상 및 범위를 벗어나지 않음을 쉽게 인식할 수 있다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 의미 텍스트 데이터를 태그와 매칭시키는 방법의 흐름도가 도시되어 있다. 단계 102에서 사용자 댓글 데이터를 전처리 한다. 전처리의 목적은 사용자 댓글과 같은 의미 텍스트 데이터를 가공하여 의미가 독립된 멤버(예, 영어 단어, 중국어 어휘 등 형태소) 및 원시 코퍼스 데이터를 획득하는 데에 있다. 각각의 의미가 독립된 멤버는 의미 분석을 위한 독립 단위이며, 특히 의미가 독립된 멤버는 의미 해석을 위한 최소 단위일 수도 있다.
도 2에 도시된 실시예에서, 의미 독립 멤버를 획득하기 위해 jieba 등 중국어 단어 분할 툴킷을 통해 단어 분할을 구현할 수 있다(단계 202). 다음으로 단어가 분할된 독립 멤버에 대해 불용어 제거, 비중국어 문자 제거, 숫자 기호 제거 및 단어 오류 정정 등 작업을 수행한다(단계 204). 그 다음 선택적인 전처리로서 사용자의 핵심 의도가 포함된 문장을 추출할 수도 있다(미도시). 예를 들어, 사용자 댓글 내용인 데이터 플랫폼의 사용자 피드백 정보에서 부정어 또는 의문어를 포함하는 문장만 추출할 수 있으며, 원시 샘플의 핵심 문장으로서 의미 독립 멤버 및 원시 코퍼스 데이터를 더 획득할 수 있고, 추출이 어려운 경우 해당 단계를 곧바로 건너뛸 수 있다. 마지막으로, 단계 206에서는 복수의 의미 독립 멤버를 이용하여 원시 코퍼스 데이터를 형성한다.
단계 104에서 주제 모델이 결정된다. 자연 텍스트에서 형태소의 재현 관계에 따라 임의의 두 형태소 간의 관련도을 결정하고, 관련도에 따라 해당 관련에 대응하는 주제를 결정한 다음, 형태소와 주제 간의 매핑 확률 관계를 결정한다. 재현 관계는 형태소 간의 의미 관련 정도를 반영한다. 예를 들어, 한 문장(또는 한 구절등)에서 "결제"가 문맥적 의미와의 관련성이 특정 값 X에 도달하고, "카드 긁기"가 문맥적 의미와의 관련성이 특정 값 Y에 도달하고, X
Figure pct00001
Y이면, "결제"와 "카드 긁기"는 의미적 관련도가 비교적 강한 것으로 간주할 수 있다. 여기에서 "결제"와 문맥적 의미와의 관련성은 통계 등을 통해 도출할 수 있으므로, 통계에서 "결제"와 문맥적 의미와의 관련성은 자연 텍스트에서의 재현에 따라 결정된다. 자연 텍스트는 고찰 및 처리를 위한 타깃 텍스트(본 명세서에서는 원시 코퍼스 데이터)이거나, 바이두 백과(Baidu baike), 위키 백과(Wikipedia), 소우거우(Sogou) 인터넷 코퍼스 등과 같은 임의의 의미있는 자연 텍스트 코퍼스일 수 있다.
구체적으로, 단계 104는 도 3에 도시된 실시예에 의해 구현될 수 있다. 단계 402에서 단어 벡터를 학습시킨다. 전처리된 코퍼스에 대해서는 gensim 툴킷을 통해 단어 벡터 학습을 구현하고 후속적으로 짧은 텍스트의 모델링에 사용한다. 수집된 데이터가 적으면 단어 벡터의 학습 효과가 일반적이므로, 소우거우 인터넷 코퍼스 등 대형 중국어 코퍼스를 도입하여 보완하거나, 구글(Google) 오픈 소스의 중국어 벡터 모델을 직접 사용할 수 있다. 단어 벡터는 TF-IDF로 단어들 간의 의미적 유사성을 측정할 수 없는 단점을 보완할 수 있다.
단계 404에서 단어 쌍의 유사성 매트릭스를 생성한다. 텍스트에서 다른 어휘의 인덱스를 구축하며, 인덱스는 어휘의 라벨로서 존재한다.
단계 406에서 우선 중국 레스토랑 프로세스(CRP)에 따라 단어 쌍-주제의 확률 분포 매트릭스를 생성할 수 있다. 그 후 단어 쌍 집합에 따라 각 문서에 나타나는 단어 쌍의 개수를 통계하고, 문서에 나타나는 모든 단어 쌍의 개수를 1 × N 차원 매트릭스로 저장한다. 단어 쌍은 기본 형태소인 임의의 두 어휘 쌍이다. 마지막으로 단어 쌍의 유사성 매트릭스 Sim를 구축하여 후속 처리에 사용한다.
단계 408에서 Sim 매트릭스를 이용하여 깁스 반복 샘플링을 수행하고, 단어 쌍 주제 모델에서 깁스 샘플링을 통해 전체 코퍼스-주제 매트릭스 및 주제-단어 쌍 매트릭스를 획득하고 텍스트 모델을 구축한다. 구체적인 과정은 다음과 같다.
먼저, 단어 쌍 주제 모델의 초기화 파라미터를 설정한다. 디리클레 분포(Dirichlet distribution)의 사전 파라미터 α=0.5, β=0.1, 최대 반복 횟수 iteration=100, 중간 결과를 저장하기 위한 단계 길이 savestep=10 등이다.
다음으로 코퍼스의 단어 쌍 집합을 순환하며 순회하고, 매번 샘플링 과정에서 단어 쌍 간의 유사성을 고려하여 단어 쌍의 주제를 할당하며, 여기에서 단어 쌍의 유사성은 주로 중국 레스토랑 프로세스에 따라 생성된다.
Figure pct00002
여기에서 di는 주제 i의 기존 단어 쌍 수를 나타내고, n-1은 현재 단어 쌍 이전에 이미 구비한 단어 쌍의 총수를 나타내며, d0은 초기 파라미터이다. p(Dn=k|D-n)은 단어 쌍 Dn의 주제 k에 할당된 확률을 나타낸다.
다음으로, 단어 쌍의 주제 할당에 따라 코퍼스-주제 매트릭스 및 주제-단어 쌍 매트릭스를 업데이트한 후, 반복 횟수가 savestep의 정수배에 도달하였는지 여부를 판단하고, 도달하지 못할 경우 코퍼스의 단어 쌍 집합을 계속 순회한다.
마지막으로, 코퍼스-주제 매트릭스 및 주제-단어 쌍 매트릭스를 저장하고, 반복 횟수가 최대 반복 횟수(100 회)에 도달하였는지 여부를 판단하고, 도달하지 못할 경우 코퍼스 단어 쌍 집합을 계속 순회 하고, 최종 생성된 코퍼스-주제 매트릭스 및 주제-단어 쌍 매트릭스를 저장한다.
도 1로 돌아가서, 단계 106에서 분류 태그의 학습을 실시한다. 구체적으로 도 4에 도시된 바와 같이, 추론을 통해 사용자 댓글-주제 확률 분포 매트릭스(단계 604) 및 주제-단어 확률 분포 매트릭스(단계 602)를 생성한다. 짧은 텍스트 주제 매트릭스를 이용하여 짧은 텍스트를 나타낸다. 즉, 주제의 확률 분포를 사용하여 짧은 텍스트의 특징을 나타낸다.
Figure pct00003
여기에서 p(zi|di)는 짧은 텍스트 di에서 주제 zi의 확률을 나타내고, k는 짧은 텍스트 코퍼스 전체에서 주제의 개수이다.
단계 606에서 K-Means 클러스터링 등과 같은 방법을 사용하여 코퍼스 전체를 클러스터링할 수 있으며, 클러스터링 알고리즘에서 JS 거리를 이용하여 텍스트의 유사도를 측정할 수있다.
Figure pct00004
여기에서,
Figure pct00005
단계 608에서 클러스터 내의 모든 사용자 댓글 코퍼스를 순회하고, 사용자 댓글-주제 매트릭스에 따라 각 댓글 데이터의 최대 확률 주제를 찾고, 다른 최대 확률 주제의 개수를 통계하여 개수가 최대인 주제를 클러스터 주제로 추출한다(단계 610). 단계 612에서, 해당 주제-단어의 확률 매트릭스에서 확률 값이 가장 큰 상위 n 개의 단어를 해당 클러스터의 태그 정보로 선택한다. 각 클러스터의 태그 키워드에 대해 다시 검사를 수행하고 다른 클러스터에서 키워드가 중복되는 경우, 각각의 클러스터에 대응하는 주제 하에서 키워드를 다시 선택하고, 각자의 주제 하에서 해당 같은 키워드의 확률 값을 보고 확률 값이 작은 키워드는 다음 확률 값의 어휘나 어구로 대체된다.
도 1로 돌아가서, 단계 108에서는 분류 모델 학습을 실시한다. 구체적으로 도 5에 도시된 바와 같은 실시예이다. 단계 802에서는 단계 106에서 학습된 분류 유형별 정보에 따라 사용자 댓글 코퍼스에 자동으로 분류 태그를 붙이며, 사용자 댓글과 태그 간의 매핑 관계를 획득한다. 단계 804에서 클러스터 주제 후의 사용자 댓글에 기초하여 사용자 댓글 코퍼스를 획득한다. 단계 806에서 각 사용자 댓글 코퍼스에 대해 텍스트의 특징으로서 TF-IDF 및 단어 벡터를 추출한다. 다음으로, SVM 및 양방향 LSTM 두 가지 분류 알고리즘을 이용하여 분류 모델을 학습시키고(단계 808), 투표 분류기를 사용하여 투표 집계를 수행하고, 사용자 댓글 분류 모델을 구축한다(단계 810).
본 실시예는 주로 데이터 플랫폼의 사용자 피드백 메시지를 분석한다. 먼저 본 발명에서 제안하는 짧은 텍스트 특징 추출 방법에 따라 데이터 플랫폼의 사용자 피드백 메시지의 의미 특징 정보를 추출한 후 분류 모델을 구축하여 사용자 피드백 메시지의 자동 분류를 구현한다. 데이터 소스는 특정 달의 데이터 플랫폼 APP 사용자의 피드백 메시지 데이터이다. 원시 데이터는 주로 텍스트의 형태로 저장되며, 구체적인 예는 표 1을 참조할 수 있다.
Figure pct00006
데이터 플랫폼의 사용자 피드백 메시지의 자동 분류는 예를 들어 다음과 같은 예에 따라 수행할 수 있다.
단계 1. 피드백 메시지 데이터 전처리
대량의 데이터 분석에 따르면, 대부분의 경우 사용자는 부정어나 의문사를 사용하여 직면한 문제를 언급하기 때문에, 키워드 정보를 더 추출하기 위해 다음과 같은 방법을 사용하여 사용자 피드백 메시지의 부정 창구을 추출한다.
1.1 일반적인 중국어 및 영어 기호(예를 들어, 전각, 반각의 쉼표, 마침표 등)를 이용하여 문장을 여러 개의 짧은 구로 나눈다.
1.2 첫 번째 부정어 또는 의문사가 있는 짧은 구를 찾아 창구로 사용한다.
1.3 지정된 창구 크기(본 명세서에서 설정한 전후의 단계 길이는 모두 1임)를 설정하고 부정 창구를 추출한다.
단계 2. 데이터 플랫폼의 사용자 피드백 짧은 텍스트의 특징 표시
2.1 단계 1에서 전처리한 코퍼스에 대해 Google에 제안된 Word2Vec 방법 중의 Skip-gram 모델을 사용하고 gensim 라이브러리 중의 word2vec 함수를 이용하여 학습을 수행한다. 여기에서 설정된 단어 벡터 차원은 200으로 설정하고, Skip-gram 모델의 창구 크기를 5로 했다. 표 2는 예시적인 결과를 나타낸다.
Figure pct00007
2.2 바이두 백과와 전용 분야의 단어 벡터를 비교한다.
Figure pct00008
단어 벡터는 결제 분야의 지식을 보다 정확하게 표현할 수 있으며, 이는 나중에 수행되는 분류에 대해 보다 정확한 의미 정보를 제공한다.
깁스 샘플링을 사용하여 전체 사용자 댓글 코퍼스-주제 매트릭스 및 주제-단어 쌍 매트릭스를 획득한다. 여기에서 디리클레 분포의 사전 파라미터 α=0.5, β=0.1, 반복 횟수는 500이고, 중간 결과를 저장하기 위한 단계 길이는 10이다.
단계 3. 데이터 플랫폼의 사용자 피드백 메시지의 분류 태그 추출
3.1 상기에서 획득한 특징 매트릭스를 입력으로 하고, scikit-learn 기계 학습 툴킷을 사용하여 K-means 클러스터링을 수행한다(도 6). 후속의 클러스터링 병합 방법과 함께 사용하기 위해, 이러한 경우에는 초기 클러스터링 개수를 60으로 설정하고, 최종 클러스터링 개수는 실루엣 계수와 S_Dbw에 의해 공동으로 결정한다는 점에 유의해야 한다.
3.2 클러스터 내의 텍스트를 순회하고, 텍스트-주제 확률 분포 매트릭스에 따라 해당 텍스트 하에서의 최대 주제 확률 값을 가지는 주제를 찾는다. 해당 클러스터 하의 각 주제가 차지하는 비율을 통계하여 출현 횟수가 가장 많은 주제를 찾는다. 주제-단어 매트릭스에서 이전 단계에서 통계한 출현 횟수가 가장 많은 주제를 찾은 후, 해당 주제 하의 확률 값 크기가 상위 10위인 어휘나 어구를 클러스터로 찾아 설명한다(표 4, 표 5에서 도시하는 바와 같음).
Figure pct00009
Figure pct00010
단계 4. 데이터 플랫폼의 사용자 메시지의 자동 분류
4.1 sklearn 패킷을 사용하여 기계 학습 알고리즘(주로 SVM 알고리즘을 이용)의 분류 실험을 수행하고, 분류 지표의 정확성을 위해, 5겹 교차 검증(5-fold cross validation)을 채용하여 결과의 안정성을 보장한다.
분류 모델 구축 과정에서 그리드 검색(GridSearch)을 사용하여, C=3.276, kernel='rbf', gamma=0.01로 설정된 최적의 SVM 파라미터를 획득하였다. 도 7은 해당 구성에 따른 태그 예측 결과의 예를 나타낸다.
4.2 실제 응용 시나리오, 예를 들어 데이터 플랫폼 시나리오에서는 모델의 가용성을 높이기 위해 분류 예측의 확률 임계 값을 설정할 수 있으며, 예측 확률 유형이 높지 않은 데이터는 수동으로 처리한다. 모델 정확도와 리콜율(recall rate)을 종합적으로 고려하여 임계 값을 0.6로 설정할 수 있다.
본 명세서에서 제안한 APP 사용자 댓글 자동 응답 방법을 이용하면, 한편으로는 사용자 댓글 등의 짧은 텍스트 데이터에서 핫한 화제 유형을 효율적으로 발굴할 수 있으며, 제품 사용 과정에서 사용자의 주요 컨설팅 핫 이슈를 파악할 수 있고, 다른 한편으로는 사용자 댓글의 자동 분류를 구현할 수 있어 APP의 운영 서비스 효율성을 크게 향상시킬 수 있다.
본 발명에서 언급한 분류 태그 체계는 자기 학습을 기반으로 하는 방법으로, 작업자가 짧은 텍스트 코퍼스의 모든 텍스트 정보를 수동으로 분석할 필요가 없고, 후속 태그 체계의 업데이트 및 유지 보수도 자동으로 완료되어 수작업량을 크게 줄일 수 있으며, 실제 시나리오에 쉽게 적용할 수 있다. 본 발명의 분류 학습 코퍼스도 태그 분류 과정에서 생성되므로 코퍼스를 수동으로 마킹할 필요가 없다. 본 발명은 분류 태그 추출 과정에서 전체 짧은 텍스트 코퍼스를 결합하여 주제 모델링을 수행하므로 텍스트 의미가 희소한 문제를 효과적으로 완화시키고, 주제-단어 쌍 샘플링 과정에서 단어 쌍의 유사성이 융합되기 때문에 텍스트 중 다른 단어 쌍의 문맥 연관 관계를 고려하면 텍스트에서 더 넓은 의미 특징을 추출할 수 있어 의미 표현 능력이 더 강하다. 텍스트 분류 과정에서 각 짧은 텍스트의 특징에는 TF-IDF 계산의 특징 이외에, 주제 모델에서 추출한 특징도 포함되어 있어 통계적 관점에서뿐만 아니라 문맥 정보의 특징도 융합된다.
이상의 예시에서는 주로 본 발명의 의미 텍스트 데이터를 태그와 매칭시키는 방법, 의미 텍스트 데이터를 태그와 매칭시키는 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체를 설명했다. 비록 본 발명의 일부 실시예를 설명하였으나, 당업자는 본 발명의 요지와 범위를 벗어나지 않는 범위 내에서 다양한 형태로 실시될 수 있음을 이해해야 한다. 따라서, 예시된 예 및 실시 방식은 제한적인 것이기보다는 예시적인 것으로 간주해야 하며, 본 발명은 첨부된 청구 범위에 의해 정의되는 본 발명의 사상 및 범위를 벗어나지 않는 범위 내에서 다양한 수정 및 교체를 포함할 수 있다.

Claims (21)

  1. 의미 텍스트 데이터를 태그와 매칭시키는 방법에 있어서,
    복수의 의미 텍스트 데이터를 전처리하여 복수의 의미 독립 멤버를 포함하는 원시 코퍼스 데이터를 획득하는 단계;
    자연 텍스트에서 복수의 상기 의미 독립 멤버의 재현 관계에 따라 복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도를 결정하고, 상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계를 결정하는 단계;
    해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하고, 결정된 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 상기 복수의 의미 텍스트 데이터를 상기 태그에 매핑시키는 단계; 및
    결정된 상기 복수의 의미 텍스트 데이터와 상기 태그 간의 매핑 관계를 감독 재료로 사용하고, 매핑되지 않은 의미 텍스트 데이터를 상기 감독 재료에 따라 상기 태그에 매칭시키는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 전처리는 상기 복수의 의미 텍스트 데이터에 대하여 단어 분할, 불용어 제거, 비중국어 문자 제거, 숫자 기호 제거 및 단어 오류 정정 중 하나 이상을 수행하는 것을 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 전처리는 부정 의미 및/또는 의문 의미를 포함하는 상기 복수의 의미 텍스트 데이터만 추출하는 것을 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 자연 텍스트에서의 재현 관계는, 상기 원시 코퍼스 데이터 및/또는 자연 텍스트 코퍼스에서의 문맥 재현 관련 정도를 나타내는 것임을 특징으로 하는 방법.
  5. 제1항 또는 제4항에 있어서,
    복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도을 결정하는 상기 단계는,
    상기 원시 코퍼스 데이터에서 모든 의미 독립 멤버를 인덱스하는 단계;
    상기 원시 코퍼스 데이터에서 상기 의미 독립 멤버의 단어 벡터를 결정하고, 상기 의미 독립 멤버의 임의의 둘 간의 유사성을 결정하는 단계; 및
    상기 인덱스 및 상기 유사성에 따라 의미 독립 멤버 쌍의 유사성 매트릭스를 구축하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하는 단계는,
    상기 유사성 매트릭스에 깁스 반복 샘플링을 수행하여 상기 원시 코퍼스 데이터와 상기 주제 간의 매핑 관계 및 상기 주제와 상기 의미 독립 멤버 쌍 간의 매핑 관계를 획득하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계 및 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제6항에 있어서,
    해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하는 상기 단계는,
    상기 복수의 의미 텍스트 데이터를 클러스터링하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하는 단계; 및
    상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 의미 독립 멤버로 매핑하여 클러스터링 후의 주제에 대응하는 상기 태그로 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서,
    상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하는 단계는,
    상기 복수의 의미 텍스트 데이터 각각의 최대 확률 주제를 결정하는 단계;
    각 클러스터링에서 상기 최대 확률 주제의 수를 결정하는 단계; 및
    클러스터링 중 수가 가장 큰 상기 최대 확률 주제를 클러스터링 후의 주제로 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 주제에 대응하는 확률 값이 가장 큰 소정 수의 의미 독립 멤버를 결정하여 상기 클러스터링 후의 주제의 태그로 사용하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서,
    다른 클러스터링 후의 주제의 태그에 같은 태그가 포함되는 경우, 상기 다른 클러스터링 후의 주제에서의 상기 같은 태그의 확률 값을 비교하고, 최대 확률 값을 가지는 태그를 상기 최대 확률 값을 가지는 태그가 속하는 상기 클러스터링 후의 주제의 태그로 유지하고,
    최대 확률 값을 가지는 태그를 제외한 태그가 속하는 상기 클러스터링 후의 주제에 대해서는, 확률 값이 상기 같은 태그의 확률 값보다 작은 의미 독립 멤버를 상기 클러스터링 후의 주제의 태그로 사용하는 것을 특징으로 하는 방법.
  11. 의미 텍스트 데이터를 태그와 매칭시키는 장치에 있어서,
    복수의 의미 텍스트 데이터를 전처리하여 복수의 의미 독립 멤버를 포함하는 원시 코퍼스 데이터를 획득하도록 구성되는 전처리 유닛;
    자연 텍스트에서 복수의 상기 의미 독립 멤버의 재현 관계에 따라 복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도를 결정하고, 상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계를 결정하도록 구성되는 주제 모델 유닛;
    해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하고, 결정된 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 상기 복수의 의미 텍스트 데이터를 상기 태그에 매핑시키도록 구성되는 태그 결정 유닛; 및
    결정된 상기 복수의 의미 텍스트 데이터와 상기 태그 간의 매핑 관계를 감독 재료로 사용하고, 매핑되지 않은 의미 텍스트 데이터를 상기 감독 재료에 따라 상기 태그에 매칭시키도록 구성되는 태그 매칭 유닛을 포함하는 것을 특징으로 하는 장치.
  12. 제11항에 있어서,
    상기 전처리는 상기 복수의 의미 텍스트 데이터에 대하여 단어 분할, 불용어 제거, 비중국어 문자 제거, 숫자 기호 제거 및 단어 오류 정정 중 하나 이상을 수행하는 것을 포함하는 것을 특징으로 하는 장치.
  13. 제11항에 있어서,
    상기 전처리는 부정 의미 및/또는 의문 의미를 포함하는 상기 복수의 의미 텍스트 데이터만 추출하는 것을 포함하는 것을 특징으로 하는 장치.
  14. 제11항에 있어서,
    상기 자연 텍스트에서의 재현 관계는, 상기 원시 코퍼스 데이터 및/또는 자연 텍스트 코퍼스에서의 문맥 재현 관련 정도를 나타내는 것임을 특징으로 하는 장치.
  15. 제11항 또는 제14항에 있어서,
    복수의 상기 의미 독립 멤버 중 임의의 둘 간의 관련도를 결정하도록 구성되는 상기 주제 모델 유닛은,
    상기 원시 코퍼스 데이터에서 모든 의미 독립 멤버를 인덱스하고;
    상기 원시 코퍼스 데이터에서 상기 의미 독립 멤버의 단어 벡터를 결정하고, 상기 의미 독립 멤버의 임의의 둘 간의 유사성을 결정하고; 및
    상기 인덱스 및 상기 유사성에 따라 의미 독립 멤버 쌍의 유사성 매트릭스를 구축하는 프로세스를 수행하는 것을 특징으로 하는 장치.
  16. 제15항에 있어서,
    상기 임의의 둘 간의 관련도에 따라 해당 관련에 대응하는 주제를 결정하도록 구성되는 상기 주제 모델 유닛은,
    상기 유사성 매트릭스에 깁스 반복 샘플링을 수행하여 상기 원시 코퍼스 데이터와 상기 주제 간의 매핑 관계 및 상기 주제와 상기 의미 독립 멤버 쌍 간의 매핑 관계를 획득하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계 및 상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계를 결정하는 프로세스를 수행하는 것을 특징으로 하는 장치.
  17. 제16항에 있어서,
    해당 관련에 대응하는 복수의 의미 독립 멤버 중 하나를 상기 주제의 태그로 선택하도록 구성되는 상기 태그 결정 유닛은,
    상기 복수의 의미 텍스트 데이터를 클러스터링하고, 상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하고; 및
    상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 의미 독립 멤버로 매핑하여 클러스터링 후의 주제에 대응하는 상기 태그로 사용하는 프로세스를 수행하는 것을 특징으로 하는 장치.
  18. 제17항에 있어서,
    상기 복수의 의미 텍스트 데이터와 상기 주제 간의 매핑 확률 관계에 따라 클러스터링 후의 상기 복수의 의미 텍스트 데이터의 주제를 결정하도록 구성되는 상기 태그 결정 유닛은,
    상기 복수의 의미 텍스트 데이터 각각의 최대 확률 주제를 결정하고;
    각 클러스터링에서 상기 최대 확률 주제의 수를 결정하고; 및
    클러스터링 중 수가 가장 큰 상기 최대 확률 주제를 클러스터링 후의 주제로 사용하는 프로세스를 수행하는 것을 특징으로 하는 장치.
  19. 제18항에 있어서,
    상기 태그 결정 유닛은,
    상기 주제와 복수의 상기 의미 독립 멤버 간의 매핑 확률 관계에 따라 클러스터링 후의 주제에 대응하는 확률 값이 가장 큰 소정 수의 의미 독립 멤버를 결정하여 상기 클러스터링 후의 주제의 태그로 사용하도록 구성되는 것을 특징으로 하는 장치.
  20. 제19항에 있어서,
    상기 태그 결정 유닛은,
    다른 클러스터링 후의 주제의 태그에 같은 태그가 포함되는 경우, 상기 다른 클러스터링 후의 주제에서의 상기 같은 태그의 확률 값을 비교하고, 최대 확률 값을 가지는 태그를 상기 최대 확률 값을 가지는 태그가 속하는 상기 클러스터링 후의 주제의 태그로 유지하고,
    최대 확률 값을 가지는 태그를 제외한 태그가 속하는 상기 클러스터링 후의 주제에 대해서는, 확률 값이 상기 같은 태그의 확률 값보다 작은 의미 독립 멤버를 상기 클러스터링 후의 주제의 태그로 사용하도록 구성되는 것을 특징으로 하는 장치.
  21. 제1항 내지 제10항 중 어느 한 항에 따른 방법을 실행하도록 구성되는 프로세서에 의해 실행되는 명령을 저장하는 컴퓨터 판독 가능한 기억 매체.
KR1020207028156A 2018-12-27 2019-07-04 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 KR20200127020A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811610544.4 2018-12-27
CN201811610544.4A CN110032639B (zh) 2018-12-27 2018-12-27 将语义文本数据与标签匹配的方法、装置及存储介质
PCT/CN2019/094646 WO2020134008A1 (zh) 2018-12-27 2019-07-04 一种将语义文本数据与标签匹配的方法、装置以及一种储存指令的计算机可读存储介质

Publications (1)

Publication Number Publication Date
KR20200127020A true KR20200127020A (ko) 2020-11-09

Family

ID=67235412

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207028156A KR20200127020A (ko) 2018-12-27 2019-07-04 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체

Country Status (5)

Country Link
US (1) US11586658B2 (ko)
JP (1) JP7164701B2 (ko)
KR (1) KR20200127020A (ko)
CN (1) CN110032639B (ko)
WO (1) WO2020134008A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515895B (zh) * 2019-08-30 2023-06-23 北京燕山电子设备厂 大数据存储系统中对数据文件进行关联存储的方法及系统
CN111274798B (zh) * 2020-01-06 2023-08-18 北京大米科技有限公司 一种文本主题词确定方法、装置、存储介质及终端
CN111310438B (zh) * 2020-02-20 2021-06-08 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111311450B (zh) * 2020-02-28 2024-03-29 重庆百事得大牛机器人有限公司 用于法律咨询服务的大数据管理平台及方法
CN111695358B (zh) * 2020-06-12 2023-08-08 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN114281928A (zh) * 2020-09-28 2022-04-05 中国移动通信集团广西有限公司 基于文本数据的模型生成方法、装置及设备
CN112989971B (zh) * 2021-03-01 2024-03-22 武汉中旗生物医疗电子有限公司 一种不同数据源的心电数据融合方法及装置
CN112926339B (zh) * 2021-03-09 2024-02-09 北京小米移动软件有限公司 文本相似度确定方法、系统、存储介质以及电子设备
CN114398968B (zh) * 2022-01-06 2022-09-20 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114896398A (zh) * 2022-05-05 2022-08-12 南京邮电大学 一种基于特征选择的文本分类系统及方法
CN116151542A (zh) * 2022-11-30 2023-05-23 上海韵达高新技术有限公司 物流订单实时监控方法、装置、设备及存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2391967A (en) * 2002-08-16 2004-02-18 Canon Kk Information analysing apparatus
JP4521343B2 (ja) 2005-09-29 2010-08-11 株式会社東芝 文書処理装置及び文書処理方法
US8972410B2 (en) 2008-07-30 2015-03-03 Hewlett-Packard Development Company, L.P. Identifying related objects in a computer database
US10536728B2 (en) * 2009-08-18 2020-01-14 Jinni Content classification system
GB2488925A (en) 2009-12-09 2012-09-12 Ibm Method of searching for document data files based on keywords,and computer system and computer program thereof
JP5252593B2 (ja) 2010-08-12 2013-07-31 Necビッグローブ株式会社 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
JP2014153977A (ja) 2013-02-12 2014-08-25 Mitsubishi Electric Corp コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
US9311386B1 (en) * 2013-04-03 2016-04-12 Narus, Inc. Categorizing network resources and extracting user interests from network activity
KR101478016B1 (ko) 2013-09-04 2015-01-02 한국과학기술정보연구원 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
US10510018B2 (en) * 2013-09-30 2019-12-17 Manyworlds, Inc. Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
CN106033445B (zh) 2015-03-16 2019-10-25 北京国双科技有限公司 获取文章关联度数据的方法和装置
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN104850650B (zh) * 2015-05-29 2018-04-10 清华大学 基于类标关系的短文本扩充方法
EP3151131A1 (en) 2015-09-30 2017-04-05 Hitachi, Ltd. Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection
CN105975475A (zh) 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
KR101847847B1 (ko) 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
CN107301199B (zh) * 2017-05-17 2021-02-12 北京融数云途科技有限公司 一种数据标签生成方法和装置
US10311454B2 (en) * 2017-06-22 2019-06-04 NewVoiceMedia Ltd. Customer interaction and experience system using emotional-semantic computing
CN107798043B (zh) * 2017-06-28 2022-05-03 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
US10678816B2 (en) * 2017-08-23 2020-06-09 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
CN107818153B (zh) * 2017-10-27 2020-08-21 中航信移动科技有限公司 数据分类方法和装置
CN108399228B (zh) * 2018-02-12 2020-11-13 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108763539B (zh) * 2018-05-31 2020-11-10 华中科技大学 一种基于词性分类的文本分类方法和系统
CN108959431B (zh) * 2018-06-11 2022-07-05 中国科学院上海高等研究院 标签自动生成方法、系统、计算机可读存储介质及设备
US11397859B2 (en) * 2019-09-11 2022-07-26 International Business Machines Corporation Progressive collocation for real-time discourse

Also Published As

Publication number Publication date
JP7164701B2 (ja) 2022-11-01
US20210286835A1 (en) 2021-09-16
JP2021518027A (ja) 2021-07-29
US11586658B2 (en) 2023-02-21
CN110032639B (zh) 2023-10-31
WO2020134008A1 (zh) 2020-07-02
CN110032639A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
KR20200127020A (ko) 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
US11093854B2 (en) Emoji recommendation method and device thereof
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN113961685A (zh) 信息抽取方法及装置
Nasim et al. Sentiment analysis on Urdu tweets using Markov chains
US11347944B2 (en) Systems and methods for short text identification
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
WO2023065642A1 (zh) 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN115062621A (zh) 标签提取方法、装置、电子设备和存储介质
Vidyashree et al. An improvised sentiment analysis model on twitter data using stochastic gradient descent (SGD) optimization algorithm in stochastic gate neural network (SGNN)
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN113312907B (zh) 基于混合神经网络的远程监督关系抽取方法及装置
US20170293597A1 (en) Methods and systems for data processing
Chen et al. Learning the chinese sentence representation with LSTM autoencoder
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
US20230118640A1 (en) Methods and systems for extracting self-created terms in professional area
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
KR102155692B1 (ko) 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치
Shanmugam et al. Twitter sentiment analysis using novelty detection
CN112632229A (zh) 文本聚类方法及装置
Dhanya et al. Comparative performance of machine learning algorithms in detecting offensive speech in malayalam-english code-mixed data

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination