KR102472708B1 - 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기 - Google Patents

감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기 Download PDF

Info

Publication number
KR102472708B1
KR102472708B1 KR1020200081896A KR20200081896A KR102472708B1 KR 102472708 B1 KR102472708 B1 KR 102472708B1 KR 1020200081896 A KR1020200081896 A KR 1020200081896A KR 20200081896 A KR20200081896 A KR 20200081896A KR 102472708 B1 KR102472708 B1 KR 102472708B1
Authority
KR
South Korea
Prior art keywords
emotion
word
training corpus
training
detection
Prior art date
Application number
KR1020200081896A
Other languages
English (en)
Other versions
KR20210086940A (ko
Inventor
찬 가오
하오 리우
보레이 허
씬얀 샤오
하오 티엔
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210086940A publication Critical patent/KR20210086940A/ko
Application granted granted Critical
Publication of KR102472708B1 publication Critical patent/KR102472708B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기를 제공하는바, 인공 지능 기술 분야에 관한 것이다. 당해 방법은, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는 단계; 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치를 마스킹 처리하여 마스킹된 말뭉치를 생성하는 단계; 미리 설정된 인코더 및 디코더를 이용하여 마스킹된 말뭉치를 인코딩 및 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정하는 단계; 및 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 단계; 를 포함한다. 이러한 감정 분석 모델을 사전 트레이닝하는 방법을 통해, 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 하고 감정 분석의 효과를 향상시킨다.

Description

감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기{PRE-TRAINING METHOD FOR EMOTION ANALYSIS MODEL, APPARATUS AND ELECTRONIC DEVICE}
본 출원은 컴퓨터 기술 분야에 관한 것이고, 특히 인공 지능 기술 분야에 관한 것으로, 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기를 제공한다.
감정 분석은 제품, 서비스, 조직 등의 엔티티에 대한 사람들의 오피니언, 태도, 평가 등을 연구하는 것을 가리킨다. 통상적으로 감정 분석은 복수의 서브 태스크를 포함하는바, 감정 지향성 분석, 코멘트 오피니언 마이닝, 엔티니 레벨 감정 분석, 정서 분석 등이 있다. 현재, 감정 분석 모델을 통해 텍스트에 대한 감정 분석을 구현할 수 있다.
관련 기술에서는, 심층 신경망을 이용하여 대규모의 비지도 데이터에 대해 자기 지도 학습을 수행하여 사전 트레이닝 모델을 생성하고 나아가 구체적인 감정 분석 태스크에서 당해 부류의 태스크의 감정에 따라 데이터를 레이블링하고 사전 트레이닝 모델에 대해 전이 학습을 수행함으로써 당해 부류의 태스크의 감정 분석 모델을 생성할 수 있다
그러나, 사전 트레이닝 모델이 다운스트림 태스크의 사용 시의 보편성에 더 중시함으로 인해 특정 방향 태스크를 모델링하는 능력이 부족함에 따라 사전 트레이닝 모델의 전이 학습으로 생성되는 감정 분석 모델로 텍스트를 감정 분석하는 효과가 저하된다.
본 출원에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기는, 관련 기술에서, 사전 트레이닝 모델이 다운스트림 태스크의 사용 시의 보편성에 더 중시함으로 인해 특정 방향 태스크를 모델링하는 능력이 부족함에 따라 사전 트레이닝 모델의 전이 학습으로 생성되는 감정 분석 모델로 텍스트를 감정 분석하는 효과가 저하되는 문제를 해결한다.
본 출원의 일 측면의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법은, 주어진 시드(seed) 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는 단계 - 각 탐지어 쌍은 하나의 코멘트 포인트와 하나의 감정어를 포함함 - ; 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하는 단계; 미리 설정된 인코더를 이용하여 상기 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하는 단계; 미리 설정된 디코더를 이용하여 상기 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정하는 단계; 및 상기 감정 예측어와 감정 탐지어의 차이 및 상기 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 상기 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 단계; 를 포함한다.
본 출원의 다른 측면의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 장치는, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는 제1 결정 모듈 - 각 탐지어 쌍은 하나의 코멘트 포인트와 하나의 감정어를 포함함 - ; 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하는 제1 생성 모듈; 미리 설정된 인코더를 이용하여 상기 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하는 제2 생성 모듈; 미리 설정된 디코더를 이용하여 상기 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정하는 제2 결정 모듈; 및 상기 감정 예측어와 감정 탐지어의 차이 및 상기 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 상기 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 업데이트 모듈; 을 포함한다.
본 출원의 또 다른 측면의 실시예에 의해 제공되는 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신적으로 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 상술한 감정 분석 모델을 사전 트레이닝하는 방법을 실행한다.
본 출원의 또 다른 측면의 실시예에 의해 제공되는 컴퓨터 명령이 저장되어 있는 비일시성 컴퓨터 판독 가능 저장 매체에 있어서, 상기 컴퓨터 명령이 실행될 경우, 상기상술한 감정 분석 모델을 사전 트레이닝하는 방법이 실행된다.
본 출원의 또 다른 측면의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 감정 분석 모델을 사전 트레이닝하는 방법이 실행된다.
상술한 출원의 임의의 한 실시예는 하기의 이점 또는 유익한 효과를 가진다. 모델 사전 트레이닝 과정에 통계 계산된 감정 지식을 융합함으로써 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 하고 감정 분석의 효과를 향상시킨다. 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하고, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하고, 이후, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하고, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정함으로써 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 기술 수단을 적용함으로써, 사전 트레이닝 모델에 특정 방향 태스크를 모델링하는 능력이 부족함으로 인하여 사전 트레이닝 모델의 전이 학습으로 생성되는 감정 분석 모델로 텍스트를 감정 분석하는 효과가 저하되는 문제를 극복하고, 나아가, 모델 사전 트레이닝 과정에 통계 계산된 감정 지식을 융합함으로써 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 하고 감정 분석의 효과를 향상시키는 기술 효과를 달성한다.
상술한 선택적인 방식이 가지는 기타의 효과는 아래 구체적인 실시예를 결부하여 설명하고자 한다.
첨부 도면은 본 출원을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않는다.
도1은 본 출원의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법의 개략적인 흐름도이다.
도2는 본 출원의 실시예에 의해 제공되는 트레이닝 말뭉치를 마스킹 처리하는 개략도이다.
도3은 본 출원의 실시예에 의해 제공되는 다른 감정 분석 모델을 사전 트레이닝하는 방법의 개략적인 흐름도이다.
도4는 본 출원의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 장치의 개략적인 구조도이다.
도5는 본 출원의 실시예에 의해 제공되는 전자 기기 의 개략적인 구조도이다.
아래, 첨부 도면을 결부하여 본 출원의 시범적인 실시예에 대해 설명하고자 하는바, 여기에는 이해를 돕기 위해 본 출원의 실시예의 다양한 디테일이 포함되는데, 이러한 것을 단지 시범적인 것으로 간주하여야 한다. 따라서 당업자라면 여기서 설명하는 실시예에 대한 다양한 변경과 수정은 실행 가능한 것으로, 이는 본 출원의 범위와 사상을 벗어나지 않는 것임을 알 수 가 있다. 마찬가지로, 명백하고 간단명료하게 하고자 아래의 설명에서는 공지된 기능과 구조에 대한 설명을 생략하기로 한다.
본 출원의 실시예는, 관련 기술에서, 사전 트레이닝 모델이 다운스트림 태스크의 사용 시의 보편성에 더 중시함으로 인해 특정 방향 태스크를 모델링하는 능력이 부족함에 따라 사전 트레이닝 모델의 전이 학습으로 생성되는 감정 분석 모델로 텍스트를 감정 분석하는 효과가 저하되는 문제에 대해, 감정 분석 모델을 사전 트레이닝하는 방법을 제공한다.
아래, 첨부 도면을 참조하여 본 출원에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법, 장치, 전자 기기 및 저장 매체를 상세히 설명하고자 한다.
도1을 결부하여 본 출원의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법을 상세히 설명하고자 한다.
도1은 본 출원의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법의 개략적인 흐름도이다.
도1에 도시한 바와 같이, 당해 감정 분석 모델을 사전 트레이닝하는 방법은 하기 단계를 포함한다.
단계101, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는바, 각 탐지어 쌍은 하나의 코멘트 포인트와 하나의 감정어를 포함한다.
여기서, 주어진 시드 감정어 사전은 여러 가지 감정어를 포함한다. 부연하면, 주어진 시드 감정어 사전은 통상의 감정을 표현하는 소량의 몇몇 감정어를 포함할 수 있고, 실제 사용 과정에서 시드 감정어 사전을 확장할 수 있다. 또는, 주어진 시드 사전은 소량의 몇몇 감정어의 동의어 및 반의어를 기반으로 확장하여 획득될 수도 있고, 실제 사용 과정에서 새로 획득되는 감정어 및 새로 획득되는 감정어의 동의어, 반의어를 기반으로 시드 감정어 사전을 확장할 수 있다.
여기서, 감정 탐지어는 트레이닝 말뭉치를 감정 지식 탐지함으로써 결정되는 트레이닝 말뭉치에 포함되는 감정어를 가리킨다. 탐지어 쌍은 트레이닝 말뭉치를 감정 지식 탐지함으로써 결정되는 트레이닝 말뭉치에 포함되는 감정어 및 트레이닝 말뭉치에서의 당해 감정어의 대응되는 코멘트 포인트를 포함한다.
예를 들면, 트레이닝 말뭉치가 'this product came really fast and I appreciated it'인 경우, 당해 트레이닝 말뭉치를 감정 지식 탐지함으로써 당해 트레이닝 말뭉치에 포함되는 감정 탐지어가 'fast, appreciated'임을 결정할 수 있다. 당해 트레이닝 말뭉치는 'the product'에 대해 코멘트하는 것이므로, 따라서 감정 탐지어'fast'에 대응되는 코멘트 포인트가 'product'임을 결정할 수 있고, 따라서 당해 트레이닝 말뭉치에 포함되는 탐지어 쌍이 'product fast'을 결정할 수 있다.
본 출원의 실시예에서, 트레이닝 말뭉치의 각 단어 세그먼테이션과 주어진 시드 감정어 사전의 각 감정어의 동시출현 빈도 또는 유사도에 따라 트레이닝 말뭉치를 감정 지식 탐지함으로써 트레이닝 말뭉치에 포함되는 각 감정어를 결정할 수 있다. 본 출원의 실시예의 하나의 가능한 구현 형식에서, 상술한 단계101는,
i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제1 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도가 제1 역치보다 큰 경우, j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계;
또는,
i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제2 시드 감정어의 유사도가 제2 역치보다 큰 경우, j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계; 를 포함할 수 있고,
여기서, i는 0보다 크고 N보다 작거나 같은 정수이고, j는 0보다 크고 K보다 작거나 같은 양의 정수이고, N은 트레이닝 말뭉치 집합에 포함되는 트레이닝 말뭉치 수량이고, K는 j번째 트레이닝 말뭉치에 포함되는 단어 세그먼테이션 수량이다.
제1 시드 감정어 및 제2 시드 감정어는 주어진 시드 감정어 사전의 어느 한 시드 감정어일 수 있다.
동시출현 빈도는 2개 단어 사이의 연관성을 평가할 수 있다. 구체적으로, 2개 단어의 동시출현 빈도가 높을수록 당해 2개 단어의 연관성이 더 높다고 결정할 수 있고; 반대의 경우에는 당해 2개 단어의 연관성이 더 낮다고 결정할 수 있다.
하나의 가능한 구현 방식으로, 트레이닝 말뭉치 집합 내의 i번째 트레이닝 말뭉치를 감정 지식 탐지하는 경우에는 우선 i번째 트레이닝 말뭉치를 단어 세그먼테이션화 처리함으로써 i번째 트레이닝 말뭉치에 포함되는 K개의 단어 세그먼테이션을 결정하고, K개의 단어 세그먼테이션과 주어진 시드 감정어 사전의 각 시드 감정어의 동시출현 빈도를 각각 계산할 수 있다. i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제1 시드 감정어의 동시출현 빈도가 제1 역치보다 크다고 결정되는 경우, i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션은 제1 시드 감정어와 연관성이 높다고 결정할 수 있고, 따라서 i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정할 수 있다.
선택적으로, 감정 지향 포인트 별 상호 정보(Sentiment Orientation Pointwise Mutual Information, SO-PMI으로 약칭됨) 알고리즘을 사용하여 트레이닝 말뭉치의 각 단어 세그먼테이션과 주어진 시드 감정어 사전의 각 시드 감정어의 동시출현 빈도를 결정함으로써, 각 트레이닝 말뭉치에 포함되는 감정 탐지어를 결정할 수 있다. 구체적으로, i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제1 시드 감정어의 SO-PMI값이 제1 역치보다 크다고 결정되면, j번째 단어 세그먼테이션과 제1 시드 감정어의 동시출현 빈도가 제1 역치보다 크다고 결정할 수 있고, 따라서 i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정할 수 있다.
부연하면, 실제 사용에서는, 실제 필요에 따라 동시출현 빈도를 결정하는 방법 및 제1 역치의 구체적인 값을 미리 설정할 수 있는바, 본 출원의 실시예는 이에 대해 한정하지 않는다. 예를 들면, SO-PMI 알고리즘을 사용하여 트레이닝 말뭉치 내의 감정 탐지어를 결정하는 경우, 제1 역치는 0일 수 있다.
하나의 가능한 구현 방식으로, 트레이닝 말뭉치의 각 단어 세그먼테이션과 주어진 시드 감정어 사전의 각 시드 감정어의 유사도에 따라 트레이닝 말뭉치에 포함되는 감정어를 결정할 수도 있다. 구체적으로, i번째 트레이닝 말뭉치를 감정 지식 탐지하는 경우, 우선 i번째 트레이닝 말뭉치를 단어 세그먼테이션화 처리함으로써 i번째 트레이닝 말뭉치가 포함하는 각 단어 세그먼테이션을 결정하고, 다음, i번째 트레이닝 말뭉치의 각 단어 세그먼테이션에 대응되는 단어 벡터 및 주어진 시드 감정어 사전의 각 시드 감정어에 대응되는 단어 벡터를 결정하고, 나아가, i번째 트레이닝 말뭉치의 각 단어 세그먼테이션에 대응되는 단어 벡터와 각 시드 감정어에 대응되는 단어 벡터의 유사도를 결정할 수 있다. i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션에 대응되는 단어 벡터와 주어진 시드 감정어 사전의 제2 시드 감정어에 대응되는 단어 벡터의 유사도가 제2 역치보다 크다고 결정되는 경우, j번째 단어 세그먼테이션과 제2 시드 감정어의 유사도가 제2 역치보다 크다고, 즉 i번째 단어 세그먼테이션과 제2 시드 감정어의 유사도가 보다 높다고 결정할 수 있고, 따라서 i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정할 수 있다.
부연하면, 실제 사용에서는, 실제 필요에 따라 트레이닝 말뭉치 내의 단어 세그먼테이션과 주어진 시드 감정어 사전의 시드 감정어의 유사도 및 제2 역치의 구체적인 값을 결정하는 방식을 미리 설정할 수 있는바, 본 출원의 실시예는 이에 대해 한정하지 않는다. 예를 들면, 단어 세그먼테이션과 감정어의 유사도는 코사인 유사도일 수 있고, 제2 역치는 0.8일 수 있다.
더 나아가, 주어진 시드 감정어 사전의 사용 과정에서, 결정된 트레이닝 말뭉치 내의 감정어에 따라 주어진 시드 감정어 사전을 확장할 수 있다. 즉, 본 출원의 실시예의 하나의 가능한 구현 형식에서, 상술한 j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계 이후,
j번째 단어 세그먼테이션을 주어진 시드 감정어 사전에 추가하는 단계를 더 포함할 수 있다.
본 출원의 실시예에서, 주어진 시드 감정어 사전을 이용하여 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치에 포함되는 감정 탐지어를 결정하는 경우, 결정되는 각 트레이닝 말뭉치에 포함되는 감정 탐지어를 주어진 시드 감정어 사전에 추가함으로써 주어진 시드 감정어 사전을 업데이트할 수 있다. 따라서, 하나의 트레이닝 말뭉치에 포함되는 하나의 감정 탐지어가 결정될 때마다, 결정되는 당해 감정 탐지어를 주어진 시드 감정어 사전에 추가함으로써 모델 트레이닝 과정에서 주어진 시드 감정어 사전에 포함되는 감정어가 점점 더 풍부해지도록 할 수 있고, 나아가 후속으로 트레이닝 말뭉치에 포함되는 감정어를 결정하는 신뢰성이 더 높아지게 할수 있다. 따라서, j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치의 감정 탐지어로 결정한 후, j번째 단어 세그먼테이션을 주어진 시드 감정어 사전에 추가할 수 있다.
더 나아가, 트레이닝 말뭉치에 포함되는 감정 탐지어가 결정된 후, 결정된 각 감정 탐지어에 따라 각 감정 탐지어에 매칭되는 코멘트 포인트를 결정함으로써 트레이닝 말뭉치에 포함되는 탐지어 쌍을 결정할 수 있다. 즉, 본 출원의 실시예의 하나의 가능한 구현 형식에서, 상술한 j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계 이후,
i번째 트레이닝 말뭉치 내에서의 j번째 단어 세그먼테이션과 i번째 트레이닝 말뭉치의 각 단어 세그먼테이션의 위치 관계가 미리 설정된 품사 패턴 또는 구문 패턴에 대한 매칭도에 따라 i번째 트레이닝 말뭉치에 포함되는 탐지어 쌍을 결정하는 단계를 더 포함할 수 있다.
여기서, 미리 설정된 품사 패턴은 탐지어 쌍에 포함되는 코멘트 포인트, 감정어의 품사를 제약할 수 있고, 코멘트 포인트 및 감정어에 인접하는 단어 세그먼테이션의 품사 등을 제약할 수 있는바; 예를 들면, 미리 설정된 품사 패턴에서 코멘트 포인트의 품사를 명사로, 감정어의 품사를 형용사 또는 동사로 규정할 수 있는 등이다.
여기서, 미리 설정된 구문 패턴은 탐지어 쌍에 포함되는 코멘트 포인트와 감정어 사이 거리, 문법 관계 등을 제약할 수 있는바, 예를 들면, 미리 설정된 구문 패턴은 코멘트 포인트에 대응되는 단어 세그먼테이션이 감정어 앞에 위치하는 세 번째 단어 세그먼테이션이라고 규정할 수 있는 등이다.
부연하면, 실제 사용에서는, 실제 필요 또는 경험에 따라 미리 설정된 품사 패턴 또는 구문 패턴을 결정할 수 있는바, 본 출원의 실시예는 이에 대해 한정하지 않는다.
본 출원의 실시예에서, i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션이 i번째 트레이닝 말뭉치의 감정 탐지어로 결정된 후, i번째 트레이닝 말뭉치 내에서의 j번째 단어 세그먼테이션과 i번째 트레이닝 말뭉치의 각 단어 세그먼테이션의 위치 관계에 따라, 각 단어 세그먼테이션과 j번째 단어 세그먼테이션의 위치 관계가 미리 설정된 품사 패턴 또는 구문 패턴에 매칭되는지 여부를 결정할 수 있다.
구체적으로, 제3 역치를 미리 설정할 수 있고, 제1 단어 세그먼테이션과 j번째 단어 세그먼테이션의 위치 관계가 미리 설정된 품사 패턴 또는 구문 패턴에 대한 매칭도가 제3 역치보다 큰 경우, 제1 단어 세그먼테이션과 j번째 단어 세그먼테이션의 위치 관계가 미리 설정된 품사 패턴 또는 구문 패턴에 매칭된다고 결정할 수 있고, 따라서 제1 단어 세그먼테이션을 j번째 단어 세그먼테이션에 대응되는 코멘트 포인트로 결정할 수 있는바, 즉, 제1 단어 세그먼테이션과 j번째 단어 세그먼테이션에 의해 구성되는 단어 쌍을 i번째 트레이닝 말뭉치에 포함되는 하나의 탐지어 쌍으로 결정할 수 있다.
예를 들면, 미리 설정된 품사 패턴이 '코멘트 포인트의 품사는 명사이고, 감정어의 품사는 형용사이다'이고, 미리 설정된 구문 패턴이 '코멘트 포인트는 감정어 앞의 세 번재 단어 세그먼테이션이다'이며, 트레이닝 말뭉치가 'this product came really fast and I appreciated it'인 경우, 결정되는 감정 탐지어는 ‘fast, appreciated'이고, 따라서 단어 세그먼테이션 'product'의 품사는 미리 설정된 품사 패턴에 매칭되고 감정 탐지어 'fast'와의 위치 관계는 미리 설정된 구문 패턴에 매칭된다고 결정할 수 있고, 따라서 'product fast'를 당해 트레이닝 말뭉치 내의 하나의 탐지어 쌍으로 결정할 수 있다. 당해 트레이닝 말뭉치에는 감정 탐지어 'appreciated'와의 위치 관계가 미리 설정된 품사 패턴 및 구문 패턴에 매칭되는 단어 세그먼테이션이 존재하지 않으므로 감정 탐지어 'appreciated'에 대응되는 코멘트 포인트가 없다고 결정할 수 있고, 따라서 당해 트레이닝 말뭉치에 포함되는 탐지어 쌍을 'product fast'로 결정할 수 있다.
단계102, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성한다.
본 출원의 실시예에서, 트레이닝 과정에서 트레이닝 말뭉치 내의 감정 지식에 더욱 주의하고 트레이닝된 감정 지식에 대한 감정 분석 모델의 표현 능력을 향상시키고자, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리함으로써 마스킹된 말뭉치를 생성할 수 있다. 따라서 마스킹된 말뭉치를 트레이닝 모델에 입력하는 경우, 마스킹된 감정 탐지어 및 탐지어 쌍에 대한 모델의 표시를 증강시킬 수 있고, 나아가 감정 분석의 효과를 향상시킨다.
예를 들면, 트레이닝 말뭉치가 'this product came really fast and I appreciated it'이고, 결정된 감정 탐지어가 'fast, appreciated'이고, 결정된 탐지어 쌍이 'product fast'인 경우, 도2에 도시한 바는, 당해 트레이닝 말뭉치를 마스킹 처리하는 개략도이고, 여기서 [MASK]는 마스킹 처리된 단어 세그먼테이션이다.
더 나아가, 트레이닝 말뭉치 내에 마스킹된 단어가 지나치게 많게 되면, 모델이 마스킹된 말뭉치의 전체 의미를 정확하게 이해하지 못하기 쉽다. 따라서 일부 감정 탐지어 및 탐지어 쌍만 마스킹 처리할 수 있다. 즉 본 출원의 실시예의 하나의 가능한 구현 형식에서, 상술한 단계102는,
미리 설정된 비례로 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하는 단계를 포함할 수 있다.
하나의 가능한 구현 방식으로, 트레이닝 말뭉치는 복수의 감정 탐지어 또는 복수의 탐지어 쌍을 포함할 수 있고, 따라서 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍의 수량이 지나치게 많게 되고, 모든 감정 탐지어 및 탐지어 쌍을 마스킹 처리하는 경우, 모델이 마스킹된 말뭉치의 전체 의미를 정확하게 이해하지 못하게 되어 최종적인 모델 트레이닝 효과에 영향 준다. 때문에, 본 출원의 실시예에서는, 마스킹 처리하는 단어 세그먼테이션의 수량과 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍에 포함되는 단어 세그먼테이션의 총 수량의 비례를 미리 설정할 수 있고, 나아가 미리 설정된 비례에 따라 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍 내의 일부 단어 세그먼테이션을 마스킹 처리함으로써 감정 지식에 대한 주의를 향상시키는 동시에, 마스킹된 말뭉치의 전체 의미에 대한 이해에는 영향 주지 않는다.
부연하면, 모델 트레이닝 과정에서, 각 트레이닝 말뭉치는 복수 회 트레이닝 가능하고, 따라서 매회 하나의 트레이닝 말뭉치를 이용할 때마다, 당해 트레이닝 말뭉치 내의 서로 다른 감정 탐지어 및 서로 다른 탐지어 쌍을 마스킹 처리함으로써 모델이 각 트레이닝 말뭉치 내의 감정 지식을 학습할 수 있도록 할 수 있다.
단계103, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성한다.
본 출원의 실시예에서, 트레이닝 말뭉치를 마스킹 처리한 후, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리함으로써 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성할 수 있다.
하나의 가능한 구현 방식으로, 미리 설정된 인코더는 심층 양방향 신경망일 수 있고, 텍스트에 대한 보다 강한 표시 능력을 가진다. 따라서 심층 양방향 신경망을 사용하여 마스킹된 말뭉치를 인코딩 처리하여 생성되는 특징 벡터는 트레이닝 말뭉치에 포함되는 감정 지식을 아주 잘 표시할 수 있을 뿐만아니라 트레이닝 말뭉치의 전체 의미를 더 잘 표시하게 된다.
단계104, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정한다.
여기서, 미리 설정된 인코더와 미리 설정된 디코더는 본 출원의 실시예의 감정 분석 모델을 구성할 수 있는바, 즉 미리 설정된 디코더와 미리 설정된 디코더는 각각 본 출원의 실시예의 감정 분석 모델의 일부분이다.
여기서, 감정 예측어는 본 출원의 실시예의 감정 분석 모델을 이용하여 결정되는 트레이닝 말뭉치에 포함되는 감정어를 가리키고; 예측어 쌍은 본 출원의 실시예의 감정 분석 모델을 이용하여 결정되는 트레이닝 말뭉치에 포함되는 단어 쌍을 가리킨다.
본 출원의 실시예에서, 각 트레이닝 말뭉치에 대응되는 특징 벡터가 결정된 후, 미리 설정된 인코더에 대응되는 미리 설정된 디코더를 이용하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 디코딩 처리함으로써 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정할 수 있다.
단계105, 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트한다.
본 출원의 실시예에서, 트레이닝 말뭉치 내의 감정 탐지어와 탐지어 쌍은 트레이닝 말뭉치 내에 실제로 존재하는 감정 지식을 표시할 수 있고, 따라서 각 트레이닝 말뭉치 내의 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 탐지어 쌍의 차이는 미리 설정된 인코더 및 미리 설정된 디코더가 텍스트를 감정 분석한 정확성을 반영할 수 있다. 따라서 각 트레이닝 말뭉치 내의 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트할 수 있다.
하나의 가능한 구현 방식으로, 감정어 예측에 대응되는 제1 목적 함수 및 단어 쌍 예측에 대응되는 제2 목적 함수를 각각 설계할 수 있고, 따라서 제1 목적 함수의 값을 통해 트레이닝 말뭉치 집합 내의 감정 예측어와 감정 탐지어의 차이를 평가할 수 있고 제2 목적 함수의 값을 통해 트레이닝 말뭉치 집합 내의 예측어 쌍과 탐지어 쌍의 차이를 평가할 수 있다.
구체적으로, 제1 목적 함수의 값이 작을수록, 트레이닝 말뭉치 집합 내의 감정 예측어와 감정 탐지어의 차이가 더 작다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 높다고 결정할 수 있고; 이와 반대로, 제1 목적 함수의 값이 클수록, 트레이닝 말뭉치 집합 내의 감정 예측어와 감정 탐지어의 차이가 더 크다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 낮다고 결정할 수 있다. 상응하게, 제2 목적 함수의 값이 작을수록, 트레이닝 말뭉치 집합 내의 예측어 쌍과 탐지어 쌍의 차이가 더 작고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 높다고 결정할 수 있고; 이와 반대로, 제2 목적 함수의 값이 클수록, 트레이닝 말뭉치 집합 내의 예측어 쌍과 탐지어 쌍의 차이가 더 크다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 낮다고 결정할 수 있다. 따라서, 제1 목적 함수에 대응되는 제4 역치 및 제2 목적 함수에 대응되는 제5 역치를 미리 설정할 수 있고, 제1 목적 함수의 값이 제4 역치보다 크거나 또는 제2 목적 함수의 값이 제5 역치보다 큰 경우, 미리 설정된 인코더와 미리 설정된 디코더의 성능이 감정 분석의 성능 수요에 부합되지 않는다고 결정할 수 있고, 따라서 미리 설정된 인코더 및 미리 설정된 디코더의 파라미터를 업데이트하고, 그리고, 제1 목적 함수의 값이 제4 역치보다 작거나 같게 되고 제2 목적 함수의 값이 제5 역치보다 작거나 같게 될 때까지, 다시 트레이닝 말뭉치와 업데이트된 미리 설정된 디코더 및 미리 설정된 인코더를 이용하여 트레이닝함으로써 감정 분석 모델의 사전 트레이닝 과정을 완료할 수 있다. 제1 목적 함수의 값이 제4 역치보다 작거나 같고 제2 목적 함수의 값이 제5 역치보다 작거나 같은 경우, 미리 설정된 인코더와 미리 설정된 디코더의 성능이 감정 분석의 성능 수요에 부합된다고 결정할 수 있고, 따라서미리 설정된 인코더와 미리 설정된 디코더의 파라미터를 업데이트하지 않고 감정 분석 모델의 사전 트레이닝 과정을 종료할 수 있다.
본 출원의 실시예에 따른 발명은, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하고, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하고, 이후, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하고, 나아가, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정함으로써 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트한다. 이로써, 모델 사전 트레이닝 과정에 통계 계산된 감정 지식을 융합함으로써 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 하고 감정 분석의 효과를 향상시킨다.
본 출원의 하나의 가능한 구현 형식에서, 통계된 트레이닝 말뭉치의 감정 지식에는 감정어의 극성 정보가 더 포함됨으로써 더 나아가 감정 분석의 사전 트레이닝 모델의 감정 분석 효과를 향상시킬 수 있다.
아래 도3을 결부하여 본 출원의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법에 대해 더 나아가 설명하고자 한다.
도3은 본 출원의 실시예에 의해 제공되는 다른 감정 분석 모델을 사전 트레이닝하는 방법의 개략적인 흐름도이다.
도3에 도시한 바와 같이, 당해 감정 분석 모델을 사전 트레이닝하는 방법은 하기 단계를 포함한다.
단계201, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는바, 각 탐지어 쌍은 하나의 코멘트 포인트와 하나의 감정어를 포함한다.
상술한 단계201의 구체적인 구현 과정 및 원리는 상술한 실시예의 상세한 설명을 참조할 수 있는바, 이에 대한 상세한 설명은 생략하기로 한다.
단계202, 각 감정 탐지어와 주어진 시드 감정어 사전의 제3 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도 및 제3 시드 감정어의 감정 극성에 따라 각 감정 탐지어의 탐지 감정 극성을 결정한다.
본 출원의 실시예에서, 트레이닝 문장에 포함되는 감정 탐지어가 결정된 후, 또한 각 감정 탐지어의 탐지 감정 극성을 결정함으로써 트레이닝 말뭉치 집합에 대한 통계로 획득되는 감정 지식을 더욱 풍부히 하고 더 나아가 감정을 분석하는 사전 트레이닝 모델의 감정 지식 표시 능력을 향상시킬 수 있다.
하나의 가능한 구현 방식으로, 주어진 시드 감정어 사전은 각 시드 감정어의 감정 극성을 더 포함할 수 있고, 따라서 트레이닝 말뭉치에 포함되는 감정 탐지어가 결정된 후, 주어진 시드 감정어 사전에 따라 감정 탐지어의 탐지 감정 극성을 결정할 수 있다.
선택적으로, 트레이닝 말뭉치 내의 감정 탐지어는 트레이닝 말뭉치 내의 각 단어 세그먼테이션과 주어진 시드 감정어 사전의 각 시드 감정어의 동시출현 빈도에 따라 결정되는 것이므로, 상술한 실시예로부터 알 수 있는바, 트레이닝 말뭉치 내의 단어 세그먼테이션과 제1 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도가 제1 역치보다 큰 경우, 당해 단어 세그먼테이션을 트레이닝 말뭉치 내의 감정 탐지어로 결정할 수 있다. 때문에, 본 출원의 실시예의 하나의 가능한 구현 형식에서는, 감정 탐지어와의 동시출현 빈도가 제1 역치보다 큰 제1 시드 감정어의 감정 극성을 당해 감정 탐지어의 탐지 감정 극성으로 직접 결정할 수 있다.
선택적으로, 또한 트레이닝 말뭉치에 포함되는 감정 탐지어가 결정된 후, 감정 탐지어와의 동시출현 빈도가 제6 역치보다 큰 제3 시드 감정어를 결정하고 나아가 제3 시드 감정어의 감정 극성을 당해 감정 탐지어의 탐지 감정 극성으로 결정할 수 있다.
부연하면, 실제 사용에서, 제6 역치는 제1 역치와 같을 수도 있고 제1 역치와 다를 수도 있으며, 실제 필요 및 구체적인 응용 시나리오에 따라 제6 역치의 값을 결정할 수 있는바, 본 출원의 실시예는 이에 대해 한정하지 않는다.
단계203, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성한다.
단계204, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성한다.
상술한 단계203 내지 204의 구체적인 구현 과정 및 원리는 상술한 실시예의 상세한 설명을 참조할 수 있는바, 이에 대한 상세한 설명은 생략하기로 한다.
단계205, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어, 예측어 쌍 및 각 감정 예측어의 예측 감정 극성을 결정한다.
본 출원의 실시예에서, 미리 설정된 디코더를 이용하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 디코딩 처리함으로써, 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정하는 동시에, 또한 각 감정 예측어의 예측 감정 극성을 결정할 수 있다.
단계206, 감정 예측어와 감정 탐지어의 차이, 예측어 쌍과 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 탐지 감정 극성의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트한다.
본 출원의 실시예에서, 트레이닝 말뭉치 내의 감정 탐지어, 탐지어 쌍 및 각 감정 탐지어의 탐지 감정 극성은 트레이닝 말뭉치 내에 실제로 존재하는 감정 지식을 표시할 수 있고, 따라서 각 트레이닝 말뭉치 내의 감정 예측어와 감정 탐지어의 차이, 예측어 쌍과 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 감정 탐지어의 탐지 감정 극성의 차이는, 미리 설정된 인코더 및 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성을 반영할 수 있다. 따라서 각 트레이닝 말뭉치 내의 감정 예측어와 감정 탐지어의 차이, 예측어 쌍과 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 탐지 감정 극성의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트할 수 있다.
하나의 가능한 구현 방식으로, 감정어 예측에 대응되는 제1 목적 함수 및 단어 쌍 예측에 대응되는 제2 목적 함수 및 감정 극성 예측에 대응되는 제3 목적 함수를 각각 설계할 수 있고, 따라서 제1 목적 함수의 값을 통해 트레이닝 말뭉치 집합 내의 감정 예측어와 감정 탐지어의 차이를 평가할 수 있고 제2 목적 함수의 값을 통해 트레이닝 말뭉치 집합 내의 예측어 쌍과 탐지어 쌍의 차이를 평가할 수 있고 제3 목적 함수의 값을 통해 트레이닝 말뭉치 집합 내의 각 감정 예측어의 예측 감정 극성과 감정 탐지어의 탐지 감정 극성의 차이를 평가할 수 있다.
구체적으로, 제1 목적 함수의 값이 작을수록, 트레이닝 말뭉치 집합 내의 감정 예측어와 감정 탐지어의 차이가 더 작다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 높다고 결정할 수 있고; 이와 반대로, 제1 목적 함수의 값이 클수록, 트레이닝 말뭉치 집합 내의 감정 예측어와 감정 탐지어의 차이가 더 크다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 낮다고 결정할 수 있다. 상응하게, 제2 목적 함수의 값이 작을수록, 트레이닝 말뭉치 집합 내의 예측어 쌍과 탐지어 쌍의 차이가 더 작고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 높다고 결정할 수 있고; 이와 반대로, 제2 목적 함수의 값이 클수록, 트레이닝 말뭉치 집합 내의 예측어 쌍과 탐지어 쌍의 차이가 더 크다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 낮다고 결정할 수 있다. 상응하게, 제3 목적 함수의 값이 작을수록, 트레이닝 말뭉치 집합 내의 감정 예측어의 예측 감정 극성과 감정 탐지어의 탐지 감정 극성의 차이가 더 작다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 높다고 결정할 수 있고; 이와 반대로, 제3 목적 함수의 값이 클수록, 트레이닝 말뭉치 집합 내의 감정 예측어의 예측 감정 극성과 감정 탐지어의 탐지 감정 극성의 차이가 더 크다고, 즉, 미리 설정된 인코더와 미리 설정된 디코더가 텍스트를 감정 분석하는 정확성이 더 낮다고 결정할 수 있다.
따라서, 제1 목적 함수에 대응되는 제4 역치, 제2 목적 함수에 대응되는 제5 역치 및 제3 목적 함수에 대응되는 제7 역치를 미리 설정할 수 있다. 제1 목적 함수, 제2 목적 함수 및 제3 목적 함수 중의 어느 하나의 값이 그에 대응되는 역치보다 큰 경우, 미리 설정된 인코더와 미리 설정된 디코더의 성능이 감정 분석의 성능 수요에 부합되지 않는다고 결정할 수 있고, 따라서 미리 설정된 인코더 및 미리 설정된 디코더의 파라미터를 업데이트하고, 그리고, 제1 목적 함수의 값이 제4 역치보다 작거나 같게 되고 제2 목적 함수의 값이 제5 역치보다 작거나 같게 되고 제3 목적 함수의 값이 제7 역치보다 작거나 같게 될 때까지, 다시 트레이닝 말뭉치 집합과 업데이트된 미리 설정된 디코더 및 미리 설정된 인코더를 이용하여 트레이닝함으로써 감정 분석 모델의 사전 트레이닝 과정을 완료할 수 있다. 제1 목적 함수의 값이 제4 역치보다 작거나 같고 제2 목적 함수의 값이 제5 역치보다 작거나 같고 제3 목적 함수의 값이 제7 역치보다 작거나 같은 경우, 미리 설정된 인코더와 미리 설정된 디코더의 성능이 감정 분석의 성능 수요에 부합된다고 결정할 수 있고, 따라서미리 설정된 인코더와 미리 설정된 디코더의 파라미터를 업데이트하지 않고 감정 분석 모델의 사전 트레이닝 과정을 종료할 수 있다.
본 출원의 실시예에 따른 발명은, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어, 탐지어 쌍 및 각 감정 탐지어의 탐지 감정 극성을 결정하고, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하고, 이후, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하고, 나아가, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어, 예측어 쌍 및 각 감정 예측어의 예측 감정 극성을 결정함으로써 감정 예측어와 감정 탐지어의 차이, 예측어 쌍과 상기 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 탐지 감정 극성의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트한다. 이로써, 모델 사전 트레이닝 과정에 통계 계산된 감정어 및 그 감정 극성, 코멘트 포인트 감정어 쌍 등의 감정 지식을 융합하고 감정어 예측, 감정 극성 예측 및 단어 쌍 예측에 각각 대응되는 목적 함수를 설계하여 모델의 업데이트를 지도함으로써 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 할 뿐만 아니라 더 나아가 감정 분석의 효과를 향상시키고, 복수의 목적 함수를 통해 사전 트레이닝 모델을 최적화하므로 복잡한 텍스트 지식에 대한 사전 트레이닝 모델의 학습 능력을 향상시킨다.
상술한 실시예를 구현하고자, 본 출원은 감정 분석 모델을 사전 트레이닝하는 장치를 더 제공한다.
도4는 본 출원의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 장치의 개략적인 구조도이다.
도4에 도시한 바와 같이, 당해 감정 분석 모델을 사전 트레이닝하는 장치(30)는,
주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는 제1 결정 모듈(31) - 각 탐지어 쌍은 하나의 코멘트 포인트와 하나의 감정어를 포함함 - ;
미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하는 제1 생성 모듈(32);
미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하는 제2 생성 모듈(33);
미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정하는 제2 결정 모듈(34); 및
감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 업데이트 모듈(35); 을 포함한다.
실제 사용에서, 본 출원의 실시예에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 장치는, 임의의 전자 기기에 배치되어 전술한 감정 분석 모델을 사전 트레이닝하는 방법을 수행할 수 있다.
본 출원의 실시예에 따른 발명은, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하고, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하고, 이후, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하고, 나아가, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정함으로써 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트한다. 이로써, 모델 사전 트레이닝 과정에 통계 계산된 감정 지식을 융합함으로써 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 하고 감정 분석의 효과를 향상시킨다.
본 출원의 하나의 가능한 구현 형식에서, 상술한 제1 결정 모듈(31)은
i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제1 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도가 제1 역치보다 큰 경우, j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 제1 결정 유닛;
또는,
i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제2 시드 감정어의 유사도가 제2 역치보다 큰 경우, j번째 단어 세그먼테이션을 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 제2 결정 유닛; 을 포함한다.
여기서, i는 0보다 크고 N보다 작거나 같은 정수이고, j는 0보다 크고 K보다 작거나 같은 양의 정수이고, N은 트레이닝 말뭉치 집합에 포함되는 트레이닝 말뭉치 수량이고, K는 j번째 트레이닝 말뭉치에 포함되는 단어 세그먼테이션 수량이다.
더 나아가, 본 출원의 다른 하나의 가능한 구현 형식에서, 상술한 제1 결정 모듈(31)은,
j번째 단어 세그먼테이션을 주어진 시드 감정어 사전에 추가 하는 추가 유닛을 포함한다.
더 나아가, 본 출원의 또 다른 가능한 구현 형식에서, 상술한 제1 결정 모듈(31)은,
i번째 트레이닝 말뭉치 내에서의 j번째 단어 세그먼테이션과 i번째 트레이닝 말뭉치의 각 단어 세그먼테이션의 위치 관계가 미리 설정된 품사 패턴 또는 구문 패턴에 대한 매칭도에 따라 i번째 트레이닝 말뭉치에 포함되는 탐지어 쌍을 결정하는 제3 결정 유닛을 포함한다.
더 나아가, 본 출원의 또 하나의 가능한 구현 형식에서, 상술한 감정 분석 모델을 사전 트레이닝하는 장치(30)는,
각 감정 탐지어와 주어진 시드 감정어 사전의 제3 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도 및 제3 시드 감정어의 감정 극성에 따라 각 감정 탐지어의 탐지 감정 극성을 결정하는 제3 결정 모듈을 더 포함하고,
상응하게, 상술한 제2 결정 모듈(34)은,
미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어, 예측어 쌍 및 각 감정 예측어의 예측 감정 극성을 결정하는 제4 결정 유닛을 포함하고,
상응하게, 상술한 업데이트 모듈(35)은,
감정 예측어와 감정 탐지어의 차이, 예측어 쌍과 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 탐지 감정 극성의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 업데이트 유닛을 포함한다.
더 나아가, 본 출원의 또 하나의 가능한 구현 형식에서, 상술한 제1 생성 모듈(32)은,
미리 설정된 비례로 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하는 마스킹 유닛을 포함한다.
부연하면, 전술한 도1, 도3에 도시한 감정 분석 모델을 사전 트레이닝하는 방법 실시예에 대한 해석과 설명은 당해 실시예의 감정 분석 모델을 사전 트레이닝하는 장치(30)에도 적용되는바, 이에 대한 상세한 설명은 생략하기로 한다.
본 출원의 실시예에 따른 발명은, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어, 탐지어 쌍 및 각 감정 탐지어의 탐지 감정 극성을 결정하고, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하고, 이후, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하고, 나아가, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어, 예측어 쌍 및 각 감정 예측어의 예측 감정 극성을 결정함으로써 감정 예측어와 감정 탐지어의 차이, 예측어 쌍과 상기 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 탐지 감정 극성의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트한다. 이로써, 모델 사전 트레이닝 과정에 통계 계산된 감정어 및 그 감정 극성, 코멘트 포인트 감정어 쌍 등의 감정 지식을 융합하고 감정어 예측, 감정 극성 예측 및 단어 쌍 예측에 각각 대응되는 목적 함수를 설계하여 모델의 업데이트를 지도함으로써 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 할 뿐만 아니라 더 나아가 감정 분석의 효과를 향상시키고, 복수의 목적 함수를 통해 사전 트레이닝 모델을 최적화하므로 복잡한 텍스트 지식에 대한 사전 트레이닝 모델의 학습 능력을 향상시킨다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기와 판독 가능 저장 매체를 더 제공한다.
도5에 도시한 바는 본 출원의 실시예의 감정 분석 모델을 사전 트레이닝하는 방법에 따른 전자 기기의 블록도이다. 전자 기기는 다양한 형식의 디지털 컴퓨터, 예를 들어 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타의 적합한 컴퓨터를 가리키고자 하는 것이다. 전자 기기는 다양한 형식의 이동 장치, 예를 들어 개인용 디지털 보조기, 셀룰러 폰, 스마트폰, 웨어러블 기기 및 기타의 이와 유사한 컴퓨팅 기기를 가리킬 수도 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 설명한 및/또는 요구하는 본 출원의 구현을 한정하고자 하는 하는 것이 아니다.
도5에 도시한 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(401), 메모리(402) 및 각 부품을 연결하는 인터페이스를 포함하는바, 고속 인터페이스와 저속 인터페이스가 포함된다. 각 부품은 부동한 버스를 이용하여 서로 연결되고 공용 메인기판에 장착되거나 또는 필요에 따라 기타의 방식으로 장착될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있는바, 메모리 내에 또는 메모리 위에 저장되어 외부 입력/출력 장치(예를 들어 인터페이스에 커플링되는 디스플레이 기기)에 GUI의 그래픽 정보를 표시하는 명령이 포함된다. 기타의 실시 방식에서, 필요하다면 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있는바, 각 전자 기기는 일부 필요한 동작을 제공한다(예를 들어 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서). 도5는 한 프로세서(401)를 예로 든다.
메모리(402)가 바로 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있는바, 이는 상기 적어도 하나의 프로세서에 의해 본 출원에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법이 실행되도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 출원에 의해 제공되는 감정 분석 모델을 사전 트레이닝하는 방법이 실행되도록 한다.
메모리(402)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들면 본 출원의 실시예의 감정 분석 모델을 사전 트레이닝하는 방법에 대응되는 프로그램 명령/모듈(예를 들면 도4에 도시한 제1 결정 모듈(31), 제1 생성 모듈(32) 및 제2 생성 모듈(33), 제2 결정 모듈(34) 및 업데이트 모듈(35))을 저장할 수 있다. 프로세서(401)는 메모리(402)에 저장되는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 실행하는바, 즉 상술한 방법 실시예의 감정 분석 모델을 사전 트레이닝하는 방법을 구현한다.
메모리(402)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있는바, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 감정 분석 모델을 사전 트레이닝하는 방법에 따른 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 이 외에도 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수도 있고, 비일시적 메모리, 예를 들어 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치 또는 기타의 비일시적 고체 상태 저장 장치를 더 포함할 수도 있다. 일부 실시예에서, 메모리(402)는 선택적으로 프로세서(401) 대비 원격 설치되는 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 감정 분석 모델을 사전 트레이닝하는 방법의 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 내부 네트워크, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
감정 분석 모델을 사전 트레이닝하는 방법의 전자 기기는 입력 장치(403)와 출력 장치(404)를 더 포함할 수 있다. 프로세서(401), 메모리(402), 입력 장치(403) 및 출력 장치(404)는 버스 또는 기타의 방식으로 연결될 수 있는바, 도5에서는 버스에 의한 연결을 예로 든다.
입력 장치(403)는 입력되는 숫자 또는 캐릭터 정보를 수신하고, 감정 분석 모델을 사전 트레이닝하는 방법의 전자 기기의 사용자 설정 및 기능 제어에 관련되는 키 신호 입력을 발생시킬 수 있는바, 예를 들면 터치 스크린, 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 스틱 등 입력 장치가 있다. 출력 장치(404)는 디스플레이 기기, 보조 조명장치(예를 들어 LED) 및 촉각 피드백 장치(예를 들어 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나, 이에 한정되지 않는다. 일부 실시 방식에서 디스플레이 기기는 터치 스크린일 수 있다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 감정 분석 모델을 사전 트레이닝하는 방법이 실행된다.
여기서 설명하는 시스템과 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형ASIC(주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신하고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 고급 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여, 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독 가능 매체'와 '컴퓨터 판독 가능 매체'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키는바, 이는 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 '기계 판독 가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.
사용자와의 인터랙션을 제공하기 위해, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 당해 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 포함하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바, 예를 들어, 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백(예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함함)으로 사용자로부터의 입력이 수신될 수 있다.
여기서 설명하는 시스템과 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버로서), 미들웨어를 포함하는 컴퓨팅 시스템(예를 들면 애플리케이션 서버), 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터일 수 있는바, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통하여, 여기서 설명하는 시스템 및 기술의 실시 방식과 인터랙션할 수 있음) 또는 이러한 백그라운드 부품, 미들웨어 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신(예를 들면 통신 네트워크)으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광대역 통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로는 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트 - 서버 관계를 이루는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계가 발생된다.
본 출원의 실시예에 따른 기술안은, 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하고, 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하고, 이후, 미리 설정된 인코더를 이용하여 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하고, 나아가, 미리 설정된 디코더를 이용하여 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정함으로써 감정 예측어와 감정 탐지어의 차이 및 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트한다. 이로써, 모델 사전 트레이닝 과정에 통계 계산된 감정 지식을 융합함으로써 사전 트레이닝 모델이 감정 분석 방향의 데이터를 더욱 잘 표시할 수 있도록 하고 감정 분석의 효과를 향상시킨다.
위에서 제시한 다양한 형식의 흐름을 적용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해하여야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병행으로 실행될 수도 있고, 순차로 실행될 수도 있고, 부동한 순서로 실행될 수도 있는바, 본 출원에서 개시하는 기술안에 대한 기대 효과를 구현할 수만 있으면 되며, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본 출원의 보호 범위를 한정하지 않는다. 설계 요구와 기타 요소에 따른 다양한 수정, 조합, 서브 조합 및 치환이 가능하다는 점은 당업자에 있어서 자명할 것이다. 본 출원의 사상과 원칙 이내에 있는 임의의 수정, 등가적 치환 및 개량 등은 모두 본 출원의 보호 범위에 포함되어야 한다.

Claims (15)

  1. 컴퓨팅 장치에 의해 각 단계가 수행되는 감정 분석 모델을 사전 트레이닝하는 방법에 있어서,
    주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는 단계 - 각 탐지어 쌍은 하나의 코멘트 포인트와 하나의 감정어를 포함함 - ;
    미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하는 단계;
    미리 설정된 인코더를 이용하여 상기 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하는 단계;
    미리 설정된 디코더를 이용하여 상기 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정하는 단계; 및
    상기 감정 예측어와 감정 탐지어의 차이 및 상기 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 상기 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 단계; 를 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 방법.
  2. 제1항에 있어서,
    상기 주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하는 단계는,
    i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제1 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도가 제1 역치보다 큰 경우, j번째 단어 세그먼테이션을 상기 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계;
    또는,
    i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제2 시드 감정어의 유사도가 제2 역치보다 큰 경우, j번째 단어 세그먼테이션을 상기 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계; 를 포함하고,
    여기서, i는 0보다 크고 N보다 작거나 같은 정수이고, j는 0보다 크고 K보다 작거나 같은 양의 정수이고, N은 상기 트레이닝 말뭉치 집합에 포함되는 트레이닝 말뭉치 수량이고, K는 j번째 트레이닝 말뭉치에 포함되는 단어 세그먼테이션 수량인,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 방법.
  3. 제2항에 있어서,
    상기 j번째 단어 세그먼테이션을 상기 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계 이후,
    상기 j번째 단어 세그먼테이션을 상기 주어진 시드 감정어 사전에 추가하는 단계를 더 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 방법.
  4. 제2항에 있어서,
    상기 j번째 단어 세그먼테이션을 상기 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 단계 이후,
    상기 i번째 트레이닝 말뭉치 내에서의 상기 j번째 단어 세그먼테이션과 상기 i번째 트레이닝 말뭉치의 각 단어 세그먼테이션의 위치 관계 가 미리 설정된 품사 패턴 또는 구문 패턴에 대한 매칭도에 따라 상기 i번째 트레이닝 말뭉치에 포함되는 탐지어 쌍을 결정하는 단계를 더 포함하는
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 방법.
  5. 제1항에 있어서,
    상기 각 트레이닝 말뭉치에 포함되는 감정 탐지어를 결정하는 단계 이후,
    각 감정 탐지어와 주어진 시드 감정어 사전의 제3 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도 및 상기 제3 시드 감정어의 감정 극성에 따라 각 감정 탐지어의 탐지 감정 극성을 결정하는 단계를 더 포함하고,
    상기 미리 설정된 디코더를 이용하여 상기 특징 벡터를 디코딩 처리하는 단계는,
    미리 설정된 디코더를 이용하여 상기 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어, 예측어 쌍 및 각 감정 예측어의 예측 감정 극성을 결정하는 단계를 포함하고,
    상기 상기 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 단계는,
    상기 감정 예측어와 감정 탐지어의 차이, 상기 예측어 쌍과 상기 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 탐지 감정 극성의 차이에 따라 상기 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 단계를 포함하는
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 방법.
  6. 제1항에 있어서,
    상기 미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하는 단계는,
    미리 설정된 비례로 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하는 단계를 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 방법.
  7. 감정 분석 모델을 사전 트레이닝하는 장치에 있어서,
    주어진 시드 감정어 사전에 따라 트레이닝 말뭉치 집합 내의 각 트레이닝 말뭉치를 감정 지식 탐지하여 각 트레이닝 말뭉치에 포함되는 감정 탐지어 및 탐지어 쌍을 결정하는 제1 결정 모듈 - 각 탐지어 쌍은 하나의 코멘트 포인트와 하나의 감정어를 포함함 - ;
    미리 설정된 마스킹 처리 규칙에 따라 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하여 마스킹된 말뭉치를 생성하는 제1 생성 모듈;
    미리 설정된 인코더를 이용하여 상기 마스킹된 말뭉치를 인코딩 처리하여 각 트레이닝 말뭉치에 대응되는 특징 벡터를 생성하는 제2 생성 모듈;
    미리 설정된 디코더를 이용하여 상기 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어 및 예측어 쌍을 결정하는 제2 결정 모듈; 및
    상기 감정 예측어와 감정 탐지어의 차이 및 상기 예측어 쌍과 상기 탐지어 쌍의 차이에 따라 상기 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 업데이트 모듈; 을 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 장치.
  8. 제7항에 있어서,
    상기 제1 결정 모듈은,
    i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제1 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도가 제1 역치보다 큰 경우, j번째 단어 세그먼테이션을 상기 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 제1 결정 유닛;
    또는,
    i번째 트레이닝 말뭉치의 j번째 단어 세그먼테이션과 주어진 시드 감정어 사전의 제2 시드 감정어의 유사도가 제2 역치보다 큰 경우, j번째 단어 세그먼테이션을 상기 i번째 트레이닝 말뭉치 내의 감정 탐지어로 결정하는 제2 결정 유닛; 을 포함하고,
    여기서, i는 0보다 크고 N보다 작거나 같은 정수이고, j는 0보다 크고 K보다 작거나 같은 양의 정수이고, N은 상기 트레이닝 말뭉치 집합에 포함되는 트레이닝 말뭉치 수량이고, K는 j번째 트레이닝 말뭉치에 포함되는 단어 세그먼테이션 수량인,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 장치.
  9. 제8항에 있어서,
    상기 제1 결정 모듈은,
    상기 j번째 단어 세그먼테이션을 상기 주어진 시드 감정어 사전에 추가하는 추가 유닛을 더 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 장치.
  10. 제8항에 있어서,
    상기 제1 결정 모듈은,
    상기 i번째 트레이닝 말뭉치 내에서의 상기 j번째 단어 세그먼테이션과 상기 i번째 트레이닝 말뭉치의 각 단어 세그먼테이션의 위치 관계가 미리 설정된 품사 패턴 또는 구문 패턴에 대한 매칭도에 따라 상기 i번째 트레이닝 말뭉치에 포함되는 탐지어 쌍을 결정하는 제3 결정 유닛을 더 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 장치.
  11. 제7항에 있어서,
    상기 감정 분석 모델을 사전 트레이닝하는 장치는,
    각 감정 탐지어와 주어진 시드 감정어 사전의 제3 시드 감정어에 있어서 트레이닝 말뭉치 집합에서의 동시출현 빈도 및 상기 제3 시드 감정어의 감정 극성에 따라 각 감정 탐지어의 탐지 감정 극성을 결정하는 제3 결정 모듈을 더 포함하고,
    상기 제2 결정 모듈은,
    미리 설정된 디코더를 이용하여 상기 특징 벡터를 디코딩 처리하여 각 트레이닝 말뭉치에 포함되는 감정 예측어, 예측어 쌍 및 각 감정 예측어의 예측 감정 극성을 결정하는 제4 결정 유닛을 포함하고,
    상기 업데이트 모듈은,
    상기 감정 예측어와 감정 탐지어의 차이, 상기 예측어 쌍과 상기 탐지어 쌍의 차이 및 각 감정 예측어의 예측 감정 극성과 탐지 감정 극성의 차이에 따라 상기 미리 설정된 인코더 및 미리 설정된 디코더를 업데이트하는 업데이트 유닛을 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 장치.
  12. 제7항에 있어서,
    상기 제1 생성 모듈은,
    미리 설정된 비례로 각 트레이닝 말뭉치 내의 감정 탐지어 및 탐지어 쌍을 마스킹 처리하는 마스킹 유닛을 포함하는,
    것을 특징으로 하는 감정 분석 모델을 사전 트레이닝하는 장치.
  13. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신적으로 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항의 방법을 실행하는,
    것을 특징으로 하는 전자 기기.
  14. 컴퓨터 명령이 저장되어 있는 비일시성 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령이 실행될 경우, 제1항 내지 제6항 중 어느 한 항의 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시성 컴퓨터 판독 가능 저장 매체.
  15. 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제6항 중 어느 한 항의 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020200081896A 2019-12-30 2020-07-03 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기 KR102472708B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911399965.1A CN111144507B (zh) 2019-12-30 2019-12-30 情感分析模型预训练方法、装置及电子设备
CN201911399965.1 2019-12-30

Publications (2)

Publication Number Publication Date
KR20210086940A KR20210086940A (ko) 2021-07-09
KR102472708B1 true KR102472708B1 (ko) 2022-11-30

Family

ID=70522175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200081896A KR102472708B1 (ko) 2019-12-30 2020-07-03 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기

Country Status (5)

Country Link
US (1) US11537792B2 (ko)
EP (1) EP3846069A1 (ko)
JP (1) JP7149993B2 (ko)
KR (1) KR102472708B1 (ko)
CN (1) CN111144507B (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11615241B2 (en) * 2020-04-03 2023-03-28 Bewgle Technologies Pvt Ltd. Method and system for determining sentiment of natural language text content
CN111680145B (zh) * 2020-06-10 2023-08-15 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111859908B (zh) * 2020-06-30 2024-01-19 北京百度网讯科技有限公司 情感学习的预训练方法、装置、电子设备和可读存储介质
CN111899759B (zh) * 2020-07-27 2021-09-03 北京嘀嘀无限科技发展有限公司 音频数据的预训练、模型训练方法、装置、设备及介质
CN111858942A (zh) * 2020-07-29 2020-10-30 阳光保险集团股份有限公司 一种文本抽取方法、装置、存储介质和电子设备
CN113420128B (zh) * 2021-08-23 2021-11-19 腾讯科技(深圳)有限公司 文本匹配方法、装置、存储介质及计算机设备
CN115248846B (zh) * 2022-07-26 2023-05-23 贝壳找房(北京)科技有限公司 文本识别方法、设备、介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354183A (zh) 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
WO2018213763A1 (en) 2017-05-19 2018-11-22 Salesforce.Com, Inc. Natural language processing using context-specific word vectors
CN110083702A (zh) 2019-04-15 2019-08-02 中国科学院深圳先进技术研究院 一种基于多任务学习的方面级别文本情感转换方法
CN110377740A (zh) 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 情感极性分析方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101423549B1 (ko) * 2012-10-26 2014-08-01 고려대학교 산학협력단 감상 기반 질의 처리 시스템 및 방법
US9536200B2 (en) * 2013-08-28 2017-01-03 International Business Machines Corporation Sentiment analysis of data logs
CN106649519B (zh) * 2016-10-17 2020-11-27 北京邮电大学 一种产品特征的挖掘与评价方法
CN107133282B (zh) * 2017-04-17 2020-12-22 华南理工大学 一种改进的基于双向传播的评价对象识别方法
CN107273348B (zh) * 2017-05-02 2020-12-18 深圳大学 一种文本的话题和情感联合检测方法及装置
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置
CN109189919B (zh) * 2018-07-27 2020-11-13 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质
CN109800418B (zh) * 2018-12-17 2023-05-05 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN110209824B (zh) * 2019-06-13 2021-06-22 中国科学院自动化研究所 基于组合模型的文本情感分析方法、系统、装置
CN110413780B (zh) * 2019-07-16 2022-02-22 合肥工业大学 文本情感分析方法和电子设备
CN110489553B (zh) * 2019-07-26 2022-07-05 湖南大学 一种基于多源信息融合的情感分类方法
CN110543561A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 对文本进行情感分析的方法及装置
CN111091460A (zh) * 2019-11-22 2020-05-01 深圳前海微众银行股份有限公司 一种数据处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354183A (zh) 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
WO2018213763A1 (en) 2017-05-19 2018-11-22 Salesforce.Com, Inc. Natural language processing using context-specific word vectors
CN110083702A (zh) 2019-04-15 2019-08-02 中国科学院深圳先进技术研究院 一种基于多任务学习的方面级别文本情感转换方法
CN110377740A (zh) 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 情感极性分析方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111144507B (zh) 2021-06-08
KR20210086940A (ko) 2021-07-09
US20210200949A1 (en) 2021-07-01
CN111144507A (zh) 2020-05-12
US11537792B2 (en) 2022-12-27
JP2021111323A (ja) 2021-08-02
JP7149993B2 (ja) 2022-10-07
EP3846069A1 (en) 2021-07-07

Similar Documents

Publication Publication Date Title
KR102472708B1 (ko) 감정 분석 모델을 사전 트레이닝하는 방법, 장치 및 전자 기기
KR102497945B1 (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
KR102534721B1 (ko) 모델을 트레이닝하는 방법, 장치, 기기 및 저장 매체
US11704492B2 (en) Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text
CN110717327B (zh) 标题生成方法、装置、电子设备和存储介质
KR20210152924A (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
US20210390260A1 (en) Method, apparatus, device and storage medium for matching semantics
JP7159248B2 (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
JP2021149916A (ja) ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体
CN111783443B (zh) 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
EP3852000A1 (en) Method and apparatus for processing semantic description of text entity, device and storage medium
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
US20220019743A1 (en) Method for training multilingual semantic representation model, device and storage medium
JP7133002B2 (ja) 句読点予測方法および装置
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
CN111079945B (zh) 端到端模型的训练方法及装置
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
US20220171941A1 (en) Multi-lingual model training method, apparatus, electronic device and readable storage medium
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
CN111737954A (zh) 文本相似度确定方法、装置、设备和介质
US20210232775A1 (en) Language generation method and apparatus, electronic device and storage medium
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
CN115952790A (zh) 信息抽取方法及其装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right