KR20210118360A - 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체 - Google Patents

라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체 Download PDF

Info

Publication number
KR20210118360A
KR20210118360A KR1020210012424A KR20210012424A KR20210118360A KR 20210118360 A KR20210118360 A KR 20210118360A KR 1020210012424 A KR1020210012424 A KR 1020210012424A KR 20210012424 A KR20210012424 A KR 20210012424A KR 20210118360 A KR20210118360 A KR 20210118360A
Authority
KR
South Korea
Prior art keywords
word
labeling
replacement
text data
task
Prior art date
Application number
KR1020210012424A
Other languages
English (en)
Other versions
KR102645185B1 (ko
Inventor
씬차오 쉬
하이펑 왕
화 우
짠이 리우
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210118360A publication Critical patent/KR20210118360A/ko
Application granted granted Critical
Publication of KR102645185B1 publication Critical patent/KR102645185B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 출원은 라벨링 모델을 구축하는 방법, 장치, 전자 기기 및 판독 가능 저장 매체를 개시하는바, 자연 언어 처리의 기술 분야에 관한 것이다. 본 출원의 라벨링 모델을 구축할 때 사용하는 실현 방안은, 텍스트 데이터를 취득하고, 각 텍스트 데이터 중의 라벨링 대기 단어를 결정하며; 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하고; 상기 단어 교체 태스크 및 상기 라벨링 태스크의 손실 함수가 미리 결정된 조건을 만족시킬 때까지, 상기 제1 트레이닝 샘플 및 상기 제2 트레이닝 샘플을 각각 사용하여 뉴럴 네트워크 모델을 트레이닝하여 라벨링 모델을 얻는 것이다. 본 출원은 라벨링 모델의 단어를 라벨링하는 정확성을 향상시킬 수 있고, 라벨링 모델이 다양한 라벨링 시나리오에 적응할 수 있도록 한다.

Description

라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체 {METHOD, APPARATUS, ELECTRONIC DEVICE, PROGRAM AND READABLE STORAGE MEDIUM FOR CREATING A LABEL MARKING MODEL}
본 출원은 인공 지능 기술 분야에 관한 것인 바, 특히 자연 언어 처리 기술 분야에서의 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체에 관한 것이다.
종래 기술에서는 라벨링 모델을 트레이닝할 때 라벨링 대기 단어 자체의 정보만을 학습하여 라벨링할 뿐, 라벨링된 라벨 단어와 라벨링 대기 단어가 위치하는 컨텍스트의 관계를 충분히 학습하지 않는다. 따라서, 한편으로는 라벨링 모델이 라벨링 대기 단어를 라벨링하는 정확성을 저하시키고, 다른 한편으로는 라벨링 모델이 라벨링할 수 있는 적용 시나리오가 제한된다.
본 출원이 기술적 문제를 해결하기 위하여 사용하는 기술 방안은 라벨링 모델을 구축하는 방법을 제공한다.
상기 방법은 텍스트 데이터를 취득하고, 각 텍스트 데이터 중의 라벨링 대기 단어를 결정하는 단계; 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하는 단계; 및 상기 단어 교체 태스크 및 상기 라벨링 태스크의 손실 함수가 미리 결정된 조건을 만족시킬 때까지, 상기 제1 트레이닝 샘플 및 상기 제2 트레이닝 샘플을 각각 사용하여 뉴럴 네트워크 모델을 트레이닝하여 라벨링 모델을 얻는 단계를 포함한다. 본 출원은 라벨링 모델의 단어를 라벨링하는 정확성을 향상시킬 수 있고, 라벨링 모델이 다양한 라벨링 시나리오에 적응할 수 있도록 한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 각 텍스트 데이터 중의 라벨링 대기 단어를 결정하는 단계는 상기 텍스트 데이터에 대하여 단어 분할 처리를 수행하여 상기 텍스트 데이터 중의 각 단어의 품사를 취득하는 단계; 및 품사가 미리 결정된 품사에 속하는 단어를 상기 라벨링 대기 단어로 간주하는 단계를 포함한다. 본 단계는 유저가 라벨링 대기 단어를 수동으로 결정하는 것을 회피하고, 라벨링 모델의 구축 효율을 향상시킬 수 있다.
본 출원의 바람직한 일 실시예에 따르면, 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성하는 단계는: 상기 라벨링 대기 단어에 대응하는 교체 단어를 취득하는 단계; 상기 교체 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 상기 교체 단어의 종류를 교체 텍스트의 교체 종류 라벨링 결과로 간주하는 단계; 및 각 교체 텍스트 및 이에 대응하는 교체 종류 라벨링 결과를 상기 제1 트레이닝 샘플로 간주하는 단계를 포함한다. 본 단계는 서로 다른 트레이닝 태스크에 기반하여 트레이닝 샘플을 구성함으로써, 모델 트레이닝의 정확성을 향상시킬 수 있다.
본 출원의 바람직한 일 실시예에 따르면, 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하는 단계는 상기 라벨링 대기 단어에 관련되는 라벨 단어를 취득하고, 상기 라벨 단어를 상기 라벨링 대기 단어의 라벨링 결과로 간주하는 단계; 및 상기 텍스트 데이터, 상기 라벨링 대기 단어 및 대응하는 라벨링 결과를 상기 제2 트레이닝 샘플로 간주하는 단계를 포함한다. 본 단계는 서로 다른 트레이닝 태스크에 기반하여 트레이닝 샘플을 구성함으로써, 모델 트레이닝의 정확성을 향상시킬 수 있다.
본 출원의 바람직한 일 실시예에 따르면, 상기 라벨링 대기 단어에 대응하는 교체 단어를 취득하는 단계는 상기 라벨링 대기 단어의 미리 결정된 지식 베이스 중의 식별 정보를 결정하는 단계; 및 미리 결정된 지식 베이스 중의 상기 식별 정보에 대응하는 교체 단어를 취득하는 단계를 포함한다. 본 단계는 미리 결정된 지식 베이스를 통해 교체 단어를 취득함으로써, 트레이닝 샘플의 구축 정확성을 향상시킬 수 있다.
본 출원의 바람직한 일 실시예에 따르면, 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝하는 단계는 각 교체 텍스트를 입력으로 하고 각 교체 텍스트에 대응하는 교체 종류 라벨링 결과를 출력으로 하여, 상기 뉴럴 네트워크 모델로 하여금 입력된 교체 텍스트에 기반하여 당해 교체 텍스트가 각 교체 종류에 속하는 확률을 출력 가능하도록 하는 단계를 포함한다.
본 출원의 바람직한 일 실시예에 따르면, 제2 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝하는 단계는 각 텍스트 데이터 및 라벨링 대기 단어를 입력으로 하고 라벨링 대기 단어에 대응하는 라벨링 결과를 출력으로 하여, 상기 뉴럴 네트워크 모델로 하여금 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을 출력 가능하도록 하는 단계를 포함한다.
본 출원의 바람직한 일 실시예에 따르면, 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝하는 단계는 상기 단어 교체 태스크를 라벨 단어 교체 서브 태스크 및 동격어 교체 서브 태스크로 분할하는 단계; 및 상기 제1 트레이닝 샘플 중의 2개의 서브 태스크에 대응하는 트레이닝 샘플에 기반하여 상기 단어 교체 태스크의 트레이닝을 완성시키는 단계를 포함한다. 본 단계는 단어 교체 태스크를 2개의 서브 태스크로 분할하여 트레이닝하는 을 통해, 뉴럴 네트워크 모델로 하여금 라벨 단어 교체와 동격어(appositive) 교체를 더욱 정확하게 구별 가능하도록 하고, 모델 라벨링의 정확성을 더욱 향상시킨다.
본 출원의 종래의 기술 문제를 해결하기 위하여 사용하는 기술 방안은 라벨링 모델을 구축하는 장치를 제공하는바, 당해 장치는 텍스트 데이터를 취득하고, 각 텍스트 데이터 중의 라벨링 대기 단어를 결정하기 위한 취득 유닛; 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하기 위한 구축 유닛; 및 상기 단어 교체 태스크 및 상기 라벨링 태스크의 손실 함수가 미리 결정된 조건을 만족시킬 때까지, 상기 제1 트레이닝 샘플 및 상기 제2 트레이닝 샘플을 각각 사용하여 뉴럴 네트워크 모델을 트레이닝하여 라벨링 모델을 취득하기 위한 트레이닝 유닛을 구비한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 취득 유닛은 각 텍스트 데이터 중의 라벨링 대기 단어를 결정할 때 구체적으로, 상기 텍스트 데이터에 대하여 단어 분할 처리를 수행하여 상기 텍스트 데이터 중의 각 단어의 품사를 취득하는 단계; 및 품사가 미리 결정된 품사에 속하는 단어를 상기 라벨링 대기 단어로 간주하는 단계를 실행한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 구축 유닛은 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성할 때 구체적으로, 상기 라벨링 대기 단어에 대응하는 교체 단어를 취득하는 단계; 상기 교체 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 상기 교체 단어의 종류를 교체 텍스트의 교체 종류 라벨링 결과로 간주하는 단계; 및 각 교체 텍스트 및 이에 대응하는 교체 종류 라벨링 결과를 상기 제1 트레이닝 샘플로 간주하는 단계를 실행한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 구축 유닛은 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성할 때 구체적으로, 상기 라벨링 대기 단어에 관련되는 라벨 단어를 취득하고, 상기 라벨 단어를 상기 라벨링 대기 단어의 라벨링 결과로 간주하는 단계; 및 상기 텍스트 데이터, 상기 라벨링 대기 단어 및 대응하는 라벨링 결과를 상기 제2 트레이닝 샘플로 간주하는 단계를 실행한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 구축 유닛은 상기 라벨링 대기 단어에 대응하는 교체 단어를 취득할 때 구체적으로, 상기 라벨링 대기 단어의 미리 결정된 지식 베이스 중의 식별 정보를 결정하는 단계; 및 미리 결정된 지식 베이스 중의 상기 식별 정보에 대응하는 교체 단어를 취득하는 단계를 실행한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 트레이닝 유닛은 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝할 때 구체적으로, 각 교체 텍스트를 입력으로 하고 각 교체 텍스트에 대응하는 교체 종류 라벨링 결과를 출력으로 하여, 상기 뉴럴 네트워크 모델로 하여금 입력된 교체 텍스트에 기반하여 당해 교체 텍스트가 각 교체 종류에 속하는 확률을 출력 가능하도록 하는 단계를 실행한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 트레이닝 유닛은 제2 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝할 때 구체적으로, 각 텍스트 데이터 및 라벨링 대기 단어를 입력으로 하고 라벨링 대기 단어에 대응하는 라벨링 결과를 출력으로 하여, 상기 뉴럴 네트워크 모델이 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을 출력 가능하도록 하는 단계를 실행한다.
본 출원의 바람직한 일 실시예에 따르면, 상기 트레이닝 유닛은 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝할 때 구체적으로, 상기 단어 교체 태스크를 라벨 단어 교체 서브 태스크 및 동격어 교체 서브 태스크로 분할하는 단계; 및 상기 제1 트레이닝 샘플 중의 2개의 서브 태스크에 대응하는 트레이닝 샘플에 기반하여 상기 단어 교체 태스크의 트레이닝을 완성시키는 단계를 실행한다.
상기의 출원 중 일 실시예는 이하의 이점 또는 유익한 효과를 가진다. 본 출원은 라벨링 모델의 단어를 라벨링하는 정확성을 향상시키고, 라벨링 모델이 다양한 라벨링 시나리오에 적응할 수 있도록 할 수 있다. 라벨링 모델의 구축 과정에서 단어 교체 태스크 및 라벨링 태스크를 트레이닝하는 기술 수단을 사용하므로, 종래 기술에서 라벨링 대기 단어 자체의 정보에만 주목함으로써 기인하는 라벨링의 정확성이 낮아지고, 라벨링의 적용 시나리오가 제한되는 기술 문제를 극복하였고, 따라서 단어를 라벨링하는 정확성을 향상시키고, 라벨링 모델이 다양한 라벨링 시나리오에 적응할 수 있도록 하는 기술적 효과를 실현한다.
상기의 선택적인 형태가 가지는 기타 효과는 아래에서 구체적인 실시예를 참조하여 설명한다.
도면은 본 방안을 더욱 잘 이해하게 하기 위한 것일 뿐, 본 출원에 대한 한정을 이루지 않는다.
도 1은 본 출원의 제1 실시예에 의해 제공되는 라벨링 모델을 구축하는 방법의 플로우 챠트이다.
도 2는 본 출원의 제2 실시예에 의해 제공되는 라벨링 모델을 구축하는 장치의 구성도이다.
도 3은 본 출원의 실시예에 따른 라벨링 모델을 구축하는 방법을 실현하는 전자 기기의 블럭도이다.
이하, 도면을 참조하여 본 발명의 시범적인 실시예를 설명하는바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 설명에서는 잘 알려진 기능 및 구조의 설명을 생략하였다.
도 1은 본 출원의 제1 실시예에 의해 제공되는 라벨링 모델을 구축하는 방법의 플로우 차트인 바, 도 1에 나타낸 바와 같이, 상기 방법은 S101~S103을 포함한다.
S101에 있어서, 텍스트 데이터들을 취득하고, 각 텍스트 데이터 중의 라벨링 대기 단어를 결정한다.
본 단계에 있어서, 먼저 텍스트 데이터를 취득한 후, 각 텍스트 데이터 중의 라벨링 대기(to be labeled) 단어를 결정하며, 여기서, 결정된 라벨링 대기 단어는 텍스트 데이터 중의 라벨링할 필요가 있는 단어다.
여기서, 본 단계에서는 유저에 의해 입력된 컨텐츠를 텍스트 데이터로 간주할 수 있으며, 텍스트 데이터의 수량을 증가하기 위하여, 본 단계에서는 네트워크에서 캡쳐한 컨텐츠를 텍스트 데이터로 간주할 수도 있다.
구체적으로, 본 단계에서는 각 텍스트 데이터 중의 라벨링 대기 단어를 결정할 때, 텍스트 데이터로 유저가 지정한 단어를 라벨링 대기 단어로 간주할 수 있는바, 예를 들면, 유저가 텍스트 데이터에 대해 지정한 하나 또는 복수의 단어를 라벨링 대기 단어로 간주한다.
유저의 과도한 참여를 회피하고, 라벨링 모델의 구축 효율을 향상시키기 위하여, 본 단계에서는 각 텍스트 데이터 중의 라벨링 대기 단어를 결정할 때, 아래의 방식을 통해 실현할 수 있다. 텍스트 데이터에 대하여 단어 분할을 수행한 후, 텍스트 데이터 중의 각 단어의 품사를 취득하고, 품사가 미리 결정된 품사에 속하는 단어를 라벨링 대기 단어로 간주한다. 여기서, 본 단계 중의 미리 결정된 품사는 명사의 품사일 수 있는바, 즉 본 단계에서는 텍스트 데이터 중의 명사의 단어를 라벨링 대기 단어로 간주한다.
S102에 있어서, 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성한다.
본 단계에 있어서, 단계 S101에서 각 텍스트 데이터 중의 라벨링 대기 단어를 결정한 후, 결정된 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성한다. 즉, 본 단계에서는 동일한 텍스트 데이터에 대하여, 2개의 타입의 트레이닝 샘플을 구성하는바, 하나의 타입의 트레이닝 샘플은 단어 교체 태스크에 대응하고, 다른 하나의 타입의 트레이닝 샘플은 라벨링 태스크에 대응한다.
여기서, 본 출원에서의 단어 교체 태스크는 해당하는 타입의 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후 얻어진 교체 텍스트가 어느 교체 종류에 속하는지를 예측하는 태스크이며, 당해 트레이닝 태스크는 라벨링 대기 단어의 표시, 라벨 단어의 표시 및 라벨 단어의 컨텍스트 중의 관계를 학습할 수 있으며, 본 출원에서의 라벨링 태스크는 텍스트 데이터 및 그 중의 라벨링 대기 단어에 기반하여 라벨링 대기 단어에 대응하는 라벨을 예측하는 태스크이다.
단어 교체 태스크가 예측하는 것이 교체 텍스트가 속하는 교체 종류이기 때문에, 본 단계에서는 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성할 때, 라벨링 대기 단어의 서로 다른 종류에 대응하는 교체 단어를 취득할 필요가 있고, 따라서 텍스트 데이터의 서로 다른 교체 종류에 대응하는 교체 텍스트를 취득하는 것을 실현한다.
구체적으로, 본 단계에서는 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성할 때, 아래의 방식을 통해 실현할 수 있다. 결정된 라벨링 대기 단어에 대응하는 교체 단어를 취득하는바, 여기서, 교체 단어는 라벨링 대기 단어에 관련되는 라벨 단어, 라벨링 대기 단어에 관련되는 동격어 및 라벨링 대기 단어에 관련되지 않는 라벨 단어 중 적어도 하나를 포함하고, 교체 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 교체 단어의 종류를 교체 텍스트의 교체 종류 라벨링 결과로 간주하며, 여기서, 교체 종류 라벨링 결과는 라벨 단어 교체 종류, 동격어 교체 종류 및 비 관련 라벨 단어 교체 종류를 포함하고, 각 교체 텍스트 및 이에 대응하는 교체 종류 라벨링 결과를 제1 트레이닝 샘플로 간주한다.
본 단계에서는 교체하지 않는 텍스트(즉 초기의 텍스트 데이터) 및 이에 대응하는 비 교체 종류 라벨링 결과를 제1 트레이닝 샘플에 추가할 수도 있는 것을 이해할 수 있다.
여기서, 본 단계 중의 라벨링 대기 단어에 관련되는 라벨 단어는 라벨링 대기 단어에 대응하는 상위 개념 단어인 바, 즉 라벨링 대기 단어가 속하는 분야 또는 속성의 단어이며, 라벨링 대기 단어에 관련되는 동격어는 라벨링 대기 단어와 같은 상위 개념 단어를 가지는 서로 다른 단어인 바, 예를 들면 라벨링 대기 단어와 동일한 분야 또는 동일한 속성에 속하는 서로 다른 단어이며, 라벨링 대기 단어에 관련되지 않는 라벨 단어는 라벨링 대기 단어에 대응하지 않는 상위 개념 단어이다.
예를 들면, 라벨링 대기 단어가 "나와 나의 조국”이면, 당해 단어에 관련되는 라벨 단어는 "영화”, "국경절의 선물 영화” 등일 수 있고, 당해 단어에 관련되는 동격어는 마찬가지로 영화에 속하는 "누런 대지”, "열병식”, "패왕별희” 등일 수 있으며, 당해 단어에 관련되지 않는 라벨 단어는 "감독”, "드라마”, "스타” 등일 수 있다.
또한, 본 단계에서는 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하는 단계는 아래의 방식을 통해 실현할 수 있다. 라벨링 대기 단어에 관련되는 라벨 단어를 취득하고, 취득된 라벨 단어를 라벨링 대기 단어의 라벨링 결과로 간주하며, 텍스트 데이터, 라벨링 대기 단어 및 라벨링 대기 단어의 라벨링 결과를 제2 트레이닝 샘플로 간주한다.
예를 들면, 텍스트 데이터가 "최근 출시된 '나와 나의 조국’, 천카이꺼어가 총 감독을 맡음”이고, 라벨링 대기 단어가 "나와 나의 조국”이면, "나와 나의 조국”에 관련되는 라벨 단어인 "영화”, "국경절의 선물 영화” 등을 라벨링 결과로 간주한다.
본 단계에서는 라벨링 대기 단어에 관련되는 라벨 단어, 라벨링 대기 단어에 관련되는 동격어 및 라벨링 대기 단어에 관련되지 않는 라벨 단어 등의 교체 단어를 취득할 때, 라벨링 대기 단어에 대하여 네트워크 검색을 실행하여 취득되는 것을 이해할 수 있다.
교체 단어를 취득하는 정확성을 향상시키기 위하여, 본 단계에서는 라벨링 대기 단어에 대응하는 교체 단어를 취득할 때, 아래의 방식을 통해 실현할 수 있다. 라벨링 대기 단어의 미리 결정된 지식 베이스 중의 식별 정보를 결정한다. 이렇게 하는 원인은 서로 다른 라벨링 대기 단어가 같은 의미를 가질 가능성이 있기에, 하나의 식별 정보로 동일한 의미를 가지는 복수의 단어를 나타냄으로써, 미리 결정된 지식 베이스에 포함되는 단어의 중복 정도를 감소할 수 있기 때문이다. 미리 결정된 지식 베이스 중의 결정된 식별 정보에 대응하는 교체 단어를 취득한다.
여기서, 미리 결정된 지식 베이스에 포함되는 각 식별 정보에 대응하는 교체 단어는 기존의 백과 지식 베이스 중의 각 표제어에 대응하는 표제어 라벨을 수집하여 구축할 수 있으며, 따라서 유저가 라벨 단어의 수집 및 정리를 실행할 필요가 없기에, 라벨링 모델의 구축 효율을 대폭으로 향상시킨다.
S103에 있어서, 상기 단어 교체 태스크 및 상기 라벨링 태스크의 손실 함수가 미리 결정된 조건을 만족시킬 때까지, 상기 제1 트레이닝 샘플 및 상기 제2 트레이닝 샘플을 각각 사용하고, 뉴럴 네트워크 모델을 트레이닝하여 라벨링 모델을 취득한다.
본 단계에 있어서, 단계 S102에 있어서, 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성한 후, 단어 교체 태스크에 대응하는 손실 함수 및 라벨링 태스크에 대응하는 손실 함수가 미리 결정된 조건을 만족시킬 때까지, 구축된 제1 트레이닝 샘플 및 제2 트레이닝 샘플을 각각 사용하여 뉴럴 네트워크 모델을 트레이닝하며, 미리 결정된 조건의 만족시키면 라벨링 모델의 트레이닝을 정지한다. 여기서, 본 단계에서 사용되는 뉴럴 네트워크 모델은 예를 들면 transformer 모델과 같은 주의 메커니즘 모델(attention mechanism model)일 수 있다.
본 단계에서 얻어진 라벨링 모델을 이용하면, 한편으로는 입력된 텍스트 데이터가 서로 다른 교체 종류에 속하는 확률을 예측할 수 있고, 다른 한편으로는 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨이 당해 단어의 라벨링 결과에 속하는 확률을 예측할 수 있다.
본 단계에서는 멀티 태스크의 라벨링 프레임 워크에 기반하여 뉴럴 네트워크 모델의 트레이닝을 실행하므로, 본 단계에서는 먼저 뉴럴 네트워크 모델에 대하여 단어 교체 태스크의 트레이닝을 실행한 후, 라벨링 태스크의 트레이닝을 실행할 수도 있고, 먼저 뉴럴 네트워크 모델에 대하여 라벨링 태스크의 트레이닝을 실행한 후, 단어 교체 태스크의 트레이닝을 실행할 수도 있으며, 또한, 번갈아 트레이닝하는 방식을 사용하여 뉴럴 네트워크 모델에 대하여 상기의 2개의 태스크 트레이닝을 실행한다.
본 단계에서는 단어 교체 태스크의 트레이닝을 실행할 경우에는 교체 텍스트를 뉴럴 네트워크 모델의 입력으로 하고 교체 텍스트에 대응하는 교체 종류 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 텍스트 데이터에 기반하여 각 교체 종류에 속하는 확률을 출력할 수 있도록 하고, 라벨링 태스크의 트레이닝을 실행할 경우에는 텍스트 데이터 및 라벨링 대기 단어를 입력으로 하고 라벨링 대기 단어에 대응하는 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을 출력할 수 있도록 한다.
본 단계 중의 단어 교체 태스크 및 라벨링 태스크에 대응하는 손실 함수는 교차 엔트로피 손실 함수로 나타낼 수 있으며, 본 출원에서는 손실 함수의 타입에 대해 한정하지 않음을 이해하여야 한다. 또한, 본 단계 중의 손실 함수가 미리 결정된 조건을 만족시키는 것은, 손실 함수가 미리 결정된 임계값 이하인 것, 미리 결정된 회수 내에서 얻어진 손실 함수가 동일한 것 또는 미리 결정된 회수 내에서 얻어진 손실 함수의 사이 차이가 미리 결정된 임계값 이하인 것 등을 포함할 수 있다.
또한, 본 단계에서는 단어 교체 태스크의 트레이닝을 실행할 때, 단어 교체 태스크를 2개의 서브 태스크로 분할하여 트레이닝할 수도 있는바, 하나는 라벨 단어 교체 서브 태스크이고, 다른 하나는 동격어 교체 서브 태스크이며, 이러한 트레이닝 방식을 통해 뉴럴 네트워크 모델은 라벨 단어 교체와 동격어 교체를 더욱 정확하게 구별할 수 있다.
여기서, 본 단계에서는 라벨 단어 교체 태스크를 사용하여 뉴럴 네트워크 모델을 트레이닝할 때, 교체 종류가 비 교체 종류, 라벨 단어 교체 종류 및 비 관련 라벨 단어 교체 종류인 교체 텍스트를 사용하여 트레이닝하면 대응하는 손실 함수가 J1이고, 동격어 교체 태스크를 사용하여 뉴럴 네트워크 모델을 트레이닝할 때, 교체 종류가 비 교체 종류, 동격어 교체 종류인 교체 텍스트를 사용하여 트레이닝하면 대응하는 손실 함수가 J2이다. 이러한 방식을 통해 단어 교체 태스크를 실행하는 목적은 2개의 태스크 목표를 융합하는 것인 바, 즉 라벨링 대기 단어의 교체 단어 사이에서 공통성과 차이성의 밸런스를 잡으면, 단어 교체 태스크의 최종적인 손실 함수는 J=aХJ1+(1-a)ХJ2이며, 여기서 a는 2개의 태스크의 목표 밸런스를 잡는 파라미터이며, 값의 범위는 0∼1 사이이다.
제1 트레이닝 샘플 및 제2 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델의 트레이닝을 실행하기 전에, 또한 대규모 코퍼스에 기반하여 뉴럴 네트워크 모델을 프레 트레이닝함으로써, 뉴럴 네트워크 모델 중의 파라미터를 초기화하여, 프레 트레이닝된 후의 뉴럴 네트워크 모델이 일정한 라벨링 능력을 가지도록 할 수도 있다.
라벨링 모델을 2개의 태스크를 트레이닝하여 취득하기 때문에, 당해 라벨링 모델은 2개의 적용 시나리오에 대하여 단어 라벨의 라벨링을 실행할 수 있는바, 하나는 후보 라벨 단어가 있는 시나리오이고, 다른 하나는 후보 라벨 단어가 없는 시나리오이다.
후보 라벨 단어가 있는 적용 시나리오에 있어서, 라벨링 모델을 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 라벨링할 때, 아래의 방식을 통해 실현할 수 있다. 후보 라벨 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 교체 텍스트를 라벨링 모델에 입력하고, 라벨링 모델의 출력 결과에 기반하여 교체 텍스트가 라벨 단어 교체 종류에 속하는 확률을, 당해 후보 라벨 단어의 스코어링 결과로 간주하며, 스코어링 결과가 제1 미리 결정된 조건을 만족시키는 후보 라벨 단어를 라벨링 대기 단어의 라벨링 결과로서 선택하고, 예를 들면, 스코어링 결과에 기반하여 각 후보 라벨 단어를 정렬하며, 첫 번째에 정렬된 후보 라벨 단어를 라벨링 대기 단어의 라벨링 결과로 한다.
후보 라벨 단어가 없는 적용 시나리오에 있어서, 라벨링 모델을 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 라벨링할 때, 아래의 방식을 통해 실현할 수 있다. 텍스트 데이터 및 라벨링 대기 단어를 라벨링 모델에 입력하고, 라벨링 모델의 출력 결과에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을, 각 라벨 단어의 스코어링 결과로서, 스코어링 결과가 제2 미리 결정된 조건을 만족시키는 라벨 단어를 라벨링 대기 단어의 라벨링 결과로서 선택하고, 예를 들면, 스코어링 결과가 미리 결정된 임계값을 넘은 라벨 단어를 라벨링 대기 단어의 라벨링 결과로서 선택한다.
따라서, 본 출원에서는 상기의 방법으로 라벨링 모델을 구축할 때, 정상적인 라벨링 태스크에 대해 트레이닝을 실행할 뿐만 아니라, 또한 단어 교체 태스크의 트레이닝을 실행함으로써, 구축된 라벨링 모델이 단어 자체의 정보를 학습할 수 있을 뿐만 아니라, 단어의 위치하는 컨텍스트 및 그 라벨 단어의 관계도 충분히 학습할 수 있기에, 단어를 라벨링하는 정확성을 향상시키고, 라벨링 모델이 다양한 라벨링 시나리오에 적응할 수 있도록 한다.
도 2는 본 출원의 제2 실시예에 의해 제공되는 라벨링 모델을 구축하는 장치의 구성도인 바, 도 2에 나타낸 바와 같이, 상기 장치는 취득 유닛(201); 구축 유닛(202); 및 트레이닝 유닛(203)을 구비한다.
취득 유닛(201)은 텍스트 데이터들을 취득하고, 각 텍스트 데이터 중의 라벨링 대기 단어를 결정한다.
취득 유닛(201)은 먼저 텍스트 데이터를 취득한 후, 각 텍스트 데이터 중의 라벨링 대기 단어를 결정하며, 여기서, 결정된 라벨링 대기 단어가 바로 텍스트 데이터 중의 라벨링할 필요가 있는 단어다.
여기서, 취득 유닛(201)은 유저에 의해 입력된 컨텐츠를 텍스트 데이터로 간주할 수 있으며, 텍스트 데이터의 수량을 증가하기 위하여, 취득 유닛(201)은 네트워크에서 캡처한 컨텐츠를 텍스트 데이터로 간주할 수도 있다.
구체적으로, 취득 유닛(201)은 각 텍스트 데이터 중의 라벨링 대기 단어를 결정할 때, 유저가 텍스트 데이터로 지정한 단어를 라벨링 대기 단어로 간주할 수 있는바, 예를 들면, 유저가 텍스트 데이터에 대해 지정한 하나 또는 복수의 단어를 라벨링 대기 단어로 간주한다.
유저의 과도한 참여를 회피하고, 라벨링 모델의 구축 효율을 향상시키기 위하여, 취득 유닛(201)은 각 텍스트 데이터 중의 라벨링 대기 단어를 결정할 때 아래의 방식을 통해 실현할 수 있다. 텍스트 데이터에 대하여 단어 분할을 수행한 후, 텍스트 데이터 중의 각 단어의 품사를 취득하고, 품사가 미리 결정된 품사에 속하는 단어를 라벨링 대기 단어로 간주한다. 여기서, 미리 결정된 품사는 명사의 품사일 수 있는바, 즉 취득 유닛(201)은 텍스트 데이터 중의 명사의 단어를 라벨링 대기 단어로 간주한다.
구축 유닛(202)은 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성한다.
취득 유닛(201)이 각 텍스트 데이터 중의 라벨링 대기 단어를 결정한 후, 구축 유닛(202)은 결정된 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성한다. 즉, 구축 유닛(202)은 동일한 텍스트 데이터에 대하여, 2개의 타입의 트레이닝 샘플을 구성하는바, 하나의 타입의 트레이닝 샘플은 단어 교체 태스크에 대응하고, 다른 하나의 타입의 트레이닝 샘플은 라벨링 태스크에 대응한다.
여기서, 본 출원에서의 단어 교체 태스크는 해당하는 타입의 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 얻어진 교체 텍스트가 어느 교체 종류에 속하는지를 예측하는 태스크이며, 당해 트레이닝 태스크는 라벨링 대기 단어의 표시, 라벨 단어의 표시 및 라벨 단어의 컨텍스트 중의 관계를 학습할 수 있으며, 본 출원에서의 라벨링 태스크는 텍스트 데이터 및 그 중의 라벨링 대기 단어에 기반하여 라벨링 대기 단어에 대응하는 라벨을 예측하는 태스크이다.
단어 교체 태스크가 예측하는 것은 교체 텍스트가 속하는 교체 종류이기 때문에, 구축 유닛(202)은 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성할 때, 라벨링 대기 단어의 서로 다른 종류에 대응하는 교체 단어를 취득할 필요가 있고, 따라서 텍스트 데이터의 서로 다른 교체 종류에 대응하는 교체 텍스트를 취득하는 것을 실현한다.
구체적으로, 구축 유닛(202)은 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성할 때, 아래의 방식을 통해 실현할 수 있다. 결정된 라벨링 대기 단어에 대응하는 교체 단어를 취득하고, 여기서, 교체 단어는 라벨링 대기 단어에 관련되는 라벨 단어, 라벨링 대기 단어에 관련되는 동격어 및 라벨링 대기 단어에 관련되지 않는 라벨 단어 중 적어도 하나를 포함한다. 교체 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 교체 단어의 종류를 교체 텍스트의 교체 종류 라벨링 결과로 간주하며, 여기서, 교체 종류 라벨링 결과는 라벨 단어 교체 종류, 동격어 교체 종류 및 비 관련 라벨 단어 교체 종류를 포함한다. 각 교체 텍스트 및 이에 대응하는 교체 종류 라벨링 결과를 제1 트레이닝 샘플로 간주한다.
구축 유닛(202)은 교체하지 않는 텍스트(즉 초기의 텍스트 데이터) 및 이에 대응하는 비 교체 종류 라벨링 결과를 제1 트레이닝 샘플에 추가할 수 있음을 이해할 수 있다.
여기서, 구축 유닛(202)에서, 라벨링 대기 단어에 관련되는 라벨 단어는 라벨링 대기 단어에 대응하는 상위 개념 단어인 바, 즉 라벨링 대기 단어가 속하는 분야 또는 속성의 단어이며, 라벨링 대기 단어에 관련되는 동격어는 라벨링 대기 단어와 같은 상위 개념 단어를 가지는 서로 다른 단어인 바, 예를 들면 라벨링 대기 단어와 동일한 분야 또는 동일한 속성에 속하는 서로 다른 단어이며, 라벨링 대기 단어에 관련되지 않는 라벨 단어는 라벨링 대기 단어에 대응하지 않는 상위 개념 단어이다.
또한, 구축 유닛(202)이 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하는 것은 아래의 방식을 통해 실현할 수 있다. 라벨링 대기 단어에 관련되는 라벨 단어를 취득하고, 취득된 라벨 단어를 라벨링 대기 단어의 라벨링 결과로 간주하며, 텍스트 데이터, 라벨링 대기 단어 및 라벨링 대기 단어의 라벨링 결과를 제2 트레이닝 샘플로 간주한다.
구축 유닛(202)은 라벨링 대기 단어에 관련되는 라벨 단어, 라벨링 대기 단어에 관련되는 동격어 및 라벨링 대기 단어에 관련되지 않는 라벨 단어 등의 교체 단어를 취득할 때, 라벨링 대기 단어에 대하여 네트워크 검색을 실행하여 취득할 수 있음을 이해할 수 있다.
교체 단어를 취득하는 정확성을 향상시키기 위하여, 구축 유닛(202)은 라벨링 대기 단어에 대응하는 교체 단어를 취득할 때, 아래의 방식을 통해 실현할 수 있다. 라벨링 대기 단어의 미리 결정된 지식 베이스 중의 식별 정보를 결정한다. 이렇게 하는 원인은 서로 다른 라벨링 대기 단어가 같은 의미를 가질 가능성이 있기에, 하나의 식별 정보로 동일한 의미를 가지는 복수의 단어를 나타냄으로써, 미리 결정된 지식 베이스에 포함되는 단어의 중복 정도를 감소할 수 있기 때문이다. 미리 결정된 지식 베이스 중의 결정된 식별 정보에 대응하는 교체 단어를 취득한다.
여기서, 미리 결정된 지식 베이스에 포함되는 각 식별 정보에 대응하는 교체 단어는 기존의 백과 지식 베이스 중의 각 표제어에 대응하는 표제어 라벨을 수집하여 구축할 수 있으며, 따라서 유저가 라벨 단어의 수집 및 정리를 실행할 필요가 없기에, 라벨링 모델의 구축 효율을 큰 폭으로 향상시킨다.
트레이닝 유닛(203)은 상기 단어 교체 태스크 및 상기 라벨링 태스크의 손실 함수가 미리 결정된 조건을 만족시킬 때까지, 상기 제1 트레이닝 샘플 및 상기 제2 트레이닝 샘플을 각각 사용하여 뉴럴 네트워크 모델을 트레이닝하여 라벨링 모델을 취득한다.
구축 유닛(202)이 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성한 후, 트레이닝 유닛(203)은 단어 교체 태스크에 대응하는 손실 함수 및 라벨링 태스크에 대응하는 손실 함수가 미리 결정된 조건을 만족시킬 때까지, 구축된 제1 트레이닝 샘플 및 제2 트레이닝 샘플 각각 사용하여 뉴럴 네트워크 모델을 트레이닝하여 라벨링 모델의 트레이닝을 정지한다. 여기서, 트레이닝 유닛(203)이 사용하는 뉴럴 네트워크 모델은 예를 들면 transformer 모델과 같은 주의 메커니즘 모델(attention mechanism model)일 수 있다.
트레이닝 유닛(203)에 의해 얻어진 라벨링 모델은, 한편으로는 입력된 텍스트 데이터가 서로 다른 교체 종류에 속하는 확률을 예측할 수 있고, 다른 한편으로는 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨이 당해 단어의 라벨링 결과에 속하는 확률을 예측할 수 있다.
트레이닝 유닛(203)은 멀티 태스크의 라벨링 프레임 워크에 기반하여 뉴럴 네트워크 모델의 트레이닝을 실행하므로, 트레이닝 유닛(203)은 먼저 뉴럴 네트워크 모델에 대하여 단어 교체 태스크의 트레이닝을 실행한 후, 라벨링 태스크의 트레이닝을 실행할 수도 있고, 먼저 뉴럴 네트워크 모델에 대하여 라벨링 태스크의 트레이닝을 실행한 후, 단어 교체 태스크의 트레이닝을 실행할 수도 있으며, 또한, 번갈아 트레이닝하는 방식을 사용하여 뉴럴 네트워크 모델에 대하여 상기의 2개의 태스크 트레이닝을 실행할 수도 있다.
트레이닝 유닛(203)은 단어 교체 태스크의 트레이닝을 실행할 때, 교체 텍스트를 뉴럴 네트워크 모델의 입력으로 하고 교체 텍스트에 대응하는 교체 종류 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 텍스트 데이터에 기반하여 각 교체 종류에 속하는 확률을 출력할 수 있도록 하고, 트레이닝 유닛(203)은 라벨링 태스크의 트레이닝을 실행할 때, 텍스트 데이터 및 라벨링 대기 단어를 입력으로 하고 라벨링 대기 단어에 대응하는 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을 출력할 수 있도록 한다.
트레이닝 유닛(203)에서 단어 교체 태스크 및 라벨링 태스크에 대응하는 손실 함수는 교차 엔트로피 손실 함수로 나타낼 수 있으며, 본 출원에서는 손실 함수의 타입에 대해 한정하지 않음을 이해하여야 한다. 또한, 트레이닝 유닛(203)에서 손실 함수가 미리 결정된 조건을 만족시키는 것은, 손실 함수가 미리 결정된 임계값 이하인 것, 미리 결정된 회수 내에서 얻어진 손실 함수가 동일한 것 또는 미리 결정된 회수 내에서 얻어진 손실 함수의 사이 차이가 미리 결정된 임계값 이하인 것 등을 포함할 수 있다.
또한, 트레이닝 유닛(203)은 단어 교체 태스크의 트레이닝을 실행할 때, 단어 교체 태스크를 2개의 서브 태스크로 분할하여 트레이닝할 수도 있는바, 하나는 라벨 단어 교체 서브 태스크이고, 다른 하나는 동격어 교체 서브 태스크이며, 이러한 트레이닝 방식을 통해 뉴럴 네트워크 모델은 라벨 단어 교체와 동격어 교체를 더욱 정확하게 구별할 수 있다.
여기서, 트레이닝 유닛(203)이 라벨 단어 교체 태스크를 사용하여 뉴럴 네트워크 모델을 트레이닝할 때, 교체 종류가 비 교체 종류, 라벨 단어 교체 종류 및 비 관련 라벨 단어 교체 종류인 교체 텍스트를 사용하여 트레이닝하면 대응하는 손실 함수가 J1이고, 동격어 교체 태스크를 사용하여 뉴럴 네트워크 모델을 트레이닝할 때, 교체 종류가 비 교체 종류, 동격어 교체 종류인 교체 텍스트를 사용하여 트레이닝하면 대응하는 손실 함수가 J2이다. 이러한 방식을 통해 단어 교체 태스크를 실행하는 목표는 2개의 태스크 목표를 융합하는 것인 바, 즉 라벨링 대기 단어의 교체 단어 사이에서 공통성과 차이성의 밸런스를 잡으면, 단어 교체 태스크의 최종적인 손실 함수는 J=aХJ1+(1-a)ХJ2이며, 여기서 a는 2개의 태스크의 목표 밸런스를 잡는 파라미터이며, 값의 범위는 0∼1이다.
트레이닝 유닛(203)은 제1 트레이닝 샘플 및 제2 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델의 트레이닝을 실행하기 전에, 또한 대규모 코퍼스에 기반하여 뉴럴 네트워크 모델을 프레 트레이닝함으로써, 뉴럴 네트워크 모델 중의 파라미터를 초기화하여, 프레 트레이닝된 후의 뉴럴 네트워크 모델이 일정한 라벨링 능력을 가지도록 할 수도 있다.
라벨링 모델을 2개의 태스크를 트레이닝하여 취득하기 때문에, 당해 라벨링 모델은 2개의 적용 시나리오에 대하여 단어 라벨의 라벨링을 실행할 수 있는바, 하나는 후보 라벨 단어가 있는 시나리오이고, 다른 하나는 후보 라벨 단어가 없는 시나리오이다.
후보 라벨 단어가 있는 적용 시나리오에 있어서, 트레이닝 유닛(203)이 얻은 라벨링 모델을 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 라벨링할 때, 아래의 방식을 통해 실현할 수 있다. 후보 라벨 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 교체 텍스트를 라벨링 모델에 입력하고, 라벨링 모델의 출력 결과에 기반하여 교체 텍스트가 라벨 단어 교체 종류에 속하는 확률을 당해 후보 라벨 단어의 스코어링 결과로 간주하며, 스코어링 결과가 제1 미리 결정된 조건을 만족시키는 후보 라벨 단어를 라벨링 대기 단어의 라벨링 결과로 선택한다.
후보 라벨 단어가 없는 적용 시나리오에 있어서, 트레이닝 유닛(203)이 얻은 라벨링 모델을 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 라벨링할 때, 아래의 방식을 통해 실현할 수 있다. 텍스트 데이터 및 라벨링 대기 단어를 라벨링 모델에 입력하고, 라벨링 모델의 출력 결과에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을 각 라벨 단어의 스코어링 결과로 간주하며, 스코어링 결과가 제2 미리 결정된 조건을 만족시키는 라벨 단어를 라벨링 대기 단어의 라벨링 결과로 선택한다.
본 출원의 실시예에 따르면, 본 출원은 또한 전자 기기 및 판독 가능 저장 매체를 제공한다.
도 3에 나타낸 바와 같이, 본 출원의 실시예에 따른 라벨링 모델을 구축하는 방법의 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기는 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 설명하거나 및/또는 요구하는 본 발명의 실현을 한정하려는 것이 아니다.
도 3에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(301), 메모리(302) 및 각 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 실행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치(예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각 기기는 부분적인 필요한 조작(예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 3에서는 하나의 프로세서(301)의 예를 들었다.
메모리(302)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기억 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 출원에 의해 제공되는 라벨링 모델을 구축하는 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기억 매체는 컴퓨터 명령을 기억하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 본 발명에 의해 제공되는 라벨링 모델을 구축하는 방법을 수행하도록 한다.
메모리(302)는 일종의 비 일시적 컴퓨터 판독 가능 기억 매체로서, 비 일시적 소프트웨어 프로그램을 기억하는데 사용될 수 있는바, 예를 들면 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈, 본 발명 실시예 중의 라벨링 모델을 구축하는 방법 대응하는 프로그램 명령/모듈(예를 들면, 도 5에 나타낸 관련 모듈)을 기억하는데 사용될 수 있다. 프로세서(301)는 메모리(302) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는바, 즉 상술한 방법 실시예 중의 라벨링 모델을 구축하는 방법을 실현한다.
메모리(302)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기억할 수 있고, 데이터 기억 영역은 라벨링 모델을 구축하는 방법을 실현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(302)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(302)는 선택적으로 프로세서(301)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 라벨링 모델을 구축하는 방법을 실현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.
라벨링 모델을 구축하는 방법을 실현하는 전자 기기는 입력 장치(303) 및 출력 장치(304)를 더 포함할 수 있다. 프로세서(301), 메모리(302), 입력 장치(303) 및 출력 장치(304)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 6에서는 버스를 통해 연결하는 예를 들었다.
입력 장치(303)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 라벨링 모델을 구축하는 방법을 실현하는 전자 기기의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(304)는 디스플레이 기기, 보조 조명 장치(예를 들면 LED) 및 촉각 피드백 장치(예를 들면 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 실시예는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 계산 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. "기계 판독 가능 신호"와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치(예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.
유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치(예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 실행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.
본 출원의 실시예의 기술 방안에 따르면, 정상적인 라벨링 태스크에 대해 트레이닝을 실행할 뿐만 아니라, 또한 단어 교체 태스크의 트레이닝을 실행함으로써, 구축된 라벨링 모델이 단어 자체의 정보를 학습할 수 있을 뿐만 아니라, 단어의 위치하는 컨텍스트 및 그 라벨 단어의 관계도 충분히 학습할 수 있기에, 단어를 라벨링하는 정확성을 향상시키고, 라벨링 모델이 다양한 라벨링 시나리오에 적응할 수 있도록 한다.
상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정열, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각 단계는 병열로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 방안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.
상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 실행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (18)

  1. 라벨링 모델을 구축하는 방법에 있어서,
    텍스트 데이터들을 취득하고, 각 텍스트 데이터 중의 라벨링 대기(to be labeled) 단어를 결정하는 단계;
    상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하는 단계;
    상기 단어 교체 태스크의 손실 함수 및 상기 라벨링 태스크의 손실 함수가 각각 미리 결정된 조건을 만족시킬 때까지, 상기 제1 트레이닝 샘플 및 상기 제2 트레이닝 샘플을 각각 사용하여 뉴럴 네트워크 모델(neural network model)을 트레이닝하여 라벨링 모델을 얻는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 각 텍스트 데이터 중의 라벨링 대기 단어를 결정하는 단계는,
    상기 텍스트 데이터에 대하여 단어 분할 처리를 수행하여 상기 텍스트 데이터 중의 각 단어의 품사를 취득하는 단계;
    상기 취득한 품사가 미리 결정된 품사에 속하는 단어를 상기 라벨링 대기 단어로 간주하는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성하는 단계는,
    상기 라벨링 대기 단어에 대응하는 교체 단어를 취득하는 단계;
    상기 교체 단어를 사용하여 상기 텍스트 데이터 중의 상기 라벨링 대기 단어를 교체한 후, 상기 교체 단어의 종류를 교체 텍스트의 교체 종류 라벨링 결과로 간주하는 단계;
    각 교체 텍스트 및 이에 대응하는 교체 종류 라벨링 결과를 상기 제1 트레이닝 샘플로 간주하는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하는 단계는,
    상기 라벨링 대기 단어에 관련되는 라벨 단어를 취득하고, 상기 라벨 단어를 상기 라벨링 대기 단어의 라벨링 결과로 간주하는 단계; 및
    상기 텍스트 데이터, 상기 라벨링 대기 단어 및 이에 대응하는 라벨링 결과를 상기 제2 트레이닝 샘플로 간주하는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  5. 제3항에 있어서,
    상기 라벨링 대기 단어에 대응하는 교체 단어를 취득하는 단계는,
    상기 라벨링 대기 단어의 미리 결정된 지식 베이스 중의 식별 정보를 결정하는 단계;
    미리 결정된 지식 베이스 중의 상기 식별 정보에 대응하는 교체 단어를 취득하는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  6. 제3항에 있어서,
    상기 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝하는 단계는,
    각 교체 텍스트를 입력으로 하고, 각 교체 텍스트에 대응하는 교체 종류 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 교체 텍스트에 기반하여 상기 교체 텍스트가 각 교체 종류에 속하는 확률을 출력하도록 하는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  7. 제4항에 있어서,
    상기 제2 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝하는 단계는,
    각 텍스트 데이터 및 라벨링 대기 단어를 입력으로 하고 라벨링 대기 단어에 대응하는 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을 출력하도록 하는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    상기 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝하는 단계는,
    상기 단어 교체 태스크를 라벨 단어 교체 서브 태스크 및 동격어(appositive) 교체 서브 태스크로 분할하는 단계; 및
    상기 제1 트레이닝 샘플 중의 2개의 서브 태스크에 대응하는 트레이닝 샘플에 기반하여 상기 단어 교체 태스크의 트레이닝을 완성시키는 단계;
    를 포함하는
    것을 특징으로 하는 방법.
  9. 라벨링 모델을 구축하는 장치에 있어서,
    텍스트 데이터들을 취득하고, 각 텍스트 데이터 중의 라벨링 대기 단어를 결정하기 위한 취득 유닛;
    상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플 및 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성하기 위한 구축 유닛; 및
    상기 단어 교체 태스크의 손실 함수 및 상기 라벨링 태스크의 손실 함수가 각각 미리 결정된 조건을 만족시킬 때까지, 상기 제1 트레이닝 샘플 및 상기 제2 트레이닝 샘플을 각각 사용하여 뉴럴 네트워크 모델을 트레이닝하여 라벨링 모델을 취득하기 위한 트레이닝 유닛;
    을 구비하는
    것을 특징으로 하는 장치.
  10. 제9항에 있어서,
    상기 취득 유닛은 각 텍스트 데이터 중의 라벨링 대기 단어를 결정할 때 구체적으로,
    상기 텍스트 데이터에 대하여 단어 분할 처리를 수행하여 상기 텍스트 데이터 중의 각 단어의 품사를 취득하는 단계; 및
    상기 취득한 품사가 미리 결정된 품사에 속하는 단어를 상기 라벨링 대기 단어로 간주하는 단계;
    를 실행하는
    것을 특징으로 하는 장치.
  11. 제9항에 있어서,
    상기 구축 유닛은 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 단어 교체 태스크에 대응하는 제1 트레이닝 샘플을 구성할 때 구체적으로,
    상기 라벨링 대기 단어에 대응하는 교체 단어를 취득하는 단계;
    상기 교체 단어를 사용하여 텍스트 데이터 중의 라벨링 대기 단어를 교체한 후, 상기 교체 단어의 종류를 교체 텍스트의 교체 종류 라벨링 결과로 간주하는 단계; 및
    각 교체 텍스트 및 이에 대응하는 교체 종류 라벨링 결과를 상기 제1 트레이닝 샘플로 간주하는 단계;
    를 실행하는
    것을 특징으로 하는 장치.
  12. 제9항에 있어서,
    상기 구축 유닛은 상기 라벨링 대기 단어에 기반하여 각 텍스트 데이터가 라벨링 태스크에 대응하는 제2 트레이닝 샘플을 구성할 때 구체적으로,
    상기 라벨링 대기 단어에 관련되는 라벨 단어를 취득하고, 상기 라벨 단어를 상기 라벨링 대기 단어의 라벨링 결과로 간주하는 단계; 및
    상기 텍스트 데이터, 상기 라벨링 대기 단어 및 이에 대응하는 라벨링 결과를 상기 제2 트레이닝 샘플로 간주하는 단계;
    를 실행하는
    것을 특징으로 하는 장치.
  13. 제11항에 있어서,
    상기 구축 유닛이 상기 라벨링 대기 단어에 대응하는 교체 단어를 취득할 때 구체적으로,
    상기 라벨링 대기 단어의 미리 결정된 지식 베이스 중의 식별 정보를 결정하는 단계; 및
    미리 결정된 지식 베이스 중의 상기 식별 정보에 대응하는 교체 단어를 취득하는 단계;
    를 실행하는
    것을 특징으로 하는 장치.
  14. 제11항에 있어서,
    상기 트레이닝 유닛이 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝할 때 구체적으로,
    각 교체 텍스트를 입력으로 하고 각 교체 텍스트에 대응하는 교체 종류 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 교체 텍스트에 기반하여 당해 교체 텍스트가 각 교체 종류에 속하는 확률을 출력하도록 하는 단계;
    를 실행하는
    것을 특징으로 하는 장치.
  15. 제12항에 있어서,
    상기 트레이닝 유닛이 제2 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝할 때 구체적으로,
    각 텍스트 데이터 및 라벨링 대기 단어를 입력으로 하고 라벨링 대기 단어에 대응하는 라벨링 결과를 출력으로 하여, 뉴럴 네트워크 모델로 하여금 입력된 텍스트 데이터 및 라벨링 대기 단어에 기반하여 각 라벨 단어가 라벨링 대기 단어의 라벨링 결과에 속하는 확률을 출력하도록 하는 단계;
    를 실행하는
    것을 특징으로 하는 장치.
  16. 제9항에 있어서,
    상기 트레이닝 유닛이 제1 트레이닝 샘플을 사용하여 뉴럴 네트워크 모델을 트레이닝할 때 구체적으로,
    상기 단어 교체 태스크를 라벨 단어 교체 서브 태스크 및 동격어 교체 서브 태스크로 분할하는 단계; 및
    상기 제1 트레이닝 샘플 중의 2개의 서브 태스크에 대응하는 트레이닝 샘플에 기반하여 상기 단어 교체 태스크의 트레이닝을 완성시키는 단계;
    를 실행하는
    것을 특징으로 하는 장치.
  17. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리;
    를 구비하며,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행됨으로써 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 실행 가능하도록 하는
    것을 특징으로 하는 전자 기기.
  18. 컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 컴퓨터로 하여금 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 실행하도록 하는
    것을 특징으로 하는 저장 매체.
KR1020210012424A 2020-03-19 2021-01-28 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체 KR102645185B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010195678.5 2020-03-19
CN202010195678.5A CN111507104B (zh) 2020-03-19 2020-03-19 建立标签标注模型的方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
KR20210118360A true KR20210118360A (ko) 2021-09-30
KR102645185B1 KR102645185B1 (ko) 2024-03-06

Family

ID=71877784

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210012424A KR102645185B1 (ko) 2020-03-19 2021-01-28 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체

Country Status (5)

Country Link
US (1) US11531813B2 (ko)
EP (1) EP3882807A1 (ko)
JP (1) JP7098853B2 (ko)
KR (1) KR102645185B1 (ko)
CN (1) CN111507104B (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625555B1 (en) * 2020-03-12 2023-04-11 Amazon Technologies, Inc. Artificial intelligence system with unsupervised model training for entity-pair relationship analysis
US11551666B1 (en) * 2020-05-28 2023-01-10 Amazon Technologies, Inc. Natural language processing
CN112270184B (zh) * 2020-10-23 2023-11-14 平安科技(深圳)有限公司 自然语言处理方法、装置及存储介质
CN112508093B (zh) * 2020-12-03 2022-01-28 北京百度网讯科技有限公司 一种自训练方法、装置、电子设备和可读存储介质
CN112948573B (zh) * 2021-02-05 2024-04-02 北京百度网讯科技有限公司 文本标签的提取方法、装置、设备和计算机存储介质
CN112860919A (zh) * 2021-02-20 2021-05-28 平安科技(深圳)有限公司 基于生成模型的数据标注方法、装置、设备及存储介质
CN114428677B (zh) * 2022-01-28 2023-09-12 北京百度网讯科技有限公司 任务处理方法、处理装置、电子设备及存储介质
CN114707489B (zh) * 2022-03-29 2023-08-18 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN114492419B (zh) * 2022-04-01 2022-08-23 杭州费尔斯通科技有限公司 基于标注中新增关键词语的文本标注方法、系统及装置
CN114995903B (zh) * 2022-05-30 2023-06-27 中电金信软件有限公司 一种基于预训练语言模型的类别标签识别方法及装置
CN115630645B (zh) * 2022-12-06 2023-04-07 北京匠数科技有限公司 一种文本纠错方法、装置、电子设备及介质
CN117114013B (zh) * 2023-10-12 2024-02-02 北京大学深圳研究生院 一种基于小样本的语义标注方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125905A (ko) * 2017-05-16 2018-11-26 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
US20200342055A1 (en) * 2019-04-23 2020-10-29 Oracle International Corporation Named entity disambiguation using entity distance in a knowledge graph

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3836977A (en) * 1973-06-25 1974-09-17 Hazeltine Corp Antenna system having a reflector with a substantially open construction
WO2012039686A1 (en) 2010-09-24 2012-03-29 National University Of Singapore Methods and systems for automated text correction
US9135241B2 (en) * 2010-12-08 2015-09-15 At&T Intellectual Property I, L.P. System and method for learning latent representations for natural language tasks
CN103971677B (zh) 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN107729309B (zh) * 2016-08-11 2022-11-08 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
US10643120B2 (en) * 2016-11-15 2020-05-05 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN106683667A (zh) * 2017-01-13 2017-05-17 深圳爱拼信息科技有限公司 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用
CN107844476A (zh) * 2017-10-19 2018-03-27 广州索答信息科技有限公司 一种增强的词性标注方法
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
US10585989B1 (en) 2018-09-07 2020-03-10 International Business Machines Corporation Machine-learning based detection and classification of personally identifiable information
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质
CN110162191A (zh) * 2019-04-03 2019-08-23 腾讯科技(深圳)有限公司 一种表情推荐方法、装置及存储介质
US11645513B2 (en) * 2019-07-03 2023-05-09 International Business Machines Corporation Unary relation extraction using distant supervision
US11176330B2 (en) * 2019-07-22 2021-11-16 Advanced New Technologies Co., Ltd. Generating recommendation information
US11630952B2 (en) * 2019-07-22 2023-04-18 Adobe Inc. Classifying terms from source texts using implicit and explicit class-recognition-machine-learning models
US20210342212A1 (en) * 2019-10-02 2021-11-04 Kpn Innovations, Llc. Method and system for identifying root causes
RU2737720C1 (ru) * 2019-11-20 2020-12-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение полей с помощью нейронных сетей без использования шаблонов

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125905A (ko) * 2017-05-16 2018-11-26 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
US20200342055A1 (en) * 2019-04-23 2020-10-29 Oracle International Corporation Named entity disambiguation using entity distance in a knowledge graph

Also Published As

Publication number Publication date
US20210294975A1 (en) 2021-09-23
JP7098853B2 (ja) 2022-07-12
US11531813B2 (en) 2022-12-20
CN111507104A (zh) 2020-08-07
CN111507104B (zh) 2022-03-25
KR102645185B1 (ko) 2024-03-06
EP3882807A1 (en) 2021-09-22
JP2021149916A (ja) 2021-09-27

Similar Documents

Publication Publication Date Title
KR20210118360A (ko) 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체
US20210390428A1 (en) Method, apparatus, device and storage medium for training model
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
US20210390260A1 (en) Method, apparatus, device and storage medium for matching semantics
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
CN113342345A (zh) 深度学习框架的算子融合方法、装置
CN111325020A (zh) 一种事件论元抽取方法、装置以及电子设备
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
US11343572B2 (en) Method, apparatus for content recommendation, electronic device and storage medium
US20210319262A1 (en) Model training, image processing method, device, storage medium, and program product
CN111079945B (zh) 端到端模型的训练方法及装置
CN110532487B (zh) 标签的生成方法及装置
JP7198800B2 (ja) 意図認識最適化処理方法、装置、機器および記憶媒体
CN112560499B (zh) 语义表示模型的预训练方法、装置、电子设备及存储介质
CN112417156B (zh) 多任务学习方法、装置、设备以及存储介质
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
EP3901905B1 (en) Method and apparatus for processing image
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
CN114490968B (zh) 对话状态跟踪方法、模型训练方法、装置以及电子设备
CN112070233B (zh) 模型联合训练方法、装置、电子设备和存储介质
CN115688796A (zh) 用于自然语言处理领域中预训练模型的训练方法及其装置
CN113360638A (zh) 分类方法和装置、电子设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant