KR102544453B1 - 정보 처리 방법, 장치 및 저장 매체 - Google Patents

정보 처리 방법, 장치 및 저장 매체 Download PDF

Info

Publication number
KR102544453B1
KR102544453B1 KR1020200095607A KR20200095607A KR102544453B1 KR 102544453 B1 KR102544453 B1 KR 102544453B1 KR 1020200095607 A KR1020200095607 A KR 1020200095607A KR 20200095607 A KR20200095607 A KR 20200095607A KR 102544453 B1 KR102544453 B1 KR 102544453B1
Authority
KR
South Korea
Prior art keywords
feature vector
word
character
corpus data
sequence
Prior art date
Application number
KR1020200095607A
Other languages
English (en)
Other versions
KR20210094445A (ko
Inventor
저위 쉬
시옹웬 덩
Original Assignee
베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 filed Critical 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드
Publication of KR20210094445A publication Critical patent/KR20210094445A/ko
Application granted granted Critical
Publication of KR102544453B1 publication Critical patent/KR102544453B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 정보 처리 방법, 장치 및 저장 매체에 관한 것으로, 상기 방법은 제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득하는 단계; 제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터에 포함된 상기 적어도 하나의 단어를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계; 제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계; 및 상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계를 포함한다.

Description

정보 처리 방법, 장치 및 저장 매체{METHOD AND DEVICE FOR PROCESSING INFORMATION, AND STORAGE MEDIUM}
관련 출원의 상호 참조
본원 발명은 출원번호가 202010059203.3이고 출원일자가 2020년 1월 19일인 중국 특허 출원에 기반하여 제출하며, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본원 발명에 인용된다.
본 개시는 컴퓨터 통신 분야에 관한 것으로, 특히 정보 처리 방법, 장치 및 저장 매체에 관한 것이다.
1990년대 이후, 인터넷이 신속하게 발전하여 현재의 빅데이터 시대에 이르기까지, 인터넷은 텍스트, 음성, 이미지, 비디오를 비롯한 대용량의 정보와 데이터를 수용하였다. 여기서 말하는 텍스트는 뉴스매체, 과학기술, 리포트, 이메일, 기술 특허, 서적 등이다. 이미지 음성 데이터에 비해, 텍스트가 점유하는 네트워크 리소스가 적고 업로드 및 다운로드가 더 쉬우며, 이로 인해 대부분의 정보는 네트워크 리소스에서 텍스트 형태로 존재한다. 이러한 텍스트 정보를 어떻게 효과적으로 조직하고 관리하며 그 중에서 사용자가 필요한 텍스트 정보를 신속하고 정확하며 전면적으로 찾을 수 있는가는 현재 정보 과학기술이 직면한 큰 과제이다.
초기의 텍스트 분류는 주로 지식 공학에 기반하여, 수공으로 일부 규칙을 정의하여 텍스트를 분류하는 방법인데, 이러한 방법은 시간과 정력을 소모하고, 특정 분야를 충분하게 이해해야만 적합한 규칙을 추출할 수 있으며, 트레이닝 샘플이 비교적 적을 경우, 분류의 정확성을 감소시킬 수 있다.
본 개시는 정보 처리 방법, 장치 및 저장 매체를 제공한다.
본 개시의 실시예의 제1 양태에 따르면,
제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득하는 단계;
제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터에 포함된 상기 적어도 하나의 단어를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계;
제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계; 및
상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계를 포함하는 정보 처리 방법을 제공한다.
선택 가능하게, 상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스는 각각 적어도 하나의 특징 벡터를 포함하고; 상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계는,
컨볼루션 신경망 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제1 특징 벡터를 추출하는 단계;
장단기 기억 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제2 특징 벡터를 추출하는 단계;
상기 제2 사전 트레이닝 모델에 기반하여 상기 제2 특징 벡터 시퀀스를 처리하여 상기 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출하는 단계; 및
상기 제1 특징 벡터, 상기 제2 특징 벡터 및 상기 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득하는 단계를 포함한다.
선택 가능하게, 상기 제1 특징 벡터, 상기 제2 특징 벡터 및 상기 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득하는 단계는,
상기 제1 특징 벡터의 말단에 상기 제2 특징 벡터를 스플라이싱하고, 스플라이싱된 제2 특징 벡터의 말단에 상기 제3 특징 벡터를 스플라이싱하여, 스플라이싱된 특징 벡터를 획득하는 단계; 및
상기 스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 상기 타겟 특징 벡터를 획득하는 단계를 포함한다.
선택 가능하게, 상기 제2 말뭉치 데이터에 포함된 단어는 단어 식별자를 구비하고; 상기 제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계는,
상기 제2 말뭉치 데이터에 포함된 상기 각 단어의 단어 식별자를 결정하는 단계;
상기 각 단어의 단어 식별자에 기반하여 상기 제1 사전 트레이닝 모델의 설정 단어 벡터 매핑 테이블을 조회하고, 상기 설정 단어 벡터 매핑 테이블에서 상기 각 단어의 특징 벡터를 결정하는 단계 - 상기 설정 단어 벡터 매핑 테이블은 상기 각 단어의 단어 식별자와 상기 각 특징 벡터 사이의 매핑 관계를 포함함 - ; 및
제1 설정 순서에 따라, 결정된 상기 각 단어의 특징 벡터를 배열하여 상기 제1 특징 벡터 시퀀스를 획득하는 단계를 포함한다.
선택 가능하게, 상기 제1 말뭉치 데이터에 포함된 문자는 문자 식별자를 구비하고; 상기 제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계는,
상기 제1 말뭉치 데이터에 포함된 상기 각 문자의 문자 식별자를 결정하는 단계;
상기 제2 사전 트레이닝 모델이 상기 제1 말뭉치 데이터 중 상기 각 문자의 콘텍스트를 분석하여 분석 결과를 획득하는 단계;
상기 분석 결과 및 상기 문자의 문자 식별자에 기반하여, 상기 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 조회하고, 상기 설정 문자 벡터 매핑 테이블에서 상기 각 문자의 특징 벡터를 결정하는 단계 - 상기 설정 문자 벡터 매핑 테이블은 상기 각 문자의 문자 식별자와 상기 각 특징 벡터 사이의 매핑 관계를 포함함 - ; 및
제2 설정 순서에 따라, 결정된 상기 각 문자의 특징 벡터를 배열하여 상기 제2 특징 벡터 시퀀스를 획득하는 단계를 포함한다.
선택 가능하게, 상기 정보 처리 방법은,
설정된 분류 모델에 기반하여 상기 타겟 특징 벡터에 대해 분류 처리를 수행하여 분류 결과를 획득하는 단계를 더 포함한다.
본 개시의 실시예의 제2 양태에 따르면,
제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득하는 제1 처리 모듈;
제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터에 포함된 상기 적어도 하나의 단어를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 제2 처리 모듈;
제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 제3 처리 모듈; 및
상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 획득 모듈을 포함하는 정보 처리 장치를 제공한다.
선택 가능하게, 상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스는 각각 적어도 하나의 특징 벡터를 포함하고; 상기 획득 모듈은 또한,
컨볼루션 신경망 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제1 특징 벡터를 추출하며;
장단기 기억 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제2 특징 벡터를 추출하고;
상기 제2 사전 트레이닝 모델에 기반하여 상기 제2 특징 벡터 시퀀스를 처리하여 상기 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출하며;
상기 제1 특징 벡터, 상기 제2 특징 벡터 및 상기 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득한다.
선택 가능하게, 상기 획득 모듈은 또한,
상기 제1 특징 벡터의 말단에 상기 제2 특징 벡터를 스플라이싱하고, 스플라이싱된 제2 특징 벡터의 말단에 상기 제3 특징 벡터를 스플라이싱하여 스플라이싱된 특징 벡터를 획득하고;
상기 스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 상기 타겟 특징 벡터를 획득한다.
선택 가능하게, 상기 제2 처리 모듈은 또한,
상기 제2 말뭉치 데이터에 포함된 상기 각 단어의 단어 식별자를 결정하고;
상기 각 단어의 단어 식별자에 기반하여 상기 제1 사전 트레이닝 모델의 설정 단어 벡터 매핑 테이블을 조회하며, 상기 설정 단어 벡터 매핑 테이블에서 상기 각 단어의 특징 벡터를 결정하고, 상기 설정 단어 벡터 매핑 테이블은 상기 각 단어의 단어 식별자와 상기 각 특징 벡터 사이의 매핑 관계를 포함하며;
제1 설정 순서에 따라, 결정된 상기 각 단어의 특징 벡터를 배열하여 상기 제1 특징 벡터 시퀀스를 획득한다.
선택 가능하게, 상기 제3 처리 모듈은 또한,
상기 제1 말뭉치 데이터에 포함된 상기 각 문자의 문자 식별자를 결정하고;
상기 제2 사전 트레이닝 모델이 상기 제1 말뭉치 데이터 중 상기 각 문자의 콘텍스트를 분석하여 분석 결과를 획득하며;
상기 분석 결과 및 상기 문자의 문자 식별자에 기반하여, 상기 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 조회하고, 상기 설정 문자 벡터 매핑 테이블에서 상기 각 문자의 특징 벡터를 결정하며, 상기 설정 문자 벡터 매핑 테이블은 상기 각 문자의 문자 식별자와 상기 각 특징 벡터 사이의 매핑 관계를 포함하고;
제2 설정 순서에 따라, 결정된 상기 각 문자의 특징 벡터를 배열하여 상기 제2 특징 벡터 시퀀스를 획득한다.
선택 가능하게, 상기 정보 처리 장치는,
설정된 분류 모델에 기반하여 상기 타겟 특징 벡터에 대해 분류 처리를 수행하여 분류 결과를 획득하는 분류 모듈을 더 포함한다.
본 개시의 실시예의 제3 양태에 따르면,
프로세서; 및
프로세서 실행 가능한 명령을 저장하는 메모리를 포함하고,
여기서, 상기 프로세서는 실행될 경우 상기 상기 제1 양태에 따른 정보 처리 방법의 단계를 구현하는, 정보 처리 장치를 제공한다.
본 개시의 실시예의 제4 양태에 따르면, 비일시적 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 저장 매체 중의 명령이 정보 처리 장치의 프로세서에 의해 실행될 경우, 상기 정보 처리 장치가 상기 제1 양태에 따른 정보 처리 방법을 수행할 수 있도록 한다.
본 개시의 실시예에 의해 제공되는 기술적 해결수단은 하기와 같은 유리한 효과를 포함할 수 있다.
상기 기술적 해결수단으로부터 알 수 있는 바, 본 개시는, 제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득하고, 제1 사전 트레이닝 모델에 기반하여 제2 말뭉치 데이터에 포함된 적어도 하나의 단어를 처리하여 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하며, 제2 사전 트레이닝 모델에 기반하여 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하고, 제1 특징 벡터 시퀀스 및 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득한다. 이로써, 말뭉치 데이터를 문자 및 단어에 기반한 벡터로 각각 특성화하고, 여러 유형의 특징을 융합함으로써, 분류 과정에서 얻은 트레이닝 샘플을 더욱 풍부하고 다양하게 만들 수 있어 트레이닝하여 얻은 모델의 정확도 및 일반화 효율을 크게 향상시킬 수 있다.
이상의 일반적인 설명과 후술할 상세한 설명은 단지 예시적이고 해석적인 것이며, 본 개시를 한정하지 않음을 이해해야 한다.
여기서의 도면은 본 명세서의 일부분으로서 명세서에 병합되고, 본 개시에 부합되는 실시예를 나타내며, 명세서와 함께 본 개시의 원리를 설명하기 위한 것이다.
도 1은 일 예시적 실시예에 따라 나타낸 정보 처리 방법의 흐름도 1이다.
도 2는 일 예시적 실시예에 따라 나타낸 정보 처리 방법의 흐름도 2이다.
도 3은 일 예시적 실시예에 따라 나타낸 정보 처리 방법의 흐름도 3이다.
도 4는 일 예시적 실시예에 따라 나타낸 정보 처리 장치의 블록도이다.
도 5는 일 예시적 실시예에 따라 나타낸 정보 처리 장치의 하드웨어 구조 블록도 1이다.
도 6은 일 예시적 실시예에 따라 나타낸 정보 처리 장치의 하드웨어 구조 블록도 2이다.
여기서 예시적 실시예를 상세하게 설명하며, 그 예는 도면에 나타난다. 아래의 설명이 도면에 관련될 경우, 다른 설명이 없는 한, 상이한 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 표시한다. 이하 예시적 실시예에서 설명된 실시형태는 본 개시와 일치한 모든 실시형태를 의미하는 것은 아니다. 반대로, 이들은 단지 첨부된 청구범위에서 상세하게 설명한, 본 개시의 일부 양태와 일치한 장치와 방법의 예이다.
도 1은 일 예시적 실시예에 따라 나타낸 정보 처리 방법의 흐름도 1이고, 도 1에 도시된 바와 같이, 상기 방법은 하기와 같은 단계를 포함할 수 있다.
단계101에서, 제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득한다.
단계102에서, 제1 사전 트레이닝 모델에 기반하여 제2 말뭉치 데이터에 포함된 상기 적어도 하나의 단어를 처리하여 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득한다.
단계103에서, 제2 사전 트레이닝 모델에 기반하여 제1 말뭉치 데이터에 포함된 문자를 처리하여 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득한다.
단계104에서, 제1 특징 벡터 시퀀스 및 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득한다.
여기서, 제1 말뭉치 데이터는 설정된 언어의 말뭉치 데이터일 수 있는데, 예를 들어, 제1 말뭉치 데이터는 중국어 기반의 말뭉치 데이터일 수 있다.
제1 말뭉치 데이터가 중국어에 기반한 말뭉치 데이터인 것으로 예로 들면, 제1 사전 트레이닝 모델에 기반하여 제1 말뭉치 데이터를 처리하기 전에, 제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득해야 한다. 그 다음, 제1 사전 트레이닝 모델에 기반하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 처리해야 한다.
본 개시의 실시예에서, 설정 단어 분리 알고리즘에 기반하여 제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여, 단어에 기반하여 표시된 제2 말뭉치 데이터를 획득할 수 있다. 여기서, 설정 단어 분리 알고리즘은 문자열 매칭 기반의 단어 분리 알고리즘, 이해 기반의 단어 분리 알고리즘, 통계 기반의 단어 분리 알고리즘 중 적어도 하나를 포함할 수 있다.
여기서, 문자열 기반의 단어 분리 알고리즘은 설정된 책략에 따라 단어 분리될 문자열을 설정된 기계 사전 중의 단어와 매칭시키고, 사전에서 문자열의 서브 문자열에 대응되는 단어를 찾음으로써, 단어 분리 결과를 획득하는 것이다. 예를 들어, 제1 말뭉치 데이터는 “오늘 날씨가 참 좋아요”를 포함하며, 설정된 기계 사전에 “오늘”, “날씨” 및 “참 좋아요”란 이 몇 개의 단어가 포함되면, 제1 말뭉치 데이터에 대해 단어 분리를 수행한 결과는 제2 말뭉치 데이터가 “오늘 날씨가 참 좋아요”인 것이다.
이해 기반의 단어 분리 알고리즘은 컴퓨터 시뮬레이터가 문장에 대한 이해를 통해 단어 분리 효과에 도달하는 것인데, 다시 말하면, 단어 분리를 수행하는 동시에 문장법, 어의 분석을 수행하고, 문장법 정보 및 어의 정보를 이용하여 다른 뜻 풀이를 수행하는 것이다. 예를 들어, 대량의 수집된 데이터에 기반하여 모델 트레이닝을 수행하여 이해 기반의 단어 분리 알고리즘을 획득하고, 그 다음, 단어 분리될 제1 말뭉치 데이터를 이해 기반의 단어 분리 알고리즘에 입력하여 단어 분리 결과를 획득하여 출력하며, 그 다음, 상기 단어 분리 결과에 기반하여 제2 말뭉치 데이터를 형성한다.
통계 기반의 단어 분리 알고리즘은 문자와 문자 사이 및 단어와 단어 사이에서 공통으로 나타나는 확률을 단어 분리의 의거로서 이용하는 것이고, 통계 기반의 단어 분리 알고리즘은 사전에 없는 단어 분리에 속하는 것으로, 제1 말뭉치 데이터 중의 각각의 문자 세트만 통계하여 각각의 문자의 인접하게 나타나는 확률을 산출하고, 각각의 문자의 인접하게 나타나는 확률과 설정된 확률 임계값을 비교하며, 각각의 문자의 인접하게 나타나는 확률이 설정된 확률 임계값보다 클 경우, 해당 문자 세트가 하나의 단어를 구성할 수 있는 것으로 결정한다.
설정 단어 분리 알고리즘에 기반하여 제1 말뭉치 데이터에 대해 단어 분리 처리를 수행한 후, 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득할 수 있는데, 이때, 제1 사전 트레이닝 모델에 기반하여 제2 말뭉치 데이터에 포함된 적어도 하나의 단어를 처리할 수 있다.
여기서, 제1 사전 트레이닝 모델은 패스트텍스트 분류(FastText) 모델, 단어 벡터(Word2vec, Word to Vector)를 생성하기 위한 모델, 연속적 단어 가방(CBOW, Continuous Bag-Of-Words) 모델 중 적어도 하나를 포함하고, 제1 특징 벡터 시퀀스는 적어도 하나의 특징 벡터를 포함한다.
제1 사전 트레이닝 모델이 FastText 모델인 것으로 예로 들면, 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 사전 트레이닝 FastText 모델에 입력할 수 있고, FastText 모델을 통해 제2 말뭉치 데이터에 포함된 각각의 단어를 대응되는 단어 벡터로 각각 전환시키며, 제2 말뭉치 데이터 중 단어 순서와 대응되는 순서에 따라 전환된 단어 벡터를 전환시켜, 전환시켜 획득된 단어 벡터를 배열하여, 제2 말뭉치 데이터에 대응되는 단어 벡터 시퀀스를 형성한다.
제2 사전 트레이닝 모델이 BERT(Bidirectional Encoder Representations from Transformers) 모델인 것으로 예로 들면, 제1 말뭉치 데이터를 사전 트레이닝 BERT 모델에 직접 입력할 수 있고, BERT 모델을 통해 제1 말뭉치 데이터에 포함된 각각의 문자를 대응되는 문자 벡터로 각각 전환시키며, 제1 말뭉치 데이터 중 문자 순서와 대응되는 순서에 따라 전환된 문자 벡터를 전환시켜, 전환시켜 획득된 문자 벡터를 배열하여, 제1 말뭉치 데이터에 대응되는 문자 벡터 시퀀스를 형성한다.
본 개시의 실시예에서, 각각 문자에 기반 및 단어에 기반하여 말뭉치 데이터에 대해 벡터 표현을 수행하여, 문자에 기반 및 단어에 기반하여 획득된 제1 특징 벡터 시퀀스 및 제2 특징 벡터 시퀀스에 대해 직접 스플라이싱 처리를 수행하여 타겟 특징 벡터를 획득하며, 스플라이싱 처리를 통해 획득된 타겟 벡터에 문자에 기반 및 단어에 기반하여 획득된 특징이 포함되므로, 여러 유형의 특징을 융합함으로써, 분류 과정에서 얻은 트레이닝 샘플을 더욱 풍부하고 다양하게 만들 수 있어 트레이닝하여 얻은 모델의 정확도 및 일반화 효율을 크게 향상시킬 수 있다.
다른 선택 가능한 실시예에서, 제1 특징 벡터 시퀀스 및 제2 특징 벡터 시퀀스는 각각 적어도 하나의 특징 벡터를 포함하고; 제1 특징 벡터 시퀀스 및 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계는,
컨볼루션 신경망 모델에 기반하여 제1 특징 벡터 시퀀스를 처리하여 제1 특징 벡터 시퀀스로부터 제1 특징 벡터를 추출하는 단계;
장단기 기억 모델에 기반하여 제1 특징 벡터 시퀀스를 처리하여 제1 특징 벡터 시퀀스로부터 제2 특징 벡터를 추출하는 단계;
제2 사전 트레이닝 모델에 기반하여 제2 특징 벡터 시퀀스를 처리하여 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출하는 단계; 및
제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터에 기반하여 타겟 특징 벡터를 획득하는 단계를 포함한다.
여기서, 제1 특징 벡터 시퀀스를 컨볼루션 신경망(Convolutional Neural Network, CNN)에 입력한 후, 컨볼루션 신경망의 컨볼루션 커널에 기반하여 제1 특징 벡터 시퀀스 중의 특징 벡터와 컨볼루션 계산을 수행하여 제1 특징 벡터를 추출할 수 있는데, 예를 들어, 컨볼루션 커널에 기반하여 제1 특징 벡터 시퀀스 중의 컨볼루션 커널과 크기가 같은 영역의 특징 벡터와 컨볼루션 계산을 수행한 후, 다른 영역으로 이동하고, 그 다음, 제1 특징 벡터 시퀀스 중의 각각의 특징 벡터를 모두 커버리징할 때가지 계산함으로써, 설정된 컨볼루션 커널을 통해 제1 특징 벡터 시퀀스로부터 제1 특징 벡터를 추출할 수 있다. 컨볼루션 신경망에 기반하여 제1 특징 벡터를 추출하는 동시에, 장단기 기억 모델(Long-Short Term Memory, LSTM)에 기반하여 제1 특징 벡터 시퀀스를 처리하여 제1 특징 벡터 시퀀스로부터 제2 특징 벡터를 추출하고, BERT 모델에 기반하여 제2 특징 벡터 시퀀스를 처리하여 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출한다.
제1 특징 벡터 시퀀스에 포함된 특징 벡터는 모두 제2 말뭉치 데이터 중 각각의 단어에 대응되는 단어 정보를 포함하고, 컨볼루션 신경망 및 장단기 기억 모델에 기반하여 제1 특징 벡터 시퀀스에 대해 특징 추출을 수행하는 과정에서, 제1 특징 벡터 시퀀스로부터 포함된 정보량이 가장 큰 특징 벡터를 각각 추출하여 각각 제1 특징 벡터 및 제2 특징 벡터로서 사용할 수 있고, 여기서, 컨볼루션 신경망의 풀링 계층에 기반하여 최대 풀링을 수행하여 정보량이 가장 큰 특징 벡터를 획득할 수 있다. BERT 모델에 기반하여 제2 특징 벡터 시퀀스에 대해 특징 추출을 수행하는 과정에서, BERT 모델에 기반하여 제2 특징 벡터 시퀀스로부터 포함된 정보량이 가장 큰 특징 벡터를 추출하여 제3 특징 벡터로서 사용하거나; 또는 제2 특징 벡터 시퀀스 중 설정된 위치의 특징 벡터를 추출하여 제3 특징 벡터로 사용할 수도 있다. 예를 들어, 제2 특징 벡터 시퀀스 중의 첫 번째 특징 벡터를 제3 특징 벡터로서 사용한다.
여기서, 신경망 모델 및 장단기 기억 모델에 각각 기반하여 제1 특징 벡터 시퀀스로부터 제1 특징 벡터 및 제2 특징 벡터를 추출하고, 제2 사전 트레이닝 모델에 기반하여 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출하여, 문자와 단어의 특징을 융합할 수 있고, 신경망 모델과 장단기 기억 모델을 통해 단어의 특징 정보를 추출하고, 제2 사전 트레이닝 모델을 통해 문자의 특징 정보를 추출함으로써, 두 가지 정보 및 여러 가지 모델의 융합은 분류 시 수요되는 정보량을 향상시킬 수 있다.
다른 선택 가능한 실시예에서, 제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득하는 단계는,
제1 특징 벡터의 말단에 상기 제2 특징 벡터를 스플라이싱하고, 스플라이싱된 제2 특징 벡터의 말단에 제3 특징 벡터를 스플라이싱하여, 스플라이싱된 특징 벡터를 획득하는 단계; 및
스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 타겟 특징 벡터를 획득하는 단계를 포함한다.
여기서, concat() 방법에 기반하여 제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터에 대해 스플라이싱 처리를 수행하여 스플라이싱된 특징 벡터를 획득할 수 있고, concat()에 기반하면 제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터를 변화시키는 것이 아니라, 제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터가 연결된 하나의 백업 카피만 리턴시킬 수 있고, 스플라이싱된 특징 벡터의 차원이 비교적 높을 경우, 스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 타겟 특징 벡터를 획득해야 하며, 여기서, 차원축소 처리는 고차원의 그룹을 저차원의 그룹으로 압축하기 위한 것이다.
예를 들어, 획득된 제1 특징 벡터가 200차원이고, 제2 특징 벡터가 200차원이며, 제3 특징 벡터가 300차원이면, 직접 설정 순서에 따라 제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터를 스플라이싱한 후 획득된 스플라이싱된 특징 벡터가 700차원이고, 여기서, 스플라이싱된 특징 벡터를 획득하기 위하여, 제1 특징 벡터의 말단 위치에 제2 특징 벡터를 스플라이싱하고, 제2 특징 벡터의 말단 위치에 제3 특징 벡터를 스플라이싱할 수 있다. 스플라이싱 처리를 수행한 후, 스플라이싱하여 획득된 특징 벡터에 대해 차원축소 처리를 수행하여 타겟 특징 벡터를 출력할 수 있다. 여기서, 설정된 차원축소 알고리즘에 기반하여 스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행할 수 있고, 설정된 차원축소 알고리즘은 선형 차원축소 알고리즘, 주성분 분석(Principal Component Analysis, PCA) 알고리즘, 다중 차원 스케일링(Multiple Dimensional Scaling, MDS) 알고리즘, 선형 판별 분석(Linear Discriminant Analysis, LDA) 알고리즘, 지역 선형 임베딩(Locally Linear Embedding, LLE) 알고리즘 중 적어도 하나를 포함한다.
선형 차원축소 알고리즘에 기반하여 스플라이싱된 특징 벡터에 대해 선형 차원축소를 수행하는 것으로 예로 들면, 스플라이싱된 특징 벡터에 대해 선형 변환을 수행하여, 스플라이싱된 특징 벡터를 스플라이싱된 특징 벡터보다 차원이 낮은 차원 공간에 매핑시켜 나타낼 수 있다. 예를 들어, 스플라이싱된 특징 벡터X가 d차원인 것으로 결정하면, 선형 변환 공식을 통해 d차원의 X에 대해 차원축소를 수행하여 d’차원의 타겟 특징 벡터X’를 획득할 수 있고, 여기서, d’≤d이며, 획득된 타겟 특징 벡터X’ 중의 특징은 스플라이싱된 특징 벡터X 중의 특징의 선형 조합이다. 선형 변환 공식은 하기와 같다.
X'=WTX (1);
여기서, W는 변환 매트릭스이고, X는 스플라이싱된 특징 벡터이며, X’는 타겟 특징 벡터이고, 변환 매트릭스W는 d’개의 기본 벡터로 간주될 수 있으며, 각각의 기본 벡터는 d 차원을 갖는다.
다른 선택 가능한 실시예에서, 제2 말뭉치 데이터에 포함된 단어는 단어 식별자를 구비하고; 제1 사전 트레이닝 모델에 기반하여 제2 말뭉치 데이터를 처리하여 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계는,
제2 말뭉치 데이터에 포함된 각 단어의 단어 식별자를 결정하는 단계;
각 단어의 단어 식별자에 기반하여 제1 사전 트레이닝 모델의 설정 단어 벡터 매핑 테이블을 조회하고, 설정 단어 벡터 매핑 테이블에서 각 단어의 특징 벡터를 결정하는 단계 - 설정 단어 벡터 매핑 테이블은 각 단어의 단어 식별자와 각 특징 벡터 사이의 매핑 관계를 포함함 - ; 및
제1 설정 순서에 따라, 결정된 각 단어의 특징 벡터를 배열하여 제1 특징 벡터 시퀀스를 획득하는 단계를 포함한다.
여기서, 트레이닝하여 제1 사전 트레이닝 모델을 획득한 후, 제1 사전 트레이닝 모델의 설정 단어 벡터 매핑 테이블을 획득할 수 있고, 상기 설정 단어 벡터 매핑 테이블은 각 단어의 단어 식별자와 각 특징 벡터 사이의 매핑 관계를 포함한다. 본 개시의 실시예에서, 먼저 제2 말뭉치 데이터에 포함된 각 단어의 단어 식별자를 결정하고, 각 단어의 단어 식별자에 기반하여 설정 단어 벡터 매핑 테이블을 조회하여, 각 단어의 특징 벡터를 결정할 수 있고, 여기서, 단어 식별자는 각각의 단어를 표기한 번호일 수 있다. 제2 말뭉치 데이터 중 각 단어의 특징 벡터를 결정한 후, 제1 설정 순서에 따라 각 단어의 특징 벡터를 배열하여 제1 특징 벡터 시퀀스를 획득할 수 있고, 여기서, 제1 설정 순서는 제2 말뭉치 데이터에서의 각 단어의 배열 순서에 따라 결정될 수 있다. 제1 사전 트레이닝 모델이 FastText 모델일 경우, FastText 모델에 기반하여 획득된 제1 특징 벡터 시퀀스 중의 특징 벡터는 정적 단어 벡터이고, 상기 정적 단어 벡터는 콘텍스트 정보가 융합된 것이며, 국부적 특징 추출에 대해 비교적 좋은 효과를 발생한다.
다른 선택 가능한 실시예에서, 제1 말뭉치 데이터에 포함된 문자는 문자 식별자를 구비하고; 제2 사전 트레이닝 모델에 기반하여 제1 말뭉치 데이터를 처리하여 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계는,
제1 말뭉치 데이터에 포함된 각 문자의 문자 식별자를 결정하는 단계;
제2 사전 트레이닝 모델이 제1 말뭉치 데이터 중 각 문자의 콘텍스트를 분석하여 분석 결과를 획득하는 단계;
분석 결과 및 문자의 문자 식별자에 기반하여, 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 조회하고, 설정 문자 벡터 매핑 테이블에서 각 문자의 특징 벡터를 결정하는 단계 - 설정 문자 벡터 매핑 테이블은 각 문자의 문자 식별자와 각 특징 벡터 사이의 매핑 관계를 포함함 - ; 및
제2 설정 순서에 따라, 결정된 각 문자의 특징 벡터를 배열하여 제2 특징 벡터 시퀀스를 획득하는 단계를 포함한다.
여기서, 트레이닝하여 제2 사전 트레이닝 모델을 획득한 후, 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 획득할 수 있고, 상기 설정 문자 벡터 매핑 테이블은 각 문자의 문자 식별자와 각 특징 벡터 사이의 매핑 관계를 포함한다. 본 개시의 실시예에서, 먼저 제2 사전 트레이닝 모델이 제1 말뭉치 데이터 중 각 문자의 콘텍스트를 분석하여 분석 결과를 획득하고, 분석 결과 및 각 문자의 문자 식별에 기반하여 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 조회하여, 설정 문자 벡터 매핑 테이블에서 각 문자의 특징 벡터를 결정할 수 있다. 여기서, 각 문자의 콘텍스트는 각 문자에 인접한 문자를 의미할 수 있는데, 예를 들어, m번째 문자의 윗 문장은 m-x번째 문자를 의미할 수 있고, 아래 문장은 m+x번째 문자를 의미할 수 있으며, 여기서, m 및 x는 각각 양의 정수이다. 예를 들어, 제1 말뭉치 데이터가 “오늘 날씨가 참 좋아요”일 경우, 여기서, “오”, “늘” 및 “날”은 모두 “씨”의 윗 문장이고, “참” 및 “좋아요”는 “씨”의 아래 문장이다.
제1 말뭉치 데이터 중 각 문자의 특징 벡터를 결정한 후, 제2 설정 순서에 따라 각 문자의 특징 벡터를 배열하여 제2 특징 벡터 시퀀스를 획득할 수 있고, 여기서, 제2 설정 순서는 제1 말뭉치 데이터에서의 각 문자의 배열 순서에 따라 결정될 수 있다. 제2 사전 트레이닝 모델이 BERT 모델일 경우, BERT 모델에 기반하여 제1 말뭉치 데이터 중 각 문자의 콘텍스트를 분석하여 제1 말뭉치 데이터의 언어 환경을 획득하고, 제1 말뭉치 데이터의 언어 환경에 따라 제1 말뭉치 데이터 중 각 문자의 진실 어의를 결정하며, 각 문자의 진실 어의에 따라 대응되는 설정 문자 벡터 매핑 테이블을 결정하고, 대응되는 설정 문자 벡터 매핑 테이블에서 각 문자에 대응되는 문자 벡터를 결정한다. 예를 들어, 제1 말뭉치 데이터가 “이 사과는 참 맛있어요”이면, BERT 모델을 통해 분석하여 제1 말뭉치 데이터 중의 “사과”가 과일인 것으로 결정할 수 있다. 제1 말뭉치 데이터가 “당신의 애플 휴대폰이 사용하기 좋은가요”이면, BERT 모델을 통해 분석하여 제1 말뭉치 데이터 중의 “애플”이 전자 제품 휴대폰인 것으로 결정할 수 있다. 이로써, 각 문자의 콘텍스트 정보에 기반하여 설정 문자 벡터 매핑 테이블에서 대응되는 문자 벡터를 각각 결정할 수 있고, 콘텍스트의 언어 환경과 결합하여 각 문자의 진실 어의를 결정할 수 있음으로써, 결정된 문자 벡터가 보다 정확하다.
다른 선택 가능한 실시예에서, 상기 정보 처리 방법은,
설정된 분류 모델에 기반하여 타겟 특징 벡터에 대해 분류 처리를 수행하여 분류 결과를 획득하는 단계를 더 포함한다.
여기서, 설정된 분류기에 기반하여 타겟 특징 벡터를 분류하여 분류 결과를 획득할 수 있고, 여기서, 분류 결과가 나타내는 것이 타겟 특징 벡터의 진실 어의이며, 설정된 분류기에 기반하여 다양한 선택 가능한 어의를 출력할 수 있다. 타겟 특징 벡터를 설정된 분류기에 입력하고, 설정된 분류기에 기반하여 3가지 선택 가능한 어의를 출력하는 것으로 예로 들면, 3가지 선택 가능한 어의의 확률을 각각 획득할 수 있고, 확률이 가장 높은 어의를 최종 분류 결과로서 사용한다. 예를 들어, 제1 어의를 출력하는 확률이 0.2이고, 제2 어의를 출력하는 확률이 0.5이며, 제3 어의를 출력하는 확률이 0.3이면, 제2 어의를 타겟 특징 벡터의 진실 어의, 즉 획득된 분류 결과로서 사용할 수 있다.
또한 예를 들어, 입력된 타겟 특징 벡터가 나타내는 것이 “나와 샤오홍은 아주 좋아요”이면, 타겟 특징 벡터를 설정된 분류기에 입력한 후, 2가지 선택 가능한 어의를 획득할 수 있는데, 첫 번째 어의는 나와 샤오홍의 관계가 좋다는 것이고, 두 번째 어의는 나와 샤오홍의 상황이 좋다는 것이며, 설정된 분류기를 통해 첫 번째 어의를 출력하는 확률이 0.3이고, 두 번째 어의를 출력하는 확률이 0.7이면, 두 번째 어의를 출력하는 확률이 첫 번째 어의를 출력하는 확률보다 높으므로, 두 번째 어의를 타겟 특징 벡터의 진실 어의로 결정할 수 있는데, 다시 말하면, 타겟 특징 벡터의 진실 어의는 나와 샤오홍의 상황이 좋다는 것이다. 여기서, 확률 값은 softmax 함수에 기반하여 설정된 분류기에 의해 출력된 수치에 대해 정규화 처리를 수행하여 획득될 수 있다.
여기서, 설정된 분류기는 미리 처리된 트레이닝 세트(이미 예지된 타입의 파일)에 따라 학습하고 모델링하여 구축된 분류기일 수 있고, 구현 과정에서, 설정된 테스트 세트 파일을 이용하여 설정된 테스트 방법에 따라, 구축된 분류기에 대해 성능 테스트를 수행하며, 테스트 결과를 끊임없이 피득백하여 학습함으로써, 상기 분류기의 성능을 향상시킬 수 있다.
도 2는 일 예시적 실시예에 따라 나타낸 정보 처리 방법의 흐름도 2이고, 도 2에 도시된 바와 같이, 상기 방법은 하기와 같은 단계를 포함한다.
단계201에서, 중국어 말뭉치 데이터를 결정한다.
여기서, 먼저 여러 가지 BERT 모델을 미리 트레이닝하여 다운로드에 제공할 수 있다. 예를 들어, 상이한 언어에 대한 BERT 모델 및 상이한 모델 크기의 BERT 모델을 미리 트레이닝한다.
단계202에서, 데이터를 준비한다.
여기서, 데이터 준비는 데이터 포맷을 설정하는 것 및 입력 포맷 클래스를 작성(writing)하는 것을 포함하는데, 예를 들어, 상기 입력 포맷 클래스는 DataProcessor 클래스를 포함할 수 있다. 데이터 포맷은 한 행이 하나의 샘플을 나타내고 각 행의 각 샘플이 라벨, 하나의 탭 및 본문을 포함할 수 있는 것으로 정리될 수 있다. DataProcessor 클래스를 작성하는 주요 목적은 프로그램을 이용하여 데이터 포맷을 표준 입력 포맷으로 처리하는 것이다.
단계203에서, 사전 트레이닝 BERT 중국어 모델을 로딩한다.
단계204에서, 실행 스크립트를 작성하고, 작성된 스크립트를 실행한다.
단계205에서, 트레이닝이 완성된 텍스트 분류 모델을 획득한다.
여기서, 설정된 인증 세트에 기반하여 BERT 모델의 정확도를 인증할 수 있으며, 정확도가 가장 높을 경우, 모델 트레이닝을 정지하여, 트레이닝이 완성된 BERT 모델 기반의 텍스트 분류 모델을 획득한다.
도 3은 일 예시적 실시예에 따라 나타낸 정보 처리 방법의 흐름도 3이고, 도 3에 도시된 바와 같이, 상기 방법은 단계를 포함한다.
단계301에서, 제1 말뭉치 데이터를 결정한다.
여기서, 제1 말뭉치 데이터는 표기된 중국어 말뭉치 데이터를 포함한다.
단계302에서, 제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여, 단어에 기반하여 표시된 제2 말뭉치 데이터를 획득한다.
여기서, 제1 말뭉치 데이터에 대해 단어 분리를 수행하지 않을 경우, 단계306을 수행한다.
단계303에서, FastText 모델을 로딩하고, FastText 모델에 기반하여 제2 말뭉치 데이터에 포함된 단어에 대해 단어 임베딩 처리를 수행하여 제1 특징 벡터 시퀀스를 획득한다.
단계304에서, 컨볼루션 신경망에 기반하여 제1 특징 벡터 시퀀스에 대해 특징 추출을 수행하여 제1 특징 벡터를 획득한다.
단계305에서, 장단기 기억 모델에 기반하여 제1 특징 벡터 시퀀스에 대해 특징 추출을 수행하여 제2 특징 벡터를 획득한다.
단계306에서, BERT 모델에 기반하여 제1 말뭉치 데이터에 포함된 문자에 대해 문자 임베딩 처리를 수행하여 제2 특징 벡터 시퀀스를 획득하고, BERT 모델에 기반하여 제2 특징 벡터 시퀀스에 대해 특징 추출을 수행하여 제3 특징 벡터를 획득한다.
단계307에서, concat() 방법에 기반하여 제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터에 대해 스플라이싱 처리를 수행하여 스플라이싱된 특징 벡터를 획득한다.
단계308에서, 스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 타겟 특징 벡터를 획득한다.
단계309에서, 설정된 분류 모델에 기반하여 타겟 특징 벡터에 대해 분류 처리를 수행하여 분류 결과를 획득한다.
도 2에 대응되는 실시예 중 BERT 모델에만 기반하여 텍스트 분류를 수행하는 기술적 해결수단에 비해, 본 개시의 실시예에서, 제1 양태에 따르면, 문자와 단어의 특징을 융합할 수 있고, CNN 모델 및 LSTM 모델에 기반하여 단어에 대해 특징 정보 추출을 수행하고, BERT 모델에 기반하여 문자에 대해 특징 정보 추출을 진행함으로써, 두 가지 정보의 융합은 분류 시 수요되는 정보량을 향상시킬 수 있다.
제2 양태에 따르면, FastTex 모델을 로딩하는 단어 벡터를 정적 단어 벡터로서 사용하고, BERT 모델을 로딩하는 문자 벡터를 동적 문자 벡터로서 사용하며, 정적 단어 벡터는 콘텍스트 정보가 융합된 것으로, 윈도우의 기반의 슬라이딩 추출 특징이므로, 국부적 특징 추출에 대한 효과가 아주 좋지만, 동적 언어 모델 중의 단어 벡터는 콘텍스트 언어 환경이 상이함에 따라 상이하다. 본 개시의 실시예에서, 동적 단어 벡터와 정적 단어 벡터의 특징을 충분히 융합함으로써, 분류 시 수요되는 정보의 정확성과 유연성을 향상시킬 수 있다.
제3 양태에 따르면, 긴 시퀀스의 기억 정보와 윈도우 타입의 국부 정보를 융합할 수 있고, BERT 모델을 통해 추출한 정보는 전체 시퀀스의 전역 정보이며, 콘텍스트의 추정 정보로, 판별 타입의 모델에 속하고, 투-웨이의 LSTM 모델에 의해 추출된 것은 시퀀스에 의해 정규화된 기억 정보이며, 자기 정규화 모델로, 생성 타입의 모델에 속한다. CNN 모델에 의해 추출된 것은 국부 정보이므로, 모델에 긴 시퀀스의 기억 정보와 윈도우 타입의 국부 정보를 융합하였다.
본 개시의 실시예에서, 다원 특징 및 다양한 특징 추출 방법을 융합함으로써, 분류 시 획득된 정보를 다양화시키고, 모델의 정확도 및 일반화 효율을 크게 향상시킬 수 있다. 중국어 텍스트 중의 문자와 단어의 특징, 동적 언어 모델 특징과 정적 언어 모델 특징, 긴 시퀀스의 기억 정보와 윈도우 타입의 국부 정보를 융합하는 텍스트 분류 기술을 제공함으로써, 텍스트 분류의 회수율 및 정확도를 향상시킨다.
도 4는 일 예시적 실시예에 따라 나타낸 정보 처리 장치의 블록도이다. 도 4에 도시된 바와 같이, 상기 정보 처리 장치(400)는 주로,
제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득하는 제1 처리 모듈(401);
제1 사전 트레이닝 모델에 기반하여 제2 말뭉치 데이터에 포함된 상기 적어도 하나의 단어를 처리하여 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 제2 처리 모듈(402);
제2 사전 트레이닝 모델에 기반하여 제1 말뭉치 데이터에 포함된 문자를 처리하여 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 제3 처리 모듈(403); 및
제1 특징 벡터 시퀀스 및 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 획득 모듈(404)을 포함한다.
다른 선택 가능한 실시예에서, 제1 특징 벡터 시퀀스 및 제2 특징 벡터 시퀀스는 각각 적어도 하나의 특징 벡터를 포함하고; 획득 모듈(404)은 또한,
컨볼루션 신경망 모델에 기반하여 제1 특징 벡터 시퀀스를 처리하여 제1 특징 벡터 시퀀스로부터 제1 특징 벡터를 추출하며;
장단기 기억 모델에 기반하여 제1 특징 벡터 시퀀스를 처리하여 제1 특징 벡터 시퀀스로부터 제2 특징 벡터를 추출하고;
제2 사전 트레이닝 모델에 기반하여 제2 특징 벡터 시퀀스를 처리하여 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출하며;
제1 특징 벡터, 제2 특징 벡터 및 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득한다.
다른 선택 가능한 실시예에서, 획득 모듈(404)은 또한,
제1 특징 벡터의 말단에 상기 제2 특징 벡터를 스플라이싱하고, 스플라이싱된 제2 특징 벡터의 말단에 제3 특징 벡터를 스플라이싱하여, 스플라이싱된 특징 벡터를 획득하며;
스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 타겟 특징 벡터를 획득한다.
다른 선택 가능한 실시예에서, 제2 처리 모듈(402)은 또한,
제2 말뭉치 데이터에 포함된 각 단어의 단어 식별자를 결정하고;
각 단어의 단어 식별자에 기반하여 제1 사전 트레이닝 모델의 설정 단어 벡터 매핑 테이블을 조회하며, 설정 단어 벡터 매핑 테이블에서 각 단어의 특징 벡터를 결정하고, 여기서, 설정 단어 벡터 매핑 테이블은 각 단어의 단어 식별자와 각 특징 벡터 사이의 매핑 관계를 포함하며;
제1 설정 순서에 따라, 결정된 각 단어의 특징 벡터를 배열하여 제1 특징 벡터 시퀀스를 획득한다.
다른 선택 가능한 실시예에서, 제3 처리 모듈(403)은 또한,
제1 말뭉치 데이터에 포함된 각 문자의 문자 식별자를 결정하고;
제2 사전 트레이닝 모델이 제1 말뭉치 데이터 중 각 문자의 콘텍스트를 분석하여 분석 결과를 획득하며;
분석 결과 및 문자의 문자 식별자에 기반하여, 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 조회하고, 설정 문자 벡터 매핑 테이블에서 각 문자의 특징 벡터를 결정하며, 여기서, 설정 문자 벡터 매핑 테이블은 각 문자의 문자 식별자와 각 특징 벡터 사이의 매핑 관계를 포함하고;
제2 설정 순서에 따라, 결정된 각 문자의 특징 벡터를 배열하여 제2 특징 벡터 시퀀스를 획득한다.
다른 선택 가능한 실시예에서, 정보 처리 장치(400)는,
설정된 분류 모델에 기반하여 타겟 특징 벡터에 대해 분류 처리를 수행하여 분류 결과를 획득하는 분류 모듈을 더 포함한다.
상술한 실시예의 장치에 관하여, 여기서 각각의 모듈이 동작을 실행하는 구체적인 방식은 이미 상기 방법에 관련된 실시예에서 상세하게 설명하였으므로, 여기서 상세한 설명을 생략한다.
도 5는 일 예시적 실시예에 따라 나타낸 정보 처리 장치(500)의 하드웨어 구조 블록도이다. 예를 들어, 장치(500)는 휴대폰, 컴퓨터, 디지털 방송 단말기, 메시지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 휘트니스 기기, 개인용 휴대 단말기 등일 수 있다.
도 5를 참조하면, 장치(500)는 처리 컴포넌트(502), 메모리(504), 전원 컴포넌트(506), 멀티미디어 컴포넌트(508), 오디오 컴포넌트(510), 입력/출력(I/O) 인터페이스(512), 센서 컴포넌트(514) 및 통신 컴포넌트(516) 중 하나 또는 다수의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(502)는 통상적으로 표시, 전화 호출, 데이터 통신, 카메라 동작 및 기록 동작과 관련한 장치(500)의 전체 동작을 제어한다. 처리 컴포넌트(502)는 상기 방법의 전부 또는 일부 단계를 완성하도록 하나 또는 다수의 프로세서(520)를 포함하여 명령을 실행할 수 있다. 이 밖에, 처리 컴포넌트(502)는 처리 컴포넌트(502)와 다른 컴포넌트 사이의 인터랙션이 편리하도록, 하나 또는 다수의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(502)는 멀티미디어 컴포넌트(508)와 처리 컴포넌트(502) 사이의 인터랙션이 편리하도록 멀티미디어 모듈을 포함할 수 있다.
메모리(504)는 장치(500)의 작동을 지원하도록 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예시는 장치(500)에서 작동되는 임의의 응용 프로그램 또는 방법의 명령, 연락인 데이터, 전화번호부 데이터, 메시지, 이미지, 동영상 등을 포함한다. 메모리(504)는 스태틱 랜덤 액세스 메모리(SRAM), 전기적 소거 가능한 프로그램 가능 판독 전용 메모리(EEPROM), 소거 및 프로그램 가능 판독 전용 메모리(EPROM), 프로그램 가능 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 디스크 또는 CD와 같은 모든 타입의 휘발성 또는 비휘발성 메모리 기기 또는 이들의 조합으로 이루어질 수 있다.
전원 컴포넌트(506)는 장치(500)의 각 컴포넌트에 전력을 제공한다. 전원 컴포넌트(506)는 전원관리 시스템, 하나 또는 다수의 전원, 장치(500)에 전력을 생성, 관리 및 분배하는 것과 관련되는 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(508)는 상기 장치(500)와 사용자 사이에 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서 스크린은 액정디스플레이(LCD)와 터치패널(TP)을 포함할 수 있다. 스크린이 터치패널을 포함하면, 스크린은 사용자가 입력한 신호를 수신하도록 터치스크린으로 구현될 수 있다. 터치패널은 터치, 슬라이딩과 터치패널의 손동작을 감지하도록 하나 또는 다수의 터치센서를 포함한다. 상기 터치센서는 터치 또는 슬라이딩 동작의 경계를 감지할 수 있을 뿐만 아니라 상기 터치 또는 슬라이딩 동작과 관련한 지속 시간과 압력도 검출할 수 있다. 일부 실시예에서, 멀티미디어 컴포넌트(508)는 하나의 전방 카메라 및/또는 후방 카메라를 포함한다. 장치(500)가 작동 모드 예를 들어, 촬영 모드 또는 화상 모드일 경우, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 전방 카메라와 후방 카메라 각각은 하나의 고정된 광학렌즈 시스템이거나 초점 거리와 광학 줌 능력을 구비할 수 있다.
오디오 컴포넌트(510)는 오디오 신호를 출력 및/또는 입력한다. 예를 들어, 오디오 컴포넌트(510)는 하나의 마이크(MIC)를 포함하는 바, 장치(500)가 작동 모드, 예를 들어 호출 모드, 기록 모드 및 음성인식 모드일 경우, 마이크는 외부의 오디오 신호를 수신한다. 수신된 오디오 신호는 또한 메모리(504)에 저장되거나 통신 컴포넌트(516)를 거쳐 송신될 수 있다. 일부 실시예에서 오디오 컴포넌트(510)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.
I/O 인터페이스(512)는 처리 컴포넌트(502)와 주변 인터페이스 모듈 사이에 인터페이스를 제공하며, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈버튼, 음량 버튼, 작동 버튼과 잠금 버튼을 포함할 수 있지만 이에 한정되지는 않는다.
센서 컴포넌트(514)는 하나 또는 다수의 센서를 포함하여 장치(500)에 여러 방면의 상태 평가를 제공한다. 예를 들어, 센서 컴포넌트(514)는 장치(500)의 온/오프 상태, 장치(500)의 모니터와 키패드와 같은 컴포넌트의 상대 위치를 검출할 수 있고, 센서 컴포넌트(514)는 장치(500) 또는 장치(500)의 한 컴포넌트의 위치 변화, 사용자와 장치(500)의 접촉 여부, 장치(500) 방위 또는 가속/감속과 장치(500)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(514)는 아무런 물리적 접촉 없이 주변 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(514)는CMOS 또는 CCD 영상 센서와 같은 광 센서를 더 포함하여 이미징 애플리케이션에 사용한다. 일부 실시예에서, 상기 센서 컴포넌트(514)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(516)는 장치(500)와 다른 기기 사이의 유선 또는 무선 방식의 통신이 편리하도록 구성된다. 장치(500)는 통신표준에 의한 무선 네트워크, 예를 들어 Wi-Fi, 2G, 5G, 또는 이들의 조합에 액세스할 수 있다. 하나의 예시적인 실시예에서, 통신 컴포넌트(516)는 방송 신호를 거쳐 외부 방송관리 시스템으로부터의 방송 신호 또는 방송과 관련한 정보를 수신한다. 하나의 예시적 실시예에서, 상기 통신 컴포넌트(516)는 근거리 통신을 촉진하도록 근거리 자기장 통신(NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 인식(RFID) 기술, 적외선 통신 규격(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술과 다른 기술에 기반하여 구현할 수 있다.
예시적 실시예에서, 장치(500)는 상기 방법을 수행하도록 하나 또는 다수의 응용 주문형 집적회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 구현될 수 있다.
예시적 실시예에서, 명령을 포함하는 비일시적 컴퓨터 판독 가능한 저장 매체, 예를 들어 상기 방법을 완성하도록 장치(500)의 프로세서(520)에 의해 실행 가능한 명령을 포함한 메모리(504)를 더 제공한다. 예를 들어, 상기 비일시적 컴퓨터 판독 가능한 저장 매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스켓과 광 데이터 저장 기기 등일 수 있다.
비일시적 컴퓨터 판독 가능한 저장 매체로서, 상기 저장 매체 중의 명령이 정보 처리 장치의 프로세서에 의해 실행될 경우, 정보 처리 장치가 정보 처리 방법을 수행할 수 있도록 하고, 상기 방법은,
제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여, 단어에 기반하여 표시된 제2 말뭉치 데이터를 획득하는 단계;
제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터에 포함된 단어를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계;
제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계; 및
상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계를 포함한다.
도 6은 일 예시적 실시예에 따라 나타낸 정보 처리 장치(1900)의 하드웨어 구조 블록도 2이다. 예를 들어, 장치(1900)는 서버로 제공될 수 있다. 도 6을 참조하면, 장치(1900)는 처리 컴포넌트(1922)를 포함하고, 하나 또는 복수의 프로세서, 및 메모리(1932)에 의해 나타나는, 처리 컴포넌트(1922)에 의해 실행될 수 있는 명령을 저장하기 위한 예컨대 퀵 애플리케이션과 같은 메모리 리소스를 더 포함한다. 메모리(1932)에 저장된 퀵 애플리케이션은 각각이 한 그룹의 명령에 대응되는 하나 또는 하나 이상의 모듈을 포함할 수 있다. 이 밖에, 처리 컴포넌트(1922)는 상기 정보 처리 방법을 수행하도록 명령을 실행하고, 상기 방법은,
제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여, 단어에 기반하여 표시된 제2 말뭉치 데이터를 획득하는 단계;
제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터에 포함된 단어를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계;
제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계; 및
상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계를 포함한다.
장치(1900)는 장치(1900)의 전원 관리를 실행하는 하나의 전원 컴포넌트(1926), 장치(1900)를 네트워크에 연결시키는 하나의 무선 또는 유선 네트워크 인터페이스(1950), 및 입력/출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 장치(1900)는 메모리(1932)에 저장된 운영 시스템, 예를 들어, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 이들과 유사한 운영 시스템을 실행할 수 있다.
본 개시의 통상의 기술자가 명세서를 고려하고 여기서 공개한 발명을 실천한 후, 본 개시의 다른 실시형태를 용이하게 생각해낼 수 있다. 본 개시는 본 개시의 임의의 변형, 용도 또는 적응성 변화를 포함하고, 이러한 변형, 용도 또는 적응성 변화는 본 개시의 일반적 원리를 따르며 본 개시에서 공개하지 않은 본 기술분야에서의 공지된 상식 또는 관용적 기술적 수단을 포함한다. 명세서 및 실시예는 단지 예시적인 것이고, 본 개시의 진정한 범위 및 정신은 아래의 청구범위에 의해 밝혀질 것이다.
본 개시는 상기에서 설명하고 도면에 도시한 정확한 구조에 한정되는 것이 아니라 그 범위를 벗어나지 않는 한 다양한 수정과 변경을 진행할 수 있음을 이해해야 할 것이다. 본 개시의 범위는 첨부되는 청구범위에 의해서만 한정된다.

Claims (15)

  1. 컴퓨팅 장치에 의해 각 단계가 수행되는 정보 처리 방법으로서,
    제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득하는 단계;
    제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터에 포함된 상기 적어도 하나의 단어를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계;
    제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계; 및
    상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계를 포함하며,
    상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스는 각각 적어도 하나의 특징 벡터를 포함하고; 상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 단계는,
    컨볼루션 신경망 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제1 특징 벡터를 추출하는 단계;
    장단기 기억 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제2 특징 벡터를 추출하는 단계;
    상기 제2 사전 트레이닝 모델에 기반하여 상기 제2 특징 벡터 시퀀스를 처리하여 상기 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출하는 단계; 및
    상기 제1 특징 벡터, 상기 제2 특징 벡터 및 상기 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득하는 단계를 포함하는 것을 특징으로 하는 정보 처리 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 제1 특징 벡터, 상기 제2 특징 벡터 및 상기 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득하는 단계는,
    상기 제1 특징 벡터의 말단에 상기 제2 특징 벡터를 스플라이싱하고, 스플라이싱된 제2 특징 벡터의 말단에 상기 제3 특징 벡터를 스플라이싱하여, 스플라이싱된 특징 벡터를 획득하는 단계; 및
    상기 스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 상기 타겟 특징 벡터를 획득하는 단계를 포함하는 것을 특징으로 하는 정보 처리 방법.
  4. 제1항에 있어서,
    상기 제2 말뭉치 데이터에 포함된 단어는 단어 식별자를 구비하고; 상기 제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 단계는,
    상기 제2 말뭉치 데이터에 포함된 상기 각 단어의 단어 식별자를 결정하는 단계;
    상기 각 단어의 단어 식별자에 기반하여 상기 제1 사전 트레이닝 모델의 설정 단어 벡터 매핑 테이블을 조회하고, 상기 설정 단어 벡터 매핑 테이블에서 상기 각 단어의 특징 벡터를 결정하는 단계 - 상기 설정 단어 벡터 매핑 테이블은 상기 각 단어의 단어 식별자와 상기 각 단어의 특징 벡터 사이의 매핑 관계를 포함함 - ; 및
    제1 설정 순서에 따라, 결정된 상기 각 단어의 특징 벡터를 배열하여 상기 제1 특징 벡터 시퀀스를 획득하는 단계를 포함하는 것을 특징으로 하는 정보 처리 방법.
  5. 제1항에 있어서,
    상기 제1 말뭉치 데이터에 포함된 문자는 문자 식별자를 구비하고; 상기 제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 단계는,
    상기 제1 말뭉치 데이터에 포함된 상기 각 문자의 문자 식별자를 결정하는 단계;
    상기 제2 사전 트레이닝 모델이 상기 제1 말뭉치 데이터 중 상기 각 문자의 콘텍스트를 분석하여 분석 결과를 획득하는 단계;
    상기 분석 결과 및 상기 문자의 문자 식별자에 기반하여, 상기 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 조회하고, 상기 설정 문자 벡터 매핑 테이블에서 상기 각 문자의 특징 벡터를 결정하는 단계 - 상기 설정 문자 벡터 매핑 테이블은 상기 각 문자의 문자 식별자와 상기 각 문자의 특징 벡터 사이의 매핑 관계를 포함함 - ; 및
    제2 설정 순서에 따라, 결정된 상기 각 문자의 특징 벡터를 배열하여 상기 제2 특징 벡터 시퀀스를 획득하는 단계를 포함하는 것을 특징으로 하는 정보 처리 방법.
  6. 제1항에 있어서,
    상기 정보 처리 방법은,
    설정된 분류 모델에 기반하여 상기 타겟 특징 벡터에 대해 분류 처리를 수행하여 분류 결과를 획득하는 단계를 더 포함하는 것을 특징으로 하는 정보 처리 방법.
  7. 정보 처리 장치로서,
    제1 말뭉치 데이터에 대해 단어 분리 처리를 수행하여 적어도 하나의 단어가 포함된 제2 말뭉치 데이터를 획득하는 제1 처리 모듈;
    제1 사전 트레이닝 모델에 기반하여 상기 제2 말뭉치 데이터에 포함된 상기 적어도 하나의 단어를 처리하여 상기 제2 말뭉치 데이터에 대응되는 제1 특징 벡터 시퀀스를 획득하는 제2 처리 모듈;
    제2 사전 트레이닝 모델에 기반하여 상기 제1 말뭉치 데이터에 포함된 문자를 처리하여 상기 제1 말뭉치 데이터에 대응되는 제2 특징 벡터 시퀀스를 획득하는 제3 처리 모듈; 및
    상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스에 기반하여 타겟 특징 벡터를 획득하는 획득 모듈을 포함하며,
    상기 제1 특징 벡터 시퀀스 및 상기 제2 특징 벡터 시퀀스는 각각 적어도 하나의 특징 벡터를 포함하고; 상기 획득 모듈은 또한,
    컨볼루션 신경망 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제1 특징 벡터를 추출하며;
    장단기 기억 모델에 기반하여 상기 제1 특징 벡터 시퀀스를 처리하여 상기 제1 특징 벡터 시퀀스로부터 제2 특징 벡터를 추출하고;
    상기 제2 사전 트레이닝 모델에 기반하여 상기 제2 특징 벡터 시퀀스를 처리하여 상기 제2 특징 벡터 시퀀스로부터 제3 특징 벡터를 추출하며;
    상기 제1 특징 벡터, 상기 제2 특징 벡터 및 상기 제3 특징 벡터에 기반하여, 스플라이싱 처리를 통해 타겟 특징 벡터를 획득하는 것을 특징으로 하는 정보 처리 장치.
  8. 삭제
  9. 제7항에 있어서,
    상기 획득 모듈은 또한,
    상기 제1 특징 벡터의 말단에 상기 제2 특징 벡터를 스플라이싱하고, 스플라이싱된 제2 특징 벡터의 말단에 상기 제3 특징 벡터를 스플라이싱하여, 스플라이싱된 특징 벡터를 획득하며;
    상기 스플라이싱된 특징 벡터에 대해 차원축소 처리를 수행하여 상기 타겟 특징 벡터를 획득하는 것을 특징으로 하는 정보 처리 장치.
  10. 제7항에 있어서,
    상기 제2 처리 모듈은 또한,
    상기 제2 말뭉치 데이터에 포함된 상기 각 단어의 단어 식별자를 결정하고;
    상기 각 단어의 단어 식별자에 기반하여 상기 제1 사전 트레이닝 모델의 설정 단어 벡터 매핑 테이블을 조회하며, 상기 설정 단어 벡터 매핑 테이블에서 상기 각 단어의 특징 벡터를 결정하고, 상기 설정 단어 벡터 매핑 테이블은 상기 각 단어의 단어 식별자와 상기 각 단어의 특징 벡터 사이의 매핑 관계를 포함하며;
    제1 설정 순서에 따라, 결정된 상기 각 단어의 특징 벡터를 배열하여 상기 제1 특징 벡터 시퀀스를 획득하는 것을 특징으로 하는 정보 처리 장치.
  11. 제7항에 있어서,
    상기 제3 처리 모듈은 또한,
    상기 제1 말뭉치 데이터에 포함된 상기 각 문자의 문자 식별자를 결정하고;
    상기 제2 사전 트레이닝 모델이 상기 제1 말뭉치 데이터 중 상기 각 문자의 콘텍스트를 분석하여 분석 결과를 획득하며;
    상기 분석 결과 및 상기 문자의 문자 식별자에 기반하여, 상기 제2 사전 트레이닝 모델의 설정 문자 벡터 매핑 테이블을 조회하고, 상기 설정 문자 벡터 매핑 테이블에서 상기 각 문자의 특징 벡터를 결정하며, 상기 설정 문자 벡터 매핑 테이블은 상기 각 문자의 문자 식별자와 상기 각 문자의 특징 벡터 사이의 매핑 관계를 포함하고;
    제2 설정 순서에 따라, 결정된 상기 각 문자의 특징 벡터를 배열하여 상기 제2 특징 벡터 시퀀스를 획득하는 것을 특징으로 하는 정보 처리 장치.
  12. 제7항에 있어서,
    상기 정보 처리 장치는,
    설정된 분류 모델에 기반하여 상기 타겟 특징 벡터에 대해 분류 처리를 수행하여 분류 결과를 획득하는 분류 모듈을 더 포함하는 것을 특징으로 하는 정보 처리 장치.
  13. 정보 처리 장치로서,
    프로세서; 및
    프로세서 실행 가능한 명령을 저장하는 메모리를 포함하고,
    상기 프로세서는 실행될 경우 제1항, 제3항 내지 제6항 중 어느 한 항에 따른 정보 처리 방법의 단계를 구현하는 것을 특징으로 하는 정보 처리 장치.
  14. 비일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 저장 매체 중의 명령이 정보 처리 장치의 프로세서에 의해 실행될 경우, 상기 정보 처리 장치가 제1항, 제3항 내지 제6항 중 어느 한 항에 따른 정보 처리 방법을 수행할 수 있도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 저장 매체.
  15. 저장 매체에 저장된 컴퓨터 프로그램으로서,
    정보 처리 장치의 프로세서에 의해 실행될 경우, 제1항, 제3항 내지 제6항 중 어느 한 항에 따른 정보 처리 방법을 수행할 수 있는 것을 특징으로 하는 컴퓨터 프로그램.
KR1020200095607A 2020-01-19 2020-07-31 정보 처리 방법, 장치 및 저장 매체 KR102544453B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010059203.3A CN111259148B (zh) 2020-01-19 2020-01-19 信息处理方法、装置及存储介质
CN202010059203.3 2020-01-19

Publications (2)

Publication Number Publication Date
KR20210094445A KR20210094445A (ko) 2021-07-29
KR102544453B1 true KR102544453B1 (ko) 2023-06-16

Family

ID=70949304

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200095607A KR102544453B1 (ko) 2020-01-19 2020-07-31 정보 처리 방법, 장치 및 저장 매체

Country Status (5)

Country Link
US (1) US11475219B2 (ko)
EP (1) EP3851997A1 (ko)
JP (1) JP7059326B2 (ko)
KR (1) KR102544453B1 (ko)
CN (1) CN111259148B (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016295B (zh) * 2020-09-04 2024-02-23 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112528668A (zh) * 2020-11-27 2021-03-19 湖北大学 深层情感语义识别方法、系统、介质、计算机设备及终端
KR102564692B1 (ko) * 2021-01-04 2023-08-08 충남대학교 산학협력단 관계성 학습을 이용한 자연어 처리 시스템 및 방법
CN113821652A (zh) * 2021-01-21 2021-12-21 北京沃东天骏信息技术有限公司 模型数据处理方法、装置、电子设备以及计算机可读介质
CN113902098A (zh) * 2021-09-30 2022-01-07 云天弈(广州)智能科技有限公司 多类型数据并行学习方法、装置、计算机设备及介质
CN114330474B (zh) * 2021-10-20 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN113988949A (zh) * 2021-11-15 2022-01-28 北京有竹居网络技术有限公司 一种推广信息处理方法、装置、设备及介质、程序产品
CN115358231A (zh) * 2022-08-30 2022-11-18 北京龙智数科科技服务有限公司 自然语言预训练模型训练方法、装置、设备及存储介质
CN117152157B (zh) * 2023-10-31 2023-12-29 南通三喜电子有限公司 基于人工智能的电子元件识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019082362A1 (ja) 2017-10-26 2019-05-02 三菱電機株式会社 単語意味関係推定装置および単語意味関係推定方法
WO2019149200A1 (zh) * 2018-02-01 2019-08-08 腾讯科技(深圳)有限公司 文本分类方法、计算机设备及存储介质
JP2019533259A (ja) 2016-11-03 2019-11-14 セールスフォース ドット コム インコーポレイティッド 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101465770B1 (ko) * 2007-06-25 2014-11-27 구글 인코포레이티드 단어 확률 결정
EP2705515A4 (en) * 2011-05-06 2015-04-29 Seyyer Inc GENERATING VIDEO BASED ON TEXT
US20150149461A1 (en) * 2013-11-24 2015-05-28 Interstack, Inc System and method for analyzing unstructured data on applications, devices or networks
US20180025303A1 (en) * 2016-07-20 2018-01-25 Plenarium Inc. System and method for computerized predictive performance analysis of natural language
KR20180055189A (ko) 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN107423284B (zh) * 2017-06-14 2020-03-06 中国科学院自动化研究所 融合中文单词内部结构信息的句子表示的构建方法及系统
CN108804512B (zh) * 2018-04-20 2020-11-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109036375B (zh) * 2018-07-25 2023-03-24 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN110287328B (zh) * 2019-07-03 2021-03-16 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN110705294B (zh) * 2019-09-11 2023-06-23 苏宁云计算有限公司 命名实体识别模型训练方法、命名实体识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019533259A (ja) 2016-11-03 2019-11-14 セールスフォース ドット コム インコーポレイティッド 逐次正則化を用いた同時多タスクニューラルネットワークモデルのトレーニング
WO2019082362A1 (ja) 2017-10-26 2019-05-02 三菱電機株式会社 単語意味関係推定装置および単語意味関係推定方法
WO2019149200A1 (zh) * 2018-02-01 2019-08-08 腾讯科技(深圳)有限公司 文本分类方法、计算机设备及存储介质

Also Published As

Publication number Publication date
US20210224479A1 (en) 2021-07-22
JP2021114277A (ja) 2021-08-05
US11475219B2 (en) 2022-10-18
KR20210094445A (ko) 2021-07-29
EP3851997A1 (en) 2021-07-21
JP7059326B2 (ja) 2022-04-25
CN111259148A (zh) 2020-06-09
CN111259148B (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
KR102544453B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN110008401B (zh) 关键词提取方法、关键词提取装置和计算机可读存储介质
US11394675B2 (en) Method and device for commenting on multimedia resource
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN113792207B (zh) 一种基于多层次特征表示对齐的跨模态检索方法
CN110781305A (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
US11856277B2 (en) Method and apparatus for processing video, electronic device, medium and product
CN108345612B (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN107784034B (zh) 页面类别识别方法及装置、用于页面类别识别的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
WO2019109663A1 (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN108345625B (zh) 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN107424612B (zh) 处理方法、装置和机器可读介质
CN111538830B (zh) 法条检索方法、装置、计算机设备及存储介质
CN111222316B (zh) 文本检测方法、装置及存储介质
CN111538998B (zh) 文本定密方法和装置、电子设备及计算机可读存储介质
CN107784037B (zh) 信息处理方法和装置、用于信息处理的装置
CN108073294B (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN114610163A (zh) 推荐方法、装置和介质
KR20210050484A (ko) 정보 처리 방법, 장치 및 저장 매체
CN112579767A (zh) 搜索处理方法、装置和用于搜索处理的装置
CN110929122A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110858100B (zh) 联想候选词生成方法及装置
CN114594863A (zh) 推荐方法、装置和介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant