KR20210040851A - 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 - Google Patents

텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 Download PDF

Info

Publication number
KR20210040851A
KR20210040851A KR1020210037744A KR20210037744A KR20210040851A KR 20210040851 A KR20210040851 A KR 20210040851A KR 1020210037744 A KR1020210037744 A KR 1020210037744A KR 20210037744 A KR20210037744 A KR 20210037744A KR 20210040851 A KR20210040851 A KR 20210040851A
Authority
KR
South Korea
Prior art keywords
text
language model
long
model
recognition processing
Prior art date
Application number
KR1020210037744A
Other languages
English (en)
Other versions
KR102497945B1 (ko
Inventor
쒀환 왕
쓰위 딩
위 쑨
화 우
하이펑 왕
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210040851A publication Critical patent/KR20210040851A/ko
Application granted granted Critical
Publication of KR102497945B1 publication Critical patent/KR102497945B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 텍스트 인식 처리 방법 및 장치를 개시하는데 이는 자연 언어 처리분야, 딥 러닝 분야에 관한 것이다. 구체적인 실현방안은, 적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하고,; N개의 세그먼트 시퀀스를 초기 언어 모델에 입력하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하며; 각각의 세그먼트 시퀀스를 다시 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하고,; 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재함을 검출할 경우, 제2 텍스트 벡터 정보와 제1 텍스트 벡터 정보에 따라 마스크를 예측하며, 마스크에 대응되는 타겟 위치의 예측 단어를 획득하며; 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 초기 언어 모델의 모델 파라미터를 트레이닝하고, 롱 텍스트 언어 모델을 생성하고 상기 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트에 대해 인식 처리를 수행하는 것이다.

Description

텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체{TEXT RECOGNITION METHOD, ELECTRONIC DEVICE, AND STORAGE MEDIUM}
본 출원의 실시예는 전반적으로 컴퓨터 기술분야에 관한 것으로, 더 구체적으로는 자연 언어 처리 분야, 딥 러닝 기술 분야에 관한 것이다.
최근 몇 년간, 일반적인 시맨틱 표현 모델 BERT를 대표로 하는 프리 트레이닝 모델은 "프리 트레이닝+미세 조정"의 패러다임을 제공하고, 이는 여러 가지 NLP(Natural Language Processing, 자연 언어 처리) 태스크의 효과를 크게 향상시킬 수 있다. BERT 모델은 심층 Transformer 모델 구조를 사용하고, 대용량 비 지도 텍스트를 이용하여 앞뒤 문장의 관련 표현을 학습하며, 보편적이고 통일적인 방식을 사용하여 여러 가지 자연 언어 처리 태스크(예를 들어, 텍스트 매칭, 텍스트 생성, 감정 분류, 텍스트 요약, 응답, 검색 등)를 해결한다.
그러나, 현재 주류 시맨틱 표현 모델은 짧은 길이(예를 들어 512) 이내의 세그먼트만 모델링 할 수 있고 전체 문장과 같이 길이가 512보다 긴 텍스트는 모델링하기 어려우며 초장 텍스트 정보를 인식하고 처리할 수 없다.
본 출원은 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체를 제공한다.
제1 양태에 따르면,
적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하는 단계;
상기 N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력하여 상기 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하는 단계;
각각의 상기 세그먼트 시퀀스를 순차적으로 다시 상기 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 상기 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하는 단계;
상기 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재하는 것이 검출될 경우, 상기 제2 텍스트 벡터 정보와 상기 제1 텍스트 벡터 정보에 따라 상기 마스크를 예측하며, 상기 마스크에 대응되는 타겟 위치의 예측 단어를 획득하는 단계; 및
상기 타겟 위치에 미리 설정된 원래 단어와 상기 예측 단어에 따라 상기 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하고 상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 단계를 포함하는 텍스트 인식 처리 방법을 제공한다.
제2 양태에 따르면,
적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하는 제1 획득 모듈;
상기 N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력하여 상기 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하는 제2 획득 모듈;
각각의 상기 세그먼트 시퀀스를 순차적으로 다시 상기 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 상기 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하는 제3 획득 모듈;
상기 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재함을 검출할 경우, 상기 제2 텍스트 벡터 정보와 상기 제1 텍스트 벡터 정보에 따라 상기 마스크를 예측하며, 상기 마스크에 대응되는 타겟 위치의 예측 단어를 획득하는 예측 모듈;
상기 타겟 위치에 미리 설정된 원래 단어와 상기 예측 단어에 따라 상기 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하는 트레이닝 모듈; 및
상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 인식 처리 모듈을 포함하는 텍스트 인식 처리 장치를 제공한다.
제3 양태에 따르면, 전자 기기를 제공하는데,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결하는 메모리를 포함하는 전자 기기에 있어서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 상기 제1 양태에서 제공하는 텍스트 인식 처리 방법을 수행하도록 한다.
제4 양태에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체를 제공하는데 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기 제1 양태에서 제공하는 텍스트 인식 처리 방법을 수행하도록 한다.
제5 양태에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1 양태에서 제공하는 텍스트 인식 처리 방법이 실행된다.
본 출원의 기술적 해결수단에 따르면, 적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하고,, N개의 세그먼트 시퀀스를 미리 설정된 초기 언어 모델에 입력하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하며; 각각의 세그먼트 시퀀스를 다시 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하되, 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재함을 검출할 경우, 제2 텍스트 벡터 정보와 제1 텍스트 벡터 정보에 따라 마스크를 예측하며, 마스크에 대응되는 타겟 위치의 예측 단어를 획득한 다음, 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 초기 언어 모델의 모델 파라미터를 트레이닝하고, 롱 텍스트 언어 모델을 생성하고 상기 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트에 대해 인식 처리를 수행한다. 이로써 알 수 있다 시피, 본 출원은 코퍼스 텍스트를 모델에 순환 입력(즉 모델에 두 번 입력)하여, 코퍼스 텍스트를 처음으로 모델에 입력할 때 상기 코퍼스 텍스트에서의 세그먼트 시퀀스의 텍스트 벡터만을 생성하는데, 이때 마스크에 대해 예측 러닝을 수행하는 것이 아니라 두 번째로 상기 코퍼스 텍스트를 입력할 때에만 이때 이미 처음으로 입력한 세그먼트 시퀀스의 텍스트 벡터 정보를 획득하였으므로 이때 모델에 의해 상기 처음으로 입력하여 얻은 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보 및 두 번째로 입력한 세그먼트 시퀀스를 이용하여 마스크를 예측하며, 마스크에 대해 예측한 정확 여부 구배 반환를 통해 모델에 대한 트레이닝을 구현함으로써 트레이닝하여 얻은 모델이 512 길이의 텍스트를 처리할 수 있도록 한다.
그리고, 본 출원이 사용하는 것은 세그먼트 모델링 방식이므로 512 이내의 텍스트에 대하여 비교적 빨리 모델링을 구현할 수 있어 모델링 속도를 향상시킨다. 코퍼스 텍스트가 두 번 순환 입력되었으므로 각 세그먼트 시퀀스가 모두 앞뒤 문장 정보를 얻게 되어 모델을 트레이닝하는 성능을 향상시킬 수 있고 트레이닝된 모델 성능 효과도 더 양호하여 자연 언어 처리 태스크의 효과를 효과적으로 향상시킬 수 있다.
이 외에, 본 출원은 세그먼트 시퀀스를 이용하여 초기 언어 모델을 트레이닝 할 경우, 딥 러닝의 방식으로 트레이닝 할 수 있는데 기타 기계 학습 방법과 비교하여 딥 러닝은 빅 데이터 집합에서의 표현이 더 양호하다.
본 명세서에서 설명한 내용은 본 발명의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니고 본 발명의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 발명의 기타 특징은 아래의 명세서를 통해 더 용이하게 이해할 수 있을 것이다.
첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않는다. 여기서,
도 1은 본 출원의 한 실시예에 따른 텍스트 인식 처리 방법의 흐름도이고;
도 2는 본 출원의 다른 실시예에 따른 텍스트 인식 처리 방법의 흐름도이며;
도 3은 본 출원의 실시예에 따른 롱 텍스트 모델링 과정의 개략도이고;
도 4는 본 출원의 또 다른 실시예에 따른 텍스트 인식 처리 방법의 흐름도이며;
도 5는 본 출원의 실시예에 따른 분류 태스크 입력의 개략도이고;
도 6은 본 출원의 다른 실시예에 따른 텍스트 인식 처리 방법의 흐름도이며;
도 7은 본 출원의 실시예에 따른 텍스트 요약 생성 태스크 입력의 개략도이고;
도 8은 본 출원의 한 실시예에 따른 텍스트 인식 처리 장치의 구조 블록도이며;
도 9는 본 출원의 실시예에 따른 텍스트 인식 처리 방법을 구현하기 위한 전자 기기의 블록도이다.
이하, 첨부 도면을 결부하여 본 출원의 예시적인 실시예들을 설명하고자 하며, 이해를 돕기 위해 본 출원의 실시예들의 다양한 세부 사항들이 포함되는데, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 출원의 기술 분야의 통상의 지식을 가진 자라면 본 출원의 범위 및 사상을 벗어나지 않으면서 본 명세서에 설명된 실시예들에 대해 다양한 변경 및 수정이 이루어질 수 있음을 알아야 한다. 또한, 명확성 및 간결성을 위해, 공지된 기능 및 구조에 대한 설명은 아래 설명에서 생략된다.
도 1은 본 출원의 한 실시예에 따른 텍스트 인식 처리 방법의 흐름도이다. 설명해야 할 것은, 본 출원의 실시예에 따른 텍스트 인식 처리 방법은 본 출원의 실시예에 따른 텍스트 인식 처리 장치에 응용될 수 있고, 상기 텍스트 인식 처리 장치는 전자 기기에 배치될 수 있다.
도 1에 도시된 바와 같이, 상기 텍스트 인식 처리 방법은 아래와 같은 단계를 포함할 수 있다.
단계101에서, 적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득한다.
본 출원의 일부 실시예에서, 롱 텍스트 코퍼스를 획득하고, 롱 텍스트 코퍼스의 다수의 위치에서의 원래 단어를 각각 마스크로 대체하여 롱 텍스트 차폐 코퍼스를 획득하며 미리 설정된 타겟 길이에 따라 상기 롱 텍스트 차폐 코퍼스를 분할하여 N개의 세그먼트 시퀀스를 획득할 수 있다.
상기 각각의 롱 텍스트 코퍼스의 텍스트 길이는 일정한 임계값을 초과할 수 있는 바, 예를 들어 각각의 롱 텍스트 코퍼스는 전체 문장이거나, 또는 각각의 롱 텍스트 코퍼스의 길이는 512를 훨씬 초과할 수 있다.
선택적으로, 롱 텍스트 코퍼스를 획득한 후, 롱 텍스트 코퍼스에 대해 엔티티 인식을 수행하고 롱 텍스트 코퍼스에서의 엔티티에 대응되는 원래 단어를 차폐하며 마스크를 이용하여 차폐된 원래 단어를 대체함으로써 롱 텍스트 차폐 코퍼스를 획득한 다음 미리 설정된 타겟 길이에 따라 롱 텍스트 차폐 코퍼스에 대해 세그먼트 분할을 수행하여 N개의 세그먼트 시퀀스를 획득할 수 있다. 여기서 상기 타겟 길이는 512 일 수 있다.
예를 들어 설명하면, "4대 명작에는 <서유기>, <수호전>, <삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼 광대한 고전 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 예로 할 경우, 상기 롱 텍스트 코퍼스에 대해 엔티티 인식을 수행하여 상기 롱 텍스트 코퍼스에서의 "서유기", "고전"과 같은 엔티티 단어를 마스크를 이용하여 차폐하여 롱 텍스트 차폐 코퍼스인 "4대 명작에는 <[M][M][M]>, <수호전>, <삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼 광대한 [M][M] 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 획득한 다음, 512 길이에 따라 상기 롱 텍스트 차폐 코퍼스에 대해 세그먼트 분할을 수행하여 3개의 세그먼트 시퀀스, 즉 "4대 명작에는 <[M][M][M]>, <수호전>,", "<삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼", "광대한 [M][M] 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 획득할 수 있다.
단계102에서, N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득한다.
본 단계에서, N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력한 후, 초기 언어 모델은 N개의 세그먼트 시퀀스에 대해 특징 추출을 수행하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 얻을 수 있다.
본 출원의 일부 실시예에서, 상기 초기 언어 모델은 Transformer-XL모델 일 수 있다. Transformer-XL모델은 Memor7 메커니즘을 이용하여 세그먼트 사이에서 정보를 전달할 수 있다. 바꾸어 말하면, N개의 세그먼트 시퀀스를 순차적으로 Transformer-XL모델에 입력하되, 이 과정에서, Transformer-XL모델은 각 세그먼트 시퀀스에 대해 특징 추출을 수행하여 각 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보를 획득하며, 나아가 각 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보에 기반하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 얻을 수 있다.
단계103에서, 각각의 세그먼트 시퀀스를 순차적으로 다시 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득한다.
바꾸어 말하면, N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득한 다음, 세그먼트 시퀀스를 순차적으로 다시 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득할 수 있다.
예를 들어 설명하면, "4대 명작에는 <서유기>, <수호전>, <삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼 광대한 고전 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 예로 할 경우, 만약 이를 분할하여 세그먼트 시퀀스 "4대 명작에는 <[M][M][M]>, <수호전>,", "<삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼", "광대한 [M][M] 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 얻는다고 가정하면, 이 3개의 세그먼트 시퀀스를 처음으로 초기 Transformer-XL모델에 입력하되, 이 과정에서 Memor7만 생성, 즉 각 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보를 획득하며, 나아가 각 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보에 기반하여 상기 3개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 얻을 수 있다. 다음, 이 3개의 세그먼트를 다시 한번 초기 Transformer-XL모델에 입력하되, 이때 Transformer-XL모델은 현재 입력한 N번째 세그먼트 시퀀스에 대해 특징 추출을 수행하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응되는 제2 텍스트 벡터 정보를 얻을 수 있다.
단계104에서, 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재하는 것이 검출될 경우, 제2 텍스트 벡터 정보와 제1 텍스트 벡터 정보에 따라 마스크를 예측하며, 마스크에 대응되는 타겟 위치의 예측 단어를 획득한다.
선택적으로, 각 세그먼트 시퀀스를 다시 초기 언어 모델에 입력할 경우, 초기 언어 모델은 이때 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재하는지 여부를 판단해야 하는데, 만약 존재하면 예측을 수행하여 마스크에 대응되는 타겟 위치의 예측 단어를 획득해야 한다. 바꾸어 말하면, 상기 N개의 세그먼트 시퀀스를 두 번째로 초기 언어 모델에 입력하고, 초기 언어 모델은 두 번째로 입력한 상기 N개의 세그먼트 시퀀스의 마스크를 예측하며, 예측 결과에 따라 상기 초기 언어 모델에 대해 트레이닝 학습을 수행한다.
바꾸어 말하면, 본 출원은 롱 텍스트 차폐 코퍼스를 초기 언어 모델에 순환되게 두 번 입력하는데, 우선 롱 텍스트 차폐 코퍼스를 처음으로 초기 언어 모델에 입력하되, 이 과정에서 초기 언어 모델에 의해 롱 텍스트 차폐 코퍼스에서 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 생성할 수 있고, 이때 초기 언어 모델에서는 예측과 구배 반환를 수행하지 않는다. 롱 텍스트 차폐 코퍼스를 두 번째로 초기 언어 모델에 입력할 경우에만 초기 언어 모델을 통해 롱 텍스트 차폐 코퍼스에서의 N개의 세그먼트 시퀀스의 마스크를 예측하고 마스크를 예측한 정확여부에 의해 손실LOSS를 반환하여 초기 언어 모델에 대한 트레이닝 학습을 구현할 수 있다.
이로써 알 수 있다 시피, N개의 세그먼트 시퀀스를 두 번째로 초기 언어 모델에 입력할 경우, 이때 처음 입력한 세그먼트 시퀀스에 그 전의 세그먼트의 텍스트 벡터 정보가 존재하고 그 전의 세그먼트는 바로 처음으로 입력한 N개의 세그먼트 시퀀스이므로 이때 두 번째로 N개의 세그먼트 시퀀스를 입력할 경우, 초기 언어 모델은 상기 두 번째로 입력한 N개의 세그먼트 시퀀스에 대해 트레이닝 학습을 수행하여 모델 성능을 효과적으로 향상시키고 자연 언어 처리 태스크의 효과를 효과적으로 향상시킬 수 있다.
예를 들어 설명하면, "4대 명작에는 <서유기>, <수호전>, <삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼 광대한 고전 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 예로 할 경우, 만약 이를 분할하여 세그먼트 시퀀스 "4대 명작에는 <[M][M][M]>, <수호전>,", "<삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼", "광대한 [M][M] 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 얻는다고 가정하면, 이 3개의 세그먼트 시퀀스를 두 번째로 초기 언어 모델에 입력하되, 첫 번째에 배열된 "4대 명작에는 <[M][M][M]>, <수호전>,"이라는 세그먼트에는 이때 그 전의 3개의 세그먼트 시퀀스의 텍스트 벡터 정보가 존재하는데, 그 전의 3개의 세그먼트 시퀀스는 상술한3개의 세그먼트 시퀀스가 초기 언어 모델에 처음으로 입력하여, 획독한 제1 텍스트 벡터 정보이다, 이러면, 첫 번째에 배열된 "4대 명작에는 <[M][M][M]>, <수호전>,"이라는 세그먼트에 대해, 마스크 예측을 할때, 그 전의 세그먼트의 텍스트 벡터 정보가 존재하므로 이에 대해 양호하게 예측을 수행하여 상기 트레이닝 방식에 의해 모델 성능을 향상시킬 수 있다.
단계105에서, 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하고 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리한다.
선택적으로, 마스크에 대응되는 타겟 위치의 예측 단어를 획득한 다음, 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 대응되는 손실 값을 생성하고 손실 값에 기반하여 초기 언어 모델에 대해 모델 파라미터의 조절을 수행하며, 모델 트레이닝 효과가 미리 설정된 요구에 도달할 때까지 조절한 후의 모델에 따라 마스크에 대해 다시 예측 학습을 수행하고, 트레이닝된 모델은 바로 롱 텍스트 언어 모델이며 초장 텍스트에 대한 시맨틱 표시를 구현할 수 있다. 설명해야 할 것은, 본 출원의 실시예에서, 초기 언어 모델을 트레이닝 할 경우, 딥 러닝의 방식으로 트레이닝 할 수 있는데 기타 기계 학습 방법과 비교하여 딥 러닝은 빅 데이터 집합에서의 표현이 더 양호하다.
본 출원의 일부 실시예에서, 도 2에 도시된 바와 같이, 상기 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하는 구체적인 구현 과정은 아래와 같은 단계를 포함할 수 있다.
단계201에서, 미리 설정된 알고리즘에 따라 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 대해 제1 손실 값을 생성한다.
본 출원의 일부 실시예에서, 상기 미리 설정된 알고리즘은 손실 함수 일 수 있고, 손실 함수를 통해 모델의 예측 단어와 원래 단어의 상이한 정도를 평가할 수 있다.
단계202에서, 제1 손실 값과 미리 설정된 타겟 함수에 따라 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성한다.
상기 타겟 함수는 타겟 손실 값 일 수 있다. 선택적으로, 미리 설정된 알고리즘에 따라 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 대해 제1 손실 값을 생성한 다음, 제1 손실 값과 타겟 함수에 일정한 조건이 존재하는지 여부를 판정할 수 있는 바, 예를 들어 제1 손실 값이 타겟 손실 값보다 작거나 같은지 여부를 판정하되, 만약 작거나 같으면 모델이 이미 트레이닝을 완료한 것을 나타내어 트레이닝된 모델을 롱 텍스트 언어 모델로 사용하고; 만약 제1 손실 값이 타겟 손실 값보다 크면 모델이 계속하여 트레이닝 되어야 한다는 것을 나타내므로 이때 상기 모델의 파라미터를 조절하고 조절된 모델을 이용하여 마스크를 예측하며, 손실 값이 타겟 손실 값보다 작거나 같을 때까지 마스크에 대한 예측의 정확 여부에 의해 손실 값을 반환하고 이때의 모델이 이미 트레이닝을 완료하였음을 나타내며 트레이닝된 모델을 롱 텍스트 언어 모델로 사용한다.
본 기술분야에서 통상의 지식을 가진 자들이 용이하게 이해하도록 하기 위하여 이하 도 3과 결부하여 설명한다.
예를 들어 설명하면, "4대 명작에는 <서유기>, <수호전>, <삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼 광대한 고전 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 예로 할 경우, 이를 분할하여 세그먼트 시퀀스 "4대 명작에는 <[M][M][M]>, <수호전>,", "<삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼", "광대한 [M][M] 소설에서 우뚝 솟은 4개의 높은 산과 같다."를 얻는다고 가정한다. 도 3에 도시된 바와 같이, "4대 명작에는 <[M][M][M]>, <수호전>,", "<삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼", "광대한 [M][M] 소설에서 우뚝 솟은 4개의 높은 산과 같다." 이 3개의 세그먼트 시퀀스를 순차적으로 초기 언어 모델에 입력하고 Step1에서 제1 부분을 모델링하되, 이때 비록 마스크 [M]문자를 보게 되지만 모든 텍스트(즉 "4대 명작에는 <서유기>, <수호전>, <삼국지>, <홍루몽>이 포함되는데, 이는 연기처럼 광대한 고전 소설에서 우뚝 솟은 4개의 높은 산과 같다.")를 볼 수 없고 상기 텍스트가 이때 모두 초기 언어 모델에 입력되지 않았으므로 학습하지 않는다. Step2에서는, Step1에서 일부 추출한 내용을 Transformer-XL의 Memory메커니즘을 통해 전달한다. Step3에서는 순차적으로 유추한다. Step4에 대하여, 모델이 [M][M][M]으로 차폐된 서유기(즉 세그먼트 시퀀스 "4대 명작에는 <[M][M][M]>, <수호전>,"은 두 번째로 모델에 입력됨)를 두 번째로 보게 될 경우, 이때 모델은 예측을 수행하고 구배 반환을 수행하게 된다. 다음의 Step5에서는 마스크[M] 문자가 없으므로 학습하지 않는다. Step6에서는 [M][M]로 마스킹된 고전을 학습한다. 이 세그먼트의 텍스트가 모두 모델 모델링에 두 번 진입할 때까지 수행한다. 다음 세그먼트의 텍스트를 학습한다. 이러한 방식에 의해 롱 텍스트의 프리 트레이닝을 구현하여 롱 텍스트 언어 모델을 획득한다.
롱 텍스트 언어 모델을 획득한 후, 미리 설정된 타겟 태스크에 의해 대응하는 이미 라벨링된 샘플 코퍼스를 획득하고, 나아가 타겟 태스크에 대응되는 이미 라벨링된 샘플 코퍼스에 기반하여 롱 텍스트 언어 모델에 대해 미세 조정하여 상기 타겟 태스크를 인식하기에 적합한 모델을 획득한다. 본 출원의 일부 실시예에서, 타겟 태스크는 분류 태스크, 시퀀스 타입 태스크 및 생성 태스크를 포함할 수 있으나 이에 한정되지 않는다. 분류 태스크는 문서 분류, 시맨틱 매칭, 응답 분류 등 태스크를 포함할 수 있고; 시퀀스 타입 태스크는 명명 엔티티 인식 및 독해 등 태스크를 포함할 수 있으며; 생성 태스크는 요약 생성, 타이틀 생성, 대화 생성 등 태스크를 포함할 수 있다.
본 출원의 일부 실시예에서, 도 4에 도시된 바와 같이, 상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 구체적인 구현 과정은 아래와 같은 단계를 포함할 수 있다.
단계401에서, 타겟 태스크가 분류 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 카테고리 라벨링을 수행한다.
바꾸어 말하면, 타겟 태스크가 분류 태스크임을 검출할 경우, 롱 텍스트 언어 모델을 미세 조정하여 태스크를 분류하기 위한 분류 모델을 획득한다. 태스크를 분류하기 위한 상기 분류 모델을 획득하기 위하여 이때 다수의 샘플 코퍼스를 획득하고, 이러한 샘플 코퍼스에 대해 카테고리 라벨링을 수행할 수 있다.
설명해야 할 것은, 본 출원의 실시예에서, 상기 샘플 코퍼스는 제1 코퍼스와 제2 코퍼스를 포함할 수 있고, 여기서 제1 코퍼스와 제2 코퍼스는 동일한 텍스트 콘텐츠를 구비하며, 샘플 코퍼스에 대해 카테고리 라벨링을 수행할 경우, 제2 코퍼스 뒤에 카테고리 라벨링을 수행해야 한다. 예를 들어, 샘플 코퍼스 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다. 후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]를 예로 하면, 상기 샘플 코퍼스는 동일한 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]라는 코퍼스를 포함하고, 상기 샘플 코퍼스에 대해 카테고리 라벨링을 수행할 경우, 두 번째 코퍼스 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.] 다음에 특수한 CLS 비트 예측 카테고리를 사용할 수 있는 바, 즉 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다. 후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]라는 이 샘플 코퍼스의 문말에 [CLS]부호를 추가하여 상기 부호에 대응되는 출력 벡터를 전체 텍스트의 시맨틱 표시로 사용하여 텍스트 분류에 사용할 수 있다는 것을 알 수 있다. 예를 들어, 도 5에 도시된 바와 같이, 코퍼스 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]를 롱 텍스트 언어 모델에 두 번 순환적으로 입력하되, 코퍼스의 두 번째 입력이 완료될 경우, 두 번째 입력한 코퍼스 문말에 [CLS]부호를 추가한다.
단계402에서, 다수의 샘플 코퍼스 및 대응되는 카테고리 라벨링을 롱 텍스트 언어 모델에 입력하여 트레이닝을 수행하고 모델 파라미터를 조절하여 분류 태스크에 대응되는 롱 텍스트 언어 모델을 획득한다.
선택적으로, 다수의 샘플 코퍼스를 롱 텍스트 언어 모델에 입력하여 예측하며, 샘플 코퍼스에 대응되는 예측 카테고리를 얻고, 예측 카테고리와 상기 카테고리에 따라 대응되는 손실 값을 라벨링하여 생성하며, 손실 값에 따라 롱 텍스트 언어 모델의 모델 파라미터를 조절하고, 조절된 후의 롱 텍스트 언어 모델에 따라 다시 샘플 코퍼스에 대해 카테고리 예측을 수행함으로써 상기 롱 텍스트 언어 모델에 대한 분류 태스크의 모델 트레이닝을 구현함으로써 상기 분류 태스크에 적용될 수 있는 롱 텍스트 언어 모델을 적용할 수 있다.
단계403에서, 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 입력 텍스트를 인식하여, 입력 텍스트에 대응되는 타겟 유형을 획득한다.
본 출원의 일부 실시예에서, 도 6에 도시된 바와 같이, 상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 구체적인 구현 과정은 아래와 같은 단계를 포함할 수 있다.
단계601에서, 타겟 태스크가 텍스트 요약 생성 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 요약 라벨링을 수행한다.
바꾸어 말하면, 타겟 태스크가 텍스트 요약 생성 태스크임을 검출할 경우, 롱 텍스트 언어 모델을 미세 조정하여 텍스트 요약 생성 태스크에 사용되는 요약 생성 모델을 획득한다. 상기 텍스트 요약 생성 태스크에 사용되는 요약 생성 모델을 얻기 위하여, 이때 다수의 샘플 코퍼스를 획득하고, 이러한 샘플 코퍼스에 대해 요약 텍스트 라벨링을 수행할 수 있다. 상기 텍스트 요약 생성 태스크의 목표는 한 세그먼트의 텍스트A에 기반하여 텍스트B를 생성하는 것임을 이해할 수 있다.
설명해야 할 것은, 본 출원의 실시예에서, 상기 샘플 코퍼스는 제1 코퍼스와 제2 코퍼스를 포함할 수 있고, 여기서 제1 코퍼스와 제2 코퍼스는 동일한 텍스트 콘텐츠를 구비하며, 샘플 코퍼스에 대해 요약 텍스트 라벨링을 수행할 경우, 제2 코퍼스 뒤에 요약 텍스트 라벨링을 수행해야 한다. 예를 들어, 샘플 코퍼스 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다. 후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]를 예로 하면, 상기 샘플 코퍼스는 동일한 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]라는 코퍼스를 포함하고, 상기 샘플 코퍼스에 대해 요약 텍스트 라벨링을 수행할 경우, 두 번째 코퍼스 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.] 다음에 요약 텍스트(후이저우 지리 소개)를 이용하여 라벨링할 수 있는 바, 즉 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다. 후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]라는 이 샘플 코퍼스의 문말에 "후이저우 지리 소개"라는 요약 텍스트를 추가하여 요약 텍스트의 생성에 사용할 수 있다는 것을 알 수 있다. 예를 들어, 도 7에 도시된 바와 같이, 코퍼스 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]를 롱 텍스트 언어 모델에 두 번 순환적으로 입력하되, 코퍼스의 두 번째 입력이 완료될 경우, 두 번째 입력한 코퍼스 문말에 "후이저우 지리 소개"라는 요약 텍스트를 추가한다.
단계602에서, 다수의 샘플 코퍼스 및 대응되는 요약 라벨링을 롱 텍스트 언어 모델에 입력하여 트레이닝하고 모델 파라미터를 조절하여 텍스트 요약 생성 태스크에 대응되는 롱 텍스트 언어 모델을 획득한다.
선택적으로, 다수의 샘플 코퍼스를 롱 텍스트 언어 모델에 입력하여 예측하며, 샘플 코퍼스에 대응되는 예측 값을 얻고, 예측 값과 진실한 요약에 따라 대응되는 손실 값을 라벨링하여 생성하며, 손실 값에 따라 롱 텍스트 언어 모델의 모델 파라미터를 조절하고, 조절한 후의 롱 텍스트 언어 모델에 따라 다시 샘플 코퍼스를 예측하여 상기 롱 텍스트 언어 모델에 대한 텍스트 요약 생성 태스크의 모델 트레이닝을 구현함으로써 상기 텍스트 요약 생성 태스크에 적용될 수 있는 롱 텍스트 언어 모델을 획득할 수 있다.
단계603에서, 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 입력 텍스트를 인식하여, 입력 텍스트에 대응되는 텍스트 요약을 획득한다.
바꾸어 말하면, 롱 텍스트 언어 모델을 이용하여 타겟 태스크의 모델을 트레이닝 할 경우, 사용한 트레이닝 코퍼스는 롱 텍스트 언어 모델에 두 번 순환하여 입력되어야 하는 바, 코퍼스가 두 번째로 롱 텍스트 언어 모델에 입력될 경우, 두 번째로 입력된 코퍼스를 라벨링하여 두 번 입력한 코퍼스 및 라벨링에 기반하여 롱 텍스트 언어 모델을 미세 조정함으로써 타겟 태스크에 적용되는 모델을 얻는다. 예를 들어, 분류 태스크에 대하여, 코퍼스 텍스트의 두 번째 입력이 완료될 경우, 특수한 CLS 비트 예측 카테고리를 사용할 수 있고; 시퀀스 타입의 태스크에 대하여, 두 번 입력한 모든 텍스트에 N차원의 Softmax 동작을 수행하여 각 Token의 서열화 라벨링을 수행할 수 있으며; 생성 태스크에 대하여, 이의 목표는 한 세그먼트의 텍스트A가 텍스트B를 생성하는 것인데, 전통적인 언어 모델 또는 Seq2Seq(일종의 순환 신경망) 방법과 상이한 것은, 본 출원이 두 번째 텍스트를 입력한 다음 다시 예측하는 것이다. 예를 들어, 도 7에 도시된 바와 같이, 도면에서 [후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다. 후이저우(徽州)는 예전부터 "85퍼센트의 산과 10퍼센트의 물, 5퍼센트의 농경지와 장원"으로 유명했다. 구역 내에는 뭇 봉우리들이 하늘을 찌를 듯이 높이 솟고, 산언덕이 줄느런히 배열되며, 산등성이와 계곡이 교차되고, 깊은 산과 계곡이 있을 뿐만 아니라 분지와 평원도 있다.]라는 텍스트 내용은 정상적으로 입력되고 [후이저우 지리 소개]라는 일부 텍스트 콘텐츠는 Seq2Seq 기술을 통해 한 글자씩 생성하여 트레이닝하고 예측한다.
설명해야 할 것은, 본 출원은 Transformer-XL을 모델의 기본적인 프레임으로 사용하는 동시에 본 출원은 초기 언어 모델에 대해 프리 트레이닝을 수행하여 롱 텍스트 언어 모델을 획득하는 과정 및 롱 텍스트 언어 모델을 미세 조정하는 과정에서 모두 Transformer-XL을 기본적인 구조로 사용하고 Transformer로 퇴화되지 않으며, 종래 기술에서 XLNet는 미세 조정 과정에서 이의 모델이 Transformer로 퇴화되는데, 이때 모델은 롱 텍스트 정보를 처리할 수 없다. 그러나 본 출원은 미세 조정 단계에서 여전히 Transformer-XL을 사용하며, 이렇게 되면 미세 조정을 수행한 다음에도 여전히 롱 텍스트의 문제를 해결할 수 있게 된다.
본 출원의 실시예에 따른 텍스트 인식 처리 방법은, 적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하고,, N개의 세그먼트 시퀀스를 미리 설정된 초기 언어 모델에 입력하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하며; 각각의 세그먼트 시퀀스를 다시 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하되, 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재함을 검출할 경우, 제2 텍스트 벡터 정보와 제1 텍스트 벡터 정보에 따라 마스크를 예측하며, 마스크에 대응되는 타겟 위치의 예측 단어를 획득한 다음, 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 초기 언어 모델의 모델 파라미터를 트레이닝하고, 롱 텍스트 언어 모델을 생성하고 상기 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트에 대해 인식 처리를 수행할 수 있다. 이로써 알 수 있다 시피, 본 출원은 코퍼스 텍스트를 모델에 순환 입력(즉 모델에 두 번 입력)하여, 코퍼스 텍스트를 처음으로 모델에 입력할 때 상기 코퍼스 텍스트에서의 세그먼트 시퀀스의 텍스트 벡터만을 생성하는데, 이때 마스크에 대해 예측 러닝을 수행하는 것이 아니라 두 번째로 상기 코퍼스 텍스트를 입력할 때에만 이때 이미 처음으로 입력한 세그먼트 시퀀스의 텍스트 벡터 정보를 획득하였으므로 이때 모델에 의해 상기 처음으로 입력하여 얻은 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보 및 두 번째로 입력한 세그먼트 시퀀스를 이용하여 마스크를 예측하며, 마스크에 대해 예측한 정확 여부 구배 반환를 통해 모델에 대한 트레이닝을 구현함으로써 트레이닝하여 얻은 모델이 512 길이의 텍스트를 처리할 수 있도록 한다.
그리고, 본 출원이 사용하는 것은 세그먼트 모델링 방식이므로 512 이내의 텍스트에 대하여 비교적 빨리 모델링을 구현할 수 있어 모델링 속도를 향상시킨다. 코퍼스 텍스트가 두 번 순환 입력되었으므로 각 세그먼트 시퀀스가 모두 앞뒤 문장 정보를 얻게 되어 모델을 트레이닝하는 성능을 향상시킬 수 있고 트레이닝된 모델 성능 효과도 더 양호하여 자연 언어 처리 태스크의 효과를 효과적으로 향상시킬 수 있다.
이 외에, 본 출원은 세그먼트 시퀀스를 이용하여 초기 언어 모델을 트레이닝 할 경우, 딥 러닝의 방식으로 트레이닝 할 수 있는데 기타 기계 학습 방법과 비교하여 딥 러닝은 빅 데이터 집합에서의 표현이 더 양호하다.
상기 실시예를 구현하기 위하여, 본 출원은 텍스트 인식 처리 장치를 제공한다.
도 8은 본 출원의 한 실시예에 따른 텍스트 인식 처리 장치의 구조 블록도이다. 도 8에 도시된 바와 같이, 상기 텍스트 인식 처리 장치(800)는 제1 획득 모듈(801), 제2 획득 모듈(802), 제3 획득 모듈(803), 예측 모듈(804), 트레이닝 모듈(805) 및 인식 처리 모듈(806)을 포함한다.
구체적으로, 제1 획득 모듈(801)은, 적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득한다. 본 출원의 일부 실시예에서, 제1 획득 모듈(801)은 구체적으로, 롱 텍스트 코퍼스를 획득하고, 롱 텍스트 코퍼스의 다수의 위치에서의 원래 단어를 각각 마스크로 대체하여 롱 텍스트 차폐 코퍼스를 획득하며; 미리 설정된 타겟 길이에 따라 롱 텍스트 차폐 코퍼스를 분할하여 N개의 세그먼트 시퀀스를 획득한다.
제2 획득 모듈(802)은, N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득한다.
제3 획득 모듈(803)은, 각각의 세그먼트 시퀀스를 순차적으로 다시 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득한다.
예측 모듈(804)은, 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재함을 검출할 경우, 제2 텍스트 벡터 정보와 제1 텍스트 벡터 정보에 따라 마스크를 예측하며, 마스크에 대응되는 타겟 위치의 예측 단어를 획득한다.
트레이닝 모듈(805)은, 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성한다. 본 출원의 일부 실시예에서, 트레이닝 모듈(805)은 구체적으로, 미리 설정된 알고리즘에 따라 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 대해 제1 손실 값을 생성하고; 제1 손실 값과 미리 설정된 타겟 함수에 따라 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성한다.
인식 처리 모듈(806)은, 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리한다. 본 출원의 일부 실시예에서, 인식 처리 모듈(806)은 구체적으로, 타겟 태스크가 분류 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 카테고리 라벨링을 수행하고; 다수의 샘플 코퍼스 및 대응되는 카테고리 라벨링을 롱 텍스트 언어 모델에 입력하여 트레이닝을 수행하고 모델 파라미터를 조절하여 분류 태스크에 대응되는 롱 텍스트 언어 모델을 획득하며; 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 입력 텍스트를 인식하여, 입력 텍스트에 대응되는 타겟 유형을 획득한다.
본 출원의 일부 실시예에서, 인식 처리 모듈(806)은 구체적으로, 타겟 태스크가 텍스트 요약 생성 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 요약 라벨링을 수행하며; 다수의 샘플 코퍼스 및 대응되는 요약 라벨링을 롱 텍스트 언어 모델에 입력하여 트레이닝하고 모델 파라미터를 조절하여 텍스트 요약 생성 태스크에 대응되는 롱 텍스트 언어 모델을 획득하며; 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 입력 텍스트를 인식하여, 입력 텍스트에 대응되는 텍스트 요약을 획득한다.
본 출원의 실시예에 따른 텍스트 인식 처리 장치는, 적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하고,, N개의 세그먼트 시퀀스를 미리 설정된 초기 언어 모델에 입력하여 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하며; 각각의 세그먼트 시퀀스를 다시 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하되, 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재함을 검출할 경우, 제2 텍스트 벡터 정보와 제1 텍스트 벡터 정보에 따라 마스크를 예측하며, 마스크에 대응되는 타겟 위치의 예측 단어를 획득한 다음, 타겟 위치에 미리 설정된 원래 단어와 예측 단어에 따라 초기 언어 모델의 모델 파라미터를 트레이닝하고, 롱 텍스트 언어 모델을 생성하고 상기 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트에 대해 인식 처리를 수행할 수 있다. 이로써 알 수 있다 시피, 본 출원은 코퍼스 텍스트를 모델에 순환 입력(즉 모델에 두 번 입력)하여, 코퍼스 텍스트를 처음으로 모델에 입력할 때 상기 코퍼스 텍스트에서의 세그먼트 시퀀스의 텍스트 벡터만을 생성하는데, 이때 마스크에 대해 예측 러닝을 수행하는 것이 아니라 두 번째로 상기 코퍼스 텍스트를 입력할 때에만 이때 이미 처음으로 입력한 세그먼트 시퀀스의 텍스트 벡터 정보를 획득하였으므로 이때 모델에 의해 상기 처음으로 입력하여 얻은 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보 및 두 번째로 입력한 세그먼트 시퀀스를 이용하여 마스크를 예측하며, 마스크에 대해 예측한 정확 여부 구배 반환를 통해 모델에 대한 트레이닝을 구현함으로써 트레이닝하여 얻은 모델이 512 길이의 텍스트를 처리할 수 있도록 한다. 그리고, 본 출원이 사용하는 것은 세그먼트 모델링 방식이므로 512 이내의 텍스트에 대하여 비교적 빨리 모델링을 구현할 수 있어 모델링 속도를 향상시킨다. 코퍼스 텍스트가 두 번 순환 입력되었으므로 각 세그먼트 시퀀스가 모두 앞뒤 문장 정보를 얻게 되어 모델을 트레이닝하는 성능을 향상시킬 수 있고 트레이닝된 모델 성능 효과도 더 양호하여 자연 언어 처리 태스크의 효과를 효과적으로 향상시킬 수 있다. 이 외에, 본 출원은 세그먼트 시퀀스를 이용하여 초기 언어 모델을 트레이닝 할 경우, 딥 러닝의 방식으로 트레이닝 할 수 있는데 기타 기계 학습 방법과 비교하여 딥 러닝은 빅 데이터 집합에서의 표현이 더 양호하다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 텍스트 인식 처리 방법이 실행된다.
도 9에 도시된 바와 같이, 이는 본 출원의 실시예에 따른 텍스트 인식 처리 방법을 구현하는 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등의 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자 기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 구성 요소, 그들의 연결 및 관계 및 그 기능은 단지 예시에 불과하며, 본 명세서에 기술되거나 및/또는 청구된 구현을 한정하도록 의도되지 않는다.
도 9에 도시된 바와 같이, 상기 전자 기기는 하나 이상의 프로세서(901), 메모리(902) 및 고속 인터페이스 및 저속 인터페이스를 포함하는 다양한 구성 요소를 연결하기 위한 인터페이스를 포함한다. 다양한 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위해 메모리에 저장된 명령을 포함하여 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요한 경우, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자 기기를 연결할 수 있고, 각 장치는 단지 몇가지 필요한 기능(예를 들어, 서버 배열, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 9는 프로세서(901)가 하나인 경우를 예를 들어 설명한다.
메모리(902)는 본 출원에 의해 제공된 비 일시적 컴퓨터 판독 가능 저장 매체이다. 적어도 하나의 프로세서에 의해 본 출원의 텍스트 인식 처리 방법을 수행하도록, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본 출원의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터로 하여금 본 출원의 텍스트 인식 처리 방법을 실행하게 하는 컴퓨터 명령어가 저장된다.
메모리(902)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램, 본 출원의 실시예의 텍스트 인식 처리 방법에 대응하는 프로그램 명령/모듈과 같은 모듈(예를 들어, 도 8에 도시된 제1 획득 모듈(801), 제2 획득 모듈(802), 제3 획득 모듈(803), 예측 모듈(804), 트레이닝 모듈(805) 및 인식 처리 모듈(806))을 저장하기 위해 사용될 수 있다. 프로세서(901)는 메모리(902)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여 서버의 다양한 기능적 애플리케이션 및 데이터 처리를 실행한다. 다시 말하면, 상기 방법 실시예의 텍스트 인식 처리 방법을 구현한다.
메모리(902)는 프로그램을 저장하기 위한 영역 및 데이터를 저장하기 위한 영역을 포함할 수 있고, 여기서 프로그램을 저장하기 위한 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고; 데이터를 저장하기 위한 영역에는 모델의 파라미터를 업데이트하는 전자 기기를 사용하여 생성된 데이터가 저장될 수 있다. 또한, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 자기 디스크 저장 장치, 플래시 메모리 장치 또는 다른 비 일시적 솔리드 스테이트 저장 장치와 같은 적어도 하나의 비 일시적 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(902)는 프로세서(901)에 대해 원격으로 설정된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 모델의 파라미터가 업데이트된 전자 기기에 연결될 수 있다. 상기 네트워크의 사례는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지는 않는다.
텍스트 인식 처리 방법을 수행하는 전자 기기는 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스를 통해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 9는 버스를 통한 연결을 예시한 것이다.
입력 장치(903)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 모델의 파라미터를 업데이트하는 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 터치 스크린, 키 패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 이상의 마우스 버튼, 트랙 볼, 조이스틱 및 기타 입력 장치일 수 있다. 출력 장치(904)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지는 않는다. 일부 실시형태에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로, 집적 회로 시스템, 전용 ASIC(애플리케이션 특정 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에 의해 실시될 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 시스템에 의해 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그램 가능 프로세서의 기계 명령어가 포함되고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리 언어/기계어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용되는 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 프로그램 가능 프로세서에 기계 명령 및/또는 데이터를 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장비 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키며, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 지칭한다.
사용자와의 인터랙티브를 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있다. 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터)와 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 포함하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 종류의 장치를 사용하여 사용자와의 인터랙티브를 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백) 일 수 있고, 임의의 형태(음성 입력, 스피치 입력 또는 촉각 입력 포함)로 사용자에 의해 발송된 정보를 수신할 수 있다.
본 명세서에 설명된 시스템 및 기술은 백 엔드 구성 요소(예를 들어, 데이터 서버)를 포함하는 컴퓨팅 시스템 또는 미들웨어 구성 요소(예를 들어, 애플리케이션 서버)를 포함하는 컴퓨팅 시스템 또는 프론트 엔드 구성 요소(예를 들어, 예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 인터랙티브 할 수 있음)를 포함하는 컴퓨팅 시스템 또는 이러한 백 엔드 구성 요소, 미들웨어 구성 요소 또는 프론트 엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 구성 요소는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷이 포함될 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터랙티브 한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 발생된다.
본 출원의 실시예의 기술적 해결수단에 따르면, 코퍼스 텍스트를 모델에 순환 입력(즉 모델에 두 번 입력)하여, 코퍼스 텍스트를 처음으로 모델에 입력할 때 상기 코퍼스 텍스트에서의 세그먼트 시퀀스의 텍스트 벡터만을 생성하는데, 이때 마스크에 대해 예측 러닝을 수행하는 것이 아니라 두 번째로 상기 코퍼스 텍스트를 입력할 때에만 이때 이미 처음으로 입력한 세그먼트 시퀀스의 텍스트 벡터 정보를 획득하였으므로 이때 모델에 의해 상기 처음으로 입력하여 얻은 세그먼트 시퀀스에 대응되는 텍스트 벡터 정보 및 두 번째로 입력한 세그먼트 시퀀스를 이용하여 마스크를 예측하며, 마스크에 대해 예측한 정확 여부 구배 반환를 통해 모델에 대한 트레이닝을 구현함으로써 트레이닝하여 얻은 모델이 512 길이의 텍스트를 처리할 수 있도록 하며, 본 출원이 사용하는 것은 세그먼트 모델링 방식이므로 512 이내의 텍스트에 대하여 비교적 빨리 모델링을 구현할 수 있어 모델링 속도를 향상시킨다. 코퍼스 텍스트가 두 번 순환 입력되었으므로 각 세그먼트 시퀀스가 모두 앞뒤 문장 정보를 얻게 되어 모델을 트레이닝하는 성능을 향상시키고 트레이닝된 모델 성능 효과가 더 양호해지도록 할 수 있다.
상기에 도시된 다양한 형태의 과정을 통해 단계를 재정렬, 추가 또는 삭제할 수 있다는 것을 이해해야 한다. 예를 들어, 본 출원에 설명된 각 단계들은 병렬, 순차적 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결책이 원하는 결과를 달성할 수만 있으면, 별도로 한정되지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위에 대한 제한을 구성하지 않는다. 당업자는 설계 요건 및 다른 요인에 따라 다양한 변형, 조합, 하위 조합 및 대체가 이루어질 수 있다는 것을 이해해야 한다. 본 출원의 원리와 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본 출원의 보호 범위에 포함된다.

Claims (13)

  1. 텍스트 인식 처리 방법에 있어서,
    적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하는 단계;
    상기 N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력하여 상기 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하는 단계;
    각각의 상기 세그먼트 시퀀스를 순차적으로 다시 상기 초기 언어 모델에 입력하여, 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 상기 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하는 단계;
    상기 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재하는 것이 검출될 경우, 상기 제2 텍스트 벡터 정보와 상기 제1 텍스트 벡터 정보에 따라 상기 마스크를 예측하며, 상기 마스크에 대응되는 타겟 위치의 예측 단어를 획득하는 단계; 및
    상기 타겟 위치에 미리 설정된 원래 단어와 상기 예측 단어에 따라 상기 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하고, 상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 단계를 포함하는
    것을 특징으로 하는 텍스트 인식 처리 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하는 단계는,
    롱 텍스트 코퍼스를 획득하고, 상기 롱 텍스트 코퍼스의 다수의 위치에서의 원래 단어를 각각 마스크로 대체하여 롱 텍스트 차폐 코퍼스를 획득하는 단계; 및
    미리 설정된 타겟 길이에 따라 상기 롱 텍스트 차폐 코퍼스를 분할하여 N개의 세그먼트 시퀀스를 획득하는 단계를 포함하는
    것을 특징으로 하는 텍스트 인식 처리 방법.
  3. 제1항에 있어서,
    상기 타겟 위치에 미리 설정된 원래 단어와 상기 예측 단어에 따라 상기 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하는 단계는,
    미리 설정된 알고리즘에 따라 상기 타겟 위치에 미리 설정된 원래 단어와 상기 예측 단어에 대해 제1 손실 값을 생성하는 단계; 및
    상기 제1 손실 값과 미리 설정된 타겟 함수에 따라 상기 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하는 단계를 포함하는
    것을 특징으로 하는 텍스트 인식 처리 방법.
  4. 제1항에 있어서,
    상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 단계는,
    상기 타겟 태스크가 분류 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 카테고리 라벨링을 수행하는 단계;
    상기 다수의 샘플 코퍼스 및 대응되는 카테고리 라벨링을 상기 롱 텍스트 언어 모델에 입력하여 트레이닝을 수행하고 상기 모델 파라미터를 조절하여 상기 분류 태스크에 대응되는 롱 텍스트 언어 모델을 획득하는 단계; 및
    상기 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 상기 입력 텍스트를 인식하여, 상기 입력 텍스트에 대응되는 타겟 유형을 획득하는 단계를 포함하는
    것을 특징으로 하는 텍스트 인식 처리 방법.
  5. 제1항에 있어서,
    상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 단계는,
    상기 타겟 태스크가 텍스트 요약 생성 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 요약 라벨링을 수행하는 단계;
    상기 다수의 샘플 코퍼스 및 대응되는 요약 라벨링을 상기 롱 텍스트 언어 모델에 입력하여 트레이닝하고 상기 모델 파라미터를 조절하여 상기 텍스트 요약 생성 태스크에 대응되는 롱 텍스트 언어 모델을 획득하는 단계; 및
    상기 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 상기 입력 텍스트를 인식하여, 상기 입력 텍스트에 대응되는 텍스트 요약을 획득하는 단계를 포함하는
    것을 특징으로 하는 텍스트 인식 처리 방법.
  6. 텍스트 인식 처리 장치에 있어서,
    적어도 하나의 세그먼트 시퀀스에 마스크가 존재하는 N개의 세그먼트 시퀀스를 획득하는 제1 획득 모듈;
    상기 N개의 세그먼트 시퀀스를 순차적으로 미리 설정된 초기 언어 모델에 입력하여 상기 N개의 세그먼트 시퀀스에 대응되는 제1 텍스트 벡터 정보를 획득하는 제2 획득 모듈;
    각각의 상기 세그먼트 시퀀스를 순차적으로 다시 상기 초기 언어 모델에 입력하여 현재 입력한 N번째 세그먼트 시퀀스에 대응되는 처음 N개의 상기 세그먼트 시퀀스에 대응하는 제2 텍스트 벡터 정보를 획득하는 제3 획득 모듈;
    상기 현재 입력한 N번째 세그먼트 시퀀스에 마스크가 존재함을 검출할 경우, 상기 제2 텍스트 벡터 정보와 상기 제1 텍스트 벡터 정보에 따라 상기 마스크를 예측하며, 상기 마스크에 대응되는 타겟 위치의 예측 단어를 획득하는 예측 모듈;
    상기 타겟 위치에 미리 설정된 원래 단어와 상기 예측 단어에 따라 상기 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하는 트레이닝 모듈; 및
    상기 롱 텍스트 언어 모델에 따라 미리 설정된 타겟 태스크에 의해 입력 텍스트를 인식 처리하는 인식 처리 모듈을 포함하는
    것을 특징으로 하는 텍스트 인식 처리 장치.
  7. 제6항에 있어서,
    상기 제1 획득 모듈은 구체적으로,
    롱 텍스트 코퍼스를 획득하고, 상기 롱 텍스트 코퍼스의 다수의 위치에서의 원래 단어를 각각 마스크로 대체하여 롱 텍스트 차폐 코퍼스를 획득하고,;
    미리 설정된 타겟 길이에 따라 상기 롱 텍스트 차폐 코퍼스를 분할하여 N개의 세그먼트 시퀀스를 획득하는
    것을 특징으로 하는 텍스트 인식 처리 장치.
  8. 제6항에 있어서,
    상기 트레이닝 모듈은 구체적으로,
    미리 설정된 알고리즘에 따라 상기 타겟 위치에 미리 설정된 원래 단어와 상기 예측 단어에 대해 제1 손실 값을 생성하고;
    상기 제1 손실 값과 미리 설정된 타겟 함수에 따라 상기 초기 언어 모델을 트레이닝하고, 모델 파라미터를 획득하여 롱 텍스트 언어 모델을 생성하는
    것을 특징으로 하는 텍스트 인식 처리 장치.
  9. 제6항에 있어서,
    상기 인식 처리 모듈은 구체적으로,
    상기 타겟 태스크가 분류 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 카테고리 라벨링을 수행하며;
    상기 다수의 샘플 코퍼스 및 대응되는 카테고리 라벨링을 상기 롱 텍스트 언어 모델에 입력하여 트레이닝을 수행하고 상기 모델 파라미터를 조절하여 상기 분류 태스크에 대응되는 롱 텍스트 언어 모델을 획득하며;
    상기 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 상기 입력 텍스트를 인식하여, 상기 입력 텍스트에 대응되는 타겟 유형을 획득하는
    것을 특징으로 하는 텍스트 인식 처리 장치.
  10. 제6항에 있어서,
    상기 인식 처리 모듈은 구체적으로,
    상기 타겟 태스크가 텍스트 요약 생성 태스크임을 검출할 경우, 다수의 샘플 코퍼스에 대해 대응되는 요약 라벨링을 수행하며;
    상기 다수의 샘플 코퍼스 및 대응되는 요약 라벨링을 상기 롱 텍스트 언어 모델에 입력하여 트레이닝하고 상기 모델 파라미터를 조절하여 상기 텍스트 요약 생성 태스크에 대응되는 롱 텍스트 언어 모델을 획득하며;
    상기 분류 태스크에 대응되는 롱 텍스트 언어 모델에 따라 상기 입력 텍스트를 인식하여, 상기 입력 텍스트에 대응되는 텍스트 요약을 획득하는
    것을 특징으로 하는 텍스트 인식 처리 장치.
  11. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 가능하게 연결하는 메모리를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 텍스트 인식 처리 방법을 수행하도록 하는
    것을 특징으로 하는 전자 기기.
  12. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 텍스트 인식 처리 방법을 수행하도록 하는
    것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체.
  13. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제5항 중 어느 한 항에 따른 텍스트 인식 처리 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.















KR1020210037744A 2020-06-03 2021-03-24 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 KR102497945B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010494419.2 2020-06-03
CN202010494419.2A CN111832292B (zh) 2020-06-03 2020-06-03 文本识别处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
KR20210040851A true KR20210040851A (ko) 2021-04-14
KR102497945B1 KR102497945B1 (ko) 2023-02-09

Family

ID=72897957

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210037744A KR102497945B1 (ko) 2020-06-03 2021-03-24 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체

Country Status (5)

Country Link
US (1) US11663404B2 (ko)
EP (1) EP3920075A1 (ko)
JP (1) JP7122365B2 (ko)
KR (1) KR102497945B1 (ko)
CN (1) CN111832292B (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705187A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN114416974A (zh) * 2021-12-17 2022-04-29 北京百度网讯科技有限公司 模型训练方法、装置、电子设备及存储介质
CN114443845A (zh) * 2022-01-20 2022-05-06 序跋网络科技(上海)有限公司 一种基于bert的多特征细粒度中文短文本情感分类方法
CN115130473B (zh) * 2022-04-20 2023-08-25 北京百度网讯科技有限公司 关键信息抽取方法、模型训练方法、相关装置及电子设备

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11687709B2 (en) * 2020-10-22 2023-06-27 International Business Machines Corporation Domain knowledge based feature extraction for enhanced text representation
CN112364634A (zh) * 2020-11-02 2021-02-12 成都不问科技有限公司 一种基于问句的同义词匹配方法
US20220237373A1 (en) * 2021-01-28 2022-07-28 Accenture Global Solutions Limited Automated categorization and summarization of documents using machine learning
CN113807095B (zh) * 2021-03-03 2024-05-17 京东科技控股股份有限公司 实体词提取模型的训练方法、装置、设备和存储介质
CN112862662A (zh) * 2021-03-12 2021-05-28 云知声智能科技股份有限公司 一种分布式训练transformer-xl语言模型的方法和设备
CN113434632A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 基于语言模型的文本补全方法、装置、设备及存储介质
CN113705203A (zh) * 2021-09-02 2021-11-26 上海极链网络科技有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN116089602B (zh) * 2021-11-04 2024-05-03 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质和程序产品
CN114330512B (zh) * 2021-12-13 2024-04-26 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN114550177B (zh) * 2022-02-25 2023-06-20 北京百度网讯科技有限公司 图像处理的方法、文本识别方法及装置
CN114547270B (zh) * 2022-02-25 2023-04-21 北京百度网讯科技有限公司 文本处理方法、文本处理模型的训练方法、装置和设备
CN114549935B (zh) * 2022-02-25 2024-05-07 北京百度网讯科技有限公司 信息生成方法和装置
CN114693814B (zh) * 2022-03-31 2024-04-30 北京字节跳动网络技术有限公司 模型的解码方法、文本识别方法、装置、介质及设备
CN114579608B (zh) * 2022-04-26 2022-08-02 阿里巴巴达摩院(杭州)科技有限公司 基于表格数据的人机交互方法、装置及设备
CN115630142B (zh) * 2022-12-08 2023-03-14 中国传媒大学 一种多语言长文本相似性检索与分类工具
CN116757254B (zh) * 2023-08-16 2023-11-14 阿里巴巴(中国)有限公司 任务处理方法、电子设备及存储介质
CN117094283B (zh) * 2023-10-13 2024-02-13 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备、存储介质和程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328388A1 (en) * 2015-05-08 2016-11-10 International Business Machines Corporation Semi-supervised learning of word embeddings
JP6312942B2 (ja) * 2015-10-09 2018-04-18 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム
KR101897060B1 (ko) * 2016-10-24 2018-09-12 가천대학교 산학협력단 개체명 인식 모델 생성 장치 및 방법
US20200258498A1 (en) * 2019-02-07 2020-08-13 Sap Se Bi-directional contextualized text description

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8649600B2 (en) * 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
CN108804512B (zh) * 2018-04-20 2020-11-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110941945B (zh) * 2019-12-02 2021-03-23 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328388A1 (en) * 2015-05-08 2016-11-10 International Business Machines Corporation Semi-supervised learning of word embeddings
JP6312942B2 (ja) * 2015-10-09 2018-04-18 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム
KR101897060B1 (ko) * 2016-10-24 2018-09-12 가천대학교 산학협력단 개체명 인식 모델 생성 장치 및 방법
US20200258498A1 (en) * 2019-02-07 2020-08-13 Sap Se Bi-directional contextualized text description

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705187A (zh) * 2021-08-13 2021-11-26 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN113705187B (zh) * 2021-08-13 2023-08-01 北京百度网讯科技有限公司 预训练语言模型的生成方法、装置、电子设备和存储介质
CN114416974A (zh) * 2021-12-17 2022-04-29 北京百度网讯科技有限公司 模型训练方法、装置、电子设备及存储介质
CN114443845A (zh) * 2022-01-20 2022-05-06 序跋网络科技(上海)有限公司 一种基于bert的多特征细粒度中文短文本情感分类方法
CN115130473B (zh) * 2022-04-20 2023-08-25 北京百度网讯科技有限公司 关键信息抽取方法、模型训练方法、相关装置及电子设备

Also Published As

Publication number Publication date
US20210383064A1 (en) 2021-12-09
US11663404B2 (en) 2023-05-30
CN111832292A (zh) 2020-10-27
JP2021190087A (ja) 2021-12-13
JP7122365B2 (ja) 2022-08-19
CN111832292B (zh) 2024-02-02
EP3920075A1 (en) 2021-12-08
KR102497945B1 (ko) 2023-02-09

Similar Documents

Publication Publication Date Title
KR20210040851A (ko) 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체
US11341366B2 (en) Cross-modality processing method and apparatus, and computer storage medium
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
US11574133B2 (en) Method, electronic device, and storage medium for training text generation model
CN111079442B (zh) 文档的向量化表示方法、装置和计算机设备
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
US20210374343A1 (en) Method and apparatus for obtaining word vectors based on language model, device and storage medium
EP3940581A1 (en) Method and apparatus for training multilingual semantic representation model, device and storage medium
US11537792B2 (en) Pre-training method for sentiment analysis model, and electronic device
JP2022020582A (ja) 自然言語処理モデルの訓練方法、装置、デバイス及び記憶媒体
CN112000792A (zh) 自然灾害事件的抽取方法、装置、设备以及存储介质
KR20210157342A (ko) 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN112507101A (zh) 一种建立预训练语言模型的方法和装置
US11462039B2 (en) Method, device, and storage medium for obtaining document layout
CN111709249A (zh) 多语种模型的训练方法、装置、电子设备和存储介质
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN111666751A (zh) 训练文本扩充方法、装置、设备以及存储介质
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
EP3869382A2 (en) Method and device for determining answer of question, storage medium and computer program product
CN112507705B (zh) 一种位置编码的生成方法、装置及电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant