KR102532396B1

KR102532396B1 - 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체

Info

Publication number: KR102532396B1
Application number: KR1020210064562A
Authority: KR
Inventors: 저 후; 청 펑; 쉐펑 뤄
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-05-20
Filing date: 2021-05-20
Publication date: 2023-05-12
Also published as: EP3913499A1; CN111709247B; JP2021184237A; KR20210075036A; CN111709247A; US11663258B2; US20210365444A1; JP7126542B2

Abstract

본 출원은 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체를 개시하며, 빅 데이커 분야에 관한 것이다. 구체적인 구현 수단은, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하며; 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하고; 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성하며; 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성하고; 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성하며, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 것이다. 이로써, 유사성 매칭 조건을 통해 텍스트 집합을 매칭한 후 다시 긍정적 샘플 집합 및 부정적 샘플 집합을 획득하여 데이터 세트를 생성함으로써, 데이터 세트의 유효성을 향상시키고, 매칭 모델의 견고성을 향상시킨다.

Description

데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체{DATA SET PROCESSING METHOD, DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}

본 출원은 데이터 처리 분야의 자연 언어 처리 분야에 관한 것으로, 특히 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

일반적으로 사용자가 조회 스테이트먼트를 입력하고, 검색 시스템을 사용하여 데이터베이스에서 복수 개의 유사한 질문을 검색한 후, 보다 더 정확하고 유연한 모델을 통해 이러한 후보 항목을 재배열하여 최종 답변을 얻는다.

상기 재배열 과정에서, 유사도 매칭 모델을 통해 2개의 텍스트 사이의 의미 유사도를 계산하고, 예를 들어, 사용자가 입력한 조회 스테이트먼트가 "하나의 신용 카드를 신청하고자 합니다"이면, 유사도 매칭 모델은 후보 항목에서 "어떻게 신용 카드를 신청할 수 있나요"를 정확하게 매칭해야 하므로, 대규모 및 고품질의 트레이닝 데이터로 유사도 매칭 모델을 생성해야 한다.

관련 기술에서, 상이한 의미를 가진 텍스트를 랜덤으로 선택하여 데이터 세트 중 부정적 샘플로 사용하며, 부정적 샘플을 생성하는 방식은 비교적 간단하고 부정확한 경우가 존재한다.

데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체를 제공한다.

제1 양태에 따르면, 데이터 세트 처리 방법이 제공되는 바,

타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 상기 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 단계

- 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함함 - ;

상기 제1 텍스트 집합으로부터 상기 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하는 단계;

상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성하는 단계;

상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 긍정적 샘플 집합을 생성하는 단계; 및

상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 타깃 사용자의 데이터 세트를 생성하고, 상기 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 단계; 를 포함한다.

제2 양태에 따르면, 데이터 세트 처리 장치가 제공되는 바,

타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하는 제1 획득 모듈

상기 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 제2 획득 모듈;

상기 제1 텍스트 집합으로부터 상기 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하는 제3 획득 모듈;

상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성하는 제1 생성 모듈;

상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 긍정적 샘플 집합을 생성하는 제2 생성 모듈;

상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 타깃 사용자의 데이터 세트를 생성하는 제3 생성 모듈; 및

상기 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 인식 모듈; 을 포함한다.

본 출원의 제3 양태의 실시예는 전자 기기를 제공하는 바,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고, 여기서,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1 양태의 실시예의 데이터 세트 처리 방법을 수행한다.

본 출원의 제4 양태의 실시예는 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는 바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1 양태의 실시예의 데이터 세트 처리 방법이 수행된다.

본 출원의 제5 양태의 실시예는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 제공하는 바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1 양태의 실시예의 데이터 세트 처리 방법이 수행된다.

상기 발명의 일 실시예는 하기와 같은 장점 또는 유익한 효과를 갖는다.

타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함하고; 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하고; 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성하며; 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성하고; 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성하며, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식한다. 이로써, 랜덤 샘플링에서의 허위 샘플과 데이터가 비교적 간단한 기술적 문제를 방지하고, 유사성 매칭 조건을 통해 텍스트 집합을 매칭한 후 다시 긍정적 샘플 집합 및 부정적 샘플 집합을 획득하여 데이터 세트를 생성함으로써, 데이터 세트의 유효성을 향상시키고, 매칭 모델의 견고성을 향상시킨다.

본 부분에서 설명된 내용은 본 발명의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 발명의 범위를 한정하려는 의도도 아님을 이해해야 할 것이다. 본 발명의 다른 특징은 아래 명세서에 의해 쉽게 이해될 것이다.

첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다. 여기서,
도 1은 본 출원의 제1 실시예에 따라 제공된 데이터 세트 처리 방법의 흐름 모식도이다.
도 2는 본 출원의 실시예에서 제공된 텍스트 블록의 예시적 다이어그램이다.
도 3은 본 출원의 제2 실시예에 따라 제공된 데이터 세트 처리 방법의 흐름 모식도이다.
도 4는 본 출원의 제3 실시예에 따라 제공된 데이터 세트 처리 방법의 흐름 모식도이다.
도 5는 본 출원의 제4 실시예에 따라 제공된 데이터 세트 처리 방법의 흐름 모식도이다.
도 6은 본 출원의 제5 실시예에 따라 제공된 데이터 세트 처리 방법의 흐름 모식도이다.
도 7은 본 출원의 제6 실시예에 따라 데이터 세트 처리 장치의 구조 모식도이다.
도 8은 본 출원의 제7 실시예에 따라 데이터 세트 처리 장치의 구조 모식도이다.
도 9는 본 출원의 실시예의 데이터 세트 처리 방법을 구현하기 위한 전자 기기의 블록도이다.

이하, 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.

아래에 도면을 참조하여 본 출원의 실시예의 데이터 세트 처리 방법, 장치, 전자 기기 및 저장 매체를 설명한다.

도 1은 본 출원의 제1 실시예에 따라 제공된 데이터 세트 처리 방법의 흐름 모식도이다.

구체적으로, 종래의 방식에서, 상이한 의미를 가진 텍스트를 랜덤으로 선택하여 데이터 세트 중 부정적 샘플로 사용하여, 부정적 샘플을 생성하는 방식은 비교적 간단하고 부정확한 경우가 존재한다.

본 출원은 데이터 세트 처리 방법을 제공하는 바, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함하며; 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하고; 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성하며; 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성하고; 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성하며, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식한다.

이로써, 랜덤 샘플링에서의 허위 샘플과 데이터가 비교적 간단한 기술적 문제를 방지하고, 유사성 매칭 조건을 통해 텍스트 집합을 매칭한 후 다시 긍정적 샘플 집합 및 부정적 샘플 집합을 획득하여 데이터 세트를 생성함으로써, 데이터 세트의 유효성을 향상시키고, 매칭 모델의 견고성을 향상시킨다.

도 1에 도시된 바와 같이, 상기 데이터 세트 처리 방법은 단계 101 내지 단계 105를 포함할 수 있다.

단계 101에서, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함한다.

본 출원은 타깃 사용자의 데이터 세트를 획득하여 매칭 모델을 트레이닝하여 텍스트 유사도를 인식함으로써, 매칭 모델의 정확성과 안정성을 향상시킨다. 여기서, 타깃 사용자는 하나 또는 복수의 서브 사용자일 수 있고, 본 출원에서, 상이한 분야의 응용 상황을 기반으로 결정할 경우, 하나 또는 복수의 서브 사용자는 타깃 사용자로 사용될 수 있다.

예를 들어, 은행 분야에서, 상이한 은행 기관 사이의 조회 텍스트에 차이가 존재하고, 타깃 사용자는 복수의 서브 사용자, 즉 복수의 은행 기관인데, 예를 들어 교육 분야에서 각각의 교육 기관 사이의 조회 텍스트 차이는 크지 않으며, 트레이닝 효율을 향상시키기 위해, 타깃 사용자는 하나의 서브 사용자, 즉 하나의 은행 기관으로서, 구체적으로 실제 응용에 따라 선택하여 설정할 수 있다.

구체적으로, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함하고, 다시 말해서, 텍스트 데이터는 종종 유사한 의미의 텍스트를 가진 일련의 텍스트 블록이며, 각각의 텍스트 블록 내의 텍스트는 모두 동일한 의미를 가지는 바, 예를 들어 도 2에 도시된 바와 같이, "하나의 신용 카드를 신청하고자 합니다" 및 "어떻게 신용 카드를 신청할 수 있나요" 2개의 텍스트는 동일한 텍스트 블록 1에 있고; "신용 카드 청구서를 조회 바랍니다" 및 "신용 카드 청구서가 아직 얼마가 있나요"는 동일한 텍스트 블록 2에 있다.

이해할 수 있는 것은, 각각의 텍스트 블록 내의 텍스트는 모두 유사한 의미를 가지며, 이와 상이한 텍스트 블록으로부터 다른 텍스트를 부정적 샘플로서 랜덤으로 샘플링한 다음, 2개의 텍스트에 상이한 의미 유사도가 있다고 가정하면, 이러한 랜덤 부정적 샘플링 방식으로 일부 정확하지 않은 부정적 샘플을 쉽게 샘플링하게 된다.

예를 들어, "카드를 신청하고자 합니다"와 "신용 카드를 신청하고자 합니다"는 의미가 유사한 2개의 텍스트이고; "카드를 신청하고자 합니다"와 "캐시 카드를 신청하고자 합니다"는 의미가 유사하지 않은 2개의 텍스트이나, "카드를 신청하고자 합니다"와 "캐시 카드를 신청하고자 합니다"는 상이한 텍스트 블록에 속하지만, 일정한 정도에서 유사한 의미를 가질 가능성도 있으며, 이러한 부정적 샘플은 트레이닝된 매칭 모델의 정확도에 매우 큰 영향을 미칠 것이고, 또한 랜덤으로 샘플링하여 생성된 부정적 샘플은 비교적 간단하여, 매칭 모델이 충분한 정확한 지식을 학습할 수 없도록 함으로써, 매칭 모델의 세분화 및 정확도에 영향을 미친다.

따라서, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 더 획득할 필요가 있다. 여기서, 기설정된 유사성 매칭 조건은 하나이거나 복수일 수 있다.

예를 들어, 유사한 표현 형태를 가지지만, 상이한 의미 정보를 갖는 샘플을 부정적 샘플로서 선택하기 위해, 2개의 텍스트에서 비교적 높은 단어 중첩을 기설정된 유사성 매칭 조건으로 사용하고, 다시 예를 들어, 2개의 텍스트에서 비교적 높은 의미 유사도를 기설정된 유사성 매칭 조건으로 사용하며, 실제 응용에 따라 선택하여 설정할 수 있고, 예를 들어 설명하면 하기와 같다.

첫 번째 예에서, 타깃 텍스트에 대해 단어 분할 처리를 수행하여 제1 단어 분할 집합을 생성하고, 복수의 텍스트 블록 중 각각의 텍스트에 대해 단어 분할 처리를 수행하여 복수의 제2 단어 분할 집합을 생성하며, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합을 비교하여, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합 사이의 단어 분할 반복도를 획득하고, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합 사이의 단어 분할 반복도를 기설정된 임계값과 비교하여, 임계값보다 큰 단어 분할 반복도에 대응되는 제2 단어 분할 집합에 따라 제1 텍스트 집합을 생성한다.

두 번째 예에서, 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 타깃 문장 벡터를 획득하며, 복수의 텍스트 블록 중 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 각각의 텍스트에 대응되는 문자 벡터를 획득하며; 타깃 문장 벡터와 각각의 텍스트에 대응되는 문자 벡터 사이의 코사인 유사도를 계산하고; 코사인 유사도와 기설정된 코사인 임계값을 비교하여, 기설정된 코사인 임계값보다 큰 것에 대응되는 텍스트에 따라 제1 텍스트 집합을 생성한다.

설명해야 할 것은, 타깃 텍스트는 복수의 텍스트 블록 중 각각의 텍스트가 모두 타깃 텍스트로서 데이터 세트를 구성하는 것일 수 있고(즉 각각의 텍스트를 순회함), 복수의 텍스트 블록 중 일부 텍스트가 모두 타깃 텍스트로서 데이터 세트를 구성하는 것일 수 있으며, 구체적으로 실제 응용 상황에 따라 선택하여 설정할 수 있음으로써, 트레이닝된 모델의 정확도를 보장하는 동시에 트레이닝 효율을 향상시킨다.

단계 102에서, 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득한다.

단계 103에서, 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성한다.

구체적으로, 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합 중 각각의 텍스트는 복수의 텍스트 블록에 속하므로, 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득해야 하며, 응용 상황에 따라 선택하여 설정할 수 있고, 예를 들어 설명하면 하기와 같다.

일 예로서, 타깃 텍스트에 대응되는 블록 식별자를 획득하고, 제1 텍스트 집합 중 각각의 텍스트가 속한 블록 식별자를 획득하며, 각각의 텍스트가 속한 블록 식별자와 타깃 텍스트에 대응되는 블록 식별자를 비교하고, 블록 식별자가 일치하지 않는 텍스트에 따라 제2 텍스트 집합을 생성한다.

마지막에, 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성한다. 일 가능한 구현 방식으로서, 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠를 획득하며, 각각의 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성하고, 상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하며, 제1 부정적 샘플 집합 및 제2 부정적 샘플 집합에 따라 타깃 텍스트의 부정적 샘플 집합을 생성한다.

단계 104에서, 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성한다.

구체적으로, 타깃 텍스트는 텍스트 블록 식별자를 가지므로, 텍스트 블록 식별자에 따라 타깃 텍스트 블록을 결정할 수 있고, 또한 타깃 텍스트 블록 콘텐츠를 획득할 수 있으며, 다시 말해서 타깃 텍스트 블록 중 복수의 텍스트의 경우, 타깃 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 타깃 텍스트의 긍정적 샘플 집합을 생성한다.

물론, 또한 타깃 텍스트 블록 중 복수의 텍스트를 획득한 후, 제2 텍스트 집합 중 매칭되는 복수의 텍스트에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성할 수 있다.

단계 105에서, 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성하며, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식한다.

구체적으로, 타깃 사용자가 하나의 서브 사용자를 포함한 응용 상황에서, 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성할 수 있고; 타깃 사용자가 복수의 서브 사용자를 포함한 응용 상황에서, 각각의 서브 사용자에 의해 제공되는 복수의 텍스트 블록을 획득해야 하며, 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 각각의 서브 사용자에 대응되는 서브 데이터 세트를 생성하고, 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성하며, 기설정된 중복 제거 전략에 따라 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 타깃 사용자의 데이터 세트를 생성함으로써, 데이터 세트의 영역 일반성 및 적용성을 향상시키고, 특정 영역의 태스크 대화에서 양호한 효과를 얻을 수 있다.

마지막에, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 방식은 다양하며, 수요에 따라 선택하여 설정할 수 있고, 예를 들어 설명하면 하기와 같다.

첫 번째 예에서, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고, 제1 조회 스테이트먼트에 대해 인코딩을 수행하여 제1 조회 벡터를 생성하며, 제2 조회 스테이트먼트에 대해 인코딩을 수행하여 제2 조회 벡터를 생성하고, 제1 조회 벡터 및 제2 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리를 출력하며, 매칭 카테고리에 따라 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트의 텍스트 유사도를 결정한다.

예를 들어, 제1 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리1을 출력하고, 제2 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리2를 출력하며, 매칭 카테고리1과 매칭 카테고리2가 상이하면, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트 텍스트가 유사하지 않은 것으로 결정하고; 다시 예를 들어, 제1 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리1을 출력하고, 제2 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리1을 출력하며, 매칭 카테고리1과 매칭 카테고리1이 상이하면, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트 텍스트가 유사한 것으로 결정한다.

두 번째 예에서, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 매칭 모델에 입력하여 문장 정렬을 수행하며, 정렬 결과에 따라 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트의 텍스트 유사도를 결정한다.

예를 들어, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 매칭 모델에 입력하고 정렬하여 기설정된 임계값이 90 %보다 큰 95 %의 정렬 비율을 얻으면, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트가 유사한 것으로 결정하고, 그렇지 않으면 유사하지 않은 것으로 결정한다.

본 출원의 실시예의 데이터 세트 처리 방법은, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하며; 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하고; 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성하며; 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성하고; 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성하며, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식한다. 이로써, 랜덤 샘플링에서의 허위 샘플과 데이터가 비교적 간단한 기술적 문제를 방지하고, 유사성 매칭 조건을 통해 텍스트 집합을 매칭한 후 다시 긍정적 샘플 집합 및 부정적 샘플 집합을 획득하여 데이터 세트를 생성함으로써, 데이터 세트의 유효성을 향상시키고, 매칭 모델의 견고성을 향상시킨다.

상기 실시예의 설명을 기반으로, 상이한 기설정된 유사성 매칭 조건에 기반하여 획득한 제1 텍스트 집합이 상이하므로, 마지막에 구축된 데이터 세트도 상이하다는 것을 이해할 수 있으며, 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 방법에 대해 본 분야의 기술자가 보다 명확하게 이해하도록 하기 위해, 아래에 도 3 및 도 4를 결부하여, 단어 빈도 통계 및 문장 벡터를 기반으로 매칭 계산을 수행하는 것을 예로 들어 상세하게 설명한다.

구체적으로, 도 3에 도시된 바와 같이, 단계 101 이후에, 단계 201 내지 단계 203을 더 포함한다.

단계 201에서, 타깃 텍스트에 대해 단어 분할 처리를 수행하여 제1 단어 분할 집합을 생성하고, 복수의 텍스트 블록 중 각각의 텍스트에 대해 단어 분할 처리를 수행하여 복수의 제2 단어 분할 집합을 생성한다.

단계 202에서, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합을 비교하여, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합 사이의 단어 분할 반복도를 획득한다.

단계 203에서, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합 사이의 단어 분할 반복도를 기설정된 임계값과 비교하여, 임계값보다 큰 단어 분할 반복도에 대응되는 제2 단어 분할 집합에 따라 제1 텍스트 집합을 생성한다.

구체적으로, 기설정된 단어 분할 알고리즘을 통해 타깃 텍스트에 대해 단어 분할 처리를 수행하여 제1 단어 분할 집합을 생성하되, 제1 단어 분할 집합에는 타깃 텍스트에 대응되는 하나 또는 복수의 단어 분할가 포함되고, 복수의 텍스트 블록 중 각각의 텍스트에 대해 단어 분할 처리를 수행하여 복수의 제2 단어 분할 집합을 생성한다.

또한, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합을 비교하여, 제1 단어 분할 집합과 각각의 제2 단어 분할 집합 사이의 단어 분할 반복도를 획득하고, 다시 말해서, 타깃 텍스트와 복수의 텍스트 블록 중 각각의 텍스트 사이의 단어가 중첩되는 구체적인 경우는 단어 분할 반복도에 의해 빠르게 이해될 수 있다. 또한 단어 분할 반복도가 기설정된 임계값보다 큰 단어 분할 반복도에 대응되는 제2 단어 분할 집합에 따라 제1 텍스트 집합을 생성한다.

다시 말해서, 타깃 텍스트와 복수의 텍스트 블록 중 각각의 텍스트 사이의 단어가 중첩되는 개수가 일정한 임계값보다 커야만 상기 텍스트를 제1 텍스트 집합 중 텍스트로서 결정함으로써, 유사한 표현 형태를 가지지만, 상이한 의미 정보를 갖는 텍스트를 선택하는 것을 구현하며, 예를 들어, "하나의 신용 카드를 신청하고자 합니다" 및 "하나의 캐시 카드를 신청하고자 합니다"의 표현식이 비교적 유사하지만 실질적으로 의미 정보가 상이한 텍스트에서, 이러한 텍스트는 후속에 트레이닝 샘플로 사용되어 모델이 의미 정보와 문장 표현 형태 사이의 상이한 점을 잘 구분할 수 있도록 한다.

구체적으로, 도 4에 도시된 바와 같이, 단계 101 이후에, 단계 301 내지 단계 304를 더 포함한다.

단계 301에서, 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 타깃 문장 벡터를 획득한다.

단계 302에서, 복수의 텍스트 블록 중 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 각각의 텍스트에 대응되는 문자 벡터를 획득한다.

단계 303에서, 타깃 문장 벡터와 각각의 텍스트에 대응되는 문자 벡터 사이의 코사인 유사도를 계산한다.

단계 304에서, 코사인 유사도와 기설정된 코사인 임계값을 비교하여, 기설정된 코사인 임계값보다 큰 것에 대응되는 텍스트에 따라 제1 텍스트 집합을 생성한다.

구체적으로, 모델의 안정성을 더 향상시키기 위해, 도 3의 실시예를 기반으로 획득한 텍스트를 제1 텍스트 집합으로 사용하는 외에, 의미 유사도를 결합하여 텍스를 획득하고 제1 텍스트 집합에 추가하여, 일정한 의미 유사성을 가지지만, 종종 콘텐츠가 실제로 동일하지 않은 일부 텍스트를 선택하는 것을 구현하는 바, 예를 들어, "하나의 신용 카드를 개통하고자 합니다" 및 "금방 개통된 신용 카드의 한도는 얼마에요"의 이러한 텍스트는 후속에 트레이닝 샘플로 사용되어 모델이 세분화 정도가 더 높고 또한 의미 유사성을 더 정밀하게 구분하는 정도로 학습할 수 있도록 한다.

구체적으로, 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 타깃 문장 벡터를 획득하며, 타깃 문장 벡터와 각각의 텍스트에 대응되는 문자 벡터 사이의 코사인 유사도가 기설정된 코사인 임계값보다 큰 것에 대응되는 텍스트를 계산하여 제1 텍스트 집합을 생성한다. 여기서, 순환 신경망 또는 콘볼루션 신경망을 선택하여 텍스트 샘플에 대한 트레이닝 생성을 미리 선택할 수 있다.

이로써, 기설정된 트레이닝 언어 표현 모델을 사용하면, 각각의 단어를 독립적인 일부분으로 별도로 사용하는 대신, 전체 텍스트의 컨텍스트 관계를 더 잘 특성화할 수 있는 바, 예를 들어, "애플"은 과일과 관련된 의미 환경과 휴대폰과 관련된 의미 환경에서 완전히 상이하며, 본 출원은 텍스트 중 단어 순서와 단어의 의존 관계를 고려하여, 트레이닝 과정에서 전체 텍스트의 컨텍스트에 대응함으로써, 의미 유사도 계산의 정확도를 향상시키고, 매칭 모델의 인식 결과를 향상시킨다.

상기 실시예의 설명을 기반으로, 더 이해할 수 있는 것은, 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 텍스트 개수가 반드시 본 출원에서 구축한 데이터 세트의 기설정된 개수 임계값이 아니므로, 추가 선별을 통해 트레이닝 효율을 향상시켜야 한다.

구체적으로, 도 5에 도시된 바와 같이, 단계 101 이후에, 단계 401 내지 단계 402를 더 포함한다.

단계 401에서, 제1 텍스트 집합 중 텍스트 개수를 획득하고, 텍스트 개수가 기설정된 개수 임계값보다 큰지 여부를 판단한다.

단계 402에서, 텍스트 개수가 기설정된 개수 임계값보다 크면, 텍스트 개수가 개수 임계값과 같도록 개수 임계값에 따라 제1 텍스트 집합 중 텍스트를 삭제한다.

실제 응용에서, 상이한 응용 상황에 따라 상이한 개수 임계값을 설정할 수 있고, 즉 얼마만큼의 텍스트를 선택하여 트레이닝 샘플로 사용하며, 따라서 제1 텍스트 집합 중 텍스트 개수를 획득하고, 텍스트 개수가 기설정된 개수 임계값보다 큰지 여부를 판단하며, 텍스트 개수가 기설정된 개수 임계값보다 크면, 텍스트 개수가 개수 임계값과 같도록 개수 임계값에 따라 제1 텍스트 집합 중 텍스트를 삭제하되, 여기서, 삭제 처리는 랜덤 삭제일 수 있는데, 이는 샘플의 랜덤성을 더 향상시킨다.

도 6은 본 출원의 제5 실시예에 따라 제공된 데이터 세트 처리 방법의 흐름 모식도이다. 당해 데이터 세트 처리 방법은 단계 501 내지 단계 508을 포함할 수 있다.

단계 501에서, 각각의 서브 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득한다.

구체적으로, 본 실시예는 타깃 사용자가 복수의 서브 사용자를 포함한 응용 상황을 대상으로 하고, 데이터 세트의 영역 일반성을 위해, 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성해야 하며, 기설정된 중복 제거 전략에 따라 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 타깃 사용자의 데이터 세트를 생성한다.

구체적으로, 각각의 서브 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하되, 여기서, 기설정된 유사성 매칭 조건은 하나이거나 복수일 수 있으며, 예를 들어, 유사한 표현 형태를 가지지만, 상이한 의미 정보를 갖는 샘플을 부정적 샘플로서 선택하기 위해, 2개의 텍스트에서 비교적 높은 단어 중첩을 기설정된 유사성 매칭 조건으로 사용하고, 다시 예를 들어, 2개의 텍스트에서 비교적 높은 의미 유사도를 기설정된 유사성 매칭 조건 등으로 사용하며, 실제 응용에 따라 선택하여 설정할 수 있다.

단계 502에서, 타깃 텍스트에 대응되는 블록 식별자를 획득하고, 제1 텍스트 집합 중 각각의 텍스트가 속한 블록 식별자를 획득하며, 각각의 텍스트가 속한 블록 식별자와 타깃 텍스트에 대응되는 블록 식별자를 비교하고, 블록 식별자가 일치하지 않는 텍스트에 따라 제2 텍스트 집합을 생성한다.

이해할 수 있는 것은, 타깃 텍스트는 블록 식별자를 가지고, 제1 텍스트 집합 중 각각의 텍스트가 속한 블록 식별자를 획득하며, 각각의 텍스트가 속한 블록 식별자와 타깃 텍스트에 대응되는 블록 식별자를 비교하고, 예를 들어, 타깃 텍스트의 블록 식별자01과 텍스트1이 속한 블록 식별자가 일치하며, 타깃 텍스트의 블록 식별자01과 텍스트2가 속한 블록 식별자02가 일치하지 않으면, 텍스트2가 제2 텍스트 집합에 저장되어 있는 것으로 결정한다.

단계 503에서, 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠를 획득하고, 각각의 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성한다.

단계 504에서, 상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하고, 제1 부정적 샘플 집합 및 제2 부정적 샘플 집합에 따라 타깃 텍스트의 부정적 샘플 집합을 생성한다.

구체적으로, 제2 텍스트 집합 중 텍스트는 동일하거나 상이한 텍스트 블록에 속할 수 있고, 제2 텍스트 집합 중 텍스트의 블록 식별자에 따라 복수의 후보 텍스트 블록을 결정하며, 후보 텍스트 중 복수의 텍스트에 따라 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성하고, 또한 상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하며, 제1 부정적 샘플 집합 및 제2 부정적 샘플 집합에 따라 타깃 텍스트의 부정적 샘플 집합을 생성한다.

이로써, 각각의 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성하고, 또한 상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하며, 마지막에 타깃 텍스트의 부정적 샘플 집합을 생성하여, 텍스트의 랜덤성을 더 향상시킴으로써, 트레이닝 샘플의 랜덤성을 향상시키고, 매칭 모델의 인식 정확도를 향상시킨다.

단계 505에서, 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠를 획득하고, 타깃 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 타깃 텍스트의 긍정적 샘플 집합을 생성한다.

단계 506에서, 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성하고, 기설정된 중복 제거 전략에 따라 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 타깃 사용자의 데이터 세트를 생성한다.

구체적으로, 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성하고, 또한 기설정된 중복 제거 전략에 따라 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 타깃 사용자의 데이터 세트를 생성하되, 여기서 기설정된 중복 제거 전략은 상이한 응용 상황에 따라 선택할 수 있으며, 예를 들어, 후보 데이터 세트 중 각각의 텍스트 샘플의 반복성을 직접 감지하여, 반복된 텍스트 샘플을 삭제한 후 타깃 사용자의 데이터 세트를 생성함으로써, 샘플 노이즈를 감소시키고, 매칭 모델의 정확도를 향상시킬 수 있다.

단계 507에서, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고, 제1 조회 스테이트먼트에 대해 인코딩을 수행하여 제1 조회 벡터를 생성하며, 제2 조회 스테이트먼트에 대해 인코딩을 수행하여 제2 조회 벡터를 생성한다.

단계 508에서, 제1 조회 벡터 및 제2 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리를 출력하고, 매칭 카테고리에 따라 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트의 텍스트 유사도를 결정한다.

구체적으로, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고, 각각 제1 조회 스테이트먼트에 대해 인코딩을 수행하여 제1 조회 벡터를 생성하며, 제2 조회 스테이트먼트에 대해 인코딩을 수행하여 제2 조회 벡터를 생성하고, 또한, 제1 조회 벡터 및 제2 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리를 출력하며, 마지막에 매칭 카테고리에 따라 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트의 텍스트 유사도를 결정한다.

이로써, 각각의 서브 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하며, 타깃 텍스트에 대응되는 블록 식별자를 획득하고, 제1 텍스트 집합 중 각각의 텍스트가 속한 블록 식별자를 획득하며, 각각의 텍스트가 속한 블록 식별자와 타깃 텍스트에 대응되는 블록 식별자를 비교하고, 블록 식별자가 일치하지 않는 텍스트에 따라 제2 텍스트 집합을 생성하고, 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠를 획득하며, 각각의 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성하고, 상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하며, 제1 부정적 샘플 집합 및 제2 부정적 샘플 집합에 따라 타깃 텍스트의 부정적 샘플 집합을 생성하고, 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠를 획득하며, 타깃 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 타깃 텍스트의 긍정적 샘플 집합을 생성하고, 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성하며, 기설정된 중복 제거 전략에 따라 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 타깃 사용자의 데이터 세트를 생성하고, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하며, 제1 조회 스테이트먼트에 대해 인코딩을 수행하여 제1 조회 벡터를 생성하고, 제2 조회 스테이트먼트에 대해 인코딩을 수행하여 제2 조회 벡터를 생성하며, 제1 조회 벡터 및 제2 조회 벡터를 매칭 모델에 입력하여 매칭 카테고리를 출력하고, 매칭 카테고리에 따라 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트의 텍스트 유사도를 결정한다. 이로써, 각각의 서브 사용자에 대해 데이터 세트를 구성한 후 병합 및 중복 제거를 수행하며, 모든 서브 데이터 세트를 병합하여 타깃 사용자의 일반 데이터 세트로 사용함으로써, 보다 양호한 영역 일반성을 가지며, 랜덤 샘플링에서 허위 샘플과 데이터가 너무 간단한 문제를 효과적으로 해결하여, 트레이닝된 모델이 보다 양호한 견고성을 갖도록 한다.

상기 실시예를 구현하기 위해, 본 출원은 데이터 세트 처리 장치를 제공한다.

도 7은 본 출원의 제6 실시예에 따라 데이터 세트 처리 장치의 구조 모식도이다.

도 7에 도시된 바와 같이, 상기 데이터 세트 처리 장치(600)는 제1 획득 모듈(601), 제2 획득 모듈(602), 제3 획득 모듈(603), 제1 생성 모듈(604), 제2 생성 모듈(605), 제3 생성 모듈(606) 및 인식 모듈(607)을 포함할 수 있다.

여기서, 제1 획득 모듈(601)은, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함한다.

제2 획득 모듈(602)은, 상기 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득한다.

제3 획득 모듈(603)은, 상기 제1 텍스트 집합으로부터 상기 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득한다.

제1 생성 모듈(604)은, 상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성한다.

제2 생성 모듈(605)은, 상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 긍정적 샘플 집합을 생성한다.

제3 생성 모듈(606)은, 상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 타깃 사용자의 데이터 세트를 생성한다.

인식 모듈(607)은, 상기 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식한다.

일 가능한 경우로서, 제2 획득 모듈(602)은 구체적으로, 상기 타깃 텍스트에 대해 단어 분할 처리를 수행하여 제1 단어 분할 집합을 생성하고, 상기 복수의 텍스트 블록 중 각각의 텍스트에 대해 단어 분할 처리를 수행하여 복수의 제2 단어 분할 집합을 생성하며; 상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합을 비교하여, 상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합 사이의 단어 분할 반복도를 획득하고; 상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합 사이의 단어 분할 반복도를 기설정된 임계값과 비교하고, 상기 임계값보다 큰 단어 분할 반복도에 대응되는 제2 단어 분할 집합에 따라 상기 제1 텍스트 집합을 생성한다.

일 가능한 경우로서, 제2 획득 모듈(602)은 구체적으로, 상기 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 상기 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 타깃 문장 벡터를 획득하며; 상기 복수의 텍스트 블록 중 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 상기 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 상기 기설정된 트레이닝 언어 표현 모델에 입력하여 각각의 텍스트에 대응되는 문자 벡터를 획득하며; 상기 타깃 문장 벡터와 상기 각각의 텍스트에 대응되는 문자 벡터 사이의 코사인 유사도를 계산하고; 상기 코사인 유사도와 기설정된 코사인 임계값을 비교하여, 상기 기설정된 코사인 임계값보다 큰 것에 대응되는 텍스트에 따라 상기 제1 텍스트 집합을 생성한다.

일 가능한 경우로서, 도 8에 도시된 바와 같이, 도 7의 기초상에서, 제4 획득 모듈(608) 및 삭제 모듈(609)을 더 포함한다.

제4 획득 모듈(608)은, 상기 제1 텍스트 집합 중 텍스트 개수를 획득하고, 상기 텍스트 개수가 기설정된 개수 임계값보다 큰지 여부를 판단한다.

삭제 모듈(609)은, 상기 텍스트 개수가 상기 기설정된 개수 임계값보다 크면, 상기 텍스트 개수가 상기 개수 임계값과 같도록 상기 개수 임계값에 따라 상기 제1 텍스트 집합 중 텍스트를 삭제한다.

일 가능한 경우로서, 제3 획득 모듈(603)은 구체적으로, 상기 타깃 텍스트에 대응되는 블록 식별자를 획득하고; 상기 제1 텍스트 집합 중 각각의 텍스트가 속한 블록 식별자를 획득하며;

상기 각각의 텍스트가 속한 블록 식별자와 상기 타깃 텍스트에 대응되는 블록 식별자를 비교하고, 블록 식별자가 일치하지 않는 텍스트에 따라 상기 제2 텍스트 집합을 생성한다.

일 가능한 경우로서, 제1 생성 모듈(604)은 구체적으로, 상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠를 획득하고; 각각의 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성하며; 상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하고; 상기 제1 부정적 샘플 집합 및 상기 제2 부정적 샘플 집합에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성한다.

일 가능한 경우로서, 제2 생성 모듈(605)은 구체적으로, 상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠를 획득하고; 상기 타깃 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 상기 타깃 텍스트의 긍정적 샘플 집합을 생성한다.

일 가능한 경우로서, 타깃 사용자는 복수의 서브 사용자를 포함하고, 제1 획득 모듈(601)은 구체적으로, 각각의 서브 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하며; 제3 생성 모듈(606)은 구체적으로, 상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 각각의 서브 사용자에 대응되는 서브 데이터 세트를 생성하고; 상기 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성하며;

기설정된 중복 제거 전략에 따라 상기 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 상기 타깃 사용자의 데이터 세트를 생성한다.

일 가능한 경우로서, 인식 모듈(607)은 구체적으로, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고; 상기 제1 조회 스테이트먼트에 대해 인코딩을 수행하여 제1 조회 벡터를 생성하며; 상기 제2 조회 스테이트먼트에 대해 인코딩을 수행하여 제2 조회 벡터를 생성하고; 상기 제1 조회 벡터 및 상기 제2 조회 벡터를 상기 매칭 모델에 입력하여 매칭 카테고리를 출력하며, 상기 매칭 카테고리에 따라 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트의 텍스트 유사도를 결정한다.

일 가능한 경우로서, 인식 모듈(607)은 구체적으로, 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고; 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트를 상기 매칭 모델에 입력하여 문장 정렬을 수행하며; 정렬 결과에 따라 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트의 텍스트 유사도를 결정한다.

본 출원의 실시예의 데이터 세트 처리 장치는, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하며; 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하고; 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성하며; 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성하고; 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성하며, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식한다. 이로써, 랜덤 샘플링에서의 허위 샘플과 데이터가 비교적 간단한 기술적 문제를 방지하고, 유사성 매칭 조건을 통해 텍스트 집합을 매칭한 후 다시 긍정적 샘플 집합 및 부정적 샘플 집합을 획득하여 데이터 세트를 생성함으로써, 데이터 세트의 유효성을 향상시키고, 매칭 모델의 견고성을 향상시킨다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.

도 9에 도시된 바와 같이, 본 출원의 실시예의 데이터 세트 처리 방법에 따른 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기, 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 출원의 구현을 한정하려는 의도가 아니다.

도 9에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 다수의 프로세서(901), 메모리(902), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령을 처리할 수 있고, 상기 명령은, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 내 또는 메모리에 저장되는 명령을 포함한다. 다른 실시형태에서, 수요되면, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있으며, 각각의 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템으로 사용됨)을 제공한다. 도 9에서는 하나의 프로세서(901)를 예로 한다.

메모리(902)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 데이터 세트 처리 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하며, 상기 컴퓨터 명령은 컴퓨터가 본 출원에서 제공된 데이터 세트 처리 방법을 수행하도록 한다.

메모리(902)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 데이터 세트 처리 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 7에 도시된 제1 획득 모듈(601), 제2 획득 모듈(602), 제3 획득 모듈(603), 제1 생성 모듈(604), 제2 생성 모듈(605), 제3 생성 모듈(606) 및 인식 모듈(607))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(901)는 메모리(902)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 데이터 세트 처리 방법을 구현한다.

메모리(902)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 데이터 세트 처리의 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(902)는 프로세서(901)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 데이터 세트 처리의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

데이터 세트 처리 방법의 전자 기기는, 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 9에서는 버스를 통한 연결을 예로 한다.

입력 장치(903)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 데이터 세트 처리의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(904)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.

본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원의 임의의 실시예의 데이터 세트 처리 방법이 수행된다.

여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에 사용된 바와 같이, 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 상기 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 부정적 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.

본 출원의 실시예의 기술적 해결수단에 따르면, 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하되, 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함하고, 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하며; 제1 텍스트 집합으로부터 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하고; 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 부정적 샘플 집합을 생성하며; 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 타깃 텍스트의 긍정적 샘플 집합을 생성하고; 부정적 샘플 집합 및 긍정적 샘플 집합에 따라 타깃 사용자의 데이터 세트를 생성하며, 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식한다. 이로써, 랜덤 샘플링에서의 허위 샘플과 데이터가 비교적 간단한 기술적 문제를 방지하고, 유사성 매칭 조건을 통해 텍스트 집합을 매칭한 후 다시 긍정적 샘플 집합 및 부정적 샘플 집합을 획득하여 데이터 세트를 생성함으로써, 데이터 세트의 유효성을 향상시키고, 매칭 모델의 견고성을 향상시킨다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims

데이터 세트 처리 방법에 있어서,
제1 획득 모듈이 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하고, 제2 획득 모듈이 상기 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 단계
- 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함함 - ;
제3 획득 모듈이 상기 제1 텍스트 집합으로부터 상기 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하는 단계;
제1 생성 모듈이 상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성하는 단계;
제2 생성 모듈이 상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 긍정적 샘플 집합을 생성하는 단계; 및
제3 생성 모듈이 상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 타깃 사용자의 데이터 세트를 생성하고, 인식 모듈이 상기 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 단계는,
상기 제2 획득 모듈이 상기 타깃 텍스트에 대해 단어 분할 처리를 수행하여 제1 단어 분할 집합을 생성하고, 상기 복수의 텍스트 블록 중 각각의 텍스트에 대해 단어 분할 처리를 수행하여 복수의 제2 단어 분할 집합을 생성하는 단계;
상기 제2 획득 모듈이 상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합을 비교하여, 상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합 사이의 단어 분할 반복도를 획득하는 단계; 및
상기 제2 획득 모듈이 상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합 사이의 단어 분할 반복도를 기설정된 임계값과 비교하고, 상기 임계값보다 큰 단어 분할 반복도에 대응되는 제2 단어 분할 집합에 따라 상기 제1 텍스트 집합을 생성하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 단계는,
상기 제2 획득 모듈이 상기 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 상기 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 타깃 문장 벡터를 획득하는 단계;
상기 제2 획득 모듈이 상기 복수의 텍스트 블록 중 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 상기 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 상기 기설정된 트레이닝 언어 표현 모델에 입력하여 각각의 텍스트에 대응되는 문자 벡터를 획득하는 단계;
상기 제2 획득 모듈이 상기 타깃 문장 벡터와 상기 각각의 텍스트에 대응되는 문자 벡터 사이의 코사인 유사도를 계산하는 단계; 및
상기 제2 획득 모듈이 상기 코사인 유사도와 기설정된 코사인 임계값을 비교하여, 상기 기설정된 코사인 임계값보다 큰 것에 대응되는 텍스트에 따라 상기 제1 텍스트 집합을 생성하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 제1 텍스트 집합으로부터 상기 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하는 단계 이전에,
제4 획득 모듈이 상기 제1 텍스트 집합 중 텍스트 개수를 획득하고, 상기 텍스트 개수가 기설정된 개수 임계값보다 큰지 여부를 판단하는 단계; 및
상기 텍스트 개수가 상기 기설정된 개수 임계값보다 크면, 삭제 모듈이 상기 텍스트 개수가 상기 개수 임계값과 같도록 상기 개수 임계값에 따라 상기 제1 텍스트 집합 중 텍스트를 삭제하는 단계; 를 더 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 제1 텍스트 집합으로부터 상기 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하는 단계는,
상기 제3 획득 모듈이 상기 타깃 텍스트에 대응되는 블록 식별자를 획득하는 단계;
상기 제3 획득 모듈이 상기 제1 텍스트 집합 중 각각의 텍스트가 속한 블록 식별자를 획득하는 단계; 및
상기 제3 획득 모듈이 상기 각각의 텍스트가 속한 블록 식별자와 상기 타깃 텍스트에 대응되는 블록 식별자를 비교하고, 블록 식별자가 일치하지 않는 텍스트에 따라 상기 제2 텍스트 집합을 생성하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성하는 단계는,
상기 제1 생성 모듈이 상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠를 획득하는 단계;
상기 제1 생성 모듈이 각각의 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성하는 단계;
상기 제1 생성 모듈이 상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하는 단계; 및
상기 제1 생성 모듈이 상기 제1 부정적 샘플 집합 및 상기 제2 부정적 샘플 집합에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 긍정적 샘플 집합을 생성하는 단계는,
상기 제2 생성 모듈이 상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠를 획득하는 단계; 및
상기 제2 생성 모듈이 상기 타깃 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 상기 타깃 텍스트의 긍정적 샘플 집합을 생성하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 타깃 사용자는 복수의 서브 사용자를 포함하고,
상기 타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하는 단계는,
상기 제1 획득 모듈이 각각의 서브 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하는 단계를 포함하며,
상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 타깃 사용자의 데이터 세트를 생성하는 단계는,
상기 제3 생성 모듈이 상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 각각의 서브 사용자에 대응되는 서브 데이터 세트를 생성하는 단계;
상기 제3 생성 모듈이 상기 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성하는 단계; 및
상기 제3 생성 모듈이 기설정된 중복 제거 전략에 따라 상기 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 상기 타깃 사용자의 데이터 세트를 생성하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 단계는,
상기 인식 모듈이 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하는 단계;
상기 인식 모듈이 상기 제1 조회 스테이트먼트에 대해 인코딩을 수행하여 제1 조회 벡터를 생성하는 단계;
상기 인식 모듈이 상기 제2 조회 스테이트먼트에 대해 인코딩을 수행하여 제2 조회 벡터를 생성하는 단계; 및
상기 인식 모듈이 상기 제1 조회 벡터 및 상기 제2 조회 벡터를 상기 매칭 모델에 입력하여 매칭 카테고리를 출력하고, 상기 매칭 카테고리에 따라 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트의 텍스트 유사도를 결정하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
제1항에 있어서,
상기 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 단계는,
상기 인식 모듈이 제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하는 단계;
상기 인식 모듈이 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트를 상기 매칭 모델에 입력하여 문장 정렬을 수행하는 단계; 및
상기 인식 모듈이 정렬 결과에 따라 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트의 텍스트 유사도를 결정하는 단계; 를 포함하는,
것을 특징으로 하는 데이터 세트 처리 방법.
데이터 세트 처리 장치에 있어서,
타깃 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하는 제1 획득 모듈
- 각각의 텍스트 블록은 유사한 의미를 가진 복수의 텍스트를 포함함 - ;
상기 복수의 텍스트 블록으로부터 타깃 텍스트와의 기설정된 유사성 매칭 조건을 만족하는 제1 텍스트 집합을 획득하는 제2 획득 모듈;
상기 제1 텍스트 집합으로부터 상기 타깃 텍스트와 동일한 텍스트 블록에 속하지 않는 제2 텍스트 집합을 획득하는 제3 획득 모듈;
상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성하는 제1 생성 모듈;
상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠에 따라 상기 타깃 텍스트의 긍정적 샘플 집합을 생성하는 제2 생성 모듈;
상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 타깃 사용자의 데이터 세트를 생성하는 제3 생성 모듈; 및
상기 데이터 세트에 따라 매칭 모델을 트레이닝하여 텍스트 유사도를 인식하는 인식 모듈; 을 포함하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 제2 획득 모듈은,
상기 타깃 텍스트에 대해 단어 분할 처리를 수행하여 제1 단어 분할 집합을 생성하고, 상기 복수의 텍스트 블록 중 각각의 텍스트에 대해 단어 분할 처리를 수행하여 복수의 제2 단어 분할 집합을 생성하고;
상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합을 비교하여, 상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합 사이의 단어 분할 반복도를 획득하며;
상기 제1 단어 분할 집합과 각각의 상기 제2 단어 분할 집합 사이의 단어 분할 반복도를 기설정된 임계값과 비교하고, 상기 임계값보다 큰 단어 분할 반복도에 대응되는 제2 단어 분할 집합에 따라 상기 제1 텍스트 집합을 생성하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 제2 획득 모듈은,
상기 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 상기 타깃 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 기설정된 트레이닝 언어 표현 모델에 입력하여 타깃 문장 벡터를 획득하고;
상기 복수의 텍스트 블록 중 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 획득하고, 상기 각각의 텍스트에 대응되는 서브 벡터, 텍스트 벡터 및 위치 벡터를 상기 기설정된 트레이닝 언어 표현 모델에 입력하여 각각의 텍스트에 대응되는 문자 벡터를 획득하며;
상기 타깃 문장 벡터와 상기 각각의 텍스트에 대응되는 문자 벡터 사이의 코사인 유사도를 계산하고;
상기 코사인 유사도와 기설정된 코사인 임계값을 비교하여, 상기 기설정된 코사인 임계값보다 큰 것에 대응되는 텍스트에 따라 상기 제1 텍스트 집합을 생성하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 제1 텍스트 집합 중 텍스트 개수를 획득하고, 상기 텍스트 개수가 기설정된 개수 임계값보다 큰지 여부를 판단하는 제4 획득 모듈; 및
상기 텍스트 개수가 상기 기설정된 개수 임계값보다 크면, 상기 텍스트 개수가 상기 개수 임계값과 같도록 상기 개수 임계값에 따라 상기 제1 텍스트 집합 중 텍스트를 삭제하는 삭제 모듈; 을 더 포함하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 제3 획득 모듈은,
상기 타깃 텍스트에 대응되는 블록 식별자를 획득하고;
상기 제1 텍스트 집합 중 각각의 텍스트가 속한 블록 식별자를 획득하며;
상기 각각의 텍스트가 속한 블록 식별자와 상기 타깃 텍스트에 대응되는 블록 식별자를 비교하고, 블록 식별자가 일치하지 않는 텍스트에 따라 상기 제2 텍스트 집합을 생성하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 제1 생성 모듈은,
상기 제2 텍스트 집합 중 각각의 텍스트가 속한 후보 텍스트 블록 콘텐츠를 획득하고;
각각의 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제1 부정적 샘플 집합을 생성하며;
상이한 후보 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 제2 부정적 샘플 집합을 생성하고;
상기 제1 부정적 샘플 집합 및 상기 제2 부정적 샘플 집합에 따라 상기 타깃 텍스트의 부정적 샘플 집합을 생성하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 제2 생성 모듈은,
상기 타깃 텍스트가 속한 타깃 텍스트 블록 콘텐츠를 획득하고;
상기 타깃 텍스트 블록 중 복수의 텍스트에 대해 텍스트 조합을 수행하여 상기 타깃 텍스트의 긍정적 샘플 집합을 생성하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 타깃 사용자는 복수의 서브 사용자를 포함하고,
상기 제1 획득 모듈은,
각각의 서브 사용자에 의해 제공되는 복수의 텍스트 블록을 획득하며;
상기 제3 생성 모듈은 구체적으로,
상기 부정적 샘플 집합 및 상기 긍정적 샘플 집합에 따라 상기 각각의 서브 사용자에 대응되는 서브 데이터 세트를 생성하고;
상기 각각의 서브 사용자에 대응되는 서브 데이터 세트를 조합하여 후보 데이터 세트를 생성하며;
기설정된 중복 제거 전략에 따라 상기 후보 데이터 세트에 대해 중복 제거 처리를 수행하여, 상기 타깃 사용자의 데이터 세트를 생성하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 인식 모듈은,
제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고;
상기 제1 조회 스테이트먼트에 대해 인코딩을 수행하여 제1 조회 벡터를 생성하며;
상기 제2 조회 스테이트먼트에 대해 인코딩을 수행하여 제2 조회 벡터를 생성하고;
상기 제1 조회 벡터 및 상기 제2 조회 벡터를 상기 매칭 모델에 입력하여 매칭 카테고리를 출력하며, 상기 매칭 카테고리에 따라 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트의 텍스트 유사도를 결정하는,
것을 특징으로 하는 데이터 세트 처리 장치.
제11항에 있어서,
상기 인식 모듈은,
제1 조회 스테이트먼트 및 제2 조회 스테이트먼트를 획득하고;
상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트를 상기 매칭 모델에 입력하여 문장 정렬을 수행하며;
정렬 결과에 따라 상기 제1 조회 스테이트먼트 및 상기 제2 조회 스테이트먼트의 텍스트 유사도를 결정하는,
것을 특징으로 하는 데이터 세트 처리 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제10항 중 어느 한 항의 데이터 세트 처리 방법을 수행하는,
것을 특징으로 하는 전자 기기.
컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제10항 중 어느 한 항의 데이터 세트 처리 방법이 수행되는,
것을 특징으로 하는 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제10항 중 어느 한 항의 데이터 세트 처리 방법이 수행되는,
것을 특징으로 하는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램.