KR20230024832A - 단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체 - Google Patents

단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체 Download PDF

Info

Publication number
KR20230024832A
KR20230024832A KR1020220072455A KR20220072455A KR20230024832A KR 20230024832 A KR20230024832 A KR 20230024832A KR 1020220072455 A KR1020220072455 A KR 1020220072455A KR 20220072455 A KR20220072455 A KR 20220072455A KR 20230024832 A KR20230024832 A KR 20230024832A
Authority
KR
South Korea
Prior art keywords
search phrase
search
identification information
label
phrase
Prior art date
Application number
KR1020220072455A
Other languages
English (en)
Inventor
양 장
슈앙추안 양
레이 한
케케 조우
이 씨에
웨이 조우
준이 천
동지안 시
구이후아 바이
쒸엔 리
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20230024832A publication Critical patent/KR20230024832A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 자연 언어 처리, 딥 러닝, 클라우드 서비스 등과 같은 인공 지능 기술 분야에 관한 단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체를 제공한다. 단어 마이닝 방법은 검색 데이터를 획득하는 단계; 상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 검색 어구와 제2 식별 정보 사이의 관계를 에지로 하고, 행위 그래프를 구축하는 단계; 상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하는 단계; 상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하는 단계; 및 상기 타겟 검색 어구로부터 타겟 워드를 추출하고, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 하는 단계;를 포함한다. 본 발명은 단어 마이닝 정확성 및 효율을 향상시킨다.

Description

단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체 {WORD MINING METHOD AND DEVICE, ELECTRONIC EQUIPMENT AND READABLE STORAGE MEDIUM}
본 발명은 데이터 처리 기술의 분야에 관한 것이고, 특히, 자연 언어 처리, 딥 러닝, 클라우드 서비스 등과 같은 인공 지능 기술 분야에 관한 것이다. 단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체를 제공한다.
스마트폰과 모바일 인터넷의 보급에 따라, 인터넷은 사람들의 의식주와 교통을 관통하고, 인터넷에서도 부단히 새로운 인터넷 용어가 나타나고, 이러한 새로운 인터넷 용어는 일정한 은폐성(concealment)을 가지고 있다. 인터넷에 존재하는 일부 민감한 단어는 감독을 회피하기 위해 관계자로부터 만들어 낸 것이기 때문에, 이러한 민감한 단어는 은폐성이 보다 강하고, 종래 기술에서 인터넷에서의 민감한 단어를 마이닝할 때, 마이닝 정확성 및 마이닝 효율이 낮은 기술적인 문제가 존재한다.
본 발명의 제1 측면에 따르면, 단어 마이닝 방법을 제공하고, 검색 데이터를 획득하는 단계; 상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 검색 어구와 제2 식별 정보 사이의 관계를 에지로 하고, 행위 그래프를 구축하는 단계; 상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하는 단계; 상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하는 단계; 상기 타겟 검색 어구로부터 타겟 워드를 추출하고, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 하는 단계;를 포함한다.
본 발명의 제2 측면에 따르면, 단어 마이닝 장치를 제공하고, 검색 데이터를 획득하기 위한 획득 유닛; 상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 검색 어구와 제2 식별 정보 사이의 관계를 에지로 하고, 행위 그래프를 구축하기 위한 구축 유닛; 상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하기 위한 처리 유닛; 상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하기 위한 결정 유닛; 및 상기 타겟 검색 어구로부터 타겟 워드를 추출하고, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 하기 위한 마이닝 유닛;을 포함한다.
본 발명의 제3 측면에 따르면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상술한 방법이 수행되도록 한다.
본 발명의 제4 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 상술한 방법을 수행하도록 한다.
본 발명의 제5 측면에 따르면, 컴퓨터 프로그램 제품은 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 상술한 방법을 구현한다.
상술한 기술 방안으로부터 알 수 있는 것은, 본 실시예에서, 검색 데이터에서의 검색 행위 사이의 관련성에 따라 타겟 워드를 마이닝할 수 있고, 타겟 워드를 마이닝할 때의 정확성 및 효율을 향상시킬 수 있다.
본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 하기의 명세서를 통해 용이하게 이해할 수 있다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다.
도 2는 본 발명의 제2 실시예에 따른 개략도이다.
도 3은 본 발명의 제3 실시예에 따른 개략도이다.
도 4는 본 발명의 제4 실시예에 따른 개략도이다.
도 5는 본 발명의 제5 실시예에 따른 개략도이다.
도 6은 본 발명의 실시예의 단어 마이닝 방법을 구현하기 위한 전자 기기의 블록도이다.
하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술 분야의 통상의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다. 도 1에 도시된 바와 같이, 본 실시예의 단어 마이닝 방법은 구체적으로, 하기와 같은 단계를 포함할 수 있고,
S101, 검색 데이터를 획득하고,
S102, 상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 검색 어구와 제2 식별 정보 사이의 관계를 에지로 하고, 행위 그래프를 구축하고,
S103, 상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하고,
S104, 상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하고,
S105, 상기 타겟 검색 어구로부터 타겟 워드를 추출하고, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 한다.
본 실시예의 단어 마이닝 방법에서, 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보에 따라 행위 그래프를 구축한 후, 행위 그래프 내의 미리 설정된 라벨을 구비한 제1 검색 어구와 행위 그래프 내의 각 노드 사이의 관계를 통해, 행위 그래프 내의 타겟 검색 어구를 결정하고, 또한, 타겟 검색 어구로부터 추출된 타겟 워드를 검색 데이터의 단어 마이닝 결과로 하고, 본 실시예에서, 검색 데이터에서의 검색 행위 사이의 관련성에 따라 타겟 워드를 마이닝하므로, 타겟 워드를 마이닝할 때의 정확성 및 효율을 향상시킨다.
본 실시예에서 S101을 실행하고, 획득된 검색 데이터는 서로 다른 입력단이 검색할 때에 생성된 행위 데이터이며, 본 실시예에서 서로 다른 입력단에 대응하는 로그 데이터에 따라 검색 데이터를 획득할 수 있다.
본 실시예에서 S101을 실행하고, 획득된 검색 데이터에서, 제1 식별 정보, 검색 어구 및 제2 식별 정보를 포함하고, 그 중, 제1 식별 정보는, 입력단 ID, 입력단 UID 등과 같은 입력단의 식별 정보이며, 검색 어구는 입력단이 검색할 때에 입력된 쿼리 텍스트(query)이며, 제2 식별 정보는, Session ID 등과 같은, 입력단이 검색할 때에 서버측에 의해 생성된 세션(Session) 식별 정보이며, 같은 세션 식별 정보는, 입력단이 일정 기간 내에 수행하는 모든 검색 행위에 대응한다.
본 실시예에서 S101을 실행하고, 획득된 검색 데이터에서, 제2 식별 정보의 검색 시간 범위, 검색 어구의 검색 시간 등과 같은, 입력단이 검색할 때의 시간 정보를 더 포함할 수 있다.
본 실시예에서 S101을 실행하고, 검색 데이터를 획득한 후, S102를 실행하고, 획득된 검색 데이터에 따라 행위 그래프를 구축한다.
본 실시예에서 S102를 실행하고, 구축된 행위 그래프에서, 복수의 노드와 복수의 노드 사이의 에지를 포함하고, 그 중, 본 실시예에서 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 행위 그래프 내의 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 제2 식별 정보와 검색 어구 사이의 관계를 행위 그래프 내의 에지로 한다.
구체적으로, 본 실시예에서 S102를 실행하고, 행위 그래프를 구축할 때, 제1 식별 정보와 검색 어구 사이의 관계는 검색 행위 관계이며, 서로 다른 검색 어구가 어느 입력단으로부터 입력되는지를 가리키는데 사용되고, 제1 식별 정보와 제2 식별 정보 사이의 관계는 검색 행위 관계이며, 서로 다른 세션이 어느 입력단으로부터 시작할지를 가리키는데 사용되고, 제2 식별 정보와 검색 어구 사이의 관계는 검색 귀속 관계이며, 같은 세션으로 입력단이 어떠한 검색 어구를 입력하였는지를 가리키는데 사용된다.
예를 들어, 본 실시예에서 S101을 실행하고, 획득된 검색 데이터가 입력단 1, 검색 어구 1, 검색 어구 2, Session 1 및 Session 2을 포함하고, 입력단 1이 Session 1로 검색 어구 1을 입력하고, Session 2로 검색 어구 2을 입력했을 경우, 본 실시예에서 S102를 실행하고, 구축된 행위 그래프에서, 입력단 1과 검색 어구 1 사이의 에지, 입력단 1과 검색 어구 2 사이의 에지, 입력단 1과 Session 1 사이의 에지, 입력단 1과 Session 2 사이의 에지, Session 1과 검색 어구 1 사이의 에지 및 Session 2과 검색 어구 2 사이의 에지를 구축한다.
또한, 본 실시예에서 S102를 실행하고, 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 검색 어구와 제2 식별 정보 사이의 관계를 에지로 하고, 행위 그래프를 구축할 때, 사용할 수 있는 선택 가능한 구현 방식은, 이미 알려진 타겟 워드를 획득하고, 이미 알려진 타겟 워드, 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계, 검색 어구와 제2 식별 정보 사이의 관계 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 에지로 하고, 행위 그래프를 구축하고, 본 실시예에서 구축된 행위 그래프에서, 검색 어구와 이미 알려진 타겟 워드 사이의 관계는, 검색 민감 관계이며, 입력단에 의해 입력된 검색 어구가 민감 내용에 관련된 것인지 여부를 가리키는데 사용된다.
본 실시예에서, 이미 알려진 타겟 워드는 이미 알려진 민감 워드이다. 즉, 본 실시예에서 행위 그래프를 구축할 때, 또한, 이미 알려진 타겟 워드 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 추가하여, 행위 그래프의 완전성을 향상하고, 행위 그래프 내의 검색 어구의 미리 설정된 라벨을 라벨링할 때의 정확성을 더 향상시킨다.
본 실시예에서 S102를 실행하고, 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 에지로 할 때, 검색 어구와 이미 알려진 타겟 워드를 매칭하고, 매칭 결과에 따라 검색 어구에 포함되는 이미 알려진 타겟 워드를 결정하고, 또한, 행위 그래프에서의 검색 어구와 당해 검색 어구에 포함되는 이미 알려진 타겟 워드 사이의 에지를 구축할 수 있다.
예를 들어, 본 실시예에서 S102를 실행하고, 획득된 이미 알려진 타겟 워드가 타겟 워드 1과 타겟 워드 2이며, 검색 어구 1이 타겟 워드 2를 포함하고, 검색 어구 2가 타겟 워드 1을 포함할 경우, 본 실시예에서 S102를 실행하고, 구축된 행위 그래프에서, 검색 어구 1과 타겟 워드 2 사이의 에지를 구축하고, 검색 어구 2과 타겟 워드 1 사이의 에지를 구축한다.
본 실시예에서 S102를 실행하고, 행위 그래프를 구축한 후, S103을 실행하고, 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하고, 본 실시예에서의 미리 설정된 라벨은 민감 라벨이며, 본 실시예에서의 라벨 벡터는 검색 어구가 다른 미리 설정된 라벨에 속하는 확률 정보를 지시하는데 사용된다.
본 실시예에서 S103을 실행할 때, 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구는 제1 검색 어구이며, 당해 제1 검색 어구는 이미 알려진 타겟 워드를 포함하고, 제1 검색 어구의 미리 설정된 라벨은 포함되는 이미 알려진 타겟 워드에 대응하는 라벨이다.
본 실시예에서 S102를 실행하고, 구축된 행위 그래프에서, 이미 알려진 타겟 워드 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 포함할 경우, 본 실시예에서 S103을 실행할 때, 직접 이미 알려진 타겟 워드와 연속 관계가 존재하는 검색 어구를 제1 검색 어구로 하고, 연속된 이미 알려진 타겟 워드에 따라 제1 검색 어구의 미리 설정된 라벨을 획득할 수 있다.
본 실시예에서 S102를 실행하고, 구축된 행위 그래프에서, 이미 알려진 타겟 워드 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계가 포함되어 있지 않을 경우, 본 실시예에서 S103을 실행할 때, 행위 그래프로부터 선택된 특정한 어구를 제1 검색 어구로 하고, 제1 검색 어구의 미리 설정된 라벨을 라벨링할 수 있다.
구체적으로, 본 실시예에서 S103을 실행하고, 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정하고, 인접한 검색 어구는 제1 검색 어구를 포함하고, 결정된 인접한 검색 어구의 미리 설정된 라벨에 따라, 각 검색 어구의 라벨 벡터를 획득한다.
다시 말하면, 본 실시예에서 S103을 실행하고, 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하고, 즉 행위 그래프 내의 노드 사이의 관계에 따라, 미리 설정된 라벨을 구비한 검색 어구의 미리 설정된 라벨을 미리 설정된 라벨이 없는 검색 어구에 전달한다.
본 실시예에서 S103을 실행하고, 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정할 때, 사용할 수 있는 선택 가능한 구현 방식은, 행위 그래프 내의 각 검색 어구에 대해, 현재 검색 어구와 동일한 제1 식별 정보 및 동일한 제2 식별 정보 중의 적어도 하나를 가진 검색 어구를, 현재 검색 어구의 인접한 검색 어구로 한다.
본 실시예에서 S103을 실행하고, 사용되는 제1 식별 정보는, 미리 설정된 제1 식별 정보일 수 있고, 예를 들어, 지정된 입력단의 식별 정보에 대응하고, 본 실시예에서 S103을 실행하고, 사용되는 제2 식별 정보는, 미리 설정된 제2 식별 정보일 수 있고, 예를 들어, 미리 설정된 라벨을 구비한 검색 어구의 세션 식별 정보를 포함한다.
다시 말하면, 본 실시예는 "사용자가 타겟 워드를 포함하는 검색 어구를 입력하여 검색한 후, 당해 사용자가 입력한 기타 검색 어구에 타겟 워드가 포함될 가능성이 있을 경우", "사용자가 일회의 세션 중에 타겟 워드를 포함하는 검색 어구를 입력하여 검색하고, 당해 사용자가 이번 세션 중에 입력한 기타 검색 어구에 타겟 워드가 포함될 가능성이 있을 경우"에 기반한다고 가정하면, 행위 그래프 내의 각 검색 어구의 인접한 검색 어구를 정확하게 결정하고, 획득된 확률 정보의 정확성을 더 향상시킬 수 있다.
본 실시예에서 S103을 실행하고, 결정된 인접한 검색 어구의 미리 설정된 라벨에 따라, 각 검색 어구의 라벨 벡터를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 각 검색 어구에 대해, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를, 각 검색 어구의 라벨 벡터로 획득하고, 검색 어구 내의 검증 샘플의 라벨 벡터라고 라벨링 결과에 따라 손실값을 계산하고, 본 실시예에서의 검증 샘플은 미리 설정되고, 예를 들어, 행위 그래프에서 일정한 수의 검색 어구를 검증 샘플로 선택하여 라벨링하고, 본 실시예에서, 라벨 벡터와 라벨링 결과 사이의 유사도를 손실값으로 계산하고, 계산된 손실값이 미리 설정된 조건을 만족하지 않는다고 결정되었을 경우, 각 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을 각 검색 어구의 미리 설정된 라벨로 한 후, 계산된 손실값이 미리 설정된 조건을 만족시킬 때까지, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를, 각 검색 어구의 라벨 벡터로 획득하는 단계로 이전하여 실행할 수 있다.
다시 말하면, 본 실시예는 미리 설정된 검증 샘플을 결합하고, 부단히 반복하는 방식으로 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하고, 획득된 라벨 벡터의 정확성을 향상시키고, 대응하는 추출된 타겟 워드의 정확성을 향상시킬 수 있다.
예를 들어, 본 실시예에서의 미리 설정된 라벨은 라벨 1, 라벨 2 및 라벨 3을 포함하고, 검증 샘플이 행위 그래프 내의 검색 어구 1이며, 검색 어구 1의 미리 설정된 라벨이 라벨 2일 경우, 검색 어구 1의 라벨링 결과는 (0, 1, 0)이며, 획득된 검색 어구 1의 라벨 벡터가 (0.1, 0.7, 0.2)일 경우, (0, 1, 0)과 (0.1, 0.7, 0.2) 사이의 유사도를 계산하고, 예를 들어, 코사인 유사도를, 손실값으로 한다.
본 실시예에서 S103을 실행하고, 계산된 손실값이 미리 설정된 조건을 만족하는지 여부를 결정할 때, 계산된 손실값이 미리 설정된 손실 역치보다 큰지 여부를 결정할 수 있고, 계산된 손실값이 미리 설정된 손실 역치보다 큰 회수가 미리 설정된 회수를 초과하는지 여부를 결정할 수도 있다.
본 실시예에서 S103을 실행하고, 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득한 후, S104를 실행하고, 획득된 라벨 벡터에 따라 행위 그래프 내의 타겟 검색 어구를 결정한다.
본 실시예에서 S104를 실행하고, 획득된 라벨 벡터에 따라 행위 그래프 내의 타겟 검색 어구를 결정할 때, 사용할 수 있는 선택 가능한 구현 방식은, 각 검색 어구에 대해, 현재 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을, 현재 검색 어구의 라벨링된 라벨로 하고, 라벨링된 라벨의 라벨 역치를 획득하고, 최대 확률값이 획득된 라벨 역치보다 큰 것으로 결정되었을 경우, 현재 검색 어구를 타겟 검색 어구로 한다.
다시 말하면, 본 실시예는 라벨링된 라벨의 라벨 역치를 설치하는 방식으로, 타겟 워드를 포함하지 않는 검색 어구를 타겟 검색 어구로 하는 문제를 가능한 회피하고, 행위 그래프 내의 타겟 검색 어구를 보다 정확하게 결정할 수 있다.
본 실시예에서 S104를 실행하고, 획득된 라벨 벡터에 따라 행위 그래프 내의 타겟 검색 어구를 결정할 때, 직접 확률값이 모두 제로가 아닌 라벨 벡터에 대응하는 검색 어구를 타겟 검색 어구로 할 수도 있다.
또한, 본 실시예에서 S104를 실행하고, 행위 그래프 내의 타겟 검색 어구를 결정한 후, 결정된 타겟 검색 어구 내의 이미 알려진 검색 어구를 제거하는 단계를 더 포함할 수 있다.
본 실시예에서 S104를 실행하고, 타겟 검색 어구를 결정한 후, S105를 실행하고, 결정된 타겟 검색 어구로부터 타겟 워드를 추출하고, 추출된 타겟 워드를 검색 데이터의 단어 마이닝 결과로 하고, 본 실시예에서 S106을 실행하고, 타겟 검색 어구로부터 추출된 타겟 워드는 민감 워드이다.
구체적으로, 본 실시예에서 S105를 실행하고, 결정된 타겟 검색 어구로부터 타겟 워드를 추출할 때, 사용할 수 있는 선택 가능한 구현 방식은, 타겟 검색 어구를 미리 트레이닝된 타겟 워드 예측 모델에 입력하고, 타겟 워드 예측 모델의 출력 결과에 따라, 타겟 검색 어구 내의 타겟 워드를 추출한다.
또한, 본 실시예에서 S105를 실행하고, 타겟 검색 어구로부터 타겟 워드를 추출할 때, 타겟 검색 어구와 타겟 검색 어구의 라벨링된 라벨에 따라 타겟 워드를 추출할 수도 있고, 예를 들어, 타겟 검색 어구와 타겟 검색 어구의 라벨링된 라벨을 타겟 워드 예측 모델에 모두 입력하여, 추출된 타겟 워드의 정확성을 향상시킬 수 있다.
본 실시예에서 S105를 실행하고, 타겟 검색 어구로부터 타겟 워드를 추출한 후, 즉 추출된 타겟 워드를 검색 데이터의 단어 마이닝 결과로 할 수 있다.
본 실시예의 S105를 실행하고, 획득된 단어 마이닝 결과를 사용하여, 텍스트에 타겟 워드가 출현하였는지 여부를 정확하게 판단할 수 있고, 또는 단어 마이닝 결과를 이미 알려진 타겟 워드로 하고, 다른 검색 데이터 내의 타겟 워드를 계속 추출할 수 있다.
본 실시예의 상술한 방법에 따르면, 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보에 따라 행위 그래프를 구축한 후, 행위 그래프 내의 미리 설정된 라벨을 구비한 제1 검색 어구와 행위 그래프 내의 각 노드 사이의 관계를 통해, 행위 그래프 내의 타겟 검색 어구를 결정하고, 또한, 타겟 검색 어구로부터 추출된 타겟 워드를 검색 데이터의 단어 마이닝 결과로 하고, 본 실시예에서, 검색 데이터에서의 검색 행위 사이의 관련성에 따라 타겟 워드를 마이닝하므로, 타겟 워드를 마이닝할 때의 정확성 및 효율을 향상시킨다.
도 2는 본 발명의 제2 실시예에 따른 개략도이다. 도 2에 도시된 바와 같이, 본 실시예는 하기의 방식을 사용하여 타겟 워드 예측 모델을 미리 트레이닝하여 획득하고,
S201, 트레이닝 데이터를 획득하고, 상기 트레이닝 데이터는, 복수의 트레이닝 어구와 복수의 트레이닝 어구의 타겟 워드 라벨링 결과를 포함하고,
S202, 제1 네트워크층, 제2 네트워크층 및 제3 네트워크층을 포함하는 뉴럴 네트워크 모델을 구축하고,
S203, 상기 복수의 트레이닝 어구와 복수의 트레이닝 어구의 타겟 워드 라벨링 결과를 사용하여 상기 뉴럴 네트워크 모델을 트레이닝하고, 상기 타겟 워드 예측 모델을 획득한다.
그 중, 본 실시예에서 S201을 실행하고, 획득된 트레이닝 데이터에서, 트레이닝 어구의 타겟 워드 라벨링 결과가 BIO 라벨링 방법으로 획득되고, 타겟 워드 라벨링 결과 내의 라벨 B는 타겟 워드의 시작을 나타내고, 라벨 I는 타겟 워드의 내용을 나타내고, 라벨 O는 타겟 워드의 외부를 나타낸다.
본 실시예에서 S202를 실행하고, 구축된 뉴럴 네트워크 모델에서, 제1 네트워크층은 입력된 어구 내의 각 시맨틱 단위 (예를 들어, 문자 또는 워드)의 시맨틱 정보를 출력하는데 사용되고, 제1 네트워크층은 ERNIE 등과 같은 사전 트레이닝 모델일 수 있고, 제2 네트워크층은 제1 네트워크층의 출력 결과에 따라, 입력된 어구 내의 각 시맨틱 단위의 예측 라벨을 출력하는데 사용되고, 제2 네트워크층은 장단기 저장 네트워크(Long Short-Term Memory, LSTM)일 수 있고, 예를 들어, 쌍방향 장단기 저장 네트워크이며, 제3 네트워크층은 제2 네트워크층의 출력 결과에 따라, 입력된 어구의 최적 라벨 시퀀스를 출력하는데 사용되고, 제3 네트워크층은 조건부 확률장 (Conditional Random Field, CRF) 모델일 수 있다.
본 실시예에서 S203을 실행하고, 복수의 트레이닝 어구와 복수의 트레이닝 어구의 타겟 워드 라벨링 결과를 사용하여 뉴럴 네트워크 모델을 트레이닝하여, 타겟 워드 예측 모델을 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 복수의 트레이닝 어구를 뉴럴 네트워크 모델에 각각 입력하고, 뉴럴 네트워크 모델이 각 트레이닝 어구에 대하여 출력된 타겟 워드 예측 결과를 획득하고, 트레이닝 어구의 타겟 워드 예측 결과와 타겟 워드 라벨링 결과에 의해 계산된 손실 함수값에 따라, 뉴럴 네트워크 모델이 수렴될 때까지, 뉴럴 네트워크 모델의 파라미터를 조정하고, 타겟 워드 예측 모델을 획득한다.
본 실시예가 트레이닝된 타겟 워드 예측 모델을 사용하여, 타겟 검색 어구 내의 타겟 워드를 보다 정확하게 추출할 수 있다.
도 3은 본 발명의 제3 실시예에 따른 개략도이다. 도 3에 도시된 바와 같이, 본 실시예에서 S105를 실행하고, "상기 타겟 검색 어구로부터 타겟 워드를 추출한" 후, 하기와 같은 단계를 더 포함하고,
S301, 상기 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득하고,
S302, 상기 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도를 계산하고,
S303, 상기 매칭 정도가 미리 설정된 조건을 만족하는 것으로 결정되었을 경우, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 한다.
다시 말하면, 본 실시예는 타겟 워드로 구축된 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도에 따라, 타겟 검색 어구로부터 추출된 타겟 워드를 검증하고, 추출된 타겟 워드가 보다 높은 품질을 확보하고, 단어 마이닝 정확성을 향상시킬 수 있다.
본 실시예에서 S301을 실행하고, 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 추출된 타겟 워드를 사용하여 이미 알려진 검색 어구 내의 타겟 워드를 대체하고, 대체 텍스트에 따라 제1 샘플 세트를 획득하고, 추출된 타겟 워드를 사용하여 검색하고, 검색 결과에 타겟 워드를 포함하는 텍스트에 따라 제2 샘플 세트를 획득한다.
또한, 본 실시예에서 S301을 실행하고, 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 미리 설정된 시간 간격을 따르고, 추출된 타겟 워드를 사용하여 검색하고, 검색 결과에 타겟 워드를 포함하는 텍스트의 수가 미리 설정된 리콜 역치를 초과하는 것으로 결정되었을 경우, 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득한다.
본 실시예에서 S302를 실행하고, 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도를 계산할 때, 2개의 샘플 세트 내의 동일 또는 유사도가 미리 설정된 유사도 역치를 초과하는 텍스트의 수를, 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도로 할 수 있고, 2개의 샘플 세트 내의 동일 또는 유사도가 미리 설정된 유사도 역치를 초과하는 텍스트의 수와 제2 샘플 세트 내의 모든 텍스트의 수 사이의 나눈 결과를, 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도로 할 수도 있다.
도 4는 본 발명의 제4 실시예에 따른 개략도이다. 도 4는 본 실시예에서 미리 트레이닝된 타겟 워드 예측 모델을 사용하여 타겟 검색 어구 내의 타겟 워드를 추출하는 흐름도를 도시한다. 타겟 검색 어구는 문자 1, 문자 2, 문자 3, 문자 4, 문자 5 및 문자 6로부터 구성되고, 타겟 검색 어구를 타겟 워드 예측 모델에 입력하고, 제1 네트워크층, 제2 네트워크층 및 제3 네트워크층의 처리를 거쳐, 대응하는 라벨 시퀀스 "BIOOOO"를 출력하고, 라벨 시퀀스에 따라, 타겟 검색 어구 내의 라벨 B와 라벨 I에 대응하는 문자를 추출하여 타겟 워드로 하고, 즉 문자 1과 문자 2을 추출하여 타겟 워드를 획득한다.
도 5는 본 발명의 제5 실시예에 따른 개략도이다. 도 5에 도시된 바와 같이, 본 실시예의 단어 마이닝 장치(500)는, 획득 유닛(501), 구축 유닛(502), 처리 유닛(503), 결정 유닛(504) 및 마이닝 유닛(505)을 포함하고,
획득 유닛(501)은, 검색 데이터를 획득하는데 사용되고,
구축 유닛(502)은, 상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 검색 어구와 제2 식별 정보 사이의 관계를 에지로 하고, 행위 그래프를 구축하는데 사용되고,
처리 유닛(503)은, 상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하는데 사용되고,
결정 유닛(504)은, 상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하는데 사용되고,
마이닝 유닛(505)은, 상기 타겟 검색 어구로부터 타겟 워드를 추출하고, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 하는데 사용된다.
획득 유닛(501)에 의해 획득된 검색 데이터는 서로 다른 입력단이 검색할 때에 생성된 행위 데이터이며, 획득 유닛(501)은, 서로 다른 입력단에 대응하는 로그 데이터에 따라 검색 데이터를 획득할 수 있다.
획득 유닛(501)에 의해 획득된 검색 데이터는 제1 식별 정보, 검색 어구 및 제2 식별 정보를 포함하고, 그 중, 제1 식별 정보는 입력단의 식별 정보이며, 검색 어구는 입력단이 검색할 때에 입력된 쿼리 텍스트(query)이며, 제2 식별 정보는, 입력단이 검색할 때에 서버측에 의해 생성된 세션(Session) 식별 정보이다.
획득 유닛(501)에 의해 획득된 검색 데이터에서, 제2 식별 정보의 검색 시간 범위, 검색 어구의 검색 시간 등과 같은, 입력단이 검색할 때의 시간 정보를 더 포함할 수 있다.
본 실시예에서 획득 유닛(501)으로부터 검색 데이터를 획득한 후, 구축 유닛(502)으로부터 획득된 검색 데이터에 따라 행위 그래프를 구축한다.
구축 유닛(502)에 의해 구축된 행위 그래프에서, 복수의 노드와 복수의 노드 사이의 에지를 포함하고, 그 중, 구축 유닛(502)이 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 행위 그래프 내의 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 제2 식별 정보와 검색 어구 사이의 관계를 행위 그래프 내의 에지로 한다.
구체적으로, 구축 유닛(502)이 행위 그래프를 구축할 때, 제1 식별 정보와 검색 어구 사이의 관계는 검색 행위 관계이며, 서로 다른 검색 어구가 어느 입력단으로부터 입력되는지를 가리키는데 사용되고, 제1 식별 정보와 제2 식별 정보 사이의 관계는 검색 행위 관계이며, 서로 다른 세션이 어느 입력단으로부터 시작할지를 나타내는데 사용할 수 있어, 제2 식별 정보와 검색 어구 사이의 관계는 검색 귀속 관계이며, 같은 세션으로 입력단이 어떠한 검색 어구를 입력하였는지를 가리키는데 사용된다.
또한, 구축 유닛(502)이 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계 및 검색 어구와 제2 식별 정보 사이의 관계를 에지로 하고, 행위 그래프를 구축할 때, 사용할 수 있는 선택 가능한 구현 방식은, 이미 알려진 타겟 워드를 획득하고, 이미 알려진 타겟 워드, 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 제1 식별 정보와 검색 어구 사이의 관계, 제1 식별 정보와 제2 식별 정보 사이의 관계, 검색 어구와 제2 식별 정보 사이의 관계 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 에지로 하고, 행위 그래프를 구축한다.
다시 말하면, 구축 유닛(502)이 행위 그래프를 구축할 때, 또한, 이미 알려진 타겟 워드 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 추가하여, 행위 그래프의 완전성을 향상하고, 행위 그래프 내의 검색 어구의 미리 설정된 라벨을 라벨링할 때의 정확성을 더 향상시킨다.
구축 유닛(502)이 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 에지로 할 때, 검색 어구와 이미 알려진 타겟 워드를 매칭하고, 매칭 결과에 따라 검색 어구에 포함되는 이미 알려진 타겟 워드를 결정하고, 또한, 행위 그래프에서의 검색 어구와 당해 검색 어구에 포함되는 이미 알려진 타겟 워드 사이의 에지를 구축할 수 있다.
본 실시예에서, 구축 유닛(502)이 행위 그래프를 구축한 후, 처리 유닛(503)이 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하고, 처리 유닛(503)은, 획득된 라벨 벡터 검색 어구가 다른 미리 설정된 라벨에 속하는 확률 정보를 지시하는데 사용된다.
행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구는 제1 검색 어구이며, 구축 유닛(502)에 의해 구축된 행위 그래프에서, 이미 알려진 타겟 워드 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계를 포함할 경우, 처리 유닛(503)은, 직접 이미 알려진 타겟 워드와 연속 관계가 존재하는 검색 어구를 제1 검색 어구로 하고, 연속된 이미 알려진 타겟 워드에 따라 제1 검색 어구의 미리 설정된 라벨을 획득할 수 있다.
구축 유닛(502)에 의해 구축된 행위 그래프에서, 이미 알려진 타겟 워드 및 검색 어구와 이미 알려진 타겟 워드 사이의 관계가 포함되어 있지 않을 경우, 처리 유닛(503)은, 행위 그래프로부터 선택된 특정한 어구를 제1 검색 어구로 하고, 제1 검색 어구의 미리 설정된 라벨을 라벨링할 수 있다.
처리 유닛(503)이 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정하고, 이에 따라 결정된 인접한 검색 어구의 타겟 라벨, 각 검색 어구의 라벨 벡터를 획득한다.
다시 말하면, 처리 유닛(503)은, 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하고, 즉 행위 그래프 내의 노드 사이의 관계에 따라, 미리 설정된 라벨을 구비한 검색 어구의 미리 설정된 라벨을 미리 설정된 라벨이 없는 검색 어구에 전달한다.
처리 유닛(503)은, 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정할 때, 사용할 수 있는 선택 가능한 구현 방식은, 행위 그래프 내의 각 검색 어구에 대해, 현재 검색 어구와 동일한 제1 식별 정보 및 동일한 제2 식별 정보 중의 적어도 하나를 가진 검색 어구를, 현재 검색 어구의 인접한 검색 어구로 한다.
처리 유닛(503)에서 사용되는 제1 식별 정보는, 미리 설정된 제1 식별 정보일 수 있고, 예를 들어, 지정된 입력단의 입력단 식별 정보에 대응하고, 처리 유닛(503)에서 사용되는 제2 식별 정보는, 미리 설정된 제2 식별 정보일 수 있고, 예를 들어, 미리 설정된 라벨을 구비한 검색 어구의 세션 식별 정보를 포함한다.
처리 유닛(503)이 결정된 인접한 검색 어구의 미리 설정된 라벨에 따라, 각 검색 어구의 라벨 벡터를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 각 검색 어구에 대해, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를, 각 검색 어구의 라벨 벡터로 획득하고, 검색 어구 내의 검증 샘플의 라벨 벡터와 라벨링 결과에 따라 손실값을 계산하고, 계산된 손실값이 미리 설정된 조건을 만족하지 않는다고 결정되었을 경우, 각 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을 각 검색 어구의 미리 설정된 라벨로 한 후, 계산된 손실값이 미리 설정된 조건을 만족시킬 때까지, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를, 각 검색 어구의 라벨 벡터로 획득하는 단계로 이전하여 실행한다.
다시 말하면, 처리 유닛(503)이 미리 설정된 검증 샘플을 결합하고, 부단히 반복하는 방식으로 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하고, 획득된 라벨 벡터의 정확성을 향상시키고, 대응하는 추출된 타겟 워드의 정확성을 향상시킬 수 있다.
처리 유닛(503)이 계산된 손실값이 미리 설정된 조건을 만족하는지 여부를 결정할 때, 계산된 손실값이 미리 설정된 손실 역치보다 큰지 여부를 결정할 수 있고, 계산된 손실값이 미리 설정된 손실 역치보다 큰 회수가 미리 설정된 회수를 초과하는지 여부를 결정할 수도 있다.
본 실시예에서 처리 유닛(503)으로부터 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득한 후, 결정 유닛(504)으로부터 획득된 라벨 벡터에 따라 행위 그래프 내의 타겟 검색 어구를 결정한다.
결정 유닛(504)이 획득된 라벨 벡터에 따라 행위 그래프 내의 타겟 검색 어구를 결정할 때, 사용할 수 있는 선택 가능한 구현 방식은, 각 검색 어구에 대해, 현재 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을, 현재 검색 어구의 라벨링된 라벨로 하고, 라벨링된 라벨의 라벨 역치를 획득하고, 최대 확률값이 획득된 라벨 역치보다 큰 것으로 결정되었을 경우, 현재 검색 어구를 타겟 검색 어구로 한다.
다시 말하면, 결정 유닛(504)이 라벨링된 라벨의 라벨 역치를 설치하는 방식으로, 타겟 워드를 포함하지 않는 검색 어구를 타겟 검색 어구로 하는 문제를 가능한 회피하고, 행위 그래프 내의 타겟 검색 어구를 보다 정확하게 결정할 수 있다.
결정 유닛(504)이 획득된 라벨 벡터에 따라 행위 그래프 내의 타겟 검색 어구를 결정할 때, 직접 확률값이 모두 제로가 아닌 라벨 벡터에 대응하는 검색 어구를 타겟 검색 어구로 할 수도 있다.
또한, 결정 유닛(504)이 행위 그래프 내의 타겟 검색 어구를 결정한 후, 결정된 타겟 검색 어구 내의 이미 알려진 검색 어구를 제거하는 것을 더 포함할 수 있다.
본 실시예에서 결정 유닛(504)으로부터 타겟 검색 어구를 결정한 후, 마이닝 유닛(505)으로부터 결정된 타겟 검색 어구로부터 타겟 워드를 추출하고, 추출된 타겟 워드를 검색 데이터의 단어 마이닝 결과로 한다.
마이닝 유닛(505)이 결정된 타겟 검색 어구로부터 타겟 워드를 추출할 때, 사용할 수 있는 선택 가능한 구현 방식은, 타겟 검색 어구를 미리 트레이닝된 타겟 워드 예측 모델에 입력하고, 타겟 워드 예측 모델의 출력 결과에 따라, 타겟 검색 어구 내의 타겟 워드를 추출한다.
또한, 마이닝 유닛(505)이 타겟 검색 어구로부터 타겟 워드를 추출할 때, 타겟 검색 어구와 타겟 검색 어구의 라벨링된 라벨에 따라 타겟 워드를 추출할 수도 있고, 예를 들어, 타겟 검색 어구와 타겟 검색 어구의 라벨링된 라벨을 타겟 워드 예측 모델에 모두 입력하여, 추출된 타겟 워드의 정확성을 향상시킬 수 있다.
본 실시예의 단어 마이닝 장치(500)는 트레이닝 유닛(506)을 더 포함하고, 트레이닝 유닛(506)은, 하기의 방식을 사용하여 타겟 워드 예측 모델을 미리 트레이닝하여 획득하는데 사용되고, 상기 방식은, 트레이닝 데이터를 획득하고, 획득된 트레이닝 데이터는, 복수의 트레이닝 어구와 복수의 트레이닝 어구의 타겟 워드 라벨링 결과를 포함하고, 제1 네트워크층, 제2 네트워크층 및 제3 네트워크층을 포함하는 뉴럴 네트워크 모델을 구축하고, 복수의 트레이닝 어구와 복수의 트레이닝 어구의 타겟 워드 라벨링 결과를 사용하여 뉴럴 네트워크 모델을 트레이닝하여, 타겟 워드 예측 모델을 획득한다.
그 중, 트레이닝 유닛(506)에 의해 획득된 트레이닝 데이터에서, 트레이닝 어구의 타겟 워드 라벨링 결과가 BIO 라벨링 방법으로 획득되고, 타겟 워드 라벨링 결과 내의 라벨 B는 타겟 워드의 시작을 나타내고, 라벨 I는 타겟 워드의 내용을 나타내고, 라벨 O는 타겟 워드의 외부를 나타낸다.
트레이닝 유닛(506)에 의해 구축된 뉴럴 네트워크 모델에서, 제1 네트워크층은 입력된 어구 내의 각 시맨틱 단위 (예를 들어, 문자 또는 워드)의 시맨틱 정보를 출력하는데 사용되고, 제2 네트워크층은, 제1 네트워크층의 출력 결과에 따라, 입력된 어구 내의 각 시맨틱 단위의 예측 라벨을 출력하는데 사용되고, 제3 네트워크층은, 제2 네트워크층의 출력 결과에 따라, 입력된 어구의 최적 라벨 시퀀스를 출력하는데 사용된다.
트레이닝 유닛(506)이 복수의 트레이닝 어구와 복수의 트레이닝 어구의 타겟 워드 라벨링 결과를 사용하여 뉴럴 네트워크 모델을 트레이닝하여, 타겟 워드 예측 모델을 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 복수의 트레이닝 어구를 뉴럴 네트워크 모델에 각각 입력하고, 뉴럴 네트워크 모델이 각 트레이닝 어구에 대하여 출력된 타겟 워드 예측 결과를 획득하고, 트레이닝 어구의 타겟 워드 예측 결과와 타겟 워드 라벨링 결과에 의해 계산된 손실 함수값에 따라, 뉴럴 네트워크 모델이 결속할 때까지, 뉴럴 네트워크 모델의 파라미터를 조정하고, 타겟 워드 예측 모델을 획득한다.
본 실시예의 단어 마이닝 장치(500)는 평가 유닛(507)을 더 포함하고, 평가 유닛(507)은, 마이닝 유닛(505)이 타겟 검색 어구로부터 타겟 워드를 추출한 후, 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득하고, 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도를 계산하고, 매칭 정도가 미리 설정된 조건을 만족하는 것으로 결정되었을 경우, 타겟 워드를 검색 데이터의 단어 마이닝 결과로 하는데 사용된다.
평가 유닛(507)이 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 추출된 타겟 워드를 사용하여 이미 알려진 검색 어구 내의 타겟 워드를 대체하고, 대체 텍스트에 따라 제1 샘플 세트를 획득하고, 추출된 타겟 워드를 사용하여 검색하고, 검색 결과에 타겟 워드를 포함하는 텍스트에 따라 제2 샘플 세트를 획득한다.
또한, 평가 유닛(507)이 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득할 때, 사용할 수 있는 선택 가능한 구현 방식은, 미리 설정된 시간 간격을 따르고, 추출된 타겟 워드를 사용하여 검색하고, 검색 결과에 타겟 워드를 포함하는 텍스트의 수가 미리 설정된 리콜 역치를 초과하는 것으로 결정되었을 경우, 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득한다.
평가 유닛(507)이 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도를 계산할 때, 2개의 샘플 세트 내의 동일 또는 유사도가 미리 설정된 유사도 역치를 초과하는 텍스트의 수를, 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도로 할 수 있고, 2개의 샘플 세트 내의 동일 또는 유사도가 미리 설정된 유사도 역치를 초과하는 텍스트의 수와 제2 샘플 세트 내의 모든 텍스트의 수 사이의 나눈 결과를, 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도로 할 수도 있다.
본 발명의 기술안에서, 관련된 사용자 개인 정보의 획득, 저장, 응용 등은, 모두 관련 법률 및 규정에 부합되고, 공서양속을 위반하지 않는다.
본 발명의 실시예에 따르면, 본 발명은 또한, 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 제공한다.
도 6에 도시된 바와 같이, 본 발명의 실시예에 따른 단어 마이닝 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 디지털 비서, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 6에 도시된 바와 같이, 기기(600)는 컴퓨팅 유닛(601)을 포함하고, 컴퓨팅 유닛(601)은 판독 전용 메모리(ROM)(602)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(608)으로부터 랜덤 액세스 메모리(RAM)(603)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(603)에는 기기(600)가 동작하는데 필요한 여러 가지 프로그램과 데이터도 저장할 수 있다. 컴퓨팅 유닛(601), ROM(602) 및 RAM(603)는 버스(604)를 통해 서로 연결된다. 입력/출력 (I/O) 인터페이스(605)도 버스(604)에 연결된다.
기기(600) 중의 복수 컴포넌트는 I/O 인터페이스(605)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(606); 여러 가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(607); 디스크, 광디스크 등과 같은 저장 유닛(608) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(609)을 포함한다. 통신 유닛(609)은 기기(600)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러 가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.
컴퓨팅 유닛(601)은 여러 가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 컴퓨팅 유닛(601)의 일부 예는, 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI) 계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 컴퓨팅 유닛(601)은 단어 마이닝 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 단어 마이닝 방법은 저장 유닛(608) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다.
일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(602) 및 통신 유닛(609) 중의 적어도 하나를 통해 기기(600)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(603)에 로드되어 컴퓨팅 유닛(601)에 의해 실행될 경우, 상기의 단어 마이닝 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(601)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 단어 마이닝 방법을 실행하도록 구성될 수 있다.
설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.
본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 기록 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 기록 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 또는 클라우드 호스트일 수도 있으며, 클라우드 계산 서비스 시스템 중의 하나의 호스트 제품일 수 있어, 종래의 물리 호스트와 VPS 서비스("Virtual Private Server" 또는 "VPS"라고 약칭한다)에 존재하는 관리 곤란도가 높고, 업무 확장성이 약한 것을 해결한다. 서버는 분산 시스템의 서버일 수 있거나, 또는 블록 체인을 결합한 서버일 수도 있다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims (17)

  1. 단어 마이닝 방법에 있어서,
    검색 데이터를 획득하는 단계;
    상기 검색 데이터 내의 제1 식별 정보, 검색 어구(語句, sentence) 및 제2 식별 정보를 노드로 사용하고, 상기 제1 식별 정보와 상기 검색 어구 사이의 관계, 상기 제1 식별 정보와 상기 제2 식별 정보 사이의 관계 및 상기 검색 어구와 상기 제2 식별 정보 사이의 관계를 에지로 사용하고, 행위 그래프를 구축하는 단계;
    상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하는 단계;
    상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하는 단계; 및
    상기 타겟 검색 어구로부터 타겟 워드를 추출하고, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 하는 단계;를 포함하는,
    단어 마이닝 방법.
  2. 제1항에 있어서,
    상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 하고, 상기 제1 식별 정보와 상기 검색 어구 사이의 관계, 상기 제1 식별 정보와 상기 제2 식별 정보 사이의 관계 및 상기 검색 어구와 상기 제2 식별 정보 사이의 관계를 에지로 사용하고, 행위 그래프를 구축하는 단계는,
    이미 알려진 타겟 워드를 획득하는 단계;
    상기 이미 알려진 타겟 워드, 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 사용하는 단계; 및
    상기 제1 식별 정보와 상기 검색 어구 사이의 관계, 상기 제1 식별 정보와 상기 제2 식별 정보 사이의 관계, 상기 검색 어구와 상기 제2 식별 정보 사이의 관계 및 상기 검색 어구와 상기 이미 알려진 타겟 워드 사이의 관계를 에지로 사용하고, 행위 그래프를 구축하는 단계;를 포함하는,
    단어 마이닝 방법.
  3. 제1항에 있어서,
    상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하는 단계는,
    상기 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정하는 단계; 및
    상기 인접한 검색 어구의 미리 설정된 라벨에 따라, 각 검색 어구의 라벨 벡터를 획득하는 단계;를 포함하는,
    단어 마이닝 방법.
  4. 제3항에 있어서,
    상기 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정하는 단계는,
    각 검색 어구에 대해, 현재 검색 어구와 동일한 제1 식별 정보 및 동일한 제2 식별 정보 중의 적어도 하나를 가진 검색 어구를, 현재 검색 어구의 인접한 검색 어구로 사용하는 단계를 포함하는,
    단어 마이닝 방법.
  5. 제3항에 있어서,
    상기 인접한 검색 어구의 미리 설정된 라벨에 따라, 각 검색 어구의 라벨 벡터를 획득하는 단계는,
    각 검색 어구에 대해, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를 획득하여 각 검색 어구의 라벨 벡터로 사용하는 단계;
    검색 어구 내의 검증 샘플의 라벨 벡터와 라벨링 결과에 따라 손실값을 계산하는 단계; 및
    계산된 손실값이 미리 설정된 조건을 만족하지 않는다고 결정되었을 경우, 각 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을 각 검색 어구의 미리 설정된 라벨로 사용한 후, 계산된 손실값이 미리 설정된 조건을 만족시킬 때까지, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를 획득하여 각 검색 어구의 라벨 벡터로 사용하는 단계로 이전하여 실행하는 단계; 를 포함하는,
    단어 마이닝 방법.
  6. 제1항에 있어서,
    상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하는 단계는,
    각 검색 어구에 대해, 현재 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을, 현재 검색 어구의 라벨링된 라벨로 사용하는 단계;
    상기 라벨링된 라벨의 라벨 역치를 획득하는 단계; 및
    최대 확률값이 상기 라벨 역치보다 큰 것으로 결정되었을 경우, 현재 검색 어구를 타겟 검색 어구로 사용하는 단계;를 포함하는,
    단어 마이닝 방법.
  7. 제1항에 있어서,
    상기 타겟 검색 어구로부터 타겟 워드를 추출한 후, 상기 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득하는 단계;
    상기 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도를 계산하는 단계;
    상기 매칭 정도가 미리 설정된 조건을 만족하는 것으로 결정되었을 경우, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 사용하는 단계;를 더 포함하는,
    단어 마이닝 방법.
  8. 단어 마이닝 장치에 있어서,
    검색 데이터를 획득하기 위한 획득 유닛;
    상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 사용하고, 상기 제1 식별 정보와 상기 검색 어구 사이의 관계, 상기 제1 식별 정보와 상기 제2 식별 정보 사이의 관계 및 상기 검색 어구와 상기 제2 식별 정보 사이의 관계를 에지로 사용하고, 행위 그래프를 구축하기 위한 구축 유닛;
    상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득하기 위한 처리 유닛;
    상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정하기 위한 결정 유닛; 및
    상기 타겟 검색 어구로부터 타겟 워드를 추출하고, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 사용하기 위한 마이닝 유닛;을 포함하는,
    단어 마이닝 장치.
  9. 제8항에 있어서,
    상기 구축 유닛이 상기 검색 데이터 내의 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 사용하고, 상기 제1 식별 정보와 상기 검색 어구 사이의 관계, 상기 제1 식별 정보와 상기 제2 식별 정보 사이의 관계 및 상기 검색 어구와 상기 제2 식별 정보 사이의 관계를 에지로 사용하고, 행위 그래프를 구축할 때, 구체적으로,
    이미 알려진 타겟 워드를 획득하고,
    상기 이미 알려진 타겟 워드, 제1 식별 정보, 검색 어구 및 제2 식별 정보를 노드로 사용하고,
    상기 제1 식별 정보와 상기 검색 어구 사이의 관계, 상기 제1 식별 정보와 상기 제2 식별 정보 사이의 관계, 상기 검색 어구와 상기 제2 식별 정보 사이의 관계 및 상기 검색 어구와 상기 이미 알려진 타겟 워드 사이의 관계를 에지로 사용하고, 행위 그래프를 구축하는,
    단어 마이닝 장치.
  10. 제8항에 있어서,
    상기 처리 유닛이 상기 행위 그래프 내의 미리 설정된 라벨을 구비한 검색 어구에 따라, 상기 행위 그래프 내의 각 검색 어구의 라벨 벡터를 획득할 때, 구체적으로,
    상기 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정하고,
    상기 인접한 검색 어구의 미리 설정된 라벨에 따라, 각 검색 어구의 라벨 벡터를 획득하는,
    단어 마이닝 장치.
  11. 제10항에 있어서,
    상기 처리 유닛이 상기 행위 그래프 내의 미리 설정된 노드 사이의 관계에 따라, 각 검색 어구의 인접한 검색 어구를 결정할 때, 구체적으로,
    각 검색 어구에 대해, 현재 검색 어구와 동일한 제1 식별 정보 및 동일한 제2 식별 정보 중의 적어도 하나를 가진 검색 어구를, 현재 검색 어구의 인접한 검색 어구로 사용하는,
    단어 마이닝 장치.
  12. 제10항에 있어서,
    상기 처리 유닛이 상기 인접한 검색 어구의 미리 설정된 라벨에 따라, 각 검색 어구의 라벨 벡터를 획득할 때, 구체적으로,
    각 검색 어구에 대해, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를 획득하여 각 검색 어구의 라벨 벡터로 사용하고,
    검색 어구 내의 검증 샘플의 라벨 벡터와 라벨링 결과에 따라 손실값을 계산하고,
    계산된 손실값이 미리 설정된 조건을 만족하지 않는다고 결정되었을 경우, 각 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을 각 검색 어구의 미리 설정된 라벨로 한 후, 계산된 손실값이 미리 설정된 조건을 만족시킬 때까지, 인접한 검색 어구의 수와 서로 다른 미리 설정된 라벨의 출현 회수에 따라, 각 검색 어구가 서로 다른 미리 설정된 라벨에 속하는 확률 정보를 획득하여 각 검색 어구의 라벨 벡터로 사용하는 단계로 이전하여 실행하는,
    단어 마이닝 장치.
  13. 제8항에 있어서,
    상기 결정 유닛이 상기 라벨 벡터에 따라, 상기 행위 그래프 내의 타겟 검색 어구를 결정할 때, 구체적으로,
    각 검색 어구에 대해, 현재 검색 어구의 라벨 벡터에서의 최대 확률값에 대응하는 미리 설정된 라벨을, 현재 검색 어구의 라벨링된 라벨로 사용하고,
    상기 라벨링된 라벨의 라벨 역치를 획득하고,
    최대 확률값이 상기 라벨 역치보다 큰 것으로 결정되었을 경우, 현재 검색 어구를 타겟 검색 어구로 사용하는,
    단어 마이닝 장치.
  14. 제8항에 있어서,
    상기 장치는 평가 유닛을 더 포함하고, 상기 평가 유닛은,
    상기 마이닝 유닛 상기 타겟 검색 어구로부터 타겟 워드를 추출한 후, 상기 타겟 워드에 따라 제1 샘플 세트와 제2 샘플 세트를 획득하고,
    상기 제1 샘플 세트와 제2 샘플 세트 사이의 매칭 정도를 계산하고,
    상기 매칭 정도가 미리 설정된 조건을 만족하는 것으로 결정되었을 경우, 상기 타겟 워드를 상기 검색 데이터의 단어 마이닝 결과로 하는데 사용되는,
    단어 마이닝 장치.
  15. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제7항 중 어느 한 항의 방법이 수행되도록 하는,
    전자 기기.
  16. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체.
  17. 비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020220072455A 2021-08-12 2022-06-14 단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체 KR20230024832A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110925212.0A CN113807091B (zh) 2021-08-12 2021-08-12 词语挖掘方法、装置、电子设备和可读存储介质
CN202110925212.0 2021-08-12

Publications (1)

Publication Number Publication Date
KR20230024832A true KR20230024832A (ko) 2023-02-21

Family

ID=78893492

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220072455A KR20230024832A (ko) 2021-08-12 2022-06-14 단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체

Country Status (5)

Country Link
US (1) US20230052623A1 (ko)
EP (1) EP4134838A1 (ko)
JP (1) JP2023026362A (ko)
KR (1) KR20230024832A (ko)
CN (1) CN113807091B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11880511B1 (en) * 2023-01-30 2024-01-23 Kiloma Advanced Solutions Ltd Real-time automatic multilingual input correction

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160998B2 (en) * 2004-06-04 2012-04-17 Vitalsource Technologies, Inc. System, method and computer program product for providing content based upon a representation of the same
CN101751422A (zh) * 2008-12-08 2010-06-23 北京摩软科技有限公司 一种移动终端智能搜索的方法、移动终端和服务器
US20130024439A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Modeling search in a social graph
US8904171B2 (en) * 2011-12-30 2014-12-02 Ricoh Co., Ltd. Secure search and retrieval
US9679078B2 (en) * 2014-05-21 2017-06-13 Facebook, Inc. Search client context on online social networks
CN105262913A (zh) * 2015-09-08 2016-01-20 广东亿迅科技有限公司 基于数据挖掘的cti系统及自动化控制方法
CN106445989A (zh) * 2016-06-03 2017-02-22 新乡学院 基于查询点击图的检索推荐模型优化
US10049420B1 (en) * 2017-07-18 2018-08-14 Motorola Solutions, Inc. Digital assistant response tailored based on pan devices present
CN108763556A (zh) * 2018-06-01 2018-11-06 北京奇虎科技有限公司 基于需求词的用户挖掘方法及装置
US20210192134A1 (en) * 2019-09-04 2021-06-24 Brain Technologies, Inc. Natural query completion for a real-time morphing interface
CN111159348B (zh) * 2019-12-30 2023-10-20 苏州电力设计研究院有限公司 基于实体检索词的用户行为意图挖掘方法
CN111259162B (zh) * 2020-01-08 2023-10-03 百度在线网络技术(北京)有限公司 对话交互方法、装置、设备和存储介质
CN111274407B (zh) * 2020-01-15 2023-07-07 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置
JP7472587B2 (ja) * 2020-03-26 2024-04-23 富士通株式会社 エンコーディングプログラム、情報処理装置およびエンコーディング方法
CN111488386B (zh) * 2020-04-14 2023-09-29 北京易数科技有限公司 数据查询方法和装置
CN112148890B (zh) * 2020-09-23 2023-07-25 中国科学院自动化研究所 基于网络群体智能的教学知识点图谱系统
US11625434B2 (en) * 2020-12-04 2023-04-11 Maplebear Inc. Attribute node widgets in search results from an item graph

Also Published As

Publication number Publication date
CN113807091B (zh) 2022-07-22
EP4134838A1 (en) 2023-02-15
CN113807091A (zh) 2021-12-17
JP2023026362A (ja) 2023-02-24
US20230052623A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
CN112487173B (zh) 人机对话方法、设备和存储介质
CN112560501A (zh) 语义特征的生成方法、模型训练方法、装置、设备及介质
CN112466288A (zh) 语音识别方法、装置、电子设备及存储介质
CN112163405A (zh) 问题的生成方法和装置
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN114333982A (zh) 蛋白质表示模型预训练、蛋白质相互作用预测方法和装置
CN113836278B (zh) 通用对话模型的训练与对话生成方法、装置
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
US20220005461A1 (en) Method for recognizing a slot, and electronic device
CN112528641A (zh) 建立信息抽取模型的方法、装置、电子设备和可读存储介质
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
JP2023015215A (ja) テキスト情報の抽出方法、装置、電子機器及び記憶媒体
CN113408273B (zh) 文本实体识别模型的训练与文本实体识别方法、装置
CN114244795B (zh) 一种信息的推送方法、装置、设备及介质
KR20230024832A (ko) 단어 마이닝 방법, 장치, 전자 기기 및 판독 가능 기록 매체
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN113468857A (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN114841172A (zh) 文本匹配双塔模型的知识蒸馏方法、装置及程序产品
CN114818736A (zh) 文本处理方法、用于短文本的链指方法、装置及存储介质
CN114254650A (zh) 一种信息处理方法、装置、设备及介质
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN115131709B (zh) 视频类别预测方法、视频类别预测模型的训练方法及装置
CN113408297B (zh) 生成节点表示的方法、装置、电子设备和可读存储介质