KR102324048B1 - 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체 - Google Patents

커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체 Download PDF

Info

Publication number
KR102324048B1
KR102324048B1 KR1020190155197A KR20190155197A KR102324048B1 KR 102324048 B1 KR102324048 B1 KR 102324048B1 KR 1020190155197 A KR1020190155197 A KR 1020190155197A KR 20190155197 A KR20190155197 A KR 20190155197A KR 102324048 B1 KR102324048 B1 KR 102324048B1
Authority
KR
South Korea
Prior art keywords
verification
authority
data
target
dimension
Prior art date
Application number
KR1020190155197A
Other languages
English (en)
Other versions
KR20200096402A (ko
Inventor
먀오 위
신웨이 펑
환위 저우
순차오 송
송타이 다이
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200096402A publication Critical patent/KR20200096402A/ko
Application granted granted Critical
Publication of KR102324048B1 publication Critical patent/KR102324048B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • G06Q50/30

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Operations Research (AREA)

Abstract

본 발명의 실시예는 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체를 개시한다. 상기 방법은 커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하는 단계에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 단계와, 적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하는 단계와, 적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함한다. 본 발명의 실시예는 대량의 질의 응답 데이터에 대해 신속하게 권위성 검증을 진행하여 응답의 권위, 객관성 및 정확성을 효과적으로 보장할 수 있다.

Description

커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체{METHOD, APPARATUS, COMPUTER DEVICE AND STORAGE MEDIUM FOR VERIFYING COMMUNITY QUESTION ANSWER DATA}
본 발명의 실시예는 데이터 처리기술에 관한 것으로, 특히 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체에 관한 것이다.
과학기술의 발전과 인터넷 기술의 지속적인 진보에 따라, 검색 기반의 대화형 커뮤니티 질의 응답 플랫폼은 사람들의 생활과 사업에 있어서 지식을 얻고 공유하기 위한 중요한 경로로 되어 있다. 커뮤니티 질의 응답(Community Question Answering, CQA)은 개방형 지식을 결합한 공유 웹 사이트(예 : Baidu, Yahoo! Answers, Tencent Wenwen, Sina iAsk 등)로서, 사용자 참여를 통해, 네트워크 사용자의 집단적 지혜를 사용하여 질의에 대한 직접적인 답변을 제공한다. 동시에, 이러한 질의에 대한 답변은 동일하거나 유사한 질의를 가진 다른 사용자에게 검색 결과로서 제공되어 지식 공유의 효과를 달성하고 사용자의 정확한 질의에 대한 수요를 어느 정도 해결한다.
그러나, CQA 데이터에 있어서, 답변은 품질상 큰 차이를 보이며, 유용한 답변을 제공함과 동시에 관련성이 없고, 품질이 낮으며, 심지어 악성적인 각종 정보가 포함될 수 있다. 이러한 답변에 대한 판단 및 필터링, 고품질의 질의와 답변에 대한 선택은, 커뮤니티를 기반으로 하는 자동 질의 응답 시스템에 있어서 관련 질의에 대한 답변을 재사용하여 Q & A 시스템의 서비스 품질을 향상시키는데 도움이 된다.
현재, 고품질, 고정확율의 CQA 데이터 스크리닝은 주로 수동 검토, 다차원 명시적 피처 스크리닝 및 시맨틱 검색 모델 필터링을 통해 이루어진다. 인터넷 데이터의 기하 급수적인 업그레이드로 인해 수동 검토로서는 수요를 만족시킬 수 없다. 다차원 명시적 피처 선별은 현재 사용자 행동(좋아요 또는 싫어요 등)에 크게 의존하며, 이러한 정보는 답변에 의미가 있는지를 판정하는데 일정한 지향성적 도움이 될 수 있지만, 사용자의 좋아하고 싫어하는 행동은 주관적인 감정의 영향을 받으며 품질이 낮거나 악의적인 답변이 발생하기 쉽고, 또한, 이러한 정보는 전면적이 되지 않아 노출이 적은 Q & A 데이터에 대해서는 사용자 정보가 충분하지 않다.
현재, 시맨틱 검색 모델은 일반적으로 의미 레벨로부터 CQA 내의 질의 및 응답의 관련성을 계산하지만 응답이 객관적이고 권위 있는지 보장할 수 없다. 예를 들어, "사용자 A의 아내는 누구입니까?"라는 질의에 대해 사용자는 "사용자 A의 아내는 사용자 B가 아닙니다"라고 대답하지만 실제로 사용자 A의 아내가 사용자 B일 경우, 외부 보조 정보의 지원이 없으면 상기 시맨틱 검색 모델은 상기 답이 맞다고 잘못 인정할 수 있다.
본 발명의 실시예는, 대량의 질의 응답 데이터에 대해 신속하게 권위성 검증을 진행할 수 있고, 응답의 권위, 객관성 및 정확성을 효과적으로 보장할 수 있는, 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체를 제공한다.
제1 양태에서, 본 발명의 실시예는 커뮤니티 질의 응답 데이터의 검증 방법을 제공하며, 상기 방법은,
커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하는 단계에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 단계와,
적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하는 단계와,
적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함한다.
제2 양태에서, 본 발명의 실시예는 또한, 커뮤니티 질의 응답 데이터의 검증 장치를 제공하며, 상기 장치는,
커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하기 위한 질의 응답 쌍 생성 모듈에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 질의 응답 쌍 생성 모듈과,
적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하기 위한 권위 데이터 세트 생성 모듈과,
적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하기 위한 권위성 검증 모듈을 포함한다.
제3 양태에서, 본 발명의 실시예는 또한, 메모리, 프로세서, 및 메모리에 저장되고 프로세서에서 운행 가능한 컴퓨터 프로그램을 포함하며, 상기 프로세서가 상기 프로그램을 실행할 때, 본 발명의 실시예 중의 어느 하나에 기재된 커뮤니티 질의 응답 데이터의 검증 방법을 구현하는 컴퓨터 기기를 제공한다.
제4 양태에서, 본 발명의 실시예는 또한, 컴퓨터 프로그램이 저장되고, 상기 프로그램이 프로세서에 의해 실행될 때, 본 발명의 실시예 중 어느 하나에 기재된 커뮤니티 질의 응답 데이터의 검증 방법을 구현하는 컴퓨터 판독 가능 저장 매체를 제공한다.
본 발명의 실시예는 커뮤니티 질의 응답 데이터 세트로부터 데이터를 스크리닝하여 질의 응답 쌍을 생성함과 동시에 신뢰 소스 사이트로부터 권위 데이터 세트를 획득하고, 각 질의 응답 쌍 중 검증 대상 응답과 권위 데이터 세트 중 권위 데이터 간의 유사성 점수를 계산하고, 유사성 점수에 기초하여 각 질의 응답 쌍 중의 검증 대상 응답의 권위를 결정하는 기술적 수단을 통해, 사용자가 제공한 답변과 권위 데이터와의 유사성을 검증하는 방법을 교묘하게 채용하여, 해당 답변의 권위를 간단하고 신속하게 검증함으로써, 종래 기술에 있어서 커뮤니티 질의 응답 데이터를 수동으로 스크리닝하는 비효율적인 문제를 해결함과 동시에 사용자 행동에 의존하여 응답을 평가함으로써 평가 결과가 매우 강한 주관성을 띠는 문제를 해결하고, 대량의 커뮤니티 질의 응답 데이터에 대해 신속하게 권위성 검증을 할 수 있어 검증의 효율성을 향상시키며, 검증 대상 응답과 권위 데이터 간의 유사성 점수를 계산하여 검증 대상 응답의 권위를 결정함으로써 사용자 디스플레이 특징 스크리닝의 사용을 피면하여, 질의 응답 데이터에 있어서의 응답의 권위, 객관성 및 정확성을 효과적으로 보장할 수 있다.
도 1은 본 발명의 실시예1에 따른 커뮤니티 질의 응답 데이터의 검증 방법의 흐름도이다.
도 2a는 본 발명의 실시예2에 따른 커뮤니티 질의 응답 데이터의 검증 방법의 흐름도이다.
도 2b는 본 발명의 실시예2에 따른 커뮤니티 질의 응답 데이터의 검증 방법의 구체적인 응용 장면의 개략도이다.
도 3은 본 발명의 실시예3에 따른 커뮤니티 질의 응답 데이터의 검증 장치의 구조 개략도이다.
도 4는 본 발명의 실시예4에 따른 컴퓨터 기기의 구조 개략도이다.
이하, 첨부된 도면 및 실시예를 결합하여 본 발명을 보다 상세하게 설명한다. 본 명세서에 설명된 특정 실시예는 본 발명에 대한 제한이 아니라 본 발명을 설명하기 위한 것임을 이해해야 한다. 또한, 설명의 편의를 위해, 첨부 도면에는 모든 구조가 아니라 본 발명과 관련된 부분들만이 도시되어 있다는 점에 유의해야 한다.
실시예1
도 1은 본 발명의 실시예1에 따른 커뮤니티 질의 응답 데이터의 검증 방법의 흐름도이며, 본 실시예는 커뮤니티 질의 응답 플랫폼의 질의 응답 데이터에 있어서의 응답의 권위 정도를 검증하는데 적용될 수 있다. 상기 방법은 본 발명의 실시예에 따른 커뮤니티 질의 응답 데이터의 검증 장치에 의해 실행될 수 있으며, 상기 장치는 소프트웨어 및/또는 하드웨어에 의해 구현될 수 있으며, 일반적으로 클라이언트 또는 서버와 같은 커뮤니티 질의 응답 데이터의 검증 서비스를 제공하기 위한 컴퓨터 기기에 통합될 수 있다. 도 1에 도시된 바와 같이, 본 실시예의 방법은 구체적으로 다음을 포함한다.
단계(S110)에서, 커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하며, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함한다.
구체적으로, 커뮤니티 질의 응답 데이터 세트는 네트워크의 각 커뮤니티 질의 응답 플랫폼으로부터 수집된 질의 응답 데이터의 세트일 수 있다. 질의 응답 쌍은 하나의 질의 및 상기 질의에 대한 하나의 검증 대상 응답으로 형성된 조합일 수 있으며, 그 중, 커뮤니티 질의 응답 데이터 세트 중의 하나의 질의에 대해 복수의 검증 대상 응답이 존재하며, 각 검증 대상 응답에 대해 질의 응답 쌍을 생성할 수 있다.
예시적으로, 커뮤니티 질의 응답 플랫폼은 Baidu, Sina iAsk 또는 Tencent Wenwen과 같은 공개 커뮤니티 질의 응답 플랫폼일 수 있다. 그 중, 커뮤니티 질의 응답 플랫폼의 질의 응답 데이터는 중국어 또는 영어와 같은 기타 외국어일 수 있다.
단계(S120)에서, 적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성한다.
구체적으로, 신뢰 소스 사이트는 미리 설정된 권위 데이터의 웹 사이트, 예를 들어 Baidu 백과 사전, Wikipedia, Douding 사이트 또는 Baidu Wenku와 같은 권위 데이터 소스일 수 있다. 그 중, 신뢰 소스 사이트는 사용자에 의해 선택될 수 있다.
권위 데이터 세트는 엔티티 시맨틱을 갖는 데이터와 같은 신뢰 소스 사이트에 저장된 유효 데이터일 수 있다. 예시적으로, "Haha, A는 B의 부분 집합이다"라는 문장에서 문장의 전반부는 어기사이고 문장의 후반부는 엔티티 시맨틱를 갖는 데이터로서 어기사는 제거하고 문장의 후반부에만 기초하여 권위 데이터 세트를 생성할 수 있다.
또는, 상기 적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하는 단계는, 적어도 하나의 신뢰 소스 사이트를 선택하고, 각 상기 신뢰 소스 사이트의 사이트 데이터를 획득하여 데이터 클렌징을 진행함과 동시에, 구조화 분석을 진행한 후 상기 권위 데이터 세트를 생성하는 단계를 포함할 수 있다.
그 중, 데이터 클렌징은 사이트 데이터에 대한 중복 제거, 무효화 제거, 오류 제거 및 충돌 제거 등 적어도 하나의 데이터 동작을 가리킬 수 있으며, 구조화 분석은, 예를 들어, 사이트 데이터의 문장에 포함된 각 엔티티 및 문장의 문법적 구조를 획득하는 등, 사이트 데이터의 데이터 구조를 분석하는 것일 수 있다. 사이트 데이터에 대해 데이터 클렌징 및 구조화 분석을 수행하고, 분석 결과에 기초하여 사이트 데이터를 통일 포맷(이차원 논리 테이블에 의한 표현과 같음) 데이터로 구성하고, 구성된 데이터에 기초하여 형성된 세트를 권위 데이터 세트로서 사용할 수 있다. 신뢰 소스 사이트의 사이트 데이터를 데이터 전처리하여 권위 데이터 세트를 생성함으로써, 권위 데이터를 신속하게 구조화 처리하여 신속하게 열람, 이해할 수 있고 정확한 의미 검색을 할 수 있어, 후속의 검증 대상 응답과 권위 데이터 간의 유사성 점수 계산의 효율을 향상시킬 수 있다.
단계(S130)에서, 적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행한다.
구체적으로, 유사성 점수는 검증 대상 응답과 권위 데이터 간의 유사 정도에 대한 평가 결과일 수 있다. 차원은 유사 정도를 평가하는 특징 유형일 수 있으며, 구체적으로, 키워드 특징, 구문 특징 또는 의미 특징 중 적어도 하나의 특징을 포함할 수 있다.
일반으로, 사용자가 질의에 대답할 때, "전형적인 것을 인용"한 답변은 다른 사용자의 답변보다 객관성 및 정확성이 훨씬 높다. 본 실시예에 있어서, 권위성 검증은 검증 대상 응답이 신뢰 소스 사이트(예를 들어, 신뢰할 수 있는 웹 사이트)에 저장된 데이터에 있는지 그 여부를 판단하는 것 일 수 있다. 구체적으로, 권위 데이터 세트가 원문의 형태로 검증 대상 응답을 제시할 때, 당해 검증 대상 응답은 권위도가 높은 것으로 간주되며, 권위 데이터 세트에 검증 대상 응답과 유사한 데이터가 존재하는 경우, 당해 검증 대상 응답은 권위도가 중간인 것으로 간주되며, 권위 데이터 세트의 모든 데이터가 당해 검증 대상 응답과의 유사도가 매우 낮을 경우, 당해 검증 대상 응답은 권위도가 낮은 것으로 간주될 수 있다.
따라서, 상기 유사성 점수로부터 얻은 권위도가 낮은 검증 대상 응답을 표시하여 알리거나 스크리닝함으로써 커뮤니티 질의 응답 데이터에 있어서의 사용자 답변의 정확성 및 권위성을 보장할 수 있다.
본 발명의 실시예는 커뮤니티 질의 응답 데이터 세트로부터 데이터를 스크리닝하여 질의 응답 쌍을 생성함과 동시에 신뢰 소스 사이트로부터 권위 데이터 세트를 획득하고, 각 질의 응답 쌍 중 검증 대상 응답과 권위 데이터 세트 중 권위 데이터 간의 유사성 점수를 계산하고, 유사성 점수에 기초하여 각 질의 응답 쌍의 검증 대상 응답의 권위를 결정하는 기술적 수단을 통해, 사용자가 제공한 답변과 권위 데이터 간의 유사성을 검증하는 방법을 교묘하게 채용하여, 해당 응답의 권위를 간단하고 신속하게 검증함으로써, 종래 기술에 있어서 커뮤니티 질의 응답 데이터를 수동 스크리닝하는 비효율적인 문제를 해결함과 동시에, 사용자 행동에 의존하여 답변을 평가함으로써 평가 결과가 매우 강한 주관성을 가지는 문제를 해결하고, 대량의 커뮤니티 질의 응답 데이터에 대해 신속하게 권위성 검증을 수행하여 검증 효율을 향상시킬 수 있으며, 검증 대상 응답과 권위 데이터 간의 유사성 점수를 계산하여 검증 대상 응답의 권위를 결정함으로써 사용자 디스플레이 특징 스크리닝의 사용을 피면함으로써, 질의 응답 데이터에 있어서의 응답의 권위, 객관성 및 정확성을 효과적으로 보장할 수 있다.
실시예2
도 2a는 본 발명의 실시예2에 따른 커뮤니티 질의 응답 데이터의 검증 방법의 흐름도이며, 본 발명의 실시예1을 한층 더 구체화하여, 상기 적어도 하나의 차원에서의 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대한 권위성 검증을 수행하는 단계를, 상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하는 단계와, 적어도 하나의 목표 차원에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계와, 상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계로 구체화 하였다.
도 2a에 도시된 바와 같이, 상기 방법은 구체적으로 다음 단계를 포함한다.
단계(S210)에서, 커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하며, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함한다.
본 실시예에 있어서의 커뮤니티 질의 응답 데이터 세트, 질의 응답 쌍, 신뢰 소스 사이트, 권위 데이터 세트, 유사성 점수, 및 권위성 검증 등은 상술한 실시예의 설명을 참조할 수 있다.
단계(S220)에서, 적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성한다.
단계(S230)에서, 상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝한다.
상관 조건을 만족하는 목표 권위 데이터는 검증 대상 응답과의 상관 정도가 설정 임계 값을 초과하는 권위 데이터일 수 있다. 설정된 수량은 1 이상의 정수일 수 있으며, 필요에 따라 사용자에 의해 설정될 수 있으며, 예시적으로 설정된 수량은 10이다.
또는, 검증 대상 응답의 키워드를 획득하고 검증 대상 응답의 키워드에 따라 권위 데이터 세트를 검색하고, 키워드와 권위 데이터 간의 상관성에 기초하여 권위 데이터 세트의 권위 데이터를 정렬하고, 정렬 결과로부터 상위 N개의 권위 데이터를 취하여 상관 조건을 만족시키는 목표 권위 데이터로 한다. N은 양의 정수이며, 구체적으로 필요에 따라 설정될 수 있다.
검증 대상 응답에 대해서는, 문자 추출, 단어 분할, 노이즈 제거, 중복 제거 및 키워드 추출을 행하여 검증 대상 응답의 키워드를 획득할 수 있으며, 여기서, 키워드 추출은 사전 훈련된 기계 학습 모델을 통해 검증 대상 응답으로부터 추출할 수 있다. 예를 들어, 기계 학습 모델은 지도 학습 방법, 시퀀스 라벨링 방법 또는 비지도 학습 방법에 의해 훈련될 수 있다.
검증 대상 응답으로부터 추출된 적어도 하나의 키워드에 기초하여 권위 데이터 세트를 검색하고, 적어도 하나의 키워드가 각 권위 데이터에서 나타난 횟수, 빈도, 위치 및 격식 등과 같은 정보를 획득한다. 또한 각 키워드 자체의 사용 정도(예를 들어 "우리"의 사용 정도가 "별자리"의 사용 정도보다 높은 것과 같음), 각 키워드가 권위 데이터에서 나타난 횟수, 빈도, 위치 및 격식, 각 키워드의 가중치 및 각 키워드 간의 거리에 의해, 당해 검증 대상 응답과 당해 권위 데이터 간의 상관도를 계산한다. 이로 인하여, 권위 데이터 세트의 각 권위 데이터와 검증 대상 응답 간의 상관 정도를 계산하여 상관 조건을 만족하는 N개의 목표 권위 데이터를 결정하고 스크리닝할 수 있다.
단계(S240)에서, 적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산한다.
구체적으로, 목표 차원은 키워드 차원, 문장 차원 또는 의미 차원을 포함할 수 있다. 키워드 차원은 검증 대상 응답으로부터 추출된 키워드와 각 목표 권위 데이터로부터 추출된 키워드 간의 유사성 비교일 수 있으며, 문장 차원은 검증 대상 응답에 포함된 문장과 각 목표 권위 데이터에 포함된 문장 간의 유사성 비교일 수 있으며, 의미 차원은 검증 대상 응답의 의미와 각 목표 권위 데이터의 의미 간의 유사성 비교일 수 있다.
각 목표 차원은 사전 훈련된 기계 학습 모델을 통해 유사성 점수의 계산을 구현할 수 있다. 혹은, 유사성 점수는 다른 방법에 의해 계산될 수도 있다.
실제 응용 계산시에는, 상술한 한가지, 두가지 또는 세가지 차원에서 각 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수에 기초하여, 매° 검증 대상 응답에 대해 권위성 검증을 진행할 수 있다.
또는, 키워드 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하는 단계는, 상기 검증 대상 응답에 포함된 제1 키워드 세트 및 각 상기 목표 권위 데이터에 포함된 제2 키워드 세트를 각각 획득하는 단계와, 각 상기 제2 키워드 세트를 적중한 상기 제1 키워드 세트의 키워드 수량을 획득하는 단계와, 상기 키워드 수량 및 각 상기 제2 키워드 세트에 포함된 키워드 총수량에 기초하여 상기 키워드 차원에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하는 단계를 포함한다.
구체적으로, 제1 키워드 세트 및 제2 키워드 세트는 사전 훈련된 키워드 추출을 위한 기계 학습 모델에 의해 생성될 수 있다. 제2 키워드 세트를 적중한 제1 키워드 세트의 키워드 수량은 제1 키워드 세트 및 제2 키워드 세트에 있어서의 동일한 키워드의 수량일 수 있다. 제1 유사성 점수는 구체적으로 키워드 수량과 키워드 총수량과의 비일 수 있다. 예시적으로, 제2 키워드 세트를 적중한 제1 키워드 세트의 키워드 수량이 6이고, 제2 키워드 세트에 포함된 키워드 총수량이 10일 경우, 상기 제1 키워드 세트 및 제2 키워드 세트에 기초하여, 키워드 차원에서 계산하여 얻은 상기 검증 대상 응답과 대응하는 목표 권위 데이터 간의 유사성 점수는 6 / 10 = 60%이다.
또는, 문장 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하는 단계는, 상기 검증 대상 응답이 각 상기 목표 권위 데이터에 포함된 문장에 적중되는지를 각각 검증하는 단계와, 적중 결과에 기초하여, 문장 차원에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하는 단계를 포함할 수 있다.
구체적으로, 검증 대상 응답이 목표 권위 데이터에 포함된 문장에 적중하는지 여부는 검증 대상 응답에 포함된 하나 이상의 문장이 목표 권위 데이터에 포함된 문장 세트에 속하는지 여부를 가리킬 수 있다. 적중 결과에는 0과 1이 포함되며, 적중 결과 0에 대응하는 유사성 점수는 0이고, 적중 결과 1에 대응하는 유사성 점수는 1이다.
목표 권위 데이터가 검증 대상 응답의 하나 이상의 문장을 포함하는 경우, 적중 결과는 1이고, 목표 권위 데이터에 검증 대상 응답에 포함된 문장이 포함되지 않은 경우, 적중 결과는 0이다. 예시적으로, 검증 대상 응답이 하나의 문장이고 동시에, 목표 권위 데이터에 포함된 문장에 검증 대상 응답과 동일한 문장이 존재할 경우, 적중 결과는 1이며, 문장 차원에서 계산하여 얻은 상기 검증 대상 응답과 대응하는 목표 권위 데이터와의 유사성 점수도 1이다.
또한, 의미 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계는, 상기 검증 대상 응답 및 각 상기 목표 권위 데이터를 입력 데이터로 각각 결합하는 단계와, 각 상기 입력 데이터를 사전 훈련된 시맨틱 유사성 인식 모델에 각각 입력하는 단계와, 각 상기 입력 데이터에 대한 상기 시맨틱 유사성 인식 모델의 출력 결과를 상기 의미 차원에서의 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수로서 획득하는 단계를 포함한다.
구체적으로, 사전 훈련된 시맨틱 유사성 인식 모델은 샘플을 통해 기계 학습 모델에 의해 훈련된 모델일 수 있다. 구체적으로, 시맨틱 유사성 인식 모델은 심층 구조화 시맨틱 모델(deep structured semantic models, DSSM)이거나, 컨볼 루션 신경망(convolutional neural network, CNN)의 심층 구조화 시맨틱 모델일 수 있으며, 또는, 장기 단기 메모리(long-short term memory, LSTM)의 심층 구조화 시맨틱 모델일 수 있으며, 이에 대해 본 발명의 실시형태는 구체적으로 한정하지 않는다. 검증 대상 응답 및 각 목표 권위 데이터를 각각 결합하여 복수의 입력 데이터를 형성하고, 각각의 입력 데이터를 사전 훈련된 시맨틱 유사성 인식 모델에 입력하여 시맨틱 유사성 인식 모델에 의해 출력된 유사성 점수를 획득하여 의미 차원에서의 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수로 하는 단계를 포함한다.
검증 대상 응답 및 목표 권위 데이터 간의 유사성 점수를 키워드 차원, 문장 차원 및 의미 차원에서 각각 계산함으로써, 검증 대상 응답과 권위 데이터 간의 유사 정도를 여러 방면으로부터 평가함으로써, 검증 대상 응답이 권위적인지 여부를 정확하게 평가할 수 있으며, 또한, 목표 차원은 사용자 행동이 언급되지 않은 검증 대상 응답의 특징 정보를 의거로 유사도가 계산됨으로써, 검증 대상 응답의 권위성에 대한 평가가 사용자의 주관적인 생각의 영향을 받는 것을 피면하여 검증 대상 응답에 대한 평가 결과의 객관성을 보장할 수 있다.
단계(S250)에서, 상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행한다.
또한, 상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계는,
식:
Figure 112019122789711-pat00001
(여기서, N은 상기 권위 데이터 세트에서 스크리닝된 상관 조건을 만족시키는 목표 권위 데이터의 개수이고, Word(Ans, Pi)는 키워드 차원에서의 상기 검증 대상 응답 Ans와 i번째 목표 권위 데이터 Pi와의 유사성 점수이며, Sent(Ans, Pi)는 문장 차원에서의 Ans와 Pi와의 유사성 점수이고, Sim(Ans, Pi)는 의미 차원에서의 Ans와 Pi와의 유사성 점수이고, α, β 및 γ는 미리 설정된 비율 계수이다)에 의해, 상기 검증 대상 응답의 권위 점수를 계산하는 단계와, 상기 권위 점수가 설정된 권위 임계 값보다 작은 경우, 상기 검증 대상 응답을 상기 커뮤니티 질의 응답 데이터 세트로부터 필터링하는 단계를 포함한다.
그 중, Word(Ans, Pi)는 키워드 차원에서의 검증 대상 응답과 i번째 목표 권위 데이터 간의 일치 정도를 나타내며, Sent(Ans, Pi)는 문장 차원에서의 검증 대상 응답과 i번째 목표 권위 데이터 간의 일치 정도를 나타내며, Sim(Ans, Pi)는 의미 차원에서의 검증 대상 응답과 i번째 목표 권위 데이터 간의 일치 정도를 나타내는데 각각 사용되며, α, β 및 γ는 미리 설정된 비율 계수이고, 필요에 따라 사용자에 의해 설정될 수 있으며, α, β 및 γ는 각각 제1 유사성 점수의 가중치, 제2 유사성 점수의 가중치 및 제3 유사성 점수의 가중치를 나타내는데 사용된다. 권위 임계치는 필요에 따라 사용자에 의해 설정될 수 있으며, 또한, 후속의 상기 권위 임계 값의 크기를 제어할 수 있으며, 권위 있는 검증 대상 응답에 대한 효과적인 스크리닝을 실현할 수 있다.
특정 공식 및 함수를 통해 검증 대상 응답과 i번째 목표 권위 데이터 간의 유사 정도를 정량화함으로써 검증 대상 응답과 i번째 목표 권위 데이터 간의 유사성 점수를 정확하게 계산할 수 있으며, 동시에, 각 유사성 점수의 가중합의 평균 값을 계산하여 각 목표 권위 데이터를 종합적으로 고려함으로써, 검증 대상 응답의 권위를 정확하게 평가할 수 있다.
상기 임의의 하나 또는 임의의 두가지 차원에서의 유사성 점수에 기초하여 유사성 점수의 가중합의 평균 값을 계산하고 검증 대상 응답의 권위 점수로 함으로써 각 검증 대상 응답에 대해 권위성 검증을 수행할 수도 있다는 점에 유의해야 한다.
하나의 구체적인 예에서, 도 2b에 도시된 바와 같이, Baidu, Sina iAsk, Tencent Wenwen 및 기타 커뮤니티 질의 응답 플랫폼으로부터 질의 응답 데이터를 수집하여 커뮤니티 질의 응답 데이터 세트를 생성하고, 동시에 Baidu 백과 사전, Douding 사이트, Wikipedia 및 기타 신뢰 소스 사이트로부터 권위 데이터를 수집하여 권위 데이터 세트를 생성한다. 권위 데이터 세트에 인덱스 데이터베이스를 구축하고 커뮤니티 질의 응답 데이터 세트로부터 추출된 질의 응답 쌍에 기초하여 검색하여 각 질의 응답 쌍에서 검증 대상 응답의 N개의 목표 권위 데이터를 획득한다. 각 검증 대상 응답의 특징 정보 및 매칭된 N개 목표 권위 데이터의 특징 정보를 각각 획득하고, 각각 키워드 차원, 문장 차원 및 의미 차원에서 검증 대상 응답의 특징 정보와 각 목표 권위 데이터 간의 유사성 점수를 계산한다. 마지막으로, 검증 대상 응답의 특징 정보와 각 목표 권위 데이터 간의 유사성 점수에 기초하여 당해 검증 대상 응답에 대해 권위성 검증을 수행한다.
본 발명의 실시예는 검증 대상 응답에 기초하여 권위 데이터 세트를 검색하여 관련된 적어도 하나의 목표 권위 데이터를 스크리닝하고, 각 목표 권위 데이터에 대해 검증 대상 응답과 목표 권위 데이터 간의 유사성 점수를 각각 계산하고, 획득된 적어도 하나의 유사성 점수에 기초하여 검증 대상 응답에 대해 권위성 검증을 수행함으로써 복수의 차원으로부터 검증 대상 응답과 권위 데이터 간의 유사 정도를 평가할 수 있어 검증 대상 응답이 권위적인지 여부를 정확하게 평가할 수 있다.
실시예3
도 3은 본 발명의 실시예3에 따른 커뮤니티 질의 응답 데이터의 검증 장치의 구조 개략도이며, 도 3에 도시된 바와 같이 상기 장치는 구체적으로,
커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하기 위한 질의 응답 쌍 생성 모듈(310)에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 질의 응답 쌍 생성 모듈(310)과,
적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하기 위한 권위 데이터 세트 생성 모듈(320)과,
적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하기 위한 권위성 검증 모듈(330)을 포함한다.
본 발명의 실시예는 커뮤니티 질의 응답 데이터 세트로부터 데이터를 스크리닝하여 질의 응답 쌍을 생성함과 동시에 신뢰 소스 사이트로부터 권위 데이터 세트를 획득하고, 각 질의 응답 쌍 중의 검증 대상 응답과 권위 데이터 세트 중의 권위 데이터 간의 유사성 점수를 계산하고, 유사성 점수에 기초하여 각 질의 응답 쌍 중 검증 대상 응답의 권위를 결정하는 기술적 수단을 통해, 사용자가 제공한 답변과 권위 데이터와의 유사도를 검증하는 방법을 교묘하게 채용하여, 당해 답변의 권위를 간단하고 신속하게 검증함으로써, 종래 기술에 있어서 커뮤니티 질의 응답 데이터를 수동 스크리닝하는 비효율적인 문제를 해결함과 동시에 사용자 행동에 의존하여 답변을 평가함으로써 평가 결과가 매우 강한 주관성을 가지는 문제를 해결하고, 대량의 커뮤니티 질의 응답 데이터에 대해 권위성 검증을 신속하게 수행할 수 있어 검증 효율성을 향상시킬 수 있으며, 검증 대상 응답과 권위 데이터 간의 유사성 점수를 계산하여 검증 대상 응답의 권위도를 결정함으로써 사용자 디스플레이 특징 스크리닝의 사용을 피면함으로써, 질의 응답 데이터에 있어서의 응답의 권위, 객관성 및 정확성을 효과적으로 보장할 수 있다.
또한, 상기 권위성 검증 모듈(330)은, 구체적으로, 상기 검증 대상 응답을 상기 권위 데이터 세트 내에서 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하고, 적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하고, 상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하도록 구성된다.
또한, 상기 목표 차원은 키워드 차원, 문장 차원 또는 의미 차원을 포함한다.
또한, 상기 권위성 검증 모듈(330)은, 구체적으로, 상기 검증 대상 응답에 포함된 제1 키워드 세트 및 각 상기 목표 권위 데이터에 포함된 제2 키워드 세트를 각각 획득하고, 각 상기 제2 키워드 세트를 적중한 상기 제1 키워드 세트의 키워드 수량을 획득하고, 상기 키워드 수량 및 각 상기 제2 키워드 세트에 포함된 키워드 총수량에 기초하여 상기 키워드 차원에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하도록 구성된다.
또한, 상기 권위성 검증 모듈(330)은, 구체적으로, 상기 검증 대상 응답이 각 상기 목표 권위 데이터에 포함된 문장에 적중되는지 여부를 각각 검증하고, 적중 결과에 기초하여 상기 문장 차원에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하도록 구성된다.
또한, 상기 권위성 검증 모듈(330)은, 구체적으로, 상기 검증 대상 응답 및 각 상기 목표 권위 데이터를 입력 데이터로 각각 결합하고, 각 상기 입력 데이터를 사전 훈련된 시맨틱 유사성 인식 모델에 각각 입력하고, 각 상기 입력 데이터에 대한 상기 시맨틱 유사성 인식 모델의 출력 결과를 상기 의미 차원에서의 상기 검증 대상 응답과 각 상기 목표 권위 데이터와의 유사성 점수로서 획득하도록 구성된다.
또한, 상기 권위성 검증 모듈(330)은, 구체적으로,
식:
Figure 112019122789711-pat00002
,(여기서 N은 상기 권위 데이터 세트에서 스크리닝된 상관 조건을 만족시키는 목표 권위 데이터의 개수이고, Word(Ans, Pi)는 키워드 차원에서의 상기 검증 대상 응답 Ans와 i번째 목표 권위 데이터 Pi와의 유사성 점수이며, Sent(Ans, Pi)는 문장 차원에서의 Ans와 Pi의 유사성 점수이고, Sim(Ans, Pi)는 의미 차원에서의 Ans와 Pi와의 유사성 점수이며, α, β 및 γ는 미리 설정된 비율 계수이다)에 의해, 상기 검증 대상 응답의 권위도 점수를 계산하고,
상기 권위도 점수가 설정된 권위도 임계 값보다 작은 경우, 상기 검증 대상 응답을 상기 커뮤니티 질의 응답 데이터 세트로부터 필터링하도록 구성된다.
또한, 상기 권위 데이터 세트 생성 모듈(320)은 구체적으로, 적어도 하나의 신뢰 소스 사이트를 선택하고, 각 상기 신뢰 소스 사이트의 사이트 데이터를 획득하여 데이터 클렌징을 수행하고 구조화 분석을 수행한 후 상기 권위 데이터 세트를 생성하도록 구성된다.
상기 커뮤니티 질의 응답 데이터의 검증 장치는 본 발명의 임의의 실시예에 따른 커뮤니티 질의 응답 데이터의 검증 방법을 수행할 수 있고, 커뮤니티 질의 응답 데이터의 검증 방법을 실행하는 대응하는 기능 모듈 및 유익한 효과를 갖는다.
실시예4
도 4는 본 발명의 실시예4에 따른 기기의 구조 개략도이다. 도 4는 본 발명의 실시형태를 구현하는데 적합한 예시적인 컴퓨터 기기(412)의 블록도를 표시한다. 도 4에 도시된 컴퓨터 기기(412)는 단지 예시일 뿐이고, 본 발명의 실시예의 기능과 사용 범위에 대해 어떠한 제한을 가해서는 안 된다.
도 4에 도시된 바와 같이, 컴퓨터 기기(412)는 범용 계산 기기의 형식으로 표현된다. 컴퓨터 기기(412)의 컴포넌트는 하나 또는 복수의 프로세서 또는 프로세싱 유닛(416), 시스템 메모리(428), 서로 다른 시스템 컴포넌트(시스템 메모리(428)와 프로세싱 유닛(416)을 포함함)를 연결한 버스(418)를 포함할 수 있지만 이에 한정하지 않는다. 컴퓨터 기기(412)는 차량 탑재 기기일 수 있다.
버스(418)는 몇가지 유형 버스 구성 중의 하나 또는 복수를 표시하고, 메모리 버스 또는 메모리 제어기, 주변 장치 버스, 그래픽 가속 포트, 프로세서 또는 멀티 버스 구조에서의 임의의 버스 구조를 사용한 로컬 버스를 포함한다. 예를 들어, 이러한 체계 구조는 업계 표준 아키텍처(Industry Standard Architecture, ISA)버스, 마이크로 채널 구조(Micro Channel Architecture, MCA)버스, 향상된 ISA버스, 비디오 일렉트로닉스 표준화 협회(Video Electronics Standards Association, VESA)로컬 버스 및 주변 컴포넌트 상호 연결(Peripheral Component Interconnection, PCI)버스를 포함하지만 이에 한정하지 않는다.
컴퓨터 기기(412)는 전형적으로 멀티 컴퓨터 시스템의 판독 가능 매체를 포함한다. 이러한 매체는 컴퓨터 기기(412)에 의해 액세스될 수 있는 모든 사용 가능한 매체일 수 있고, 휘발성 매체와 비 휘발성 매체, 분리형 매체와 비 분리형 매체를 포함한다.
시스템 메모리(428)는 휘발성 메모리 형식의 컴퓨터 시스템 판독 가능 매체를 포함할 수 있고, 예를 들어, 랜덤 액세스 메모리(RAM)(430) 및/또는 캐시 메모리(432)이다. 컴퓨터 기기(412)는 기타 분리형/비 분리형, 휘발성/비 휘발성 컴퓨터 시스템 저장 매체를 더 포함할 수 있다. 단지 예로서, 저장 시스템(444)은 비 분리형, 비 휘발성 자기 매체를 판독 기록하는데 사용될 수있다(도 4에는 미도시, 일반적으로 "하드드라이버"라고 함). 비록 도 4에는 도시되지 않았지만, 분리형 비 휘발성 디스크(예를 들어 "플로피 디스크")에 대해 판독 기록하기 위한 디스크 드라이브, 및 분리형 비 휘발성 시디롬(예를 들어, 컴팩트 디스크 읽기 전용 메모리(Compact Disc Read Only Memory, CD-ROM), 디지털 비디오 디스크(Digital Video Disc Read Only Memory, DVD-ROM) 또는 기타 광학 매체)에 대해 판독 기록하기 위한 시디롬 드라이브를 제공할 수 있다. 이러한 경우, 각 드라이브는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(418)와 서로 연결된다. 메모리(428)는 적어도 하나의 프로그램 제품을 포함할 수 있고, 해당 프로그램 제품은 한 조(예를 들어 적어도 하나)프로그램 모듈을 가지며, 이러한 프로그램 모듈은 본 발명의 각 실시예의 기능을 수행하도록 구성된다.
한 조(적어도 하나)의 프로그램 모듈(442)을 구비한 프로그램/유틸리티(440)는, 예를 들어 메모리(428)에 저장할 수 있고, 이러한 프로그램 모듈(442)은 운영 체제, 하나 또는 복수의 응용 프로그램, 기타 프로그램 모듈 및 프로그램 데이터를 포함하지만 이에 한정하지 않으며, 이러한 예시에서의 각각 또는 일부 조합에는 네트워크 환경의 구현을 포함할 수 있다. 프로그램 모듈(442)은 통상적으로 본 발명에서 서술하는 실시예에 있어서의 기능 및/또는 방법을 수행한다.
컴퓨터 기기(412)는 하나 또는 복수의 외부 기기(414)(예를 들어 키보드, 포인팅 기기, 디스플레이(424) 등)와 통신할 수도 있고, 하나 또는 복수의 사용자가 당해 컴퓨터 기기(412)와 상호 작용할 수 있도록 하는 기기와 통신할 수도 있으며, 및/또는 당해 컴퓨터 기기(412)가 하나 또는 복수의 기타 계산 기기와 통신할 수 있도록 하는 임의의 기기(예를 들어 랜카드, 모뎀 등)와 통신한다. 이런 통신은 입력/출력(Input/Output, I/O)인터페이스(422)를 통해 할 수 있다. 또한, 컴퓨터 기기(412)는 네트워크 어댑터(420)를 통해 하나 또는 복수의 네트워크(예를 들어, 근거리 통신망(Local Area Network, LAN), 광역 통신망(Wide Area Network, WAN)과 통신할 수도 있다. 도시된 바와 같이, 네트워크 어댑터(420)는 버스(418)를 통해 컴퓨터 기기(412)의 기타 모듈과 통신한다. 이해해야 하는 것은, 도 4에 도시되지 않았지만, 컴퓨터 기기(412)를 결합하여 기타 하드웨어 및/또는 소프트웨어 모듈을 사용할 수 있고, 마이크로 코드, 기기 드라이브, 리던던트 프로세싱 유닛, 외부 디스크 드라이브 어레이(Redundant Arrays of Inexpensive Disks, RAID)시스템, 테이프 드라이브 및 데이터 백업 저장 시스템 등을 포함하지만 이에 한정하지 않는다.
프로세싱 유닛(416)은 시스템 메모리(428)에 저장된 프로그램을 작동하는 것을 통해, 예를 들어, 본 발명의 실시예에 따른 커뮤니티 질의 응답 데이터의 검증 방법을 구현함으로써 각종 기능 응용 및 데이터 처리를 수행한다.
즉 상기 프로세싱 유닛은 상기 프로그램 실행 시, 커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하며, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하며, 적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하며, 적어도 하나의 차원에서 각 상기 검증 대상 응답과 상기 권위 데이터 세트 내의 권위 데이터와의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행한다.
실시예5
본 발명의 실시예5는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 프로그램이 프로세서에 의해 실행될 때, 커뮤니티 질의 답변 데이터 세트를 획득하고, 상기 커뮤니티 질의 답변 데이터 세트에 의해 복수의 질의 답변 쌍을 생성하는 단계로서, 상기 질의 답변 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 단계와, 적어도 하나의 신뢰 소스 사이트에 저장되어 있는 데이터에 기초하여 권위 데이터 세트를 생성하는 단계와, 적어도 하나의 차원에서 각 상기 검증 대상 응답과 상기 권위 데이터 세트 내의 권위 데이터와의 유사성 점수에 기초하여 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함하는 본원의 모든 발명 실시예에 따른 커뮤니티 질의 응답 데이터의 검증 방법을 구현한다.
본 발명의 실시예의 컴퓨터 저장 매체는 1개 또는 복수의 컴퓨터 판독 가능 매체의 임의의 조합을 사용할 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체, 또는 컴퓨터 판독 가능 저장 매체일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들면 전기, 자기, 광, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 디바이스, 또는 이상의 임의의 조합일 수 있지만, 이에 한정되지 않는다. 컴퓨터 판독 저장 매체의 보다 구체적인 예(비궁극적 리스트)로서 1개 또는 복수의 도선을 포함하는 전기적 접속, 휴대형 컴퓨터 디스크, 하드 디스크, RAM, 읽기전용 메모리(Read Only Memory, ROM), 소거 및 프로그램 가능 읽기용 기억 장치(Erasable Programmable Read Only Memory, EPROM), 플래시 메모리, 광섬유, 휴대식 CD-ROM, 광 기억장치, 자기 기억장치, 또는 이상의 임의의 적절한 조합을 포함한다. 본 명세서에 있어서, 컴퓨터 판독 가능 저장 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 사용 또는 이들과 조합하여 사용할 수 있는 프로그램을 포함하거나 또는 저장하는 임의의 유형 매체일 수 있다.
컴퓨터 판독 가능 신호 매체는 베이스 밴드 또는 반송파의 일부로서 전파하는 컴퓨터 판독 가능 프로그램 코드를 탑재한 데이터 신호를 포함할 수 있다. 이러한 전파의 데이터 신호는 전자기신호, 광 신호 또는 상술한 것들의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 여러가지 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 저장 매체 이외의 임의의 컴퓨터 판독 매체일 수도 있으며, 해당 컴퓨터 판독 가능 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합되어 사용되는 프로그램을 발송, 전파, 혹은 전송할 수 있다.
컴퓨터 판독 가능 매체에 포함되는 프로그램 코드는 무선, 유선, 광섬유 케이블, 무선 주파수(Radio Frequency, RF)등, 또는 전술한 것들의 임의의 적절한 조합을 포함하지만 이에 제한되지 않는 임의의 적당한 매체를 이용하여 송신할 수 있다.
1개 또는 복수개의 프로그램 설계언어 또는 그 조합으로 본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 코드를 편집할 수 있으며, 상기 프로그램 설계언어는 오브젝트 지향 프로그래밍 언어 예를 들면 Java, Smalltalk, C++, 및 상용의 과정식 프로그램 설계언어 예를 들면 "C" 언어 또는 유사한 프로그램 설계언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터상에서 실행할 수 있고, 일부는 사용자의 컴퓨터에서 실행하여 1개의 독립적인 소프트웨어 패키지로서 실행할 수 있고, 일부는 사용자의 컴퓨터에서 일부는 원격컴퓨터 상에서 실행할 수도 있고, 또는 완전히 원격 컴퓨터 또는 서버에서 실행할 수도 있다. 원격컴퓨터에 관한 경우, 원격컴퓨터는 LAN 또는 WAN를 포함하는 임의의 종류의 네트워크를 통하여 사용자 컴퓨터에 접속할 수도 있고, 또는 외부 컴퓨터(예를 들면, 인터넷 서비스 제공자를 이용하여 인터넷을 통해 접속)에 접속할 수 있다.
상술한 내용은 본 발명의 바람직한 실시예 및 적용된 기술적 원리에 불과하다는 점에 유의해야 한다. 당업자는 본 발명이 명세서에 설명된 특정 실시예들에 의해 제한되지 않으며, 본 발명의 범위를 벗어나지 않고 다양한 수정, 변경 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명을 상기 실시형태를 통해 구체적으로 설명했지만, 본 발명은 상기 실시형태에 의해 한정되지 않으며, 본 발명의 요지를 이탈하지 않는 범위에서 보다 많은 기타 등가의 실시형태를 포함할 수 있으며, 본 발명의 범위는 첨부된 청구의 범위에 의해 결정된다.

Claims (11)

  1. 커뮤니티 질의 응답 데이터의 검증 방법에 있어서,
    커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여, 복수의 질의 응답 쌍을 생성하는 단계에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 단계와,
    적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여, 권위 데이터 세트를 생성하는 단계와,
    적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트(authoritative data set)의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함하되,
    상기 권위성 검증은 상기 검증 대상 응답이 신뢰 소스 사이트에 저장된 데이터에 있는지 여부를 판단하는 것이고,
    상기 적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계는,
    상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하는 단계와,
    적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계와,
    상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함하고,
    상기 목표 차원은 키워드 차원이며,
    키워드 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계는,
    상기 검증 대상 응답에 포함된 제1 키워드 세트 및 각 상기 목표 권위 데이터에 포함된 제2 키워드 세트를 각각 획득하는 단계와,
    각 상기 제2 키워드 세트를 적중한 상기 제1 키워드 세트의 키워드 수량을 획득하는 단계와,
    상기 키워드 수량 및 각 상기 제2 키워드 세트에 포함된 키워드 총수량에 기초하여, 상기 키워드 차원에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하는 단계를 포함하는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 방법.
  2. 커뮤니티 질의 응답 데이터의 검증 방법에 있어서,
    커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여, 복수의 질의 응답 쌍을 생성하는 단계에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 단계와,
    적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여, 권위 데이터 세트를 생성하는 단계와,
    적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트(authoritative data set)의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함하되,
    상기 권위성 검증은 상기 검증 대상 응답이 신뢰 소스 사이트에 저장된 데이터에 있는지 여부를 판단하는 것이고,
    상기 적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계는,
    상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하는 단계와,
    적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계와,
    상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함하고,
    상기 목표 차원은 문장 차원이며,
    문장 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계는,
    상기 검증 대상 응답이 각 상기 목표 권위 데이터에 포함된 문장에 적중되는지의 여부를 각각 검증하는 단계와,
    적중 결과에 기초하여, 상기 문장 차원하에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하는 단계를 포함하는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 방법.
  3. 커뮤니티 질의 응답 데이터의 검증 방법에 있어서,
    커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여, 복수의 질의 응답 쌍을 생성하는 단계에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 단계와,
    적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여, 권위 데이터 세트를 생성하는 단계와,
    적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트(authoritative data set)의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함하되,
    상기 권위성 검증은 상기 검증 대상 응답이 신뢰 소스 사이트에 저장된 데이터에 있는지 여부를 판단하는 것이고,
    상기 적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계는,
    상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하는 단계와,
    적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계와,
    상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계를 포함하고,
    상기 목표 차원은 의미 차원이며,
    의미 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하는 단계는,
    상기 검증 대상 응답 및 각 상기 목표 권위 데이터를 입력 데이터로 각각 결합하는 단계와,
    각 상기 입력 데이터를 사전 훈련된 의미 유사도 인식 모델에 각각 입력하는 단계와,
    각 상기 입력 데이터에 대한 상기 의미 유사도 인식 모델의 출력 결과를 상기 의미 차원에서의 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수로서 획득하는 단계를 포함하는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하는 단계는,
    식: :
    Figure 112021096436511-pat00009

    (여기서, N은 상기 권위 데이터 세트에서 스크리닝된 상관 조건을 만족시키는 목표 권위 데이터 수이고, Word(Ans, Pi)는 키워드 차원에서의 상기 검증 대상 응답 Ans와 i번째 목표 권위 데이터 Pi 간의 유사성 점수이고, Sent(Ans, Pi)는 문장 차원에서의 Ans와 Pi와의 유사성 점수이고, Sim(Ans, Pi)는 의미 차원에서의 Ans와 Pi 간의 유사성 점수이고, α, β 및 γ는 미리 설정된 비율 계수이다)에 기초하여, 상기 검증 대상 응답의 권위 점수를 계산하는 단계와,
    상기 권위 점수가 설정된 권위 임계 값보다 작은 경우, 상기 검증 대상 응답을 상기 커뮤니티 질의 응답 데이터 세트로부터 필터링하는 단계를 포함하는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 방법.
  5. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하는 단계는,
    적어도 하나의 신뢰 소스 사이트를 선택하고, 각 상기 신뢰 소스 사이트의 사이트 데이터를 획득하여 데이터 클렌징하고, 구조화 분석을 수행한 후, 상기 권위 데이터 세트를 생성하는 단계를 포함하는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 방법.
  6. 커뮤니티 질의 응답 데이터의 검증 장치에 있어서,
    커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하기 위한 질의 응답 쌍 생성 모듈에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 질의 응답 쌍 생성 모듈과,
    적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하기 위한 권위 데이터 세트 생성 모듈과,
    적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하기 위한 권위성 검증 모듈을 포함하되,
    상기 권위성 검증은 상기 검증 대상 응답이 신뢰 소스 사이트에 저장된 데이터에 있는지 여부를 판단하는 것이고,
    상기 권위성 검증 모듈은,
    상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하고,
    적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하며,
    상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하도록 구성되고,
    상기 목표 차원은 키워드 차원이며,
    키워드 차원에서, 상기 권위성 검증 모듈은,
    상기 검증 대상 응답에 포함된 제1 키워드 세트 및 각 상기 목표 권위 데이터에 포함된 제2 키워드 세트를 각각 획득하고,
    각 상기 제2 키워드 세트를 적중한 상기 제1 키워드 세트의 키워드 수량을 획득하고,
    상기 키워드 수량 및 각 상기 제2 키워드 세트에 포함된 키워드 총수량에 기초하여, 상기 키워드 차원에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하도록 구성되는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 장치.
  7. 커뮤니티 질의 응답 데이터의 검증 장치에 있어서,
    커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하기 위한 질의 응답 쌍 생성 모듈에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 질의 응답 쌍 생성 모듈과,
    적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하기 위한 권위 데이터 세트 생성 모듈과,
    적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하기 위한 권위성 검증 모듈을 포함하되,
    상기 권위성 검증은 상기 검증 대상 응답이 신뢰 소스 사이트에 저장된 데이터에 있는지 여부를 판단하는 것이고,
    상기 권위성 검증 모듈은,
    상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하고,
    적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하며,
    상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하도록 구성되고,
    상기 목표 차원은 문장 차원이며,
    문장 차원에서, 상기 권위성 검증 모듈은,
    상기 검증 대상 응답이 각 상기 목표 권위 데이터에 포함된 문장에 적중되는지의 여부를 각각 검증하고,
    적중 결과에 기초하여, 상기 문장 차원하에서 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 계산하도록 구성되는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 장치.
  8. 커뮤니티 질의 응답 데이터의 검증 장치에 있어서,
    커뮤니티 질의 응답 데이터 세트를 획득하고, 상기 커뮤니티 질의 응답 데이터 세트에 기초하여 복수의 질의 응답 쌍을 생성하기 위한 질의 응답 쌍 생성 모듈에 있어서, 상기 질의 응답 쌍은 질의 및 질의에 대응하는 검증 대상 응답을 포함하는 질의 응답 쌍 생성 모듈과,
    적어도 하나의 신뢰 소스 사이트에 저장된 데이터에 기초하여 권위 데이터 세트를 생성하기 위한 권위 데이터 세트 생성 모듈과,
    적어도 하나의 차원에서의 각 상기 검증 대상 응답과 상기 권위 데이터 세트의 권위 데이터 간의 유사성 점수에 기초하여, 각 상기 검증 대상 응답에 대해 권위성 검증을 수행하기 위한 권위성 검증 모듈을 포함하되,
    상기 권위성 검증은 상기 검증 대상 응답이 신뢰 소스 사이트에 저장된 데이터에 있는지 여부를 판단하는 것이고,
    상기 권위성 검증 모듈은,
    상기 권위 데이터 세트에서 상기 검증 대상 응답을 검색하고, 상관 조건을 만족하는 설정된 수량의 목표 권위 데이터를 스크리닝하고,
    적어도 하나의 목표 차원에서, 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수를 각각 계산하며,
    상기 유사성 점수에 기초하여 상기 검증 대상 응답에 대해 권위성 검증을 수행하도록 구성되고,
    상기 목표 차원은 의미 차원이며,
    의미 차원에서, 상기 권위성 검증 모듈은,
    상기 검증 대상 응답 및 각 상기 목표 권위 데이터를 입력 데이터로 각각 결합하고,
    각 상기 입력 데이터를 사전 훈련된 의미 유사도 인식 모델에 각각 입력하고,
    각 상기 입력 데이터에 대한 상기 의미 유사도 인식 모델의 출력 결과를 상기 의미 차원에서의 상기 검증 대상 응답과 각 상기 목표 권위 데이터 간의 유사성 점수로서 획득하도록 구성되는 것을 특징으로 하는 커뮤니티 질의 응답 데이터의 검증 장치.
  9. 하나 이상의 프로세서와,
    하나 이상의 프로그램을 저장하기 위한 저장 장치를 포함하는 컴퓨터 기기에 있어서,
    상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 제1항 내지 제3항 중 어느 한 항에 기재된 커뮤니티 질의 응답 데이터의 검증 방법을 구현하도록 하는 것을 특징으로 하는 컴퓨터 기기.
  10. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체에 있어서, 상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제3항 중 어느 한 항에 기재된 커뮤니티 질의 응답 데이터의 검증 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  11. 삭제
KR1020190155197A 2019-02-02 2019-11-28 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체 KR102324048B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910107611.9A CN109783631B (zh) 2019-02-02 2019-02-02 社区问答数据的校验方法、装置、计算机设备和存储介质
CN201910107611.9 2019-02-02

Publications (2)

Publication Number Publication Date
KR20200096402A KR20200096402A (ko) 2020-08-12
KR102324048B1 true KR102324048B1 (ko) 2021-11-09

Family

ID=66504148

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190155197A KR102324048B1 (ko) 2019-02-02 2019-11-28 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11372942B2 (ko)
EP (1) EP3690676A1 (ko)
JP (1) JP7153004B2 (ko)
KR (1) KR102324048B1 (ko)
CN (1) CN109783631B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297954B (zh) * 2019-06-14 2022-08-30 北京百度网讯科技有限公司 答案校验处理方法、装置、设备和存储介质
CN110287385A (zh) * 2019-06-18 2019-09-27 素朴网联(珠海)科技有限公司 一种语料数据采集方法、系统及存储介质
CN110362735B (zh) * 2019-07-15 2022-05-13 北京百度网讯科技有限公司 判断陈述真实性的方法和装置、电子设备、可读介质
CN111984775A (zh) * 2020-08-12 2020-11-24 北京百度网讯科技有限公司 问答质量确定方法、装置、设备和存储介质
CN112052320B (zh) * 2020-09-01 2023-09-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112487495B (zh) * 2020-12-01 2021-07-02 厦门立马耀网络科技有限公司 基于大数据和云计算的数据处理方法及大数据服务器
CN112966081B (zh) * 2021-03-05 2024-03-08 北京百度网讯科技有限公司 处理问答信息的方法、装置、设备和存储介质
CN115146647B (zh) * 2021-03-31 2024-07-26 北京达佳互联信息技术有限公司 文本处理方法及装置
CN114490965B (zh) * 2021-12-23 2022-11-08 北京百度网讯科技有限公司 问题处理方法、装置、电子设备和存储介质
US20240256906A1 (en) * 2023-01-27 2024-08-01 Samsung Electronics Co., Ltd. Learning to combine explicit diversity conditions for effective question answer generation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234953A1 (en) 2004-04-15 2005-10-20 Microsoft Corporation Verifying relevance between keywords and Web site contents
US20100191681A1 (en) 2009-01-23 2010-07-29 Oxfordian, L.L.C. Prognostics and health management method for aging systems

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106788A1 (en) 2004-10-29 2006-05-18 Microsoft Corporation Computer-implemented system and method for providing authoritative answers to a general information search
US8346701B2 (en) * 2009-01-23 2013-01-01 Microsoft Corporation Answer ranking in community question-answering sites
CN103577556B (zh) * 2013-10-21 2017-01-18 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
US10380125B2 (en) 2015-05-01 2019-08-13 Sony Corporation Information processing apparatus and information processing method
KR101772199B1 (ko) 2015-10-30 2017-09-01 (주)유미테크 크라우드 소싱 기반 지식 검증 시스템
JP2017097561A (ja) 2015-11-20 2017-06-01 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
CN106910083A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 提供商品对象信息的方法及装置
JP6745127B2 (ja) 2016-03-30 2020-08-26 株式会社アドバンスト・メディア 情報処理システム、サーバ、端末装置、情報処理方法及びプログラム
US10372743B2 (en) * 2016-07-20 2019-08-06 Baidu Usa Llc Systems and methods for homogeneous entity grouping
US20180144234A1 (en) * 2016-11-20 2018-05-24 Arturo Devesa Sentence Embedding for Sequence-To-Sequence Matching in a Question-Answer System
CN107220296B (zh) * 2017-04-28 2020-01-17 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
CN109062973A (zh) * 2018-06-29 2018-12-21 北京百度网讯科技有限公司 一种问答资源的挖掘方法、装置、服务器及存储介质
CN109147934B (zh) * 2018-07-04 2023-04-11 平安科技(深圳)有限公司 问诊数据推荐方法、装置、计算机设备和存储介质
CN109101551B (zh) * 2018-07-10 2023-04-07 广州极天信息技术股份有限公司 一种问答知识库的构建方法及装置
CN108932349B (zh) * 2018-08-17 2019-03-26 齐鲁工业大学 医疗自动问答方法及装置、存储介质、电子设备
CN109213847A (zh) * 2018-09-14 2019-01-15 广州神马移动信息科技有限公司 答案的分层方法及其装置、电子设备、计算机可读介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234953A1 (en) 2004-04-15 2005-10-20 Microsoft Corporation Verifying relevance between keywords and Web site contents
US20100191681A1 (en) 2009-01-23 2010-07-29 Oxfordian, L.L.C. Prognostics and health management method for aging systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김현기 외 4인, 엑소브레인 한국어 분석 및 질의응답 기술의 개발현황 및 고도화 계획, 정보과학회지 35(8), 2017.8, 51-56페이지. 1부.*

Also Published As

Publication number Publication date
EP3690676A1 (en) 2020-08-05
JP7153004B2 (ja) 2022-10-13
KR20200096402A (ko) 2020-08-12
CN109783631B (zh) 2022-05-17
US20200250248A1 (en) 2020-08-06
JP2020126587A (ja) 2020-08-20
CN109783631A (zh) 2019-05-21
US11372942B2 (en) 2022-06-28

Similar Documents

Publication Publication Date Title
KR102324048B1 (ko) 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체
US10169706B2 (en) Corpus quality analysis
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US9361386B2 (en) Clarification of submitted questions in a question and answer system
US20160196497A1 (en) Crowdsource Reasoning Process to Facilitate Question Answering
US20150339290A1 (en) Context Based Synonym Filtering for Natural Language Processing Systems
US9720962B2 (en) Answering superlative questions with a question and answer system
US20180204106A1 (en) System and method for personalized deep text analysis
WO2021174812A1 (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
US10282678B2 (en) Automated similarity comparison of model answers versus question answering system output
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
US10558931B2 (en) Determining comprehensiveness of question paper given syllabus
US20150293901A1 (en) Utilizing Temporal Indicators to Weight Semantic Values
WO2020077825A1 (zh) 论坛社区应用管理方法、装置、设备及可读存储介质
WO2021174829A1 (zh) 众包任务的抽检方法、装置、计算机设备及存储介质
US10783140B2 (en) System and method for augmenting answers from a QA system with additional temporal and geographic information
US11068376B2 (en) Analytics engine selection management
CN118132818B (zh) 基于意象差异的旅游区域资源评估方法
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质
CN117009170A (zh) 训练样本的生成方法、装置、设备及存储介质
CN118916499A (zh) 一种集成ai大模型和知识图谱的查询方法
EP4298490A1 (en) System and methods for scrubbing social media content

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant