KR102172163B1 - 정보를 생성하기 위한 방법 및 장치 - Google Patents

정보를 생성하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102172163B1
KR102172163B1 KR1020180158166A KR20180158166A KR102172163B1 KR 102172163 B1 KR102172163 B1 KR 102172163B1 KR 1020180158166 A KR1020180158166 A KR 1020180158166A KR 20180158166 A KR20180158166 A KR 20180158166A KR 102172163 B1 KR102172163 B1 KR 102172163B1
Authority
KR
South Korea
Prior art keywords
entity
attribute
search
target
search word
Prior art date
Application number
KR1020180158166A
Other languages
English (en)
Other versions
KR20190087949A (ko
Inventor
지펭 젱
미아오 유
렌카이 양
이린 장
지아린 우
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20190087949A publication Critical patent/KR20190087949A/ko
Application granted granted Critical
Publication of KR102172163B1 publication Critical patent/KR102172163B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

본 출원의 실시예는 정보를 생성하기 위한 방법 및 장치를 개시한다. 해당 방법의 구체적인 실시예는, 기정의 시간 구간 내의 검색 데이터를 추출하는 단계와, 해당 검색 데이터로부터 다수의 목표 검색어를 확정하는 단계와, 각 목표 검색어 중의 엔티티의 속성을 확정하는 단계와, 해당 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하는 단계를 포함한다. 해당 실시예는 원활한 정보 생성을 구현한다.

Description

정보를 생성하기 위한 방법 및 장치{METHOD AND APPARATUS FOR GENERATING INFORMATION}
본 출원의 실시예는 컴퓨터 기술 분야에 관한 것으로, 구체적으로는 인터넷 기술 분야에 관한 것이며, 특히는 정보를 생성하기 위한 방법 및 장치에 관한 것이다.
인터넷 검색에 있어서, 일부분의 질의 응답 검색은 엔티티와 속성을 결합시키는 형식으로 설명을 진행할 수 있다. 여기서, 엔티티는 개념, 사물 또는 사건을 특성화시킨 정보일 수 있으며, 예를 들어, "워싱턴", "시애틀", "걸프전쟁", "빅뱅이론", "유씨" 등 일 수 있다. 속성은 엔티티의 특징 또는 엔티티에 관한 정보를 반영할 수 있으며, 예를 들어, 엔티티가 "관절염"일 경우, 속성의 예시는 "치료", "가격조회" 등을 포함할 수 있다. 이러한 유형의 질의 응답 요구를 만족시키기 위해, 통상적으로 각 엔티티 및 엔티티의 속성을 마이닝할 필요가 존재한다.
기존의 방식은 통상적으로 백과 사전 또는 버티컬 사이트에 따라 엔티티 및 엔티티의 속성을 마이닝하는 것이며, 이러한 방안은 권위 있는 버티컬 사이트가 필요하며, 웹 사이트 엔티티 속성이 상대적으로 전멱적인 것을 요구한다. 기존의 다른 일 방식은 통상적으로 엔티티가 해당되는 수직 범주에 따라 엔티티의 흔한 속성을 인위적으로 정의한다. 그러나, 기존의 방식들은 모두 마이닝된 엔티티의 속성으로부터 목표 속성(예컨대, 사용자의 검색 횟수가 상대적으로 많거나 상대적으로 관심 갖는 인기 있는 속성, 사용자의 검색 횟수가 상대적으로 적거나 상대적으로 관심 없는 인기 없는 속성 등)을 확정하지 못한다.
한국공개특허 제10-2018-0110498호
본 출원의 실시예는 정보를 생성하기 위한 방법 및 장치를 제출한다.
제1 양태에 있어서, 본 출원의 실시예는 정보를 생성하기 위한 방법을 제공하며, 해당 방법은, 사전 기정의 시간 구간 내의 검색 데이터를 추출하는 단계와, 검색 데이터로부터 다수의 목표 검색어를 확정하되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 단계와, 각 목표 검색어 중의 엔티티의 속성을 확정하는 단계와, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하는 단계를 포함한다.
일부 실시예에 있어서, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정한 이후, 해당 방법은, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티의 목표 속성의 속성값을 확정하고, 해당 엔티티의 목표 속성과 해당 엔티티의 목표 속성의 속성값을 데이터 베이스에 저장하는 단계를 더 포함한다.
일부 실시예에 있어서, 검색 데이터로부터 다수의 목표 검색어를 확정하는 단계는, 검색 데이터 중의 검색어에 대해 중복 제거 처리를 진행하고, 중복 제거 처리된 각 검색어를 대상으로 검색 데이터에서의 검색 횟수를 카운트하는 단계와, 중복 제거된 검색어로부터 다수의 목표 검색어를 확정하되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 단계를 포함한다.
일부 실시예에 있어서, 기정의 시간 구간 내의 검색 데이터를 추출하기 이전에, 해당 방법은, 미리 설치된 과거 검색 데이터로부터 표준 검색어를 확정하되, 표준 검색어는 엔티티 리스트 중의 임의의 하나의 엔티티와 해당 엔티티에 대응되는 미리 설치된 표준 속성 리스트 중의 임의의 하나의 표준 속성으로 구성된 검색어인 단계와, 확정된 각 표준 검색어에 대해, 과거 검색 데이터로부터 해당 표준 검색어의 동시 발생 검색어를 확정하고, 동시 발생 검색어 중의 엔티티 이외의 내용을 해당 표준 검색어 중의 표준 속성의 일반화 속성으로 확정하되, 동시 발생 검색어는 사용자가 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지와 사용자가 해당 표준 검색어를 사용하여 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지가 동일할 때 사용된 검색어인 단계를 더 포함한다.
일부 실시예에 있어서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하는 단계는, 각 목표 검색어 중의 엔티티의 속성을 상응한 미리 설치된 표준 속성 리스트 중의 각 표준 속성과 해당 표준 속성의 각 일반화 속성에 대해 각각 매칭을 진행하는 단계와, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 각 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주로 하여, 속성의 매칭 결과에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하는 단계를 포함한다.
일부 실시예에 있어서, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하는 단계는, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정하는 단계와, 확정된 검색 횟수의 합계의 최대값이 대응되는 표준 속성을 해당 엔티티 단어의 목표 속성으로 확정하는 단계를 포함한다.
제2 양태에 있어서, 본 출원의 실시예는 정보를 생성하기 위한 장치를 제공하며, 해당 장치는, 기정의 시간 구간 내의 검색 데이터를 추출하도록 구축된 추출 유닛과, 검색 데이터로부터 다수의 목표 검색어를 확정하도록 구축되되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 제1 확정 유닛과, 각 목표 검색어 중의 엔티티의 속성을 확정하도록 구축된 제2 확정 유닛과, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하도록 구축된 제3 확정 유닛을 포함한다.
일부 실시예에 있어서, 해당 장치는, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티의 목표 속성의 속성값을 확정하고, 해당 엔티티의 목표 속성과 해당 엔티티의 목표 속성의 속성값을 데이터 베이스에 저장하도록 구축된 제4 확정 유닛을 더 포함한다.
일부 실시예에 있어서, 제1 확정 유닛은, 검색 데이터 중의 검색어에 대해 중복 제거 처리를 진행하고, 중복 제거 처리된 각 검색어를 대상으로 검색 데이터에서의 검색 횟수를 카운트하도록 구축된 중복 제거 모듈과, 중복 제거된 검색어로부터 다수의 목표 검색어를 확정하도록 구축되되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 확정 모듈을 포함한다.
일부 실시예에 있어서, 장치는, 미리 설치된 과거 검색 데이터로부터 표준 검색어를 확정하도록 구축되되, 표준 검색어는 엔티티 리스트 중의 임의의 하나의 엔티티와 해당 엔티티에 대응되는 미리 설치된 표준 속성 리스트 중의 임의의 하나의 표준 속성으로 구성된 검색어인 제5 확정 유닛과, 확정된 각 표준 검색어에 대해, 과거 검색 데이터로부터 해당 표준 검색어의 동시 발생 검색어를 확정하고, 동시 발생 검색어 중의 엔티티 이외의 내용을 해당 표준 검색어 중의 표준 속성의 일반화 속성으로 확정하도록 구축되되, 동시 발생 검색어는 사용자가 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지와 사용자가 해당 표준 검색어를 사용하여 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지가 동일할 때 사용된 검색어인 제6 확정 유닛을 더 포함한다.
일부 실시예에 있어서, 제3 확정 유닛은, 각 목표 검색어 중의 엔티티의 속성을 상응한 미리 설치된 표준 속성 리스트 중의 각 표준 속성과 해당 표준 속성의 각 일반화 속성에 대해 각각 매칭을 진행하도록 구축된 매칭 모듈과, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 각 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주로 하여, 속성의 매칭 결과에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하도록 구축된 클러스터링 모듈을 포함한다.
일부 실시예에 있어서, 제3 확정 유닛은, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정하도록 구축된 제1 확정 모듈과, 확정된 검색 횟수의 합계의 최대값이 대응되는 표준 속성을 해당 엔티티 단어의 목표 속성으로 확정하도록 구축된 제2 확정 모듈을 포함한다.
제3 양태에 있어서, 본 출원의 실시예는, 하나 또는 다수의 프로세서와, 하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되, 하나 또는 다수의 프로그램이 하나 또는 다수의 프로세서에 의해 실행될 경우, 하나 또는 다수의 프로세서가 정보를 생성하기 위한 방법 중의 임의의 하나의 실시예의 방법을 구현하도록 하는 서버를 제공한다.
제4 양태에 있어서, 본 출원의 실시예는, 컴퓨터 프로그램이 저장되되, 해당 프로그램이 프로세서에 의해 실행될 경우 정보를 생성하기 위한 방법 중의 임의의 하나의 실시예의 방법을 구현하는 컴퓨터 판독 가능한 저장 매체를 제공한다.
본 출원의 실시예에서 제공하는 정보를 생성하기 위한 방법 및 장치는, 추출된 기정의 시간 구간 내의 검색 데이터로부터 다수의 목표 검색어를 확정한 다음, 각 목표 검색어 중의 엔티티의 속성을 확정하고, 이어서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정함으로써, 마이닝된 엔티티의 속성으로부터 목표 속성(예컨대, 사용자의 검색 횟수가 상대적으로 많거나 상대적으로 관심 갖는 인기 있는 속성, 사용자의 검색 횟수가 상대적으로 적거나 상대적으로 관심 없는 인기 없는 속성 등)을 확정하여, 원활한 정보 생성을 구현할 수 있다.
본 출원의 기타 특징, 목적 및 이점은 아래에 첨부된 도면을 참조하여 진행한 비 한정적인 실시예에 대한 상세한 설명으로부터 더욱 명확해질 것이다.
도1은 본 출원이 적용 가능한 예시적 시스템 체계 구조도이다.
도2는 본 출원에 따른 정보를 생성하기 위한 방법의 일 실시예의 흐름도이다.
도3은 본 출원에 따른 정보를 생성하기 위한 방법의 일 응용 정경의 예시도이다.
도4는 본 출원에 따른 정보를 생성하기 위한 방법의 일 응용 정경의 예시도이다.
도5는 본 출원에 따른 정보를 생성하기 위한 장치의 일 실시예의 예시적 구성도이다.
도6은 본 출원의 실시예의 서버를 구현하기에 적합한 컴퓨터 시스템의 예시적 구성도이다.
이하, 첨부된 도면 및 실시예들을 결부하여 본 출원에 대한 보다 상세한 설명을 진행하기로 한다. 여기에 설명되는 구체적인 실시예들은 단지 관련된 발명을 해석하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 수 있을 것이다. 또한, 설명의 편의를 위해, 첨부된 도면에는 단지 관련 발명에 관한 부분만이 도시됨을 설명하고자 한다.
본 출원의 실시예 및 실시예 중의 특징들은 모순되지 않는 한 서로 조합될 수 있음을 설명하고자 한다. 이하, 첨부된 도면을 참조하고 실시예들을 결부하여 본 출원에 대한 상세한 설명을 진행하기로 한다.
도1은 본 출원의 정보를 생성하기 위한 방법 또는 정보를 생성하기 위한 장치의 실시예가 적용 가능한 예시적 시스템 체계 구조(100)를 나타낸다.
도1에 도시된 바와 같이, 시스템 체계 구조(100)는 단말기 장치(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기 장치(101, 102, 103)와 서버(105) 사이에서 통신 링크를 제공하는 매체로 이용된다. 네트워크(104)는 예컨대 유선 통신 링크, 무선 통신 링크 또는 광섬유 케이블 등과 같은 각종의 연결 유형을 포함할 수 있다.
사용자는 메시지 등을 수신하거나 발신하기 위해 단말기 장치(101, 102, 103)를 사용하여 네트워크(104)를 경유하여 서버(105)와 인터랙션을 진행할 수 있다. 단말기 장치(101, 102, 103) 상에는 예컨대 검색 유형의 애플리케이션, 웹 브라우저 애플리케이션 등과 같은 각종의 통신 클라이언트 애플리케이션이 장착될 수 있다.
단말기 장치(101, 102, 103)는 스크린을 구비하고 웹 브라우징을 지원하는 각종의 전자 기기일 수 있으며, 스마트폰, 태블릿 PC, 랩탑형 휴대용 컴퓨터 및 데스크탑형 컴퓨터 등을 포함하나, 이에 한정되지 않는다.
서버(105)는 각종의 서비스를 제공하는 서버일 수 있으며, 예컨대, 단말기 장치(101, 102, 103)가 정보 검색을 진행하여 생성된 검색 데이터에 대해 처리를 진행하는 데이터 처리 서버일 수 있다. 데이터 처리 서버는 검색 요청이 수신된 이후 생성된 검색 데이터, 행동 데이터 등에 대해 분석 등의 처리를 진행하고, 처리 결과(예컨대, 목표 속성)를 저장할 수 있다.
본 출원의 실시예에서 제공하는 정보를 생성하기 위한 방법은 일반적으로 서버(105)에 의해 실행되고, 따라서, 정보를 생성하기 위한 장치는 일반적으로 서버(105)에 설치됨을 설명하고자 한다.
도1 중의 단말기 장치, 네트워크 및 서버의 수량은 단지 예시적인 것이며, 구현의 수요에 따라 임의의 수량의 단말기 장치, 네트워크, 서버가 구비될 수 있음을 이해하여야 한다.
이어서 도2를 참조하면, 도2는 본 출원에 따른 정보를 생성하기 위한 방법의 일 실시예의 흐름(200)을 나타낸다. 해당 정보를 생성하기 위한 방법은 아래와 같은 단계들을 포함한다.
단계(201)에서, 기정의 시간 구간 내의 검색 데이터를 추출한다.
본 실시예에 있어서, 정보를 생성하기 위한 방법이 운행되는 전자 기기(예컨대, 도1에 도시된 서버(105))에는 과거 검색 데이터가 저장될 수 있으며, 여기서, 상기 과거 검색 데이터는 현재 시각 이전에 사용자가 정보 검색을 진행하여 생성된 데이터, 예컨대 검색 로그일 수 있다. 상기 전자 기기는 상기 과거 검색 데이터로부터 기정의 시간 구간(예컨대, 최근 일주일) 내의 검색 데이터를 추출할 수 있다. 실천함에 있어서, 검색 데이터에는 사용자가 발송한 검색 요청에 포함된 검색어, 사용자가 검색 요청을 발송한 이후 클릭한 각 검색 결과 항목(예컨대, 웹 링크)과 클릭 시간, 사용자 명칭 등의 정보가 포함될 수 있으나, 이에 한정되지 않는다.
상기 과거 검색 데이터는 상기 전자 기기와 통신 연결되는 기타 기기(예컨대, 데이터 저장 서버)에 저장될 수도 있다. 상기 전자 기기는 유선 연결 또는 무선 연결의 방식을 통해 해당 기기로부터 기정의 시간 구간 내의 검색 데이터를 추출할 수 있다. 상기 무선 연결 방식은 3G/4G 연결, WiFi 연결, 블루투스 연결, WiMAX 연결, Zigbee 연결, UWB(ultra wideband) 연결 및 기타 기존에 알려진 또는 미래에 개발될 무선 연결 방식을 포함할 수 있으나, 이에 한정되지 않음을 지적하고자 한다.
단계(202)에서, 검색 데이터로부터 다수의 목표 검색어를 확정한다.
본 실시예에 있어서, 상기 전자 기기에는 엔티티 리스트가 미리 저장될 수 있다. 상기 엔티티 리스트는 당업자가 미리 제정한 것일 수 있으며, 각종의 데이터 마이닝 방법을 이용하여 엔티티에 대해 미리 마이닝을 진행하여 종합한 것일 수도 있으며, 여기서 이에 대한 한정을 진행하지 않는다. 실천함에 있어서, 엔티티는 개념, 사물 또는 사건을 특성화시킨 정보일 수 있다. 예를 들어, "워싱턴", "시애틀", "걸프전쟁", "빅뱅이론", "유씨" 등은 모두 엔티티의 예시로 이용될 수 있다. 여기서, "유씨"는 하나의 구체적인 사람의 이름, 예컨대 어느 한 스타의 이름일 수 있다. 엔티티는 속성을 구비할 수 있으며, 속성은 엔티티의 임의의 방면을 반영하는 특징 또는 엔티티에 관한 정보일 수 있음을 설명하고자 한다. 예를 들어, 엔티티가 "관절염"일 경우, 속성의 예시는 "치료", "가격조회" 등을 포함할 수 있다.
여기서, 상기 전자 기기는 문자열 매칭의 방식(예컨대, AC 자동 장치(Aho-Corasick automaton) 알고리즘을 사용하여 문자열 매칭을 진행함)을 이용하여 상기 검색 데이터 중의 각 검색어와 엔티티 리스트 중의 엔티티에 대해 매칭을 진행하고, 상기 기정의 엔티티 리스트 중의 엔티티를 포함하는 검색어를 목표 검색어로 확정하여, 상기 검색 데이터로부터 다수의 목표 검색어를 확정할 수 있다. 예를 들어, 검색어 "유씨의 아내는 누구인가"는 엔티티 "유씨"를 포함하고, 이러할 경우, 해당 검색어 "유씨의 아내는 누구인가"를 목표 검색어로 확정할 수 있다.
단계(203)에서, 각 목표 검색어 중의 엔티티의 속성을 확정한다.
본 실시예에 있어서, 상기 전자 기기에는 상기 엔티티 리스트 중의 각 엔티티의 속성 리스트가 미리 저장될 수 있다. 예를 들어, 엔티티 "유씨"의 속성 리스트에는 속성 "아내", 속성 "딸", 속성 "영상 작품", 속성 "노래" 등이 포함될 수 있다. 각 엔티티의 속성 리스트는 당업자가 미리 제정한 것일 수 있으며, 상기 전자 기기는 각종의 데이터 마이닝 방법을 이용하여 백과 사전 유형의 웹 사이트 또는 버티컬 사이트로부터 미리 마이닝을 진행하여 종합한 것일 수도 있으며, 여기서 이에 대한 한정을 진행하지 않는다.
상기 전자 기기는 아래와 같은 단계에 따라 각 목표 검색어 중의 엔티티의 속성을 확정할 수 있으며, 즉: 먼저, 각 목표 검색어에 대해, 상기 전자 기기에서는 먼저 엔티티 말미에서 해당 목표 검색어에 대해 분할을 진행할 수 있다. 예시적으로, 목표 검색어가 "유씨의 아내는 누구인가"이면, 상기 전자 기기는 해당 목표 검색어를 엔티티 "유씨" 및 "아내는 누구인가"로 분할할 수 있으며, 이러할 경우, "아내는 누구인가"는 즉 엔티티 "유씨"의 속성이다. 이어서, 상기 전자 기기는 문자열 매칭의 방식을 이용하여, 분할되었으나 엔티티를 포함하지 않는 부분과 해당 엔티티의 속성 리스트 중의 속성에 대해 매칭을 진행할 수 있다. 이어서, 상기 전자 기기는 매칭된 속성 리스트 중의 속성을 해당 목표 검색어 중의 엔티티의 속성으로 이용할 수 있으며, 또는, 분할되었으나 엔티티를 포함하지 않는 부분을 해당 목표 검색어 중의 엔티티의 속성으로 확정할 수 있다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 전자 기기는 직접적으로 각 목표 검색어 중 엔티티 이외의 내용을 해당 목표 검색어 중의 엔티티의 속성으로 확정할 수도 있다.
단계(204)에서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정한다.
본 실시예에 있어서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 상기 전자 기기는 아래와 같은 단계에 따라 실행될 수 있다.
제1 단계에서, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행한다. 상기 각 범주는 해당 엔티티의 일 유형의 속성에 대응될 수 있으며, 동일한 유형의 속성은 해당 엔티티를 포함하는 속성 리스트 중의 동일한 속성일 수 있음을 설명하고자 한다. 예시적으로, 해당 엔티티는 "유씨"이고, 해당 엔티티를 포함하는 목표 검색어로서, "유씨의 아내는 누구인가", "유씨의 아내", "유씨의 아내의 이름은 무엇인가", "유씨의 딸", "유씨의 딸의 이름은 무엇인가", "유씨의 딸은 누구인가", "유씨의 영화", "유씨가 어떠한 영화들에 출연하였는가"가 각각 존재한다. 여기서, 목표 검색어 "유씨의 아내는 누구인가", "유씨의 아내", "유씨의 아내의 이름은 무엇인가"에는 모두 엔티티 "유씨"의 속성 리스트 중의 속성 "아내"가 존재하므로, 이러한 3개의 목표 검색어가 엔티티 "유씨"의 동일 유형의 속성을 포함하는 것으로 간주할 수 있으며, 이러한 3개의 목표 검색어를 일 범주로 이용할 수 있다. 아울러, 목표 검색어 "유씨의 딸", "유씨의 딸의 이름은 무엇인가", "유씨의 딸은 누구인가"에는 모두 엔티티 "유씨"의 속성 리스트 중의 속성 "딸"이 포함되므로, 이러한 3개의 목표 검색어가 엔티티 "유씨"의 동일 유형의 속성을 포함하는 것으로 간주할 수 있으며, 이러한 3개의 목표 검색어를 일 범주로 이용할 수 있다. 아울러, 목표 검색어 "유씨의 영화", "유씨가 어떠한 영화들에 출연하였는가"에는 모두 엔티티 "유씨"의 속성 리스트 중의 속성 "영화"가 존재하므로, 이러한 2개의 목표 검색어가 엔티티 "유씨"의 동일 유형의 속성을 포함하는 것으로 간주할 수 있으며, 이러한 2개의 목표 검색어를 일 범주로 이용할 수 있다.
제2 단계에서, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정한다. 여기서, 상기 목표 속성은 인기 있는 속성 또는 인기 없는 속성 등일 수 있다. 여기서, 상기 인기 있는 속성은 사용자가 검색 엔진 상에서 엔티티에 관련된 문제를 검색할 때 사용자의 검색 횟수가 상대적으로 많고 상대적으로 관심 갖는 속성을 가리킬 수 있으며, 상기 인기 없는 속성은 사용자가 검색 엔진 상에서 엔티티에 관련된 문제를 검색할 때 사용자의 검색 횟수가 상대적으로 적고 상대적으로 관심 없는 속성일 수 있다. 상기 전자 기기는 검색 횟수의 합계의 크기를 기반으로 해당 엔티티의 속성의 인기 정도를 확정할 수 있다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 목표 속성은 인기 있는 속성일 수 있다. 이때, 상기 전자 기기는 먼저 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정할 수 있으며, 이어서, 검색 횟수의 합계의 최대값이 대응되는 속성을 해당 엔티티 단어의 인기 있는 속성으로 확정할 수 있다. 인기 있는 속성의 수량은 하나에 한정되지 않으며, 기정의 임의의 수량(예컨대, 3개)일 수 있고, 이때, 상기 전자 기기는 먼저 검색 횟수의 합계에 따라 작아지는 순서로 각 범주에 대응되는 속성에 대해 순서 배열을 진행할 수 있으며, 이어서, 배열된 순서에 따라 해당 엔티티 단어의 인기 있는 속성으로서 기정의 수량(예컨대, 3개)의 속성을 선택할 수 있음을 설명하고자 한다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 목표 속성은 인기 없는 속성일 수 있으며, 이때, 상기 전자 기기는 먼저 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정할 수 있으며, 이어서, 검색 횟수의 합계의 최소값에 대응되는 속성을 해당 엔티티 단어의 인기 없는 속성으로 확정할 수 있다. 인기 없는 속성의 수량은 하나에 한정되지 않으며, 기정의 임의의 수량(예컨대, 3개)일 수 있고, 이때, 상기 전자 기기는 먼저 검색 횟수의 합계에 따라 커지는 순서로 각 범주에 대응되는 속성에 대해 순서 배열을 진행할 수 있으며, 이어서, 배열된 순서에 따라 해당 엔티티 단어의 인기 없는 속성으로서 기정의 수량(예컨대, 3개)의 속성을 선택할 수 있음을 설명하고자 한다.
이어서, 도3을 참조하면, 도3은 본 실시예에 따른 정보를 생성하기 위한 방법의 응용 정경의 일 예시도이다. 도3의 응용 정경에 있어서, 데이터 처리 서버는 먼저 일 주일 내의 검색 데이터(301)를 추출할 수 있으며, 이어서, 데이터 처리 서버는 각 목표 검색어 중의 엔티티의 속성을 확정하도록, 해당 검색 데이터(301)로부터 다수의 목표 검색어(302)를 확정하고, 이어서, 해당 다수의 목표 검색어가 해당된 각 엔티티에 대해, 데이터 처리 서버는 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성(303)을 확정할 수 있다.
본 출원의 실시예에서 제공하는 방법은, 추출된 기정의 시간 구간 내의 검색 데이터로부터 다수의 목표 검색어를 확정한 다음, 각 목표 검색어 중의 엔티티의 속성을 확정하고, 이어서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정함으로써, 마이닝된 엔티티의 속성으로부터 목표 속성(예컨대, 사용자의 검색 횟수가 상대적으로 많거나 상대적으로 관심 갖는 인기 있는 속성, 사용자의 검색 횟수가 상대적으로 적거나 상대적으로 관심 없는 인기 없는 속성 등)을 확정하여, 원활한 정보 생성을 구현할 수 있다.
나아가, 도4를 참조하면, 도4는 정보를 생성하기 위한 방법의 다른 일 실시예의 흐름(400)을 나타낸다. 해당 정보를 생성하기 위한 방법의 흐름(400)은 아래와 같은 단계들을 포함한다.
단계(401)에서, 미리 설치된 과거 검색 데이터로부터 표준 검색어를 확정한다.
본 실시예에 있어서, 정보를 생성하기 위한 방법이 운행되는 전자 기기(예컨대, 도1에 도시된 서버(105))에는 과거 검색 데이터가 저장될 수 있으며, 여기서, 상기 과거 검색 데이터는 현재 시간 이전에 사용자가 정보 검색을 진행하여 생성된 데이터, 예컨대 검색 로그일 수 있다. 실천함에 있어서, 과거 검색 데이터에는 사용자가 발송한 검색 요청에 포함된 검색어, 사용자가 검색 요청을 발송한 이후 클릭한 각 검색 결과 항목과 클릭 시간, 사용자 명칭 등의 정보가 포함될 수 있으나, 이에 한정되지 않는다. 또한, 상기 전자 기기에는 엔티티 리스트가 미리 저장될 수도 있으며, 상기 엔티티 리스트 중의 각 엔티티에 대응되는 미리 설치된 표준 속성 리스트가 저장될 수도 있다. 여기서, 상기 엔티티 리스트와 미리 설치된 표준 속성 리스트는 당업자가 미리 제정한 것일 수 있으며, 상기 전자 기기로 각종의 데이터 마이닝 방법을 이용하여 엔티티 및 엔티티의 속성에 대해 마이닝을 진행하여 종합한 것일 수도 있으며, 여기서 이에 대한 한정을 진행하지 않는다. 표준 속성은 엔티티의 임의의 방면을 반영하는 특징 또는 엔티티에 관한 정보, 예컨대, "아내", "딸", "영화 작품" 등일 수 있다.
여기서, 상기 전자 기기는 상기 엔티티 리스트 중의 임의의 하나의 엔티티와 해당 엔티티에 대응되는 미리 설치된 표준 속성 리스트 중의 임의의 하나의 표준 속성으로 구성된 검색어를 표준 검색어로 확정하고, 상기 과거 검색 데이터 중의 검색어로부터 표준 검색어를 확정할 수 있다. 예를 들어, 엔티티 "유씨" 및 해당 엔티티의 표준 속성 "아내"로 표준 검색어 "유씨의 아내"를 구성한다.
단계(402)에서, 확정된 각 표준 검색어에 대해, 과거 검색 데이터로부터 해당 표준 검색어의 동시 발생 검색어를 확정하고, 동시 발생 검색어 중의 엔티티 이외의 내용을 해당 표준 검색어 중의 표준 속성의 일반화 속성으로 확정한다.
본 실시예에 있어서, 상기 전자 기기는 확정된 각 표준 검색어에 대해, 먼저 상기 과거 검색 데이터로부터 해당 표준 검색어의 동시 발생 검색어를 확정할 수 있으며, 여기서, 상기 동시 발생 검색어는 사용자가 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지와 사용자가 해당 표준 검색어를 사용하여 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지가 동일할 때 사용된 검색어일 수 있다. 여기서, 과거 검색 데이터에는 사용자가 검색 요청을 발송한 이후 클릭한 각 검색 결과 항목과 클릭 시간 등의 정보가 포함되므로, 상기 과거 검색 데이터 중의 각 검색어에 대해, 상기 전자 기기는 사용자가 클릭한 각 검색 결과 항목의 시간을 기반으로 사용자가 해당 검색어를 이용하여 검색을 진행한 이후 마지막으로 클릭한 검색 결과 항목을 확정할 수 있다. 예시적으로, 사용자가 하나의 검색어를 이용하여 검색을 진행한 이후, 순차적으로 제1 검색 결과 항목, 제2 검색 결과 항목 및 제3 검색 결과 항목을 클릭하고, 이어서, 해당 사용자가 해당 검색어에 대응되는 임의의 검색 결과 항목의 클릭 조작을 더이상 실행하지 않을 경우, 상기 제3 검색 결과 항목은 즉 해당 검색어를 이용하여 검색을 진행한 이후 마지막으로 클릭한 검색 결과 항목이다. 검색 결과 항목에 대응되는 페이지가 동일함은 검색 결과 항목에 대응되는 페이지의 내용이 동일하거나 링크가 동일한 것일 수 있음을 설명하고자 한다.
해당 표준 검색어의 동시 발생 검색어를 확정한 이후, 상기 전자 기기는 상기 동시 발생 검색어 중의 엔티티 이외의 내용을 해당 표준 검색어 중의 표준 속성의 일반화 속성으로 확정할 수 있다. 예시적으로, 표준 검색어 "유씨의 아내"의 동시 발생 검색어로서, "유씨의 아내는 누구인가", "유씨의 마누라는 누구인가", "유씨의 아내", "유씨의 마누라", "유씨의 아내의 이름은 무엇인가", "유씨의 마누라의 이름은 무엇인가"가 존재한다. 이러할 경우, 각 동시 발생 검색어 중의 엔티티 이외의 내용 "아내는 누구인가", "마누라는 누구인가", "의 아내", "의 마누라", "아내의 이름은 무엇인가", "마누라의 이름은 무엇인가"를 표준 속성 "아내"의 일반화 속성으로 이용한다.
단계(403)에서, 기정의 시간 구간 내의 검색 데이터를 추출한다.
본 실시예에 있어서, 상기 전자 기기는 상기 과거 검색 데이터로부터 기정의 시간 구간(예컨대, 최근 일주일) 내의 검색 데이터를 추출할 수 있다.
단계(404)에서, 검색 데이터 중의 검색어에 대해 중복 제거 처리를 진행하고, 중복 제거 처리된 각 검색어를 대상으로 검색 데이터에서의 검색 횟수를 카운트한다.
본 실시예에 있어서, 상기 전자 기기는 추출된 검색 데이터 중의 검색어에 대해 중복 제거 처리를 진행하고, 중복 제거 처리된 각 검색어를 대상으로 상기 검색 데이터에서의 검색 횟수를 카운트할 수 있다. 실천함에 있어서, 상기 전자 기기는 기존의 각종의 데이터 중복 제거 방법 또는 기존의 각종의 데이터 중복 제거 수단을 이용하여 검색어의 중복 제거 처리를 진행할 수 있으며, 여기서 이에 대한 중복된 설명은 생략하기로 한다.
단계(405)에서, 중복 제거된 검색어로부터 다수의 목표 검색어를 확정한다.
본 실시예에 있어서, 상기 전자 기기는 문자열 매칭의 방식(예컨대, AC 자동 장치(Aho-Corasick automaton) 알고리즘을 사용하여 문자열 매칭을 진행함)을 이용하여 중복 제거된 검색어 중 각 검색어와 상기 엔티티 리스트 중의 엔티티에 대해 매칭을 진행하고, 상기 기정의 엔티티 리스트 중의 엔티티를 포함하는 검색어를 목표 검색어로 확정하여, 중복 제거된 검색어로부터 다수의 목표 검색어를 확정할 수 있다.
단계(406)에서, 각 목표 검색어 중의 엔티티의 속성을 확정한다.
본 실시예에 있어서, 각 목표 검색어에 대해, 상기 전자 기기에서는 해당 목표 검색어 중 엔티티 이외의 내용을 해당 목표 검색어 중의 엔티티의 속성으로 확정할 수 있다.
단계(407)에서, 각 목표 검색어 중의 엔티티의 속성을 상응한 미리 설치된 표준 속성 리스트 중의 각 표준 속성과 해당 표준 속성의 각 일반화 속성에 대해 각각 매칭을 진행한다.
본 실시예에 있어서, 상기 전자 기기는 각 목표 검색어 중의 엔티티의 속성을 상응한 미리 설치된 표준 속성 리스트 중의 각 표준 속성과 해당 표준 속성의 각 일반화 속성에 대해 각각 매칭을 진행할 수 있다. 구체적으로, 각 목표 검색어에 대해, 상기 전자 기기는 각각 해당 목표 검색어 중의 엔티티의 속성을 해당 엔티티의 미리 설치된 표준 속성 리스트 중의 각 표준 속성, 각 표준 속성의 각 일반화 속성에 대해 매칭을 진행할 수 있다.
단계(408)에서, 상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 각 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주로 하여, 속성의 매칭 결과에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행한다.
본 실시예에 있어서, 상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 상기 전자 기기는 각 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주로 하여, 속성의 매칭 결과에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행할 수 있다.
예시적으로, 상기 다수의 목표 검색어에 포함된 엔티티 "유씨"에 해당된 목표 검색어로서, "유씨의 아내", "유씨의 아내는 누구인가", "유씨의 마누라는 누구인가", "유씨의 딸", "유씨의 딸은 누구인가", "유씨의 영화 작품", "유씨가 어떠한 영화들에 출연하였는가"가 존재한다. 표준 속성 "아내"의 일반화 속성은 "아내는 누구인가", "마누라는 누구인가"를 포함하고, 표준 속성 "딸"의 일반화 속성은 "딸은 누구인가"를 포함하며, 표준 속성 "영화"의 일반화 속성은 "영화 작품", "어떠한 영화들에 출연하였는가"를 포함한다. 해당 엔티티 "유씨"에 대해, 전가 기기는 해당된 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주(즉, "아내", "아내는 누구인가", "마누라는 누구인가"는 일 범주이고, "딸", "딸은 누구인가"는 일 범주이며, "영화 작품", "어떠한 영화들에 출연하였는가"는 일 범주임)로 하여, 목표 검색어에 대해 클러스터링을 진행하고, 해당된 엔티티 "유씨"의 목표 검색어를 3가지 범주로 분류할 수 있으며, 여기서, 목표 검색어 "유씨의 아내", "유씨의 아내는 누구인가", "유씨의 마누라는 누구인가"는 일 범주이고, 목표 검색어 "유씨의 딸", "유씨의 딸은 누구인가"는 일 범주이며, 목표 검색어 "유씨의 영화 작품", "유씨가 어떠한 영화들에 출연하였는가"는 일 범주일 수 있다.
단계(409)에서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정한다.
본 실시예에 있어서, 상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 상기 전자 기기는 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정할 수 있다.
단계(410)에서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 확정된 검색 횟수의 합계의 최대값이 대응되는 표준 속성을 해당 엔티티 단어의 목표 속성으로 확정한다.
본 실시예에 있어서, 상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 상기 전자 기기는 확정된 검색 횟수의 합계의 최대값이 대응되는 표준 속성을 해당 엔티티 단어의 목표 속성으로 확정할 수 있다. 여기서, 상기 목표 속성는 인기 있는 속성일 수 있으며, 즉, 사용자가 검색 엔진 상에서 엔티티에 관련된 문제를 검색할 때 사용자의 검색 횟수가 제일 많고 제일 관심 갖는 속성일 수 있다.
단계(411)에서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티의 목표 속성의 속성값을 확정하고, 해당 엔티티의 목표 속성과 해당 엔티티의 목표 속성의 속성값을 데이터 베이스에 저장한다.
본 실시예에 있어서, 다수의 목표 검색어가 해당된 각 엔티티에 대해, 상기 전자 기기는 해당 엔티티의 목표 속성의 속성값을 확정하고, 해당 엔티티의 목표 속성과 해당 엔티티의 목표 속성의 속성값을 데이터 베이스에 저장할 수 있다. 예시적으로, 상기 전자 기기는 상기 속성값을 획득하기 위해 미리 설치된 지식도로부터 해당 엔티티의 목표 속성의 속성값에 대해 검색을 진행할 수 있다.
도4로부터 알수 있는 바, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 방법의 흐름(400)은 과거 검색 데이터를 기반으로 속성 일반화를 진행하는 단계 및 표준 속성과 일반화 속성을 기반으로 목표 검색어에 대해 클러스터링을 진행하는 단계를 강조하였다. 이로써, 본 실시예에서 설명한 방안은, 검색어의 다양화, 구두어화 문제점들을 감안하여, 검색 데이터에 대해 보다 전면적인 통계 및 처리를 진행할 수 있으며, 이로써 생성된 목표 속성의 정확성을 향상시킬 수 있다.
이어서 도5를 참조하면, 이는 상기 각 도면에 도시된 방법의 구현으로서, 본 출원은 정보를 생성하기 위한 장치의 일 실시예를 제공하며, 해당 장치 실시예는 도2에 도시된 방법 실시예에 대응되고, 해당 장치는 구체적으로 각종의 전자 기기에 적용될 수 있다.
도5에 도시된 바와 같이, 본실시예에서 제공하는 정보를 생성하기 위한 장치(500)는, 기정의 시간 구간 내의 검색 데이터를 추출하도록 구축된 추출 유닛(501)과, 상기 검색 데이터로부터 다수의 목표 검색어를 확정하도록 구축되되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 제1 확정 유닛(502)과, 각 목표 검색어 중의 엔티티의 속성을 확정하도록 구축된 제2 확정 유닛(503)과, 상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하도록 구축된 제3 확정 유닛(504)을 포함한다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 정보를 생성하기 위한 장치(500)는 제4 확정 유닛(미도시)을 더 포함할 수 있다. 여기서, 상기 제4 확정 유닛은, 상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티의 목표 속성의 속성값을 확정하고, 해당 엔티티의 목표 속성과 해당 엔티티의 목표 속성의 속성값을 데이터 베이스에 저장하도록 구축될 수 있다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 제1 확정 유닛(502)은 중복 제거 모듈과 확정 모듈(미도시)을 포함할 수 있다. 여기서, 상기 중복 제거 모듈은, 상기 검색 데이터 중의 검색어에 대해 중복 제거 처리를 진행하고, 중복 제거 처리된 각 검색어를 대상으로 상기 검색 데이터에서의 검색 횟수를 카운트하도록 구축될 수 있다. 상기 확정 모듈은, 중복 제거된 검색어로부터 다수의 목표 검색어를 확정하도록 구축되되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어일 수 있다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 정보를 생성하기 위한 장치(500)는 제5 확정 유닛과 제6 확정 유닛(미도시)을 더 포함할 수 있다. 여기서, 상기 제5 확정 유닛은, 미리 설치된 과거 검색 데이터로부터 표준 검색어를 확정하도록 구축되되, 상기 표준 검색어는 상기 엔티티 리스트 중의 임의의 하나의 엔티티와 해당 엔티티에 대응되는 미리 설치된 표준 속성 리스트 중의 임의의 하나의 표준 속성으로 구성된 검색어일 수 있다. 상기 제6 확정 유닛은, 확정된 각 표준 검색어에 대해, 상기 과거 검색 데이터로부터 해당 표준 검색어의 동시 발생 검색어를 확정하고, 상기 동시 발생 검색어 중의 엔티티 이외의 내용을 해당 표준 검색어 중의 표준 속성의 일반화 속성으로 확정하도록 구축되되, 상기 동시 발생 검색어는 사용자가 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지와 사용자가 해당 표준 검색어를 사용하여 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지가 동일할 때 사용된 검색어일 수 있다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 제3 확정 유닛(504)은 매칭 모듈과 클러스터링 모듈(미도시)을 포함할 수 있다. 여기서, 상기 매칭 모듈은, 각 목표 검색어 중의 엔티티의 속성을 상응한 미리 설치된 표준 속성 리스트 중의 각 표준 속성과 해당 표준 속성의 각 일반화 속성에 대해 각각 매칭을 진행하도록 구축될 수 있다. 상기 클러스터링 모듈은 상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 각 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주로 하여, 속성의 매칭 결과에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하도록 구축될 수 있다.
본 실시예의 일부의 선택 가능한 구현 방식에 있어서, 상기 제3 확정 유닛(504)은 제1 확정 모듈과 제2 확정 모듈(미도시)을 포함할 수 있다. 여기서, 상기 제1 확정 모듈은 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정하도록 구축될 수 있다. 상기 제2 확정 모듈은 확정된 검색 횟수의 합계의 최대값이 대응되는 표준 속성을 해당 엔티티 단어의 목표 속성으로 확정하도록 구축될 수 있다.
본 출원의 실시예에서 제공하는 장치는, 제1 확정 유닛(502)으로 추출 유닛(501)에서 추출된 기정의 시간 구간 내의 검색 데이터로부터 다수의 목표 검색어를 확정한 다음, 제2 확정 유닛(503)으로 각 목표 검색어 중의 엔티티의 속성을 확정하고, 이어서, 제3 확정 유닛(504)으로 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정함으로써, 마이닝된 엔티티의 속성으로부터 목표 속성(예컨대, 사용자의 검색 횟수가 상대적으로 많거나 상대적으로 관심 갖는 인기 있는 속성, 사용자의 검색 횟수가 상대적으로 적거나 상대적으로 관심 없는 인기 없는 속성 등)을 확정하여, 원활한 정보 생성을 구현할 수 있다.
아래에 도6을 참조하면, 도6은 본 출원의 실시예의 서버를 구현하기에 적합한 컴퓨터 시스템(600)의 예시적 구성도를 나타낸다. 도6에 도시된 서버는 단지 일 예시일 뿐, 본 출원의 실시예의 기능 및 사용 범위에 대해 아무런 한정을 진행하여서는 아니된다.
도6에 도시된 바와 같이, 컴퓨터 시스템(600)은 중앙 처리 유닛(601; CPU)을 포함하되, CPU(601)는 읽기 전용 메모리 장치(602; ROM)에 저장된 프로그램 또는 저장부(608)로부터 랜덤 액세스 메모리 장치(603; RAM)에 로딩된 프로그램에 의해 각종의 적당한 동작과 처리를 실행할 수 있다. RAM(603)에는 시스템(600)을 작동하기에 필요한 각종 프로그램 및 데이터가 더 저장되어 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(605)도 버스(604)에 연결된다.
I/O 인터페이스(605)에 연결되는 부재로서, 키보드, 마우스 등을 포함하는 입력부(606)와, 예커내 음극선관(CRT), 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(607)와, 하드 드라이버 등을 포함하는 저장부(608)와, 예컨대 LAN 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(609)가 포함된다. 통신부(609)는 인터넷과 같은 네트워크를 통해 통신처리를 실행한다. 구동부(610)도 수요에 따라 I/O 인터페이스(605)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(611)는 이러한 매체로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(608)에 설치하도록 수요에 따라 구동부(610)에 설치된다.
특히는, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정들은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램 제품은 기계 판독 가능한 매체에 탑재된 컴퓨터 프로그램을 포함하며, 해당 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 컴퓨터 코드를 포함한다. 이러한 실시예에 있어서, 해당 컴퓨터 프로그램은 통신부(609)를 경유하여 네트워크로부터 다운로드되어 설치될 수 있고 및/또는 착탈 가능한 매체(611)로부터 설치될 수 있다. 해당 컴퓨터 프로그램이 중앙 처리 유닛(601; CPU)에 의해 실행될 경우, 본 출원의 방법에 한정된 상기 기능을 실행한다. 본 출원의 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체, 컴퓨터 판독 가능한 저장 매체 또는 상기 양자의 임의의 조합일 수 있음을 설명하고자 한다. 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 광학, 전자기, 적외선 또는 반도체의 시스템, 장치, 소자 또는 상기의 임의의 조합일 수 있으나, 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더욱 구체적인 예시는 하나 또는 다수의 도선을 구비하는 전기적 연결된 휴대용 컴퓨터 자기 디스크, 하드 디스크, 랜덤 액세스 메모리 장치(RAM), 읽기 전용 메모리 장치(ROM), 소거 및 프로그램 가능한 읽기 전용 메모리 장치(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리 장치(CD-ROM), 광 메모리 장치, 자기 메모리 장치 또는 상기의 임의의 적합한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 본 출원에 있어서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형 매체일 수 있으며, 해당 프로그램은 명령 실행 시스템, 장치 또는 소자에 의해 이용되거나 이와 결합하여 이용될 수 있다. 본 출원에 있어서, 컴퓨터 판독 가능한 신호 매체는 베이스 밴드에서 전파되거나 캐리어의 일부분으로 전파되는 데이터 신호를 포함할 수 있으며, 여기서, 데이터 신호에는 컴퓨터 판독 가능한 프래그램 코드가 탑재된다. 이렇게 전파되는 데이터 신호는 여러가지 형식을 이용할 수 있으며, 전자기 신호, 광 신호 또는 상기의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다. 컴퓨터 판독 가능한 신호 매체는 컴퓨터 판독 가능한 저장 매체를 제외한 임의의 컴퓨터 판독 가능한 매체일 수도 있으며, 해당 컴퓨터 판독 가능한 매체는 명령 실행 시스템, 장치 또는 소자에 의해 이용되거나 이와 결합하여 이용되는 프로그램을 발송, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 임의의 적당한 매체를 이용하여 전송될 수 있으며, 무선, 전선, 케이블, RF 등 또는 상기의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다.
첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 조작을 도시하였다. 이러한 방면에서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 해당 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령을 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 발생할 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 거의 동시에 실행될 수 있고, 경우에 따라 반대된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 결정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록들의 조합은 규정된 기능 또는 조작을 실행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령의 조합으로 구현될 수 있음을 유의하여야 한다.
본 출원의 실시예에 설명된 관련된 유닛은 소프트웨어의 방식으로 구현될 수 있거나, 또는 하드웨어의 방식으로 구현될 수도 있다. 설명된 유닛은 프로세서에 설치될 수도 있으며, 예를 들어, 프로세서가 추출 유닛, 제1 확정 유닛, 제2 확정 유닛 및 제3 확정 유닛을 포함한다고 설명될 수 있다. 여기서, 이러한 유닛들의 명칭은 일부의 경우에 해당 유닛 자체에 대한 한정을 구성하지 않으며, 예를 들어, 추출 유닛은 "기정의 시간 구간 내의 검색 데이터를 추출하는 유닛"으로 설명될 수도 있다.
다른 일 양태로서, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 해당 컴퓨터 판독 가능한 매체는 상기 실시예에 설명된 장치에 포함되는 것일 수 있으며, 또는 해당 장치에 설치되지 않고 독립적으로 존재하는 것일 수도 있다. 상기 컴퓨터 판독 가능한 매체에는 하나 또는 다수의 프로그램이 탑재되고, 상기 하나 또는 다수의 프로그램이 해당 장치에 의해 실행될 경우, 해당 장치로 하여금, 기정의 시간 구간 내의 검색 데이터를 추출하고, 해당 검색 데이터로부터 다수의 목표 검색어를 확정하고, 각 목표 검색어 중의 엔티티의 속성을 확정하고, 해당 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하도록 한다.
이상의 설명은 단지 본 출원의 비교적 바람직한 실시예 및 운용한 기술적 원리에 대한 설명이다. 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라 본 발명의 주지를 벗어나지 않고서 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들도 포함되어야 함을 해당 기술분야의 당업자는 이해하여야 한다. 예를 들어, 상기 특징들과 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징을 서로 대체하여 이루어진 기술적 방안도 포함된다.

Claims (14)

  1. 미리 설치된 과거 검색 데이터로부터 표준 검색어를 확정하되, 상기 표준 검색어는 기정의 엔티티 리스트 중의 임의의 하나의 엔티티와 해당 엔티티에 대응되는 미리 설치된 표준 속성 리스트 중의 임의의 하나의 표준 속성으로 구성된 검색어인 단계;
    확정된 각 표준 검색어에 대해, 상기 과거 검색 데이터로부터 해당 표준 검색어의 동시 발생 검색어를 확정하고, 상기 동시 발생 검색어 중의 엔티티 이외의 내용을 해당 표준 검색어 중의 표준 속성의 일반화 속성으로 확정하되, 상기 동시 발생 검색어는 사용자가 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지와 사용자가 해당 표준 검색어를 사용하여 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지가 동일할 때 사용된 검색어인 단계;
    기정의 시간 구간 내의 검색 데이터를 추출하는 단계;
    상기 검색 데이터로부터 다수의 목표 검색어를 확정하되, 상기 목표 검색어는 상기 엔티티 리스트 중의 엔티티를 포함한 검색어인 단계;
    각 목표 검색어 중의 엔티티의 속성을 확정하는 단계; 및
    상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하는 단계를 포함하는 정보를 생성하기 위한 방법.
  2. 제1항에 있어서,
    상기 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정한 이후,
    상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티의 목표 속성의 속성값을 확정하고, 해당 엔티티의 목표 속성과 해당 엔티티의 목표 속성의 속성값을 데이터 베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는 정보를 생성하기 위한 방법.
  3. 제1항에 있어서,
    상기 검색 데이터로부터 다수의 목표 검색어를 확정하는 단계는,
    상기 검색 데이터 중의 검색어에 대해 중복 제거 처리를 진행하고, 중복 제거 처리된 각 검색어를 대상으로 상기 검색 데이터에서의 검색 횟수를 카운팅하는 단계; 및
    중복 제거된 검색어로부터 다수의 목표 검색어를 확정하되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 단계를 포함하는 것을 특징으로 하는 정보를 생성하기 위한 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하는 단계는,
    각 목표 검색어 중의 엔티티의 속성을 상응한 미리 설치된 표준 속성 리스트 중의 각 표준 속성과 해당 표준 속성의 각 일반화 속성에 대해 각각 매칭을 진행하는 단계; 및
    상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 각 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주로 하여, 속성의 매칭 결과에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하는 단계를 포함하는 것을 특징으로 하는 정보를 생성하기 위한 방법.
  6. 제5항에 있어서,
    상기 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하는 단계는,
    클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정하는 단계; 및
    확정된 검색 횟수의 합계의 최대값이 대응되는 표준 속성을 해당 엔티티 단어의 목표 속성으로 확정하는 단계를 포함하는 것을 특징으로 하는 정보를 생성하기 위한 방법.
  7. 기정의 시간 구간 내의 검색 데이터를 추출하도록 구축된 추출 유닛;
    상기 검색 데이터로부터 다수의 목표 검색어를 확정하도록 구축되되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 제1 확정 유닛;
    각 목표 검색어 중의 엔티티의 속성을 확정하도록 구축된 제2 확정 유닛; 및
    상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티를 포함하는 목표 검색어 중의 속성에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하고, 클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 기반으로, 해당 엔티티의 목표 속성을 확정하도록 구축된 제3 확정 유닛;
    미리 설치된 과거 검색 데이터로부터 표준 검색어를 확정하도록 구축되되, 상기 표준 검색어는 상기 엔티티 리스트 중의 임의의 하나의 엔티티와 해당 엔티티에 대응되는 미리 설치된 표준 속성 리스트 중의 임의의 하나의 표준 속성으로 구성된 검색어인 제5 확정 유닛; 및
    확정된 각 표준 검색어에 대해, 상기 과거 검색 데이터로부터 해당 표준 검색어의 동시 발생 검색어를 확정하고, 상기 동시 발생 검색어 중의 엔티티 이외의 내용을 해당 표준 검색어 중의 표준 속성의 일반화 속성으로 확정하도록 구축되되, 상기 동시 발생 검색어는 사용자가 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지와 사용자가 해당 표준 검색어를 사용하여 검색한 후 마지막으로 클릭한 검색 결과 항목에 대응되는 페이지가 동일할 때 사용된 검색어인 제6 확정 유닛을 포함하는 정보를 생성하기 위한 장치.
  8. 제7항에 있어서,
    상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 해당 엔티티의 목표 속성의 속성값을 확정하고, 해당 엔티티의 목표 속성과 해당 엔티티의 목표 속성의 속성값을 데이터 베이스에 저장하도록 구축된 제4 확정 유닛을 더 포함하는 것을 특징으로 하는 정보를 생성하기 위한 장치.
  9. 제7항에 있어서,
    상기 제1 확정 유닛은,
    상기 검색 데이터 중의 검색어에 대해 중복 제거 처리를 진행하고, 중복 제거 처리된 각 검색어를 대상으로 상기 검색 데이터에서의 검색 횟수를 카운트하도록 구축된 중복 제거 모듈; 및
    중복 제거된 검색어로부터 다수의 목표 검색어를 확정하도록 구축되되, 목표 검색어는 기정의 엔티티 리스트 중의 엔티티를 포함한 검색어인 확정 모듈을 포함하는 것을 특징으로 하는 정보를 생성하기 위한 장치.
  10. 삭제
  11. 제7항에 있어서,
    상기 제3 확정 유닛은,
    각 목표 검색어 중의 엔티티의 속성을 상응한 미리 설치된 표준 속성 리스트 중의 각 표준 속성과 해당 표준 속성의 각 일반화 속성에 대해 각각 매칭을 진행하도록 구축된 매칭 모듈; 및
    상기 다수의 목표 검색어가 해당된 각 엔티티에 대해, 각 표준 속성과 해당 표준 속성의 일반화 속성을 일 범주로 하여, 속성의 매칭 결과에 따라 해당 엔티티를 포함하는 목표 검색어에 대해 클러스터링을 진행하도록 구축된 클러스터링 모듈을 포함하는 것을 특징으로 하는 정보를 생성하기 위한 장치.
  12. 제11항에 있어서,
    상기 제3 확정 유닛은,
    클러스터링된 각 범주 중의 목표 검색어의 검색 횟수의 합계를 확정하도록 구축된 제1 확정 모듈; 및
    확정된 검색 횟수의 합계의 최대값이 대응되는 표준 속성을 해당 엔티티 단어의 목표 속성으로 확정하도록 구축된 제2 확정 모듈을 포함하는 것을 특징으로 하는 정보를 생성하기 위한 장치.
  13. 하나 또는 다수의 프로세서와,
    하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되,
    상기 하나 또는 다수의 프로그램이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 제1항 내지 제3항 및 제5항 내지 제6항 중의 임의의 한 항의 방법을 구현하도록 하는 서버.
  14. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체에 있어서,
    상기 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제3항 및 제5항 내지 제6항 중의 임의의 한 항의 방법을 구현하는 컴퓨터 판독 가능한 저장 매체.
KR1020180158166A 2018-01-17 2018-12-10 정보를 생성하기 위한 방법 및 장치 KR102172163B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810044255.6 2018-01-17
CN201810044255.6A CN108256070B (zh) 2018-01-17 2018-01-17 用于生成信息的方法和装置

Publications (2)

Publication Number Publication Date
KR20190087949A KR20190087949A (ko) 2019-07-25
KR102172163B1 true KR102172163B1 (ko) 2020-10-30

Family

ID=62741197

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180158166A KR102172163B1 (ko) 2018-01-17 2018-12-10 정보를 생성하기 위한 방법 및 장치

Country Status (5)

Country Link
US (1) US11003731B2 (ko)
EP (1) EP3514698A1 (ko)
JP (1) JP6734946B2 (ko)
KR (1) KR102172163B1 (ko)
CN (1) CN108256070B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255037B (zh) * 2018-08-31 2022-03-08 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN109493166B (zh) * 2018-10-23 2021-12-28 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN109902147A (zh) * 2019-02-13 2019-06-18 北京百度网讯科技有限公司 用于查询处理的方法、装置、设备和存储介质
CN110083677B (zh) * 2019-05-07 2021-09-17 北京字节跳动网络技术有限公司 联系人的搜索方法、装置、设备及存储介质
CN110245357B (zh) * 2019-06-26 2023-05-02 北京百度网讯科技有限公司 主实体识别方法和装置
CN111177399B (zh) * 2019-12-04 2023-06-16 华瑞新智科技(北京)有限公司 一种知识图谱构建方法和装置
CN111488441B (zh) * 2020-04-08 2023-08-01 北京百度网讯科技有限公司 问题解析方法、装置、知识图谱问答系统和电子设备
CN112001180A (zh) * 2020-07-14 2020-11-27 北京百度网讯科技有限公司 多模态预训练模型获取方法、装置、电子设备及存储介质
CN112115342A (zh) * 2020-09-22 2020-12-22 深圳市欢太科技有限公司 搜索方法、装置、存储介质以及终端
CN113157922B (zh) * 2021-04-28 2022-01-21 江苏易安联网络技术有限公司 基于图的网络实体行为评估、可视化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082649A1 (en) 2008-09-22 2010-04-01 Microsoft Corporation Automatic search suggestions from server-side user history
JP2010244341A (ja) 2009-04-07 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 属性表現獲得方法及び装置及びプログラム
JP2015526809A (ja) 2012-07-20 2015-09-10 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited クエリ拡張
JP2017508214A (ja) * 2014-03-21 2017-03-23 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索推奨の提供

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146416B1 (en) * 2000-09-01 2006-12-05 Yahoo! Inc. Web site activity monitoring system with tracking by categories and terms
US7149732B2 (en) * 2001-10-12 2006-12-12 Microsoft Corporation Clustering web queries
US7376643B2 (en) * 2004-05-14 2008-05-20 Microsoft Corporation Method and system for determining similarity of objects based on heterogeneous relationships
US7624102B2 (en) * 2005-01-28 2009-11-24 Microsoft Corporation System and method for grouping by attribute
US7502785B2 (en) * 2006-03-30 2009-03-10 Microsoft Corporation Extracting semantic attributes
US7552112B2 (en) * 2006-09-18 2009-06-23 Yahoo! Inc. Discovering associative intent queries from search web logs
JP5168961B2 (ja) * 2007-03-19 2013-03-27 富士通株式会社 最新評判情報通知プログラム、記録媒体、装置及び方法
JP4573358B2 (ja) * 2007-03-23 2010-11-04 日本電信電話株式会社 評判情報検索装置、その方法およびプログラム
US8005842B1 (en) * 2007-05-18 2011-08-23 Google Inc. Inferring attributes from search queries
US8126908B2 (en) * 2008-05-07 2012-02-28 Yahoo! Inc. Creation and enrichment of search based taxonomy for finding information from semistructured data
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
US8145623B1 (en) * 2009-05-01 2012-03-27 Google Inc. Query ranking based on query clustering and categorization
US8612306B1 (en) * 2009-07-29 2013-12-17 Google Inc. Method, system, and storage device for recommending products utilizing category attributes
US8972391B1 (en) * 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8805750B2 (en) * 2009-12-18 2014-08-12 Microsoft Corporation Providing comparison experiences in response to search queries
CN102193929B (zh) * 2010-03-08 2013-03-13 阿里巴巴集团控股有限公司 利用词信息熵的搜索方法及其设备
US9152726B2 (en) * 2010-12-01 2015-10-06 Microsoft Technology Licensing, Llc Real-time personalized recommendation of location-related entities
US8515986B2 (en) * 2010-12-02 2013-08-20 Microsoft Corporation Query pattern generation for answers coverage expansion
CN102542474B (zh) * 2010-12-07 2015-10-21 阿里巴巴集团控股有限公司 查询结果排序方法及装置
US20120197732A1 (en) * 2011-01-31 2012-08-02 Microsoft Corporation Action-aware intent-based behavior targeting
JP5547669B2 (ja) * 2011-02-09 2014-07-16 日本電信電話株式会社 関連語抽出装置、関連語抽出方法、関連語抽出プログラム
US8983995B2 (en) * 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
US8909630B1 (en) * 2011-05-26 2014-12-09 Google Inc. Finding query offsets of similar geographic features
JP6039287B2 (ja) * 2011-08-01 2016-12-07 ネイバー コーポレーションNAVER Corporation ブログを推薦するシステム及び方法
US20130041878A1 (en) * 2011-08-11 2013-02-14 Microsoft Corporation Autosuggesting an equivalent query
US8583684B1 (en) * 2011-09-01 2013-11-12 Google Inc. Providing aggregated starting point information
US8856099B1 (en) * 2011-09-27 2014-10-07 Google Inc. Identifying entities using search results
US10691702B1 (en) * 2012-02-01 2020-06-23 Google Llc Generating ranked lists of entities
US9959348B2 (en) * 2012-06-04 2018-05-01 Google Llc Applying social annotations to search results
US9043302B1 (en) * 2012-07-25 2015-05-26 Google Inc. Campaign and competitive analysis and data visualization based on search interest data
US9390174B2 (en) * 2012-08-08 2016-07-12 Google Inc. Search result ranking and presentation
US20140067816A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Surfacing entity attributes with search results
US9047278B1 (en) * 2012-11-09 2015-06-02 Google Inc. Identifying and ranking attributes of entities
US9047488B2 (en) * 2013-03-15 2015-06-02 International Business Machines Corporation Anonymizing sensitive identifying information based on relational context across a group
KR20150079032A (ko) * 2013-12-31 2015-07-08 주식회사 케이티 컨텐츠의 메타데이터를 생성하는 장치 및 방법
CN104850554B (zh) * 2014-02-14 2020-05-19 北京搜狗科技发展有限公司 一种搜索方法和系统
US9430586B2 (en) * 2014-04-02 2016-08-30 Microsoft Technology Licensing, Llc Reference resolution
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
KR20160015838A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 컨텐츠 분류 방법 및 이를 위한 디바이스
US10353964B2 (en) * 2014-09-15 2019-07-16 Google Llc Evaluating semantic interpretations of a search query
US10311371B1 (en) * 2014-12-19 2019-06-04 Amazon Technologies, Inc. Machine learning based content delivery
US20160292282A1 (en) * 2015-04-01 2016-10-06 Microsoft Technology Licensing, Llc Detecting and responding to single entity intent queries
US10497039B1 (en) * 2015-09-25 2019-12-03 Amazon Technologies, Inc. Techniques for dynamic variations of a search query
US10157240B2 (en) * 2015-10-01 2018-12-18 Ebay Inc. Systems and methods to generate a concept graph
US10061787B2 (en) * 2016-01-29 2018-08-28 Ca, Inc. Unified data model for integration between relational and non-relational databases
US10599459B2 (en) * 2016-02-12 2020-03-24 Nutanix, Inc. Entity database distributed replication
JP6420268B2 (ja) * 2016-02-23 2018-11-07 日本電信電話株式会社 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
CN105677931B (zh) * 2016-04-07 2018-06-19 北京百度网讯科技有限公司 信息搜索方法和装置
US10534815B2 (en) * 2016-08-30 2020-01-14 Facebook, Inc. Customized keyword query suggestions on online social networks
KR101990502B1 (ko) 2017-03-29 2019-06-18 주식회사 위시어폰 범용화된 정보 추출 방법 및 이를 적용한 디바이스
CN108664515B (zh) * 2017-03-31 2019-09-17 北京三快在线科技有限公司 一种搜索方法及装置,电子设备
US11074250B2 (en) * 2017-06-27 2021-07-27 OWOX Limted Technologies for implementing ontological models for natural language queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100082649A1 (en) 2008-09-22 2010-04-01 Microsoft Corporation Automatic search suggestions from server-side user history
JP2010244341A (ja) 2009-04-07 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> 属性表現獲得方法及び装置及びプログラム
JP2015526809A (ja) 2012-07-20 2015-09-10 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited クエリ拡張
JP2017508214A (ja) * 2014-03-21 2017-03-23 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 検索推奨の提供

Also Published As

Publication number Publication date
CN108256070B (zh) 2022-07-15
KR20190087949A (ko) 2019-07-25
CN108256070A (zh) 2018-07-06
US11003731B2 (en) 2021-05-11
JP6734946B2 (ja) 2020-08-05
JP2019145093A (ja) 2019-08-29
US20190220495A1 (en) 2019-07-18
EP3514698A1 (en) 2019-07-24

Similar Documents

Publication Publication Date Title
KR102172163B1 (ko) 정보를 생성하기 위한 방법 및 장치
JP6814298B2 (ja) 警告するための方法と装置
CN107256267B (zh) 查询方法和装置
CN108052613B (zh) 用于生成页面的方法和装置
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
CN106960030B (zh) 基于人工智能的推送信息方法及装置
US11055373B2 (en) Method and apparatus for generating information
CN113204621B (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN105637509A (zh) 在图像内搜索和注释
CN106681598B (zh) 信息输入方法和装置
CN110737824B (zh) 内容查询方法和装置
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
US20130006990A1 (en) Enhancing cluster analysis using document metadata
CN110750707A (zh) 关键词推荐方法、装置和电子设备
CN106599082B (zh) 一种检索方法、相关装置及电子设备
CN111126034B (zh) 医学变量关系的处理方法及装置、计算机介质和电子设备
US9092409B2 (en) Smart scoring and filtering of user-annotated geocoded datasets
CN108363707B (zh) 用于生成网页的方法和装置
JP7337933B2 (ja) 情報を送信するための方法及び装置、サーバ、記憶媒体並びにコンピュータプログラム
WO2021196470A1 (zh) 信息推送方法、装置、设备及存储介质
US11429687B2 (en) Context based URL resource prediction and delivery
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN113722593A (zh) 事件数据处理方法、装置、电子设备和介质
CN110110199B (zh) 信息输出方法和装置
CN113763005A (zh) 图片广告推送方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant