KR20210145811A

KR20210145811A - 지리적 위치를 검색하는 방법, 장치, 기기 및 컴퓨터 기록 매체

Info

Publication number: KR20210145811A
Application number: KR1020217035955A
Authority: KR
Inventors: 지저우 황; 하이펑 왕; 미아오 판
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2020-04-24
Filing date: 2020-11-25
Publication date: 2021-12-02
Also published as: US20220121692A1; EP3926493A1; CN111666461B; JP2022533200A; EP3926493B1; EP3926493A4; CN111666461A; WO2021212827A1; JP7319391B2

Abstract

본 출원은 인공지능의 분야에 관한 지리적 위치를 검색하는 방법, 장치, 기기 및 컴퓨터 기록 매체를 개시한다. 구체적인 구현 방식은 국제 문자 벡터 표현 사전을 사용하여, 검색어 중의 각 문자의 벡터 표현을 각각 결정하고, 검색어 중의 각 문자의 벡터 표현을 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 검색어의 벡터 표현과 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현의 유사도를 결정하고, 유사도에 기반하여, 검색된 지리적 위치를 결정하고, 지리적 위치의 벡터 표현은 국제 문자 벡터 표현 사전을 사용하여 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 결정한 후에, 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 입력하여 획득되고, 국제 문자 벡터 표현 사전은 적어도 두 가지 언어 종류의 문자를 동일한 벡터 공간에 매핑하는데 사용된다. 본 출원은 언어 간 지리적 위치 검색의 수요를 더 잘 만족할 수 있다.

Description

지리적 위치를 검색하는 방법, 장치, 기기 및 컴퓨터 기록 매체

본 출원은 컴퓨터 애플리케이션 기술 분야에 관한 것으로, 특히, 인공 지능 기술의 분야에 관한 것이다.

<관련 출원의 상호 참조>

본 출원은 출원일이 2020년 4월 24일이고, 출원 번호가 2020103342241이며, 발명 명칭이 "지리적 위치를 검색하는 방법, 장치, 기기 및 컴퓨터 기록 매체”인 중국 특허 출원의 우선권을 주장한다.

지도 애플리케이션에 있어서, 지리적 위치 검색은 사용자가 가장 자주 사용하는 기능 중 하나이다. 클라이언트 측에서든 웹페이지 측에서든 사용자는 검색 기능의 입구에 텍스트 또는 음성 형식으로 검색어를 입력하여 지리적 위치를 검색할 수 있다.

기존의 지리적 위치를 검색하는 방법은 검색어와 지리적 위치 명칭의 문면의 매칭(literal matching) 방식을 사용하여 검색하는 적이 많고, 시맨틱(semantic)에 관한 지리적 위치 검색을 충분히 만족할 수 없고, 심지어 언어 간(cross-language) 지리적 위치 검색의 수요를 충분히 만족할 수 없다.

예를 들어, 중국의 사용자가, 프랑스 파리의 에펠탑을 검색할 경우, 중국어의 검색어를 사용하여 검색하는 확률이 높다. 그러나, 국제화된 지도 업무로서, 에펠탑은 현지 언어인 프랑스어, 또는 국제적으로 사용되고 있는 영어를 사용하는 확률이 높다. 따라서, 단순히 문면에 매칭(literal matching) 하는 것은 언어 간 검색의 수요를 충분히 만족할 수 없다.

이를 고려하여, 본 출원은 언어 간 지리적 위치 검색의 수요를 더 잘 만족하도록, 지리적 위치를 검색하는 방법, 장치, 기기 및 컴퓨터 기록 매체를 제공한다.

제1 측면에 의하면, 본 출원은 지리적 위치를 검색하는 방법을 제공하고, 상기 방법은,

국제 문자 벡터 표현 사전을 사용하여, 사용자에 의해 입력된 검색어 중의 각 문자의 벡터 표현을 각각 결정하는 단계;

검색어 중의 각 문자의 벡터 표현을 미리 트레이닝된 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하는 단계;

상기 검색어의 벡터 표현과 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현의 유사도를 결정하는 단계; 및

상기 유사도에 따라, 검색된 지리적 위치를 결정하는 단계;를 포함하고,

상기 지리적 위치의 벡터 표현은 국제 문자 벡터 표현 사전을 사용하여 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 결정한 후에, 상기 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 미리 트레이닝된 제2 신경망에 입력하여 획득되고, 상기 국제 문자 벡터 표현 사전은 적어도 두 가지 언어 종류의 문자를 동일한 벡터 공간에 매핑하는데 사용된다.

제2 측면에 의하면, 본 출원은 지리적 위치를 검색하는 장치를 제공하고, 상기 장치는,

국제 문자 벡터 표현 사전을 사용하여, 사용자에 의해 입력된 검색어 중의 각 문자의 벡터 표현을 각각 결정하기 위한 제1 벡터 결정 유닛 - 상기 국제 문자 벡터 표현 사전은 적어도 두 가지 언어 종류의 문자를 동일한 벡터 공간에 매핑하는데 사용함 -;

검색어 중의 각 문자의 벡터 표현을 미리 트레이닝된 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하기 위한 제2 벡터 결정 유닛;

상기 검색어의 벡터 표현과 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현의 유사도를 결정하기 위한 유사도 결정 유닛 - 상기 지리적 위치의 벡터 표현은 국제 문자 벡터 표현 사전을 사용하여 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 결정한 후에, 상기 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 미리 트레이닝된 제2 신경망에 입력하여 획득됨 -; 및

상기 유사도에 따라, 검색된 지리적 위치를 결정하기 위한 검색 처리 유닛;을 포함한다.

제3 측면에 의하면, 본 출원은 전자 기기를 더 제공하고,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 상기에서 설명된 임의의 방법이 실행되도록 한다.

제4의 측면에 의하면, 본 출원은 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 더 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 상기에서 설명된 임의의 방법을 수행하도록 한다.

상기 기술 방식으로부터 알 수 있는 것은, 본 출원에서, 국제 문자 벡터 표현 사전을 사용하여, 다른 언어 종류의 문자를 모두 동일한 벡터 공간에 매핑하고, 각 문자의 벡터 표현에 기반하여 검색어의 벡터 표현과 지리적 위치의 벡터 표현을 각각 획득하고, 따라서, 검색어의 벡터 표현과 지리적 위치의 벡터 표현 사이의 유사도에 따라, 검색된 지리적 위치를 결정한다. 이러한 방식은 언어 간 지리적 위치 검색의 수요를 더 잘 만족할 수 있다.

상기 선택 가능한 방식이 가지는 다른 효과에 대해서는 아래 구체적인 실시예를 결부하여 추가로 설명하고자 한다.

첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 실시예에 적용가능한 예시적인 시스템 아키텍처를 도시한다.
도 2는 본 출원의 실시예에 의해 제공되는 유사도 모델의 계산 프레임워크의 개략도이다.
도 3은 본 출원의 실시예 1에 의해 제공되는 지리적 위치를 검색하는 방법의 흐름도이다.
도 4는 본 출원의 실시예 2에 의해 제공되는 트레이닝 유사도 모델의 방법의 흐름도이다.
도 5는 본 출원의 실시예 2에 의해 제공되는 트레이닝 유사도 모델의 원리 개략도이다.
도 6은 본 출원의 실시예 3에 의해 제공되는 트레이닝 유사도 모델의 방법의 흐름도이다.
도 7은 본 출원의 실시예 3에 의해 제공되는 시맨틱 그래프를 구축하는 개략도이다.
도 8은 본 출원의 실시예 3에 의해 제공되는 트레이닝 유사도 모델의 원리 개략도이다.
도 9는 본 출원의 실시예에 의해 제공되는 지리적 위치를 검색하는 장치의 구조도이다.
도 10은 본 출원의 실시예를 구현하기 위한 전자 기기의 블록도이다.

하기는 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.

도 1은 본 발명의 실시예에 적용가능한 예시적인 시스템 아키텍처를 도시한다. 도 2에 도시된 바와 같이, 해당 시스템 아키텍처는, 단말 장치(101, 102), 네트워크(103) 및 서버(104)를 포함할 수 있다. 네트워크(103)는 단말 장치(101, 102)와 서버(104) 사이의 통신 링크를 제공하는 매체로 사용된다. 네트워크(103)는, 유선, 무선 통신 링크, 또는 광섬유 케이블 등과 같은 여러가지 연결 유형을 포함할 수 있다.

사용자는 단말 장치(101, 102)를 사용하여, 네트워크(103)를 통해 서버(104)와 인터랙션할 수 있다. 단말 장치(101, 102)에는, 음성 인터랙션 애플리케이션, 웹 브라우저 애플리케이션, 통신계 애플리케이션 등, 여러가지 애플리케이션이 인스톨되어 있을 수 있다.

단말 장치(101, 102)는 지도 애플리케이션을 서포트 및 표시할 수 있는 여러가지 전자 기기일 수도 있다. 예를 들어, 스마트폰, 태블릿 컴퓨터, PC, 스마트 텔레비전 등을 포함하지만, 이에 한정되지 않는다. 본 발명에 의해 제공되는 장치는 서버(104) 위에 설치 및 실행할 수 있다. 이것은 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산 서비스를 제공하기 위한 것이다)로 구현할 수 있고, 단일 소프트웨어 또는 소프트웨어 모듈로 구현할 수 있고, 이에 대해 구체적으로 한정하지 않는다.

예를 들어, 지리적 위치를 검색하는 장치는 상기 서버(104)에 설치하여 실행하고, 서버(104)는 단말 장치(101) 또는 (102)의 검색 요청을 수신할 수 있고, 해당 검색 요청에는 검색어가 포함된다. 지리적 위치를 검색하는 장치는 본 발명의 실시예에 의해 제공되는 방식을 사용하여 지리적 위치의 검색을 하고, 검색 결과를 단말 장치(101) 또는 (102)에 반환한다. 서버(104)에 지도 데이터 베이스가 유지되어 있고, 해당 지도 데이터 베이스는 서버(104)의 로컬에 저장할 수 있고, 다른 서버에 저장하여 서버(104)로부터 호출할 수도 있다. 서버(104)는 사용자가 지도 애플리케이션을 사용하는 관련 행위를 획득하여 기록할 수 있으므로, 예를 들어, 이력 클릭 로그, 이력 브라우징 로그 등을 형성할 수 있다.

서버(104)는 단일 서버일 수 있고, 복수의 서버에 의해 구성되는 서버 그룹일 수도 있다. 도 1의 단말 장치, 네트워크 및 서버의 수는 단순한 예시임을 이해해야 한다. 구현의 수요에 따라, 임의의 수의 단말 장치, 네트워크 및 서버를 구비할 수 있다.

본 출원의 핵심 사상은 국제 문자 벡터 표현 사전(international character vector representation dictionary)을 사용하여, 다른 언어 종류의 문자를 모두 동일한 벡터 공간에 매핑하고, 각 문자의 벡터 표현에 기반하여 검색어(key-word)의 벡터 표현과 지리적 위치(geographic location)의 벡터 표현을 각각 획득하고, 따라서, 검색어의 벡터 표현과 지리적 위치의 벡터 표현 사이의 유사도에 따라, 검색된 지리적 위치를 결정한다. 하기는 실시예를 결합하여 본 출원에 의해 제공되는 방법 및 장치를 상세히 설명한다.

실시예 1,

본 출원에서 구현되는 지리적 위치를 검색하는 방법은 유사도 모델에 기반하고, 도 2에 도시된 바와 같이, 유사도 모델은 국제 문자 벡터 표현 사전(도면에서는 "사전"이라고 불린다), 제1 신경망 및 제2 신경망을 포함할 수 있다. 지리적 위치를 검색하는 방법은 도 3에 도시된 바와 같이, 하기와 같은 단계를 포함할 수 있다.

301a에서, 사용자에 의해 입력된 검색어를 획득한 후, 국제 문자 벡터 표현 사전을 사용하여, 사용자에 의해 입력된 검색어 중의 각 문자의 벡터 표현을 각각 결정한다. 사용자가 검색어 "KFC"를 입력하는 것을 예를 들어, 각각 국제 문자 벡터 표현 사전을 사용하여, "K"의 문자 벡터 표현, "F"의 문자 벡터 표현 및 "C"의 문자 벡터 표현을 결정한다.

본 출원에 관한 국제 문자 벡터 표현 사전은 다양한 다른 언어 종류의 문자를 양자화할 경우, 모두 양자화하여 하나의 벡터 표현을 획득할 수 있도록, 적어도 두 가지 언어 종류의 문자를 모두 동일한 벡터 공간에 매핑한다. 모든 언어 종류의 문자를 매핑하여 획득되는 벡터 표현은 같은 차원을 구비한다.

c가 하나의 문자라고 가정하고, 해당 문자는 사전에 의해 서포트되는 임의의 언어 종류의 문자일 수 있고, C는 c에 대응하는 벡터 표현이고, C는 다음과 같이 표현된다.

는 국제 문자 벡터 표현 사전에 의해 사용되는 매핑 함수이다.

마찬가지로, 30lb에서, 국제 문자 벡터 표현 사전을 통해 지도 데이터 베이스 내의 각 지리적 위치의 설명 텍스트 중의 각 문자를 각 문자의 벡터 표현으로 매핑할 수도 있다. 본 출원에 관한 지리적 위치는 지도 데이터 베이스 내의 지리적 위치를 포함하고, 지도 애플리케이션에 있어서의 지리적 위치 포인트를 가리키고, 해당 지리적 위치 포인트는 사용자가 검색 및 브라우징하고, 사용자에게 추천하는 것 등이 가능하다. 이러한 지리적 위치 포인트는 경위도, 명칭, 행정주소, 유형 등의 기본적인 속성을 구비한다. 지리적 위치 포인트는 POI(Point Of Interest, 관심 포인트), AOI(Area of Interest, 관심 면), ROI(Regin of Interest, 관심 영역) 등을 포함할 수 있지만, 이에 한정되지 않는다.

검색 프로세스 중에, 명칭 상에서 지리적 위치가 검색어와 매칭하도록 할 뿐만 아니라, 다른 지리적 위치의 설명 정보와 검색어가 매칭하는 것을 검색할 수 있는 것을 구현하기 위해, 본 출원에서, 지리적 위치의 설명 텍스트 중의 각 문자에 대해 벡터 표현을 각각 결정한 후, 또한, 지리적 위치의 벡터 표현을 결정할 수 있다. 설명 텍스트는 명칭, 라벨, 주소, 평가 및 사진 설명 텍스트 중의 적어도 하나를 포함할 수 있지만, 이에 한정되지 않는다. 이러한 설명 텍스트의 정보는 지도 데이터에도 저장 및 유지된다.

예를 들어, 지리적 위치 포인트 "켄터키(시즈먼 난다지에점)

"에 있어서, 설명 텍스트는 하기를 포함한다.

명칭―"켄터키(시즈먼 난다지에점)",

주소― "베이징시 시청구 시즈먼 난다지에 갑15-6호2층",

라벨― "체인", "편리한 교통", "워킹런치", "서양식 패스트 푸드 "등,

평가― "맛있음", "인기가 많음", "친자에 적합함" 등

.....

국제 문자 벡터 표현 사전을 통해 상기 설명 텍스트 중의 각 문자를 각 문자의 벡터 표현으로 매핑할 수 있다.

302a에서, 검색어의 각 문자의 벡터 표현을 제1 신경망에 입력하여, 검색어의 벡터 표현을 출력으로 획득한다. 302b에서, 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 입력하여, 해당 지리적 위치의 벡터 표현을 획득한다. 이렇게 하여, 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현을 각각 획득할 수 있다.

본 출원에서, 2개의 신경망의 출력 벡터의 차원이 일치하는 한, 제1 신경망 및 제2 신경망 유형을 제한하지 않는다. 예를 들어, 2개의 신경망은, CNN(Convolutional Neural Networks, 합성곱 신경망), ERNIE(Enhanced Representation through kNowledge IntEgration, 지식 증강 시맨틱 표현 모델)을 사용할 수 있다. 또한, 본 출원의 실시예에 관한 "제1", "제2" 등의 한정은 명칭만을 구별하기 위한 것이고, 순서, 수량, 중요 정도 등의 의미를 가지지 않은 한정이다.

검색어가 일련의 m개의 문자

로 구성되고, 일부 지리적 위치의 설명 텍스트가 n개의

문자로 구성된다고 가정하면, 대응하는 문자 벡터 표현을 획득한 후, 각 하나의 신경망(설정

은, 쿼리 워드에 대응하는 신경망이며,

는, 지리적 위치에 대응하는 신경망이다)을 통해, 차원이 같은 벡터

및

를 각각 획득하고,

또한, 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현은 검색 프로세스에 실시간으로 결정할 수 있다. 그러나, 미리 결정한 후에 검색 프로세스에 결과를 직접에 호출할 수 있고, 즉, 30lb와 302b는, 미리 오프라인에서 실행된 처리이다.

303에서, 검색어의 벡터 표현과 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현의 유사도를 결정한다. 코사인 유사도 등과 같은 방식을 사용하여 벡터

및

사이의 유사도 s를 양자화할 수 있다.

304에서, 결정된 유사도에 따라, 검색된 지리적 위치를 결정한다. 유사도는 독립적으로 지리적 위치 랭킹의 근거로 할 수 있고, 비 독립적인 방식으로, 즉, 유사도는 특징 벡터 중의 하나로서 기존의 랭킹 모델에 통합할 수 있다.

유사도가 독립적으로 지리적 위치 랭킹의 근거로 할 때, 유사도가 높은 것으로부터 낮은 것의 순서로 각 지리적 위치를 랭킹하고, 랭킹 결과에 따라 검색된 지리적 위치를 결정할 수 있다. 예를 들어, 앞의 N개에 배열된 지리적 위치를 검색된 지리적 위치로 선택하고, N은 미리 설정된 양의 정수이다. 또한, 예를 들어, 유사도가 미리 설정된 유사도 역치를 초과한 지리적 위치를 검색된 지리적 위치로 선택한다. 또한, 예를 들어, 유사도에 기반하여 높은 데서 낮은 데로의 순서로 지리적 위치를 표시하고, 사용자의 조작 (예를 들면 하나의 페이지는 5개의 지리적 위치를 전시할 수 있고, 사용자가 풀다운 업데이트 조작을 할 경우, 아래의 5개의 지리적 위치를 전시한다)에 의해 표시되는 지리적 위치의 수량을 결정한다.

비 독립적인 방식을 사용할 때, 유사도를 사용하여 유사도 특징을 결정하고, 유사도 특징을 미리 트레이닝된 랭킹 모델의 입력 벡터 중의 하나로 하고, 랭킹 모델이 각 지리적 위치에 대한 랭킹 결과를 사용하여 검색된 지리적 위치를 결정할 수 있다.

해당 실시예 1의 구현 방법을 통해, 하기와 같은 검색 수요를 달성할 수 있다.

검색 수요 1:

사용자가 검색어 "에펠탑"을 입력하면, 국제 문자 벡터 표현 사전으로 검색어 중의 각 문자 및 지리적 위치의 설명 텍스트 중의 각 문자를 모두 동일한 벡터 공간에 매핑할 수 있고, 설명 텍스트에서 프랑스어 명칭 "La Tour Eiffel" 또는 영어 명칭 "Eiffel Tower"을 사용하여도, 동일한 벡터 공간에서 매우 가까운 거리를 구비할 수 있고, 언어 간 지리적 위치 검색의 수요를 구현할 수 있다.

검색 수요 2:

사용자가 검색어 "KFC"를 입력하면, 검색어 중의 각 문자 및 지리적 위치의 설명 텍스트 중의 각 문자를 모두 동일한 벡터 공간에 매핑한 후, 각 문자의 벡터 표현을 사용하여 검색어의 벡터 표현 및 지리적 위치의 벡터 표현을 획득한다. 설명 텍스트에서 풀 네임 "Kentucky Fried Chicken"을 사용하여도, 동일한 벡터 공간에서 매우 가까운 거리를 구비할 수 있고, 시맨틱에 기반한 지리적 위치 검색의 수요를 구현할 수 있다.

상기 실시예 1을 구현하기 위해, 유사도 모델을 미리 트레이닝할 필요가 있다. 하기는 실시예 2과 실시예 3을 각각 결합하여 상기 유사도 모델의 트레이닝 프로세스에 대해 상세히 설명한다.

실시예 2,

본 실시예에서, 이력 클릭 로그를 사용하여 유사도 모델의 트레이닝을 구현한다. 이력 클릭 로그는 사용자가 검색된 지리적 위치에 대해 클릭하였는지 여부에 관한 검색 이력 기록에 기반하여 생성된 로그이다. 본 실시예에 의해 제공되는 트레이닝 유사도 모델의 프로세스는 도 4에 도시된 바와 같이, 하기와 같은 단계를 포함할 수 있다.

401에서, 이력 클릭 로그로부터 트레이닝 데이터를 획득하고, 트레이닝 데이터는 검색어, 양의 샘플로 하는 검색어에 대응하는 클릭된 지리적 위치 및 음의 샘플로 하는 클릭되지 않은 지리적 위치를 포함한다.

본 단계에서 트레이닝 데이터를 획득할 때, 각 트레이닝 데이터는 실제로, 하나의 양과 음의 샘플 페어를 포함한다. 동일한 검색어에 있어서, 이에 대응하는 검색 결과에서 하나의 클릭된 지리적 위치를 양의 샘플로 선택하고, 그 다음에, 클릭되지 않은 지리적 위치로부터 하나를 음의 샘플로 선택한다.

예를 들어, 이력 클릭 로그에서 검색어 "KFC"에 대응하는 검색 결과는 켄터키(시즈먼점)(

), 켄터키(후이롱관점)(

), 켄터키(싼위안차오점)(

) 등과 같은 지리적 위치를 포함한다고 가정한다. 사용자가 "켄터키(후이롱관점)"을 클릭하고, 다른 지리적 위치는 클릭하지 않았을 경우, 그 중에 하나의 트레이닝 데이터는 양의 샘플 페어로 하는 "KFC"- "켄터키(후이롱관점)"과, 음의 샘플 페어로 하는 "KFC"-켄터키(싼위안차오점)을 포함할 수 있다.

이러한 방식을 사용하여 많은 트레이닝 데이터를 선택할 수 있다.

402에서, 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하고, 제1 유사도는 검색어의 벡터 표현과 양의 샘플의 벡터 표현의 유사도이며, 제2 유사도는 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 유사도이다.

구체적으로, 도 5에 도시된 바와 같이, 먼저, 국제 문자 벡터 표현 사전을 사용하여 (도면에서는 "전"이라고 불린다), 트레이닝 데이터 내의 각 문자의 벡터 표현, 즉, 검색어 중의 각 문자의 벡터 표현, 양의 샘플로 하는 클릭된 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 음의 샘플로 하는 클릭되지 않은 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 각각 결정할 수 있다.

여기의 모든 문자는 언어 종류에 관계없이, 모두 국제 문자 벡터 표현 사전으로 동일한 벡터 공간에 매핑할 수 있다. 모든 문자의 벡터 표현은 모두 같은 차원을 가지고 있다.

그 다음에, 검색어 중의 각 문자의 벡터 표현을 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 양의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 음의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하여, 양의 샘플의 벡터 표현 및 음의 샘플의 벡터 표현을 획득한다. 본 출원에서, 제1 신경망 및 제2 신경망 유형에 제한하지 않고, 2개의 신경망 출력 벡터의 차원만 일치하면 좋다. 예를 들어, 2개의 신경망은 CNN(Convolutional Neural Networks, 합성곱 신경망), ERNIE(Enhanced Representation through kNowledge IntEgration, 지식 증강 시맨틱 표현 모델)을 사용할 수 있다.

그 다음에, 검색어의 벡터 표현과 양의 샘플의 벡터 표현의 제1 유사도 및 동일한 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 제2 유사도를 결정한다.

제1 유사도 및 제2 유사도를 사용하여, 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화할 수 있다.

다시 말하면, 트레이닝 목표는 제1 유사도를 최대화하고, 제2 유사도를 최소화하고, 제1 유사도 및 제2 유사도의 차이를 가능한 최대화하는 것이다.

트레이닝 목표는 최소화된 손실 함수로 표시할 수 있고, 손실 함수 Loss는,

를 사용할 수 있고,

는 검색어의 벡터 표현이며,

는 양의 샘플의 벡터 표현이며,

는 음의 샘플의 벡터 표현이며,

는 하이퍼 파라미터이다.

트레이닝 프로세스 중에, 트레이닝 목표에 달성할 때까지, Loss의 값을 사용하여, 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망 파라미터를 포함하는 모델 파라미터를 반복적으로 업데이트한다. 예를 들어, Loss의 값은 미리 설정된 요구를 만족하고, 반복 횟수는 미리 설정된 요구를 만족하는 것 등이 있다.

본 실시예에 의해 제공되는 모델 트레이닝 방법은 지리적 위치 검색에서 문면에 매칭(literal matching)할 필요가 있는 제한을 돌파하고, 하기와 같은 검색 수요를 만족할 수 있다.

예를 들어, 일부 지리적 위치에 있어서, 일부의 사용자 내에서 널리 전해지고 있는 별칭, 약칭, 또는 닉네임 등이 있는 경우가 많다. 이러한 호칭을 즉시 수집하여 동의 사전을 구축하지 않을 경우, 사용자가 실제로 필요로 하는 지리적 위치 검색을 구현하는 것은 곤란해진다. 예를 들어, 켄터키에 있어서, 많은 사용자는 그것을 별칭으로 "개봉 요리

"라고 부르고 있다. 그러나, 본 출원에 의해 제공되는 방식을 사용하여, 사용자가 검색어 "개봉 요리"를 입력하고, 지리적 위치의 검색결과로 "켄터키"에 관련되는 지리적 위치를 클릭한 사용자가 있거나 또는 사용자가 늘어날 경우, 상기 트레이닝 프로세스를 통해 양자 간의 유사도 관련을 구축할 수 있어, 실제의 검색 프로세스에 있어서, 사용자가 검색어 "개봉 요리"를 입력할 경우, 켄터키에 관한 지리적 위치를 검색하여 획득할 수 있다.

그러나, 본 실시예에서 트레이닝된 유사도 모델은 기존의, 클릭 이력이 있는 검색어 및 지리적 위치를 매우 의존하는 경향이 있다. 고빈도로 나타나고 클릭된 검색어 및 지리적 위치에 대해, 모델은 검색 결과의 순위에 매우 좋은 효과를 가지고 있다. 그러나, 나타난 횟수가 적은 검색어 및 지리적 위치, 심지어 나타난 적이 없는 검색어 및 지리적 위치에 대해, 모델에 의한 검색 결과는 매우 나쁘며, 즉, 이력 클릭 로그가 적은 콜드 스타트(cold start) 문제를 구현할 수 없다. 이러한 기술적 문제를 해결하기 위해, 본 출원은 바람직한 모델 트레이닝 방식을 더 제공하고, 하기의 실시예 3을 통해 상세히 설명한다.

실시예 3,

가능한 클릭 횟수가 적은 지리적 위치, 게다가 클릭된 적이 없는 지리적 위치 (예를 들면 새로 나타난 지리적 위치)에서도 좋은 검색 랭킹 결과를 획득할 수 있게 하기 위하여, 본 실시예에서, 기존의 고빈도 클릭의 지리적 위치 및 저빈도 또는 클릭된 적이 없는 지리적 위치를, 다른 측면의 관점으로부터 관련을 구축한다. 따라서, 이력 클릭 로그(historical click logs) 이외에, 모델 트레이닝 프로세스에 이력 브라우징 로그(historical browsing logs)를 도입하고, 브라우징 공동 발생 관계를 통해 지리적 위치 사이의 관련을 구축한다.

도 6은 본 출원의 실시예 3에 의해 제공되는 트레이닝 유사도 모델의 방법의 흐름도이다. 도 6에 도시된 바와 같이, 상기 방법은, 하기와 같은 단계를 포함할 수 있다.

601에서, 이력 클릭 로그로부터 트레이닝 데이터를 획득하고, 트레이닝 데이터는 검색어와, 양의 샘플로 하는 검색어에 대응하는 클릭된 지리적 위치 및 음의 샘플로 하는 클릭되지 않은 지리적 위치를 포함한다.

본 단계는 실시예 2의 401과 동일하고, 여기서 설명을 생략한다.

602에서, 이력 브라우징 로그를 사용하여, 지리적 위치 사이의 브라우징 공동 발생 관계에 기반하여 상기 양의 샘플과 음의 샘플을 확장한다.

이력 클릭 로그 이외에, 본 출원은 이력 브라우징 로그를 더 인용한다. 이력 브라우징 로그는 지리적 위치에 대한 사용자의 브라우징 행위 기록으로부터 획득된다. 사용자의 검색 프로세스 중의 브라우징 행위, 지도 애플리케이션에서 지리적 위치를 랜덤으로 보는 브라우징 행위, 지도 애플리케이션의 정보 추천에 의한 브라우징 행위 등을 포함하지만, 이에 한정되지 않는다.

보다 직관적으로 이해하기 위해, 도 7을 예로 들어 설명한다. 도 7에서, 검색어 "q1", "q2" 및 "q3"에 있어서, 이력 클릭 로그에 q1에 대응하는 클릭된 지리적 위치 P1, q2에 대응하는 클릭된 지리적 위치 P2 및 q3에 대응하는 클릭된 지리적 위치 P3이 존재하며, 클릭에 기반한 연계는 도 7에 실선에서 표시한다. 그러나, 이력 브라우징 로그에 기반하여, 사용자가 P1을 브라우징할 때에 또한 P2, P4를 브라우징하는 것을 획득할 수 있다. P1과 P2는 브라우징 공동 발생 관계가 존재하고, P1과 P3은 브라우징 공동 발생 관계가 존재한다고 간주할 수 있다. 하나의 세션으로 전후로 복수의 지리적 위치를 브라우징하였 경우, 해당 복수의 지리적 위치 사이에 공동 발생 관계가 존재한다고 간주한다.

도 7에서, 지리적 위치 사이에 기반하여 브라우징 공동 발생 관계의 관련을 점선으로 표시한다. 샘플의 확장을 쉽게 하기 위해, 이력 브라우징 로그에 기반하여, 상기 지리적 위치 사이의 관련을 사용하여 시맨틱 그래프를 구성할 수 있다. 시맨틱 그래프에 있어서, 노드는 지리적 위치이며, 지리적 위치 사이의 관련은 지리적 위치 사이에 브라우징 공동 발생 관계가 존재하는 것을 표시하고, 지리적 위치 사이에 관련 파라미터도 존재하고, 도 7의 가장자리에 표시한 것과 같이, "a12"는 P1과 P2 사이의 관련 파라미터이며, "a14"는 P1과 P4 사이의 관련 파라미터이며, "a23"은 P2과 P3 사이의 관련 파라미터이며, 이렇게 유추한다. 관련 파라미터는 지리적 위치 사이의 브라우징 공동 발생의 정도를 반영하고, 처음에 대응하는 지리적 위치 사이의 공동 발생 상황에 의해 결정할 수 있고, 예를 들어, 공동 발생 횟수에 따라 결정하고, 공동 발생 횟수가 높을수록, 대응하는 관련 파라미터 값이 커진다. 해당 관련 파라미터 값은 후속의 트레이닝 프로세스에서도 역할을 하고, 구체적으로, 단계 603에 관한 설명을 참조한다.

본 단계에서, 시맨틱 그래프로부터 클릭된 지리적 위치에 브라우징 공동 발생 관계가 존재하는 각 지리적 위치를 각각 획득하여 양의 샘플을 확장하고, 클릭되지 않은 지리적 위치에 브라우징 공동 발생 관계가 존재하는 지리적 위치를 획득하여 음의 샘플을 확장할 수 있다. 시맨틱 그래프를 사용하여 양의 샘플과 음의 샘플을 확장하는 방식은 시맨틱 그래프로부터 지리적 위치 사이의 브라우징 공동 발생 관계를 직접에 찾을 수 있어, 보다 편리하고, 보다 효율적이다.

예를 들어, 하나의 트레이닝 데이터에 대해, q1-P1은 양의 샘플 페어이며, q1-P7은 음의 샘플 페어이다. 확장한 후에, P1, P2 및 P4을 확장하여 양의 샘플에서의 지리적 위치를 구성하고, P7, P3을 확장하여 음의 샘플에서의 지리적 위치를 구성할 수 있다.

603에서, 확장 후의 트레이닝 데이터를 사용하여 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하고, 상기 제1 유사도는 검색어의 벡터 표현과 상기 양의 샘플의 벡터 표현의 유사도이며, 상기 제2 유사도는 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 유사도이다.

구체적으로, 도 8에 도시된 바와 같이, 먼저, 국제 문자 벡터 표현 사전을 사용하여, 트레이닝 데이터 내의 각 문자의 벡터 표현, 즉, 검색어 중의 각 문자의 벡터 표현, 양의 샘플로 하는 클릭된 지리적 위치와, 클릭된 지리적 위치에 브라우징 공동 발생 관계가 존재하는 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현, 음의 샘플로 하는 클릭되지 않은 지리적 위치와, 클릭되지 않은 지리적 위치에 브라우징 공동 발생 관계가 존재하는 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 각각 결정할 수 있다.

그 다음에, 검색어 중의 각 문자의 벡터 표현을 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득한다.

클릭된 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 입력하여, 클릭되지 않은 지리적 위치의 벡터 표현을 획득하고, 클릭된 지리적 위치에 브라우징 공동 발생 관계가 존재하는 지리적 위치(도면에서는 브라우징 공동 발생 지리적 위치라고 불린다)의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하여, 브라우징 공동 발생의 지리적 위치에 대응하는 벡터 표현을 획득한다. 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에 대응하는 지리적 위치 사이의 관련 파라미터에 대해 가중 처리를 수행하여, 양의 샘플의 벡터 표현을 획득한다.

한편, 도 7에 도시된 시맨틱 그래프를 예를 들어, q1에 대응하는 양의 샘플 지리적 위치는 P1, P2 및 P4을 포함하고, 제2 신경망은, P1의 벡터 표현 V1, P2의 벡터 표현 V2 및 P4의 벡터 표현 V4을 각각 획득한 후, 하기의 가중 처리를 수행하여, 양의 샘플의 벡터 표현

을 획득할 수 있고,

.

클릭되지 않은 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 클릭되지 않은 지리적 위치에 브라우징 공동 발생 관계가 존재하는 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하고, 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에서의 대응하는 지리적 위치 사이의 관련 파라미터에 따라 가중 처리를 수행하여, 음의 샘플의 벡터 표현을 획득한다.

상기 예를 계속하고, q1에 대응하는 음의 샘플 지리적 위치는 P7 및 P3을 포함하고, 제2 신경망은, P7의 벡터 표현 V7과, P3의 벡터 표현 V3을 각각 획득한다. 도 7에 도시된 시맨틱 그래프에 따르고, 하기의 가중 처리를 수행하여, 음의 샘플의 벡터 표현

을 획득한다.

제1 유사도 및 제2 유사도를 사용하여, 상기 국제 문자 벡터 표현 사전, 시맨틱 그래프, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화한다.

다시 말하면, 트레이닝 목표는 제1 유사도를 최대화하고, 제2 유사도를 최소화하고, 제1 유사도 및 제2 유사도의 차이를 가능한 최대화한다.

트레이닝 목표는 마찬가지로, 손실 함수를 최소화하도록 표시할 수 있고, 손실 함수 Loss는,

를 사용할 수 있고,

는 검색어의 벡터 표현이며,

는 양의 샘플의 벡터 표현이며,

는 음의 샘플의 벡터 표현이며,

는 하이퍼 파라미터이다.

트레이닝 프로세스 중에, 트레이닝 목표에 달성할 때까지, Loss의 값을 사용하여, 국제 문자 벡터 표현 사전, 시맨틱 그래프, 제1 신경망 및 제2 신경망 파라미터를 포함하는 모델 파라미터를 반복적으로 업데이트한다. 예를 들어, Loss의 값은 미리 설정된 요구를 만족하고, 반복 횟수는 미리 설정된 요구를 만족하는 것 등이 있다.

트레이닝 프로세스 중에 시맨틱 그래프 중의 관련 파라미터도 업데이트되어, 각 지리적 위치 사이의 브라우징 공동 발생에 기반하여 관련 관계가 서서히 최적화되어, 트레이닝 목표를 달성하도록 한다.

본 실시예에 의해 제공되는 모델 트레이닝 방법은, 클릭 횟수 계수에 대응하는 지리적 위치 검색의 콜드 스타트(cold start) 문제를 해결할 수 있고, 이미 하기와 같은 검색 수요를 달성한다.

일부의 새로 나타난 지리적 위치에 대해, 예를 들어, "켄터키(후이롱관점)"은 새로 오픈된 가게이며, 초기는 이력 클릭 로그에 나타나지 않거나, 또는 클릭 횟수가 매우 적기 때문에, 실시예 2로 구축된 모델을 통해 검색하여 해당 새로운 지리적 위치를 획득하는 것이 어렵다. 그러나, 본 실시예 3의 모델 구축 방식을 사용할 경우, 사용자가 지도를 사용하는 프로세스 중에, 지도 내의 브라우징을 통해, 하나의 세션에서 이미 오래전에 나타난 지리적 위치 "켄터키(시즈먼점)"을 동시에 브라우징하고, "켄터키(후이롱관점)"을 동시에 브라우징하고, 또는 지도 애플리케이션의 정보 추천 기능에서 "켄터키(시즈먼점)"과 "켄터키(후이롱관점)"을 동시에 브라우징한다. 그렇다면, 시맨틱 그래프에서 지리적 위치 "켄터키(시즈먼점)"과 "켄터키(후이롱관점)" 사이의 관련을 구축한다. "켄터키(시즈먼점)"은 오래전에 나타난 지리적 위치이기 때문에, 이력 클릭 횟수가 많다. 따라서, 유사도 모델을 구축하는 프로세스 중에, "켄터키(시즈먼점)"을 양의 샘플로 트레이닝하는 프로세스 중에, "켄터키(후이롱관점)"도 양의 샘플의 벡터 표현에 공헌하여, "켄터키(후이롱관점)"도 "켄터키(시즈먼점)"의 검색어 "KFC"에 관련을 구축한다. 그렇다면, 사용자가 "KFC"를 검색할 때, 유사도에 기반하여 검색 결과에 "켄터키(후이롱관점)"이 나타날 수 있으므로, "켄터키(후이롱관점)"의 콜드 스타트 문제를 해결할 수 있다.

이상은 본 출원에 의해 제공되는 방법에 대한 상세한 설명이며, 이하는 실시예를 결합하여 본 출원에 의해 제공되는 장치를 상세히 설명한다.

실시예 4,

도 9는 본 출원의 실시예에 의해 제공되는 지리적 위치를 검색하는 장치의 구조도이다. 상기 장치는 서버측에 있는 애플리케이션 프로그램 또는 서버측에 있는 애플리케이션 프로그램의 플러그인 또는 소프트웨어 개발 킷(Software Development Kit, SDK) 등의 기능 유닛일 수 있고, 본 발명의 실시예는 이에 대해 특히 한정하지 않는다. 도 9에 도시된 바와 같이, 상기 장치는 제1 벡터 결정 유닛(01), 제2 벡터 결정 유닛(02), 유사도 결정 유닛(03) 및 검색 처리 유닛(04)을 포함할 수 있고, 제1 모델 트레이닝 유닛(05) 또는 제2 모델 트레이닝 유닛(06)을 더 포함할 수도 있다. 그 중의 각 구성 유닛의 주요 기능은 하기와 같다.

제1 벡터 결정 유닛(01)은, 국제 문자 벡터 표현 사전을 사용하여, 사용자에 의해 입력된 검색어 중의 각 문자의 벡터 표현을 각각 결정하는데 사용되고, 국제 문자 벡터 표현 사전은 적어도 두 가지 언어 종류의 문자를 동일한 벡터 공간에 매핑하는데 사용된다.

제2 벡터 결정 유닛(02)은, 검색어 중의 각 문자의 벡터 표현을 미리 트레이닝된 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하는데 사용된다.

유사도 결정 유닛(03)은, 검색어의 벡터 표현과 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현의 유사도를 결정하는데 사용된다.

지리적 위치의 벡터 표현은 상기 제1 벡터 결정 유닛(01)을 다중화하여 국제 문자 벡터 표현 사전을 사용하여 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 결정한 다음에, 상기 제2 벡터 결정 유닛(02)을 다중화하여 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 미리 트레이닝된 제2 신경망에 입력하여 획득된다. 지리적 위치의 벡터 표현은 지리적 위치를 검색하는 프로세스 중에 실시간으로 결정할 수 있지만, 바람직한 실시 방식으로서, 오프라인의 방식을 사용하여 미리 획득할 수 있고, 그 다음에, 유사도 결정 유닛(03)이 검색 프로세스 중에 오프라인에서 획득된 지도 데이터에서의 지리적 위치의 벡터 표현을 실시간으로 호출할 수 있다.

지리적 위치의 설명 텍스트는 명칭, 라벨, 주소, 평가 및 사진 설명 텍스트 중의 적어도 하나를 포함할 수 있다.

검색 처리 유닛(04)은, 유사도에 따라, 검색된 지리적 위치를 결정하는데 사용된다.

구체적으로, 검색 처리 유닛(04)은, 유사도가 높은 것으로부터 낮은 것의 순서로 각 지리적 위치를 랭킹하고, 랭킹 결과에 따라 검색된 지리적 위치를 결정할 수 있다.

또는, 검색 처리 유닛(04)은, 유사도를 사용하여 유사도 특징을 결정하고, 유사도 특징을 미리 트레이닝된 랭킹 모델의 입력 벡터 중의 하나로 하고, 랭킹 모델이 각 지리적 위치에 대한 랭킹 결과를 사용하여 검색된 지리적 위치를 결정할 수도 있다.

제1 모델 트레이닝 유닛(05)과 제2 모델 트레이닝 유닛(06)은, 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망에 의해 구성된 유사도 모델을 미리 트레이닝한다. 본 출원에서는 제1 모델 트레이닝 유닛(05)과 제2 모델 트레이닝 유닛(06) 중의 하나를 사용할 수 있다.

제1 모델 트레이닝 유닛(05)은,

이력 클릭 로그로부터 트레이닝 데이터를 획득하고, 트레이닝 데이터는 검색어와, 양의 샘플로 하는 검색어에 대응하는 클릭된 지리적 위치 및 음의 샘플로 하는 클릭되지 않은 지리적 위치를 포함하고,

트레이닝 데이터를 사용하여 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 트레이닝 프로세스를 미리 실행하고, 제1 유사도는 검색어의 벡터 표현과 양의 샘플의 벡터 표현의 유사도이며, 제2 유사도는 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 유사도이다.

구체적으로, 제1 모델 트레이닝 유닛(05)은, 트레이닝 데이터를 사용하여 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝할 경우,

국제 문자 벡터 표현 사전을 사용하여, 트레이닝 데이터 내의 각 문자의 벡터 표현을 각각 결정하고,

검색어 중의 각 문자의 벡터 표현을 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 양의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 음의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하여, 양의 샘플의 벡터 표현 및 음의 샘플의 벡터 표현을 획득하고,

검색어의 벡터 표현과 양의 샘플의 벡터 표현의 제1 유사도 및 동일한 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 제2 유사도를 결정하고,

국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 것을 실행할 수 있다.

제2 모델 트레이닝 유닛(06)은,

이력 브라우징 로그를 사용하여, 지리적 위치 사이의 브라우징 공동 발생 관계에 기반하여 양의 샘플과 음의 샘플을 확장하고,

확장된 후의 트레이닝 데이터를 사용하여 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 트레이닝 프로세스를 미리 실행하는데 사용되고, 제1 유사도는 검색어의 벡터 표현과 양의 샘플의 벡터 표현의 유사도이며, 제2 유사도는 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 유사도이다.

구체적으로, 제2 모델 트레이닝 유닛(06)은, 시맨틱 그래프로부터 클릭된 지리적 위치에 브라우징 공동 발생 관계가 존재하는 각 제1 지리적 위치를 각각 획득하여 양의 샘플을 확장하고, 클릭되지 않은 지리적 위치에 브라우징 공동 발생 관계가 존재하는 각 제2 지리적 위치를 각각 획득하여 음의 샘플을 확장할 수 있다.

제2 모델 트레이닝 유닛(06)은, 확장된 후의 트레이닝 데이터를 사용하여 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝할 때, 구체적으로,

검색어 중의 각 문자의 벡터 표현을 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 클릭된 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 각 제1 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하고, 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에서의 대응하는 지리적 위치 사이의 관련 파라미터에 따라 가중 처리를 수행하여, 양의 샘플의 벡터 표현을 획득하고, 클릭되지 않은 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 각 제2 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하고, 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에서의 대응하는 지리적 위치 사이의 관련 파라미터에 따라 가중 처리를 수행하여, 음의 샘플의 벡터 표현을 획득하고,

국제 문자 벡터 표현 사전, 시맨틱 그래프, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 것을 실행할 수 있다.

제2 모델 트레이닝 유닛(06)을 사용할 경우, 상기 장치는 시맨틱 그래프 구축 유닛(07)을 더 포함하고,

시맨틱 그래프 구축 유닛(07)은, 이력 브라우징 로그에 기반하여 시맨틱 그래프를 구축하고, 시맨틱 그래프 중의 노드는 지리적 위치이며, 브라우징 공동 발생 관계가 존재하는 지리적 위치에 대해 대응하는 노드 사이의 관련을 구축하는데 사용되고, 지리적 위치 사이의 관련 파라미터는 최초에 지리적 위치 사이의 공동 발생 상황에 따라 결정하고,

상응하게, 제2 모델 트레이닝 유닛(06)은, 트레이닝 프로세스 중에 시맨틱 그래프 중의 지리적 위치 사이의 관련 파라미터를 업데이트한다.

제2 모델 트레이닝 유닛(06)은, 이력 클릭 로그로부터 트레이닝 데이터를 획득하는 이외에, 따라서, 이력 브라우징 로그로, 브라우징 공동 발생 관계에 기반하여 트레이닝 데이터 중의 양의 샘플과 음의 샘플을 확장함으로써, 클릭 횟수 계수에 대응하는 지리적 위치 검색의 콜드 스타트 문제를 해결한다. 따라서, 본 출원에서는 제2 모델 트레이닝 유닛(06)을 우선적으로 사용하므로, 도 9에는 제1 모델 트레이닝 유닛(05)을 점선을 사용하여 표시한다.

본 출원의 실시예에 의하면, 본 출원은 전자 기기 및 판독 가능 기록 매체를 더 제공한다.

도 10에 도시된 바와 같이, 본 출원의 실시예에 따른 지리적 위치를 검색하는 방법을 구현하는 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.

도 10에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 복수의 프로세서(1001), 메모리(1002), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령을 포함하는 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중프로세서 시스템)을 제공한다. 도 10에서는 하나의 프로세서(1001)를 예로 한다.

메모리(1002)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 기록 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 지리적 위치를 검색하는 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 저장하며, 상기 컴퓨터 명령은 컴퓨터가 본 출원에서 제공된 지리적 위치를 검색하는 방법을 수행하도록 한다.

메모리(1002)는 비일시적 컴퓨터 판독 가능 기록 매체로서, 본 출원의 실시예에서의 지리적 위치를 검색하는 방법에 대응되는 프로그램 명령/모듈과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(1001)는 메모리(1002)에 저장되어 있는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 지리적 위치를 검색하는 방법을 구현한다.

메모리(1002)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 지리적 위치를 검색하는 방법에 따른 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(1002)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(1002)는 프로세서(1001)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 지리적 위치를 검색하는 방법을 구현하는 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

해당 전자 기기는, 입력 장치(1003) 및 출력 장치(1004)를 더 포함할 수 있다. 프로세서(1001), 메모리(1002), 입력 장치(1003) 및 출력 장치(1004)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 10에서는 버스를 통한 연결을 예로 한다.

입력 장치(1003)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 지리적 위치를 검색하는 방법을 구현하는 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(1004)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 LCD(액정 디스플레이 장치), LED(발광 다이오드) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체" 및 "컴퓨터 판독 가능한 매체"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령을 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims

지리적 위치를 검색하는 방법에 있어서,
국제 문자 벡터 표현 사전을 사용하여, 사용자에 의해 입력된 검색어 중의 각 문자의 벡터 표현을 각각 결정하는 단계;
검색어 중의 각 문자의 벡터 표현을 미리 트레이닝된 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하는 단계;
상기 검색어의 벡터 표현과 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현의 유사도를 결정하는 단계; 및
상기 유사도에 따라, 검색된 지리적 위치를 결정하는 단계;를 포함하고,
상기 지리적 위치의 벡터 표현은 국제 문자 벡터 표현 사전을 사용하여 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 결정한 후에, 상기 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 미리 트레이닝된 제2 신경망에 입력하여 획득되고, 상기 국제 문자 벡터 표현 사전은 적어도 두 가지 언어 종류의 문자를 동일한 벡터 공간에 매핑하는데 사용되는,
지리적 위치를 검색하는 방법.
제1항에 있어서,
상기 지리적 위치의 설명 텍스트는 명칭, 라벨, 주소, 평가 및 사진 설명 텍스트 중의 적어도 하나를 포함하는,
지리적 위치를 검색하는 방법.
제1항에 있어서,
상기 유사도에 따라, 검색된 지리적 위치를 결정하는 단계는,
유사도가 높은 것으로부터 낮은 것의 순서로 각 지리적 위치를 랭킹하고, 랭킹 결과에 따라 검색된 지리적 위치를 결정하는 단계;
또는,
상기 유사도를 사용하여 유사도 특징을 결정하고, 상기 유사도 특징을 미리 트레이닝된 랭킹 모델의 입력 벡터 중의 하나로 하고, 상기 랭킹 모델이 각 지리적 위치에 대한 랭킹 결과를 사용하여 검색된 지리적 위치를 결정하는 단계;를 포함하는,
지리적 위치를 검색하는 방법.
제1항에 있어서,
상기 방법은,
이력 클릭 로그로부터 트레이닝 데이터를 획득하는 단계 - 상기 트레이닝 데이터는 검색어와, 양의 샘플로 하는 검색어에 대응하는 클릭된 지리적 위치 및 음의 샘플로 하는 클릭되지 않은 지리적 위치를 포함함 -; 및
상기 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 상기 제1 신경망 및 상기 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 트레이닝 프로세스를 미리 실행하는 단계;를 더 포함하고,
상기 제1 유사도는 상기 검색어의 벡터 표현과 상기 양의 샘플의 벡터 표현의 유사도이며, 상기 제2 유사도는 상기 검색어의 벡터 표현과 상기 음의 샘플의 벡터 표현의 유사도인,
지리적 위치를 검색하는 방법.
제4항에 있어서,
상기 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하는 단계는,
상기 국제 문자 벡터 표현 사전을 사용하여, 트레이닝 데이터 내의 각 문자의 벡터 표현을 각각 결정하는 단계;
상기 검색어 중의 각 문자의 벡터 표현을 상기 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 양의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 음의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 상기 제2 신경망에 각각 입력하여, 양의 샘플의 벡터 표현 및 음의 샘플의 벡터 표현을 획득하는 단계;
상기 검색어의 벡터 표현과 양의 샘플의 벡터 표현의 제1 유사도 및 동일한 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 제2 유사도를 결정하는 단계; 및
상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 상기 제1 유사도와 상기 제2 유사도의 차이를 최대화하는 단계;를 포함하는,
지리적 위치를 검색하는 방법.
제1항에 있어서,
상기 방법은,
이력 클릭 로그로부터 트레이닝 데이터를 획득하는 단계 - 상기 트레이닝 데이터는 검색어와, 양의 샘플로 하는 검색어에 대응하는 클릭된 지리적 위치 및 음의 샘플로 하는 클릭되지 않은 지리적 위치를 포함함 -;
이력 브라우징 로그를 사용하여, 지리적 위치 사이의 브라우징 공동 발생 관계에 기반하여 상기 양의 샘플과 음의 샘플을 확장하는 단계;
확장된 후의 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 상기 제1 신경망 및 상기 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 트레이닝 프로세스를 미리 실행하는 단계;를 더 포함하고,
상기 제1 유사도는 상기 검색어의 벡터 표현과 상기 양의 샘플의 벡터 표현의 유사도이며, 상기 제2 유사도는 상기 검색어의 벡터 표현과 상기 음의 샘플의 벡터 표현의 유사도인,
지리적 위치를 검색하는 방법.
제6항에 있어서,
상기 이력 브라우징 로그를 사용하여, 지리적 위치 사이의 브라우징 공동 발생 관계에 기반하여 상기 양의 샘플과 음의 샘플을 확장하는 단계는,
시맨틱 그래프로부터 상기 클릭된 지리적 위치에 브라우징 공동 발생 관계가 존재하는 각 제1 지리적 위치를 각각 획득하여 상기 양의 샘플을 확장하고, 상기 클릭되지 않은 지리적 위치에 브라우징 공동 발생 관계가 존재하는 각 제2 지리적 위치를 각각 획득하여 상기 음의 샘플을 확장하는 단계를 포함하는,
지리적 위치를 검색하는 방법.
제7항에 있어서,
상기 확장된 후의 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하는 단계는,
상기 국제 문자 벡터 표현 사전을 사용하여, 트레이닝 데이터 내의 각 문자의 벡터 표현을 각각 결정하는 단계;
상기 검색어 중의 각 문자의 벡터 표현을 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 상기 클릭된 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현과, 상기 각 제1 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하고, 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에서의 대응하는 지리적 위치 사이의 관련 파라미터에 따라 가중 처리를 수행하여, 양의 샘플의 벡터 표현을 획득하는 단계; 상기 클릭되지 않은 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 상기 각 제2 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하고, 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에서의 대응하는 지리적 위치 사이의 관련 파라미터에 따라 가중 처리를 수행하여, 음의 샘플의 벡터 표현을 획득하는 단계;
검색어의 벡터 표현과 양의 샘플의 벡터 표현의 제1 유사도 및 동일한 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 제2 유사도를 결정하는 단계; 및
상기 국제 문자 벡터 표현 사전, 시맨틱 그래프, 제1 신경망 및 제2 신경망을 트레이닝하여, 상기 제1 유사도와 상기 제2 유사도의 차이를 최대화하는 단계;를 포함하는,
지리적 위치를 검색하는 방법.
제7항 또는 제8항에 있어서,
상기 시맨틱 그래프는 이력 브라우징 로그에 기반하여 구축하고,
상기 시맨틱 그래프 중의 노드는 지리적 위치이며, 브라우징 공동 발생 관계가 존재하는 지리적 위치에 대해 대응하는 노드 사이의 관련을 구축하고, 지리적 위치 사이의 관련 파라미터는 최초에 지리적 위치 사이의 공동 발생 상황에 따라 결정하고, 상기 트레이닝 프로세스 중에 업데이트되는,
지리적 위치를 검색하는 방법.
지리적 위치를 검색하는 장치에 있어서,
국제 문자 벡터 표현 사전을 사용하여, 사용자에 의해 입력된 검색어 중의 각 문자의 벡터 표현을 각각 결정하기 위한 제1 벡터 결정 유닛 - 상기 국제 문자 벡터 표현 사전은 적어도 두 가지 언어 종류의 문자를 동일한 벡터 공간에 매핑하는데 사용함 -;
검색어 중의 각 문자의 벡터 표현을 미리 트레이닝된 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하기 위한 제2 벡터 결정 유닛;
상기 검색어의 벡터 표현과 지도 데이터 베이스 내의 각 지리적 위치의 벡터 표현의 유사도를 결정하기 위한 유사도 결정 유닛 - 상기 지리적 위치의 벡터 표현은 국제 문자 벡터 표현 사전을 사용하여 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 결정한 후에, 상기 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 미리 트레이닝된 제2 신경망에 입력하여 획득됨 -; 및
상기 유사도에 따라, 검색된 지리적 위치를 결정하기 위한 검색 처리 유닛;을 포함하는,
지리적 위치를 검색하는 장치.
제10항에 있어서,
상기 지리적 위치의 설명 텍스트는 명칭, 라벨, 주소, 평가 및 사진 설명 텍스트 중의 적어도 하나를 포함하는,
지리적 위치를 검색하는 장치.
제10항에 있어서,
상기 검색 처리 유닛은, 구체적으로,
유사도가 높은 것으로부터 낮은 것의 순서로 각 지리적 위치를 랭킹하고, 랭킹 결과에 따라 검색된 지리적 위치를 결정하고, 또는,
상기 유사도를 사용하여 유사도 특징을 결정하고, 상기 유사도 특징을 미리 트레이닝된 랭킹 모델의 입력 벡터 중의 하나로 하고, 상기 랭킹 모델이 각 지리적 위치에 대한 랭킹 결과를 사용하여 검색된 지리적 위치를 결정하는데 사용되는,
지리적 위치를 검색하는 장치.
제10항에 있어서,
상기 장치는 제1 모델 트레이닝 유닛을 더 포함하고,
상기 제1 모델 트레이닝 유닛은,
이력 클릭 로그로부터 트레이닝 데이터를 획득하고, 상기 트레이닝 데이터는 검색어와, 양의 샘플로 하는 검색어에 대응하는 클릭된 지리적 위치 및 음의 샘플로 하는 클릭되지 않은 지리적 위치를 포함하고,
상기 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 트레이닝 프로세스를 미리 실행하는데 사용되고, 상기 제1 유사도는 상기 검색어의 벡터 표현과 상기 양의 샘플의 벡터 표현의 유사도이며, 상기 제2 유사도는 상기 검색어의 벡터 표현과 상기 음의 샘플의 벡터 표현의 유사도인,
지리적 위치를 검색하는 장치.
제13항에 있어서,
상기 제1 모델 트레이닝 유닛은, 상기 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝할 때, 구체적으로,
상기 국제 문자 벡터 표현 사전을 사용하여, 트레이닝 데이터 내의 각 문자의 벡터 표현을 각각 결정하고,
상기 검색어 중의 각 문자의 벡터 표현을 상기 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 양의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 음의 샘플 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 상기 제2 신경망에 각각 입력하여, 양의 샘플의 벡터 표현 및 음의 샘플의 벡터 표현을 획득하고,
상기 검색어의 벡터 표현과 양의 샘플의 벡터 표현의 제1 유사도 및 동일한 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 제2 유사도를 결정하고,
상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 상기 제1 유사도와 상기 제2 유사도의 차이를 최대화하는 것을 실행하는,
지리적 위치를 검색하는 장치.
제10항에 있어서,
상기 장치는 제2 모델 트레이닝 유닛을 더 포함하고,
상기 제2 모델 트레이닝 유닛은,
이력 클릭 로그로부터 트레이닝 데이터를 획득하고, 상기 트레이닝 데이터는 검색어와, 양의 샘플로 하는 검색어에 대응하는 클릭된 지리적 위치 및 음의 샘플로 하는 클릭되지 않은 지리적 위치를 포함하고,
이력 브라우징 로그를 사용하여, 지리적 위치 사이의 브라우징 공동 발생 관계에 기반하여 상기 양의 샘플과 음의 샘플을 확장하고,
확장된 후의 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝하여, 제1 유사도와 제2 유사도의 차이를 최대화하는 트레이닝 프로세스를 미리 실행하는데 사용되고, 상기 제1 유사도는 상기 검색어의 벡터 표현과 상기 양의 샘플의 벡터 표현의 유사도이며, 상기 제2 유사도는 상기 검색어의 벡터 표현과 상기 음의 샘플의 벡터 표현의 유사도인,
지리적 위치를 검색하는 장치.
제15항에 있어서,
상기 제2 모델 트레이닝 유닛은,
구체적으로, 시맨틱 그래프로부터 상기 클릭된 지리적 위치에 브라우징 공동 발생 관계가 존재하는 각 제1 지리적 위치를 각각 획득하여 상기 양의 샘플을 확장하고, 상기 클릭되지 않은 지리적 위치에 브라우징 공동 발생 관계가 존재하는 각 제2 지리적 위치를 각각 획득하여 상기 음의 샘플을 확장하는,
지리적 위치를 검색하는 장치.
제16항에 있어서,
상기 제2 모델 트레이닝 유닛은,
확장된 후의 트레이닝 데이터를 사용하여 상기 국제 문자 벡터 표현 사전, 제1 신경망 및 제2 신경망을 트레이닝할 때, 구체적으로,
상기 국제 문자 벡터 표현 사전을 사용하여, 트레이닝 데이터 내의 각 문자의 벡터 표현을 각각 결정하고,
상기 검색어 중의 각 문자의 벡터 표현을 상기 제1 신경망에 입력하여, 검색어의 벡터 표현을 획득하고, 상기 클릭된 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현과, 상기 각 제1 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 상기 제2 신경망에 각각 입력하고, 상기 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에서의 대응하는 지리적 위치 사이의 관련 파라미터에 따라 가중 처리를 수행하여, 양의 샘플의 벡터 표현을 획득하고, 상기 클릭되지 않은 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현 및 상기 각 제2 지리적 위치의 설명 텍스트 중의 각 문자의 벡터 표현을 제2 신경망에 각각 입력하고, 제2 신경망에 의해 출력된 각 지리적 위치의 벡터 표현을 시맨틱 그래프에서의 대응하는 지리적 위치 사이의 관련 파라미터에 따라 가중 처리를 수행하여, 음의 샘플의 벡터 표현을 획득하고,
상기 검색어의 벡터 표현과 양의 샘플의 벡터 표현의 상기 제1 유사도 및 동일한 검색어의 벡터 표현과 음의 샘플의 벡터 표현의 상기 제2 유사도를 결정하고,
상기 국제 문자 벡터 표현 사전, 시맨틱 그래프, 제1 신경망 및 제2 신경망을 트레이닝하여, 상기 제1 유사도와 상기 제2 유사도의 차이를 최대화하는 것을 실행하는,
지리적 위치를 검색하는 장치.
제16항 또는 제17항에 있어서,
상기 장치는 시맨틱 그래프 구축 유닛을 더 포함하고,
상기 시맨틱 그래프 구축 유닛은, 이력 브라우징 로그에 기반하여 시맨틱 그래프를 구축하고, 상기 시맨틱 그래프 중의 노드는 지리적 위치이며, 브라우징 공동 발생 관계가 존재하는 지리적 위치에 대해 대응하는 노드 사이의 관련을 구축하고, 지리적 위치 사이의 관련 파라미터는 최초에 지리적 위치 사이의 공동 발생 상황에 따라 결정하고,
상기 제2 모델 트레이닝 유닛은, 상기 트레이닝 프로세스 중에 시맨틱 그래프 중의 상기 지리적 위치 사이의 관련 파라미터를 업데이트하는,
지리적 위치를 검색하는 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제9항 중 어느 한 항의 방법이 수행되도록 하는,
전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 하는,
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체.