KR20200029342A

KR20200029342A - 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치

Info

Publication number: KR20200029342A
Application number: KR1020190083880A
Authority: KR
Inventors: 지저우 후앙; 야민 선
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2018-09-10
Filing date: 2019-07-11
Publication date: 2020-03-18
Also published as: EP3623762B1; EP3623762A1; US20200081908A1; CN109145219B; CN109145219A; JP6846469B2; KR102302367B1; US11347782B2; JP2020042779A

Abstract

본 출원의 실시예는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치를 공개한다. 상기 방법의 일 실시형태는 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하는 단계; 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하는 단계; 및 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하는 단계를 포함한다. 상기 실시형태는 실효된 POI 정보를 실시간으로 발견할 수 있다. 따라서 사용자에게 보다 정확한 정보를 제공하여 사용자의 요구를 충족시키고 사용자 체험을 향상시킨다.

Description

인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치{METHOD AND DEVICE FOR JUDGING VALIDITY OF POINT OF INTEREST BASED ON INTERNET TEXT MINING}

본 출원의 실시예는 인터넷 분야에 관한 것으로서, 구체적으로, 인터넷 텍스트 마이닝 분야에 관한 것이며, 특히 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치에 관한 것이다.

POI(Point of Interest, 관심 지점)는 상점, 병원, 주유소, 정거장, 식당 등과 같이 지리학적 의미가 없는 맵 타입 상의 지점으로, 각 POI는 명칭, 카테고리, 좌표 등과 같은 다양한 정보를 포함할 수 있다. 예를 들어, POI의 카테고리는 음식, 호텔, 쇼핑, 생활 서비스 등을 포함할 수 있고 각 카테고리는 복수 개의 서브 카테고리를 포함할 수 있다. 예를 들어, “음식” 카테고리에 중식당, 외국 식당, 스낵바, 케이크 디저트 상점, 카페, 찻집, 술집 등의 서브 카테고리가 포함될 수 있다.

현재, 맵 타입 제품(예를 들어, 맵 타입 애플리케이션, 네비게이션 타입 애플리케이션 등)은 주로 사용자 피드백에 의존하여 실효된 POI를 발견하고 있다. 예를 들어, 사용자가 네비게이션 타입 애플리케이션을 사용하여 특정 POI 위치에 도달 시 상기 POI가 이전된 것을 발견한 경우, 사용자는 상기 네비게이션 타입 애플리케이션에서 조작하여， 상기 POI가 이미 실효되었음을 표시하기 위한 정보를 네비게이션 서비스를 제공하는 서버단으로 피드백할 수 있다.

본 출원의 실시예는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치를 제출한다.

제1 양태에 있어서, 본 출원의 실시예는 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하는 단계; 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하는 단계; 및 피검출 관심 지점의 명칭 및 상기 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하는 단계를 포함하는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법을 제공한다.

일부 실시예에 있어서, 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하는 단계는, 피검출 관심 지점의 명칭 및 피검출 관심 지점의 명칭의 동의어를 검색어 집합 내의 검색어로서 사용하는 단계를 포함한다.

일부 실시예에 있어서, 미리 구축된 유효성 판별 모델은 주의력 모델이며, 유효성 판별 모델은, 샘플 관심 지점의 명칭 및 샘플 관심 지점의 설명 정보를 입력으로 하고 상기 샘플 관심 지점의 상태 태그를 타겟으로 하여 초기 주의력 모델을 트레이닝함으로써 유효성 판별 모델을 획득하는 트레이닝 단계에 의해 획득된다.

일부 실시예에 있어서, 주의력 모델은 시멘틱 식별 서브 모델과 특징 추출 서브 모델을 포함하며, 트레이닝 단계는, 하나의 샘플 관심 지점에 대해, 상기 샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 하나의 설명 정보를 시멘틱 식별 서브 모델에 입력하고, 상기 설명 정보를 특징 추출 서브 모델에 입력하며, 시멘틱 식별 서브 모델과 특징 추출 서브 모델에 의해 출력된 특징 벡터에 대해 스플라이싱을 수행하여, 상기 샘플 관심 지점을 설명하기 위한 상기 설명 정보의 특징 벡터를 획득하는 단계; 상기 샘플 관심 지점의 각 설명 정보의 특징 벡터의 가중치 합을 확정하는 단계; 상기 가중치 합에 기반하여 상기 샘플 관심 지점에 속하는 상태 태그의 확률값을 확정하는 단계; 및 기설정된 손실 함수에 기반하여, 진실 태그에서의 각 샘플 관심 지점의 확률값의 손실값을 확정하고, 확정된 손실값을 주의력 모델에서 역전파시키며, 주의력 모델의 모델 파라미터를 조정하여 유효성 판별 모델을 획득하는 단계를 더 포함한다.

일부 실시예에 있어서, 샘플 관심 지점의 설명 정보는, 샘플 관심 지점의 명칭 및 샘플 관심 지점의 명칭의 동의어로 구성된 제1 동의어 집합을 확정하는 단계; 샘플 관심 지점의 상태 태그와 샘플 관심 지점의 상태 태그의 동의어로 구성된 제2 동의어 집합을 확정하는 단계; 및 제1 동의어 집합으로부터 결정된 제1 동의어와 제2 동의어 집합으로부터 결정된 제2 동의어를 검색어로서 사용하여 검색을 수행함으로써, 검색 결과 중 제1 동의어와 제2 동의어가 공동으로 나타난 문구를 샘플 관심 지점의 설명 정보로서 사용하는 단계에 의해 획득된다.

일부 실시예에 있어서, 샘플 관심 지점의 상태 태그의 동의어는, 기설정된 동의어 데이터베이스로부터 상기 샘플 관심 지점의 상태 태그의 동의어를 확정하는 단계; 및 샘플 관심 지점의 명칭을 포함한 과거 검색 문구로부터 기설정된 개수의 타겟 검색 문구를 확정하고, 확정된 타겟 검색 문구로부터 결정된, 상기 샘플 관심 지점의 상태 태그와의 시멘틱 유사도가 기설정된 유사도 임계값을 초과하는 단어를, 상기 샘플 관심 지점의 상태 태그의 동의어로서 사용하는 단계 중 적어도 하나에 의해 결정된다.

일부 실시예에 있어서, 관심 지점의 명칭의 동의어는, 기설정된 백과 데이터베이스로부터 관심 지점의 명칭의 동의어를 확정하는 단계; 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 검색하여 획득한 매칭 엔티티를 관심 지점의 명칭의 동의어로서 사용하는 단계 - 매칭 엔티티는, 기설정된 개수의 검색 결과에 포함된 엔티티 중, 관심 지점 명칭에서 관심 지점의 명칭과의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값을 초과하는 엔티티임 - ; 및 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 기설정된 개수의 검색 결과로부터 관심 지점의 명칭이 포함된 문구를 추출하며, 대용어 해소 수단을 이용하여 추출한 문구로부터 관심 지점의 명칭을 대체하기 위한 단어를 동의어로 결정하는 단계 중 적어도 하나에 의해 결정되며, 여기서, 관심 지점은 피검출 관심 지점과 샘플 관심 지점 중 하나이다.

제2 양태에 있어서, 본 출원의 실시예는 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하도록 구성된 검색어 확정 유닛; 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하도록 구성된 설명 정보 확정 유닛; 및 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하도록 구성된 유효성 판단 유닛을 포함하는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치를 제공한다.

일부 실시예에 있어서, 검색어 확정 유닛은 또한, 피검출 관심 지점의 명칭 및 피검출 관심 지점의 명칭의 동의어를 검색어 집합 내의 검색어로서 사용하도록 구성된다.

일부 실시예에 있어서, 미리 구축된 유효성 판별 모델은 주의력 모델이며, 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치는 트레이닝 유닛을 더 포함하되, 트레이닝 유닛은 또한, 샘플 관심 지점의 명칭 및 샘플 관심 지점의 설명 정보를 입력으로 하고 샘플 관심 지점의 상태 태그를 타겟으로 하여 초기 주의력 모델을 트레이닝함으로써 유효성 판별 모델을 획득하도록 구성된다.

일부 실시예에 있어서, 주의력 모델은 시멘틱 식별 서브 모델과 특징 추출 서브 모델을 포함하며, 트레이닝 유닛은 또한, 하나의 샘플 관심 지점에 대해, 상기 샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 하나의 설명 정보를 시멘틱 식별 서브 모델에 입력하고, 상기 설명 정보를 특징 추출 서브 모델에 입력하며, 시멘틱 식별 서브 모델과 특징 추출 서브 모델에 의해 출력된 특징 벡터에 대해 스플라이싱을 수행하여, 상기 샘플 관심 지점을 설명하기 위한 상기 설명 정보의 특징 벡터를 획득하고, 상기 샘플 관심 지점의 각 설명 정보의 특징 벡터의 가중치 합을 확정하며, 상기 가중치 합에 기반하여 상기 샘플 관심 지점에 속하는 상태 태그의 확률값을 확정하고, 기설정된 손실 함수에 기반하여, 진실 태그에서의 각 샘플 관심 지점의 확률값의 손실값을 확정하고, 확정된 손실값을 주의력 모델에서 역전파시키며, 주의력 모델의 모델 파라미터를 조정하여 유효성 판별 모델을 획득하도록 구성된다.

일부 실시예에 있어서, 샘플 관심 지점의 설명 정보는, 샘플 관심 지점의 명칭 및 샘플 관심 지점의 명칭의 동의어로 구성된 제1 동의어 집합을 확정하는 단계; 샘플 관심 지점의 상태 태그와 샘플 관심 지점의 상태 태그의 동의어로 구성된 제2 동의어 집합을 확정하는 단계; 및 상기 제1 동의어 집합으로부터 결정된 제1 동의어와 상기 제2 동의어 집합으로부터 결정된 제2 동의어를 검색어로서 사용하여 검색을 수행함으로써, 검색 결과 중 제1 동의어와 제2 동의어가 공동으로 나타난 문구를 샘플 관심 지점의 설명 정보로서 사용하는 단계에 의해 획득된다.

일부 실시예에 있어서, 샘플 관심 지점의 상태 태그의 동의어는, 기설정된 동의어 데이터베이스로부터 샘플 관심 지점의 상태 태그의 동의어를 확정하는 단계; 및 샘플 관심 지점의 명칭을 포함한 과거 검색 문구로부터 기설정된 개수의 타겟 검색 문구를 확정하고, 확정된 타겟 검색 문구로부터 결정된, 상기 샘플 관심 지점의 상태 태그와의 시멘틱 유사도가 기설정된 유사도 임계값을 초과하는 단어를, 샘플 관심 지점의 상태 태그의 동의어로서 사용하는 단계 중 적어도 하나에 의해 결정된다.

일부 실시예에 있어서, 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치는 동의어 확정 유닛을 더 포함하되, 상기 동의어 확정 유닛은, 기설정된 백과 데이터베이스로부터 관심 지점의 명칭의 동의어를 확정하는 단계; 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 검색하여 획득한 매칭 엔티티를 관심 지점의 명칭의 동의어로서 사용하는 단계 - 매칭 엔티티는 기설정된 개수의 검색 결과에 포함된 엔티티 중, 관심 지점의 명칭에서 관심 지점의 명칭과의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값을 초과하는 엔티티임 - ; 및 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 기설정된 개수의 검색 결과로부터 관심 지점의 명칭이 포함된 문구를 추출하며, 대용어 해소 수단을 이용하여 추출한 문구로부터 관심 지점의 명칭을 대체하기 위한 단어를 동의어로 결정하는 단계 중 적어도 하나에 의해 관심 지점의 명칭의 동의어를 확정하도록 구성되며, 여기서, 관심 지점은 피검출 관심 지점과 샘플 관심 지점 중 하나이다.

제3 양태에 있어서, 본 출원의 실시예는 하나 또는 복수 개의 프로세서; 및 하나 또는 복수 개의 프로그램을 저장하기 위한 저장 장치를 포함하며, 하나 또는 복수 개의 프로그램이 상기 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 하나 또는 복수 개의 프로세서가 제1 양태에 설명된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법을 수행하는 전자기기를 제공한다.

제4 양태에 있어서, 본 출원의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체에 있어서, 프로그램이 프로세서에 의해 실행될 경우, 제1 양태에 설명된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법을 수행하는 컴퓨터 판독 가능한 저장 매체를 제공한다.

본 출원의 실시예에 의해 제공된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치는, 우선 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하고, 이어서 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하며, 이어서 피검출 관심 지점의 명칭 및 상기 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하고, 인터넷 텍스트 마이닝 및 모델에 기반하여 POI의 유효성을 결정함으로써, 실효된 POI 정보(예를 들어, 맵 타입 애플리케이션 또는 네비게이션 타입 애플리케이션 중 실효된 POI 정보)를 실시간으로 발견할 수 있다. 따라서 사용자에게 보다 정확한 정보를 제공하여 사용자의 요구를 충족시키고 사용자 체험을 향상시킨다.

이하 첨부된 도면을 참조하여 설명된 비제한적인 실시예에 대한 상세한 설명으로부터 본 출원의 다른 특징, 목적 및 이점은 더욱 명백해질 것이다.
도 1은 본 출원의 일 실시예에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법에 응용될 수 있는 예시적인 시스템 구조도이다.
도 2는 본 출원에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 일 실시예의 흐름도이다.
도 3은 본 출원에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 일 응용 시나리오의 모식도이다.
도 4는 본 출원에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 다른 일 실시예의 흐름도이다.
도 5는 본 출원의 유효성 판별 모델의 선택 가능한 실시형태의 예시적 구조도이다.
도 6은 본 출원의 유효성 판별 모델의 트레이닝 방법의 선택 가능한 실시형태의 예시적 흐름도이다.
도 7은 본 출원의 유효성 판별 모델에서의 시멘틱 식별 서브 모델의 선택 가능한 실시형태의 예시적 구조도이다.
도 8은 본 출원에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치의 일 실시예의 구조도이다.
도 9는 본 출원의 실시예에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법을 구현하기 위한 전자기기에 적용되는 컴퓨터 시스템의 구조 모식도이다.

이하, 도면 및 실시예를 결부하여 본 출원을 보다 더 상세하게 설명한다. 여기서 설명된 구체적인 실시예는 단지 관련 발명을 해석하기 위한 것일 뿐 해당 발명에 대한 한정이 아님을 이해해야 한다. 이 밖에 더 설명해야 할 것은 설명의 편의를 위해 도면에서 관련 발명과 관련되는 부분만 도시한다.

설명해야 할 것은, 본 출원에 따른 실시예 및 실시예의 특징은 모순되지 않는 한 서로 조합될 수 있다. 이하 첨부된 도면을 참조하고 실시예를 결부하여 본 출원을 상세하게 설명하기로 한다.

도 1은 본 출원의 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 또는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치의 실시예에 응용될 수 있는 예시적인 시스템 구조(100)를 나타낸다.

도 1에 도시된 바와 같이, 시스템 구조(100)는 단말기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기기(101, 102, 103)와 서버(105) 사이에 통신 링크를 제공하기 위한 매체로서 사용될 수 있다. 네트워크(104)는 다양한 연결 타입 예를 들어 유선 통신 링크, 무선 통신 링크 또는 광섬유 케이블 등을 포함할 수 있다.

단말기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말기기(101, 102, 103)가 하드웨어일 경우, 스크린을 구비하는 다양한 전자기기일 수 있으며 스마트폰, 태블릿 PC, 전자책 리더, MP3(Moving Picture Experts Group Audio Layer III, 동영상 전문가 압축 표준 오디오 레이어3) 플레이어, MP4(Moving Picture Experts Group Audio Layer IV, 동영상 전문가 압축 표준 오디오 레이어4) 플레이어, 랩톱컴퓨터 및 데스크톱 컴퓨터 등을 포함하나 이에 한정되지 않는다. 단말기기(101, 102, 103)가 소프트웨어일 경우, 이상 열거된 전자기기에 설치될 수 있다. 단말기기(101, 102, 103)는 복수 개의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산형 서비스 제공에 사용되는 복수 개의 소프트웨어 또는 소프트웨어 모듈)로 구현될 수 있고 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수도 있다. 여기서 구체적으로 한정하지 않는다.

서버(105)는 다양한 서비스를 제공하는 서버일 수 있으며, 예를 들어 단말기기(101, 102, 103)를 사용하는 사용자에게 네비게이션 서비스를 제공하는 네비게이션 서버일 수 있다. 네비게이션 서버는 사용자 네비게이션 목적지와 같은 수신된 데이터에 대해 해석할 수 있으며, 처리 결과(예를 들어, 해석 결과에 기반하여 결정된 상기 네비게이션 목적지가 표시하는 POI가 유효 정보인지의 여부)를 단말기기에 피드백할 수 있다.

설명해야 할 것은, 본 출원의 실시예에 의해 제공된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법은 서버(105)에 의해 수행될 수 있으며, 상응하게, 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치 서버(105) 내에 설치될 수 있다.

이해해야 할 것은, 도 1의 단말기기(101, 102, 103), 네트워크(104) 및 서버(105)의 수량은 단지 예시적이다. 구현 필요에 따라 임의의 수량의 단말기기, 네트워크 및 서버를 구비할 수 있다.

이어서 도 2를 참조하면, 이는 본 출원에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 일 실시예의 흐름(200)을 나타낸다. 상기 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법은 하기와 같은 단계를 포함할 수 있다.

단계 201에서, 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정한다.

피검출 POI는 맵 타입 애플리케이션 또는 네비게이션 타입 애플리케이션 내의 임의의 POI일 수 있다.

일부 선택 가능한 실시형태에 있어서, 맵 타입 애플리케이션 또는 네비게이션 타입 애플리케이션의 서비스 제공측은 하나의 POI 데이터베이스를 유지할 수 있으며, 상기 POI 데이터베이스에 맵 및/또는 네비게이션 서비스를 제공할 수 있는 POI의 명칭 및 관련 정보가 저장될 수 있다.

이러한 선택 가능한 실시형태의 일부 응용 시나리오에 있어서, 맵 타입 애플리케이션 또는 네비게이션 타입 애플리케이션의 서비스 제공측은, 제공하는 POI의 정확도 향상을 위해 정기적(예를 들어, 기설정된 어느 시간 간격) 또는 비정기적으로 POI 데이터베이스 내의 POI 상태를 업데이트할 수 있다.

이러한 응용 시나리오에 있어서, 피검출 관심 지점은 POI 데이터베이스 중 현재에 상태 업데이트 및 확인이 필요한 POI 내의 임의의 POI일 수 있다.

또는, 다른 일부 응용 시나리오에 있어서, 맵 타입 애플리케이션 또는 네비게이션 타입 애플리케이션을 사용하는 사용자는 상기 애플리케이션에 특정된 POI의 명칭을 입력하여 향하고자 하는 목적지로서 사용한다. 이 경우 서비스측은 상기 POI를 피검출 관심 지점으로서 사용할 수 있다.

본 실시예에서, 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(105))는 다양한 수행 가능 방법을 통해 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정할 수 있다.

예를 들어, 일부 선택 가능한 실시형태로서, 피검출 POI의 명칭을 검색어 집합 내의 검색어로 직접 사용할 수 있다.

또는, 다른 일부 선택 가능한 실시형태에 있어서, 다양한 언어 중, 피검출 POI의 명칭을 검색어 집합 내의 검색어로서 사용할 수 있다. 예를 들어, 피검출 POI가 “베이징수도국제공항”일 경우, 상기 피검출 POI의 중문 명칭 “베이징수도국제공항” 및 상응한 영문 명칭 “Beijing Capital International Airport”을 검색어 집합 내의 검색어로서 사용할 수 있다.

또는, 다른 일부 선택 가능한 실시형태에 있어서, 또한 피검출 POI의 약칭을 검색어 집합 내의 검색어로서 사용할 수 있다. 예를 들어, 피검출 POI가 “베이징수도국제공항”일 경우, “베이징수도국제공항”의 약칭 “수도국제공항”, “수도공항” 등을 검색어 집합 내의 검색어로서 사용할 수 있다.

단계 202에서, 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득한다.

여기서, 예를 들어 검색어 집합 내의 검색어를 하나의 쿼리(query)로서 사용하여 검색 결과를 획득할 수 있다.

이해할 수 있는 것은, 검색어 집합 내의 각 검색어에 대해, 이를 query로서 검색하여 일련의 검색 결과를 획득할 수 있다. 이러한 검색 결과는 예를 들어 검색 결과 페이지에 나타나는 링크의 형태로 표시될 수 있다.

일부 선택 가능한 실시형태에 있어서, 검색 결과 페이지에 나타낸, 이전에 기설정된 개수의 검색 결과 링크를 통해 링크된 페이지 중의, 검색어를 설명하기 위한 문구를, 피검출 관심 지점을 설명하기 위한 설명 정보로서 사용할 수 있다.

구체적으로, 이러한 선택 가능한 실시형태의 일부 응용 시나리오에 있어서, 피검출 POI의 명칭이 “베이징수도국제공항”이고, 또한 “수도공항”이 검색어 집합 내의 하나의 검색어일 경우, “수도공항”을 query로서 검색함으로써 일련의 검색 결과를 획득할 수 있다. 그 중 하나의 검색 결과 링크를 클릭하여 획득한 페이지에, 예를 들어 문구 “가까운 시일 내에 수도공항은 더욱 엄격한 안전 점검 조치를 취할 것이니, 여행객들은 시간을 합리적으로 안배하여 공항에 일찍 도착하여 비행기 탑승, 점검 수속을 밟기 바랍니다”가 포함된다. 이 경우 상기 문구는 “베이징수도국제공항”이라는 피검출 POI의 하나의 설명 정보로서 사용될 수 있다.

단계 203에서, 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득한다.

본 단계에서의 유효성 판별 모델은, 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보에 따라, 상기 피검출 관심 지점의 상태 태그를 확정할 수 있다. 여기서, “유효성”은 피검출 관심 지점이 현재에 유효 상태에 있는지의 여부로 이해할 수 있다.

예를 들어, 피검출 관심 지점이 A백화점인 경우, A백화점의 유효성을 표시하기 위한 상태 태그에는 예를 들어 “영업”, “휴업”, “폐업”, “이전” 등이 있을 수 있다. 이해할 수 있는 것은, 이러한 상태 태그에서, “영업”은 A백화점이 유효 상태에 있다고 표시하기 위한 상태 태그일 수 있으며, “휴업”, “폐업”, “이전”은 A백화점이 무효 상태에 있다고 표시하기 위한 상태 태그일 수 있다.

일부 선택 가능한 실시형태에 있어서, 예를 들어 POI의 유효성을 나타내기 위한 상태 태그의 상태 태그 집합을 미리 설정할 수 있다.

이러한 선택 가능한 실시형태에 있어서, 상태 태그 집합 내의 각 상태 태그를 설명 정보 집합 내의 설명 정보와 매칭할 수 있으며, 예를 들어 설명 정보와 상태 태그 사이의 시멘틱 유사도를 확정하여, 상태 태그 집합 중 설명 정보 집합 내의 설명 정보와 최고 시멘틱 유사도를 가진 상태 태그를, 상기 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그로서 사용한다.

본 실시예에 의해 제공된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법은 우선 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하고, 이어서 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하며, 이어서 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하고, 인터넷 텍스트에 대한 마이닝 및 모델에 기반하여 POI의 유효성을 확정함으로써 맵 타입 중 실효된 POI 정보를 실시간으로 발견할 수 있다. 따라서 사용자에게 보다 정확한 정보를 제공하여 사용자의 요구를 충족시키고 사용자 체험을 향상시킨다.

이어서 도 3을 참조하면, 이는 본 실시예에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 응용 시나리오의 일 모식도(300)를 나타낸다.

도 3에 도시된 응용 시나리오에 있어서, 맵 또는 네비게이션 서비스의 서비스 제공측은， POI가 저장된 데이터베이스(301)로부터 피검출 POI인 “XXX의류도매시장”을 획득한다.

이어서, 도면 부호 302에 도시된 바와 같이, 상기 피검출 POI의 검색어 집합을 확정할 수 있다. 검색어 집합에는 “XXX의류도매시장”, “XXX의류시장” 및 “XXX도매시장”이 포함된다.

이어서, 도면 부호 303에 도시된 바와 같이, 검색어 “XXX의류도매시장”, “XXX의류시장” 및 “XXX도매시장”을 각각 검색용 키워드로서 사용하여 검색을 수행함으로써 일련의 검색 결과를 획득한다. 검색 결과에서, 검색을 설명하기 위한 문구를 추출하여 “XXX의류도매시장”이 피검출 POI의 설명 정보로서 사용할 수 있으며, 설명 정보 집합을 형성한다.

이어서, 도면 부호 303에 도시된 바와 같이, 피검출 POI인 “XXX의류도매시장”과 설명 정보 집합을 미리 구축된 유효성 판별 모델에 입력하여， “XXX의류도매시장”이 유효인지 여부를 표시하기 위한 이전과 같은 상태 태그를 획득한다. 이에 따라, 본 실시예의 방법을 통해, 피검출 POI가 유효 상태에 있는지 여부를 확정할 수 있으므로, 상기 맵 타입 애플리케이션 또는 네비게이션 타입 애플리케이션을 사용하는 사용자가 POI 조회 및/또는 네비게이션 수행 시, 상기 POI의 정확한 상태를 실시간으로 획득하여 보다 정확한 맵 및/또는 네비게이션 정보를 획득할 수 있도록 한다.

본 실시예의 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 일부 선택 가능한 실시형태에 있어서, 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하는 단계 201은 피검출 관심 지점의 명칭 및 피검출 관심 지점의 명칭의 동의어를 검색어 집합 내의 검색어로서 사용하는 단계를 포함할 수 있다.

일반적으로, 어느 하나의 POI에 있어서, 그의 공식적인 정확한 명칭이 일반 대중에게 공지되고 가장 널리 사용되는 명칭인 것은 아니다. 이 경우, 피검출 POI의 설명 정보를 가능한 포괄적이고 정확하게 수집하고, 수집된 설명 정보의 다양성 부족으로 인한 상태 태그의 판단 오류를 방지하기 위해, 피검출 POI의 검색어 집합을 확정할 시, 피검출 POI의 명칭을 검색어 집합 내의 검색어로서 사용할 수 있을 뿐만 아니라, 상기 피검출 POI의 동의어를 검색어 집합 내의 검색어로서 사용할 수도 있다.

이러한 선택 가능한 실시형태의 일부 응용 시나리오에 있어서, 기설정된 백과 데이터베이스로부터 피검출 POI의 명칭의 동의어를 확정할 수 있다. 일반적으로, 백과 데이터베이스는 수집된 데이터가 포괄적이고 정확한 특징을 구비한다. 또한, 백과 데이터베이스의 각 엔트리(Entry) 데이터에는 일반적으로 상기 엔트리의 동의어가 포함된다.

이러한 선택 가능한 실시형태의 다른 응용 시나리오에 있어서, 피검출 POI의 명칭을 검색어로서 사용하여 검색할 수도 있고, 검색된 매칭 엔티티를 관심 지점의 명칭의 동의어로서 사용할 수도 있다. 여기서, 매칭 엔티티는 기설정된 개수의 검색 결과에 포함된 엔티티 중, 피검출 관심 지점의 명칭에서 피검출 관심 지점의 명칭과의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값을 초과하는 엔티티일 수 있다.

이러한 응용 시나리오에 있어서, 예를 들어 피검출 POI가 “AAA의류시장”인 경우, “AAA의류시장”을 검색어로서 사용하여 검색할 수 있다. 검색 결과 페이지에 나타나는 검색 결과에서, 처음 N줄(예를 들어, 처음 10줄)의 검색 결과를 선택한다. 상기 N줄 검색 결과에서, 개체명 인식(Named Entity Recognition, NER) 알고리즘을 이용하여 후보 엔티티를 결정한다. 후보 엔티티 중, 피검출 POI 명칭에서 피검출 POI의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값(예를 들어, 50 %)을 초과하는 후보 엔티티를 매칭 엔티티로서 사용할 수 있다.

최장 공통 부분문자열은 최대 공통 부분문자열이라 지칭할 수도 있으며, 두 개 또는 복수 개의 문자열에서, 포함된 공통 부분문자열 중, 가장 긴 하나의 부분문자열을 가리킬 수 있다. 예를 들어, 특정된 후보 엔티티가 “AAA의류도매시장”이면, 상기 후보 엔티티와 피검출 POI의 명칭 사이의 최대 공통 부분문자열은 “AAA의류”이다. 여기서, 최대 공통 부분문자열 “AAA의류”는 “AAA의류도매시장”의 엔티티 명칭에서의 점유율(5/9)이 50 %를 초과하므로, “AAA의류도매시장”은 피검출 POI “AAA의류시장”의 동의어로서 사용될 수 있다.

이러한 선택 가능한 실시형태의 다른 응용 시나리오에 있어서, 피검출 POI의 명칭을 검색어로서 사용하여 검색하며, 기설정된 개수의 검색 결과로부터 상기 피검출 POI의 명칭이 포함된 문구를 추출하고, 대용어 해소 수단을 이용하여 추출한 문구로부터 관심 지점의 명칭을 대체하기 위한 단어를 결정하여 동의어로서 사용할 수 있다.

실제 생활에서, 사람들은 반복을 피하기 위해, 습관적으로 대명사, 호칭 및 약칭을 사용하여 전술에서 언급된 엔티티 풀네임을 대체한다. 대용어 해소(coreference resolution)는 동일한 엔티티를 나타내기 위한 모든 표시대명사를 텍스트로부터 결정하고자 하는 기술이다.

대용어 해소 수단을 이용하여, 피검출 POI를 검색어로서 사용하여 검색하여 획득한 기설정된 개수의 검색 결과(예를 들어, 전 N줄 검색 결과) 중, 상기 피검출 POI를 대체하기 위한 표시대명사를 결정할 수 있으며, 결정된 단어를 피검출 POI의 명칭의 동의어로서 사용한다.

대용어 해소 알고리즘은 현재 이미 광범위하게 연구되고 있는 기술이며, 본 분야의 기술자는 기존의 대용어 해소 알고리즘 또는 미래에 개발될 대용어 해소 알고리즘을 이용하여 피검출 POI를 검색어로서 사용하여 검색하여 획득한 기설정된 개수의 검색 결과 중, 상기 피검출 POI를 지칭하기 위한 표시대명사를 결정할 수 있다.

이해할 수 있는 것은, 확정된 검색어 집합 중 포함된 피검출 POI의 동의어가 보다 포괄적이도록, 이상 제출된 피검출 POI의 동의어 결정 방식 중, 임의의 적어도 양자의 조합을 이용하여 피검출 POI의 동의어를 확정할 수 있다.

나아가 도 4를 참조하면, 이는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 다른 일 실시예의 흐름(400)을 나타낸다. 상기 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 흐름(400)은 하기와 같은 단계를 포함한다.

단계 401에서, 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정한다.

단계 402에서, 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득한다.

단계 403에서, 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득한다.

상기 단계 401 내지 단계 403은 도 2에 도시된 실시예의 단계 201 내지 단계 203과 유사한 방식에 따라 수행될 수 있으며, 여기서 더이상 설명하지 않는다.

도 2에 도시된 실시예와의 상이한 점은, 본 실시예에서 미리 구축된 유효성 판별 모델은 주의력 모델인 것이다.

주의력 모델(Attention Model)은 인체 대뇌의 주의력 모델을 시뮬레이션하였으며, 예를 들면, 한폭의 그림을 볼 때 비록 전체 그림의 모양을 볼 수는 있지만, 깊고 신중하게 관찰할 때 눈의 초점은 매우 작은 한 조각에 불과하고, 이때 사람의 대뇌는 주로 이 작은 한조각의 그림에 초점을 두며, 다시 말해서, 이때 사람의 뇌가 전체 그림에 대한 관심도는 균형적이지 못하고 일정한 가중 구분이 있는데 이것이 바로 심층적 학습에서의 Attention Model의 핵심 사상이다.

본 실시예의 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법에 적용될 경우, 주의력 모델은 그에 입력된 각 설명 정보에 대해 각각 가중치를 결정할 수 있고, 또한 피검출 POI의 각 설명 정보의 가중치 합에 따라 확률이 가장 큰 상태 태그를 결정하여, 상기 피검출 POI의 유효성을 표시하기 위한 상태 태그로서 사용한다.

도 4를 결부하면, 본 실시예에서 주의력 모델은 하기와 같은 단계의 트레이닝에 의해 획득될 수 있다.

단계 404에서, 샘플 관심 지점의 명칭, 샘플 관심 지점의 설명 정보를 입력으로 하고, 샘플 관심 지점의 상태 태그를 타겟으로 하여 초기 주의력 모델을 트레이닝함으로써 유효성 판별 모델을 획득한다.

초기의 주의력 모델에 초기 파라미터를 설정하여 샘플 관심 지점의 진실 상태 태그의 확률을 획득할 수 있다. 모델 내의 파라미터를 끊임없이 조절하여, 모델이 출력한 샘플 지점의 진실 상태 태그의 확률이 가능한 100 %에 접근하도록 한다.

일부 응용 시나리오에 있어서, 샘플 관심 지점의 설명 정보는 하기 방식을 통해 획득된다.

우선, 샘플 관심 지점의 명칭 및 샘플 관심 지점의 명칭의 동의어로 구성된 제1 동의어 집합을 확정한다. 예를 들어, 샘플 관심 지점의 명칭이 A이고, 샘플 관심 지점의 동의어가 A₁, …, A_M이면, 제1 동의어 집합은 Set_name={A, A₁, …, A_M}이다.

이해할 수 있는 것은, 본 실시예에서, 샘플 관심 지점의 명칭의 동의어는 도 2에 도시된 실시예 중 피검출 관심 지점의 확정 방식과 유사한 방식을 이용하여 수행할 수 있다. 예를 들어, 기설정된 백과 데이터베이스로부터 샘플 관심 지점의 명칭의 동의어를 확정한다. 및/또는 샘플 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 검색하여 획득한 매칭 엔티티를 샘플 관심 지점의 명칭의 동의어로 하며, 여기서, 매칭 엔티티는 기설정된 개수의 검색 결과에 포함된 엔티티 중 관심 지점의 명칭에서 샘플 관심 지점의 명칭과의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값을 초과하는 엔티티이다. 및/또는 샘플 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 기설정된 개수의 검색 결과로부터 샘플 관심 지점의 명칭이 포함된 문구를 추출하며, 대용어 해소 수단을 이용하여 추출한 문구로부터 샘플 관심 지점의 명칭을 대체하기 위한 단어를 확정하여 동의어로서 사용한다.

이어서, 샘플 관심 지점의 상태 태그와 샘플 관심 지점의 상태 태그의 동의어로 구성된 제2 동의어 집합을 확정한다. 예를 들어, 관심 지점의 상태 태그가 B이고, 상태 태그의 동의어는 B₁, …, B_N이면, 제2 동의어 집합은 Set_lable={B, B₁, …, B_N}이다.

선택 가능하게, 상태 태그의 동의어는 하기 방식 중 적어도 하나에 의해 확정될 수 있다.

기설정된 동의어 데이터베이스로부터 샘플 관심 지점의 상태 태그의 동의어를 확정한다. 및/또는 샘플 관심 지점의 명칭을 포함한 과거 검색 문구로부터 기설정된 개수의 타겟 검색 문구를 확정하고, 확정된 타겟 검색 문구로부터 된, 샘플 관심 지점의 상태 태그와의 시멘틱 유사도가 기설정된 유사도 임계값을 초과하는 단어를, 샘플 관심 지점의 상태 태그의 동의어로서 사용한다.

마지막에, 제1 동의어 집합으로부터 확정된 제1 동의어와 제2 동의어 집합으로부터 확정된 제2 동의어를 검색어로서 사용하여 검색한다. 또한 검색 결과 중 제1 동의어와 제2 동의어가 공동으로 나타난 문구를 샘플 관심 지점의 설명 정보로서 사용한다.

예를 들어, 제1 동의어 집합은 Set_name={A, A₁, …, A_M}이고, 제2 동의어 집합은 Set_lable={B, B₁, …, B_N}인 경우, 검색어 집합 L={AB, AB₁, …, AB_N, A₁B, A₁B₁…, A₁B_N, … A_MB_N}을 획득할 수 있다. 검색어 집합 내의 각 요소를 검색어로서 사용하여 검색하고, 검색 결과 중 제1 동의어와 제2 동의어가 공동으로 나타난 문구를 샘플 관심 지점의 설명 정보로서 사용한다.

이해할 수 있는 것은, 샘플 관심 지점 및 그 설명 정보와 상태 태그의 수집 과정에서, 최종 트레이닝을 통해 획득한 모델의 예측 정확도를 보다 높이기 위해, 트레이닝 샘플에는 긍정적인 샘플을 포함할 수도 있고 부정적인 샘플을 포함할 수도 있다. 다시 말해서, 트레이닝 샘플에는 상태 태그가 상기 샘플 관심 지점이 유효 상태에 있다고 표시하는 샘플이 있을 수 있고, 상태 태그가 상기 샘플 관심 지점이 무효 상태에 있다고 표시하는 샘플이 있을 수도 있다.

아래에서 도 5와 도 6을 결부하여 본 실시예의 일부 선택 가능한 실시형태에서 주의력 모델의 구조 및 그 트레이닝 방식을 설명한다.

구체적으로, 도 5는 본 실시예의 일부 선택 가능한 실시형태에서 주의력 모델의 구체적 구조를 나타내며, 도 6은 이러한 선택 가능한 실시형태에서 주의력 모델의 트레이닝 단계의 구체적 수행 과정을 나타낸다.

도 5에 도시된 바를 참조하면, 주의력 모델(500)은 시멘틱 식별 서브 모델(501), 특징 추출 서브 모델(502), 가중치 합산 유닛(503), 선형화 유닛(504) 및 분류기(505) 등 구조를 포함할 수 있다.

시멘틱 식별 서브 모델(501)은 그에 입력된 샘플 POI의 명칭 및 특정된 설명 정보s_i(i=1, 2, …, n)의 시멘틱 특징을 추출하는데 사용되어 시멘틱 특징 벡터를 획득할 수 있다.

특징 추출 서브 모델(502)은 샘플 POI의 명칭 및 하나의 설명 정보 중 s_i(i=1, 2, …, n)에 사용될 수 있으며, 특정된 하나 또는 복수 개의 기설정된 규칙에 기반하여 특징 추출을 수행함으로써, 상기 샘플 POI를 나타내는 상기 설명 정보의 설명 특징 벡터를 획득한다.

일부 응용 시나리오에 있어서, 기설정된 규칙에 기반하여, 특징 추출 서브 모델(502)은, 설명 정보에 포함된 샘플 관심 지점의 상태 태그 또는 샘플 관심 지점의 상태 태그의 동의어들의 개수를 나타내는 특징; 및 설명 정보에 태그어가 포함되었는지 여부를 나타내는 특징 중 적어도 하나의 특징을 추출할 수 있다. 이해할 수 있는 것은, 여기서 태그어는 상태 태그 자체를 포함할 수 있을 뿐만 아니라, 상태 태그의 동의어를 더 포함할 수 있다.

이해할 수 있는 것은, 주의력 모델(500)에서 시멘틱 식별 서브 모델(501)과 특징 추출 서브 모델(502)의 구체적 개수는 한정되지 않는다.

구체적으로, 주의력 모델은 하나의 시멘틱 식별 서브 모델과 하나의 특징 추출 서브 모델을 포함할 수 있으며, 이에 따라, 시멘틱 식별 서브 모델과 특징 추출 서브 모델은 각각 직렬로 샘플 POI 명칭 및 설명 정보의 시멘틱 특징 및 설명 특징을 추출할 수 있고, 또한 각각 상기 샘플 POI의 각 설명 정보에 대한 시멘틱 특징 벡터와 설명 특징 벡터를 획득한다.

또는, 도 5에 도시된 바와 같이, 주의력 모델(500)은 복수 개의 시멘틱 식별 서브 모델(501)과 복수 개의 특징 추출 서브 모델(502)을 포함할 수도 있다. 이에 따라, 각각의 시멘틱 식별 서브 모델과 각각의 특징 추출 서브 모델은 병렬로 시멘틱 특징 추출과 설명 특징 추출을 수행할 수 있다.

이밖에, 주의력 모델은 가중치 합산 유닛(503)을 더 포함한다. 가중치 합산 유닛(503)은 샘플 POI의 각 설명 정보에서 시멘틱 식별 서브 모델 식별에 의해 획득된 시멘틱 특징 벡터와 특징 추출 서브 모델 추출에 의해 획득된 설명 특징 벡터에 대해 스플라이싱한 후, 스플라이싱 특징 벡터를 획득하여 가중치 합산을 수행하고, 또한 가중치 합을 선형화 유닛(504)으로 선형화하며, 마지막에 선형화 결과를 분류기(505)로 분류하여, 샘플 POI가 그 진실 샘플 태그(ground truth)를 가지는 확률을 얻는다.

이에 따라, 주의력 모델 내의 모델 파라미터를 끊임없이 조정하여, 가중치 합산 유닛(503) 내의 가중 계수를 상응하게 조정함으로써 주의력 모델에 의해 출력된 샘플 POI가 그 진실 샘플 태그에 속하는 확률을 끊임없이 증가시킨다.

도 6을 참조하면, 이는 주의력 모델을 트레이닝하는 과정을 더 구체적으로 나타낸다.

단계 601에서, 하나의 샘플 관심 지점에 대해, 상기 샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 하나의 설명 정보를 시멘틱 식별 서브 모델에 입력하고, 상기 설명 정보를 특징 추출 서브 모델에 입력하며, 시멘틱 식별 서브 모델과 특징 추출 서브 모델에 의해 출력된 특징 벡터에 대해 스플라이싱을 수행하여, 상기 샘플 관심 지점을 설명하기 위한 상기 설명 정보의 특징 벡터를 획득한다.

일부 선택 가능한 실시형태에 있어서, 시멘틱 식별 서브 모델은 주의력 모델일 수도 있다. 도 7은 주의력 모델에 기반한 시멘틱 식별 서브 모델의 일 실시예의 예시적 구조도이다.

시멘틱 식별 서브 모델은 명칭 특징 추출 서브 모델(701), 적어도 하나의 단어 특징 추출 서브 모델(702) 및 가중치 합산 유닛(703)을 포함한다. 명칭 특징 추출 서브 모델(701)과 단어 특징 추출 서브 모델(702)은 모두 양방향 LSTM(장시간 단시간 기억 네트워크, Long Short-Term Memory)에 기반하여 모델링하여 획득된 것이다. m개 단어가 포함된 문장에 대해, 각 단어 x₁~x_m을 단어 특징 추출 서브 모델(702)에 입력하여 일련의 암시적 벡터 h₁, h₂, ..., h_m을 획득한다. 이밖에, 명칭 특징 추출 서브 모델을 이용하여 POI명칭에 대해 특징 추출을 수행하여 이름 벡터 v_POI를 획득한다. 주의력 메커니즘을 통해, 이름 벡터 v_POI와 각 암시적 벡터를 이용하여 각각 하나의 가중β_i(i = 1, 2, …, m)를 산출한다. 산출된 가중 β₁, β₂, ... β_m에 따라, 가중치 합산 유닛(703)을 이용하여 설명 정보의 시멘틱 벡터를 산출하고 v_s로 표시한다.

구체적으로,

이어서, 시멘틱 식별 서브 모델에 의해 획득된 시멘틱 특징 벡터 v_s와 특징 추출 서브 모델에 의해 추출된 설명 특징 벡터를 스플라이싱하여, 각 설명 정보의 벡터를 획득하며 v_sen으로 표시한다.

단계 602에서, 상기 샘플 관심 지점의 각 설명 정보의 특징 벡터의 가중치 합을 확정한다.

구체적으로, 주의력 메커니즘을 이용하여 상기 샘플 관심 지점의 각 스플라이싱 특징 벡터의 가중치 합v_c를 산출한다.

여기서, v_a는 모델 파라미터이고 트레이닝 과정에서 끊임없이 조정될 수 있다.

단계 603에서, 가중치 합에 기반하여, 상기 샘플 관심 지점에 속하는 상태 태그의 확률값을 확정한다.

구체적으로, 단계 602에서 획득한 가중치 합v_c에 대해 선형 변환을 수행하고 분류기에 입력하여 태그 확률 분포에 대해 예측한다. 여기서, 확률이 가장 큰 태그가 상기 샘플 POI의 상태 태그로서 예측된다.

단계 604에서, 기설정된 손실 함수에 기반하여, 진실 태그에서의 각 샘플 관심 지점의 확률값의 손실값을 확정하고, 확정된 손실값을 주의력 모델에서 역전파시키며, 주의력 모델의 모델 파라미터를 조정하여 유효성 판별 모델을 획득한다.

예를 들어, 손실 함수는 정확한 태그의 음의 로그 우도함수(negative log likelihood)일 수 있다.

여기서, 공식 (3)에서, j는 트레이닝 샘플 집합 중 제i 번째 샘플 POI의 정확한 태그이다. 이에 따라 상기 공식(3)을 이용하여 트레이닝 샘플의 손실값을 산출할 수 있고, 또한 모델 내의 손실값의 역전파(예를 들어, 랜덤 경사 하강 알고리즘에 기반함)를 통해 모델 파라미터를 조정함으로써 주의력 모델을 트레이닝한다.

도 4 내지 도 7로부터 알 수 있다시피, 도 2에 대응되는 실시예에 비해, 본 실시예의 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법의 흐름(400)은 주의력 모델에 기반한 유효성 판별 모델을 이용하여 피검출 관심 지점의 상태 태그의 식별을 수행하여, 유효성 판별 모델이 설명 정보 중 POI 상태를 판단하는 보다 중요한 정보를 식별할 수 있으며, 따라서 최종 예측을 통해 획득한 상태 태그가 보다 정확하다.

도 8을 더 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 출원은 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치의 일 실시예를 제공하며, 상기 장치의 실시예는 도 2에 도시된 방법의 실시예와 서로 대응되고, 상기 장치는 구체적으로 다양한 전자기기에 응용될 수 있다.

도 8에 도시된 바와 같이, 본 실시예의 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치는 검색어 확정 유닛(801), 설명 정보 확정 유닛(802) 및 유효성 판단 유닛(803)을 포함한다.

검색어 확정 유닛(801)은 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하도록 구성될 수 있다.

설명 정보 확정 유닛(802)은 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하도록 구성될 수 있다.

유효성 판단 유닛(803)은 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하도록 구성될 수 있다.

일부 선택 가능한 실시형태에 있어서, 검색어 확정 유닛(801)은 또한, 피검출 관심 지점의 명칭 및 피검출 관심 지점의 명칭의 동의어를 검색어 집합 내의 검색어로 하도록 구성될 수 있다.

일부 선택 가능한 실시형태에 있어서, 미리 구축된 유효성 판별 모델은 주의력 모델일 수 있다.

이러한 선택 가능한 실시형태에 있어서, 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치는 트레이닝 유닛(미도시)을 더 포함할 수 있다. 트레이닝 유닛은 또한, 샘플 관심 지점의 명칭 및 샘플 관심 지점의 설명 정보를 입력으로 하고, 샘플 관심 지점의 상태 태그를 타겟으로 하여 초기 주의력 모델을 트레이닝함으로써 유효성 판별 모델을 획득하도록 구성될 수 있다.

일부 선택 가능한 실시형태에 있어서, 주의력 모델은 시멘틱 식별 서브 모델과 특징 추출 서브 모델을 포함할 수 있다.

이러한 선택 가능한 실시형태에 있어서, 트레이닝 유닛은 또한, 하나의 샘플 관심 지점에 대해, 상기 샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 하나의 설명 정보를 시멘틱 식별 서브 모델에 입력하고, 상기 설명 정보를 특징 추출 서브 모델에 입력하며, 시멘틱 식별 서브 모델과 특징 추출 서브 모델에 의해 출력된 특징 벡터에 대해 스플라이싱을 수행하여, 상기 샘플 관심 지점을 설명하기 위한 상기 설명 정보의 특징 벡터를 획득하고, 상기 샘플 관심 지점의 각 설명 정보의 특징 벡터의 가중치 합을 확정하며, 상기 가중치 합에 기반하여 상기 샘플 관심 지점에 속하는 상태 태그의 확률값을 확정하고, 기설정된 손실 함수에 기반하여, 진실 태그에서의 각 샘플 관심 지점의 확률값의 손실값을 확정하고, 확정된 손실값을 주의력 모델에서 역전파시키며, 주의력 모델의 모델 파라미터를 조정하여 유효성 판별 모델을 획득하도록 구성될 수 있다.

일부 선택 가능한 실시형태에 있어서, 샘플 관심 지점의 설명 정보는, 샘플 관심 지점의 명칭 및 샘플 관심 지점의 명칭의 동의어로 구성된 제1 동의어 집합을 확정하는 단계; 샘플 관심 지점의 상태 태그와 샘플 관심 지점의 상태 태그의 동의어로 구성된 제2 동의어 집합을 확정하는 단계; 제1 동의어 집합으로부터 결정된 제1 동의어와 제2 동의어 집합으로부터 결정된 제2 동의어를 검색어로서 사용하여 검색을 수행함으로써, 검색 결과 중 제1 동의어와 제2 동의어가 공동으로 나타난 문구를 샘플 관심 지점의 설명 정보로서 사용하는 단계에 의해 획득될 수 있다.

일부 선택 가능한 실시형태에 있어서, 샘플 관심 지점의 상태 태그의 동의어는, 기설정된 동의어 데이터베이스로부터 샘플 관심 지점의 상태 태그의 동의어를 확정하는 단계; 및 샘플 관심 지점의 명칭을 포함한 과거 검색 문구로부터 기설정된 개수의 타겟 검색 문구를 확정하고, 확정된 타겟 검색 문구로부터 결정된, 상기 샘플 관심 지점의 상태 태그와의 시멘틱 유사도가 기설정된 유사도 임계값을 초과하는 단어를, 샘플 관심 지점의 상태 태그의 동의어로서 사용하는 단계 중 적어도 하나에 의해 결정될 수 있다.

일부 선택 가능한 실시형태에 있어서, 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치는 동의어 확정 유닛을 더 포함할 수 있다.

동의어 확정 유닛은, 기설정된 백과 데이터베이스로부터 관심 지점의 명칭의 동의어를 확정하는 단계; 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 검색하여 획득한 매칭 엔티티를 관심 지점의 명칭의 동의어로서 사용하는 단계 - 매칭 엔티티는 기설정된 개수의 검색 결과에 포함된 엔티티 중, 관심 지점의 명칭에서 관심 지점의 명칭과의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값을 초과하는 엔티티임 - ; 및 관심 지점의 명칭을 검색어로서 사용하여 검색하고, 기설정된 개수의 검색 결과로부터 관심 지점의 명칭이 포함된 문구를 추출하며, 대용어 해소 수단을 이용하여 추출한 문구로부터 관심 지점의 명칭을 대체하기 위한 단어를 동의어로 결정하는 단계 중 적어도 하나에 의해 관심 지점의 명칭의 동의어를 확정하도록 구성될 수 있다. 여기서 관심 지점은 피검출 관심 지점과 샘플 관심 지점 중 하나일 수 있다.

이하, 도 9를 참조하면, 본 출원의 실시예의 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법에 따른 전자기기를 구현하기 위해 적용되는 컴퓨터 시스템(900)의 구조 모식도를 나타낸다. 도 9에 도시된 전자기기는 단지 하나의 예일 뿐 본 출원의 실시예의 기능과 사용 범위에 대한 어떠한 한정도 아니다.

도 9에 도시된 바와 같이, 컴퓨터 시스템(900)은 중앙 처리 장치(CPU)(901)를 포함하고, 판독 전용 메모리(ROM)(902)에 저장된 프로그램 또는 저장 부분(906)으로부터 랜덤 액세스 메모리(RAM)(903)에 로딩되는 프로그램에 따라 여러 가지 적절한 동작과 처리를 수행할 수 있다. RAM(903)에 시스템(900) 작동에 필요한 다양한 프로그램과 데이터가 더 저장된다. CPU(901), ROM(902) 및 RAM(903)은 버스(904)를 통해 서로 연결된다. 입출력(I/O) 인터페이스(905)도 버스(904)에 연결된다.

하드 드라이버 등을 포함하는 저장 부분(906); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 부분(907)과 같은 부품은 I/O 인터페이스(905)에 연결된다. 드라이버(908)도 필요에 따라 I/O 인터페이스(905)에 연결된다. 디스크, CD, 광자기 디스크, 반도체 메모리 등과 같은 착탈 가능한 매체(909)는 이에 의해 판독된 컴퓨터 프로그램을 필요에 따라 저장 부분(906)에 용이하게 설치하도록 필요에 따라 드라이버(908)에 설치된다.

특히 본 출원에 공개된 실시예에 따르면, 상기에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 출원에 공개된 실시예는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 판독 가능한 매체에 탑재되는 컴퓨터 프로그램을 포함하며, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 부분(907)을 통해 네트워크로부터 다운로드 또는 설치될 수 있거나 및/또는 착탈 가능한 매체(909)로부터 설치될 수 있다. 상기 컴퓨터 프로그램이 중앙 처리 장치(CPU)(901)에 의해 실행될 경우, 본 출원에 따른 방법에서 한정된 상기 기능을 수행한다. 설명해야 할 것은, 본 출원에서 설명하는 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체 또는 상기 양자의 임의의 조합일 수 있다. 예를 들어 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 광, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자 또는 이상의 임의의 조합일 수 있으나 이에 한정되는 것은 아니다. 컴퓨터 판독 가능한 저장 매체의 보다 구체적인 예로서 하나 또는 복수 개의 도선을 구비하는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, RAM, ROM, 소거 가능 프로그래머블 롬(EPROM 또는 플래시 메모리), 광섬유, 휴대용 시디롬(compact disk read-only memory, CD-ROM), 광학 저장 소자, 자기 저장 소자 또는 이상의 임의의 적절한 조합을 포함할 수 있으나 이에 한정되는 것은 아니다. 본 출원에서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형 매체일 수 있으며, 상기 프로그램은 명령 실행 시스템, 장치 또는 소자 또는 이들의 조합에 의해 사용될 수 있다. 본 출원에 있어서, 컴퓨터 판독 가능한 신호 매체는 기저 대역 또는 반송파의 일부분으로서 전파되는 데이터 신호에 포함될 수 있으며 컴퓨터 판독 가능한 프로그램 코드가 탑재된다. 이렇게 전파되는 데이터 신호는 다양한 형식을 사용할 수 있고, 전자기 신호, 광학 신호 또는 상기의 임의의 적절한 조합을 포함하나 이에 한정되는 것은 아니다. 컴퓨터 판독 가능한 신호 매체는 컴퓨터 판독 가능한 저장 매체 이외의 임의의 컴퓨터 판독 가능한 매체일 수도 있으며, 상기 컴퓨터 판독 가능한 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들의 조합에 의해 사용되는 프로그램을 송신, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능한 매체에 포함되는 프로그램 코드는 임의의 적절한 매체로 전송될 수 있으며, 무선, 전기선, 광케이블, RF 등 또는 상기의 임의의 적절한 조합을 포함하나 이에 한정되는 것은 아니다.

일종 또는 다양한 프로그램 설계 언어 또는 이들의 조합에 의해 본 출원의 작동을 수행하기 위한 컴퓨터 프로그램 코드가 작성될 수 있으며, 상기 프로그램 설계 언어는 Java, Smalltalk, C++와 같은 객체 지향 프로그램 설계 언어를 포함하고, C 언어 또는 유사한 프로그램 설계 언어와 같은 일반 절차형 프로그램 설계 언어를 더 포함한다. 프로그램 코드는 사용자 컴퓨터에서 전부 실행될 수 있거나, 부분적으로 사용자 컴퓨터에서 실행될 수 있거나, 독립적인 소프트웨어 패키지로서 실행될 수 있거나, 일부는 사용자 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행될 수 있거나, 원격 컴퓨터 또는 서버에서 전부 실행될 수 있다. 원격 컴퓨터인 경우, 원격 컴퓨터는 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의 타입의 네트워크로 사용자 컴퓨터에 연결될 수 있거나 외부 컴퓨터(예를 들어, 인터넷 서비스 제공업체를 이용하여 인터넷으로 연결됨)에 연결될 수도 있다.

도면 중 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품에 따라 구현 가능한 아키텍처, 기능 및 작동을 도시한다. 이 점에 있어서, 흐름도 또는 블록도 중 각 블록은 하나의 모듈, 프로그램대 또는 코드의 일부를 대표할 수 있으며, 상기 모듈, 프로그램대 또는 코드의 일부는 하나 또는 복수 개의 일정한 로직 기능을 구현하기 위한 실행 가능한 명령을 포함한다. 주의해야 할 점은, 일부 교체용 구현에 있어서, 블록에 표시된 기능도 도면에 표시된 순서와 달리 발생할 수 있다. 예를 들어, 2개의 연속적으로 표시되는 블록은 실질적으로 병렬로 수행될 수 있고 역순서에 따라 실행될 수도 있으며 이는 관련된 기능에 따라 정해진다. 또한 주의해야 할 점은, 블록도 및/또는 흐름도 중 각 블록 및 블록도 및/또는 흐름도 중 블록의 조합은 일정한 기능 또는 작동을 수행하기 위한 전용 하드웨어 기반 시스템에 의해 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령의 조합에 의해 구현될 수 있다.

본 출원의 실시예를 설명하는 과정에서 언급한 유닛은 소프트웨어에 의해 구현될 수 있고 하드웨어에 의해 구현될 수도 있다. 설명한 유닛은 프로세서에 설치될 수 있으며, 예를 들어 검색어 확정 유닛, 설명 정보 확정 유닛 및 유효성 판단 유닛을 포함하는 프로세서로 설명될 수 있다. 이러한 유닛들의 명칭은 어떠한 상황에서 해당 유닛 자체에 대한 한정이 되지 않으며, 예를 들어, 검색어 확정 유닛은 “피검출 관심 지점을 표시하기 위한 검색어 집합으로 결정되도록 구성된 유닛”으로 더 설명될 수도 있다.

한편, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 상기 컴퓨터 판독 가능한 매체는 상기 실시예에서 설명한 장치에 포함될 수 있고 해당 장치에 조립되지 않고 독립적으로 존재할 수도 있다. 상기 컴퓨터 판독 가능한 매체는 하나 또는 복수 개의 프로그램을 탑재하고 상기 하나 또는 복수 개의 프로그램이 상기 장치에 의해 실행될 경우, 상기 장치가 피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하고; 확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하며; 피검출 관심 지점의 명칭 및 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하도록 한다.

이상의 설명은 단지 본 출원의 바람직한 실시예 및 적용된 기술 원리에 대한 설명이다. 본 기술분야의 통상의 기술자는 본 출원에 언급된 발명 범위는 상기 기술 특징의 특정적 조합에 의한 기술적 해결수단에 제한되지 않고, 아울러 본 출원의 사상을 벗어나지 않는 한 상기 기술 특징 또는 그 동등한 특징에 의해 임의로 조합되어 형성된 다른 기술적 해결수단을 포함함을 이해해야 한다. 예를 들어, 상기 특징은 본 출원에서 공개되고(그러나 한정되지 않음) 유사 기능을 가진 기술 특징과 상호 대체되어 형성된 기술적 해결수단이다.

Claims

인터넷 텍스트 마이닝(text mining)에 기반한 관심 지점의 유효성 판단 방법에 있어서,
피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하는 단계;
확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 상기 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하는 단계; 및
상기 피검출 관심 지점의 명칭 및 상기 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 상기 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하는 단계를 포함하는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법.
제1항에 있어서,
피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하는 단계는,
상기 피검출 관심 지점의 명칭 및 상기 피검출 관심 지점의 명칭의 동의어를 상기 검색어 집합 내의 검색어로서 사용하는 단계를 포함하는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법.
제1항에 있어서,
상기 미리 구축된 유효성 판별 모델은 주의력 모델이며,
상기 유효성 판별 모델은, 샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 설명 정보를 입력으로 하고 상기 샘플 관심 지점의 상태 태그를 타겟으로 하여 초기 주의력 모델을 트레이닝함으로써 상기 유효성 판별 모델을 획득하는 트레이닝 단계에 의해 획득되는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법.
제3항에 있어서,
상기 주의력 모델은 시멘틱(semantic) 식별 서브 모델과 특징 추출 서브 모델을 포함하며, 상기 트레이닝 단계는,
하나의 샘플 관심 지점에 대해, 상기 샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 하나의 설명 정보를 시멘틱 식별 서브 모델에 입력하고, 상기 설명 정보를 특징 추출 서브 모델에 입력하며, 시멘틱 식별 서브 모델과 특징 추출 서브 모델에 의해 출력된 특징 벡터(vector)에 대해 스플라이싱(splicing)을 수행하여, 상기 샘플 관심 지점을 설명하기 위한 상기 설명 정보의 특징 벡터를 획득하는 단계;
상기 샘플 관심 지점의 각 설명 정보의 특징 벡터의 가중치 합을 확정하는 단계;
상기 가중치 합에 기반하여, 상기 샘플 관심 지점에 속하는 상태 태그의 확률값을 확정하는 단계; 및
기설정된 손실 함수에 기반하여, 진실 태그에서의 각 샘플 관심 지점의 확률값의 손실값을 확정하고, 확정된 손실값을 주의력 모델에서 역전파시키며, 주의력 모델의 모델 파라미터를 조정하여 상기 유효성 판별 모델을 획득하는 단계를 더 포함하는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법.
제3항에 있어서,
상기 샘플 관심 지점의 설명 정보는,
샘플 관심 지점의 명칭 및 샘플 관심 지점의 명칭의 동의어로 구성된 제1 동의어 집합을 확정하는 단계;
샘플 관심 지점의 상태 태그와 샘플 관심 지점의 상태 태그의 동의어로 구성된 제2 동의어 집합을 확정하는 단계; 및
상기 제1 동의어 집합으로부터 결정된 제1 동의어와 상기 제2 동의어 집합으로부터 결정된 제2 동의어를 검색어로서 사용하여 검색을 수행함으로써, 검색 결과 중 제1 동의어와 제2 동의어가 공동으로 나타난 문구를 샘플 관심 지점의 설명 정보로서 사용하는 단계에 의해 획득되는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법.
제5항에 있어서,
상기 샘플 관심 지점의 상태 태그의 동의어는,
기설정된 동의어 데이터베이스로부터 상기 샘플 관심 지점의 상태 태그의 동의어를 확정하는 단계; 및
상기 샘플 관심 지점의 명칭을 포함한 과거 검색 문구로부터 기설정된 개수의 타겟 검색 문구를 확정하고, 확정된 타겟 검색 문구로부터 결정된, 상기 샘플 관심 지점의 상태 태그와의 시멘틱 유사도가 기설정된 유사도 임계값을 초과하는 단어를, 상기 샘플 관심 지점의 상태 태그의 동의어로서 사용하는 단계 중 적어도 하나에 의해 확정되는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법.
제2항 또는 제5항에 있어서,
관심 지점의 명칭의 동의어는,
기설정된 백과 데이터베이스로부터 관심 지점의 명칭의 동의어를 확정하는 단계;
관심 지점의 명칭을 검색어로서 사용하여 검색하고, 검색하여 획득한 매칭 엔티티를 관심 지점의 명칭의 동의어로서 사용하는 단계 - 상기 매칭 엔티티는 기설정된 개수의 검색 결과에 포함된 엔티티 중, 상기 관심 지점의 명칭에서 관심 지점의 명칭과의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값을 초과하는 엔티티임 - ; 및
관심 지점의 명칭을 검색어로서 사용하여 검색하고, 기설정된 개수의 검색 결과로부터 관심 지점의 명칭이 포함된 문구를 추출하며, 대용어 해소 수단을 이용하여 추출한 문구로부터 관심 지점의 명칭을 대체하기 위한 단어를 동의어로 결정하는 단계 중 적어도 하나에 의해 확정되며,
상기 관심 지점은 상기 피검출 관심 지점과 상기 샘플 관심 지점 중 하나인 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법.
인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치에 있어서,
피검출 관심 지점을 표시하기 위한 검색어 집합을 확정하도록 구성된 검색어 확정 유닛;
확정된 검색어를 검색용 키워드로서 사용하여 검색을 수행함으로써, 상기 피검출 관심 지점을 설명하기 위한 설명 정보 집합을 획득하도록 구성된 설명 정보 확정 유닛; 및
상기 피검출 관심 지점의 명칭 및 상기 설명 정보 집합 내의 설명 정보를 미리 구축된 유효성 판별 모델에 입력하여, 상기 피검출 관심 지점의 유효성을 표시하기 위한 상태 태그를 획득하도록 구성된 유효성 판단 유닛을 포함하는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치.
제8항에 있어서,
상기 검색어 확정 유닛은 또한,
상기 피검출 관심 지점의 명칭 및 상기 피검출 관심 지점의 명칭의 동의어를 상기 검색어 집합 내의 검색어로서 사용하도록 구성된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치.
제8항에 있어서,
상기 미리 구축된 유효성 판별 모델은 주의력 모델이며, 상기 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치는 트레이닝 유닛을 더 포함하되, 상기 트레이닝 유닛은 또한,
샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 설명 정보를 입력으로 하고 상기 샘플 관심 지점의 상태 태그를 타겟으로 하여 초기 주의력 모델을 트레이닝함으로써 상기 유효성 판별 모델을 획득하도록 구성된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치.
제10항에 있어서,
상기 주의력 모델은 시멘틱 식별 서브 모델과 특징 추출 서브 모델을 포함하며, 상기 트레이닝 유닛은 또한,
하나의 샘플 관심 지점에 대해, 상기 샘플 관심 지점의 명칭 및 상기 샘플 관심 지점의 하나의 설명 정보를 시멘틱 식별 서브 모델에 입력하고, 상기 설명 정보를 특징 추출 서브 모델에 입력하며, 시멘틱 식별 서브 모델과 특징 추출 서브 모델에 의해 출력된 특징 벡터에 대해 스플라이싱을 수행하여, 상기 샘플 관심 지점을 설명하기 위한 상기 설명 정보의 특징 벡터를 획득하고,
상기 샘플 관심 지점의 각 설명 정보의 특징 벡터의 가중치 합을 확정하며,
상기 가중치 합에 기반하여, 상기 샘플 관심 지점에 속하는 상태 태그의 확률값을 확정하고,
기설정된 손실 함수에 기반하여, 진실 태그에서의 각 샘플 관심 지점의 확률값의 손실값을 확정하고, 확정된 손실값을 주의력 모델에서 역전파시키며, 주의력 모델의 모델 파라미터를 조정하여 상기 유효성 판별 모델을 획득하도록 구성된 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치.
상기 샘플 관심 지점의 설명 정보는,
샘플 관심 지점의 명칭 및 샘플 관심 지점의 명칭의 동의어로 구성된 제1 동의어 집합을 확정하는 단계;
샘플 관심 지점의 상태 태그와 샘플 관심 지점의 상태 태그의 동의어로 구성된 제2 동의어 집합을 확정하는 단계; 및
상기 제1 동의어 집합으로부터 결정된 제1 동의어와 상기 제2 동의어 집합으로부터 결정된 제2 동의어를 검색어로서 사용하여 검색을 수행함으로써, 검색 결과 중 제1 동의어와 제2 동의어가 공동으로 나타난 문구를 샘플 관심 지점의 설명 정보로서 사용하는 단계에 의해 획득되는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치.
제12항에 있어서,
상기 샘플 관심 지점의 상태 태그의 동의어는,
기설정된 동의어 데이터베이스로부터 상기 샘플 관심 지점의 상태 태그의 동의어를 확정하는 단계; 및
상기 샘플 관심 지점의 명칭을 포함한 과거 검색 문구로부터 기설정된 개수의 타겟 검색 문구를 확정하고, 확정된 타겟 검색 문구로부터 결정된, 상기 샘플 관심 지점의 상태 태그와의 시멘틱 유사도가 기설정된 유사도 임계값을 초과하는 단어를, 상기 샘플 관심 지점의 상태 태그의 동의어로서 사용하는 단계 중 적어도 하나에 의해 확정되는 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치.
제9항 또는 제12항에 있어서,
상기 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치는 동의어 확정 유닛을 더 포함하되, 상기 동의어 확정 유닛은,
기설정된 백과 데이터베이스로부터 관심 지점의 명칭의 동의어를 확정하는 단계;
관심 지점의 명칭을 검색어로서 사용하여 검색하고, 검색하여 획득한 매칭 엔티티를 관심 지점의 명칭의 동의어로서 사용하는 단계 - 상기 매칭 엔티티는 기설정된 개수의 검색 결과에 포함된 엔티티 중, 관심 지점의 명칭에서 관심 지점의 명칭과의 최장 공통 부분문자열의 점유율이 기설정된 비례 임계값을 초과하는 엔티티임 - ; 및
관심 지점의 명칭을 검색어로서 사용하여 검색하고, 기설정된 개수의 검색 결과로부터 관심 지점의 명칭이 포함된 문구를 추출하며, 대용어 해소 수단을 이용하여 추출한 문구로부터 관심 지점의 명칭을 대체하기 위한 단어를 동의어로 결정하는 단계 중 적어도 하나에 의해 관심 지점의 명칭의 동의어를 확정하도록 구성되며,
상기 관심 지점은 상기 피검출 관심 지점과 상기 샘플 관심 지점 중 하나인 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 장치.
전자기기에 있어서,
하나 또는 복수 개의 프로세서; 및
하나 또는 복수 개의 프로그램을 저장하기 위한 저장 장치를 포함하며,
상기 하나 또는 복수 개의 프로그램이 상기 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수 개의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법을 수행하는 전자기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체에 있어서,
상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제7항 중 어느 한 항에 따른 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법을 수행하는 컴퓨터 판독 가능한 저장 매체.