KR20170049380A

KR20170049380A - 태그처리방법 및 태그처리장치

Info

Publication number: KR20170049380A
Application number: KR1020160109826A
Authority: KR
Inventors: 지앙 왕; 창 후왕
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2015-10-27
Filing date: 2016-08-29
Publication date: 2017-05-10
Also published as: JP2017084340A; CN106611015A; CN106611015B; US20170116521A1; JP6402408B2

Abstract

본 발명은 태그처리방법 및 태그처리장치를 제공한다. 본 발명의 실시예는 리소스의 어의특징 데이터를 획득하고， 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득함으로써 상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 할 수 있게 하여 리소스의 복수개의 태그를 획득하는 목적을 구현한다.

Description

태그처리방법 및 태그처리장치{TAG PROCESSING METHOD AND DEVICE}

본 발명은 태그처리 기술에 관한 것으로서 특히는 태그처리방법 및 태그처리장치에 관한 것이다.

소셜태깅（Social tagging）은 태그라고 약칭하는 것으로서 보다 영활성 있고 흥미로운 분류방식으로써 사용자로 하여금 각종 리소스 예를 들면 웹사이트, 학술논문, 미디어 등 리소스를 자유롭게 표기할 수 있게 한다. 쇼셜태그는 사용자로 하여금 각종 정보를 분류 정리하고 조회할 수 있게 하여 쇼셜태깅 웹사이트(예를 들면, Flickr, Picassa, YouTube, Plaxo등), 블로그(예를 들면, Blogger, WordPress, LiveJoumal등), 백과(예를 들면, Wikipedia, PBWiki등), 마이크로 블로그(예를들면, Twitter, Jaiku) 등 시스템에 응용된다. 종래의 기술에서는 리소스에 대하여 단일한 태그 분류를 진행하는 방법을 제공하여 리소스의 1의 태그를 생성하였다.

그러나 객관사물 자체의 복잡성으로 인하여 1의 리소스는 동시에 다수의 부동한 태그를 가질수 있으므로 리소스에 대하여 어떻게 복수 태그 분류를 진행하여 리소스의 복수 태그를 생성하는가 하는 것은 이미 현재의 1의 핫 연구과제로 되었다.

본 발명의 복수개의 방면은 리소스의 복수 태그를 획득하는 태그처리방법 및 태그처리장치를 제공한다.

본 발명의 1 방면은

리소스의 어의특징 데이터를 획득하고;

상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하고;

상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하는 것을 포함하는 태그처리방법을 제공한다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 리소스의 어의특징 데이터를 획득하는 것은

사전에 구축한 콘볼루션 신경망을 이용하여 상기 리소스를 처리하여 상기 리소스의 어의특징 데이터를 획득하는 것을 포함한다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 방법은

태그가 제1훈련샘플집합에서 나타나는 상황에 따라 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득하고;

상기 각 제1훈련샘플의 샘플서열에 의거하여 상기 콘볼루션 신경망을 구축하는 것을 포함한다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는 것은

상기 리소스의 어의특징 데이터에 의거하여 사전에 구축한 회귀신경망을 이용하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는 것을 포함한다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 방법은 진일보

태그가 제2훈련샘플집합에서 나타나는 상황에 따라 상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제2훈련샘플의 샘플서열을 획득하고;

상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터를 획득하고；

상기 각 제2훈련샘플의 샘플서열과 상기 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터에 의거하여 상기 회귀신경망을 구축하는 것을 포함한다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 후기검증확률에 의거하여 1의 태그서열을 선택하는 것은

상기 후기검증확률에 의거하여 상기 리소스의 전부 태그서열에서 상기 1의 태그서열을 선택하거나 또는

상기 후기검증확률에 의거하여 상기 리소스의 일부분 태그서열에서 상기 1의 태그서열을 선택하는 것을 포함한다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 리소스는 이미지를 포함한다.

본 발명의 다른 1 방면은

리소스의 어의특징 데이터를 획득하는 획득유닛;

상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는 처리유닛; 및

상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하는 선택유닛을 포함하는 태그처리장치를 제공한다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 획득유닛은 구체적으로

사전에 구축한 콘볼루션 신경망을 이용하여 상기 리소스를 처리하여 상기 리소스의 어의특징 데이터를 획득하는데 사용된다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 획득유닛은 진일보

태그가 제1훈련샘플집합에서 나타나는 상황에 따라 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득하고; 및

상기 각 제1훈련샘플의 샘플서열에 의거하여 상기 콘볼루션 신경망을 구축하는데 사용된다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 처리유닛은 구체적으로

상기 리소스의 어의특징 데이터에 의거하여 사전에 구축한 회귀신경망을 이용하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는데 사용된다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 처리유닛은 진일보

상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터를 획득하고； 및

상기 각 제2훈련샘플의 샘플서열과 상기 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터에 의거하여 상기 회귀신경망을 구축하는데 사용된다.

상기 방면과 임의의 가능한 구현방식은 진일보 아래와 같은 구현방식을 제공한다. 상기 선택유닛은 구체적으로

상기 후기검증확률에 의거하여 상기 리소스의 일부분 태그서열에서 상기 1의 태그서열을 선택하는데 사용된다.

본 발명의 다른 1 방면은

1 또는 복수개의 프로세서;

메모리;

1 또는 복수개의 프로그램을 포함하는 설비로써, 상기 1 또는 복수개의 프로그램은 상기 메모리에 저장되어 상기 1 또는 복수개의 프로세서에 의하여 실행될 때,

리소스의 어의특징 데이터를 획득하고;

상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하는 설비를 제공한다.

본 발명의 다른 1 방면은 비휘발성 컴퓨터 저장매체로써 상기 비휘발성 컴퓨터 저장매체에는 1 또는 복수개의 프로그램을 저장하고, 상기 1 또는 복수개의 프로그램이 1의 설비에 의하여 실행될 때, 상기 설비로 하여금

리소스의 어의특징 데이터를 획득하고;

상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하게 하는 비휘발성 컴퓨터 저장매체를 제공한다.

상기 기술방안에 의하면 본 발명의 실시예는 리소스의 어의특징 데이터를 획득하고， 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득함으로써 상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 할 수 있게 하여 리소스의 복수개의 태그를 획득하는 목적을 구현한다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 태그서열 중의 각 태그 사이의 관련관계, 예를 들면 관련성, 공선성 등을 고려하기 때문에 소소의 1의 태그서열을 획득할 수 있으며, 각각 단일 태그 분류의 방법을 사용하여 리소스의 여러개의 상호 독립적인 태그를 획득하는 것이 아니므로 리소스 태그를 획득하는 신뢰성을 효과적으로 상승시킨다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 콘볼루션 신경망을 이용하여 보다 준확한 리소스의 어의특징 데이터를 획득할 수 있으므로 리소스의 어의특징 데이터를 획득하는 신뢰성을 효과적으로 상승시킨다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 회귀신경망을 이용하여 태그서열 중 각 태그 사이의 관련관계 예를 들면 관련성, 공선성 등을 표시하므로 리소스 태그를 획득하는 신뢰성을 효과적으로 상승시킨다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 회귀신경방을 구축하여 태그서열 중의 각 태그 사이의 관련관계, 예를 들면 관련성, 공선성 등을 신속히 학습할 수 있으므로 태그서열의 관련관계 학습의 효율을 효과적으로 상승시킨다.

본 발명 실시예의 기술안을 더 명확히 설명하기 위하여 아래에서는 실시예에서 사용하는 도면을 간단히 소개한다. 아래에 설명하는 도면은 단지 본 발명의 일 실시예일 뿐이며 본 기술분야의 기술자들에 있어서 창조적인 노동을 하지 않는 전제하에서 이러한 도면에 의거하여 다른 도면도 얻을 수 있음은 자명한 것이다.
도1은 본 발명의 1 실시예에서 제공하는 태그처리방법의 흐름약도이다.
도2은 본 발명의 다른 1 실시예에서 제공하는 태그처리장치의 구조약도이다.

본 발명의 기술안을 더 잘 이해하기 위하여 아래에서는 도면을 이용하여 본 발명의 실시예를 상세히 기술한다. 여기서 기술한 실시예는 단지 본 발명의 일부분 실시예일 뿐 전부의 실시예가 아님을 명확히 하여야 한다. 본 기술분야의 일반적인 기술자가 본 발명의 실시예에 의거하여 창조적 노동을 하지 않는 전제하에서 획득한 전부의 기타 실시예는 모두 본 발명이 보호하는 범위에 속한다.

여기에서 본 발명의 실시에서 단말기는 핸드폰, 개인정보단말기（Personal Digital Assistant，PDA）, 무선휴대용설비, 태블릿 컴퓨터（Tablet Computer）, 개인 컴퓨터（Personal Computer，PC）, MP3플레이어, MP4플레이어, 착용설비（예를 들면 스마트 안경, 스마트 손목시계, 스마트 팔찌 등） 등을 포함할 수 있으나 이에 제한되지 않는다.

본 문에서 용어 "와/또는"은 관련대상의 관련관계를 기술할 뿐이고 예를 들면 A와/또는B는 A가 단독으로 존재하는 경우, A와 B가 동시에 존재하는 경우, B가 단독으로 존재하는 이 3가지 경우를 표시함을 이해하여야 한다. 또한 본문에서 부호 "/"는 일반적으로 전후관련대상이 "또는"의 관계임을 표시한다.

도1은 본 발명의 1 실시예에서 제공하는 태그처리방법의 흐름약도로써 도1에 표시한바 와 같다.

101에서, 리소스의 어의특징 데이터를 획득한다.

102에서, 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득한다.

103에서, 상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 한다.

여기서 101~103의 실행주체의 일부분 또는 전부는 로컬 단말에 있는 앱일 수도 있고，또는 로컬 단말에 있는 앱 중의 플러그인 또는 소프트웨어 개발킷（Software Development Kit，SDK）등 기능유닛일 수도 있고，또는 네트워크 측의 분포식 시스템일 수도 있으며，본 실시예에서는 이에 대하여 특별히 한정하지 않는다.

상기 앱은 단말에 설치한 로컬 앱（nativeApp），또는 단말상의 브라우저의 1의 웹페이지 앱（webApp）일 수도 있으며 본 실시예에서는 이에 대하여 특별히 한정하지 않는다.

따라서 리소스의 어의특징 데이터를 획득하고， 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득함으로써 상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 할 수 있게 하여 리소스의 복수개의 태그를 획득하는 목적을 구현한다.

본 실시예에서 언급된 리소스는 네트워크 정보 리소스일 수도 있으며 컴퓨터망을 통하여 이용할 수 있는 각종 정보 리소스의 총합이다. 구체적으로 전부의 전자 데이터 형식으로 문자, 이미지, 음성, 동영상 등 각종 형식의 정보를 광, 자기 등 비종이 매체에 저장하고, 네트워크 통신, 컴퓨터 또는 단말 등 방식으로 재생할 수 있는 리소스를 가리킬 수 있다.

1의 바람직한 구현과정에서 상기 리소스는 이미지 일수 있다. 이미지란 일정한 화상형식으로 화면 데이터 즉 화면의 화소를 일정한 방식으로 저장하여 형성된 파일로써 이미지파일이라고도 칭한다.

이미지의 이미지 형식 즉 이미지 저장형식은 비트맵（Bitmap，BMP）형식, 포터블네트워크 그라픽형식（Portable Network Graphic Format，PNG）, 연합 이미지 전문가그룹(Joint Photographic Experts Group，JPEG）형식, 교환 이미지 파일 형식（Exchangeable Image File Format，EXIF）를 포함할 수 있으나 이에 한정되지 않으며，본 실시예에서는 이에 대하여 특별히 한정하지 않는다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 101에서 구체적으로 사전에 구축한 콘볼루션 신경망을 이용하여 상기 리소스를 처리하여 상기 리소스의 어의특징 데이터를 획득한다.

1의 구체적인 구현과정에서, 진일보 1의 곤볼루션 신경망을 사전에 구축할 수도 있다. 구체적으로 태그가 제1훈련샘플집합에서 나타나는 상황에 따라 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득할 수도 있다. 그리고 상기 각 제1훈련샘플의 샘플서열에 의거하여 상기 콘볼루션 신경망을 구축할 수 있다. 해당 콘볼루션 신경망은 리소스와 어의특징 데이터 사이의 매핑관계를 효과적으로 표시할 수 있다.

콘볼루션 신경망은 콘볼루션을 사용하는 전향신경망으로써 인체 뇌부의 이미지 이해 과정을 효과적으로 모의할 수 있으며 이미지를 처리하고 이해하는데 적합하다.

예를 들면, 구체적으로 태그가 제1훈련샘플집합에서 나타나는 회수에 의거하여 회수가 작아지는 순서에 따라, 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득할 수도 있다.

또는，구체적으로 태그가 제1훈련샘플집합에서 최근에 나타난 시간에 의거하여 현재시간에 가까운 것으로부터 멀어지는 순서에 따라 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득할 수도 있다.

여기서 각 제1훈련샘플집합에 포함되는 제1훈련샘플은 이미 표기한 기지 샘플 즉 태그를 표기한 리소스일 수 있으며, 따라서 직접 이러한 기지 샘플을 이용하여 훈련을 진행하여 목표 콘볼루션 신경망을 구축할 수도 있고, 또는 일부분은 표기한 기지 샘플이고 다른 일부분은 표기하지 않은 미지 샘플이면 먼저 기지 샘플을 이용하여 훈련하여 최초의 콘볼루션 신경망을 구축한 다음 최초의 콘볼루션 신경망을 이용하여 미지 샘플에 대하여 예측하여 태그 분류 결과를 획득하며, 진일보 미지 샘플의 태그 분류 결과에 의거하여 미지 샘플을 표기하여 기지 샘플을 형성하여 새로 증가한 기지 샘플로 할 수 있고, 새로 증가된 기지 샘플 및 최초의 기지 샘플을 이용하여 다시 훈련하여 새로운 콘볼루션 신경망을 구축할 수 있으며 새로운 ?A볼루션 신경망의 구축은 구축된 콘볼루션 신경망 또는 기지 샘플이 목표 콘볼루션 신경망의 컷오프 조건, 예를 들면 분류 준확도가 사전에 설치한 준확률 역치 이상이거나 또는 기지 샘플 수량이 사전에 설치한 수량 역치 이상 등을 만족시킬 때까지 진행되나 본 실시예에서는 이에 대하여 특별히 한정하지 않는다.

상기 콘볼루션 신경망을 이용하는 외에 각종 수동으로 설계한 이미지 특징을 이용하여 상기 리소스의 어의특징 데이터 예를 들면, 스케일 불변 특징전환（Scale-Invariant Feature Transform，SIFT）, 경사도방향 히스토그램（Histogram of Oriented Gradients，HOG） 을 획득할 수 있다. 콘볼루션 신경망과 비교하면 이러한 방법은 아래와 같은 결점이 있다.

과정이 완전히 수동 설계로써 실지 응용에서 관련되는 파라미터를 자세히 조정하여야 한다.

이미지 처리를 진행하는 과정에서 대량의 이미지 정보를 잃는다.

따라서 콘볼루션 신경망을 이용하여 보다 더 정확한 리소스의 어의특징 데이터를 획득할 수 있으므로 리소스의 어의특징 데이터를 획득하는 신뢰성을 효과적으로 상승시킨다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 102에서 구체적으로 상기 리소스의 어의특징 데이터에 의거하여 사전에 구축한 회귀신경망을 이용하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득한다.

태그서열의 후기검증확률이란 결과 정보(즉 이미지와 이미지의 태그서열)를 얻은 후 다시 수정한 확률일 수도 있다.

1의 구체적인 구현과정에서 진일보 회귀 신경망을 사전에 구축할 수도 있다. 구체적으로 태그가 제2훈련샘플집합에서 나타나는 상황에 따라 상기 제2훈련샘플집합 중 각 제2훈련샘플에 포함하는 적어도 1의 태그를 순서배열처리하여 상기 각 제2훈련샘플의 샘플서열 및 상기 제2훈련샘플집합 중 각 제2훈련샘플에 포함하는 1의 리소스의 어의특징 데이터를 얻는다. 그러면 상기 각 제2훈련샘플의 샘플서열과 상기 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터에 의거하여 상기 회귀신경망을 구축할 수 있다. 해당 회귀신경망은 어의특징 데이터과 태그서열 사이의 상호관계 사이의 매핑관계를 효과적으로 표시할 수 있다.

회귀신경망이란 폐회로를 구비한 신경망으로써 그 내부의 상태를 업데이트하여 시간서열의 동적 특성을 표시할 수 있으며 임의의 길이의 서열을 처리할 수 있음으로써 서열 데이터（예를 들면 본 발명중의 태그서열） 중의 각 요소 예를 들면 자연음성, 음성, 수서식별 등 사이의 관계에 대하여 모델링하는데 매우 적합하다.

여기서 회귀신경망을 구축하는데 사용한 제2훈련샘플집합과 그 전에 콘볼루션 신경망을 구축하는데 사용한 제1훈련샘플집합은 동일한 훈련샘플집합일 수도 있고 또는 각각 부동한 훈련집합일 수도 있으며，본 실시예에서는 이에 대하여 특별히 한정하지 않는다.

여기서 각 제2훈련샘플집합에 포함되는 제2훈련샘플은 표기한 기지 샘플 즉 태그를 표기한 리소스일 수도 있으며, 따라서 직접 이러한 기지 샘플을 이용하여 훈련하여 목표 콘볼루션 신경망을 구축할 수 있거나 또는 일부분은 표기한 기지 샘플이고 다른 일부분은 표기하지 않은 미지 샘플이면 먼저 기지 샘플을 이용하여 훈련하여 최초의 콘볼루션 신경망을 구축한 다음 최초의 콘볼루션 신경망을 이용하여 미지 샘플에 대하여 예측하여 태그 분류 결과를 획득하며, 진일보 미지 샘플의 태그 분류 결과에 의거하여 미지 샘플을 표기하여 기지 샘플을 형성하여 새로 증가한 기지 샘플로 할 수 있고, 새로 증가 된 기지 샘플 및 최초의 기지 샘플을 이용하여 다시 훈련하여 새로운 콘볼루션 신경망을 구축할 수 있으며 새로운 ?A볼루션 신경망의 구축은 구축된 콘볼루션 신경망 또는 기지 샘플이 목표 콘볼루션 신경망의 컷오프 조건, 예를 들면 분류 준확도가 사전에 설치한 준확률 역치 이상이거나 또는 기지 샘플 수량이 사전에 설치한 수량 역치이상 등을 만족시킬 때까지 진행되나 본 실시예에서는 이에 대하여 특별히 한정하지 않는다.

상기 콘볼루션 신경망을 이용하는 외에 기타 방법을 이용하여 태그서열 중의 각 태그 사이의 관련관계 예를 들면 관련성, 공선성 등을 학습할 수 있으며，예를 들면 조건 임의의 필드모델(Conditional Random Field Model) , 마르코브 필도 모델 등 모델에 의한 방법, 이러한 방법은 각 2의 태그 사이의 관련관계만 표시할 수 있으며 학습과정의 계산 속도는 비교적 느리다. 다른 예를 들면, 복수 개의 태그를 1의 태그로 조합하는 방법 등 방법은 학습과정이 비교적 복잡하고 계산량이 비교적 크고 계산 속도가 비교적 느리다.

그러므로 회귀신경망을 이용하여 태그서열 중 각 태그 사이의 관련관계 예를 들면 관련성, 공선성 등을 표시할 수 있으므로 리소스 태그를 획득하는 신뢰성을 효과적으로 상승시킨다.

회귀신경망을 구축함으로써 그 학습과정의 계산량이 비교적 적고 태그서열 중의 각 태그 사이의 관련관계 예를 들면, 관련성, 공선성 등을 신속히 학습하게 하므로써 태그서열의 관련관계 학습 효률을 효과적으로 상승시킨다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 103에서，구체적으로 상기 후기검증확률에 의거하여 상기 리소스의 전부의 태그서열에서 후기검증확률이 최대인1의 태그서열을 선택하여 상기 1의 태그서열로 한다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 103에서 구체적으로 상기 후기검증확률에 의거하여 상기 리소스의 일부분 태그서열에서 후기검증확률이 최대인 1의 태그서열을 선택하여 상기 1의 태그서열로 한다.

1의 구체적인 구현과정에서 진일보 사전에 1의 확률 역치를 설치하고 획득한 상기 리소스의 전부 태그서열에서 확률 역치를 이용하여 후기검증확률이 해당 확률역치보다 작은 태그서열을 직접 여과하여 나머지 태그서열에서 후기검증확률이 최대인 1의 태그서열을 선택하여 상기 1의 태그서열로 할 수 있다.

본 실시예에서 리소스의 어의특징 데이터를 획득하고， 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득함으로써 상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 할 수 있게 하여 리소스의 복수 개의 태그를 획득하는 목적을 구현한다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 태그서열 중의 각 태그 사이의 관련관계, 예를 들면 관련성, 공선성 등을 고려하기 때문에 리소스의 1의 태그서열을 획득할 수 있으며, 각각 단일 태그 분류의 방법을 사용하여 리소스의 여러 개의 상호 독립적인 태그를 획득하는 것이 아니므로 리소스 태그를 획득하는 신뢰성을 효과적으로 상승시킨다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 회귀신경망을 이용하여 태그서열 중 각 태그 사이의 관련관계 예를 들면 관련성, 공선성 등을 표시할 수 있으므로 리소스 태그를 획득하는 신뢰성을 효과적으로 상승시킨다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 회귀신경망을 구축하여 태그서열 중의 각 태그 사이의 관련관계, 예를 들면 관련성, 공선성 등을 신속히 학습할 수 있으므로 태그서열의 관련관계 학습의 효률을 효과적으로 상승시킨다.

상기 각 방법의 실시예에서는 간단히 기술하기 위하여 전부 일련의 동작의 조합으로 묘사하였지만 본 기술분야의 기술자라면 본 발명은 이미 묘사한 동작순서의 제한을 받지 않으며, 본 발명에 의하여 일부 절차는 기타 순서에 따라 또는 동시에 진행할 수 있음을 이해하여야 한다. 그리고 본 기술분야의 기술자들은 명세서에서 기술한 실시예는 전부 바람직한 실시예이고, 관련된 동작과 모듈은 본 발명에 필수적인 것이 아닐 수도 있음을 이해하여야 한다.

상기 실시예에서 각 실시예의 기술 각각 요점이 있으며 어느 실시예에서 상세히 기술하지 않은 부분은 기타 실시예의 관련 기술을 참조할 수 있다.

도 2는 본 발명의 다른 1 실시예에서 제공하는 태그처리장치의 구조약도로서 도2에 표시한바와 같다. 본 실시예의 태그처리장치는 획득유닛(21), 처리유닛(22)과 선택유닛(23)을 포함한다. 획득유닛(21)은 리소스의 어의특징 데이터를 획득하고; 처리유닛(22)은 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하고; 선택유닛(23)은 상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하는데 사용된다.

본 실시예에서 제공하는 태그처리장치의 일부분 또는 전부는 로컬 단말에 있는 앱일 수도 있고， 또는 로컬 단말에 있는 앱 중의 플러그인 또는 소프트웨어 개발킷（Software Development Kit，SDK）등 기능유닛일 수도 있고，또는 네트워크 측 서버상의 처리엔진일 수도 있고， 또는 네트워크 측의 분포식 시스템일 수도 있으며, 본 실시예에서는 이에 대하여 특별히 한정하지 않는다.

본 실시예에 관련된 리소스는 네트워크 정보 리소스일 수도 있으며 컴퓨터망을 통하여 이용할 수 있는 각종 정보리소스의 총합이다. 구체적으로 전부의 전자 데이터 형식으로 문자, 이미지, 음성, 동영상 등 각종 형식의 정보를 광, 자기 등 비종이 매체에 저장하고, 네트워크 통신, 컴퓨터 또는 단말 등 방식으로 재생할 수 있는 리소스를 말할 수 있다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 상기 획득유닛(21)은 구체적으로 사전에 구축한 콘볼루션 신경망을 이용하여 상기 리소스를 처리하여 상기 리소스의 어의특징 데이터를 획득한다.

1의 구체적인 구현과정에서, 상기 획득유닛(21)은 진일보 태그가 제1훈련샘플집합에서 나타나는 상황에 따라 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득하고; 및 상기 각 제1훈련샘플의 샘플서열에 의거하여 상기 콘볼루션 신경망을 구축하는데 사용된다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 상기 처리유닛(22)은 구체적으로 상기 리소스의 어의특징 데이터에 의거하여 사전에 구축한 회귀신경망을 이용하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는데 사용된다.

1의 구체적인 구현과정에서, 상기 처리유닛(22)은 진일보 태그가 제2훈련샘플집합에서 나타나는 상황에 따라 상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제2훈련샘플의 샘플서열을 획득하고; 상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터를 획득하고； 상기 각 제2훈련샘플의 샘플서열과 상기 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터에 의거하여 상기 회귀신경망을 구축하는데 사용된다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 상기 선택유닛(23)은 구체적으로 상기 후기검증확률에 의거하여 상기 리소스의 전부의 태그서열에서 상기 1의 태그서열을 선택하는데 사용된다.

선택적으로 본 실시예의 1의 가능한 구현방식에서, 상기 선택유닛(23)은 구체적으로 상기 후기검증확률에 의거하여 상기 리소스의 일부분 태그서열에서 상기 1의 태그서열을 선택하는데 사용된다.

도 1에 대응되는 실시예 중의 방법은 실시예에서 제공하는 태그처리장치로 구현할 수 있다. 상사한 기술은 도 1에 대응되는 실시예 중의 관련 리소스를 참조할 수 있고 여기에서는 중복적으로 기술하지 않는다.

본 실시예에서는 획득유닛이 리소스의 어의특징 데이터를 획득하고 진일보 처리유닛이 상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득함으로써 선택유닛이 상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하게끔 함으로써 리소스의 복수 개의 태그를 획득하는 목적을 구현한다.

그리고 본 발명에서 제공하는 기술방안을 이용하면 회귀신경방을 구축하여 태그서열 중의 각 태그 사이의 관련관계, 예를 들면 관련성, 공선성 등을 신속히 학습할 수 있으므로 태그서열의 관련관계 학습의 효률을 효과적으로 상승시킨다.

본 기술분야의 기술자라면 설명의 편의와 간편화를 위하여 상술한 시스템, 장치 및 유닛의 구체적은 동작과정은 상술한 방법 실시예의 대응되는 과정을 참고할 수 있음을 요해할 수 있으므로 여기에서 중복하여 설명하지 않는다.

본 발명에서 제공한 여러개의 실시예에서 공개한 시스템, 장치와 방법은 기타 방식을 통하여 구현할 수 있음은 자명한 것이다. 예를 들면, 상술한 장치의 실시예는 단지 예시적인 것이며, 예를 들면 상기 유닛의 구분은 단지 일종 논리적 기능에 대한 구분이며 실제 구현할 때 다른 구분방식을 이용할 수 있다. 예를 들면 몇 개의 유닛 또는 모듈을 결합하거나 다른 하나의 시스템에 집중시키거나 일부 특징은 무시하거나 실행하지 않을 수 있다. 이 외에 표시하거나 토론하는 상호 사이의 연계 또는 직접적인 연계 또는 통신상 연결은 일부 인터페이스, 장치 또는 유닛의 간접적인 연결 또는 통신적인 연결 등 전기적, 기계적 또는 기타 방식의 연결을 통하여 구현할 수 있다.

상기 분리부품으로 설명한 유닛은 물리적으로 분리된 것일 수 있고 분리되지 않은 것일 수도 있으며, 유닛으로 표시한 부품은 물리적 유닛일 수도 있고, 물리적인 유닛이 아닐 수도 있으며, 즉 한 곳에 위치할 수도 있고 여러 개의 네트워크 유닛에 분포되어 있을 수도 있다. 실제적인 수요에 의거하여 그 중의 일부분 또는 전부의 유닛을 선택하여 본 실시예의 기술방안의 목적을 구현할 수 있다.

그리고 본 발명의 각 실시예 중의 각 기능유닛은 1의 처리유닛에 집적되어 있을 수도 있고 각 유닛이 물리적으로 단독으로 존재할 수도 있으며 2이상의 유닛이 1의 유닛에 집적되어 있을 수도 있다. 상기 집적된 유닛은 하드웨어의 형식으로 구현될 수도 있고, 하드웨어에 소프트웨어를 결합한 기능유닛의 형식으로 구현될 수도 있다.

상기 소프트웨어 기능유닛의 형식으로 구현한 집적된 유닛은 1의 컴퓨터가 구독할 수 있는 기억매체에 저장할 수 있다. 상기 소프트웨어 기능유닛은 1의 기억매체에 저장할 수 있으며 일련의 명령을 포함하여 1의 컴퓨터설비（PC, 서버, 또는 네트워트 설비 등） 또는 프로세서（processor）로 하여금 본 발명의 각 실시예의 상술한 방법의 일부분 절차를 실행하도록 한다. 상기 기억매체는 U디스크, 포터블 하드웨어, ROM（Read-Only Memory, ROM）, RAM（Random Access Memory, RAM）, 디스켓 또는 광디스켓 등 각종 프로그램 코드를 저장할 수 있는 매체를 포함할 수 있다.

이상의 실시예는 단지 본 발명의 기술방안을 설명하기 위한 것이며 본 발명에 대하여 한정하는 것이 아니다. 상기 실시예를 참조하여 본 발명을 상세히 설명하였지만 본 기술분야의 기술자라면 상기 각 실시예에 기재한 기술방안을 수정할 수 있거나 또는 그 중 일부분 기술특징을 등가 교체할 수 있으며, 이러한 수정 또는 교체는 관련 기술방안의 본질이 본 발명의 각 실시예의 기술방안의 요지와 범위를 벗어나게 하는 것이 아님을 요해할 수 있다.

Claims

리소스의 어의특징 데이터를 획득하고;
상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하고;
상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하는 것을 포함하는 것을 특징으로 하는 태그처리방법.
청구항 1에 있어서,
상기 리소스의 어의특징 데이터를 획득하는 것은,
사전에 구축한 콘볼루션 신경망을 이용하여 상기 리소스를 처리하여 상기 리소스의 어의특징 데이터를 획득하는 것을 포함하는 것을 특징으로 하는 태그처리방법.
청구항 2에 있어서,
태그가 제1훈련샘플집합에서 나타나는 상황에 따라 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득하고;
상기 각 제1훈련샘플의 샘플서열에 의거하여 상기 콘볼루션 신경망을 구축하는 것을 포함하는 것을 특징으로 하는 태그처리방법.
청구항 1에 있어서,
상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는 것은,
상기 리소스의 어의특징 데이터에 의거하여 사전에 구축한 회귀신경망을 이용하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는 것을 포함하는 것을 특징으로 하는 태그처리방법.
청구항 4에 있어서,
진일보 태그가 제2훈련샘플집합에서 나타나는 상황에 따라 상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제2훈련샘플의 샘플서열을 획득하고;
상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터를 획득하고；
상기 각 제2훈련샘플의 샘플서열과 상기 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터에 의거하여 상기 회귀신경망을 구축하는 것을 포함하는 것을 특징으로 하는 태그처리방법.
청구항 1에 있어서,
상기 후기검증확률에 의거하여 1의 태그서열을 선택하는 것은
상기 후기검증확률에 의거하여 상기 리소스의 전부 태그서열에서 상기 1의 태그서열을 선택하거나,
또는 상기 후기검증확률에 의거하여 상기 리소스의 일부분 태그서열에서 상기 1의 태그서열을 선택하는 것을 포함하는 것을 특징으로 하는 태그처리방법.
청구항 1 내지 청구항 6 중 어느 한 항에 있어서,
상기 리소스는 이미지를 포함하는 것을 특징으로 하는 태그처리방법.
리소스의 어의특징 데이터를 획득하는 획득유닛;
상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는 처리유닛; 및
상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하는 선택유닛을 포함하는 것을 특징으로 하는 태그처리장치.
청구항 8에 있어서,
상기 획득유닛은 구체적으로,
사전에 구축한 콘볼루션 신경망을 이용하여 상기 리소스를 처리하여 상기 리소스의 어의특징 데이터를 획득하는데 사용되는 것을 특징으로 하는 태그처리장치.
청구항 9에 있어서,
상기 획득유닛은 진일보 태그가 제1훈련샘플집합에서 나타나는 상황에 따라 상기 제1훈련샘플집합 중의 각 제1훈련샘플에 포함하는 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제1훈련샘플의 샘플서열을 획득하고;
상기 각 제1훈련샘플의 샘플서열에 의거하여 상기 콘볼루션 신경망을 구축하는 것을 포함하는 것을 특징으로 하는 태그처리장치.
청구항 8에 있어서,
상기 처리유닛은 구체적으로
상기 리소스의 어의특징 데이터에 의거하여 사전에 구축한 회귀신경망을 이용하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하는데 사용되는 것을 특징으로 하는 태그처리장치.
청구항 11에 있어서,
상기 처리유닛은 진일보 태그가 제2훈련샘플집합에서 나타나는 상황에 따라 상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 적어도 1의 태그에 대하여 순서배열처리를 진행하여 상기 각 제2훈련샘플의 샘플서열을 획득하고;
상기 제2훈련샘플집합에서 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터를 획득하고； 및
상기 각 제2훈련샘플의 샘플서열과 상기 각 제2훈련샘플에 포함된 1의 리소스의 어의특징 데이터에 의거하여 상기 회귀신경망을 구축하는데 사용되는 것을 특징으로 하는 태그처리장치.
청구항 8에 있어서,
상기 선택유닛은 구체적으로,
상기 후기검증확률에 의거하여 상기 리소스의 전부 태그서열에서 상기 1의 태그서열을 선택하거나,
또는 상기 후기검증확률에 의거하여 상기 리소스의 일부분 태그서열에서 상기 1의 태그서열을 선택하는데 사용되는 것을 특징으로 하는 태그처리장치.
청구항 8 내지 청구항 13 중 어느 한 항에 있어서,
상기 리소스는 이미지를 포함하는 것을 특징으로 하는 태그처리장치.
1 또는 복수개의 프로세서;
메모리;
1 또는 복수개의 프로그램을 포함하는 설비로서, 상기 1 또는 복수개의 프로그램은 상기 메모리에 저장되어 상기 1 또는 복수개의 프로세서에 의하여 실행될 때,
리소스의 어의특징 데이터를 획득하고;
상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하고;
상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하는 것을 특징으로 하는 설비.
비휘발성 컴퓨터 저장매체로써 상기 비휘발성 컴퓨터 저장매체에는 1 또는 복수개의 프로그램을 저장하고, 상기 1 또는 복수개의 프로그램이 1의 설비에 의하여 실행될 때, 상기 설비로 하여금 리소스의 어의특징 데이터를 획득하고;
상기 리소스의 어의특징 데이터에 의거하여 상기 리소스의 적어도 1의 태그서열의 후기검증확률을 획득하고;
상기 후기검증확률에 의거하여 1의 태그서열을 선택하여 상기 리소스의 태그집합으로 하게 하는 것을 특징으로 하는 비휘발성 컴퓨터 저장매체.