KR20210124033A

KR20210124033A - 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체

Info

Publication number: KR20210124033A
Application number: KR1020210032189A
Authority: KR
Inventors: 즈호우 쳉
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2020-04-03
Filing date: 2021-03-11
Publication date: 2021-10-14
Also published as: CN111460206A; JP2021163477A; KR102609616B1; CN111460206B; US20210311985A1; EP3889802A1; JP7121819B2

Abstract

본 발명의 실시예는 인공 지능 분야에 관한 것으로, 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체에 관한 것이다. 상기 방법은 기준 이미지 정보 베이스에서 타깃 이미지와 매칭되는 기준 이미지의 설명 정보를 획득하는 단계를 포함할 수 있다. 상기 방법은 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 확정하는 단계를 더 포함하되, 상기 적어도 하나의 엔티티는 상기 기준 이미지와 연관된 객체를 표시한다. 이 밖에, 상기 방법은 적어도 하나의 엔티티에 기반하여, 타깃 이미지의 설명 정보를 생성하는 단계를 더 포함할 수 있다. 본 발명의 기술적 해결 수단은 지속적으로 업데이트되는 이미지와 정보 소스에 따라 정확한 설명 정보를 제공함으로써, 인건비를 효과적으로 절감하고 사용자 체험을 크게 향상시킬 수 있다.

Description

이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체{METHOD AND APPARATUS FOR IMAGE PROCESSING, ELECTRONIC DEVICE AND COMPUTER READABLE STORAGE MEDIUM}

본 발명의 실시예는 주로 인공 지능 분야에 관한 것이고, 구체적으로 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체에 관한 것이다.

네트워크 브라우징을 통해 본 이미지나 생활에서 보이는 사물에 대해, 사용자는 자신이 본 이미지 정보 또는 사물의 설명 정보(예를 들면, 명칭)를 더 잘 이해하기 위해 이미지를 이용하여 검색하고자 하는 수요가 있을 수 있다. 구체적으로, 사용자가 모르는 국가의 국기, 명칭을 모르는 건축물, 그림, 유명인 등을 발견할 경우, 이미 알고 있는 이미지에 기반하여 상기 이미지의 설명 정보를 확정해야 하고, 상기 설명 정보를 답안으로 사용자에게 피드백한다. 이미지의 설명 정보를 확정하는 종래의 방식은 일반적으로 이미지 및/또는 정보 소스의 급속한 발전 변화(예를 들면, 인터넷 지식 업데이트의 실시간 변화)에 대응하지 못하며, 고정 또는 특정된 지식 집합에 국한되어 있으므로 이미지의 설명 정보가 구체적이지 않다.

본 발명의 예시적 실시예에 따르면, 이미지를 처리하는 해결 수단을 제공한다.

본 발명의 제1 양태에 있어서, 이미지 처리 방법을 제공한다. 상기 방법은 기준 이미지 정보 베이스에서 타깃 이미지와 매칭되는 기준 이미지의 설명 정보를 획득하는 단계를 포함할 수 있다. 상기 방법은 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 확정하는 단계를 더 포함하되, 상기 적어도 하나의 엔티티는 상기 기준 이미지와 연관된 객체를 표시한다. 또한, 상기 방법은 적어도 하나의 엔티티에 기반하여, 타깃 이미지의 설명 정보를 생성하는 단계를 더 포함할 수 있다.

본 발명의 제2 양태에 있어서, 이미지 처리 장치를 제공하고, 이는 기준 이미지 정보 베이스에서 타깃 이미지와 매칭되는 기준 이미지의 설명 정보를 획득하도록 구성되는 기준 이미지 설명 정보 획득 모듈; 상기 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 확정하도록 구성되는 엔티티 확정 모듈-상기 적어도 하나의 엔티티는 상기 기준 이미지와 연관된 객체를 표시함- ; 및 상기 적어도 하나의 엔티티에 기반하여 상기 타깃 이미지의 설명 정보를 생성하도록 구성되는 타깃 이미지 설명 정보 생성 모듈을 포함한다.

본 발명의 제3 양태에 있어서, 전자 기기를 제공하고, 이는 하나 또는 다수의 프로세서; 및 하나 또는 다수의 프로그램을 저장하는 저장 장치를 포함하되, 하나 또는 다수의 프로그램이 하나 또는 다수의 프로세서에 의해 실행될 경우, 하나 또는 다수의 프로세서가 본 발명의 제1 양태에 따른 방법을 수행하도록 한다.

본 발명의 제4 양태에 있어서, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 프로그램이 프로세서에 의해 실행될 경우 본 발명의 제1 양태에 따른 방법을 수행한다.

발명의 내용 부분에서 설명된 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 한정하기 위한 것이 아니며, 본 발명의 범위를 한정하려는 것이 아님을 이해해야 한다. 본 발명의 다른 특징은 아래 설명을 통해 이해하기 쉬울 것이다.

본 발명의 실시예들에 따르면, 이미지 처리를 개선하는 해결 수단을 제공한다. 상기 해결 수단에서, 사용자가 입력한 타깃 이미지와 매칭되는 기준 이미지가 존재하는 웹 페이지의 문서 정보를 이용하여, 관련된 엔티티를 추출하여 타깃 이미지를 설명한다. 구체적으로, 먼저 이미지 소스 및/또는 정보 소스에 기반하여 구축된 기준 이미지 정보 베이스를 획득할 수 있고, 기준 이미지 정보 베이스에는 적어도 기준 이미지 및 설명 정보가 포함된다. 타깃 이미지와 기준 이미지 정보 베이스 중의 기준 이미지를 비교하여, 타깃 이미지와 매칭되는 기준 이미지를 찾을 수 있고, 나아가 상기 기준 이미지의 설명 정보를 더 잘 확정할 수 있다. 계속하여, 확정된 설명 정보에서 적어도 하나의 엔티티를 획득하고, 상기 적어도 하나의 엔티티에 기반하여 타깃 이미지의 설명 정보를 확정할 수 있다. 이러한 방식으로, 지속적으로 업데이트되는 이미지와 정보 소스에 따라 정확한 설명 정보를 제공함으로써 인건비를 효과적으로 절감하고 사용자 체험을 크게 향상시킬 수 있다.

첨부 도면과 아래 상세한 설명을 참조하면, 본 발명의 각 실시예의 다른 특징, 장점 및 양태는 보다 명백해질 것이다. 도면에서 동일하거나 유사한 도면 표기는 동일하거나 유사한 요소를 나타낸다.
도 1은 본 발명의 다수의 실시예가 구현될 수 있는 예시적 환경의 모식도이다.
도 2는 본 발명의 실시예에 따른 이미지 처리 과정의 흐름도이다.
도 3은 본 발명의 실시예에 따른 타깃 이미지의 설명 정보를 생성하는 과정의 흐름도이다.
도 4는 본 발명의 실시예에 따른 타깃 이미지의 설명 정보를 생성하는 다른 과정의 흐름도이다.
도 5는 본 발명의 실시예에 따른 타깃 이미지를 처리하는 장치의 블록도이다.
도 6은 본 발명의 다수의 실시예를 구현할 수 있는 컴퓨팅 기기의 블록도이다.

아래에 첨부된 도면을 참조하여 본 발명의 실시예들을 보다 상세하게 설명한다. 본 발명의 일부 실시예가 도면에 도시되어 있지만 본 발명은 다양한 형태로 구현될 수 있고, 여기서 설명된 실시예에 한정되는 것으로 해석되어서는 아니 되고, 반대로 이러한 실시예를 제공하는 것은 본 발명을 보다 분명하고 완전하게 이해하기 위한 것임을 이해해야 할 것이다. 본 발명의 도면 및 실시예는 단지 예시로서 작용되며, 본 발명의 보호 범위를 한정하려는 것이 아님을 이해해야 할 것이다.

본 발명의 실시예의 설명에서, 용어 "포함하다" 및 이와 유사한 용어는 "포함하지만 한정되지 않는다"와 같은 개방적 포함으로 이해되어야 한다. 용어 "기반하여"는 "적어도 일부가 기반하여"로 이해되어야 한다. 용어 "일 실시예" 또는 "상기 실시예"는 "적어도 일 실시예"로 이해되어야 한다. 용어 "제1", "제2" 등은 상이하거나 동일한 객체를 대신 지칭할 수 있다. 아래 설명은 다른 명시적 및 암시적 정의를 더 포함할 수 있다.

이미지를 기반으로 상기 이미지의 설명 정보를 확정하는 과정에서, 일반적으로 분류 모델을 트레이닝하는 방식을 통해 트레이닝된 분류 모델을 이용하여 사용자가 검색하려는 이미지의 설명 정보를 확정할 수 있다. 그러나, 인터넷의 지식 업데이트는 실시간으로 변화하고 발전하므로, 새로운 지식에 기반하여 지속적으로 분류 모델을 트레이닝해야 하며, 이는 일반적으로 비교적 많은 인건비가 요구된다.

이 밖에, 간단한 검색의 방식을 통해 어휘집 및 이에 대응되는 이미지를 수집할 수 있고, 그중 하나의 이미지가 사용자가 검색하고자 하는 이미지와 매칭되는 경우, 상기 이미지에 대응되는 어휘집이 답안으로 선택되어 사용자에게 피드백된다. 그러나, 이러한 방식은 비교적 많은 인건비를 지불하지 않는 이상 여전히 실시간으로 업데이트되는 인터넷 지식에 대응하지 못하고 있다. 이 외에, 어휘집은 일반적으로 포괄적인 엔티티 명사만 포함하기 때문에 확정된 설명 정보는 구체적이지 않을 수 있다.

본 발명의 실시예에 따르면, 이미지 처리를 개선하는 해결 수단을 제공한다. 상기 해결 수단에서, 사용자가 입력한 타깃 이미지와 매칭되는 기준 이미지가 존재하는 웹 페이지의 문서 정보를 이용하여, 관련된 엔티티를 추출하여 타깃 이미지를 설명한다. 구체적으로, 먼저 이미지 소스 및/또는 정보 소스에 기반하여 구축된 기준 이미지 정보 베이스를 획득할 수 있고, 기준 이미지 정보 베이스에는 적어도 기준 이미지 및 설명 정보가 포함된다. 타깃 이미지와 기준 이미지 정보 베이스 중의 기준 이미지를 비교하여, 타깃 이미지와 매칭되는 기준 이미지를 찾을 수 있고, 나아가 상기 기준 이미지의 설명 정보를 더 잘 확정할 수 있다. 계속하여, 확정된 설명 정보에서 적어도 하나의 엔티티를 획득하고, 상기 적어도 하나의 엔티티에 기반하여 타깃 이미지의 설명 정보를 확정할 수 있다. 이러한 방식으로, 지속적으로 업데이트되는 이미지와 정보 소스에 따라 정확한 설명 정보를 제공함으로써 인건비를 효과적으로 절감하고 사용자 체험을 크게 향상시킬 수 있다.

도 1은 본 발명의 다수의 실시예가 구현될 수 있는 예시적 환경(100)의 모식도이다. 상기 예시적 환경(100)에서, 타깃 이미지(110)는 사용자가 입력하여 검색하려는 이미지일 수 있는 바, 예를 들어 사용자가 인터넷의 이미지를 복사 또는 캡처하여 획득한 이미지일 수 있고, 또는 사용자가 어느 객체를 촬영한 사진일 수 있다. 다른 예시를 들면, 타깃 이미지(110)는 어느 한 이미지 처리 시스템이 자동으로 획득한 네트워크 이미지 또는 외장 저장 장치 중의 이미지일 수도 있으며, 이후의 설명 정보의 생성에 사용된다. 상기 예시는 본 발명을 설명하는 것일 뿐 본 발명을 구체적으로 한정하지 않는다.

도 1에 도시된 바와 같이, 타깃 이미지(110)의 설명 정보를 확정하기 위해 타깃 이미지(110)는 컴퓨팅 기기(120)에 입력된다. 일부 실시예에 있어서, 컴퓨팅 기기(120)는 개인용 컴퓨터, 서버 컴퓨터, 휴대용 또는 랩톱 기기, 모바일 기기(예를 들면 휴대전화, 개인 휴대 정보 단말기(PDA), 미디어 플레이어 등), 다중 프로세서 시스템, 소비 전자제품, 소형 컴퓨터, 대형 컴퓨터, 상기 시스템 또는 기기 중 임의의 하나를 포함하는 분산형 컴퓨팅 환경 등을 포함할 수 있지만 이에 한정되지 않는다.

일부 실시예에 있어서, 컴퓨팅 기기(120)는 클라우드에 위치될 수 있고, 이와 통신 연결되는 기준 이미지 정보 베이스(130)에서 타깃 이미지(110)와 매칭되는 기준 이미지의 설명 정보를 획득하고, 상기 기준 이미지의 설명 정보에 기반하여 타깃 이미지(110)의 설명 정보(140)를 확정한다. 기준 이미지 정보 베이스(130)에는 다수의 기준 이미지 및 대응되는 설명 정보가 포함된다. 도 1에 도시된 바와 같이, 예시로서 기준 이미지 정보 베이스(130)에는 다수의 정보 그룹(132, 134 및 136)이 포함되고, 각각의 정보 그룹에는 하나의 기준 이미지 및 대응되는 설명 정보가 모두 저장되어 있다. 기준 이미지의 설명 정보는 기준 이미지의 문서 정보와 구조화 정보 중 적어도 하나를 포함할 수 있다.

예시로서, 도 1에 도시된 바와 같이 컴퓨팅 기기(120)가 다수의 정보 그룹(132, 134 및 136)에서 타깃 이미지(110)와 매칭되는 기준 이미지(151)를 찾았을 경우, 상응한 정보 그룹에서 기준 이미지(151)의 설명 정보를 획득할 수 있고, 상기 설명 정보에서 다수의 엔티티를 추출하는 바, 예를 들어 엔티티 1, 엔티티 2, 엔티티 3 등이다. 이 밖에, 컴퓨팅 기기(120)는 이러한 엔티티에서 각각의 다수의 특징 파라미터를 통계해내는 바, 예를 들어 특징 파라미터 A, 특징 파라미터 B, 특징 파라미터 C 등이다.

컴퓨팅 기기(120)의 처리를 통해, 상기 엔티티 및 특징 파라미터에 기반하여 타깃 이미지(110)의 설명 정보(140)를 확정할 수 있고, 이를 처리 결과로 사용자에게 피드백한다. 예시로서, 설명 정보(140)는 타깃 이미지(110)에 포함된 객체의 구체적 명칭을 설명함으로써, 사용자가 상기 타깃 이미지(110)에 관련된 지식 정보를 알고 싶어하는 요구를 만족시킨다.

도 1에 도시된 환경은 예시적인 것일 뿐 본 발명을 구체적으로 한정하지 않음을 이해해야 한다.

도 2는 본 발명의 실시예에 따른 이미지 처리 과정(200)의 흐름도이다. 어느 실시예에 있어서, 방법(200)은 도 6에 도시된 기기에서 구현될 수 있다. 우선 도 1이 설명하는 본 발명의 실시예에 따른 타깃 이미지(110)를 처리하는 과정(200)을 참조한다. 이해의 편의를 위해, 아래 설명에서 언급되는 구체적 데이터는 모두 예시적인 것이고 본 발명의 보호 범위를 한정하려는 것이 아니다.

단계(202)에서, 컴퓨팅 기기(120)는 기준 이미지 정보 베이스(130)에서 타깃 이미지(110)와 매칭되는 기준 이미지의 설명 정보를 획득할 수 있다. 예시로서, 도 1에 도시된 바와 같이 정보 그룹(134) 중의 기준 이미지와 타깃 이미지(110)의 매칭이 확정되면, 정보 그룹(134)에서 상응한 설명 정보를 획득한다. 본 발명의 실시예에 따르면, 기준 이미지의 설명 정보는 기준 이미지의 문서 정보와 구조화 정보 중 적어도 하나를 포함할 수 있다. 이로써, 기준 이미지 및 모든 관련 문서 정보를 연관시켜 이후의 엔티티 단어를 추출하는 과정에 조건을 제공해 줄 수 있다. 예시로서, 웹 크롤러와 같은 지식 획득 기술을 통해 인터넷의 모든 콘텐츠를 크롤링 하여 웹 페이지의 이미지, 이미지 주변의 문서 정보 및 웹 페이지의 구조화 정보를 추출할 수 있는 바, 예를 들면 <title>tag의 문자 콘텐츠, 특정된 웹 사이트의 가시적 제목 등이다. 이미지 주변의 문서 정보와 웹 페이지의 구조화 정보는 기준 이미지의 설명 정보를 구성한다. 상기 정보는 모두 기준 이미지 정보 베이스(130)에 대응되게 저장되고, 웹 크롤러와 같은 지식 획득 기술에 기반하여 실시간 또는 정기적으로 업데이트된다. 기준 이미지 정보 베이스(130)의 이미지는 기준 이미지라고 하고 상기 이미지가 존재하는 웹 페이지를 이미지 소스(또는 "소스 파일"이라고 함)라고 한다.

임의의 실시예에 있어서, 타깃 이미지(110)를 수신한 후 컴퓨팅 기기(120)는 타깃 이미지(110)의 특징 벡터를 추출할 수 있고 추출된 특징 벡터와 기준 이미지 정보 베이스(130) 중의 각 이미지의 특징 벡터를 대조한다. 기준 이미지 정보 베이스(130)에서 매칭도가 기설정 임계값보다 큰 이미지를 찾았을 경우, 상기 이미지를 기준 이미지로 확정하고 상기 기준 이미지에 대응되는 설명 정보를 획득한다. 이해해야 할 것은, 상기 기준 이미지를 확정하는 방식은 예시적인 것일 뿐 본 발명을 구체적으로 한정하지 않는다. 예를 들어, 기준 이미지의 설명 정보 외에 상기 이미지가 존재하는 이미지 소스를 획득할 수 있다. 이러한 방식으로, 타깃 이미지(110)와 매칭되는 기준 이미지 및 설명 정보를 빠르게 확정할 수 있어 상기 기준 이미지의 설명 정보의 처리 과정에 대해 조건을 제공해 준다.

단계(204)에서, 컴퓨팅 기기(120)는 상기 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 확정할 수 있고, 상기 적어도 하나의 엔티티는 기준 이미지와 연관된 객체를 표시한다. 예시로서, 개체명 인식(NER) 기술을 이용하여 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 획득할 수 있다. 예시로서, 기준 이미지의 설명 정보는 기준 이미지의 문서 정보와 구조화 정보이다. NER 기술을 통해 이러한 정보에서 다수의 엔티티를 추출할 수 있는 바, 예를 들어 다수의 엔티티 명사를 추출하여 후보의 엔티티 명사 집합을 형성할 수 있다. 이러한 방식으로, 타깃 이미지(110)와 관련된 엔티티 단어를 수동적인 개입 없이 후보로 획득할 수 있다.

바람직하게는, 이러한 엔티티 명사는 상기 웹 페이지에서 크롤링 하여 저장하는 경우에 NER을 사용하여 추출 및 저장할 수 있다. 대안적으로 또는 추가적으로, 이러한 엔티티 명사는 기준 이미지의 엔티티로 확정된 후 NER을 사용하여 추출할 수도 있다.

단계(206)에서, 컴퓨팅 기기(120)는 상기 적어도 하나의 엔티티에 기반하여, 타깃 이미지(110)의 설명 정보(140)를 생성할 수 있다. 이해해야 할 것은, 생성된 설명 정보(140)와 상기 기준 이미지의 설명 정보는 완전히 다르다. 상기 기준 이미지의 설명 정보는 이미지 주변의 문서 정보와 웹 페이지의 구조화 정보를 포함하나, 설명 정보(140)는 하나 또는 다수의 엔티티 단어만 포함하고 타깃 이미지(110)를 간단하게 설명한다. 더 이해해야 할 것은, 컴퓨팅 기기(120)는 다양한 방식을 통해 타깃 이미지(110)의 설명 정보(140)를 확정할 수 있다. 예를 들어, 도 3은 본 발명의 실시예에 따른 타깃 이미지(110)의 설명 정보(140)를 생성하는 과정(300)의 흐름도이다. 이해의 편의를 위해, 아래 설명에서 언급되는 구체적 과정은 모두 예시적인 것이고 본 발명의 보호 범위를 한정하려는 것이 아니다.

단계(302)에서, 다수의 엔티티가 확정되었을 경우, 컴퓨팅 기기(120)는 기준 이미지 정보 베이스(130)에 기반하여, 이러한 엔티티의 특징 파라미터를 확정할 수 있다. 이러한 엔티티의 특징 파라미터는 이미지 소스에 존재하는 콘텐츠에서 디스플레이된 횟수, 상기 이미지 소스의 콘텐츠에 대한 브라우징 횟수, 상기 이미지 소스의 콘텐츠에 대한 클릭 횟수, 이러한 엔티티가 이미지 소스의 콘텐츠에서 나타난 횟수, 및 이미지 소스의 콘텐츠에서 이러한 엔티티의 위치에 대응되는 가중치 중 적어도 하나의 파라미터를 포함할 수 있다.

단계(304)에서, 컴퓨팅 기기(120)는 상기 다수의 엔티티에서 적어도 하나의 엔티티 그룹을 확정할 수 있고, 상기 적어도 하나의 엔티티 그룹 중의 엔티티는 동일하다. 예시로서, 다수의 기준 이미지 및 설명 정보를 확정한 후 이러한 설명 정보에서 다수의 엔티티를 확정할 수 있다. 각 기준 이미지의 연관성으로 인해, 확정된 다수의 엔티티에는 동일한 엔티티가 존재한다. 이로써 동일한 엔티티를 하나의 엔티티 그룹으로 확정할 수 있다.

단계(306)에서, 컴퓨팅 기기(120)는 상기 적어도 하나의 엔티티 그룹의 상응한 특징 파라미터의 통계 결과를 확정할 수 있다. 예시로서, 컴퓨팅 기기(120)는 상기 하나의 엔티티 그룹의 상응한 특징 파라미터의 통계 결과를 확정할 수 있는 바, 예를 들면 총계, 평균치 등의 통계 정보이다. 예를 들어, 상기 하나의 엔티티 그룹이 이미지 소스의 콘텐츠에서 디스플레이된 횟수의 합, 이러한 엔티티가 이미지 소스의 콘텐츠에서 나타난 횟수의 합 및 이미지 소스의 콘텐츠에서 이러한 엔티티의 위치에 대응되는 가중치의 평균치 등을 산출할 수 있다. 이해해야 할 것은, 상기 산출 방식은 예시적인 것일 뿐 본 발명을 한정하려는 것이 아니다.

그 후, 컴퓨팅 기기(120)는 상기 통계 결과에 기반하여 타깃 이미지(110)의 설명 정보(140)를 생성할 수 있다. 이러한 방식으로, 수동으로 표기하는 작업을 설명 정보 생성 모델의 트레이닝 부분에만 집중시킴으로써, 인건비를 절감할 수 있다. 이해해야 할 것은, 다양한 방식을 통해 설명 정보(140)를 생성할 수 있다. 예시로서, 단계(308)에서 상기 적어도 하나의 엔티티 그룹이 타깃 이미지(110) 중의 객체를 표시하는 정확도를 확정한다. 이해해야 할 것은, 정확도는 상기 적어도 하나의 엔티티 그룹과 타깃 이미지(110) 중의 객체의 매칭도를 지시하거나, 상기 적어도 하나의 엔티티 그룹이 타깃 이미지(110) 중의 객체를 정확하게 표시하는 확률을 지시하는 등에 사용될 수 있다. 예시로서, 하나의 채점 모델을 트레이닝하여 이 과정을 구현할 수 있다. 예를 들어, 상기 특징에 기반하여 트레이닝된 반복적 의사 확정 트리(GBDT) 알고리즘을 사용하여 각 엔티티가 타깃 이미지(110) 중의 객체와 관련되어 있는지 여부에 대해 채점을 진행한다. 채점이 높을수록 엔티티와 타깃 이미지(110) 중의 객체가 더 매칭되거나, 또는 엔티티가 타깃 이미지(110) 중의 객체를 정확하게 표시하는 확률이 더 크다는 것을 설명한다.

그 후, 단계(310)에서 컴퓨팅 기기(120)는 상기 적어도 하나의 엔티티 그룹에서 하나의 타깃 엔티티 그룹을 선택할 수 있고, 상기 타깃 엔티티 그룹에 대응되는 정확도는 임계값보다 높다. 예시로서, 각 엔티티의 채점에 기반하여 비교적 높거나 최고점의 엔티티를 선택할 수 있다. 최고점의 엔티티 단어의 득점이 설정된 임계값보다 낮으면, 이번의 검색에는 정확한 엔티티가 없는 것으로 판정되고, 그렇지 않으면 비교적 높거나 최고점의 엔티티를 출력한다. 나아가, 단계(312)에서, 컴퓨팅 기기(120)는 상기 타깃 엔티티 그룹에 기반하여, 타깃 이미지(110)의 설명 정보(140)를 생성할 수 있다.

상술한 방식에 의해, 트레이닝된 채점 모델에 기반하여 다수의 기준 이미지와 연관된 설명 정보에서 타깃 이미지(110)와 가장 관련된 엔티티 단어를 확정할 수 있으므로, 사용자에게 타깃 이미지(110)의 가장 정확한 설명 정보(140)를 제공할 수 있다. 이 밖에, 수동으로 표기하는 작업을 채점 모델의 트레이닝 부분에만 집중시켰기 때문에 인건비를 절감할 수 있다.

그 밖에, 컴퓨팅 기기(120)는 또한 아래 방식을 통해 타깃 이미지(110)의 설명 정보(140)를 확정할 수 있다. 도 4는 본 발명의 실시예에 따른 타깃 이미지(110)의 설명 정보(140)를 생성하는 다른 과정(400)의 흐름도이다. 이해의 편의를 위해, 아래 설명에서 언급되는 구체적 과정은 모두 예시적인 것이고 본 발명의 보호 범위를 한정하려는 것이 아니다.

단계(402)에서, 다수의 엔티티가 확정되었을 경우 컴퓨팅 기기(120)는 기준 이미지 정보 베이스(130)에 기반하여, 이러한 엔티티의 특징 파라미터를 확정할 수 있다. 이러한 엔티티의 특징 파라미터는 이미지 소스에 존재하는 콘텐츠에서 디스플레이된 횟수, 상기 이미지 소스의 콘텐츠에 대한 브라우징 횟수, 상기 이미지 소스의 콘텐츠에 대한 클릭 횟수, 이러한 엔티티가 이미지 소스의 콘텐츠에서 나타난 횟수, 및 이미지 소스의 콘텐츠에서 이러한 엔티티의 위치에 대응되는 가중치 중 적어도 하나의 파라미터를 포함할 수 있다.

단계(404)에서, 컴퓨팅 기기(120)는 상기 특징 파라미터에 기반하여, 이러한 엔티티 중의 각각의 엔티티가 타깃 이미지(110) 중의 객체를 표시하는 정확도를 확정할 수 있다. 예시로서, 하나의 딥러닝 모델을 트레이닝하여 이 과정을 구현할 수 있다. 예를 들어, 장단기 메모리(LSTM) 또는 트랜스포머(Transformer) 모델 등과 같은 시퀀스 모델을 사용하여 각각의 엔티티의 특징 파라미터를 기반으로 각 엔티티가 타깃 이미지(110) 중의 객체를 명중하는 확률을 예측한다.

단계(406)에서, 컴퓨팅 기기(120)는 상기 다수의 엔티티에서 타깃 엔티티를 선택할 수 있고, 상기 타깃 엔티티에 대응되는 정확도는 임계값보다 높다. 예시로서, 명중 확률이 비교적 높거나 가장 높은 엔티티를 선택할 수 있다. 비교적 높거나 가장 높은 명중 확률이 설정된 임계값보다 낮으면, 이번의 검색에는 정확한 엔티티가 없는 것으로 판정되고, 그렇지 않으면 비교적 높거나 가장 높은 명중 확률의 엔티티를 출력한다. 나아가, 단계(408)에서 컴퓨팅 기기(120)는 상기 타깃 엔티티에 기반하여 타깃 이미지(110)의 설명 정보(140)를 생성할 수 있다.

상기 방식에 의해, 트레이닝된 러닝 모델에 기반하여 다수의 기준 이미지와 연관된 설명 정보에서 타깃 이미지(110)와 가장 관련된 엔티티 단어를 확정할 수 있으므로, 사용자에게 타깃 이미지(110)의 가장 정확한 설명 정보(140)를 제공할 수 있다. 이 밖에, 수동으로 표기하는 작업을 러닝 모델의 트레이닝 부분에만 집중시켰기 때문에 인건비를 절감할 수 있다.

추가적으로, 일부 실시예에 있어서 컴퓨팅 기기(120)는 또한 기준 이미지 정보 베이스(130)를 업데이트할 수 있다. 이런 업데이트 과정은 다양한 방식을 통해 구현될 수 있다. 일 실시예에 있어서, 컴퓨팅 기기(120)는 네트워크 이미지, 사용자 입력 이미지 및 외장 저장 장치 중의 이미지 등 다양한 보충 이미지 정보를 획득할 수 있고, 이런 보충 이미지 정보를 기반으로 기준 이미지 정보 베이스(130)를 업데이트한다. 네트워크 이미지는 예를 들어 인터넷 또는 다른 네트워크를 통해 획득한 네트워크 기기에 저장된 이미지일 수 있다. 사용자 입력 이미지는 예를 들어 사용자가 휴대폰, 카메라 등 단말기기를 통해 촬영하여 컴퓨팅 기기(120)에 발송한 이미지일 수 있다. 외장 저장 장치 중의 이미지는 예를 들어 모바일 저장 장치, 클라우드 저장 장치 등에 저장된 이미지일 수 있다. 구체적으로, 기준 이미지 정보 베이스를 정기적 또는 수시로 업데이트 할 수 있다. 예를 들어, 네트워크 이미지, 사용자 입력 이미지, 및 외장 저장 장치 중의 이미지에 기반하여 기준 이미지 정보 베이스를 업데이트할 수 있다. 설명 정보를 확정하는 전체 과정에서, 기준 이미지 정보 베이스를 생성하고 업데이트하는 과정은 웹 크롤러와 같은 지식 획득 기술을 통해 자동적 및 정기적으로 구현할 수 있다. 그러나 확정된 엔티티에 기반하여 타깃 이미지의 설명 정보를 생성하는 과정은 수동으로 트레이닝된 모델을 통해 구현할 수 있다. 이러한 방식으로, 불필요한 수동적인 간섭 없이 지속적인 발전 변화와 빠르게 업데이트되는 인터넷의 지식 집합을 기반으로 기준 이미지 정보 베이스를 업데이트할 수 있다.

임의의 실시예에 있어서, 아래와 같은 방식으로 특징 파라미터를 확정할 수 있다. 먼저, 컴퓨팅 기기(120)는 기준 이미지 정보 베이스(130)에서 기준 이미지의 이미지 소스에 관한 정보를 확정할 수 있다. 다음, 컴퓨팅 기기(120)는 상기 기준 이미지의 이미지 소스에 관한 정보에 기반하여, 이러한 엔티티의 특징 파라미터를 확정할 수 있다. 이러한 엔티티의 특징 파라미터는 이미지 소스에 존재하는 콘텐츠에서 디스플레이된 횟수, 상기 이미지 소스의 콘텐츠에 대한 브라우징 횟수, 상기 이미지 소스의 콘텐츠에 대한 클릭 횟수, 이러한 엔티티가 이미지 소스의 콘텐츠에서 나타난 횟수, 이미지 소스의 콘텐츠에서 이러한 엔티티의 위치에 대응되는 가중치, 엔티티와 타깃 이미지의 매칭도, 엔티티가 있는 이미지 소스의 콘텐츠와 타깃 이미지의 매칭도 중 적어도 하나의 파라미터를 포함할 수 있다. 이러한 방식으로, 다른 차원을 통해 각 엔티티와 타깃 이미지(110)의 연관성을 검측할 수 있으므로, 정확한 설명 정보(140)를 확정하여 전면적인 평가 체계를 제공한다. 이해해야 할 것은, 상기 특징 파라미터를 확정하는 단계는 예시적인 것일 뿐 본 발명을 한정하려는 것이 아니다.

이해해야 할 점은 본 발명의 이미지 처리 방식은 종래 이미지 인식 방식에 비해, 새로운 엔티티 정보(예를 들면, 새로운 연예인, 새로운 건축물, 새로운 제품 등)가 네트워크에 나타날 때마다, 본 발명의 이미지 처리 방식은 종래 이미지 인식 방식처럼 이미지 인식 모델을 수동으로 다시 트레이닝할 필요가 없다. 그 이유는, 본 발명은 네트워크 크롤러와 같은 지식 획득 기술을 이용하여 기준 이미지 정보 베이스(130)를 업데이트하고, 트레이닝된 모델을 이용하여 기준 이미지의 설명 정보에서 엔티티를 추출하며, 또한 트레이닝된 모델을 이용하여 엔티티의 통계 결과를 기반으로 타깃 이미지(110)의 설명 정보(140)를 생성하기 때문이다. 본 발명 중의 모든 모델은 모두 새로운 엔티티 정보가 나타날 때마다 다시 트레이닝할 필요가 없다. 이로써, 과도한 수동적인 간섭 없이 지속적으로 업데이트되는 인터넷의 지식 집합을 커버할 수 있어 사용자를 위해 정확한 설명 정보를 확정함으로써 인건비를 절감하며 사용자 체험을 향상시킨다.

도 5는 본 발명의 실시예에 따른 타깃 이미지(110)를 처리하는 장치(500)의 블록도이다. 도 5에 도시된 바와 같이, 장치(500)는 기준 이미지 설명 정보 획득 모듈(502), 엔티티 확정 모듈(504) 및 타깃 이미지 설명 정보 생성 모듈(506)을 포함할 수 있다. 상기 기준 이미지 설명 정보 획득 모듈(502)은 기준 이미지 정보 베이스에서 타깃 이미지와 매칭되는 기준 이미지의 설명 정보를 획득하도록 구성되고; 상기 엔티티 확정 모듈(504)은 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 확정하도록 구성되며, 적어도 하나의 엔티티는 기준 이미지와 연관된 객체를 표시하고; 상기 타깃 이미지 설명 정보 생성 모듈(506)은 적어도 하나의 엔티티에 기반하여 타깃 이미지의 설명 정보를 생성하도록 구성된다.

임의의 실시예에 있어서, 장치(500)는 보충 이미지 정보 획득 모듈, 기준 이미지 정보 베이스 업데이트 모듈을 포함할 수 있다. 상기 보충 이미지 정보 획득 모듈(도시되지 않음)은 보충 이미지 정보를 획득하도록 구성되고, 보충 이미지 정보는 네트워크 이미지, 사용자 입력 이미지 및 외장 저장 장치 중의 이미지 중 적어도 하나의 설명 정보를 포함하며; 상기 기준 이미지 정보 베이스 업데이트 모듈(도시되지 않음)은 보충 이미지 정보에 기반하여 기준 이미지 정보 베이스를 업데이트하도록 구성된다.

임의의 실시예에 있어서, 엔티티 확정 모듈(504)은, 개체명 인식 기술을 이용하여 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 획득하도록 구성되는 엔티티 획득 모듈(도시되지 않음)을 포함할 수 있다.

임의의 실시예에 있어서, 적어도 하나의 엔티티는 다수의 엔티티를 포함하고, 타깃 이미지 설명 정보 생성 모듈(506)은, 상기 제2 인식 모델과 연관된 제2 타깃 함수의 기울기 데이터를 확정하도록 구성되는 제2 기울기 데이터 확정 모듈(도시되지 않음); 상기 제2 타깃 함수의 기울기 데이터와 상기 제2 인식 모델의 러닝 속도에 기반하여, 상기 제2 교란 데이터를 확정하도록 구성되는 제2 교란 데이터 확정 모듈(도시되지 않음); 및 상기 제2 교란 데이터를 상기 제1 후보 대립 샘플에 추가하여, 상기 제2 후보 대립 샘플을 생성하도록 구성되는 제2 가산 모듈(도시되지 않음)을 포함할 수 있다.

임의의 실시예에 있어서, 적어도 하나의 엔티티는 다수의 엔티티를 포함하고, 타깃 이미지 설명 정보 생성 모듈(506)은 특징 파라미터 확정 모듈, 엔티티 그룹 확정 모듈, 통계 결과 확정 모듈, 정확도 확정 모듈, 타깃 엔티티 그룹 선택 모듈 및 설명 정보 생성 모듈을 포함할 수 있다. 상기 특징 파라미터 확정 모듈(도시되지 않음)은 상기 기준 이미지 정보 베이스에 기반하여, 상기 다수의 엔티티의 특징 파라미터를 확정하도록 구성되고; 상기 엔티티 그룹 확정 모듈(도시되지 않음)은 상기 다수의 엔티티에서 적어도 하나의 엔티티 그룹을 확정하도록 구성되며, 상기 적어도 하나의 엔티티 그룹 중의 엔티티는 동일하고; 상기 통계 결과 확정 모듈(도시되지 않음)은 상기 적어도 하나의 엔티티 그룹의 상응한 특징 파라미터의 통계 결과를 확정하도록 구성되며; 상기 정확도 확정 모듈(도시되지 않음)은 상기 통계 결과에 기반하여, 상기 적어도 하나의 엔티티 그룹이 상기 타깃 이미지 중의 객체를 표시하는 정확도를 확정하도록 구성되고; 상기 타깃 엔티티 그룹 선택 모듈(도시되지 않음)은 상기 적어도 하나의 엔티티 그룹에서 하나의 타깃 엔티티 그룹을 선택하도록 구성되며, 상기 하나의 타깃 엔티티 그룹에 대응되는 정확도는 임계값보다 높고; 상기 설명 정보 생성 모듈(도시되지 않음)은 상기 하나의 타깃 엔티티 그룹에 기반하여, 상기 타깃 이미지의 설명 정보를 생성하도록 구성된다.

임의의 실시예에 있어서, 적어도 하나의 엔티티는 다수의 엔티티를 포함하고, 타깃 이미지 설명 정보 생성 모듈(506)은 특징 파라미터 확정 모듈, 정확도 확정 모듈, 타깃 엔티티 선택 모듈 및 설명 정보 생성 모듈을 포함할 수 있다. 상기 특징 파라미터 확정 모듈(도시되지 않음)은 상기 기준 이미지 정보 베이스에 기반하여, 상기 다수의 엔티티의 특징 파라미터를 확정하도록 구성되고; 상기 정확도 확정 모듈(도시되지 않음)은 상기 특징 파라미터에 기반하여, 상기 다수의 엔티티 중의 각각의 엔티티가 상기 타깃 이미지 중의 객체를 표시하는 정확도를 확정하도록 구성되며; 상기 타깃 엔티티 선택 모듈(도시되지 않음)은 상기 다수의 엔티티에서 타깃 엔티티를 선택하도록 구성되고, 상기 타깃 엔티티에 대응되는 정확도는 임계값보다 높으며; 상기 설명 정보 생성 모듈(도시되지 않음)은 상기 타깃 엔티티에 기반하여, 상기 타깃 이미지의 설명 정보를 생성하도록 구성된다.

임의의 실시예에 있어서, 특징 파라미터 확정 모듈은, 상기 기준 이미지 정보 베이스에서 상기 기준 이미지의 이미지 소스에 관한 정보를 확정하도록 구성되는 이미지 소스에 관한 정보 확정 모듈(도시되지 않음); 상기 기준 이미지의 이미지 소스에 관한 정보에 기반하여, 상기 적어도 하나의 엔티티가 존재하는 상기 이미지 소스의 콘텐츠가 디스플레이된 횟수; 상기 이미지 소스의 콘텐츠에 대한 브라우징 횟수; 상기 이미지 소스의 콘텐츠에 대한 클릭 횟수; 상기 적어도 하나의 엔티티가 상기 이미지 소스의 콘텐츠에서 나타난 횟수; 상기 이미지 소스의 콘텐츠에서 상기 적어도 하나의 엔티티의 위치에 대응되는 가중치; 상기 적어도 하나의 엔티티와 상기 타깃 이미지의 매칭도; 및 상기 적어도 하나의 엔티티가 존재하는 상기 이미지 소스의 콘텐츠와 상기 타깃 이미지의 매칭도 중 적어도 하나를 확정하도록 구성되는 특징 파라미터 정보 확정 모듈(도시되지 않음)을 포함한다.

임의의 실시예에 있어서, 설명 정보는 기준 이미지의 문서 정보와 구조화 정보 중 적어도 하나를 포함한다.

도 6은 본 발명의 다수의 실시예를 구현할 수 있는 컴퓨팅 기기(600)의 블록도이다. 기기(600)는 도 1의 컴퓨팅 기기(120)를 구현할 수 있다. 도면에 도시된 바와 같이, 기기(600)는 판독 전용 메모리(ROM)(602)에 저장된 컴퓨터 프로그램 명령 또는 저장 유닛(608)으로부터 랜덤 액세스 메모리(RAM)(603)에 로딩된 컴퓨터 프로그램 명령에 따라, 다양하고 적절한 동작 및 처리를 수행할 수 있는 중앙 처리 유닛(CPU)(601)을 포함한다. RAM(603)에는 또한 기기(600)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(605) 역시 버스(604)에 연결된다.

키보드, 마우스 등과 같은 입력 유닛(606); 다양한 타입의 디스플레이, 스피커 등과 같은 출력 유닛(607); 자기 디스크, 광 디스크 등과 같은 저장 유닛(608); 및 LAN 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신 유닛(609)을 포함하는 기기(600) 중의 다수의 부품은 I/O 인터페이스(605)에 연결된다. 통신 유닛(609)은 기기(600)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신망을 통해 다른 기기와 정보/데이터를 교환할 수 있도록 한다.

처리 유닛(601)은 앞에서 설명된 각 방법 및 처리를 수행하는 바, 예를 들어 흐름(200, 300 및 400)이다. 예를 들어, 일부 실시예에 있어서, 흐름(200, 300 및 400)은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 저장 유닛(608)과 같은 기계 판독 가능 매체에 명백하게 포함된다. 일부 실시예에 있어서, 컴퓨터 프로그램의 부분 또는 전부는 ROM(602) 및/또는 통신 유닛(609)을 통해 기기(600)에 로드 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(603)에 로딩되고 CPU(601)에 의해 실행될 경우, 앞에서 설명된 흐름(200, 300 및 400)의 하나 또는 다수의 단계를 수행할 수 있다. 대안적으로, 다른 실시예에 있어서 CPU(601)는 다른 임의의 적절한 방식(예를 들어, 펌웨어에 의해)을 통해 흐름(200, 300 및 400)을 수행하도록 구성될 수 있다.

본문에서 이상 설명된 기능은 적어도 일부가 하나 또는 다수의 하드웨어 논리 부재에 의해 실행될 수 있다. 예를 들어, 비제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부재는 필드 프로그램 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩의 시스템(SOC), 복합 프로그램 가능 논리 소자(CPLD) 등을 포함한다.

본 발명의 방법을 구현하는 프로그램 코드는 하나 또는 다수의 프로그래밍 언어의 임의의 조합으로 편집할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공될 수 있으며, 프로그램 코드는 프로세서 또는 제어기에 의해 실행될 경우, 흐름도 및/또는 블록도에 지정된 기능/작동이 구현되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 기계에서 실행되며, 일부는 원격 기계에서 실행되거나 완전히 원격 기계 또는 서버에서 실행될 수 있다.

본 발명의 컨텍스트에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예는 하나 또는 다수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, CD-ROM, 광학 저장 기기, 자기 저장 기기 또는 상술한 내용의 임의의 적절한 조합을 포함한다.

그밖에, 특정 순서로 각 동작을 설명하였지만, 이는 이러한 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되도록 요구되거나 모든 도시된 동작들이 예기한 결과에 달성하기 위해 수행되어야 함을 이해해야 한다. 일정한 환경에서, 다수의 미션 및 합병 처리는 유리할 수 있다. 마찬가지로, 상술한 설명에서 여러 개의 구체적인 구현 세부사항이 포함되어 있지만 이것이 본 발명의 범위를 한정하는 것으로 해석되어서는 안된다. 독립적인 실시예의 컨텍스트에서 설명된 특정된 특징은 단일 구현으로 조합되어 구현될 수 있다. 반대로, 단일 구현의 컨텍스트에서 설명된 다양한 특징은 또한 다수의 구현에서 독립적으로 또는 임의의 적절한 하위 조합으로 구현될 수도 있다.

구조 특징 및/또는 방법 논리적 동작에 특정된 언어로 본 주제를 설명하였지만, 첨부된 청구범위에서 한정된 주제는 상술한 특정된 특징 또는 동작에 반드시 한정되는 것은 아님을 이해해야 한다. 반대로, 상술한 특정된 특징 및 동작은 단지 청구범위의 예시적 형태를 구현하기 위한 것이다.

110：타깃 이미지 120：컴퓨팅 기기
130：기준 이미지 정보 베이스 151：기준 이미지
502：기준 이미지 설명 정보 획득 모듈
504：엔티티 확정 모듈
506：타깃 이미지 설명 정보 생성 모듈
600：컴퓨팅 기기 601：중앙 처리 유닛
602：판독 전용 메모리 603：랜덤 액세스 메모리
604：버스 605：입력/출력 인터페이스
606：입력 유닛 607：출력 유닛
608：저장 유닛 609：통신 유닛

Claims

이미지 처리 방법으로서,
기준 이미지 정보 베이스에서 타깃 이미지와 매칭되는 기준 이미지의 설명 정보를 획득하는 단계;
상기 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 확정하는 단계-상기 적어도 하나의 엔티티는 상기 기준 이미지와 연관된 객체를 표시함-; 및
상기 적어도 하나의 엔티티에 기반하여, 상기 타깃 이미지의 설명 정보를 생성하는 단계를 포함하는 이미지 처리 방법.
제1항에 있어서,
보충 이미지 정보를 획득하는 단계-상기 보충 이미지 정보는 네트워크 이미지, 사용자 입력 이미지 및 외장 저장 장치 중의 이미지 중 적어도 하나의 설명 정보를 포함함-; 및
상기 보충 이미지 정보에 기반하여 상기 기준 이미지 정보 베이스를 업데이트하는 단계를 더 포함하는 이미지 처리 방법.
제1항에 있어서, 상기 적어도 하나의 엔티티를 확정하는 단계는,
개체명 인식 기술을 이용하여 상기 기준 이미지의 설명 정보에서 상기 적어도 하나의 엔티티를 획득하는 단계를 포함하는 이미지 처리 방법.
제1항에 있어서, 상기 적어도 하나의 엔티티는 다수의 엔티티를 포함하고, 상기 타깃 이미지의 설명 정보를 생성하는 단계는,
상기 기준 이미지 정보 베이스에 기반하여, 상기 다수의 엔티티의 특징 파라미터를 확정하는 단계;
상기 다수의 엔티티에서 적어도 하나의 엔티티 그룹을 확정하는 단계-상기 적어도 하나의 엔티티 그룹 중의 엔티티는 동일함-;
상기 적어도 하나의 엔티티 그룹의 상응한 특징 파라미터의 통계 결과를 확정하는 단계; 및
상기 통계 결과에 기반하여 상기 타깃 이미지의 설명 정보를 생성하는 단계를 포함하는 이미지 처리 방법.
제4항에 있어서, 상기 통계 결과에 기반하여 상기 타깃 이미지의 설명 정보를 생성하는 단계는,
상기 통계 결과에 기반하여, 상기 적어도 하나의 엔티티 그룹이 상기 타깃 이미지 중의 객체를 표시하는 정확도를 확정하는 단계;
상기 적어도 하나의 엔티티 그룹에서 하나의 타깃 엔티티 그룹을 선택하는 단계-상기 하나의 타깃 엔티티 그룹에 대응되는 정확도는 임계값보다 높음-; 및
상기 하나의 타깃 엔티티 그룹에 기반하여, 상기 타깃 이미지의 설명 정보를 생성하는 단계를 포함하는 이미지 처리 방법.
제1항에 있어서, 적어도 하나의 엔티티는 다수의 엔티티를 포함하고, 상기 타깃 이미지의 설명 정보를 생성하는 단계는,
상기 기준 이미지 정보 베이스에 기반하여, 상기 다수의 엔티티의 특징 파라미터를 확정하는 단계;
상기 특징 파라미터에 기반하여, 상기 다수의 엔티티 중의 각각의 엔티티가 상기 타깃 이미지 중의 객체를 표시하는 정확도를 확정하는 단계;
상기 다수의 엔티티에서 타깃 엔티티를 선택하는 단계-상기 타깃 엔티티에 대응되는 정확도는 임계값보다 높음-; 및
상기 타깃 엔티티에 기반하여, 상기 타깃 이미지의 설명 정보를 생성하는 단계를 포함하는 이미지 처리 방법.
제4항 내지 제6항 중 어느 한 항에 있어서, 상기 특징 파라미터를 확정하는 단계는,
상기 기준 이미지 정보 베이스에서 상기 기준 이미지의 이미지 소스에 관한 정보를 확정하는 단계; 및
상기 기준 이미지의 이미지 소스에 관한 정보에 기반하여,
상기 적어도 하나의 엔티티가 존재하는 상기 이미지 소스의 콘텐츠가 디스플레이된 횟수;
상기 이미지 소스의 콘텐츠에 대한 브라우징 횟수;
상기 이미지 소스의 콘텐츠에 대한 클릭 횟수;
상기 적어도 하나의 엔티티가 상기 이미지 소스의 콘텐츠에서 나타난 횟수;
상기 이미지 소스의 콘텐츠에서 상기 적어도 하나의 엔티티의 위치에 대응되는 가중치;
상기 적어도 하나의 엔티티와 상기 타깃 이미지의 매칭도; 및
상기 적어도 하나의 엔티티가 존재하는 상기 이미지 소스의 콘텐츠와 상기 타깃 이미지의 매칭도 중 적어도 하나를 확정하는 단계를 포함하는 이미지 처리 방법.
제1항에 있어서, 상기 설명 정보는 상기 기준 이미지의 문서 정보와 구조화 정보 중 적어도 하나를 포함하는 이미지 처리 방법.
이미지 처리 장치로서,
기준 이미지 정보 베이스에서 타깃 이미지와 매칭되는 기준 이미지의 설명 정보를 획득하도록 구성되는 기준 이미지 설명 정보 획득 모듈;
상기 기준 이미지의 설명 정보에서 적어도 하나의 엔티티를 확정하도록 구성되는 엔티티 확정 모듈-상기 적어도 하나의 엔티티는 상기 기준 이미지와 연관된 객체를 표시함-; 및
상기 적어도 하나의 엔티티에 기반하여 상기 타깃 이미지의 설명 정보를 생성하도록 구성되는 타깃 이미지 설명 정보 생성 모듈을 포함하는 이미지 처리 장치.
제9항에 있어서, 보충 이미지 정보를 획득하도록 구성되는 보충 이미지 정보 획득 모듈-상기 보충 이미지 정보는 네트워크 이미지, 사용자 입력 이미지 및 외장 저장 장치 중의 이미지 중 적어도 하나의 설명 정보를 포함함-; 및
상기 보충 이미지 정보에 기반하여 상기 기준 이미지 정보 베이스를 업데이트하도록 구성되는 기준 이미지 정보 베이스 업데이트 모듈을 더 포함하는 이미지 처리 장치.
제9항에 있어서, 상기 엔티티 확정 모듈은,
개체명 인식 기술을 이용하여 상기 기준 이미지의 설명 정보에서 상기 적어도 하나의 엔티티를 획득하도록 구성되는 엔티티 획득 모듈을 포함하는 이미지 처리 장치.
제9항에 있어서, 상기 적어도 하나의 엔티티는 다수의 엔티티를 포함하고, 상기 타깃 이미지 설명 정보 생성 모듈은,
상기 기준 이미지 정보 베이스에 기반하여, 상기 다수의 엔티티의 특징 파라미터를 확정하도록 구성되는 특징 파라미터 확정 모듈;
상기 다수의 엔티티에서 적어도 하나의 엔티티 그룹을 확정하도록 구성되는 엔티티 그룹 확정 모듈-상기 적어도 하나의 엔티티 그룹 중의 엔티티는 동일함-;
상기 적어도 하나의 엔티티 그룹의 상응한 특징 파라미터의 통계 결과를 확정하도록 구성되는 통계 결과 확정 모듈; 및
상기 통계 결과에 기반하여 상기 타깃 이미지의 설명 정보를 생성하도록 구성되는 설명 정보 생성 모듈을 포함하는 이미지 처리 장치.
제12항에 있어서, 상기 설명 정보 생성 모듈은,
상기 통계 결과에 기반하여, 상기 적어도 하나의 엔티티 그룹이 상기 타깃 이미지 중의 객체를 표시하는 정확도를 확정하도록 구성되는 정확도 확정 모듈;
상기 적어도 하나의 엔티티 그룹에서 하나의 타깃 엔티티 그룹을 선택하도록 구성되는 타깃 엔티티 그룹 선택 모듈-상기 하나의 타깃 엔티티 그룹에 대응되는 정확도는 임계값보다 높음-; 및
상기 하나의 타깃 엔티티 그룹에 기반하여, 상기 타깃 이미지의 설명 정보를 생성하도록 구성되는 정보 생성 모듈을 포함하는 이미지 처리 장치.
제9항에 있어서, 적어도 하나의 엔티티는 다수의 엔티티를 포함하고, 상기 타깃 이미지 설명 정보 생성 모듈은,
상기 기준 이미지 정보 베이스에 기반하여, 상기 다수의 엔티티의 특징 파라미터를 확정하도록 구성되는 특징 파라미터 확정 모듈;
상기 특징 파라미터에 기반하여, 상기 다수의 엔티티 중의 각각의 엔티티가 상기 타깃 이미지 중의 객체를 표시하는 정확도를 확정하도록 구성되는 정확도 확정 모듈;
상기 다수의 엔티티에서 타깃 엔티티를 선택하도록 구성되는 타깃 엔티티 선택 모듈-상기 타깃 엔티티에 대응되는 정확도는 임계값보다 높음-; 및
상기 타깃 엔티티에 기반하여, 상기 타깃 이미지의 설명 정보를 생성하도록 구성되는 설명 정보 생성 모듈을 포함하는 이미지 처리 장치.
제12항 내지 제14항 중 어느 한 항에 있어서, 상기 특징 파라미터 확정 모듈은,
상기 기준 이미지 정보 베이스에서 상기 기준 이미지의 이미지 소스에 관한 정보를 확정하도록 구성되는 이미지 소스에 관한 정보 확정 모듈; 및
상기 기준 이미지의 이미지 소스에 관한 정보에 기반하여,
상기 적어도 하나의 엔티티가 존재하는 상기 이미지 소스의 콘텐츠가 디스플레이된 횟수;
상기 이미지 소스의 콘텐츠에 대한 브라우징 횟수;
상기 이미지 소스의 콘텐츠에 대한 클릭 횟수;
상기 적어도 하나의 엔티티가 상기 이미지 소스의 콘텐츠에서 나타난 횟수;
상기 이미지 소스의 콘텐츠에서 상기 적어도 하나의 엔티티의 위치에 대응되는 가중치;
상기 적어도 하나의 엔티티와 상기 타깃 이미지의 매칭도; 및
상기 적어도 하나의 엔티티가 존재하는 상기 이미지 소스의 콘텐츠와 상기 타깃 이미지의 매칭도 중 적어도 하나를 확정하도록 구성되는 특징 파라미터 정보 확정 모듈을 포함하는 이미지 처리 장치.
제9항에 있어서, 상기 설명 정보는 상기 기준 이미지의 문서 정보와 구조화 정보 중 적어도 하나를 포함하는 이미지 처리 장치.
전자 기기로서,
하나 또는 다수의 프로세서; 및
하나 또는 다수의 프로그램을 저장하는 저장 장치를 포함하되,
상기 하나 또는 다수의 프로그램이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하도록 하는 전자 기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체로서,
상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하는 컴퓨터 판독 가능한 저장 매체.
컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 방법을 구현하도록 하는 컴퓨터 프로그램.