KR102585234B1

KR102585234B1 - 전자 기기를 위한 비전 인텔리전스 관리

Info

Publication number: KR102585234B1
Application number: KR1020197022452A
Authority: KR
Inventors: 스타니스로우 앤톨; 아브히지트 벤달레; 사이먼 제이. 기브스; 전원종; 강현재; 김지희; 리보; 안토니 에스. 라이엇; 루 루오; 프라나브 케이. 미스트리; 지한 잉
Original assignee: 삼성전자주식회사
Priority date: 2017-01-19
Filing date: 2018-01-18
Publication date: 2023-10-06
Also published as: WO2018135881A1; EP3559804A4; US20180204061A1; EP3559804A1; EP3559804B1; CN110249304B; CN110249304A; KR20190109426A; US10902262B2

Abstract

일 실시예는, 시각적 데이터를 포함하는 입력에 대한 도메인과 관련된 모델들의 제1집합을 실행함으로써 입력에 존재하는 하나 이상의 객체들을 분류하는 동작을 포함하는 방법을 제공한다. 각각의 모델은 하나의 객체 카테고리에 대응한다. 각각의 모델은 시각적 분류자 결과의 정확도를 나타내는 관련 신뢰 값과 함께 입력 내 해당 객체 카테고리와 관련된 시각적 분류자 결과를 생성하도록 트레이닝된다. 이 방법은 모델들의 제1집합 내 각각의 모델의 각각의 시각적 분류자 결과와 관련된 신뢰 값에 기반하여 시각적 분류자 결과들의 제1집합을 종합하는 동작을 더 포함한다. 객체들의 추가 분류를 위해, 종합된 시각적 분류자 결과들의 제1집합에 기반하여 입력에 대해 실행할 적어도 하나의 다른 모델이 선택 가능하다. 하나 이상의 시각적 분류자 결과들은 디스플레이될 전자 기기 상에서 실행되는 애플리케이션으로 리턴된다.

Description

전자 기기를 위한 비전 인텔리전스 관리

하나 이상의 실시예들은 일반적으로 비전 인텔리전스(VI)에 관한 것으로, 특히 전자 기기를 위한 VI 관리에 관한 것이다.

수많은 인식 모델들(가령, 딥 러닝(deep learning) 모델들)이 전자 기기 상에서 시각 데이터의 시각적 분석(예를 들어, 사진 및/또는 비디오에 대한 객체 인식 수행)에 사용되기 위해 이용될 수 있다. 그러나, 전자 기기 상의 제한된 계산 자원 탓에, 전자 기기에서 이용할 수 있는 모든 모델들이 런 타임(run-time) 중에 동시에 활성화되는 것은 실현성이 없을 수 있다.

도 1은 하나 이상의 실시예들에서, 비전 인텔리전스(VI) 시스템을 구현하기 위한 예시적 컴퓨팅 구조를 도시한다.
도 2는 하나 이상의 실시예들에서, 프레젠테이션(presentation) 계층을 주관하는 예시적 애플리케이션을 도시한다.
도 3은 하나 이상의 실시예들에 있어서 예시적인 모듈 패밀리들을 도시한다.
도 4는 하나 이상의 실시예들에 따른 예시적 모듈을 상세히 도시한다.
도 5는 하나 이상의 실시예들에서, 카메라 애플리케이션을 위한 예시적 애플리케이션 스크린을 도시한다.
도 6은 하나 이상의 실시예들에서, 카메라 애플리케이션을 위한 다른 예시적 애플리케이션 스크린을 도시한다.
도 7은 하나 이상의 실시예들에서, 카메라 애플리케이션을 위한 다른 예시적 애플리케이션 스크린을 도시한다.
도 8은 하나 이상의 실시예들에서, 카메라 애플리케이션을 위한 다른 예시적 애플리케이션 스크린을 도시한다.
도 9은 하나 이상의 실시예들에서, 카메라 애플리케이션을 위한 다른 예시적 애플리케이션 스크린을 도시한다.
도 10은 하나 이상의 실시예들에 따른 예시적 실행 관리자를 도시한다.
도 11은 하나 이상의 실시예들에서, 활성화할 모델을 자동적으로 선택하는 예시적 프로세스의 흐름도이다.
도 12는 하나 이상의 실시예들에서, 카테고리 온톨로지(ontology) 링크들을 포함하는 예시적 모델 그래프를 도시한다.
도 13a는 하나 이상의 실시예들에서, 실행 관리자에 의해 초기 활성화된 하나 이상의 모델들을 도시한 모델 그래프이다.
도 13b는 하나 이상의 실시예들에서, 시각적 데이터를 수신함에 따라 실행 관리자에 의해 활성화된 하나 이상의 추가 모델들을 도시한 업데이트된 모델 그래프이다.
도 13c는 하나 이상의 실시예들에서, 시각적 분류자(classifier) 결과에 따라 실행 관리자에 의해 활성화된 하나 이상의 추가 모델들을 도시한 업데이트된 모델 그래프이다.
도 14는 하나 이상의 실시예들에서, 카테고리 유사도(similarity) 링크들을 포함하는 예시적 모델 그래프를 도시한다.
도 15는 하나 이상의 실시예들에 따른 예시적 특성 벡터 기반(feature vector-based) 도메인 선택 방법을 도시한다.
도 16은 하나 이상의 실시예들에 따른 예시적 시간 기반(temporal-based) 도메인 선택 방법을 도시한다.
도 17은 하나 이상의 실시예들에서, 병렬 모델 실행을 통해 구동되는 예시적 애플리케이션 스크린을 도시한다.
도 18a는 하나 이상의 실시예들에서, 하나의 결과 카드를 포함하는 애플리케이션 스크린을 도시한다.
도 18b는 하나 이상의 실시예들에서, 다수의 결과 카드들을 포함하는 애플리케이션 스크린을 도시한다.
도 18c는 하나 이상의 실시예들에서, 확장된 결과 카드를 포함하는 애플리케이션 스크린을 도시한다.
도 19a는 하나 이상의 실시예들에서 카메라 보기(camera view)에 존재하는 제1객체와 쌍을 이루는 제1결과 카드를 디스플레이 하는 애플리케이션 스크린을 도시한다.
도 19b는 하나 이상의 실시예들에서 카메라 보기에 존재하는 제2객체와 쌍을 이루는 제2결과 카드(910)를 디스플레이 하는 애플리케이션 스크린을 도시한다.
도 19c는 하나 이상의 실시예들에서, 확장된 제2결과 카드를 디스플레이 하는 애플리케이션 스크린을 도시한다.
도 20은 하나 이상의 실시예들에서, 시각적 데이터를 처리하기 위한 예시적 프로세스의 흐름도이다.
도 21은 개시된 실시예들을 구현하는데 사용되는 컴퓨터 시스템을 포함하는 정보 처리 시스템을 도시한 상위 블록도의 예이다.

일 실시예는, 시각적 데이터를 포함하는 입력에 대한 도메인과 관련된 모델들의 제1집합을 실행함으로써 입력에 존재하는 하나 이상의 객체들을 분류하는 동작을 포함하는 방법을 제공한다. 모델들의 제1집합 내 각각의 모델은 하나의 객체 카테고리에 대응한다. 각각의 모델은 시각적 분류자 결과의 정확도를 나타내는 관련 신뢰 값과 함께 입력 내 해당 객체 카테고리와 관련된 시각적 분류자 결과를 생성하도록 트레이닝 된다. 이 방법은 모델들의 제1집합 내 각각의 모델의 각각의 시각적 분류자 결과와 관련된 신뢰 값에 기반하여 시각적 분류자 결과들의 제1집합을 종합하는 동작을 더 포함한다. 하나 이상의 객체들의 추가 분류를 위해, 종합된 시각적 분류자 결과들의 제1집합에 기반하는 입력에 대한 실행을 위해, 적어도 하나의 다른 모델이 선택 가능하다. 하나 이상의 시각적 분류자 결과들은 디스플레이 될 전자 기기 상에서 실행되는 애플리케이션으로 리턴 된다.

하나 이상의 실시예들에 대한 상기 및 기타 특성들, 양태들 및 이점들은 이하의 설명과 부가되는 청구범위와 첨부된 도면을 참조하여 파악될 수 있다.

이하의 설명은 하나 이상의 실시예들의 일반적 원리를 예시할 목적으로 행해진 것으로서, 본 명세서에서 주장하는 발명의 개념들을 제한할 의도가 있는 것은 아니다. 또한, 본 명세서에 기술된 특정한 구성들은 가능한 다양한 조합 및 치환들 각각에 기재된 다른 구성들과 조합하여 사용될 수 있다. 본 명세서에서 달리 구체적으로 정의되지 않는 한, 모든 용어들은 명세서에 내포된 의미뿐만 아니라 당업자가 이해하는 의미들 및/또는 사전들, 조약들 등에서 정의된 의미들을 포함하는 가능한 가장 넓은 범위의 것으로 해석되어야 한다.

하나 이상의 실시예들은 일반적으로 비전 인텔리전스(vision intelligence)에 관한 것으로, 특히 전자 기기를 위한 비전 인텔리전스 관리에 관한 것이다. 일 실시예는, 시각적 데이터를 포함하는 입력에 대한 도메인과 관련된 모델들의 제1집합을 실행함으로써 입력에 존재하는 하나 이상의 객체들을 분류하는 동작을 포함하는 방법을 제공한다. 모델들의 제1집합 내 각각의 모델은 하나의 객체 카테고리에 대응한다. 각각의 모델은 시각적 분류자 결과의 정확도를 나타내는 관련 신뢰 값과 함께 입력 내 해당 객체 카테고리와 관련된 시각적 분류자 결과를 생성하도록 트레이닝 된다. 이 방법은 모델들의 제1집합 내 각각의 모델의 각각의 시각적 분류자 결과와 관련된 신뢰 값에 기반하여 시각적 분류자 결과들의 제1집합을 종합하는 동작을 더 포함한다. 하나 이상의 객체들의 추가 분류를 위해, 종합된 시각적 분류자 결과들의 제1집합에 기반하여 입력에 대해 실행할 적어도 하나의 다른 모델이 선택 가능하다. 하나 이상의 시각적 분류자 결과들은 디스플레이 될 전자 기기 상에서 실행되는 애플리케이션으로 리턴 된다.

설명의 목적 상, 여기 사용되는 “시각적 데이터”라는 용어는 일반적으로, 디스플레이 장치(가령, 텔레비전, 모니터, 태블릿, 스마트폰 등) 상에서 디스플레이 될 수 있는 이미지, 비디오, 또는 어떤 다른 타입의 시각적 콘텐츠와 같은 시각적 콘텐츠를 의미한다.

설명의 목적 상, “비전 처리 작업”이라는 용어는 일반적으로 시각적 데이터의 시각적 분석을 포함하는 작업/동작을 일컫는다. 다양한 타입의 비전 처리 작업들의 예로는, 비한정적인 것으로서, 얼굴 인식, 장면 인식, 객체 인식, 객체 국지화 (localization) 및 분할(segmentation), 객체 추적, 3D 객체 재구성이 포함된다.

최근 들어 새로운 인공 지능 및 컴퓨터 비전 기술이 도입됨에 따라, 전자 기기 상의 카메라 애플리케이션 및/또는 갤러리 애플리케이션은 다양한 실시예들에 예시된 바와 같이, 시각적 도메인으로부터 정보를 추출하고 전자 기기 상에 있는 하나 이상의 다른 애플리케이션들 및 서비스들에 풍부한 시각적 정황을 제공하는데 사용될 수 있는 지능적인 툴로 진화하고 있다. 예를 들기 위해 카메라 애플리케이션 및/또는 갤러리 애플리케이션이 하나 이상의 실시예들에서 언급되겠지만, 당업자라면 다른 타입의 애플리케이션들도 본 발명의 특성들로부터 동등한 효과를 가질 수 있다는 것을 알 수 있을 것이다.

비전 처리 태스크를 수행하기 위해, 전자 기기 상에 있는 카메라 애플리케이션은 딥 러닝(deep learning(DL)) 및 신경망에 기반하는 시각적 처리 기능들을 통해 확장될 수 있다. 하나 이상의 실시예들은 컴퓨터 비전(computer vision: CV) 및 DL 기반 비전 인텔리전스(VI) 프레임워크를 제공한다. VI 프레임워크는 VI를 위한 확장 및 통합 프레임워크로서, 최소한의 애플리케이션 변경으로 전자 기기들 상에 새로운 DL 및 CV 기술들의 배치를 가능하게 한다. 예를 들어, VI 프레임워크는 다양한 자율 VI 성분들(가령, 네이티브(native) 및/또는 제3자/파트너 증강 현실 애플리케이션들)이 전자 기기 상에 있는 카메라 애플리케이션 및/또는 갤러리 애플리케이션 안에서 실행될 수 있게 함으로써, 카메라 애플리케이션 및/또는 갤러리 애플리케이션의 시각적 처리 기능들을 확장시킬 수 있다. 각각의 VI 성분은 설치규모가 작아, 카메라 애플리케이션 및/또는 갤러리 애플리케이션과의 간단한 통합을 가능하게 한다. VI 프레임워크는 전자 기기의 모바일 카메라나 다른 타입의 센싱 회로들의 시각적 처리 기능들을 확장하여, 모바일 카메라나 다른 타입의 센싱 회로들이 단지 시각적 데이터를 캡처하는 툴이 아닌 지능형 카메라나 센싱 회로들이 될 수 있게 한다. 예를 들어, 모바일 카메라는 VI 성분들이 다음과 같은 시각적 처리 기능들 중 하나 이상을 지원할 때 VI의 소스가 될 수 있다. (1) 객체 인식(즉, 차량과 같은 시계(visual field) 내 다양한 타입의 객체들에 대한 식별), (2) 객체들 간 속성 및 관계를 판단(예를 들어, 시계 내 스포츠 카 및 도로를 식별함에 따라, 스포츠 카가 도로 위에서 주행 중이라고 판단), (3) 특정 객체들(가령, 특정 개인에게 속하는 차량)의 속성들을 인식.

일 실시예에서, VI 성분들은 다양한 커뮤니티들(가령, 연구 커뮤니티들), 장치 판매자들, 사용자들, 제3자들이나 파트너들이 시각적 처리 기능들과 관련된 딥 러닝 모델들을 제공할 수 있는 성분 에코시스템(component ecosystem)을 생성하는 오픈 구조(open architecture)를 형성한다.

일 실시예에서, VI 성분들은 샌드박싱 되어(sandboxed) 카메라 애플리케이션 및/또는 갤러리 애플리케이션을 VI 성분들의 하나 이상의 고장들로부터 격리시키도록 한다.

일 실시예에서, VI 프레임워크는 카메라 애플리케이션 및/또는 갤러리 애플리케이션에 대한 변경 없이 VI 성분들이 새로운 형식의 소프트웨어 가속 또는 하드웨어 가속(가령, GPU, FPGA, 특수 목적의 신경망 처리 유닛들)에서 이득을 얻을 수 있게 하는 전력 최적화 및 자원 활용을 위한 부하 밸런싱 기회들을 가능하게 함으로써, 고도의 모듈화를 도울 수 있다.

일 실시예에서, VI 프레임워크는 온 디바이스(on-device) 및 온 클라우드(on-cloud) 성분들과, 온 디바이스 및 시각적 데이터의 온 클라우드 처리를 결합시키는 하이브리드 구조 모두에 대한 지원을 제공한다.

DL 및 CV 기술들이 급속히 변화함에 따라, VI 프레임워크는 모바일 애플리케이션들 및 서비스들과 현재와 앞으로 나타나는 비전 기술들의 빠른 통합을 가능하게 한다. 각각의 VI 성분은 동적으로 추가, 제거, 활성화, 비활성화, 또는 업그레이드될 수 있다.

도 1은 하나 이상의 실시예들에서, VI 관리 시스템(300)을 구현하기 위한 예시적 컴퓨팅 구조(10)를 도시한다. 컴퓨팅 구조(10)는 하나 이상의 프로세서들(110) 및 하나 이상의 저장부들(120)과 같은 계산 자원들을 포함하는 전자 기기(100)를 포함한다. 하나 이상의 애플리케이션들(250)이 전자 기기(100)의 계산 자원들을 이용하는 전자 기기(100) 상에서 실행/동작될 수 있다.

전자 기기(100)의 예들은, 비한정적으로, 태블릿, 스마트폰, 랩탑, 스마트 와치 등과 같은 모바일 전자 기기를 포함한다.

일 실시예에서, 전자 기기(100)는 전자 기기(100)에 포함되거나 연결된 카메라(140)를 포함한다. 전자 기기(100) 상에서 하나 이상의 애플리케이션들은 카메라(140)를 이용하여 카메라(140)에 나타나는 객체의 시각적 데이터(가령, 사진, 비디오)를 캡처 할 수 있다.

일 실시예에서, 전자 기기(100) 상의 하나 이상의 애플리케이션들(250)은 비한정적으로, 하나 이상의 시각적 데이터 획득 애플리케이션들 및/또는 하나 이상의 성분 획득 VI를 포함한다. 다양한 시각적 데이터 획득 애플리케이션들은 비한정적으로, 카메라(140)를 이용하여 시각적 데이터를 캡처하기 위한 카메라 애플리케이션들(161)(도 4, 카메라(140)에 의해 캡처되거나 다른 소스들로부터 수신된 시각적 데이터의 오프라인 저장을 위한 갤러리 애플리케이션들(162)(도 4)을 포함한다. VI를 위한 다양한 성분들의 예들은 비한정적으로, 이미지/비디오 프레임 안에 존재하는 하나 이상의 객체들을 분류하기 위한 객체 인식 애플리케이션, 이미지/비디오 프레임 안에 나타나는 하나 이상의 장면들을 분류하기 위한 장면 인식 애플리케이션, 이미지/비디오 프레임 안에 존재하는 하나 이상의 차량들을 분류하기 위한 차량 인식 애플리케이션, 시각적 데이터에 기반하여 제3자가 제공하는 온라인 서비스를 맞춤화하기 위한 제3자 애플리케이션(예를 들어, 이미지/비디오 프레임 안에 존재하는 하나 이상의 객체들에 기반하여 온라인 쇼핑 추천안들을 제공하기 위한 쇼핑 애플리케이션, 이미지/비디오 프레임 안에 존재하는 하나 이상의 음식 항목들에 기반하여 영양/식이 정보를 제공하기 위한 영양/식이 애플리케이션, 이미지/비디오 프레임 안에 존재하는 하나 이상의 음식 항목들에 기반하여 점포/식당 추천안을 제공하기 위한 점포/식당 위치확인기 등), 이미지/비디오 프레임 안에 존재하는 하나 이상의 객체들이 어디에 위치하는지를 검출하기 위한 객체 국지화 및 분할 애플리케이션, 일련의 이미지/비디오 프레임들에 걸친 하나 이상의 객체들을 객체 추적하기위한 객체 추적 애플리케이션 등을 포함한다.

일 실시예에서, 애플리케이션(250)은 전자 기기(100) 상에 사전 로딩되거나 다운로딩 될 수 있다. 애플리케이션(250)은 전자 기기(100)의 장치 판매자(vender(벤더)) (가령, 오리지널 장치 제조자(original equipment manufacturer))에게서 나오거나 (즉, 벤더 애플리케이션), 제3자(가령, 커뮤니티, 사용자, 파트너)에게서 나올 수 있다.

나중에 여기에서 상세히 기술하는 바와 같이, VI 관리 시스템(300)은 애플리케이션 개발자들이 기존 애플리케이션들(250)을 강화시킬 수 있고, 시각적 데이터의 처리와 이해를 이용하는 새로운 애플리케이션들(250)을 구축할 수 있는, VI를 위한 API들 및 성분들의 집합을 제공한다. VI 관리 시스템(300)은 객체 인식이나 얼굴 인식과 같이 시각적 데이터 획득 애플리케이션들의 시각적 처리 기능들을 확장하기 위해 VI를 위한 하나 이상의 성분들이 하나 이상의 시각적 데이터 획득 애플리케이션들 안에서 실행될 수 있게 하는 VI를 위한 확장 및 통합 프레임워크를 제공한다.

일 실시예에서, 전자 기기(100)는 비한정적으로, 전자 기기(100)의 사용자의 위치를 판단하기 위한 하나 이상의 위치 센서들(가령, GPS), 사용자 발성(즉, 스피치(speech)) 및 오디오 환경 특성들(가령, 잡음이 있다거나 조용하다는 등)을 검출하기 위한 하나 이상의 오디오 센서들(가령, 마이크로폰), 소리 낸 단어들을 검출하기 위한 하나 이상의 음성 인식 시스템들, 사용자 감정들(가령, 화냄, 행복함 등), 흥미 및 의도를 판단하기 위한 하나 이상의 텍스트 분석 시스템들, 및 전자 기기(100) 상에서 수집된 데이터에 기반하여 사용자 선호도와 의도에 대한 정보(가령, 애플리케이션 사용, 검색 이력, 연락처 등)를 결정하기 위한 하나 이상의 데이터 분석 엔진들과 같이, 카메라(140)가 아닌 하나 이상의 추가 센서들(150)을 더 포함할 수 있다. 센서(150)는 센서 기반의 정황 정보를 캡처하기 위해 애플리케이션(250)에 의해 사용될 수 있다.

일 실시예에서, 전자 기기(100)는 키보드, 키패드, 터치 인터페이스, 또는 디스플레이 스크린과 같이, 전자 기기(100)에 포함되거나 연결된 하나 이상의 입/출력(I/O)부들(130)을 포함한다.

일 실시예에서, 전자 기기(100)는 접속(예를 들어, WiFi 접속이나 셀룰라 데이터 접속과 같은 무선 접속, 유선 접속, 또는 이 둘의 조합)을 통해 하나 이상의 원격 서버들(200)이나 원격 전자 기기들과 데이터를 교환하도록 구성된다. 예를 들어, 원격 서버(200)는 하나 이상의 온라인 서비스들(가령, 이미지 및 비디오 호스팅 웹사이트)을 호스팅하고/하거나 하나 이상의 애플리케이션들(가령, 애플리케이션(250))을 배포하기 위한 온라인 플랫폼일 수 있다.

도 2는 하나 이상의 실시예들에서, 프레젠테이션(presentation) 계층(255)을 주관하는 예시적 애플리케이션(250)을 도시한다. 모듈(260)은 특정 비전 처리 작업(가령, 객체 인식, 객체 국지화 및 분할, 장면 인식, 차량 인식, 객체 추적 등)을 수행하도록 구성된 소프트웨어 추상부(abstraction)이다. 일 실시예에서, 모듈(260)은 (1) 하나 이상의 이미지/비디오 프레임들을 포함하는 시각적 데이터를 입력으로서 수신하고, 시각적 처리 알고리즘(가령, 객체 인식 알고리즘)에 기반하여 시각적 데이터를 처리하고, 처리 결과(가령, “개(dog)”와 같이 시각적 데이터에 존재하는 객체의 분류 라벨)를 나타내는 해당하는 시각적 분류자 결과(즉, 인식 결과)를 생성하도록 구성된다. 모듈(260)은 또한, 전자 기기(100)의 하나 이상의 센서들(150)에 의해 캡처된 센서 기반 정황 정보나 전자 기기(100)와 관련된 장치 정보와 같은 추가 입력들에 의존할 수도 있다.

애플리케이션(250)은 하나 이상의 모듈들(260)을 이용하여 하나 이상의 바람직한 비전 처리 작업들을 수행할 수 있다. 애플리케이션(250)과 하나 이상의 모듈들(260)의 간단한 통합을 가능하게 하기 위해, 일 실시예에서 VI 관리 시스템(300)은 애플리케이션(250)에 호스팅할 하나 이상의 프레젠테이션 계층들(2550)을 제공한다. 각각의 프레젠테이션 계층(255)은 하나 이상의 모듈 컨테이너들(270) 안에서 실행되는 하나 이상의 모듈들(260)과의 통신을 처리하도록 구성된 소규모의 내장 가능한 애플리케이션을 포함하는 플러그인(plug-in) 메커니즘이다.

일 실시예에서, 프레젠테이션 계층(255)은 호스팅 애플리케이션(250)이 프레젠테이션 계층(255)을 통해 통신할 모듈(260)의 설정 및 상태 관리를 위해 사용이 용이한 API를 포함한다. 모듈(260)이 프레젠테이션 계층(255)을 통해 설정되었으면, 호스팅 애플리케이션(250)이 모듈(260)에서 리턴된 시각적 분류자 결과를 수신하기 위한 리스너(listener)를 등록할 수 있다. 모듈(260)은 시각적 분류자 결과를 프레젠테이션 계층(255)이나 호스팅 애플리케이션(250) 자체에 직접적으로 리턴 할 수 있다.

일 실시예에서, 프레젠테이션 계층(255)은 시각적 데이터를 처리하도록 모듈(260)을 이용하고, 처리 후 모듈(260)에 의해 리턴된 시각적 분류자 결과를 디스플레이 하기 위한 사용자 인터페이스(UI) 요소 및 관련 애플리케이션 로직을 포함한다.

일 실시예에서, 모듈(260)은 비디오 스트리밍 동작이나 단일 샷 동작을 위해 구성될 수 있다. 비디오 스트리밍 동작은 카메라 애플리케이션(161)이나 갤러리 애플리케이션(162)과 같은 시각적 데이터 획득 애플리케이션을 관련시켜, 라이브(live) 이미지/비디오 프레임들이나 녹화된 이미지/비디오 프레임들을, 처리할 입력으로서 모듈(260)에 연속해서 전달한다. 단일 샷 동작은 카메라 애플리케이션(161)이나 갤러리 애플리케이션(162)과 같은 시각적 데이터 획득 애플리케이션을 관련시켜, 단일 이미지/비디오 프레임을, 처리할 입력으로서 모듈(260)로 전달한다.

일 실시예에서, 하나 이상의 모듈들(260)은 각각의 모듈(260)이 자체 모듈 컨테이너(270) 안에서 실행되도록 자치성이 있다(autonomous). 이것은 호스팅 애플리케이션(250)의 시동 시간을 줄인다는 효과를 가지며, 하나 이상의 모듈들(260)이 실패할 경우 호스팅 애플리케이션(250)이 계속 실행 상태에 있도록 하기도 한다. 또한, 모듈(260)이 중요한 자원 수요(가령, 중요한 메모리 및/또는 처리 요건)를 가질 때, 하나 이상의 모듈들(260)을 샌드박싱(sandboxing)하는 것은 호스팅 애플리케이션(250)의 무결성과 안정성을 유지하는데 있어 중요하며, 특히 호스팅 애플리케이션(250)이 카메라 애플리케이션(161)이나 갤러리 애플리케이션(162)과 같은 시각적 데이터 획득 애플리케이션일 경우 더욱 그러하다.

일 실시예에서, 하나 이상의 모듈들(260)로부터 호스팅 애플리케이션(250)을 분리하는 것은, 하나 이상의 모듈들(260)을 개별 프로세스들로서 실행함으로써 수행된다. 예를 들어, 호스팅 애플리케이션(250)이 다수의 모듈들(260)을 이용하는 경우, 호스팅 애플리케이션(250)은 모듈들(260)에 대한 개별 프로세스들을 시동하고, 인터 프로세스 통신(inter-process communication(IPC)) 및 공유 메모리를 통해 모듈들(260)과 통신하도록 다수의 프레젠테이션 계층들(255)을 호스팅한다. 프레젠테이션 계층들(255)을 통해, 호스팅 애플리케이션(250)은 모듈들(260)을 직접 다룰 필요가 없고, 다양한 모듈들(260)을 쉽게 켜거나 끌 수 있다.

일 실시예에서, 프레젠테이션 계층(255)은 하나 이상의 증강 현실(AR) 모듈들(260)을 카메라 애플리케이션(161)에서 분리함으로써 가벼운 애플리케이션을 가능하게 할 수 있다. 이는 카메라 애플리케이션(161)과 관련하여 AR 모듈들(260)의 동적이거나 선택적인 추가, 제거, 활성화, 비활성화, 또는 업그레이드를 가능하게 한다. 예를 들어, 카메라 애플리케이션(161)에 의해 어떤 오피스의 보기가 캡처되면, 객체 인식을 위한 모듈(260)이, 존재하는 하나 이상의 가구 항목들을 분류할 수 있고, 장면 인식을 위한 다른 모듈(260)이 오피스 공간으로서 존재하는 장면을 구분할 수 있다.

프레젠테이션 계층(255)은 적은 설치 공간(즉, 작은 사이즈)을 가진다. 이와 같이, 프레젠테이션 계층(255)은 호스팅 애플리케이션(250)의 자원 활용에 대해 미치는 영향이 적다.

도 3은 하나 이상의 실시예들에 있어서 예시적인 모듈 패밀리들(400)을 도시한다. 일 실시예에서, VI 관리 시스템(300)은 이용 가능한 모듈들(260)을 다양한 모듈 패밀리들(400)로 그룹화하도록 구성된다. 각각의 모듈 패밀리(400)는 유사한 시각적 처리 기능을 가지는 모듈들(260)의 집합을 포함한다. 예를 들어, 모듈 패밀리(400)는 객체 추적과 같이 특정 문제 영역과 관련된 모듈들(260)을 포함할 수 있다. 다른 예로서, 모듈 패밀리(400)는 DL과 같이 특정 기술과 관련된 모듈들(260)을 포함할 수 있다.

도 3에 도시된 바와 같이, 일 실시예에서, 여러 모듈 패밀리들(400)은 비한정적으로, 다음 중 한 개 이상을 포함할 수 있다: (1) DL을 위한 DL 모듈 패밀리(410), (2) 얼굴 분석을 위한 얼굴 모듈 패밀리(420), (3) 제스처 분석을 위한 제스처 모듈 패밀리(430), (4) 심볼 분석을 위한 심볼 모듈 패밀리(440), (5) 객체 추적을 위한 추적 모듈 패밀리(450), (6) 클라우드 서비스를 위한 클라우드 모듈 패밀리(460), 및 (6) 테스팅을 위한 테스트 모듈 패밀리(470).

일 실시예에서, DL 모듈 패밀리(410)는 비한정적으로, 다음과 같은 모듈들(260) 중 하나 이상을 포함한다: (1) 이미지/비디오 프레임에 존재하는 하나 이상의 객체들을 분류하기 위한 분류 모듈(411), (2) 이미지/비디오 프레임에 존재하는 하나 이상의 객체들을 검출하기 위한 검출 모듈(412), (3) 이미지/비디오 프레임으로부터 하나 이상의 특성들을 추출하기 위한 특성 추출 모듈(413), (4) 이미지/비디오 프레임에 존재하는 하나 이상의 객체들과 관련된 하나 이상의 측정치들(가령, 거리들)을 판단하기 위한 깊이 추정 모듈(414), (5) 이미지/비디오 프레임을 다수의 세그먼트들로 분할하기 위한 이미지 분할(segmentation) 모듈(415), (6) 이미지/비디오 프레임을 다른 이미지/비디오 프레임의 스타일로 재구성(즉, 하나의 이미지/비디오 프레임의 보기 및 느낌을 다른 이미지/비디오 프레임에 적용)하기 위한 스타일 변환 모듈(416), 및 (7) 이미지/비디오 프레임에 존재하는 하나 이상의 객체들의 모양과 외관을 캡처(가령, 한 객체의 3차원 모델을 생성)하기 위한 객체 재구성 모듈(417).

일 실시예에서, 얼굴 모듈 패밀리(420)는 비한정적으로, 다음과 같은 모듈들(260) 중 하나 이상을 포함한다: (1) 이미지/비디오 프레임에 존재하는 얼굴을 검출하기 위한 얼굴 검출 모듈(421), (2) 이미지/비디오 프레임에 존재하는 얼굴을 인식/식별하기 위한 얼굴 인식 모듈(422), (3) 여러 이미지/비디오 프레임들에 존재하는 얼굴들 간 유사성을 측정하여 유사한 얼굴들을 그룹별로 군집시키기 위한 얼굴 클러스터링 모듈(423), 및 (4) 이미지/비디오 프레임에 존재하는 얼굴의 표정, 얼굴의 나이, 또는 얼굴의 성별 중 하나 이상을 판단하기 위한 감정/나이/성별 모듈(424).

일 실시예에서, 제스처 모듈 패밀리(430)는 비한정적으로, 다음과 같은 모듈들(260) 중 하나 이상을 포함한다: (1) 이미지/비디오 프레임에 존재하는 개인의 시선을 객체 추적하기 위한 시선 객체 추적 모듈(431), (2) 이미지/비디오 프레임에 존재하는 개인이 보여주는 손 제스처를 검출 및 인식하기 위한 핸드 제스처 모듈(432), 및 (3) 이미지/비디오 프레임에 존재하는 개인이 보여주는 신체 특성들 및 몸의 자세들 중 적어도 하나를 검출 및 인식하기 위한 신체 특성/자세 모듈(433).

일 실시예에서, 심볼 모듈 패밀리(440)는 비한정적으로, 다음과 같은 모듈들(260) 중 하나 이상을 포함한다: (1) 시각적 데이터 내 텍스트를 검출 및 인식하기 위한 텍스트 모듈(441), (2) 시각적 데이터 안의 손글씨를 검출 및 인식하기 위한 손글씨 모듈(442), 및 (3) 시각적 데이터 내 심볼들 및 사인들 중 적어도 하나를 검출 및 인식하기 위한 심볼/사인 모듈(443).

일 실시예에서, 추적 모듈 패밀리(450)는 비한정적으로, 다음과 같은 모듈들(260) 중 하나 이상을 포함한다: (1) 일련의 이미지/비디오 프레임들에 걸쳐 하나 이상의 객체들을 프레임 기반 DL 객체 추적하기 위한 프레임 기반 DL 객체 추적 모듈(451), (2) 일련의 이미지/비디오 프레임들에 걸쳐 광학 플로우(optical flow)를 수행하기 위한 광학 플로우 모듈(452), (3) 일련의 이미지/비디오 프레임들에 걸쳐 패턴들을 추적하기 위한 패턴 기반 객체 추적 모듈(453), (4) 일련의 이미지/비디오 프레임들에 걸쳐 특성들을 검출 및 인식하기 위한 특성 서술자 모델들의 모듈(454), 및 (5) 일련의 이미지/비디오 프레임들에 걸쳐 SLAM을 수행하기 위한 동시 국지화 및 매핑(simultaneous localization and mapping(SLAM)) 모듈(455).

일 실시예에서, 클라우드 모듈 패밀리(460)는 비한정적으로, 하나 이상의 웹 기반 비전 서비스들(가령, 마이크로소프트 서비스, 바이두(Baidu) 서비스 등)까지 다리를 놓는(bridge) 하나 이상의 모듈들(260)을 포함한다. 예를 들어, 클라우드 모듈 패밀리(460)는 하나 이상의 아마존 서비스(가령, 이미지/비디오 프레임에 존재하는 하나 이상의 객체들에 기반하여 쇼핑 추천안들을 제공함)와 협력하여 비전 처리 작업을 수행하기 위한 아마존 모듈(461)을 포함할 수 있다. 다른 예로서, 클라우드 모듈 패밀리(460)는 하나 이상의 구글 서비스(가령, 이미지/비디오 프레임에 존재하는 하나 이상의 객체들에 기반하는 온라인 검색 결과들)와 협력하여 비전 처리 작업을 수행하기 위한 구글 모듈(462)을 포함할 수 있다. 다른 예로서, 클라우드 모듈 패밀리(460)는 하나 이상의 IBM/왓슨(Watson) 서비스들(가령, AI 서비스들)과 협력하여 비전 처리 작업을 수행하기 위한 IBM/왓슨 모듈(463)을 포함할 수 있다.

일 실시예에서, 테스트 모듈 패밀리(470)는 비한정적으로, 다음과 같은 모듈들(260) 중 하나 이상을 포함한다: (1) 자바/자바 네이티브 인터페이스(JNI) 코드를 테스팅하기 위한 자바/JNI 모듈(471), 및 (2) 하나 이상의 프로세스들의 실행 시간을 테스팅하기 위한 타이밍 모듈(472).

도 4는 하나 이상의 실시예들에 따른 예시적 모듈(260)을 상세히 도시한다. 일 실시예에서, 모듈(260)은 하나 이상의 모델들(320), 하나 이상의 엔진들(340), 및 엔진 선택기(330)를 포함하는 내부 구조를 가진다. 모듈(260)은 특정 비전 처리 작업을 수행하기 위한 하나 이상의 모델들(320)을 이용한다. 각각의 모델(320)은 데이터셋(dataset)을 포함한다. 일 실시예에서, 각각의 모델(320)은 특정 작업(가령, 얼굴 인식과 같은 이미지 처리 작업)을 위해 트레이닝된 신경망이다.

일 실시예에서, 모듈(260)은 모듈(260)이 사용할 수 있는 다양한 타입의 모델들(320)을 관리하는 모델 에코시스템(310)을 포함한다. 모델 에코시스템(310)은 하나 이상의 모델들(320)과 모듈(260)의 런타임(run-time) 결합, 및 다른 소스들에서 다른 타입의 모델들(320)의 제공을 가능하게 하는 상위 레벨 설정 API들을 제공한다. 예를 들어, 모델 에코시스템(310)은 비한정적으로, 다음 중 한 개 이상을 포함할 수 있다: (1) 각각이 연구 커뮤니티에 의해 개발되어 자유롭게 사용 가능한 하나 이상의 커뮤니티 모델들(321), (2) 각각이 전자 기기(100)의 장치 판매자(가령, OEM)에 의해 개발되어 장치 판매자로부터 또는 판매자에 의해 면허 받은 전자 기기들 상에서만 이용 가능한 하나 이상의 판매자 모델들(322), (3) 각각이 사용자 데이터에 기반하여 개발된 하나 이상의 사용자 모델들(323)(가령, 사용자의 친구들이나 가족 구성원들을 식별하도록 사용자의 이미지/비디오 모음에 기반하여 트레이닝된 사용자 모델(323)), 및 (4) 각각이 제3자에 의해 개발되어 제휴나 라이선스를 통해 이용 가능한 하나 이상의 제3자/파트너 모델들(324).

모듈(260)은 카메라 애플리케이션(161)으로부터의 하나 이상의 카메라 이미지들/비디오들 또는 갤러리 애플리케이션(162)으로부터의 하나 이상의 갤러리 이미지들/비디오들과 같이, 전자 기기(100) 상의 시각적 데이터 획득 애플리케이션으로부터 시각적 데이터를 입력으로서 수신하도록 구성된다. 모듈(260)은 또한, 전자 기기(100)의 하나 이상의 센서들(150)로부터의 센서 기반 정황 정보나 전자 기기(100)와 관련된 장치 정보와 같은 하나 이상의 추가 입력들을 수신하도록 구성된다.

일 실시예에서, 모듈(260)은 모듈(260)에 의해 사용되는 모델(320)을 압축하도록 구성된 모델 압축부(261)를 포함한다. 일 실시예에서, 모듈(260)은 부하 밸런싱을 위해 전력 최적화 및 자원 사용을 최적화하도록 구성된 최적화부(262)를 포함한다. 일 실시예에서, 모듈(260)은 모델(320)이 소프트웨어 가속(가령, 단일 명령어 다중 데이터(single instruction, multiple data(SIMD)), 오픈 멀티 프로세싱(OpenMP) 등)으로부터 이익을 얻는지 여부를 판단하도록 구성된 소프트웨어 가속부(263)를 포함한다. 일 실시예에서, 모듈(260)은 하드웨어 가속(가령, 중앙처리부(CPU), 그래픽 처리부(GPU), FPGA(field-programmable gate array) 등)에서 이익을 얻는지 여부를 판단하도록 구성된 하드웨어 가속부(264)를 포함한다.

일 실시예에서, 모듈(260)은 모듈(260) 실행을 위해 사용 가능한 엔진들(340)(가령, 엔진 1, 엔진 2, ..., 엔진 N)의 모음으로부터 한 엔진(340)을 선택하도록 구성된 엔진 선택기(330)를 포함한다. 각각의 이용 가능한 엔진(340)은 모듈(260)을 실행하거나 실행 능력이 있는 소프트웨어 활동을 포함한다. 엔진 선택기(330)는 다수의 모듈들(260) 및/또는 다수의 모델들(320)과 함께 호스팅 애플리케이션들(250)을 위해 부하 밸런싱 및 자원 관리를 제공한다.

일 실시예에서, 각각의 모델(320)은 한 엔진(340)에 의해 지원될 수 있다. 각각의 엔진(340)은 하나 이상의 모델들(320)을 지원할 수 있다.

일 실시예에서, 모듈(260)의 애플리케이션 개발자는 모듈(260)이 사용하는 모델(320)의 필요 요건들 및/또는 파라미터들에 기반하여 어느 엔진들(340)이 모듈(260)과 관련되는지를 제어할 수 있다. 일 실시예에서, 엔진 선택기(330)는 모듈(260)의 애플리케이션 개발자가 모듈(260)과 관련을 맺은 이용 가능한 엔진들(340)의 모음에서 적합한 한 엔진(340)을 선택하도록 구성된다.

다른 실시예에서, 엔진 선택기(330)는 모듈(260)과 관련시킬 하나 이상의 엔진들(340)을 자동 선택하도록 구성된다. 구체적으로, 엔진 선택기(330)는 (1) 런타임 데이터에 기반하여 이용 가능한 엔진들(340)의 모음 중 하나 이상의 엔진들(340) 및 모듈(260) 사이의 하나 이상의 관련성을 동적으로 결정하고, (2) 결정된 하나 이상의 관련성들에 기반하여 모듈(260)을 실행하기 위해 이용 가능한 엔진들(340)의 모음에서 적합한 한 엔진(340)을 선택하도록 구성된다. 모듈(260) 및 엔진(340) 사이의 관련성을 동적으로 결정하는 능력은 모듈(260)과 엔진(340) 사이에 미리 정해진 고정 관련성(모듈(260)의 애플리케이션 개발자에 의해 제공되는 고정된 관련성)에 대한 필요요건을 없애준다. 이후 여기에 상세히 기술하겠지만, 이러한 융통성은 모듈(260)이, 온톨로지, 모듈(260)의 세부사항들, 모듈(260)의 동작에 관한 정황 정보 등과 같은 정보에 기반하여 제3자 엔진들과 같은 다양한 타입의 엔진들(340) 상에서 실행될 수 있게 한다.

엔진 선택기(330)에 의해 선택된 엔진(340) 상의 모델(320)을 이용하여 모듈(260)을 실행한 후, 모듈(260)이 생성한 시각적 분류자 결과가 하나 이상의 애플리케이션들(250)에서 호스팅된 하나 이상의 프레젠테이션 계층들(255), 또는 하나 이상의 애플리케이션들(250)로 직접 전달될 수 있다. 예를 들어, 시각적 분류자 결과는 다음 중 하나 이상으로 전달될 수 있다: (1) 갤러리 애플리케이션(162)과 같은 전자 기기(100) 상의 시각적 데이터 획득 애플리케이션, 또는 (2) VI 성분 내에서 호스팅된 VI 성분이나 프레젠테이션 계층.

다른 예에서, VI 관리 시스템(300)이 객체 인식을 위한 모델(320)을 이용하는 모듈(260)로부터, 시각적 데이터 안에서 캡처된 동물을 식별한 시각적 분류자 결과를 수신한다고 가정한다. 이후 여기에서 상세히 기술하는 바와 같이, 모델들(320)의 온톨로지에 기반하여, VI 관리 시스템(300)은 그 동물이 돌아다니는 지리적 영역들과 같이, 식별된 동물과 관련된 추가 정보에 대해 다른 모델(320)을 이용하는 다른 모듈(260)이나 동일한 모듈(260)을 다시 실행할 수 있다.

일 실시예에서, 사용자(가령, 전자 기기(100)의 사용자)는 시각적 데이터에 대해 특정 비전 처리 작업을 수행할 모듈(260)을 선택할 수 있다. 다른 실시예에서, 애플리케이션(250)은 특정 비전 처리 작업을 수행하기 위해 활성화될 하나 이상의 모듈들(260)을 선택하도록 구성된다.

도 5는 하나 이상의 실시예들에서, 카메라 애플리케이션(161)을 위한 예시적 애플리케이션 스크린(500)을 도시한다. 일 실시예에서, 카메라 애플리케이션(161)은 VI 시스템(200)을 충분히 활용하는 가상의 지원을 제공하는 AR 카메라 애플리케이션이다. 가상의 지원은 카메라(140)를 통해 실황으로 캡처되거나 갤러리 애플리케이션(162)에 저장된 이미지들/비디오들의 콘텐츠에 대한 정보를 제공하는 하나 이상의 인스톨된 AR 동작 모드들을 가진다. 각각의 인스톨된 AR 동작 모드는 특정 비전 처리 작업을 수행하도록 구성되며, 비전 처리 작업을 위해 하나 이상의 모듈들(260)을 실행시키는 카메라 애플리케이션(161) 내에서 호스팅되는 프레젠테이션 계층(255)에 해당한다. 예를 들어, 하나 이상의 인스톨된 AR 동작 모드들은 비한정적으로, 다음 중 한 개 이상을 포함할 수 있다: (1) 객체 인식을 위해 DL 모듈 패밀리(410)의 하나 이상의 모듈들(260)을 실행하는 카메라 애플리케이션(161)에서 호스팅되는 제1프레젠테이션 계층(255)에 대응하는 매직렌즈(MagicLens) 동작 모드, (2) 랜드마크/위치 인식(즉, 이미지/비디오 프레임에 존재하는 랜드마크나 위치 식별)을 위해 클라우드 모듈 패밀리(460) 중 하나 이상의 모듈들(260)을 실행하는 카메라 애플리케이션(161)에서 호스팅되는 제2프레젠테이션 계층(255)에 대응하는 랜드마크(Landmark) 동작 모드, (3) 텍스트 인식을 위해 심볼 모듈 패밀리(440) 중 하나 이상의 모듈들(260)을 실행하는 카메라 애플리케이션(161)에서 호스팅되는 제3프레젠테이션 계층(255)에 대응하는 텍스트(Text) 동작 모드, (4) 얼굴 인식을 위해 얼굴 모듈 패밀리(420) 중 하나 이상의 모듈들(260)을 실행하는 카메라 애플리케이션(161)에서 호스팅되는 제4프레젠테이션 계층(255)에 대응하는 얼굴(Face) 동작 모드, 및 (5) 각각이 제3자에 의해 맞춤화/제공되고 이미지/비디오 프레임들에 존재하는 하나 이상의 객체들을 객체 추적하기 위한 추적 모듈 패밀리(450) 중 하나 이상의 모듈들(260)을 실행하는 카메라 애플리케이션에서 호스팅되는 제5프레젠테이션 계층(255)에 대응하는 하나 이상의 제3자 동작 모드들.

일 실시예에서, 매직렌즈 동작 모드는 모델들의 제1집합(320)(즉, 기본 모델들)을 실행하도록 구성되고, 모델들의 제1집합(320)에 의해 리턴된 시각적 분류자 결과들에 기반하여 하나 이상의 추가 모델들(320)을 활성화하고 실행하도록 구성된다.

도 5에 도시된 바와 같이, 일 실시예에서, 카메라 애플리케이션(161)은 사용자에게, 사용자 선택을 위한 하나 이상의 인스톨된 AR 동작 모드들에 대응하는 하나 이상의 선택 가능한 GUI(graphical user interface) 요소들을 포함하는 애플리케이션 스크린(500)을 제공한다. 예를 들어, 도 5에 도시된 것과 같이, 애플리케이션 스크린(500)은 비한정적으로, 다음 중 한 개 이상을 포함할 수 있다: (1) 매직 렌즈 동작 모드에 대응하는 제1GUI 요소(501), (2) 랜드마크 동작 모드(502)에 대응하는 제2GUI 요소(502), (3) 텍스트 동작 모드(503)에 대응하는 제3GUI 요소(503), (4) 얼굴 동작 모드에 대응하는 제4GUI 요소(504), 및 (5) 특정한 제3자 동작 모드에 대응하는 제5GUI 요소(505). 일 실시예에서, 애플리케이션 스크린(500)은 카메라 애플리케이션(161) 안에 하나 이상의 추가 AR 동작 모드들을 다운로드 하여 설치하는 옵션을 사용자에게 제공하는 선택 가능한 GUI 요소(506)를 더 포함한다.

일 실시예에서, VI 관리 시스템(300)과 함께 카메라 애플리케이션(161)은 단지 이미지와 비디오를 캡처 하는 것 이상으로 카메라 애플리케이션의 기능들을 확장시키는 실제의 브라우저로서 기능한다. 카메라 애플리케이션(161)은 사용자의 디지털 세상을 실제의 세상으로 연결하여, 사용자가 카메라 애플리케이션(161) 안에서 바로, 시각적 데이터에 존재하는 객체들, 장면들, 사람들 및 경험들에 대한 콘텐츠와 정황에 대해 검색, 탐색하고 보다 더 습득할 수 있게 한다.

일 실시예에서, 추가적 AR 동작 모드들을 설치 및 다운로드 하는 능력은, 파트너들과 애플리케이션 개발자들이 전자 기기(100)의 사용자들에게 새로 업데이트된 AR 애플리케이션들을 제공할 수 있게 하는 AR 애플리케이션 에코시스템을 가능하게 한다.

일 실시예에서, 카메라 애플리케이션(161)은 VI 관리 시스템(300)과 함께, 전자 기기(100)의 장치 판매자가 제공하는 모바일 결제 및 디지털 지갑 서비스 및/또는 하나 이상의 제3자 모바일 결제 및 디지털 지갑 서비스들을 통한 트랜잭션들을 위해 모바일 전자상거래(eCommerce) 채널을 제공한다.

일 실시예에서, 카메라 애플리케이션(161)은 VI 관리 시스템(300)과 함께, 사용자가 카메라 애플리케이션(161) 및/또는 갤러리 애플리케이션(162)을 통해 보았거나 상호 동작한 것을 기억하는 지능형 비전 메모리 서비스로서 동작하고, 사용자의 명령에 따라 시각적 데이터에 존재하는 객체들, 장면들, 사람들 및 경험들에 대한 콘텐츠와 정황을 추천하고 검색한다.

도 6은 하나 이상의 실시예들에서, 카메라 애플리케이션(161)을 위한 다른 예시적 애플리케이션 스크린(510)을 도시한다. 전자 기기(100)의 사용자가 카메라 애플리케이션(161)을 사용하고 있을 때, VI 관리 시스템(300)은 전자 기기(160)의 GPS에 의해 캡처된 위치 데이터를 포함하는 센서 기반 정황 정보를 수신하며, 상기 위치 데이터는 사용자가 영화관에 있음을 나타낸다고 가정한다. 카메라 애플리케이션(161)에서 호스팅된 프레젠테이션 계층(255)은 카메라(140)의 카메라 보기 내 포스터가 대응되는 영화를 식별하기 위해 그 포스터를 처리할 포스터 인식을 위한 모듈(260)을 실행할 수 있다. 도 6에 도시된 바와 같이, 모듈(260)로부터 식별된 영화를 나타내는 시각적 분류자 결과를 수신함에 따라, 카메라 애플리케이션(161)은 사용자에게 애플리케이션 스크린(510)을 제공할 수 있고, 애플리케이션 스크린(510)은 시각적 분류자 결과(즉, 식별된 영화의 제목)를 디스플레이 하여, 사용자에게 식별된 영화에 대한 영화표들을 구매하기 위한 제3자 애플리케이션을 일으키는 옵션을 제공한다.

도 7은 하나 이상의 실시예들에서, 카메라 애플리케이션(161)을 위한 다른 예시적 애플리케이션 스크린(520)을 도시한다. 사용자는 어떤 식물의 이미지를 카메라 애플리케이션(161)을 통해 캡처하거나 갤러리 애플리케이션(162)으로부터 선택한다고 가정한다. 카메라 애플리케이션(161)에서 호스팅되는 프레젠테이션 계층(255)은 이미지에 존재하는 식물의 종류를 식별하기 위해 객체 인식을 위한 모듈(260)을 실행할 수 있다. 도 7에 도시된 바와 같이, 모듈(260)로부터 식별된 식물의 종류(가령, 다육 식물)를 나타내는 시각적 분류자 결과를 수신함에 따라, 카메라 애플리케이션(161)은 사용자에게 애플리케이션 스크린(520)을 제공할 수 있고, 그 애플리케이션 스크린(520)은 시각적 분류자 결과(즉, 식별된 식물의 종류)를 디스플레이하고, 사용자에게 비한정적인 것으로서, 사용자가 그 식물을 구매할 수 있는 점포의 위치, 식물을 키우기 위한 가이드, 사용자가 온라인 상에서 그 식물을 구매하기 위해 사용할 수 있는 제3자 애플리케이션, 및 사용자가 온라인이나 직접적으로 식물을 구매할 때 쿠폰을 제공하는데 사용하는 다른 제3자 애플리케이션과 같이, 이미지와 관련된 추가 정보를 사용자에게 제공할 수 있다.

도 8은 하나 이상의 실시예들에서, 카메라 애플리케이션(161)을 위한 다른 예시적 애플리케이션 스크린(530)을 도시한다. 사용자는 어떤 식품 항목의 이미지를 카메라 애플리케이션(161)을 통해 캡처 하거나 갤러리 애플리케이션(162)으로부터 선택한다고 가정한다. 카메라 애플리케이션(161)에서 호스팅되는 프레젠테이션 계층(255)은 이미지에 존재하는 식품 항목의 유형을 식별하기 위해 객체 인식을 위한 모듈(260)을 실행할 수 있다. 도 8에 도시된 바와 같이, 모듈(260)로부터 식별된 식품 항목의 종류(가령, 치즈버거)를 나타내는 시각적 분류자 결과를 수신함에 따라, 카메라 애플리케이션(161)은 사용자에게 애플리케이션 스크린(530)을 제공할 수 있고, 그 애플리케이션 스크린(530)은 시각적 분류자 결과(즉, 식별된 식품 항목의 종류)를 디스플레이하고, 사용자에게 비한정적인 것으로서, 그 식품 항목에 대한 영양 정보, 그 식품 항목을 서비스하는 식당에 대한 온라인 리뷰, 및 사용자가 영양 정보를 자신의 음식 일지(가령, 식이/피트니스 객체 추적 애플리케이션)에 기록하기 위해 사용할 수 있는 제3자 애플리케이션과 같이, 이미지와 관련된 추가 정보를 사용자에게 제공한다.

도 9는 하나 이상의 실시예들에서, 카메라 애플리케이션(161)을 위한 다른 예시적 애플리케이션 스크린(540)을 도시한다. 일 실시예에서, 카메라 애플리케이션(161)은 애플리케이션 스크린(540)과의 하나 이상의 사용자 상호동작들에 기반하여 서로 다른 AR 동작 모드들 사이를 사용자가 스위칭 할 수 있게 한다. 예를 들어, 도 9에 도시된 바와 같이, 사용자는 손의 제스처들(가령, 직선 화살표 F로 나타낸 것과 같이, 서로 다른 AR 동작 모드들에 대응하는 서로 다른 GUI 요소들을 거치며 좌나 우로 스와이핑 함)을 사용하여 서로 다른 AR 동작 모드들 사이를 브라우징/스크롤링 할 수 있다.

VI 관리 시스템(300)과 함께, 전자 기기(100) 상에 존재하는 많은 수의 모델들(320)이 있을 수 있다. 그러나, 전자 기기(100) 상의 제한된 계산 자원 탓에, 전자 기기(100) 상에 존재하는 모든 모델들이 런 타임 중에 동시에 활성화되는 것은 실현성이 없을 수 있다. 일 실시예에서, VI 관리 시스템(300)은 런 타임 중에 하나 이상의 모델들(320)을 로딩/활성화 또는 언로딩(unloading)/비활성화하기 위한 기능을 제공함으로써, 많은 수의 모델들(320)을 수용하는 확장성의 증가 및 그에 따른 인식 능력의 개선을 제공할 수 있다. 일 실시예에서, VI 관리 시스템(300)은 실행 중인 다수의 모델들(320)을 동시에 병렬로 수용한다. 일 실시예에서, VI 관리 시스템(300)은 디바이스 상(즉, 전자 기기(100) 상) 및 클라우드 상에서(즉, 클라우드 서비스와 같이 서버(200) 상에서 원격으로) 실행 중인 모델들(320)을 수용한다.

일 실시예에서, 한 애플리케이션이 2 단계 프로세스로 전자 기기 상에 배치될 수 있다: 1) 하나 이상의 미리 트레이닝된 모델들이 많은 양의 트레이닝 데이터와 함께 복잡한 신경망 구조들을 사용하여 생성되는 습득(learning) 프로세스, 및 2) 미리 트레이닝된 모델에 기반하여 추정이 수행되는 추정 프로세스. 구체적으로, 추정 프로세스에서 하나 이상의 미리 트레이닝된 모델들이 이용 가능할 때, 시각적 데이터를 분석하기 위한 하나 이상의 미리 트레이닝된 모델들로부터 사용 가능한 하나 이상의 인식 기능들을 사용하기 위한 애플리케이션이 개발될 수 있다. 이것은 하나 이상의 미리 트레이닝된 모델들을 사용하여 특정 객체들의 집합을 인식하기 위한 하나 이상의 AR 애플리케이션들을 개발하는데 사용될 수 있다. 또한, 각각의 애플리케이션은 특정 모델에 결합되어 있고, 각각의 모델은 트레이닝 데이터에 기반하여 소정 수의 객체 카테고리들을 인식할 수 있다.

일 실시예에서, VI 관리 시스템(300)은 다수의 모델들(320)에 기반하여 런 타임에서 추정을 수행하는 이점들을 이용할 수 있고, 또한 전자 기기(100)의 사용자에 대한 정황 정보(“user context”)에 기반하여 런 타임 시 모델들(320)을 스위칭할 수도 있다. 사용자 정황의 예들로는, 비한정적으로, GPS 위치, 애플리케이션 사용, 사용자 의도 등이 포함된다.

일 실시예에서, VI 관리 시스템(300)은 카테고리들 및 카테고리들 간 계층 관계에 기반하여 지능적이고 계층적인 방식으로 사전 트레이닝된 모델들을 준비하고, 각각의 계층 관계(즉, 온톨로지)는 자동으로 생성되거나(즉, 자동으로 도출되거나), 미리 정의되거나(즉, 미리 결정되거나), 애플리케이션 개발자/사용자에 의해 제공될 수 있다. 계층적 트리 구조는 포괄적/일반적 카테고리들을 나타내는 시각적 분류자 결과들에 의해 유도되는 특정 카테고리들의 인식이 뒤따르는, 포괄적/일반적 카테고리들에 대한 인식을 가능하게 한다. 일 실시예에서, VI 관리 시스템(300)은 계층적 트리 구조에 대한 간단한 변경/업데이트를 통해, 런 타임 시, 하나 이상의 카테고리들을 추가 및 제거하는 것을 지원하며, 그에 따라 가변 하는 수의 카테고리들을 가지는 확장 가능하고 동적인 시스템 구조를 제공할 수 있다.

일 실시예에서, VI 관리 시스템(300)은 동일한 시각적 데이터에 대해 다수의 모델들 및/또는 다수의 DL 엔진들을 나란하거나 순차적으로 실행할 수 있다.

일 실시예에서, VI 관리 시스템(300)은 다양한 모델들이 사용자 정황에 기반하여 전자 기기(100) 안에 유도/로딩될 수 있게 한다. VI 관리 시스템(300)은 시각적 데이터 안에 존재하는 객체들, 장면들, 사람들 및 경험들에 대한 콘텐츠 및 정황에 관하여 가변 하는 이해의 정도를 얻도록 다수의 모델들에 기반하여 시각적 데이터를 처리할 수 있다. 일 실시예에서, VI 관리 시스템(300)은 전자 기기(100)의 CPU 자원들을 이용하는 특정 모델들과 GPU와 같이 전자 기기(100)의 특별한 하드웨어를 이용하는 특정 모델들을 실행하는 융통성을 제공한다. 일 실시예에서, VI 관리 시스템(300)은 전자 기기(100) 상에서 이용 가능한 일부 객체 카테고리들 및 클라우드로부터의 일부 객체 카테고리들을 인식하기 위한 하이브리드 방식을 제공한다.

하나의 도메인은 모델들(320)의 한 집합이다. 이 명세서에서 “모델 그래프(model graph)”라는 용어는 일반적으로, 카테고리들(가령, 객체 카테고리들)의 계층적 트리 구조를 나타내는 직선 그래프를 일컫는다고 할 수 있다. 일 실시예에서, 모델 그래프는 다음을 포함하는 다수의 카테고리 노드들을 포함한다: (1) 모델 그래프가 나타내는 도메인을 나타내는 도메인 루트(root)를 나타내는 제1카테고리 노드, 및 (2) 도메인에 포함된 다수의 모델들(320)을 나타내는 다수의 추가 카테고리 노드들. 모델 그래프는 또한, 다수의 카테고리 노드들 사이의 하나 이상의 계층적 링크들을 더 포함한다. 각각의 계층적 링크는 한 쌍의 모델들 간 계층 관계를 나타낸다. 일 실시예에서, 모델 그래프는 다음과 같은 타입의 계층적 링크들 중 적어도 하나를 포함할 수 있다: 카테고리 온톨로지 링크들이나 카테고리 유사도 링크들. 이후 도 12를 참조하여 여기에 상세히 기술하는 바와 같이, 한 쌍의 모델들 간 카테고리 온톨로지 링크는 그 한 쌍의 모델들에 관한 온톨로지 정보에 기반한다. 이후 도 14를 참조하여 여기에 상세히 기술하는 바와 같이, 한 쌍의 모델들 간 카테고리 유사도 링크는 그 한 쌍의 모델들 간 유사도 메트릭에 기반한다.

다양한 타입의 도메인들의 예들로는, 비한정적으로 다음과 같은 것들이 포함된다. (1) 하나 이상의 모델들(320)에 의해 인식 가능한 일상적 객체들 및 동물들을 나타내는 일상적(Everyday) 도메인, (2) 하나 이상의 모델들(320)에 의해 인식 가능한 실내 및 실외 위치들/랜드마크들을 나타내는 장소(Places) 도메인, (3) 하나 이상의 모델들(320)에 의해 인식 가능한 식품 항목들을 나타내는 식품(Food) 도메인, (5) 하나 이상의 모델들(320)에 의해 인식 가능한 영화 포스터들을 나타내는 포스터(Posters) 도메인, (6) 하나 이상의 모델들(320)에 의해 인식 가능한 미국의 사인(sign) 언어를 나타내는 사인(Sign) 도메인, (7) 하나 이상의 모델들(320)에 의해 인식 가능한 연령 그룹들을 나타내는 연령(Age) 도메인, (8) 하나 이상의 모델들(320)에 의해 인식 가능한 성별 그룹들을 나타내는 성별(Gender) 도메인, (9) 하나 이상의 모델들(320)에 의해 인식 가능한 상표 로고들을 나타내는 로고(Logos) 도메인, (10) 하나 이상의 모델들(320)에 의해 인식 가능한 기본적인 사용자 감정들을 나타내는 감정(Emotions) 도메인, 및 (11) 하나 이상의 모델들(320)에 의해 인식 가능한 꽃의 종류들을 나타내는 꽃(Flowers) 도메인.

도 10은 하나 이상의 실시예들에 따른 예시적 실행 관리자(700)를 도시한다. 일 실시예에서, VI 관리 시스템(300)은 다수의 모델들(320)에 기반하여 런 타임에서 추정을 수행하고, 정황 정보(즉, 런 타임 중에 모델들(320)의 실시간 관리)에 기반하여 런 타임 시 모델들(320)을 스위칭하기 위한 실행 관리자(700)를 포함한다. 실행 관리자(700)는 다수의 모델들(320)이 동시에 실행되는 병렬 모델 실행을 돕는다.

이후 여기에서 상세히 기술하는 바와 같이, 일 실시예에서, 정황(가령, 사용자 정황) 및 애플리케이션 설정(가령, 서비스 품질 설정)에 기반하여 런 타임 중에 어느 모델들을 실행할지를 결정하기 위해, 실행 관리자(700)는 다음과 같은 것들의 각각을 수행하도록 구성된다: (1) 실행 관리자(700)에 의해 수신된 시각적 데이터에 적합한 도메인이 선택되는 도메인 선택 프로세서, 및 (2) 선택된 도메인에 포함된 하나 이상의 모델들(320)이 런 타임 중에 실행되기 위해 선택되는 모델 선택 프로세스.

일 실시예에서, 실행 관리자(700)는 런 타임 중에, VI 관리 시스템(300)에 의해 관리되는 액티브 모델들(즉, 활성/로딩된 모델들)(320)의 집합(740)을 액세스하도록 구성된다. 액티브 모델(320)은 런 타임 중에 액티브 모델(320)이 실행 중인 해당 액티브 엔진(340)으로 로딩되는 모델(320)이다. 액티브 엔진(340)은 런 타임 중에 활성화된 엔진(340)이다. 그 집합(740)은 커뮤니티 모델(321), 판매자 모델(322), 사용자 모델(323), 및 제3자/파트너 모델(324) 중 적어도 하나를 포함할 수 있다.

일 실시예에서, 실행 관리자(700)는 다음과 같이 동작하도록 구성된 분산부(711)를 포함하는 모델 실행 시스템(710)을 포함한다: (1) 하나 이상의 이미지/비디오 프레임들(가령, 카메라 애플리케이션(161)이나 갤러리 애플리케이션(162)으로부터 나옴)을 포함하는 시각적 데이터를 입력으로서 수신하고, (2) 액티브 모델들(320)의 집합(740)을 실행하는 모든 액티브 엔진들(340)로 시각적 데이터를 전달/패스함. 각각의 액티브 엔진(340)은 액티브 엔진(340)에 로딩된 적어도 하나의 액티브 모델(320)에 기반하여 시각적 데이터를 처리하고, 시각적 데이터에 존재하는 하나 이상의 객체들에 대한 하나 이상의 분류 레벨들(가령, 객체 카테고리들) 및/또는 시각적 데이터 내에서 하나 이상의 객체들이 검출된 하나 이상의 영역들을 나타내는 해당하는 시각적 분류자 결과를 생성한다. 생성된 각각의 시각적 분류자 결과는 하나 이상의 관련 신뢰 값들을 가질 수 있고, 이때 각각의 신뢰 값은 시각적 분류자 결과의 정확도를 나타낸다.

일 실시예에서, 모든 액티브 엔진들(340)은 액티브 엔진들(340) 안에 로딩된 액티브 모델들(320)을 동시에 실행함으로써 시각적 데이터를 나란히 처리할 수 있다(즉, 병렬 모델 실행). 다른 실시예에서, 액티브 엔진들(340)은 시각적 데이터를 순차적으로 처리한다. 또 다른 실시예에서, 액티브 엔진들(340)은 시각적 데이터를 부분적으로 나란히, 그리고 부분적으로 순차적으로 처리한다.

예를 들어, 실행 관리자(700)는 N 개 이상의 액티브 엔진들(340)을 나란히 실행하도록 구성된다고 가정할 수 있다. 또한, 런 타임 도중의 어느 시점에, 시각적 데이터를 처리하는데 M 개의 모델들이 요구되며, 이때 N < M이다. 실행 관리자(700)는 N 개의 액티브 엔진들(340)을 이용하여 제1N 개의 모델들을 병렬 실행할 수 있고, 모든 M 개의 모델들이 다 실행될 때까지 최대 N 개의 모델들의 그룹들의 병렬 실행이 뒤따른다.

일 실시예에서, 모델 실행 시스템(710)은 모든 액티브 엔진들(340)로부터의 모든 시각적 분류자 결과들을 병합/결합(즉, 결과 종합)하도록 구성된 종합부(712)를 포함한다.

일 실시예에서, 모델 실행 시스템(710)은 다음과 같은 동작을 하도록 구성된 선택부(713)를 포함한다: (1) 실행이 완료되는 때를 판단하기 위해 각각의 액티브 엔진(340)이 생성한 각각의 시각적 분류자 결과를 모니터링하고, (2) 중복된 시각적 분류자 결과들을 제거하고, (3) 하나 이상의 미리 정해진 신뢰 문턱치들(즉, 낮은 신뢰 값들)을 만족시키지 못하는 관련 신뢰 값들을 가지는 시각적 분류자 결과들을 제거함.

일 실시예에서, 실행 관리자(700)는 실행 관리자(700)가 수신한 시각적 데이터에 적합한 도메인을 자동 선택(즉, 도메인 선택 프로세스)하도록 구성되는 도메인 선택 시스템(720)을 포함하며, 이때 선택된 도메인은 런 타임 중에 활성화할 후보들인 하나 이상의 모델들(320)을 포함한다. 도메인 선택 시스템(720)은 비한정적으로 다음과 같은 방법들에 따라 도메인을 자동 선택하도록 구성된다: 계층구조 기반 도메인 선택 방법, 특성 벡터 기반 도메인 선택 방법, 또는 시간 기반 도메인 선택 방법.

일 실시예에서, 도메인 선택 시스템(720)은 계층구조 기반 도메인 선택 방법을 적용하도록 구성된 계층구조 기반 도메인 선택기(721)를 포함한다. 계층구조 기반 도메인 선택 방법은 계층적 트리 구조에 포함된 모델들(320) 간 하나 이상의 계층 관계(즉, 카테고리 온톨로지 링크들 및/또는 카테고리 유사도 링크들)에 기반하여 도메인을 선택하는 것을 포함한다. 예를 들어, 시각적 데이터를 처리하기 위해 제1도메인이 현재 선택되어 있다고 가정할 수 있다. 시각적 데이터에 존재하는 객체는 제1도메인에 포함된 모델(320)에 의해 인식되므로, 계층구조 기반 도메인 선택기(721)는 제1도메인에서 제2도메인까지 카테고리 온톨로지 링크나 카테고리 유사도 링크를 따라감으로써 시각적 데이터의 추가 처리에 적합한 제2도메인을 선택할 수 있다.

다른 실시예에서, 도메인 선택 시스템(720)은 특성 벡터 기반 도메인 선택 방법을 적용하도록 구성된 특성 벡터 기반 도메인 선택기(722)를 포함한다. 특성 벡터 기반 도메인 선택 방법은 시각적 데이터에서 추출된 하나 이상의 특성 표현들(즉, 특성 벡터들)에 기반하여 도메인을 선택하는 것을 포함한다. 일 실시예에서, 각각의 이용 가능한 도메인에 있어서, 특성 벡터 기반 도메인 선택기(722)는 해당 도메인에 대해 대응하는 특성 표현을 결정하여, 그 도메인에 대해 대응하는 메타데이터 정보와 함께 그 특성 표현을 (가령, 하나 이상의 저장부들(120)에) 저장하도록 구성된다. 시각적 데이터를 수신함에 따라, 특성 벡터 기반 도메인 선택기(722)는 시각적 데이터의 각각의 이미지/비디오 프레임에 대해 다음과 같은 동작을 수행하도록 구성된다: (1) 이미지/비디오 프레임에 대해 대응하는 특성 표현을 판단하고, (2) 각각의 이용 가능한 도메인에 대해, 이미지/비디오 프레임에 대해 대응하는 특성 표현 및 도메인에 대해 저장된 특성 표현 간 거리를 표현하는 해당 거리 메트릭을 결정하고, (3) 이용 가능한 도메인들로부터 최소 거리 메트릭을 가진(즉, 이미지/비디오 프레임에 대해 대응하는 특성 표현에 가장 가까운 특성 표현을 가진) 한 도메인을 선택함.

다른 실시예에서, 도메인 선택 시스템(720)은 시간 기반 도메인 선택 방법을 적용하도록 구성된 시간 기반 도메인 선택기(723)를 포함한다. 시간 기반 도메인 선택 방법은 하나 이상의 시간 윈도우들에 대한 하나 이상의 시각적 분류자 결과들에 기반하여 도메인을 선택하는 것을 포함한다. 일 실시예에서, 각각의 이용 가능한 도메인에 있어서, 시간 기반 도메인 선택기(723)는 해당 도메인에 대해 대응하는 특성 표현을 결정하여, 그 도메인에 대해 대응하는 메타데이터 정보와 함께 그 특성 표현을 (가령, 하나 이상의 저장부들(120)에) 저장하도록 구성된다. 시각적 데이터를 수신함에 따라, 시간 기반 도메인 선택기(723)는 시각적 데이터를 다수의 시간 윈도우들 안으로 분할하도록 구성되며, 각각의 시간 윈도우는 시각적 데이터 안에 포함된 이미지/비디오 프레임들의 시퀀스(즉, 부분집합)을 포함한다. 일 실시예에서, 시각적 데이터는 장면 경계들에 기초해 다수의 시간 윈도우들 안으로 분할될 수 있다. 각각의 시간 윈도우에 있어서, 시간 기반 도메인 선택자(723)는 다음과 같은 동작을 수행하도록 구성된다: (1) 시간 윈도우에 대해 대응하는 특성 표현을 판단하고, (2) 각각의 이용 가능한 도메인에 대해, 시간 윈도우에 대해 대응하는 특성 표현 및 도메인에 대해 저장된 특성 표현 간 거리를 표현하는 해당 거리 메트릭을 결정하고, (3) 이용 가능한 도메인들로부터 최소 거리 메트릭을 가진(즉, 시간 윈도우에 대해 대응하는 특성 표현에 가장 가까운 특성 표현을 가진) 한 도메인을 선택함.

일 실시예에서, 실행 관리자(700)는 다음과 같은 동작을 하도록 구성된 모델 선택 시스템(730)을 포함한다: (1) 도메인 선택 시스템(720)으로부터 선택된 도메인을 수신하고, (2) 선택된 도메인에 기반하여, 런 타임 중에 어떤 모델들(320)을 로딩/활성화 및 언로딩/비활성화할지를 판단하고(즉, 모델 선택), (3) 선택된 도메인에 기반하여, 런 타임 중에 어떤 엔진들(340)을 활성화 또는 종료시킬 지를 판단함(즉, 엔진 부하 밸런싱). 모델 선택 시스템(730)은 애플리케이션 개발자/사용자가 활성화시킬 모델들을 명시적으로 선택해야 할 필요성을 없애기 때문에 사용자 편의성을 높인다.

일 실시예에서, 모델 선택 시스템(730)은 선택 도메인으로부터 로딩/활성화할 모델을 선택하기 위해 서비스 품질(QoS) 산정 방법을 적용한다.

일반적으로 r은 모델 m을 이용하여 결정된 분류 라벨 n을 포함하는 시각적 분류자 결과를 나타내는 것으로 한다. link(m, n)은 일반적으로, 모델 m 및 분류 라벨 n에 기반하는 카테고리 온톨로지 링크들 및 카테고리 유사도 링크들의 집합을 나타내는 것으로 한다. m’은 일반적으로 link(m, n)이 가리키는 모델들(320)의 집합을 나타내는 것으로 한다. M’는 일반적으로, 시각적 분류자 결과들의 집합에 걸쳐 m’의 집합을 취함으로써 형성되는 모델들(320)의 집합을 나타낸다. 일 실시예에서, 모델 선택 시스템(730)은 다음과 같은 동작을 하도록 구성된 모델 부하 밸런싱부(731)를 포함한다: (1) 집합 M’ 내 각각의 모델(320)을 활성화할 후보로서 식별하고, (2) 집합 M’ 내 각각의 모델(320)에 대해 대응하는 실행 명령을 결정하고, (3) 대응하는 실행 명령에 따라 집합 M’ 내 각각의 모델(320)에 대한 활성화를 조정하는 동작.

일 실시예에서, 모델 부하 밸런싱부(731)는 다음과 같은 정보에 기반하여 집합 M’ 내 각각의 모델(320)에 대해 대응하는 실행 명령을 결정하도록 구성된다. (1) QoS 선호 정보(QoS preferences information)(732), 및 (2) 모델 메타데이터 정보(733). QoS 선호 정보(732)는 비한정적으로, 다음 중 한 개 이상을 포함할 수 있다: (1) 디바이스 상에서 동시에 실행될 수 있는 엔진들(340)에 대한 소정 문턱치, (2) 엔진들(340) 및 모델들(320)에 대한 자원 요건들(가령, 메모리 및 GPU와 같은 특수한 하드웨어), 및 (3) 현재 액티브 엔진들(340) 안에 로딩된 액티브 모델들(320)의 현재의 활동들로서, 일부 모델들(320)은 활성 상태를 유지해야 하는 반면 다른 것들은 “오프라인”(즉, 비활성화/언로딩) 상태로 설정됨. 모델 메타데이터 정보(733)는 비한정적으로, 다음 중 한 개 이상을 포함할 수 있다: (1) 선택된 도메인 안에 포함된 모든 모델들(320)에 대한 모델 우선순위들로서, 선택된 도메인을 표현하는 모델 그래프의 도메인 루트(root) 근처에 있는 것들과 같은 일부 모델들(320)은 패스들(passes) 사이에서 활성화 상태로 유지될 수 있음, (2) 선택된 도메인에 포함된 모든 모델들(320)에 대한 모델 레지던시들(residencies)로서, 각각의 모델(320)은 모델(320)이 디바이스 상에서 실행될 것을 요하는 모델 레지던시를 가지거나(즉, 온 디바이스(on-device) 모델), 모델(320)이 클라우드 상에서 실행될 것을 요하는 다른 모델(즉, 온 클라우드(on-clound) 모델)을 가짐.

일 실시예에서, 실행 관리자(700)는 온 디바이스 모델들과 온 클라우드 모델들을 심리스로(seamlessly) 결합한다. 각각의 온 디바이스 모델에 있어서, 모델 부하 밸런싱부(731)는 적절한 하이퍼 파라미터들을 가진 엔진(340)을 활성화/시동하고 그 온 디바이스 모델을 액티브 엔진(340) 안에 로딩함으로써 온 디바이스 모델을 활성화한다. 각각의 온 클라우드모델에 있어서, 모델 부하 밸런싱부(731)는 온 클라우드 모델을 실행할 클라우드 서비스와 통신해야 하는 클라이언트 엔드 포인트(endpoint)를 초기화한다. 모델 부하 밸런싱부(731)는 활성화된 각각의 엔진(340) 및/또는 초기화된 각각의 클라이언트 엔드 포인트와 메시지를 교환할 수 있다(가령, 활동 요청 및 활동 응답 교환).

도 11은 하나 이상의 실시예들에서, 활성화할 모델(320)을 자동적으로 선택하는 예시적 프로세스(750)의 흐름도이다. 프로세스 블록 751에서, 선택된 도메인을 (가령, 도메인 선택 시스템(720)에서) 수신한다. 프로세스 블록 752에서, QoS 선호사항들(가령, QoS 선호 정보(732))을 획득한다. 프로세스 블록 753에서, 선택된 도메인에 포함된 모든 모델들에 대한 메타데이터를 획득한다(가령, 모델 메타데이터 정보(733)). 프로세스 블록 754에서, 선택된 도메인에 포함된 각각의 모델에 있어서, 모델의 QoS 선호사항들 및 메타데이터에 기반하여 해당 레이턴시(대기시간) 스코어, 해당 정확도 스코어, 해당 메모리 스코어, 및 해당 하드웨어 스코어를 결정한다. 프로세스 블록 755에서, 선택된 도메인에 포함된 각각의 모델에 있어서, 모델의 해당 레이턴시 스코어, 해당 정확도 스코어, 해당 메모리 스코어, 및 해당 하드웨어 스코어에 기반하여 전반적 해당 스코어를 결정한다. 프로세스 블록 756에서, 선택된 도메인에 포함된 모든 모델들에 걸친 전반적 최고 스코어를 가진 모델을 런 타임 중 활성화하기 위해 선택한다.

일 실시예에서, 프로세스 블록들 751-756은 비한정적으로, 모델 부하 밸런싱부(731)와 같은, 모델 선택 시스템(730)의 하나 이상의 성분들에 의해 수행될 수 있다.

도 12는 하나 이상의 실시예들에서, 카테고리 온톨로지(ontology) 링크들을 포함하는 예시적 모델 그래프(800)를 도시한다. 모델 그래프(800)는 모델 그래프(800)가 표현하는 일상(Everyday) 도메인을 나타내는 도메인 루트(805)를 포함한다. 모델 그래프(800)는 비한정적으로, 일상적 객체들을 인식하기 위한 객체 인식 모델(810), 장면들을 인식하기 위한 장면 인식 모델(820), 차량 모델들을 인식하기 위한 차량 모델(830), 및 자연을 인식하기 위한 자연 모델(840)과 같은 다수의 모델들(320)을 나타내는 다수의 카테고리 노드들을 포함한다.

도 12에 도시된 바와 같이, 객체 인식 모델(810)은 신발 종류/브랜드를 인식하기 위한 신발 모델(811), 가방 종류/브랜드를 인식하기 위한 가방 모델(812), 및 옷 종류/브랜드를 인식하기 위한 옷 모델(813)과 같은 하나 이상의 추가 모델들(320)에 링크된다.

일 실시예에서, 계층구조 기반 도메인 선택기(721)는 모델(320)이 인식한 각각의 객체가 모델 그래프의 한 카테고리 노드와 연관된다고 추정하며, 더 나아가 모델(320)은 카테고리 노드들의 집합과 연관된다고 추정한다. 일 실시예에서, 계층구조 기반 도메인 선택기(721)는 제1모델 m1이 인식한 객체가 제2모델 m2의 카테고리 노드들 중 하나와 동일한 카테고리 노드를 가지는 경우, 제1모델 m1 및 제2모델 m2 사이의 카테고리 온톨로지 링크를 생성/형성한다. 일 실시예에서, 모델 그래프(800)는 하나 이상의 카테고리 온톨로지 링크들을 포함한다. 예를 들어, 도 12에 도시된 바와 같이, 모델 그래프(800)는 동물들의 모델(841)과, 개 종류/품종들을 인식하기 위한 개 모델들(841A)과 같은 온 디바이스 모델들(320) 각각 간의 카테고리 온톨로지 링크(806A)를 포함한다. 도 12에 도시된 바와 같이, 모델 그래프(800)는 가방 모델(812)과, 제1브랜드 유형(가령, 코치(Coach))의 가방들을 인식하기 위한 제1브랜드 모델(812A), 제2브랜드 유형(가령, 코어스(Kors))의 가방들을 인식하기 위한 제2브랜드 모델(812B), 및 제3브랜드 유형(가령, 케이트 스페이더(Kate Spader))의 가방들을 인식하기 위한 제3브랜드 모델(812C)과 같은 온클라우드 모델들 각각 간의 카테고리 온톨로지 링크(806B)를 더 포함한다.

일 실시예에서, 계층구조 기반 도메인 선택기(721)는 표준 워드 공간(가령, WordNet)을 이용하여, 한 모델이 인식한 객체들로부터 하나 이상의 다른 모델들이 인식한 객체들까지의 카테고리 온톨로지 링크들을 생성한다.

도 13a-13c는 하나 이상의 실시예들에서, 활성화할 모델(320)을 자동적으로 선택하기 위해 실행 관리자(700)가 수행하는 동작들의 시퀀스를 예시한다. 구체적으로, 도 13a는 하나 이상의 실시예들에서, 실행 관리자에 의해 초기 활성화된 하나 이상의 모델들을 도시한 모델 그래프이다. 도 13a에서 도시된 바와 같이, 초기 상태(즉, 실행 관리자(700)가 시각적 데이터를 받기 전)에서, 실행 관리자(700)는 다음과 같은 두 모델들(329)만을 활성화한다: (1) 일상의 객체들을 인식하기 위한 객체 인식 모델(860), 및 (2) 장면들을 인식하기 위한 장면 인식 모델(870). 고양이 인식 모델(861), 개 인식 모델(862), 영화 인식 모델(871), 아웃도어 인식 모델(872), 및 포스터 인식 모델(871A)와 같이 도 13a에 도시된 다른 모든 모델들(320)은 비활성화된다.

도 13b는 하나 이상의 실시예들에서, 시각적 데이터를 수신함에 따라 실행 관리자(700)에 의해 활성화된 하나 이상의 추가 모델들(320)을 도시한 업데이트된 모델 그래프(850)이다. 도 13b에 도시된 바와 같이, 개의 이미지를 포함하는 시각적 데이터를 수신함에 따라, 객체 인식 모델(860)은 시각적 데이터를 처리하고, 관련된 0.988 신뢰 값을 가진 분류 라벨 “개(dog)”를 포함하는 대응하는 시각적 분류자 결과를 생성한다. 0.988이 하나 이상의 소정 신뢰 문턱치들을 만족한다고 하면, 실행 관리자(700)가 객체 인식 모델(860) 및 개 인식 모델(862) 사이의 카테고리 온톨로지 링크에 기반하여 개 인식 모델(862)을 활성화한다. 고양이 인식 모델(861), 영화 인식 모델(871), 아웃도어 인식 모델(872), 및 포스터 인식 모델(871A)와 같이 도 13a에 도시된 다른 모든 모델들(320)은 비활성화 상태로 유지된다.

도 13c는 하나 이상의 실시예들에서, 시각적 분류자 결과에 따라 실행 관리자(700)에 의해 활성화된 하나 이상의 추가 모델들(320)을 도시한 업데이트된 모델 그래프(850)이다. 객체 인식 모델(860)이 생성한 시각적 분류자 결과에 따라, 다른 활성화된 모델(320)이 그 시각적 데이터를 처리한다. 구체적으로, 도 13c에 도시된 바와 같이, 개 인식 모델(862)이 시각적 데이터를 처리하여, 시각적 데이터 안에 존재하는 개의 견종을 식별하는 대응하는 시각적 분류자 결과를 생성한다. 예를 들어, 시각적 분류자 결과는 관련된 0.461의 신뢰 값을 가진 분류 라벨 “아펜젤러(Appenzeller)”를 포함할 수 있다.

도 14는 하나 이상의 실시예들에서, 카테고리 유사도 링크들을 포함하는 예시적 모델 그래프(800)를 도시한다. 일 실시예에서, 계층구조 기반 도메인 선택기(721)는 제1모델 m1이 인식한 객체가 유사도 메트릭들에 기반하여 제2모델 m2의 한 카테고리 노드와 유사한 카테고리 노드를 가지는 경우, 제1모델 m1 및 제2모델 m2 사이의 카테고리 유사도 링크(856)를 생성/형성한다. 일 실시예에서, 모델 그래프(800)는 하나 이상의 카테고리 유사도 링크들을 더 포함한다. 예를 들어, 도 14에 도시된 바와 같이, 모델 그래프(800)는 장면 인식 모델(820)과, 장면 인식 모델(820)이 인식한 객체 “상영 극장”이 영화 모델(821)이 인식한 객체 “영화”와 유사할 때 영화(가령, 영화 포스터들)를 인식하기 위한 영화 모델(821), 및 장면 인식 모델(820)이 인식한 객체 “동물원”이 동물 모델(841)이 인식한 객체 “동물”과 유사할 때 동물 모델(841)과 같은 모델들 각각 간의 카테고리 유사도 링크(856)를 포함한다.

일 실시예에서, 계층구조 기반 도메인 선택기(721)는 표준 워드 공간(가령, Word2Vec) 상의 워드 유사도 메트릭들을 이용하여, 한 모델(320)이 인식한 객체들로부터 하나 이상의 다른 모델들(320)이 인식한 객체들까지의 카테고리 유사도 링크들을 생성한다.

도 15는 하나 이상의 실시예들에 따른 예시적 특성 벡터 기반 도메인 선택 방법을 도시한다. 위에서 서술한 바와 같이, 특성 벡터 기반 도메인 선택기(722)가 특성 벡터 기반 도메인 선택 방법에 따라 도메인을 선택한다. Imagen은 일반적으로 실행 관리자(700)가 수신한 시각적 데이터에 포함된 이미지/비디오 프레임을 나타내고, 여기서 n은 양의 정수라고 한다. 일 실시예에서, 특성 벡터 기반 도메인 선택기(700)는 다음과 같은 동작을 하도록 구성된다: (1) 각각의 이미지/비디오 프레임 Imagen에 대해, 여러 계층들(가령, 계층 (Layer) 1, 계층 2, ..., 계층 Z-1, 계층 Z)를 포함하는 신경망 구조와 같이, 특성 추출을 위한 모델(725)을 이용하는 대응하는 중간 특성 표현 F(Imagen)를 추출하고, (2) 추출된 각각의 중간 특성 표현 F(Imagen)에 대해 선형 변환 G[](예를 들어, 평균화)을 적용(즉, G[F(Image1), F(Image2), …, F(Imagen)])함으로써 시각적 데이터에 대한 모델 고유의 중간 표현(MSIR: model specific intermediate representation)(727)을 생성하는 동작. 일 실시예에서, MSIR(727)은 (가령, 생성된 다른 MSIR들에 대해 비교할 때) 특성 벡터 기반 도메인 선택기(722)에 의해 추후 사용할 VI 관리 시스템(300)의 애플리케이션 캐시(cache)(726) 내에서 관리된다.

일 실시예에서, 특성 벡터 기반 도메인 선택기(722)는 이용 가능한 도메인들에 대한 특성 표현들에 대해, 시각적 데이터의 특성 표현들을 비교하여, 이용 가능한 도메인들로부터 최소 거리 메트릭을 가지는 도메인을 선택한다.

일 실시예에서, 클라우드 서비스가 사용되는 경우, 특성 벡터들의 사용은 프라이버시를 향상시키는데, 이는 실제의 이미지/비디오 프레임들 대신 특성 벡터들이 클라우드 서비스로 전송되기 때문이다.

도 16은 하나 이상의 실시예들에서 시간 기반 도메인 선택기(723)의 예시적 구현예를 도시한다. 위에서 서술한 바와 같이, 특성 벡터 기반 도메인 선택기(723)가 시간 기반 도메인 선택 방법에 따라 도메인을 선택한다. TemporalWindowx는 일반적으로 실행 관리자(700)가 시간이 지남에 따라 수신한 시각적 데이터에 포함된 이미지/비디오 프레임들의 시퀀스(즉, 부분집합)를 나타내고, 여기서 x는 양의 정수라고 한다. 일 실시예에서, 시간 기반 도메인 선택기(723)는 시각적 데이터를 다수의 시간 윈도우들 안으로 분할하도록 구성된다. 일 실시예에서, 시간 기반 도메인 선택기(723)는 각각의 시간 윈도우 TemporalWindowx에 대해 대응하는 특성 표현을 결정하도록 구성된다. 시간 기반 도메인 선택기(723)는 이용 가능한 도메인들에 대한 특성 표현들에 대해, 시간 윈도우들의 특성 표현들을 비교하여, 이용 가능한 도메인들로부터 최소 거리 메트릭을 가지는 도메인을 선택한다.

rTemporalWindowx는 일반적으로, 한 시간 윈도우의 시각적 분류자 결과를 나타내는 것으로 한다. 일 실시예에서, 시간 기반 도메인 선택기(723)는 각각의 시간 윈도우 TemporalWindowx에 대해 대응하는 시각적 분류자 결과 rTemporalWindowx를 결정하도록 구성된다. 일 실시예에서, 각각의 시간 윈도우 TemporalWindowx에 대해 결정된 각각의 시각적 분류자 결과 rTemporalWindowx는 시간 기반 도메인 선택기(723)에 의해 추후 사용하기 위해 VI 관리 시스템(300)의 애플리케이션 캐시(736) 안에서 관리된다.

도 17은 하나 이상의 실시예들에서, 병렬 모델 실행을 통해 구동되는 예시적 애플리케이션 스크린(900)을 도시한다. 일 실시예에서, 카메라 애플리케이션(161)의 가상의 보조자(virtual assistant)가 사용자에게 디스플레이 할 애플리케이션 스크린(900)을 생성한다. 도 17에 도시된 바와 같이, 애플리케이션 스크린(900)은 카메라(140)의 카메라 보기(901) 및 결과 카드(즉, 정보 카드)(910)를 포함하는 예시적 인터페이스이다. 결과 카드(910)는 카메라 보기(901)에 존재하는 객체에 대한 시각적 분류자 결과(911)를 포함한다. 일 실시예에서, 카메라 보기(901)에 존재하는 객체가 텍스트를 포함하면, 시각적 분류자 결과(911)는 텍스트의 광학 문자 인식(OCR)을 포함할 수 있다.

도 17에 도시된 바와 같이, 애플리케이션 스크린(900)은 비한정적으로 다음의 것들과 같은 하나 이상의 선택 가능한 GUI 요소를 포함한다: (1) 시각적 분류자 결과(911)에 대해 선택된 언어(가령, 한국어)로의 번역문을 적용하는 제1성분(912), (2) 손의 제스처(가령, 방향 화살표 A로 나타낸 좌나 우의 스와이핑)을 이용하여 여러 결과 카드들(910)에 걸친 스크롤을 행하기 위한 제2성분(913), (3) 말하기 기능(가령, 시각적 분류자 결과(911)의 머신 생성(machine-generated) 읽기를 제공)에 대한 제3성분(914), (4) 사용자 피드백을 입력으로서 수신하기 위한 제4성분(915), 및 (5) 시각적 분류자 결과(911)와 관련된 추가 정보에 대한 추가 검색을 수행하는 하나 이상의 클라우드 서비스를 적용하는 제5성분(916).

도 18a-18c는 하나 이상의 실시예들에서, 다수의 결과 카드들(910)을 디스플레이 하기 위한 다른 예시적 애플리케이션 스크린(930)을 각각 도시한다. 구체적으로, 도 18a는 하나 이상의 실시예들에서, 하나의 결과 카드(910)를 포함하는 애플리케이션 스크린(930)을 도시한다. 일 실시예에서, 카메라 애플리케이션(161)의 가상의 보조자가 사용자에게 디스플레이 할 애플리케이션 스크린(930)을 생성한다. 애플리케이션 스크린(930)은 결과 카드들(910)의 풀 업(pull-up) 리스트(931)를 포함하는 인터페이스의 예이다. 도 18a에 도시된 바와 같이, 단 하나의 결과 카드(910)만이 풀 업 리스트(931)에 디스플레이 된다. 사용자는 풀업 리스트(931)를 위로(방향 화살표 B로 도시됨) 스와이핑하여 풀 업 리스트(931)를 확장하거나 풀 업 리스트(931)를 아래로 스와이핑하여 보여지는 풀 업 리스트(931)를 축소/일축하도록 함으로써 풀 업 리스트(931)에 걸친 스크롤/브라우징을 할 수 있다.

도 18b는 하나 이상의 실시예들에서, 다수의 결과 카드들(910)을 포함하는 애플리케이션 스크린(930)을 도시한다. 도 18b에 도시된 바와 같이, 사용자가 풀 업 리스트를 위로 스와이핑함에 따라, 애플리케이션 스크린(930)은 추가적인 결과 카드들(910)을 디스플레이 하도록 업데이트된다. 사용자는 선택된 결과 카드(910)를 확장하기 위해, 디스플레이된 결과 카드들(910) 중 어느 하나를 선택하여, 선택된 결과 카드(910)에 관한 추가 세부사항들을 볼 수 있다.

도 18c는 하나 이상의 실시예들에서, 확장된 결과 카드(910)를 포함하는 애플리케이션 스크린(930)을 도시한다. 도 18c에 도시된 바와 같이, 확장된 결과 카드(910)는 결과 카드(910)에 포함된 가상 분류자 결과에 관한 추가 세부사항들 및/또는 추가 이미지들을 포함할 수 있다.

도 19a-19c는 하나 이상의 실시예들에서, 카메라(140)의 카메라 보기(901)에 존재하는 객체와 쌍을 이루는 결과 카드(910)를 디스플레이 하기 위한 다른 예시적 애플리케이션 스크린(920)을 도시한다. 구체적으로, 도 19a는 하나 이상의 실시예들에서 카메라 보기(901)에 존재하는 제1객체와 쌍을 이루는 제1결과 카드(910)를 디스플레이 하는 애플리케이션 스크린(920)을 도시한다. 일 실시예에서, 카메라 애플리케이션(161)의 가상의 보조자가 사용자에게 디스플레이 할 애플리케이션 스크린(920)을 생성한다. 도 19a에 도시된 바와 같이, 애플리케이션 스크린(920)은 카메라(140)의 카메라 보기(901), 카메라 보기(901)에 존재하는 제1객체(Object 1)에 대한 제1결과 카드(910), 및 카메라 보기(901) 안에서 제1객체가 검출된 제1영역을 강조한 제1바운딩 박스(921)를 포함하는 인터페이스 예이다. 사용자는 손의 제스처들(가령, 방향 화살표 C로 나타내는 것과 같이 좌로 스와이핑 함)을 이용하여 애플리케이션 스크린(920) 안에 포함된 다수의 결과 카드들(910) 사이를 스크롤/브라우징 할 수 있다.

도 19b는 하나 이상의 실시예들에서 카메라 보기(901)에 존재하는 제2객체와 쌍을 이루는 제2결과 카드(910)를 디스플레이 하는 애플리케이션 스크린(920)을 도시한다. 도 19b에 도시된 바와 같이, 사용자가 제1결과 카드(910)를 스와이핑 함에 따라, 애플리케이션 스크린(920)은 카메라 보기(901)에 존재하는 제2객체(Object 2)에 대한 제2결과 카드(910), 및 카메라 보기(901) 안에서 제2객체가 검출된 제2영역을 강조한 제2바운딩 박스(922)를 디스플레이 하도록 업데이트된다. 사용자는 손의 제스처들을 사용하여(가령, 방향 화살표 D로 예시한 것과 같이 좌나 우로 스와이핑) 다른 결과 카드들(910) 사이를 스크롤 할 수 있다(가령, 제1결과 카드(910)로 돌아가거나 다른 결과 카드들(910)을 봄).

도 19c는 하나 이상의 실시예들에서, 확장된 제2결과 카드(910)를 디스플레이 하는 애플리케이션 스크린(920)을 도시한다. 도 19c에 도시된 바와 같이, 사용자는 제2결과 카드(910)를 확장하기 위해 제2결과 카드(910)를 위로 스와이핑 함으로써(방향 화살표 E로 나타냄) 제2결과 카드(910)를 확장하여, 선택된 결과 카드(910)와 관련된 추가적인 세부사항을 볼 수 있다. 도 19c에 도시된 바와 같이, 확장된 제2결과 카드(910)는 제2결과 카드(910)에 포함된 가상 분류자 결과에 관한 추가 세부사항들 및/또는 추가 이미지들을 포함할 수 있다. 사용자는 확장된 제2결과 카드(910)를 아래로 스와이핑함으로써 확장된 제2결과 카드(910)를 일축시킬 수 있다.

일 실시예에서, 사용자가 스크롤/브라우징하는 것이 가능한 다수의 결과 카드들(910)이 존재할 경우, 결과 카드들(910)은 결과 카드들(910)에 포함된 가상의 분류자 결과들의 정확도(즉, 신뢰값들)에 기반하여 정리될 수 있다.

도 20은 하나 이상의 실시예들에서, 시각적 데이터를 처리하기 위한 예시적 프로세스(1000)의 흐름도이다. 프로세스 블록(1001)에서, 시각적 데이터를 포함하는 입력에 대한 도메인과 관련된 모델들의 제1집합을 실행함으로써 입력에 존재하는 하나 이상의 객체들을 분류하고, 이때 모델들의 제1집합 내 각각의 모델은 하나의 객체 카테고리에 대응하고, 각각의 모델은 시각적 분류자 결과의 정확도를 나타내는 관련 신뢰 값과 함께 입력 내 대응하는 객체 카테고리에 관한 시각적 분류자 결과를 생성하도록 트레이닝된다.

프로세스 블록 1002에서, 모델들의 제1집합 내 각각의 모델의 각각의 시각적 분류자 결과와 관련된 신뢰값에 기반하여 시각적 분류자 결과들의 제1집합을 종합한다.

프로세스 블록 1003에서, 종합된 시각적 분류자 결과들의 제1집합, 및 모델들의 제1집합 및 하나 이상의 다른 모델들 간 계층 관계에 기반하여, 입력에 대해 실행할 모델들의 제2집합을 선택한다.

프로세스 블록 1004에서, 모델들의 제2집합에 대응하는 하나 이상의 서비스 품질(QoS) 선호사항들 및 모델 메타데이터 정보에 기반하여 모델들의 제2집합의 실행 순서를 결정한다.

프로세스 블록 1005에서, 실행 순서에 따라 모델들의 제2집합을 실행한다.

일 실시예에서, 프로세스 블록들 1001-1005은 실행 관리자(700)와 같은 VI 관리 시스템(300)의 하나 이상의 성분들에 의해 수행될 수 있다.

도 21은 개시된 실시예들을 구현하는데 사용되는 컴퓨터 시스템(600)을 포함하는 정보 처리 시스템을 도시한 상위 블록도이다. 컴퓨터 시스템(600)은 전자 장치(100)나 서버 장치(가령, 서버(200))에 포함될 수 있다. 컴퓨터 시스템(600)은 하나 이상의 프로세서들(601)을 포함하며, (비디오, 그래픽, 텍스트 및 기타 데이터를 디스플레이 하기 위한) 전자적 디스플레이 장치(602), 메인 메모리(603)(가령, RAM(random access memory), 저장 장치(604)(가령, 하드 디스크 드라이브), 착탈 가능 저장 장치(605)(가령, 착탈 가능 저장 드라이브, 착탈 가능 메모리 모듈, 자기 테이프 드라이브, 광 디스크 드라이브, 컴퓨터 소프트웨어 및/또는 데이터를 안에 저장하는 컴퓨터 판독가능 매체), 뷰어(viewer) 인터페이스 장치(606)(가령, 키보드, 터치 스크린, 키패드, 포인팅 장치), 통신 인터페이스(607)(가령, 모뎀, (이더넷 카드 같은) 네트워크 인터페이스, 통신 포트, 또는 PCMCIA 슬롯 및 카드), 및 카메라(609)를 더 포함할 수 있다. 통신 인터페이스(607)는 컴퓨터 시스템 및 외부 장치들 사이에서 소프트웨어 및 데이터가 전송될 수 있게 한다. 시스템(600)은 상술한 장치들/모듈들(601 내지 607)이 연결되는 통신 인프라(608)(가령, 통신 버스, 크로스오버 바, 또는 네트워크)를 더 포함한다.

통신 인터페이스(607)를 통해 전송되는 정보는 신호를 운반하는 통신 링크를 통해 통신 인터페이스(607)가 수신할 수 있는 전자 신호, 전자기 신호, 광 신호, 또는 기타 신호들의 형태일 수 있으며, 유선 또는 케이블, 광섬유, 전화선, 휴대폰 링크, 무선 주파수(RF) 링크 및/또는 기타 통신 채널들을 이용하여 구현될 수 있다. 이 명세서 내 블록도 및/또는 흐름도들을 나타내는 컴퓨터 프로그램 명령어들은 컴퓨터, 프로그래머블 데이터 처리 장치, 또는 처리 장치들 상으로 로딩되어, 그 위에서 수행되는 일련의 동작들이 컴퓨터 구현 프로세스를 생성하도록 할 수 있다. 일 실시예에서, 프로세스(750)(도 11) 및 프로세스(1000)(도 20)의 프로세싱 명령어들은 프로세서(601)에 의해 실행되도록 메모리(603), 저장 장치(604), 및 착탈 가능 저장 장치(605) 상의 프로그램 명령어들로서 저장될 수 있다.

실시예들은 방법, 장치(시스템) 및 컴퓨터 프로그램 제품들의 흐름도들 및/또는 블록도들을 참조하여 기술되었다. 그러한 예시도/도면들에 대한 각각의 블록, 또는 이들의 조합들은 컴퓨터 프로그램 명령어들에 의해 구현될 수 있다. 컴퓨터 프로그램 명령어들은 프로세서에 의해 제공될 때, 프로세서를 통해 실행되는 명령어들이 상기 흐름도 및/또는 블록도에 특정된 기능들/동작들을 구현하기 위한 수단들을 생성하도록 하는 머신을 생성한다. 흐름도/블록도들 내 각각의 블록은 하드웨어 및/또는 소프트웨어 모듈이나 로직을 나타낼 수 있다. 다른 구현예들에서, 블록들 내에 표기된 기능들은 도면에 표시된 순서와 다르게, 동시 발생적으로나, 다른 식으로 일어날 수 있다.

"컴퓨터 프로그램 매체", "컴퓨터 사용가능 매체", "컴퓨터 판독가능 매체", 및 "컴퓨터 프로그램 제품"이라는 용어들은 일반적으로, 주 메모리, 이차 메모리, 착탈 가능 저장 드라이브, 하드 디스크 드라이브에 설치되는 하드 디스크와 같은 매체 및 신호들을 의미하는 것으로 사용된다. 이러한 컴퓨터 프로그램 제품들은 컴퓨터 시스템으로 소프트웨어를 제공하기 위한 수단들이다. 컴퓨터 판독가능 매체는 컴퓨터 시스템이 컴퓨터 판독가능 매체로부터 데이터, 명령어들, 메시지들 또는 메시지 패킷들, 및 다른 컴퓨터 판독가능 정보를 판독 가능하게 한다. 예컨대 컴퓨터 판독가능 매체는 플로피 디스크, ROM, 플래시 메모리, 디스크 드라이브 메모리, CD-ROM, 및 다른 영구 저장부와 같은 비휘발성 메모리를 포함할 수 있다. 그것은 예컨대, 컴퓨터 시스템들 간 데이터 및 컴퓨터 명령어들과 같은 정보를 전송하는데 유용하다. 컴퓨터 프로그램 명령어들은 컴퓨터, 기타 프로그래머블 데이터 프로세싱 장치, 또는 기타 전자 기기들이 특정 방식으로 기능하게 할 수 있는 컴퓨터 판독가능 매체에 저장되어, 컴퓨터 판독가능 매체에 저장된 명령어들이 흐름도 및/또는 블록도의 블록이나 블록들에서 특정된 기능/행위를 구현하는 명령어들을 포함하는 제조품을 생성하도록 한다.

당업자가 예상할 수 있듯이, 상기 실시예들의 양태들은 시스템, 방법 또는 컴퓨터 프로그램 제품으로 구현될 수 있다. 따라서, 상기 실시예들의 양태들은 전적으로 하드웨어 실시예, 또는 전적으로 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함), 또는 여기서 모두가 “회로”, “모듈” 또는 “시스템”이라 일반적으로 칭해질 수 있는 소프트웨어 및 하드웨어 양태들을 조합한 실시예의 형태를 취할 수 있다.또한, 상기 실시예들의 양태들은 컴퓨터 판독가능 프로그램 코드가 구현되어 있는 하나 이상의 컴퓨터 판독가능 매체(들)에 수록되는 컴퓨터 프로그램 제품의 형태를 취할 수 있다.

하나 이상의 컴퓨터 판독가능 매체(들)의 임의의 조합이 사용될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 저장 매체일 수 있다. 컴퓨터 판독가능 저장 매체는 예컨대, 비한정적인 것으로서, 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 기기, 또는 상술한 것의 어떤 적절한 조합일 수 있다. 컴퓨터 판독가능 저장 매체의 보다 구체적인 예들은 다음과 같은 것을 포함할 수 있을 것이다: 하나 이상의 유선을 가진 전기적 접속, 휴대형 컴퓨터 디스켓, RAM(random access memory), ROM(read-only memory), EPROM(erasable programmable read-only memory) 또는 플래시 메모리, 광 섬유, 휴대형 CD-ROM(compact disc read-only memory), 광학적 저장 장치, 자기 저장 장치, 또는 상술한 것의 어떤 적절한 조합. 이 문서와 관련하여 컴퓨터 판독가능 저장 매체는 명령어 실행 시스템, 장치 또는 기기에 의하거나 그와 관련하여 사용할 프로그램을 포함/저장할 수 있는 어떤 유형의(tangible) 매체일 수 있다.

하나 이상의 실시예들의 양태들을 위한 동작들을 실행하기 위한 컴퓨터 프로그램 코드는 자바, Smalltalk, C++ 등과 같은 제품 지향 프로그래밍 언어 및 "C" 프로그래밍 언어 또는 그와 유사한 프로그래밍 언어와 같은 통상의 절차 프로그래밍 언어들을 포함하는 하나 이상의 프로그래밍 언어들의 어떤 조합으로 작성될 수 있다. 프로그램 코드는 뷰어(viewer)의 컴퓨터 상에서 전체가, 혹은 뷰어의 컴퓨터 상에서 일부가, 혹은 단독형 소프트웨어 패키지로서, 혹은 뷰어의 컴퓨터 상에서 일부와 원격 컴퓨터 상에서 일부가, 또는 원격 컴퓨터나 서버 상에서 전체가 실행될 수 있다. 후자의 경우, 원격 컴퓨터는 LAN(local area network) 또는 WAN(wide area network)를 포함하는 어떤 타입의 네트워크를 통해 뷰어의 컴퓨터에 접속될 수 있고, 또는 (예컨대 인터넷 서비스 제공자를 이용하여 인터넷을 통해) 외부 전자 기기로의 접속이 이루어질 수 있다.

하나 이상의 실시예들의 양태들이 방법들, 장치(시스템들), 및 컴퓨터 프로그램 제품들의 흐름도들 및/또는 블록도들을 참조하여 위에서 설명되었다. 흐름도들 및/또는 블록도들의 각각의 블록, 및 흐름도들 및/또는 블록도들의 블록들의 조합들이 컴퓨터 프로그램 명령어들에 의해 구현될 수 있다. 이러한 컴퓨터 프로그램 명령어들은 머신을 생성하기 위해 특수용 컴퓨터 또는 다른 프로그래머블 데이터 프로세싱 장치의 프로세서로 제공되어, 컴퓨터나 기타 프로그래머블 데이터 프로세싱 장치의 프로세서를 통해 실행되는 명령어들이 흐름도 및/또는 블록도의 블록이나 블록들에서 특정된 기능들/행위들을 구현하기 위한 수단을 생성하도록 할 수 있다.

이러한 컴퓨터 프로그램 명령어들은 컴퓨터, 기타 프로그래머블 데이터 프로세싱 장치, 또는 기타 전자 기기들이 특정 방식으로 기능하게 할 수 있는 컴퓨터 판독가능 매체에 저장되어, 컴퓨터 판독가능 매체에 저장된 명령어들이 흐름도 및/또는 블록도의 블록이나 블록들에서 특정된 기능/행위를 구현하는 명령어들을 포함하는 제조품을 생성하도록 한다.

컴퓨터 프로그램 명령어들은 또한 컴퓨터, 기타 프로그래머블 데이터 프로세싱 장치, 또는 기타 장치 상에 로드되어 컴퓨터나 기타 프로그래머블 장치나 기타 장치 상에서 수행될 일련의 동작 단계들이 컴퓨터 구현 프로세스를 생성하도록 함으로써, 상기 명령어들이 컴퓨터나 기타 프로그래머블 장치 상에서 실행 시 흐름도 및/또는 블록도의 블록이나 블록들에서 특정된 기능/행위를 구현하기 위한 프로세스들을 제공하도록 한다.

도면의 흐름도 및 블록도들은 다양한 실시예들에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현예들의 구조, 기능, 및 동작을 예시한다. 이와 관련하여 흐름도나 블록도들의 각각의 블록은 특정된 논리적 기능(들)을 구현하기 위한 하나 이상의 실행가능 명령어들을 포함하는 모듈, 세그먼트, 또는 명령어들의 일부를 나타낼 수 있다. 다른 일부 대안적 구현예들에서, 블록들 내에 표기된 동작들은 도면에 표시된 순서와 다르게 일어날 수 있다. 예를 들어 관련된 기능에 따라, 연속으로 보여진 두 개의 블록들이 사실상 실질적으로 동시발생적으로 실행되거나, 블록들이 종종 반대의 순서로 실행될 수 있다. 블록도들 및/또는 흐름도의 각각의 블록 및 블록도들 및/또는 흐름도의 블록들의 조합이 특정 기능들이나 행위들을 수행하거나 특수용 하드웨어 및 컴퓨터 명령어들의 조합을 실행하는 특수용 하드웨어 기반 시스템들에 의해 구현될 수 있다는 것 역시 알아야 한다.

청구범위에서 단수의 구성요소에 대한 언급은 명백히 그렇게 기술된 것이 아니라면 “유일한” 것을 의미하기 보다는 “하나 이상을” 의미하도록 의도된다.당업자에게 현재 알려져 있거나 추후 알려지게 될 상술한 예시적 실시예들의 구성요소들에 대한 모든 구조적이고 기능적인 균등물들이 본 청구범위에 의해 포괄되도록 되어 있다. 이 명세서 상의 청구항 구성 요소가, “~ 하기 위한 수단(means for)”이나 “~ 하기 위한 단계(step for)”라는 구절을 사용하여 명확하게 언급된 것이 아니라면 35 U.S.C. 섹션 112, 제6문단의 규정에 의거해 해석되어서는 안될 것이다.

여기에 사용되는 용어는 특정 실시예들을 설명하기 위한 목적만을 위한 것으로 본 발명을 한정한다고 해석되지 않는다. 여기 사용된 바와 같이, 단수형은 관련 문맥이 명백히 다른 것을 지시하지 않는 한 복수형을 포함하는 것으로 의도된다. "구비한다", "구비하는", "포함한다" 및/또는 "포함하는"이라는 용어들은 이 명세서에 사용될 때 언급한 특성들, 정수들, 단계들, 동작들, 구성요소들 및/또는 컴포넌트들의 존재를 특정하지만 하나 이상의 다른 특성들, 정수들, 단계들, 동작들, 구성요소들, 컴포넌트들 및/또는 이들의 그룹들의 존재나 추가를 배제하지 않는다.

이하의 청구범위에 있는 모든 수단이나 단계에 더한 기능 요소들의 해당 구조, 물질, 동작 및 그 균등물은 구체적으로 청구된 다른 청구 요소들과 결합하여 해당 기능을 수행하기 위한 임의의 구조, 물질, 또는 동작을 포함하도록 되어 있다. 실시예들의 내용은 예시 및 설명의 목적으로 제시되었으며, 개시된 형식의 해당 실시예들에만 유일하거나 한정되는 것이어서는 안 된다. 발명의 범위 및 개념에서 벗어나지 않고 여러 수정 및 변형이 있을 수 있다는 것을 당업자라면 자명하게 알 수 있을 것이다.

실시예들은 소정 버전을 참조하여 기술되었지만, 다른 버전들도 가능하다. 따라서, 첨부된 청구항들의 사상 및 범위가 이 명세서에 포함된 바람직한 버전들에 대한 설명에 국한되어서는 안될 것이다.

Claims

시각적 데이터를 포함하는 입력에 대한 도메인과 관련된 모델들의 제1집합을 실행함으로써 상기 입력에 존재하는 하나 이상의 객체들을 분류하며, 상기 모델들의 제1집합 내 각각의 모델은 하나의 객체 카테고리에 대응하고, 상기 각각의 모델은 시각적 분류자(visual classifier) 결과의 정확도를 나타내는 관련 신뢰 값과 함께 상기 입력 내 대응하는 객체 카테고리에 관한 시각적 분류자 결과를 생성하도록 트레이닝되는 단계;
상기 모델들의 제1집합 내 각각의 모델의 각각의 시각적 분류자 결과와 관련된 신뢰 값에 기반하여 시각적 분류자 결과들의 제1집합을 종합하며, 상기 하나 이상의 객체들은, 상기 종합된 시각적 분류자 결과들의 제1집합 및 상기 모델들의 제1집합에 의해 인식된 객체들의 제1집합과 적어도 하나의 다른 모델들에 의해 인식된 적어도 하나의 객체 간의 적어도 하나의 유사도에 기초하여, 상기 입력에 대해 실행할 상기 적어도 하나의 다른 모델을 선택함으로써 더 분류되고, 하나 이상의 시각적 분류자 결과들은 디스플레이를 위해 전자 장치 상에서 실행되는 애플리케이션으로 리턴되는 단계를 포함하는 방법.
제1항에 있어서, 상기 종합된 시각적 분류자 결과들의 제1집합, 및 상기 모델들의 제1집합에 의해 인식된 상기 객체들의 제1집합 및 상기 모델들의 제2집합에 의해 인식된 객체들의 제2집합 간의 하나 이상의 유사도에 기반하여, 상기 입력에 대해 실행할 상기 모델들의 제2집합을 선택함으로써 상기 하나 이상의 객체들을 분류하는 단계를 더 포함하는 방법.
제2항에 있어서, 상기 하나 이상의 유사도는 상기 모델들의 제1집합의 제1모델 및 상기 모델들의 제2집합의 제2모델 간 카테고리 온톨로지 링크(category ontology link)를 나타내고, 상기 카테고리 온톨로지 링크는 상기 제1모델에 의해 인식된 객체가 상기 제1모델 및 상기 제2모델에 대한 온톨로지(ontology) 정보에 기초하여 상기 제2모델에 대응하는 객체 카테고리와 동일한 객체 카테고리를 갖음을 나타내는 방법.
제2항에 있어서, 상기 하나 이상의 유사도는 상기 모델들의 제1집합의 제1모델 및 상기 모델들의 제2집합 의 제2모델 간 카테고리 유사도 링크(category similarity link)를 나타내고, 상기 카테고리 유사도 링크는 상기 제1모델에 의해 인식된 객체가 상기 제1모델 및 상기 제2모델 간 유사도 메트릭(similarity metric)에 기반하는 상기 제2모델에 대응하는 객체 카테고리와 유사한 객체 카테고리를 갖음을 나타내는 방법.
제2항에 있어서, 상기 모델들의 제2집합에 대응하는 모델 메타데이터 정보 및 하나 이상의 서비스 품질(QoS) 선호도들 에 기반하여 상기 모델들의 제2집합의 실행 순서를 결정하는 단계; 및
상기 실행 순서에 따라 상기 모델들의 제2집합을 실행하는 단계를 더 포함하는 방법.
제5항에 있어서, 상기 하나 이상의 QoS 선호도들은, 상기 모델들의 제2집합 실행을 위해 상기 전자 장치 상에서 동시에 실행될 수 있는 엔진들의 소정 문턱치, 상기 모델들의 제2집합의 실행을 위한 하나 이상의 자원 요건들, 또는 현재 하나 이상의 엔진들 안으로 로딩된 하나 이상의 모델들을 나타내는 정보 중 적어도 하나를 포함하는 방법.
◈청구항 7은(는) 설정등록료 납부시 포기되었습니다.◈

제5항에 있어서, 상기 모델들의 제2집합에 대응하는 상기 모델 메타데이터 정보는, 상기 모델들의 제2집합에 대한 하나 이상의 모델 우선순위들 또는 상기 모델들의 제2집합에 대한 하나 이상의 모델 레지던시들(residencies) 중 적어도 하나를 포함하는 방법.
제1항에 있어서, 상기 입력 및 도메인 선택 방법에 기반하여 상기 도메인을 선택하는 단계를 더 포함하고,
상기 선택된 도메인은 상기 입력에 대한 실행을 위해 선택될 수 있는 적어도 하나의 모델과 관련되는 방법.
제8항에 있어서, 상기 도메인 선택 방법은 계층구조 기반 도메인 선택 방법(hierarchy-based domain selection)이고, 상기 도메인을 선택하는 것은 상기 모델들의 제1집합을 포함하는 다수의 모델들에 대응하는 다수의 객체 카테고리들 간 계층 관계들에 기초하여 계층 구조 안에 계층적으로 체계화된 상기 다수의 모델들 사이의 하나 이상의 계층 관계들에 기반하여 상기 도메인을 선택하는 것을 포함하는 방법.
◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈

제8항에 있어서, 상기 도메인 선택 방법은 특성 벡터 기반 도메인 선택 방법(feature vector-based domain selection method)이고, 상기 도메인을 선택하는 것은
도메인들의 제1집합 대한 특성 표현들의 제1집합을 관리하되,
상기 표현들의 제1집합의 각각의 특성 표현은 상기 도메인들의 제1집합의 한 도메인에 대응되는 것과;
상기 입력에 포함된 각각의 프레임에 대해,
상기 프레임으로부터 상기 프레임에 대한 특성 표현을 추출하는 것과;
상기 특성 표현들의 제1집합의 각각의 특성 표현에 대해 상기 프레임의 특성 표현을 비교함으로써 상기 도메인들의 제1집합으로부터 한 도메인을 선택하고, 상기 선택된 도메인은 상기 프레임의 특성 표현과 가장 가까운 해당 특성 표현을 가지는 것을 포함하는 방법.
◈청구항 11은(는) 설정등록료 납부시 포기되었습니다.◈

제8항에 있어서, 상기 도메인 선택 방법은 시간 기반(temporal-based) 도메인 선택 방법이고, 상기 도메인을 선택하는 것은 도메인들의 제1집합 대한 특성 표현들의 제1집합을 관리하되,
상기 표현들의 제1집합의 각각의 특성 표현은 상기 도메인들의 제1집합의 한 도메인에 대응되는 것과;
상기 입력을 다수의 시간 윈도우(temoral window)들 안에 분할하되,
각각의 시간 윈도우는 상기 입력에 포함된 프레임들의 시퀀스를 포함하는 것과;
각각의 시간 윈도우에 대해 상기 시간 윈도우로부터, 상기 시간 윈도우의 특성 표현을 추출하는 것과;
상기 특성 표현들의 제1집합의 각각의 특성 표현에 대해 상기 시간 윈도우의 특성 표현을 비교함으로써 상기 도메인들의 제1집합으로부터 한 도메인을 선택하고, 상기 선택된 도메인은 상기 시간 윈도우의 특성 표현과 가장 가까운 해당 특성 표현을 가지는 것을 포함하는 방법.
◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈

제8항에 있어서, 상기 전자 장치 상에서 동시에 실행될 수 있는 엔진들의 소정 문턱치, 상기 선택된 도메인과 관련된 모든 모델들의 런 타임(run-time) 자원 요건들, 현재 활성 상태인 하나 이상의 모델들을 나타내는 정보, 상기 선택된 도메인과 관련된 모든 모델들 중 어느 것이 실행 패스들(passes) 사이에서 활성 상태로 유지되어야 하는지를 나타내는 정보, 상기 선택된 도메인과 관련된 모든 모델들 중 어느 것이 상기 전자 장치 상에서 실행되어야 하는가를 나타내는 정보, 또는 상기 선택된 도메인과 관련된 모든 모델들 중 어느 것이 클라우드 서비스 상에서 실행되어야 하는지를 나타내는 정보 중 적어도 하나에 기반하여, 상기 입력에 대해 실행하도록 활성화할, 상기 선택된 도메인과 관련된 하나 이상의 모델들을 선택하는 단계를 더 포함하는 방법.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서가
시각적 데이터를 포함하는 입력에 대한 도메인과 관련된 모델들의 제1집합을 실행함으로써 상기 입력에 존재하는 하나 이상의 객체들을 분류하며, 상기 모델들의 제1집합 내 각각의 모델은 하나의 객체 카테고리에 대응하고, 상기 각각의 모델은 시각적 분류자 결과의 정확도를 나타내는 관련 신뢰 값과 함께 상기 입력 내 대응하는 객체 카테고리에 관한 시각적 분류자 결과를 생성하도록 트레이닝되는 동작;
상기 모델들의 제1집합 내 각각의 모델의 각각의 시각적 분류자 결과와 관련된 신뢰 값에 기반하여 시각적 분류자 결과들의 제1집합을 종합하며, 상기 하나 이상의 객체들은, 상기 종합된 시각적 분류자 결과들의 제1집합 및 상기 모델들의 제1집합에 의해 인식된 객체들의 제1집합과 적어도 하나의 다른 모델들에 의해 인식된 적어도 하나의 객체 간의 적어도 하나의 유사도에 기초하여, 상기 입력에 대해 실행할 상기 적어도 하나의 다른 모델을 선택함으로써 더 분류되고, 하나 이상의 시각적 분류자 결과들은 디스플레이를 위해 전자 장치 상에서 실행되는 애플리케이션으로 리턴되는 동작을 포함하는 동작들을 수행하도록 하는 명령어들을 저장하는 비일시적 프로세서 판독가능 메모리 장치를 포함하는 시스템.
◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서, 상기 동작들은 상기 종합된 시각적 분류자 결과들의 제1집합, 및 상기 모델들의 제1집합에 의해 인식된 상기 객체들의 제1집합 및 상기 모델들의 제2집합에 의해 인식된 객체들의 제2집합 간의 하나 이상의 유사도에 기반하여, 상기 입력에 대해 실행할 상기 모델들의 제2집합을 선택함으로써 상기 하나 이상의 객체들을 분류하는 동작;
상기 모델들의 제2집합에 대응하는 하나 이상의 서비스 품질(QoS) 선호도들 및 모델 메타데이터 정보에 기반하여 상기 모델들의 제2집합의 실행 순서를 결정하는 동작; 및
상기 실행 순서에 따라 상기 모델들의 제2집합을 실행하는 동작을 더 포함하는 시스템.
◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈

제13항에 있어서, 상기 동작들은 상기 입력 및 도메인 선택 방법에 기반하여 상기 도메인을 선택하는 동작을 더 포함하고,
상기 선택된 도메인은 상기 입력에 대한 실행을 위해 선택될 수 있는 적어도 하나의 모델과 관련되는 시스템.
◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈

제15항에 있어서, 상기 도메인 선택 방법은 계층구조 기반 도메인 선택 방법이고, 상기 도메인을 선택하는 동작은 상기 모델들의 제1집합을 포함하는 다수의 모델들에 대응하는 다수의 객체 카테고리들 간 계층 관계들에 기초하여 계층 구조 안에 계층적으로 체계화된 상기 다수의 모델들 사이의 하나 이상의 계층 관계들에 기반하여 상기 도메인을 선택하는 동작을 포함하는 시스템.
◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈

제15항에 있어서, 상기 도메인 선택 방법은 특성 벡터 기반 도메인 선택 방법이고, 상기 도메인을 선택하는 것은 도메인들의 제1집합 대한 특성 표현들의 제1집합을 관리하되,
상기 표현들의 제1집합의 각각의 특성 표현은 상기 도메인들의 제1집합의 한 도메인에 대응되는 것과;
상기 입력에 포함된 각각의 프레임에 대해, 상기 프레임으로부터 상기 프레임에 대한 특성 표현을 추출하는 것과;
상기 특성 표현들의 제1집합의 각각의 특성 표현에 대해 상기 프레임의 특성 표현을 비교함으로써 상기 도메인들의 제1집합으로부터 한 도메인을 선택하고, 상기 선택된 도메인은 상기 프레임의 특성 표현과 가장 가까운 해당 특성 표현을 가지는 것을 포함하는 시스템.
◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈

제15항에 있어서, 상기 도메인 선택 방법은 시간 기반(temporal-based) 도메인 선택 방법이고, 상기 도메인을 선택하는 것은 도메인들의 제1집합 대한 특성 표현들의 제1집합을 관리하되,
상기 표현들의 제1집합의 각각의 특성 표현은 상기 도메인들의 제1집합의 한 도메인에 대응되는 것과;
상기 입력을 다수의 시간 윈도우들 안에 분할하되,
각각의 시간 윈도우는 상기 입력에 포함된 프레임들의 시퀀스를 포함하는 것과;
각각의 시간 윈도우에 대해 상기 시간 윈도우로부터, 상기 시간 윈도우의 특성 표현을 추출하는 것과;
상기 특성 표현들의 제1집합의 각각의 특성 표현에 대해 상기 시간 윈도우의 특성 표현을 비교함으로써 상기 도메인들의 제1집합으로부터 한 도메인을 선택하고, 상기 선택된 도메인은 상기 시간 윈도우의 특성 표현과 가장 가까운 해당 특성 표현을 가지는 것을 포함하는 시스템.
◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈

제15항에 있어서, 상기 동작들은 상기 전자 장치 상에서 동시에 실행될 수 있는 엔진들의 소정 문턱치, 상기 선택된 도메인과 관련된 모든 모델들의 런 타임(run-time) 자원 요건들, 현재 활성 상태인 하나 이상의 모델들을 나타내는 정보, 상기 선택된 도메인과 관련된 모든 모델들 중 어느 것이 실행 패스들(passes) 사이에서 활성 상태로 유지되어야 하는지를 나타내는 정보, 상기 선택된 도메인과 관련된 모든 모델들 중 어느 것이 상기 전자 장치 상에서 실행되어야 하는가를 나타내는 정보, 또는 상기 선택된 도메인과 관련된 모든 모델들 중 어느 것이 클라우드 서비스 상에서 실행되어야 하는지를 나타내는 정보 중 적어도 하나에 기반하여, 상기 입력에 대해 실행하도록 활성화할, 상기 선택된 도메인과 관련된 하나 이상의 모델들을 선택하는 동작을 더 포함하는 시스템.
제 1 항의 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.