KR102336815B1

KR102336815B1 - 장거리 수평적 연결을 갖는 인공 신경망을 이용하여 자원 효율적으로 객체를 인식하기 위한 전자 장치 및 그의 동작 방법

Info

Publication number: KR102336815B1
Application number: KR1020200032411A
Authority: KR
Inventors: 백세범; 박영진; 백승대
Original assignee: 한국과학기술원
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2021-12-08
Also published as: US20210295097A1; KR20210115945A; US11403484B2

Abstract

다양한 실시예들은 장거리 수평적 연결을 갖는 인공 신경망을 이용하여 자원 효율적으로 객체를 인식하기 위한 전자 장치 및 그의 동작 방법에 관한 것으로, 인공 신경망은, 이미지로부터 객체를 인식하도록 구성되고, 복수 개의 뉴런들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결, 및 미리 설정된 거리 미만의 길이를 가지고 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 단거리 수평적 연결을 포함하는 적어도 하나의 은닉 층을 포함할 수 있다.

Description

장거리 수평적 연결을 갖는 인공 신경망을 이용하여 자원 효율적으로 객체를 인식하기 위한 전자 장치 및 그의 동작 방법{ELECTRONIC DEVICE FOR RESOURCE-EFFICIENT OBJECT RECOGNITION USING ARTIFICIAL NEURAL NETWORK WITH LONG-RANGE CONNECTION AND OPERATING METHOD THEREOF}

다양한 실시예들은 장거리 수평적 연결을 갖는 인공 신경망을 이용하여 자원 효율적으로 객체를 인식하기 위한 전자 장치 및 그의 동작 방법에 관한 것이다.

인공 신경망이 이미지로부터 객체를 인식하는 능력은 이미 인간의 수준에 도달하였다. 그러나, 인공 신경망은 동물의 시각 피질 구조 보다 훨씬 많은 개수의 계층들로 이루어지는 심층 구조를 필요로 한다. 예를 들어, 동물의 시각 피질 구조는 최초로 시각 정보를 받아 들이는 망막으로부터 객체를 인식하는 하측 두피질(inferior temporal cortex)까지 도달하는 데 십여 개의 계층들로 이루어진다. 이에 반해, 인공 신경망은, 예컨대 150 개 이상의 계층들로 이루어지는 심층 구조를 갖는다. 이러한 인공 신경망의 심층 구조는 현저하게 많은 계산량과 높은 에너지 소비량을 요구하므로, 동물의 시각 피질 구조와 비교했을 때 성능 대비 자원 효율성이 낮은 문제점이 있다.

다양한 실시예들은, 성능 대비 자원 효율성이 향상된 인공 신경망을 이용하여, 이미지로부터 객체를 인식할 수 있는 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들은, 적은 개수의 계층들로 이루어진 인공 신경망을 이용하여, 원하는 수준으로 이미지로부터의 객체 인식 성능을 확보할 수 있는 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들은, 동물의 시각 피질 구조와 유사하게 동작할 수 있는 인공 신경망을 이용하여, 이미지로부터 객체를 인식할 수 있는 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들은, 장거리 수평적 연결을 갖는 인공 신경망을 이용하여 자원 효율적으로 객체를 인식하기 위한 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들에 따른 전자 장치는, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성되며, 이미지로부터 적어도 하나의 객체를 인식하기 위한 인공 신경망을 갖는 프로세서를 포함하고, 상기 인공 신경망은, 상기 이미지로부터 상기 객체를 인식하도록 구성되고, 복수 개의 뉴런들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결을 포함하는 적어도 하나의 은닉 층을 포함할 수 있다.

다양한 실시예들에 따른 전자 장치의 동작 방법은, 이미지를 입력하는 동작, 인공 신경망을 이용하여, 상기 이미지로부터 적어도 하나의 객체를 인식하는 동작, 및 상기 객체를 식별하는 동작을 포함하고, 상기 인공 신경망은, 상기 이미지로부터 상기 객체를 인식하도록 구성되고, 복수 개의 뉴런들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결을 포함하는 적어도 하나의 은닉 층을 포함할 수 있다.

다양한 실시예들에 따른 컴퓨터 프로그램은, 컴퓨터 장치에 결합되어, 상기 컴퓨터 장치에 의해 판독 가능한 기록 매체에 저장되고, 이미지를 입력하는 동작, 인공 신경망을 이용하여, 상기 이미지로부터 적어도 하나의 객체를 인식하는 동작, 및 상기 객체를 식별하는 동작을 실행하고, 상기 인공 신경망은, 상기 이미지로부터 상기 객체를 인식하도록 구성되고, 복수 개의 뉴런들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결을 포함하는 적어도 하나의 은닉 층을 포함할 수 있다.

다양한 실시예들에 따르면, 전자 장치의 인공 신경망은 장거리 수평적 연결을 이용하여, 성능 대비 자원 효율적으로 동작할 수 있다. 이 때 인공 신경망은 적은 연결 개수로도, 우수한 성능을 확보할 수 있다. 뿐만 아니라, 인공 신경망은 적은 개수의 계층들로도, 우수한 성능을 확보할 수 있다. 이를 통해, 인공 신경망은 적은 자원으로도, 이미지에서의 객체 인식 성능을 원하는 수준으로 유지할 수 있다. 즉 인공 신경망에서 이미지로부터 객체를 인식하는 데 요구되는 계산량과 에너지 소비량이 현저하게 감소될 수 있다. 따라서, 인공 신경망은 동물의 시각 피질 구조와 유사하게 동작하여, 이미지로부터 객체를 인식할 수 있다.

도 1은 다양한 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 2는 다양한 실시예들에 따른 전자 장치의 동작 특징을 설명하기 위한 도면이다.
도 3은 다양한 실시예들에 따른 전자 장치의 인공 신경망을 도시하는 도면이다.
도 4는 도 3의 은닉 층을 도시하는 도면이다.
도 5a 및 도 5b는 도 3의 은닉 층에서의 수평적 연결들의 비율을 설명하기 위한 도면들이다.
도 6a, 도 6b, 도 7a 및 도 7b는 다양한 실시예들에 따른 전자 장치에서의 인공 신경망의 동작 효과를 설명하기 위한 도면들이다.
도 8은 다양한 실시예들에 따른 전자 장치의 동작 방법을 도시하는 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 다양한 실시예들에 따른 전자 장치(100)를 도시하는 도면이다. 도 2는 다양한 실시예들에 따른 전자 장치(100)의 동작 특징을 설명하기 위한 도면이다.

도 1을 참조하면, 전자 장치(100)는 입력 모듈(110), 출력 모듈(120), 메모리(130) 또는 프로세서(140) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 전자 장치(100)의 구성 요소들 중 적어도 어느 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서, 전자 장치(100)의 구성 요소들 중 적어도 어느 두 개가 하나의 통합된 회로로 구현될 수 있다. 예를 들면, 전자 장치(100)는 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, 또는 로봇(robot) 중 적어도 어느 하나를 포함할 수 있다.

입력 모듈(110)은 전자 장치(100)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(110)은, 사용자가 전자 장치(100)에 직접적으로 신호를 입력하도록 구성되는 입력 장치, 전자 장치(100)의 외부 영상을 촬영하도록 구성되는 카메라 장치, 또는 외부 기기로부터 신호를 수신하도록 구성되는 수신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse) 또는 키보드(keyboard) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 입력 장치는 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 카메라 장치는 렌즈, 적어도 하나의 이미지 센서, 이미지 시그널 프로세서 또는 플래시 중 적어도 어느 하나를 포함할 수 있다.

출력 모듈(120)은 전자 장치(100)의 신호를 출력할 수 있다. 출력 모듈(120)은 신호를 시각적으로 표시하도록 구성되는 표시 장치, 신호를 소리로 출력하도록 구성되는 오디오 장치, 또는 외부 기기로 신호를 송신하도록 구성되는 송신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 표시 장치는 디스플레이, 홀로그램 장치 또는 프로젝터 중 적어도 어느 하나를 포함할 수 있다. 일 예로, 표시 장치는 입력 장치의 터치 회로 또는 센서 회로 중 적어도 어느 하나와 조립되어, 터치 스크린으로 구현될 수 있다. 오디오 장치는 스피커(speaker) 또는 리시버(receiver) 중 적어도 어느 하나를 포함할 수 있다.

일 실시예에 따르면, 수신 장치와 송신 장치는 통신 모듈로 구현될 수 있다. 통신 모듈은 전자 장치(100)에서 외부 기기와 통신을 수행할 수 있다. 통신 모듈은 전자 장치(100)와 외부 기기 간 통신 채널을 수립하고, 통신 채널을 통해, 외부 기기와 통신을 수행할 수 있다. 여기서, 외부 기기는 위성, 기지국, 서버 또는 다른 전자 장치 중 적어도 어느 하나를 포함할 수 있다. 통신 모듈은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 유선 통신 모듈은 외부 기기와 유선으로 연결되어, 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 기기와 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 어느 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 기기와 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크를 통해 외부 기기와 통신할 수 있다. 예를 들면, 네트워크는 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 어느 하나를 포함할 수 있다.

메모리(130)는 전자 장치(100)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(130)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 예컨대 운영 체제, 미들 웨어 또는 어플리케이션 중 적어도 어느 하나를 포함할 수 있다.

프로세서(140)는 메모리(130)의 프로그램을 실행하여, 전자 장치(100)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(140)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(140)는 메모리(130)에 저장된 명령을 실행할 수 있다. 그리고, 프로세서(140)는 이미지로부터 적어도 하나의 객체를 인식하기 위한 인공 신경망(200, 210, 220)을 포함할 수 있다. 다양한 실시예들에 따르면, 인공 신경망(200)은 적어도 하나의 장거리 수평적 연결(global connection, long-range connection; LRC)을 포함할 수 있다.

각 인공 신경망(200, 210, 220)은, 도 2에 도시된 바와 같이 복수 개의 계층들로 이루어질 수 있다. 이를 통해, 각 인공 신경망(200, 210, 220)의 깊이가 계층들의 개수에 따라 정의될 수 있다. 도 2의 (a)에 도시된 바와 같이, 인공 신경망(210)의 깊이가 얕으면, 이미지로부터 객체 인식을 위한 자원 소모가 적으나, 이미지로부터의 객체 인식 성능이 낮을 수 있다. 한편, 도 2의 (c)에 도시된 바와 같이, 인공 신경망(220)의 깊이가 깊으면, 이미지로부터의 객체 인식 성능이 높으나, 이미지로부터 객체 인식을 위한 자원 소모가 클 수 있다. 다양한 실시예들에 따르면, 인공 신경망(200)이 적어도 하나의 장거리 수평적 연결(LRC)을 포함함에 따라, 도 2의 (b)에 도시된 바와 같이 인공 신경망(200)의 깊이가 얕더라도, 이미지로부터의 객체 인식 성능이 높을 수 있다. 즉 인공 신경망(200)에 있어서, 이미지로부터 객체 인식을 위한 자원 소모가 적으면서도, 이미지로부터의 객체 인식 성능이 높을 수 있다.

도 3은 다양한 실시예들에 따른 전자 장치(100)의 인공 신경망(200)을 도시하는 도면이다. 도 4는 도 3의 은닉 층(hidden layer)(320)을 도시하는 도면이다. 도 5a 및 도 5b는 도 3의 은닉 층(320)에서의 수평적 연결(420, 430)들의 비율을 설명하기 위한 도면들이다.

도 3을 참조하면, 인공 신경망(200)은 입력 층(input layer)(310), 적어도 하나의 은닉 층(320) 및 출력 층(output layer)(330)을 포함할 수 있다. 이 때 입력 층(310), 은닉 층(320) 및 출력 층(330)에는, 복수 개의 뉴런(neuron)들이 배열될 수 있다. 그리고, 입력 층(310)과 은닉 층(320) 및 은닉 층(320)과 출력 층(330)은 피드포워드(feed forward) 망 구조에 기반하여, 각각 연결될 수 있다. 예를 들면, 인공 신경망(200)에서의, 입력 층(310)과 은닉 층(320) 및 은닉 층(320)과 출력 층(330) 사이의 연결성은, 하기 [수학식 1]과 같이 정의될 수 있다.

여기서, h는 은닉 층(320)의 출력 값을 나타내고, 예컨대 정류 선형 유닛(rectified linear unit; ReLU)과 같은 활성화 함수에 의해 도출되고, W₀는 입력 층(310)과 은닉 층(320) 사이의 연결성에 대한 가중치를 나타내고, x는 이미지(i)의 픽셀 값을 나타내고, W_lat은 은닉 층(320)에서의 연결성에 대한 가중치를 나타내고, b₀는 은닉 층(320)에 대한 바이어스 또는 편향성을 나타낼 수 있다. 아울러, y는 출력 층(330)의 최종 출력 값을 나타내고, 예컨대 소프트맥스(softmax)와 같은 활성화 함수에 의해 도출되고, W₁은 은닉 층(320)과 출력 층(330) 사이의 연결성에 대한 가중치를 나타내고, b₁은 출력 층(330)에 대한 바이어스 또는 편향성을 나타낼 수 있다.

입력 층(310)은 이미지(i)를 입력하도록 구성될 수 있다. 입력 층(310)은 은닉 층(320)으로 이미지(i)를 입력할 수 있다. 여기서, 이미지(i)는 적어도 하나의 객체, 예컨대 고양이를 포함할 수 있다.

은닉 층(320)은 이미지(i)로부터 객체를 인식하도록 구성될 수 있다. 이 때 은닉 층(320)은, 도 4에 도시된 바와 같이 복수 개의 뉴런(neuron)(410)들과 복수 개의 수평적 연결(lateral connection)(420, 430)들을 포함할 수 있다. 뉴런(410)들은 이미지(i)에 대한 정보를 처리할 수 있다. 수평적 연결(420, 430)들은 은닉 층(320) 내에서 뉴런(410)들을 연결할 수 있다. 그리고, 수평적 연결(420, 430)들은 적어도 하나의 장거리 수평적 연결(LRC)(420)과 적어도 하나의 단거리 수평적 연결(local connection, short-range connection)(430)을 포함할 수 있다. 각 장거리 수평적 연결(420)은 미리 설정된 거리를 초과하는 길이를 가지고 뉴런(410)들 중 어느 두 개를 연결할 수 있다. 예를 들면, 장거리 수평적 연결(420)은 1 mm를 초과하는 길이를 가질 수 있다. 각 단거리 수평적 연결(430)은 미리 설정된 거리 미만의 길이를 가지고 뉴런(410)들 중 어느 두 개를 연결할 수 있다. 예를 들면, 단거리 수평적 연결(430)은 0.5 mm 미만인 길이를 가질 수 있다. 장거리 수평적 연결(420)의 개수와 단거리 수평적 연결(430)의 개수는 미리 설정된 비율로 결정될 수 있다. 즉 장거리 수평적 연결(420)과 단거리 수평적 연결(430)의 총 개수에 대해, 장거리 수평적 연결(420)의 개수와 단거리 수평적 연결(430)의 개수가 미리 설정된 비율로 결정될 수 있다.

이 때 도 5a에 도시된 바와 같이, 장거리 수평적 연결(420)과 단거리 수평적 연결(430)의 총 개수에 대한 장거리 수평적 연결(420)의 개수의 비율, 즉 장거리 수평적 연결(420)을 위한 비율에 따라, 은닉 층(320)에서 뉴런(410)들의 군집 정도(C)와 인공 신경망(200)의 뉴런(410)들 간 수평적 연결(420, 430)들의 평균 거리(L)가 결정될 수 있다. 장거리 수평적 연결(420)을 위한 비율이 낮을수록, 은닉 층(320)에서의 군집 정도(C)가 높고, 평균 거리(L)는 짧을 수 있다. 여기서, 은닉 층(320)이 지역적(local) 특징을 나타내며, 이미지(i)에서의 객체 인식 성능이 낮을 수 있다. 한편, 장거리 수평적 연결(420)을 위한 비율이 높을수록, 은닉 층(320)에서의 군집 정도(C)가 낮고, 평균 거리(L)는 길 수 있다. 여기서, 은닉 층(320)이 광역적(global) 특징을 나타내며, 이미지(i)에서의 객체 인식 성능은 낮을 수 있다. 따라서, 은닉 층(320)이 지역적 특징과 광역적 특징을 함께 나타냄으로써, 이미지(i)에서의 객체 인식 성능이 원하는 수준으로 확보되도록, 장거리 수평적 연결(420)을 위한 비율이 설정되어야 한다.

일 실시예에 따르면, 도 5b에 도시된 바와 같이, 인공 신경망(200)이 은닉 층(320)에서의 군집 정도(C)와 평균 거리(L)에 기반하여, 작은 세상 네트워크(small world network)로 구현되도록, 장거리 수평적 연결(420)을 위한 비율이 설정될 수 있다. 예를 들면, 은닉 층(320)에서의 군집 정도(C)는, 하기 [수학식 2]와 같이 정의될 수 있다. 예를 들면, 은닉 층(320)에서의 평균 거리(L)는, 하기 [수학식 4]와 같이 정의될 수 있다. 작은 세상 네트워크는, 은닉 층(320)에서의 군집 정도(C)와 평균 거리(L)에 기반하여, 하기 [수학식 5]와 같이 정의될 수 있다. 이를 통해, 장거리 수평적 연결(420)을 위한 비율은 5 % 이상이고 15 % 이하일 수 있다. 한편, 장거리 수평적 연결(420)과 단거리 수평적 연결(430)의 총 개수에 대한 장거리 수평적 연결(420)의 개수의 비율, 즉 단거리 수평적 연결(430)을 위한 비율은 85 % 이상이고 95 % 이하일 수 있다. 이러한 경우, 은닉 층(320)에서 이미지(i)로부터의 객체 인식 성능이 가장 높을 수 있다.

여기서, N_hidden은 은닉 층(320)에서의 뉴런(410)들의 개수를 나타내고, c_j는 은닉 층(320)에서 j 번째 뉴런(410)의 지역 군집 정도(local clustering coefficient)를 나타내며, 하기 [수학식 3]과 같이 정의될 수 있다.

여기서, N_neighbor,j는 은닉 층(320)의 j 번째 뉴런(410)과 연결된 뉴런(410)들의 개수를 나타내고, d_ii'은 입력 층(310)에서 i 번째 뉴런과 i' 번째 뉴런 사이의 거리를 나타내고, d_jj'은 은닉 층(320)에서 j 번째 뉴런(410)과 j' 번째 뉴런(410) 사이의 거리를 나타낼 수 있다.

여기서, Ninput은 입력 층(310)에서의 뉴런들의 개수를 나타내고, l_ii'은 입력 층(310)에서 i 번째 뉴런과 i' 뉴런 사이의 최단 경로를 나타낼 수 있다.

여기서, Crand와 Lrand는 무작위로 연결된 수평적 연결을 갖는 인공 신경망의 군집 정도와 평균 거리를 나타내며, Cregular와 Lregular는 피드포워드 연결 만을 갖는 인공 신경망의 군집 정보와 평균 거리를 나타낼 수 있다.

출력 층(330)은 이미지(i)에 포함된 객체를 식별하도록 구성될 수 있다. 출력 층(330)은 은닉 층(320)으로부터 이미지(i)의 객체를 식별할 수 있다. 여기서, 이미지(i)의 객체, 예컨대 고양이를 식별할 수 있다.

도 6a, 도 6b, 도 7a 및 도 7b는 다양한 실시예들에 따른 전자 장치(100)에서의 인공 신경망(200)의 동작 효과를 설명하기 위한 도면들이다.

도 6a 및 도 6b를 참조하면, 피드포워드 연결만을 갖는 인공 신경망(FF only), 피드포워드 연결과 단거리 수평적 연결을 갖는 인공 신경망(FF + local), 피드포워드 연결과 장거리 수평적 연결을 갖는 인공 신경망(FF + LRC) 및 완전 연결된(full-connected) 인공 신경망(FC)의 성능들이 비교될 수 있다. 피드포워드 연결만을 갖는 인공 신경망(FF only)은 수평적 연결을 갖지 않으므로, 연결 개수가 0일 수 있다. 그리고, 피드포워드 연결과 단거리 수평적 연결을 갖는 인공 신경망(FF + local)의 성능이 피드포워드 연결만을 갖는 인공 신경망(FF only)의 성능 보다 우수하기는 하나, 피드포워드 연결과 장거리 수평적 연결을 갖는 인공 신경망(FF+LRC)의 성능이 피드포워드 연결과 단거리 수평적 연결을 갖는 인공 신경망(FF + local)의 성능 보다 우수할 수 있다. 아울러, 피드포워드 연결과 장거리 수평적 연결을 갖는 인공 신경망(FF+LRC)의 성능은 완전 연결된 인공 신경망(FC)의 성능과 대체로 유사할 수 있다. 한편, 피드포워드 연결과 장거리 수평적 연결을 갖는 인공 신경망(FF + LRC)에서의 연결 개수는 완전 연결된 인공 신경망(FC)에서의 연결 개수 보다 현저하게 적을 수 있다.

도 7a 및 도 7b를 참조하면, 세 개의 계층들로 이루어지는 인공 신경망(3계층), 세 개의 계층들로 이루어지고 장거리 수평적 연결을 갖는 인공 신경망(3계층 + LRC), 네 개의 계층들로 이루어지는 인공 신경망(4계층) 및 다섯 개의 계층들로 이루어지는 인공 신경망(5계층)의 성능들이 비교될 수 있다. 세 개의 계층들로 이루어지고 장거리 수평적 연결을 갖는 인공 신경망(3계층 + LRC)의 성능은 세 개의 계층들로 이루어지는 인공 신경망(3계층)의 성능 뿐 아니라, 네 개의 계층들로 이루어지는 인공 신경망(4계층)의 성능 보다 우수할 수 있다. 아울러, 세 개의 계층들로 이루어지고 장거리 수평적 연결을 갖는 인공 신경망(3계층 + LRC)의 성능은 다섯 개의 계층들로 이루어지는 인공 신경망(5계층)의 성능과 대체로 유사할 수 있다. 한편, 세 개의 계층들로 이루어지고 장거리 수평적 연결을 갖는 인공 신경망(3계층 + LRC)에서의 연결 개수는 다섯 개의 계층들로 이루어지는 인공 신경망(5계층)의 연결 개수 보다 현저하게 적을 수 있다.

다양한 실시예들에 따르면, 인공 신경망(200)은 단거리 수평적 연결(430)과 함께 장거리 수평적 연결(420)을 포함함으로써, 성능 대비 자원 효율적으로 동작할 수 있다. 즉 인공 신경망(200)은 적은 연결 개수로도, 우수한 성능을 확보할 수 있다. 뿐만 아니라, 인공 신경망(200)은 적은 개수의 계층들로도, 우수한 성능을 확보할 수 있다. 이를 통해, 인공 신경망(200)은 적은 자원으로도, 이미지(i)에서의 객체 인식 성능을 원하는 수준으로 유지할 수 있다.

도 8은 다양한 실시예들에 따른 전자 장치(100)의 동작 방법을 도시하는 도면이다.

도 8을 참조하면, 전자 장치(100)는 811 동작에서 이미지(i)를 입력할 수 있다. 이 때 프로세서(140)가 입력되는 이미지(i)를 감지할 수 있다. 일 실시예에 따르면, 프로세서(140)는 입력 모듈(110)을 통해 입력되는 이미지(i)를 감지할 수 있다. 일 예로, 프로세서(140)는 카메라 장치를 통해 외부 영상을 촬영함으로써, 카메라 장치로부터 입력되는 이미지(i)를 감지할 수 있다. 다른 예로, 프로세서(140)는 통신 모듈을 통해 외부 기기로부터 이미지(i)를 수신함으로써, 통신 모듈로부터 입력되는 이미지(i)를 감지할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 메모리(130)로부터 이미지(i)를 판독함으로써, 메모리(130)로부터 입력되는 이미지(i)를 감지할 수 있다.

전자 장치(100)는 813 동작에서 인공 신경망(200)을 이용하여, 이미지(i)로부터 적어도 하나의 객체를 인식할 수 있다. 이 때 프로세서(140)가 인공 신경망(200)을 이용하여, 이미지(i)로부터 적어도 하나의 객체를 인식할 수 있다. 인공 신경망(200)은, 도 3에 도시된 바와 같이 입력 층(310), 적어도 하나의 은닉 층(320) 및 출력 층(330)을 포함할 수 있다. 입력 층(310)은 은닉 층(320)으로 이미지(i)를 입력할 수 있다. 여기서, 이미지(i)는 적어도 하나의 객체, 예컨대 고양이를 포함할 수 있다. 이 후, 은닉 층(320)은 이미지(i)로부터 객체를 인식할 수 있다. 이 때 은닉 층(320)은, 도 4에 도시된 바와 같이 복수 개의 뉴런(410)들과 복수 개의 수평적 연결(420, 430)들을 포함할 수 있다. 뉴런(410)들은 이미지(i)에 대한 정보를 처리할 수 있다. 수평적 연결(420, 430)들은 은닉 층(320) 내에서 뉴런(410)들을 연결할 수 있다. 그리고, 수평적 연결(420, 430)들은 적어도 하나의 장거리 수평적 연결(420)과 적어도 하나의 단거리 수평적 연결(430)을 포함할 수 있다. 각 장거리 수평적 연결(420)은 미리 설정된 거리를 초과하는 길이를 가지고 뉴런(410)들 중 어느 두 개를 연결할 수 있다. 각 단거리 수평적 연결(430)은 미리 설정된 거리 미만의 길이를 가지고 뉴런(410)들 중 어느 두 개를 연결할 수 있다. 장거리 수평적 연결(420)의 개수와 단거리 수평적 연결(430)의 개수는 미리 설정된 비율로 결정될 수 있다. 즉 장거리 수평적 연결(420)과 단거리 수평적 연결(430)의 총 개수에 대해, 장거리 수평적 연결(420)의 개수와 단거리 수평적 연결(430)의 개수가 미리 설정된 비율로 결정될 수 있다. 일 실시예에 따르면, 인공 신경망(200)이 은닉 층(320)에서의 군집 정도(C)와 평균 거리(L)에 기반하여, 작은 세상 네트워크로 구현되도록, 장거리 수평적 연결(420)을 위한 비율이 설정될 수 있다.

전자 장치(100)는 815 동작에서 객체를 식별할 수 있다. 이 때 프로세서(140)가 인공 신경망(200)을 통해, 객체를 식별할 수 있다. 출력 층(330)은 은닉 층(320)으로부터 이미지(i)의 객체를 식별할 수 있다. 이를 기반으로, 프로세서(140)는 출력 층(330)을 통해, 객체를 식별할 수 있다.

다양한 실시예들에 따른 전자 장치(100)는, 메모리(130), 및 메모리(130)와 연결되고, 메모리(130)에 저장된 적어도 하나의 명령을 실행하도록 구성되며, 이미지(i)로부터 적어도 하나의 객체를 인식하기 위한 인공 신경망(200)을 갖는 프로세서(140)를 포함할 수 있다.

다양한 실시예들에 따르면, 인공 신경망(200)은, 이미지(i)로부터 객체를 인식하도록 구성되고, 복수 개의 뉴런(410)들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 뉴런(410)들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결(420)을 포함하는 적어도 하나의 은닉 층(320)을 포함할 수 있다.

다양한 실시예들에 따르면, 은닉 층(320)은, 미리 설정된 거리 미만의 길이를 가지고 뉴런(410)들 중 어느 두 개를 연결하는 적어도 하나의 단거리 수평적 연결(430)을 더 포함할 수 있다.

다양한 실시예들에 따르면, 장거리 수평적 연결(420)의 개수는, 장거리 수평적 연결(420)과 단거리 수평적 연결(430)의 총 개수에 대해, 미리 설정된 비율로 결정될 수 있다.

다양한 실시예들에 따르면, 장거리 수평적 연결(420)를 위한 비율은, 인공 신경망(200)이 은닉 층(320)에서 뉴런(410)들의 군집 정도(C)와 인공 신경망(200)의 뉴런들 간 평균 거리(L)에 기반하여, 작은 세상 네트워크로 구현되도록, 결정될 수 있다.

다양한 실시예들에 따르면, 인공 신경망(200)은, 이미지(i)를 은닉 층(320)으로 입력하도록 구성되는 입력 층(310), 및 은닉 층(320)으로부터 객체를 식별하도록 구성되는 출력 층(330)을 더 포함할 수 있다.

다양한 실시예들에 따른 전자 장치(100)의 동작 방법은, 이미지(i)를 입력하는 동작, 인공 신경망(200)을 이용하여, 이미지(i)로부터 적어도 하나의 객체를 인식하는 동작, 및 객체를 식별하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 장거리 수평적 연결(420)를 위한 비율은, 인공 신경망(200)이 은닉 층(320)에서 뉴런(410)들의 군집 정도(C)와 인공 신경망(200)의 뉴런(410)들 간 평균 거리(L)에 기반하여, 작은 세상 네트워크로 구현되도록, 결정될 수 있다.

다양한 실시예들에 따르면, 전자 장치(100)의 인공 신경망(200)은 장거리 수평적 연결(420)을 이용하여, 성능 대비 자원 효율적으로 동작할 수 있다. 이 때 인공 신경망(200)은 적은 연결 개수로도, 우수한 성능을 확보할 수 있다. 뿐만 아니라, 인공 신경망(200)은 적은 개수의 계층들로도, 우수한 성능을 확보할 수 있다. 이를 통해, 인공 신경망(200)은 적은 자원으로도, 이미지(i)에서의 객체 인식 성능을 원하는 수준으로 유지할 수 있다. 즉 인공 신경망(200)에서 이미지(i)로부터 객체를 인식하는 데 요구되는 계산량과 에너지 소비량이 현저하게 감소될 수 있다. 따라서, 인공 신경망(200)은 동물의 시각 피질 구조와 유사하게 동작하여, 이미지(i)로부터 객체를 인식할 수 있다.

본 문서의 다양한 실시예들은 컴퓨터 장치(예: 전자 장치(100))에 의해 읽을 수 있는 기록 매체(storage medium)(예: 메모리(130))에 저장된 하나 이상의 명령들을 포함하는 컴퓨터 프로그램으로서 구현될 수 있다. 예를 들면, 컴퓨터 장치의 프로세서(예: 프로세서(140))는, 기록 매체로부터 저장된 하나 이상의 명령들 중 적어도 하나를 호출하고, 그것을 실행할 수 있다. 이것은 컴퓨터 장치가 호출된 적어도 하나의 명령에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 컴퓨터 장치로 읽을 수 있는 기록 매체는, 비일시적(non-transitory) 기록 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 기록 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 기록 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

다양한 실시예들에 따른 컴퓨터 프로그램은, 이미지(i)를 입력하는 동작, 인공 신경망(200)을 이용하여, 이미지(i)로부터 적어도 하나의 객체를 인식하는 동작, 및 객체를 식별하는 동작을 실행할 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

전자 장치에 있어서,
메모리; 및
상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성되며, 이미지로부터 적어도 하나의 객체를 인식하기 위한 인공 신경망을 갖는 프로세서를 포함하고,
상기 인공 신경망은,
상기 이미지로부터 상기 객체를 인식하도록 구성되고, 복수 개의 뉴런들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결을 포함하는 적어도 하나의 은닉 층을 포함하고,
상기 은닉 층은,
미리 설정된 거리 미만의 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 단거리 수평적 연결을 더 포함하는 장치.
삭제
제 1 항에 있어서, 상기 장거리 수평적 연결의 개수는,
상기 장거리 수평적 연결과 상기 단거리 수평적 연결의 총 개수에 대해, 미리 설정된 비율로 결정되는 장치.
제 3 항에 있어서, 상기 비율은,
상기 인공 신경망이 상기 은닉 층에서 상기 뉴런들의 군집 정도와 상기 인공 신경망의 뉴런들 간 평균 거리에 기반하여, 작은 세상 네트워크(small world network)로 구현되도록, 결정되는 장치.
제 4 항에 있어서, 상기 인공 신경망은,
상기 이미지를 상기 은닉 층으로 입력하도록 구성되는 입력 층; 및
상기 은닉 층으로부터 상기 객체를 식별하도록 구성되는 출력 층을 더 포함하는 장치.
제 5 항에 있어서, 상기 군집 정도는,
하기 수학식과 같이 정의되는 장치.

여기서, 상기 N_hidden은 상기 은닉 층에서의 상기 뉴런들의 개수를 나타내고, 상기 c_j는 상기 은닉 층에서 j 번째 뉴런의 지역 군집 정도(local clustering coefficient)를 나타내며, 하기 수학식과 같이 정의됨.

여기서, 상기 N_neighbor,j는 상기 은닉 층의 j 번째 뉴런과 연결된 뉴런들의 개수를 나타내고, 상기 d_ii'은 상기 입력 층에서 i 번째 뉴런과 i' 번째 뉴런 사이의 거리를 나타내고, 상기 d_j'j"은 상기 은닉 층에서 j' 번째 뉴런과 j" 번째 뉴런 사이의 거리를 나타냄.
제 6 항에 있어서, 상기 평균 거리는,
하기 수학식과 같이 정의되는 장치.

여기서, 상기 Ninput은 상기 입력 층에서의 뉴런들의 개수를 나타내고, 상기 l_ii'은 상기 입력 층에서 i 번째 뉴런과 i' 뉴런 사이의 최단 경로를 나타냄.
제 7 항에 있어서, 상기 작은 세상 네트워크는,
하기 수학식과 같이 정의되는 장치.

여기서, 상기 Crand와 상기 Lrand는 무작위로 연결된 수평적 연결을 갖는 인공 신경망의 군집 정도와 평균 거리를 나타내며, 상기 Cregular와 상기 Lregular는 피드포워드 연결 만을 갖는 인공 신경망의 군집 정보와 평균 거리를 나타냄.
전자 장치의 동작 방법에 있어서,
이미지를 입력하는 동작;
인공 신경망을 이용하여, 상기 이미지로부터 적어도 하나의 객체를 인식하는 동작; 및
상기 객체를 식별하는 동작을 포함하고,
상기 인공 신경망은,
상기 이미지로부터 상기 객체를 인식하도록 구성되고, 복수 개의 뉴런들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결을 포함하는 적어도 하나의 은닉 층을 포함하고,
상기 은닉 층은,
미리 설정된 거리 미만의 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 단거리 수평적 연결을 더 포함하는 방법.
삭제
제 9 항에 있어서, 상기 장거리 수평적 연결의 개수는,
상기 장거리 수평적 연결과 상기 단거리 수평적 연결의 총 개수에 대해, 미리 설정된 비율로 결정되는 방법.
제 11 항에 있어서, 상기 비율은,
상기 인공 신경망이 상기 은닉 층에서 상기 뉴런들의 군집 정도와 상기 인공 신경망의 뉴런들 간 평균 거리에 기반하여, 작은 세상 네트워크(small world network)로 구현되도록, 결정되는 방법.
제 12 항에 있어서, 상기 인공 신경망은,
상기 이미지를 상기 은닉 층으로 입력하도록 구성되는 입력 층; 및
상기 은닉 층으로부터 상기 객체를 식별하도록 구성되는 출력 층을 더 포함하는 방법.
제 13 항에 있어서, 상기 군집 정도는,
하기 수학식과 같이 정의되는 방법.

여기서, 상기 N_hidden은 상기 은닉 층에서의 상기 뉴런들의 개수를 나타내고, 상기 c_j는 상기 은닉 층에서 j 번째 뉴런의 지역 군집 정도(local clustering coefficient)를 나타내며, 하기 수학식과 같이 정의됨.

여기서, 상기 N_neighbor,j는 상기 은닉 층의 j 번째 뉴런과 연결된 뉴런들의 개수를 나타내고, 상기 d_ii'은 상기 입력 층에서 i 번째 뉴런과 i' 번째 뉴런 사이의 거리를 나타내고, 상기 d_j'j"은 상기 은닉 층에서 j' 번째 뉴런과 j" 번째 뉴런 사이의 거리를 나타냄.
제 14 항에 있어서, 상기 평균 거리는,
하기 수학식과 같이 정의되는 방법.

여기서, 상기 Ninput은 상기 입력 층에서의 뉴런들의 개수를 나타내고, 상기 l_ii'은 상기 입력 층에서 i 번째 뉴런과 i' 뉴런 사이의 최단 경로를 나타냄.
제 15 항에 있어서, 상기 작은 세상 네트워크는,
하기 수학식과 같이 정의되는 방법.

여기서, 상기 Crand와 상기 Lrand는 무작위로 연결된 수평적 연결을 갖는 인공 신경망의 군집 정도와 평균 거리를 나타내며, 상기 Cregular와 상기 Lregular는 피드포워드 연결 만을 갖는 인공 신경망의 군집 정보와 평균 거리를 나타냄.
컴퓨터 장치에 결합되어, 상기 컴퓨터 장치에 의해 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
이미지를 입력하는 동작;
인공 신경망을 이용하여, 상기 이미지로부터 적어도 하나의 객체를 인식하는 동작; 및
상기 객체를 식별하는 동작을 실행하고,
상기 인공 신경망은,
상기 이미지로부터 상기 객체를 인식하도록 구성되고, 복수 개의 뉴런들이 배열되어 있고, 미리 설정된 거리를 초과하는 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 장거리 수평적 연결을 포함하는 적어도 하나의 은닉 층을 포함하고,
상기 은닉 층은,
미리 설정된 거리 미만의 길이를 가지고 상기 뉴런들 중 어느 두 개를 연결하는 적어도 하나의 단거리 수평적 연결을 더 포함하는 컴퓨터 프로그램.
삭제
제 17 항에 있어서, 상기 장거리 수평적 연결의 개수는,
상기 장거리 수평적 연결과 상기 단거리 수평적 연결의 총 개수에 대해, 미리 설정된 비율로 결정되는 컴퓨터 프로그램.
제 19 항에 있어서, 상기 비율은,
상기 인공 신경망이 상기 은닉 층에서 상기 뉴런들의 군집 정도와 상기 인공 신경망의 뉴런들 간 평균 거리에 기반하여, 작은 세상 네트워크(small world network)로 구현되도록, 결정되는 컴퓨터 프로그램.