KR20210096447A - The method, apparatus and the program for image region segmentation - Google Patents

The method, apparatus and the program for image region segmentation Download PDF

Info

Publication number
KR20210096447A
KR20210096447A KR1020200009921A KR20200009921A KR20210096447A KR 20210096447 A KR20210096447 A KR 20210096447A KR 1020200009921 A KR1020200009921 A KR 1020200009921A KR 20200009921 A KR20200009921 A KR 20200009921A KR 20210096447 A KR20210096447 A KR 20210096447A
Authority
KR
South Korea
Prior art keywords
processor
phenotype
spike
data
converting
Prior art date
Application number
KR1020200009921A
Other languages
Korean (ko)
Other versions
KR102416924B1 (en
Inventor
김학일
최학남
임정혁
카카니비제이
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020200009921A priority Critical patent/KR102416924B1/en
Publication of KR20210096447A publication Critical patent/KR20210096447A/en
Application granted granted Critical
Publication of KR102416924B1 publication Critical patent/KR102416924B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2211/00Image generation
    • G06T2211/40Computed tomography
    • G06T2211/416Exact reconstruction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

The present invention provides a method, apparatus, and program for segmenting an image region that can perform image region segmentation faster and more accurately. The method includes the steps of: receiving image data as input by a processor of the computer; converting, by the processor, the image data into a latent space phenotype; converting, by the processor, the data converted into the latent spatial phenotype into a spike train with respect to time; performing learning by inputting, by the processor, the data converted into the spike sequence into an SNN-based learning module; extracting, by the processor, a spike sequence with respect to time with respect to the output data of the learning module; converting, by the processor, the extracted spike sequence into a latent space phenotype; and outputting, by the processor, the data converted into the latent space phenotype as region-segmented image data.

Description

영상 영역 분할 방법, 영상 영역 분할 장치 및 영상 영역 분할 프로그램{The method, apparatus and the program for image region segmentation} Image region segmentation method, image region segmentation apparatus, and image region segmentation program {The method, apparatus and the program for image region segmentation}

본 발명은 영상 데이터에서 영역을 분할하는 방법, 장치 및 그 프로그램에 관한 것이다. The present invention relates to a method, apparatus, and program for segmenting regions in image data.

영상 관련 기술 분야에 있어서 최근 영상을 이용하여 사람의 얼굴 등과 같은 객체를 인식하는 기술이 발전하고 있다. 이러한 얼굴 등과 같은 객체를 인식하기 위해서는, 영상으로부터 배경을 제외한 부분이 추출될 필요가 있다.In the field of image-related technology, a technology for recognizing an object such as a human face using an image has recently been developed. In order to recognize an object such as a face, it is necessary to extract a portion excluding the background from the image.

영상으로부터 객체를 인식하기 위해서는 영상 내에 영역을 분할하고, 분할된 영역을 이용하여 해당 영상이 어떤 객체(예컨대, 클래스)에 해당하는지 레이블링(labeling) 할 필요가 있다. In order to recognize an object from an image, it is necessary to segment a region within the image, and label which object (eg, class) the image corresponds to using the segmented region.

이 때 영상 내에 영역을 분할할 때 시맨틱 세분화 감독 학습(Semantic segmentation supervised learning) 방법이 활용되고 있는데, 이 시맨틱 세분화 감독 학습은 픽셀(pixel) 레벨에서 많은 문제점이 존재한다.At this time, a semantic segmentation supervised learning method is used when segmenting a region within an image, and this semantic segmentation supervised learning has many problems at the pixel level.

구체적인 문제점으로, 객체의 많은 픽셀은 단일 클래스에 해당하며 단일 입력 이미지는 픽셀에 여러 클래스가 분산되어 있을 수 있다.As a specific problem, many pixels of an object correspond to a single class, and a single input image may have multiple classes spread across pixels.

(KR) 공개특허 제 10-2019-0112378 호(KR) Patent Publication No. 10-2019-0112378 (KR) 공개특허 제 10-2016-0138042 호(KR) Patent Publication No. 10-2016-0138042 (KR) 공개특허 제 10-2017-0038622 호(KR) Patent Publication No. 10-2017-0038622

본 발명은 상기 문제점을 해결하기 위해 안출된 것으로서, 다양한 데이터셋에서의 감독 학습(supervised learning) 방식의 스파이킹 신경망(Spiking Neural Network, SNN) 기반의 시맨틱 세분화 감독 학습(Semantic segmentation supervised learning) 알고리즘을 제안하고, 이 알고리즘이 반영된 영상 영역 분할 방법, 영상 영역 분할 장치 및 영상 영역 분할 프로그램을 제안하고자 한다. The present invention has been devised to solve the above problem, and a Semantic segmentation supervised learning algorithm based on a spiking neural network (SNN) of a supervised learning method in various datasets. We propose a method for segmenting an image region, an apparatus for segmenting an image region, and a program for segmenting an image region in which this algorithm is reflected.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

본 발명의 일 실시예에 따른 영상 영역 분할 방법은 컴퓨터의 프로세서가 이미지 데이터를 입력으로 수신하는 단계; 상기 프로세서가 상기 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 단계; 상기 프로세서가 상기 잠재공간 표현형으로 변환된 데이터를 시간에 대한 스파이크 열(spike train)로 변환하는 단계; 상기 프로세서가 상기 스파이크 열로 변환된 데이터를 SNN 기반의 학습 모듈에 입력하여 학습을 수행하는 단계; 상기 프로세서가 상기 학습 모듈의 출력 데이터에 대하여 시간에 대한 스파이크 열로 추출하는 단계; 상기 프로세서가 상기 추출된 스파이크 열을 잠재공간(Latent space) 표현형으로 변환하는 단계; 및 상기 프로세서가 상기 잠재공간 표현형으로 변환된 데이터를 영역 분할된 이미지 데이터로 출력하는 단계;를 포함할 수 있다.An image region segmentation method according to an embodiment of the present invention includes: receiving, by a computer processor, image data as an input; converting, by the processor, the image data into a latent space phenotype; converting, by the processor, the data converted into the latent spatial phenotype into a time spike train; performing learning by the processor by inputting the data converted into the spike sequence into an SNN-based learning module; extracting, by the processor, a spike sequence with respect to time with respect to the output data of the learning module; converting, by the processor, the extracted spike sequence into a latent space phenotype; and outputting, by the processor, the data converted into the latent spatial phenotype as region-divided image data.

본 발명의 일 실시예에 따른 영상 영역 분할 방법은 상기 프로세서가 상기 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 단계에서 인코더 블록(encoder block)을 이용하고, 상기 프로세서가 상기 추출된 스파이크 열을 잠재공간(Latent space) 표현형으로 변환하는 단계에서 디코더 블록(decoder block)을 이용하는 것일 수 있다.An image region segmentation method according to an embodiment of the present invention uses an encoder block in the step of the processor converting the image data into a latent space phenotype, and the processor uses the extracted spike sequence It may be to use a decoder block in the step of converting to a latent space phenotype.

본 발명의 일 실시예에 따른 영상 영역 분할 방법은 상기 프로세서가 학습을 수행하는 단계에서 실측자료(ground-truth) 이미지도 잠재공간(latent space) 표현형으로 변환하고, 변환된 데이터를 시간에 대한 스파이크 열(spike train)로 변환된 입력 데이터를 이용하는 것을 특징으로 할 수 있다.In the image region segmentation method according to an embodiment of the present invention, the ground-truth image is also converted into a latent space phenotype in the step of the processor performing learning, and the converted data is spiked with respect to time It may be characterized by using input data transformed into a spike train.

본 발명의 일 실시예에 따른 영상 영역 분할 방법은 상기 프로세서가 학습을 수행하는 단계에서, 입력 스파이크 시냅스와 출력 스파이크 시냅스 간의 손실 에러를 이용한 가중치가 적용되어 업데이트되는 것을 특징으로 할 수 있다.In the image region segmentation method according to an embodiment of the present invention, in the step of the processor performing learning, a weight using a loss error between an input spike synapse and an output spike synapse is applied and updated.

본 발명은 상술한 영상 영역 분할 방법을 수행하는 영상 영역 분할 장치 및 영상 영역 분할 프로그램을 포함할 수 있다. The present invention may include an image region dividing apparatus and an image region dividing program for performing the above-described image region dividing method.

본 발명의 일 실시예에 따른 알고리즘을 적용한 영상 영역 분할 방법을 사용하면, 영상 영역 분할을 종래방식에 비하여 더 빠르고 정확하게 수행할 수 있는 이점이 있다. When the image region segmentation method to which the algorithm is applied according to an embodiment of the present invention is used, there is an advantage that image region segmentation can be performed faster and more accurately than the conventional method.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 본 발명의 일 실시예에 따른 영상 영역 분할 방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따라 입력된 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 과정을 나타낸다.
도 3은 본 발명의 일 실시예에 따라 시간에 대한 스파이크 열로 변환하는 과정을 나타낸다.
도 4는 본 발명의 일 실시예에 따라 시간에 대한 스파이크 열로 변환하는 과정을 나타낸다.
도 5는 본 발명의 일 실시예에 따라 SNN 기반의 학습 모듈에서 학습을 수행하는 과정을 나타낸다.
1 is a flowchart of a method for segmenting an image region according to an embodiment of the present invention.
2 shows a process of converting input image data into a latent space phenotype according to an embodiment of the present invention.
3 shows a process of converting a spike sequence with respect to time according to an embodiment of the present invention.
4 shows a process of converting a spike sequence with respect to time according to an embodiment of the present invention.
5 shows a process of performing learning in an SNN-based learning module according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면을 참조하여 상세하게 설명하도록 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.Since the present invention can have various changes and can have various embodiments, specific embodiments will be described in detail with reference to the drawings. However, this is not intended to limit the present invention to specific embodiments, and it should be understood to include all modifications, equivalents and substitutes included in the spirit and scope of the present invention. In describing each figure, like reference numerals have been used for like elements.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재 항목들의 조합 또는 복수의 관련된 기재 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, and B may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. and/or includes a combination of a plurality of related description items or any of a plurality of related description items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being “connected” or “connected” to another component, it may be directly connected or connected to the other component, but it should be understood that other components may exist in between. something to do. On the other hand, when it is said that a certain element is "directly connected" or "directly connected" to another element, it should be understood that no other element is present in the middle.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In the present application, terms such as “comprise” or “have” are intended to designate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, but one or more other features It should be understood that it does not preclude the possibility of the presence or addition of numbers, steps, operations, components, parts, or combinations thereof.

또한, "제 1"및 "제 2"라는 용어는 본 명세서에서 구별 목적으로만 사용되며, 어떠한 방식으로도 서열 또는 우선 순위를 나타내거나 예상하는 것을 의미하지 않는 것으로 이해되어야 한다.It should also be understood that the terms "first" and "second" are used herein for distinguishing purposes only, and are not meant to indicate or anticipate sequences or priorities in any way.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical and scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present application. does not

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다. Throughout the specification and claims, when a part includes a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 영상 영역 분할 방법의 순서도이다. 1 is a flowchart of a method for segmenting an image region according to an embodiment of the present invention.

도 1을 참조하면 본 발명의 일 실시예에 따른 영상 영역 분할 방법은 컴퓨터의 프로세서가 이미지 데이터를 입력으로 수신하는 단계(S100); 상기 프로세서가 상기 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 단계(S110); 상기 프로세서가 상기 잠재공간 표현형으로 변환된 데이터를 시간에 대한 스파이크 열(spike train)로 변환하는 단계(S120); 상기 프로세서가 상기 스파이크 열로 변환된 데이터를 SNN 기반의 학습 모듈에 입력하여 학습을 수행하는 단계(S130); 상기 프로세서가 상기 학습 모듈의 출력 데이터에 대하여 시간에 대한 스파이크 열로 추출하는 단계(S140); 상기 프로세서가 상기 추출된 스파이크 열을 잠재공간(Latent space) 표현형으로 변환하는 단계(S150); 및 상기 프로세서가 상기 잠재공간 표현형으로 변환된 데이터를 영역 분할된 이미지 데이터로 출력하는 단계(S160);를 포함할 수 있다. Referring to FIG. 1 , a method for segmenting an image region according to an embodiment of the present invention includes: receiving, by a computer processor, image data as an input (S100); converting, by the processor, the image data into a latent space phenotype (S110); converting, by the processor, the data converted into the latent spatial phenotype into a time spike train (S120); performing, by the processor, learning by inputting the data converted into the spike sequence into an SNN-based learning module (S130); extracting, by the processor, a spike sequence with respect to time with respect to the output data of the learning module (S140); converting, by the processor, the extracted spike sequence into a latent space phenotype (S150); and outputting, by the processor, the data converted into the latent spatial phenotype as region-divided image data (S160).

도 2는 본 발명의 일 실시예에 따라 입력된 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 과정을 나타낸다.2 shows a process of converting input image data into a latent space phenotype according to an embodiment of the present invention.

이미지 데이터를 잠재공간 표현형으로 변환하는 것은 인코더 블록(encoder block)을 이용하여 수행될 수 있다. Transforming the image data into a latent spatial phenotype may be performed using an encoder block.

본 발명의 일 실시예에 따른 잠재공간은 기계학습에 필요한 특징(feature)을 추출하기 위해서 실제 데이터의 차원을 축소하는 것을 의미하는 것으로, 분석 대상을 잘 설명할 수 있다. The latent space according to an embodiment of the present invention means reducing the dimension of real data in order to extract features necessary for machine learning, and can explain the analysis target well.

도 2의 위에 있는 도면은 인코더를 이용하여 분석하고자 하는 입력된 RGB 데이터를 잠재공간(latent space) 표현형(20)으로 변환하는 것을 나타내고. 도 2의 아래에 있는 도면은 실측자료(ground-truth) 데이터를 잠재공간(latent space) 표현형(22)으로 변환하는 것을 나타낸다.The upper diagram of FIG. 2 shows conversion of input RGB data to be analyzed into a latent space phenotype 20 using an encoder. The figure at the bottom of FIG. 2 shows the transformation of ground-truth data into a latent space phenotype 22 .

도 3은 본 발명의 일 실시예에 따라 시간에 대한 스파이크 열로 변환하는 과정을 나타내고, 도 4는 스파이크 열로 변환하는 자세한 과정을 나타낸다.3 shows a process of converting into a spike sequence with respect to time according to an embodiment of the present invention, and FIG. 4 shows a detailed process of converting it into a spike sequence.

도 3을 참조하면, 잠재공간 표현형으로 변환된 데이터(20, 22)는 시간에 대한 스파이크 열(30, 32)로 변환되는데, 분석하고자 하는 입력 데이터 및 실측자료 (ground-truth) 데이터 모두 스파이크 열로 변환된 후, SNN(Spiking Neural Network) 기반의 학습 모듈(100)에 입력된다. Referring to FIG. 3 , the data 20 and 22 converted to the latent space phenotype are converted into spike columns 30 and 32 for time, and both the input data to be analyzed and the ground-truth data are converted into spike columns. After the transformation, it is input to the SNN (Spiking Neural Network)-based learning module 100 .

도 5는 본 발명의 일 실시예에 따라 SNN 기반의 학습 모듈(100)에서 학습을 수행하는 과정을 나타낸다. 5 shows a process of performing learning in the SNN-based learning module 100 according to an embodiment of the present invention.

도 5를 참조하면, 네트워크 아키텍처(network architecture)는 복수개의 지연된 시냅스 터미널(50)로 구현된 연결을 가진 스파이킹 뉴런의 스파이크 응답 모델 네트워크로 구성된다.Referring to FIG. 5 , the network architecture consists of a spike response model network of spiking neurons having connections implemented with a plurality of delayed synaptic terminals 50 .

여기서 스파이크 열로 변환된 분석하고자 하는 입력 데이터(30)는 SNN 학습을 통해 출력 결과 스파이크(34, Output resultant spikes)로 도출될 수 있고, 스파이크 열로 변환된 실측자료 (ground-truth) 데이터는 목적 출력 스파이크(desired output spikes, GT)(32)로 지칭될 수 있다.Here, the input data 30 to be analyzed converted into a spike column can be derived as output resultant spikes 34 through SNN learning, and ground-truth data converted into a spike column is the target output spike. (desired output spikes, GT) 32 .

뉴론 h의 발화시간이 t h 라고 할 때, 전 시냅스 전 뉴런 세트는 아래와 같이 설정할 수 있다.When the firing time of neuron h is t h , the presynaptic neuron set can be set as follows.

Figure pat00001
Figure pat00001

뉴런 h에서 뉴런 o까지의 입력 시냅스 전류

Figure pat00002
는 시냅스 가중치 w ho 에 의해 가중되지 않은 지연
Figure pat00003
을 갖는 반응형 스파이크 함수
Figure pat00004
에 의해 아래 식 1와 같이 결정될 수 있다.Input synaptic current from neuron h to neuron o
Figure pat00002
is the delay unweighted by the synaptic weight w ho
Figure pat00003
Responsive spike function with
Figure pat00004
can be determined as in Equation 1 below.

[식 1][Equation 1]

Figure pat00005
Figure pat00005

뉴런 h에서 뉴런 o까지의 출력 시냅스 전류

Figure pat00006
는 시냅스 가중치 w ho 에 의해 가중되는 반응형 스파이크 함수
Figure pat00007
에 의해 아래 식 2와 같이 결정될 수 있다. Output synaptic current from neuron h to neuron o
Figure pat00006
is a reactive spike function weighted by the synaptic weight w ho
Figure pat00007
can be determined as in Equation 2 below.

[식 2][Equation 2]

Figure pat00008
Figure pat00008

다중 지연된 시냅스 터미널(50)에서, 상기 수학식2는 모든 n 터미널에 대해 뉴런 h와 뉴런 o 사이의 모든 연결을 제공하므로 아래 식 3과 같이 결정될 수 있다.In the multi-delayed synaptic terminal 50, Equation 2 provides all connections between the neuron h and the neuron o for all n terminals, so it can be determined as in Equation 3 below.

[식 3][Equation 3]

Figure pat00009
Figure pat00009

학습 모델은 스파이크 응답 모델을 사용하여 개발되었으므로, 시냅스 전류가 막 전위 임계 값(

Figure pat00010
)을 초과 할 때 뉴런 스파이크로서 지수 붕괴 함수를 사용하여 시냅스 후 스파이크의 응답성을 모델링 할 수 있다. 따라서, 스파이크 함수
Figure pat00011
는 식 4와 같이 표현될 수 있다.As the learning model was developed using the spike response model, the synaptic current
Figure pat00010
), we can use the exponential decay function as the neuron spike to model the responsiveness of the post-synaptic spike. So, the spike function
Figure pat00011
can be expressed as Equation 4.

[식 4][Equation 4]

Figure pat00012
Figure pat00012

여기서

Figure pat00013
는 막 전위의 붕괴 시간 상수이고, 막 전위의 임계 값 (
Figure pat00014
)은 모든 뉴런에 대해 동일하다.here
Figure pat00013
is the decay time constant of the membrane potential, the threshold of the membrane potential (
Figure pat00014
) is the same for all neurons.

학습 모델은 단일 시냅스와 다중 시냅스의 두 가지 유형의 연결이 포함하고 있으므로 단일 시냅스 및 다중 시냅스에 대해 가중치 전송이 적절하게 수행된다.Since the learning model contains two types of connections: single synapses and multi-synapses, weight transfer is performed appropriately for single synapses and multiple synapses.

본 발명의 일 실시예에 따른 학습 과정은 발화 시간에 따른 오차를 정확하게 계산할 수 있다.The learning process according to an embodiment of the present invention may accurately calculate an error according to an utterance time.

상기 오차는 출력 결과 스파이크(34, output resultant spikes) {

Figure pat00015
}에서 목적 출력 스파이크(32, desired output spikes) {
Figure pat00016
}를 뺀 것으로 정의될 수 있다.The error is output resultant spikes (34, output resultant spikes) {
Figure pat00015
} in the desired output spikes(32, desired output spikes) {
Figure pat00016
} can be defined by subtracting .

Error = Output resultant spikes {

Figure pat00017
Figure pat00018
} - Desired output spikes {
Figure pat00019
Figure pat00020
} Error = Output resultant spikes {
Figure pat00017
Figure pat00018
} - Desired output spikes {
Figure pat00019
Figure pat00020
}

한편, 잠재공간 표현형으로 변환된 스파이크 열(30)은 학습 모델을 통해 출력 결과 스파이크(34, output resultant spikes)로 도출될 수 있고, 목적 출력 스파이크(desired output spikes, 32)는 스파이크 열로 변환된 실측자료 (ground-truth) 데이터를 의미한다. On the other hand, the spike column 30 converted into the latent spatial phenotype can be derived as output resultant spikes 34 through the learning model, and the desired output spikes 32 are measured as the spike column converted It means ground-truth data.

오차 목적 함수는 주로 사용 가능한 손실 함수 중 하나 일 수 있으며, 오차 목적 함수는 아래 식 5와 같이 표현할 수 있다. The error objective function may be one of mainly available loss functions, and the error objective function can be expressed as Equation 5 below.

[식 5][Equation 5]

Figure pat00021
Figure pat00021

역전파(backpropagation)의 경우, 시냅스 간 가중치는 출력 결과 스파이크(34)와 목적 출력 스파이크(32) 사이의 최소 오차를 산출하도록 조정되어야 한다. 따라서 아래 식 6에 대해 미분한 수식 7을 이용

Figure pat00022
하여 손실 에러(ε)를 업데이트 할 수 있다.In the case of backpropagation, the inter-synaptic weights must be adjusted to yield a minimum error between the output result spike 34 and the target output spike 32 . Therefore, using Equation 7 which is different from Equation 6 below
Figure pat00022
to update the loss error (ε).

[식 6][Equation 6]

Figure pat00023
Figure pat00023

[식 7][Equation 7]

Figure pat00024
Figure pat00024

Figure pat00025
는 학습률이며, ( t o )는 출력의 발사시간 ( O o )는 출력 시냅스 전류이고, 식 7에서 점선으로 강조 표시된 용어를 연쇄 규칙(Chain-rule)을 활용하는 데 사용하면 아래 식 8 및 식 9와 같이 산출될 수 있다.
Figure pat00025
is the learning rate, ( t o ) is the firing time of the output ( O o ) is the output synaptic current, and the terms highlighted by the dashed line in Equation 7 are used to utilize the Chain-rule, Equation 8 and Equation 8 below 9 can be calculated.

[식 8][Equation 8]

Figure pat00026
Figure pat00026

[식 9][Equation 9]

Figure pat00027
Figure pat00027

상기 식8 및 식 9를 연립하면 식 6은 아래 식 10과 같이 표현할 수 있다. If Equation 8 and Equation 9 are combined, Equation 6 can be expressed as Equation 10 below.

[식 10][Equation 10]

Figure pat00028
Figure pat00028

상기 식 10을 간략하게 표현하면 아래 식 11과 같이 표현할 수 있다.If the above Equation 10 is briefly expressed, it can be expressed as Equation 11 below.

[식 11][Equation 11]

Figure pat00029
Figure pat00029

여기서 β o 는 아래 식 12와 같이 표현될 수 있다.Here, β o can be expressed as Equation 12 below.

[식 12][Equation 12]

Figure pat00030
Figure pat00030

상기 식 11과 식 12는 출력 레이어의 뉴런에 대한 가중 적응에 해당하는 역 전파에 사용될 수 있다.Equations 11 and 12 can be used for back propagation corresponding to weighted adaptation to neurons of the output layer.

마찬가지로, 숨겨진 레이어 뉴런에 대해서도 오류 역 전파 (가중치 조정)를 수행 할 수 있다.Similarly, we can perform error backpropagation (weight adjustment) for hidden layer neurons.

본 발명의 일 실시예에 따르면, 숨겨진 레이어 수에 관계없이 오류 역전파를 사용하여 가중치를 업데이트 할 수 있고, 일련의 트레이닝 샘플에서 가중치가 업데이트되면 고정된 가중치가 테스트 시나리오에서 사용될 수 있다.According to an embodiment of the present invention, weights can be updated using error backpropagation regardless of the number of hidden layers, and when weights are updated in a series of training samples, a fixed weight can be used in a test scenario.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present invention, and a person of ordinary skill in the art to which the present invention pertains may make various modifications and variations without departing from the essential characteristics of the present invention. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The protection scope of the present invention should be construed by the following claims, and all technical ideas within the equivalent range should be construed as being included in the scope of the present invention.

20 : 잠재공간 표현형 입력 데이터
22 : 실측자료(ground-truth) 데이터에 대한 잠재공간(latent space) 표현형 데이터
30 : 스파이크 열로 변환된 입력 데이터
32 : 스파이크 열로 변환된 실측자료
34 : 출력 결과 스파이크
50 : 다중 지연된 시냅스 터미널
100 : SNN 기반 학습 모듈
20: latent space phenotype input data
22: Latent space phenotypic data for ground-truth data
30: input data converted to spike column
32: Actual data converted to spike column
34: output result spike
50: multiple delayed synaptic terminals
100: SNN-based learning module

Claims (6)

영상 영역 분할 방법에 있어서,
컴퓨터의 프로세서가 이미지 데이터를 입력으로 수신하는 단계;
상기 프로세서가 상기 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 단계;
상기 프로세서가 상기 잠재공간 표현형으로 변환된 데이터를 시간에 대한 스파이크 열(spike train)로 변환하는 단계;
상기 프로세서가 상기 스파이크 열로 변환된 데이터를 SNN 기반의 학습 모듈에 입력하여 학습을 수행하는 단계;
상기 프로세서가 상기 학습 모듈의 출력 데이터에 대하여 시간에 대한 스파이크 열로 추출하는 단계;
상기 프로세서가 상기 추출된 스파이크 열을 잠재공간(Latent space) 표현형으로 변환하는 단계; 및
상기 프로세서가 상기 잠재공간 표현형으로 변환된 데이터를 영역 분할된 이미지 데이터로 출력하는 단계;를 포함하는 영상 영역 분할 방법.
In the image region segmentation method,
receiving image data as input by a processor of the computer;
converting, by the processor, the image data into a latent space phenotype;
converting, by the processor, the data converted into the latent spatial phenotype into a time spike train;
performing, by the processor, learning by inputting the data converted into the spike sequence into an SNN-based learning module;
extracting, by the processor, a spike sequence with respect to time with respect to the output data of the learning module;
converting, by the processor, the extracted spike sequence into a latent space phenotype; and
and outputting, by the processor, the data converted into the latent spatial phenotype as region-segmented image data.
제1항에 있어서,
상기 프로세서가 상기 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 단계에서 인코더 블록(encoder block)을 이용하고,
상기 프로세서가 상기 추출된 스파이크 열을 잠재공간(Latent space) 표현형으로 변환하는 단계에서 디코더 블록(decoder block)을 이용하는 것인 영상 영역 분할 방법.
According to claim 1,
Using an encoder block in the step of the processor converting the image data into a latent space phenotype,
The image region segmentation method of claim 1, wherein the processor uses a decoder block in the step of converting the extracted spike sequence into a latent space phenotype.
제1항에 있어서,
상기 프로세서가 학습을 수행하는 단계는,
실측자료(ground-truth) 이미지도 잠재공간(latent space) 표현형으로 변환하고, 변환된 데이터를 시간에 대한 스파이크 열(spike train)로 변환된 입력 데이터를 이용하는 것을 특징으로 하는 영상 영역 분할 방법.
According to claim 1,
The step of the processor performing learning,
An image region segmentation method, characterized in that the ground-truth image is also converted into a latent space phenotype, and the converted data is converted into a spike train with respect to time.
제1항에 있어서,
상기 프로세서가 학습을 수행하는 단계는,
입력 스파이크 시냅스와 출력 스파이크 시냅스 간의 손실 에러를 이용한 가중치가 적용되어 업데이트되는 것을 특징으로 하는 영상 영역 분할 방법.
According to claim 1,
The step of the processor performing learning,
An image region segmentation method, characterized in that the weight using the loss error between the input spike synapse and the output spike synapse is applied and updated.
컴퓨터의 프로세서와 결합되어, 컴퓨터로 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 제1항 내지 제4항 중 어느 한 항의 방법을 실행시키키는 것을 특징으로 하는, 영상 영역 분할 프로그램.
In the computer program stored in a computer-readable recording medium combined with the processor of the computer,
An image region segmentation program, characterized in that the method of any one of claims 1 to 4 is executed.
영상 영역 분할 장치에 있어서,
이미지 데이터를 입력으로 수신하는 입력부;
상기 이미지 데이터를 잠재공간(Latent space) 표현형으로 변환하는 인코더;
상기 잠재공간 표현형으로 변환된 데이터 또는 학습 모듈의 출력 데이터를 시간에 대한 스파이크 열(spike train)로 변환하는 스파이크 변환 모듈;
상기 스파이크 열로 변환된 데이터를 학습하는 SNN 기반의 학습 모듈;
스파이크 열로 변환된 데이터를 잠재공간(Latent space) 표현형으로 변환하는 디코더; 및
상기 잠재공간 표현형으로 변환된 데이터를 영역 분할된 이미지 데이터로 출력하는 출력부를 포함하는 영상 영역 분할 장치.
An apparatus for dividing an image region, comprising:
an input unit for receiving image data as an input;
an encoder for converting the image data into a latent space phenotype;
a spike transformation module for converting the data converted into the latent space phenotype or the output data of the learning module into a spike train with respect to time;
an SNN-based learning module for learning the data converted into the spike sequence;
a decoder that converts the data converted into a spike column into a latent space phenotype; and
and an output unit for outputting the data converted into the latent spatial phenotype as region-segmented image data.
KR1020200009921A 2020-01-28 2020-01-28 The method, apparatus and the program for image region segmentation KR102416924B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200009921A KR102416924B1 (en) 2020-01-28 2020-01-28 The method, apparatus and the program for image region segmentation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200009921A KR102416924B1 (en) 2020-01-28 2020-01-28 The method, apparatus and the program for image region segmentation

Publications (2)

Publication Number Publication Date
KR20210096447A true KR20210096447A (en) 2021-08-05
KR102416924B1 KR102416924B1 (en) 2022-07-04

Family

ID=77316623

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200009921A KR102416924B1 (en) 2020-01-28 2020-01-28 The method, apparatus and the program for image region segmentation

Country Status (1)

Country Link
KR (1) KR102416924B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160138042A (en) 2014-03-27 2016-12-02 퀄컴 인코포레이티드 Invariant object representation of images using spiking neural networks
KR20170038622A (en) 2015-09-30 2017-04-07 삼성전자주식회사 Device and method to segment object from image
KR20190112378A (en) 2018-03-26 2019-10-07 삼성전자주식회사 Image segmentation method, image segmentation device, and learning method ofimage segmentation
KR20190140276A (en) * 2018-06-11 2019-12-19 고려대학교 산학협력단 Unsupervised learning device and learning method therefore

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160138042A (en) 2014-03-27 2016-12-02 퀄컴 인코포레이티드 Invariant object representation of images using spiking neural networks
KR20170038622A (en) 2015-09-30 2017-04-07 삼성전자주식회사 Device and method to segment object from image
KR20190112378A (en) 2018-03-26 2019-10-07 삼성전자주식회사 Image segmentation method, image segmentation device, and learning method ofimage segmentation
KR20190140276A (en) * 2018-06-11 2019-12-19 고려대학교 산학협력단 Unsupervised learning device and learning method therefore

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Donghao Zheng 등, Image Segmentation Method Based on Spiking Neural Network with Adaptive Synaptic Weights, 2019 IEEE ICSIP.(2019.07.19.) *
Giovanny Sanchez 등, LEGION-based image segmentation by means of spiking neural networks using normalizaed synaptic weights implemented on a compact scalable neuromorphic architecture, Neurocomputing(2 *

Also Published As

Publication number Publication date
KR102416924B1 (en) 2022-07-04

Similar Documents

Publication Publication Date Title
CN109597891B (en) Text emotion analysis method based on bidirectional long-and-short-term memory neural network
CN108875807B (en) Image description method based on multiple attention and multiple scales
CN110598779A (en) Abstract description generation method and device, computer equipment and storage medium
CN113688723A (en) Infrared image pedestrian target detection method based on improved YOLOv5
CN111310672A (en) Video emotion recognition method, device and medium based on time sequence multi-model fusion modeling
CN109214006B (en) Natural language reasoning method for image enhanced hierarchical semantic representation
KR20200128938A (en) Model training method and apparatus, and data recognizing method
CN112766172A (en) Face continuous expression recognition method based on time sequence attention mechanism
CN113822125B (en) Processing method and device of lip language recognition model, computer equipment and storage medium
CN110851594A (en) Text classification method and device based on multi-channel deep learning model
CN111563424A (en) Pedestrian re-identification method and device based on semi-supervised learning
CN113111968A (en) Image recognition model training method and device, electronic equipment and readable storage medium
Ku et al. A study of the Lamarckian evolution of recurrent neural networks
CN115630651B (en) Text generation method and training method and device of text generation model
CN112329438A (en) Automatic lie detection method and system based on domain confrontation training
Patel et al. Hand gesture recognition system using convolutional neural networks
CN117218498A (en) Multi-modal large language model training method and system based on multi-modal encoder
CN110750998A (en) Text output method and device, computer equipment and storage medium
AlKhuraym et al. Arabic sign language recognition using lightweight cnn-based architecture
Attia et al. Efficient deep learning models based on tension techniques for sign language recognition
CN108573197A (en) Video actions detection method and device
KR102416924B1 (en) The method, apparatus and the program for image region segmentation
Hassan et al. Intelligent sign language recognition using enhanced fourier descriptor: a case of Hausa sign language
CN116306869A (en) Method for training text classification model, text classification method and corresponding device
CN115641541A (en) Based on patient's body surface mud surface state data processing system

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant