KR102405470B1

KR102405470B1 - 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법 및 초고속 병렬 연산프로그램을 기록한 컴퓨터로 읽을 수 있는 매체

Info

Publication number: KR102405470B1
Application number: KR1020190166530A
Authority: KR
Inventors: 최일
Original assignee: 최일
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2022-06-07
Also published as: KR20210075453A

Abstract

본 발명은 주어진 초고해상도 그레이레벨 영상(graylevel image)으로부터 적분영상(integral image)을 생성하고 이를 이용한 평균차이(Difference of Averages; DoA) 필터(filter)의 값으로 영상분할(image segmentation)한 삼진영상(trianry image)을 초고속으로 생성하는 병렬 연산 방법에 관한 것이다. 본 발명에 따른 적분영상 이용 영상분할을 위한 초고속 병렬 연산 방법은 주어진 입력영상으로부터 덧대기(padding) 영상과 그의 적분영상 동시 생성부; 적분영상의 계산 값을 이용하는 평균차이 필터부; 그리고 평균차이 필터부로부터 생성된 값들을 이용하여 영상분할된 삼진영상 생성부; 를 포함한다. 본 발명에 따른 하나의 실시예로 적분영상 기반 영상분할 방법을 멀티-코어 CPU를 탑재한 컴퓨터에서 소프트웨어로 구현하는 경우에 멀티-코어 CPU만으로도 충분히 실시간 구현이 가능하므로 추가 비용이 소요되는 멀티-GPU나 특별한 임베디드(embedded)를 이용하지 않아도 되는 효과가 있다. 그리고 적분영상을 이용하여 머신 비전 검사 장치(machine vision inspection system)의 필수 구성품인 카메라와 조명의 이상 유무를 판단하는 영상 질 평가(image quality assessment)에 활용할 수 있는 효과가 있다.

Description

적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법 및 초고속 병렬 연산프로그램을 기록한 컴퓨터로 읽을 수 있는 매체{Ultra-fast parallel computation method for integrated image based image segmentation and its media recording readable with computers thereof}

본 발명은 주어진 초고해상도 그레이레벨 영상으로부터 적분영상을 생성하고 이를 이용한 평균차이 필터의 값으로 영상분할하여 삼진영상을 초고속으로 생성하는 병렬 연산 방법과 초고속 병렬 연산프로그램을 기록한 컴퓨터로 읽을 수 있는 매체의 제공에 관한 것이다.

물체의 표면을 카메라 기반으로 검사하는 머신 비전(machine vision) 분야에서 종종 활용되는 국부(local) 평균차이 필터(difference of averages filter; DoA filter)를 이용하는 영상분할(image segmentation) 방법이 알려져 있다.

이 방법은 주어진 영상의 모든 화소 위치에서 그 위치를 중심으로 일정한 크기를 가지는 전경창(foreground window)과, 그 전경창보다 크기가 더 큰 배경창(background window) 내에서 각각 밝기값의 평균을 계산하고, 계산된 전경창과 배경창의 평균값 차이를 이용하여 영상분할 하는 것에 관한 것으로서 하기와 같은 방법으로 이루어진다.

주어진 그레이레벨 영상에서 임의의 한 화소 위치

에서 그 밝기값을

로 두고,

의 수평과 수직의 화소 수는 각각

와

로 둔다. 여기에서

이고

이다.

에서 평균 차이(difference of averages; DoA)

는 배경창의 크기

에 해당하는 화소들이 가지는 밝기의 평균값과 전경창의 크기

에 해당하는 화소들이 가지는 밝기의 평균값 사이의 차이를 말하며, 다음과 같이 계산할 수 있다.

(1)

여기서 수평 화소 좌표

를 만족해야 하고, 수직 화소 좌표

를 만족해야 한다.

식 (1)로부터 계산된

를 이용하여 다음과 같이 최종적으로 영상 분할된 삼진영상(trinary image)

를 생성할 수 있다.

(2)

여기서

와

는 실수 값을 가지며, 실험적으로 결정하는 매개변수이다.

식 (1)을 입력 영상에 직접 적용한 계산량은 다음과 같이 된다.

덧셈 연산량은

, 뺄셈 연산량은

, 나눗셈은

이다. 만약

,

인 경우에 덧셈은 대략적으로

번이 될 것이다. 뺄셈은

번이 되며, 나눗셈은

번이 된다. 이와 같이 그 계산량이 매우 방대하여 실시간 처리가 요구되는 머신 비전 검사 장치에는 현실적으로 활용할 수 없게 된다.

머신 비전 검사 장치에 활용되는

해상도를 가지는 상용 라인(line) 카메라는 초당

개의 라인 영상을 생성하는 것이 일반적이다.

따라서

화소를 가지는 영상은 약

초 이내에 생성된다. 이 경우에 상기한 식 (1)과 식 (2)를 직접 구현하는 것은 실시간 머신 비전 검사 장치에는 적용하기에는 현실적으로 매우 부적합함을 알 수 있다.

입력 영상이

의 해상도이고 전경창의 크기가

이고 배경창이 크기가

인 경우에 상품명 인텔 i5-4590 3.6GHz 쿼드 코어(quad core) CPU를 탑재한 컴퓨터의 운영체계를 상품명 마이크로소프트 윈도우 7 x64를 설치하고 상품명 비주얼 스튜디오 2015 환경에서 C++로 4개의 코어로 상기한 식(1)과 식 (2)를 구현한 경우에 그 수행시간은 약 192초였다.

만약 전경창과 배경창의 크기가 커지는 경우에는 그 수행시간이 더욱 늘어나게 됨은 당연하다. 전경창의 크기가

이고 배경창의 크기가

인 경우에서는 그 수행 시간이 1,430초였다.

머신 비전 검사 장치에서는 전경창과 배경창의 크기에 연동되지 않는 고정된 수행시간이 요구된다. 이를 위해서는 전경창과 배경창의 크기에 무관하게 동일한 계산량을 가지는 방법이 필요하다. 이 문제는 알려진 기술인 적분 영상[선행기술 해외논문 : 문헌 2, 3]을 이용하여 해결할 수도 있다.

적분영상은 크게 직렬 계산 방법[선행기술문헌 해외논문: 문헌 2, 3, 4, 국내특허 1]와 병렬 계산 방법으로 나눌 수 있다. 병렬 계산은 다시 멀티-코어 기반 알고리듬[선행기술문헌 해외논문: 문헌 5, 7], 멀티-GPU 기반 알고리듬[선행기술문헌 해외논문: 문헌 6], 임베디드(embedded) 구현[선행기술문헌 해외논문: 문헌 8, 9; 국내특허 1] 등으로 분류된다.

멀티-GPU 기반 알고리듬은 회사명 앤비다(NBIDIA)사 등의 멀티-GPU 탑재 그래픽 카드가 추가적으로 필요하며, 임베디드 구현은 별도의 하드웨어가 필요하다. 따라서 이들 방법은 머신 비전 검사 장치의 비용을 대폭 증가시키는 중요한 단점을 가지게 된다.

국내특허 001: 특허 10-1688435호, 블록 구조를 이용한 적분 영상 생성 장치 및 그 방법, 2016.

(문헌1) 해외논문 001: Crow, F., "Summed-area tables for texture mapping,"ACM SIGGRAPH Computer Graphics, pp. 207-212, 18, 1984. (문헌2) 해외논문 002: Viola P., Jones M., "Rapid Object Detection using a Boosted Cascade of Simple Features,"Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 511-518, Kauai, HI, USA, December 8-14, 2001. (문헌3) 해외논문 003: Faisal Shafait, Daniel Keysers, Thomas M. Breuel, "Efficient implementation of local adaptive thresholding techniques using integral images,"Proc. SPIE 6815, Document Recognition and Retrieval XV, 681510, 28 January 2008. (문헌4) 해외논문 004: Branislav Kisaˇcanin, "Integral Image Optimizations for Embedded Vision Applications,"IEEE Southwest Symposium on Image Analysis and Interpretation, pp. 181-183, 24-26 March 2008. (문헌5) 해외논문 005: Zhang, N., "Working towards Efficient Parallel Computing of Integral Images on Multi-Core Processors,"Proceedings of the Second International Conference on Computer Engineering and Technology, pp. 30-34, Chengdu, China, 16-18, April 2010. (문한6) 해외논문 006: Berkin Bilgic, Berthold K.P. Horn, Ichiro Masaki, "Efficient Integral Image Computation on the GPU,"2010 IEEE Intelligent Vehicles Symposium, pp. 528-531, June 21-24, 2010. (문헌7) 해외논문 007: Wu Y. T., Cho C. Y., Tseng S. Y., Liu C. N., King C.T., "Parallel Integral Image Generation Algorithm on Multi-Core System,"Proceedings of the 9th IEEE International Symposium on Parallel and Distributed Processing with Applications, pp. 31-35, Busan, Korea, 26-28, May 2011. (문헌8) 해외논문 008: Peng Ouyang, Shouyi Yin, Yuchi Zhang, Leibo Liu, and Shaojun Wei, "A Fast Integral Image Computing Hardware Architecture With High Power and Area Efficiency,"IEEE Trans. on Circuits and Systems―II: Express Briefs, Vol. 62, No. 1, pp. 75-79, 2015. (문헌9) 해외논문 009: Shoaib Ehsan, Adrian F. Clark, Naveed ur Rehman and Klaus D. McDonald-Maier, "Integral Images: Efficient Algorithms for Their Computation and Storage in Resource-Constrained Embedded Vision Systems,"Sensors, pp. 16804-16830, 15, 2015. (문헌10) 국내특허 001: 특허 10-1688435호, 블록 구조를 이용한 적분 영상 생성 장치 및 그 방법, 2016.

본 발명에서 해결하고자 하는 과제는, 상기한 식 (1)과 식 (2)를 전경창과 배경창의 크기와는 무관하게 초고속으로 병렬 연산하는 새로운 방법의 제공과 그 연산 방법을 기록한 컴퓨터로 읽을 수 있는 매체의 체공에 관한 것이다.

상기 과제를 해결하기 위해, 본 발명에 따른 적분영상 이용 영상분할을 위한 초고속 병렬 연산 방법은 주어진 입력영상으로부터 덧대기(padding) 영상과 그의 적분영상 동시 생성부; 및 적분영상의 계산 값을 이용하는 평균차이 필터부; 그리고 평균차이 필터부로부터 생성된 값들을 이용하여 영상분할된 삼진영상 생성부; 를 포함한다.

여기에서, 상기 초고속 병렬 연산 방법의 한 실시예로 멀티-코어 CPU를 탑재한 컴퓨터에서 SIMD 어셈블리어와 openMP 명령어를 이용하는 소프트웨어 구현 방법을 포함할 수 있다.

또한, 상기 덧대기 영상과 그의 적분영상 동시 생성부는 평균차이 필터를 연산하는데 필요한 전경창과 배경창의 크기와 덧대기 영상(padding image)의 생성 방법인 0-덧대기(zero-padding)나 거울 덧대기(mirror-padding) 방법을 고려하는 것이 포함될 수 있다.

나아가 여기에서, 상기 덧대기 영상의 크기는 입력 영상의 크기, 배경창의 최대 크기, 그리고 멀티-코어 CPU의 벡터 레지스터(vector register) 크기를 고려해서 결정하는 방법을 포함할 수 있다.

또한, 상기 덧대기 영상과 그의 적분영상을 동시에 생성하기 위해서 덧대기 영상을 멀티-코어 CPU의 코어 수만큼 수직 또는 수평 방향으로 균등하게 나누어 각각의 코어에 할당하여 각 코어의 로드(load)가 균등하게 되도록 병렬 연산하는 방법을 포함할 수 있다. 이 경우에 각 코어에 할당된 적분영상의 최대값이 정수형 데이터의 범위를 초과하지 않도록 수직 또는 수평 방향으로 나누어질 영상의 크기를 고려하는 방법을 포함할 수 있다.

여기에서, 상기 덧대기 영상과 그의 적분영상 동시 생성부 이후에 생성된 적분영상을 이용하는 평균차이 필터부는 전경창과 배경창의 크기와 무관하게 그 연산 과정의 실행 속도가 거의 동일하게 유지되도록 하는 방법들 가운데에서 하나의 실시예로 멀티-코어 CPU의 벡터 레지스터의 크기와 멀티-코어 CPU 기반 병렬 연산의 로드 밸런스(load balance)가 맞추어지도록 코어의 수만큼 적분영상의 크기를 수직 또는 수평 방향으로 균등하게 나누는 방법을 포함할 수 있다.

상기 평균차이 필터부 이후에 생성되는 평균차이 값들로부터 삼진영상을 생성하는데 문턱값(threshold value) 기반 영상분할 방법 등을 포함할 수도 있다. 그리고 상기한 평균처리 필터부와 유사하게 전경창과 배경창의 크기와 무관하게 그 연산 과정의 실행 속도가 거의 동일하게 유지되도록 하는 방법들 가운데에서 하나의 실시예로 멀티-코어 CPU의 벡터 레지스터의 크기와 병렬 연산의 로드 밸런스(load balance)가 맞추어지도록 코어의 수만큼 적분영상의 크기를 수직 또는 수평 방향으로 균등하게 나누는 방법을 포함할 수 있다.

본 발명에 따르면, 주어진 초고해상도 그레이레벨 영상으로부터 덧대기와 적분영상을 동시에 생성하고, 생성된 적분영상에서 평균차이 필터로 계산한 평균차이 값으로부터 영상분할된 삼진영상을 초고속으로 생성하는 병렬 연산 방법에서 하나의 실시예로 멀티-코어 CPU를 탑재한 컴퓨터에서 소프트웨어로 구현하는 경우에 충분히 실시간 구현이 가능하므로 추가 비용이 소요되는 멀티-GPU나 특별한 임베디드를 이용하지 않아도 되므로 전체 시스템의 비용을 대폭 저감시키는 산업상의 효과가 있다.

나아가 본 발명에 따르면, 적분영상에서 특정한 수평 영역 또는 수직 영역이나 하나의 수평선 또는 수직선에 위치한 밝기값의 평균값이 다른 특정 수평 영역 또는 수직 영역이나 하나의 수평선 또는 수직선에 위치한 밝기값의 평균값보다 현저히 낮으면 그 영역이나 선에 해당하는 카메라 센서 소자나 조명의 고장으로 판단한다.

이를 활용하면 카메라나 조명 장치의 유지 보수에 활용할 수 있을 뿐만 아니라 제품의 표면을 검사하기 이전의 카메라나 조명의 이상 여부 등을 판단할 수 있게 되어 전체 시스템에 의한 영상 질의 평가에 활용할 수 있는 부수적인 효과가 있다.

도 1은 본 발명에 따른 적분영상 기반 삼진영상 생성 방법의 설명을 위한 플로우차트.
도 2는 입력영상과 덧대기 영상의 수평과 수직 크기를 나타내는 참고설명도.
도 3은 수평 적분영상 생성 방법을 설명하기 위한 플로우차트.
도 4는 정수 변환 방법을 설명하기 위한 플로우차트.
도 5는 이동합산을 설명하기 위한 플로우차트.
도 6은 혼합합산을 설명하기 위한 플로우차트.
도 7은 수평방향으로 거울 덧대기와 그의 적분영상이 생성된 영역을 나타내기 위한 설명도.
도 8은 평균차이 필터로부터 삼진 영상 생성 방법을 설명하기 위한 플로우차트이다.

이하, 본 발명의 바람직한 한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 부하고 있다.

본 발명을 설명함에 있어, 기히 공지, 공용의 기술에 대한 구체적인 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 통하여 설명하고 있으나,

본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

본 발명에 따른 덧대기 영상과 그의 적분영상 동시 생성부, 평균차이 필터부, 삼진영상 생성부는 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있고 또는 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다.

또한 본 발명에 따른 덧대기 영상과 그의 적분영상 동시 생성부, 평균차이 필터부, 삼진영상 생성부는 소프트웨어 프로그램으로 구현되어 프로세서 또는 신호 처리 모듈 위에서 동작할 수 있고, 또는 하드웨어의 형태로 구현되어 칩(Chip), 소자 등이 될 수 있음은 물론이다.

또한 이와 같은 본 발명에 따른 덧대기 영상과 그의 적분영상 동시 생성부, 평균차이 필터부, 삼진영상 생성부는 영상을 획득 또는 입력받고 이를 처리하는 디바이스, 하드웨어, 소프트웨어 모듈에 포함되어 동작할 수 있다.

예를 들면 본 발명에 따른 덧대기 영상과 그의 적분영상 동시 생성부, 평균차이 필터부, 삼진영상 생성부는 영역(area)이나 라인(line) 카메라 및 그의 모듈, 컴퓨터, 각종 영상 인식검출처리 장치에 하드웨어 또는 소프트웨어의 형태로 포함되어 동작하거나, 이들 장치와 연동하여 동작하는 하드웨어 또는 소프트웨어 상에서 동작할 수 있다.

도 1은 본 발명에 따른 적분영상 기반 삼진영상 생성 방법의 플로우차트(1000)를 나타내는 설명도이다.

입력영상

으로부터 영 또는 거울 덧대기의 적분영상을 생성부(2000)에서 생성한다. 이 적분영상에 평균차이 필터부(3000)를 적용하여 영상 분할된 삼진 영상

또는 영상 질 평가에 필요한 매개변수들을 계산부(4000)에서 계산한다.

본 발명에 다른 평균차이 필터를 그 전경창과 배경창의 크기와 무관하게 초고속 병렬 연산하기 위해서는 덧대기 영상과 그의 적분영상의 동시 생성부(2000)에서 생성되는 적분영상을 이용하게 된다.

본 발명에 따른 평균차이 필터의 전경창과 배경창의 크기는 임의의 크기를 가지는 사각 형태로 한다.

이 경우에

,

가 된다. 그리고

와

이다.

여기서

와

그리고

와

는 홀수이다. 예를 들어서

과

이면 배경창의 최대 크기는

가 되고 이 경우에 전경창의 최대 크기는

이 되어야 한다. 이와 같이

와

를 결정하면 임의의 사각 형태를 가지는 배경창과 전경창들의 크기를 결정할 수 있게 되는 것이다.

식 (1)에 나타낸

를 수평 화소 좌표들의 범위가 각각

와

, 그리고 수직 화소 좌표들의 범위가

와

에서도 계산할 수 있도록 한다.

이를 위해서는 주어진 입력 영상의 크기를 확장하는 덧대기(padding)가 필요하다. 일반적으로 덧대기는 영으로 확장하는 영 덧대기(zero-padding)와 입력 영상의 화소 값을 거울 대칭으로 확장하는 거울 덧대기(mirror-padding)로 분류된다. 본 발명에 따른 덧대기 영상에서는 영 덧대기 또는 거울 덧대기 모두 적용할 수 있는 방법을 제공한다.

덧대기 영상의 크기는 입력 영상의 크기, 코어의 총 수, 벡터 레지스터의 크기, 그리고 전경창과 배경창의 최대 크기를 고려하여 결정할 수 있다. 입력 영상의 수평 크기

와 수직 크기

, 그리고 코어의 총 수

과 벡터 레지스터의 크기

를 활용한다. 여기에서

과

는 멀티-코어 또는 멀티-쓰레드(multi-thread) 컴퓨팅 환경에서 각 코어나 쓰레드의 로드 균형(load balance)을 고려하기 위해서 필요한 매개변수로 사용할 수 있다.

도 2는 입력영상과 덧대기 영상의 수평과 수직 크기를 나타내는 설명도로서 도 2를 참조하면 덧대기의 수평과 수직 크기는 각각

와

이다.

따라서 덧대기 한 영상의 수평 크기

과 수직 크기

는 각각

와

가 된다. 이 경우에 덧대기 수평 크기

와 수직 크기

는 다음과 같이 표현될 수 있다.

(3.1)

(3.2)

(3.3)

여기서

는 최하한경계값(greatest lower bound)의 약자이며,

는

의 몫을 계산하는 연산자이다. 그리고

인 정수이다.

거울 덧대기 한 영상

또는 영 덧대기 한 영상

로부터 적분 영상

은 다음과 같이 생성할 수 있다.

(4)

상기한 식 (4)에 나타낸 적분영상은 입력영상

로부터 덧대기 영상

또는

를 생성하면서 동시에

또는

로부터 생성할 수 있다.

덧대기 영상

또는

와 적분 영상

는 수직 또는 수평 방향으로 분할하여 병렬 연산할 수 있다. 여기에서, 적분 영상의 최대값이 4바이트(byte) 부호 없는 정수(integer) 데이터의 범위를 초과하지 않도록 분할되는 영상의 크기를 고려한다.

입력영상의 각 화소(pixel)는 0부터 255까지의 밝기값을 가지는데 이는 1바이트(byte) 부호 없는(unsigned) 수로 표현 가능하다. 거울 덧대기를 한 적분영상에서 한 화소가 가질 수 있는 최대값은

이다.

만약,

인 경우에

이 되어 5바이트 정수를 필요로 한다. 이는 4바이트 정수로 표현할 수 없고 4바이트 단정도(single-precision) 실수(float)로 표현 가능하다. 따라서 입력 영상의 1바이트 부호 없는 정수인 밝기값을 4바이트 단정도 실수로 변환해야 하는데, 이 경우에 연산의 정확도는 보장되지 않는다.

예를 들어 4바이트 단정도 실수의 값이 2,147,352,128.0인 경우에 다른 4바이트 단정도 실수의 값인 270,752.0을 더하는 연산을 수행하면 2,147,622,880.0이 되어야 하나 그 결과는 2,147,563,008이 된다. 이 문제를 해결하기 위해서 8바이트 배정도(double-precision) 실수로 변환하는 경우에 그 저장 공간은 2배가 더 소요된다.

본 발명에 따른 하나의 실시예로 멀티-코어 CPU 탑재 컴퓨터에서 소프트웨어로 구현하는 경우에 저장 공간을 줄이기 위해서 적분영상의 최대값이 4바이트 정수가 가지는 범위 이내가 되도록 멀티-코어의 캐쉬(cache) 크기를 고려하여 덧대기 영상을 수직 또는 수평으로 균등하게 분할하는 방법을 채택할 수 있다.

입력영상

에서 임의의 수평선상에서 거울 덧대기 영상

와 영 덧대기 영상

는 다음과 같이 생성할 수 있다.

(5.1)

(5.2)

여기서

이다.

그리고

는 1 바이트(Byte) 부호 없는 char(unsigned char) 데이터를 4바이트 정수 데이터로 변환하는 연산자이다.

식 (5)에서 계산된

또는

로부터 임의의 수평선상의 적분영상은 각각,

(6.1)

(6.2)

로 주어진다.

수직 방향으로 거울 덧대기 영상

와 영 덧대기 영상

는 각각 식 (6.1)과 식 (6.2)를 이용하여 다음과 같이 생성할 수 있다.

(7.1)

(7.2)

여기서

이다.

식 (5), 식 (6), 그리고 식 (7)을 통해서 동시 생성된 거울 덧대기와 영 덧대기 한 영상의 적분 영상은 각각,

(8.1)

(8.2)

로 주어진다.

여기에서, 상기한 식 (5)의

와

, 식 (6)의

와

, 식 (7)의

와

는 식 (8)의

와 동일한 메모리 공간을 가지나 편의상 서로 다르게 표현하고 있다.

본 발명에 따른 평균차이 필터를 그 전경창과 배경창의 크기와 무관하게 초고속 병렬 연산하기 위해서는 덧대기 영상과 그의 적분영상 동시 생성(2000)을 상기한 식 (5), 식 (6), 식 (7), 그리고 식 (8)을 이용하여 구현한다.

본 발명에 따른 덧대기 영상은 영 또는 거울 덧대기 영상 모두에 적용할 수 있는 방법이다. 여기서는 거울 덧대기 영상에 대해서만 기술한다.

[수평방향 거울 덧대기 영상과 그의 적분영상 동시 생성부]

상기 식 (5.1)에 나타낸 수평 방향으로 거울 덧대기 한 영상과 그의 적분영상 동시 생성인 상기 식 (6.1)에 나타낸 수평 방향 적분영상의 생성은 다음과 같이 구현할 수 있다.

(H.0) 초기화: 입력영상의 크기

와 배경창의 최대 크기

가 주어지면 덧대기의 수평과 수직 크기인

와

를 상기 식 (3)을 통해서 계산한다.

입력영상

를 수직으로 코어나 쓰레드 수

만큼 균등하게 분할하면 각 영역의 크기는

이 된다. 여기서

로 두면,

인 경우에

이 된다.

이 경우에

까지의 코어나 쓰레드는

의 동일한 영상의 크기가 할당되지만

번째 코어나 쓰레드에 할당되는 영상의 크기는

이 된다.

멀티 코어 또는 멀티 쓰레드 환경에서 각 코어의 계산량을 동일하게 맞추어 주는 것이 계산 시간을 단축시키게 된다. 이를 일반적으로 로드 밸런스(load balance)라고 한다.

이를 위해서

번째 코어나 쓰레드에 할당되는 영상의 크기를

로 맞추어 주기 위해서

번째 코어나 쓰레드에 할당된 영상의 끝

개 수평선을

번째 코어나 쓰레드에 할당된 영역과 중복(overlap)시킨다. 이와 같이 서로 다른 영역들의 일부 영역들이 서로 중복이 되도록 하여 서로 다른 영역들이 동일한 면적을 가지도록 한다.

수직 방향으로 균등하게 분할된

크기를 가진 영상을

로 둔다. 여기서

이며,

이다.

서로 다른

를 서로 다른 코어 또는 쓰레드에 할당하여 동시에 포크-조인(fork-join)방식의 병렬 연산을 하도록 한다.

여기에서 물리적으로 서로 다른 영역을 서로 다른 코어나 쓰레드가 담당하기 때문에 동일한 메모리의 영역을 동시에 읽고 쓸 때에 서로 다른 코어나 쓰레드는 서로 충돌하지 않고 독립적으로 동작하도록 하는 것이다. 따라서 서로 다른 코어나 쓰레드가 동일한 주소를 가지는 메모리를 읽고 쓸 때의 충돌을 방지하기 위한 고려를 할 필요성이 없게 되고, 또한 로드 밸런스를 맞추어 주기 때문에 서로 다른 코어나 쓰레드 사이의 연산 처리 속도가 일정하게 유지될 수 있게 된다.

각 영역에 할당된 코어는 SIMD와 openMP 명령어로 다수의 데이터를 동시에 처리할 수 있다.

영상

에 해당하는 그의 거울 덧대기 영상은 상기 식 (5.1)에 나타낸

에서

를 만족하는

로 표기한다. 그리고

에 해당하는 수평 적분영상은 상기 식 (6.1)에 나타낸 수평 적분영상

에서

를 만족하는

로 표기한다.

영상

에서 하나의 수평선상에 포함된 화소들의 집합을 총 5개의 부분 집합

로 나눈다. 여기에서

의 각 부분 집합들에 대해서 상기한 식 (5.1)과 식 (6.1)을 구현하는 상세한 방법은 다음의 (H.1)부터 (H.7)까지의 과정으로 구성된다.

(H.1)

인 경우:

(H.1.0) 입력 영상

를 1바이트 부호 없는 정수를 영 확장 더블 워드(double word) 정수로 변환하면서 읽는다.

가 된다.

(H.1.2) 해당 위치의 수평 적분영상에

를 쓴다.

(H.1.3)

을 벡터 레지스터를 이용하여 방송(broadcast)한다. 여기에서 방송이란 특정 벡터 레지스터의 모든 요소들을 동일한 값으로 두는 것을 의미하고 있으며 이는

을 의미한다.

(H.2)

인 경우:

(H.2.0)

로 다시 그 부분 집합을 균등 분할한다. 여기에서

로 두면,

가 된다.

균등 분할된 부분 집합의 수를

로 두면

는

인 경우에는

가 되며, 그렇지 않으면

이 된다.

만약

인 경우에

개의 부분 집합은 그 원소의 수가

이나 마지막 하나의 부분 집합은 그 원소의 수가

부터

까지가 된다. 여기서

인 경우에는 상기한 (H.1.0)부터 (H.1.2)까지와 동일한 방법을 이용한다.

(H.2.1) 상기한 (H.2.0)의 부분 집합에 해당하는 입력 영상의 화소들을 벡터 레지스터로 읽는다. 이 경우에 읽는 순서는

번째로 한다.

만약

인 경우에서는

번째 부분 집합에서 원소의 수가

가 되도록

번째 부분 집합의 끝 원소들과 중복시켜서 읽는다. 그리고 중복된 원소들이 영의 값을 가지도록 적절한 처리를 한다.

도 3은 수평 적분영상 생성 방법을 설명하기 위한 참고도이다.

(H.2.2) 상기한 (H.2.1)에서 처리된 데이터는 도 3에 나타낸 정수 변환부(2200)로 입력된다. 이는 1바이트 부호 없는 정수를 4바이트 정수로 변환한다.

상기한 (H.2.1)에서 읽은 부분 집합의 데이터는 벡터 형식으로

로 편의상 바꾸어 쓴다. 이 경우에

의 크기는 벡터 레지스터의 크기와 같다.

도 4는 정수 변환(2100) 방법을 설명하기 위한 참고도이다.

도 4에 나타낸 치환(2210)은,

(10)

를 의미한다. 여기서

이며,

는 1바이트 부호 없는 정수를 나타낸다. 그리고

에서

은 임의의 벡터 레지스터를 의미하는 인덱스(index)이다. 이 인덱스가 다르면 서로 다른 벡터 레지스터를 나타낸다.

도 4에 나타낸 풀기(unpacking)1(2220)에서는 치환된 1바이트 부호 없는 정수를 2바이트 부호 없는 정수로 바꾼다. 이는 데이터가 2배로 늘어나기 때문에 다른 벡터 레지스터 1개가 추가적으로 필요하다. 따라서 상기 식 (10)에 나타낸 벡터 레지스터가 풀기1(2220)을 통과하게 되면,

(11.1)

(11.2)

이 된다. 여기서

는 2 바이트 부호 없는 정수인 워드(word)형 데이터를 나타낸다.

도 4에 나타낸 풀기2(2230)는 2바이트 부호 없는 정수를 4바이트 부호 없는 정수로 바꾼다. 이는 데이터가 2배로 늘어나기 때문에 다른 벡터 레지스터 2개가 추가적으로 필요하다. 식 (11.1)과 식 (11.2)에 나타낸 2바이트 부호 없는 정수는,

(12.1)

(12.2)

(12.3)

(12.4)

에 따라서 4바이트 부호 없는 정수로 변환된다. 여기서

는 4바이트 더블 워드 데이터임을 나타낸다.

여기서, 편의상

로 두자.

(13.1)

(13.2)

(13.3)

(13.4)

(H.2.3) 상기 식 (13)은 거울 덧대기 영역인

과 거울 덧대기 영역이 아닌

에서도 이용되어야 한다. 이를 위해서 상기 식 (13)에 나타낸 데이터들을 다른 레지스터 또는 메모리에 복사하거나 저장해둔다.

거울 덧대기 영역인

에서는 상기한 식 (13)에 나타낸 벡터 레지스터 요소들의 위치를 역배열(reverse ordering)해야 한다.

이는

를 의미하며, 다른 레지스터들도 마찬가지이다.

도 5는 이동합산(2300)을 설명하기 위한 참고도이다.

(H.2.4) 상기한 식 (13)에서 역배열된 데이터를 가지는 벡터 레지스터

들은 도 5에 나타낸 이동합산(2300)으로 입력된다.

도 5에 나타낸

와

은 입력데이터를 왼쪽으로 각각 4와 8바이트 이동시키는 것을 의미한다. 그리고 ∑는 합을 의미하고

와

은 각각 4와 8바이트 이동시키는 데에 소요되는 시간만큼 지연시키는 것을 의미한다.

식 (13.1)에 나타낸

가

와

를 각각 지나서 ∑에서 합해지면 그 결과는 다음과 같다.

(14.1)

만약

이거나

인 경우에서는

이 된다. 만약

이면

는 다시

과

를 각각 지나서 ∑에서 합해지면 그 결과는 다음과 같다.

(14.2)

그리고

가 된다.

만약

또는 그 이상인 경우에서는 도 5에서 명시적으로 나타내지 않았지만 추가적으로

,

, ∑ 등과 조건판단부들이 도 5에 나타낸 구조로 반복된다.

도 6은 혼합합산(2400)을 설명하기 위한 참고도이다.

(H.2.5) 이동합산(2300)을 통과한 데이터는 도 6에 나타낸 혼합합산(2400)으로 입력된다.

도 6에서 만약

이면 치환, 혼합, ∑를 통과하지 않고 바로 ∑, 방송,

로 입력된다. 여기서

는 실수변환(2200)과 이동합산(2300)을 수행하는 데에 소요되는 시간만큼 지연시킨다는 의미이다. 이

를 통과한 데이터는 이전에 계산된 수평 적분 데이터

을 의미한다. 따라서 최종적으로 수평 적분 데이터

가 된다.

도 6에서 만약

등인 경우에

는 실수변환(2200)과 이동합산(2300)을 수행하는 데에 소요되는 시간에

를 더한 시간만큼 지연시킨다는 의미이다. 이 경우에는 정상적으로 모든 과정을 거쳐서 최종 결과인 수평방행 적분영상 데이터를 생성하게 된다.

도 6에 나타낸 치환과 혼합 과정을 수행하면 식 (14.2)에 나타낸

는 다음과 같이 변환된다.

(15.1)

도 6에 나타낸 ∑ 과정까지 수행하면,

(15.2)

이 된다.

그리고 이전 수평 적분 데이터

과 ∑ 과정을 수행하면 최종적인

가 계산된다. 여기서 방송은 이전 적분 데이터를 생성하는 것이다. 만약

로 두면

가 되도록 하는 것이다.

(H.2.6) 상기한 (H.2.4)부터 (H.2.5) 단계까지 4번 반복해서 (H.2.3)에서 역 배열된 총 4개의

,

데이터로부터 수평 적분 데이터

,

를 계산하여 덧대기 해당 위치의 수평 적분영상

에 쓴다. 그리고 (H.2.3)에서 역배열 하지 않고 저장해 놓은

,

로부터

,

를 계산하여 해당 위치의 수평 적분 영상

에 쓴다.

(H.2.7) 상기한 (H.2.1)부터 (H.2.6)까지의 과정을 임의의 수평선상 데이터들이 모두 처리될 때까지 반복하여 수행한다. 이 경우에 계산 속도를 추가적으로 증가시키기 위해서 루프 언롤링(loop unrolling) 기법을 적용할 수 있다.

(H.3)

인 경우:

(H.3.0) 상기한 (H.2.0) 단계와 유사하게

크기로 부분 집합을 다시 균등 분할한 부분 집합으로 나눈다. 이 경우에 균등 분할된 부분 집합의 수는

로 둔다.

(H.3.1) 상기 (H.3.0)에서 균등 분할된 부분 집합의 데이터를 읽는다. 그리고 상기한 (H.2.2)부터 (H.2.6)까지의 과정을 수행한다.

(H.3.2) 상기한 (H.2.1)부터 (H.2.6)까지의 과정을

이 될 때까지 반복하여 수행한다. 이 경우에 계산 속도를 추가적으로 증가시키기 위해서 루프 언롤링 기법을 적용할 수 있다.

(H.4)

인 경우:

(H.4.1) 상기한 (H.2) 과정과 동일한 과정으로 처리한다.

(H.5)

인 경우:

(H.5.0) 입력 영상

를 1 바이트 부호 없는 정수를 영 확장 더블 워드 정수로 변환하면서 읽는다. 이는

가 된다.

(H.5.1) 상기한 (H.4.1)의 마지막 방송 데이터를

로 두면 하나의 수평선상의 마지막 화소에 대한 수평 적분 값은

가 된다.

도 7은 수평방향으로 거울 덧대기와 그의 적분영상이 생성된 영역을 나타내기 위한 참고도이다.

(H.6) 상기한 (H.0)부터 (H.5)까지의 과정을 각 코어나 쓰레드에서 각각

번 반복한다. 이 과정을 통해서 상기 식 (6.1)에 나타낸 거울 덧대기 영상의 수평 적분영상

는 도 7에 회색 영역으로 도시한 영역에서 생성된다.

[수직 방향 거울 덧대기 영상 생성부]

상기한 본 발명에 따른 거울 덧대기 영상과 그의 수평 적분영상 동시 생성 방법의 결과로 나온 수평 적분영상

를 상기 식 (7.1)에 적용하여, 본 발명에 따른 수평 적분영상의 수직 방향 거울 덧대기 영상

를 생성하는 방법을 다음과 같이 구현할 수 있다.

상기한 수평 적분영상

에서 수평 적분이 계산되지 않은 수직 영역은 각각

과

이다.

영역은

영역에 해당하는

를 복사한 이후에 역배열하여

영역의

에 복사한다.

영역은

영역에 해당하는

를 복사한 이후에 역배열하여

영역의

에 복사한다. 여기서

과

영역에 포함된 임의의 수평선상의 화소들의 크기는

이다. 이를 벡터 레지스터 크기인

로 균등 분할하여 읽기, 역배열, 그리고 쓰기를 한다. 이와 같은 방법으로 생성한

가 식 (7.1)에 나타낸

가 된다.

[거울 덧대기 영상의 최종 적분영상 생성부]

상기한 수평 방향 거울 덧대기의 수평 적분 영상에 대한 수직 방향 거울 덧대기 영상

를 이용하여, 상기 식 (8.1)에 나타낸 최종 적분 영상

의 생성 방법을 다음과 같이 구현할 수 있다.

(S.0) 초기화:

은

의 배수가 된다.

의 배수로 균등 분할된

을

로 표기한다. 여기서

이며,

로 주어진다. 이에 해당하는 상기 식 (8.1)에 나타낸 적분 영상

은

이 된다.

수직 좌표

와

에서 서로 다른 2개의 벡터 레지스터가 읽어 들이는 데이터를 각각

와

으로 둔다. 이 경우에,

(16.1)

(16.2)

가 된다.

상기한 식 (16)을 이용하여, 상기한 식 (8.1)에 나타낸 적분영상

을 계산한다. 이 경우에

와

는,

=

(17.1)

(17.2)

가 된다.

(S.1) 각 코어나 쓰레드에서 상기한 (S.0) 과정을 각 코어나 쓰레드에 할당된 수평과 수직 영역에서 반복하여 수행한다. 이와 같은 과정을 거쳐서 식 (8.1)에 나타낸 최종적인 적분영상

를 생성한다.

상기한 방법은 영 덧대기의 경우에서도 유사하게 적용할 수 있다.

본 발명에 따른 하나의 실시예로 덧대기 영상의 적분영상 생성 방법을 GPU 없는 멀티-코어 또는 멀티-쓰레드 환경에서 SIMD 명령어를 기반으로 구현하는 방법은 하나의 코어나 쓰레드가 전 영역을 계산하는 경우보다 저장 공간의 증가없이 코어나 쓰레드 수만큼 계산 속도를 증가시킬 수 있다.

상기한 선행기술문헌들 가운데 해외논문 009 문헌을 기준으로 적분영상 생성 수행 시간을 본 발명에 따른 적분영상 생성 방법의 수행 시간과 비교해본 결과에 따르면 본 발명에 따른 적분영상 생성방법이 수행 시간을 가장 단축시킬 수 있음을 확인하였다.

상기한 식 (8)로 주어지는 적분영상

를 이용하여, 상기한 식 (1)에 나타낸

를 다음과 같이 계산할 수 있다.

(18.1)

(18.2)

(18.3)

여기서

이고

이다. 그리고

이고

이다. 결과적으로

의 크기는 입력 영상

의 크기와 동일하게 된다.

[덧대기 적분영상으로부터 평균차이 필터 구현 및 삼진영상 생성 방법]

상기한 전경창과 배경창의 크기에 무관하게 평균차이 필터를 계산하는 것은 머신 비전의 필수적인 요구 사항이다. 입력영상

로부터 본 발명에 따라 상기한 식 (8)에 나타낸 덧대기 적분영상

을 생성한 이후에, 이를 이용하여 상기한 식 (18)에 나타낸 평균차이 필터를 효율적으로 계산한다. 그리고 이를 이용하여 상기한 식 (2)에 주어진 영상분할 방법으로 최종적으로 삼진영상

를 생성한다.

상기한 방법으로 생성된 덧대기 적분 영상

에서 상기한 식 (18)에 나타낸 평균차이 필터를 다음과 같이 구현할 수 있다.

(T.0) 상기한 식 (18.1)에 나타낸 전경창의 평균값

는 서로 다른 4점인

,

에 대응되는 4개의 적분영상 값인

,

로 다음과 같이 계산할 수 있다.

(19.1)

상기한 식 (18.2)에 나타낸 배경창의 평균값

는 서로 다른 4점인

,

에 대응되는 4개의 적분영상 값인

,

로 다음과 같이 계산할 수 있다.

(19.2)

(T.1) 상기한 식 (19.1)을 이용하여 한번에

개의 전경창들의 평균값

를 다음과 같이 계산할 수 있다.

(20.1)

여기에서,

(20.2)

(20.3)

(20.4)

(20.5)

이다. 그리고

,

이다. 그리고

이다.

상기한 식 (19.2)를 이용하여 한번에

개의 배경창들의 평균값

를 다음과 같이 계산할 수 있다.

(21.1)

여기에서,

(21.2)

(21.3)

(21.4)

(21.5)

이다. 그리고

,

이다. 그리고

이다.

(T.3) 결과적으로

개 평균차이 필터의 값들은,

=

(22)

로 주어진다.

도 8은 평균차이 필터로부터 삼진 영상 생성 방법(3000)을 설명하기 위한 참고도이다.

상기한 식 (22)와 식 (2)를 이용하여 최종적으로 삼진영상

도 한번에

개를 동시에 계산할 수 있다. 이 경우에 상기한 식 (2)를 구현하는 평균차이 필터의 값들로부터 영상분할 되는 삼진영상의 생성 방법(3000)은 도 8에 나타낸 바와 같다.

도 8에서 상기한 식 (22)에 나타낸

개 평균차이 필터의 값들인

가 벡터 레지스터에 저장되어 삼진영상 생성부(3000)에 입력되면 상기한 식 (2)에 나타낸 바와 같이

의 요소

이면

로 그렇지 않으면

으로 저장한다.

마찬가지로

의 요소

이면

로, 그렇지 않으면

으로 저장한다.

그 다음 단계에서는

의 요소들의 MSB(most significant bit)를 모두 영으로 바꾸어 주고 워드 데이터로 변환한다. 이어서

의 요소들을 오른쪽으로

비트 이동시킨 다음에 다시 왼쪽으로

비트 이동시킨다. 그리고 바이트 데이터로 변환시킨다. 그리고

의 요소를

로 비교한 결과와

의 요소를

로 비교한 상기의 과정으로 생성되는 각각의 바이트 데이터를 논리 합 연산(OR)으로 입력영상의 크기와 동일한 크기를 가지는 최종적인 삼진영상

을 생성한다.

상기한 거울 덧대기 영상 기반 그의 적분영상 동시 생성부, 평균차이 필터부, 삼진영상 생성부는 영 덧대기 영상의 경우에서도 유사하게 적용할 수 있다.

1000: 덧대기 영상과 그의 적분영상 동시 생성부
2000: 평균차이 필터 계산부
2100: 수평 적분영상 생성부
2200: 정수 변환부
2210: 치환부
2220: 풀기1부
2230: 풀기2부
2300: 이동합산부
2400: 혼합합산부
3000: (평균차이) 필터부
4000: 삼진영상 생성부

Claims

적분영상 기반 영상분할 초고속 병렬 연산 방법에 있어서;
상기 연산방법은, 입력영상으로부터 덧대기 영상과 그의 적분영상의 동시 생성단계와, 상기 적분영상의 계산 값을 이용하는 평균차이 필터링단계와,
상기 평균차이 필터링에 의하여 생성된 값들을 이용하여 영상분할된 삼진영상 생성단계를 적어도 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 1 항에 있어서,
상기 덧대기 영상과 상기 적분영상 동시 생성단계는;
수평 방향 덧대기 영상과 그의 적분영상의 동시 생성단계와,
수직 방향 덧대기 영상 생성단계와, 상기 덧대기 영상의 최종 적분영상 생성부에서의 생성단계를 더 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 2 항에 있어서,
상기 수평 방향 덧대기 영상과 그의 적분영상 동시 생성부는;
수평과 수직 크기가 각각
와
인 입력영상
에서 임의의 수평선상에서 수학 식,

,

,

,
(단,
= 1바이트(Byte) 부호 없는 정수를 4바이트 정수 데이터로 변환하는 연산자)으로 거울 덧대기 영상
와 영 덧대기 영상
를 생성하는 단계와,
이로부터 수학식,

,

,
로 수평선상의 거울 덧대기 적분영상
와 영 덧대기 적분영상
을 생성하는 단계를 포함하고,
상기 수직 방향 덧대기 영상 생성부는, 상기 수평선상의 거울 덧대기 적분영상
와 영 덧대기 적분영상
을 이용한 수학 식,

,

,

,
으로 수직 방향 거울 덧대기 적분영상
와 영 덧대기 적분영상
를 생성하는 단계를 포함하고,
상기 덧대기 영상의 최종 적분영상 생성부는,
상기 수직 방향 거울 덧대기 적분영상
와 영 덧대기 적분영상
를 이용한 수학 식,

, 또는

,
로 거울 덧대기와 영 덧대기 한 영상의 적분영상
을 생성하는 단계를 포함하고,
상기 수학 식의
와
,
와
,
와
는
와 동일한 메모리 공간을 가지는 것을 특징으로 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 3 항에 있어서,
상기 덧대기 영상을 생성하는 경우에, 상기 덧대기 영상의 중앙에 입력영상을 배치하고 상하와 좌우에 각각 상기 수학 식에 나타낸
와
만큼, 영이나 거울 덧대기로 덧대어 생성하는 덧대기 영상의 크기가 수평과 수직으로 각각
와
가 되도록 하는데 있어서,
입력영상의 크기, 병렬 연산 코어의 총 수
, 벡터 레지스터의 크기
, 그리고 홀수 값을 가지는 임의의 사각 형태와 크기를 가지는 평균차이 필터의 전경창과 배경창에 있어서 배경창의 수평 최대 크기
와 수직 최대 크기
를 이용한 수학식
,

,

,
( 단:
sms greatest lower bound의 약자,
:
의 몫을 계산하는 연산자,
인 정수)로
와
를 결정하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 3 항에 있어서,
상기 덧대기 영상에서 수평선상의 적분영상을 초고속 병렬 연산으로 생성하기 위해서, 수직 방향으로 그 영상의 영역이 중복(overlap)되는 것을 허용하고 그 영상의 영역에서 계산되는 적분영상의 최대값이 최대 4바이트 정수 데이터의 범위를 벗어나지 않도록
개로 균등 분할된 입력영상
(여기서
)에서 하나의 수평선상에 포함된 화소들의 집합을 수학 식,

에 따라서 총 5개의 부분 집합들로 나누는 단계와,
여기서,
인 경우에, 입력영상
에 해당하는 1바이트 부호 없는 정수를 읽고, 다시 요소의 수가
개인 벡터 레지스터의 0번째 요소에 영 확장 더블 워드 정수로 변환하여 저장하고, 저장된 값을 벡터 레지스터의 나머지 요소에도 동일하게 저장하여, 상기한 덧대기 수평 적분영상
또는
에서
의 위치에 저장함과 더불어 수평 적분영상의 초기값
로 이용하는 단계와,
여기서,
인 경우에, 벡터 레지스터의 크기
만큼
를 중복을 허용하여
개로 균등 분할하여, 하나의 부분 집합에 해당하는 1바이트 부호 없는 정수인 화소들의 밝기값을 수학식,

,

,
로 나타낸 바와 같이 하나의 벡터 레지스터로 읽을 때에
순으로 읽으면서 중복되는 화소들의 값을 영으로 적절하게 처리하여 벡터 레지스터에 저장하는 단계와,
상기 벡터 레지스터로 읽은 1바이트 부호 없는 정수를 4바이트 정수로 변환하기 위해서, 수학 식,

,

,
(단,
는 1바이트 부호 없는 정수,
는
은 임의의 벡터 레지스터를 의미하는 인덱스(index))로 치환하는 단계와,
수학 식,

,

,
로 1바이트 부호 없는 정수를
로 나타낸 2바이트 부호 없는 정수로 바꾸는 단계와,
수학 식,

,

,

,

,
로 2바이트 부호 없는 정수를
로 나타낸 4바이트 부호 없는 정수로 바꾸는 단계와,
상기 수학 식에 나타낸
,
,
,
을 덧대기 영역인
과 덧대기 영역이 아닌
에서도 이용하기 위해서
,
,
,
을 별도의 저장 공간에 저장해 두는 단계와,
상기 수학 식
,
,
,
의 요소들을 수학 식,

,

,

,

,
로 역배열 변환하는 단계와,
상기 수학 식
,
,
,
를 이동합산하는 과정에서,
인 경우에, 수학 식
를 이용하여, 수학 식,

로 이동합산 값
를 계산하는 단계와, 동일하게 나머지
,
,
를 계산하는 단계와,

인 경우에, 수학식,

로 이동합산
를 계산하는 단계와, 동일하게 나머지
,
,
를 계산하는 단계와,

인 경우 등에서도 상기한 이동합산 단계와, 유사한 방법으로
,
,
,
를 계산하는 단계와,
상기 이동합산의 결과인 상기 수학식
,
,
,
는 혼합합산하는 과정에 있어서, 수학 식,

로 표현되는 치환과 혼합 단계와, 동일하게
,
,
를 치환과 혼합하는 단계와,
상기 치환과 혼합된 수학 식
를 이용하여, 수학식,

로 합산하는 동일한 방법으로
,
,
를 계산하는 단계와,
상기
인 경우에 수평 적분영상 초기값
과 상기 수학식
를 이용하여, 수학식,

로 수평 적분영상을 계산하여 해당 위치의 수평 적분영상
에 저장하는 단계와,
상기 수학 식
,
,
를 이용하여
,
,
을 계산하는 경우에 있어서, 상기 수학 식
은
,
,
인 경우에 각각
,
,
의 MSB 요소 값을
의 모든 요소 값으로 대치하여 수평 적분영상
,
,
을 계산하여 해당 위치의 수평 적분영상
에 저장하는 단계와,
상기 역배열 하지 않고 저장해 놓은
,
,
,
로부터 상기 이동합산과 혼합합산 과정을 통해서
,
,
,
를 계산하여 해당 위치의 수평 적분영상
에 저장하는 단계와,
상기 수평선상의 적분영상
생성 과정에서 균등 분할된 영역이내에 있는 임의의 수평선상의 모든 데이터들이 모두 처리될 때까지 반복하여 수행하는데 있어서, 그 계산 속도를 추가적으로 증가시키기 위해서 루프 언롤링(loop unrolling) 기법을 적용하는 단계와,
여기서,
인 경우와
인 경우에, 상기
인 경우와 동일한 과정을 통해서 수평 적분영상을 생성하여 해당 위치에 저장하는 단계와,
여기서,
인 경우에, 상기
인 경우와 동일하게 입력영상의 해당 위치로부터 읽어들인 1바이트 부호 없는 정수를 4바이트 부호 없는 정수로 변환하여,
의 위치에서 계산된 적분 값을 더하여 수평 적분영상의 해당 위치에 저장하는 단계를 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 2 항에 있어서,
상기 수직 방향 덧대기 영상 생성단계는;
상기 제 3항 기재의 수학 식
나
로 나타낸 수직 방향 덧대기 영상을 초고속 병렬 연산으로 생성하기 위해서, 상기 제 5항에서 생성 저장된 덧대기 영상의 수평 적분영상
에서 수평 적분이 계산되지 않은 수직 영역인
과
은 각각, 수학 식,

,

,
로 나타낸 영역으로서,
과
영역에 해당하는
의 각 영역은 수학식,

,

,
로서, 이들 각 영역의 크기인
를 벡터 레지스터의 크기
만큼 중복을 허용한 균등 분할하여 읽기와 역배열의 연산으로 생성되는
과
영역의 적분 값을
의 해당 영역에 저장하는 단계를 더 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 2 항에 있어서,
상기 덧대기 영상의 최종 적분영상 생성부는;
상기 제 3항 기재의 수직 방향 덧대기 영상
나
를 이용하여, 최종 적분영상
을 초고속 병렬 연산으로 생성하기 위해서,
나
을 수평 방향으로 그 영상의 영역이 중복(overlap)되는 것을 허용하고 그 영상의 영역에서 계산되는 적분영상의 최대값이 최대 4바이트 정수 데이터의 범위를 벗어나지 않도록 균등 분할한
개의 영역에서 수직 방향 덧대기 적분영상
나
를 이용하는 단계와,
여기에서 상기
나
에서
과
는 수학식,

,

, 이며,
균등 분할된
번째 영역의 적분영상은
를 생성하기 위해서, 수학식,

,

,
로
나
에서 수직 좌표
와
에서 서로 다른 2개의 벡터 레지스터가 읽어 들이는 데이터를 이용하여, 수학식,

=
,

,
로 적분
와
를 계산하여, 적분영상
의 해당 위치에 저장하는 단계와,
상기 단계의 방법을 수직과 수평으로 반복하여 최종적인 덧대기 영상의 적분영상
를 생성하는 단계를 더 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 1 항에 있어서,
상기 적분영상을 이용한 평균차이 필터 계산단계는;
상기 제 7항 기재의 생성한 적분영상
를 이용하여 초고속 병렬 연산으로 생성하기 위해서, 수직 방향으로 그 영역의 크기가 균등하게 분할된 적분영상 각각에서 수학식,

,

,

,

,
,
,
, 로 주어지는 평균차이 필터값
를 계산하고
의 크기를 입력 영상
의 크기와 동일하도록 하는 단계와,
상기 단계를 병렬 연산으로 구현하기 위해서, 전경창의 평균값
는 수학식,

,

,

,

로 주어지는 위치에 대응되는 4개의 적분영상 값인
,
,
,
를 이용하여, 수학식,

,
로 계산하는 단계와,
배경창의 평균값
는 수학 식,

,

,

,

로 주어지는 위치에 대응되는 4개의 적분영상 값인
,
,
,
를 이용하여, 수학 식,

로 계산하는 단계와,
한번에
개의 전경창들의 평균값
는, 수학 식.

,

,

,

,

,
한번에
개의 배경창들의 평균값
는, 수학 식,

,

,

,

,

,

,
,
,
,
로,

개 평균차이 필터 값들은 수학 식,

=
,
로 수평과 수직 방향으로 전경창과 배경창의 중심을 이동하면서 반복하여 병렬 연산으로 계산하는 단계를 더 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
제 1 항에 있어서,
상기 평균차이 필터단계로부터 생성된 값인
를 이용하여 영상분할된 삼진영상 생성부는;
수직 방향으로 균등 분할된 평균차이 필터값의 각 영역에서 삼진영상을 초고속 병렬 연산으로 생성하기 위해서, 상기 제 8항 기재의 생성된 평균차이 필터값
의 요소
이면
로, 그렇지 않으면
으로,
의 요소
이면
로 그렇지 않으면
으로 저장하고, 그 다음에는
의 요소들의 MSB(most significant bit)를 모두 영으로 바꾸어 주고 워드 데이터로 변환하고, 이어서
의 요소들을 오른쪽으로
비트 이동시킨 다음에 다시 왼쪽으로
비트 이동시킨 다음에 바이트 데이터로 변환시키는 단계와,

의 요소를
로 비교한 결과와
의 요소를
로 비교한 상기의 과정으로 생성되는 각각의 바이트 데이터를 논리 합 연산(OR)으로 입력영상의 크기와 동일한 최종적인 삼진영상
를 생성하는 단계를 더 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산 방법.
적분영상 기반 영상분할 초고속 병렬 연산을 실현하기 위한 병렬 연산 프로그램에 있어서;
입력영상으로부터 덧대기 영상과 그의 적분영상의 동시 생성기능과,
상기적분영상의 계산 값을 이용하는 평균차이 필터링 기능과,
상기 평균차이 필터링에 의하여 생성된 값들을 이용하여 영상분할된 삼진영상 생성기능을 포함하고,
상기 덧대기 영상과 그의 적분영상 동시 생성기능은, 수평 방향 덧대기 영상과 그의 적분영상 동시 생성기능과, 수직 방향 덧대기 영상 생성기능과, 덧대기 영상의 최종 적분영상의 생성기능을 더 포함하는 것을 특징으로 하는 적분영상 기반 영상분할을 위한 초고속 병렬 연산프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.