KR102001222B1

KR102001222B1 - 신호 처리 장치 및 방법

Info

Publication number: KR102001222B1
Application number: KR1020177037532A
Authority: KR
Inventors: 이원재; 김재현
Original assignee: 삼성전자주식회사
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2019-07-17
Also published as: KR20180015176A; US20180196668A1; US10956154B2; WO2017007044A1

Abstract

개시된 일 실시 예에 따른 신호 처리 장치는 메모리; 연산기들을 포함하는 프로세서; 및 상기 연산기들 중에서 상기 프로세서에 의해 사용되고 있지 않은 공유 연산기를 이용하여 연산을 수행하는 하드웨어 가속기를 포함한다.

Description

신호 처리 장치 및 방법

개시된 실시 예들은 신호 처리 장치 및 방법에 관한 것이다.

최근 화질 개선 기술의 지속적인 발달로 다양한 영상 처리 알고리즘이 개발되고 있다. UHD(Ultra High Definition) 영상과 같은 고해상도의 영상의 화질을 개선하기 위한 알고리즘을 UHD 영상에 적용하고자 하는 경우, 방대한 데이터와 연산량으로 인해 다수의 프로세서만으로는 실시간 처리가 불가능하여, 적어도 하나의 하드웨어 가속기를 사용하여 알고리즘이 처리된다.

하드웨어 가속기들은 프로세서의 처리능력을 향상시키고 속도를 증가시키기 위해서, 공통으로 사용되는 기능들 또는 연산들을 처리하도록 설계된다. 예를 들어, 평균(Mean), 표준 편차(Standard deviation), 최소/최대값을 계산하는 동작(operation)이 하드웨어 가속기에서 수행될 수 있다.

개시된 일 실시 예는 프로세서의 연산기를 활용하는 신호 처리 장치 및 방법을 제공하는데 있다.

도 1은 일 실시 예에 따른 신호 처리 장치를 설명하기 위한 도면이다.
도 2는 일 실시 예에 따른 신호 처리 방법을 설명하기 위한 순서도이다.
도 3은 어레이 프로세서의 연산기들을 이용하는 방법을 설명하기 위한 도면이다.
도 4는 SIMD 프로세서의 연산기들을 이용하는 방법을 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 신호 처리 장치를 설명하기 위한 구성도이다.
도 6은 또 다른 실시 예에 따른 신호 처리 장치를 설명하기 위한 구성도이다.
도 7은 신호 처리 장치의 워크 플로우를 설명하기 위한 도면이다.
도 8은 신호 처리 장치의 동작을 설명하기 위한 순서도이다.
도 9는 연산 처리 과정을 설명하기 위한 도면이다.
도 10은 연산 처리 과정을 설명하기 위한 도면이다.
도 11은 연산 처리 과정을 설명하기 위한 도면이다.

발명의 실시를 위한 최선의 형태

일 실시 예에 따른 신호 처리 장치는 메모리; 연산기들을 포함하는 프로세서; 및 상기 연산기들 중에서 상기 프로세서에 의해 사용되고 있지 않은 공유 연산기를 이용하여 연산을 수행하는 하드웨어 가속기를 포함한다.

또한, 상기 프로세서는 상기 프로세서의 입력과 상기 하드웨어 가속기의 입력 중 어느 하나를 선택하는 선택기를 더 포함하고, 상기 선택기는 상기 공유 연산기의 입력단에 연결될 수 있다.

또한, 상기 하드웨어 가속기는 상기 공유 연산기들 및 상기 선택기를 제어하는 연산기 제어부를 더 포함할 수 있다.

또한, 상기 연산기 제어부는 상기 공유 연산기들이 수행할 연산을 할당하고, 상기 선택기가 선택할 입력을 지정할 수 있다.

또한, 상기 프로세서가 제어 동작 시, 상기 하드웨어 가속기는 상기 공유 연산기들을 이용하여 연산을 수행할 수 있다.

또한, 상기 프로세서가 메모리에 접속하거나 파라미터를 설정하는 동안, 상기 하드웨어 가속기는 상기 공유 연산기들을 이용하여 연산을 수행할 수 있다.

또한, 상기 프로세서는 어레이 프로세서 또는 SIMD 프로세서 중 하나일 수 있다.

또한, 상기 연산은 더하기, 빼기, 곱하기, 나누기 중 적어도 하나일 수 있다.

일 실시 예에 따른 신호 처리 방법은 프로세서가 제어 동작을 수행하는 단계; 및 상기 프로세서가 제어 동작을 수행하는 동안, 하드웨어 가속기가 상기 프로세서에 의해 사용되고 있지 않은 공유 연산기들을 이용하여 연산을 수행하는 단계를 포함한다.

또한, 상기 연산을 수행하는 단계는 상기 공유 연산기들이 수행할 연산을 지정하는 단계; 상기 공유 연산기들이 상기 하드웨어 가속기로부터 입력값을 수신하는 단계; 및 상기 공유 연산기들이 상기 입력값에 대해 상기 지정된 연산을 수행하는 단계를 포함할 수 있다.

또한, 상기 연산을 수행하는 단계는 상기 프로세서가 메모리에 접속하거나 파라미터를 설정하는 동안, 상기 하드웨어 가속기는 상기 공유 연산기들을 이용하여 연산을 수행할 수 있다.

또한, 상기 신호 처리 방법은 상기 프로세서가 하드웨어 가속기의 설정을 수행하는 단계를 더 포함하고, 상기 하드웨어 가속기는 설정이 완료된 이후에 연산을 수행할 수 있다.

또한, 상기 신호 처리 방법은 상기 프로세서가 연산을 수행하는 단계; 및 상기 프로세서가 수행한 연산 및 상기 하드웨어 가속기가 수행한 연산을 통합하는 단계를 더 포함할 수 있다.

또한,상기 신호 처리 방법은 상기 하드웨어 가속기가 상기 하드웨어 가속기에 포함된 연산기를 이용하여 연산을 수행하는 단계를 더 포함할 수 있다.

또한, 상기 신호 처리 방법은 상기 하드웨어 가속기가 상기 공유 연산기를 이용하여 독립적인 연산만을 수행하는 단계를 포함할 수 있다.

발명의 실시를 위한 형태

도 1은 일 실시 예에 따른 신호 처리 장치를 설명하기 위한 도면이다. 도 1을 참조하면, 신호 처리 장치(100)는 프로세서(110), 하드웨어 가속기(120) 및 메모리(130)를 포함한다. 프로세서(110)와 하드웨어 가속기(120)는 연산기(Arithmetic Logic Unit, ALU)를 공유할 수 있다. 예를 들어, 하드웨어 가속기(120)는 프로세서(110)에 포함된 연산기들을 이용하여 할당된 연산을 처리할 수 있다. 따라서, 신호 처리 장치(100)를 생산할 때, 하드웨어 가속기(120) 내부의 일부 연산기를 제거할 수 있으므로, 하드웨어 가속기(120)를 소형화 할 수 있다.

프로세서(110)는 복수의 연산기들 및 레지스터 등을 포함한다. 복수의 연산기들은 프로세서(110)에 할당된 연산들을 처리한다. 프로세서(110)는 할당된 연산들을 처리하기 전에 메모리(130)에 접속하거나, 파라미터를 설정할 수 있다. 하기에서, 프로세서(110)가 메모리(130)에 접속하거나, 파라미터를 설정하는 동작을 제어 동작이라고 하고, 프로세서(110)가 할당된 연산을 처리하는 동작을 연산 동작이라고 한다. 제어 동작은 연산을 처리하기 위한 준비 동작일 수 있다. 연산 동작은 프로세서(110)가 연산기들을 이용하여 연산을 처리하는 동작이다. 프로세서(110)는 하드웨어 가속기(120)의 설정을 완료한 이후에 제어 동작을 시작할 수 있다. 예를 들어, 프로세서(110)는 하드웨어 가속기(120)가 처리할 연산을 할당한 이후에 제어 동작을 시작할 수 있다.

하드웨어 가속기(120)는 프로세서(110)에 포함된 연산기들을 이용하여 연산을 수행한다. 하드웨어 가속기(120)도 연산기들을 포함할 수 있으나, 프로세서(110)에 포함된 연산기들을 이용하여 처리 가능한 연산은 하드웨어 가속기(120)의 연산기들이 아닌, 프로세서(110)에 포함된 연산기들을 이용하여 처리될 수 있다. 따라서, 하드웨어 가속기(120)에 포함되는 연산기들의 수를 줄일 수 있다.

메모리(130)는 데이터를 저장한다. 메모리(130)는 프로세서(110)에서 처리된 데이터 및 하드웨어 가속기(120)에서 처리된 데이터를 저장할 수 있다.

신호 처리 장치(100)는 외부의 장치들과 연결될 수 있다. 예를 들어, 신호 처리 장치(100)는 IP0(210), 외부 하드웨어 가속기(220), DMA(230) 및 IP1(240) 등과 연결될 수 있다. 외부 하드웨어 가속기(220)는 신호 처리 장치(100)의 외부에 위치한다.

도 2는 일 실시 예에 따른 신호 처리 방법을 설명하기 위한 순서도이다. 도 2를 참조하면, 하드웨어 가속기(120)는 프로세서(110)에 포함된 공유 연산기들을 이용할 수 있다.

단계 201에서, 프로세서(110)는 제어 동작을 수행한다. 제어 동작은 상기에서 설명한 바와 같이, 프로세서(110)가 메모리(130)에 접속하거나, 파라미터를 설정하거나, 하드웨어 가속기(120)를 설정하는 동작 등을 나타낸다.

단계 202에서, 프로세서(110)가 제어 동작을 수행하는 동안, 하드웨어 가속기(120)는 프로세서(110)에 의해 사용되고 있지 않은 공유 연산기들을 이용하여 연산을 수행한다. 공유 연산기들은 프로세서(110) 및 하드웨어 가속기(120)가 이용 가능한 연산기들이며, 프로세서(110)에 포함된 연산기들 적어도 하나의 연산기들이다.

프로세서(110)가 제어 동작을 수행할 때, 프로세서(110)에 포함된 모든 연산기들이 사용되지 않는다. 따라서, 프로세서(110)에 포함된 연산기들 중 idle 연산기들이 있고, 하드웨어 가속기(120)는 idle 연산기들을 이용하여 할당된 연산을 수행함으로써, 프로세서(110)의 자원(resource)를 활용할 수 있다.

하드웨어 가속기(120)는 평균(Mean), 표준 편차(Standard deviation), 최소/최대값 등과 같이 영상 처리 알고리즘에서 수행되는 연산을 수행할 수 있다. 또한, 하드웨어 가속기(120)는 FIR 필터(Finite Impulse Response filter) 또는 허프만(Huffman) 인코더/디코더 등의 연산도 수행할 수 있다.

하드웨어 가속기(120)는 연산 중 일부를 공유 연산기에서 수행할 수 있다. 예를 들어, 하드웨어 가속기(120)는 사칙 연산(더하기, 빼기, 곱하기, 나누기)을 공유 연산기를 이용하여 수행할 수 있다. 따라서, 하드웨어 가속기(120)는 데이터를 공유 연산기로 전송하고, 공유 연산기로부터 사칙 연산의 결과를 수신할 수 있다. 하드웨어 가속기(120)는 스퀘어 루트(square root) 연산 등은 직접 수행할 수 있다.

도 3은 어레이 프로세서(300)의 연산기들을 이용하는 방법을 설명하기 위한 도면이다. 도 3을 참조하면, 하드웨어 가속기(120)는 어레이 프로세서(300)의 공유 연산기(310)를 이용하여 연산을 수행할 수 있다.

어레이 프로세서(300)는 16개의 연산기들(310, 320) 및 레지스터(330)를 포함한다. 도 3은 어레이 프로세서(300)가 16개의 연산기들(310, 320)을 포함하는 예를 도시하고 있을 뿐, 어레이 프로세서(300)에 포함되는 연산기의 수는 16개에 한정되지 않는다. 16개의 연산기들(310, 320)은 서로 연결되어, 데이터를 송수신할 수 있다.

어레이 프로세서(300)는 제어 동작 시, 4개의 연산기들(320)만을 이용할 수 있다. 따라서, 12개의 연산기들(310)은 idle 상태가 된다. Idle 연산기들(310)은 공유 연산기들로서 하드웨어 가속기(120)가 이용할 수 있다. 도 3에서는 공유 연산기(320)가 4개이고, 공유 연산기(310)가 12개인 경우를 예를 들어 설명하고 있으나, 연산기(320) 및 공유 연산기(310)의 개수는 4개 및 12개에 한정되지 않는다.공유 연산기(310)는 레지스터(330)와 직접 연결되지 않는 연산기일 수 있다. 프로세서(110)는 레지스터(330)와 직접 연결되는 4개의 연산기들(320)을 이용하여 제어 동작을 수행할 수 있다. 레지스터(330)와 직접 연결되지 않는 연산기들은 프로세서(110)의 제어 동작 시 하드웨어 가속기(120)에 의해 사용될 수 있다.

도 4는 SIMD(Single Instruction Multiple Data) 프로세서의 연산기들을 이용하는 방법을 설명하기 위한 도면이다. 도 4를 참조하면, 하드웨어 가속기(120)는 SIMD 프로세서(400)의 공유 연산기(410)를 이용하여 연산을 수행할 수 있다.

SIMD 프로세서(400)는 4개의 연산기들(410, 420), 레지스터(330) 및 패치/디코더(440)를 포함한다. 4개의 연산기들(410, 420)은 평행하게 배치되고, SIMD 프로세서(400)는 하나의 명령어로 여러 데이터를 동시에 처리할 수 있다. 4개의 연산기들은 모두 레지스터(430) 및 패치/디코더(440)와 연결된다.

도 4에서는 SIMD 프로세서(400)가 4개의 연산기들(410, 420)을 포함하는 예를 도시하고 있을 뿐, SIMD 프로세서(400)에 포함되는 연산기의 수는 4개에 한정되지 않는다.

SIMD 프로세서(400)는 제어 동작 시, 1개의 연산기들(420)만을 이용할 수 있다. 따라서, 나머지 3개의 연산기들(410)은 idle 상태가 된다. Idle 연산기들(410)은 공유 연산기들로서 하드웨어 가속기(120)가 이용할 수 있다. 도 4에서는 연산기(420)가 1개이고, 공유 연산기(410)가 3개인 경우를 예를 들어 설명하고 있으나, 연산기(420) 및 공유 연산기(410)의 개수는 1개 및 3개에 한정되지 않는다.

도 5는 일 실시 예에 따른 신호 처리 장치(500)를 설명하기 위한 구성도이다. 도 5를 참조하면, 하드웨어 가속기(520)는 제어부(521), 연산기 제어부(522), 연산기(523) 및 레지스터(524)를 포함한다.

제어부(521)는 연산기(523) 및 연산기 제어부(522)를 제어한다. 제어부(521)는 하드웨어 가속기(520)에서 수행할 연산과 프로세서(510)에서 수행할 연산을 구분할 수 있다. 제어부(521)는 하드웨어 가속기(520)에서 수행할 연산은 연산기(523)에 할당하고, 프로세서(510)에서 수행할 연산은 연산기 제어부(522)에 할당한다.

연산기 제어부(522)는 프로세서(510)에 포함된 공유 연산기들 제어한다. 연산기 제어부(522)는 공유 연산기들이 하드웨어 가속기(520)에 할당된 연산 중 일부를 수행하도록 공유 연산기들을 제어한다.

연산기 제어부(522)는 공유 연산기들을 확인하고, 각각의 공유 연산기들이 수행할 연산을 할당한다. 예를 들어, 연산기 제어부(522)는 공유 연산기에 더하기, 빼기, 곱하기, 나누기 등의 연산을 할당할 수 있다. 연산기 제어부(522)는 dependency가 없는 연산들만을 공유 연산기에 할당할 수 있다.

공유 연산기들에 입력되는 데이터는 레지스터(524)에 저장된 데이터일 수 있다. 공유 연산기들은 레지스터(524)로부터 데이터를 수신하고, 연산기 제어부(522)에 의해 할당된 연산을 수행한다. 공유 연산기들은 연산 결과를 하드웨어 가속기(520)로 출력한다.

연산기(523)는 공유 연산기들로부터 수신된 연산 결과를 이용하여 최종 연산을 수행할 수 있다. 공유 연산기들에서 수행되는 연산과 연산기(523)에서 수행되는 연산은 의존성(dependency)이 있을 수 있으며, 의존성이 있는 경우, 연산기(523)는 공유 연산기들의 연산이 종료될 때까지 대기하고, 공유 연산기들로부터 연산 결과를 수신한 이후에 최종 연산을 수행할 수 있다.

도 6은 또 다른 실시 예에 따른 신호 처리 장치(500)를 설명하기 위한 구성도이다. 도 6을 참조하면, 하드웨어 가속기(520)는 연산기(513)를 이용하여 연산을 수행할 수 있다.

하드웨어 가속기(520)는 연산기 제어부(522)를 포함하며, 연산기 제어부(522)는 프로세서(510)에 포함된 선택기(512) 및 연산기(513)을 제어한다. 연산기 제어부(522)는 선택기(512)에 입력된 데이터 중 하드웨어 가속기(520)로부터 수신된 데이터를 선택하도록 선택기(512)를 제어한다. 연산기 제어부(522)는 연산기(513)가 수행할 연산을 할당한다. 연산기 제어부(522)는 각각의 연산기(513)들이 동일 또는 다른 연산을 수행하도록 연산기(513)들을 제어할 수 있다.

연산기 제어부(522)는 프로세서(510)가 제어 동작 시, 선택기(512) 및 공유 연산기(513)를 제어한다.

프로세서(510)는 공유 연산기(513) 및 비공유 연산기(514)를 포함한다. 공유 연산기(513)는 하드웨어 가속기(520)와 프로세서(510)에 의해 사용되는 연산기이고, 비공유 연산기(514)는 프로세서(510)에 의해서만 사용되는 연산기이다.

선택기(512)는 공유 연산기(513)들의 입력단에 연결될 수 있다. 선택기(512)는 하드웨어 가속기(520) 또는 프로세서(510)의 제어에 따라 입력되는 데이터 중 하나를 선택하여 연산기(513)로 출력한다.

공유 연산기(513)는 연산 결과를 레지스터(515), 다른 공유 연산기(513) 등으로 출력할 수 있다. 또는, 공유 연산기(513)는 연산 결과를 하드웨어 가속기(520)의 연산기(523) 또는 레지스터(524)로 출력할 수 있다.

하드웨어 가속기(520)의 연산기(523)는 레지스터(524) 및 공유 연산기(513)로부터 출력되는 데이터를 이용하여 연산을 수행한다.

도 7은 신호 처리 장치의 워크 플로우를 설명하기 위한 도면이다. 도 7을 참조하면, 워크 플로우 A(710)는 순차적으로 작업을 수행하는 경우를 나타내고, 워크 플로우 B(720)는 프로세서(110)와 하드웨어 가속기(120)가 병렬로 작업을 수행하는 경우를 나타낸다.

워크 플로우 A(710)와 워크 플로우 B(720)를 비교하면, Data Processing B 의 수행 순서에 있어서 차이가 있다. 워크 플로우 A(710)에서 Data Processing B 는 다른 연산들과 같이 순차적으로 수행되지만, 워크 플로우 B(720)에서 Data Processing B 는 Rd DMA, Parameter Setting 연산과 병렬로 수행된다. 자세히 설명하면, 워크 플로우 B(720)에서, 프로세서(110)가 Rd DMA, Parameter Setting 연산을 수행하는 동안, 하드웨어 가속기(120)는 Data Processing B 를 수행한다.

프로세서(110)가 Rd DMA, Parameter Setting 연산을 수행하는 동안, 프로세서(110) 내부의 연산기들 중 일부는 사용되지 않는다. 따라서, 하드웨어 가속기(120)는 사용되지 않는 연산기를 이용하여 Data Processing B 를 수행할 수 있다.

도 8은 신호 처리 장치(100)의 동작을 설명하기 위한 순서도이다. 단계 801 내지 단계 805는 제어 단계이고, 단계 806 내지 단계 808은 데이터 처리 단계이다.

단계 801에서, 프로세서(110)는 초기화를 수행한다.

단계 802에서, 프로세서(110)는 하드웨어 가속기(120)의 설정을 수행하고, 하드웨어 가속기(120)가 동작을 시작하도록 제어한다.

단계 810에서, 하드웨어 가속기(120)는 프로세서(110)의 제어에 따라 데이터 처리 C를 수행한다. 프로세서(110)가 제어 동작 중이므로, 하드웨어 가속기(120)는 프로세서(110)에서 사용하지 않는 공유 연산기를 이용하여 데이터 처리 C를 수행할 수 있다.

단계 803에서, 프로세서(110)는 메모리(130)에 접속하고, 단계 804에서 프로세서(110)는 파라미터를 설정한다.

단계 805에서, 프로세서(110)는 하드웨어 가속기(120)의 설정을 수행하고, 하드웨어 가속기(120)가 동작을 시작하도록 제어한다.

단계 811에서, 하드웨어 가속기(120)는 할당된 연산을 수행한다. 단계 811에서는 프로세서(110)가 데이터 처리 중이므로, 하드웨어 가속기(120)는 공유 연산기를 이용할 수 없다. 따라서, 단계 811에서, 하드웨어 가속기(120)는 하드웨어 가속기(120) 내부의 연산기를 이용하여 데이터를 처리한다.

단계 806에서, 프로세서(110)는 데이터 처리 A를 수행한다.

단계 807에서, 프로세서(110)는 데이터 처리 B를 수행한다.

단계 808에서, 프로세서(110)는 데이터를 통합한다. 프로세서(110)는 데이터 처리 A, B, C의 결과를 통합한다.

단계 809에서, 프로세서(110)는 데이터 처리가 종료되었는지 판단한다. 데이터 처리가 종료되지 않았으면, 802단계로 진행한다.

도 9는 연산 처리 과정을 설명하기 위한 도면이다. 도 9를 참조하면, 하드웨어 가속기(950)는 FU(910 내지 940)을 이용하여 C₁*in₀ + C₂*in₁ + C₃*in₂ 연산을 수행한다. 도 9는 어레이 프로세서에서 idle FU(910 내지 940)를 이용하여 1D Filter를 구현한 예이다.

하드웨어 가속기(950)의 레지스터(951)는 C₁, C₂, C₃ 를 저장한다. 레지스터(951)는 C₁을 FU(910)으로 출력하고, C₂를 FU(920)으로 출력하고, C₃을 FU(930)로 출력한다.

메모리(960)는 in₀, in₁, in₂ 를 저장한다. 메모리(960)는 in₀를 FU(910)로 출력하고, in₁를 FU(920)로 출력하고, in₂ 를 FU(930)로 출력한다.

하드웨어 가속기(950)의 연산기 제어부(952)는 FU(910 내지 940)를 제어한다. 예를 들어, 연산기 제어부(952)는 FU(910)의 선택기(911), 선택기(912) 및 연산기(913)을 제어한다. 연산기 제어부(952)는 선택기들(911, 912)이 입력들 중에서 어느 하나를 선택하도록 제어할 수 있다. 연산기 제어부(952)는 연산기(913)이 수행할 연산을 지정할 수 있다.

도 9에서, 선택기(911)는 연산기 제어부(952)의 제어에 따라 레지스터(951)로부터 입력된 C₁을 선택한다. 선택기(912)는 연산기 제어부(952)의 제어에 따라 메모리(960)로부터 입력된 in₀를 선택한다. 연산기(913)는 연산기 제어부(952)에 따라 곱하기 연산을 수행한다. 따라서, 연산기(913)는 C₁*in₀를 계산한다. 계산 결과는 레지스터 파일(914) 및 레지스터(915)에 저장되고, 레지스터(915)는 계산 결과를 FU(940)로 출력한다.

FU(920) 및 FU(930)은 FU(910)과 동일한 방식으로 C₂*in₁, C₃*in₂를 각각 계산하여, 결과를 FU(940)로 출력한다.

FU(940)는 FU(910 내지 930)로부터 수신된 데이터를 모두 더한다. 선택기(941)는 FU(910)로부터 C₁*in₀ 의 계산 결과를 수신하고, 선택기(942)는 FU(920)로부터 C₂*in₁ 의 계산 결과를 수신한다. 연산기(943)은 C₁*in₀+C₂*in₁ 를 계산한다.

레지스터 파일(944)은 C₁*in₀+C₂*in₁ 의 계산 결과를 다시 선택기(941)로 출력하고, 선택기(942)는 FU(930)로부터 C₃*in₂ 의 계산 결과를 수신한다. 연산기(943)는 C₁*in₀ + C₂*in₁ + C₃*in₂ 를 계산한다. 레지스터(945)는 C₁*in₀ + C₂*in₁ + C₃*in₂ 의 계산 결과를 메모리(960)로 출력한다.

도 10은 연산 처리 과정을 설명하기 위한 도면이다. 도 10을 참조하면, 하드웨어 가속기(950)는 3개의 연산기들(1011 내지 1013)을 이용하여 C₁*in₀ + C₂*in₁ + C₃*in₂ 연산을 수행한다. 도 10은 SIMD 프로세서에서 idle 연산기들(1011 내지 1014)을 이용하여 1D Filter를 구현한 예이다.

하드웨어 가속기(950)의 레지스터(951)는 C₁, C₂, C₃ 를 저장한다. 레지스터(951)는 C₁을 X3으로 출력하고, C₂를 X2로 출력하고, C₃는 X1으로 출력한다.

메모리(960)는 in₀, in₁, in₂ 를 저장한다. 메모리(960)는 in₀를 Y3으로 출력하고, in₁를 Y2로 출력하고, in₂는 Y1으로 출력한다.

연산기(1011)는 X3로부터 C₁과 Y3로부터 수신된 in₀을 곱한다. 연산기(1011)는 곱셈 결과를 OUT3로 출력한다.

연산기(1012)는 X2로부터 C₂과 Y2로부터 수신된 in₁을 곱한다. 연산기(1011)는 곱셈 결과를 OUT2로 출력한다.

연산기(1013)는 X1로부터 C₃과 Y1로부터 수신된 in₂을 곱한다. 연산기(1013)는 곱셈 결과를 OUT1로 출력한다.

하드웨어 가속기(950)는 OUT1 내지 OUT3으로부터 수신된 곱셈 결과를 모두 더하여 C₁*in₀ + C₂*in₁ + C₃*in₂ 를 계산하고, 계산 결과를 메모리(960)로 출력한다.

도 11은 연산 처리 과정을 설명하기 위한 도면이다. 도 11을 참조하면, 하드웨어 가속기(120)는 프로세서(110)의 FU(1100 내지 1108)를 이용하여 표준편차를 계산할 수 있다. 도 11에서, 프로세서(110)에서 수행하기 어려운 DIV/SQUARE ROOT 등은 하드웨어 가속기(120)에서 수행된다. 9개의 FU(1100 내지 1108)은 프로세서(110) 에 포함되며, DIV(1109), 연산기(1110) 및 SQRT(1111)는 하드웨어 가속기(120)에 포함된다.

9개의 FU(1100 내지 1108)은 하드웨어 가속기(120)에 의해 수행할 연산이 할당될 수 있다. 6개의 FU(1100 내지 1105)는 제곱 연산이 할당된다. 3개의 FU(1106 내지 1108)은 더하기 연산이 할당된다.

in_m,0내지 in_m,4는 FU(1100 내지 1104)에 각각 입력된다. Mean 은 FU(1105)에 입력된다. FU(1100 내지 1105)는 입력된 값을 제곱하여 결과값을 출력한다.

3개의 FU(1100 내지 1102)는 FU(1106)으로 결과값을 출력하고, 2개의 FU(1103, 1104)는 FU(1107)로 결과값을 출력한다.

FU(1106)은 in_m,0내지 in_m,2 을 더하고, 결과값을 FU(1107)로 출력한다.

FU(1107)은 FU(1106)으로부터 수신된 결과값과 FU(1103, 1104)로부터 수신된 결과값을 더하여 FU(1108)로 출력한다.

FU(1108)은 FU(1107)로부터 수신된 결과값과 FU(1108)에서 출력된 결과값을 더한다. 다시 말해서, FU(1108)은 FU(1107)로부터 수신되는 결과값들을 누적한다.

FU(1108)은 누적 결과값을 하드웨어 가속기(120)로 출력한다. 또한, FU(1105)도 mean을 제곱한 결과값을 하드웨어 가속기(120)로 출력한다.

DIV(1109)는 FU(1108)로부터 수신된 결과값을 M*K 로 나눈다.

연산기(1110)은 DIV(1109)로부터 출력된 결과값에서 FU(1105)로부터 출력된 결과값을 뺀 값을 SQRT(1111)로 출력한다.

SQRT(1111)은 연산기(1110)으로부터 수신된 결과값의 제곱은 계산한다.

상기 과정을 통해 하드웨어 가속기(120)는 표준편차를 계산할 수 있다.

일 실시 예에 따른 신호 처리 장치는 idle 연산기를 이용하여 연산을 수행하여, 전체 연산 시간을 단축할 수 있다.

일 실시 예에 따른 신호 처리 장치는 하드웨어 가속기()에 포함된 연산기의 수를 줄일 수 있으므로, 신호 처리 장치의 사이즈를 줄일 수 있다.

본 실시 예들에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.

본 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 실시 예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

본 실시 예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.

본 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다. 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 기술적 사상을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims

메모리;
연산기들을 포함하는 프로세서; 및
상기 연산기들 중에서 상기 프로세서에 의해 사용되고 있지 않은 적어도 하나의 공유 연산기들을 이용하여 연산을 수행하는 하드웨어 가속기를 포함하고;
상기 프로세서는 상기 프로세서의 입력과 상기 하드웨어 가속기의 입력 중 어느 하나를 선택하는 적어도 하나의 선택기들을 더 포함하고, 상기 적어도 하나의 선택기들 각각은 상기 적어도 하나의 공유 연산기들 각각의 입력단에 연결되며;
상기 하드웨어 가속기는 상기 적어도 하나의 공유 연산기들 및 상기 적어도 하나의 선택기들을 제어하는 연산기 제어부를 더 포함하는 것을 특징으로 하는 신호 처리 장치.
삭제
삭제
제 1 항에 있어서,
상기 연산기 제어부는 상기 적어도 하나의 공유 연산기들이 수행할 연산을 할당하고, 상기 적어도 하나의 선택기들이 선택할 입력을 지정하는 것을 특징으로 하는 신호 처리 장치.
제 1 항에 있어서,
상기 프로세서가 제어 동작 시, 상기 하드웨어 가속기는 상기 적어도 하나의 공유 연산기들을 이용하여 연산을 수행하는 것을 특징으로 하는 신호 처리 장치.
제 1 항에 있어서,
상기 프로세서가 메모리에 접속하거나 파라미터를 설정하는 동안, 상기 하드웨어 가속기는 상기 적어도 하나의 공유 연산기들을 이용하여 연산을 수행하는 것을 특징으로 하는 신호 처리 장치.
제 1 항에 있어서,
상기 프로세서는 어레이 프로세서 또는 SIMD 프로세서 중 하나인 것을 특징으로 하는 신호 처리 장치.
제 1 항에 있어서,
상기 연산은 더하기, 빼기, 곱하기, 나누기 중 적어도 하나인 것을 특징으로 하는 신호 처리 장치.
프로세서가 제어 동작을 수행하는 단계; 및
상기 프로세서가 제어 동작을 수행하는 동안, 하드웨어 가속기가 상기 프로세서에 의해 사용되고 있지 않은 적어도 하나의 공유 연산기들을 이용하여 연산을 수행하는 단계를 포함하며;
상기 연산을 수행하는 단계는,
상기 적어도 하나의 공유 연산기들이 수행할 연산을 지정하는 단계;
상기 프로세서의 입력과 상기 하드웨어 가속기의 입력 중 어느 하나를 선택하도록 제어하는 단계;
상기 적어도 하나의 공유 연산기들이 상기 하드웨어 가속기로부터 입력값을 수신하는 단계; 및
상기 적어도 하나의 공유 연산기들이 상기 입력값에 대해 상기 지정된 연산을 수행하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법.
삭제
제 9 항에 있어서, 상기 연산을 수행하는 단계는,
상기 프로세서가 메모리에 접속하거나 파라미터를 설정하는 동안, 상기 하드웨어 가속기는 상기 적어도 하나의 공유 연산기들을 이용하여 연산을 수행하는 것을 특징으로 하는 신호 처리 방법.
제 9 항에 있어서,
상기 프로세서가 하드웨어 가속기의 설정을 수행하는 단계를 더 포함하고,
상기 하드웨어 가속기는 설정이 완료된 이후에 연산을 수행하는 것을 특징으로 하는 신호 처리 방법.
제 9 항에 있어서,
상기 프로세서가 연산을 수행하는 단계; 및
상기 프로세서가 수행한 연산 및 상기 하드웨어 가속기가 수행한 연산을 통합하는 단계를 더 포함하는 신호 처리 방법.
제 9 항에 있어서,
상기 하드웨어 가속기가 상기 하드웨어 가속기에 포함된 연산기를 이용하여 연산을 수행하는 단계를 더 포함하는 것을 특징으로 하는 신호 처리 방법.
제 9 항에 있어서,
상기 하드웨어 가속기는 상기 적어도 하나의 공유 연산기들을 이용하여 독립적인 연산만을 수행하는 것을 특징으로 하는 신호 처리 방법.
제9항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.