KR100952760B1

KR100952760B1 - 집적 회로 장치

Info

Publication number: KR100952760B1
Application number: KR1020037015066A
Authority: KR
Inventors: 켄지 이케다; 히로시 시무라; 토모요시 사토
Original assignee: 후지제롯쿠스 가부시끼가이샤
Priority date: 2001-05-24
Filing date: 2002-05-24
Publication date: 2010-04-14
Also published as: US7577821B2; EA200301290A1; US20030184339A1; US20070186078A1; TWI234737B; CN1518798A; EP1391991A4; EP1391991A1; EA005344B1; CN1274085C; WO2002095946A1; CA2448549A1; JPWO2002095946A1; KR20040004631A; US7191312B2; JP4208577B2

Abstract

매트릭스 형상으로 배치된 복수의 연산 유닛과, 매트릭스의 제 1 방향으로 연장되며, 각 연산 유닛의 입력 데이터를 전송하는 복수의 제 1 배선그룹과, 매트릭스의 제 2 방향으로 연장되며, 각 연산 유닛의 출력 데이터를 전송하는 복수의 제 2 배선그룹과, 제 1 및 제 2 배선그룹의 각각의 교점에 배치되며, 제 1 배선그룹에 포함되는 임의의 배선과 제 2 배선그룹에 포함되는 임의의 배선을 선택하여 접속할 수 있는 복수의 스위칭 유닛을 구비한 데이터 처리블록을 가지는 집적 회로 장치를 제공한다. 이들 복수의 연산 유닛은, 특정한 처리에 적합한, 다른 데이터 패스를 구비한 복수 종류의 연산 유닛을 포함하며, 데이터 처리블록의 적어도 일부에서는, 동일한 종류의 연산 유닛이 제 1 또는 제 2 방향의 배열을 형성한다. 이 집적 회로 장치는, 연산 유닛의 조합을 변경함으로써 기능을 동적으로 변경할 수 있으며, 더욱이 특정한 처리에 적합한 다른 데이터 패스를 구비한 연산 유닛으로 구성되므로 컴팩트하고 경제적이다.

Description

집적 회로 장치{INTEGRATED CIRCUIT DEVICE}

본 발명은 복수의 연산 유닛이 매트릭스형상으로 배치된 집적 회로 장치에 관한 것이다.

논리게이트를 어레이형상으로 배치하고 상기 사이의 결선을 자유롭게 변경할 수 있는 집적 회로 장치로서 FPGA(Field Programmable Gate Array)가 알려져 있다. FPGA는 크게 나누어 복수의 논리블록과, 이들 논리블록 사이를 접속하는 배선으로 구성되어 있다. 논리블록은 룩업 테이블과 플립플롭을 포함하는 회로유닛으로서, 룩업 테이블의 설정치를 바꿈으로써 비트단위로 AND 혹은 OR 등의 논리함수를 실현하는 논리게이트로서 기능한다. 복수의 논리블록은 어레이 혹은 매트릭스형상으로 배치되며 행배선 및 열배선으로 접속된다. 행배선 및 열배선은 이들 배선의 교점에서 스위치 매트릭스 등에 의해 접속되어 배선의 재구성이 가능하게 되어 있으며, 이로써 논리블록의 조합을 변경할 수 있다.

FPGA는 트랜지스터 레벨에서의 접속을 변경할 수 있는 아키텍쳐(architecture)로서 발전하였으며, 실행가능한 기능을 제조한 후에 어느 정도 자유롭게 변경할 수 있는 집적 회로 장치이다. 따라서, FPGA는 각종 전용 연산 회로를 동일한 하드웨어로 실현할 수 있으며, 나아가 실현되는 기능을 어느 정도 동적으로 제어할 수 있는 가능성을 지닌 아키텍쳐이다. 또한, 범용적으로 이용가능한 아키텍쳐를 제공하기 위하여, FPGA를 구성하는 논리블록은 구성이 동일하며, 개개의 논리블록으로 실현할 수 있는 논리함수는 AND, OR 혹은 NAND 정도의 레벨로 한정되어 있다. 더욱이, 처리하는 데이터도 비트단위이다. 따라서, 개개의 논리블록은 4비트 정도의 SRAM으로 이루어지는 룩업 테이블을 탑재하는데 불과하다.

FPGA는 룩업 테이블을 포함하는 논리블록으로 AND나 OR 등의 논리게이트의 기능을 실현하며, 이들을 재조합할 수 있는 배선그룹으로 접속함으로써 각종 전용연산회로로서의 기능을 실현한다. 따라서, 실현가능한 기능에 비해 면적효율은 낮고, 연산속도도 그다지 높지는 않다. 더욱이 FPGA로 실현할 수 있는 기능을 변경하려면 방대한 수의 논리블록의 기능을 변경할 필요가 있기 때문에, 동적으로 변경하는 것은 무리이다. 각각의 논리블록을 직접 제어할 수 있는 특수한 하드웨어를 설치함으로써 기능을 변경하는 시간을 단축할 수 있다 하더라도, 어플리케이션의 실행중에 특수한 하드웨어를 동적으로 제어하기란 어려우며, 더욱이 경제적인 해결책이라고도 할 수 없다.

이에 대하여, 본원의 발명자들은 적당하거나 또는 특정한 처리에 적합한 데이터 패스(하드웨어 로직 혹은 회로)를 미리 구비한 복수 종류의 연산 유닛을 준비하고, 이들 연산 유닛간의 접속을 변경함으로써 원하는 전용 연산 회로로서의 기능을 정의할 수 있는 집적 회로 장치를 제안한다. 본 집적 회로 장치에 따르면, FPGA와 같이 트랜지스터 레벨에서의 접속을 모두 변경할 필요가 없기 때문에, 단시간에 하드웨어를 재구성할 수 있다. FPGA와 같이 트랜지스터 레벨에서의 범용성을 요구하는 아키텍쳐는 아니므로, 장착밀도도 향상시킬 수 있고 컴팩트하고 경제적인 시스템을 제공할 수 있다. 더욱이, 불필요한 구성을 삭감할 수 있으므로 처리속도도 고속화되고 AC특성도 향상된다.

그러나, FPGA는 각 회로유닛 혹은 회로블록이 동일한 구성이기 때문에, 이들 회로블록을 매트릭스형상으로 배열하고, 그들 사이에 행배선 및 열배선을 배치하는 레이아웃은 매우 규칙성이 높고 설계도 용이하며 더욱이 소자레벨의 면적효율도 높다. 이에 반하여, 특정한 처리에 적합한 데이터 패스(path)를 구비한 연산 유닛은 상기 처리에 따라 내장되는 데이터 패스가 다르므로 회로구성은 동일해지지 않는다. 따라서, 각종 연산 유닛을 실리콘 기판 위에서 실현하는데 소요되는 면적은 동일하지 않다. 단일 구성의 FPGA와 동일한 매트릭스를 얻기 위하여, 각종 연산 유닛이 내장하는 데이터 패스가 달라도 각종 연산 유닛이 차지하는 면적이 동일하도록 배치할 수는 있다. 즉, 점유면적이 최대가 되는 연산 유닛으로 정렬한 매트릭스에서 복수의 연산 유닛을 레이아웃할 수도 있다. 그러나, 면적효율은 저하되고 집적회로가 매우 커져 AC특성이 악화되는 요인이 된다. 따라서, 특정한 처리에 적합한 데이터 패스를 구비한 연산 유닛으로 이루어진 집적 회로 장치의 본래의 장점을 충분히 살릴 수 없다.

이에, 본 발명에서는 특정한 처리에 적합한 데이터 패스를 구비한 복수 종류의 연산 유닛을 포함하는 집적 회로 장치를 실제로 설계함에 있어서, 그러한 연산 유닛의 장점을 충분히 살릴 수 있는 집적 회로 장치를 제공하는 것을 목적으로 한다. 그리고, 컴팩트하고 경제적인 집적 회로 장치로서, 처리속도가 빠르고 AC특성도 양호한 집적 회로 장치를 제공하는 것을 목적으로 한다.

본 발명의 집적 회로 장치는 제 1 및 제 2 방향으로 매트릭스형상으로 배치된 복수의 연산 유닛과, 복수의 연산 유닛의 제 1 방향의 배열에 대응하여 제 1 방향으로 연장되며, 각 연산 유닛의 입력 및/또는 출력 데이터를 전송하는 복수의 제 1 배선그룹과, 복수의 연산 유닛의 제 2 방향의 배열에 대응하여 제 2 방향으로 연장되며, 각 연산 유닛의 입력 및/또는 출력 데이터를 전송하는 복수의 제 2 배선그룹과, 제 1 및 제 2 배선그룹의 각각의 교점에 배치되고, 제 1 배선그룹에 포함되는 임의의 배선과 제 2 배선그룹에 포함되는 임의의 배선을 선택하여 접속할 수 있는 복수의 스위칭 유닛을 구비한 데이터 처리블록을 갖는다. 본 집적 회로 장치에서는 또한 복수의 연산 유닛(Operation Unit)이, 특정한 처리에 적합한, 다른 데이터 패스를 구비한 복수 종류의 연산 유닛을 포함하거나, 또는 복수 종류의 연산 유닛으로 분류될 수 있고, 더욱이 동일한 종류의 연산 유닛이 제 1 또는 제 2 방향의 배열을 형성한다.

각각이 특정한 처리에 적합한 데이터 패스를 구비하고, 특정한 산술연산 또는 논리연산, 이들의 조합을 실행할 수 있는 소규모이면서 바이트(byte) 혹은 워드(word) 단위의 데이터를 처리할 수 있는 유닛을 본 명세서에서는 연산 유닛이라 부른다. 이 연산 유닛은 엘리먼트, 논리 엘리먼트, 논리 유닛 혹은 회로 유닛 등으로도 불리는 것이다. 특정한 처리에 적합한, 다르거나 혹은 고유한 데이터 패스를 구비하는 복수 종류의 연산 유닛을 반도체 기판 위에 실현하기 위한 면적은, 각종 연산 유닛에 따라 다를 가능성이 높다. 그러나, 동일한 종류의 연산 유닛이라면 점유면적은 동일해진다. 따라서, 동일한 종류의 연산 유닛에 의해 제 1 방향 또는 제 2 방향의 배열을 형성함으로써, 배열된 방향에서는 연산 유닛의 크기 차로 인한 요철은 없어진다. 제 1 방향을 행방향(수평 혹은 가로줄 방향)이라 하면, 제 2 방향은 열방향(수직 혹은 세로줄 방향)이 된다. 예컨대, 동일한 종류의 연산 유닛에 의해 제 1 방향의 배열을 형성하면, 복수의 연산 유닛을 제 1 방향으로 직선적이고 동일한 폭의 띠를 형성하도록 배치할 수 있다. 따라서, 종류마다 데이터 패스가 다르고 크기가 다를 가능성이 높은 복수의 연산 유닛을, 제 2 방향에는 불필요한 공간을 만들지 않으면서 제 1 방향으로는 직선적으로 배치할 수 있다. 제 1 방향으로 연산 유닛이 요철없이 직선적으로 배열되므로, 적어도 제 1 방향의 배선그룹은 직선적으로 레이아웃될 수 있다. 이로 인해, 다른 데이터 패스를 구비한 연산 유닛이 매트릭스형상으로 배치된 집적 회로 장치의 면적효율 및 집적도를 높일 수 있으며, 경제적이고 처리속도도 빠르며 AC특성도 양호한 집적 회로 장치를 제공할 수 있다.

동일한 종류의 연산 유닛을 다수 배치할 때에는 제 1 또는 제 2 방향으로 복수의 배열을 형성하도록 배치할 수 있다. 어떤 종류, 예컨대 제 1종의 연산 유닛의 수가 제 2종의 연산 유닛의 수보다 매우 많을 경우, 제 2종의 연산 유닛의 배열에 단순하게 맞추어 제 1종의 연산 유닛을 배치하면, 데이터 처리블록의 형상이 지나치게 가늘고 길어져 면적효율이 저하될 가능성이 있다. 이러한 경우에는, 제 2종의 연산 유닛의 배열에, 제 1종의 연산 유닛의 배열을 연결함으로써 데이터 처리 블록의 형상을 개선하는 것이 바람직하다. 이 경우에도, 데이터 처리블록의 적어도 일부인, 제 2종의 연산 유닛의 배열 폭의 범위에서는, 동일한 종류의 연산 유닛에 의해 제 1 또는 제 2 방향의 배열이 형성된다.

동일한 종류의 연산 유닛을 제 1 방향으로 배열했을 경우, 종류에 따라 크기가 다른 연산 유닛이어도 제 1 방향으로는 요철이 없는 상태에서 직선으로 배열되지만, 제 2 방향의 직선성은 보장되지 않는다. 따라서, 복수 종류의 연산 유닛을 제 1 방향으로 등간격으로 배치하여 제 2 방향의 직선성을 보장하는 것이 바람직하다. 이로써 제 2 방향의 배선그룹을 직선적으로 레이아웃할 수 있게 되어 연산 유닛을 연결하는 배선길이를 최대한 단축시킬 수가 있다. 이와 동시에, 제 1 및 제 2 배선그룹을 모두 직선적으로 배치할 수 있게 되어 다른 데이터 패스를 구비한 연산 유닛이 매트릭스형상으로 배치된 집적 회로 장치의 디자인이 용이해진다. 각종 연산 유닛의 제 1 방향의 크기가 다르면, 제 2 방향은 가장 효율적인 배치로는 되지 않는다. 그러나, 각종 연산 유닛의 필요면적의 차를, 제 2 방향은 동일해지도록 설계하고 제 1 방향에서 상기 차를 흡수함으로써, 각종 연산 유닛은 제 1 및 제 2 방향 모두 가장 밀도가 높아지도록 효율적으로 배치될 수 있다.

제 1 및 제 2 배선그룹은 데이터를 전송하는 데이터 버스가 되는 버스 배선에 추가하여, 캐리 신호(carry signal)를 전송하는 캐리 배선(carry wire)을 설치해 두는 것이 바람직하다. 자리올림을 나타내는 신호 또는 참-거짓을 나타내는 신호를 데이터 버스와 동일한 경로로 연산 유닛에서 연산 유닛으로 전송할 수 있다.

연산 유닛은 제 1 배선그룹 및 제 2 배선그룹 중 어느 하나로부터 데이터를 입력할 수도 있고, 어느 하나로 데이터를 출력할 수도 있다. 그러나, 한 쪽 배선그룹으로부터 데이터를 입력하고 다른 쪽 배선그룹으로 데이터를 출력하도록 규칙을 정함으로써, 항상 하나의 스위칭 유닛을 경유하기만 해도 연산 유닛으로부터 연산 유닛으로 데이터를 전송할 수 있다. 이로 인해, 연산 유닛은 제 2 배선그룹에 포함되는 임의의 배선으로부터 신호를 입력하는 수단과, 제 1 배선그룹에 포함되는 임의의 배선으로 신호를 출력하는 수단을 구비하는 것이 바람직하다.

또한, 연산 유닛은 각각이 특정한 처리에 적합한 데이터 패스를 구비하기 때문에, 산술연산, 논리연산 등의 복수의 입력 데이터가 어떠한 처리를 수행할 경우에는 그에 부합되도록 배치할 수 있다. 따라서 입력배선이 되는 제 2 배선그룹으로서는 연산 유닛의 제 2 방향 배열의 양쪽을 따라 연장된 한 쌍의 배선그룹을 만들어, 연산 유닛이 복수의 입력 데이터를 받아들이기 쉬운 배선으로 만드는 것이 바람직하다.

더욱이, 매트릭스에 포함되는 연산 유닛이 많아져 이들을 플랙시블하게 접속하려면 연산 유닛의 수에 대응된 배선이 필요해져 방대한 양의 배선이 요구된다. 따라서 매트릭스를 복수로 나누고 인접 배치된 제 1 매트릭스와 제 2 매트릭스의 경계에, 데이터의 전송을 지연시키는 처리에 적합한 연산 유닛을 배열하고, 제 1 및 제 2 매트릭스의 사이에서 제 1 및 제 2 배선그룹을 일단 분리하는 동시에, 제 1 및 제 2 매트릭스의 사이에서 전송되는 신호만 제 1 및 제 2 매트릭스의 배선을 공유하도록 하는 것이 바람직하다.

특정한 처리에 적합한 데이터 패스를 구비한 연산 유닛으로서, 적어도 하나의 다른 명령 혹은 명령레벨의 처리에 적합한 데이터 패스를 구비한 몇 가지 종류의 연산 유닛을 준비하는 것이 바람직하다. 본 명세서에 있어서, 명령이란 특별히 개시하지 않는 한, 프로그램을 기술하기 위한 명령세트를 구성하는 명령을 의미하며, 복합 명령, 매크로 명령, 함수 호출(function call) 등을 포함한다. 따라서, 각 논리유닛은 데이터를 8비트의 바이트 단위 혹은 16, 32, 나아가 64비트 등의 워드 단위로 처리하게 된다. 본 집적 회로 장치에서는 실행할 처리를, 연산 유닛이 지원하는 명령의 프로그램언어로 기술할 수 있으면, 연산 유닛의 배치배선으로 변환함으로써 상기 처리를 실행하기 위한 집적 회로 장치를 간단히 설계 및 제조할 수 있다.

즉, 본 발명에서는 제 1 및 제 2 방향으로 매트릭스형상으로 배치된 복수 종류의 연산 유닛과, 이들 복수 종류의 연산 유닛을 접속하는 배선그룹을 구비한 데이터 처리블록을 가지며, 복수 종류의 연산 유닛은 적어도 1개의 다른 명령을 실행할 수 있는 데이터 패스를 구비한 종류가 다른 연산 유닛을 포함하는 집적 회로 장치를 제공한다. 상기 집적 회로 장치를 설계할 때에는 상기 집적 회로 장치에서 실행하는 처리 중 적어도 일부를, 복수 종류의 연산 유닛 중 어느 하나의 연산 유닛에 의해 제공되거나, 혹은 실행가능한 명령의 프로그램언어로 기술된 중간기술(中間記述)로 변환한다. 다음으로, 상기 중간기술의 처리를 실행할 수 있는 복수 종류의 연산 유닛의 실행용 조합을 생성하고, 실행용 조합을 실현할 수 있도록 복수 종류의 연산 유닛이 배치된 데이터 처리블록을 생성한다. 이로써, 주어진 처리를 실행할 수 있는 집적 회로 장치를 단시간에 어려움없이 설계 및 제조할 수 있다. 그리고, 상기 설계 및 제조방법에 의해 제공되는 집적 회로 장치는, 주어진 처리를 하드웨어로 실행하게 되므로 높은 처리속도를 구비하게 된다.

명령레벨의 처리에 적합한 데이터 패스를 구비한 연산 유닛으로는 데이터의 입력처리에 적합한 데이터 패스를 구비한 제 1종의 연산 유닛, 입력 데이터의 어드레스를 지정하는 처리에 적합한 데이터 패스를 구비한 제 2종의 연산 유닛, 데이터의 출력처리에 적합한 데이터 패스를 구비한 제 3종의 연산 유닛, 출력하는 데이터의 어드레스를 지정하는 처리에 적합한 데이터 패스를 구비한 제 4종의 연산 유닛, 정수의 가감 등 산술연산 및/또는 비교, 선택 등을 포함하는 논리연산 처리에 적합한 데이터 패스를 구비한 제 5종의 연산 유닛이 있다. 곱셈을 제 5종의 연산 유닛에 포함시킬 수도 있지만, 그로 인해 제 5종의 연산 유닛이 지나치게 커질 경우에는, 승산처리(multiplication process)에 적합한 데이터 패스를 구비한 제 6종의 연산 유닛을 별도로 설치하는 방법도 효과적이다. 이러한 종류의 연산 유닛에 의해 많은 처리에서 시간이 소비되는 검색처리나 계산처리를 기술 혹은 정의하는 명령을 실행할 수 있다. 따라서, 빈번하게 반복 실행되는 처리, 예컨대 신호처리나 루프처리를 다수의 하드웨어 리소스로 전개하여 고속으로 처리할 수 있다.

즉, 본 발명에 의해, 소수의 하드웨어 리소스를 반복 사용하는 종래의 소프트웨어 방법으로는 실행속도가 상승되지 않는 부분을 다수의 하드웨어 리소스 상으로 전개하여 동시 실행함으로써 성능을 향상시킬 수 있다.

이러한 연산 유닛을 배치하여 데이터 처리블록에서 원활한 데이터 플로우를 형성하려면, 데이터의 입력명령 및/또는 출력명령의 처리에 적합한 데이터 패스를 구비한 연산 유닛이, 데이터 처리블록의 한 쪽 단부와 다른 쪽 단부에 배열되어 있는 것이 바람직하다. 또한, 파이프라인식의 처리를 실행하기 위해서는 각 연산 유닛에서 소비되는 클럭을 명확히 할 필요가 있다. 이를 위해 각 연산 유닛은 입력 데이터를 래치(latch)하는 입력측 플립플롭과, 출력 데이터를 래치하는 출력측 플립플롭을 구비하는 것이 바람직하다. 단, 입력명령 혹은 출력명령의 처리에 적합한 데이터 패스는, 상기 자체가 바이트 혹은 워드 단위로 데이터를 래치하는 플립플롭인 경우가 있으며, 이 경우에는 1개의 플립플롭으로 입력 데이터와 출력 데이터를 래치하게 된다.

내장된 데이터 패스가 다르면, 연산 유닛에서 소비되는 클럭 수도 다르다. 또한, 데이터 처리블록에서의 패스가 다르면, 연산 유닛에 도달하는 타이밍도 다르다. 따라서, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스를 구비한 제 7종의 연산 유닛을 구비하는 것이 바람직하다. 또한, 연산 유닛의 조합을 생성할 때에도 타이밍 조정을 위해 이러한 연산 유닛을 포함한 실행용 조합을 생성한다.

더욱이, 연산 유닛으로 처리할 수 있는 범위를 넓히기 위해서는, 데이터 처리블록의 외부에 배치된 연산회로와 접속하는 처리에 적합한 데이터 패스를 구비한 제 8종의 연산 유닛도 유용하다. 또한, 룩업 테이블에 의해 처리가 선택되는 데이터 패스를 구비한 제 9종의 연산 유닛도 유용하다. 더욱이, 동일한 종류의 연산 유닛을 동일한 방향으로 배열함으로써, 복수의 동일한 연산 유닛이 연계하여 확장된 연산기능을 제공하도록 할 수도 있다. 이를 위해, 동일한 방향으로 배열된 동일한 종류의 연산 유닛은, 복수의 연산 유닛이 연계하여 확장된 연산기능을 제공하기 위한 패스를 구비하는 것이 바람직하다. 예컨대, 산술연산 처리에 적합한 연산 유닛이라면, 단 정밀도(single precision)의 연산 유닛을 동일한 방향으로 배열함으로써 배 정밀도(double precision)의 연산처리를 수행시킬 수 있다.

더욱이, 복수의 데이터 처리블록과, 이들 데이터 처리블록을 접속하는 제 3 배선그룹을 설치함으로써 연산 유닛의 조합으로 처리할 수 있는 범위를 대폭 확장시킬 수 있다.

본 발명의 집적 회로 장치는, 제 1 배선그룹에 포함되는 임의의 배선과 제 2 배선그룹에 포함되는 임의의 배선을 선택하여 접속할 수 있는 스위칭 유닛을 제어함으로써, 연산 유닛에 공급되는 데이터의 루트(route)를 바꾸어 데이터 처리를 위한 연산 유닛의 조합을 변경할 수가 있다. 따라서, 본 발명에서는 복수 종류의 연산 유닛이 배치되고, 배선그룹에 의해 복수 종류의 연산 유닛에 공급되는 데이터의 루트를 바꾸어 데이터 처리를 위한 복수 종류의 연산 유닛의 조합을 변경할 수 있는 데이터 처리블록을 가지며, 복수 종류의 연산 유닛은 적어도 1개의 다른 명령레벨의 처리에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛을 포함하는 집적 회로 장치를 제공할 수 있다. 상기 집적 회로 장치에서는 제조 후에 데이터 처리블록의 기능이나 실행가능한 처리내용을 바꿀 수가 있다. 트랜지스터 레벨로 회로를 맵핑하는 것을 목적으로 하는 FPGA와 달리, 미리 특정한 처리에 적합한 데이터 패스를 구비한 연산 유닛의 조합을 바꿈으로써 기능이나 처리내용을 변경하므로, 단시간에 처리내용을 변경할 수 있다. 따라서, 하드웨어로 수행하는 처리내용을 동적으로 변경하는 능력을 구비한 집적 회로 장치를 제공할 수 있다.

더욱이, 상기 집적 회로 장치의 데이터 처리블록은, 전체적으로 다른 처리를 실행할 수 있는 범용성을 지니지만, 각각의 연산 유닛은 미리 특정한 처리에 적합한 데이터 패스를 구비한 전용의 회로유닛이어서 범용성은 낮다. 따라서, 불필요한 부분은 적어지고 회로에서 낭비되는 부분이 발생하기 어려우므로, 컴팩트하고 경제적이며 나아가 처리속도가 빠른 집적 회로 장치를 제공할 수 있다.

연산 유닛간 조합의 유연성을 향상시키려면, 제 1 배선그룹 및 제 2 배선그룹에 포함되는 임의의 배선을 선택하여 신호를 입력 또는 출력하는 수단을 연산유닛에 설치하는 것이 바람직하다. 배선의 선택을 저장하는 재기록가능한(rewritable) 구성 메모리(configuration memory)를 연산 유닛에 설치하고, 배선의 선택을 저장하는 재기록가능한 구성 메모리를 스위칭 유닛에 설치하는 것이 바람직하다. 구성 메모리, 예컨대 레지스터의 내용을 재기록함으로써, 데이터 처리블록의 기능을 동적으로 변경할 수 있다. 또, 변경될 내용을 미리 메모리에 저장시켜 둠으로써 광범위한 연산 유닛으로 구성되는 기능을 1클럭으로 간단히 변경할 수 있다.

구성 메모리의 내용을 재기록할 수 있는 제어 유닛을 집적 회로 장치에 탑재함으로써, 하드웨어로 실행할 수 있는 처리내용을 프로그램에 의해 제어할 수 있는 집적 회로 장치를 제공할 수 있다. 제어 유닛은 시퀀서 혹은 마이크로 코드 메모리에 의한 소규모인 것일 수도 있다. 그러나, 프로그램에 의해 연산 유닛의 조합을 바꿀 수 있을 정도의 기능을 구비한 연산 유닛이 바람직하다. 연산 유닛(논리 엘리먼트 또는 논리 유닛)이 매트릭스형상으로 배치된 데이터 처리블록과, 리스크 프로세서 등의 범용 프로세서를 공존시킴으로써 소수의 하드웨어 리소스를 반복하여 사용하는 종래의 소프트웨어 방법이 적합한 처리는 범용 프로세서로 실행하고, 실행속도가 높아지지 않는 부분은 데이터 처리블록으로 실행할 수 있다. 더욱이, 범용 프로세서에서의 처리와 데이터 처리블록에서의 처리를 병렬 실행할 수도 있다. 나아가, 데이터 처리블록을 구성하는 연산 유닛에서 다른 연산 유닛의 구성 메모리를 설정할 수도 있다.

프로그램에 의해 제어할 수 있는 집적 회로 장치에서는, 실행할 처리를 연산 유닛이 지원하는 명령을 포함하는 프로그램 언어로 기술하고, 상기 중간기술을 실행할 수 있는 복수 종류의 연산 유닛의 실행용 조합을 지시하는 명령을 포함함으로써, 집적 회로 장치의 실행 프로그램을 작성할 수 있다. 중간언어는 어셈블러와 같이 선형성이 높고 데이터 플로우그램을 생성하기 용이한 것이 바람직하다.

더욱이, 내부 데이터 패스의 일부를 변경 및/또는 선택하는 수단을 연산 유닛에 설치함으로써, 데이터 처리블록에서 하드웨어에 의해 실행될 수 있는 기능 혹은 처리의 선택범위를 넓힐 수 있다. 그리고, 구성 메모리에 내부 데이터 패스의 변경 및/또는 선택도 저장시킬 수 있다. 명령레벨의 처리에 적합한 연산 유닛 내부의 데이터 패스는 적어도 1개의 명령을 실행하기에 적합한 데이터 패스이다. 상기 집적 회로 장치를 설계하고 실행 프로그램을 작성하는 과정에서는 내부 데이터 패스의 선택 및/또는 변경도 포함한 실행용 조합을 생성하여, 그것을 지시하는 명령을 실행 프로그램에 포함시킨다.

도 1은 본 발명의 실시예에 따른 집적 회로 장치의 개략적인 구성을 나타낸 블록도이다.

도 2는 매트릭스부의 개략적인 구성을 나타낸 도면이다.

도 3은 도 2에 도시된 매트릭스부의 일부를 확대하여 나타낸 도면이다.

도 4는 도 2에 도시된 매트릭스부의 배선그룹 중 캐리 신호를 전송하는 배선의 배치를 나타내는 도면이다.

도 5는 스위칭 유닛의 일례를 나타내는 도면이다.

도 6은 데이터를 입력하는 명령의 처리에 적합한 데이터 패스부의 예이다.

도 7은 어드레스를 출력하는 명령의 처리에 적합한 데이터 패스부의 예이다.

도 8은 산술연산 및/또는 논리연산 명령의 처리에 적합한 데이터 패스부의 예이다.

도 9는 데이터가 전송되는 타이밍을 지연시키는 처리에 적합한 데이터 패스부의 예이다.

도 10은 승산명령의 처리에 적합한 데이터 패스부의 예이다.

도 11(a)는 외부에 배치된 연산회로와 접속하는 처리에 적합한 데이터 패스부의 예이다. 도 11(b)는 룩업 테이블에 의해 처리가 선택되는 데이터 패스부의 예이다.

도 12는 본 발명의 다른 집적 회로 장치의 개략적인 구성을 나타낸 블록도이다.

도 13은 복수의 LSI를 접속한 몇 가지 예를 나타낸 도면이다.

도 14는 본 발명의 집적 회로 장치를 설계 및 제조하는 방법의 개요를 나타낸 도면이다.

도 15는 배치배선처리의 개요를 나타낸 플로우챠트이다.

도 16은 1개의 데이터 플로우그램의 조합을 구하는 처리의 개요를 나타낸 플로우챠트이다.

도 17은 중간언어의 기술 예이다.

도 18은 매트릭스부에서 실현하는 데이터 플로우그램의 예이다.

도 19는 데이터 플로우그램을 연산 유닛의 조합으로 구성하는 예이다.

도 20은 데이터 플로우그램을 매트릭스부에 맵핑한 예이다.

도 21은 데이터 플로우그램을 매트릭스부에서 실현하는 조합을 나타낸 예이다.

이하 도면을 참조하면서 본 발명에 관해 설명한다. 도 1은 본 발명에 따른 집적 회로 장치로서 시스템LSI(10)를 구성한 예를 나타낸다. 본 시스템LSI(10)는 실행 프로그램(3)에 포함된 명령에 기초하여 에러 처리를 포함한 RISC 프로세서 등의 범용적인 처리를 수행하는 범용 프로세서(11)와, 매트릭스형상으로 배치된 복수의 연산 유닛에 의해 특정한 데이터 처리에 적합한 데이터 플로우 혹은 의사(擬似) 데이터 플로우가 형성되는 데이터 처리블록(이후에서는 매트릭스부 ; 20)을 구비한다. 범용 프로세서(이후에서는 RISC라고도 부름)는 실행 프로그램(3)에 기초하여 매트릭스부(20)의 조합(구성, configuration)도 제어할 수 있으며, 매트릭스부(20)의 구성을 동적으로 변경할 수 있다. LSI(10)는 더욱이 매트릭스부(20)로부터의 인터럽트 처리를 제어하는 인터럽트 제어부(12)와, 매트릭스부(20)에 작동용 클럭신호를 공급하는 클럭 발생부(13)와, 플랙시블한 연산회로를 구성하기 위한 FPGA(14)와, 외부에 대한 데이터의 입출력을 제어하는 버스 제어부(15)를 구비한다. 프로세서(11)와 매트릭스부(20)는 프로세서(11)와 매트릭스부(20)의 사이에서 데이터를 교환할 수 있는 데이터 버스(17)와, 프로세서(11)로부터 매트릭스부(20)의 구성 및 동작을 제어하기 위한 명령 버스(18)에 의해 접속되어 있다. 또한, 매트릭스부(20)로부터 인터럽트 제어부(12)로 신호선(19)을 통해 인터럽트 신호가 공급되어 매트릭스부(20)에서의 처리가 종료되거나 처리중에 에러가 발생했을 때에는, 매트릭스부(20)의 상태를 프로세서(11)로 피드백할 수 있도록 되어 있다.

매트릭스부(20)와 FPGA(14)의 사이도 데이터 버스(21)에 의해 접속되어 있고, 매트릭스부(20)로부터 FPGA(14)로 데이터를 공급하여 처리가 이루어지며, 상기 결과가 매트릭스부(20)로 되돌아온다. 매트릭스부(20)는 로드 버스(22) 및 스토어 버스(23)에 의해 버스 제어 유닛(15)과 접속되어 있고, LSI(10) 외부의 데이터 버스와의 사이에서 데이터를 교환한다. 따라서, 매트릭스부(20)에는 외부의 DRAM(2)이나 기타 디바이스로부터 데이터를 입력할 수 있고, 상기 데이터를 매트릭스부(20)에서 처리한 결과가 다시 외부의 디바이스로 출력될 수 있다. 프로세서(11)도 데이터 버스(11a) 및 버스 제어 유닛(15)을 통해 외부 디바이스와 데이터를 입출력할 수 있다. 프로세서(11)의 실행 프로그램(목적(object) 프로그램 ; 3)은 프로세서(11)가 코드 RAM 혹은 ROM을 내장한 구성이라면 미리 프로세서(11)에 저장시켜 둘 수 있다. 또, 실행프로그램(3)을 버스(11a)를 통해 LSI(10)의 외부에서 공급할 수도 있다.

도 2에 매트릭스부(20)의 개요를 나타낸다. 상기 매트릭스부(20)는 68개의 연산 유닛(연산 엘리먼트 ; 30)에 의해, 횡방향(행방향)으로 연장된 배열 17줄, 종방향(열방향)으로 연장된 배열 4줄로 구성되어 있으며, 복수의 연산 유닛(30)이 어레이 혹은 매트릭스형상으로 배치된 것이다. 이들 연산 유닛(30)의 사이에 또 횡방향으로 연장된 행 배선그룹(51)과, 종방향으로 연장된 열 배선그룹(52)이 배치되어 있다. 열 배선그룹(52)은 열방향으로 배열된 연산 유닛(30)의 좌우로 나뉘어 배치된 한 쌍의 배선그룹(52x 및 52y)을 구비한다. 이들 배선그룹(52x 및 52y)으로부터 데이터가 각각의 연산 유닛(30)으로 공급된다. 이들 열 배선그룹(52)은 위에서 9행째의 연산 유닛(DEL유닛)에서 일단 분리되어 있으며, 매트릭스부(20)는 상방에 형성된 8행 4열의 연산 유닛(30)을 구비한 제 1 매트릭스(28)와, 하방에 형성된 9행 4열의 연산 유닛(30)을 구비한 제 2 매트릭스(29)의 2가지 세그먼트로 나뉘어있다.

도 3은 연산 유닛(30)과, 행 배선그룹(51) 및 열 배선그룹(52)의 교점에 배치된 스위칭 유닛(55)을 확대하여 나타낸 것이다. 행 배선그룹(51)은 바이트(8비트) 또는 워드(16비트 또는 32비트) 단위의 데이터, 즉 8에서 32비트 정도의 데이터를 행방향으로 배열한 각 연산 유닛(30, 본 예에서는 4개의 연산 유닛)으로부터 전송할 수 있는 배선량을 구비한다. 따라서, 본 예의 매트릭스부(20)에서 행방향의 배선그룹(51)은 적어도 4채널분의 배선량이 있는 버스이다. 더욱이, 데이터 수에 대응되는 수의 캐리 신호(carry signals)를 전송하는 배선도 준비되어 있다.

열 배선그룹(52)도 바이트 또는 워드 단위의 데이터를 각각의 연산 유닛(30)에 공급할 수 있는 배선량을 구비한다. 매트릭스부(20)는 1개의 세그먼트에 주목하면 열방향으로 8개의 연산 유닛(30)이 배열되어 있으므로, 본 예의 열 배선그룹(52)은 8채널분의 배선량을 구비한 버스이다. 전송하는 데이터 수에 대응되는 캐리 신호를 전송하는 배선도 준비되어 있다.

도 4는 본 예에 따른 매트릭스부(20)의 행 배선그룹(51) 및 열 배선그룹(52) 에서 캐리 신호를 전송하기 위한 배선(51c, 52cx 및 52cy)을 발췌하여 도시한 것이다. 캐리 신호는 자리올림을 나타내는 신호 또는 참-거짓을 나타내는 신호로서 사용될 수 있으며, 본 예의 매트릭스부(20)에서는 연산 유닛(30) 중에서 산술연산 및 논리연산에 적합한 데이터 패스부(SMA ; 32b)와, 지연용 데이터 패스부(DEL ; 32c)와, FPGA와의 인터페이스가 되는 데이터 패스부(FPG ; 32e)에서 캐리 신호(Ci)가 사용되고 있다. 따라서, 이들을 구비한 연산 유닛(30)을 접속하도록 캐리 신호용 배선(51c, 52cx 및 52cy)이 배치되어 있다.

행 배선그룹(51)과 열 배선그룹(52)의 각각의 교점에 배치된 스위칭 유닛(55)은, 행 배선그룹(51)의 임의의 채널을 열 배선그룹(52)의 임의의 채널로 전환해 접속하여, 바이트 또는 워드 단위의 데이터의 재구성이 가능한 전송로를 구축한다. 도 3에 도시된 스위칭 유닛(55)에서는 행 배선그룹(51)의 임의의 채널을 선택하여 열 배선그룹(52)에 접속하는 복수의 셀렉터(58)와, 이들 셀렉터(58)의 설정을 저장하는 구성 RAM(59)을 구비한다. 구성 RAM(59)의 데이터는 프로세서(11)로부터 공급되는 데이터에 의해 재기록되도록 되어 있으며, 행 배선 그룹(51)과 열 배선그룹(52)의 접속은 프로세서(11)의 제어 하에서 임의로 동적으로 제어될 수 있다.

도 5에 도시된 다른 타입의 스위칭 유닛(56)은 행 배선그룹(51)의 임의의 채널을 구성하는 배선과, 열 배선그룹(52)의 임의의 채널을 구성하는 배선을 크로스 바 스위치(cross-bar switch ; 57)에 의해 전환하여 접속한다. 이러한 타입의 스위칭 유닛(56)도 프로세서(11)에 의해 데이터가 셋팅되는 구성 RAM 혹은 레지스터(59)를 구비하고 있으며, 행 배선그룹(51)과 열 배선그룹(52)간의 접속을 자유롭게 전환할 수 있다.

도 2에 나타낸 바와 같이, 매트릭스부(20)에 배열된 각 연산 유닛(30)은 1세트의 열 배선그룹(52x 및 52y)의 각각으로부터 입력 데이터를 선택하기 위한 한 쌍의 셀렉터(31x 및 31y)와, 이들 셀렉터(31x 및 31y)에 의해 선택된 입력 데이터(dix 및 diy)에 특정한 연산처리를 실시하고, 출력 데이터(do)로서 행 배선그룹(51)으로 출력하는 데이터 패스부(32)를 구비한다. 본 예의 매트릭스부(20)에 배치된 복수의 연산 유닛(30)은 다른 특정한 처리에 적합한 데이터 패스를 구비한 복수 종류의 연산 유닛을 포함한다. 그리고, 각 행을 구성하는 연산 유닛(30)은, 동일한 종류의 처리를 제공하는 동일한 데이터 패스(32)를 구비한다. 즉, 각 행마다 다른 처리를 수행하기 위한 데이터 패스(32)를 구비한 연산 유닛(30)이 나란히 배치되어 있다.

우선, 제 1 행째에 배열된 엘리먼트 또는 연산 유닛(30)은 로드 버스(22)에 접속되어 있고, 데이터를 로드하는 처리에 적합한 데이터 패스부(32f)를 구비한다. 로드용 데이터 패스부(LD; 32f)의 구성의 일례를 도 6에 도시한다. LD(32f)는 입력 데이터 및 출력 데이터를 래치하는 플립플롭(41)과, 출력 데이터의 채널을 전환해야 할 경우에는 그것을 선택하는 정보를 기록하는 구성 RAM(39)을 구비한다. 상기 LD(32f)는 「input」 혹은 「load」와 같은 입력명령을 실행하는 유닛이다. LD(32f)는 로드 버스(22)로부터 데이터를 수신하여 행 배선그룹(51)으로 출력한다. 또한, 도 2에 도시된 LD, 이후에서 설명할 BLA, LDA, SMA 및 DEL 등의 약어는 본 명세서에서는 데이터 패스부(32)나, 상기 데이터 패스부를 구비한 연산 유닛(30)을 나타내기 위해 사용된다.

이하에서 설명하는 각 연산 유닛(30)은 각각 구성 RAM(39)을 구비하며, 상기 내용을 RISC(11)에 의해 설정함으로써 연산 유닛(30)과 행 배선그룹(51)과 열 배선그룹(52)간의 접속을 동적으로 전환할 수 있다. 또한, 연산 유닛(30)이 셀렉터에 의해 전환하거나 변경하거나 선택할 수 있는 데이터 패스나, 초기값을 포함한 조건이나 파라미터를 설정할 수 있는 기능을 구비하는 경우에는, 구성 RAM(39)의 데이터를 설정함으로써 이들을 제어할 수 있다.

제 2 행째 및 제 3 행째에 배열된 연산 유닛(30)은 데이터를 로드하기 위한 어드레스를 출력하는 처리에 적합한 데이터 패스부(32a)를 구비한다. 상기 데이터 패스부(BLA 및 LDA ; 32a)의 구성의 일례를 도 7에 도시한다. 상기 BLA 및 LDA(32a)는 「input.address_external」 및 「input.address_internal」 등의 명령에 의해 입력 데이터의 어드레스를 지정하는 명령(함수)을 실행하는 유닛이다. BLA 및 LDA(32a)는 카운터 등으로 구성된 어드레스 발생회로(38)를 구비한다. 상기 어드레스 발생회로(38)로부터 어드레스가 출력 데이터(do)로서 출력되고, 행 배선그룹(51) 및 열 배선그룹(52)을 통해 입력 데이터(dix 혹은 diy)로서 공급된다. 더욱이, 입력 데이터로서 공급된 어드레스 중 어느 하나를 선택하는 셀렉터(42)와, 입력 데이터 및 출력 데이터를 래치하는 플립플롭(41)을 구비한다. 이로써, 로드하는 어드레스 데이터(da)가 매트릭스부(20)로부터 버스 제어 유닛(15)으로 출력된다. 상기 연산 유닛(30)도 어드레스 발생회로(38)나 셀렉터(42)의 상태를 설정하는 구성 RAM(39)을 구비한다. 상기 구성 메모리(39)의 내용(데이터)은 프로세서(11)에 의해 세팅되어, 행 배선그룹(51)과 열 배선그룹(52)간의 접속을 동적으로 전환하거나 어드레스 발생회로(38)의 설정을 자유롭게 변경할 수 있다.

매트릭스부(20)의 제 2 행째를 구성하는 연산 유닛(30)의 BLA(32a)는 블록 로드를 위한 어드레스를 발생한다. 한편, 제 3 행째를 구성하는 연산 유닛(30)의 LDA(32a)는 블록 로드된 중에서 원하는 데이터를 로드할 어드레스를 발생한다. 이러한 데이터 패스부(BLA 및 LDA)는 모두 상세한 구성은 달라도, 상기 개략은 도 7에 도시된 것과 동일한 구성으로 되어 있다.

제 4행째 및 제 5행째에 배열된 연산 유닛(30)은 산술연산 및 논리연산에 적합한 데이터 패스부(32b)를 구비한다. 상기 데이터 패스부(SMA ; 32b)의 구성의 일례를 도 8에 나타낸다. SMA(32b)는 연산용의 기본 엘리먼트로서, 바이트 또는 워드 단위로 공급되는 입력 데이터(dix 및 diy)를 비트단위로 잘라내기 위한 비트 시프트 회로(43)와 마스크 회로(44)를 구비한다. 더욱이, 입력 데이터(dix 및 diy)를 가산 혹은 감산하거나 비교하거나 논리합 혹은 논리곱을 연산할 수 있는 논리 연산 유닛(ALU ; 45)을 구비한다. 또한, 인접하는 SMA(32b)의 연산결과를 결합하거나 선택하기 위한 논리유닛(LU ; 46)을 구비한다.

또, 비트 시프트 회로(43), 마스크 회로(44), ALU(45) 및 LU(46)의 처리를 선택 또는 변경하는 데이터를 저장하는 구성 RAM(39)을 구비한다. 더욱이, 입력 데이터를 래치하는 플립플롭(48)과 출력 데이터를 래치하는 플립플롭(49)과, 타이밍 조정용의 기타 플립플롭(FF) 등을 구비한다.

상기 SMA(32b)은 「add」,「sub」,「compare」,「shift」,「and」,「select」 등의 가감산, 비교, 선택, 기타 논리연산과 같은 프로그램을 기술할 때 많이 사용되는 산술연산 명령 및 논리연산 명령을 지원한다. 어떤 연산처리를 할 것인지, 어떠한 연산처리를 복합적으로 수행할 것인지는 RISC(11)에 의해 설정되는 구성 RAM(39)의 내용에 따라 자유롭게 제어할 수 있으며 언제라도 변경이 가능하다. 또한, 구성 RAM(39)에 의해 입력 데이터(dix 및 diy)로서 고정값을 설정할 수 있다. 캐리 신호(Cix 및 Ciy)에 대해서도 마찬가지이다. 더불어, 출력 데이터(do)로부터 ALU(45)로 피드백하는 경로를 마련함으로써 스테이트 머신(state machine)이나 카운터를 구성할 수 있다. 또한, 입력 데이터(dix 및 diy)를 교환하는 기능도 지원하며 세로 배선그룹(52)의 선택 자유도 및 사용효율을 높이기 위해서도 이용할 수 있다.

또한, 데이터 패스부(32b)에는 캐리 신호(Cix 및 Ciy)를 입력하고 선택할 수 있는 패스가 마련되어 있으며, 캐리 신호에 의해 ALU(45) 및 LU(46)를 제어할 수 있다. 또한, ALU(45)의 연산결과에 관여하는 캐리 신호(Co)를 출력하는 패스도 마련되어 있다. 인접하는 SMA(32b)의 캐리 신호를 임의로 연산한 결과를 ALU(45) 및 LU(46)에 입력할 수 있으며, 캐리 신호를 선택할 뿐만 아니라 캐리 신호들을 연산할 수도 있어 캐리 신호의 자유도가 높다.

좌우에 배치된 SMA(32b)의 한 쪽에 설치된 논리 유닛(LU ; 46)에 의해 좌측의 ALU(45)의 출력과, 우측의 ALU(45)의 출력을 논리 연산할 수 있다. 이로 인해, 구성 RAM(39)으로 LU(46)를 제어하여 행방향으로 좌우로 배열된 2개의 SMA(32b)로 1개의 확장된 기능을 수행하도록 할 수가 있다. 예컨대, 1개의 입력 데이터(dix)가 32비트일 때, 배 정밀도(double precision)의 64비트의 데이터를 처리하기 위하여 2개의 입력 데이터(dix 및 diy)로 1개의 입력 데이터를 나타낼 수 있다.

본 예의 매트릭스부(20)에서는 SMA(32b)를 구비한 연산 유닛(30)에 의해 7, 8, 11 및 13행째의 배열도 형성되어 있다.

제 6행째에 배열된 연산 유닛(30)은 데이터가 전송되는 타이밍을 지연시키는 처리에 적합한 데이터 패스부(32c)를 구비한다. 상기 데이터 패스부(DEL ; 32c)의 구성의 일례를 도 9에 나타낸다. DEL(32c)은 복수의 셀렉터와 플립플롭의 조합으로 구성된 지연회로(47)와, 입력측 플립플롭(48)과, 출력측 플립플롭(49)과, 회로를 선택하는 셀렉터(42)를 구비한다. 지연회로(47)는 구성 RAM(39)의 데이터에 의해 0∼5클럭의 지연을 세팅할 수 있으며, X 또는 Y계통으로 1∼7클럭의 지연을 제어할 수 있다. 더욱이, 구성 RAM(39)의 설정에 의해 X계통과 Y계통을 직렬로 접속할 수 있어 2배의 지연시간을 제어할 수 있다. 또한, 이들 데이터와 함께 행 배선그룹(51) 및 열 배선그룹(52)으로 인도되는 캐리 신호(cix 및 ciy)도 동일한 데이터 패스에 의해 지연 출력된다.

지연용 데이터 패스(DEL ; 32c)를 구비한 연산 유닛(30)을 준비함으로써 각종 데이터 패스부(32)에서의 신호 지연을 임의로 조정할 수 있다. 따라서, 산술연산이나 논리연산용 SMA(32b), 그리고 이하에서 설명할 승산처리용 MUL(32d) 등을 조합하여 데이터 플로우를 형성했을 때의 지연시간의 차를 조정하기 위해 각 데이터 패스부(32)에 지연 조정용 플립플롭 및 셀렉터를 설치할 필요가 없다. 이로 인해, 각각의 데이터 패스부(32)의 구성이 간이해져 데이터 패스부(32)의 범용성을 향상시킬 수 있는 동시에, 데이터 패스부(32)가 점유하는 면적을 최소한으로 억제할 수 있다. 또한, 각 데이터 패스부(32)에서는 입력 데이터를 래치하는 입력측 플립플롭(48) 및 출력 데이터를 래치하는 출력측 플립플롭(49)을 설치하거나, 입력 데이터 및 출력 데이터를 함께 래치하는 플립플롭(41)을 설치함으로써, 입력 데이터가 그대로 혹은 가공되어 출력되는 대기시간(지연시간[latency])은 클럭단위로 제어된다. 따라서, 지연시간의 차는 DEL(32c)의 기능에 의해 보충하기가 용이하며, 연산 유닛(30)을 조합하여 수행하는 연산의 파이프라인 타이밍을 보장할 수 있다.

상기 DEL(32c)은 세로배선그룹(52)에서 공급되는 데이터를 가로배선그룹(51)으로 일단 이행(移行)하는 기능도 수행한다. 이로 인해, 제 9행째에 배열된 연산 유닛(30)은 제 1 매트릭스(28)의 세로배선그룹(52)에서 공급된 데이터를 선택하여 제 2 매트릭스(29)의 가로배선그룹(51)으로 출력한다. 이와 같이, 지연용 DEL(32c)의 기능을 이용하여 제 1 매트릭스(28)의 데이터를 선택해 제 2 매트릭스(29)로 공급할 수 있으며, 세그먼트화된 제 1 매트릭스(28)의 세로배선그룹(52)과 제 2 매트릭스(29)의 세로배선그룹(52)을 분리할 수 있다. 따라서, 세로배선그룹(52)의 배선량을 각각의 매트릭스(28 또는 29)를 구성하는 연산 유닛의 수를 커버하는 만큼 한정할 수가 있게 되어 배선의 점유면적을 삭감할 수 있으므로, 배선그룹에서 데이터를 선택하는 스위칭 유닛(55 혹은 56) 등의 구성을 간이화할 수 있다.

상기 DEL(32c)은 매트릭스부(20)로 데이터 플로우를 구성할 때, 타이밍 조정 등을 위해 자동적으로 삽입된다. 프로그램중에 「delay」명령을 기술하여 데이터 플로우 사이 혹은 RISC 프로세서와의 타이밍을 조정할 수도 있고, 그러한 경우에는 지연명령을 실행하기 위한 연산 유닛으로서 사용된다.

제 10행째에 배열된 연산 유닛(30)은 「multiply」명령으로 지시되는 승산처리의 실행에 적합한 데이터 패스부(32d)를 구비한다. 상기 데이터 패스부(MUL ; 32d)의 구성의 일례를 도 10에 도시한다. 상기 MUL(32d)는 행방향으로 배치된 4개의 16비트×16비트(결과 32비트)의 승산기 MUL(61)가 개개의 MUL(32d)을 구성한다. 이와 함께 이들 4개의 MUL(61)로부터의 출력을 또 연산 처리하는 데이터 패스 CSA(62) 및 CPA(63)가 배치되어 있다. 따라서, 본 예의 승산처리용 MUL(32d)은 행방향으로 배열된 4개의 MUL(32d)을 결합함으로써 기능을 확장시킬 수가 있다. 예컨대, 배 정밀도(double precision)의 승산을 실행할 수 있다. 그리고 MUL(61), CSA(62) 및 CPA(63), 나아가 셀렉터(64)의 기능은 데이터 패스부(32d)의 구성 RAM(39)에 세팅된 데이터로 제어된다.

구체적으로는 좌단의 MUL(61, AH×BH)에서 입력 데이터(dix)의 상위 16비트와 입력 데이터(diy)의 상위 16비트를 승산하고, 다음 MUL(61, AH×BL)에서 입력 데이터(dix)의 상위 16비트와 입력 데이터(diy)의 하위 16비트를 승산하며, MUL(61, AL×BH)에서 입력 데이터(dix)의 하위 16비트와 입력 데이터(diy)의 상위 16비트를 승산하고, MUL(61, AL×BL)에서 입력 데이터(dix)의 하위 16비트와 입력 데이터(diy)의 하위 16비트를 승산한다. 그리고 이들 승산기의 결과를 CSA(62) 및 CPA(63)에 의해 가산함으로써 행방향으로 배치된 4개의 MUL(32d)은 32비트×32비트(결과 64비트)의 승산기로서도 동작한다. 각각의 MUL(32d)의 연산결과를 SMA(32b)에서 가산하여도 동일한 결과를 얻을 수 있는데, MUL(32d)을 행방향으로 나란히 배치하고 가산용 연산기가 되는 소량의 전용회로를 조립함으로써, 짧은 지연시간과 적은 수의 게이트로 동등한 결과를 얻을 수 있다.

MUL(32d)을 대신하여, SMA(32b)에 곱셈기능이 부가된 데이터 패스부(SMAM)를 SMA(32b) 대신에 배치하거나 혹은 SMA(32b)와 함께 배치할 수도 있다. 단일 연산 유닛(30)에 얼마만큼 많은 연산 기능을 탑재하고 그것을 구성 RAM(39)에 의해 선택하여 사용하는가는 매트릭스부(20)의 설계사상의 차이이다. 본 발명에서는 1개의 연산 유닛(30)으로 처리할 수 있는 내용의 크기에 차이는 있다 하더라도 다른 데이터 패스를 구비한 복수 종류의 연산 유닛(30)으로 매트릭스부(20)를 구성한다. 따라서, 모든 처리를 지원하는 단일 구성의 처리유닛을 배치하는 매트릭스와 비교할 때, 불필요한 공간은 훨씬 적어지고 불필요한 처리시간도 줄며 AC특성도 향상된다.

제 14행째에 배열된 연산 유닛(30)은 매트릭스부(20) 외부에 준비된 FPGA(14)와의 인터페이스용 데이터 패스부(32e)를 구비한다. 상기 인터페이스용 데이터 패스부(FPG ; 32e)의 개략적인 구성을 도 11(a)에 나타낸다. FPG(32e)는 입력 데이터를 선택하는 셀렉터(42)와, 입력 데이터를 래치하여 오프 칩(offchip) FPGA(14)에 공급하는 플립플롭(48)과, 오프칩 FPGA(14)의 출력을 래치하여 출력 데이터화하는 플립플롭(49)을 구비한다. 상기 FPG(32e)를 이용함으로써 입력 데이터를 일단 오프 칩 FPGA(14)에 공급하여 처리한 후, 다시 매트릭스부(20)로 복귀하여 처리를 계속할 수가 있다. 매트릭스부(20)에 배열되는 연산 유닛(30)은 LSI(10)에서 실행하는 어플리케이션 프로그램 중에 출현 빈도가 높은 명령을 지원하는 것이 선택되어 설계 및 배치된다. 범용성이 적은 기능을 포함한 연산 유닛(30)은 면적 효율을 악화시키게 되므로 배치되지 않는다. FPG(32e)를 배치함으로써 그러한 처리 혹은 기능도 하드웨어로 고속으로 처리할 수가 있다.

상기 FPG(32e)는 매트릭스내에 외부 인터페이스를 도입하는 범용성이 높은 데이터 패스부로서, 접속가능한 외부 처리 회로가 FPGA로 국한되는 것은 아니다. ASIC나 본 예의 매트릭스부(20)를 구비한 다른 LSI 등을 접속할 수도 있다.

제 15행째 및 제 16행째에 배열된 연산 유닛(30)은 스토어용 어드레스를 발생하는데 적합한 데이터 패스부(STA 및 BSA)를 구비한다. 데이터 패스부(STA 및 BSA)는, 상술한 입력 어드레스를 지시하는 명령과 동일한 형식의 출력 어드레스를 지시하는 명령을 실행한다. 어드레스를 발생시키는 기능으로는, 도 7에 도시된 데이터 패스부(32a)와 동일한 회로를 사용할 수 있다. 스토어용으로도 2종류의 어드레스가 발생되도록 이루어져 있으며, 데이터 패스부(BSA)는 블록화된 데이터를 스토어하기 위한 어드레스를 발생시키고 데이터 패스부(STA)는 블록화하기 위한 어드레스를 발생시킨다.

최하단의 17행째에는 「output」,「store」 등의 명령으로 데이터를 출력하기에 적합한 데이터 패스부(ST)를 구비한 연산 유닛(30)이 배열되어 있다. 상기 데이터 패스부(ST)라 호칭하였으나, 산술연산용의 데이터 패스부(32b)와 대략 동일한 구성의 데이터 패스부를 채용할 수 있다. 매트릭스부(20)에서 산술연산된 결과의 외부 저장처가 지정되어 있을 경우에는, 상기 연산 유닛(ST)을 통해 데이터가 출력된다.

본 발명의 연산 유닛(30)의 종류는 이들에 한정되는 것은 아니다. 도 11(b)은 룩업 테이블용 SRAM(65)을 구비한 데이터 패스부(RAM ; 32g)의 개략적인 구성을 도시한다. 입력 데이터(dix)를 어드레스, 입력 데이터(diy)를 데이터로서 사용할 수 있으며, 데이터와 어드레스가 동시에 제공되었을 경우에는 기입하고, 어드레스만 제공되었을 경우에는 판독한다. SRAM(65)은 복수의 뱅크를 구비하며, 구성 RAM(39)의 설정에 따라 전환하여 사용할 수가 있다. 또한, 4개의 RAM(32g)을 행방향으로 나란히 배치하였을 때, 8비트의 4개의 RAM이든, 16비트의 2개의 RAM이든, 나아가 32비트의 1개의 RAM이든 모두 이용할 수가 있다. 상기 데이터 패스부(32g)는 바이트 혹은 워드 단위의 입력 데이터에 대하여 임의의 함수에 따른 출력 데이터를 얻기 위한 룩업 테이블로서 사용할 수 있다. 코사인 변환처리나 CRC 계산을 매트릭스부(20)로 실현하는 경우에 유용하다.

본 예의 시스템 LSI(10)은 집적 회로 장치의 일례로서, 상기 제 1 방향(본 예에서는 행 또는 가로방향) 및 제 2 방향(본 예에서는 열 또는 세로방향)으로 매트릭스형상으로 배치된 복수의 연산 유닛(30)을 구비한다. 복수의 연산 유닛(30)은 특정한 처리에 적합한 다른 데이터 패스부(32)를 구비한 복수 종류의 연산 유닛을 포함하고 있으며, 상술한 내용에서는 데이터의 입력에 적합한 데이터 패스부(32f), 데이터의 어드레스를 발생시키는 처리에 적합한 데이터 패스부(32a), 산술 또는 논리연산 처리에 적합한 데이터 패스부(32b), 승산처리에 적합한 데이터 패스부(32d), 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스부(32c)를 예시한다. 이들 복수 종류의 연산 유닛(30) 사이에서 데이터를 전송하는 가로배선그룹(51) 및 세로배선그룹(52)의 접속을 스위칭 유닛(55)으로 제어하고, 이들 연산 유닛(30)간의 접속을 바꿈으로써 매트릭스부(20)에 원하는 데이터처리를 수행하는 데이터 플로우형의 전용연산회로를 정의할 수가 있다. 이로 인해, 본 예의 매트릭스부(20)에서는 FPGA와 같이 각 트랜지스터간의 접속을 모두 변경하지 않아도 연산 유닛(30)간의 접속을 변경함으로써 단시간에 처리내용이 다른 전용 연산 회로를 재구성할 수 있다. 더욱이, 각 연산 유닛(30)은 FPGA의 논리블록과 같이 트랜지스터 레벨에서의 범용성이 요구되는 아키텍쳐가 아닌, 각각의 연산 유닛(30)이 특정 데이터 처리로 특화된 데이터 패스부(32)를 구비하고 있기 때문에, 불필요한 회로를 생략하여 장착 밀도를 향상시킬 수 있다. 따라서, 하드웨어의 처리내용을 변경할 수 있는 컴팩트하고 경제적인 시스템을 제공할 수 있다. 또한, 불필요한 구성을 적극 삭감할 수 있으므로 FPGA에 비해 처리속도를 대폭 고속화할 수 있고 AC특성도 향상시킬 수 있다.

도 6 내지 도 11에 나타낸 바와 같이, 각각의 처리에 적합한 데이터 패스부(32a∼32g)는 각각 다르게 구성되어 있으므로, 각각의 데이터 패스부가 목적하는 처리를 고속으로 실행할 수 있는 반면, 각각의 데이터 패스부가 점유하는 면적이 다르다. 따라서 본 예의 매트릭스부(20)에서는 동일한 기능의 데이터 패스부(32)를 구비한 연산 유닛(30)을 행방향으로 나란히 배치함으로써 연산 유닛(30)이 점유하는 면적이 데이터 패스부(32)의 종류에 따라 달라도 행방향의 직선성을 확보하고 있다. 더욱이, 종류가 다른 데이터 패스부(32)라 하더라도 행방향의 피치가 동일해지도록 등간격으로 배치함으로써, 열방향의 직선성도 확보한다. 이로써, 행 배선그룹(51) 및 열 배선그룹(52)을 각각 직선적으로 레이아웃할 수 있다.

즉, 동일한 종류의 데이터 패스부(32)를 구비한 연산 유닛(30)을 행방향으로 등간격으로 배치함으로써, 이들의 크기의 차는 열방향의 간격으로 흡수할 수 있으며, 열방향의 간격이 행단위로 바뀌어도 직선성은 보장할 수 있으므로, 행 배선그룹(51)은 직선적으로 배선할 수가 있다. 물론, 행방향과 열방향을 바꾸어 디자인할 수 있으며 본원의 발명의 범위에 포함되는 것이다.

따라서, 다른 구성의 데이터 패스부(32)를 구비한 크기가 다른 연산 유닛(30)을 매우 효율적으로 매트릭스형상으로 배치할 수 있다. 더욱이, 이들을 접속하는 행 및 열 배선그룹(버스)을 직선적으로 배치할 수 있다. 따라서, 제조 후에 기능을 세팅할 수 있는 재구성 가능한 집적 회로 장치를 보다 컴팩트하고 저비용으로 공급할 수가 있다. 그리고, FPGA에 비해 고속처리가 가능하며 AC특성도 양호한 연산 유닛(30)을 보다 컴팩트한 레이아웃으로 배치하여 최단 길이의 배선으로 접속할 수 있으므로, 상기 고속성을 확실히 발휘하는 집적 회로 장치를 제공할 수 있다.

이와 같이 동일한 기능의 데이터 패스부(32)를 구비한 연산 유닛(30)을 행방향으로 배열하는 것은 매트릭스부(20)를 데이터 플로우 타입의 처리장치로서 기능시키는 데도 유효하다. 예컨대, 상기한 예에서는 열방향의 한 쪽 단부가 되는 제 1 행째에 데이터 입력용 연산 유닛(30)을 배열하고, 열방향의 다른 쪽 단부가 되는 제 17행째에 데이터 출력용 연산 유닛(30)을 배열한다. 그리고 매트릭스부(20)에서는 거시적으로는 위에서 밑으로 향하는 데이터 플로우가 형성되어 있으며, 이에 대응하여 다른 처리에 적합한 데이터 패스부를 구비한 연산 유닛(30)이 배열되어 있다. 물론, 행 배선그룹(51) 및 열 배선그룹(52)을 이용하여 밑에서 위를 향하는 데이터 플로우를 형성할 수도 있으며, 매트릭스부(20)에 배치된 각 연산 유닛(30)을 최대한 활용하여 데이터 처리를 실시할 수가 있다.

더욱이, 산술연산 등에 적합한 데이터 패스부(32b) 및 승산에 적합한 데이터 패스부(32d)와 같이 동일한 종류의 연산 유닛(30)을 동일한 방향으로 배열함으로써 복수의 연산 유닛(30)을 연계시킬 수 있게 된다. 따라서, 본 예의 매트릭스부(20)에서는 연산 유닛(30)을 개개로 이용하는 동시에, 행방향으로 배열된 연산 유닛을 묶거나 혹은 연계하여 배 정밀도(double precision)의 연산 등 확장된 연산 기능을 제공할 수 있게 되어 있다.

그리고, 각각의 연산 유닛(30) 및 스위칭 유닛(55 혹은 56)은 프로세서(11)로부터 데이터를 설정하고 개별적으로 제어할 수 있는 구성 메모리를 구비한다. 따라서, 연산 유닛(30)의 조합은 프로세서(11)로부터 자유롭게 변경할 수 있으며, 더욱이 트랜지스터 레벨에서 회로를 맵핑하는 FPGA와 달리, 미리 특정한 처리에 적합한 데이터 패스부(32)를 구비한 연산 유닛(30)의 조합을 바꾸기 때문에, 단시간에 거의 1클럭으로 기능을 변경할 수가 있다.

더욱이, 각각의 연산 유닛(30)에서는 데이터 패스부(32)를 구성하는 셀렉터나 ALU와 같은 논리 게이트의 기능도 구성 메모리(39)를 통해 프로세서(11)에 의해 독립적으로 셋팅할 수 있다. 이로 인해, 연산 유닛(30)의 기능 자체도 데이터 패스부(32)가 서비스하는 기능의 범위 내에서 플랙시블하게 변경할 수 있다. 본 예의 매트릭스부(20)에서, 데이터 플로우형 또는 의사 데이터 플로우형으로 처리할 수 있는 기능의 범위는 매우 넓어진다. 또, 네트워크 처리나 화상처리 등 LSI(10)가 이용되는 어플리케이션에 적합한 종류의 연산 유닛(30)을 선택하여 배열할 수 있어 장착효율이 더욱 양호한 집적 회로 장치를 제공할 수 있다.

한편, 상기한 실시형태에서 설명한 행 배선그룹(51) 및 열 배선그룹(52)을 바꿀 수 있으며, 연산 유닛(30)의 배열방향도 행과 열을 바꿀 수 있다. 또한, 연산 유닛(30)은 행 또는 열 배선그룹 모두에 대하여 데이터를 입출력할 수도 있다. 그러나, 상기한 매트릭스부(20)에서 나타낸 바와 같이, 한 쪽 배선그룹, 본 예에서 는 열 배선그룹(52)으로부터 데이터를 입력하고, 다른 쪽 배선그룹, 본 예에서는 행 배선그룹(51)으로 데이터를 출력하도록 규칙을 정함으로써 항상 1개의 스위칭 유닛(55)을 경유하기만 해도 연산 유닛(30)으로부터 연산 유닛(30)으로 데이터를 전송할 수 있다.

도 12는 본 발명에 관계된 다른 LSI의 예를 나타낸다. 본 도면에서는 인터럽트 제어 유닛(12), 클럭 발생부(13) 등이 생략되어 있지만, 도 1에 도시된 LSI와 마찬가지로 각종 유닛이 탑재되어 있다. 본 예의 LSI(10)의 매트릭스부(20)에서 2행째 이후는 행방향으로 6개의 연산 유닛(30)이 배열되어 있다. 이들 중 좌측의 4개의 연산 유닛(30)은 각 행마다, 상술한 RAM으로서 기능하는 데이터 패스부(32g)를 구비한 연산 유닛(30), 로드하는 데이터의 어드레스를 발생하는 BLA로서 기능하는 데이터 패스부(32a)를 구비한 연산 유닛(30), 마찬가지로 어드레스를 발생하는 LDA로서 기능하는 데이터 패스부(32a)를 구비한 연산 유닛(30)이다. 그러나, 각 행 우측의 2개의 연산 유닛(30)은 산술 및 논리연산 기능을 지원하는 SMA로서 기능하는 데이터 패스부(32b)를 구비한 연산 유닛이다. 이는 본 예의 LSI(10)로서 요구되는 사양을 만족하도록 연산 유닛(30)을 선택하면, SMA(32b)로서 기능하는 연산 유닛이 다른 타입의 연산 유닛에 대해 대량으로 필요해지기 때문이다. SMA(32b)의 논리유닛을 다른 타입의 연산 유닛의 수에 맞추어 배치하고, 행방향으로 4개의 연산 유닛(30)을 배열한 매트릭스부(20)를 설계할 수도 있다. 그러나, LSI(10)를 구성하는 다른 유닛의 배치에도 의존하지만, 매트릭스부(20)만을 생각하면 세로로 길게 배치하게 되기 때문에 면적효율이 악화된다. 또한, 세로방향의 수가 증가하므로, 세로배선그룹(52)의 부하가 늘고 세그먼트 수가 증가되어, 그 결과, DEL(32c)의 논리유닛이 필요해져 처리속도가 저하된다.

따라서, 본 예의 매트릭스부(20)에서는 다수의 SMA(32b)의 연산 유닛(30)을 행방향으로 추가 배치하여 전체가 정방형에 가깝도록 한다. 상기 매트릭스부(20)는 행방향의 배열이 모두 동일한 종류의 연산 유닛(30)으로 구성되어 있다고는 할 수 없다. 그러나, 상기 수가 적은 RAM(32g)이나 BLA 및 LDA 등의 연산 유닛(30)이 배열된 범위에서는, 행방향의 배열은 모두 동일한 종류의 연산 유닛(30)으로 구성되어 행방향의 직선성이 확보되어 있다. 열방향의 직선성은 각종 연산 유닛(30)을 행방향의 동일한 피치로 배치함으로써 확보할 수 있음은 상술한 바와 같다.

또한, 본 예의 매트릭스부(20)에서는 로드 버스(22) 및 스토어 버스(23)에 각각 6개의 입력버퍼(24) 및 출력버퍼(25)가 배치되고, 이들 중 2개의 버퍼(24) 및 (25)가 버스 제어 유닛(15) 대신에 확장 입출력용 인터페이스(26 및 27)에 접속되어 있다. 상기 확장 인터페이스(26 및 27)는 매트릭스부(20)간의 인터페이스로서 이용할 수 있다. 따라서, 동일 칩 내에 복수의 매트릭스부(20)를 배치하여 확장 인터페이스(26 및 27)로 접속하거나, 매트릭스부(20)를 구비한 복수의 칩(10)을 확장 인터페이스(26 및 27)를 사용하여 접속할 수 있다.

이로 인해, 이들 확장 인터페이스(26 및 27)에 의해, 매트릭스부(20)가 구비된 복수의 LSI(10)를 사용하여 데이터 플로우형 연산기를 자유롭게 확장할 수 있다. 접속가능한 매트릭스부(20)가 늘고 접속가능한 연산 유닛(30)이 증가함에 따 라 복잡한 처리를 실행할 수 있게 된다. 또한, 연산 유닛(30)의 조합을 바꾸어 재구성할 수 있는 범위가 확대되므로 유연성이 더욱 높은 연산 처리 장치를 제공할 수 있다. 병렬도를 높이는 등의 성능을 향상시키는 연산 유닛(30)의 조합도 플랙시블하게 선택할 수 있게 된다. 더욱이, 복수의 매트릭스부(20)를 3차원 방향으로 배열하여 3차원 매트릭스를 구성할 수도 있다.

도 13(a)은 확장 인터페이스(26 및 27)에 의해 n개의 LSI(10)를 접속함으로써 매트릭스부(20)를 실질적으로 n배 넓힌 연산 처리 장치, 혹은 집적 회로 장치(9)를 나타낸다. 이들 LSI는 2차원 방향으로도 3차원 방향으로도 조합할 수 있다.

또한, 복수의 LSI(10)가 접속된 시스템(9)에 있어서, 복수의 매트릭스부(20) 및 이것을 구비한 LSI(10)에 필요한 정보를 전달하기 위한 버스로서 확장 인터페이스(26 및 27)를 사용할 수도 있다. 도 13(b)∼(d)는 상기 몇가지 예이다. 도 13(b)에서는 확장 인터페이스에 의해 LSI(10)를 체인형상으로 접속하고, 도 13(c)에서는 트리형상으로 접속한다. 또한, 도 13(d)에서는 복수의 LSI(10)를 링형상으로 접속한다.

정보를 전달하는 알고리즘은 간단할 수 있는데, 예컨대 전체 LSI(10)에 초기설정을 전파하기 위한 단순한 프로그램을 준비해둔다. 시스템(9)을 컨트롤하는 LSI(체인접속에서는 체인의 선두, 트리접속에서는 트리의 최상부, 링접속에서는 어느 하나의 LSI)가 정보를 데이터와 토큰(token)의 형태로 다음 LSI(10)에 전달하고, 정보를 받은 LSI(10)는 자신의 정보로서 받아들이는 동시에 다음 LSI(10)에 정 보를 전달한다. 정보의 내용과 그것이 자신의 정보인지의 여부는 매트릭스(20)의 임의의 연산 유닛(30)을 이용하여 판단할 수 있도록 정의할 수 있다. 정보의 전송장소는 RAM으로서의 기능을 구비한 연산 유닛(30)일 수도 있고, 프로세서(11)의 RAM일 수도 있으며 각 연산 유닛(30)의 구성 RAM(39)일 수도 있다.

전달하는 정보로서는 RISC 프로세서(11)의 프로그램(3), 매트릭스(20)의 구성 RAM(39)에 설정하는 정보 등이 있다. 구성 RAM(39)에 설정하려면 확장 입력 인터페이스(26)로부터 수신한 설정정보를 매트릭스부(20)의 스토어 기능을 이용하여 출력 버스(23)와 버스 제어 유닛(15)을 통해 연산 유닛(30)의 구성 RAM(39)에 어드레스 지정하여 기입할 수 있다. 일단, 외부의 DRAM(2)에 저장하고 프로세서(11)의 기능을 이용하여 구성 RAM(39)에 전송할 수도 있다.

전달되는 정보로서는 또한 시간 제어용 정보가 있다. 일정 주기(예컨대 1초간격)로 데이터를 흘림으로써 시스템(9)의 기준 시계로서 사용하여, 시스템(9)을 구성하는 복수의 LSI(10)의 처리를 동기화할 수 있다.

도 14는 본 예에 따른 LSI(10)의 설계 및 제조방법의 개요를 나타낸다. LSI(10)에서 실행하려는 처리가 사양(71)으로서 제공되면, 그것을 LSI(10)에서 실행하기 위한 프로그램언어로 기술된 소스파일(73)로 변환하는 처리(72)를 수행한다. 변환처리(72)에서는 ANSI-C 등의 일반적인 고급언어로 기술된 사양(71)을, 연산 유닛 라이브러리(79)를 참조하여 연산 유닛(30)이 지원하는 명령을 포함한 프로그램 언어(이후에서는 중간언어)로 기술된 중간기술(73)로 변환한다. 상기 변환처리(72)는 매뉴얼로 실행할 수도 있고, 컴파일러 등의 소프트웨어를 사용하여도 실행할 수 있다.

매트릭스(20)를 구성하는 연산 유닛(30) 중에서 연산 유닛 LD는 데이터 패스(32f)를 구비하며, 데이터의 입력명령을 처리하기에 적합한 연산 유닛이다. 연산 유닛 BLA 및 LDA는 데이터 패스(32a)를 구비하며 입력 데이터의 어드레스를 지정하는 명령의 처리에 적합한 연산 유닛이다. 연산 유닛 ST는 데이터의 출력명령의 처리에 적합한 연산 유닛이다. 또한, 연산 유닛 BSA 및 STA는 데이터 패스(32a)를 구비하며 출력되는 데이터의 어드레스를 지정하는 명령의 처리에 적합한 연산 유닛이다. 연산 유닛 SMA는 데이터 패스(32b)를 구비하며, 산술연산 명령 및/또는 논리연산 명령의 처리에 적합한 연산 유닛이며, 더욱이 연산 유닛 MUL은 데이터 패스(32d)를 구비하여 승산명령의 처리에 적합한 연산 유닛이다. 그리고, 이들 연산 유닛(30)은 바이트 혹은 워드 단위의 데이터를 처리하므로, 1개의 연산 유닛(30)으로 1개의 명령 혹은 복수의 명령의 처리를 실행할 수 있다.

따라서, 본 예의 매트릭스(20)를 구성하는 복수 종류의 연산 유닛(30)은 데이터의 입출력 명령, 산술연산 명령 및 논리연산 명령을 지원한다고 할 수 있으며, 데이터의 입출력 처리, 산술연산 처리, 논리연산 처리는 연산 유닛(30)이 지원하는 명령세트(중간언어)로 기술할 수 있다. 입출력 처리, 신호 처리, 산술연산 처리 및/또는 논리연산 처리를 반복하여 수행하는 프로세스(루프 처리)는 RISC 프로세서(11)를 이용하고, 한정된 하드웨어 리소스를 이용하여 소프트웨어로 반복 실행하여도 처리속도의 향상을 기대하기 어렵다. 이에 대하여, 본 예에 따른 매트릭스(20)는 연산 유닛이라는 다수의 하드웨어 리소스상에 전개하여 동시에 병렬로 실행함으로써 성능을 향상시킬 수 있다. 따라서, 이러한 프로세스를 성능 분석기(performance analyzer) 등으로 찾아내어 간단히 하드웨어화함으로써 처리속도를 향상시킬 수 있다.

주어진 사양(71)을 변환한 중간기술(73)은 C언어로 기술된 RISC 프로세서(11)로 실행하는 부분(73a)과, 매트릭스(20)로 실행하도록 중간언어로 기술된 부분(73b)으로 나뉜다. 중간기술의 중간언어 부분(73b)은 도 17에 나타낸 바와 같으며 연산 유닛(30)에서 지원되는 명령을 고려하여, 데이터 플로우그램(data flowgram) 혹은 여기에 제어정보가 추가된 컨트롤 데이터 플로우그램으로 변환할 수 있을 정도로 처리순서대로 나타내는 기술이다. 따라서, 하드웨어 기술언어인 HDL 등과 달리, 시스템의 사양을 설계자도 충분히 알 수 있어 시스템의 변경이나 수정이 있었을 때 중간기술(73b)에 상기 변경이나 수정을 용이하게 반영할 수 있다. 중간언어의 한 가지 형태는 어셈블러형(assembler-like), 예컨대 매크로 어셈블적인 것이다. C언어보다 난이도도 낮고 선형성도 확보하기 용이하므로 데이터 플로우그램을 작성하기 용이하며 매트릭스부(20)에 맵핑되었을 때 어떠한 조합으로 실현되었는지도 이해하기 쉽다. 따라서, 매트릭스부(20) 및 프로그램의 개발도 용이하고 디버그나 유지관리(maintenance)도 용이하다.

중간언어로 기술된 부분(73b)은 연산 유닛(30)이 지원하는 명령으로 기술되어 있으므로, 상기 부분(73b)의 처리는 매트릭스(20)에서의 연산 유닛(30)의 조합으로 나타낼 수 있게 된다. 따라서, 다음에 배치배선 처리(75)에 의해 중간언어로 기술된 처리(73b)를 실행할 수 있는 연산 유닛(30)의 조합(실행용 조합 ; 76)을 생성한다. 이 처리는 컴파일러(소프트웨어)에 의해 이루어진다. 실행용 조합(76)이 생성되면, 상기 실행용 조합(76)이 실현될 수 있도록 연산 유닛(30)이 배치된 매트릭스부(20)의 정보(78)가 출력된다. 상기 정보(78)에 기초하여 매트릭스부(20)를 생성하면, LSI(10)의 기본적인 설계는 종료되고 이에 근거하여 LSI(10)를 제조할 수 있다. 또한, 실행용 조합(76)을 지시하는 명령(80)을 생성하고, 중간언어의 기술(73b) 대신에 실행용 조합을 지시하는 명령(80)과, 상기 조합을 기동시키는 명령을 포함하는 C소스파일(74)을 C컴파일러(81)로 컴파일함으로써, LSI(10)의 실행용 프로그램(목적 프로그램 ; 3)을 생성할 수 있다.

주어진 사양(71)을 실행하기 위하여 매트릭스부(20)의 연산 유닛(30)의 조합을 변경할 필요가 없다면, 조합을 지시하는 명령을 생성할 필요는 없으며 중간언어로 기술된 부분(73b)의 처리를 실행할 수 있는 연산 유닛(30)을 구비한 매트릭스부(20)를 생성하는 것만으로 충분하다. 또, 기존의 매트릭스부(20)를 사용하여, 주어진 사양(71)을 실행할 경우에는 매트릭스부(20)를 생성하지 않는다. 기존의 매트릭스부(20)에 배치된 연산 유닛(30)의 조합을 실행용 조합(76)으로 하기 위한 명령(80)을 생성하고, 중간언어로 기술된 부분(73b)과 치환하여 컴파일함으로써 실행용 프로그램(3)을 생성할 수 있다.

실행용 조합(76)을 생성하는 배치배선 처리(75)에서는 연산 유닛(30)에서의 처리 타이밍을 조정하기 위하여, 데이터 패스(32c)를 구비한 지연용 연산 유닛(DEL)을 포함하는 조합을 생성할 필요가 있다. 따라서, 배치배선 처리(75)에서는 다른 레이아웃의 매트릭스부(20)를 설계하여 모든 실행용 조합이 생성될 수 있는지 여부를 확인하는 작업을, 적당한 알고리즘으로 반복 수행하여 적절한 조합을 찾을 필요가 있다.

또한, 각각의 연산 유닛(30)은, 구성 RAM(39)에 의해 내부 데이터 패스의 구성을 변경 또는 선택할 수 있다. 데이터 패스(32b)를 구비한 연산 유닛 SMA에서는 연산 처리의 내용을 구성 RAM(39)에 의해 설정할 필요가 있다. 따라서, 배치배선 처리(75)에서는, 조합되는 연산 유닛(30) 내부의 데이터 패스(32)의 구성도 포함한 실행용 조합을 생성시킬 필요가 있다. 그리고, 연산 유닛(30)의 설정은, 실행용 프로그램(3)에 포함된 조합을 지시하는 명령에 의해, 각각의 연산 유닛(30)의 구성 RAM(39)에서 활성화되도록 매트릭스부(20)에 공급된다.

도 15 내지 도 21을 참조하여, 연산 유닛(30)의 조합을 생성하는 과정에 대해 개략적으로 설명한다. 도 15는 배치배선을 행하는 컴파일러(75)에서의 처리를 플로우 챠트로 나타낸 것이다. 우선, 단계 91에서, 도 17에 나타낸 중간 언어의 기술(73b)로부터 도 18에 나타낸 데이터 플로우그램(DFG ; 101)을 생성한다. 복수의 데이터 플로우그램(101)이 필요한 경우에는 그들을 작성한다. 다음으로 단계 92에서, 이들 데이터 플로우그램(101)을 구성할 수 있는 연산 유닛(30)을 포함한 적당한 레이아웃의 매트릭스부(20)를 생성하고, 단계 93에서 하나하나의 데이터 플로우그램(101)에 대해 배치배선을 수행하여, 모든 데이터 플로우그램(101)이 할당가능한 매트릭스부(20)의 레이아웃과, 실행용 조합을 찾는다. 단계 94에서, 하나의 데이터 플로우그램(101)이라도 배치배선할 수 없을 경우에는, 배치배선이 불가능한 것으로 하고, 단계 92로 되돌아가 새로운 레이아웃의 매트릭스부(20)를 생성한다. 매트릭스부(20)의 출력측은, 데이터의 출력 처리를 수행하는 연산 유닛(ST)이 되므로, 모든 연산 유닛(ST)에 대해 데이터 플로우그램(101)을 할당할 수 있다면 배치배선이 성공한 것이다.

도 16은 하나의 데이터 플로우그램(101)을 실행하기 위한 연산 유닛(30)의 조합을 생성하는 처리를 플로우 챠트로 나타낸 것이다. 지연시간(latency)을 용이하게 유지하기 위해 데이터 플로우그램(101)의 하류로부터 연산 유닛(30)을 순차적으로 할당해가는 것이 바람직하다. 따라서, 단계 111에서, 데이터 플로우그램(101)을 구성하는 말미의 연산 유닛을 배치시킬 수 있고, 이것을 출력의 연산 유닛(ST)에 배선할 수 있을지의 여부를 확인한다. 단계 112에서, 적당한 연산 유닛(30)과 이들을 접속하는 배선그룹이 발견되면 배치배선은 성공한 것이 된다. 이후, 단계 113에서는, 발견된 리소스, 즉 연산 유닛(30)과 배선그룹에 마킹하고, 말미의 연산 유닛(30)의 배치를 종료한 것으로 한다. 그리고 단계 114에서, 배치가 종료된 연산 유닛(30)의 입력소스의 연산 유닛(30)이 배치배선이 가능한지의 여부를 하류로부터 상류로 더듬어가면서 확인한다. 단계 115에서, 입력소스의 연산 유닛(30)의 배치배선이 가능하고, 모든 입력소스의 연산 유닛(30)이 배치배선 가능하면, 하나의 데이터 플로우그램(101)이 매트릭스부(20)에 배치될 수 있게 된다.

도 18에 나타낸 데이터 플로우그램(101)은, 2개의 입력 데이터를 2회 가산하여 출력 데이터를 얻는 것으로서, 도 19에 나타낸 바와 같이 논리 유닛(30)의 조합으로 치환할 수 있다. 즉, 하류측으로부터, 출력용의 논리 유닛(ST), 2개의 산술계산용 논리 유닛(SMA), 그리고 2개의 입력용 논리 유닛(LD)을 포함하는 조합이다. 산술연산용의 논리 유닛(SMA)에서 가산을 하면 2클럭이 소비되므로, 이 클럭(지연시간)을 조정하기 위해 지연용 논리 유닛(DEL)이 조합된다. 또한, 매트릭스부(20)의 레이아웃으로 인한 지연을 조정하기 위해 논리 유닛(DEL)을 적당히 조합시킬 필요가 있다.

도 20은 상기 데이터 플로우그램(101)을 매트릭스부(20)에 할당한 모습을 나타낸 것이다. 말미의 연산 유닛(SMA)은, 상기 값을 출력하는 연산 유닛(ST)과 동일한 열에서 발견되고 있다. 상기 연산 유닛(SMA)의 한 쪽 입력소스가 되는 연산 유닛(DEL)은 동일한 열에서 발견되며, 다른 쪽 입력소스가 되는 연산 유닛(SMA)는 이웃하는 열에서 발견되고 있다. 도 20의 매트릭스부(20)는, 3개의 세그먼트(29)로 나누어져 있기 때문에, 동일한 열에서 발견된 연산 유닛(DEL)의 입력소스가 되는 연산 유닛(LD)과는 2개의 연산 유닛(DEL)을 통해 접속되어 있다. 마찬가지로, 이웃하는 열에서 발견된 연산 유닛(SMA)의 입력소스가 되는 연산 유닛(LD)과는 2개의 연산 유닛(DEL)을 통해 접속되어 있다. 따라서, 매트릭스부(20)에 맵핑된 데이터 플로우그램(101)의 실제의 조합은 도 21과 같이 된다. 이 조합을 지시하는 명령(80)이, 상기 매트릭스부(20)를 가지는 LSI(10)의 실행 프로그램(3)에 조합되고, 상기 명령(80)에 의해 RISC 프로세서(11)가 매트릭스부(20)의 조합을 제어한다. 이에 따라, 중간 기술(73b)의 처리가 매트릭스부(20)에서 하드웨어에 의해 실행된다.

이상 설명한 바와 같이, 본 발명의 집적 회로 장치는, 특정한 처리에 적합한 데이터 패스를 구비한 복수 종류의 연산 유닛이 배치된 데이터 처리블록(매트릭스부)을 구비하고 있으며, 이들 복수 종류의 연산 유닛의 조합을 정함으로써, 주어진 사양, 혹은 상기 일부를 하드웨어로 실행할 수 있는 집적 회로 장치를 매우 단기간에 설계 및 제조할 수 있다. 데이터 처리블록에 배치된 연산 유닛은 명령을 실행하는 기능을 갖추고 있으므로, 주어진 사양을 연산 유닛이 지원하는 명령을 포함한 중간 언어에 의한 기술로 치환하기만 하면, 소프트웨어 처리를 하드웨어 처리로 변환할 수가 있다. 그리고 연산 유닛의 조합을 발견하는 것만으로, 상기 데이터 처리블록에서 실행할 수 있는 처리를 정의할 수 있다. 따라서, 주어진 사양을 실행하는 하드 웨어를 제조하기 위해, 하드웨어 기술 언어로 전개하고 트랜지스터 레벨의 구성으로 논리 합성하여 그것으로부터 하드웨어를 생성하거나, FPGA에 로드될 수 있는 정보로 변환하거나 할 필요는 없다. 또한, 논리 유닛의 조합을 생성하기 위해 작성되는 중간 언어의 기술은, 설계자가 용이하게 처리를 파악할 수 있는 프로그램 언어이며, 수정이나 변경에 대해서도 매우 유연하게 단기간에 대응할 수 있다.

또한, 데이터 처리블록에 배치된 연산 유닛은, 모두가 동일한 구성의 범용성만을 추구한 것이 아니라, 명령에 의해 지시받는 처리를 실행하기에 적합한, 다르거나 또는 고유한 데이터 패스를 구비하고 있으므로 회로의 용장성(redundancy)이 적다. 따라서, 컴팩트하고 경제적인 집적 회로 장치를 제공할 수 있을 뿐만 아니라, 처리 속도도 빠르고 AC특성도 양호한 집적 회로 장치를 제공할 수 있다. 그리고, 상기 집적 회로 장치는 복수의 연산 유닛에 의해 구성되는 기능을 하나의 클럭으로 간단히 변경할 수 있는 능력을 가지고 있으므로, 데이터 처리블록을 구성하는 연산 유닛 및 배선그룹 등의 자원을 여러 종류의 다양한 처리에 효과적으로 활용할 수 있다.

상술한 예는 본 발명의 일례이며, 본 발명은 본 명세서에 개시된 바와 같이 다양한 변형을 포함할 수 있다. 예를 들면, 매트릭스형상으로 배치된 연산 유닛의 조합에 의해 구성되는 데이터 플로우그램이 고정된 경우부터, 데이터 플로우그램이 프로그램에 의해 동적으로 재구성 가능한 경우까지 포함하고 있다. 또한, 연산 유닛의 조합 및 연산 유닛 내부의 데이터 패스의 선택에 대한 제어는, 리스크 프로세서로부터의 지시에 한정되지 않고, 다른 LSI나 다른 매트릭스, 더 나아가서는 매트릭스 내의 연산 유닛에 의해서도 가능한 것이다. 상술한 연산 유닛은 어드레스의 발생, 산술 연산, 논리 연산, 곱셈, 지연 등의 특정한 처리에 적합한 데이터 패스를 구비하는 것을 예로 든 것이며, 연산 유닛에 포함되는 데이터 패스의 기능이나 구성은 본 실시예에 한정되지 않는다. 또한, 매트릭스형상으로 배치되는 연산 유닛의 종류도 상기한 예에 한정되지 않는다. 본 발명의 데이터 처리 장치에서 실행되는 어플리케이션에 적합한 기능의 데이터 패스를 구비한 몇 가지 종류의 연산 유닛을 생성하고, 이것들을 배치하여 버스로 배선함으로써 본 발명의 효과를 얻을 수 있다.

본 발명의 집적 회로 장치는, 다양한 데이터 처리를 실행할 수 있는 시스템 LSI 등으로서 제공할 수 있다. 또한, 본 발명의 집적 회로 장치는, 전자 회로에 한정되는 것이 아니라, 광 회로 혹은 광 전자 회로에도 적용이 가능하다. 본 발명 의 집적 회로 장치는, 재구성이 가능한 하드웨어에 의해 데이터 처리를 고속으로 실행할 수 있으므로, 네트워크 처리나 화상 처리 등과 같이 고속성 및 실시간성이 요구되는 데이터 처리 장치에 적합하다.

Claims

데이터 처리블록을 포함하는 집적 회로 장치로서, 상기 데이터 처리블록은:

제 1 및 제 2 방향으로 매트릭스형상으로 배치된 복수의 연산 유닛;

상기 복수의 연산 유닛의 상기 제 1 방향의 배열에 대응하여 상기 제 1 방향으로 연장되며, 상기 각 연산 유닛의 입력 데이터 및 출력 데이터 중 적어도 한쪽을 전송하는 복수의 제 1 배선그룹;

상기 복수의 연산 유닛의 상기 제 2 방향의 배열에 대응하여 상기 제 2 방향으로 연장되며, 상기 각 연산 유닛의 입력 데이터 및 출력 데이터 중 적어도 한쪽을 전송하는 복수의 제 2 배선그룹; 및

상기 제 1 및 제 2 배선그룹의 각각의 교점에 배치되고, 상기 제 1 배선그룹에 포함되는 임의의 배선과 상기 제 2 배선그룹에 포함되는 임의의 배선을 선택하여 접속할 수 있는 복수의 스위칭 유닛을 포함하며,

상기 복수의 연산 유닛은, 특정한 처리에 적합한 다른 데이터 패스를 구비한 복수 종류의 연산 유닛으로 분류되고, 상기 데이터 처리블록의 적어도 일부에서는, 동일한 종류의 연산 유닛이 상기 제 1 또는 제 2 방향의 배열을 형성하며;

상기 복수 종류의 연산 유닛은, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스(path)를 구비한 지연용 연산 유닛을 포함하며;

상기 데이터 처리블록은, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 1 매트릭스와, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 2 매트릭스를 더 구비하며;

상기 제 1 매트릭스의 상기 제 1 배선그룹 및 상기 제 2 배선그룹과 상기 제 2 매트릭스의 상기 제 1 배선그룹 및 상기 제 2 배선그룹은 분리되며;

상기 제 1 매트릭스와 상기 제 2 매트릭스의 경계를 따라 복수의 상기 지연용 연산 유닛이 배치되어 있으며,

상기 제 1 매트릭스의 상기 제 1 배선그룹 및 상기 제 2 배선그룹 중 적어도 어느 한쪽과, 상기 제 2 매트릭스의 상기 제 1 배선그룹 및 상기 제 2 배선그룹 중 적어도 어느 한쪽은 상기 경계를 따라 배치된 상기 복수의 지연용 연산 유닛에 포함되는 상기 데이터 패스를 통해 접속되어 있는 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 복수 종류의 연산 유닛이 상기 제 1 방향으로 등간격으로 배치된 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령레벨의 처리에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛을 포함하는 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 복수 종류의 연산 유닛 중, 데이터의 입력 및 출력처리 중 적어도 한쪽에 적합한 데이터 패스를 구비한 연산 유닛이, 상기 데이터 처리블록의 한 쪽 단부와 다른 쪽 단부에 배열된 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 각 연산 유닛은, 클럭마다 제어되는 플립플롭으로서, 상기 각 연산 유닛에서 소비되는 클럭을 명확하게 하는, 입력 데이터를 래치(latch)하는 플립플롭과, 출력 데이터를 래치하는 플립플롭을 구비한 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 복수 종류의 연산 유닛중 적어도 1종류의 연산 유닛은, 동일 방향으로 배열되었을 때, 다른 연산 유닛과 연계하여 확장된 연산기능을 제공할 수 있는 패스를 구비한 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 각 연산 유닛은, 상기 제 1 배선그룹 및 제 2 배선그룹 중 적어도 한쪽에 포함되는 임의의 배선을 선택하여 신호의 입력 및 출력 중 적어도 한쪽을 수행하는 수단을 구비한 것을 특징으로 하는 집적 회로 장치.
제 7항에 있어서, 상기 각 연산 유닛은, 배선의 선택을 저장하는 재기록가능한(rewritable) 구성 메모리(configuration memory)를 구비하며,

상기 스위칭 유닛은, 배선의 선택을 저장하는 재기록가능한 구성 메모리를 구비한 것을 특징으로 하는 집적 회로 장치.
제 8항에 있어서, 상기 각 연산 유닛은, 내부 데이터 패스의 일부의 변경 및 선택 중 적어도 한쪽을 수행하는 수단을 구비하고 있으며, 상기 구성 메모리는 상기 내부 데이터 패스의 변경 및 선택 중 적어도 한쪽을 저장하는 것을 특징으로 하는 집적 회로 장치.
제 9항에 있어서, 상기 내부 데이터 패스는, 적어도 1개의 명령 레벨의 처리에 적합한 데이터 패스인 것을 특징으로 하는 집적 회로 장치.
제 8항에 있어서, 상기 구성 메모리의 내용을 재기록할 수 있는 범용 프로세서를 갖는 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 복수의 상기 데이터 처리블록과, 상기 데이터 처리블록을 접속하는 제 3 배선그룹을 갖는 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 각 연산 유닛은, 데이터를 바이트(byte) 및 워드(word) 단위 중 적어도 한쪽으로 처리하는 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 제 1 및 제 2 배선그룹은 데이터를 전송하는 버스 배선과, 캐리 신호(carry signal)를 전송하는 캐리 배선(carry wire)을 구비하는 것을 특징으로 하는 집적 회로 장치.
제 1항에 있어서, 상기 각 연산 유닛은, 상기 제 2 배선그룹에 포함되는 임의의 배선으로부터 신호를 입력하는 수단과, 상기 제 1 배선그룹에 포함되는 임의의 배선으로 신호를 출력하는 수단을 구비하며,

상기 제 2 배선그룹은, 상기 복수의 연산 유닛의 상기 제 2 방향 배열의 양측을 따라 연장된 한 쌍의 배선그룹을 구비하는 것을 특징으로 하는 집적 회로 장치.
삭제
제 1항에 있어서, 상기 복수 종류의 연산 유닛은,

데이터의 입력처리에 적합한 데이터 패스를 구비한 제 1종의 연산 유닛;

입력 데이터의 어드레스를 지정하는 처리에 적합한 데이터 패스를 구비한 제 2종의 연산 유닛;

데이터의 출력처리에 적합한 데이터 패스를 구비한 제 3종의 연산 유닛;

출력하는 데이터의 어드레스를 지정하는 처리에 적합한 데이터 패스를 구비한 제 4종의 연산 유닛;

산술연산 및 논리연산 중 적어도 한쪽의 처리에 적합한 데이터 패스를 구비한 제 5종의 연산 유닛;

승산처리(multiplication process)에 적합한 데이터 패스를 구비한 제 6종의 연산 유닛;

상기 데이터 처리블록의 외부에 배치된 연산회로와 접속하는 처리에 적합한 데이터 패스를 구비한 제 7종의 연산 유닛; 및

룩업 테이블(lookup table)에 의해 처리가 선택되는 데이터 패스를 구비한 제 8종의 연산 유닛 중 적어도 어느 하나의 연산 유닛을 포함하는 것을 특징으로 하는 집적 회로 장치.
삭제
복수 종류의 연산 유닛과, 이들 복수 종류의 연산 유닛을 접속하는 배선그룹을 구비한 데이터 처리블록을 가지며,

상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령의 실행에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛과, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스를 구비한 지연용 연산 유닛을 포함하는 집적 회로 장치로서,

상기 복수 종류의 연산 유닛은:

데이터의 입력명령의 실행에 적합한 데이터 패스를 구비한 제 1종의 연산 유닛;

입력 데이터의 어드레스를 지정하는 명령의 실행에 적합한 데이터 패스를 구비한 제 2종의 연산 유닛;

데이터의 출력명령의 실행에 적합한 데이터 패스를 구비한 제 3종의 연산 유닛;

출력하는 데이터의 어드레스를 지정하는 명령의 실행에 적합한 데이터 패스를 구비한 제 4종의 연산 유닛;

산술연산 명령 및 논리연산 명령 중 적어도 한쪽의 실행에 적합한 데이터 패스를 구비한 제 5종의 연산 유닛; 및

승산명령의 실행에 적합한 데이터 패스를 구비한 제 6종의 연산 유닛 중 적어도 어느 하나의 연산 유닛을 포함하며;

상기 데이터 처리블록은, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 1 매트릭스와, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 2 매트릭스를 더 구비하며;

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 분리되며;

상기 제 1 매트릭스와 상기 제 2 매트릭스의 경계를 따라 복수의 상기 지연용 연산 유닛이 배치되어 있으며,

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 상기 경계를 따라 배치된 상기 복수의 지연용 연산 유닛에 포함되는 상기 데이터 패스를 통해 접속되어 있는 것을 특징으로 하는 집적 회로 장치.
제 19항에 있어서, 상기 복수 종류의 연산 유닛은:

상기 데이터 처리블록의 외부에 배치된 연산회로와 접속하는 처리에 적합한 데이터 패스를 구비한 제 7종의 연산 유닛; 및

룩업 테이블에 의해 처리가 선택되는 데이터 패스를 구비한 제 8종의 연산 유닛 중 적어도 어느 하나의 연산 유닛을 더 포함하는 것을 특징으로 하는 집적 회로 장치.
복수 종류의 연산 유닛과, 상기 복수 종류의 연산 유닛을 접속하는 배선그룹을 구비한 데이터 처리블록을 가지며,

상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령의 실행에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛을 포함하고,

각 연산 유닛은, 클럭마다 제어되는 플립플롭으로서, 상기 각 연산 유닛에서 소비되는 클럭을 명확하게 하는, 입력 데이터를 래치하는 플립플롭과, 출력 데이터를 래치하는 플립플롭을 구비하며,

상기 데이터 처리블록은, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 1 매트릭스와, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 2 매트릭스를 더 구비하며;

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 분리되며;

상기 제 1 매트릭스와 상기 제 2 매트릭스의 경계를 따라 복수의 지연용 연산 유닛이 배치되어 있으며,

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 상기 경계를 따라 배치된 상기 복수의 지연용 연산 유닛에 포함되는 상기 데이터 패스를 통해 접속되어 있는 것을 특징으로 하는 집적 회로 장치.
삭제
제 21항에 있어서, 상기 복수 종류의 연산 유닛 중, 데이터의 입력명령 및 출력명령 중 적어도 한쪽의 실행에 적합한 데이터 패스를 구비한 연산 유닛이, 상기 데이터 처리블록의 한 쪽 단부와 다른 쪽 단부에 배열된 것을 특징으로 하는 집적 회로 장치.
제 21항에 있어서, 상기 배선그룹은, 상기 복수 종류의 연산 유닛의 상기 제 1 방향의 배열에 대응하여 상기 제 1 방향으로 연장되며, 각 연산 유닛의 입력 및 출력 데이터 중 적어도 한쪽을 전송하는 복수의 제 1 배선그룹;

상기 복수 종류의 연산 유닛의 상기 제 2 방향의 배열에 대응하여 상기 제 2 방향으로 연장되며, 상기 각 연산 유닛의 입력 및 출력 데이터 중 적어도 한쪽을 전송하는 복수의 제 2 배선그룹; 및

상기 제 1 및 제 2 배선그룹의 각각의 교점에 배치되고, 상기 제 1 배선그룹에 포함되는 임의의 배선과 상기 제 2 배선그룹에 포함되는 임의의 배선을 선택하여 접속할 수 있는 복수의 스위칭 유닛을 구비하며,

상기 각 연산 유닛은, 상기 제 1 배선그룹 및 제 2 배선그룹 중 적어도 한쪽에 포함되는 임의의 배선을 선택하여 신호의 입력 및 출력 중 적어도 한쪽을 수행하는 수단을 구비하는 것을 특징으로 하는 집적 회로 장치.
삭제
복수 종류의 연산 유닛과, 이들 복수 종류의 연산 유닛을 접속하는 배선그룹을 구비한 데이터 처리블록을 가지며,

상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령의 실행에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛과, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스를 구비한 지연용 연산 유닛을 포함하고,

상기 배선그룹에 의한, 상기 복수 종류의 연산 유닛에 공급되는 데이터의 루트(route)를 바꾸어 데이터 처리를 위한 상기 복수 종류의 연산 유닛의 조합을 변경하는 복수의 스위칭 유닛을 더 포함하며,

상기 복수 종류의 연산 유닛은, 배선의 선택을 저장하는 재기록가능한 구성 메모리를 구비하며,

상기 스위칭 유닛은, 배선의 선택을 저장하는 재기록가능한 구성 메모리를 구비하며,

상기 데이터 처리블록은, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 1 매트릭스와, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 2 매트릭스를 더 구비하며;

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 분리되며;

상기 제 1 매트릭스와 상기 제 2 매트릭스의 경계를 따라 복수의 상기 지연용 연산 유닛이 배치되어 있으며,

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 상기 경계를 따라 배치된 상기 복수의 지연용 연산 유닛에 포함되는 상기 데이터 패스를 통해 접속되어 있는 것을 특징으로 하는 집적 회로 장치.
제 26항에 있어서, 상기 복수 종류의 연산 유닛 중 적어도 어느 하나의 연산 유닛은, 적어도 1개의 명령의 실행에 적합한 내부 데이터 패스와, 상기 내부 데이터 패스의 일부의 선택 및 변경 중 적어도 한쪽을 수행하는 수단을 구비하며,

상기 구성 메모리는 상기 내부 데이터 패스의 선택 및 변경 중 적어도 한쪽도 저장하는 것을 특징으로 하는 집적 회로 장치.
제 26항에 있어서, 프로그램에 기초하여 상기 구성 메모리의 내용을 재기록하는 제어 유닛을 갖는 것을 특징으로 하는 집적 회로 장치.
제 26항에 있어서, 프로그램에 기초하여 상기 복수 종류의 연산 유닛의 조합을 제어하는 제어 유닛을 갖는 것을 특징으로 하는 집적 회로 장치.
제 29항에 있어서, 상기 복수 종류의 연산 유닛 중 적어도 어느 하나의 연산 유닛은, 적어도 1개의 명령의 실행에 적합한 내부 데이터 패스와, 상기 내부 데이터 패스의 일부의 선택 및 변경 중 적어도 한쪽을 수행하는 수단을 구비하며,

상기 제어 유닛은, 상기 내부 데이터 패스의 선택 및 변경 중 적어도 한쪽도 제어하는 것을 특징으로 하는 집적 회로 장치.
제 29항에 있어서, 상기 제어 유닛은 범용 프로세서인 것을 특징으로 하는 집적 회로 장치.
복수 종류의 연산 유닛과, 이들 복수 종류의 연산 유닛을 접속하는 배선그룹을 구비한 데이터 처리블록을 가지며,

상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령의 실행에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛과, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스를 구비한 지연용 연산 유닛을 포함하고,

복수의 상기 데이터 처리블록과, 이들 데이터 처리블록을 접속하는 배선그룹을 가지며,

상기 데이터 처리블록은, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 1 매트릭스와, 상기 복수의 연산 유닛이 매트릭스 형상으로 배치된 제 2 매트릭스를 더 구비하며;

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 분리되며;

상기 제 1 매트릭스와 상기 제 2 매트릭스의 경계를 따라 복수의 상기 지연용 연산 유닛이 배치되어 있으며,

상기 제 1 매트릭스의 상기 배선그룹과 상기 제 2 매트릭스의 상기 배선그룹은 상기 경계를 따라 배치된 상기 복수의 지연용 연산 유닛에 포함되는 상기 데이터 패스를 통해 접속되어 있는 것을 특징으로 하는 집적 회로 장치.
삭제
삭제
제 1 및 제 2 방향으로 매트릭스형상으로 배치된 복수 종류의 연산 유닛과, 이들 복수 종류의 연산 유닛을 접속하는 배선그룹을 구비한 데이터 처리블록을 가지며, 상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령의 처리에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛과, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스를 구비한 지연용 연산 유닛을 포함하는 집적 회로 장치의 설계방법으로서,

상기 집적 회로 장치에서 실행하는 처리중 적어도 일부를, 상기 복수 종류의 연산 유닛 중 어느 하나에 의해 실행할 수 있는 명령을 포함하는 프로그램언어로 기술된 중간기술(中間記述)로 변환하는 단계;

상기 중간기술의 처리를 실행할 수 있는 상기 복수 종류의 연산 유닛에 부가하여 상기 지연용 연산 유닛을 타이밍 조정을 위해 포함시킨 실행용 조합을 생성하는 단계; 및

상기 실행용 조합을 실현하도록 상기 복수 종류의 연산 유닛이 배치된 상기 데이터 처리블록을 생성하는 단계를 포함하는 집적 회로 장치의 설계방법.
삭제
복수 종류의 연산 유닛이 배치되고, 배선그룹에 의해 상기 복수 종류의 연산 유닛에 공급되는 데이터의 루트를 바꾸어 데이터 처리를 위한 상기 복수 종류의 연산 유닛의 조합을 변경할 수 있는 데이터 처리블록을 가지며, 상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령의 처리에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛과, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스를 구비한 지연용 연산 유닛을 포함하는 집적 회로 장치의 설계방법으로서,

상기 집적 회로 장치에서 실행하는 처리중 적어도 일부를, 상기 복수 종류의 연산 유닛 중 어느 하나에 의해 실행할 수 있는 명령을 포함하는 프로그램언어로 기술된 중간기술로 변환하는 단계;

상기 중간기술의 처리를 실행할 수 있는 상기 복수 종류의 연산 유닛에 부가하여 상기 지연용 연산 유닛을 타이밍 조정을 위해 포함시킨 실행용 조합을 생성하는 단계;

상기 실행용 조합에 필요한 상기 복수 종류의 연산 유닛이 배치된 상기 데이터 처리블록을 생성하는 단계; 및

상기 실행용 조합을 지시하는 명령을 구비한 상기 집적 회로 장치의 실행 프로그램을 생성하는 단계를 포함하는 집적 회로 장치의 설계방법.
제 37항에 있어서, 상기 복수의 연산 유닛 중 적어도 어느 하나의 연산 유닛은, 적어도 1개의 명령의 처리에 적합한 내부 데이터 패스와, 상기 내부 데이터 패스의 일부의 선택 및 변경 중 적어도 한쪽을 수행하는 수단을 구비하며,

상기 실행용 조합을 생성하는 단계에서는, 상기 내부 데이터 패스의 선택 및 변경 중 적어도 한쪽도 포함시킨 상기 실행용 조합을 생성하는 것을 특징으로 하는 집적 회로 장치의 설계방법.
복수 종류의 연산 유닛이 배치되고, 배선그룹에 의해 상기 복수 종류의 연산 유닛으로 공급되는 데이터의 루트를 바꾸어 데이터 처리를 위한 상기 복수 종류의 연산 유닛의 조합을 변경할 수 있는 데이터 처리블록을 가지며, 상기 복수 종류의 연산 유닛은, 적어도 1개의 다른 명령의 처리에 적합한 데이터 패스를 구비한, 다른 종류의 연산 유닛과, 데이터의 전송시간을 지연시키는 처리에 적합한 데이터 패스를 구비한 지연용 연산 유닛을 포함하는 집적 회로 장치의 실행프로그램 작성방법으로서,

상기 집적 회로 장치에 있어서 실행하는 처리 중 적어도 일부를, 상기 복수 종류의 연산 유닛 중 어느 하나에 의해 실행할 수 있는 명령을 포함하는 프로그램 언어로 기술된 중간기술로 변환하는 단계;

상기 중간기술의 처리를 실행할 수 있는 상기 복수 종류의 연산 유닛에 부가하여 상기 지연용 연산 유닛을 타이밍 조정을 위해 포함시킨 실행용 조합을 생성하는 단계; 및

상기 실행용 조합을 지시하는 명령을 구비한 상기 실행 프로그램을 생성하는 단계를 포함하는 집적 회로 장치의 실행 프로그램 작성방법.
삭제
제 39항에 있어서, 상기 복수의 연산 유닛 중 적어도 어느 하나의 연산 유닛은, 적어도 1개의 명령의 처리에 적합한 내부 데이터 패스와, 상기 내부 데이터 패스의 일부의 선택 및 변경 중 적어도 한쪽을 수행하는 수단을 구비하며,

상기 실행용 조합을 생성하는 단계에서는, 상기 내부 데이터 패스의 선택 및 변경 중 적어도 한쪽도 포함시킨 상기 실행용 조합을 생성하는 것을 특징으로 하는 집적 회로 장치의 실행프로그램 작성방법.
삭제
삭제