KR100678372B1

KR100678372B1 - 고속 프로세서 시스템, 이를 이용한 방법, 및 기록 매체

Info

Publication number: KR100678372B1
Application number: KR1020017009201A
Authority: KR
Inventors: 오바아키오
Original assignee: 가부시키가이샤 소니 컴퓨터 엔터테인먼트
Priority date: 1999-01-21
Filing date: 2000-01-21
Publication date: 2007-02-05
Also published as: EP1445701A3; JP2002535777A; BR0008905A; EP1161729A1; US6578110B1; TW472197B; HK1039809A1; US7028141B2; ES2220386T3; JP3698358B2; CN100483389C; US20040215881A1; CN1341242A; US20030217228A1; ATE266884T1; RU2001122104A; KR20010101628A; EP1445701A2; EP1161729B1; CA2364338A1

Abstract

본 발명은 종래의 프로그램밍 스타일을 변형할 필요없이 동시 분배 처리를 할 수 있는 고속 프로세서 시스템을 제공하는 데 목적을 두고 있다. 본 발명에 따른 프로세서 시스템은 계층적 구조로 배열된 CPU, 다수의 병렬 DRAM, 및 다수의 캐쉬 메모리를 포함한다. 캐쉬 메모리 각각에는 CPU와 2진-호환가능하고 프로세서의 역할 기능을 하는 MPU가 설치된다.

고속 프로세서 시스템, 동시 분배 처리, 캐쉬 메모리, 계층적 구조, MPU

Description

고속 프로세서 시스템, 이를 이용한 방법, 및 기록 매체{High-speed processor system, method of using the same, and recording medium}

본 발명은 계층-구조의 병렬 컴퓨터 시스템에 관한 것이고, 특히 현존하는 프로그래밍 스타일을 변형할 필요없이 고속 병렬 처리를 하는 고속 프로세서 시스템, 상기 고속 프로세서 시스템을 이용한 방법, 및 기록 매체에 관한 것이다.

CPU 및 캐쉬 메모리를 구비한 저속 대용량 DRAM을 가진 고속 프로세서 시스템은 대규모 데이터를 고속 처리하기 위한 시스템으로 알려져 왔다. 도 1에 도시된 바와 같이, 기존의 고속 프로세서 시스템은 1차 캐쉬를 포함한 CPU(1) 및 공통 버스 라인을 통해 CPU(1)에 연결된 다수의 병렬 DRAM(2)을 갖고, 각각의 DRAM(2)은 상기 DRAM(2)이 CPU(1)의 처리 속도에 근접한 속도로 처리할 수 있게 하는 2차 캐쉬(3)가 장착되어 있다.

도 1에 도시된 회로 동작에서, 하나의 DRAM(2)의 컨텐츠는 CPU(1)가 내린 명령에 따라 판독되고, CPU(1)의 명령에 따라 DRAM(2)에 정보 쓰기가 실행된다. 판독 명령이 적중하면 즉, DRAM(2)로부터 판독될 소정의 컨텐트가 캐쉬(3)에 수용되면, CPU(10)는 2차 캐쉬(3)에 접속하여 고속 데이터 처리를 수행한다. 그러나, 적중-실패의 경우 즉, 소정의 컨텐트가 캐쉬(3)에 있지 않을 때, 캐쉬(3)는 DRAM(2) 로부터 타깃(target) 컨텐트를 판독해야 한다.

프로세서, DRAM, 및 캐쉬를 가진 고속 프로세서 시스템의 상기 기술된 기본 구조는 요즘 지배적인 구조인데, 이는 일반적인 제어 프로그래밍 스타일의 이용을 유리하게 받아들이기 때문이다.

그러나, 캐쉬의 계층적 배열을 이용하는 이런 고속 프로세서 시스템은 단 하나의 CPU(1)만을 이용하기 때문에 병렬 처리를 할 수 없다. 게다가, 일반적인 프로그램 스타일은 본질적으로 병렬 처리용으로 의도하지 않아서, 변형되지 않는다면 병렬 처리 시스템을 실행하는데 쉽게 이용될 수 없고, 따라서 실제 사용에 있어서 장애를 일으킨다.

이런 상황하에, 본 발명은 신규한 고속 프로세서 시스템, 이를 이용한 방법, 그리고 컴퓨터-판독가능 및 컴퓨터-실행가능한 프로그램을 기록하는 기록 매체를 제공하는 데 목적이 있다.

전술한 것을 고려하여, 본 발명의 목적은 종래의 프로그래밍 스타일의 임의의 변화 또는 변형을 할 필요없이 병렬 처리를 실행하는 고속 프로세서 시스템, 이런 고속 프로세서 시스템을 만드는 방법, 및 컴퓨터-판독가능 및 컴퓨터-실행가능한 프로그램을 기록하는 기록 매체를 제공하는 것이다.

본 발명에 따라, 1차 캐쉬 메모리를 가진 CPU; 상기 CPU보다 하위 계층에 배열되고 제1MPU를 가진 2차 캐쉬 메모리; 및 2차 캐쉬 메모리에 연결되고 서로 병렬로 배열되며 각각은 제2MPU가 설치된 3차 캐쉬 메모리를 가진 다수의 메인 메모리 를 포함하고; 각각의 제1MPU 및 제2MPU는 동시 분배 처리를 할 수 있도록 캐쉬 논리 기능 및 프로세서 기능 둘 다 가진 것을 특징으로 하는 고속 프로세서 시스템이 제공된다.

본 발명의 고속 프로세서 시스템에서, 3차 캐쉬 메모리는 1차 캐쉬 메모리의 라인 크기보다 더 큰 2차 캐쉬 메모리 라인 크기보다 큰 라인 크기를 가질 수 있다.

상기 2차 캐쉬 메모리는 CPU로부터 2차 캐쉬 메모리로 그리고 제1MPU로부터 1차 캐쉬 메모리로 접속된다.

상기 3차 캐쉬 메모리는 CPU로부터 3차 캐쉬 메모리로, 제1MPU로부터 2차 캐쉬 메모리로, 그리고 제2MPU로부터 제1차 캐쉬 메모리로 접속된다.

CPU가 내린 사전추출 명령 또는 지능형 사전추출 명령에 의해 실행된 제어 프로토콜에 따라 제1MPU 및 제2MPU에 의해 수행된 각각의 데이터 처리가 실행된다. 한편, 각각의 제1MPU 및 제2MPU는 데이터 전송 크기 및 데이터 전송 주파수에 따라 데이터 처리를 선택적으로 수행한다.

예를 들어, 제1MPU는 다수의 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 주로 글로벌 전송 처리 또는 하위-계산(low-computation-level) 및 고전송속도(high-transfer-rate) 처리를 실행한다. 제2MPU는 관련된 단일 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 주로 로컬 대상(local object) 처리를 실행한다.

고속 프로세서 시스템은 ASIC-DRAM으로 단일 칩에서 실행될 수 있다.

본 발명은 또한 1차 캐쉬 메모리를 가진 CPU, 상기 CPU보다 하위 계층에 배열되고 제1MPU를 가진 2차 캐쉬 메모리, 및 2차 캐쉬 메모리에 연결되고 서로 병렬로 배열되며 제2MPU가 설치된 3차 캐쉬를 각각 가진 다수의 메인 메모리를 포함하는 고속 프로세서 시스템을 이용한 방법으로서, CPU가 주로 고위 산술 처리를 실행하게 하는 단계; 제1MPU가 주로 글로벌 전송 처리 그리고 하위 계산 및 고전송속도 처리를 실행하게 하는 단계; 및 동시 분배 처리가 실행되도록 제2MPU가 제2MPU와 관련된 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 주로 로컬 대상 처리를 실행하게 하는 단계를 포함하는 방법을 제공한다.

제1MPU 및 제2MPU에 의해 실행된 각각의 데이터 처리가 CPU가 내린 사전추출 명령 또는 지능형 사전추출 명령에 의해 실행된 제어 프로토콜에 따라 실행될 수 있다. 그러므로, 고속 프로세서는 일반적인 프로그래밍 스타일로 제어된다.

1차 캐쉬 메모리를 가진 CPU 그리고 상기 CPU에 연결되고 서로 병렬로 배열되며 각각은 MPU가 설치된 2차 캐쉬 메모리를 가진 다수의 메인 메모리를 포함하고, 각각의 MPU는 동시 분배 처리를 할 수 있도록 캐쉬 논리 기능 및 프로세서 기능 둘 다 가진 것을 특징으로 하는 본 발명의 고속 프로세서 시스템이 제공된다.

도 1은 종래의 병렬 프로세서의 블럭도이다.

도 2는 본 발명의 한 실시형태의 블럭도이다.

도 3은 DRAM, MPU, 및 캐쉬의 칩 배열에 대한 실제 실시예를 도시한 블럭도이다.

도 4는 2차 캐쉬 및 MPU의 내부 구조를 도시한 블럭도이다.

도 5는 일반적인 캐쉬 모드에서 데이터 흐름을 나타내는 도면이다.

도 6은 로컬 대상 분배 실행에서의 데이터 흐름을 나타내는 도면이다.

도 7은 2차 캐쉬에 의해 실행된 전송 처리에서의 데이터 흐름을 나타내는 도면이다.

도 8은 지능형 사전추출 명령의 설명도이다.

도 9는 ASIC DRAM의 칩 시스템을 도시하는 도면이다.

본 발명의 실시형태는 도 2 내지 9를 참조로 하여 기술된다. 도 2에 대해, 고속 프로세서 시스템은 1차 캐쉬의 역할을 하는 I 캐쉬(명령 캐쉬), D 캐쉬(데이터 캐쉬)(10b), 및 스크래치 패드 메모리(10c)를 포함하는 CPU(10)를 갖는다. ("1차 캐쉬"라는 용어는 또한 I 캐쉬(10a), D 캐쉬(10b) 및 스크래치 패드 메모리(10c)를 한꺼번에 나타내는 데 사용된다.) 고속 프로세서 시스템은 또한 CPU(10)에 연결된 통합 캐쉬 메모리(11)("2차 캐쉬"라고도 함)를 갖는다. 고속 프로세서 시스템의 최하위 계층은 버스 라인을 통해 병렬로 연결된 다수의 통합 캐쉬 메모리(12)("3차 캐쉬"라고도 함) 및 DRAM(13-1 내지 13-3)를 포함한다. 2차 및 3차 캐쉬에는 캐쉬 로직의 역할을 하는 MPU(Micro Processing Unit)(16 및 14)가 각각 설치되어 있다.

도 2에 도시된 구조의 각각의 순위 계층은 고속 처리를 달성하기 위한 목적으로 하나 또는 그 이상의 캐쉬를 이용한다. 캐쉬 메모리의 용량 단위의 크기 즉, 버스트(burst) 판독/쓰기 길이인 라인 크기가 상위 계층보다 하위 계층의 캐쉬 메모리에 비해 크게 배열된다. 도 2에 도시된 구조는 단지 도식적일 뿐 2차 캐쉬(11)는 본질적인 것은 아니다. 즉, 고속 프로세서 시스템은 CPU(10) 및 통합 캐쉬 메모리(12)를 갖는 다수의 DRAM(13)을 포함하는 구조를 가질 수 있다.

도 2에 도시된 배열에서, 2차 캐쉬(12) 및 3차 캐쉬(13)용 캐쉬 로직의 역할을 하는 MPU(16) 및 MPU(14)는 CPU(10)와 2진-호환된다. 각각의 MPU(14) 및 MPU(16)는 2가지 역할을 한다: 즉, 캐쉬 로직의 역할 및 프로세서의 역할. 캐쉬 기능은 CPU(10)의 명령하에 캐쉬 메모리를 제어하는 기능인데 반해, 프로세서 기능은 CPU 명령하에 동시 분배 시스템용 서브-CPU의 역할을 하는 기능이다.

도 3은 반도체 칩(15)상에 실제로 실행된 도 2의 고속 프로세서 구조의 도면이다. 칩(15)에 형성된 것은 주요 부품으로서 DRAM(13)를 구성하는 DRAM 어레이(array)(13a), 센스 증폭기(13b), 횡 어드레스(13c), 열 어드레스(13d), 제어 회로(13e), 및 데이터 입/출력 회로(13f)이다. 도 3에 도시된 칩(15)은 캐쉬 메모리의 역할을 하는 SRAM(12)을 이용한다. SRAM(12)은 데이터를 DRAM 어레이(13a)로/로부터 입/출력하는 센스 증폭기(13b)에 곧바로 결합된다. SRAM(12)은 그 자체 및 데이터 입/출력 회로(13f)간 데이터를 교환한다.

SRAM(12)에 의해 실행된 캐쉬 메모리는 캐쉬 로직 기능 및 프로세서 기능 둘 다 가진 MPU(14)에 의해 제어된다. 캐쉬 로직 기능에 관련하여, DRAM 어레이(13a)상에 SRAM(12)을 통해 판독/쓰기 동작이 실행되도록, SRAM(12)은 MPU(14) 제어하에 단순한 통합 캐쉬의 역할을 한다. 처리 기능에 관련하여, 도 2에 도시된 배열에 서, MPU(14)가 DRAM(13a)에 저장된 프로그램 및 데이터에 의해 구성된 대상의 실행 및 소정의 사전추출 명령에 따른 데이터의 사전-판독과 같은 동작을 실행하도록, SRAM(12)은 CPU(10)에 대해 3차 캐쉬의 역할을 한다.

MPU(14)는 CPU(10)가 내린 사전추출 명령에 의해 구동된다. 일반적으로, 프로세서 시스템의 처리 속도는 CPU 및 메모리를 상호연결하고 고속 메모리의 역할을 하는 캐쉬에 달려있고, 이런 이유로 캐쉬의 이용이 긍정적으로 받아들여 진다. 특히, CPU는 사전추출 명령을 이용하여 데이터를 사전-판독한다. 본 발명에서, 캐쉬 제어를 위한 사전추출 명령이 추가로 MPU(14)에 적용되고, 그래서 MPU(14)도 또한 처리를 실행할 수 있게 된다.

실제로, MPU(14)는 가령 ARM(Advanced RISC Machines) 프로세서 또는 MIPS(Microprocessor without interlocked Pipe Stage) 프로세서 등의 비교적 작은 코어(core)에 의해 실행되고 고성능 CPU를 실현시키는 스케일러블(scalable) RISC(Restricted Instruction Set Computer) CPU 코어를 수단으로 시스템의 캐쉬 메모리에 포함된다.

도 4는 도 2에 도시된 CPU(10) 및 2차 캐쉬(11)간 실질적인 상호연결 배열을 도시한다. 기본적으로, 2차 캐쉬(11)는 통합 캐쉬(11a)를 포함하는 프로세서로 간주된다. 프로세스 기능을 수행하는 MPU(16)는 CPU(10)에 대해 2차 캐쉬 메모리의 역할을 하고 2차 캐쉬로서 기능을 한다. 2차 캐쉬에서 통합 캐쉬(11a)는 SRAM에 의해 구성된다. 통합 캐쉬(11a)는 CPU(10)에 의해 접속되는 경우 CPU(10)에 대해 2차 캐쉬의 역할을 하고, MPU(16)에 의해 접속되는 경우, MPU(16)에 대해 1차 캐쉬 의 역할을 한다. 도 4에서, 참조 번호 17은 DRAM(13)에 연결하기 위한 메모리 인터페이스를 나타낸다.

전술한 바와 같이, 2차 캐쉬(11)는 I 캐쉬, D 캐쉬, 및 스크래치 패드를 포함하는 1차 캐쉬보다 큰 버스트(burst) 판독/쓰기 길이를 갖는다. CPU(10)가 내린 제어 프로토콜에 따라, 2차 캐쉬(11)는 2차 캐쉬의 기능을 하고, 동시에 3차 캐쉬 및 메인 메모리에 저장된 프로그램 및 데이터에 의해 구성된 대상의 처리를 수행하며, 이 경우에 복잡한 산술 처리라기 보다는 주로 DRAM(13-1 내지 13-3)간 빈번한 데이터 전송을 필요로 하는 처리이다. 2차 캐쉬(11)는 또한 CPU(10)가 내린 명령에 따라 각각의 3차 캐쉬(12)의 MPU(14)에 의해 실행된 것보다 일반적이고 복잡한 형태의 사전추출 명령을 실행한다. 예를 들어, 2차 캐쉬(12)는 다수의 DRAM에 관련된 사전추출 명령을 실행한다.

도 5는 MPU(14) 및 MPU(16)가 프로세스 기능을 실행하지 않고서 캐쉬 로직 기능만을 실행하는 일반적인 캐쉬 모드에서 도 2에 도시된 회로가 동작하는 경우에 관찰되는 데이터 흐름을 도시한다. CPU(10)가 DRAM(13)에 포함된 데이터를 처리하는 경우 2차 캐쉬를 통해 데이터(11)를 판독한다. 즉, 데이터는 최하위 계층의 3차 캐쉬(12)에서 2차 캐쉬(11)로 전송되고 비교적 큰 전송 크기(한 번에 전송된 데이터 크기) 및 비교적 낮은 전송 주파수를 갖는 것으로 설계된다. 2차 캐쉬(11)에 전송된 데이터는 추가로 최상위 계층의 1차 캐쉬에 전송되고, CPU(10)에 전달된다. 상기 기술된 루트의 역으로 추적하여 DRAM(13)에 데이터 쓰기가 실행된다.

결국, 데이터 접속은 여러 번 실행된다. 이런 접속 방식은 현재-이용가능한 CPU(10)의 스택 기능, 예를 들어, LIFO(last-in first-out) 저장 기능에 의해 효율적으로 관리될 수 있는 것 같다. 그러나, 실제로, CPU(10)에 의해 한 번만에 접속해야 되는 데이터 가령, 이미지 처리용 데이터 및 검색해야 될 대규모 데이터로 인해 자주 접속해야 되는 데이터의 캐쉬-아웃(cache-out)이 발생되는 문제가 발생된다. 이것은 쓸데없는 접속 회수의 증가를 유도한다. 본 발명에 따른 캐쉬 제어에 대하여 기술된 개념은 이런 쓸데없는 접속 회수를 없애거나 감소시키기 위한 요구에 근거한다.

많은 접속 경로의 존재를 고려하여, 현재 이용가능한 처리 시스템을 도 5에 도시된 바와 같이 지정한다. 실제로, 일반적인 프로그래밍하에 동작가능한 도 5의 메모리 아키텍쳐는 매우 유용하다.

도 6에 관하여, 3차 캐쉬(12)의 MPU(14)가 프로세스 기능을 실행하는 경우 실행되는 데이터의 흐름이 도시된다. 이 경우에, MPU(14)는 로컬 대상의 분배 처리를 실행한다. 따라서, CPU(10)에 의해 처리될 필요없는 로컬 대상은 CPU(10)가 내린 사전추출 명령에 포함된 제어 프로토콜에 따라 MPU(14)에 의해 처리된다. 예를 들어, 단일 DRAM 블럭에 저장된 프로그램 또는 데이터는 로컬 대상으로 처리되고, 최대값에 대한 단지 증분 계산 또는 결정과 같은 처리를 하게 된다. 따라서, MPU(14)를 이용하여 동시 분배 처리를 실행할 수 있다. 로컬 대상 처리가 실행되는 DRAM 블럭이 동시 분배 처리의 실행시 명령 캐쉬로부터 캐쉬-아웃되는 것을 알 수 있다.

도 7은 2차 캐쉬(11)의 MPU(16)가 프로세스 기능을 실행하는 경우 실행된 데 이터의 흐름을 도시한다. MPU(16)는 소정의 범위내에서 대상의 분배 처리를 실행한다. 즉, MPU(16)는 CPU(10)가 내린 제어 프로토콜에 따라 CPU(10)에 의해 처리될 필요가 없는 대상의 처리를 착수한다. MPU(16)에 의해 실행된 분배 처리의 실시예는 글로벌 전송 처리 그리고 하위-계산 및 고전송속도 처리, 예를 들어, 하나의 DRAM(13-1)으로부터 다른 DRAM(13-2)로의 데이터 전송이다.

근본적으로, MPU(16)는 모든 메모리에 접속할 수 있어서, CPU(10)를 대신하여 프로세스를 실행하는 멀티프로세서 시스템의 역할을 한다. 그러나, MPU(16)의 계산 능력이 CPU(10)의 계산 능력보다 훨씬 낮기 때문에, MPU(16)는 대규모 데이터의 글로벌 전송과 같은 대규모 전송에 가장 적합하게 이용될 수 있다. 그러므로, MPU(16)은 CPU(10)의 고수준의 계산 능력 또는 명령 1차 캐쉬의 복잡한 기능을 필요로 하지 않는 종류의 처리를 선택적으로 실행한다. MPU(16)에 의해 실행된 처리도 또한 CPU(10)가 내린 제어 프로토콜의 제어하에 있다.

도 8은 지능형 사전추출 명령을 나타낸다. 지능형 사전추출 명령(IPREF)은 종래의 프로그래밍 스타일의 변화를 필요로 하지 않으면서 CPU(10)에 종속하는 MPU(16 및 14)의 제어를 할 수 있게 하는 수단으로 이용된다. 도 8에 대해, CPU(10)는 I 캐쉬(10a) 및 D 캐쉬(10b)를 포함한다. 프로세서(10b)로서 MPU(16)의 이용에 캐쉬 코히어런스(coherence) 문제가 부딪힌다. 즉, MPU(16)에 의해 프로그램 실행의 결과로 변한 데이터가 CPU(10)의 D 캐쉬(10b)에 수용된 데이터와 일치하지 않을 수 있다. 이런 문제를 피하기 위해, CPU(10)가 MPU(16)에게 일을 실행하라고 명령하는 경우, CPU(10)의 D 캐쉬(10b)의 데이터가 캐쉬-아웃되도록 상기 도 시된 실시형태가 배열되고, 그래서 D 캐쉬(10)의 컨텐트는 MPU(16)에 의해 프로그램 실행 결과로 얻은 새로운 데이터(지정 데이터)로 업데이트된다.

MPU(16)는 본질적으로 캐쉬이고, 그래서 캐쉬의 기능이 제어될 수 있다. 결국, MPU(16)는 일반적인 캐쉬가 사전추출 명령에 따라 작동하듯이 동일한 방식으로 IPREF 명령에 따라 일을 처리한다. 그러므로, IPREF 명령을 수단으로 캐쉬 및 MPU(16) 둘 다 동시에 제어할 수 있다. 보다 구체적으로, MPU(16)은 사전추출 명령에 응답하여 캐쉬의 기능을 하고, IPREF 명령에 응답하여 일을 처리한다.

다시 말해서, 도 8에 대해, IPREF는 CPU(10)가 내린 확장 명령이다. 실행시, 이 확장 명령은 D 캐쉬(10b)에서 지정 영역의 캐쉬-아웃에 영향을 끼치고 제어 프로토콜을 하위 계층의 캐쉬에 보낸다. 제어 프로토콜 수신시, 하위 계층의 지정 MPU는 하위 계층의 DRAM 또는 메모리 블럭에 접속하여 프로토콜에 의해 지정된 프로그램을 실행하고, 소정의 데이터를 캐쉬 메모리에 넣는다.

최대값을 결정하기 위한 검색의 실시예가 아래 도시되어 있다.

IPREF DRAM0/*Maximum value from data in DRAM0*/

IPREF DRAM1/*Maximum value from data in DRAM1*/

IPREF DRAM2/*Maximum value from data in DRAM2*/

IPREF DRAM3/*Maximum value from data in DRAM3*/

Load r0 DRAM1-MAX/*Read maximum value in DRAM0*/

Load r1 DRAM1-MAX/*Read maximum value in DRAM1*/

Load r2 DRAM1-MAX/*Read maximum value in DRAM2*/

Load r3 DRAM1-MAX/*Read maximum value in DRAM3*/

Max r0, r0, r1

Max r2, r2, r3

Max r0, r0, r2/*Retrieval of maximum value data end*/

본 실시예는 도 8에 도시된 지정 데이터가 DRAM0 내지 DRAM3에 등록된 것을 고려한 것이다. 상기 명령(IPREF DRAM0 내지 IPREF DRAM3)은 지정 프로그램을 실행하기 위한 명령이다. 등록된 프로그램은 D 캐쉬(10b)의 지정 영역의 컨텐츠의 캐쉬-아웃에 영향을 준 후에 IPREF 명령에 따라 실행된다. 상기 IPREF는 DRAM0 내지 DRAM3에서 실행된 데 반하여, CPU(10)는 제어 프로토콜을 DRAM1 내지 DRAM3에 보낸다. 로드 명령은 최대값이 캐쉬에서 설정될 때 실행된다. 이 경우에, 얻을 수 있는 최대값의 수가 DRAM의 전송 크기에 달려있지만, 4개의 IPREF 명령 및 4개의 로드 명령을 포함하여 8개의 명령을 이용하여 4개의 최대값을 결정할 수 있다. 진짜 최대값은 얻은 최대값을 서로 검사함으로써 결정된다.

전술한 것에서 알 수 있는 바와 같이, 본 발명에 따라, 종속 순위 계층에 대해 캐쉬 로직 및 프로세서 둘 다 역할을 하는 프로세서 시스템이 제공된다. 이 프로세서 시스템으로 종래의 프로그래밍 스타일의 어떤 변형도 필요없이 고속, 동시 효율 처리에 영향을 줄 수 있다.

전술한 것을 고려하여, 본 발명의 목적은 종래의 프로그래밍 스타일의 임의의 변화 또는 변형을 할 필요없이 병렬 처리를 실행하는 고속 프로세서 시스템, 이 런 고속 프로세서 시스템을 만드는 방법, 및 컴퓨터-판독가능 및 컴퓨터-실행가능한 프로그램을 기록하는 기록 매체를 제공하는 것이다.

Claims

1차 캐쉬 메모리를 가진 CPU;

상기 CPU보다 하위 계층에 배열되고 제1MPU를 가진 2차 캐쉬 메모리; 및

상기 2차 캐쉬 메모리에 연결되고 서로 병렬로 배열되며 제2MPU가 설치된 3차 캐쉬 메모리를 각각 가진 다수의 메인 메모리;를 포함하되,

상기 각각의 제1MPU 및 제2MPU는 동시 분배 처리를 할 수 있도록 캐쉬 논리 기능 및 프로세서 기능 둘 다 가진 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 3차 캐쉬 메모리는 상기 1차 캐쉬 메모리의 라인 크기보다 큰 상기 2차 캐쉬 메모리의 라인 크기보다 큰 라인 크기를 가진 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 제1MPU 및 상기 제2MPU는 상기 CPU와 2진-호환되는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 각각의 상기 2차 캐쉬 메모리 및 상기 3차 캐쉬 메모리가 통합 캐쉬 메모리로 이루어지는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 2차 캐쉬 메모리가 상기 CPU로부터 2차 캐쉬 메모리로 그리고 상기 제1MPU로부터 1차 캐쉬 메모리로 접속되는 것을 특징으로 하는 고 속 프로세서 시스템.

제 1 항에 있어서, 상기 3차 캐쉬 메모리는 상기 CPU로부터 3차 캐쉬 메모리, 상기 제1MPU로부터 2차 캐쉬 메모리, 및 상기 2차 MPU로부터 1차 캐쉬 메모리로 접속되는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 제1MPU 및 상기 제2MPU에 의해 실행된 데이터 처리 각각은 상기 CPU가 내린 사전추출 명령 또는 지능형 사전추출 명령에 의해 실행된 제어 프로토콜에 따라 실행되는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 제1MPU 및 상기 제2MPU 각각은 데이터 전송 크기 및 데이터 전송 주파수에 따라 데이터 처리를 선택적으로 하는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 제1MPU는 상기 다수의 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 글로벌 전송 처리 또는 하위 계산 및 고전송속도 처리를 실행하는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 제2MPU 각각은 관련된 단일 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 로컬 대상 처리를 실행하는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, 상기 메인 메모리는 DRAM에 의해 실행되고, 각각의 상기 1차 캐쉬 메모리 및 상기 2차 캐쉬 메모리는 SRAM에 의해 실행되는 것을 특징으로 하는 고속 프로세서 시스템.

제 1 항에 있어서, ASIC-DRAM으로서 단일 칩에서 실행되는 것을 특징으로 하는 고속 프로세서 시스템.

1차 캐쉬 메모리를 가진 CPU, 상기 CPU보다 하위 계층에 배열되고 제1MPU를 가진 2차 캐쉬 메모리, 및 상기 2차 캐쉬 메모리에 연결되고 서로 병렬로 배열되며 제2MPU가 설치된 3차 캐쉬를 각각 가진 다수의 메인 메모리를 포함하는 고속 프로세서 시스템을 이용한 방법으로서,

동시 분배 처리가 실행되도록,

상기 CPU가 주로 고위 산술 처리를 실행하게 하는 단계;

상기 제1MPU가 글로벌 전송 처리 그리고 하위-계산 및 고전송속도 처리를 실행하게 하는 단계; 및

상기 제2MPU중 하나가 상기 제2MPU와 관련된 상기 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 로컬 대상 처리를 실행하게 하는 단계를 포함하는 것을 특징으로 하는 고속 프로세서 시스템을 이용하는 방법.

제 13 항에 있어서, 상기 제1MPU 및 상기 제2MPU에 의해 실행된 각각의 데이터 처리가 상기 CPU가 내린 사전추출 명령 또는 지능형 사전추출 명령에 의해 실행된 제어 프로토콜에 따라 실행되는 것을 특징으로 하는 고속 프로세서 시스템을 이용하는 방법.

제 13 항에 있어서, 상기 고속 프로세서 시스템은 일반적인 프로그래밍 스타일로 제어되는 것을 특징으로 하는 고속 프로세서 시스템을 이용하는 방법.

제 13 항에 있어서, 상기 제1MPU 및 상기 제2MPU중 적어도 하나가 데이터를 처리하기 위해 데이터 프로세스 기능을 실행하는 경우, MPU가 속하는 블럭이 캐쉬-아웃이 되게 유지되는 것을 특징으로 하는 고속 프로세서 시스템을 이용하는 방법.

1차 캐쉬 메모리를 가진 CPU, 상기 CPU보다 하위 계층에 배열되고 제1MPU를 가진 2차 캐쉬 메모리, 및 상기 2차 캐쉬 메모리에 연결되고 서로 병렬로 배열되며 제2MPU가 설치된 3차 캐쉬를 각각 가진 다수의 메인 메모리를 포함하는 고속 프로세서 시스템에 이용된 컴퓨터-판독가능 및 컴퓨터-실행가능한 프로그램을 기록한 기록 매체로서,

상기 프로그램은,

상기 CPU로부터 상기 제1MPU 및 상기 제2MPU로 내려질 사전추출 명령 또는 지능형 사전추출 명령의 문맥(context)의 제어 프로토콜을 포함하고;

상기 제1MPU는 상기 다수의 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 글로벌 전송 처리 또는 하위-계산 및 고전송속도 처리를 실행하며; 그리고

동시 분배 처리가 실행되도록, 상기 제2MPU는 관련된 단일 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 로컬 대상을 실행하는 것을 특징으로 하는 컴퓨터-판독가능 및 컴퓨터-실행가능한 프로그램을 기록한 기록 매체.

1차 캐쉬 메모리를 가진 CPU; 및

상기 CPU에 연결되고 서로 병렬로 배열되며, MPU가 설치된 2차 캐쉬 메모리를 각각 가진 다수의 메인 메모리를 포함하고,

동시 분배 처리를 가능케 하도록, 상기 MPU 각각은 캐쉬 로직 기능 및 프로세서 기능 둘 다 가진 것을 특징으로 하는 고속 프로세서 시스템.

제 18 항에 있어서, 상기 2차 캐쉬 메모리 각각은 통합 캐쉬 메모리로 이루어지는 것을 특징으로 하는 고속 프로세서 시스템.

제 18 항에 있어서, 상기 2차 캐쉬 메모리는 상기 CPU로부터 2차 캐쉬 메모리로 그리고 상기 MPU로부터 1차 캐쉬 메모리로 접속되는 것을 특징으로 하는 고속 프로세서 시스템.

제 18 항에 있어서, 상기 MPU에 의해 실행된 데이터 처리가 상기 CPU가 내린 사전추출 명령 또는 지능형 사전추출 명령에 의해 실행된 제어 프로토콜에 따라 실행되는 것을 특징으로 하는 고속 프로세서 시스템.

제 18 항에 있어서, 상기 MPU 각각은 관련된 단일 메인 메모리에 저장된 데이터 및 프로그램을 이용하여 로컬 대상 처리를 실행하는 것을 특징으로 하는 고속 프로세서 시스템.

제 18 항에 있어서, 상기 메인 메모리는 DRAM에 의해 실행되고, 상기 1차 캐쉬 메모리 및 상기 2차 캐쉬 메모리 각각은 SRAM에 의해 실행되는 것을 특징으로 하는 고속 프로세서 시스템.

제 18 항에 있어서, ASIC-DRAM으로서 단일 칩에서 실행되는 것을 특징으로 하는 고속 프로세서 시스템.