KR100307980B1

KR100307980B1 - 산술 또는 논리 연산의 수행과 동시에 조건 코드 비트를 발생하는 방법 및 시스템

Info

Publication number: KR100307980B1
Application number: KR1019990000190A
Authority: KR
Inventors: 번즈제프리엘.; 동상후; 나우카케빈존; 실버맨조엘아브라함
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1998-01-12
Filing date: 1999-01-02
Publication date: 2001-09-26
Also published as: JPH11282675A; CN1103957C; KR19990067773A; US6035390A; CN1225467A; JP3122420B2

Abstract

본 발명은 하나 또는 그 이상의 피연산자를 이용하는 명령어에 의해 지시되는 연산을 수행하므로써 명령어를 실행하는 유닛과, 상기 실행 유닛에 의한 명령어를 실행함과 동시에 이 명령어와 관련된 '작은(less than;이하 'LT'라 한다.)', '큰(greater than;이하 'GT'라 한다.)' 및 '동일(equal than;이하 'EQ'라 한다.)' 조건 코드 비트를 결정하는 조건 코드 로직을 적어도 포함하는 프로세서를 개시하고 있다. 일 실시예에서, 조건 코드 로직은 제 1 및 제 2 피연산자 내의 비트 위치의 개개의 비트 값을 입력으로 수신하고, 수신된 비트 값들의 각각을 논리적으로 결합하는 단일 계산 스테이지를 포함하고 있다. 이러한 계산 스테이지는 각각의 비트 위치에 대하여, LT, GT 및 EQ 조건 코드 비트의 값을 집합적으로 표시하는 전달, 발생 및 소멸 신호를 출력한다. 그후 계산 스테이지에 접속된 하나 또는 그 이상의 병합 스테이지는 전달, 발생 및 소멸 신호를 조건 코드 비트를 설정하는 출력 신호와 병합한다.

Description

산술 또는 논리 연산의 수행과 동시에 조건 코드 비트를 발생하는 방법 및 시스템{METHOD AND APPARATUS FOR GENERATING LESS THAN (LT), GREATER THAN (GT), AND EQUAL TO (EQ) CONDITION CODE BITS CONCURRENT WITH AN ARITHMETIC OR LOGICAL OPERATION}

본 발명은 일반적으로 데이터 처리 방법 및 시스템에 관한 것으로, 특히 조건 코드 비트(condition code bits)를 계산하는 방법 및 장치에 관한 것이다. 특히, 본 발명은 '작은(LT)', '큰(GT)' 및 '동일한(EQ)' 조건 코드 비트를 명령어수행과 동시에 계산하는 방법 및 장치에 관한 것이다.

종래 슈퍼스칼라 프로세서(superscalar processor)는, 예를 들어, 명령어를저장하는 명령어 캐시(an instruction cache), 실행을 위해 명령어 캐시로부터 인출된 명령어를 임시 저장하는 명령어 버퍼(an instruction buffer), 순차 명령어(sequential instructions)를 실행하는 하나 또는 그 이상의 실행 유닛(one or more execution units), 분기 명령어를 실행하는 분기 처리 유닛(a branch processing unit : BPU), 명령어 버퍼로부터의 순차 명령어를 특정 실행 유닛으로디스패치하는 디스패치 유닛(a dispatch unit), 및 실행은 종료했으나 완결되지 않은 순차 명령어를 임시 저장하는 종료 버퍼(a completion buffer)를 포함할 수 있다.

슈퍼스칼라 프로세서의 분기 처리 유닛(BPU)에 의해 실행되는 분기 명령어는조건부 또는 무조건부 분기 명령어로 분류될 수 있다. 무조건부 분기 명령어(unconditional branch instructions)는 프로그램 실행 흐름을 순차적인 실행 경로로부터 특정 타켓 실행 경로로 변경하며, 어떠한 이벤트의 발생에 의해 제공되는 조건에 의존하지 않는 분기 명령어이다. 그러므로 무조건부 분기 명령어에 의해 지정된 분기는 항상 이루어진다. 이에 반하여, 조건부 분기 명령어(conditional branch instructions)는 프로그램 흐름 내의 지정된 분기가 프로세서 내의 조건(예를 들어, 특정 조건 레지스터 비트의 상태 또는 카운터의 값)에 의존하여 이루어질수도 있고 이루어지지 않을 수도 있는 분기 명령어이다. 조건부 분기 명령어는 분기 처리 유닛(BPU)에 의해 계산될 때 분기가 의존하는 조건이 이용가능한 지 여부에 따라 도출식(resolved) 또는 비도출식(unresolved)으로 또한 분류될 수 있다. 도출식 조건부 분기 명령어가 의존하는 조건은 실행 전에 알려지므로, 도출식 조건부 분기 명령어는 일반적으로 실행될 수 있고, 타켓 실행 경로 내의 명령어는 순차 명령어의 실행에서 지연(delay)이 거의 없거나 전혀 없이 인출될 수 있다. 그러므로 조건부 분기 명령어가 실행 전에 해결될 수 있도록 조건 레지스터 비트, 또는 조건부 분기 명령어가 의존할 수 있는 다른 조건을 가능한 한 빨리 결정하는 것이 유리하다. 비록 조건부 분기 명령어가 그 실행 전에 해결되지 않는다 하더라도(이것은 조건부 분기가 추론적으로 예측됨을 의미함), 오측(misprediction)으로 발생된 성능 패널티(performance penalty)가 최소화되므로 조건부 명령어가 의존하는 조건을 가능한 한 빨리 계산하는 것이 유리하다.

조건부 분기 명령어가 의존할 수 있는 조건 레지스터 비트는 소정의 구조적으로 정의된 명령어(predetermined architecturally defined instructions), 예를들어, 비교 명령어(compare instructions)와 덧셈, 뺄셈 등의 산술 명령어(arithmetic instructions)와 논리 명령어(logical instructions)의 소정 '기록(recording)' 형식에 따라 설정된다. 비교 명령어와 기록 명령어에 의해 설정된 조건 레지스터 비트는 'LT' 비트, 'GT' 비트 및 'EQ' 비트를 포함하는데, 이는 특정 명령어의 결과가 0에 비해 작거나, 크거나 또는 동일한 것을 각각 가리킨다. 종래의 프로세서는 우선 명령어(예를 들어, 덧셈)의 결과를 결정하고, 그 후에 조건 레지스터 비트를 발생시키기 위하여 다음 사이클에서 그 결과를 0과 비교한다. 다음에서 설명되는 바와 같이, 이러한 직렬 구조(serial architecture)는 조건 레지스터 비트가 결정될 수 있는 속도에 대해 내재적인 한계를 갖도록 한다. 최근에 소정 유형의 명령어의 실행과 병렬적으로 EQ 비트의 값을 결정하기 위하여, 다양한 기술이 채택되었다. 비록 EQ 비트 값의 초기 결정이 종래의 직렬 방법에 비해 성능면에서 어느 정도 이점이 있지만, 분기 처리 성능을 강화하기 위해 산술 및 논리 연산과 동시에 모든 LT, QT 및 EQ 비트 값을 계산하는 방법 및 장치는 업계에서 여전히 필요하다.

따라서, 본 발명의 목적은 데이터 처리에 대한 향상된 방법 및 시스템을 제공하는 것이다.

또한 본 발명의 목적은 조건 코드 비트(condition code bits)를 계산하는 향상된 방법 및 장치를 제공하는 것이다.

또한 본 발명의 목적은 명령어의 실행과 동시에 'LT', 'GT', 'EQ' 조건 코드 비트를 계산하는 방법 및 장치를 제공하는 것이다.

상기 목적들은 지금부터 기술되는 바와 같이 달성된다. 프로세서는 하나 또는 그 이상의 피연산자(operands)를 이용하여 명령어에 의해 지시되는 연산을 수행하므로써 명령어를 실행하는 적어도 하나의 실행 유닛(at least an execution unit)과, 실행 유닛에 의해 명령어를 실행함과 동시에 명령어와 관련된 'LT', 'GT', 'EQ' 조건 코드 비트를 결정하는 조건 코드 로직(condition code logic)을 포함한다. 일 실시예에서, 조건 코드 로직은 제 1 및 제 2 피연산자 내에 있는 비트 위치의 각각에 대한 비트 값을 입력으로서 수신하고, 개개의 비트 값을 논리적으로 결합하는 단일 계산 스테이지(computation stage)를 포함한다. 이러한 단일 계산 스테이지는 각각의 비트 위치에 대하여 'LT', 'GT' 및 'EQ' 조건 코드 비트 값을 집합적으로 표시하는 전달(propagate), 발생(generate), 및 소멸(kill) 신호들을 출력시킨다. 이 계산 스테이지에 접속된 하나 또는 그 이상의 병합 스테이지(one or more merging stages)는 그후 전달, 발생, 및 소멸 신호들을 조건 코드 비트를 설정하는 출력 신호들과 병합시킨다.

본 발명의 상기 및 기타 목적(objects), 특징(features) 및 이점(advantages)은 다음의 상세한 설명에서 분명하게 될 것이다.

도 1은 본 발명의 방법 및 시스템이 이용될 수 있는 데이터 처리 시스템의 블록도.

도 2는 도 1에 도시된 프로세서의 조건 코드 유닛(condition code unit : CCU)의 블록도.

도 3은 명령어의 실행과 병렬적으로 LT, GT 및 EQ 조건 레지스터 비트를 계산하는 것을 설명하는 타이밍도.

*도면의 주요부분에 대한 부호의 설명

10 : 프로세서 12 : 버스 인터페이스 유닛

14 : 명령어 캐시 16 : 데이터 캐시

18 : 분기 처리 유닛 19 : 명령어 큐

22 : 고정소수점 유닛 24 : 조건 코드 유닛

28 : 적재 저장 유닛 30 : 부동소수점 유닛

32 : 범용 레지스터 33 : 범용 레지스터 재명명 버퍼

36 : 부동소수점 레지스터 37 : 부동소수점 레지스터 재명명 버퍼

40 : 카운트 레지스터 42 : 링크 레지스터

44 : 조건 레지스터 46 : 조건 레지스터 재명명 버퍼

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.

도 1에는 첨부된 청구항에 기재된 발명에 따라 정보를 처리하는 프로세서(일반적으로 참조번호 10으로 표시)의 예시적인 블록도가 도시되어 있다. 도 1에서, 프로세서(10)는 단일 집적 회로 슈퍼스칼라 마이크로프로세서(a single integrated circuit superscalar microprocessor)로 구성된다. 따라서 이하에서 기술되는 바와같이, 프로세서(10)는 다양한 실행 유닛(execution units), 레지스터(registers), 버퍼(buffers), 메모리(memories), 및 기타 기능 유닛(functional units)을 포함하는데, 이들은 모두 집적 회로부(integrated circuitry)에 의해 형성된다. 프로세서(10)는 PowerPC^TM604(주문번호 MPR604UMU-01로 IBM Microeletronics로부터 입수가능한 PowerPC^TM604 RISC Microprocessor User's Manual에 상세하게 기술되어 있으며, 이는 여기에서의 인용에 의해 본 명세서에 통합됨)와 같은, IBM Microelectronics로부터 입수가능한 마이크로프로세서의 PowerPC^TM계열의 하나로 구성되는 것이 바람직하다. 그러나 당업자는 다음의 설명으로부터 본 발명이 다른 적절한 프로세서 내에서도, 특히 조건부 분기 명령어를 해결하기 위하여 조건 코드 비트를 이용하는 프로세서 내에서 유리하게 구현될 수 있음을 이해할 것이다.

도 1에 도시된 바와 같이, 프로세서(10)는 버스(11)에 프로세서(10)내의 버스 인터페이스 유닛(BIU)(12)을 경유하여 접속된다. BIU(12)는 프로세서(1O)와, 주 메모리(main memory)(도시되지 않음)와 같이 버스(11)에 접속된 다른 장치 사이의 정보의 전달을 제어하며, 프로세서(10) 및 버스(11)와 함께 충분히 기능하는 데이터 처리 시스템을 형성한다. BIU(12)는 또한 프로세서(1O) 내의 명령어 캐시(14) 및 데이터 캐시(16)에 접속된다. 명령어 캐시(14) 및 데이터 캐시(16)와 같은, 고속의 캐시는 주 메모리로부터 캐시(14,16)로 이전에 전송된 데이터 또는 명령어의 서브세트(subset)에 프로세서(1O)가 상대적으로 빠르게 접근할 수 있도록 하므로써, 데이터 처리 시스템의 전체 성능을 향상시킨다. 명령어 캐시(14)는 또한 순차 인출기(sequential fetcher)(17)에 접속되는데, 이 순차 인출기는 각 사이클 동안 명령어의 캐시 라인(a cache line of instructions)을 명령어 캐시(14)로부터 인출하고, 인출된 명령어를 분기 처리 유닛(BPU)(18)과 명령어 큐(instruction queue)(19)로 전송한다. 분기 명령어들(branch instructions)은 BPU(18)에 의한 실행을 위해 유지되며 명령어 큐(19)로부터는 삭제된다. 한편, 순차 명령어들(sequential instructions)은 BPU(18)로부터 삭제되고, 프로세서(10) 내의 순차 명령어 실행 회로(sequential instruction execution circuitry)에 의한 순차 실행(sequential execution)을 위해 명령어 큐(19)내로 버퍼링된다.

BPU(18)은 카운트 레지스터(CTR)(40), 링크 레지스터(LR)(42), 및 조건 레지스터(CR)(44)를 포함하는데, 이들의 값은 조건부 분기 명령어를 해결하기 위하여 이용될 수 있다. BPU(18)는 CR 재명명 버퍼(46)를 또한 포함하는데, 이는 비교 명령어의 실행에 의해 발생되거나 또는 소정 기록 명령어의 실행과 병렬적으로 발생된 CR(44)의 재명명된 사본을 일시적으로 저장한다. 바람직한 실시예에서, CR(44)(및 CR 재명명 버퍼(46)의 각각)은 각각이 하나 또는 그 이상의 비트를 구비하고 있는 다수의 구별된 필드(fields)를 포함하고 있다. 이러한 필드 중에서 조건 코드 필드는 LT, GT, 및 EQ 비트를 구비하며, 이들은 값(일반적으로, 명령어의 결과)이 0에 비해 작은 지, 큰 지, 또는 동일한 지 여부를 각각 가리킨다. CR(44), LR(42) 또는 CTR(40) 참조에 의하여 실행 전에 해결될 수 없는 조건부 분기 명령어는 분기 이력 테이블(branch history table : BHT) 또는 분기 타겟 어드레스 캐시(branch target adress cache : BTAC)와 같은 BPU(18) 내의 종래 분기 처리 회로부를 이용하여 예측되는 것이 바림직하다.

도시된 실시예에서, 프로세서(1O)의 실행 회로부(execution circuitry)는 BPU(18) 외에도, 하나 또는 그 이상의 고정소수점 유닛(one or more fixed-point units : FXUs)(22), 적재-저장 유닛(a load-store unit : LSU)(28), 및 부동소수점 유닛(a floating-point unit : FPU)(30)을 포함하여, 순차 명령어를 위한 다수의 실행 유닛(execution units)을 구비하고 있다. 컴퓨터 업계의 당업자에게 잘 알려져 있는 바와 같이, 실행 유닛(22, 28, 30)의 각각은 일반적으로 각 프로세서 사이클 동안에 특정 유형의 순차 명령어 중에서 하나 또는 그 이상의 명령어를 실행한다. 예를 들어, FXUs(22)는 덧셈, 뺄셈, 논리곱, 논리합, 및 배타적 논리합과 같은 고정소수점 산술 및 논리 연산을 특정 범용 레지스터(general purpose register : GPRs)(32) 또는 GPR 재명명 버퍼(33)로부터 수신되는 소오스 피연산자를 이용하여 수행한다. 고정소수점 명령어의 실행에 이어서, FXU(22)는 명령어의 결과 데이터를 GPR 재명명 버퍼(33)에 출력하는데, 이 GPR 재명명 버퍼(33)는 그 결과 데이터가 하나 또는 그 이상의 GPRs(32)로 기록되기 전까지 그 결과 데이터를 일시적으로 저장한다. FPU(30)은 일반적으로 부동소수점 곱셈 및 나눗셈과 같은, 단일 정밀도(single-precision) 및 2배 정밀도(double-precision) 부동소수점 산술 및 논리 연산을 부동소수점 레지스터(FPRs)(36) 또는 FPR 재명명 버퍼(37)로부터 수신된 소오스 피연산자(source operands)에 대해 수행한다. FPU(30)은 부동소수점 명령어 실행의 결과 데이터를 소정의 FPR 재명명 버퍼(37)로 출력하는데, 이 FPR 재명명 버퍼는 결과 데이터가 소정의 FPRs(36)로 기록되기 전까지 임시적으로 그 결과 데이터를 저장한다. 그 명칭이 의미하는 바와 같이, LSU(28)는 일반적으로 메모리(즉, 데이터 캐시(16) 또는 주 메모리)로부터의 데이터를 소정의 GPRs(32) 또는 FPRs(36)으로 적재하거나 또는 GPRs(32), GPR 재명명 버퍼(33), FPRs(36) 또는 FPR 재명명 버퍼(37)의 어느 하나로부터의 데이터를 메모리로 저장하는 부동소수점 및 고정소수점 명령어를 실행한다.

실행 유닛(22, 28, 30) 뿐만 아니라, 프로세서(10)의 실행 회로부는 부호성 및 비부호성 비교 명령어(signed and unsigned compare instructions)를 직접 실행하고, 다른 실행 유닛에 의해 처리된 기록 명령어(recording instructions)에 대한 조건 코드 비트를 계산하는 조건 코드 유닛(condition code unit : CCU)(24)를 포함한다. 도시된 바와 같이, CCU(24)는 디스패치되는 각 비교 및 기록 명령어의 명령어 유형을 지시하는 4개의 제어 신호(21)를 디스패치 유닛(dispatch unit)(24)으로부터 수신한다. CCU(24)는 또한 각 비교 및 기록 명령어에 의해 특정되는 피연산자를 GPRs(32) 및 GPR 재명명 버퍼(33)(다른 소오스도 가능함)로부터 수신한다. PowerPC^TM명령어 세트 구조에서 CCU(24)가 조건 코드 비트를 계산하는 비교 및 기록 명령어는 다음의 표 1에 정리된다.

표 1에서, 명령어 니모닉(instruction mnemonic)에 수반되는 마침표('.')는 그 마침표가 없는 경우 니모닉이 조건 코드 비트를 설정하지 않는 명령어의 기록 형태임을 표시한다. 피연산자 명칭에 선행하는 느낌표('!')는 피연산자의 일의 보수(one's complement)임을 표시한다. CA는 캐리인 비트(carry-in bit)로 구조적으로 정의된다. 제어신호 ADD, SUB, S_CMP 및 US_CMP는 덧셈, 뺄셈, 부호성 비교(signed compare) 및 비부호성 비교(unsigned compare) 명령어를 각각 표시한다. 본 발명에 따라서, CCU(24)는 하나의 사이클 내에서 결과적인 LT, GT, 및 EQ 조건 코드 비트를 얻기 위하여 비교 명령어를 직접 실행한다. CCU(24)는 또한 FXUs(22)에 의한 기록 명령어(recording instruction) 실행과 동시에 기록 명령어에 대한 LT, GT 및 EQ 조건 코드 비트를 단일 사이클에서 계산한다. 이러한 방식으로, 조건부 분기 명령어가 의존하는 조건들은 가능한 한 일찍 계산되므로써, 예측과정을 줄이고 분기 오측(branch misprediction)으로부터 더 빨리 회복할 수 있게 한다.

프로세서(10)는 그 슈퍼스칼라 구조의 성능을 향상시키기 위하여 명령어의 파이프라이닝(pipelining)과 순서이탈(out-of-order)실행 둘 다를 이용한다. 따라서, 명령어는 데이터 의존성(dependencies)과 반의존성(antidependencies)이 관찰되는 동안은 여하한 순서로 FXU(22), CCU(24), LSU(28), 및 FPU(3O)에 의해 틈틈이(oportunistically) 실행될 수 있다. 또한 많은 고성능 프로세서에서 일반적인 것과 같이, 각 명령어는 인출(fetch), 디코드(decoed)/디스패치(dispatch), 실행(execute), 종료(finish), 및 완결(completion)/라이트백(writeback)을 포함한, 많은 파이프라인 단계에서 처리된다.

인출 단계 동안에, 순차 인출기(17)는 명령어 캐시(14)로부터 명령어의 캐시 라인(a cash line of instructions)을 검색(retrieve)한다. 앞에서 지적한 바와 같이, 분기 명령어는 순차 명령어 스트림(sequential instructions stream)으로부터 제거(폴드아웃)되는 반면에, 명령어 캐시(14)로부터 인출된 순차 명령어는 명령어 큐(19)내로 버퍼링된다. 분기 명령어는 잔여 파이프라인 단계의 각각에서 BPU(18) 내의 회로부에 의해 처리된다.

디코드/디스패치 단계 동안에, 디스패치 유닛(20)은 명령어 큐(19)로부터의하나 또는 그 이상의 순차 명령어를 디코드하여 실행 유닛(22, 24, 28, 30)으로 디스패치한다. 디코드/디스패치 단계 동안에, 필요한 경우 디스패치 유닛(20)은 또한 GPR 재명명 버퍼(33) 또는 FPR 재명명 버퍼(37) 내의 재명명 버퍼를 각 디스패치된 명령어의 결과 데이터를 위해 할당한다. 도시된 실시예에서, 디스패치 유닛(20)에 의해 디스패치된 명령어는 또한 완결 유닛(completion unit)(40)내의 완결 버퍼(completion buffer)로 넘겨진다. 프로세서(1O)는 순서이탈 실행 동안에 완결 유닛의 완결 버퍼내의 명령어와 관련된 유일한 명령어 식별자(instruction identifier)를 이용하여 디스패치된 명령어의 프로그램 순서를 추적한다.

실행 단계 동안에, 지시된 연산에 대한 피연산자와 실행 자원(execution resources)이 이용가능하게 되면 실행 유닛(22, 24, 28, 30)은 디스패치 유닛(20)으로부터 수신된 순차 명령어를 틈틈이 실행한다. 피연산자 또는 실행 자원이 이용가능하게 될 때까지 실행 유닛(22, 24, 28, 30)의 각각은 그 실행 유닛으로 디스패치되는 명령어를 저장하는 예약 스테이션(a reservation station)을 갖추는 것이 바람직하다. 명령어 실행이 마쳐진 후에, 실행 유닛(22, 28, 3O)은 GPR 재명명 버퍼(33) 또는 FPR 재명명 버퍼(37) 내로, 명령어 유형에 의존하여 명령어의 결과 데이터를 저장한다. 한편 CCU(24)는 그것이 발생한 조건 코드 비트를 CR 재명명 버퍼(46) 중 하나의 조건 코드 필드 내로 저장한다.

다음에, 실행 유닛(22, 24, 28, 30)은 완결 유닛(40)의 완결 버퍼 내에 저장된 명령어가 실행을 종료했음을 완결 유닛(40)에 알린다. 그후 명령어가 완결(complete)된 것으로 완결 버퍼 내에서 표시하므로써, 명령어는 완결 유닛(40)에 의해 프로그램 순서로 완결된다. 그후, 라이트백 단계(완결 단계와 병합되는 것이 바람직함) 동안에, 명령어의 결과는 CR 재명명 버퍼(46)로부터 CR(44)로, 그리고 GPR 재명명 버퍼(33)와 FPR 재명명 버퍼(37)로부터 GPRs(32)와 FPRs(36)로 각각 전송된다.

도 2에는 CCU(24)의 더욱 상세한 블록도가 도시되어 있다. 도시된 바와 같이, CCU(24)는 단일 계산 스테이지(a single computation stage)(60) 및 3개의 병합 스테이지(three merging stages)(62, 64, 66)을 포함한다. 계산 스테이지(60)는 각 피연산자의 비트 위치(예를 들어, 도시된 실시예에서는 64개)에 대해 하나의 조합 엘리먼트(one combination element)(68)를 포함한다. 비트 위치 0-62의 각각에 대한 조합 엘리먼트(68)들은 디스패치 유닛(20)에 의해 발생된 4개의 제어신호(21) 뿐만 아니라, 피연산자 A와 B의 해당 비트 위치와 차위 비트 위치(next less significant bit position)의 비트들을 입력으로서 수신한다. 비트 위치 63에 대한 조합 엘리먼트(68)는 입력으로서 피연산자 A와 B의 비트 63, 제어신호(21), CA 비트와 그 보수를 수신한다. 중요한 것은 CA 비트가 덧셈 명령어의 실행에 의해 발생될 수 있는 캐리(carry)가 아니라, 대신에 구조적으로 정의된 레지스터 내의 비트라는 것이다. 이러한 입력으로부터, 계산 스테이지(60)는 다음 방정식을 이용하여 비트 위치 0-63의 각각에 대한 전달(propagate)(P), 발생(generate)(G) 및 소멸(kill)(Z) 출력을 계산한다.

전달, 발생, 및 소멸 출력, 비트 O (MSB) :

P[0] =(((!A[0] or !B[0] and ((A[0] xor !B[0]) xor

(A[0+1] or B[0+1]))) and ADD) or

(((A[0] or !B[0]) and ((A[0] xor B[0]) xor

_

전달, 발생 및 소멸 출력, 비트 1-62 :

전달, 발생, 및 소멸 출력, 비트 63 (LSB) :

계산 스테이지(60)에 의해 만들어진 64 세트의 P, G 및 Z 신호는 그후 병합 스테이지(62)로 넘겨지며, 이 병합 스테이지는 캐리 예측 덧셈기(carry look-ahead adders : CLAs)에서 흔히 발견되는 것과 같은, 종래의 병합 회로부를 이용하여 4 세트의 각 그룹을 하나의 세트의 P, G 및 Z 신호로 병합한다. 병합 스테이지(62)에 유사하게 구성된 병합 스테이지(64, 66)는 병합 스테이지(62)에 의해 출력된 16 세트의 P, G 및 Z 신호를 하나의 세트의 P, G 및 Z 출력 신호로 병합한다. 병합 스테이지(66)에 의해 출력된 P 신호는 비교, 덧셈 및 뺄셈 명령어에 대한 EQ 비트의 값을 산출한다. 한편, G 및 Z 신호는 명령어 유형에 따라 다른 의미를 갖는다. 프로세서(1O)가 PowerPC^TM프로세서인 도시된 실시예에서, 병합 트리(merge tree)에 의해 출력된 G 신호는 비교 명령어에 대해서는 LT 비트의 값을, 그리고 덧셈 및 뺄셈 명령어에 대해서는 GT 비트의 값을 제공한다. 역으로, Z 신호는 비교 명령어에 대해서는 GT 비트의 값을, 그리고 덧셈 및 뺄셈 명령어에 대해서는 LT 비트의 값을 제공한다. 비교 명령어에 대하여, G 신호에 의해 제공된 LT 비트는 A<B 이면 1로 설정되고, Z 신호에 의해 제공된 GT 비트는 A>B 이면 1로 설정된다. 위에서 기술된 P, G 및 Z 신호는 다양한 프로세서 구조의 조건 코드 비트에 대한 올바른 값을 제공하지만, 각 신호의 의미는 특정 프로세서 구조가 비교 및 기록 명령어를 어떻게 구현했느냐에 따라 변할 수 있다. 일단 P, G 및 Z 신호가 CR 재명명 버퍼(46)의 하나 내에서 적절한 조건 코드 비트의 값을 설정하기 위하여 이용되었다면, 그후 조건 코드 비트는 조건부 분기 명령어를 해결하기 위하여 이용될 수 있다.

도 3에는 본 발명에 따라 명령어 실행과 병렬적으로 LT, GT 및 EQ 조건 코드비트를 계산하는 이점을 도시하는 타이밍도가 도시되어 있다. 도시된 바와 같이, 한가지 기록 형식(recording form)의 덧셈('adde.') 명령어와 적재('ld') 명령어가사이클 1 동안에 명령어 캐시(14)로부터 인출되고, '작은' 분기(a branch less than : 'blt') 명령어는 사이클 2 동안에 명령어 캐시(14)로부터 인출된다. 상기 'blt' 명령어는 덧셈 명령어에 의해 발생된 LT 비트의 상태에 의존하는 조건부 분기 명령어이다.

덧셈 명령어는 사이클 2 동안에 디스패치 유닛(20)에 의해 디코딩되며, 사이클 3 동안에 FXU(22)에 디스패치된다. 덧셈 명령어의 디스패치에 응하여, 제어신호(21) 중에서 ADD 제어신호가 단정되며(asserted), FXU(22)와 CCU(24)는 둘 다 덧셈명령어에 의하여 하나 또는 그 이상의 GPRs(32), GPR 재명명 버퍼(33) 및 CA 비트를 포함하고 있는 구조화된 레지스터로부터 특정된 피연산자를 수신한다. 사이클 4 동안에, FXU(22)는 덧셈 연산을 수행하고, 그 결과를 GPR 재명명 버퍼(33)의 하나에 저장한다. 덧셈 명령어의 실행과 병렬적으로, CCU(24)는 LT, GT 및 EQ 조건 코드 비트를 계산하여, CR 재명명 버퍼(46)의 하나에 그것들을 저장한다. 비록 'LT' 분기 명령어가 다음 사이클(예를 들어, 사이클 5) 동안에 BPU(18)에 의해 실행된다 할지라도, CR 재명명 버퍼(46)중 하나의 조건 코드 비트를 이용할 수 있는 것은 예측(speculation)없이 분기 명령어를 실행할 수 있게 한다. 반대로, 종래의 프로세서는 빨라야 사이클 5 동안에 조건 코드 비트를 결정할 수 있는데, 이는 예측에 의하여, 또는 조건이 도출될 때까지 단지 하나의 사이클이 지연되어 분기 명령어가 실행됨을 의미한다. 따라서, 본 발명은 분기 명령의 예측 실행(speculative execution)을 유리하게 감소시키므로써, 분기 오측에서 발생하는 부수의 성능 페널티(the attendant performance penalty)를 감소시킨다.

전술한 바와 같이, 본 발명은 LT, GT 및 EQ 조건 코드 비트를 계산하는 향상된 방법 및 장치를 제공한다. 본 발명에 따라, 조건 코드 유닛은 직접 부호성 및 비부호성 비교 명령어를 실행하며, 그러한 명령어 실행과 병렬적으로 기록 명령어와 관련된 조건 코드 비트를 계산한다. 조건 코드 비트를 계산하기 위하여 이용되는 회로부는 소형(compact)이며, 조건 코드 비트가 하나의 사이클 내에서 결정되도록 허용하기 위하여 단지 작은 수의 논리 레벨을 포함한다. 덧셈 및 뺄셈 명령어의경우, 조건 코드 유닛은 오버플로(overflow) 존재하에서 캐리인(carry-in : CA) 피연산자가 있거나 또는 없거나 간에 올바르게 조건 코드 비트를 계산할 수 있다.

비록 본 발명은 바람직한 실시예에 관련하여 특히 도시되고 설명되었지만, 본 발명의 정신 및 범위를 이탈하지 않고 형태 및 상세한 부분에서 다양한 변화가 만들어질 수 있음을 당업자는 이해할 것이다. 예를 들어, 본 발명은 위에서 개시된 덧셈, 뺄셈 명령어가 아닌 추가적인 유형의 기록 명령어를 포함하도록 변경될 수 있다.

전술한 바와 같은 본 발명은 명령어의 실행과 동시에 '작은'(LT), '큰'(GT), '동일한'(EQ) 조건 코드 비트를 계산할 수 있는 효과가 있다.

Claims

프로세서에 있어서,

제1 및 제2 피연산자를 이용하는 명령어에 의해 지시되는 연산을 수행함으로써 명령어를 실행하는 실행 유닛(an execution unit)-여기서, 상기 제1 및 제2 피연산자의 각각은 하나 이상 그리고 최대 M 개의 비트 위치를 포함하며, 상기 비트 위치의 각각은 비트 값을 가짐-과,

상기 실행 유닛에 의해 상기 연산을 수행함과 동시에 상기 명령어와 관련된 'LT', 'GT' 및 'EQ' 조건 코드 비트를 결정하는 조건 코드 로직(condition code logic)을 구비하며,

상기 조건 코드 로직은 M개의 조합 엘리먼트를 갖는 단일 계산 스테이지를 포함하며, 상기 M개의 조합 엘리먼트의 각각은 상기 제1 및 제2 피연산자 내에 있는 각각의 비트 위치에 대한 개개의 비트 값들을 입력으로서 수신하고, 상기 단일 계산 스테이지의 상기 M개의 조합 엘리먼트의 각각은 상기 개개의 비트값들을 논리적으로 결합하여, 상기 M개의 비트 위치의 각각에 대하여 전달, 생성 및 삭제 신호의 각각을 출력하며, 상기 M개의 모든 비트 위치에 대한 전달, 생성 및 삭제 신호들은 'LT', 'GT' 및 'EQ' 조건 코드 비트의 값을 집합적으로 나타내는 것을 특징으로 하는 프로세서.
제1항에 있어서, 상기 명령어는 상기 제 1 피연산자의 크기와 상기 제 2 피연산자의 크기를 비교하는 비교 명령어(a compare instruction)를 구비하는 것인 프로세서.
제1항에 있어서, 상기 명령어는 상기 제 1 피연산자와 상기 제 2 피연산자를 산술적으로 결합하는 산술 명령어(an arithmetic instruction)를 구비하는 것인 프로세서.
제1항에 있어서, 상기 조건 코드 로직은 상기 단일 계산 스테이지에 접속된 적어도 하나의 병합 스테이지(one merging stage)를 더 포함하며, 상기 적어도 하나의 병합 스테이지는 상기 하나 또는 그 이상의 논리 신호를 입력받고, 상기 입력된 논리 신호를 많아야 'GT' 신호, 'LT' 신호 및 'EQ' 신호와 병합하는 것인 프로세서.
프로세서 내에서 조건 코드 비트를 계산하는 방법에 있어서,

적어도 제1 및 제2 피연산자를 사용하는 명령어에 의해 지시되는 연산을 수행함으로써 명령어를 실행하는 단계-여기서, 상기 제1 및 제2 피연산자의 각각은 하나 이상 그리고 최대 M개의 비트 위치를 포함하고, 상기 비트 위치들의 각각은 비트 값을 가짐-와,

상기 연산을 수행함과 동시에, 상기 명령어와 관련된 'LT', 'GT' 및 'EQ' 조건 코드 비트를 계산하는 단계를 구비하며,

상기 'LT', 'GT' 및 'EQ' 조건 코드 비트를 계산하는 단계는

① 상기 제1 및 제2 피연산자 내에 있는 개개의 비트 위치들에 대한 비트 값들을 입력으로서 수신하는 단계와, ② 상기 M개의 비트 위치의 각각에 대하여 전달, 생성 및 삭제 신호를 만들기 위하여 상기 개개의 비트 값들을 논리적으로 결합하는 단계와, ③ 상기 'LT', 'GT' 및 'EQ' 조건 코드 비트에 대한 값들을 집합적으로 표시하는 하나 이상의 논리 신호를 출력하는 단계를 포함하는 것을 특징으로 하는 조건 코드 비트의 계산 방법.
제7항에 있어서, 상기 명령어를 실행하는 단계는 상기 제 1 피연산자의 크기와 상기 제 2 피연산자의 크기를 비교하는 비교 명령어를 실행하는 단계인 것인 조건 코드 비트의 계산 방법.
제7항에 있어서, 상기 명령어를 실행하는 단계는 상기 제 1 피연산자와 상기 제 2 피연산자를 산술적으로 결합하는 산술 명령어를 실행하는 단계인 것인 조건 코드 비트의 계산 방법.
제7항에 있어서, 상기 하나 이상의 논리 신호를 많아야 'LT' 신호, 'GT' 신호, 및 'EQ' 신호와 병합하는 단계를 더 포함하는 조건 코드 비트의 계산 방법.