KR20080089313A - 곱셈 기능을 수행하기 위한 방법 및 장치 - Google Patents

곱셈 기능을 수행하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20080089313A
KR20080089313A KR1020080030071A KR20080030071A KR20080089313A KR 20080089313 A KR20080089313 A KR 20080089313A KR 1020080030071 A KR1020080030071 A KR 1020080030071A KR 20080030071 A KR20080030071 A KR 20080030071A KR 20080089313 A KR20080089313 A KR 20080089313A
Authority
KR
South Korea
Prior art keywords
inverse
residual
reciprocal
value
processor
Prior art date
Application number
KR1020080030071A
Other languages
English (en)
Other versions
KR100993998B1 (ko
Inventor
핑 택 피터 탕
로버트 디. 캐빈
Original Assignee
인텔 코오퍼레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코오퍼레이션 filed Critical 인텔 코오퍼레이션
Publication of KR20080089313A publication Critical patent/KR20080089313A/ko
Application granted granted Critical
Publication of KR100993998B1 publication Critical patent/KR100993998B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/57Arithmetic logic units [ALU], i.e. arrangements or devices for performing two or more of the operations covered by groups G06F7/483 – G06F7/556 or for performing logical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/535Dividing only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/535Indexing scheme relating to groups G06F7/535 - G06F7/5375
    • G06F2207/5354Using table lookup, e.g. for digit selection in division by digit recurrence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/535Indexing scheme relating to groups G06F7/535 - G06F7/5375
    • G06F2207/5356Via reciprocal, i.e. calculate reciprocal only, or calculate reciprocal first and then the quotient from the reciprocal and the numerator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/483Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • G06F7/5443Sum of products

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Advance Control (AREA)
  • Complex Calculations (AREA)

Abstract

부동 소수점 숫자 X의 역수 잔차(reciprocal residual)를 연산하기 위한 새로운 함수가 역_잔차(X)= 1-X×역(X)로서 정의되고, 여기서 역(X)는 X의 역수를 나타낸다. 함수는 프로세서에서 퓨즈 곱셈-덧셈 유닛(fused multiply-add unit)을 이용하여 구현될 수 있다. X의 역수값인 역(X)는, 룩업 테이블로부터 얻을 수 있다. 역_잔차 함수는 많은 숫자들의 곱들에 기초하고 각각의 개별적인 숫자에 대한 함수들의 간단한 항들로 표현(예를 들면, log(U×V)=log(U)+log(V))될 수 있는 다수의 곱셈 함수(many multiplicative function)의 대기 시간을 감소시키는 것을 도울 수 있다.
대기 시간, 역수값, 역수 잔차, 퓨즈 곱셈-덧셈 유닛, 부동 소수점 나눗셈

Description

곱셈 기능을 수행하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PERFORMING MULTIPLICATIVE FUNCTIONS}
본 발명은 일반적으로 컴퓨터 프로세서 기술에 관한 것으로, 구체적으로는 프로세서에서의 산술 연산에 관한 것이나 이에 한정되지 않는다.
많은 최근의 컴퓨팅 아키텍쳐는 피연산자(예를 들어, X)의 역수에 대한 대략적인 값을 계산하는 하드웨어 역수 명령어, Y=역(X)를 제공한다. 그러한 역수 명령어는 부동 소수점 나눗셈 함수들을 구현하는데 매우 유용하다. 또한, 일반적으로 많은 다른 대수 및 초월 함수들의 소프트웨어 구현시(예를 들어, 세제곱근, 사인, 코사인, 지수 및 로그 연산) 인수(argument) 감소에 매우 유용하다. 예를 들어, 하드웨어에서 부동 소수점 나눗셈 연산 A/B를 구현하는 대신, 프로세서는 먼저 하드웨어 역수 명령어를 사용하여 역(B)를 계산하고 이어서 A와 역(B) 사이의 곱셈 연산을 행할 수 있는데, 그 이유는 부동 소수점 나숫셈이 덧셈, 뺄셈 및 곱셈보다 더 복잡하기 때문이다.
전형적으로, 하드웨어 역수 명령어 Y=역(X)는 수학식 1의 특징을 갖는다.
Figure 112008023496107-PAT00001
여기서 Δ는 단일 임계치(uniform threshold)이다. 예를 들어, Δ가 Intel®ItaniumTM 프로세서에서 2-8.8 정도이므로, 역수는 적어도 약 8.8 유효 비트까지 정확하다. 그러면 근사 역수 Y는 충분히 정확한 역수로 "개선(refined)"되거나 개선 프로세스에서 사용되어 X가 분모인 경우에 충분히 정확한 몫을 얻을 수 있다. 근사 역수가 제공되는 경우, 프로세싱 아키텍쳐는 통상 상기 언급된 개선이 편하게 계산될 수 있도록 추가 지원을 제공한다. 일반적인 추가 지원은 소위 퓨즈 곱셈 덧셈(fused-multiply-add) 명령어인데, 여기서 A×B + C 값은 문제의 부동 소수점 형식으로 반올림되기 전에 정확히 계산된다(먼저 A×B를 계산하고, 다음에 A×B의 결과를 반올림하고 이어서 C를 더하는 것과 반대). 개선 프로세스는 우선 Y=역(X)를 계산함으로써 실행되고, 그 후 E=1-Y×X이다. Y 및 E를 포함하는 적절한 계산 시퀀스가 이어진다. 많은 실제 상황에서, E값은 임계 경로에 존재하는 것으로 관찰된다. 그러나, 역(X) 값은 사실상 많은 경우에 요구되지 않는다. 따라서, 개선 프로세서의 중요한 프로세스에서 역(X) 계산을 제거함으로써 개선 프로세스의 대기 시간을 감소시키는 것이 바람직하다.
본 발명의 목적은, 하드웨어 역수 명령어를 사용하여 역수를 구할 때, 개선 프로세서의 중요한 프로세스에서 역(X) 계산을 제거함으로써 개선 프로세스의 대기 시간을 감소시키는 것이다.
본 발명의 프로세서에 따르면, 부동 소수점 값(floating point value)에 대한 역수 잔차값(reciprocal residual value)를 계산하는 역수 잔차 산술 로직 유닛(reciprocal residual arithmetic logic unit; ALU)을 포함하는 프로세서가 제공된다.
또한, 본 발명의 컴퓨팅 시스템에 따르면, 역수 잔차 명령어(reciprocal residual instruction) 및 부동 소수점 값 X를 저장하는 메모리; 및
상기 메모리에 연결되어 상기 메모리로부터 상기 역수 잔차 명령어 및 X를 페치하는(fetch) 프로세서
를 포함하고,
상기 프로세서는 상기 역수 잔차 명령어를 실행하기 위한 ALU를 포함하고, 상기 역수 잔차 명령어는 X의 역수 잔차값을 계산하고, 상기 X의 역수 잔차 값은 1-X×역(X)이고, 역(X)는 X의 역수값인 컴퓨팅 시스템이 제공된다.
또한, 본 발명의 장치에 따르면, 부동 소수점 값 (X)의 역수 잔차값을 계산하기 위한 장치로서,
X' 및 X'의 역수값의 곱, X'×역(X')을 생성하기 위한 승산기 - X'는 X의 정규화된 값이고, 역(X')는 X'의 역수값임 -;
1-X'×역(X')를 수행하여 X의 역수 잔차값에 대한 중간 결과를 얻는 가산기; 및
상기 중간 결과를 정규화하고, 상기 정규화된 중간 결과를 반올림하고, 상기 X의 역수 잔차값의 최종 결과를 출력하는 정규화기/반올림기
를 포함하는, 부동 소수점 값 (X)의 역수 잔차값을 연산하기 위한 장치가 제공된다.
또한, 본 발명의 물품에 따르면, 명령어를 포함하는 머신 판독 가능 매체(machine-readable medium)를 포함하는 물품으로서,
상기 명령어는 프로세싱 플랫폼(processing platform)에 의해 실행될 때, 상기 프로세싱 플랫폼이
부동 소수점 값 X를 수신하는 동작;
X에 대하여 정규화된 값 X'을 얻기 위해 X를 정규화하는 동작;
1-X'×역(X')를 계산함으로써 X의 역수 잔차값을 연산하는 동작
을 포함하는 동작들을 수행하게 하고,
역(X')는 X'의 역수값인 물품이 제공된다.
본 발명에 따르면, 하드웨어 역수 명령어를 사용하여 역수를 구할 때, 개선 프로세서의 중요한 프로세스에서 역(X) 계산을 제거함으로써 개선 프로세스의 대기 시간을 감소시킬 수 있다.
개시된 발명의 특징 및 이점은 이하의 발명의 상세한 설명으로부터 명확해질 것이다.
본 출원서에 개시된 발명의 실시예들에 따르면, 부동 소수점 숫자 X의 역수 잔차를 계산하기 위한 새로운 함수가 역_잔차(X)=1-X×역(X)로 정의되고, 여기서 역(X)는 X의 역수를 나타낸다. 이 함수는 프로세서 내의 퓨즈 곱셈-덧셈 유닛을 사용하여 구현될 수 있고 X의 역수 잔차값을 직접 반환한다. X의 역수값인 역(X)는 룩업 테이블로부터 얻어질 수 있다. 역수_잔차 함수는 역수 함수의 대기 시간에 필적하는 대기 시간 내에 구현될 수 있다. 역수_잔차 함수는 여러 숫자들의 곱들에 기초하고 각각의 개별적인 숫자에 대한 함수들의 간단한 항들로 표현(예를 들어, log(U×V)=log(U)+log(V))될 수 있는 많은 곱셈 함수들의 대기 시간을 감소시키는 것을 도울 수 있다.
멍세서 내에서 본원 발명의 "일 실시예" 또는 "실시예"에 대한 참조는 실시예와 관련하여 기술되는 특별한 특징, 구조 또는 특성이 본원 발명의 적어도 일 실시예에 포함되는 것을 의미한다. 따라서, 명세서 전반에 걸쳐 여러 곳에서 나오는 "일 실시예에서"라는 어구가 모두 동일한 실시예를 지칭하는 것은 아니다.
도 1은 본 출원서에 개시된 본원의 실시예에 따라, 부도 소수점 숫자의 역수 잔차를 계산하기 위해 시스템의 프로세서에 역수 잔차 유닛이 포함될 수 있는 하나의 예시적인 컴퓨팅 시스템(100)을 도시한다. 컴퓨팅 시스템(100)은 시스템 상호 접속부(115)에 연결된 하나 이상의 프로세서(110)를 포함할 수 있다. 프로세서(110)는 다양하거나 많은 프로세싱 코어들을 가질 수 있다(설명을 간략히 하기 위해, 이후부터는 다양한 프로세싱 코어들 및 많은 프로세싱 코어들 모두를 포함하도록 "복합 코어들"이라는 용어를 사용할 것이다. 컴퓨팅 시스템(100)은 또한 시스템 상호접속부(115)에 연결된 칩셋(130)을 포함할 수도 있다. 칩셋(130)은 하나 이상의 집적 회로 패키지 또는 칩을 포함할 수 있다. 칩셋(130)은 예를 들어 키보드, 마우스, 네트워크 인터페이스 등과 같은 컴퓨팅 시스템(100)의 다른 컴포넌트들(160)에 대한 데이터 전송을 지원하는 하나 이상의 디바이스 인터페이스(135)를 포함할 수 있다. 디바이스 인터페이스(135)는 버스(165)를 통해 다른 컴포넌트들(160)과 연결될 수 있다. 칩셋(130)은 PCI(Peripheral Component Interconnect) 버스(185)에 연결될 수 있다. 칩셋(130)은 PCI 버스(185)와의 인터페이스를 제공하는 PCI 브리지(145)를 포함할 수 있다. PCI 브리지(145)는 다른 컴포넌트들(160) 뿐만 아니라 프로세서(110)와 예를 들어 오디오 디바이스(180)와 같은 주변회로 디바이스들 사이의 데이터 경로를 제공할 수 있다. 도시되지는 않았지만, 다른 디바이스들도 PCI 버스(185)에 연결될 수 있다.
부가적으로, 칩셋(130)은 메모리 버스(155)를 통해 메인 메모리(150)에 연결되는 메모리 컨트롤러(125)를 포함할 수 있다. 메인 메모리(150)는 프로세서(110)의 복합 코어들 또는 시스템에 포함된 임의의 기타 디바이스들에 의해 실행되는 명령어들의 시퀀스 또는 데이터를 저장할 수 있다. 메모리 컨트롤러(125)는 프로세서(110)의 복합 코어들, 및 컴퓨팅 시스템(100) 내의 기타 디바이스들과 관련된 메 모리 트랜잭션들에 응답하여 메인 메모리(150)에 액세스할 수 있다. 일 실시예에서, 메모리 컨트롤러(125)는 프로세서(110) 또는 몇몇 다른 회로들에 배치될 수 있다. 메인 메모리(150)는 어드레스가능한 저장 위치들을 제공하는 각종 메모리 디바이스들을 포함할 수 있는데 메모리 컨트롤러(125)는 어드레스가능한 저장 위치들로부터의 데이터를 판독하거나 및/또는 어드레스가능한 저장 위치들에 데이터를 기입할 수 있다. 메인 메모리(150)는 DRAM(Dynamic Random Access Memory) 디바이스들, SDRAM(Synchronous DRAM) 디바이스들, DDR(Double Data Rate) SDRAM 디바이스들, 또는 다른 메모리 디바이스들과 같은 하나 이상의 상이한 유형의 메모리 디바이스들을 포함할 수 있다.
또한, 칩셋(130)은 버스(195)를 통해 HDD(hard disk drive)(190)(또는 도면에 도시되지 않은 다른 디스크 드라이브들)에 연결된 디스크 컨트롤러(170)를 포함할 수 있다. 디스크 컨트롤러는 프로세서(110)가 HDD(190)와 통신할 수 있도록 한다. 몇몇 실시예들에서, 디스크 컨트롤러(170)는 디스크 드라이브(예를 들어 HDD(190))에 집적될 수도 있다. 디스크 컨트롤러(170)와 HDD(190)를 연결하는 상이한 유형의 버스들, 예를 들어 ATA(advanced technology attachment) 버스 및 PCI 익스프레스(PCI-E) 버스가 있을 수 있다.
프로세서(110)는 산술 연산을 수행하기 위한 ALU(arithmetic logic unit)(도면에는 도시되지 않음)을 가질 수 있다. ALU는 고정 소수점 및 부동 소수점 데이터 모두에 대한 산술 연산을 수행할 수 있다. ALU는 부동 소수점 숫자에 대한 역수 잔차를 계산하는 역수 잔차 유닛(112)을 포함할 수 있다. 부동 소수점 숫자 X 의 역수 잔차는 1-X×역(X)로 정의되고, 역(X)는 X의 역수이고 룩업 테이블로부터 얻어질 수 있다. 역수 잔차 유닛(112)은 X의 역수를 계산하는 대기 시간에 필적하는 대기 시간 내에 X의 역수 잔차를 얻도록 설계될 수 있다. 나눗셈 연산에 대한 정확한 결과를 얻기 위한 개선 프로세스와 같은 많은 애플리케이션들에서, 숫자의 역수값보다는 역수 잔차값이 임계 경로에 있다. 따라서, 역수 잔차 유닛(112)이 숫자의 역수 잔차를 직접 얻도록 함으로써 숫자의 역수에 대한 룩업 테이블을 이용하여 부동 소수점 나눗셈과 같은 몇몇 함수들의 대기시간을 감소시킬 수 있다.
도 2는 본 출원서에 개시된 본원의 실시예에 따라, 부동 소수점 숫자의 역수 잔차를 계산하기 위해 시스템의 프로세서에 역수 잔차 유닛이 포함될 수 있는 다른 예시적인 컴퓨팅 시스템(200)을 도시한다. 시스템(200)은 프로세서0(200A)과 같은 다수의 프로세서들을 포함할 수 있다. 시스템(200) 내의 하나 이상의 프로세서들은 복합 코어들을 가질 수 있다. 하나 이상의 프로세서들(예를 들어, 200A)은 부동 소수점 숫자 X에 대한 역수 잔차를 계산하는 역수 잔차 유닛(예를 들어 240A 또는 240M)을 포함할 수 있다. 부동 소수점 숫자 X의 역수 잔차는 1-X×역(X)로 정의되고, 여기서 역(X)는 X의 역수이고 룩업 테이블로부터 얻어질 수 있다. 역수 잔차 유닛(예를 들어, 240A)이 직접 숫자의 역수 잔차를 얻게 함으로써 부동 소수점 숫자의 역수에 대한 룩업 테이블을 이용하여 부동 소수점 나눗셈과 같은 몇몇 함수들의 대기 시간을 감소시킬 수 있다. 도면에서의 각 프로세서는 역수 잔차 유닛을 포함하도록 도시되었지만, 각 프로세서가 반드시 그러한 유닛을 가질 필요는 없다는 것을 주의해야 한다. 몇몇 프로세서들은 역수 잔차 유닛을 가질 수 있지만 다른 것들은 그러한 유닛을 포함하지 않을 수도 있다.
시스템(200) 내의 프로세서들은 시스템 상호접속부(210)를 이용하여 서로 접속될 수 있다. 시스템 상호접속부(210)는 FSB(Front Side Bus)일 수 있다. 각 프로세서는 시스템 상호접속부를 통해 메모리(230) 뿐만 아니라 입출력(I/O) 디바이스들에 접속될 수도 있다.
도 3은 또 다른 예시적인 컴퓨팅 시스템(300)을 나타내고, 여기서, 역수 잔차 유닛은, 본원에 기재된 주제에 대한 실시예에 따른, 역수 잔차 부동 소수점 수를 계산하기 위한 시스템의 프로세서에 포함될 수 있다. 시스템(300)에서, 다중 프로세서들(예를 들어, 320A, 320B, 320C 및 320D)을 접속하는 시스템 상호접속(310)은 링크 기반의 점-대-점 접속이다. 각각의 프로세서는 링크 허브(예를 들어, 330A, 330B, 330C 및 330D)를 통해 시스템 상호접속에 접속될 수 있다. 일부 실시예들에서, 링크 허브는 시스템 메모리로/시스템 메모리로부터의 트래픽을 조절하는 메모리 컨트롤러와 동일 위치에 배치될 수 있다. 하나 이상의 프로세서는 다중 코어들을 가질 수 있다.
하나 이상의 프로세서들(예를 들어, 320A)은 부동 소수점 수 X에 대한 역수 잔차를 계산하기 위해 역수 잔차 유닛(예를 들어, 340A, 340B, 340C 또는 340D)을 포함할 수 있다. 부동 소수점 수 X의 역수 잔차는 1-X×역(X)로서 정의되고, 여기서 역(X)는 X의 역으로 룩업 테이블로부터 획득할 수 있다. 역수 잔차 수를 직접적으로 획득하기 위해 역수 잔차 유닛(예를 들어, 340A)을 가짐으로써, 부동 소수점 수의 역에 대한 룩업 테이블을 이용함에 의해 부동 소수점 나눗셈과 같은 일부 함수들의 지연시간(latency)을 감소시킬 수 있다. 도면의 각각의 프로세서가 역수 잔차 유닛을 포함하는 것을 나타내지만, 각각의 프로세서가 그러한 유닛을 반드시 갖는 것은 아니라는 것을 주목해야 한다. 일부 프로세서들은 역수 잔차 유닛을 포함하지만 나머지는 그러한 프로세서를 포함하지 않을 수 있다.
도 4는 본원에 기재된 주제에 대한 실시예에 따른, 부동 소수점 수의 역수 잔차를 계산하기 위해 역수 잔차 유닛을 갖는 프로세서(400)의 일부를 도시한다. 프로세서(400)는 페치/프리-페치(fetch/pre-fetch) 유닛(410), 디코더 유닛(420), 개명 유닛(430), 보존부/스케줄링 유닛(440), 어드레스 생성기(450), MOB/LB/SB(460) 및 실행 유닛(470)을 포함한다. 상기 컴포넌트들 각각에 대해, 프로세서(400)는 둘 이상의 유닛을 포함할 수 있다(예를 들어, 프로세서(400)는 둘 이상의 디코더 유닛을 가질 수 있다)는 것을 주목해야 한다. 또한, 프로세서(400)는 도면에 나타내지 않은 다른 컴포넌트들을 포함할 수 있다(예를 들어, 프로세서(400)는 명령어들 및 데이터를 저장하기 위해 제1-레벨 캐시를 포함할 수 있다).
페치/프리-페치 유닛(410)은 명령어들을 디코딩하는 디코더 유닛(420)에 대한 명령어들/데이터를 페치하거나 프리-페치한다. 개명 유닛(430)은 명령어들 또는 uops(마이크로-연산)을 사용하기 위해 레지스터들을 지정한다. 보존부/스케줄링 유닛(440)은, 그들 각각의 타겟 어드레스가 결정될 때까지 로드들 및 저장들에 대응하는 uops와 같은 명령어들 또는 uops를 스케줄링하고 저장한다. 로드들 및 저장들이 보존부로부터 디스페치될 때, 그들은 어드레스 생성기(450)로 송신될 수 있고, 로드들 및 저장들에 대해 대응하는 선형 어드레스를 생성하여 메모리 또는 캐시로 송신된다. 로드 연산들은 통상 보존부로부터 (도면에 MOB/LB/SB(저장 버퍼)(460)로서 나타낸) 메모리 오더링 버퍼("MOB")내의 로드 버퍼("LB")로 디스페치되고, 로드는 다른 저장 연산에 대한 충돌(conflict)들 및 의존성들이 체크된다. 저장 존재에 대한 어떠한 충돌들 및 의존성들이 없다면, 로드 연산은 메모리/캐시 클러스터로 디스페치될 수 있다. 그렇지 않으면, 로드 연산은, 메모리/캐시로 디스페치되기 전에 의존성 및/또는 충돌이 해결될 때까지 MOB에서 대기할 것이다. 로드들이 메모리/캐시로 디스페치된다면, 메모리/캐시는 로드들에 의해 타겟된 데이터를 보존부(440)로 되돌릴 수 있고, 로드된 데이터를 이용하여 일부 연속 uop의 다음 오퍼랜드까지 어드레스를 생성함으로써 스케줄러/보존부(440)로부터 디스페치될 수 있다.
STA uops를 포함하는 저장 연산들은 로드들과 같은 유사한 경로를 따를 수 있다. 그러나, 저장들은 통상 프로그램 순서 외에 메모리/캐시로 디스페치되는 것이 허여되지 않는 반면, 로드들은 로드들과 다른 저장 연산들 사이에 의존성/충돌들이 없다면 언제라도 메모리/캐시로 디스페치될 수 있다. 일부 프로세서들에서, MOB(예를 들어, 406)는 적정 순서로 로드 및 저장 연산들을 저장하기 위해 이용되어, 메모리 위치에 정보를 기입하는 모든 저장 연산들은 디스페치되고, 동일 어드레스로부터의 정보를 이용할 수 있는 로드 연산들 전에 메모리에 그들의 정보를 기입하도록 허여된다. 대응하는 로드 연산들 전에 프로그램 순서에 나타나는 저장 연산들은(즉, 로드 연산들은 더 먼저의 저장 연산들과 같은 동일한 타겟 어드레스를 갖는다) "구(older)" 저장 연산들로서 간주되고, 대응하는 로드 연산들은 프로 그램 순서에서 더 먼저의 저장 연산들에 비해 "신" 로드 연산으로서 간주될 수 있다.
로드들은 로드들과 저장 존재 간에 의존성들/충돌들이 없다면, 저장과 관련한 프로그램 순서 외의 메모리를 액세스할 수 있다. 일부 프로세서들에서, 구 펜딩 저장들 전에 프로세스되는 로드들은, 더 먼저 프로세스된 로드가 구 저장에 의해 업데이트된 데이터를 로드할 수 있는 기회를 방지하기 위해, 동일 타겟 메모리 어드레스에 항상 대응한다고 가정되고, 따라서 쓸모없는 정보를 되돌림으로써 그들이 대응되는 어떠한 프로그램에도 부정확한 결과를 생성한다.
실행 유닛(470)은 메모리 또는 캐시로부터 로드된 데이터를 갖는 명령어들을 디코딩할 수 있다. 실행 유닛은 정수 유닛들, 부동 소수점 유닛들, 브랜치 유닛들 및 이외의 것들과 같은 다수의 특수-목적 유닛들을 포함할 수 있다. 실행 유닛(471)은 역수 잔차 유닛(480)을 포함하여 부동 소수점 수에 대한 역수 잔차 값을 계산할 수 있다. 역수 잔차 유닛(480)은 (룩업 테이블로부터 획득될 수 있는) 수의 역을 우선 계산하지 않고 수의 역수 잔차를 직접 되돌릴 수 있다. 역수 잔차 유닛(470)은 하기에 보다 상세히 설명된다.
도 5는 본원에 기재된 주제의 실시예에 따른, 부동 소수점 수 X, 즉 1-X×역(X)의 역수 잔차를 계산하기 위해 이용될 수 있는 역수 잔차 유닛(500)의 다이어그램을 도시한다. 역수 잔차 유닛(500)은 프리-프로세싱 유닛(510), 적어도 하나의 룩업 테이블(520), 승산기(540), 정렬 로직(550), 가산기(560), 및 정규화기/라운더(570)를 포함할 수 있다. 도 5는 역수 잔차 유닛(500)이 지수 비교기(530) 및 사인 비트 로직(580)도 포함한다는 것을 나타낸다. 통상 퓨즈 곱셈-덧셈 ALU(590)를 위해서, 이러한 두 개의 컴포넌트들은 승산기(540), 정렬 로직(550), 가산기(560) 및 정규화기/라운더(570)와 함께 필수적이다. 지수 비교기(530) 및 사인 비트 로직(580)을 포함함으로써, 도 5는 역수 잔차 유닛(500)이 하나의 실시예에서 현존하는 퓨즈 곱셈-덧셈 ALU를 이용하여 구현될 수 있다는 것을 나타낸다. 사실상, X 및 역(X)의 사인과 지수 둘 다는 X×역(X)의 연산에서의 출력을 서로 취소할 것이기 때문에 1-X×역(X)를 계산하기 위해 지수 비교기 또는 사인 비트 로직을 반드시 갖는 것은 아니다. 따라서, 본원에 기재된 주제의 다른 실시예에서, 역수 잔차 유닛은 현존하는 퓨즈 곱셈-덧셈 ALU를 이용하지 않고 구현될 수 있고, 지수 비교기 또는 사인 비트 로직을 갖지 않을 수 있다.
역수 잔차 유닛(500)은 [s, K, B]의 포맷으로 나타낼 수 있는 (502로서 나타낸) 부동 소수점 수, X를 수신하고, 여기서, K 및 B는 이진 포맷(예를 들어, K=kJ -1kJ-2...k1K0; B=b0b1b2...bN -1)으로서 나타낸다. X의 값은 (-1)S×B×2K와 동등하다. B 및 K는 각각 X의 가수 및 지수로 불리기도 한다. 프리-프로세싱 유닛(510)은 L<=N (예를 들어, L=8 및 N=24)의 경우, 입력으로서 X의 가수 B를 수신하여 그것을 L 유효 비트에 라운딩시킨다. 통상,B의 b0는 1이고, 라운딩 업 후 bL -1=1이다. 결과로서, 라운딩된 가수 B'은 1.b1b2...bL -21과 같은 이진 포맷으로 나타낼 수 있다.
룩업 테이블(520)은 (도면에서 514로서 나타낸) 입력으로서 b1b2...bL -2를 수 신하여, 테이블에서 찾아 B'의 역(즉, 1/B'=1/(1.b1b2...bL -21))을 출력한다. 룩업 테이블(520)은 모든 가능한 B'의 값에 대한 역수 값들을 미리 저장한다. B'은 가변적일 수 있는 L-2 비트를 갖기 때문에, 룩업 테이블(520)은 (L-2)-비트 룩업 테이블로서 미리 설계될 수 있다. B'의 역수 값은 긴 M 비트일 수 있고 0.1Z2...ZM -1ZM과 같은 이진 포맷으로 나타낼 수 있다. L 및 M은 성능 및 부동산 교환에 따라 유동적일 수 있다. 보통 M>L이면, 예를 들어, M=L+2이다. 기본적으로, 룩업 테이블(520)은 X의 정규화 값(즉, X'=(-1)S×B=(-1)S×(1.b1b2...bL -11))에 대한 역수 값을 생성한다. X 및 역(X)의 지수 부분들은 X×역(X)의 연산에서의 출력을 서로 취소할 것이기 때문에, X의 역수 잔차는 통상 X'의 역수 잔차와 동일하다. 즉, 1-X×역(X)=1-X'×역(X')이다. 사실, X의 역수 잔차를 획득하기 위해 역(X)보다 역(X')를 이용하는 것은 이점을 갖는다. 예로서, 역(X')는 언더플로우 또는 오버플로우되지 매우 어렵지만, 역(X)는 X의 절대값이 매우 작고/큰 경우 언더플로우/오버플로우될 수 있다.
현존하는 퓨즈 곱셈-덧셈 ALU가 이용될 때, 프리-프로세싱 유닛은 X의 지수(즉, K)도 수신할 수 있고, (도면에 512로서 나타낸) 역(X)의 지수, -K를 생성할 수도 있다. X의 지수(506), 역(X)의 지수(512) 및 (0인) 1의 지수(516)는 지수 비교기(530)에 대한 입력이고, 지수 비교기는 1의 지수과 (X의 지수+역(X)의 지수)의 값을 비교한다. 두 항들 중 큰 항은 항이 더 큰 표시기 및 출력(534)과 다른 항 사이의 차이(표시기와 차이는 도면에서 532로서 나타냄)에 따른 출력(534)이다. 사인 비트 로직(580)은 (504로서 나타낸) X의 사인을 수신하여 퓨즈 곱셈-덧셈 ALU에 대한 것과 같이 입력 데이터의 사인을 핸들링한다. 상술된 바와 같이, X의 역수 잔차 값을 계산하는 목적으로서, 지수 비교기 또는 사인 비트 로직을 반드시 가질 필요는 없다. 현존하는 승산-가산 ALU가 이용될 때, 비록 지수 비교기 및 사인 비트 로직의 출력들이 X의 역수 잔차 값의 계산에 영향을 주지 않는다 하더라도, 현존하는 지수 비교시 및 현존하는 사인 비트 로직에 그들의 원하는 입력들을 제공하는 것이 편리하다.
승산기(540)는 룩업 테이블(520) 및 X의 가수 B(b0.b1b2...bN -1)로부터의 출력(525)을 수신한다. 출력(525)은 이진 포맷(예를 들어, 0.1z2...zM -1zM00...0)으로 역(B')의 가수를 나타내고, 그것은 X'의 대략 역, X의 정규화된 값이다. 승산기(540)는 출력(525)과 X의 가수 B의 곱을 계산한다. 바꾸어 말하면, 승산기(540)는 (도면에서 545로 나타낸) X'과 역(X')의 곱을 이행한다.
정렬 로직(550)은 승산기(540)로부터 X'와 역(X')의 곱(545), 1인 입력(552), 및 지수 비교기(530)로부터의 지시자 및 차이(532)를 수신한다. 지시자 및 차이(532)에 기초하여, 정렬 로직(550)은 곱(545)의 비트들 및 입력(552)의 비트들을 정렬한다. 지시자 및 차이(532)가 0인 경우, 이것은 1의 지수가 (X의 지수 + X의 역수의 지수)와 동일하다는 것을 의미하며, 정렬 로직(550)은 곱(545)이나 입력(552)의 어떤 것도 할 필요가 없다. 전술한 바와 같이, (X의 지수+역(X)의 지수)의 결과는 통상적으로 0이며, 다시 말해, 정렬 로직(550)은 통상적으로 역수 잔차 유닛(500)이 부동 소수점 데이터의 역수 잔차(reciprocal residual of floating point data)를 계산하고 있을 때 어떤 것도 하지 않는다. 부동 소수점 데이터의 역수 잔차를 계산하는 데 연합형(fused) 곱셈-덧셈 ALU가 사용되기 때문에, 정렬 로직(550)은 여기서 일차적인 것이다. 다른 실시예에서, 연합형 곱셈-덧셈 ALU가 사용되지 않는 경우, 정렬 로직은 역수 잔차 유닛에 필요하지 않을 수 있다.
가산기(560)는, 정렬 로직(550)에 의해 각각이 서로 정렬하도록 천이될 수 있는, 정렬 로직(550)으로의 곱(545) 및 입력(552)을 수신하고, 입력(552)으로부터 곱(545)을 빼는 덧셈 연산, 즉, 1-X'×역(X')을 행하여, 역수 잔차 1-X'×역(X')의 중간 결과(565)를 생성한다.
정규화기/라운더(570)는 가수(mantissa)의 크기에 대한 최상위 비트가 0이 아니도록 중간 결과(565)를 정규화한다. 정규화기/라운더(570)는 특정 연산의 정규화된 결과를 생성하고, 또한 부동 소수점 산술 분야에 알려져 있는 바와 같이, "스티키(sticky)" 비트를 생성할 수 있으며, 이것은 정규화 프로세스에서 제거된 임의의 비트들에 관한 정보를 산출한다. 정규화기/라운더(570)는 또한 제공되는 경우 스티키 비트를 이용하여 정규화된 결과를 라운딩하고, 라운딩되고 역수 잔차 유닛(500)이 구현되는 부동 소수점 포맷으로 포맷화된, 역수 잔차 유닛(500)의 연산 결과(도면에서 번호 575로 도시됨)를 리턴한다. 통상적인 연합형 곱셈-덧셈 연산에서는, 사인 비트 로직(580)의 출력(585) 및 지수 비교기(530)의 출력(534)이 출 력(575)과 함께 이용되어 역수 잔차 유닛(500)의 최종 출력(595)을 형성하지만, 최종 출력(595)은 보통 역수 잔차 유닛(500)에 의해 역수 잔차 연산만이 수행될 때 정규화기/라운더(570)의 출력(575)과 동일하다.
역(X')는 (L개의 유효 비트로 라운딩된) X'의 적절한 값에 기초한 M 비트 길이이기 때문에, 1-X'×역(X')의 적어도 상위 L 비트가 삭제될 것이다. 그러므로, 승산기(540)와 가산기(560) 둘다의 계산은 일반적인 연합형 곱셈-덧셈 능력을 필요로 하지 않는다. 승산기(540)는 작업 정도가 희망되는 어떤 것에도 필적하는 폭으로 X'×역(X')의 최하위 부분을 계산할 필요가 있을 뿐이다. 또한, 역(X')에 대한 룩업 테이블(520)은 곱셈 속도를 더 높이기 위해, 부스 인코딩 형태(Booth encoded form)를 포함하는 임의의 형태로 저장될 수 있다.
도 6은 부동 소수점 수의 역수 잔차를 계산하기 위한 하나의 예시적인 프로세스(600)의 흐름도이다. 블록(610)에서, 역수 잔차 유닛(예를 들어, 도면 번호 500)이 구현되는 포맷의 부동 소수점 수 X가 수신될 수 있다. 예를 들어, X=(-1)s×B×2K=(-1)s×2K×(1.b1b2…bN -1)이고, 여기서 K는 J 비트 길이일 수 있으며, 즉, K=kJ-1kJ-2…k1k0일 수 있다. 블록(620)에서, X'=(-1)s×(1.b1b2…bN -1)을 획득하기 위해 X를 정규화될 수 있다. 블록(630)에서, 룩업 테이블(예를 들어, 도 5의 번호 520)로부터 적절한 X'의 역수가 획득될 수 있다. 블록(640)에서, X'와 역(X')의 곱이 승산기에 의해 계산될 수 있다. 블록(650)에서, 가산기를 이용하여 Y=1-X'× 역(X')이 계산될 수 있다. 블록(660)에서, 가수의 크기에 대한 최상위 비트가 0이 아니도록 Y가 정규화될 수 있다. 블록(670)에서, 정규화된 Y가 라운딩되고 희망하는 부동 소수점 포맷으로 포맷화될 수 있다.
역수 잔차 명령어는 곱셈 타입의 함수 계산에 있어 매우 유용하다. 그 일례는 아래와 같다.
Figure 112008023496107-PAT00002
이 예는 (테이블을 검색하는 것에 의해 획득될 수 있는) tbl_log2(X)와 함께 E=역_잔차(X)가 어떻게 함께 이용될 수 있는지를 예시하고 있다. 역_잔차 값에서 평가된 적절한 다항식이 일반적인 곱셈 함수들에 적용가능하다. 룩업 테이블 내의 임의의 값들은 일반적으로 작업 정도 수들(working precision numbers)이다. 다른 예는 아래와 같다.
Figure 112008023496107-PAT00003
일반적으로, 역_잔차 함수는 역수 함수(reciprocal function)의 어떠한 적절한 암시적 정의에 의해서도 정의될 수 있다. 테이블 검색 함수를 동반하면, 함수가 원 래 곱셈이기만 하면 함수의 계산을 도울 수 있고 약 x=1의 간단하고 빠른 수렴 급수 확장(convergent series expansion)을 허용한다.
개시된 요지의 예시적인 실시예가 도 1 내지 도 4의 블록도 및 흐름도를 참조하여 설명되어 있지만, 이 기술분야의 당업자이면, 개시된 요지를 구현하는 많은 다른 방법들이 대안적으로 이용될 수 있다는 것을 용이하게 알 수 있을 것이다. 예를 들어, 흐름도들 내의 블록들의 실행 순서는 변경될 수 있고, 및/또는 설명된 블록/흐름도들 내의 블록들의 일부는 변경, 삭제, 또는 결합될 수 있다.
전술한 설명에서는, 개시된 요지의 다양한 양태들이 설명되었다. 설명의 목적으로, 그 요지의 완전한 이해를 제공하기 위해 특정 수, 시스템 및 구성이 설명되었다. 그러나, 특정 상세 없이 그 요지가 실시될 수 있다는 것이 본 개시의 이득을 갖는 이 기술분야의 당업자에게 자명하다. 다른 경우들에서, 개시된 요지를 불명료하게 하지 않게 하기 위해서 공지된 특징들, 컴포넌트들, 또는 모듈들이 생략, 간략화, 결합, 또는 분리되었다.
개시된 요지의 다양한 실시예들은 하드웨어, 펌웨어, 소프트웨어, 또는 그 조합으로 구현될 수 있으며, 머신에 의해 액세스될 때 그 머신이 태스크를 수행하거나, 추상 데이터 유형 또는 저레벨 하드웨어 컨텍스트를 정의하거나, 또는 결과를 생성하게 하는, 설계의 시뮬레이션, 에뮬레이션 및 제조를 위한 명령어들, 함수들, 절차들, 데이터 구조들, 로직, 응용 프로그램들, 설계 표현들 또는 포맷들과 같은, 프로그램 코드를 참조하여 또는 그와 결합하여 설명될 수 있다.
시뮬레이션을 위해, 프로그램 코드는 설계된 하드웨어가 수행할 것으로 예상 되는 모델을 본질적으로 제공하는 하드웨어 기술 언어(hardware description language) 또는 다른 기능 기술 언어(functional description language)를 이용하여 하드웨어를 표현할 수 있다. 프로그램 코드는 어셈블리 또는 기계 언어, 또는 컴파일 및/또는 해석될 수 있는 데이터일 수 있다. 또한, 한 형태 또는 다른 형태로 액션을 취하거나 결과를 일으키는 것으로 소프트웨어에 대해 말하는 것이 이 기술분야에서 일반적이다. 이러한 표현들은 단지 프로세서가 액션을 수행하거나 결과를 생성하게 하는 프로세싱 시스템에 의해 프로그램 코드의 실행을 말하는 간단한 방법일 뿐이다.
프로그램 코드는 예를 들어, 고체 상태 메모리, 하드 드라이브, 플로피 디스크, 광학 저장소, 테이프, 플래시 메모리, 메모리 스택, 디지털 비디오 디스크, DVD(digital versatile disc) 등을 포함하는 저장 장치들 및/또는 연관된 머신 판독 가능 또는 머신 액세스 가능 매체는 물론, 머신 액세스 가능 생물학적 상태 보존 저장소(machine-accessible biological state preserving storage)와 같은 더 신형의 매체 등의 휘발성 및/또는 비휘발성 메모리에 저장될 수 있다. 머신 판독 가능 매체는 머신에 의해 판독 가능한 형태의 정보를 저장, 송신, 또는 수신하는 임의의 메커니즘을 포함할 수 있으며, 이 매체는 안테나, 광 섬유, 통신 인터페이스 등과 같이, 프로그램 코드를 인코딩한 전기, 광, 음향, 또는 다른 형태의 전파 신호 또는 반송파가 전달될 수 있는 실체적인 매체를 포함할 수 있다. 프로그램 코드는 패킷, 직렬 데이터, 병렬 데이터, 전파 신호 등의 형태로 전송될 수 있으며, 압축 또는 암호화된 포맷으로 이용될 수 있다.
프로그램 코드는, 각각이 프로세서, 프로세서에 의해 판독 가능한 휘발성 및/또는 비휘발성 메모리, 적어도 하나의 입력 장치 및/또는 하나 이상의 출력 장치를 포함하는 이동 또는 고정 컴퓨터, PDA(personal digital assistant), 셋톱 박스, 셀룰러 전화기 및 페이저, 및 다른 전자 장치와 같은 프로그램 가능한 머신들에서 실행되는 프로그램들로 구현될 수 있다. 프로그램 코드는 전술한 실시예들을 수행하고 출력 정보를 생성하기 위해 입력 장치를 이용하여 입력되는 데이터에 적용될 수 있다. 출력 정보는 하나 이상의 출력 장치에 적용될 수 있다. 이 기술 분야의 당업자이면, 개시된 요지의 실시예들이 멀티프로세서 또는 다중 코어 프로세서 시스템, 미니컴퓨터, 메인프레임 컴퓨터는 물론, 사실상 임의의 장치 내에 내장될 수 있는 보급형 또는 소형 컴퓨터 또는 프로세서를 포함하는 다양한 컴퓨터 시스템 구성과 실시될 수 있다는 것을 알 수 있을 것이다. 개시된 요지의 실시예들은 또한 통신 네트워크를 통해 링크되는 원격 프로세싱 장치들에 의해 태스크들이 수행될 있는 분산 컴퓨팅 환경들에서 실시될 수 있다.
비록 동작들이 순차적인 프로세스로서 설명될 수 있지만, 동작들 중 일부는 사실상 병렬로, 동시에, 및/또는 분산 환경으로 수행될 수 있으며, 프로그램 코드는 단일 또는 다중 프로세서 머신들에 의한 액세스를 위해 국부적으로 및/또는 원격으로 저장된다. 또한, 일부 실시예들에서 동작 순서는 개시된 요지의 사상으로부터 벗어나지 않고 재배열될 수 있다. 프로그램 코드는 내장된 컨트롤러들에 의해 또는 이들과 결합하여 이용될 수 있다.
개시된 요지는 예시적인 실시예들을 참조하여 설명되었지만, 본 설명은 한정 적인 의미로 해석되어서는 안된다. 예시적인 실시예들의 다양한 수정들은 물론, 개시된 요지가 속하는 기술분야의 당업자에게 자명한 본 요지의 다른 실시예들이 개시된 요지의 범위 내에 있는 것으로 고려된다.
도 1은 부동 소수점 값의 역수 잔차를 계산하기 위해 시스템의 프로세서에 역수 잔차 유닛이 포함될 수 있는 하나의 예시적인 컴퓨팅 시스템을 도시하는 도면.
도 2는 부동 소수점 값의 역수 잔차를 계산하기 위해 시스템의 프로세서에 역수 잔차 유닛이 포함될 수 있는 다른 예시적인 컴퓨팅 시스템을 도시하는 도면.
도 3은 부동 소수점 값의 역수 잔차를 계산하기 위해 시스템의 프로세서에 역수 잔차 유닛이 포함될 수 있는 또 다른 예시적인 컴퓨팅 시스템을 도시하는 도면.
도 4는 부동 소수점 값의 역수 잔차를 계산하기 위해 역수 잔차 유닛을 갖는 프로세서의 일부를 도시하는 도면.
도 5는 부동 소수점 값의 역수 잔차를 계산하기 위해 사용될 수 있는 역수 잔차 유닛의 도면.
도 6은 부동 소수점 값의 역수 잔차를 계산하기 위한 하나의 예시적인 프로세스의 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
110: 프로세서
125: 메모리 컨트롤러
135: 디바이스 인터페이스

Claims (15)

  1. 부동 소수점 값(floating point value)에 대한 역수 잔차값(reciprocal residual value)를 연산하는 역수 잔차 산술 로직 유닛(reciprocal residual arithmetic logic unit; ALU)을 포함하는 프로세서.
  2. 제1항에 있어서,
    상기 역수 잔차 ALU는,
    X' 및 X'의 역수값의 곱, X'×역(X')을 생성하기 위한 승산기(multiplier) - X'는 부동 소수점 값 X의 정규화된 값이고, 역(X')는 X'의 역수값임 -;
    1-X'×역(X')를 수행하여 X의 역수 잔차값에 대한 중간 결과(intermediate result)를 얻는 가산기 - 상기 X의 역수 잔차값은 1-X×역(X)이고, 역(X)는 X의 역수값임- ; 및
    상기 중간 결과를 정규화하고, 상기 정규화된 중간 결과를 반올림하고, 상기 X의 역수 잔차값의 최종 결과를 출력하는 정규화기/반올림기(normalizer/rounder)
    를 포함하는 프로세서.
  3. 제2항에 있어서,
    상기 역수 잔차 ALU는 L개의 유효 비트(significant bit)들에 대해 X'를 반올림하기 위한 수단을 더 포함하고, 여기서 L은 1보다 크고 X'의 가수(mantissa)의 총 비트수 이하인 프로세서.
  4. 제3항에 있어서,
    상기 역수 잔차 ALU는 반올림된 X'에 대하여 근사 역수값(approximate reciprocal value)인 역(X')을 반환하는 (L-2) 비트 룩업 테이블((L-2) bit lookup table)을 더 포함하는 프로세서.
  5. 제1항에 있어서,
    상기 역수 잔차 ALU는 프로세서에서 퓨즈 곱셈-덧셈 ALU(fused multiply-add ALU)를 사용하여 구현되는 프로세서.
  6. 역수 잔차 명령어(reciprocal residual instruction) 및 부동 소수점 값 X를 저장하는 메모리; 및
    상기 메모리에 연결되어 상기 메모리로부터 상기 역수 잔차 명령어 및 X를 페치하는(fetch) 프로세서
    를 포함하고,
    상기 프로세서는 상기 역수 잔차 명령어를 실행하기 위한 ALU를 포함하고, 상기 역수 잔차 명령어는 X의 역수 잔차값을 계산하고, 상기 X의 역수 잔차 값은 1-X×역(X)이고, 역(X)는 X의 역수값인 컴퓨팅 시스템.
  7. 제6항에 있어서,
    상기 역수 잔차 ALU는,
    X' 및 X'의 역수값의 곱, X'×역(X')을 생성하기 위한 승산기 - X'는 X의 정규화된 값이고, 역(X')는 X'의 역수값임 -;
    1-X'×역(X')를 수행하여 X의 역수 잔차값에 대한 중간 결과를 얻는 가산기; 및
    상기 중간 결과를 정규화하고, 상기 정규화된 중간 결과를 반올림하고, 상기 X의 역수 잔차값의 최종 결과를 출력하는 정규화기/반올림기
    를 포함하는 컴퓨팅 시스템.
  8. 제7항에 있어서,
    상기 역수 잔차 ALU는 L개의 유효 비트들에 대해 X'를 반올림하기 위한 수단을 더 포함하고, 여기서 L은 1보다 크고 상기 X'의 가수(mantissa)의 총 비트수 이하인 컴퓨팅 시스템.
  9. 제8항에 있어서,
    상기 역수 잔차 ALU는 상기 반올림된 X'에 대하여 근사 역수값인 역(X')을 반환하는 (L-2) 비트 룩업 테이블을 더 포함하는 컴퓨팅 시스템.
  10. 부동 소수점 값 (X)의 역수 잔차값을 연산하기 위한 장치로서,
    X' 및 X'의 역수값의 곱, X'×역(X')을 생성하기 위한 승산기 - X'는 X의 정규화된 값이고, 역(X')는 X'의 역수값임 -;
    1-X'×역(X')를 수행하여 X의 역수 잔차값에 대한 중간 결과를 얻는 가산기; 및
    상기 중간 결과를 정규화하고, 상기 정규화된 중간 결과를 반올림하고, 상기 X의 역수 잔차값의 최종 결과를 출력하는 정규화기/반올림기
    를 포함하는, 부동 소수점 값 (X)의 역수 잔차값을 연산하기 위한 장치.
  11. 제10항에 있어서,
    L개의 유효 비트에 대해 X'를 반올림하기 위한 수단 - L은 1보다 크고 X'의 가수의 총 비트수 이하임 -; 및
    반올림된 X'에 대하여 근사 역수값인 역(X')을 반환하는 (L-2) 비트 룩업 테이블
    을 더 포함하는, 부동 소수점 값 (X)의 역수 잔차값을 연산하기 위한 장치.
  12. 제10항에 있어서,
    상기 장치는 프로세서에서 퓨즈 곱셈-덧셈 ALU를 사용하여 구현되는, 부동 소수점 값 (X)의 역수 잔차값을 연산하기 위한 장치.
  13. 명령어를 포함하는 머신 판독 가능 매체(machine-readable medium)를 포함하 는 물품으로서,
    상기 명령어는 프로세싱 플랫폼(processing platform)에 의해 실행될 때, 상기 프로세싱 플랫폼이
    부동 소수점 값 X를 수신하는 동작;
    X에 대하여 정규화된 값 X'을 얻기 위해 X를 정규화하는 동작;
    1-X'×역(X')를 계산함으로써 X의 역수 잔차값을 연산하는 동작
    을 포함하는 동작들을 수행하게 하고,
    역(X')는 X'의 역수값인 물품.
  14. 제13항에 있어서,
    상기 동작들은,
    L개의 유효 비트들에 대하여 X'를 반올림하는 동작 - L은 1보다 크고 X'의 가수의 총 비트수 이하임 -; 및
    반올림된 X'에 대하여 근사 역수값인 역(X')을 (L-2) 비트 룩업 테이블로부터 얻는 동작
    을 더 포함하는 물품.
  15. 제13항에 있어서,
    상기 동작들은,
    1-X'×역(X')의 결과를 정규화하는 단계; 및
    1-X'×역(X')의 상기 정규화된 결과를 반올림하고 상기 반올림된 결과를 상기 X의 역수 잔차값으로서 출력하는 동작
    을 더 포함하는 물품.
KR1020080030071A 2007-03-30 2008-03-31 곱셈 기능을 수행하기 위한 방법 및 장치 KR100993998B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/731,580 US8838663B2 (en) 2007-03-30 2007-03-30 Method and apparatus for performing multiplicative functions
US11/731,580 2007-03-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020100066205A Division KR101399732B1 (ko) 2007-03-30 2010-07-09 곱셈 기능을 수행하기 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20080089313A true KR20080089313A (ko) 2008-10-06
KR100993998B1 KR100993998B1 (ko) 2010-11-11

Family

ID=39796174

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020080030071A KR100993998B1 (ko) 2007-03-30 2008-03-31 곱셈 기능을 수행하기 위한 방법 및 장치
KR1020100066205A KR101399732B1 (ko) 2007-03-30 2010-07-09 곱셈 기능을 수행하기 위한 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020100066205A KR101399732B1 (ko) 2007-03-30 2010-07-09 곱셈 기능을 수행하기 위한 방법 및 장치

Country Status (4)

Country Link
US (1) US8838663B2 (ko)
KR (2) KR100993998B1 (ko)
CN (1) CN101290565B (ko)
DE (1) DE102008016533A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100974190B1 (ko) * 2008-12-19 2010-08-05 주식회사 텔레칩스 부동 소수점을 이용한 복소수 곱셈방법
KR20170123230A (ko) * 2016-04-28 2017-11-07 비반테 코포레이션 4개의 입력 내적 회로를 사용하는 삼각 함수 계산

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8914801B2 (en) 2010-05-27 2014-12-16 International Business Machine Corporation Hardware instructions to accelerate table-driven mathematical computation of reciprocal square, cube, forth root and their reciprocal functions, and the evaluation of exponential and logarithmic families of functions
US8914430B2 (en) * 2010-09-24 2014-12-16 Intel Corporation Multiply add functional unit capable of executing scale, round, GETEXP, round, GETMANT, reduce, range and class instructions
US8706789B2 (en) * 2010-12-22 2014-04-22 Intel Corporation Performing reciprocal instructions with high accuracy
US10088881B2 (en) 2014-12-14 2018-10-02 Via Alliance Semiconductor Co., Ltd Mechanism to preclude I/O-dependent load replays in an out-of-order processor
US10175984B2 (en) 2014-12-14 2019-01-08 Via Alliance Semiconductor Co., Ltd Apparatus and method to preclude non-core cache-dependent load replays in an out-of-order processor
US9645827B2 (en) 2014-12-14 2017-05-09 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude load replays dependent on page walks in an out-of-order processor
WO2016097791A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method for programmable load replay preclusion
WO2016097815A1 (en) * 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude x86 special bus cycle load replays in out-of-order processor
US10146539B2 (en) 2014-12-14 2018-12-04 Via Alliance Semiconductor Co., Ltd. Load replay precluding mechanism
WO2016097814A1 (en) * 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude shared ram-dependent load replays in out-of-order processor
WO2016097793A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude load replays dependent on off-die control element access in out-of-order processor
US10146546B2 (en) 2014-12-14 2018-12-04 Via Alliance Semiconductor Co., Ltd Load replay precluding mechanism
US10108420B2 (en) 2014-12-14 2018-10-23 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on long load cycles in an out-of-order processor
US10228944B2 (en) 2014-12-14 2019-03-12 Via Alliance Semiconductor Co., Ltd. Apparatus and method for programmable load replay preclusion
US10095514B2 (en) 2014-12-14 2018-10-09 Via Alliance Semiconductor Co., Ltd Mechanism to preclude I/O-dependent load replays in an out-of-order processor
US10120689B2 (en) 2014-12-14 2018-11-06 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on off-die control element access in an out-of-order processor
US10114794B2 (en) 2014-12-14 2018-10-30 Via Alliance Semiconductor Co., Ltd Programmable load replay precluding mechanism
US10127046B2 (en) 2014-12-14 2018-11-13 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude uncacheable-dependent load replays in out-of-order processor
US10108427B2 (en) 2014-12-14 2018-10-23 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on fuse array access in an out-of-order processor
US10108421B2 (en) 2014-12-14 2018-10-23 Via Alliance Semiconductor Co., Ltd Mechanism to preclude shared ram-dependent load replays in an out-of-order processor
US10114646B2 (en) 2014-12-14 2018-10-30 Via Alliance Semiconductor Co., Ltd Programmable load replay precluding mechanism
US9804845B2 (en) 2014-12-14 2017-10-31 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude X86 special bus cycle load replays in an out-of-order processor
US10146540B2 (en) 2014-12-14 2018-12-04 Via Alliance Semiconductor Co., Ltd Apparatus and method to preclude load replays dependent on write combining memory space access in an out-of-order processor
US9703359B2 (en) * 2014-12-14 2017-07-11 Via Alliance Semiconductor Co., Ltd. Power saving mechanism to reduce load replays in out-of-order processor
US10089112B2 (en) 2014-12-14 2018-10-02 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on fuse array access in an out-of-order processor
WO2016097790A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude non-core cache-dependent load replays in out-of-order processor
WO2016097792A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Apparatus and method to preclude load replays dependent on write combining memory space access in out-of-order processor
WO2016097802A1 (en) 2014-12-14 2016-06-23 Via Alliance Semiconductor Co., Ltd. Mechanism to preclude load replays dependent on long load cycles in an out-order processor
US10083038B2 (en) 2014-12-14 2018-09-25 Via Alliance Semiconductor Co., Ltd Mechanism to preclude load replays dependent on page walks in an out-of-order processor
JP6286068B2 (ja) * 2014-12-14 2018-02-28 ヴィア アライアンス セミコンダクター カンパニー リミテッド アウトオブオーダープロセッサでのキャッシュ不可に依存するロードリプレイを除外するメカニズム
US9779272B2 (en) * 2015-04-14 2017-10-03 Analog Devices, Inc. Extended use of logarithm and exponent instructions
US10970080B2 (en) 2018-02-08 2021-04-06 Marvell Asia Pte, Ltd. Systems and methods for programmable hardware architecture for machine learning
CN108363559B (zh) * 2018-02-13 2022-09-27 北京旷视科技有限公司 神经网络的乘法处理方法、设备和计算机可读介质
US11016801B1 (en) 2018-05-22 2021-05-25 Marvell Asia Pte, Ltd. Architecture to support color scheme-based synchronization for machine learning
US10929778B1 (en) 2018-05-22 2021-02-23 Marvell Asia Pte, Ltd. Address interleaving for machine learning
US10929760B1 (en) * 2018-05-22 2021-02-23 Marvell Asia Pte, Ltd. Architecture for table-based mathematical operations for inference acceleration in machine learning
US10929779B1 (en) 2018-05-22 2021-02-23 Marvell Asia Pte, Ltd. Architecture to support synchronization between core and inference engine for machine learning
US10997510B1 (en) 2018-05-22 2021-05-04 Marvell Asia Pte, Ltd. Architecture to support tanh and sigmoid operations for inference acceleration in machine learning

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341321A (en) * 1993-05-05 1994-08-23 Hewlett-Packard Company Floating point arithmetic unit using modified Newton-Raphson technique for division and square root
US6163791A (en) 1998-02-02 2000-12-19 International Business Machines Corporation High accuracy estimates of elementary functions
US6912559B1 (en) * 1999-07-30 2005-06-28 Mips Technologies, Inc. System and method for improving the accuracy of reciprocal square root operations performed by a floating-point unit
US7366748B1 (en) * 2000-06-30 2008-04-29 Intel Corporation Methods and apparatus for fast argument reduction in a computing system
CA2329104C (en) * 2000-12-20 2005-05-24 Sicon Video Corporation Method and apparatus for calculating a reciprocal
US7080112B2 (en) * 2002-11-13 2006-07-18 International Business Machines Corporation Method and apparatus for computing an approximation to the reciprocal of a floating point number in IEEE format
US7313584B2 (en) * 2003-07-31 2007-12-25 International Business Machines Corporation Increased precision in the computation of a reciprocal square root
CN1297888C (zh) * 2004-03-03 2007-01-31 浙江大学 32位媒体数字信号处理器
US20050289208A1 (en) * 2004-06-23 2005-12-29 Harrison John R Methods and apparatus for determining quotients
US7499962B2 (en) 2004-12-21 2009-03-03 Intel Corporation Enhanced fused multiply-add operation
US7720900B2 (en) * 2005-09-09 2010-05-18 International Business Machines Corporation Fused multiply add split for multiple precision arithmetic
US20070083586A1 (en) * 2005-10-12 2007-04-12 Jianjun Luo System and method for optimized reciprocal operations
US7634527B2 (en) * 2005-11-17 2009-12-15 International Business Machines Corporation Reciprocal estimate computation methods and apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100974190B1 (ko) * 2008-12-19 2010-08-05 주식회사 텔레칩스 부동 소수점을 이용한 복소수 곱셈방법
KR20170123230A (ko) * 2016-04-28 2017-11-07 비반테 코포레이션 4개의 입력 내적 회로를 사용하는 삼각 함수 계산

Also Published As

Publication number Publication date
DE102008016533A1 (de) 2008-11-13
CN101290565B (zh) 2012-11-28
US20080243985A1 (en) 2008-10-02
KR100993998B1 (ko) 2010-11-11
KR20100090751A (ko) 2010-08-17
KR101399732B1 (ko) 2014-06-19
US8838663B2 (en) 2014-09-16
CN101290565A (zh) 2008-10-22

Similar Documents

Publication Publication Date Title
KR100993998B1 (ko) 곱셈 기능을 수행하기 위한 방법 및 장치
EP3719639B1 (en) Systems and methods to perform floating-point addition with selected rounding
US11709678B2 (en) Enabling removal and reconstruction of flag operations in a processor
US8103858B2 (en) Efficient parallel floating point exception handling in a processor
US9419648B1 (en) Supporting data compression using match scoring
US20160026912A1 (en) Weight-shifting mechanism for convolutional neural networks
US10157059B2 (en) Instruction and logic for early underflow detection and rounder bypass
US20180232627A1 (en) Variable word length neural network accelerator circuit
RU2663362C1 (ru) Команда и логическая схема для сортировки и выгрузки команд сохранения
US20160378465A1 (en) Efficient sparse array handling in a processor
CN108431771B (zh) 融合乘加(fma)低功能单元
US20170177363A1 (en) Instructions and Logic for Load-Indices-and-Gather Operations
TWI588740B (zh) 包括用於移位和(shift-sum)乘法器之指令及邏輯的處理器及系統,以及用於移位和乘法的方法
TWI493453B (zh) 提高精確度積和演算之微處理器及其視頻解碼裝置、其方法及其電腦程式產品
US10445064B2 (en) Implementing logarithmic and antilogarithmic operations based on piecewise linear approximation
JP2012521047A (ja) 浮動小数点ユニットにおけるオーバーシフトの高速検出のためのメカニズム
US7523152B2 (en) Methods for supporting extended precision integer divide macroinstructions in a processor
EP3391198B1 (en) Instruction and logic for detecting the floating point cancellation effect
US9588765B2 (en) Instruction and logic for multiplier selectors for merging math functions
RU2644528C2 (ru) Инструкция и логика для идентификации инструкций для удаления в многопоточном процессоре с изменением последовательности
US10387797B2 (en) Instruction and logic for nearest neighbor unit
US9564917B1 (en) Instruction and logic for accelerated compressed data decoding
WO2014105187A1 (en) Leading change anticipator logic
US20170123799A1 (en) Performing folding of immediate data in a processor
CN108292219B (zh) 浮点(fp)加法低指令功能单元

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
E601 Decision to refuse application
J201 Request for trial against refusal decision
A107 Divisional application of patent
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee