KR100329339B1

KR100329339B1 - 압축데이터에의한승산-가산연산수행장치

Info

Publication number: KR100329339B1
Application number: KR1019980701542A
Authority: KR
Inventors: 알렉산더 디. 펠레그; 밀린드 미틀; 래리 엠. 메네마이어; 베니 에이튼; 캐롤 듀롱; 에이이치 고와시; 울프 위트; 데릭크 츄 린; 아메트 빈달; 스테판 에이. 피셔; 투안 에이치 부이
Original assignee: 피터 엔. 데트킨; 인텔 코오퍼레이션
Priority date: 1995-08-31
Filing date: 1996-08-07
Publication date: 2002-07-06
Also published as: US20090265409A1; US20040220992A1; US6035316A; US8793299B2; US20120331028A1; US8745119B2; US20110264895A1; US20130198254A1; US20130262836A1; US20020059355A1; US20130091190A1; US20130219151A1; US8495123B2; US8626814B2; US20130262547A1; US7509367B2; KR19990044305A; US5983256A; HK1072989A1; CN1801082A

Abstract

제1 및 제2압축 데이터를 각각 가지고 있는 제1 및 제2기억 영역을 가진 프로세서가 공개된다. 각각의 압축 데이터는 제1, 제2, 제3 및 제4데이터 요소를 포함하고 있다. 승산 가산 회로가 상기 제1 및 제2기억 영역에 접속되어 있다. 승산 가산 회로는 제1승산기(810), 제2승산기(811), 제3승산기(812) 및 제4승산기(813)를 포함하고 있고, 이때 각각의 승산기는 대응하는 세트의 상기 데이터 요소를 수신한다. 상기 승산 가산 회로는 또한 상기 제1 및 제2승산기(810,811)에 접속되어 있는 제1가산기(850), 및 상기 제3 및 제4승산기(812,813)에 접속되어 있는 제2가산기(851)를 포함하고 있다. 제3기억 영역(871)이 상기 가산기(850,851)에 접속되어 있다. 상기 제3기억 영역(871)은 상기 제1 및 제2가산기(850,851)의 출력을 제3압축 데이터의 제1 및 제2데이터 요소로서 각각 세이브하기 위한 제1 및 제2필드를 포함하고 있다.

Description

압축 데이터에 의한 승산-가산 연산 수행 장치{AN APPARATUS FOR PERFORMING MULTIPLY-ADD OPERATIONS ON PACKED DATA}

일반적인 컴퓨터 시스템에서, 프로세서들은 한가지 결과를 생성하는 명령들을 이용하여 다수의 비트(예컨대, 64)에 의해 표현된 값에 대해 연산을 행할 수 있도록 구현된다. 예컨대, 가산 명령의 실행은 제1의 64 비트값과 제2의 64 비트값을 함께 가산하고 그 결과를 제3의 64 비트값으로서 저장한다. 하지만, 멀티미디어 응용(예컨대, 컴퓨터 지원 협력(CSC--혼합된 미디어 데이터 처리와의 원격 회의의 통합)을 목표로 하는 응용), 2D/3D 그래픽스, 이미지 처리, 비디오 압축/압축해제, 인식 알고리즘 및 오디오 처리)은 적은 수의 비트로 표현될 수 있는 많은 양의 데이터의 처리를 필요로 한다. 예컨대, 그래픽 데이터는 일반적으로 8 비트 또는 16 비트를 필요로 하며, 사운드 데이터는 일반적으로 8 비트 또는 16 비트를 필요로 한다. 이들 각각의 멀티미디어 응용은 하나 이상의 알고리즘을 필요로 하며, 이때 이들 각각의 알고리즘은 다수의 연산을 필요로 한다. 예컨대, 알고리즘은 가산, 비교 및 시프트 연산을 필요로 할 수도 있다.

(동일한 특성을 가지고 있는 기타 다른 응용 외에) 멀티미디어 응용의 효율성을 개선하기 위해서, 프로세서들은 압축 데이터 포맷을 제공할 수도 있다. 압축 데이터 포맷은 단일 값을 표현하는데에 일반적으로 사용되는 비트들이 다수의 고정된 크기의 데이터 요소로 분할되어 있고 이들 각각이 별개의 값을 나타내는 포맷이다. 예컨대, 64 비트 레지스터는 2개의 32 비트 요소로 분할될 수도 있으며, 이때 이들 각각은 별개의 32비트값을 나타낸다. 또한, 이들 프로세서는 단일 명령에 응답하여 별개로 처리하기 위한 명령을 제공하며, 이때 이들 압축 데이터형의 각각의 요소는 병렬로 되어 있다. 예컨대, 압축 가산 명령은 제1압축 데이터와 제2압축 데이터로부터의 대응하는 데이터 요소들을 함께 가산한다. 따라서, 멀티미디어 알고리즘이 다수의 데이터 요소에 대해서 수행되어야 하는 5 가지의 연산을 포함하고 있는 루프를 필요로 하면, 상기 데이터를 압축하고 그리고 압축된 데이터 명령을 사용하여 이들 연산을 병렬로 수행하는 것이 바람직하다. 이 방법으로, 이들 프로세서는 멀티미디어 응용을 보다 효율적으로 처리할 수 있다.

하지만, 연산 루프가 압축 데이터에 대해 상기 프로세서에 의해 수행될 수없는 연산을 포함하고 있으면(즉, 상기 프로세서가 적절한 명령을 가지고 있지 않으면), 상기 데이터는 상기 연산을 수행하기 위해서 압축 해제되어야 한다. 예컨대, 상기 멀티미디어 알고리즘이 가산 연산을 필요로 하고 이전에 설명한 압축 가산 명령이 이용가능하지 않으면, 프로그래머는 상기 제1압축 데이터와 상기 제2압축 데이터를 압축 해제해야 하고(즉, 상기 제1압축 데이터와 제2압축 데이터를 포함하고 있는 요소들을 분리해야 하고), 분리된 요소들을 함께 개별적으로 가산해야 하며, 그리고 나서 그 결과를 다른 압축 처리를 위해 압축 결과내에 압축해야 한다. 이와 같은 압축 및 압축 해제를 수행하는데 필요한 처리 시간은 압축 데이터 포맷이 제공해 주는 성능의 이점을 소멸시키게 된다. 그러므로, 일반적인 멀티미디어 알고리즘을 위해 필요한 모든 연산을 제공하는 한 세트의 압축 데이터 명령을 컴퓨터 시스템내에 포함시키는 것이 바람직하다. 하지만, 오늘날의 범용 마이크로프로세서상에서의 제한된 다이(die) 영역으로 인해, 추가될 수 있는 명령 수가 제한된다. 그러므로, 융통성과 최고의 성능 이점을 제공하는 명령(즉, 광범위한 멀티미디어 알고리즘에 사용될 수 있는 명령)을 발명하는 것이 바람직하다.

멀티미디어 알고리즘에 사용하기 위한 연산들을 제공하기 위한 한가지 기술은 별개의 디지탈 신호 프로세서(DSP)를 기존의 범용 프로세서(예컨대, 미국, 캘리포니아, 산타클라라 소재의 인텔 코포레이션에 의해 제조된 Intel^R486)에 결합하는 것이다. 상기 범용 프로세서는 압축 데이터를 이용하여 수행될 수 있는 작업(예컨대, 비디오 처리)을 상기 DSP에 할당한다.

이러한 한가지 DSP는 두 값을 함께 승산한 결과를 누산값에 가산하는 승산 누산 명령을 포함하고 있다. (가와카미(Kawakami), 유이치(Yuichi) 등의 "음성 대역 응용을 위한 단일 칩 디지탈 신호 프로세서", IEEE 국제 고체 상태 회로 회의, 1980, 페이지 40-41을 참조하자). 이 DSP의 승산 누산 연산의 일예가 아래의 표 1에 나타내어져 있으며, 이때 상기 명령은 소스 1과 소스 2로 각각 액세스되는 데이터 값(A₁,B₁)에 대해 수행된다.

이 명령의 한가지 제한은 제한된 효율성이다. 즉, 이 명령은 두 값과 누산 값에 대해 연산을 수행한다. 예컨대, 두 세트의 두 값을 승산하고 누산하는 것은 직렬로 수행되는 2가지의 명령, 즉 1)중간 누산값을 생성하기 위해 제1세트로부터의 제1값, 제2세트로부터의 제1값, 및 제로의 누산값을 승산 및 누산하는 명령; 2)결과를 생성하기 위해 제1세트로부터의 제2값, 제2세트로부터의 제2값, 및 중간 누산값을 승산 및 누산하는 명령을 필요로 한다.

다른 DSP는 두 세트의 2개의 값과 하나의 누산값에 대한 연산을 수행하는 승산 누산 명령을 포함하고 있다("병렬 승산기를 가진 디지탈 신호 프로세서", 특허 번호 4,771,379, 이하에서는 "앤도(Ando) 등" 참조 문헌이라고 함). 이 DSP의 승산 누산 명령의 일예가 아래의 표 2에 나타내어져 있으며, 이때 상기 명령은 소스1-4로서 각각 액세스되는 데이터 값(A₁,A₂,B₁,B₂)에 대해 수행된다.

이 기술을 이용하여, 하나의 명령으로 두 세트의 2개의 값이 승산된 후에, 누산값에 가산된다.

이 승산 누산 명령은 상기 누산값에 항상 가산되기 때문에 융통성이 제한된다. 결과적으로, 승산 누산 이외의 연산에서는 상기 명령을 사용하기가 어렵다. 예컨대, 복소수들의 승산이 멀티미디어 응용에서 일반적으로 사용된다. 두 복소수(예컨대, r1i1과 r2i2)의 승산은 다음의 식에 따라 수행된다:

실수 성분 = r1·r2 - i1·i2

허수 성분 = r1·i2 + r2·i1

이 DSP는 하나의 승산 누산 명령을 사용하여 두 복소수를 함께 승산하는 기능을 수행할 수 없다.

이 승산 누산 명령의 한계는, 그러한 계산의 결과가 누산보다는 후속되는 승산 연산에 필요할 때, 보다 분명히 알 수 있다. 예컨대, 상기 실수 성분이 상기 DSP를 사용하여 산출되면, 상기 누산값은 상기 결과를 정확하게 산출하기 위해서 제로로 초기화될 필요가 있다. 이때, 상기 누산값은 상기 허수 성분을 산출하기위해서 다시 제로로 초기화될 필요가 있다. 결과적으로 얻어진 복소수와 제3복소수(예컨대, r3,i3)에 대한 다른 복소수 승산을 수행하기 위해서는, 결과적으로 얻어진 상기 복소수가 다시 스케일링되어 수용될 수 있는 메모리 포맷으로 저장되어야 하며, 상기 누산값은 다시 제로로 초기화되어야 한다. 이때, 상기 복소수 승산은 위에서 설명한 바와 같이 수행될 수 있다. 이들 각각의 연산에서, 상기 누산값에 전념하는 ALU는 불필요한 하드웨어이며, 그리고 이 누산값을 다시 초기화하는데에는 잉여의 명령이 필요하다. 이들 잉여의 명령도 달리 필요한 것이 아니다.

이 기술의 또 다른 제한은 데이터가 고가의 다중 포트 메모리를 통해 액세스되어야 한다는 것이다. 이는 상기 승산기가 데이터 메모리에 집적 접속되어 있기 때문이다. 그러므로, 이용될 수 있는 병렬 접속의 양은 상호 접속의 비용, 및 이 상호 접속이 상기 명령으로부터 분리되지 않는다는 사실에 의해 적은 수로 제한된다.

상기 앤도 등의 참조 문헌에는 또한 이러한 고가의 상호 접속에 대한 대안은 승산될 각각의 후속되는 쌍의 데이터에 지연을 도입하는 것임이 설명되어 있다. 이 해결책은 이전의 표 1에 나타낸 해결책에 의해 제공된 성능 이점을 소멸시킨다.

또한, 다중 포트 메모리의 개념 또는 메모리에 대한 파이프라인 액세스의 개념은 다수의 주소의 사용을 수반한다. 이와 같이 데이터마다 하나의 주소를 확실하게 사용하는 것은 압축 데이터의 중요한 개념이 이 기술에 이용되지 않는다는 것을 명확하게 보여 준다.

발명의 요약

프로세서는 제1 및 제2압축 데이터를 각각 가지고 있는 제1 및 제2기억 영역을 가지고 있다. 각각의 압축 데이터는 제1, 제2, 제3 및 제4데이터 요소를 포함하고 있다.

승산 가산 회로가 상기 제1 및 제2기억 영역에 접속되어 있다. 이 승산 가산 회로는 제1, 제2, 제3 및 제4승산기를 포함하고 있고, 이때 각각의 승산기는 대응하는 세트의 상기 데이터 요소를 수신한다. 상기 승산 가산 회로는 또한 상기 제1 및 제2승산기에 접속되어 있는 제1가산기, 및 상기 제3 및 제4승산기에 접속되어 있는 제2가산기를 포함하고 있다. 제3기억 영역이 상기 가산기들에 접속되어 있다. 상기 제3기억 영역은 상기 제1 및 제2가산기의 출력을 제3압축 데이터의 제1 및 제2데이터 요소로서 각각 세이브하기 위한 제1 및 제2필드를 포함하고 있다.

이 특허 출원은 발명의 명칭이 "압축 데이터(packed data)에 대한 승산 가산 연산 수행 방법 및 동작"이고 알렉산더 디. 펠레그(Alexander D. Peleg), 밀린드 미틀(Millind Mittal), 래리 엠. 메네마이어(Larry M. Mennemeier), 베니 에이튼(Benny Eitan), 앤드류 에프. 글루(Andrew F. Glew), 캐롤 듀롱(Carole Dulong), 에이치 코와시(Eiichi Kowashi), 및 울프 위트(Wolf Witt)를 발명자로 하여 1995년 8월 31일에 출원된 특허 출원 번호 08/522,067의 일부 계속 출원이다.

특히, 본 발명은 컴퓨터 시스템 분야에 관한 것이다. 보다 구체적으로, 본 발명은 압축 데이터 연산 분야에 관한 것이다.

도 1은 본 발명의 일실시예를 가지고 있는 컴퓨터 시스템을 나타낸 도면.

도 2는 본 발명의 일실시예에 따른 프로세서의 레지스터 파일을 나타낸 도면.

도 3은 본 발명의 일실시예에 따라 데이터를 처리하기 위해 프로세서에 의해 사용된 전반적인 스텝을 나타낸 흐름도.

도 4는 본 발명의 일실시예에 따른 압축 데이터형을 나타낸 도면.

도 5a는 본 발명의 일실시예에 따른 레지스터내 압축 데이터 표현을 나타낸 도면.

도 5b는 본 발명의 일실시예에 따른 레지스터내 압축 데이터 표현을 나타낸 도면.

도 5c는 본 발명의 일실시예에 따른 레지스터내 압축 데이터 표현을 나타낸 도면.

도 6a는 본 발명의 일실시예에 따른 압축 데이터의 사용을 지시하기 위한 제어 신호 포맷을 나타낸 도면.

도 6b는 본 발명의 일실시예에 따른 압축 데이터의 사용을 지시하기 위한 제2제어 신호 포맷을 나타낸 도면.

도 7은 본 발명의 일실시예에 따라 압축 데이터에 대해 승산 가산 연산을 수행하는 단계를 나타낸 흐름도.

도 8은 본 발명의 일실시예에 따라 압축 데이터에 대해 승산 가산 연산을 수행하는 회로를 나타낸 도면.

도 9a-도 9e는 본 발명의 일실시예를 위해 부분적 합산 및 저감을 수행하는 월리스 트리를 나타낸 도면.

도 10a-도 10af는 본 발명의 일실시예를 위해 도 9a-도 9e의 월리스 트리를 구현하는 회로의 일실시예를 나타낸 도면.

도 11은 본 발명의 일실시예에 따라 압축 데이터에 대해 승산 가산 연산을 수행하기 위한 회로를 나타낸 도면.

이하의 설명에서, 본 발명의 철저한 이해를 제공하기 위해 다수의 특정한 사항이 설명된다. 하지만, 이들 특정 사항 없이도 본 발명이 실시될 수 있음을 알 수 있다. 기타 다른 예에서는, 잘 알려진 회로, 구성 및 기술은 본 발명이 보호해지지 않도록 하기 위해 상세히 나타내지 않는다.

정 의

본 발명의 실시예의 설명을 이해하기 위한 기초를 제공하기 위해서 이하의 정의가 제공된다.

비트 X 내지 비트 Y:

2진수의 보조 필드를 정의한다. 예컨대, 바이트 00111010₂(2진수로 나타냄)의 비트 6 내지 비트 0은 보조 필드 111010₂를 나타낸다. 2진수의 뒤에 있는 '2'는 2진수를 나타낸다. 그러므로, 1000₂는 8₁₀과 동일하고 F₁₆은 15₁₀과 동일하다.

R_X: 레지스터임. 레지스터는 데이터를 저장 및 제공할 수 있는 어떤 장치이다. 레지스터의 다른 기능에 대해서는 후술된다. 레지스터는 프로세서와 동일한 다이상에 또는 프로세서와 동일한 패키지내에 반드시 포함되지는 않다.

SRC1, SRC2, 및 DEST:

기억 영역(예컨대, 메모리 주소, 레지스터 등)을 나타낸다.

소스 1-i 및 결과 1-i:

데이터를 나타낸다.

개 요

본 출원에는 압축 데이터에 대해 승산 가산 연산을 수행하는 프로세서의 장치에 대해 설명되어 있다. 일실시예에서, 2개의 승산 가산 연산이 아래의 표 3a 및 표 3b에 나타낸 단일의 승산 가산 명령을 사용하여 수행된다. 표 3a에는 공개된 승산 가산 연산의 간단화된 표현이 나타내어져 있고, 표 3b에는 공개된 승산 가산 연산의 비트 레벨 예가 나타내어져 있다.

이와 같이, 승산 가산 연산의 상기 설명된 실시예는 소스 1 및 소스 2의 대응하는 16 비트 데이터 요소를 함께 승산하여 4개의 32 비트 중간 결과를 발생한다. 이들 32 비트 중간 결과는 쌍으로 합산되어, 압축 결과의 각각의 요소에 압축되는 2개의 32 비트 결과를 생성한다. 추가로 후술되는 바와 같이, 다른 실시예에서는 상기 데이터 요소의 비트 수, 중간 결과, 및 결과를 변화시킨다. 또한, 다른 실시예에서는 사용된 데이터 요소의 개수, 발생된 중간 결과의 개수, 및 결과적으로 얻어진 압축 데이터의 데이터 요소의 개수를 변화시킨다.

컴퓨터 시스템

도 1에는 본 발명의 일실시예에 따른 예시적인 컴퓨터 시스템(100)이 예시되어 있다. 컴퓨터 시스템(100)은 버스(101), 정보 통신을 위한 기타 다른 통신 하드웨어 및 소프트웨어, 및 버스(101)에 접속되어 정보를 처리하는 프로세서(109)를 포함하고 있다. 프로세서(109)는 CISC 또는 RISC형 구조를 포함해서 임의의 형태의 구조를 가지고 있는 중앙 처리 장치를 나타낸다. 컴퓨터 시스템(100)은 프로세서(109)에 의해 실행될 정보와 명령을 저장하기 위해 버스(101)에 접속되어 있는 랜덤 액세스 메모리(RAM) 또는 기타 다른 동적 기억 장치(메인 메모리(104)라고 함)를 더 포함하고 있다. 메인 메모리(104)는 또한 프로세서(109)에 의해 명령이 실행되는 동안에 임시 변수 또는 기타 다른 중간 정보를 저장하기 위해 사용될 수 있다. 컴퓨터 시스템(100)은 또한 프로세서(109)용의 정적 정보 및 명령을 저장하기 위해 버스(101)에 접속되어 있는 판독 전용 메모리(ROM)(106) 및/또는 기타 다른 정적 기억 장치를 포함하고 있다. 데이터 기억 장치(107)는 정보 및 명령을 저장하기 위해 버스(101)에 접속되어 있다.

도 1에는 또한 실행 유닛(130), 승산 가산 유닛(145), 레지스터 파일(150), 캐시(160), 디코더(165), 및 내부 버스(170)를 포함하고 있는 프로세서(109)가 예시되어 있다. 물론, 프로세서(109)는 본 발명을 이해하는데 필요가 없는 추가적인 회로를 포함하고 있다.

실행 유닛(130)은 프로세서(109)에 의해 수신된 명령을 실행하는데에 사용된다. 범용 프로세서에서 일반적으로 구현되는 명령을 인식하는 외에, 실행 유닛(130)은 압축 데이터 포맷에 대한 연산을 수행하기 위한 압축 명령 세트(140)의 명령(142)을 인식한다. 압축 명령 세트(140)는 승산 가산 연산을 지원하기 위한 명령을 포함하고 있다. 또한, 압축 명령 세트(140)는 또한 압축 연산, 압축 해제 연산, 압축 가산 연산, 압축 감산 연산, 압축 승산 연산, 압축 시프트 연산, 압축 비교 연산, 개체 계수 연산, 한 세트의 압축 논리 연산(압축 AND, 압축 ANDNOT, 압축 OR, 압축 XOR을 포함함)을 포함하고 있을 수도 있으며, 이들 연산은 1995년 8월 31일자로 특허 출원된 미국 특허 출원 번호 제4,771,379호 "압축 데이터에 대해 연산을 행하는 한 세트의 명령"에 설명되어 있다. 실행 유닛(130)은 승산 가산 연산을 수행하기 위한 승산 가산 유닛(145)을 더 포함하고 있다.

실행 유닛(130)은 내부 버스(170)에 의해 레지스터 파일(150)에 접속되어 있다. 레지스터 파일(150)은 데이터를 포함해서 정보를 저장하기 위한 프로세서(109)상의 기억 영역을 나타낸다. 실행 유닛(130)은 또한 캐시(160)와 디코더(165)에 접속되어 있다. 캐시(160)는 예컨대 메인 메모리(140)로부터 데이터 및/또는 제어 신호를 캐시하는데에 사용된다. 디코더(165)는 프로세서(109)에 의해 수신된 명령을 제어 신호 및/또는 마이크로코드 엔트리 포인트로 디코딩하는데에 사용된다. 실행 유닛(130)은 적절한 연산을 수행한다. 예컨대, 가산 명령이 수신되면, 디코더(165)에 의해 실행 유닛(130)은 필요한 가산을 수행할 수 있다. 디코더(165)는 임의의 개수의 상이한 메카니즘(예컨대, 룩업 테이블, 하드웨어 구현, PLA 등)을 사용하여 구현될 수도 있다. 이와 같이, 상기 디코더와 실행 유닛에 의한 각종 명령의 실행은 일련의 if/then문으로 표현되지만, 명령의 실행은 이들 if/then 문의 일련의 처리를 필요로 하지 않음을 알 수 있다. 오히려, if/then 처리를 논리적으로 수행하기 위한 어떤 메카니즘이 본 발명의 범위에 속하는 것으로 간주된다.

도 1에는 또한 컴퓨터 시스템(100)에 접속될 수 있는 자기 디스크 또는 광 디스크와 같은 데이터 기억 장치(107), 및 대응하는 디스크 드라이브가 도시되어 있다. 컴퓨터 시스템(100)은 또한 컴퓨터 사용자에게 정보를 디스플레이해 주기 위해 버스(101)를 통해 디스플레이 장치(121)에 접속될 수 있다. 디스플레이 장치(121)는 프레임 버퍼, 특수형 그래픽 렌더링(rendering) 장치, 음극선관(CRT), 및/또는 평면 패널 디스플레이를 포함할 수 있다. 영숫자 키와 기타 다른 키를 포함하고 있는 영숫자 입력 장치(122)는 일반적으로 프로세서(109)측에 정보 및 명령 선택을 전송하기 위해 버스(101)에 접속되어 있다. 다른 종류의 사용자 입력 장치는 방향 정보 및 명령 선택을 프로세서(109)측으로 전송하기 위한, 그리고 디스플레이 장치(121)상에서의 커서 이동을 제어하기 위한 마우스, 트랙볼, 펜, 터치 스크린, 또는 커서 방향 키와 같은 커서 제어기(123)이다. 이 입력 장치는 일반적으로, 이 장치가 평면에서의 위치를 특정할 수 있도록 해 주는 두 축, 즉 제1축(예컨대, x)과 제2축(예컨대, y)에 2개의 자유각을 가지고 있다. 하지만, 본 발명은 단지 2개의 자유각을 가지고 있는 입력 장치에 한정되어서는 안된다.

버스(101)에 접속될 수 있는 기타 다른 장치는 페이퍼, 필름, 또는 유사한 종류의 매체와 같은 매체상에 명령, 데이터, 또는 기타 다른 정보를 프린팅하는데에 사용될 수 있는 하드 카피 장치(124)이다. 또한, 컴퓨터 시스템(100)은 사운드 기록을 위한 장치, 및/또는 정보를 기록하기 위해 마이크로폰에 접속된 오디오 디지타이저와 같은 재생기(125)에 접속될 수 있다. 또한, 디지타이징된 사운드를 재생하기 위해 디지탈/아날로그(D/A) 변환기에 접속되는 스피커를 포함하고 있을 수도 있다.

또한, 컴퓨터 시스템(100)은 컴퓨터망(예컨대, LAN)의 터미널일 수 있다. 이때, 컴퓨터 시스템(100)은 컴퓨터망의 컴퓨터 보조 시스템일 수 있다. 컴퓨터 시스템(100)은 비디오 디지타이징 장치(126)를 임의적으로 포함하고 있다. 비디오 디지타이징 장치(126)는 상기 컴퓨터망의 다른 장치측에 전송될 수 있는 비디오 이미지를 캡쳐하는데에 사용될 수 있다.

일실시예에서, 상기 프로세서(109)는 또한 미국, 캘리포니아, 산타 클라라 소재의 인텔 코포레이션에 의해 제조된 기존의 프로세서(예컨대, 펜티엄^R프로세서)에 의해 사용된 x86 명령 세트와 호환성이 있는 명령 세트를 지원한다. 이와 같이, 일실시예에서, 프로세서(109)는 미국, 캘리포니아, 산타 클라라 소재의 인텔코포레이션에 의해 정의된, IA™-인텔 구조에서 지원되는 모든 연산을 지원한다(미국, 캘리포니아, 산타 클라라 소재의 인텔 코포레이션로부터 이용가능한마이크로프로세서, 인텔 데이터북 제1권 및 제2권 참조). 결과적으로, 프로세서(109)는 본 발명의 연산 이외에 기존의 x86 연산을 지원할 수 있다. x86 기초 명령 세트에 포함되어 있는 본 발명이 설명되지만, 다른 실시예는 기타 다른 명령 세트에 본 발명을 포함시킬 수 있다. 예컨대, 본 발명은 새로운 명령 세트를 이용하여 64 비트 프로세서에 포함될 수 있다.

도 2에는 본 발명의 일실시예에 따른 상기 프로세서의 레지스터 파일이 예시되어 있다. 상기 레지스터 파일(150)은 제어/상태 정보, 정수 데이터, 부동 소숫점 데이터, 및 압축 데이터를 포함해서, 정보를 저장하는데에 사용된다. 도 2에 도시된 실시예에서, 상기 레지스터 파일(150)은 정수 레지스터(201), 레지스터(209), 상태 레지스터(208), 및 명령 포인터 레지스터(211)를 포함하고 있다. 상태 레지스터(208)는 프로세서(109)의 상태를 지시해 준다. 명령 포인터 레지스터(211)는 실행될 다음의 명령의 주소를 저장한다. 정수 레지스터(201), 레지스터(209), 상태 레지스터(208) 및 명령 포인터 레지스터(211)는 모두 내부 버스(170)에 접속되어 있다. 어떤 추가적인 레지스터가 또한 내부 버스(170)에 접속된다.

일실시예에서, 상기 레지스터(209)는 압축 데이터 및 부동 소숫점 데이터용으로 사용된다. 이러한 일실시예에서, 상기 프로세서(109)는 제공된 때에 스택 참조된 부동 소숫점 레지스터 또는 스택 참조되지 않는 압축 데이터 레지스터인 레지스터(209)로 간주되어야 한다. 이 실시예에서, 스택 참조된 부동 소숫점 레지스터와 스택 참조되지 않는 압축 데이터 레지스터로서 레지스터(209)에 대한 동작간을 상기 프로세서(109)가 절환할 수 있도록 해 주는 메카니즘이 포함되어 있다. 이러한 다른 실시예에서, 상기 프로세서(109)는 스택 참조되지 않는 부동 소숫점 레지스터 및 압축 데이터 레지스터로서 레지스터(209)에 대해 동시에 동작할 수 있다. 다른 예로서, 다른 실시예에서 이들 동일한 레지스터가 정수 데이터를 저장하기 위해 사용될 수 있다.

물론, 다른 실시예가 보다 많은 또는 보다 적은 세트의 레지스터를 포함하도록 구현될 수도 있다. 예컨대, 다른 실시예는 부동 소숫점 데이터를 저장하기 위한 별개의 세트의 부동 소숫점 레지스터를 포함하고 있을 수도 있다. 다른 예로서, 다른 실시예는 각각 제어/상태 정보를 저장하기 위한 제1세트의 레지스터, 각각 정수, 부동 소숫점, 및 압축 데이터를 저장할 수 있는 제2세트의 레지스터를 포함하고 있을 수 있다. 명료성의 문제로서, 실시예의 레지스터는 특정 형태의 회로에 의미를 한정해서는 안된다. 오히려, 실시예의 레지스터는 데이터를 저장 및 제공하고 여기에서 설명하는 기능을 수행하는데에 필요할 수 있다.

각종 세트의 레지스터(예컨대, 정수 레지스터(201), 레지스터(209))는 상이한 개수의 레지스터 및/또는 상이한 크기의 레지스터를 포함하도록 구현될 수도 있다. 예컨대, 일실시예에서, 상기 정수 레지스터(201)는 32 비트를 저장할 수 있도록 구현되어 있지만, 상기 레지스터(209)는 80 비트를 저장하도록 구현되어 있다(80 비트 모두는 부동 소수점 데이터를 저장하는데에 사용되고 64 비트만이 압축 데이터용으로 사용됨). 또한, 레지스터(209)는 8개의 레지스터, 즉 R₀212a 내지 R₇212h를 포함하고 있다. R₁212a, R₂212b 및 R₃212c는 레지스터(209)중의 개별적인 레지스터의 예이다. 레지스터(209)중의 하나의 레지스터의 32 비트는 정수 레지스터(201)중의 하나의 정수 레지스터내로 이동될 수 있다. 유사하게, 정수 레지스터내의 값은 레지스터(209)중의 하나의 레지스터의 32 비트내로 이동될 수 있다. 다른 실시예에서, 각각의 정수 레지스터(201)들은 64 비트를 포함하고 있고, 데이터중의 64 비트는 상기 정수 레지스터(201)와 상기 레지스터(209)사이에서 이동될 수도 있다.

도 3에는 본 발명의 일실시예에 따라 데이터를 처리하기 위해 상기 프로세서에 의해 사용되는 전반적인 스텝을 나타낸 흐름도이다. 즉, 도 3에는 압축 데이터에 대한 연산을 수행하거나, 압축 해제된 데이터에 대한 연산을 수행하거나, 일부 다른 연산을 수행하는 동안에 프로세서(109)가 따르는 스텝들이 예시되어 있다. 예컨대, 그러한 연산들은 캐시(160), 메인 메모리(104), 판독 전용 메모리(ROM)(106) 또는 데이터 기억 장치(107)의 데이터를 레지스터 파일(150)중의 하나의 레지스터에 로드하는 로드 동작을 포함하고 있다.

스텝 301에서, 상기 디코더(165)는 캐시(160) 또는 버스(101)로부터 제어 신호를 수신한다. 디코더(165)는 수행될 연산을 결정하기 위해 제어 신호를 디코딩한다.

스텝 302에서, 디코더(165)는 레지스터 파일(150), 또는 메모리내의 위치를액세스한다. 상기 레지스터 파일(150)내의 레지스터, 또는 상기 메모리내의 메모리 위치는 상기 제어 신호에 특정된 레지스터 주소에 따라 액세스된다. 예컨대, 압축 데이터에 대한 연산에 있어서, 상기 제어 신호는 SRC1, SRC2 및 DEST 레지스터 주소를 포함하고 있을 수 있다. SRC1은 제1소스 레지스터의 주소이다. SRC2는 제2소스 레지스터의 주소이다. 어떤 경우에, 상기 SRC2 주소는 모든 연산이 두 소스 주소를 필요로 하는 것은 아니기 때문에 선택적이다. 상기 SRC2 주소가 연산에 필요가 없으면, SRC1 주소만이 사용된다. DEST는 결과 데이터가 저장되는 목적 레지스터의 주소이다. 일실시예에서, SRC1 또는 SRC2는 또한 DEST로서 사용된다. SRC1, SRC2 및 DEST는 도 6a 및 도 6b와 관련하여 보다 충분히 설명되어 있다. 대응하는 레지스터에 저장되어 있는 데이터는 각각 소스 1, 소스 2 및 결과라고 한다. 이들 각각의 데이터는 64 비트의 길이를 가지고 있다.

본 발명의 다른 실시예에서, SRC1, SRC2 및 DEST중 어느 하나 또는 모두는 프로세서(109)의 주소 지정 가능 메모리 공간에 메모리 위치를 정의할 수 있다. 예컨대, SRC1은 메인 메모리(104)의 메모리 위치를 나타낼 수도 있고, SRC2는 정수 레지스터(201)중의 제1래지스터를 나타낼 수 있으며, DEST는 레지스터(209)중의 제2레지스터를 나타낼 수 있다. 여기에서 설명의 간단화를 위해, 본 발명은 상기 레지스터 파일(150)을 액세스하는 것과 관련하여 설명된다. 하지만, 이들 액세스는 메모리 대신에 행해질 수 있다.

스텝 303에서, 실행 유닛(130)은 액세스된 데이터에 대한 연산을 수행할 수 있도록 인에이블된다. 스텝 304에서는 상기 결과가 상기 제어 신호의 요건에 따라레지스터 파일(150)내에 다시 저장된다.

데이터 및 기억 포맷

도 4에는 본 발명의 일실시예에 따른 압축 데이터형이 예시되어 있다. 3개의 압축 데이터 포맷, 즉 압축 바이트(401), 압축 워드(402), 및 압축 2배 워드(403)가 예시되어 있다. 본 발명의 일실시예에서 압축 바이트는 8개의 데이터 요소를 포함하고 있는 64 비트 길이이다. 각각의 데이터 요소는 1 바이트 길이이다. 일반적으로, 데이터 요소는 동일한 길이의 기타 다른 데이터 요소를 가지고 있는 단일의 레지스터(또는 메모리 위치)에 저장되어 있는 데이터의 개별적인 부분이다. 본 발명의 일실시예에서, 레지스터에 저장된 데이터 요소의 개수는 데이터 요소의 비트의 길이에 의해 분리된 64 비트이다.

압축 워드(402)는 64 비트 길이이고 그리고 4개의 워드(402) 데이터 요소를 포함하고 있다. 각각의 워드(402) 데이터 요소는 16 정보 비트를 포함하고 있다.

압축 이중 워드(403)는 64 비트 길이이고 그리고 2개의 이중 워드(403) 데이터 요소를 포함하고 있다. 각각의 이중 워드(403) 데이터 요소는 32 정보 비트를 포함하고 있다.

도 5a 내지 도 5c에는 본 발명의 일실시예에 따른 레지스터내 압축 데이터 기억 표현이 예시되어 있다. 부호 없는 압축 바이트 레지스터내 표현(510)은 레지스터(R₀212a 내지 R₇212h)중 하나의 레지스터내에의 부호 없는 압축 바이트(401)의 기억을 나타낸다. 각각의 바이트 데이터 요소에 관한 정보는 바이트 0을 위해 비트 7 내지 비트 0에, 바이트 1을 위해 비트 15 내지 비트 8에, 바이트 2를 위해 비트 23 내지 비트 16에, 바이트 3을 위해 비트 31 내지 비트 24에, 바이트 4를 위해 비트 39 내지 비트 32에, 바이트 5를 위해 비트 47 내지 비트 40에, 바이트 6을 위해 비트 55 내지 비트 48에 그리고 바이트 7을 위해 비트 63 내지 비트 56에 저장된다. 이와 같이, 이용 가능한 모든 비트들이 상기 레지스터에 사용된다. 이 기억 배열은 상기 프로세서의 기억 효율을 증가시킨다. 마찬가지로, 8개의 데이터 요소가 액세스되는 경우에, 이제 하나의 연산이 8개의 데이터 요소에 대해 동시에 수행될 수 있다. 부호 없는 압축 바이트 레지스터내 표현(511)은 부호 있는 압축 바이트(401)의 기억을 나타낸다. 모든 바이트 데이터 요소의 제8비트는 부호 지시기임에 주의하자.

부호 없는 압축 워드 레지스터내 표현(512)은 워드 3 내지 워드 0이 레지스터(209)중 하나의 레지스터에 어떻게 저장되는지를 나타낸다. 비트 15 내지 비트 0은 워드 0에 관한 데이터 요소 정보를 포함하고 있고, 비트 31 내지 비트 16은 데이터 요소 워드 1에 관한 정보를 포함하고 있으며, 비트 47 내지 비트 32는 데이터 요소 워드 2에 관한 정보를 포함하고 있고, 비트 63 내지 비트 48은 데이터 요소 워드 3에 관한 정보를 포함하고 있다. 부호 있는 압축 워드 래지스터내 표현(513)은 부호 없는 압축 워드 레지스터내 표현(512)과 유사하다. 각각의 워드 데이터 요소의 16 비트는 부호 지시기임에 주의하자.

부호 없는 압축 이중 워드 레지스터내 표현(514)은 레지스터(209)가 어떻게 2개의 이중워드 데이터 요소를 저장하는지를 보여 준다. 이중 워드 0은 상기 레지스터의 비트 31 내지 비트 0에 저장된다. 이중 워드 1은 상기 레지스터의 비트 63 내지 비트 32에 저장된다. 부호 있는 압축 이중 워드 래지스터내 표현(515)은 부호 없는 압축 이중 워드 레지스터내 표현(514)과 유사하다. 필요한 부호 비트는 이중 워드 데이터 요소의 32 비트임에 주의하자.

이전에 언급한 바와 같이, 레지스터(209)는 압축 데이터 및 부동 소숫점 데이터를 위해 사용될 수도 있다. 본 발명의 이 실시예에서, 개별적인 프로그래밍 프로세서(109)는 주소 지정된 레지스터, 예컨대 R₀212a가 압축 데이터 또는 부동 소숫점 데이터를 저장하고 있는지를 추적하는데 필요할 수도 있다. 다른 실시예에서, 프로세서(109)는 레지스터(209)의 개별적인 레지스터에 저장된 데이터형을 추적할 수 있다. 이때, 이 다른 실시예는 예컨대 압축 가산 연산이 부동 소숫점 데이터에 대해 시도되었으면 오류를 발생할 수 있다.

제어 신호 포맷

이하에서는 압축 데이터를 처리하기 위해 프로세서(109)에 의해 사용되는 제어 신호 포맷의 일실시예에 대해 설명한다. 본 발명의 일실시예에서, 제어 신호는 32 비트로서 표현된다. 디코더(165)는 버스(101)로부터 제어 신호를 수신할 수 있다. 다른 실시예에서, 디코더(165)는 캐시(160)로부터 그러한 제어 신호를 수신할 수도 있다.

도 6a에는 본 발명의 일실시예에 따른 압축 데이터의 사용을 지시하기 위한 제어 신호 포맷이 예시되어 있다. 연산 필드(OP)(601), 즉 비트 31 내지 비트 26은 프로세서(109)에 의해 수행될 상기 연산, 예컨대 압축 가산 등에 관한 정보를 제공한다. SRC1(602), 즉 비트 25 내지 20은 레지스터(209)내의 하나의 레지스터의 소스 레지스터 주소를 제공한다. 이 소스 레지스터는 제어 신호의 실행에 사용될 제1압축 데이터, 즉 소스 1을 포함하고 있다. 유사하게, SRC(603), 즉 비트 19 내지 비트 14는 레지스터(209)내의 하나의 레지스터의 주소를 포함하고 있다. 이 제2소스 레지스터는 상기 연산의 실행 동안에 사용될 상기 압축 데이터, 즉 소스 2를 포함하고 있다. DEST(605), 즉 비트 5 내지 비트 0은 레지스터(209)중의 하나의 레지스터의 주소를 포함하고 있다. 이 목적 레지스터는 압축 데이터 연산의 결과 압축 데이터, 즉 Result를 저장하게 된다.

제어 비트 SZ(610), 즉 비트 12 및 비트 13은 제1 및 제2압축 데이터 소스 레지스터내의 데이터 요소의 길이를 지시해 준다. SZ(610)가 01₂이면, 상기 압축 데이터는 압축 바이트 401로서 포매팅된다. SZ(610)가 10₂이면, 상기 압축 데이터는 압축 워드(402)로서 포매팅된다. 00₂또는 11₂인 SZ(610)는 예약되지만, 다른 실시예에서 이들 값중 하나의 값이 압축 이중 워드(403)를 지시하는데에 사용될 수 있다.

제어 비트(T)(611), 즉 비트 11은 상기 연산이 포화 모드로 실행되어야 하는지를 지시해 준다. T(611)가 1이면, 포화 연산이 수행된다. T(611)가 0이면, 비포화 연산이 수행된다. 포화 연산에 대해서는 후술된다.

제어 비트(S)(612), 즉 비트 10은 부호 있는 연산의 이용을 지시해 준다.S(612)가 1이면 부호 있는 연산이 수행된다. S(612)가 0이면 부호 없는 연산이 수행된다.

도 6b에는 본 발명의 일실시예에 따라 압축 데이터의 사용을 지시해 주는 제2제어 부호 포맷이 예시되어 있다. 이 포맷은 인텔 코포레이션, 리터러쳐 세일즈(미국, 일리노이 60056-7641, 마운트 프로스펙트, 피.오.박스 7641)로부터 이용 가능한 "펜티엄 프로세서 패밀리 사용자 매뉴얼"에 설명된 일반적인 정수 옵코드 포맷과 대응된다. OP(601), SZ(610), T(611) 및 S(612)는 모두 하나의 큰 필드로 조합됨에 주의하자. 어떤 제어 신호에 있어서, 비트 3 내지 비트 5는 SRC1(602)이다. SRC1(602) 주소가 존재하는 일실시예에서, 비트 3 내지 비트 5는 또한 DEST(605)와 대응된다. SRC2(603) 주소가 존재하는 일실시예에서, 비트 0 내지 비트 2는 또한 DEST(605)과 대응된다. 기타 다른 제어 신호의 경우에는, 압축 시프트 중간 연산과 마찬가지로, 비트 3 내지 비트 5는 옵코드 필드의 확장을 나타낸다. 일실시예에서, 이 확장에 의해 프로그래머는 시프트 카운트값과 같은 제어 신호를 가지고 중간 값을 포함시킬 수 있다. 일실시예에서, 상기 중간값은 제어 신호를 따른다. 이에 대해서는 부록 F의 페이지 F-1 내지 F-3에서 "펜티엄 프로세서 패밀리 사용자 매뉴얼"에 보다 상세히 설명되어 있다. 비트 0 내지 비트 2는 SRC2(603)를 나타낸다. 이 일반적인 포맷은 레지스터-레지스터, 메모리-레지스터, 레지스터-메모리, 레지스터-레지스터, 레지스터-중간, 레지스터-메모리 주소 지정을 가능하게 한다. 또한, 일실시예에서, 이 일반적인 포맷은 정수 레지스터-레지스터 주소 지정 및 레지스터-정수 레지스터 주소 지정을 지원할 수 있다.

포화/비포화에 관한 설명

이전에 언급한 바와 같이, T(611)는 연산들이 임의적으로 포화되는지를 지시해 준다. 포화가 인에이블된 동작의 결과가 데이터의 범위를 오버플로우 또는 언더플로우한 경우에는 상기 결과가 클램핑된다. 클램핑 수단은 상기 결과를 최대값 또는 최소값으로 설정한다. 상기 범위의 최대값 또는 최소값을 초과하는 경우, 언더플로우의 경우에 상기 포화는 상기 결과를 상기 범위내의 최저값으로 고정시키고, 오버플로우의 경우에는 최고값으로 고정시킨다. 각각의 데이터 포맷의 허용 가능한 범위가 표 4에 나타내어져 있다.

데이타 포맷	최소값	최대값
부호없는 바이트	0	255
부호있는 바이트	-128	127
부호없는 워드	0	65535
부호있는 워드	-32768	32767
부호없는 이중워드	0	2⁶⁴-1
부호있는 이중워드	-2⁶³	2⁶³-1

이상에서 언급한 바와 같이, T(611)는 어느 포화 동작이 수행중인지를 지시해 준다. 그러므로, 부호 없는 바이트 데이터 포맷을 이용하여, 연산 결과 = 258이고 포화가 인에이블되면, 상기 결과는 연산 목적 레지스터에 저장되기 전에 255로 클램핑된다. 이와 유사하게, 연산 결과 = 32999이고 프로세서(109)가 포화가 인에이블된 부호 없는 워드 데이터 포맷을 이용하면, 상기 결과는 상기 연산 목적 레지스터에 저장되기 전에 -32768로 클램핑된다.

승산 가산 연산

본 발명의 일실시예에서, 상기 SRC1 레지스터는 압축 데이터(소스1)를 포함하고 있고, SRC2 레지스터는 압축 데이터(소스2)를 포함하고 있으며, 상기 DEST 레지스터는 소스 1과 소스 2에 대해 승산 가산 연산을 수행한 결과(Result)를 포함하게 된다. 상기 승산 가산 연산의 제1스텝에서, 소스 1은 한 세트의 각각의 중간 결과의 셋트를 발생하기 위해 소스 2의 각각의 데이터 요소와 독립적으로 승산되는 각각의 데이터 요소를 가지게 된다. 이들 중간 결과는 승산 가산 연산의 결과를 발생하기 위해 데이터 요소의 쌍마다 합산된다.

본 발명의 일실시예에서, 승산 가산 연산은 부호있는 압축 데이터에 대해 행해지며, 그리고 어떤 오버플로우를 회피하기 위해 상기 결과를 잘라낸다. 또한, 이 연산은 압축 워드 데이터에 대해 행해지고 그 결과는 압축 2배 워드이다. 하지만, 다른 실시예에서는 기타 다른 압축 데이터형에 대한 연산을 지원할 수 있다.

도 7은 본 발명의 일실시예에 따라 압축 데이터에 대해 승산 가산 연산을 수행하는 스텝들을 나타낸 흐름도이다.

스텝(701)에서, 디코더(165)는 프로세서(109)에 의해 수신된 제어 신호를 디코딩한다. 이와 같이, 디코더(165)는 승산 가산 연산을 위한 연산 코드를 디코딩한다.

스텝(702)에서, 내부 버스(170)를 통해, 디코더(165)는 SRC1(602)과 SRC2(603)의 주소가 주어지면 레지스터 파일(150)의 레지스터(209)를 액세스한다. 레지스터(209)는 SRC1(602) 레지스터(소스1)에 저장된 압축 데이터 및 SRC2(603) 레지스터(소스2)에 저장된 압축 데이터를 실행 유닛(130)에 제공한다. 즉, 레지스터(209)는 내부 버스(170)를 통해 상기 압축 데이터를 실행 유닛(130)에 전달한다.

스텝(703)에서, 디코더(165)는 상기 명령을 수행하기 위해 상기 실행 유닛(130)의 승산 가산 유닛(145)을 인에이블시킨다. 스텝(714)에서는 이하의 연산이 수행된다. 소스 1의 비트 15 내지 비트 0은 소스 2의 비트 15 내지 비트 0과 승산되며, 따라서 제1의 32 비트 중간 결과(중간 결과 1)가 발생된다. 소스 1의 비트 31 내지 16은 소스 2의 비트 31 내지 16과 승산되며, 따라서 제2의 32 비트 중간 결과(중간 결과 2)가 발생된다. 소스 1의 비트 47 내지 32는 소스 2의 비트 47 내지 비트 32와 승산되며, 따라서 제3의 32 비트 중간 결과(중간 결과 3)가 발생된다. 소스 1의 비트 63 내지 48은 소스 2의 비트 63 내지 비트 48과 승산되며, 따라서 제4의 32 비트 중간 결과(중간 결과 4)가 발생된다. 중간 결과 1은 중간 결과 2에 가산되며, 따라서 결과 비트 31 내지 0이 발생되며, 중간 결과 3은 중간 결과 4에 가산되며, 따라서 결과 비트 63 내지 32가 발생된다.

상이한 실시예들에서는 승산과 가산을 직렬로, 병렬로, 또는 직렬 연산과 병렬 연산의 어떤 조합으로 수행할 수도 있다.

스텝(720)에서, 상기 결과는 상기 DEST 레지스터에 저장된다.

압축 데이터 승산 가산 회로

일실시예에서, 승산 가산 연산은 압축 해제된 데이터에 대한 단일의 승산과 동일한 개수의 클럭 사이클로 다수의 데이터 요소를 실행할 수 있다. 동일한 개수의 클럭 사이클로 실행을 수행하기 위해, 병렬 연산이 이용된다. 즉, 레지스터들은 상기 데이터 요소에 대한 승산 가산 연산을 수행하도록 동시에 명령을 받는다.

요컨대, 도 8에는 본 발명의 일실시예에 따라 압축 데이터에 대해 승산 가산 연산을 수행하는 회로가 예시되어 있다. 연산 제어기(800)는 승산 가산 명령을 위한 제어 신호를 처리한다. 연산 제어기(800)는 압축 승산 가산기(801)를 제어하기 위해 인에이블 라인(880)상에서 신호들을 출력한다.

압축 승산 가산기(801)는 입력들, 즉 소스 1[63:0](831), 소스 2[63:0](833) 및 인에이블(880)을 가지고 있다. 압축 승산 가산기(801)는 4개의 16×16 승산기 회로, 즉 16×16 승산기 A(810), 16×16 승산기 B(811), 16×16 승산기 C(812) 및 16×16 승산기 D(813)를 포함하고 있다. 16×16 승산기 A(810)는 입력으로서 소스 1[15:0] 및 소스 2[15:0]를 가지고 있다. 16×16 승산기 B(811)는 입력으로서 소스 1[31:16] 및 소스 2[31:16]를 가지고 있다. 16×16 승산기 C(812)는 입력으로서 소스 1[47:32] 및 소스 2[47:32]를 가지고 있다. 16×16 승산기 D(813)는 입력으로서 소스 1[63:48] 및 소스 2[63:48]를 가지고 있다. 16×16 승산기 A(810)와 16×16 승산기 B(811)에 의해 발생된 32 비트 중간 결과는 가산기(1350)에 의해 수신되고, 16×16 승산기 C(812)와 16×16 승산기 D(813)에 의해 발생된 32 비트 중간 결과는 가산기(851)에 의해 수신된다.

상기 가산기(850)와 가산기(851)는 각각의 32 비트 입력을 가산한다. 가산기(850)의 출력(즉, Result의 결과 비트 31 내지 0)과 가산기(851)의 출력(즉, Result의 비트 63 내지 32)은 64 비트 결과에 조합되어 결과 레지스터(871)측에 전달된다.

일실시예에서, 가산기(851)와 가산기(850)의 각각은 적절한 전달 지연 소자를 가지고 있는 32 비트 가산기로 구성되어 있다. 하지만, 다른 실시예에서는 어떤 개수의 방법으로 가산기(851)와 가산기(850)를 구현할 수 있다.

표 1을 참조하여 설명한 종래의 DSP 프로세서를 사용하여 상기 승산 가산 명령과 같은 것을 수행하는 동작은 누산값을 제로화하는 하나의 명령과 4개의 승산 누산 명령을 필요로 한다. 표 2를 참조하여 설명된 종래의 DSP 프로세서를 사용하여 상기 승산 가산 명령을 수행하는 동작은 상기 누산값을 제로화하는 하나의 명령과 2개의 누산 명령을 필요로 한다.

본 발명의 승산 가산 유닛(145)의 일실시예에서, 본 발명에서 압축 승산 연산에 사용된 각각의 16 비트 승산기는 2 비트 부스(booth) 알고리즘을 이용하여 구현된다. 승산기에서 부스 알고리즘의 주된 목적은 합산될 부분적의 개수를 줄이는 것이다. 결과적으로 부분적의 개수가 적어지면 상기 승산기의 하드웨어와 면적 요건이 줄어든다. 아래의 표 5에는 16개의 부분적이 발생되는 일반적인 16 비트 승산 과정이 설명되어 있다. 각각의 부분적은 1비트씩 좌측으로 시프트되고 그리고 상기 승수의 각각의 비트가 "1"이냐 "0"이냐에 따라 모두 "0"인 항 또는 상기 피승수의 잉여의 비트를 포함하고 있다. 모두 16개의 부분적(partial product; pp)을 합산함으로써 32 비트 결과가 발생된다.

한편, 아래의 표 6에 나타낸 2 비트 부스 승산기들은 서로 다르게 동작한다. 이 경우에는 총 8개의 부분적이 존재하고 각각의 부분적은 17 비트 길이이다. 모든 부분적은 각각의 부분적의 내용을 규정하는 자기 자신의 부스 엔코더를 가지고 있다. 다른 실시예에서는 부분적을 선택하는데에 기타 다른 부스 엔코더 기술들이 사용될 수 있다.

일반적인 2 비트 부스 엔코더는 제로 연산, 플러스 1 연산, 플러스 2 연산, 마이너스 1 연산, 및 마이너스 2 연산용인 5개의 출력을 가지고 있다. 그 진리표는 아래의 표 6에 제공되어 있다.

표 6에 설명되어 있는 바와 같이, yk+1, yk 및 yk-1은 내림 차순으로 배열된 인접 승수 비트들이다. 아래의 표 7에는 부스 엔코더 출력에 따른 부분적의 형태가 설명되어 있다.

부분적 저감에 필요한 캐리 세이브 주소(CAS)의 개수를 줄이는데에는 부분적을 부호 확장하는 대신에 부호 발생법이 사용된다. 표 8에는 부호 발생법이 나타내어져 있다. 부분적의 부호 비트의 보수는 상기 부분적에 추가되어 있다. 이때, 2개의 1 비트가 상기 부호 비트의 보수에 추가되어 있다.

부호 확장법	부호 발생법
1 S1 S1 S1 부분적 1	1 S1 부분적 1
S2 S2 부분적 2	1 S2 부분적 2
부분적 3	1 S3 부분적 3

아래의 표 9에는 8개의 부분적을 발생하기 위해 2 비트 부스 엔코더 및 부호발생법을 이용하여 본 발명의 일실시예에 사용된 16 비트 승산 과정이 나타내어져 있다.

일실시예에서, 각각의 부스 엔코더는 3개의 인접 승산기 비트를 포함하고 있다(y0은 승수 비트의 최하위 비트이고 y15는 승수 비트의 최상위 비트임). 상기 부분적의 형태는 특정 부스 엔코더에 접속되어 있는 17개의 선택기와 하나의 부정 회로에 의해 정의된다. 상기 선택기의 데이터 비트는 2개의 인접 승수 비트, 이들의 보수 및 Vcc(제로 연산용)를 포함하고 있다. 이때, 상기 선택된 출력은 흔히 월리스 트리(Wallace Tree)라고 하는 부분적 저감 트리(partial product reduction tree)의 미로(maze)를 통과한다.

상기 부분적들이 일단 모두 선택되면 부분적의 합산이 시작된다. 상기 월리스 트리는 전가산기와 반가산기로 구성되어 있다. 도 9a-도 9e에는 승산 가산 유닛(145)의 4개의 16 비트 승산기 각각에 의해 구현된 바와 같이, 본 발명의 일실시예를 위해 부분적 합산과 저감을 수행하는 월리스 트리가 예시되어 있다. 예시된바와 같이, 8개의 부분적은 6개의 부분적으로, 다음에 4개의 부분적으로, 다음에 3개의 부분적으로, 마지막으로 2개의 부분적으로 감소된다.

특히, 도 9a-도 9e에 예시된 바와 같이, 각각의 행의 첨자인 숫자는 부분적의 비트들(a_se15,a_s15,a₁₄-a₀)을 나타낸다. 각각의 행은 별개의 부분적을 나타낸다. Neg_h-neg_a는 각각의 부분적에 있어서 2의 보수의 +1 부분을 나타낸다. 결과적으로, 상기 승수의 특정 부스 엔코딩된 비트가 음수이면, 대응하는 부분적의 "neg" 비트는 1이며, 이에 대해서는 다음의 행에 설명되어 있다.

또한, 도 9a-도 9e에 추가로 예시된 바와 같이, S<위치><가산기 번호>는 캐리 세이브 가산기의 합 부분을 나타낸다. <가산기 번호>는 합이 가산기의 어느 행에 속하는지를 지시해 준다. 가산기들은 도 9a-도 9e의 위에서 아래로 번호가 매겨져 있다. <위치>는 이 가산기가 어느 비트 위치(0...31)에 대해 동작하는지를 나타낸다. 예컨대, S₄₂는 비트 위치 4에 해당하는 캐리 세이브 가산기(2)의 합을 나타낸다.

C<위치><레벨>은 캐리 세이브 가산기의 캐리 부분을 나타낸다. <레벨>은 캐리를 위한 가산기의 각각의 행을 지시한다. <위치>는 이 가산기가 어느 비트 위치(0...31)에서 동작하는지를 지시해 준다. 캐리 세이브 가산기는 전가산기 또는 반가산기일 수 있다. 전가산기는 3개의 비트를 함께 가산한다. 반가산기는 2개의 비트를 가산한다.

도 9a-도 9e에는 또한 이전에 설명한 부호 발생법의 구현이 예시되어 있다.예시된 바와 같이, 상기 부호 발생법은 제1부분적 행의 위에 있는 행의 비트 위치 16상에 '1'을 생성한다. 마지막 부분적 행에서, 최상위 부스 엔코딩 수가 음수이면, 상기 부분적이 2의 보수로 되기 때문에 아래의 행에 1이 생성된다. 이러한 처리를 위해서는 일반적으로 8개가 아닌 10개의 행이 필요하게 된다. 승산이 많은 행을 필요로 할수록 캐리 전달 가산기가 가산할 수 있는 2개의 수로 상기 부분적을 줄이기 위해서는 보다 많은 하드웨어가 필요하다.

하지만, 2진 승산은 가산을 통해 수행된다. 2개수의 2진수가 가산되면, 2진수의 차수는 무의미하다. 그 결과는 어떤 2진수가 제1의 2진수인지에 관계없이 동일하다. 이 원리는 필요한 캐리 세이브의 개수를 줄이기 위해 월리스 트리 전체에 걸쳐서 사용된다. 특히, 일실시예에서, 도 9a의 제1행의 비트 위치 16은 neg_h를 또한 포함하고 있는 도 9의 마지막 행의 비트 위치 16측으로 아래로 이동한다. 결과적으로, 보다 적은 수의 행들이 사용되기 때문에 상기 감소를 행하는데에는 보다 적은 하드웨어가 필요하다.

도 9b에는 제1감소 레벨의 결과가 예시되어 있다. 박스(box)들은 어떤 비트가 캐리 세이브 가산기에 의해 연산되는지를 지시해 준다. 다수의 비트가 6행의 모든 것을 맞추기 위해 주위로 이동한다. 예컨대, 비트 d_se15는 제1행으로 이동한다. c_se15는 제5행으로 이동된다. 하지만, 비트는 단지 동일한 비트 위치에서 위로 또는 아래로 이동해야 한다. 도 9b에서부터 도 9c쪽으로 행의 개수는 4개로 감소된다. 도 9c에서부터 도 9e쪽으로, 행의 개수는 3개으로 감소된다. 마지막으로,캐리 세이브 가산기의 하나의 추가적인 행은 도 9e에 도시된 바와 같이 행의 개수를 2개로 감소시킨다.

도 10a-도 10af에는 도 9a-도 9e에 예시된 월리스 트리 도면을 구현한, 전가산기와 반가산기로 구성된 회로의 일실시예가 예시되어 있다. 도 10a-도 10af의 각각은 도 9c에 나타낸 두 개의 최종 부분적의 특정 비트 위치에 관한 각각의 비트를 발생시키는 승산기 로직을 예시한다. 따라서, 두 개의 최종 부분적이 캐리 전달 가산기(CAP)에 의해 합쳐진다.

도 11에는 상기 유닛(145)의 블록도의 일실시예가 예시되어 있다. 예시된 2개의 동일한 16 비트 승산기가 존재한다. 이들 승산기는 0-31 비트 또는 32-63 비트에 대해 승산 가산 연산을 수행할 수 있다. 추가적인 2개의 16 비트 승산기가 또한 상기 승산 가산 유닛(145)을 완성하기 위해, 예시된 상기 승산기와 매우 유사한 구조로 제공되어 있다. 예시된 바와 같이, 각각의 승산기는 1.5 클럭 사이클에서 2개의 부분적을 생성하기 위해 16 비트 승산을 행한다. 2번째 클럭의 하측 국면인 다음의 1/2 클럭 사이클에서, 승산기(1110,1120)에 의해 발생된 4개의 부분적이 4:2 CSA(1130)에 의해 다시 합산된다. 상기 제어 신호(1150)는 상기 승산기(1110)의 부분적 또는 상기 4:2 CSA(1130)(sumres 및 coutres)의 출력측에서 발생된 부분적을 선택한다. 상기 선택된 데이터는 승산기(120)의 부분적들과 함께 래치된다. 3번째 클럭의 상측 국면에서, CPA(1140)는 결과적으로 얻어진 부분적들을 가산함으로써 32 비트 결과를 발생한다.

32 비트 합의 최종적인 분할은 상기 fub의 외부에 있는 멀티플렉서-래치에의해 달성되며, 상기 선택된 데이터는 3번째 클럭 사이클의 하측 국면에서 다시 기록된다.

일실시예에서, 상기 승산 가산 유닛(145)은 3 대기 시간-1처리량 규칙으로 동작한다. 바꾸어 말하면, 상기 유닛(145)은 파이프 처리되지 않은 데이터 스트림이 상기 입력측에 도입될 때마다 자신의 작업을 완료하기 위해서는 3개의 클럭 사이클을 필요로 한다.

상기 데이터는 0L에서 유닛(145)의 입력측에서 이용 가능하지만, 상기 데이터는 1H가 시작될 때까지 유효하지 않을 수도 있다. 그러므로, 상기 승산은 1H의 시작 부분에서 시작되는 것으로 추정된다. 1H 동안에, 상기 피승수 입력측의 유효하고 안정된 데이터가 상기 지연 소자를 통과해서 각각 래치(1160,1170)에 의해 래치된다. 동시에, 상기 승산기 입력측의 데이터는 상기 입력 버퍼 및 상기 부스 엔코더(1165,1175)를 통해 전달되어 래치(1160,1170)에 의해 래치된다. 이때, 승수 경로와 피승수 경로상의 데이터는 서로 완전하게 동기화된다. 1L에서, 상기 데이터는 비트 선택기 어레이, 및 월리스 트리의 제1부분을 형성하고 있는 한 세트의 전가산기를 통과하고, 그리고 래치(1180,1182)의 셋업 시간 전에 유효하게 된다. 이때의 부분적의 개수는 8개에서 4개로 감소된다. 2H에서, 상기 데이터는 상기 월리스 트리의 나머지 부분을 구성하고 있는 다른 세트의 전가산기를 통과하고, 그리고 래치(1184,1186)에 의해 래치되기 전에 2H의 끝부분에서 유효하게 되고 안정된다.

이전에 설명한 바와 같이, 2L 동안에 상기 데이터는 최종적인 부분적 선택을위해 4:2 압축기(1130)(직렬 접속된 2개의 전가산기)와 2-1 mux(1135)를 통과한다. 상기 데이터는 래치(1190)에 의해 래치되기 전에 2L의 끝부분에서 유효하게 된다. 3H 동안에, 상기 래치(1190)의 출력측의 2개의 부분적은 최종적으로 하나의 합 벡터로 감소된다. 이 합 벡터는 멀티플렉서-래치 경계, 즉 유닛(145)의 바깥쪽의 래치(1195)에 의해 분할 및 래치된다. 3L에서, 상기 데이터는 재기록 동작에 이용될 수 있다.

이전에 설명한 바와 같이, 이전의 승산 누산 명령들은 자신들의 승산 결과를 누산값에 항상 가산한다. 이 누산값은 승산 및 누산 이외의 연산을 수행하는데 병목이 된다(예컨대, 상기 누산값은 상기 이전의 누산값을 필요로 하지 않는 새로운 세트의 연산들이 필요할 때마다 클리어되어야 함). 이 누산값은 또한 라운딩(rounding)과 같은 연산이 누산 전에 수행될 필요가 있는 경우에 병목이 된다.

이와 대조적으로, 상기 공개된 승산 가산 연산은 누산값에 대해 캐리 포워드를 행하지 않는다. 결과적으로, 이들 명령은 보다 다양한 알고리즘을 사용하기에 용이하다. 또한, 소프트웨어 파이프라인 처리가 필적하는 처리량을 얻는데 사용될 수 있다. 상기 승산 가산 명령의 융통성을 설명하기 위해, 여러 가지 예시적인 멀티미디어 알고리즘에 대해서 후술된다. 이들 멀티미디어 알고리즘의 일부는 추가적인 압축 데이터 명령을 사용한다. 이들 추가적인 압축 데이터 명령의 동작은 상기 설명된 알고리즘과 관련되어 설명된다. 이들 압축 데이터 명령의 추가적인 설명을 위해서는, 1995년 8월 31일자로 특허 출원된 미국 특허 출원번호 제521,360호"압축 데이터에 대해 연산을 행하는 한 세트의 명령"을 참조하자. 물론, 기타 다른 압축 데이터 명령이 사용될 수도 있다. 또한, 데이터 이동, 루프 처리, 및 조건적 분기를 처리하는데에 범용 프로세서 명령의 사용을 필요로 하는 다수의 스텝들이 다음의 예에서는 생략되어 있다.

1)복소수의 승산

상기 공개된 승산 가산 명령은 표 10a에 도시된 단일 명령으로 2개의 복소수를 승산하는데에 사용될 수 있다. 이전에 설명한 바와 같이, 2개의 복소수(예컨대, r1i1과 r2i2)의 승산은 다음 식에 따라 수행된다:

실수 성분 = r1·r2 - i1·i2

허수 성분 = r1·i2 + r2·i1

이 명령이 클럭 사이클마다 완료될 수 있도록 구현되면, 본 발명은 클럭 사이클마다 2개의 복소수를 승산할 수 있다.

다른 예로서, 표 10b에는 3개의 복소수를 함께 승산하는데에 사용되는 명령들이 나타내어져 있다.

2)승산 누산 연산

상기 공개된 승산 가산 명령은 값을 승산 및 누산하는데에 사용될 수도 있다. 예컨대, 2개의 세트의 4개의 데이터 요소(A_1-4,B_1-4)가 아래의 표 11에 나타낸바와 같이 승산 및 누산될 수 있다. 일실시예에서, 표 6에 나타낸 각각의 명령은 각각의 클럭 사이클을 완료할 수 있도록 구현된다.

각각의 세트의 데이터 요소의 개수가 8개를 초과하고 그리고 4의 배수이면, 이들 세트의 승산 및 누산은 아래의 표 12에 나타낸 바와 같이 수행되는 경우에는 보다 적은 개수의 명령을 필요로 한다.

또 다른 예로서, 표 13에는 세트(A,B)와 세트(C,D)의 별개의 승산 및 누산이 나타내어져 있으며, 여기서 이들 각각의 세트는 2개의 데이터 요소를 포함하고 있다.

또 다른 예로서, 표 14에는 세트(A,B)와 세트(C,D)의 별개의 승산 및 누산이 나타내어 있으며, 여기서 이들 각각의 세트는 4개의 데이터 요소를 포함하고 있다.

3)도트적 알고리즘(Dot Product Algorithms)

도트적(내적(inner product)이라고도 함)은 신호 처리 및 매트릭스 연산에사용된다. 예컨대, 도트적은 매트릭스의 적, 디지탈 필터링 연산(예컨대, FIR 및 IIR 필터링)을 산출하고 상관 관계 시퀀스를 산출할 때에 사용된다. 다수의 음성 압축 알고리즘(예컨대, GSM, G.728, CELP 및 VSELP)과 Hi-Fi 압축 알고리즘(예컨대, MPEG 및 보조 대역 코딩)은 디지탈 필터링과 상관 관계 계산을 폭넓게 이용하므로, 내적의 성능을 증가시키면 이들 알고리즘의 성능이 증가한다.

2개의 길이 N 시퀀스(A,B)의 도트적은 다음과 같이 정의된다:

도트적 계산을 수행하는 동작은, 각각의 시퀀스의 대응하는 요소들이 함께 승산되고 그 결과가 도트적 결과를 형성하기 위해 누산되는 승산 누산 연산을 널리 이용한다.

상기 도트적 계산은 상기 승산 가산 명령을 사용하여 수행될 수 있다. 예컨대, 4개의 16 비트 요소를 포함하고 있는 압축 데이터형이 사용되면, 상기 도트적 계산은 각각 4개의 값을 포함하고 있는 두 시퀀스에 대해:

1) 이동 명령을 사용하여 소스 1을 발생하기 위해 상기 A 시퀀스로부터의 4개의 16 비트 값을 액세스하고;

2) 이동 명령을 사용하여 소스 2를 발생하기 위해 상기 B 시퀀스로부터의 4개의 16 비트 값을 액세스하며;

3) 승산 가산 명령, 압축 가산 명령, 및 시프트 명령을 사용하여 이전에 설명한 승산 및 누산을 수행함으로써, 수행될 수도 있다.

매우 적은 개수 이상의 요소를 가지고 있는 벡터의 경우에는, 표 9에 나타낸 방법이 사용되며, 그리고 최종 결과들이 결국에 함께 가산된다. 기타 다른 지원 명령으로는 누산기 레지스터를 초기화하기 위한 압축 OR 및 XOR 명령, 계산의 최종 단계에서 원하지 않는 값을 시프트시키기 위한 압축 시프트 명령을 들 수 있다. 루프 제어 동작은 프로세서(109)의 명령 세트에 이미 존재하는 명령을 사용하여 달성된다.

4)이산 코사인 변환 알고리즘

이산 코사인 변환(DCT)은 다수의 신호 처리 알고리즘에서 사용되는 잘 알려진 기능이다. 특히, 비디오 및 이미지 압축 알고리즘이 이 변환을 널리 이용한다.

이미지 및 비디오 압축 알고리즘에서, DCT는 공간 표현으로부터 주파수 표현으로 픽셀 블록을 변환하는데에 사용된다. 주파수 표현에서, 화상 정보는 주파수 성분으로 분리되며, 이때 이들 성분의 일부는 다른 성분보다 중요하다. 상기 압축 알고리즘은 재구성된 화상 내용에 악영향을 미치지 않는 주파수 성분을 선택적으로 정량화하거나 폐기한다. 이 방법으로 압축이 달성된다.

상기 DCT의 많은 구현예들이 존재하며, 가장 일반적인 것은 고속 푸우리에 변환(TFT) 계산 흐름을 기초로 모델링된 어떤 종류의 고속 변환 방법이다. 이러한 고속 변환시에 차수 N 변환은 차수 N/2 변환과 재조합된 결과와의 조합으로 분해된다. 이 분해는 최소 차수 2 변환에 도달될 때까지 실행될 수 있다. 이 기본적인 2 변환 커넬(kernel)은 종종 버터플라이(butterfly) 연산이라고 한다. 이 버터플라이 연산은 다음과 같이 표현된다:

X = a*x + b*y

Y = c*x - d*y

여기서, a, b, c 및 d는 계수이며, x 및 y는 입력 데이터이고, X와 Y는 변환 출력이다.

상기 승산 가산은 상기 DCT 계산이 압축 데이터를 사용하여 아래의 방법으로 수행될 수 있도록 해 준다:

1) 이동 명령과 압축 해제 명령을 사용하여 소스 1(아래의 표 10 참조)을 발생하기 위해 x와 y를 나타내는 2개의 16비트 값을 액세스한다;

2) 아래의 표 10에 나타낸 소스 2를 발생한다. 소스 2는 다수의 버터플라이 연산에서 다시 사용될 수 있음에 주의하자;

3) 결과를 발생하기 위해 소스 1과 소스 2를 사용하여 승산 가산 명령을 수행한다(아래의 표 15 참조).

어떤 상황에서는 버터플라이 연산의 계수들이 1이다. 이들 경우에, 상기 버퍼플라이 연산은 단지 압축 가산 명령과 압축 감산 명령을 사용하여 수행될 수 있는 가산 및 감산으로 변질된다.

IEEE 문헌에는 역 DCT가 화상 회의를 위해 수행되어야 하는 정확도가 특정되어 있다. (IEEE 회로 및 시스템 협회, "8×8 역 이산 코사인 변환의 구현을 위한 IEEE 표준 사양서", IEEE Std. 1180-1990(미국, 뉴욕 10017, 뉴욕 이스트 제47스트리트 345, IEEE Inc., 1991년 3월 18) 참조). 필요한 정확도는 32 비트 출력을 발생하기 위해 16 비트 입력을 사용하기 때문에 상기 공개된 승산 가산 명령에 의해 충족된다.

이 방법으로, 상기 공개된 승산 가산 명령은 복소수의 승산을 필요로 하는 알고리즘, 변환을 필요로 하는 알고리즘, 및 승산 누산 연산을 필요로 하는 알고리즘을 포함해서, 다수의 상이한 알고리즘의 성능을 개선하는데 사용될 수 있다. 결과적으로, 이 승산 가산 명령은 설명한 이전의 명령보다 많은 개수의 알고리즘의 성능을 개선하기 위해 범용 프로세서내에서 사용될 수 있다.

본 발명은 여러 가지 실시예에 의해 설명되었지만, 본 발명은 설명된 실시예에 한정되지 않음을 당업자는 알 수 있다. 본 발명의 방법 및 장치는 첨부된 청구의 범위의 취지 및 범위내에서 수정예 및 변형예로 실시될 수 있다. 따라서, 이상에서의 설명은 본 발명을 한정하는 것이 아니고 예시하는 것으로 간주되어야 한다.

Claims

데이타 요소들을 각각 포함하고 있는 제1 압축데이타 및 제2 압축데이타를 내부에 저장하고 있고, 상기 제1 압축데이타의 상기 데이타 요소들의 각각이 상기 제2 압축데이타내에 대응하는 데이타 요소를 가지고 있는 컴퓨터 시스템에서, 단일 명령에 응답하여 승산-가산 연산을 수행하는 방법에 있어서,

상기 제1 압축데이타의 데이타 요소와 이에 대응하는 상기 제2 압축데이타의 데이타 요소를 함께 승산한 결과에 대응하는 중간 결과 데이타 요소를 발생하기 위해 상기 제1 압축데이타의 데이타 요소와 이에 대응하는 상기 제2 압축데이타의 데이타 요소를 함께 승산하는 단계로서, 상기 중간 결과 데이타 요소가 복수의 데이터 세트로 분할되어 있는, 상기 단계;

상기 중간 결과 데이타 요소들의 합을 나타내는 복수의 결과 데이타 요소를 발생시키는 단계로서, 상기 복수의 결과 데이타 요소중의 제1결과 데이타 요소는 상기 복수의 데이터 세트중의 제1 데이터세트에 상기 중간 결과 데이타 요소들의 합을 나타내고, 상기 복수의 결과 데이타 요소중의 제2결과 데이타 요소는 상기 복수의 데이터 세트중의 제2 데이터세트에 상기 중간 결과 데이타 요소들의 합을 나타내는, 상기 단계; 및

상기 복수의 결과 데이타 요소들을 합산하지 않고 상기 단일 명령의 실행을 완료하는 단계를 포함하고 있는 것을 특징으로 하는 방법.
제1항에 있어서, 다른 명령에 대한 피연산자로서 사용하기 위해 상기 복수의 결과 데이타 요소를 제3 압축데이타로서 저장하는 단계를 더 포함하고 있는 것을 특징으로 하는 방법.
제1항에 있어서, 레지스터로부터의 상기 제1 및 제2 압축데이타를 액세스하는 단계; 및

상기 제1 압축데이타에 대한 상기 복수의 결과 데이타 요소를 상기 레지스터에 기록하는 단계를 더 포함하고 있는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 복수의 결과 데이타 요소의 각각은 상기 압축데이터의 상기 데이타 요소에 비해 고정밀도를 제공하는 것을 특징으로 하는 방법.
제4항에 있어서, 각각의 상기 복수의 결과 데이타 요소는 상기 압축데이터의 상기 데이타 요소에 비해 2배의 비트를 포함하고 있는 것을 특징으로 하는 방법.
데이타 요소들을 각각 포함하고 있는 제1 및 제2 압축데이타를 개별적인 레지스터에 각각 저장하기 위한 레지스터 파일로서, 상기 제1 압축데이타의 상기 데이타 요소들의 각각은 상기 제2 압축데이타내의 데이타 요소들의 각각과 대응하는, 상기 레지스터 파일;

제1 및 제2 압축 데이터를 피연산자로서 특정하는 명령을 디코딩하기 위한디코더; 및

상기 레지스터 파일과 상기 디코더에 접속되어 있는 제1회로(130)를 구비하고 있고,

상기 제1회로는, 상기 명령에 응답하여,

복수의 데이터 세트로 쌍을 이룬 대응하는 중간 데이타 요소를 발생하기 위해 상기 제1 및 제2 압축데이타의 상기 대응하는 데이타 요소들을 함께 동시에 승산하고,

복수의 결과 데이타 요소를 발생하기 위해 각각의 상기 복수의 세트의 중간 데이타 요소들을 산술적으로 조합하고, 각각의 상기 복수의 결과 데이타 요소는 상기 데이타 요소에 비해 고정밀도를 제공하고, 상기 복수의 결과 데이타 요소중의 제1 및 제2결과 데이타 요소는 상기 복수의 데이터세트의 제1 및 제2 데이터세트에 상기 중간 결과 데이타 요소들의 가산을 각각 나타내며,

상기 단일 명령을 실행한 결과로서 상기 레지스터 파일중의 하나의 레지스터에 상기 복수의 결과 데이타 요소를 제3 압축데이타로서 저장하는 것을 특징으로 하는 프로세서.
제6항에 있어서, 각각의 상기 복수의 결과 데이타 요소는 상기 복수의 데이터세트중의 다른 하나의 데이터세트에 상기 중간 결과 데이타 요소들의 가산을 나타내는 것을 특징으로 하는 프로세서.
제6항에 있어서, 각각의 상기 복수의 결과 데이타 요소는 상기 압축데이터의 상기 데이타 요소에 비해 고정밀도를 제공하는 것을 특징으로 하는 프로세서.
제6항에 있어서, 각각의 상기 복수의 결과 데이타 요소는 상기 압축데이터의 상기 데이타 요소에 비해 2배의 비트를 포함하고 있는 것을 특징으로 하는 프로세서.
제6항에 있어서, 상기 제1회로는 포화로 동작하는 것을 특징으로 하는 프로세서.
제6항에 있어서, 상기 제1회로는 상기 디코더에 접속되고 상기 명령에 응답하는 제2회로(801)를 포함하고 있고, 상기 제2회로는,

각각의 승산기가 상기 복수의 데이타 요소 쌍중 상이한 하나의 데이타 요소를 수신하기 위해 접속되어 있는 복수의 승산기,

상기 복수의 승산기중 2개의 승산기에 각각 접속되어 있는 복수의 산술 유닛으로서, 이들 산술 유닛중 2개의 산술 유닛이 가산기인, 상기 복수의 산술 유닛, 및

상기 복수의 산술 유닛에 접속되고, 상기 제3 압축데이타가 다른 명령에 의해 피연산자로서 사용되도록 하기 위해 상기 레지스터 파일에 저장되어지게 하는 제3회로(800)를 포함하고 있는 것을 특징으로 하는 프로세서.
제11항에 있어서, 각각의 승산기는 2개의 부분적을 발생하는 16 비트 승산을 적어도 한번 수행하는 것을 특징으로 하는 프로세서.
제12항에 있어서,

상기 복수의 승산기중 제1 및 제2승산기에 접속되고, 상기 제1승산기에 의해 발생된 2개의 부분적을 수신하고 상기 제2승산기에 의해 발생된 2개의 부분적을 수신하여 2개의 부분적으로 된 단일 세트를 발생하는, 제1 캐리 세이브 가산기(CSA); 및

상기 복수의 승산기중 제3 및 제4승산기에 접속되고, 상기 제3승산기에 의해 발생된 2개의 부분적을 수신하고 상기 제4승산기에 의해 발생된 2개의 부분적을 수신하여 2개의 부분적으로 된 단일 세트를 발생하는, 제2 캐리 세이브 가산기(CSA)를 더 포함하고 있는 것을 특징으로 하는 프로세서.
제12항에 있어서, 상기 제1, 제2, 제3 및 제4승산기의 각각은 8개의 부분적을 선택하기 위한 수단을 포함하고 있고, 상기 승산기의 각각은 CSA들로 이루어 진 4개의 레벨을 포함하고 있는 것을 특징으로 하는 프로세서.
제14항에 있어서, CSA들로 이루어 진 상기 4개의 레벨의 각각은 상기 8개의 부분적을 6개의 부분적으로 감소시키는 제1레벨, 상기 6개의 부분적을 4개의 부분적으로 감소시키는 제2레벨, 상기 4개의 부분적을 3개의 부분적으로 감소시키는 제3레벨, 및 상기 3개의 부분적을 2개의 부분적으로 감소시키는 제4레벨을 포함하고 있는 것을 특징으로 하는 프로세서.
제15항에 있어서, 상기 가산기중의 제1가산기는, 상기 제1 CSA에 접속되어 있고 상기 제1 CSA에 의해 발생된 상기 2개의 부분적의 합을 생성하며,

상기 가산기중의 제2가산기는, 상기 제2 CSA에 접속되어 있고 상기 제2 CSA에 의해 발생된 상기 2개의 부분적의 합을 생성하는 것을 특징으로 하는 프로세서.
제12항에 있어서, 각각의 상기 승산기는 한 세트의 8개의 부분적을 선택하기 위해 2-비트 부스 엔코딩을 구현하는 것을 특징으로 하는 프로세서.
제17항에 있어서, 각각의 상기 승산기는 상기 부분적의 부호 확장을 대체하기 위해 부호 발생법을 구현하는 것을 특징으로 하는 프로세서.
제18항에 있어서, 각각의 상기 승산기는 상기 부호 발생법에 의해 발생된 잉여 비트를 개별 부분적 행의 대응하는 빈 비트 위치에 재배치시키는 것을 특징으로 하는 프로세서.
컴퓨터 시스템에 사용하기 위한 장치에 있어서,

데이타 요소들을 각각 포함하고 있는 제1 압축데이타와 제2 압축데이타를 내부에 저장하고 있는 기억 영역으로서, 상기 제1 압축데이타의 상기 데이타 요소들의 각각은 상기 제2 압축데이타내에 대응하는 데이타 요소를 가지고 있는 기억 영역; 및

상기 기억 영역에 접속되고, 신호에 응답하여 동작하는 회로를 포함하고 있고,

상기 회로는,

복수의 데이터 세트로 분할되는 대응하는 중간 결과 데이타 요소를 발생하기 위해 상기 제1 압축데이타와 상기 제2 압축데이타의 상기 대응하는 데이타 요소들을 함께 승산하는 제1수단;

상기 중간 결과 데이타 요소들의 합에 의한 복수의 결과 데이타 요소와, 상기 복수의 데이터 세트중의 제1 데이터 세트에 상기 복수의 결과 데이타 요소중의 제1 결과 데이타 요소와, 상기 복수의 데이터 세트중의 제2 데이터 세트에 상기 중간 결과 데이타 요소들의 합을 나타내는 상기 중간 결과 데이타 요소들의 합을 나타내는 상기 복수의 결과 데이타 요소중의 제2 결과 데이타 요소를 발생하는 제2수단; 및

상기 복수의 결과 데이타 요소를 제3 압축데이타로서 상기 기억 영역에 저장하는 제3수단을 포함하고 있는 것을 특징으로 하는 장치.
제20항에 있어서, 상기 제1 압축데이타와 상기 제2 압축데이타의 각각은 적어도 4개의 데이타 요소를 포함하고 있고, 상기 복수의 데이터 세트의 각각은 적어도 2개의 중간 결과 데이타 요소를 포함하고 있는 것을 특징으로 하는 장치.
제20항에 있어서, 상기 합산은 포화로 수행되는 것을 특징으로 하는 장치.
제20항에 있어서, 상기 중간 결과 데이타 요소와 상기 복수의 결과 데이타 요소는 상기 압축데이타의 상기 데이타 요소에 비해 2배의 비트를 포함하고 있는 것을 특징으로 하는 장치.
명령들로 된 프로그램을 실행하는 데이타 처리 시스템에서, 복소수들을 승산하는 방법에 있어서,

A) 승산-가산 명령인 제1명령을 수신하는 단계;

B) 상기 제1명령에 응답하여:

B1) 압축 데이타로서 저장된 8개의 데이타 요소를 판독하는 단계로서, 상기 8개의 데이타 요소로 된 제1 데이타 서브세트는 상기 복소수중 제1복소수의 각각의 성분의 2가지 표현을 포함하고 있고, 상기 8개의 데이타 요소로 된 제2 데이터 서브세트는 상기 복소수중 제2복소수의 각각의 성분의 2가지 표현을 포함하고 있으며, 상기 성분들의 각각의 표현은 상기 성분의 양수 또는 음수를 표현하는, 상기 단계; 및

B2) 상기 제1 및 제2 데이터 서브세트를 사용하여 상기 제1 및 제2 복소수의 적을 나타내는, 결과적으로 얻어진 복소수를 발생하는 단계를 포함하고 있는 것을 특징으로 하는 방법.
제24항에 있어서, 상기 제1 데이터 서브세트의 제1 및 제3 데이타 요소의 각각은 상기 제1복소수의 실수 성분의 양수를 나타내고, 상기 제1 데이터 서브세트의 제2 및 제4 데이타 요소의 각각은 상기 제1복소수의 허수 성분의 양수를 나타내는 것을 특징으로 하는 방법.
제25항에 있어서, 상기 제2 데이터 서브세트의 제1 및 제4 데이타 요소의 각각은 상기 제2복소수의 실수 성분의 양수를 나타내고, 상기 제2서브세트의 제2 데이타 요소는 상기 제2복소수의 허수 성분의 음수를 나타내며, 상기 제2서브세트의 제3 데이타 요소는 상기 제2복소수의 허수 성분의 양수를 나타내는 것을 특징으로 하는 방법.
제24항에 있어서, 결과적으로 얻어진 복소수를 발생하는 상기 단계는,

a) 제1 중간 결과를 발생하기 위해 상기 제1 데이터 서브세트의 상기 제1 데이타 요소와 상기 제2 데이터 서브세트의 상기 제1 데이타 요소를 승산하는 단계;

b) 제2 중간 결과를 발생하기 위해 상기 제1 데이터 서브세트의 상기 제2 데이타 요소와 상기 제2 데이터 서브세트의 상기 제2 데이타 요소를 승산하는 단계;

c) 상기 결과적으로 얻어진 복소수의 실수 성분을 발생하기 위해 상기 제1중간 결과를 상기 제2 중간 결과에 가산하는 단계;

d) 제3 중간 결과를 발생하기 위해 상기 제1 데이터 서브세트의 상기 제3 데이타 요소와 상기 제2 데이터 서브세트의 상기 제3 데이타 요소를 승산하는 단계;

e) 제4 중간 결과를 발생하기 위해 상기 제1 데이터 서브세트의 상기 제4 데이타 요소와 상기 제2 데이터 서브세트의 상기 제4 데이타 요소를 승산하는 단계; 및

f) 상기 결과적으로 얻어진 복소수의 허수 성분을 발생하기 위해 상기 제3 중간 결과를 상기 제4 중간 결과에 가산하는 단계를 포함하고 있는 것을 특징으로 하는 방법.
제24항에 있어서, 상기 제1복소수를 나타내는 상기 8개의 데이타 요소는 제1 압축 데이타 항목에 저장되어 있고, 상기 제2복소수를 나타내는 상기 8개의 데이타 요소는 제2 압축 데이타 항목에 저장되어 있는 것을 특징으로 하는 방법.
제24항에 있어서, 결과적으로 얻어진 복소수를 발생하는 상기 단계는,

상기 결과적으로 얻어진 복소수의 실수 및 허수 성분을 각각 나타내는 제1 및 제2 데이타 요소를 가지고 있는 제3 압축 데이타 항목으로서 상기 결과적으로 얻어진 복소수를 기록하는 단계를 더 포함하고 있는 것을 특징으로 하는 방법.
제29항에 있어서, 상기 제1 및 제2 데이타 항목의 각각의 상기 데이타 요소는 N 비트를 포함하고 있고, 상기 제3 압축 데이타 항목의 각각의 상기 데이타 요소는 2N 비트를 포함하고 있는 것을 특징으로 하는 방법.
제29항에 있어서,

C) 상기 제3 압축 데이타 항목을 기초로 제4 압축 데이타 항목을 발생하는 단계로서, 상기 제4 압축 데이타 항목은 제1 데이타 요소 쌍 및 제2 데이타 요소 쌍을 가지고 있고, 상기 제1 데이타 요소 쌍의 각각의 데이터 요소는 상기 결과적으로 얻어진 복소수의 실수 성분을 나타내며, 상기 제2 데이타 요소 쌍의 각각의 데이터 요소는 상기 결과적으로 얻어진 복소수의 허수 성분을 나타내는 것을 특징으로 하는 방법.
제24항에 있어서, 상기 결과적으로 얻어진 복소수의 실수 및 허수 성분을 압축 데이터가 누산되는 누산 압축 데이타 항목의 제1 및 제2 데이타 요소에 각각 가산하는 단계를 더 포함하고 있는 것을 특징으로 하는 방법.
제32항에 있어서, 각각 가산하는 상기 단계는 다른 단일 명령에 응답하여 수행되는 것을 특징으로 하는 방법.
값을 승산 및 누산하는 방법에 있어서,

제1 단일 승산-가산 명령에 응답하여 데이타 요소(A0,A1,A2,A3)를 가지고 있는 제1 압축 피연산자 및 데이타 요소(B0,B1,B2,B3)를 가지고 있는 제2 압축 피연산자를 식별하고, (A0*B0)+(A1*B1)를 나타내는 제1 데이타 요소와 (A2*B2)+(A3*B3)를 나타내는 제2 데이타 요소를 가지고 있는 제3 압축 데이타를 발생하는 단계; 및

상기 제3 압축 데이타를 누산값에 가산하는 단계를 포함하고 있는 것을 특징으로 하는 방법.
제34항에 있어서, 상기 제3 압축 데이타의 상기 제1 및 제2 데이타 요소는 상기 제1 및 제2 압축 피연산자의 상기 데이타 요소에 비해 2배의 비트를 포함하고 있는 것을 특징으로 하는 방법.
제34항에 있어서, 상기 제3 압축 데이타를 누산값에 가산하는 상기 단계는,

제2 단일 승산-가산 명령에 응답하여 데이타 요소(C0,C1,C2,C3)를 가지고 있는 제4 압축 피연산자 및 데이타 요소(D0,D1,D2,D3)를 가지고 있는 제5 압축 피연산자를 식별하여, (C0*D0)+(C1*D1)를 나타내는 제1 데이타요소 및 (C2*D2)+(C3*D3)를 나타내는 제2 데이타 요소를 가지고 있는 제6 압축데이타를 발생하는 단계;

상기 제3 및 제6 압축데이타로부터의 상기 제1 데이타 요소들을 가산하는 단계; 및

상기 제3 및 제6 압축데이타로부터의 상기 제2 데이타 요소들을 가산하는 단계를 포함하고 있는 것을 특징으로 하는 방법.
제34항에 있어서, 상기 제3 압축데이타를 누산값에 가산하는 상기 단계는,

상기 제1 데이타 요소들을 가산하는 상기 단계의 결과와 상기 제2데이타 요소들을 가산하는 상기 단계의 결과를 가산하는 단계를 포함하고 있는 것을 특징으로 하는 방법.
제34항에 있어서, 상기 제3 압축데이타를 누산값에 가산하는 상기 단계는,

제2 단일 승산-가산 명령에 응답하여 데이타 요소(C0,C1,C2,C3)를 가지고 있는 제4 압축 피연산자 및 데이타 요소(D0,D1,D2,D3)를 가지고 있는 제5 압축 피연산자를 식별하고, (C0*D0)+(C1*D1)를 나타내는 제1 데이타 요소 및(C2*D2)+(C3*D3)를 나타내는 제2 데이타 요소를 가지고 있는 제6 압축 데이타를 발생하는 단계;

상기 제3 및 제5 압축 데이타로부터의 상기 제1 및 제2데이타 요소를 가산한 결과를 각각 저장하는 제1 및 제2 데이타 요소를 가지고 있는 제7 압축 데이타를 발생하는 단계;

상기 제7 압축 데이타의 상기 제1 데이타 요소에 대응하는 제8 압축 데이타내의 한 위치에 저장된 상기 제7 압축 데이타의 상기 제2 데이타 요소를 가지고 있는 제8 압축 데이타를 발생하기 위해 상기 제7 압축 데이타를 압축 해제하는 단계; 및

대응하는 위치에 있는 상기 제7 및 제8 압축 데이타의 데이타 요소들을 가산하는 단계를 포함하고 있는 것을 특징으로 하는 방법.