KR101006030B1

KR101006030B1 - Ｓｉｍｄ 병렬성의 자동 선택을 가진 마이크로프로세서

Info

Publication number: KR101006030B1
Application number: KR1020087000668A
Authority: KR
Inventors: 케네스 앨런 도크서
Original assignee: 퀄컴 인코포레이티드
Priority date: 2005-06-09
Filing date: 2006-05-25
Publication date: 2011-01-06
Also published as: MX2007015555A; DE602006021019D1; EP1894091A2; EP2290527B1; US20060282826A1; WO2006135554A3; IL187805A0; ES2360816T3; EP2290527A3; EP2290527A2; JP5074389B2; CN101228504A; ATE504038T1; CN100595730C; ES2389946T3; WO2006135554A2; EP1894091A4; KR20080021773A; US7836284B2; JP2008544350A

Abstract

고도의 병렬 프로그래밍가능한 데이터 프로세서에서, 하나 이상의 프로세싱 소자의 자동 선택적인 전력 및 에너지 제어는 모니터링된 조건에 대한 병렬성의 정도에 매칭한다. 예를 들어, 병렬 프로세서의 로직이 프로그램 동작 (예를 들어, 특정 태스크에 대한 또는 검출된 온도로 인한) 이 언제 데이터 경로의 전체 폭보다 작은 폭을 요구하는지를 검출한다. 이에 응답하여, 제어 로직은 병렬 프로세싱 용량의 서브세트를 요구하는 동작 모드를 세팅한다. 필요하지 않는 하나 이상의 병렬 프로세싱 소자는 에너지를 보존하고 및/또는 열 (즉, 전력 소비) 을 감소시키기 위해 셧다운될 수 있다. 나중에, 부가된 용량의 동작이 적당한 경우, 로직은 프로세싱 조건에서의 변화를 검출하고 동작 모드를 통상적으로 전체 폭인 폭 데이터 경로의 모드로 자동으로 세팅한다. 이 모드 변화는 이전의 셧다운된 프로세싱 소자에 반응적이다.

병렬 프로세싱, SIMD

Description

ＳＩＭＤ 병렬성의 자동 선택을 가진 마이크로프로세서{MICROPROCESSOR WITH AUTOMATIC SELECTION OF SIMD PARALLELISM}

기술 분야

본 발명은, 프로세서의 프로세싱 동작에 관련된 조건에 동작 병렬성의 정도를 매칭시키기 위해, 예를 들어, 단일 명령 복수 데이터 (SIMD; Single Instruction, Multiple Data) 프로세서 등인 하나 또는 다수의 병렬 데이터 프로세싱 소자의 활성 상태 (활성 및 비활성) 를 자동으로 제어하는 기술 및 장비에 관한 것이다.

배경

다수의 디바이스는 프로그램 명령에 부합하는 데이터 프로세싱 기능을 수행하는 로직의 복잡한 배열을 가진 마이크로프로세서 및 디지털 신호 프로세서와 같은 통합된 프로세서를 사용한다. 비디오, 오디오 또는 그래픽과 같은 멀티미디어 데이터의 디지털 프로세싱을 요구하는 애플리케이션은 소비자에게 증가적으로 대중화되어 왔다. 그러나, 이러한 정보의 프로세싱은 집약적이며, 이러한 데이터의 프로세싱에 특히 적합한 프로세서 구조를 유발하였다.

멀티미디어 데이터는 통상적으로 상당한 양의 "병렬" 데이터를 포함한다. 데이터는, 개별 단위의 데이터가 서로 의존하지 않는 "병렬" 이다. 따라서, 하나의 데이터 유닛의 프로세싱은 또 다른 유닛의 프로세싱에 독립적이며, 즉, 임 의의 다른 유닛의 프로세싱이 완료되기를 대기할 필요가 없다. 결과적으로, 다수의 이러한 독립적인 데이터 프로세싱 동작을 병렬로 동시에 수행하는 것이 가능하다. 특정 타입의 데이터의 이러한 특징, 특히 멀티미디어 데이터의 일반 형태가, 병렬로 데이터 유닛을 동시에 조작할 수 있는 병렬 프로세서의 생성을 야기하였다. 예를 들어, 멀티미디어 데이터의 병렬 프로세싱은 종종 전체 프로세싱 스피드를 실질적으로 증가시키는데 도움을 준다.

특히, 멀티미디어 애플리케이션에 대한 병렬 데이터 프로세싱을 위해 다수의 상이한 구조 및 명령 타입이 개발되었다. 예를 들어, SIMD 프로세서가 데이터를 병렬로 프로세싱한다. SIMD 명령을 이용하는 멀티미디어 프로세싱은 특정 프로그램 태스크를 실행하는데 필요한 전체 명령 수를 감소시키고, 복수의 데이터 소자를 병렬로 동작함으로써 수행을 가속화한다. 프로세서가 단일의 명령 스트림을 실행할 수도 있지만, 이들 명령의 SIMD 는 복수의 데이터 스트림을 병렬로 동시에 프로세싱한다.

SIMD 프로세서와 같은 고도의 병렬 데이터 프로세싱 타입 디바이스를 포함하는 다수의 프로세서의 애플리케이션은 프로세서 회로가 소비할 수 있는 전력 및 에너지상에 심각한 제한을 둔다. 예를 들어, 셀 폰, 개인 휴대 정보 단말기 (PDA; portable digital assistants) 및 핸드헬드 비디오 게임과 같은 휴대용 디바이스는 배터리 전원을 사용한다. 그러나, 이들 디바이스는 정교한 마이크로프로세서를 포함하고, 일부 경우에는, 멀티미디어 관련 프로세싱을 위한 코프로세서 (co-processors) 를 이용한다. 이러한 애플리케이션에 대한 프로세서 설계는 통상적으로 전력 및 에너지 소비의 세심한 제어를 보장하여, 주변 칩의 수명 뿐만 아니라, 배터리 전원에 있어서 전하의 수명을 연장한다.

프로세서의 구조는 프로세서를 통한 데이터 경로의 "폭" 즉, 프로세싱 될 수 있는 데이터의 최대 사이즈를 확립한다. SIMD 프로세서 구조와 같은 병렬 프로세싱 설계는 통상적으로, 디바이스가 주어진 사이클 동안 프로세스할 수 있는 병렬 데이터의 최대량에 대응하는 데이터 경로 폭을 제공하도록 스케일링된다. 현재 SIMD 프로세서가 이용가능하여 한번에 데이터의 128-비트까지 프로세스할 수 있고, 이는 데이터의 전체 폭이 128-비트임을 의미한다. 그러나, 임의의 주어진 시간에, 프로세서의 병렬 부분은 데이터의 더 작은 단위를 프로세싱하고 있을 수도 있다.

다른 사이즈가 공지되어 있지만, 통상적인 병렬 프로세서는 오늘날 64-비트 데이터 경로 또는 128-비트 폭 데이터 경로를 제공한다. 상이한 폭의 데이터를 취급하도록 경로가 구성될 수 있지만, 데이터 경로는 병렬 프로세싱 소자로 구성된다. 128-비트 데이터 경로는, 예를 들어, 작은 사이즈로 나누어 질 수 있으며, 즉 프로세서는, 특정 애플리케이션에 대해 기입된 SIMD 명령에 의해 특정되는 바와 같이, 8-비트 길이, 16-비트 길이, 32-비트 길이 또는 64-비트 길이인, 128-비트 데이터의 섹션을 프로세스할 수 있다. 예를 들어, 8-비트 명령을 이용하는 경우, 128-비트 폭 데이터 경로를 갖는 프로세서는 16 개의 8-비트 데이터 단위를 병렬로 프로세스할 수 있다. 반면에, 64-비트 데이터 경로로, 명령이 128-비트를 요구하는 경우, 데이터는 2 개의 64-비트 섹션으로 분리될 수도 있어, 명령은 2 개 의 64-비트 섹션 모두에서 순차적으로 실행된다. 물론, 64-비트 섹션 각각의 프로세싱은 예를 들어, 8 개의 8-비트 데이터 단위의 병렬 프로세싱을 필요로 할 수도 있다. 128-비트 명령에 대한 프로세싱을 분할함으로써, 분할된 프로세싱에 대한 시간이 더 길어질지라도 64-비트 폭 데이터 경로는 128-비트 명령을 취급할 수 있다.

이들 동작은 프로세서의 병렬 자원의 최적의 사용을 허용한다. 여전히, 특정 프로세싱 애플리케이션에 모든 프로세싱 자원이 필요하지는 않는 경우 또는 전체 동작이 바람직할 수도 있는 경우가 발생한다. 예를 들어, 프로세서의 다수의 기능 또는 애플리케이션은 단순히 프로세서 디바이스의 전체 프로세싱 용량을 요구하지 않거나, 상당히 제한된 시간 동안만 전체 프로세싱 용량을 요구한다. 예를 들어, 128-비트 데이터 경로 프로세서에 있어서, 예를 들어, 데이터 병렬성의제한된 양이 존재하고, 프로세스할 데이터 양이 낮으며, 또는 속도에 대해 상당히 큰 요구가 없기 때문에, 하나의 애플리케이션 또는 그 일부는 몇몇 실질적인 시간의 주기(들) 동안에 64-비트 데이터 프로세싱만을 요구할 수도 있다. 그러나, 128-비트 폭 데이터 경로를 제공하는 소자 모두가 계속 완전히 전력을 공급받는다면, 미사용 병렬 소자는 불필요하게 에너지를 소비한다.

또 다른 예로서, 전체 병렬 프로세싱 동작은 모든 병렬 소자의 집중적인 활동을 포함한다. 따라서, 모든 병렬 소자는 열을 생성하고 있다. 예를 들어 저가 애플리케이션에 대한 플라스틱 패키징으로 캡슐화된 일부 프로세서 설계는 특정 온도 위의 열을 견디지 못할 수도 있다. 연장된 주기에 걸쳐 병렬 소자의 모든 어레이의 계속적인 고속 동작은 너무 많은 열을 생성할 수도 있다.

병렬 프로세서는, 더 높은 정도의 병렬성을 요구하지 않는 애플리케이션에 대해 더욱 효과적이기 위해, 일부 애플리케이션에 대해 필요한 것보다 낮은 정도의 병렬성으로 설계될 수 있다. 이러한 타협이 전력 소비를 감소시키고 그 결과 열 생성을 감소시킬 수 있지만, 더 많은 병렬성이 요구되는 경우에는, 에너지를 낭비하며 성능을 저하시킨다.

따라서, 프로세싱 태스크 및/또는 환경 조건에 기초하여 이러한 프로세서의 병렬성을 자동으로 조정하는 기술이 요구된다.

요약

여기서의 교시는, 검출된 프로세싱 조건에 기초하여, 병렬 프로그래밍가능 데이터 프로세서의 하나 이상의 소자의 자동 활성화/비활성화를 제공한다. 필수적으로, 제어는 병렬성의 동작 정도를 병렬 데이터 프로세서에 의해 수행될 태스크의 요구사항 및/또는 프로세서의 환경 조건에 매칭시킨다. 예를 들어, 병렬 프로세싱 소자는, 필요치 않은 경우 에너지를 보존하기 위해, 또는 프로세서의 온도가 너무 높은 경우 프로세서를 냉각시키기 위해 셧다운될 수 있다. 이들 교시의 양태는 병렬 프로세싱 디바이스 뿐만 아니라 다양한 동작 방법을 포함한다.

예를 들어, 병렬 데이터 프로세서의 동작의 병렬성을 제어하는 방법은, 병렬 데이터 프로세서를 통해 수행된 프로세싱에 관련된 하나 이상의 조건을 모니터링하는 단계를 포함한다. 모니터링된 조건 또는 조건들이 프로세싱의 제 1 상태와 관련되는 경우, 하나 이상의 명령은 제 1 폭의 데이터 경로를 제공하는 데이터 프 로세서의 2 개의 병렬 프로세싱 소자에서 병렬로 실행된다. 모니터링된 조건 또는 조건들이 프로세싱의 제 2 상태와 관련되는 경우, 하나 이상의 명령은 2 개의 프로세싱 소자 중 제 1 소자에서 실행된다. 이러한 환경하에서는, 제 2 의 더 작은 폭의 데이터가 제 1 소자를 통해 프로세스되며, 2 개의 병렬 프로세싱 소자 중 제 2 소자는 비활성이다. 통상적인 구현에서, 제 2 소자를 비활성화하는 것은 에너지를 보존하고 그리고/또는 프로세서에 의한 열 생성 (즉, 전력 소비) 을 감소시킨다.

검출된 프로세싱 요구사항 또는 히스토리에 기초하여, 병렬성을 자동을 제어 (하나 이상의 프로세싱 소자를 활성화 및 비활성화시킴) 하는 예가 개시된다. 이러한 접근은 병렬성의 정도를, 새로 입력되는 명령 세트에서 또는 최근 프로세싱된 명령에서 더 높은 폭의 데이터의 프로세싱을 위한 요구사항의 빈도에 의해 표현될 수도 있는 태스크 요구사항에 매칭시킨다. 다른 예들은, 디바이스의 온도와 같은 감지된 환경 조건에 기초하여 병렬성을 자동으로 제어한다.

128-비트 SIMD 타입 병렬 코프로세서 예에서, 병렬 프로세싱 소자는 2 개의 64-비트 SIMD 산술 로직 유닛 (ALU; arithmetic logic unit) 일 수도 있다. 양 유닛이 동작적인 경우, ALU 는 128-비트 폭 데이터 경로를 제공하며, 코프로세서는 128-비트 데이터 프로세싱 모드에서 동작한다. 제어 로직은 프로세싱 조건을 모니터링하며, 64-비트 동작으로의 변화를 보장하는 프로세싱의 상태를 검출한다. 이에 응답하여, ALU 중 하나가 자동으로 셧다운되고, 다른 ALU 가 후속하여 64-비트 폭 데이터 프로세싱에 대한 명령을 실행한다. 그러나, 64-비트 모드에서 도, 프로세서는 128-비트 데이터의 프로세싱에 대한 명령을 취급할 수도 있다. 예를 들어, 이 방법은 128-비트 데이터의 프로세싱을 요청하는 SIMD 명령을 수신하는 단계, 및 SIMD 명령을 64-비트 데이터 폭의 데이터 프로세싱을 요청하는 2 개의 명령으로 확장하는 단계를 더 포함할 수도 있다. 그 후, 이 방법은 확장으로 인한 2 개의 명령을 하나의 동작 64-비트 ALU 를 통해 순차적으로 실행하는 단계를 포함한다.

따라서, 병렬 데이터 프로세서의 동작의 병렬성을 제어하는 또 다른 방법은, 제 1 폭의 데이터를 프로세스하도록 데이터 프로세서의 2 개의 병렬 프로세싱 소자에서 하나 이상의 명령을 병렬로 실행하는 단계, 병렬 데이터 프로세서를 통해 프로세싱에 관련된 조건을 감지하는 단계, 및 감지된 조건의 상태의 검출시에 제 2 병렬 프로세싱 소자를 비활성화하는 단계를 포함할 수도 있다. 이 방법에서, 제 2 병렬 프로세싱 소자가 비활성화하는 동안, 더 큰 폭의 데이터의 병렬 데이터 프로세싱을 요청하는 명령이 복수의 명령으로 확장된다. 2 개의 이러한 명령은 예를 들어, 제 2 의 더 작은 폭의 데이터의 병렬 데이터 프로세싱을 요청한다. 제 1 병렬 프로세싱 소자는 2 개의 명령을 순차적으로 실행하고, 제 2 병렬 프로세싱 소자는 비활성화된다.

언급한 바와 같이, 본 교시는 또한 하나 이상의 모니터링된 조건에 응답하여 병렬성의 정도를 제어하도록 구성된 병렬 데이터 프로세서를 포함한다. 이러한 디바이스의 일 예는, 예를 들어, 일 구현에서 64-비트인 제 1 폭의 데이터를 프로세싱하기 위한, 프로그램 명령에 응답하는 제 1 프로세싱 소자를 포함한다. 데 이터 프로세서는 또한 제 1 프로세싱 유닛과 병렬로 동작하도록 접속된, 프로그램 명령에 응답하는 제 2 프로세싱 소자를 포함한다. 2 개의 프로세싱 소자의 병렬 동작은 제 2 의 더 넓은 폭 (예를 들어, 128-비트) 의 데이터의 병렬 프로세싱을 제공한다. 프로세서는 또한 데이터 프로세서의 프로세싱 동작과 관련된 조건을 모니터링하는 제어 로직을 포함한다. 전술한 바와 같이, 모니터링된 조건의 예는, 프로세싱이 얼마나 자주 제 2 폭 (예를 들어, 데이터의 128-비트) 에 관련되는지와 같은 태스크 관련 조건뿐만 아니라 프로세서의 온도와 같은 환경 조건을 포함한다. 로직은, 모니터링된 조건과 임계값과의 관계에 기초하여 제 2 프로세싱 소자를 선택적으로 활성화 및 비활성화한다.

로직은 스래싱 (thrashing) 에 대한 잠재성을 완화시키기 위해 제 2 프로세싱 소자의 활성화 및 비활성화를 제어하도록 구성될 수도 있다. 히스테리시스 (hysteresis) 를 제공하도록, 제 2 ALU 를 활성화 및 비활성화하기 위해 상이한 임계값이 이용되는 (온도를 고려하는 경우 및/또는 128-비트 명령의 빈도를 고려하는 경우) 예가 제공된다. 또 다른 예로서, 예를 들어, 잠재적 스래싱 문제를 나타낼 수도 있는 타이밍 측정에 응답하여, 이용된 하나 이상의 임계값이 동적으로 조정될 수도 있다. 예를 들어, 태스크 관련 조건 임계값이 너무 민감하고, 제 2 ALU 가 가장 최근의 셧다운 후 너무 바로 재시작되는 경우, 로직은 관련 임계값을 증가시킬 수도 있다.

추가적인 목적, 이점 및 신규한 특징을 다음의 상세한 설명에서 일부 설명하고, 일부는 다음의 첨부된 도면을 검토하면 당업자에게 명백할 것이며 또는 실시예 의 제조 또는 동작에 의해 인식될 수도 있다. 본 교시의 목적 및 이점은 첨부된 청구항에서 특별히 지정된 방법, 수단 및 조합의 실시 또는 이용에 의해 실현되고 획득될 수도 있다.

도면의 간단한 설명

도면은 제한의 방법이 아닌 예시적인 방법으로만, 본 교시에 부합하는 하나 이상의 구현을 도시한다. 도면에서, 동일한 참조 부호는 동일하거나 유사한 소자를 지칭한다.

도 1 은 예를 들어, SIMD 코프로세서에서, 병렬 프로세싱 소자의 자동 전력 및 에너지 제어를 이해하는데 유용한 기능 블록도이다.

도 2 는 코프로세서에서 병렬성의 2 개의 상이한 레벨 사이를 자동으로 스위칭하는데 포함된 제어 동작의 일 예를 이해하는데 유용한 간략화된 플로우챠트이다.

상세한 설명

다음의 상세한 설명에서, 관련 교시의 완전한 이해를 제공하기 위해 예시적인 방법으로 다수의 특정 세부사항이 주어진다. 그러나, 본 교시가 이러한 세부사항 없이 실시될 수도 있음이 당업자에게 명백하다. 다른 예에서, 본 교시의 양태를 불필요하게 모호하게 하는 것을 회피하기 위해, 널리 공지된 방법, 과정, 콤포넌트, 및 회로가 세부사항 없이 비교적 하이-레벨로 개시되었다.

여기서 개시된 다양한 기술은 고도의 병렬 프로그래밍가능 데이터 프로세서에서 하나 이상의 병렬 프로세싱 소자의 자동 선택적 전력 및 에너지 제어에 관한 것이다. 이하 더욱 상세히 논의되는 바와 같이, 병렬 프로세서의 로직은 언제 프로그램 동작 (예를 들어, 특정 태스크 대한 또는 검출된 온도로 인한) 이 데이터 경로의 전체 폭보다 작은 폭을 요구하는지를 검출한다. 이에 응답하여, 제어 로직은 병렬 프로세싱 용량의 서브세트를 요구하는 동작 모드를 자동으로 세팅한다. 필요하지 않은 하나 이상의 병렬 프로세싱 소자는 에너지 보존 및/또는 전력 소비 감소를 위해 셧다운될 수 있다. 나중에, 추가된 용량의 동작이 적합한 경우, 로직은 프로세싱 조건에서의 변화를 검출하여, 동작의 모드를, 더 넓은 폭의 데이터 경로, 통상적으로 전체 폭의 모드로 자동으로 세팅한다. 모드 변경은 이전에 셧다운된 프로세싱 소자를 재활성화한다.

본 교시는 병렬 데이터 프로세싱 소자를 갖는 프로세서 구조에 적용가능하다. 예는 SIMD 타입의 병렬 프로세서 구조에 관해 논의된다. 첨부된 도면에서 설명되고 후술되는 예에 관해 참조가 상세히 이루어진다. 논의되는 바와 같이, 시장에서 현재 입수가능한 SIMD 는 통상적으로 64-비트 및 128-비트 폭 데이터 경로를 제공한다. 그러나, 본 교시는 좁거나 넓은 데이터 경로를 갖는 병렬 프로세서에 적용가능하다. 도 1 의 기능 블록도는 자동 병렬 소자 전력 및 에너지 제어를 설명하는데 유용한 SIMD 디바이스의 콤포넌트를 도시한다. 당업자는 실제 SIMD 프로세서에 다른 소자가 포함될 수도 있음을 인식할 것이다. 예에서, 병렬 프로세싱 디바이스는, 예를 들어, 관련 메인 코어 프로세서 (13) 의 제어하에서 멀티미디어 데이터 프로세싱 동작을 수행하는 SIMD 코프로세서 (11) 로서 구현된다.

도시되지 않았지만, 예를 들어, 멀티미디어 프로세싱에 대한 필요가 없는 경우, 메인 코어 프로세서 (13) 에서 동작하는 애플리케이션에 의해 이용되지 않는 경우 전체 코프로세서 (11) 를 셧다운하기 위해 제어가 제공될 수도 있다. 여기서의 논의는 대신, 상이한 동작 모드가 디바이스 (11) 의 상이한 레벨의 병렬 프로세싱 능력을 사용할지라도, SIMD 디바이스 (11) 를 통한 하나 이상의 일부 프로세싱이 요청되는 경우에 집중할 것이다.

동작에 있어서, 메인 프로세서 코어 (13) 는 하나 이상의 일부 데이터의 멀티미디어 프로세싱을 요청할 하나 이상의 프로그램을 운용할 것이다. 실행된 명령 세트는 SIMD 확장을 포함할 것이며, 즉 다수의 명령이 SIMD 타입 프로세싱 명령이 될 것이다. 메인 프로세서 코어 (13) 는 이들 SIMD 명령을 코프로세서 (11) 로 송출하여, SIMD 명령이 송출 대기열 (IQ; issue queue; 15) 에 배치된다. 송출 대기열은 본질적으로 실행전에, 순차적으로 다수의 SIMD 명령을 저장하는 선입 선출 (first-in-first out) 버퍼 디바이스이다.

IQ 스테이지 (15) 는 명령 확장 스테이지 (17) 로 명령을 순차로 공급한다. SIMD 코프로세서 (11) 는 다수의 상이한 데이터 모드로 병렬 프로세싱을 제공할 수 있다. 더 많은 모드 또는 각각의 모드에서 지원된 데이터 폭에서의 변화가 존재할지라도, 예는 64-비트 동작 및 128-비트 동작을 지원하는 코프로세서 (11) 의 구성을 도시한다.

플래그 비트 (M; 19) 는 현재 동작 모드를 나타낸다. 비트값은 플립-플롭에서 홀딩될 수도 있고, 예를 들어, 조건 레지스터인 더 큰 레지스터에서 비트로 서 홀딩될 수도 있다. 프로세서 (11) 의 통상적인 예는 32-비트 제어 레지스터 (별도로 도시되지 않음) 를 포함할 것이며, 모드 플래그 (19) 는 그 레지스터의 지정된 위치에서 1 비트일 수도 있다. 더욱 후술되는 바와 같이, 플래그 (19) 는 예를 들어, 특정 프로세싱 태스크에 대해 요구된 병렬성의 레벨 또는 검출된 디바이스 온도인, 프로세서의 검출된 조건에 응답하여 자동으로 세팅된다. 확장 스테이지 (17) 는 모드 플래그 (19) 의 단계에 응답한다.

SIMD 코프로세서는 또한 프로세싱 및 실행 스테이지 이전에 피연산자 데이터를 홀딩하기 위해 레지스터 파일 (21) 을 포함한다. 이 간단한 예에서, 실행 스테이지는 2 개의 SIMD 타입의 ALU (23, 25) 로 구성된다. 128 모드에서는, ALU (23 및 25) 가 모두 활성화되며, 64-비트 모드에서는, 제 1 (#1) ALU (23) 만이 활성화된다.

64-비트 모드에서, 코프로세서 (11) 는 여전히 128-비트 SIMD 명령을 취급할 수 있다. 이 목적을 위해, 스테이지 (17) 는 128-비트 명령을 64-비트 데이터의 프로세싱을 위해 각각 구축된 2 개의 명령으로 나눔으로써 "확장한다". 64-비트 모드에서, 스테이지 (17) 는 IQ 스테이지 (15) 로부터의 SIMD 명령 스트림의 임의의 128-비트 명령의 확장으로부터 유도된 64-비트 명령 쌍뿐만 아니라 원래 64-비트 폭 데이터 프로세싱을 요청하는 명령을 포함하는 모든 명령을 ALU (23) 에 디스패치한다. 128-비트 모드에서, 스테이지 (17) 는 제 1 및 제 2 ALU (23, 25) 모두에 명령을 디스패치하여, 유닛 (23 및 25) 은 128-비트 폭 SIMD 데이터 프로세싱 경로를 제공하기 위해 병렬로 동작한다.

프로세서 (11) 가 단일의 명령 스트림을 실행할지라도, 이들 명령의 SIMD 실행은 복수의 데이터 조각을 병렬로 동시에 프로세스한다. 각각의 ALU (23 또는 25) 는 예를 들어, 2 개의 32-비트 데이터 워드 또는 4 개의 16-비트 데이터 워드상에서 동시에 동작할 수 있다. 유닛 (23 및 25) 모두가 병렬로 동작하는 경우, 결합된 프로세싱 용량은 4 개의 32-비트 데이터 워드 또는 8 개의 16-비트 데이터 워드를 취급할 수 있다. 병렬 프로세싱의 다른 결합이 또한 가능하다.

간단한 예에서, 추가적인 레지스터가 제공될 수도 있지만, 레지스터 파일 (21) 이 데이터에 대해 2 개의 128-비트 폭 레지스터를 포함할 수도 있다. 당업자는 레지스터 파일이 예를 들어, 16 개의 레지스터 각각 128-비트 폭인, 추가적인 레지스터를 포함할 수 있음을 이해할 것이다. 레지스터 파일 (21) 의 제어는 데이터의 각각의 128-비트를 분할 (split) 하여, ALU (23 및 225) 각각에 적합한 양을 전송한다. 파일 (21) 의 D 포트는 기입 포트이다. 포트 D 를 통해, 128-비트 폭인 데이터는 예를 들어, 소스 (미도시) 또는 ALU 에 의해 출력된 결과로부터, 파일 (21) 의 레지스터에 기입될 수도 있다. 파일 (21) 의 S 포트는 판독 포트이다. S 포트를 통해, 128-비트 폭인 데이터는 파일 (21) 의 레지스터로부터 예를 들어, 메모리와 같은 싱크 (미도시) 로 판독될 수도 있다. 레지스터 파일 (29) 의 A 및 B 포트는 ALU (23 및 25) 에 분할 데이터 (각각 64-비트) 를 지원하기 위한 판독 포트이다.

128-비트 데이터 프로세싱 명령에 대해, 레지스터 파일 (21) 은 제 2 ALU (25) 에 데이터의 128-비트의 로우 (최하위) 하프를 공급하며, 제 1 ALU (23) 에 데이터의 하이 (최상위) 하프를 전송한다. 64-비트 명령에 대해, 프로세서는 제 1 ALU (23) 에 공급하기 위해 레지스터 파일에서 데이터의 128-비트의 로우 하프 또는 하이 하프 중 하나를 선택할 수 있다. 128-비트 모드에서, 임의의 64-비트 명령은 제 1 (#1) SIMD ALU (23) 로 이동하고, 128-비트 명령은 SIMD ALU (23 및 25) 모두로 이동한다. 64-비트 모드에서, 모든 64-비트 명령은 제 1 SIMD ALU (23) 으로 이동한다. 임의의 128-비트 명령은 2 개의 64-비트 명령으로 전환되어, 제 1 SIMD ALU (23) 로 순차적으로 입력된다.

여기서 개시된 교시는 병렬 데이터 프로세서를 통해 수행된 프로세싱에 관련된 하나 이상의 감지된 조건에 기초하여, 병렬 데이터 프로세서의 동작의 병렬성을 자동으로 제어한다. 예에서, 자동 제어는 제 2 (#2) ALU (25) 를 자동으로 활성화 및 비활성화한다.

제어된 병렬 프로세싱 즉, 도 1 의 예에서의 제 2 ALU (#2; 25) 의 동작 상태는 일반적으로 로직 게이트 (27 및 29) 에 의해 표현되는 하나 이상의 게이트 또는 스위칭 회로를 통해 제어될 수도 있다. 이러한 게이트 또는 스위칭은 특정 소자에 의해 필요한 인에이블링 신호 (enabling signal) 를 선택적으로 공급하고 회수한다. 게이트 (27 및 29) 는 도면에서 AND 게이트로 도시되지만, 이들은 ALU (25) 의 소자에 신호를 선택적으로 커플링시키는 회로의 일반적인 표현으로 의도된다. 이러한 회로 (27 또는 29) 는 임의의 타입의 로직 게이트, 스위칭, 이들의 조합, 또는 모드 제어 (31) 로부터의 적합한 선택 신호에 응답하여 ALU (25) 의 기능 소자에 적합한 신호 타입을 공급하도록 구성된 임의의 다른 회로일 수도 있다.

이 방법에서, 모드 제어 (31) 는 도 1 의 예에서, 제 2 ALU (#2; 25) 의 활성 상태를 제어한다. 모드 플래그는 스스로 게이트(들) (27, 29) 의 선택적인 활성 및 비활성의 직접적인 제어를 제공할 수 있어, 그 결과 ALU (25) 의 선택적인 활성 및 비활성의 직접적인 제어를 제공할 수 있다. 그러나, 이러한 케이스에서, 모드 플래그 (19) 의 상태의 변화에 의해 나타나는, 동작 모드의 각각의 변환 즉시, ALU 가 파워업 및 파워다운된다. 대부분의 구현에서, ALU (23 및 25) 는 복수-스테이지의 파이프라인 유닛을 포함할 것이며, 플래그 (19) 가 변하는 경우 ALU (25) 에서 취급중인 (in-flight) 다수의 명령이 존재할 수도 있다. 전력 및 제어 로직은 모드 플래그 (19) 에 응답하지만, 단계 변화가 후속하는 시간 경과 (time lag) 를 제공할 수 있어 평활한 프로세싱 변환을 허용한다. 예를 들어, 제어 (31) 의 로직은 ALU (25) 의 동작을 모니터링할 수 있어, 1 비트로의 천이 (128-비트 모드로부터 64-비트 모드로 시프트) 의 검출시, 제어 (31) 는 임의의 나머지 취급중인 128-비트 명령이 프로세스되어 ALU 로부터 통과할 때까지 ALU (25) 의 활성화를 지연시킬 것이다. 또한, 도시되지 않았지만, 예를 들어, ALU (25) 를 파워업하는데 필요한 시간을 허용하기 위해, 모드 제어 (31) 의 로직은 프로세서의 다른 소자에 신호를 공급할 수도 있어, 128-비트 모드로의 변환 이후에 128-비트 명령의 초기 애플리케이션을 제어한다.

모드 제어 (31) 는, 적합한 게이트 또는 스위칭 회로 (27 또는 29) 의 동작을 통해 유닛의 동작에 필요한 임의의 신호를 선택적으로 인에이블 및 디스에이블 함으로써, 임의의 다양한 공지된 방법으로 제 2 ALU (#2; 25) 의 상태를 선택적으로 제어하도록 구현될 수도 있다. 예를 들어, ALU (25) 는, 내부의 회로 스위칭 기능을 제어하는데 이용되는 클럭 신호 (CLK) 의 유닛 (25) 으로의 제어된 게이트에 의해 선택적으로 인에이블 및 디스에이블될 수 있다. 이러한 구현에서, ALU (25) 는, ALU (25) 로의 게이트 (27) 를 통한 CLK 의 흐름을 차단함으로써 디스에이블되어, 유닛 (25) 의 회로는 CLK 에 응답하여 스위칭을 전혀 하지 않는다. 이것은 동적 전력 소비를 감소시킨다. 이러한 구현에서 누설을 감소시키기 위해, ALU (25) 의 트랜지스터는 비교적 높은 게이트 임계 전압으로 설계될 수도 있다. 그러나, CLK 의 게이트에만 기초한 제어는 ALU 의 비교적 신속한 재시작를 허용할 수도 있다.

대안적으로 또는 추가적으로 (도시된 바와 같이), ALU 상태는 선택적인 애플리케이션 또는 전원 단자에 대한 접속의 회수에 의해 제어될 수도 있다. 유효 접속이 접지 또는 네거티브 공급 전압으로의 것일 수도 있지만, 예시적인 목적을 위해, 게이트 (29) 는 제 2 (#2) SIMD ALU (25) 로의 전압 V 의 공급을 제어한다. 모드 제어 (31) 에 의한 게이트 (29) 의 동작은 코프로세서 (11) 의 동작의 현재 모드에 일치하여 ALU (25) 로의 전력을 턴온 및 턴오프시킨다. 이러한 구현에서, 모드 플래그가 1 (64-비트 동작) 로 시프트하는 경우, 모드 제어 (31) 는 임의의 나머지 128-비트 명령이 프로세스된 이후에 ALU (25) 를 디스에이블한다. 이 경우, 제어 (31) 는 ALU (25) 의 회로에 관련된, 공급 전압 V 의 전력 단자로의 접속을 차단하기 위해 게이트 (29) 를 트리거한다. 이러한 타입의 차단은 동적 전력 소비 및 유닛의 회로를 통한 누설을 제거한다.

제 1 (#1) SIMD ALU (23) 는 양 모드에서 활성이다. ALU 는 게이트된 제어 없이 CLK 에 직접 접속된 것으로 도시되어 전압 (V) 를 공급한다. 그러나, 프로세싱 소자 (23) 로의 전력 및/또는 CLK 는 또한, 예를 들어, 코프로세서 (11) 가 필요하지 않는 경우, 전력 및/또는 CLK 을 차단하기 위해 제어될 수도 있다.

도 1 은 동작의 활성 모드에 기초하여 제어된 단일의 병렬 프로세싱 소자 ALU (25) 를 도시한다. 당업자는 상당한 시간 주기 동안 더 좁은 데이터상에서 프로세서 (11) 가 동작하는 동안, 비활성일 수도 있는 다수의 병렬 소자에 대한 몇몇 유사한 제어를 주어진 프로세서가 포함할 수도 있음을 인식할 것이다. 또 다른 예에 대해, 128-비트 최대폭을 가정하는 경우, 제 1 ALU 는 2 개의 32-비트 ALU 로서 구현될 수도 있다. 이 경우에, 하나의 32-비트 SIMD ALU 의 추가적인 선택적인 비활성화를 제공하기 위해, 27, 29 및 31 에 유사한 추가적인 제어 시스템이 제 2 의 32-비트 ALU 를 제어할 수 있어서. 32-비트 동작에만 활성인 하나의 유닛만을 남겨둘 수 있다.

모드 제어 (31) 의 동작은 하나 이상의 감지된 조건의 상태에 응답하여 코프로세서 (11) 의 병렬성을 제어한다. 모니터링된 조건이 제 1 상태에 있는 경우, SIMD 명령은 128-비트 폭 데이터 경로를 제공하는 데이터 프로세서의 2 개의 프로세싱 소자 (23 및 25) 에서 병렬로 실행된다. 모니터링된 조건이 제 2 상태에 있는 경우, 명령은 제 1 (#1) 병렬 프로세싱 소자 (23) 에서 실행된다. 이 환경하에서, 제 2 병렬 프로세싱 소자 (25) 가 비활성인 동안, 64-비트 폭 데이 터는 제 1 소자를 통해 프로세스된다. 모드 제어 (31) 는 또한 모드 플래그 (19) 를 세팅하여, 명령 확장 스테이지 (17) 의 동작을 제어한다.

플래그 (19) 에 의해 표시된 모드 상태는 스테이지 (17) 의 디스패치 및 확장 기능의 선택적인 동작을 제어한다. 예를 들어, 프로세서는 플래그 (19) 의 비트가 1 인 한, 모든 명령을 64-비트 명령의 형태로 프로세스하도록 구성될 수 있다. SIMD 명령 스트림이 종종 128-비트 명령을 포함하는 경우, 명령 확장 스테이지 (17) 프로세서는 2 개의 64-비트 명령으로 나누어 이들을 ALU (23) 로 연속하여 전송한다. 플래그 (19) 의 비트가 0 인 경우, 스테이지 (17) 는 확장 없이 ALU (23 및 25) 로의 128-비트 폭 동작에 대한 명령을 지시하는, 128-비트 모드로 스위칭한다. 이 모드에서, 메인 프로세서 (13) 로부터의 스트림에서 임시 (occasional) 64-비트 명령이 존재하는 경우, 스테이지 (17) 는 제 1 ALU (23) 에 64-비트 명령을 디스패치한다.

모드 제어 (31) 에 의해 세팅된 코프로세서 (11) 의 모드 상태가 예를 들어, 제 2 ALU (25) 인 하나 이상의 병렬 프로세싱 소자의 선택적인 활성화 및 비활성화를 제어한다. ALU (25) 는 128-비트 모드에서 활성 (파워됨) 인 반면, 64-비트 모드에서는 불필요하며 64-비트 모드에서 파워다운 (비활성화됨) 된다.

도시된 구현에서, 모드 제어 (31) 는 프로세싱 태스크에 관련된 조건, 얼마자 자주 프로세서가 특정 타입의 명령을 취급하는지에 응답한다. 이 구현에서, 모드 제어 (31) 는 또한 환경 조건인 온도에 응답한다. 예를 들어, 상태 머신의 로직 또는 모드 제어 (31) 로서 작용하는 프로그래밍가능 디바이스는 대기열 스 테이지 (15) 에서의 명령 중 128-비트 명령의 수를 식별한다. 128-비트 명령의 비 또는 빈도가 일부 소정의 레벨 이상인 경우, 모드 제어 (31) 는 모드 플래그 (19) 를 0 (128-비트 모드) 으로 세팅하여 제 2 ALU (25) 를 활성화한다. 대조적으로, 128-비트 명령의 비 또는 빈도가 일부 소정의 레벨 미만인 경우, 모드 제어 (31) 는 모드 플래그 (19) 를 1 (64-비트 모드) 로 세팅하여 제 2 ALU (25) 를 비활성화하는 과정을 개시한다. 당업자는 태스크 민감한 제어 기능이 64-비트 명령의 빈도 또는 비, 또는 최근 히스토리에서의 명령 타입 중 하나의 빈도와 같은 다른 모니터링된 파라미터를 이용한다 (디바이스 (11) 를 통해 프로세싱되고 있거나 프로세싱된 명령의 일부 수에 기초함).

환경 모니터링에 대해, 예시적인 프로세서 (11) 는 온도 센서 (33) 를 포함한다. 센서 (33) 는 신호를 모드 제어 (31) 에 제공한다. 제어 (31) 는 온도 센서로부터의 신호 레벨에 기초하고, 하나 이상의 임계값에 대한 온도의 관계에 본질적으로 기초하여, ALU (25) 를 활성화 및 비활성화하고 모드 플래그 (19) 를 세팅한다. 128-비트 모드에서 동작하는 동안, 감지된 온도가 너무 높은 경우, 제어 (31) 는 디바이스 (11) 를 냉각하기 위해 ALU (25) 를 비활성화할 수 있다. 나중에 (예를 들어, 더 낮은 온도 판독이 존재하는 경우), 및 태스크가 128-비트 폭 데이터 프로세싱을 요청하고, 제어 (31) 는 ALU (25) 를 재활성화할 수 있고 플래그 (19) 를 128-비트 모드로 복귀시킨다. 당업자는 온도 대신에 또는 온도에 추가하여 다른 환경 조건이 감지될 수도 있음을 이해할 것이다.

또한, 명령의 실행은 모드 제어 (31) 의 자동 동작을 본질적으로 오버라이드 하여, 프로그래머가 모드를 바람직한 병렬성 레벨로 세팅하게 한다. 모드 제어는 ALU 들 중 하나 (25) 또는 메인 프로세서 코어 (13) 로부터 오버라이드 코맨드를 수신한다. 응답에 있어서, 모드 제어 (31) 는 스테이지 (17) 가 64-비트 모드에서 동작하는지 아닌지 여부를 나타내기 위해 모드 플래그 (19) 를 세팅할 것이며, ALU (25) 의 동작 상태 (오프 또는 온) 의 대응 세팅을 제공할 것이다.

오버라이드가 이용되는 경우, 동작 모드를 프로세싱 흐름에 있어서 적합한 포인트에 세팅하기 위해 프로그램이 기입된다. 모드 세팅 명령은 프로그래머에 의해 기입될 수도 있고, 또는 프로그램이 머신 언어 코드로 컴파일링되는 경우, 컴파일러는 모드 세팅 명령을 삽입할 수도 있다. 코프로세서 (11) 는 ALU (23, 25) 중 하나 또는 모두에 의해 실행된 모드 명령에 응답하여 오버라이드로서 모드를 세팅하도록 구성될 수도 있고, 이 경우 코어 (13) 가 실행을 위해 코프로세서 (11) 로 이들 명령을 송출하는 이러한 형태로 명령이 기입된다. 또한, 코프로세서 (11) 는 메인 프로세서 코어 (13) 에 커플링될 수 있어, 코어 (13) 는 메인 프로세서 코어 (13) 에 의해 실행된 모드 명령에 응답하여 모드를 세팅한다. 또한, 이러한 오버라이드 명령에 기초하여 프로세서 (11 또는 13) 가 모드를 세팅할 수도 있다.

오버라이드상의 다른 변화가 또한 가능하다. 예를 들어, 명백한 명령에 기초한 오버라이드에 의해 제공된 세팅에 대조적인 경우에도, 모드 제어 (31) 가 과도한 온도에 응답하여 병렬성을 감소시킬 수 있도록, 예를 들어, 특정 명령에 대응하는 메인 프로세서 코어 (13) 또는 ALU (23, 25) 로부터의 오버라이드 코맨드는 임계 환경 조건에 기초하여 제어를 오버라이드하지 않고, 태스크 관련 조건에 기초하여 자동 세팅을 오버라이드할 수도 있다.

상기 설명으로부터, 모드 제어가 프로세서 또는 프로세서의 프로세싱 동작에 관련된 다양한 모니터링된 조건의 상태에 자동으로 응답할 수 있다. 또한, 다양한 상이한 알고리즘이 설계된 병렬성 제어 기능을 구현하도록 설계될 수도 있다. 본 교시의 이점을 완전히 이해하기 위해, 예를 고려하는 것이 도움이 될 수도 있다.

도 2 는 대기열에서의 명령의 빈도 (또는 비) 및 감지된 프로세서 온도에 기초하여 도 1 의 코프로세서 (11) 에서의 상이한 병렬성의 레벨 사이를 자동으로 스위칭하는 것에 포함된 실행의 가능한 흐름을 도시한다. 논의의 목적을 위해, 초기에 (S1 에서), 프로세서가 2 개의 병렬 산술 로직 유닛 (23 및 25) 에서 병렬로 명령을 실행하는 것을 가정한다. 이 모드에서, 프로세스된 데이터는 128-비트 폭, 즉 함께 동작하는 유닛 (23 및 25) 에 의해 제공된 전체 데이터 경로만큼의 폭까지 구성된다. 이 상태에서, 모드 제어 (31) 는 온도 신호 값 T 를 고온 임계값 T_h 과 비교한다 (단계 S2). 온도가 충분히 낮은 경우 (값 T 가 고온 임계값 T_h 보다 크지 않은 경우), 프로세싱은 S2 로부터 S3 로 흐른다.

단계 S3 은 태스크 관련 프로세싱 조건의 결정을 나타내며, 이 경우, 128-비트 명령의 수는 대기열에서 존재한다. 예를 들어, 대기열이 8 개의 명령을 홀딩하는 경우, IQ 스테이지 (15) 가 채워지면, 빈도 또는 비 f 는 8 로 제산된 128- 비트 명령의 수이다. 물론, 태스크가 언제 주로 128-비트 폭의 데이터의 프로세싱을 요청하는지를 결정하기 위해 태스크 관련 조건의 다른 측정이 이용될 수도 있다. 예를 들어, 대기열 길이가 일정한 경우, 대기열에서의 128-비트 명령의 수가 빈도 대신 이용될 수도 있다. 히스토리 측정은 ALU 를 통해 이미 취급중인 및/또는 프로세스된 일부 명령의 수의 유사한 분석에 기초하여 개발될 수도 있고, 이러한 히스토리 분석은 IQ 스테이지 (15) 에서의 명령의 분석과 결합될 수도 있다.

이 논의의 목적을 위해, 128-비트 명령이 얼마나 자주 IQ 스테이지 (15) 에 존재하는지를 로직이 모니터링하는 것으로 가정한다. 단계 S3 에서, 현재값 f 가 낮은 임계값 f₁ 이상인 경우, 프로세싱은 S3 로부터 S1 으로 되돌아가서, 코프로세서 (11) 는 128-비트 동작 모드를 계속한다. 8 개의 명령 최대 대기열 길이를 가정하는 경우, 낮은 빈도 임계값 f₁ 이 약 1/8 로 세팅되어, 매 8 개의 명령 중 하나가 128-비트 명령인 한, 128-비트 모드를 동작중인 코프로세서를 유지한다. 128-비트 모드에서 유지되는 임계값은 통상적으로 낮다. 1/16 도 128-비트 모드에서 유지하기에 효과적인 기준일 수도 있다. 물론 임계값은 시간 의존적이 될 수 있어, 예를 들어, 일부 프로세싱 사이클의 수 동안 매 8 개의 명령에서 2 개 이상의 128-비트 명령을 요구할 수 있다. 도시된 흐름에서, 온도가 임계값 T_h 이하로 유지되고 128-비트 명령의 빈도가 f₁ 을 초과하는 것으로 유지되는 한, 단계 S1 내지 S3 에 의해 표현된 프로세싱은 계속될 것이며, 즉 코프로세서가 128-비트 폭 데이터 프로세싱 모드에서 동작한다.

모드 제어 (31) 를 형성하는 로직이 온도 T 가 임계값 T_h 를 초과하는 것을 검출한 경우, 프로세싱은 단계 S2 로부터 프로세싱 단계 S4 로 흐른다. 마찬가지로, 모드 제어 (31) 를 형성하는 로직이 128-비트 명령의 빈도가 임계값 f₁ 이하로 하강하는 것을 검출한 경우, 프로세싱은 단계 S3 으로부터 프로세싱 단계 S4 로 흐른다. 어떠한 경우에든, S4 에서, 명령 확장 블록은 후속 128-비트 명령의 64-비트 명령 (존재한다면) 쌍으로의 전환을 시작한다. 단계 S5 에서, 모드 제어 (31) 는 산술 로직 유닛 (ALU #2; 25) 을 체크하여, 프로세스되어 그 산술 로직 유닛 (25) 으로부터 통과하는데 필요한 임의의 나머지 취급중인 128-비트 명령이 존재하는지를 결정한다. 그러한 경우, 로직은 대기하고 (S6) 다시 체크한다. 이 모니터링 (S5 및 S6) 은 제 2 산술 로직 유닛 (ALU #2; 25) 에 의해 프로세싱될 나머지 취급중인 128-비트 명령이 더 이상 존재하지 않을때까지 계속하며, 더 이상 존재하지 않는 시점에 단계 S7 로 흐른다.

단계 S7 에서, 모드 제어 (31) 는 제 2 ALU 타입 프로세싱 소자 (25) 를 비활성화하거나 셧다운하여, 에너지를 보존하고 및/또는 열의 생성을 감소시킨다. 또한, 프로세싱은 전술한 바와 같이, 64-비트 모드에서 동작한다 (S8). 예를 들어, 제 2 산술 로직 유닛 (25) 이 비활성인 동안, 프로세서 (11) 는 제 1 산술 로직 유닛 (23) 에서 하나 이상의 명령을 실행하여, 64-비트 데이터를 프로세스한다. 이 모드에서 수신된 128-비트 명령은 확장되어 2 개의 64-비트 명령으로 순차적으로 프로세스된다 (S4 에서 시작되는 바와 같음).

코프로세서가 64-비트 모드에서 동작하는 동안, 모드 제어 (31) 는 온도 및 128-비트 명령이 얼마나 자주 IQ 스테이지 (15) 에서 수신되고 있는지 체크하기를 계속한다. 측정된 온도는 단계 S9 에서 임계값과 비교되고, 검출된 128-비트 명령의 빈도는 단계 S10 에서 임계값과 비교된다. S2 에서 이용되었던 임계값과 동일한 임계값이 S8 에서 이용될 수 있고, 그리고/또는 S3 에서 이용되었던 임계값과 동일한 임계값이 S10 에서 이용될 수 있다. 그러나, 동일한 임계값의 이용은 모니터링된 파라미터 중 하나 또는 모두에서 매우 작은 변화에 응답하여 ALU (25) 를 스위칭 온 및 오프할 수도 있어, 종종 과도한 스위칭 및 종종 짧은 지속기간을 유발한다.

셧다운 상태로부터 ALU (25) 를 기상하고 파워업하는데는 시간이 걸리며 에너지를 소비한다. 일부 경우에, 일부 짧은 시간의 주기 동안 소자 (25) 를 단지 온으로 보존하는 것보다 파워업하는데 더 많은 에너지가 들 수 있다. 또한, 콤포넌트를 파워 백업하는데 시간이 걸린다. ALU 를 재시작함에 있어서의 유발된 지연 또는 레이턴시는 프로세서를 스톨시켜, 성능을 저하시킨다. 따라서, 이 예에서의 ALU (25) 인 제어된 병렬 프로세싱 소자가 단지 잠깐 후에 깨어나기 위해서 반복적으로 셧다운되지 않는 것을 보장하는 것이 바람직하다. 반복적인 파워다운 및 파워업은 "스래싱" 으로 지칭될 수도 있다. 스위칭 이벤트 및 스래싱에 대한 잠재성을 감소시키기 위해, 스위칭 동작에서의 일부 히스테리시스를 제공하도록 상이한 동작 모드에서의 비교를 위한 상이한 임계값을 이용한다. 더욱 후술하는 바와 같이, 모드 제어 (31) 의 로직은 다른 또는 추가적인 반스래싱 전략을 구현할 수도 있다.

특정 예로 복귀하여, 단계 S9 에서, 모드 제어 (31) 는 현재 온도 측정값 T 를 임계값 T_h 보다 다소 낮은 임계값 T₁ 과 비교한다. 측정된 온도 T 가 다소 낮은 임계값 T₁ 를 여전히 초과하는 경우, 프로세싱은 64-비트 모드에서 계속된다 (S8). 통상적으로, 이 모드에서 온도는 계속 하강할 것이다. 코프로세서가 충분히 냉각된 경우, 모드 제어 (31) 는 측정된 온도 T 가 더 낮은 온도 T₁ 이하 (크지 않은) 인지를 결정하고, 프로세싱은 S9 로부터 S10 으로 흐른다.

현재 프로세서가 128-비트 동작으로 복귀할 수 있기에 충분히 냉각될 수 있기 때문에, 모드 제어는 다음으로 프로세싱 태스크가 128-비트 동작을 보장하는지 결정한다. 따라서, 이러한 예의 S10 에서, 모드 제어는 IQ 스테이지 (15) 의 128-비트 타입의 명령의 빈도 또는 비 (f) 와 더 높은 임계값 f_h 와 비교한다. 8 개의 명령 최대 대기열 길이를 다시 가정하는 경우, 매 8 개 명령에 3 개 이하의 128-비트 명령이 존재하는 한, 코프로세서를 동작중인 64-비트 모드로 유지하도록 높은 빈도 임계값이 약 3/8 에서 세팅될 수도 있다. 물론 임계값은 너무 시간 의존적이며, 예를 들어, 일부 프로세싱 사이클 수 동안 8 개의 명령마다 4 개 이상의 128-비트 명령을 요구하여 128-비트 동작으로의 변환을 트리거한다.

f 가 임계값 f_h 이하 (크지 않은) 인 경우, 프로세서의 온도가 안전한 경우 에도 12-비트 동작을 정당화하는 충분한 요구가 존재하지 않는다. 따라서, 프로세싱은 S10 으로부터 S8 로 복귀하여, 코프로세서 (11) 는 64-비트 동작 모드에서 계속한다. 단계 S8 내지 S10 에 의해 표현된 프로세싱이 계속될 것이며, 즉, 코프로세서는, 임계값 중 하나가 충족되지 않는 한, 즉, 온도가 충분히 낮고 128-비트 명령의 빈도가 충분히 높아 128-비트 동작 모드로의 변환을 보장할 때까지, 64-비트 폭 데이터 프로세싱 모드로 동작한다.

온도가 임계값 T₁ 이하이고 128-비트 명령의 빈도가 임계값 f_h 을 초과하는 경우, 프로세싱은 S9 및 S10 을 통해 단계 S11 로 흐른다. 단계 S11, 제어 로직 (31) 은 제 2 산술 로직 유닛 (ALU #2; 25) 을 활성화한다. 이 경우 (S12), 128-비트 명령은 변경없이 ALU 로 통과할 것이다 (2 개의 64-비트 명령으로의 재코딩은 더 이상 필요하지 않다). 이 상태에서, 프로세싱은 동작이 128-비트 명령 모드를 이용하는 단계 S1 으로 복귀한다.

전술한 바와 같이, 모드 제어 (31) 의 로직은 임계값의 차이에 의해 제공된 히스테리시스 대신 또는 이와 조합하여 다른 반스래싱 전략을 구현할 수도 있다. 임계값은, 예를 들어, 128-비트 명령의 낮은 발생 레이트에 응답하여 ALU 가 셧다운하는 시간 간격인 스래싱을 나태낼 수도 있는 측정에 응답하여 조정될 수도 있다.

본 교시는 광범위한 적용을 갖는다. 예를 들어, 전력 및 에너지 제어는 다른 병렬 프로세서 및 상이한 데이터 경로 폭을 갖는 프로세서에서 구현될 수도 있다. 또한, 전술한 병렬 프로세서의 예는 메인 프로세서 코어와 관련된 코프로세서를 제공하였다. 그러나, 당업자는 여기서 개시된 병렬 제어 기술이 코프로세서 구현으로 제한되지 않음을 이해할 것이다.

앞선 설명은 최상의 모드 및/또는 다른 예로 인식되는 것을 설명하였지만, 다양한 변경이 행하여질 수도 있고, 여기서 개시된 주요 내용이 다양한 형태 및 예로 구현될 수도 있으며, 본 교시가 여러 애플리케이션으로 적용될 수도 있고, 이들 중 일부만이 여기서 개시되었다. 다음의 청구항에 의해, 본 교시의 진정한 범위에 속하는 임의의 및 모든 애플리케이션, 변경물 및 변동을 청구하는 것으로 의도된다.

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
병렬 데이터 프로세서에서 상기 병렬 데이터 프로세서의 동작의 병렬성을 제어하는 방법으로서,

명령 대기열 (queue) 에 있는 복수의 명령들의 각각에 관련된 폭 데이터를 식별하기 위해 상기 명령 대기열에 액세스하는 단계;

상기 폭 데이터를 평가하는 단계;

상기 복수의 명령들의 상기 폭 데이터에 적어도 부분적으로 기초하여 프로세싱 모드를 결정하는 단계로서, 상기 복수의 명령들의 각각의 명령을 선택적으로 확장하기 전에 상기 프로세싱 모드가 결정되는, 프로세싱 모드 결정 단계;

상기 프로세싱 모드에 기초하여 명령 실행 유닛을 선택적으로 디스에이블링하는 단계; 및

제 1 데이터 폭에 대응하는 상기 복수의 명령들의 각각의 명령을 제 2 데이터 폭에 대응하는 다수의 명령들로 선택적으로 확장하기 위해 상기 프로세싱 모드에 기초하여 명령 확장 소자를 제어하는 단계로서, 상기 제 2 데이터 폭은 상기 제 1 데이터 폭보다 작은, 명령 확장 소자 제어 단계를 포함하고,

상기 명령 실행 유닛을 선택적으로 디스에이블링하는 단계는, 상기 명령 실행 유닛에서 프로세싱되기 위해 대기하는, 상기 제 1 데이터 폭에 대응하는 취급중인 (in-flight) 명령들이 없는 경우를 결정하기 위해 상기 명령 실행 유닛을 모니터링하는 단계 및 상기 결정에 기초하여 상기 명령 실행 유닛을 선택적으로 디스에이블링하는 단계를 포함하는, 병렬성 제어 방법.
제 31 항에 있어서,

상기 폭 데이터를 평가하는 단계는 제 1 데이터 폭에 대응하는 복수의 명령들의 개수를 식별하는 제 1 개수 또는 제 2 데이터 폭에 대응하는 복수의 명령들의 개수를 식별하는 제 2 개수를 사용하여 비율을 결정하는 단계를 포함하고, 상기 제 2 데이터 폭은 상기 제 1 데이터 폭보다 작으며, 상기 비율은 상기 제 1 수를 상기 복수의 명령들의 총 수로 나눈 비율 또는 상기 제 2 수를 상기 복수의 명령들의 총 수로 나눈 비율을 포함하는, 병렬성 제어 방법.
제 31 항에 있어서,

상기 명령 확장 소자는 모드 플래그에 응답하고, 상기 명령 확장 소자를 제어하는 단계는 상기 모드 플래그의 값을 설정하는 단계를 포함하는, 병렬성 제어 방법.
제 31 항에 있어서,

상기 프로세싱 모드에 기초하여 상기 명령 실행 유닛을 선택적으로 디스에이블링하는 단계 이후에:

현재 명령 대기열의 각각의 명령에 관련된 폭 데이터를 식별하기 위해 상기 명령 대기열에 다시 액세스하는 단계;

상기 명령 대기열 내의, 상기 제 1 데이터 폭에 대응하는 명령 각각의 제 3 개수 또는 상기 명령 대기열 내의, 상기 제 2 데이터 폭에 대응하는 명령 각각의 제 4 개수를 사용하여 제 2 비율을 결정하는 단계로서, 상기 제 2 비율은 상기 제 3 개수를 상기 복수의 명령들의 총 수로 나눈 비율 또는 상기 제 4 개수를 상기 복수의 명령들의 총 수로 나눈 비율을 포함하는, 제 2 비율 결정 단계; 및

상기 제 2 비율에 기초하여 상기 명령 실행 유닛을 선택적으로 이네이블링하는 단계를 더 포함하는, 병렬성 제어 방법.
제 34 항에 있어서,

상기 명령 대기열은 8 개의 명령들을 저장하도록 구성되고, 제 1 명령 임계값은 상기 명령 대기열 내의 모든 8 개의 명령들 중 제 1 데이터 폭에 대응하는 하나 이상의 명령들에 대응하며, 제 2 명령 임계값은 상기 명령 대기열 내의 모든 8 개의 명령들 중 제 1 데이터 폭에 대응하는 2 개 이상의 명령들에 대응하며, 상기 제 2 명령 임계값은 상기 제 1 명령 임계값보다 큰, 병렬성 제어 방법.
제 1 데이터 폭에 대응하는 제 1 명령들 및 제 2 데이터 폭에 대응하는 제 2 명령들을 포함하는 명령들을 대기시키도록 구성되는 선입선출 (first-in-first-out) 버퍼를 포함하는 명령 대기열로서, 상기 제 2 데이터 폭은 상기 제 1 데이터 폭보다 작은, 명령 대기열;

상기 제 1 명령들의 각각을 상기 제 2 데이터 폭에 대응하는 다수의 명령들로 선택적으로 확장하도록 구성되는 명령 확장 소자;

상기 명령 대기열 내의 명령들을 실행할 수 있는 제 1 명령 실행 유닛;

상기 명령 대기열 내의 명령들을 실행할 수 있는 제 2 명령 실행 유닛; 및

상기 명령 대기열 및 상기 명령 확장 소자에 연결된 제어 로직으로서, 상기 제어 로직은, 상기 명령 대기열 내의 제 1 명령들의 제 1 개수 또는 상기 명령 대기열 내의 제 2 명령들의 제 2 개수를 사용하는 비율에 기초하여 상기 명령 확장 소자의 동작을 제어하도록 구성되며, 상기 비율은 상기 제 1 개수를 상기 명령들의 총 수로 나눈 비율 또는 상기 제 2 개수를 상기 명령들의 총 수로 나눈 비율을 포함하는, 제어 로직을 포함하고,

상기 제어 로직은 프로세싱 모드에 기초하여 상기 제 2 명령 실행 유닛에 명령들이 수신되는 것을 선택적으로 차단하도록 구성되고, 상기 프로세싱 모드는 상기 비율에 적어도 부분적으로 기초하여 결정되며, 상기 제 2 명령 실행 유닛에서 프로세싱되기 위해 대기하는, 상기 제 1 데이터 폭에 대응하는 취급중인 (in-flight) 명령들이 없는 경우를 결정하기 위해 상기 제 2 명령 실행 유닛을 모니터링하고, 상기 결정에 기초하여 상기 제 2 명령 실행 유닛을 선택적으로 디스에이블링하는, 병렬 데이터 프로세서.
제 36 항에 있어서,

상기 제어 로직은 제 1 프로세싱 모드로부터 제 2 프로세싱 모드로의 전환을 결정하기 위해 제 1 명령 임계값을 사용하도록 구성되고,

상기 제어 로직은 상기 제 2 프로세싱 모드로부터 상기 제 1 프로세싱 모드로의 전환을 결정하기 위해 제 2 명령 임계값을 사용하도록 또한 구성되며,

상기 제 1 명령 임계값은 상기 제 2 명령 임계값과 상이한, 병렬 데이터 프로세서.
제 36 항에 있어서,

상기 제어 로직은 온도 신호값에 또한 기초하여 상기 프로세싱 모드를 결정하도록 구성되는, 병렬 데이터 프로세서.
제 38 항에 있어서,

상기 제어 로직은 제 1 프로세싱 모드로부터 제 2 프로세싱 모드로의 전환을 결정하기 위해 제 1 명령 임계값 및 제 1 온도 임계값을 사용하도록 구성되고,

상기 제어 로직은 상기 제 2 프로세싱 모드로부터 상기 제 1 프로세싱 모드로의 전환을 결정하기 위해 제 2 명령 임계값 및 제 2 온도 임계값을 또한 사용하도록 구성되는, 병렬 데이터 프로세서.
제 39 항에 있어서,

상기 제 1 명령 임계값은 상기 제 2 명령 임계값보다 작고, 상기 제 2 온도 임계값은 상기 제 1 온도 임계값보다 작은, 병렬 데이터 프로세서.
제 39 항에 있어서,

상기 제어 로직은 상기 제 1 프로세싱 모드 또는 제 2 프로세싱 모드를 표시하기 위해 비트 값을 설정하고,

상기 명령 확장 소자는 상기 비트 값에 응답하여 상기 제 1 명령들을 상기 제 2 데이터 폭에 대응하는 다수의 명령들로 선택적으로 확장하는, 병렬 데이터 프로세서.
병렬 데이터 프로세서에서 상기 병렬 데이터 프로세서의 동작의 병렬성을 제어하는 방법으로서,

선입선출 (first-in-first-out) 버퍼를 포함하는 명령 대기열 내의 제 1 데이터 폭에 대응하는 제 1 수의 명령들 및 제 2 데이터 폭에 대응하는 제 2 수의 명령들을 수신하는 단계;

제 1 명령 임계값에 대한 상기 제 1 수의 명령들의 비교에 기초하여 제 1 프로세싱 모드로부터 제 2 프로세싱 모드로 전환하는 단계;

상기 제 1 수의 명령들의 각각을 상기 제 2 데이터 폭에 대응하는 다수의 확장된 명령들로 확장하는 단계;

상기 제 2 수의 명령들의 각각 및 상기 복수의 확장된 명령들의 각각이 상기 제 1 데이터 폭이 아닌 상기 제 2 데이터 폭을 갖는 데이터를 프로세싱하는 제 1 명령 실행 유닛에서 연속적으로 실행되도록, 상기 제 2 수의 명령들의 각각 및 상기 복수의 확장된 명령들의 각각을 전송하는 단계;

제 2 명령 실행 유닛의 전력을 감소시키는 단계로서, 상기 제 1 프로세싱 모드로부터 상기 제 2 프로세싱 모드로 전환하는 단계는 상기 제 2 실행 유닛의 전력을 감소시키는 단계 이전에 모든 취급중인 (in-flight) 명령들이 실행될 때까지 상기 제 2 명령 실행 유닛을 모니터링하는 단계를 포함하는, 제 2 명령 실행 유닛의 전력을 감소시키는 단계;

상기 명령 대기열 내의 상기 제 1 데이터 폭에 대응하는 제 3 수의 명령들 및 상기 제 2 데이터 폭에 대응하는 제 4 수의 명령들을 수신하는 단계; 및

제 2 명령 임계값에 대한 상기 제 3 수의 명령들의 비교에 기초하여 상기 제 2 프로세싱 모드로부터 상기 제 1 프로세싱 모드로 전환하는 단계를 포함하는, 병렬성 제어 방법.
제 42 항에 있어서,

상기 제 2 명령 임계값은 상기 제 1 명령 임계값보다 큰, 병렬성 제어 방법.
제 42 항에 있어서,

상기 제 2 프로세싱 모드로부터 상기 제 1 프로세싱 모드로 전환하는 단계 이후에:

상기 제 1 데이터 폭을 달성하기 위해 제 2 명령 실행 유닛과 병렬로 상기 제 1 명령 실행 유닛에서 상기 제 1 수의 명령들을 실행하는 단계; 및

상기 제 2 명령 실행 유닛이 아닌 상기 제 1 명령 실행 유닛에서 상기 제 2 수의 명령들을 실행하는 단계를 더 포함하는, 병렬성 제어 방법.