KR101486025B1 - 프로세서에서의 쓰레드 스케쥴링 - Google Patents

프로세서에서의 쓰레드 스케쥴링 Download PDF

Info

Publication number
KR101486025B1
KR101486025B1 KR20097027570A KR20097027570A KR101486025B1 KR 101486025 B1 KR101486025 B1 KR 101486025B1 KR 20097027570 A KR20097027570 A KR 20097027570A KR 20097027570 A KR20097027570 A KR 20097027570A KR 101486025 B1 KR101486025 B1 KR 101486025B1
Authority
KR
South Korea
Prior art keywords
instruction
thread
memory access
instructions
fetch
Prior art date
Application number
KR20097027570A
Other languages
English (en)
Other versions
KR20100032399A (ko
Inventor
마이클 데이비드 메이
Original Assignee
엑스모스 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엑스모스 엘티디 filed Critical 엑스모스 엘티디
Publication of KR20100032399A publication Critical patent/KR20100032399A/ko
Application granted granted Critical
Publication of KR101486025B1 publication Critical patent/KR101486025B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3802Instruction prefetching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3867Concurrent instruction execution, e.g. pipeline or look ahead using instruction pipelines

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Advance Control (AREA)

Abstract

본 발명은 쓰레드들을 실행하는 프로세서를 제공하고, 각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작들을 정의하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의한다. 상기 프로세서는, 복수의 명령 버퍼들과, 여기서 상기 복수의 명령 버퍼들 각각은 그 버퍼와 관련된 쓰레드의 적어도 하나의 명령을 보유하고; 상기 명령 버퍼들로부터 명령들을 발행하는 명령 발행 스테이지와; 그리고 메모리에 연결되어 상기 명령 발행 스테이지에 의해 발행된 명령들을 수신하는 메모리 액세스 스테이지를 포함한다. 상기 메모리 액세스 스테이지는, 메모리 액세스 동작이 각각의 발행된 명령에서 정의되었는지 여부를 검출하는 검출 로직과; 그리고 어떠한 메모리 액세스 동작도 검출되지 않을 때 명령 페치를 유발시켜 쓰레드의 명령을 페치하도록 하는 명령 페치 로직을 포함한다.

Description

프로세서에서의 쓰레드 스케쥴링{SCHEDULING THREADS IN A PROCESSOR}
본 발명은 프로세서에서의 복수의 쓰레드(thread)들을 스케쥴링하는 것에 관한 것이다.
복수의 쓰레드 프로세서들이 공지되어 있다. 각각의 쓰레드는 일반적으로, 특히 그 쓰레드에 대한 특정된 자기 포함적 동작 혹은 기능을 수행하는 명령들의 시퀀스(sequence)를 포함한다. 쓰레드들은 프로세서의 아키텍처에 따라 순차적으로 혹은 병렬로 실행될 수 있고, 그리고 달성하고자 하는 동작 및 기능에 따라 스케쥴링(scheduling)되거나 혹은 디스케쥴링(descheduling)될 수 있다. 복수 쓰레드 프로세서(multi-threaded processor)에서는 여러 문제가 일어나는데, 특히 임의의 특정 쓰레드의 수행을 보증하는 것이 어렵다는 것이다.
복수 쓰레드 프로세스에서, 각각의 쓰레드에 대한 프로세서 싸이클, 심지어 수행할 필요없는 쓰레드들에 대한 프로세서 싸이클을 보존하고 있거나 또는 보존된 싸이클이 더 잘 이용되도록 더 많은 메모리 액세스 포트들과 같은 추가의 리소스(resource)들을 제공할 필요가 있다. 예를 들어, 종래의 명령 페치(instruction fetch) 방식에서, 명령 페치들의 큐(queue)가 존재하고 메모리에 대한 데이터 액세스들의 또 다른 큐가 존재한다. 만약 명령 페치들에 우선권이 부여되면, 실행 파이 프라인은 정지돼야 할 것이다. 만약 데이터 액세스들에 우선권이 부여되면, 개개의 쓰레드는 그 다음 명령을 대기하면서 대여섯 싸이클만큼 지연될 수 있다. 어느 경우에나, 쓰레드의 수행은 예측할 수 없게 다른 쓰레드들에 의해 영향을 받는다. 이러한 문제는 듀얼 포트 메모리들을 사용하거나(그러나 이것은 비용이 많이 들고, 전력이 많이 필요함), 혹은 독립 프로그램 및 데이터 메모리를 구비함으로써(대응하는 오버헤드를 가짐) 극복될 수 있다.
과거에, 복수 쓰레드 프로세스들은 메모리 액세스에서 지연을 숨기기 위해 사용되어 왔고, 개개의 쓰레드들의 실시간 수행을 개선하려는 실제 요구는 존재하지 않았는데, 왜냐하면 이것은 그 특정 상황에서 중요한 것이 아니었기 때문이다.
프로세서 설계자들이 처리해야 하는 많은 것들 중 하나는, 프로세서와 통신하려는 외부 디바이스의 수가 점점 증가하는데 따른 문제를 처리해야하는 것이다. 일반적으로, 이것은 외부 디바이스에 연결된 포트(port)들에서 일어나는 동작들을 처리하기 위해 어떤 종류의 인터럽트 처리 능력(interrupt handling capacity)을 프로세서에 제공함으로써 이루어진다. 더욱이, 더 정교한 인터페이스 로직이 예를 들어 포트 당 복수의 외부 디바이스들을 다루기 위해 이러한 포트들에서 사용된다.
여러 다른 상황에서 인터페이스가 요구된다. 배경기술의 예를 통해 본 명세서에서 설명되는 그 한 가지는 모바일 애플리케이션 프로세싱에서의 인터페이스이다.
도 1은 모바일 애플리케이션 프로세서(2)의 예시적 애플리케이션을 나타낸다. 애플리케이션 프로세서(2)는 CPU(4)와 복수의 인터페이스 제어기들(6)을 포함 하며, 복수의 인터페이스 제어기들(6)은 복수의 주변 디바이스들(8)과 인터페이스한다. 인터페이스 제어기들은, 하드 드라이브(hard-drive, HDD)(8a) 및 SDRAM 메모리(8b)와 인터페이스하는 메모리 제어기(6a)와; 카메라(8c)와 인터페이스하는 비디오 제어기(6b)와; LCD 디스플레이(8d)와 인터페이스하는 디스플레이 제어기(6c)와; 마이크로폰(8e), 스피커(8f), 및 헤드셋(8g)과 인터페이스하는 오디오 제어기(6d)와; 그리고 키보드(8h), 범용 직렬 버스(Universal Serial Bus, USB) 디바이스(8i), 보안 디지털(Secure Digital, SD) 카드(8j), 멀티미디어 카드(Multi-Media Card, MMC)(8k), 및 범용 비동기 수신기/송신기(Universal Asynchronous Receiver/Transmitter, UART) 디바이스(8l)와 인터페이스하는 접속 제어기(connectivity controller)(6e)를 포함한다. 인터페이스 제어기들(6)은 전형적으로 버스(3)를 통해 CPU(4)에 연결된다. 시스템은 또한 파워 제어기(power controller)(10)와 무선 프로세서(radio processor)(12)를 포함한다.
주의할 것으로, 인터페이스 제어기들(6)은 다소 개략적으로 도시되었지만, 일반적으로 일종의 전용 I/O 로직 혹은 특별히 구성된 포트들을 나타낸다.
통상적으로, 외부 인터페이스는 인터럽트를 사용하여 달성되거나 혹은 폴링(polling)에 의해 달성된다. 인터럽트가 사용될 때, 외부 주변 디바이스들은 프로세서에게, 프로세서에 입력하고자 하는 데이터를 가지고 있음을 알려주거나 혹은 프로세서로부터 데이터를 요구함을 알려주는 신호를 전송한다. 폴링이 사용될 때, 프로세서는 디바이스가 데이터를 공급하거나 수락할 준비가 되어 있는지 여부를 판단하기 위해 디바이스의 상태를 계속적으로 점검한다.
도 1에서와 같은 애플리케이션 프로세서(2)를 구현하는 한 가지 가능한 방법은 ASIC(Application Specific Integrated Circuit) 마이크로프로세서를 사용하는 것이다. ASIC는 가능하게는 특정 애플리케이션 전용의 마이크로프로세서 및 특정 애플리케이션에 적합하도록 최적화된 마이크로프로세서를 포함하는 하드와이어링된 디바이스이다. 소정의 기능에 있어, 이들은 일반적으로 다른 옵션들보다 값이 더 싸고, 전력을 덜 소모한다. 그러나, 이들은 설계하기 복잡하고, 사전에 설계되어야 하고, 그리고 쉽게 재구성될 수 없다.
달리 가능한 또 다른 것은 필드 프로그래밍가능 게이트 어레이(Field Programmable Gate Array, FPGA) 디바이스를 사용하는 것이다. FPGA는 제조 이후에 "현장에서(in the field)"에서 구성될 수 있는 반도체 디바이스이다. FPGA를 구성하기 위해, 먼저, 예를 들어 배선 약도(schematic diagram)를 그리거나 기능을 기술하는 텍스트 파일을 생성함으로써 요구된 로직 기능을 모델링하기 위해 컴퓨터가 사용된다. FPGA는 정적으로 구성되는 상호접속을 통해 통신하는 룩업 테이블(look-up table)들의 어레이를 포함한다. 컴퓨터 모델은 FPGA 벤더(vendor)에 의해 제공되는 소프트웨어를 사용하여 컴파일되고, FPGA 룩업 테이블에 다운로드될 수 있는 바이너리 파일을 생성한다. 이것은 장비 제조자들이 그들 자신의 개별 필요에 맞도록 FPGA를 만들 수 있게 한다.
이러한 예에서, 인터페이스 제어기(6)는 FPGA로서 구현된다. 이로 인해 모바일 전화기의 제조자는 일반적인 FPGA 디바이스(2)를 구입하여 그들의 요구된 애플리케이션에 특정되도록 바로(on site)(즉, "현장에서") 이들을 구성할 수 있는 장 점이 있다. 그러나, FPGA의 단점은 ASIC보다 값이 비싸고, 더 느리며, 전력을 더 많이 소모한다는 것이다.
대안적인 예에서, 전체 칩(2)은 FPGA로 구성될 수 있거나 혹은 칩(2)은 칩(2)과 각각의 주변기(8) 간에 개별 FPGA 칩이 접속된 범용 프로세서일 수 있다. 그러나, 이러한 옵션들은 값이 훨씬 더 비싸고 전력 소비가 훨씬 더 크며, 따라서 대부분의 모바일 폰 및 다른 가전 디바이스에 대해 사용되지 않고 있다.
앞서의 어려운 점들 중 일부는 복수 쓰레드 프로세서를 사용함으로써 극복될 수 있는데, 여기서 각각의 쓰레드는 특정 동작, 특히 입력-출력 동작과 관련되어 있다. 이러한 복수 쓰레드 프로세서는, 예를 들어, 우리의 앞선 미국 특허출원 번호 제11/717,623호(2007년 3월 14일 출원, 우리 관리번호 제314563US/VRD호)에 설명되어 있고, 이하에서 더 완전히 설명된다. 이러한 복수 쓰레드 프로세서의 경우, 중요한 것은 개개의 쓰레드의 수행이 보증될 있다는 것이다. 만약 쓰레드들 모두가 동시에 데이터 혹은 명령 페치를 위해 메모리 액세스를 요구한다면, 혹은 만약 대여섯 개의 입력-출력 동작이 동시에 일어난다면, 잠재적인 문제들이 일어난다. 이러한 경우에, 하나의 쓰레드는, 다른 쓰레드들 모두가 그들의 액세스를 완료하기를 기다리면서 지연될 수 있거나, 또는 쓰레드의 활성화를 요구하는 입력-출력 요구가 다른 쓰레드들 모두의 활성화를 요구하는 요구들이 처리될 때까지 지연될 수 있다.
이러한 문제를 필할 수 있는 한 가지 방법은 모든 쓰레드가 항상 진행할 수 있도록 충분한 리소스들을 갖는 컴퓨터 아키텍처를 구성하는 것이지만, 이것은 비용이 너무 많이 들고, 너무 많은 부수적 설계를 요구한다.
본 발명의 일 실시형태에 따르면, 쓰레드들을 실행하는 프로세서가 제공되고, 각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작들을 정의하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의하며, 상기 프로세서는, 복수의 명령 버퍼들과, 여기서 상기 복수의 명령 버퍼들 각각은 그 버퍼와 관련된 쓰레드의 적어도 하나의 명령을 보유하고; 상기 명령 버퍼들로부터 명령들을 발행하는 명령 발행 스테이지(instruction issue stage)와; 그리고 메모리에 연결되어 상기 명령 발행 스테이지에 의해 발행된 명령들을 수신하는 메모리 액세스 스테이지(memory access stage)를 포함하며, 상기 메모리 액세스 스테이지는, 메모리 액세스 동작이 각각의 발행된 명령에서 정의되었는지 여부를 검출하는 검출 로직(detecting logic)과; 그리고 어떠한 메모리 액세스 동작도 검출되지 않을 때 명령 페치(instruction fetch)를 유발(instigate)시켜 쓰레드의 명령을 페치하도록 하는 명령 페치 로직을 포함한다.
상기 프로세스는 쓰레드들과 관련된 특정 동작들의 표시에 근거하여 실행을 위해 복수의 쓰레드들을 스케쥴링(scheduling)하는 쓰레드 스케쥴러(thread scheduler)를 포함할 수 있다.
상기 쓰레드 스케쥴러는, 쓰레드 정지시, 포트와 관련된 벡터 레지스터(vector register)에 연속 포인트 벡터(continuation point vector)를 전송할 수 있고, 그리고 상기 연속 포인트 벡터는 상기 포트에서의 동작에 따라 반환될 수 있다. 연속 포인트 벡터는 각각의 동작의 발생시 쓰레드의 실행이 계속되어야하는 시퀀스에서의 포인트를 식별한다. 장점으로서, 이것은 쓰레드에 대한 추가적인 책임이 포트로 이동되게 할 수 있고, 그리고 계류 중인 명령들로 채워진 채로 유지될 필요없는 명령 버퍼들을 비울 수 있다.
더욱이, 연속 포인트 벡터를 사용함으로써, 복수의 동작들(혹은 이벤트들)이 쓰레드로 처리될 수 있다.
명령 유닛은, 쓰레드의 명령이 다음에 발행돼야 하는 쓰레드의 상기 명령 버퍼가, 상기 쓰레드가 리소스로부터의 벡터를 기다리고 때문에 비어있는 경우, 페치 명령 요구를 발행하도록 구성될 수 있고, 여기서 페치 벡터 요구는 상기 리소스로부터 상기 벡터를 페치하고 상기 벡터를 사용하여 상기 메모리 액세스 스테이지에서 메모리 액세스 동작을 유발시켜 어드레스를 제공하게 한다.
상기 프로세서는, 쓰레드 레지스터들의 복수의 세트들을 포함할 수 있고, 상기 쓰레드 레지스터들의 각각의 세트는 복수의 쓰레드들 중 각각 하나에 관한 정보를 저장하도록 할당될 수 있다. 상기 프로세서는 상기 세트들 중 적어도 두 개의 세트들 사이에 적어도 하나의 채널을 포함할 수 있고, 그리고 쓰레드 스케쥴러는 상기 채널을 통해 일어나는 동작에 근거하여 쓰레드를 스케쥴링하도록 구성될 수 있다.
상기 프로세서는 칩 상에 구현될 수 있다.
상기 실행 유닛은 쓰레드들을 정지시키고 실행시키기 위한 전용 명령들을 인식하고 실행시키도록 구성될 수 있다.
쓰레드 스케쥴러는 또한 인터럽트(interrupt)에 근거하여 쓰레드를 스케쥴링하도록 구성될 있다.
쓰레드 스케쥴러는 만약 관련 동작이 그 동작에 의존하는 쓰레드 내의 명령의 실행 시에 혹은 전에 일어난다면 정지됨이 없이 쓰레드를 스케쥴링하도록 구성될 수 있다.
본 발명의 또 다른 실시형태에 따르면, 모발일 애플리케이션 프로세서, 적어도 하나의 주변 디바이스, 및 상기 모바일 애플리케이션 프로세서와 상기 주변 디바이스 사이에 연결된 인터페이스 프로세서를 구비한 모바일 단말기가 제공되고, 상기 인터페이스 프로세서는 본 명세서에서 앞서 정의된 바와 같은 프로세서이다.
본 발명의 또 다른 실시형태에 따르면, 상호연결된 프로세서들의 어레이가 제공되고, 상기 프로세서들 중 적어도 하나는 본 명세서에서 앞서 정의된 바와 같은 프로세서이다.
본 발명의 또 다른 실시형태에 따르면, 쓰레드들을 실행하는 방법이 제공되며, 각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작들을 정의하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의하며, 상기 방법은, 쓰레드의 적어도 하나의 명령을 그 쓰레드에 대한 명령 버퍼에 보유하는 단계와; 상기 명령 버퍼들로부터 실행 파이프라인의 명령 발행 스테이지로 명령들을 발행하는 단계와; 메모리에 연결된 메모리 액세스 스테이지에서 상기 명령 발행 스테이지에 의해 발행된 명령들을 수신하는 단계와; 메모리 액세스 동작이 상기 명령에서 정의되었는지 여부를 검출하는 단계와; 그리고 상기 메모리 액세스 동작이 정의되지 않을 때, 명령 페치를 유발시켜 쓰레드의 명령을 페치하도록 하는 단계를 포함한다.
이해할 것으로, 명령 페치 동작의 유발이 명령 페치 동작을 완료시킬 수 없다. 예를 들어, 만약, 모든 쓰레드들에 대한 모든 명령 버퍼들이 이미 가득 차 있다면, 명령 페치 동작의 유발의 결과로서 어떠한 명령도 페치되지 않는다.
명령에서 정의된 메모리 액세스 동작은 서로 다른 타입일 수 있다. 예를 들어, 로딩 명령은 메모리로부터 데이터를 검색하는 메모리 액세스 동작을 정의한다. 저장 명령은 데이터를 메모리에 로딩하는 메모리 액세스 동작을 정의한다. 분기 명령의 제 1 타입은 분기 명령에서 공급되는 타겟 어드레스에서 명령이 메모리로부터 페치되도록 하는 메모리 액세스 동작을 정의한다.
분기 동작의 제 2 타입은 분기 명령에서의 어드레스에 근거하여 메모리로부터 타겟을 검색하는 메모리 액세스 동작을 정의한다. 이해할 것으로, 이러한 분기 명령의 타입에 대해, 타겟에 위치하는 명령 그 자체는 후속적인 명령 페치 동작에서 페치될 수 있다.
본 발명이 더 잘 이해되도록 하기 위해, 그리고 본 발명이 어떻게 실시될 수 있는지를 보여주기 위해, 본 발명은 대응하는 도면을 참조하여 예시적으로 설명된다.
도 1은 본 발명의 기술분야에서 알려진 바와 같은 FPGA 디바이스의 예시적 애플리케이션을 나타낸 것이다.
도 2는 인터페이스 프로세서의 예시적 애플리케이션을 나타낸 것이다.
도 2A는 인터페이스 프로세서의 또 다른 예시적 애플리케이션을 나타낸다.
도 3은 인터페이스 프로세서의 아키텍처를 도식적으로 나타낸 것이다.
도 3A는 쓰레드 명령 발행 및 실행을 처리하는 실행 유닛(16) 내의 컴포넌트들을 나타낸다.
도 3B는 명령들의 시퀀스를 나타낸다.
도 3C는 명령 발행의 예를 나타낸다.
도 3D는 명령 발행의 또 다른 예를 나타낸다.
도 4는 포트를 도식적으로 나타낸 것이다.
도 5는 쓰레드 레지스터 세트들을 도식적으로 나타낸 것이다.
도 6은 쓰레드 스케쥴러의 동작을 나타낸 흐름도이다.
도 7은 쓰레드 레지스터 세트들 간의 채널들을 도식적으로 나타낸 것이다.
도 7A는 채널 단부(channel end)를 도식적으로 나타낸 것이다.
도 2는 모바일 전화기 내의 인터페이스 프로세서들의 예시적 애플리케이션을 보여준다. 모바일 애플리케이션 프로세서(2)는 복수의 주변 디바이스들(8)과 통신할 필요가 있다. 도 1에 도시된 바와 같이, 애플리케이션 프로세서(2)는, 버스(3), CPU(4), 및 메모리 제어기(6a)를 포함하는데, 메모리 제어기(6a)는 하드 드라이브(HDD)(8a) 및 SDRAM 메모리(8b) 뿐만 아니라 파워 제어기(10) 및 무선 프로세서(12)와 인터페이스한다.
그러나, 전용 제어기들(6) 대신에, 도 2의 구성은 CPU(4)가 범용 포트(7)를 통해 외부와 통신할 수 있게 할 수 있다. 이러한 예에서, 범용 포트(7a 및 7b)가 카메라(8c) 및 LCD 디스플레이(8d)와의 인터페이스를 위해 제공되고, 범용 포트(7c)가 마이크로폰(8e), 스피커(8f), 및 헤드셋(8g)과의 인터페이스를 위해 제공되고, 그리고 범용 포트(7d)가 키보드(8h), 범용 직렬 버스(Universal Serial Bus, USB) 디바이스(8i), SD(Secure Digital) 카드(8j), MMC(Multi-Media Card)(8k), 및 범용 비동기 수신기/송신기(Universal Asynchronous Receiver/Transmitter, UART) 디바이스(81)와의 인터페이스를 위해 제공된다.
도 2에서, 인터페이스 프로세서(14a, 14b 및 14c)는 관련 포트들(7)의 출력에 놓일 수 있고, 이 경우 제 1 인터페이스 프로세서(14a)는 이미지 디바이스들(8c-8d)과 범용 포트들(7a-7b) 사이에 연결되고, 제 2 인터페이스 프로세서(14b)는 오디오 디바이스들(8e-8g) 간에 연결되고, 그리고 제 3 인터페이스 프로세서(14c)는 범용 포트들(7d)과 다양한 접속 디바이스(8h-8m) 사이에 연결된다. 포트들(7)은 단지 범용의 포트일 필요가 있는데, 왜냐하면 애플리케이션 특정 디스플레이, 오디오 및 접속 기능이 이후 설명되는 방식으로 인터페이스 프로세서(14a-14c)에 의해 구현되기 때문이다. 포트들(7)은 FPGA 로직을 사용할 필요가 없는데, 왜냐하면, 다른 경우 FPGA에 의해 제공되었을 유연성과 구성가능성을 인터페이스 프로세서들(14)이 제공하기 때문이다. 인터페이스 프로세서(14a)는 포트(7a 및 7b)에 연결되는 포트(22a 및 22b)를 가지고, 그리고 외부 디바이스(8c 및 8g)에 연결되는 포트(22c, 22d, 22e 및 22f)를 갖는다. 인터페이스 프로세서(14b 및 14c)도 유사한 포트들을 가지지만 도 2에서는 도시되지 않았다.
인터페이스 프로세서들은 전형적으로, 인터페이스를 통해 데이터를 전달하기 위해 사용되는 특정 프로토콜을 구현하고, 데이터를 다시 포맷팅(이것은 데이터를 병렬 포맷과 직렬 포맷 간에 변환하는 것을 포함함)하고, 그리고 가능하게는 더 높은 수준의 기능, 예를 들어, 데이터를 인코딩하는것, 데이터를 압축하는 것, 혹은 데이터를 암호화하는 것을 수행한다.
인터페이스 프로세서의 또 다른 애플리케이션은 도 2A에 도시된 멀티프로세서 칩(202)에서의 타일(tile)로서 존재한다. 이러한 칩(202)은, 칩(202) 상의 프로세서들(14) 간의 통신을 지원하는 고성능 상호접속(204)과, 그리고 시스템들이 복수의 칩들로부터 쉽게 구성될 수 있도록 하는 인터칩 링크(inter-chip links)(206)를 사용한다. 각각의 프로세서(14)는 포트들(22)을 통해 인터칩 링크(206)와 고성능 상호접속(204)에 연결된다.
이후 더 완전히 설명되는 인터페이스 프로세서의 중요한 특징은 포트들(22)에서의 동작을 관리하는 능력이다. 각각의 인터페이스 프로세서는 CPU, 메모리, 및 통신부들을 포함한다. CPU와 포트들 간의 직접 연결 및 응답 연결을 가능하게 하기 위해, 각각의 프로세서는 다수의 동시 프로그램 쓰레드들을 실행하기 위한 하드웨어 지원을 가지며, 동시 프로그램 쓰레드들 각각은 명령들의 시퀀스를 포함하고, 그리고 이중 적어도 일부는 특히 포트에서의 동작을 처리하는 역할을 하고 있다. 아래에서 더 완전히 설명되는 바와 같이, 하드에어 지원은,
- 각각의 쓰레드를 위한 레지스터들의 세트와,
- 어떤 쓰레드를 실행할지를 동적으로 선택하는 쓰레드 스케쥴러와,
- 입력과 출력을 위해 사용되는 포트들의 세트(포트들(22))를 포함한다.
각각의 프로세서 상에서 쓰레드들의 작은 세트를 사용하는 것은, 프로세서에 의해 처리되는 다른 계류중인 태스크들과 함께 통신 혹은 입력/출력이 진행할 수 있도록 사용될 수 있으며, 그리고 일부 쓰레드들이 계속될 수 있는 반면에 다른 쓰레드들은 원격 인터페이스 프로세서들로의 혹은 원격 인터페이스 프로세서로부터의 통신 중 정지됨으로써 상호접속에서의 대기시간 숨김(latency hiding)이 가능하도록 사용될 수 있다.
본 발명의 실시예에 따르면, 쓰레드 명령들이, 임의 개수의 쓰레드들이 공통 메모리 시스템 및 입력-출력 시스템을 공유하도록 하고, 그리고 실행가능한 n개의 쓰레드들에 대해, 각각이 적어도 1/n 프로세서 싸이클을 가질 수 있도록 하는 방식으로, 발행된다. 실행가능한 쓰레드들은 할당된/사용중인 그들의 레지스터 등을 가진 쓰레드들을 포함하고, 여기에는 실행중인 쓰레드, 일시정지 쓰레드 및 일시적으로 디스케쥴링된 쓰레드가 포함된다. 사실, 하나의 쓰레드 싸이클이 n개의 프로세서 싸이클인 것으로 생각하는 것은 유용하다.
소프트웨어 설계 관점에서, 이것이 의미하는 것은 쓰레드의 최소 수행이 프로그램 내의 특정 포인트에서 동시 발생하는 쓰레드들의 수를 카운팅함으로써 계산될 수 있음을 의미한다. 사실, 수행은 거의 언제나 이보다 더 클 수 있는데, 왜냐하면 개개의 쓰레드들은 때때로 입력 혹은 출력을 기다리면서 지연되고 그리고 그들의 비사용 프로세서 싸이클을 다른 쓰레드들이 사용하기 때문이다. 더욱이, 대기하고 있는 쓰레드를 다시 시작하도록 하는 데 걸리는 시간은 언제가 많아야 하나의 쓰레드 사이클이다. 따라서, n개의 쓰레드들의 세트는 가상 프로세서들의 세트로서 고려될 수 있고, 각각은 프로세서 자체의 클럭 속도의 적어도 1/n인 클럭 속도를 갖는다. 단지 이러한 것에 대한 예외는, 만약 쓰레드의 수가 파이프라인 스테이지의 수(p)보다 작다면 가상 쓰레드의 클럭 속도는 기꺼해야 1/p이라는 것이다.
도 3은 본 발명의 일 실시예에 따른 인터페이스 프로세서(14)의 예시적인 아키텍처를 도식적으로 나타낸다. 프로세서(14)는 쓰레드 스케쥴러(18)의 제어 하에서 명령들의 쓰레드들을 실행하는 실행 유닛(16)을 포함한다. 프로세서(14)는 또한, 프로그램 코드 및 다른 데이터를 보유하기 위한 RAM(Random Access Memory)(24)과, 그리고 부트 코드(boot code)와 같은 영구적 정보를 저장하기 위한 ROM(Read Only Memory)(미도시)을 포함한다.
쓰레드 스케쥴러(18)는, 실행 유닛(16)이 어떤 쓰레드를 실행시켜야 하는지를 동적으로 선택한다. 종래에, 쓰레드 스케쥴러의 기능은 단지 프로세서가 완전히 사용되도록 하기 위해 프로그램 메모리로부터 쓰레드들을 스케쥴링하는 것이다. 그러나, 본 발명에 따르면, 쓰레드 스케쥴러(18)에 의한 스케쥴링은 또한 포트들(22)에서의 동작과 관련되어 있다. 이러한 점에 있어서, 유의할 것으로, 쓰레드 스케쥴러는, 포트에서의 입력 혹은 출력 동작의 결과로서 쓰레드가 실행가능하게 될 때 지연을 최소화시키기 위해 포트들(22)에 직접 연결될 수 있다.
쓰레드 스케쥴러(18)에 의해 고려되는 m 개의 쓰레드들 각각은, 쓰레드 스케쥴러(18)가 액세스하는 레지스터들의 뱅크(20)에서의 쓰레드 레지스터들(20i ... 20m)의 각각의 세트로 나타내진다. 명령 버퍼(Instruction buffers, INSTR)(19)가 또한, 메모리(24)로부터 페치된 명령들을 실행 유닛(16)에 후속적으로 발행되기 전 일시적으로 보유하기 위해 제공된다. 실행 유닛은 레지스터들(20)과 버퍼들(19) 각각에 액세스한다. 명령은 쓰레드 스케쥴러(18)의 제어 하에서 프로그램 메모리(24)로부터 페치되어 명령 버퍼들(19)에 일시적으로 놓인다. 이러한 레지스터들 및 버퍼들의 세부적인 것은 이후 설명된다.
m 개의 쓰레드들 중에서, 쓰레드 스케쥴러(18)는 실행가능한 쓰레드들의 세트를 유지하고, 상기 세트는 "실행(run)"으로 명명되고, 이로부터, 실행을 위해 차례로, 바람직하게는 라운드 로빈 방식으로 명령을 발행한다. 실행가능한 쓰레드들은 할당된 쓰레드들의 그룹으로부터 선택된다. 쓰레드가 계속될 수 없을 때, 실행 세트로부터 쓰레드를 제거함으로써, 쓰레드는 정지된다. 예를 들어, 그 이유는 쓰레드가, 하나 또는 그 이상의 다음과 같은 동작 타입을 기다리고 있기 때문이다.
- 쓰레드의 레지스터들은 쓰레드가 실행될 수 있기 이전에 초기화된다.
- 준비되지 않은 혹은 가용한 데이터를 가지지 않은 포트로부터의 입력을 시도한다.
- 준비되지 않은 혹은 데이터를 위한 공간이 없는 포트로의 출력을 시도한다.
- 포트가 입력에 대해 준비될 때 발생될 수 있는 하나 또는 그 이상의 이벤트를 쓰레드가 기다리도록 하는 명령을 실행한다.
다음의 설명에서, 명령들은 실행가능한 쓰레드들로부터 라운드 로빈 방식으로 페치되지만, 일부 실시예들에서, 할당된 모든 쓰레드들로부터 명령들을 라운드 로빈 방식으로 페치하는 것도 가능하다.
유의할 것으로, 본 명세서 사용되는 용어 "이벤트(event)"는 특정 동작 타입을 말하며, 이것은 기본적인 입력-출력 동작과는 약간 다르다. 차이는 도 4와 도 5를 참조하여 아래에서 설명된다.
장점으로서, 빠른 반응 시간을 위해, 다이렉트 하드와이어링 접속(direct hardwired connection)(28)이 쓰레드 스케쥴러(18)와 실행 유닛(16) 사이에 제공되어, 쓰레드 스케쥴러(18)로 하여금 실행 유닛(16)이 어떤 쓰레드 혹은 쓰레드들을 페치 및 실행해야만 할지를 제어할 수 있게 한다. 쓰레드 명령들이 발행되는 방식을 설명하기 위해 이제 도 3A 내지 도 3D를 참조하여 더 상세한 설명이 제공된다. 도 3A는 쓰레드 명령 발행 및 실행을 처리하는 실행 유닛(16) 내의 컴포넌트들을 나타낸다. 유의할 것으로, 이러한 도면은 기능적 블럭으로 시스템의 동작을 예시하기 위해 단지 도식적으로 제공되는 것이다. 실행 유닛(16)은 버퍼들(19)에 보유된 명령들을 발행하는 명령 발행 스테이지(160)를 포함하는 파이프라인을 포함한다. 파이프라인은 또한, 판독 레지스터(161), 메모리 액세스 스테이지(162), 프로세싱 스테이지(processing stage)(164), 및 라이트백 스테이지(writeback stage)(166)를 포함한다. 판독 레지스터 스테이지 및 라이트백 스테이지는 레지스터(20)에 연결되어 있지만, 이것은 도 3A 내지 도 3D에서 도시되지 않았다.
도 3A에 도시된 바와 같이, 각각의 쓰레드를 위한 개별적인 버퍼(19a 내지 19d)가 존재한다. 설명된 실시예에서, 각각의 버퍼(19a ... 19d)는 그 길이가 64비트이고, 네 개의 짧은 명령 혹은 두 개의 긴 명령을 보유할 수 있다. 도 3A에서, 각각의 버퍼는 네 개의 짧은 명령을 보유하는 것으로 도시되었다. 이것은 Ti INSTj의 프로토콜에 따라 명명되었는데, 여기서 i는 쓰레드의 번호를 표시하고, j는 해당 쓰레드 내의 명령의 번호를 표시한다. 즉, T1 INST1은 쓰레드 1의 제 1 명령을 표시한다. 명령들은 버퍼(19a ... 19d)로부터 라운드-로빈 방식으로 실행가능한 쓰레드들에 대해 발행되며, 사용중이지 않거나 혹은 일시정지된 쓰레드들은 무시된다. 이것은 도 3A에서 도식적으로 나타나 있고, 여기서 쓰레드 T1, T2, 및 T4는 실행 상태에 있지만, T3은 일시정지된 상태에 있다. 쓰레드 상태는 이후 더 상세히 설명된다. 명령 발행 스테이지(160)의 역할은 파이프라인의 판독 레지스터 스테이지(161)에 명령을 발행하는 것이다. 판독 레지스터 스테이지는 메모리 액세스 스테이지(162)에 연결되고 그리고 프로세싱 스테이지(164)에 연결된다. 서로 다른 수많은 타입의 명령들이 존재한다. 제 1 타입은 데이터 액세스 명령이고, 이것은 메모리(4)에 그리고 메모리(4)로부터 데이터를 전달하려는 로딩/저장과 같은 명령들이다. 제 2 타입은 분기 명령이다. 이러한 것에는 두 가지 스타일이 있다. 제 1 스타일은 분기 명령에서 정의된 타겟 어드레스에서 메모리로부터 명령을 페치하는 메모리 액세스 동작을 정의한다. 제 2 스타일은 분기 타겟 어드레스가 위치하는 메모리에서의 위치를 식별하고, 프로그램 카운터(Program Counter, PC)에 타겟 어드레스를 로딩한다. 제 3 타입은 계산 명령(computational instructions)인데, 이것은 실행 유닛 내의 프로세싱 스테이지(164)의 동작을 그들의 오피코드에 근거하여 지시 한다. 종래 프로세서에서, 실행 파이프라인의 메모리 액세스 스테이지에 통상적으로 전해질 수 있는 유일한 명령 타입은 데이터 액세스 명령이다.
본 명세서에서 설명되는 본 발명의 실시예들에 따르면, 명령 자체에서 예를 들어 오피코드에 의해 정의된 동작과 상관없이, 모든 타입의 명령이 메모리 액세스 스테이지에서 영향을 미칠 수 있다. 명령의 제 1 타입은 일반적으로 데이터에 액세스한다. 명령의 제 2 타입과 제 3 타입 양쪽 모두는 메모리(24)로부터 명령이 페치되도록 한다. 분기 명령의 제 1 스타일은 메모리 액세스 스테이지 동안 그들의 분기 타겟 명령을 페치한다. 제 2 스타일은 타겟 어드레스에 액세스하기 위해 메모리 액세스 스테이지를 사용한다. 이러한 경우, 분기 타겟 명령 자체는 페치 비동작(fetch no-op)(이후에 설명됨)에 의해 페치되거나, 그 메모리 액세스 스테이지를 사용할 필요가 없는 또 다른 쓰레드의 메모리 액세스 스테이지 동안 페치된다.
임의의 다른 명령은, 프로세싱 스테이지(164)에서 그 정의된 동작을 수행하는 것에 추가하여, 명령 페치를 수행하기 위해 메모리 액세스 스테이지를 사용한다. 즉, 버퍼(19a ... 19d)를 로딩하기 위해 사용되는 명령을 반환하는 메모리(24)에 어드레스를 디스페치(dispatch)한다. 쓰레드 자신의 명령 버퍼가 가득 차 있지 않다면 페치된 명령은 쓰레드 자신의 명령 버퍼를 로딩하는데, 이러한 경우 이것은 또 다른 쓰레드의 버퍼를 로딩하기 위해 사용된다. 이후 설명되는 바와 같이, 각각의 쓰레드는 명령 시퀀스 내의 어떤 포인트에 쓰레드가 있는지를 표시하는 프로그램 카운터 값(도 3A에서는 PC1, PC2 등으로 도시됨)을 유지하고 있다.
이러한 것을 위해, 메모리 액세스 스테이지는 검출 로직(200)을 포함하고, 검출 로직(200)은 명령의 오피코드를 검출하여 그 안에 메모리 액세스 동작이 정의되어 있는지 여부를 결정하도록 구성된다. 추가적으로, 메모리 액세스 스테이지는 명령 페치 로직(202)을 포함하며, 명령 페치 로직(202)은 검출 로직(200)에 의해 어떠한 메모리 액세스 동작도 검출되지 않을 때 명령 페치를 유발시켜 쓰레드의 명령을 페치하도록 구성된다.
PC는 메모리 액세스 스테이지에 명령과 함께 발행되고, 그리고 메모리 액세스를 위해 사용될 어드레스를 결정하는데 사용된다. 쓰레드 자신의 버퍼가 가득 찰 때, 명령 유닛은 이러한 상황을 검출하고, 그리고 이러한 경우에 또 다른 쓰레드의 PC를 메모리 액세스 스테이지에 전달하여 메모리 액세스를 위해 사용될 어드레스를 결정한다. 쓰레드가 또 다른 쓰레드를 대신하여 명령 페치를 수행할 때, 쓰레드는 실행가능한 쓰레드들로부터 선택된다. 선택된 쓰레드는 빈 버퍼를 가진 발행을 위한 라운드 로빈 시퀀스에서의 하나 건너 다음 쓰레드일 수 있다. 이들 중 어떤 것도 빈 버퍼를 가지지 않는다면, 선택된 쓰레드는 가득 차지 않은 버퍼를 가진 발행될 하나 건너 다음 쓰레드일 수 있다.
이해할 것으로, 어떤 쓰레드가 선택되는 가에 관한 정확한 세부적인 것은 특정 실시예마다 다르다. 예를 들어, 다음 쓰레드는 페치를 기다리는 쓰레드들의 또 다른 라운드 로빈 그룹으로부터 얻어질 수 있다. 명령이 또한 일시정지된 쓰레드에 대해 페치될 수 있고, 여기서 일시정지된 이후의 다음 명령 혹은 명령 시퀀스는 알려져 있는데, 하지만 바람직하게는 복수의 이벤트들을 기다리면서 정지된 쓰레드에 대해 명령은 페치되지 않는데(아래 참조), 왜냐하면 쓰레드는 어떤 이벤트가 먼저 일어나느냐에 따라 다른 명령들로 분기할 수 있기 때문이다.
만약 (명령 발행 스테이지(160)에서 검출된 바와 같이) 명령 버퍼가 이로부터 명령이 발행돼야만 하는 경우 비어 있다면, 특별한 "페치 비동작" 요구가 발행된다. 이것은 발행 쓰레드의 명령 버퍼를 로딩하기 위해 메모리 액세스 스테이지를 사용한다.
도 3B는 이러한 시퀀스를 더 상세히 나타낸다. 도 3B에서 아래로 향하는 화살표는 명령이 명령 발행 유닛(160)으로부터 메모리 액세스 스테이지로 발행되고 있는 방향을 표시한다. "라운드-로빈"은 T1 INST1이 먼저 발행되게 하고, 그 다음 T2 INST1, 그리고, 그 다음 T4 INST1 등이 발행되게 한다. 유의할 것으로 T3으로부터는 어떠한 것도 발행되지 않는데, 왜냐하면 쓰레드가 실행가능하지 않기 때문이다.
예시적 목적으로, T1 INST1 및 T2 INST2가 데이터 액세스 명령들이고, 그 각각은 메모리 액세스 스테이지에서 데이터를 검색한다고 가정한다. T4 INST1은 "제 1 스타일" 분기 명령이고, 데이터를 검색하는 대신, 이것은 분기 타겟에 위치한 명령을 검색한다. 도 3C에서, 단계(S1)는 명령 발행 유닛에 의한 T4 INST1의 페치를 나타낸다. 단계(S2)는 분기 타겟 명령에 액세스하고 이것을 T4의 버퍼(그 빈 슬롯)에 로딩하는 메모리 액세스 스테이지를 나타낸다. 각각의 버퍼는, 버퍼가 선입선출 버퍼로서 동작하도록 이동하는 버퍼 포인터(Buffer Pointer, BP)를 가지고 있다.
라운드 로빈 스케쥴링에 따라 T4 INST1 이후 발행될 다음 명령은 T1 INST2(단계(S3)에서 페치됨)이고, 이것은 ALU 명령으로 표기되어 있으며, 이것은 통상적으로 메모리 액세스 스테이지를 사용하지 않는다. 그러나, 본 발명의 실시예에서, 프로세싱 스테이지가 ALU 동작을 수행하도록 지시하는 것에 더하여, 이러한 명령은 메모리 액세스 스테이지로 하여금 도 3C의 단계(S4)에서 표시된 바와 같이 쓰레드 T1에 대한 다음 명령의 페치를 유발하게 한다. 이러한 명령(T1 INST5으로 명명됨)은 쓰레드 T1과 관련된 버퍼(19a)에서의 빈 슬롯에 로딩된다.
이러한 방식으로 발행되고 처리될 명령들이 계속된다. 도 3D에 예시된 상황에 도달하는 것이 가능한데, 여기서 다음 발행되는 쓰레드(여기서는 T2)와 관련된 버퍼가 비어 있지만, 명령 발행 유닛은 명령 발행을 기다리고 있다. 이러한 경우에, "페치 비동작" 요구가 메모리 액세스 스테이지에 발행되고, 메모리 액세스 스테이지는 만약 페치 비동작 요구가 발행되지 않았다면 발행되었을 쓰레드에 대한 다음 명령을 페치한다. 이러한 예에서, 이러한 쓰레드는 T1이고, 그것은 지금 n번째에 있는 명령이라고 가정한다. 어드레스는 그 쓰레드에 대해 마지막으로 발행된 명령에 대해 PC에 의해 결정된다. 더 정확히 말하면, 만약 버퍼가 비어있는 경우, PC가 페치 어드레스이다. 만약 버퍼가 부분적으로 차 있다면, 페치 어드레스는 PC에 버퍼 내의 명령들의 수를 더함으로써 계산된다. 페치 어드레스 및 PC를 프로세서 내에 유지하는 것이 가능하다.
"페치 비동작"이 필요한 경우는 매우 드물고, 종종 컴파일러 혹은 어셈블러에서 간단한 명령 스케쥴링을 통해 이러한 것을 피할 수 있다.
이후 더 깊게 설명되는 바와 같이, 어떤 명령들은 쓰레드들이 실행가능하지 않도록 하는데, 왜냐하면 예를 들어 입력 포트가 가용한 데이터를 가지고 있지 않 기 때문이다. 데이터가 가용할 때, 쓰레드는 일시정지된 포인트로부터 계속된다. 고속의 입력 및 출력을 지원하기 위해 명령들은 고속으로 발행되어야 한다. 이러한 것을 달성하기 위해, (도 4를 참조하여 아래에서 더 상세히 설명되는 바와 같이) 준비 비트 혹은 플래그(37)가 포트(22)에서 제공된다. 준비 플래그(37)의 검출시, 쓰레드는, 통상적으로 쓰레드를 라운드 로빈 시퀀스에 다시 입력하고 입력 명령을 다시 발행함으로써, 다시 시작된다. 이것은 결과적으로, 재발행 명령이 실행 파이프라인을 지나가는 시간으로 인해, 응답 시간이 가상 싸이클 시간보다 더 길어지게 한다.
이상적으로, 가상 프로세서는 가상 싸이클 당 하나의 속도에서 입력 및 출력 동작을 수행할 수 있어야 한다. 여러 실시예들에서, 이것은 각각의 포트에서 "고속 모드(fast mode)"를 제공함으로써 달성될 수 있다. 입력 혹은 출력 명령이 고속 모드에 있는 임의의 포트가 준비되지 않았음을 검출할 때, 쓰레드의 다음 명령을 되돌려 놓고, 포트가 준비되고 입력 명령이 완료될 수 있을 때까지 다음 명령이 재발행되게 한다.
포트들과 관련된 쓰레드 스케쥴러의 동작은 도 4 및 도 6과 관련하여 아래에서 설명된다. 다이렉트 하드와이어링 경로(30a, 30b, 30c)가 또한 쓰레드 스케쥴러(18)와 각각의 프트들(22) 사이에 제공되고, 그리고 다이렉트 하드와이어링 경로(291 ... 29m)는 쓰레드 스케쥴러(18)와 각각의 레지스터들(20) 사이에 제공된다. 이러한 다이렉트 경로는 바람직하게는, 쓰레드 스케쥴러로 하여금 각각의 쓰레드를 하나 또는 그 이상의 프토들(22)과 관련시키고, 특히 어떤 동작이 발생했을 때 포트들로부터 준비 표시를 반환하게 할 수 있는 제어 경로를 제공하고 프로세서로 하여금 포트들(22)에서 일어나는 동작 혹은 자극에 빠르게 응답할 수 있게 한다.
실행 유닛(16)은 또한, 다이렉트 연결(27 및 31)을 통해 각각의 포트들(22a-22c) 및 각각의 레지스터(201-20m)에 액세스하고, 따라서 코어 프로세서와 레지스터와 외부 환경 사이에 다이렉트 링크를 제공한다. 바람직하게는, 이러한 다이렉트 경로는 실행 유닛으로 하여금 조건들을 포트들에 전달할 수 있게 하는 또 다른 제어 경로들을 제공한다. 이것은 도 4에 대해서 아래에서 더 상세히 설명된다. 다이렉트 경로(27 및 31)는 또한 데이터가 쓰레드 레지스터(20)와 포트(22) 사이에서 직접적으로 입력 및 출력될 수 있게 하여 쓰레드들이 외부 환경과 직접적으로 통신할 수 있게 할 수 있다. 예를 들어, 데이터는, 메모리(24)에 기입된 다음 후속적으로 페치되기보다는, 오히려 외부 디바이스로부터 쓰레드의 오퍼랜드 레지스터(operand register)들 중 하나에 직접 기입될 수 있다. 역으로, 동작 이후, 실행 유닛(16)에 의해 오퍼랜드 레지스터로부터 데이터가 선택될 수 있고, 포트(22)로부터 직접 전송될 수 있다. 이것은 반응 시간을 크게 개선한다.
유의할 것으로, "다이렉트 연결" 혹은 "다이렉트 경로"가 의미하는 것은, 실행 유닛과 프로그램 메모리(24) 간의 연결로부터 분리된 연결을 의미한다. 따라서, 예를 들어, 쓰레드 스케쥴러(18)와 실행 유닛(16)은, 데이터가 저장된 다음 후속적으로 메모리(24)로부터 페치됨이 없이 포트들(22)로부터 입력된 데이터에 액세스한 다. 특히, 만약 실행 유닛(16)과 메모리(24) 간의 연결이 버스(3)를 통한 연결이라면, "다이렉트" 연결 혹은 경로는 버스로부터 분리된 것을 의미한다. 따라서, 포트들(22)과 레지스터들(20)과 쓰레드 스케쥴러(18)와 실행 유닛(16) 간의 다양한 통신은 모두 버스 중재를 필요로 하지 않으면서 일어날 수 있고, 이것은 반응 시간을 개선한다. 포트(22)에는 또한 버스(13)를 사용하여 추가적인 연결(미도시)이 제공될 수 있다.
본 명세서에서 사용되는 용어 "포트"는 "핀 포트" 또는 "데이터 포트"를 말할 수 있다. 핀 포트는 각각의 논리적 전이, 즉 프로세서 칩의 물리적 경계에서의 핀에서 일어나는 신호의 상승 에지 및 하강 에지를 검출한다. 데이터 포트들은, 이들이 하나 또는 그 이상의 비트들(이것은 전형적으로 I/O 버퍼에 축적되고, 그리고 전형적으로 워드와 같은 데이터의 부분을 채움)을 처리할 수 있다는 점에서, "더 높은 레벨"이다. 상승 에지 및 하강 에지를 검출하는 대신에, 데이터 포트는 특정 순간에서의 비트 혹은 비트들의 상태 혹은 로직 레벨을 처리한다. 데이터 포트는 온/오프 칩일 수 있고, 또는 이것은 동일한 칩 상에 임베드된 또 다른 프로세서에 대한 포트일 수 있다. 유의할 것으로, "핀 포트" 및 데이터 포트"는 사실, 실제 동일한 포트의 다른 모드를 말하는 것일 수 있다.
도 4는 본 발명의 바람직한 실시예에 따른 포트(22)를 도식적으로 나타낸 것이다. 포트(22)는 입력 및 출력 데이터를 프로세서(14)에 그리고 프로세서(14)로부터 전달하기 위한 I/O 버퍼(32)를 포함한다. 추가적으로, 각각의 포트(22)는 포트에서 일어나는 동작을 모니터링하고, 아울러 적어도 하나의 준비 비트 혹은 플래 그(37)를 사용하여 어떤 동작의 발생을 시그널링하기 위한 동작 핸들링 로직(activity handling logic)(36)을 포함한다. 준비 플래그(37)는 바람직하게는 다이렉트 경로(30)를 통해 쓰레드 스케쥴러에 시그널링된다. 하나 이상의 준비 플래그가 존재할 수 있다. 포트가 검출할 수 있는 잠재적인 동작은 다음을 포함할 수 있다.
- 데이터가 포트에 입력되었음,
- 어떤 특정 데이터가 포트에 입력되었음, 그리고/또는
- 포트가 출력에 대해 가용하게 되었음.
이러한 동작의 검출을 용이하게 하기 위해, 포트(22)에는 레지스터들(38)의 세트가 제공된다. 이러한 것들에는, 관련 쓰레드의 식별부를 저장하기 위한 쓰레드 식별자(thread identifier, TID) 레지스터, 하나 또는 그 이상의 조건을 저장하기 위한 제어(control, CTRL) 레지스터, 실행이 정지된 프로그램에서의 위치를 저장하기 위한 연속 포인트 벡터(VECTOR) 레지스터, 및 조건과 관련된 임의의 데이터를 저장하기 위한 데이터(DATA) 레지스터가 있다. TID 값이 다이렉트 경로(30)(이것은 도 3에서 30a, 30b, 30c일 수 있음)를 통해 쓰레드 스케쥴러(18)에 의해 레지스터(38)에 기입되고, 그리고 VECTOR, CTRL 및 DATA 값이 다이렉트 경로(31)를 통해 실행 유닛(16)에 의해 기입된다. TID는, 요구된 동작의 검출시, 관련 쓰레드를 식별하기 위해, 쓰레드 스케쥴러(18)에 반환된다. 동작 로직은 또한 아래에서 더 상세히 설명되는 인에이블 플래그(enable flag)(39)를 포함한다.
유의할 것으로, 비록 레지스터(38)가 포트(22) 내에 포함되는 것으로 도 4에 서 도시되었지만, 이들은 사실, 프로세서(14) 내의 다른 위치에 있을 수 있고, 간단히 포트(22)와 관련될 수 있다.
도 5는 쓰레드들을 나타내기 위해 사용되는 쓰레드 레지스터들(20)의 예시적 뱅크를 나타낸다. 뱅크(20)는 쓰레드 스케쥴러(18)에 의해 현재 고려 중인 각각의 쓰레드(T1 내지 Tm)에 대응하는 레지스터들의 복수의 세트를 포함한다. 이러한 바람직한 예에서, 각각의 쓰레드의 상태는 18 개의 레지스터들로 나타내지는데, 즉, 2개의 제어 레지스터, 4개의 액세스 레지스터, 12개의 오퍼랜드 레지스터로 나타내진다. 이러한 것들은 다음과 같다.
제어 레지스터들:
- PC는 프로그램 카운터(Program Counter)
- SR은 상태 레지스터(Status Register)
액세스 레지스터들:
- GP는 글로벌 풀 포인터(Global pool Pointer)
- DP는 데이터 포인터(Data Pointer)
- SP는 스택 포인터(Stack Pointer)
- LR은 링크 레지스터(Link Register)
오퍼랜드 레지스터: OP1 ... OP12
제어 레지스터는 쓰레드의 상태에 관한 정보 및 쓰레드의 실행을 제어하는데 사용하기 위한 정보를 저장한다. 특히, 이벤트 혹은 인터럽트를 수용하는 쓰레드의 능력은 쓰레드 상태 레지스터(SR)에 보유된 정보에 의해 제어된다. 쓰레드 스케쥴러(18)는 각각의 쓰레드에 대해 적어도 상태 레지스터(SR)에 액세스한다. 액세스 레지스터는 프로시져의 로컬 변수를 위해 사용되는 스택 포인터와, 프로시져들 간에 공유된 데이터를 위해 보통 사용되는 데이터 포인터와, 그리고 커다란 상수 및 프로시져 엔트리 포인트들에 액세스하기 위해 사용되는 상수 풀 포인터를 포함한다. 오퍼랜드 레지스터(OP1 ... OP12)는 산술 및 로직 동작을 수행하고, 데이터 구조에 액세스하고, 그리고 서브루틴을 호출하는 명령들에 의해 사용된다.
앞서 언급된 바와 같이, 본 명세서에서 사용되는 용어 "이벤트"는 특정 동작 타입을 말하거나 혹은 그 특정 동작 타입에 대응하는 동작을 말한다. 이벤트 기반의 동작은 기본적인 입력-출력 동작과는 약간 다르고, 다음과 같이 동작한다. 먼저, 실행 유닛(16)으로부터의 연속 포인트 벡터 및 쓰레드 스케쥴러(18)로부터의 쓰레드 식별자를, 바람직하게는 다이렉트 경로(31 및 30)를 통해, 포트(22)와 관련된 VECTOR 및 TID 레지스터(38)에 전송함으로써, 쓰레드에 대한 이벤트가 설정된다. 관련 조건 및 조건 데이터는 또한 포트(22)의 CTRL 및 DATA 레지스터(38)에 기입될 수 있다. 따라서 이벤트는 포트에서 설정되며 반드시 인에이블되는 것은 아니다. 포트가 이벤트의 표시를 발생시킬 수 있도록, 포트의 인에이블 플래그(39)는 또한, 바람직하게는 다이렉트 경로(30)를 통해 쓰레드 스케쥴러(18)에 의해 어써팅되어야만 한다. 더욱이, 이벤트를 수용하도록 쓰레드 자체를 인에이블시키기 위해, 쓰레드에 대한 각각의 상태 레지스터(SR)에서의 쓰레드의 이벤트 인에이블(Event Enable, EE) 플래그는 이벤트 인에이블된 것으로 설정되어야만 한다. 따라서, 이벤 트가 설정되고 인에이블되면, 쓰레드는 쓰레드 스케쥴러(18) 상에서 동작하는 이벤트 기반의 대기 명령을 사용하여 이벤트를 기다리면서 정지될 수 있다. 이러한 지점에서, 현재 계류중인 명령은 관련 명령 버퍼(19)로부터 버려질 수 있다. 이벤트가 발생할 때, 예를 들어, 어떤 데이터가 포트에 입력될 때, 그 발생은, 포트(22)로부터 쓰레드 스케쥴러(18) 및 실행 유닛(16)으로, 쓰레드 식별자 및 연속 포인트 벡터의 반환에 의해 시그널링되어, 연속 포인트 벡터에서의 명령이 프로그램 메모리(24)로부터 명령 버퍼(19)에 페치될 수 있고, 코드 내의 적절한 포인트에서 실행이 재개될 수 있다.
이벤트가 발생할 때, 각각의 상태 레지스터(SR)에서의 쓰레드의 EE 플래그는, 발생 직후 쓰레드가 이벤트에 반응하는 것을 막기 위해 이벤트 디스에이블된 것으로 설정될 수 있다. 인에이블 플래그(39)는 이벤트 발생시 쓰레드가 명령을 실행한 결과로 인해 디어써팅될 수 있다.
인에이블 플래그(39)는 어써팅될 수 있고, 반면에 포트들 중 하나 또는 그 이상으로부터 이벤트를 기다리는 것에 대한 준비로 포트의 수를 설정할 수 있다. 쓰레드의 EE 플래그는 또한 포트 인에이블 플래그들의 세트를 인에이블하기 전에 이벤트 인에이블된 것으로 설정될 수 있고, 그리고 이러한 경우에 준비되어 인에이블될 제 1 포트는, 현재 명령이 버려지도록 하고 아울러 연속 포인트 벡터에서의 명령을 즉시 페치하여 실행시킴으로써 실행이 진행하도록 하는 이벤트를 발생시킨다.
포트의 인에이블 플래그(39)와 상태 레지스터 EE 플래그의 장점은, 대기 명 령에 의해 이벤트의 설정과 쓰레드의 정지 양쪽 모두로부터 이벤트의 인에이블링 및 디스에이블링이 분리되어 있어, 서로 다른 입력 및 출력 조건이 특정 쓰레드에 대해 그리고/또는 서로 다른 다양한 쓰레드에 대해 쉽게 온 오프 토글될 수 있다는 것이다. 예를 들어, 이벤트는, 비록 이벤트가 디스에이블될 지라도 포트(22)에서 설정된 것으로 남아있을 수 있다. 따라서, 이벤트는 쓰레드에 의해 다시 사용될 수 있는데, 왜냐하면, 비록 이벤트가 이미 한번 발생했을지라도, 쓰레드 식별자, 연속 포인트 벡터, 및 조건은 여전히 포트(22)의 TID, VECTOR, CTRL 및 DATA 레지스터(38)에 저장되어 있기 때문이다. 그래서 만약 쓰레드가 이벤트를 다시 사용할 필요가 있다면, 포트의 레지스터(38)는 재기입될 필요가 없지만, 대신에 포트의 인에이블 플래그(39)는 간단히 다시 어써팅될 수 있고, 그리고/또는 쓰레드에 대한 상태 레지스터(SR)에서의 EE 플래그는 이벤트 인에이블된 것으로 재설정될 수 있다. 그 다음에 또 다른 대기 명령이 동일 이벤트의 재발생까지 쓰레드를 정지시킨다.
더욱이, 연속 포인트 벡터의 사용으로 인해, 쓰레드 당 복수의 이벤트들이 인에이블될 수 있다. 즉, 소정의 쓰레드가 하나의 포트(22a)에서 연속 포인트 벡터를 그 포트에 전송함으로써 하나의 이벤트를 설정할 수 있고, 또 다른 포트(22b)에서 서로 다른 연속 포인트 벡터를 그 다른 포트에 전송함으로써 또 다른 이벤트를 설정할 수 있는 등이다. 쓰레드는 또한 각각의 포트에 대해 서로 다른 인에이블 플래그들(39)을 따로따로 어써팅 혹은 디어써팅함으로써 다양한 이벤트들을 개별적으로 인에이블 및 디스에이블할 수 있다. 그 다음에, 대기 명령은 쓰레드로 하여금 임의의 인에이블된 이벤트를 대기하면서 정지되도록 한다.
이벤트 및 인터럽트가 기본 입력 및 출력과 약간 다르지만, 동일한 준비 플래그 시스템이 사용될 수 있고, 그 결과는 비어 있는 명령 버퍼를 사용하여 쓰레드가 실행가능하도록 하는 것일 수 있다. 이러한 것을 처리하기 위해, "페치 벡터(fetch vector)" 요구가 쓰레드 식별자를 사용하여 이벤트(혹은 인터럽트)를 발생하는 포트에 액세스하기 위해 발행된다. 그 다음에, 포트는, 이것이 "페치 벡터" 요구가 일시정지하는 메모리 액세스 스테이지 동안 명령 페치를 위해 사용될 수 있도록, 시간에 맞게 적절한 벡터를 공급할 수 있다. 벡터를 공급할 수 있는 두 개 혹은 그 이상의 포트들이 존재할 수 있고, 이러한 경우 간단한 우선권부여 방식이 하나를 선택하기 위해 사용될 수 있다. 이것이 의미하는 것은, 기껏해야 하나의 가상 싸이클이 벡터를 처리하기 위해 사용될 수 있고, 그래서 이벤트(또는 인터럽트) 이후의 명령 발행 이전에 기껏해야 두 개의 가상 싸이클이 존재함을 의미한다. 여기서 명확한 것으로, 여러 인터럽트들에 대해 임의의 벡터가 이러한 방식으로 공급될 수 있다.
이벤트와는 대조적으로, 기본 I/O 동작을 사용하여, 쓰레드 스케쥴러(18)는 연속 포인트 벡터를 VECTOR 레지스터에 전송하지 못하고, 그리고 상태 레지스터(SR) 내의 EE 플래그 혹은 포트의 인에이블 플래그(39)를 사용하지 못한다. 대신에, 계류중인 명령은 단지 명령 버퍼(19)에 남아있게 되고, 그리고 만약 필요하다면, 준비 플래그(37)에 의해 표시된 바와 같이 실행은 입력까지 혹은 출력을 위한 포트의 이용가능까지 단지 일시정지된다. 실시예들에서, TID 레지스터만이 기본 I/O에 따른 스케쥴링을 위해 요구될 수 있다. 기본 I/O는 CTRL 및 DATA 레지스터에 서의 조건을 사용할 수 있거나 사용하지 않을 수 있다. 만약 조건이 사용되지 않는다면, I/O는 단지 포트가 준비되면 바로 완료된다.
또한 유의할 것으로, 쓰레드의 실행이 이벤트 이후 재개되면 후속적으로 기본 I/O 동작이 당연히 수행될 수 있다. 반대로 쓰레드가 기본 I/O 이후 재개되면 후속적으로 이벤트 동작이 포함될 수 있다. 이벤트 및 I/O의 임의의 이러한 체인은 쓰레드에 포함될 수 있다. 예를 들어, 기본 I/O 동작은 두 개의 이벤트 기반의 대기 동작들 사이에 놓일 수 있고, 반면에 이벤트는 디스에이블되지만(즉, 포트의 인에이블 플래그(39) 및/또는 상태 레지스터의 EE 플래그가 디어써팅됨), 이벤트 벡터 및 조건은 여전히 레지스터(38)에 설정된 채로 남아있게 된다. 즉, 이벤트는 제1의 이벤트 기반의 대기 동작의 완료 이후 디스에이블될 수 있고, 기본 I/O가 후속적으로 동일 포트를 사용하여 수행될 수 있고, 그리고 그 다음에 동일 이벤트가 제2의 이벤트 기반의 대기 동작에서의 사용을 위해 다시 인에이블될 수 있다. 앞서 설명된 바와 같이, 기본 I/O 동작은 쓰레드를 일시정지시키고 다시 시작하게 하지만, 상태 레지스터에서의 EE 플래그 혹은 포트의 인에이블 플래그(39)에 영향을 미치지 않으며 이벤트 벡터에 대한 전달 제어에도 영향을 미치지 않는다.
쓰레드 스케쥴러 및 두 개의 예시적 포트의 동작이 이제 도 6의 흐름도를 참조하여 설명된다. 단계(100)에서, 실행 유닛(16)은 쓰레드 스케쥴러(18)의 관리 하에서 제 1 쓰레드 및 제 2 쓰레드의 실행을 시작한다. 단계(102)에서, 쓰레드 스케쥴러는, 예를 들어 포트(22a)에서의 어떤 특정 신호의 수신과 같은, 이벤트에 따라 달라지는 제 1 쓰레드 내의 코드 부분을 발견하게 된다. 단계(104)에서, 쓰레드 스 케쥴러는, 이벤트 검출시 프로그램 내의 어떤 포인트에서 쓰레드 실행이 계속되어야만 하는 지를 특정하는 연속 포인트 벡터(VECTOR)와 함께, 제 1 쓰레드의 쓰레드 식별자(TID)를 포트(22a)에 전송하고, 그리고 또한 임의의 요구된 조건 제어 정보(CTRL) 및 관련 데이터(DATA)를 전송한다. 예를 들어, 데이터는, 명령이 포트에서 수신할 것으로 예측하고 있는 신호의 값일 수 있다. 단계(104)에서, 쓰레드 스케쥴러는 또한 제 1 포트의 인에이블 플래그(39)를 설정할 수 있고, 그리고 제 1 쓰레드의 상태 레지스터(SR)를 이벤트 인에이블된 것으로 설정할 수 있다.
단계(106)에서, 포트(22a)는 이러한 정보를 쓰레드 스케쥴러(18)로부터 수신한다. 단계(108)에서, 쓰레드 스케쥴러(18)는 제 1 쓰레드의 실행을 정지시킨다. 단계(110)에서, 포트(22a)는 그 포트에서의 동작을 모니터링하기 시작한다.
단계(112)에서, 쓰레드 스케쥴러(18)는 제 2 쓰레드가 여전히 미해결이라고 결정하고, 그리고 실행 유닛(16)은 쓰레드 스케쥴러(18)의 관리 하에 제 2 쓰레드의 실행을 계속한다. 단계(114)에서, 쓰레드 스케쥴러(18)는 이벤트에 따라 달라지는 코드의 부분을 발견하게 된다. 단계(116)에서, 쓰레드 스케쥴러(18)는, 연속 포인트 벡터 및 임의의 다른 요구된 조건 정보와 함께, 쓰레드 식별자를 포트(22b)에 전송한다. 단계(116)에서, 쓰레드 스케쥴러는 또한 제 2 포트의 인에이블 플래그(39)를 설정하고 그리고 제 2 쓰레드에 대한 제 2 상태 레지스터를 이벤트 인에이블된 것으로 설정한다. 단계(118)에서, 포트(22b)는 이러한 정보를 수신한다. 단계(120)에서, 쓰레드 스케쥴러는 제 2 쓰레드의 실행을 정지시킨다. 단계(122)에서, 포트(22b)는 그 포트에서 일어나는 동작을 모니터링하기 시작한다.
단계(124)에서, 쓰레드 스케쥴러는 이제 더 이상 스케쥴링될 미해결의 쓰레드가 현재 없다고 결정하고, 시스템은 포트(22a 및 22b)를 제외하고 모든 컴포넌트들의 파워를 차단한다. 단계(128)에서, 포트(22a)는 관련 이벤트(예를 들어, DATA 레지스터에 저장된 신호의 수신)를 검출하고, 결과적으로 쓰레드 식별자(TID)와 연속 포인트 벡터(VECTOR)를 반환한다(또한, 제 1 쓰레드의 상태 레지스터를 이벤트 디스에이블된 것으로 설정함). 단계(126)에서, 쓰레드 스케쥴러(18)는 반환된 식별자를 수신한다. 실행이 계속될 수 있기 때문에, 단계(130)에서, 시스템은 다시 파워를 공급한다. 단계(134)에서, 실행 유닛(16)은 쓰레드 스케쥴러(18)의 관리 하에 제 1 쓰레드의 실행을 완료한다. 단계(138)에서, 포트(22b)는 제 2 쓰레드에 대한 관련 이벤트를 검출하고, 그리고 그 쓰레드 식별자 및 연속 포인트 벡터를 반환한다(또한, 제 2 쓰레드의 상태 레지스터를 이벤트 디스에이블된 것으로 설정함). 단계(136)에서, 쓰레드 스케쥴러(18)는 반환된 정보를 수신하고, 그리고 단계(138)에서, 실행 유닛(16)은 쓰레드 스케쥴러(18)의 제어 하에서 제 2 쓰레드의 실행을 완료한다. 유의할 것으로, 단계(134)와 단계(136) 사이에 추가적인 파워 차단 단계가 있을 수 있다.
도 7에 도시된 바와 같이, 본 발명의 원리는 또한 쓰레드들 간의 통신, 또느 더 정확하게는 쓰레드들을 나타내는 정보를 저장하는 쓰레드 레지스터 세트들(20) 간의 통신에 적용될 수 있다. 예시적 목적으로, 단지 네 개의 쓰레드 레지스터 세트들(201 내지 204)이 도 7에 도시되었고, 그 각각은 쓰레드(T1 내지 T4) 각각에 대 한 정보를 저장한다. 쓰레드 레지스터 세트들 각각은 상호접속 시스템(40)에 의해 다른 세트들 각각에 연결되고, 상호접속 시스템(40)은 쓰레드 레지스터 세트들(20) 중 적어도 두 개의 쓰레드 레지스터 세트 간의 직접적인 데이터 전송을 위한 적어도 하나의 채널을 확립하도록 동작가능하다. 채널은 바람직하게는 오퍼랜드 레지스터(OP)로의 데이터 전송 및 오퍼랜드 레지스터(OP)로부터의 데이터 전송을 위해 사용되지만, 원리적으로 상태 레지스터(SR)와 같은 다른 타입의 레지스터로의 정보 전송 및 상기 다른 타입의 레지스터로부터의 정보 전송을 위해 사용될 수 있다. 쓰레드 스케쥴러(18)는 앞서 포트와 관련하여 설명된 바와 유사한 방식으로 채널을 통해 일어나는 동작을 기반으로 하여 쓰레드들을 스케쥴링할 수 있다.
도 7A에 도시된 바와 같이, 채널 단부들(42) 각각은 입력 버퍼(44)와 출력 버퍼(46)를 가진 한 쌍의 포트들을 닮았다. 포트들(22)과 유사하게, 각각의 채널 입력 버퍼(44) 및 출력 버퍼(46)는 채널을 통해 발생하는 동작을 모니터링하고 아울러 적어도 하나의 준비 플래그(37')를 사용하여 어떤 동작의 발생을 시그널링하기 위한 동작 핸들링 로직(36')을 가질 수 있다. 채널 단부가 검출할 수 있는 가능한 동작은, 데이터가 채널에 입력되는 것, 또는 채널이 출력을 위해 이용가능하게 되는 것을 포함한다. 만약 채널이 너무 가득 차 데이터를 취할 수 없을 때 출력 명령이 실행된다면, 명령을 실행한 쓰레드는 일시정지되고, 그리고 명령이 성공적으로 완료될 수 있을 만큼 채널에 충분한 공간이 존재할 때 다시 시작된다. 마찬가지로, 명령이 실행되고 그리고 가용한 충분한 데이터가 없는 경우, 쓰레드는 일시정지되고, 그리고 충분한 데이터가 이용가능하게 될 때 다시 시작될 수 있다.
다시, 포트들(22)에서, 이러한 동작의 검출을 용이하게 하기 위해, 각각의 채널 단부는 레지스터들(38')과 관련된다. 이러한 것들은, 관련 쓰레드의 식별부를 저장하기 위한 쓰레드 식별자(TID) 레지스터와, 그리고 이벤트의 발생시 실행이 다시 시작해야 하는 프로그램 내의 위치를 저장하기 위한 연속 포인트 벡터(VECTOR) 레지스터를 포함한다. 이러한 TID 레지스터 및 VECTOR 레지스터는 포트들(22)에서와 동일한 방식으로 쓰레드들을 스케쥴링하기 위해 쓰레드 스케쥴러(18)와 실행 유닛(16)에 의해 사용될 수 있다. VECTOR 레지스터는 채널이 이벤트 및 인터럽트들을 발생시킬 수 있게 한다. 채널 단부는 또한 채널을 인에이블시켜 이벤트를 발생시키도록 하는 인에이블 플래그(39')를 갖는다. 실시예들에서, 채널 단부들(42)에는 CTRL 및 DATA 레지스터들이 제공되지 않을 수 있다.
동일한 채널 단부들(42)이 또한 포트들(22)을 통해 쓰레드 레지스터들로부터 외부 환경에 데이터를 전달하기 위해 사용될 수도 있다. 즉, 실행 유닛(16)은 채널 단부(42)를 통해 레지스터(20)의 콘텐츠를 선택할 수 있고, 그리고 이것을 포트(22)를 통해 직접적으로 외부로 전달할 수 있으며, 그리고 반대로, 실행 유닛(16)은 또한 포트(22)로부터 입력을 수신할 수 있고 그리고 채널 단부(42)를 통해 이것을 레지스터(20)에 직접적으로 전달할 수 있다. 따라서 만약 본 발명에 따른 두 개 또는 그 이상의 인터페이스 프로세서들이, 예를 들어, 도 2A에 도시된 바와 같이 함께 연결된다면, 이러한 프로세서들 간에 채널이 또한 확립될 수도 있다. 인터-프로세서 시스템(inter-processor system) 내에서, 각각의 프로세서는, 다른 프로세서들과의 동시 연결을 가능하게 하는 다수의 쌍방향성 물리적 링크들(204)을 통해 시스템 상호접속과 인터페이스할 수 있다.
포트, 채널, 및 동작의 다른 소스를 포괄하기 위해 본 명세서에서 사용되는 일반적인 용어는 "리소스(resource)"이다.
인터페이스 프로세서는, 자신의 쓰레드 기반의 구조로 인해, 몇 가지 프로그래밍 방법을 지원할 수 있다. 이것은 표준 입력 및 출력을 수행하는 단일의 종래 프로세서로서 취급될 수 있거나 혹은 수백 개의 통신 컴포넌트들의 병렬 어레이의 일부로서 프로그래밍될 수 있다. 이러한 옵션을 지원하는 명령 세트가 제공된다. 이러한 명령 세트는 초기화, 종료, 쓰레들의 시작 및 정지를 지원하고 그리고 입력/출력 통신을 제공하는 특별한 명령들을 포함한다. 입력 및 출력 명령은 외부 디바이스와의 매우 빠른 통신을 가능하게 한다. 이들은 속도가 높고, 대기 시간이 낮은 입력 및 출력 그리고 높은 레벨의 동시 프로그래밍 기술을 지원한다. 포트 동작 처리에 대한 본 명세서에서의 그 애플리케이션이 다음에서 더 완전히 설명되며, 이것은 본 발명을 구현하기 위해 사용될 수 있는 예시적 명령들을 설명한다.
요구된 리소스의 타입을 특정하는 GETR 명령을 사용하여 쓰레드에 대한 리소스들이 먼저 준비되고, 그리고 FREER 명령을 사용하여 다시 해방될 수 있다.
포트들은 입력 또는 출력 모드에서 사용될 수 있다. 입력 모드에서, 쓰레드에 전달된 데이터를 필터링하기 위해 임의의 조건이 사용될 수 있다. 아래에서 설명되는 바와 같이 데이터가 이용가능하게 될 때, 포트는 이벤트 혹은 인터럽트를 발생시키기 위해 사용될 수 있다. 이것은 쓰레드가 수 개의 포트들을 모니터링할 수 있게 하고, 단지 준비된 것에만 서비스를 제공한다. 그 다음에, 입력 및 출력 명령(IN 및 OUT)이, 준비된 경우, 포트로 데이터를 전송하고 포트로부터 데이터를 전송하기 위해 사용될 수 있다. 이러한 경우에, IN 명령은 n 비트 포트로부터 n 최하위 비트(least significant bits)를 입력 및 제로 확장하고, 그리고 OUT 명령은 n 최하위 비트를 출력한다.
두 개의 또 다른 명령들(INSHR 및 OUTSHR)은 데이터의 전달을 최적화한다. INSHR 명령은 레지스터의 콘텐츠를 오른쪽으로 n 비트만큼 시프트시키고, 가장 왼쪽에 있는 n 비트를 n 비트 포트로부터 입력된 데이터로 채운다. OUTSHER 명령은 데이터의 n 최하위 비트를 n-비트 포트에 출력하고, 레지스터의 콘텐츠를 오른쪽으로 n 비트만큼 시프트시킨다.
OUTSHR port, s port ◁ s[bits 0 for width(port)]; 포트로부터 출력
s ← s >> width(port) 및 시프트
INSHR port, s s ← s >> width(d); 시프트 및 포트로부터 입력
port ▷ s[bits(bitsperword - width(d)) for width(d)]
여기서, "▷"은 입력을 나타내고, "◁"은 출력을 나타낸다.
포트는 사용될 수 있기 이전에 구성되어야만 한다. 포트는 포트의 수 개의 독립 설정을 정의하기 위해 사용되는 SETC 명령을 사용하여 구성된다. 이러한 것들 각각은 디폴트 모드(default mode)를 가지며, 만약 다른 모드가 필요하다면 단지 구성될 필요가 있다.
SETC port, mode port[ctrl]← mode 포드 제어 설정
SETC 모드 설정의 결과가 아래에서 설명된다. 각각의 설정에서의 첫 번째 엔 트리가 디폴트 모드이다.
모드(Mode) 결과(Effect)
OFF 포트가 활성화 안 됨; 핀(들)은 고 임피던스
ON 활성화
IN 포트는 입력
OUT 포트는 출력(하지만 입력은 현재 핀 값을 반환)
EVENT 포트가 이벤트들을 일으킬 것임
INTERRUPT 포트가 인터럽트들을 일으킬 것임
DRIVE 핀들이 하이 상태 및 로우 상태로 양쪽으로 구동됨
PULLDOWN 핀들이 0 비트에 대해 풀다운 됨, 그렇지 않다면 고 임피던스임
PULLUP 핀들이 1 비트에 대해 풀업 됨, 그렇지 않다면 고 임피던스임
UNCOND 포트가 언제나 준비됨, 입력이 바로 완료됨
EQUAL 포트의 값이 포트의 DATA 값과 같아질 때 포트가 준비됨
NE 포트의 값이 포트의 DATA 값과 다를 때 포트가 준비됨
TRANSITION 포트의 값이 포트의 DATA 값으로 향해 변할 때 포트가 준비됨
GR 포트의 값이 포트의 DATA 값보다 더 클 때 포트가 준비됨
LS 포트의 값이 포트의 DATA 값보다 더 작을 때 포트가 준비됨
포트 방향이 OUT일 때, DRIVE, PULLDOWN 및 PULLUP 모드가 단지 관련된다. TRANSITION 조건은 단지 1 비트 포트에 대해 관련되고, GR 및 LS 조건은 단지 일 비트 이상을 가진 포트에 대해 관련된다.
각각의 포트는 포트를 통해 데이터의 흐름을 제어하는데 사용되는 준비 비트(37)를 가지며, 포트가 입력 및 출력 명령을 완료할 수 있는지 여부를 정의한다. 준비 비트는 포트 구성에 따라 다른 방식으로 설정된다. 준비 비트는, SETC, SETD 혹은 SETV 명령들 중 어느 하나가 실행될 때 클리어(clear)된다.
입력 모드에서의 포트는 조건부 입력을 수행하도록 구성될 수 있다. 조건은 입력 데이터를 필터링하여 조건을 만족시키는 데이터만이 프로그램에 반환되도록 한다. 조건이 설정될 때, IN 명령 및 INSHR 명령은 포트가 준비된 경우에 단지 완료된다. 앞서 언급된 바와 같이, 준비되지 않은 포트 상에서의 입력 명령을 실행하는 것은 쓰레드를 일시정지시킨다. 준비된 경우, 포트는 그 준비 비트를 설정하고, 이것은 쓰레드 스케쥴러에 시그널링된다. 쓰레드는 다시 시작하여 입력 명령을 다시 실행시킨다. 포트가 준비되는 때에, 데이터는 반환되고 준비 비트(37)는 클리어된다.
포트 준비 비트가 설정되면, 조건을 충족시키는 데이터 값이 캡쳐되어 소프트웨어는 비록 포트 상의 값이 후속적으로 변할지라도 조건을 만족시키는 값을 얻는다. IN 명령 혹은 INSHR 명령이 실행되고, 준비 비트가 설정될 때, 데이터는 반환되고 그리고 준비 비트는 클리어된다. 만약 준비 비트가 설정되지 않는다면, 쓰레드는 준비 비트가 설정될 때까지 일시정지된다. 만약 조건이 설정되면 데이터는 이러한 조건에 대해 비교되고, 그리고 준비 비트는 이러한 조건이 충족될 때 단지 설정된다.
OUT 혹은 OUTSHR 명령이 실행될 때, 만약 준비 비트가 클리어된다면, 데이터 는 포트에 의해 취해지고, 그리고 준비 비트는 설정된다. 만약 준비 비트가 설정된다면 쓰레드는 포트에 의해 클리어될 때까지 일시정지된다.
두 개의 쓰레드들 간의 통신을 위해, 두 개의 채널 단부들이 각각의 쓰레드에 대해 하나씩 할당될 필요가 있다. 이것은 GETR CHAN 명령을 사용하여 수행된다. 그 다음에 두 개의 쓰레드들이 출력 및 입력 명령들을 사용하여 데이터 워드를 전송하기 위해 리소스 식별자들을 사용할 수 있다.
OUT d ◁ s
IN d ▷ s
채널이 너무 가득 차 데이터를 취할 수 없을 때 만약 출력 명령이 실행된다면, 명령을 실행한 쓰레드는 일시정지된다. 명령이 성공적으로 완료할 수 있을 정도로 채널에 충분한 공간이 존재할 때 쓰레드는 다시 시작된다. 마찬가지로, 입력 명령이 실행되고 이용가능한 충분한 데이터가 존재하는 경우, 쓰레드는 일시정지되고 충분한 데이터가 이용가능하게 될 때 다시 시작된다. 더 이상 요구되지 않는 경우, 채널은 FREER CHAN 명령을 사용하여 해방될 수 있다. 만약 그렇지 않으면, 채널은 또 다른 메시지를 위해 사용될 수 있다.
이벤트와 인터럽트는 리소스들(포트들 및 채널들)이 자동으로 제어를 사전에 정의된 이벤트 핸들러에 전달하게 할 수 있다. 이벤트 혹은 인터럽트를 수용하는 쓰레드의 능력은 쓰레드 상태 레지스터(SR)(도 4 참조)에 보유된 정보에 의해 제어되고, 그리고 TSE 및 TSD 명령을 사용하여 명확하게 제어될 수 있다. 이러한 정보는 이벤트 인에이블 플래그(EE) 및 인터럽트 인에이블 플래그(IE)를 포함한다.
TSE s SR ← SR ∨ s 쓰레드 상태 인에이블
TSD s SR ← SR ∧ ¬s 쓰레드 상태 디스에이블
이러한 명령들의 오퍼랜드는 다음 중 하나이어야 한다.
EE 이벤트를 인에블이블 혹은 디스에이블
IE 인터럽트를 인에이블 혹은 디스에이블
이벤트들은 이들이 설정된 범위와 동일한 범위에서 처리된다. 따라서, 이벤트 상에서 쓰레드의 상태 모두가 유효하여 쓰레드는 이벤트에 빠르게 응답할 수 있다. 쓰레드는 이벤트를 일으키는 포트를 사용하여 입력 및 출력 동작을 수행할 수 있고, 반면에 이벤트 정보 중 일부 혹은 모두가 변하지 않도록 놓아 둘 수 있다. 이것은 쓰레드가 이벤트 처리를 완료하고 또 다른 유사한 이벤트를 바로 대기할 수 있도록 한다.
이벤트 핸들러의 프로그램 위치는 SETV 명령을 사용하여 이벤트를 인에이블시키기 전에 설정되어야만 한다. 포트들은 이들이 언제 이벤트를 발생시킬지를 결정하는 조건을 가지고 있고, 이것은 SETC 명령 및 SETD 명령을 사용하여 설정된다. 채널들은, 이들이 충분한 데이터를 포함하고 있거나 혹은 출력에 대해 데이터를 수용할 공간을 가지는 순간 준비된 것으로 고려된다.
특정 포트 혹은 채널에 의한 이벤트 발생은 이벤트 인에이블 비조건적(Event Enable Unconditional, EEU) 명령을 사용하여 인에이블될 수 있고, 그리고 이벤트 디스에이블 비조건적(Event Disable Unconditional, EDU) 명령을 사용하여 디스에이블될 수 있다. 이벤트 인에이블 참(Event Enable True, EET) 명령은 만약 그 조 건 오퍼랜드가 참이면 이벤트를 인에이블시키고, 만약 그렇지 않으면 디스에이블시키며, 역으로, 이벤트 인에이블 거짓(Event Enable False, EEF) 명령은 만약 그 조건 오퍼랜드가 거짓이면 이벤트를 인에이블시키고, 만약 그렇지 않으면 디스에이블시킨다. 이러한 명령은 보호받는 입력의 구현을 최적화하기 위해 사용된다. 아래의 것은 포트 상에서의 이벤트를 구성하기 위한 일부 예시적 명령 포맷이지만, 이해해야 하는 것으로, 동일한 명령들이 채널과 관련하여 적용될 수 있다는 것이다.
SETV port, v port[vector]←v 이벤트 벡터 설정
SETD port, d port[data]←d 이벤트 데이터 설정
SETC port, c port[ctrl]←c 이벤트 제어 설정
EET port, b port[enable]←b; port[tid]←thread 이벤트 인에이블 참
EEF port, b port[enable]←¬b;port[tid]←thread 이벤트 인에이블 거짓
EDU port port[enable]←false;port[tid]←thread 이벤트 디스에이블
EEU port port[enable]←true;port[tid]←thread 이벤트 인에이블
하나 또는 그 이상의 리소스들 상에서 이벤트가 인에이블되면, 쓰레드는 적어도 하나의 이벤트를 기다리기 위해 WAITEU 명령을 사용할 수 있다. 이로 인해, 이벤트는 즉시 발생할 수 있고, 제어는 대응하는 이벤트 벡터에 의해 특정된 이벤트 핸들러에 전달되며, 이벤트는 EE(Event Enable) 플래그를 클리어함으로써 디스테이블된다. 대안적으로, 쓰레드는 이벤트가 일어날 때까지 정지될 수 있고, 이 경우 EE 플래그는 이벤트가 발생할 때 클리어되며, 그리고 쓰레드는 실행을 다시 시작한다.
WAITET b if b then SR[EE]←true 참이면 이벤트 대기
WAITEF b if ¬b then SR[EE]←true 거짓이면 이벤트 대기
WAITEU SR[EE]←true 이벤트 대기
CLRE SR[EE]←false; 모든 이벤트 디스에이블
forall port 모든 쓰레드에 대해
if port[tid]=thread then port[enable]← false
조건이 발생할 때까지 하나 또는 그 이상의 이벤트들을 반복적으로 대기하는 일반적인 경우를 최적화하기 위해, 이벤트 대기 명령의 조건부 형태가 제공된다. WAITET 명령은 단지 그 조건 오퍼랜드가 참인 경우에만 대기하고, WAITEF는 단지 그 조건 오퍼랜드가 거짓인 경우에만 대기한다.
쓰레드에 의해 인에이블된 이벤트들 모두는 단일 CLRE 명령을 사용하여 디스에이블될 수 있다. 이것은 쓰레드에 의해 인에이블된 이벤트들을 가진 포트들 모두에서의 이벤트 발생을 디스에이블시킨다. CLRE 명령은 또한 쓰레드의 상태 레지스터에서의 이벤트 인에이블 상태를 클리어한다.
우선도가 높은 리소스들에 대한 쓰레드의 반응도를 최적화하기 위해, TSE EE 명령이, 쓰레드 상의 이벤트들을 인에이블시키기 위해 먼저, 후속적으로 포트 및/또는 채널을 인에이블시키기 시작하기 전에 그리고 이벤트 대기 명령들 중 하나를 사용하기 전에, 사용될 수 있다. 이러한 방식으로, 프로세서는 우선 순위로 리소스 전체를 스캔할 수 있다. 이로 이해 이벤트는 인에이블 되자마자 즉시 처리될 수 있다.
이벤트와 대조적으로, 인터럽트는 현재 범위에서 처리되지 않고, 그래서 현재 PC 및 SR(그리고 잠재적으로는 다른 레지스터들 중 일부 또는 모두)이 인터럽트 핸들러의 실행 이전에 저장되어야 한다. 리소스(r)에 의해 발생된 인터럽트에 관해, 다음과 같은 것이 자동으로 일어난다.
SAVEPC←PC;
SAVESR←SR;
SR[EE]←false;
SR[IE]←false;
PC←r[vector]
핸들러가 완료될 때, 인터럽트된 쓰레드의 실행은 RFINT 명령에 의해 수행될 수 있다.
RFINT PC←SAVEPC; 인터럽트로부터 반환
SR←SAVESR
인터럽트는 쓰레드를 인터럽트할 수 있고, 동시에 이벤트를 대기하면서 쓰레드는 정지된다.
다음은 앞서 설명된 쓰레드 스케쥴링 구성과 함께 사용될 수 있는 명령들의 예이다. 아래에서 사용되는 약자 "reg"는 레지스터(register)를 나타내고, "op reg"는 오퍼랜드 레지스터(operand register)를 나타내며, "imm"은 즉시 오퍼랜드(immediate operand)를 나타내고, 그리고 "dest"는 목적지 오퍼랜드 레지스터(destination operand register)를 나타낸다.
ADDI dest, source, constant 소스(source)를 상수(constant)에 더하기 (2개의 op reg들 & 4비트 imm)
MUL dest, sourcel, source2 소스1(sourcel)과 소스2(source2)를 곱하기 (3개의 op reg들)
LSU dest, sourcel, source2 더 작은 것 무부호형 (3개의 op reg들)
STW data, base offset 데이터를 메모리에 저장 (3개의 op reg들)
LDW data, base, offset 데이터를 메모리로부터 로딩 (3개의 op reg들)
LDWSP data, offset 데이터를 스택으로부터 로딩 (임의의 reg & 6-비트 imm)
LDC data, constant 상수 로딩 (임의의 reg & 6-비트 imm)
STB data, addr 바이트를 메모리에 저장 (2개의 op reg들)
BRFT flag, offset 만약 플래그가 참(true)이면 전방 분기(branch forward) (op reg & 6-비트 imm)
BRBF flag, offset 만약 플래그가 거짓(false)이면 전방 분기 (op reg & 비트-비트 imm)
BRFU offset 상대적 전방 분기 비조건형 (6-비트 imm)
BLRF offset 상대적 전방 분기 및 링크 (10-비트 imm 서브루틴 콜)
GETR resource, type 리소스(resource)를 쓰레드에 할당 (2개의 op reg들)
IN resource, data 입력 (2개의 op reg들)
OUT resource, data 출력 (2개의 op reg들)
INSHR resource, data 입력 및 오른쪽 시프트 (2개의 op reg들)
NOT dest, source 비트별 부정 (2개의 op reg들)
EET flag, resource 만약 플래그가 참이면 이벤트 인에이블 (2개의 op reg들)
EEU resource 이벤트 인에이블 비조건형 (1개의 op reg)
WAITEU 이벤트 대기 비조건형 (오퍼랜드 없음)
CLRE 쓰레드에 대한 이벤트들을 클리어 (오퍼랜드 없음)
앞서의 명령들을 사용한 몇 가지 예가 본 명세서에 존재한다. 첫 번째 예는 두 개의 어레이들(a 및 b)의 곱하기-누적을 수행한다.
MACC:
LDW x, a, i
LSU go, i, limit
LDW y, b, i
ADD i, i, 1
MUL prod, x, y
ADD sum, sum, prod
BRBF go, MACC
다음 두 개는 DMA(Direct Memory Access) 제어기에 의해 통상적으로 수행되는 것과 동일한 입력 및 출력 기능을 수행한다. 이들은 메모리 내의 어드레스 베이스에서 시작하는 채널(c)을 사용하여 워드들의 블럭을 전달한다.
DMAI:
LSU go, i, limit
IN c, x
STW x, base, i
ADDI i, i, 1
BRBF go, DMAI
DMAO:
LDW x, base, i
LSU go, i, limit
ADDI i, i, 1
OUT c, x
BRBF go, DMAO
이해해야만 하는 것으로 앞서의 실시예들은 단지 예시적 목적으로 설명되었다. 다른 실시예들에서, 레지스터 및 명령들의 다른 세트가 칩의 요구된 사양에 따라 제공될 수 있다. 일부 실시예에서, 쓰레드 식별자는 포트에 전송될 필요가 없 고, 쓰레드 스케쥴러가 책임지고 있거나 혹은 다른 장소에 저장될 수 있다. 대안적으로, 각각의 쓰레드는 포트에서의 개별 준비 플래그에 주어질 수 있어, 쓰레드 식별자는 올바른 준비 신호를 선택하기 위해 포트에 전해지지만, 쓰레드 식별자는 동작 검출시 쓰레드 스케쥴러에 반환될 필요가 없다. 더욱이, 조건들 및/또는 조건 데이터는 포트들에 전송될 필요가 없다. 대신에 조건들은 포트에서 사전에 구성될 수 있고, 그리고/또는 조건들은 쓰레드 스케쥴러 혹은 다른 곳에서 평가될 수 있다. 쓰레드들은 포트들 및 채널들과는 다른 소스로부터의 동작에 근거하여 스케쥴링될 수 있다. 프로세서의 다양한 컴포넌트들 간의 서로 다른 상호접속이 제공될 수 있다. 또한, 본 발명은 모바일 애플리케이션 프로세서를 가진 모바일 단말기에서의 사용에만 특정된 것이 아니다. 다른 애플리케이션 및 구성이 본원발명의 기술분야에서 숙련된 자들에게는 명백할 것이다. 본 발명의 범위는 설명된 실시예들에만 한정되는 것이 아니며, 단지 다음의 특허청구범위에 의해서만 한정된다.

Claims (29)

  1. 쓰레드들을 실행하는 프로세서로서,
    각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작(operation)들을 정의하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의하며, 상기 프로세서는,
    복수의 명령 버퍼들과, 여기서 상기 복수의 명령 버퍼들 각각은 그 버퍼와 관련된 쓰레드의 적어도 하나의 명령을 보유하고;
    상기 명령 버퍼들로부터 명령들을 발행하는 명령 발행 스테이지와; 그리고
    메모리에 연결되어 상기 명령 발행 스테이지에 의해 발행된 명령들을 수신하는 메모리 액세스 스테이지를 포함하여 구성되며,
    상기 메모리 액세스 스테이지는,
    메모리 액세스 동작이 각각의 발행된 명령에서 정의되었는지 여부를 검출하는 검출 로직과; 그리고
    어떠한 메모리 액세스 동작도 검출되지 않을 때, 명령 페치를 유발(instigate)시켜 쓰레드의 명령을 페치하도록 하는 명령 페치 로직을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  2. 제1항에 있어서,
    메모리 액세스 동작을 정의하지 않는 명령들에 대한 상기 명령 페치의 동작 을 실행하기 위해 상기 메모리 액세스 스테이지에서 어드레스를 제공하는 수단을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  3. 제1항 또는 제2항에 있어서,
    쓰레드에 대한 실행가능한 상태를 표시하기 위해 각각의 쓰레드와 관련된 수단을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  4. 제3항에 있어서,
    상기 명령 발행 스테이지는 실행가능한 쓰레드와 관련된 각각의 버퍼로부터 하나의 명령을 차례로 취함으로써 상기 명령 버퍼들로부터 명령들을 발행하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  5. 제1항에 있어서,
    상기 페치된 명령을 쓰레드의 상기 명령 버퍼에 로딩하는 수단을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  6. 제5항에 있어서,
    상기 페치된 명령은 쓰레드의 명령이 상기 명령 페치의 동작을 유발시키는 쓰레드에 대한 것인 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  7. 제5항에 있어서,
    상기 페치된 명령은 쓰레드의 명령이 상기 명령 페치의 동작을 유발시키는 쓰레드와는 다른 쓰레드에 대한 것인 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  8. 제1항에 있어서,
    상기 명령 발행 스테이지는, 쓰레드에 대한 명령이 다음에 발행돼야만 하는 쓰레드의 상기 명령 버퍼가 비어있는 경우, 페치 비동작 요구(fetch no-op request)를 발행하고, 상기 페치 비동작 요구는 명령 페치 동작을 유발시켜 상기 메모리 액세스 스테이지에서 명령을 페치하도록 하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  9. 제1항에 있어서,
    상기 명령 발행 스테이지는, 쓰레드에 대한 명령이 다음에 발행돼야만 하는 쓰레드의 상기 명령 버퍼가, 상기 쓰레드가 리소스로부터의 벡터를 기다리고 있기 때문에, 비어있는 경우, 페치 벡터 요구를 발행하며, 상기 페치 벡터 요구는 상기 리소스로부터 상기 벡터를 페치하고 상기 벡터를 사용하여 상기 메모리 액세스 스테이지에서 메모리 액세스 동작을 유발시켜 어드레스를 제공하게 하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  10. 제1항에 있어서,
    쓰레드들과 관련된 특정 동작들의 표시에 근거하여 실행을 위해 복수의 쓰레드들을 스케쥴링하는 쓰레드 스케쥴러를 더 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  11. 제10항에 있어서,
    쓰레드 레지스터들의 복수의 세트들을 더 포함하고, 상기 쓰레드 레지스터들의 각각의 세트는 상기 복수의 쓰레드들 중 각각 하나에 관한 정보를 저장하도록 할당되는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  12. 제11항에 있어서,
    판독 레지스터 스테이지를 포함하고, 상기 판독 레지스터 스테이지에서 명령들이 상기 쓰레드 레지스터들에 액세스하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  13. 제2항에 있어서,
    상기 어드레스를 제공하는 수단은 프로그램 카운터를 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  14. 제2항에 있어서,
    상기 어드레스를 제공하는 수단은, 쓰레드에 대한 명령이 페치돼야 하는 쓰레드의 명령 버퍼에 잔존하는 명령들의 수와, 그리고 프로그램 카운터로부터 상기 어드레스를 계산하는 로직을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
  15. 쓰레드들을 실행하는 프로세서를 포함하는 모바일 단말기로서,
    각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작들을 정의하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의하며, 상기 프로세서는,
    복수의 명령 버퍼들과, 여기서 상기 복수의 명령 버퍼들 각각은 그 버퍼와 관련된 쓰레드의 적어도 하나의 명령을 보유하고;
    상기 명령 버퍼들로부터 명령들을 발행하는 명령 발행 스테이지와; 그리고
    메모리에 연결되어 상기 명령 발행 스테이지에 의해 발행된 명령들을 수신하는 메모리 액세스 스테이지를 포함하여 구성되며,
    상기 메모리 액세스 스테이지는,
    메모리 액세스 동작이 각각의 발행된 명령에서 정의되었는지 여부를 검출하는 검출 로직과; 그리고
    어떠한 메모리 액세스 동작도 검출되지 않을 때, 명령 페치를 유발시켜 쓰레드의 명령을 페치하도록 하는 명령 페치 로직을 포함하는 것을 특징으로 하는 모바일 단말기.
  16. 프로세서들의 어레이로서,
    각각의 프로세서는 쓰레드들을 실행하는 프로세서를 포함하고,
    각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작들을 정의하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의하며, 상기 프로세서는,
    복수의 명령 버퍼들과, 여기서 상기 복수의 명령 버퍼들 각각은 그 버퍼와 관련된 쓰레드의 적어도 하나의 명령을 보유하고;
    상기 명령 버퍼들로부터 명령들을 발행하는 명령 발행 스테이지와; 그리고
    메모리에 연결되어 상기 명령 발행 스테이지에 의해 발행된 명령들을 수신하는 메모리 액세스 스테이지를 포함하여 구성되며,
    상기 메모리 액세스 스테이지는,
    메모리 액세스 동작이 각각의 발행된 명령에서 정의되었는지 여부를 검출하는 검출 로직과; 그리고
    어떠한 메모리 액세스 동작도 검출되지 않을 때, 명령 페치를 유발시켜 쓰레드의 명령을 페치하도록 하는 명령 페치 로직을 포함하는 것을 특징으로 하는 프로세서들의 어레이.
  17. 쓰레드들을 실행하는 방법으로서,
    각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작들을 정의 하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의하며, 상기 방법은,
    쓰레드의 적어도 하나의 명령을 그 쓰레드에 대한 명령 버퍼에 보유하는 단계와;
    상기 명령 버퍼들로부터 실행 파이프라인의 명령 발행 스테이지로 명령들을 발행하는 단계와;
    메모리에 연결된 메모리 액세스 스테이지에서 상기 명령 발행 스테이지에 의해 발행된 명령들을 수신하는 단계와;
    메모리 액세스 동작이 상기 명령에서 정의되었는지 여부를 검출하는 단계와; 그리고
    상기 메모리 액세스 동작이 정의되지 않을 때, 명령 페치 동작을 유발시켜 쓰레드의 명령을 페치하도록 하는 단계를 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  18. 제17항에 있어서,
    메모리 액세스 동작을 정의하지 않는 명령들에 대한 상기 명령 페치 동작을 실행하기 위해 상기 메모리 액세스 스테이지에 어드레스를 제공하는 단계를 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  19. 제18항에 있어서,
    상기 어드레스를 제공하는 단계는 상기 메모리 액세스 스테이지에 프로그램 카운터를 공급하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  20. 제18항에 있어서,
    상기 어드레스를 제공하는 단계는, 쓰레드에 대한 명령이 페치돼야 하는 쓰레드의 명령 버퍼에 잔존하는 명령들의 수와, 그리고 프로그램 카운터에 근거하여 어드레스를 발생시키는 것을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  21. 제17항에 있어서,
    상기 명령들은 명령이 페치되도록 하는 메모리 액세스 동작을 정의하는 분기 명령의 제 1 타입을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  22. 제18항에 있어서,
    상기 명령들은 상기 메모리로부터 분기 타겟을 검색하는 메모리 액세스 동작을 정의하는 분기 명령의 제 2 타입을 포함하고, 상기 타겟은 상기 메모리 액세스 스테이지에 제공되는 어드레스인 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  23. 제17항에 있어서,
    실행가능한 쓰레드와 관련된 각각의 버퍼로부터 차례로 하나의 명령을 취함 으로써 상기 명령 버퍼들로부터 명령들이 발행되는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  24. 제17항에 있어서,
    상기 페치된 명령을 쓰레드의 상기 명령 버퍼에 로딩하는 단계를 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  25. 제17항에 있어서,
    상기 명령 페치 동작을 유발시키는 쓰레드의 상기 명령 버퍼에 명령을 로딩하는 단계를 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  26. 제17항에 있어서,
    상기 명령 페치 동작을 유발시키는 쓰레드와는 다른 쓰레드의 상기 명령 버퍼에 상기 페치된 명령을 로딩하는 단계를 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  27. 제17항에 있어서,
    쓰레드에 대한 명령이 다음에 발행돼야만 하는 쓰레드의 상기 명령 버퍼가 비어있는 경우, 페치 비동작 요구를 발행하는 단계를 포함하고, 상기 페치 비동작 요구는 명령 페치 동작을 유발시켜 상기 메모리 액세스 스테이지에서 명령을 페치하도록 하는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  28. 제17항에 있어서,
    쓰레드에 대한 명령이 다음에 발행돼야만 하는 쓰레드의 상기 명령 버퍼가, 상기 쓰레드가 리소스로부터의 벡터를 기다리고 있기 때문에, 비어있는 경우, 페치 벡터 요구를 발행하는 단계를 포함하고, 상기 페치 벡터 요구는 상기 리소스로부터 상기 벡터를 페치하고 상기 벡터를 사용하여 상기 메모리 액세스 스테이지에서 메모리 액세스 동작을 유발시키는 것을 특징으로 하는 쓰레드들을 실행하는 방법.
  29. 쓰레드들을 실행하는 프로세서로서,
    각각의 쓰레드는 명령들의 시퀀스를 포함하고, 상기 명령들은 동작들을 정의하고, 그리고 상기 명령들 중 적어도 일부는 메모리 액세스 동작을 정의하며, 상기 프로세서는,
    쓰레드들의 명령들을 보유하는 버퍼 수단과;
    상기 버퍼 수단으로부터 명령들을 발행하는 명령 발행 수단과; 그리고
    메모리에 연결되어 상기 명령 발행 수단에 의해 발행된 명령들을 수신하는 메모리 액세스 수단을 포함하여 구성되며,
    상기 메모리 액세스 수단은,
    메모리 액세스 동작이 각각의 발행된 명령에서 정의되었는지 여부를 검출하는 수단과; 그리고
    어떠한 메모리 액세스 동작도 검출되지 않을 때 페치 명령을 유발시켜 쓰레드의 명령을 페치하도록 하는 수단을 포함하는 것을 특징으로 하는 쓰레드들을 실행하는 프로세서.
KR20097027570A 2007-05-30 2008-05-27 프로세서에서의 쓰레드 스케쥴링 KR101486025B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/755,119 2007-05-30
US11/755,119 US7958333B2 (en) 2007-05-30 2007-05-30 Processor with memory access stage adapted to fetch an instruction of a thread when no memory access operation is detected
PCT/EP2008/056488 WO2008145653A1 (en) 2007-05-30 2008-05-27 Scheduling threads in a processor

Publications (2)

Publication Number Publication Date
KR20100032399A KR20100032399A (ko) 2010-03-25
KR101486025B1 true KR101486025B1 (ko) 2015-01-22

Family

ID=39775524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20097027570A KR101486025B1 (ko) 2007-05-30 2008-05-27 프로세서에서의 쓰레드 스케쥴링

Country Status (7)

Country Link
US (1) US7958333B2 (ko)
EP (1) EP2171576B1 (ko)
JP (1) JP5382735B2 (ko)
KR (1) KR101486025B1 (ko)
CN (1) CN101681262B (ko)
AT (1) ATE540353T1 (ko)
WO (1) WO2008145653A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210157616A (ko) * 2020-06-22 2021-12-29 주식회사 퓨리오사에이아이 뉴럴네트워크 프로세서
WO2021261666A1 (ko) * 2020-06-22 2021-12-30 주식회사 퓨리오사에이아이 뉴럴네트워크 프로세서

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8279886B2 (en) * 2004-12-30 2012-10-02 Intel Corporation Dataport and methods thereof
JP5173714B2 (ja) * 2008-09-30 2013-04-03 ルネサスエレクトロニクス株式会社 マルチスレッドプロセッサ及びその割り込み処理方法
JP5173711B2 (ja) 2008-09-30 2013-04-03 ルネサスエレクトロニクス株式会社 マルチスレッドプロセッサ及びそのハードウェアスレッドのスケジュール方法
US8656408B2 (en) * 2010-09-30 2014-02-18 International Business Machines Corporations Scheduling threads in a processor based on instruction type power consumption
KR101869325B1 (ko) * 2011-12-13 2018-06-21 한국전자통신연구원 이종 멀티코어 환경에서의 코어 배정 장치
US9798548B2 (en) * 2011-12-21 2017-10-24 Nvidia Corporation Methods and apparatus for scheduling instructions using pre-decode data
CN104298552B (zh) * 2013-07-15 2018-06-19 华为技术有限公司 多线程处理器的线程取指调度方法、系统和多线程处理器
CN103634207B (zh) * 2013-12-16 2016-09-14 武汉科技大学 一种静态的关键路径优先的片上网络路由优化方法
CN105182111B (zh) * 2015-08-17 2018-09-28 上海斐讯数据通信技术有限公司 一种移动终端的性能测试方法及系统
US10678544B2 (en) * 2015-09-19 2020-06-09 Microsoft Technology Licensing, Llc Initiating instruction block execution using a register access instruction
US11681531B2 (en) 2015-09-19 2023-06-20 Microsoft Technology Licensing, Llc Generation and use of memory access instruction order encodings
US11977891B2 (en) 2015-09-19 2024-05-07 Microsoft Technology Licensing, Llc Implicit program order
TWI564807B (zh) 2015-11-16 2017-01-01 財團法人工業技術研究院 排程方法及應用其的處理裝置
US9928117B2 (en) 2015-12-11 2018-03-27 Vivante Corporation Hardware access counters and event generation for coordinating multithreaded processing
DE102016214117A1 (de) * 2016-08-01 2018-02-01 Siemens Aktiengesellschaft Ermitteln einer Ausführungszeit eines Anwenderprogramms
CA3053391A1 (en) * 2017-02-20 2018-08-23 Intensivate Inc. Super-thread processor
US10275250B2 (en) * 2017-03-06 2019-04-30 Arm Limited Defer buffer
GB201717303D0 (en) 2017-10-20 2017-12-06 Graphcore Ltd Scheduling tasks in a multi-threaded processor
GB2569275B (en) * 2017-10-20 2020-06-03 Graphcore Ltd Time deterministic exchange
US11288072B2 (en) * 2019-09-11 2022-03-29 Ceremorphic, Inc. Multi-threaded processor with thread granularity
CN112035902B (zh) * 2020-08-12 2024-03-19 北京数盾信息科技有限公司 一种面向高速高并发应用的加密模组

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721018A (ja) * 1993-07-05 1995-01-24 Sanyo Electric Co Ltd マイクロプログラム制御方式の中央処理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5515521A (en) 1994-02-08 1996-05-07 Meridian Semiconductor, Inc. Circuit and method for reducing delays associated with contention interference between code fetches and operand accesses of a microprocessor
JPH09190348A (ja) * 1996-01-09 1997-07-22 Matsushita Electric Ind Co Ltd 命令プリフェッチバッファ制御方法、命令プリフェッチバッファ制御装置、及び命令プリフェッチバッファフラッシュ方法
US6625654B1 (en) * 1999-12-28 2003-09-23 Intel Corporation Thread signaling in multi-threaded network processor
US6961819B2 (en) 2002-04-26 2005-11-01 Mips Technologies, Inc. Method and apparatus for redirection of operations between interfaces
WO2004044745A1 (ja) * 2002-11-13 2004-05-27 Fujitsu Limited マルチスレッディングプロセッサにおけるスケジューリング方法およびマルチスレッディングプロセッサ
US6983359B2 (en) * 2003-08-13 2006-01-03 Via-Cyrix, Inc. Processor and method for pre-fetching out-of-order instructions
US7310722B2 (en) 2003-12-18 2007-12-18 Nvidia Corporation Across-thread out of order instruction dispatch in a multithreaded graphics processor
US7506140B2 (en) * 2005-02-04 2009-03-17 Mips Technologies, Inc. Return data selector employing barrel-incrementer-based round-robin apparatus
US7478276B2 (en) * 2005-02-10 2009-01-13 International Business Machines Corporation Method for checkpointing instruction groups with out-of-order floating point instructions in a multi-threaded processor
US7734897B2 (en) * 2005-12-21 2010-06-08 Arm Limited Allocation of memory access operations to memory access capable pipelines in a superscalar data processing apparatus and method having a plurality of execution threads

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721018A (ja) * 1993-07-05 1995-01-24 Sanyo Electric Co Ltd マイクロプログラム制御方式の中央処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210157616A (ko) * 2020-06-22 2021-12-29 주식회사 퓨리오사에이아이 뉴럴네트워크 프로세서
WO2021261666A1 (ko) * 2020-06-22 2021-12-30 주식회사 퓨리오사에이아이 뉴럴네트워크 프로세서
WO2021261667A1 (ko) * 2020-06-22 2021-12-30 주식회사 퓨리오사에이아이 뉴럴네트워크 프로세서
KR102474054B1 (ko) * 2020-06-22 2022-12-06 주식회사 퓨리오사에이아이 뉴럴네트워크 프로세서

Also Published As

Publication number Publication date
EP2171576A1 (en) 2010-04-07
WO2008145653A1 (en) 2008-12-04
KR20100032399A (ko) 2010-03-25
ATE540353T1 (de) 2012-01-15
CN101681262B (zh) 2013-02-13
JP5382735B2 (ja) 2014-01-08
US20080301409A1 (en) 2008-12-04
EP2171576B1 (en) 2012-01-04
US7958333B2 (en) 2011-06-07
CN101681262A (zh) 2010-03-24
JP2010528384A (ja) 2010-08-19

Similar Documents

Publication Publication Date Title
KR101486025B1 (ko) 프로세서에서의 쓰레드 스케쥴링
EP2137628B1 (en) Clocked ports
JP5222937B2 (ja) 時限ポート
EP2165254B1 (en) Synchronisation in a multithreaded processor
GB2503438A (en) Method and system for pipelining out of order instructions by combining short latency instructions to match long latency instructions
US7941650B2 (en) Microprocessor based on event-processing instruction set and event-processing method using the same
KR101501181B1 (ko) 인터페이스 프로세서
CN112540796B (zh) 一种指令处理装置、处理器及其处理方法
EP2137617B1 (en) Processor instruction set
JP2010521730A5 (ko)
US9367321B2 (en) Processor instruction set for controlling an event source to generate events used to schedule threads
EP2137613B1 (en) Processor register architecture

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180103

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181212

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 6