KR20190116260A

KR20190116260A - 보류 로드 및 스토어의 별도 추적

Info

Publication number: KR20190116260A
Application number: KR1020197020241A
Authority: KR
Inventors: 마크 파울러; 브라이언 디. 엠버링
Original assignee: 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date: 2017-02-24
Filing date: 2018-02-23
Publication date: 2019-10-14
Also published as: JP2020523652A; KR102515106B1; JP7092783B2; CN110249308A; US11074075B2; WO2018156951A1; US20180246724A1; EP3367235A1; EP3367235B1

Abstract

별도의 보류 로드 및 스토어 카운터들을 관리하기 위한 시스템들, 장치들 및 방법들이 본 명세서에 개시된다. 일 실시 예에서, 시스템은 적어도 하나의 실행 유닛, 메모리 서브 시스템 및 각 실행 스레드에 대한 카운터들의 쌍을 포함한다. 일 실시 예에서, 시스템은 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 구현한다. 일 실시 예에서, 실행 유닛(들)은 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 지원하기 위한 카운터들을 유지한다. 실행 유닛(들)은 실행 시간 동안 종속성을 관리하기 위해 사용되는 명령들을 실행하도록 구성된다. 일 실시 예에서, 실행 유닛(들)은 계속해서 명령 시퀀스를 실행하기 전에 소정의 카운터가 지정된 값과 동일할 때까지 대기하기 위한 대기 명령들을 실행한다.

Description

보류 로드 및 스토어의 별도 추적

프로세서들은 로드 메모리 연산들 및 스토어 메모리 연산들에 대한 지원을 포함하여 프로세서들과 프로세서들이 결합된 메모리 간에 데이터를 쉽게 전달할 수 있다. 일반적으로 말하면, 로드 메모리 연산은 메모리 위치로부터 프로세서로 데이터의 전달을 지정하는 연산이다. 메모리 위치는 메모리 계층 내의 위치를 지칭하며, 메모리 계층 구조는 하나 이상의 레벨의 캐시 및/또는 하나 이상의 레벨의 메모리를 포함한다. 스토어 메모리 연산은 프로세서로부터 메모리 계층 구조 내 위치로 데이터의 전달을 지정하는 연산이다.

본 명세서에서 사용될 때, "명령(instruction)"이라는 용어는 프로세서에 의해 수행될 하나 이상의 연산을 나타내는 정보를 지칭한다. "연산(operation)"은 소정의 처리 사이클 동안 아무것도 하지 않는(예를 들어, "nop"또는 "무연산(no-operation)" 명령 또는 조건이 거짓인 조건부 명령에 기초하여) 프로세싱 요소를 포함할 수 있다. 명령은 소정의 명령 세트 아키텍처(ISA)에 의해 정의될 수 있다. 또한 명령은 특정 ISA와 관련 있기 보다는 마이크로 아키텍처에 의해 정의될 수 있다. 예를 들어, ISA 명령은 하나 이상의 마이크로 연산으로 디코딩될 수 있으며, 이는 그것들이 프로세서에 의해 수행될 연산을 지정할 때 "명령들"이라고 지칭될 수도 있다. 그에 따라, "스토어 명령(store instruction)"은 ISA에 의해 정의될 수도 그렇지 않을 수도 있다. 스토어 명령은 스토어 연산이 수행되어야 함을 나타내는 정보를 포함하고 통상적으로 스토어의 타겟 메모리 위치를 나타내는 정보를 포함한다.

로드 및 스토어 메모리 연산들은 다양한 구현 예에서, 메모리 연산을 포함하는 명령의 암시적 부분일 수도, 또는 명시적 명령들일 수도 있다. "로드 메모리 연산들"은 본 명세서에서 "로드 명령들" 또는 "로드 연산들"이라고도 지칭된다. 유사하게, "스토어 메모리 연산들"은 본 명세서에서 "스토어 명령들" 또는 "스토어 연산들"이라고도 지칭된다. "로드 연산" 또는 "스토어 연산"이라는 용어는 "원자 단위 연산(atomic operation)"이라고 지칭될 수도 있음이 주의된다. 원자 단위 연산은 메모리 위치로부터의 데이터와 레지스터 위치로부터의 데이터의 산술 조합을 수행한다. 또한 "로드 연산"이라는 용어는 "샘플 연산(sample operation)"을 지칭하기 위해 사용될 수도 있음이 주의된다. 샘플 연산은 데이터 값이 메모리 위치로부터 판독된 후 샘플러 상수들을 사용하여 필터링을 데이터 값에 적용한다.

많은 로드 및 스토어 연산은 특히 다중 스레드가 데이터를 공유할 때 다중 스레드 프로그래밍 환경에서, 그 외 다른 연산들에 종속된다. 종속성이 해결된 시점을 기준으로 이러한 로드들 및 스토어들을 언제 실행할 지 결정하는 것은 어려울 수 있다.

본 명세서 설명되는 방법들 및 메커니즘들의 이점들은 첨부 도면들과 함께 이하의 구체적인 내용을 참조함으로써 더 잘 이해될 수 있으며, 첨부 도면들에서:
도 1은 컴퓨팅 시스템의 일 실시 예의 블록도이다.
도 2는 실행 유닛의 일 실시 예의 블록도이다.
도 3은 소프트웨어 환경의 일 실시 예의 블록도이다.
도 4는 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 구현하는 방법의 일 실시 예를 도시하는 개괄적인 흐름도이다.
도 5는 보류 로드 및 스토어 카운터들을 관리하기 위한 방법의 일 실시 예를 도시하는 개괄적인 흐름도이다.
도 6은 보류 로드 및 스토어 연산들을 별도로 추적하기 위한 방법의 일 실시 예를 도시하는 개괄적인 흐름도이다.
도 7은 대기 명령을 구현하기 위한 방법의 일 실시 예를 도시하는 개괄적인 흐름도이다.

이하의 구체적인 내용에서, 본 명세서에 제시되는 방법들 및 메커니즘들에 대한 완전한 이해를 제공하기 위해 많은 구체적인 세부 사항이 제시된다. 그러나, 해당 기술분야의 통상의 기술자는 다양한 실시 예가 이러한 구체적인 세부 사항 없이도 실시될 수 있다는 것을 인식해야 한다. 경우에 따라서는, 주지된 구조들, 구성요소들, 신호들, 컴퓨터 프로그램 명령들 및 기술들이 본 명세서에 설명되는 접근법들을 모호하게 하는 것을 방지하기 위해 구체적으로 제시되지 않았다. 도시의 단순성 및 명료성을 위해, 도면들에 도시된 요소들은 반드시 일정한 비율로 그려진 것은 아니라는 것을 이해할 것이다. 예를 들어, 요소들 중 일부의 치수들은 그 외 다른 요소들에 비해 과장될 수 있다.

별도의 보류 로드 및 스토어 카운터들을 관리하기 위한 시스템들, 장치들 및 방법들이 본 명세서에 개시된다. 일 실시 예에서, 시스템은 적어도 하나의 실행 유닛, 메모리 서브 시스템 및 각 실행 스레드에 대한 카운터들의 쌍을 포함한다. 일 실시 예에서, 시스템은 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 구현한다. 일 실시 예에서, 시스템은 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 지원하기 위한 카운터들을 유지한다. 시스템은 카운터들의 값들을 참조함으로써 실행 시간 동안 종속성을 관리하기 위해 사용되는 명령들을 실행하도록 구성된다.

일 실시 예에서, 시스템은 제1 스레드의 로드 명령이 실행됨을 검출하는 것에 응답하여 제1 실행 유닛의 제1 카운터를 증가시키도록 구성된다. 또한 시스템은 로드 명령의 데이터가 메모리 서브 시스템으로부터 검색되었음을 결정하는 것에 응답하여 제1 카운터를 감소시키도록 구성된다. 추가로, 시스템은 제1 스레드의 스토어 명령이 실행됨을 검출하는 것에 응답하여 제1 실행 유닛의 제2 카운터를 증가시키도록 구성된다. 또한, 시스템은 스토어 명령이 완료되었다는 확인 응답을 메모리 서브 시스템으로부터 수신하는 것에 응답하여 제2 카운터를 감소시키도록 구성된다. 스토어 명령은 스토어 명령의 데이터가 메모리 서브 시스템에 기록될 때 그리고 데이터가 그 외 다른 스레드들에 보일 때 완료된다. 제1 실행 유닛은 소정의 카운터가 대기 명령에서 지정되는 소정의 값과 동일할 때까지 대기하기 위한 대기 명령을 실행하도록 구성된다.

이제 도 1을 참조하면, 컴퓨팅 시스템(100)의 일 실시 예의 블록도가 도시되어 있다. 일 실시 예에서, 컴퓨팅 시스템(100)은 메모리(150)에 결합되는 시스템 온 칩(SoC)(105)을 포함한다. SoC(105)는 집적 회로(IC)로 지칭될 수도 있다. 일 실시 예에서, SoC(105)는 중앙 처리 장치(CPU)(165)의 프로세싱 유닛들(175A-N), 입력/출력(I/O) 인터페이스들(155), 캐시들(160A-B), 패브릭(120, 그래픽 처리 장치(GPU)(130), 로컬 메모리(110) 및 메모리 제어기(들)(140)를 포함한다. 또한 SoC(105)는 도면을 모호하게 하는 것을 방지하기 위해 도 1에 도시되지 않은 그 외 다른 구성요소들도 포함할 수 있다. 프로세싱 유닛들(175A-N)은 임의의 수 및 유형의 프로세싱 유닛들을 나타낸다. 일 실시 예에서, 프로세싱 유닛들(175A-N)은 CPU 코어들이다. 다른 실시 예에서, 프로세싱 유닛들(175A-N)의 하나 이상은 그 외 다른 유형들의 프로세싱 유닛들(예를 들어, ASIC(application specific integrated circuit), FPGA(field programmable gate array) 및 DSP(digital signal processor))이다. CPU(165)의 프로세싱 유닛들(175A-N)은 캐시들(160A-B) 및 패브릭(120)에 결합된다.

일 실시 예에서, 프로세싱 유닛들(175A-N)은 특정 명령 세트 아키텍처(ISA)의 명령들을 실행하도록 구성된다. 각 프로세싱 유닛(175A-N)은 하나 이상의 실행 유닛, 캐시 메모리, 스케줄러, 분기 예측 회로 등을 포함한다. 일 실시 예에서, 프로세싱 유닛들(175A-N)은 시스템(100)의 메인 제어 소프트에어, 이를테면 운영 체제를 실행하도록 구성된다. 일반적으로, 사용 동안 프로세싱 유닛들(175A-N)에 의해 실행되는 소프트웨어는 시스템(100)의 목적하는 기능을 실형하도록 시스템(100)의 그 외 다른 구성요소들을 제어할 수 있다. 또한 프로세싱 유닛들(175A-N)은 그 외 다른 소프트웨어, 이를테면 응용 프로그램들을 실행할 수도 있다.

GPU(130)는 그래픽 또는 범용 프로세싱 위해 사용되는 임의의 수 및 유형의 컴퓨트 유닛들을 나타내는 적어도 카운터들(135) 및 컴퓨트 유닛들(145A-N)을 포함한다. 각 컴퓨트 유닛(145A-N)은 임의의 수의 실행 유닛을 포함하며, 컴퓨터 유닛에 대한 실행 유닛들의 수는 실시 예마다 달라진다. GPU(130)는 로컬 메모리(110) 및 패브릭(120)에 결합된다. 일 실시 예에서, 로컬 메모리(110)는 고대역폭 메모리(HBM)를 사용하여 구현된다. 일 실시 예에서, GPU(130)는 그래픽 파이프라인 연산들 이를테면 드로우 명령들, 픽셀 연산들, 기하학적 컴퓨테이션들 및 이미지를 디스플레이에 렌더링하기 위한 그 외 다른 연산들을 실행하도록 구성된다. 다른 실시 예에서, GPU(130)는 그래픽과 관련되지 않은 연산들을 실행하도록 구성된다. 추가 실시 예에서, GPU(130)는 그래픽 연산들 및 논-그래픽 연산들 양자를 실행하도록 구성된다.

일 실시 예에서, GPU(130)는 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 구현하기 위한 카운터들(135)을 이용한다. GPU(130)의 컴퓨트 유닛들(145)은 실행 시간 동안 종속성을 관리하기 위해 사용되는 명령들을 실행하도록 구성된다. 일 실시 예에서, GPU(130)의 컴퓨트 유닛들(145)은 계속해서 명령 시퀀스를 실행하기 전에 소정의 카운터가 지정된 값과 동일할 때까지 대기하기 위한 대기 명령들을 실행한다.

일 실시 예에서, GPU(130)는 제1 스레드의 로드 명령이 실행됨을 검출하는 것에 응답하여 카운터들(135)의 제1 카운터를 증가시키도록 구성된다. 또한 GPU(130)는 로드 명령의 데이터가 메모리 서브 시스템으로부터 검색되었음을 결정하는 것에 응답하여 제1 카운터를 감소시키도록 구성된다. 추가로, GPU(130)는 제1 스레드의 스토어 명령이 실행됨을 검출하는 것에 응답하여 카운터들(135)의 제2 카운터를 증가시키도록 구성된다. 또한, GPU(130)는 스토어 명령이 완료되었다는 확인 응답을 캐시 또는 메모리로부터 수신하는 것에 응답하여 제2 카운터를 감소시키도록 구성된다. 스토어 명령은 스토어 명령의 데이터가 캐시 또는 메모리에 기록될 때 그리고 데이터가 그 외 다른 스레드들에 보일 때 완료된다. GPU(130)는 소정의 카운터가 대기 명령에서 지정되는 소정의 값과 동일할 때까지 대기하기 위한 대기 명령을 실행하도록 구성된다.

I/O 인터페이스들(155)은 패브릭(120)에 결합되고, I/O 인터페이스들(155)은 임의의 수 및 유형의 인터페이스들(예를 들어, PCI(peripheral component interconnect) 버스, PCI-X(PCI-Extended), PCIE(PCI Express) 버스, GBE(gigabit Ethernet) 버스, USB(universal serial bus) 버스)을 나타낸다. 다양한 유형의 주변 디바이스들이 I/O 인터페이스들(155)에 결합될 수 있다. 그러한 주변 디바이스들은 디스플레이들, 키보드들, 마우스들, 프린터들, 스캐너들, 조이스틱들 또는 그 외 다른 유형들의 게임 제어기들, 미디어 레코딩 디바이스들, 외부 저장 디바이스들, 네트워크 인터페이스 카드들 등을 포함한다(그러나, 이에 제한되지는 않는다).

SoC(105)는 메모리(150)에 결합되며, 이는 하나 이상의 메모리 모듈을 포함한다. 메모리 모듈들의 각각은 장착되는 하나 이상의 메모리 디바이스를 포함한다. 일부 실시 예에서, 메모리(150)는 SoC(105)가 또한 장착되는 마더보드 또는 그 외 다른 캐리어 상에 장착되는 하나 이상의 메모리 디바이스를 포함한다. 일 실시 예에서, 메모리(150)는 연산 동안 SoC(105)와 사용하기 위한 랜덤 액세스 메모리(RAM)를 구현하기 위해 사용된다. 구현되는 RAM은 정적 RAM(SRAM), 동적 RAM(DRAM), 저항성 RAM(ReRAM), 상 변화 RAM(PCRAM) 또는 임의의 그 외 다른 휘발성 또는 비휘발성 RAM일 수 있다. 메모리(150)를 구현하기 위해 사용되는 DRAM의 유형은 DDR(double data rate) DRAM, DDR2 DRAM, DDR3 DRAM 등을 포함한다. 도 1에 명시적으로 도시되지는 않았지만, SoC(105)는 또한 프로세싱 유닛들(175A-N) 및/또는 컴퓨트 유닛들(145A-N) 내부에 있는 하나 이상의 캐시 메모리를 포함할 수도 있다. 일부 실시 예에서, SoC(105)는 프로세싱 유닛들(175A-N)에 의해 이용되는 캐시들(160A-B)을 포함한다. 일 실시 예에서, 캐시들(160A-B)은 캐시 제어기를 포함하는 캐시 서브 시스템의 일부이다.

다양한 실시 예에서, 컴퓨팅 시스템(100)은 컴퓨터, 랩탑, 모바일 디바이스, 서버 또는 임의의 다양한 그 외 다른 유형의 컴퓨팅 시스템들 또는 디바이스들일 수 있다. 컴퓨팅 시스템(100) 및/또는 SoC(105)의 구성요소들의 수는 실시 예마다 달라질 수 있음이 주의된다. 각 구성요소/서브 구성요소의 수가 도 1에 도시된 수보다 더 많거나 더 적을 수 있다. 예를 들어, 다른 실시 예에서, SoC(105)는 다수의 메모리에 결합되는 다수의 메모리 제어기를 포함할 수 있다. 또한 컴퓨팅 시스템(100) 및/또는 SoC(105)는 도 1에 도시되지 않은 그 외 다른 구성요소들도 포함할 수 있음이 주의된다. 추가로, 그 외 다른 실시 예들에서, 컴퓨팅 시스템(100) 및 SoC(105)는 도 1에 도시된 방식과 다른 방식들로 구조화될 수 있다.

이제 도 2를 참조하면, 실행 유닛(205)의 일 실시 예의 블록도가 도시되어 있다. 일 실시 예에서, 실행 유닛(205)은 적어도 제어 로직(220), 로드 카운터(225) 및 스토어 카운터(230)를 포함한다. 일 실시 예에서, 다수의 실행 유닛(205)이 컴퓨트 유닛들(145A-N)(도 1의)의 각각 내에 구현될 수 있다. "로드 카운터"라는 용어는 "벡터 메모리 로드 카운터"로 지칭될 수도 있음이 주의된다. 유사하게, "스토어 카운터"라는 용어는 "벡터 메모리 스토어 카운터"로 지칭될 수도 있음이 주의된다. 또한 실행 유닛(205)은 각 실행 스레드마다 별도의 로드 및 스토어 카운터들의 쌍을 유지한다.

실행 유닛(205)은 메모리 서브 시스템(210)에 결합되며, 메모리 서브 시스템(210)은 임의의 수 및 유형의 캐시들 및/또는 메모리 디바이스들을 포함한다. 예를 들어, 일 실시 예에서, 메모리 서브 시스템(210)은 레벨 1(L1) 캐시, 레벨 2(L2) 캐시 및 시스템 메모리를 포함한다. 그 외 다른 실시 예들에서, 메모리 서브 시스템(210)은 그 외 다른 수들의 캐시 레벨들 및/또는 그 외 다른 유형들의 메모리를 포함할 수 있다.

일 실시 예에서, 실행 유닛(205)이 로드 명령을 실행할 때, 실행 유닛(205)은 로드 카운터(225)를 증가시킨다. 로드 명령의 데이터가 메모리 서브 시스템(210)에서 검색되고 실행 유닛(205) 내에서 이용 가능할 때, 실행 유닛(205)은 로드 카운터(225)를 감소시킨다. 실행 유닛(205)이 스토어 명령을 실행할 때, 실행 유닛(205)은 스토어 카운터(230)를 증가시킨다. 실행 유닛(205)이 메모리 서브 시스템(210)으로부터 스토어 명령이 완료되었다는 확인 응답을 수신할 때, 실행 유닛(205)은 스토어 카운터(230)를 감소시킨다. 실행 유닛(205)은 지정된 카운터가 소정의 값과 동일할 때까지 후속 명령들을 실행하기를 기다릴 것을 지정하는 대기 명령들을 실행하도록 구성된다. 예를 들어, 일 실시 예에서, 대기 명령은 로드 카운터(225)가 제로와 동일할 때까지 기다릴 것을 지정한다. 대기 명령들은 지정된 카운터가 비-제로 값과 동일할 때까지 실행 유닛(205)이 대기할 것을 지정할 수도 있다.

이제 도 3을 참조하면, 소프트웨어 환경(300)의 일 실시 예의 블록도가 도시되어 있다. 일 실시 예에서, 소프트웨어 환경(300)은 컴퓨팅 시스템(예를 들어, 도1의 컴퓨팅 시스템(100)) 상에서 실행할 수 있는 실행 가능한 코드(315)를 생성하기 위해 이용된다. 컴파일러(310)는 소스 코드(305)를 수신하고 실행 가능한 코드(315)로 컴파일링하도록 구성된다. 컴파일러(310)가 소스 코드(305)에 관한 최적화를 수행할 때, 컴파일러(310)는 다양한 대기 명령을 실행 가능한 코드(315)로 삽입할 수 있는 유연성을 갖는다.

일 실시 예에서, 컴파일러(310)는 다중 스레드 실행 환경에서 명령들 간 소프트웨어 종속성을 관리하기 위한 대기 명령들을 실행 가능한 코드(315)에 삽입한다. 컴파일러(310)가 소정의 대기 명령을 실행 가능한 코드(315)로 삽입할 때, 소정의 대기 명령은 소정의 스레드에 대한 대응하는 로드 또는 스토어 카운터를 식별한다. 또한 대기 명령은 실행이 계속하도록 허용되기 전에 대기할 값을 식별한다. 예를 들어, 일 실시 예에서, 대기 명령은 대기할 비-제로 카운트 값을 지정할 수 있고, 지정된 카운터가 지정된 비-제로 카운트 값에 도달할 때, 명령 시퀀스로부터의 후속 명령이 실행될 수 있다.

이제 도 4를 참조하면, 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 구현하기 위한 방법(400)의 일 실시 예가 도시되어 있다. 이 실시 예에서의 단계들 및 도 5 내지 도 7에서의 단계들은 논의를 위해, 순차적인 순서로 도시되어 있다. 그러나, 설명되는 방법들의 다양한 실시 예에서, 설명되는 요소들 중 하나 이상의 요소가 동시에, 도시된 것과 상이한 순서로 또는 완전히 생략됨이 주의된다. 그 외 다른 추가 요소들이 또한 목적하는 대로 수행된다. 본 명세서에 설명된 다양한 시스템 또는 장치 중 임의의 시스템 또는 장치가 방법 (400)을 구현하도록 구성된다.

시스템은 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 구현한다(블록(405)). 일 실시 예에서, 시스템(예를 들어, 도 1의 시스템(100))은 적어도 하나의 실행 유닛 및 메모리 서브 시스템을 포함한다. 또한 시스템은 실시 예에 따라 임의의 수의 그 외 다른 구성요소들을 포함할 수도 있다. 시스템은 명령들 간 종속성을 관리하기 위한 소프트웨어 기반 접근법을 지원하기 위한 복수의 카운터를 유지한다(블록(410)). 일 실시 예에서, 시스템은 각 실행 스레드마다 카운터들의 쌍을 유지하며, 제1 카운터는 다수의 보류 스토어 명령을 추적하고 제2 카운터는 다수의 보류 로드 명령을 추적한다. 시스템의 실행 유닛(들)은 카운터들의 값들을 참조함으로써 실행 시간 동안 종속성을 관리하기 위한 명령들을 실행하도록 구성된다(블록(415)). 블록(415) 이후, 방법(400)이 종료된다.

이제 도 5를 참조하면, 보류 로드 및 스토어 카운터들을 관리하기 위한 방법(500)의 일 실시 예가 도시되어 있다. 시스템은 제1 스레드의 로드 명령이 실행됨을 검출하는 것에 응답하여 제1 실행 유닛의 제1 카운터를 증가시키도록 구성된다(블록(505)). 또한, 시스템은 로드 명령의 타겟이 된 데이터가 메모리 서브 시스템으로부터 검색되었음을 결정하는 것에 응답하여 제1 카운터를 감소시키도록 구성된다(블록(510)). 추가로, 시스템은 제1 스레드의 스토어 명령이 실행됨을 검출하는 것에 응답하여 제1 실행 유닛의 제2 카운터를 증가시키도록 구성된다(블록(515)). 더 나아가, 시스템은 스토어 명령이 완료되었다는 확인 응답을 메모리 서브 시스템으로부터 수신하는 것에 응답하여 제2 카운터를 감소시키도록 구성된다(블록(520)). 또한, 시스템은 제1 또는 제2 카운터 중 어느 하나가 소정의 값과 동일할 때까지 제1 실행 유닛의 기능을 정지하기 위한 대기 명령을 실행하도록 구성된다(블록(525)). 블록(525) 이후, 방법(500)이 종료된다.

이제 도 6을 참조하면, 보류 로드 및 스토어 명령들을 별도로 추적하기 위한 방법(600)의 일 실시 예가 도시되어 있다. 실행 유닛은 명령 시퀀스의 실행을 개시한다(블록(605)). 일 실시 예에서, 실행 유닛은 스토어 및 로드 명령들을 교차 배치하는 다중 스레드 명령 시퀀스를 실행한다. 실행 유닛이 로드 명령이 실행됨을 검출할 경우(조건부 블록(610), "예" 분기), 실행 유닛은 보류 로드 카운터를 증가시킨다(블록(615)). 실행 유닛이 스토어 명령이 실행됨을 검출할 경우(조건부 블록(620), "예" 분기), 실행 유닛은 보류 스토어 카운터를 증가시킨다(블록(625)). 실행 유닛이 보류 로드 명령의 데이터가 메모리 서브 시스템으로부터 검색되었다는 표시를 수신할 경우(조건부 블록(630), "예" 분기), 실행 유닛은 보류 로드 카운터를 감소시킨다(블록(635)). 추가적으로, 실행 유닛이 메모리 서브 시스템으로부터 스토어 명령이 완료되었다는 확인 응답을 수신할 경우(조건부 블록(640), "예" 분기), 실행 유닛은 보류 스토어 카운터를 감소시킨다(블록(645)). 블록(645) 이후, 방법(600)은 블록(610)으로 되돌아간다.

이제 도 7을 참조하면, 대기 명령을 구현하기 위한 방법(700)의 일 실시 예가 도시되어 있다. 프로세서가 명령 시퀀스에서 대기 명령을 검출하며, 대기 명령은 소정의 카운터에 대한 소정의 값을 지정한다(예를 들어, 로드 카운터, 스토어 카운터)(블록(705)). 다음으로, 프로세서는 대기 명령(블록(710))을 실행한다. 소정의 카운터가 소정의 값에 도달했을 경우(조건부 블록(715), "예" 분기), 프로세서는 명령 시퀀스에서 후속 명령을 실행한다(블록(720)). 블록(720) 이후, 방법(700)이 종료된다. 소정의 카운터가 소정의 값에 도달하지 않았을 경우(조건부 블록(715), "아니오" 분기), 프로세서는 명령 시퀀스에서 후속 명령들을 실행하는 것이 금지된다(블록(725)). 일 실시 예에서, 프로세서는 블록(725)에서 단지 특정 유형들의 명령들(예를 들어, 로드 명령들, 스토어 명령들)을 실행하는 것이 금지된다. 블록(725) 이후, 방법(700)은 조건부 블록(715)으로 되돌아간다.

다양한 실시 예에서, 소프트웨어 어플리케이션의 프로그램 명령들은 이전에 설명된 방법들 및/또는 메커니즘들을 구현하기 위해 사용된다. 프로그램 명령들은 C와 같은 상위 레벨 프로그래밍 언어로 하드웨어의 동작을 설명한다. 대안적으로, Verilog와 같은 하드웨어 설계 언어(HDL)가 사용된다. 프로그램 명령들은 비일시적 컴퓨터 판독 가능한 저장 매체에 저장된다. 많은 유형의 저장 매체가 이용 가능하다. 저장 매체는 프로그램 실행을 위해 컴퓨팅 시스템에 프로그램 명령들 및 수반 데이터를 제공하기 위해 사용 동안 컴퓨팅 시스템에 의해 액세스 가능하다. 컴퓨팅 시스템은 적어도 하나 이상의 메모리 및 프로그램 명령들을 실행하도록 구성된 하나 이상의 프로세서를 포함한다.

전술한 실시 예들은 단지 구현의 비제한적인 예들일 뿐이라는 것이 강조되어야 한다. 상기한 개시 내용이 완전히 이해되면, 해당 기술분야의 통상의 기술자들에게는 다양한 변형 및 수정이 명백해질 것이다. 다음의 청구범위는 그러한 모든 변형 및 수정을 포함하는 것으로 해석되어야 한다.

Claims

시스템으로서,
메모리 서브 시스템;
하나 이상의 실행 유닛으로서, 상기 하나 이상의 실행 유닛의 제1 실행 유닛은 제1 카운터 및 제2 카운터를 포함하는, 상기 하나 이상의 실행 유닛을 포함하되;
상기 시스템은:
제1 스레드의 로드 명령이 실행됨을 검출하는 것에 응답하여 상기 제1 카운터를 증가시키도록;
상기 로드 명령의 타겟이 된 데이터가 상기 메모리 서브 시스템으로부터 검색되었음을 결정하는 것에 응답하여 상기 제1 카운터를 감소시키도록;
상기 제1 스레드의 스토어 명령이 실행됨을 검출하는 것에 응답하여 상기 제2 카운터를 증가시키도록; 그리고
상기 스토어 명령이 완료되었다는 확인 응답을 상기 메모리 서브 시스템으로부터 수신하는 것에 응답하여 상기 제2 카운터를 감소시키도록 구성되는, 시스템.
청구항 1에 있어서, 상기 제1 실행 유닛은 소정의 카운터가 상기 대기 명령에서 지정되는 소정의 값과 동일할 때까지 대기하기 위한 대기 명령을 실행하도록 구성되는, 시스템.
청구항 2에 있어서, 상기 소정의 카운터는 상기 제1 카운터인, 시스템.
청구항 2에 있어서, 상기 소정의 값은 제로인, 시스템.
청구항 2에 있어서, 상기 소정의 값은 비-제로 값인, 시스템.
청구항 1에 있어서, 상기 스토어 명령은 상기 스토어 명령의 데이터가 상기 메모리 서브 시스템에 기록될 때 그리고 상기 데이터가 그 외 다른 스레드들에 보일 때 완료되는, 시스템.
청구항 1에 있을 때, 각 실행 스레드마다 카운터들의 쌍을 포함하는, 시스템.
방법으로서,
제1 스레드의 로드 명령이 실행됨을 검출하는 것에 응답하여 제1 실행 유닛의 제1 카운터를 증가시키는 단계;
상기 로드 명령의 타겟이 된 데이터가 메모리 서브 시스템으로부터 검색되었음을 결정하는 것에 응답하여 상기 제1 카운터를 감소시키는 단계;
상기 제1 스레드의 스토어 명령이 실행됨을 검출하는 것에 응답하여 상기 제1 실행 유닛의 제2 카운터를 증가시키는 단계; 및
상기 스토어 명령이 완료되었다는 확인 응답을 상기 메모리 서브 시스템으로부터 수신하는 것에 응답하여 상기 제2 카운터를 감소시키는 단계를 포함하는, 방법.
청구항 8에 있어서, 소정의 카운터가 상기 대기 명령에서 지정되는 소정의 값과 동일할 때까지 대기하기 위한 대기 명령을 실행하는 단계를 더 포함하는, 방법.
청구항 9에 있어서, 상기 소정의 카운터는 상기 제1 카운터인, 방법.
청구항 9에 있어서, 상기 소정의 값은 제로인, 방법.
청구항 9에 있어서, 상기 소정의 값은 비-제로 값인, 방법.
청구항 8에 있어서, 상기 스토어 명령은 상기 스토어 명령의 데이터가 상기 메모리 서브 시스템에 기록될 때 그리고 상기 데이터가 그 외 다른 스레드들에 보일 때 완료되는, 방법.
청구항 8에 있을 때, 각 실행 스레드마다 카운터들의 쌍을 유지하는 단계를 더 포함하는, 방법.
장치로서,
메모리 서브 시스템; 및
제1 카운터 및 제2 카운터를 포함하는 실행 유닛을 포함하되;
상기 실행 유닛은:
제1 스레드의 로드 명령이 실행됨을 검출하는 것에 응답하여 상기 제1 카운터를 증가시키도록;
상기 로드 명령의 타겟이 된 데이터가 메모리 서브 시스템으로부터 검색되었음을 결정하는 것에 응답하여 상기 제1 카운터를 감소시키도록;
상기 제1 스레드의 스토어 명령이 실행됨을 검출하는 것에 응답하여 상기 제2 카운터를 증가시키도록; 그리고
상기 스토어 명령이 완료되었다는 확인 응답을 상기 메모리 서브 시스템으로부터 수신하는 것에 응답하여 상기 제2 카운터를 감소시키도록 구성되는, 장치.
청구항 15에 있어서, 상기 실행 유닛은 소정의 카운터가 상기 대기 명령에서 지정되는 소정의 값과 동일할 때까지 대기하기 위한 대기 명령을 실행하도록 구성되는, 장치.
청구항 16에 있어서, 상기 소정의 카운터는 상기 제1 카운터인, 장치.
청구항 16에 있어서, 상기 소정의 값은 제로인, 장치.
청구항 16에 있어서, 상기 소정의 값은 비-제로 값인, 장치.
청구항 15에 있어서, 상기 스토어 명령은 상기 스토어 명령의 데이터가 상기 메모리 서브 시스템에 기록될 때 그리고 상기 데이터가 그 외 다른 스레드들에 보일 때 완료되는, 장치.