KR101460985B1

KR101460985B1 - 스레드 레벨 추론에서의 동적 데이터 동기화

Info

Publication number: KR101460985B1
Application number: KR1020127034256A
Authority: KR
Inventors: 웨이 리우; 유펭 우
Original assignee: 인텔 코포레이션
Priority date: 2010-06-29
Filing date: 2011-06-27
Publication date: 2014-11-13
Also published as: AU2011276588A1; WO2012006030A2; JP2013527549A; CN103003796B; TW201229893A; CN103003796A; EP2588959A4; US20110320781A1; TWI512611B; EP2588959A2; KR20130040957A; WO2012006030A3

Abstract

일 실시예에서, 본 발명은 직렬 명령으로부터 개별 스레드를 생성하고 의존 소스 이전에 동기화 비트를 설정하며 의존 소스 이후에 동기화 비트를 클리어하도록 프로세서 명령을 삽입함으로써 직렬 명령을 병렬화하는 추론 엔진을 도입하고, 여기서 동기화 비트는 개별 코어 상에서 구동 중인 스레드로부터 의존 싱크를 중지시키도록 디자인된다. 다른 실시예가 설명되고 청구된다.

Description

스레드 레벨 추론에서의 동적 데이터 동기화{DYNAMIC DATA SYNCHRONIZATION IN THREAD-LEVEL SPECULATION}

본 발명은 스레드 레벨 추론에서의 동적 데이터 동기화에 관한 것이다.

현대의 프로세서에서, 병렬로 실행하는 것이 가능한 다수의 컴퓨팅 코어를 갖는 것은 보통이다. 그러나, 많은 순차적 또는 직렬 애플리케이션 및 프로그램은 병렬 구조를 효과적으로 활용하지 못한다. 스레드 레벨 추론(Thread-level speculation;TLS)은 추론착오(mis-speculation)가 발생하는 경우 복구를 위해 정적 또는 동적 컴파일러 및 하드웨어와 함께 순차적 프로그램을 병렬화하는 유망한 기술이다. 하지만, 적합한 동기화 없이는, 의존적인 로드 및 저장 명령 사이에서, 예를 들어, 로드는 저장 이전에 실행할 수 있고 추론적 스레드를 스쿼싱(squash)하고 재로딩된 데이터와 함께 재실행을 필요로 하는 데이터 바이얼레이션(violation)을 야기할 수 있다.

다양한 실시예에서, 프로세서는 설정되었을 때, 캐시 라인 또는 워드의 판독을 중지시킬 수 있는, 동기화 비트를 갖는 추론적 캐시와 함께 도입된다. 이는 추론착오 및 스쿼싱된 스레드의 연관된 비효율성을 방지한다는 것을 당업자는 인식할 수 있을 것이다. 또한, 동기화 비트를 설정 및 클리어하기 위한 프로세서 명령이 제시된다. 컴파일러는 데이터 의존성을 동기화하기 위해 이들 명령을 이용할 수 있다. 본 발명은 추가적인 병렬화 및/또는 스레드 추론 피쳐를 포함할 수 있는 프로세서 및 시스템에서 실시되도록 하기 위한 것이다.

도 1은 본 발명의 일 실시예에 따른 예시의 시스템의 블록도이다.
도 2는 본 발명의 실시예에 따른 예시의 추론 엔진의 블록도이다.
도 3a 및 도 3b는 본 발명의 실시예에 따른 예시의 소프트웨어 코드의 블록도이다.
도 4는 본 발명의 실시예에 따른 스레드 레벨 추론에서의 동적 데이터 동기화에 대한 흐름도이다.
도 5는 본 발명의 실시예에 따른 시스템의 블록도이다.

이제 도 1을 참조하면, 본 발명의 일 실시예에 따른 예시의 시스템의 블록도가 도시된다. 도 1에서 도시된 바와 같이, 시스템(100)은 프로세서(102) 및 동적 랜덤 액세스 메모리(dynamic random access memory;DRAM)와 같은, 메모리(104)를 포함할 수 있다. 프로세서(102)는 코어(106 내지 110), 추론적 캐시(112) 및 추론 엔진(118)을 포함할 수 있다. 코어(106 내지 110)은 서로 독립적으로 명령을 실행하는 것이 가능할 수 있고 임의의 타입의 구조를 포함할 수 있다. 세 개의 코어를 포함하는 것으로서 도시되었지만, 프로세서(102)는 임의의 개수의 코어를 가질 수 있고, 도시 되지 않은 다른 컴포넌트 또는 제어기를 포함할 수 있다. 일 실시예에서, 프로세서(102)는 시스템 온 칩(a system on a chip;SOC)이다.

추론적 캐시(112)는 임의의 개수의 개별 캐시를 포함할 수 있고 임의의 개수의 엔트리를 포함할 수 있다. 저지연 레벨 원 캐시(a low latency level one cache)로서 의도되었지만, 추론적 캐시(112)는 임의의 계층적인 레벨에서 임의의 메모리 기술로 구현될 수 있다. 추론적 캐시(112)는 캐시 라인 또는 워드(116)와 연관된 동기화 비트(114)를 포함한다. 이하에서 더 자세하게 설명되는 바와 같이, 동기화 비트(114)가 설정될 때, 라인 또는 워드(116)는 코어에 의해 로딩되는 것이 가능하지 않을 것이고, 이는, 예를 들어, 다른 코어는 상기 로드가 의존하는 저장을 수행하려고 할 수 있기 때문이다. 일 실시예에서, 동기화 비트(114)가 설정될 때 캐시 라인 또는 워드(116)로부터의 로드를 시도하는 코어는 동기화 비트(114)가 클리어될 때까지 정지(stall)할 것이다.

추론 엔진(118)은 예를 들어, 도 4를 참조하여 설명된 바와 같이, 스레드 레벨 추론에서의 동적 데이터 동기화를 위한 방법을 구현할 수 있고, 도 2와 관련하여 설명된 바와 같은 구조를 가질 수 있다. 추론 엔진(118)은 프로세서(102)로부터 분리될 수 있고 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다.

이제 도 2를 참조하면, 본 발명의 실시예에 따른 예시의 추론 엔진의 블록도가 도시된다. 도 2에서 도시된 바와 같이, 추론 엔진(118)은 병렬화 서비스(202), 병렬 출력 코드(204) 및 직렬 입력 코드(206)를 포함할 수 있다. 병렬화 서비스(202)는 직렬 명령을 병렬화하고 스레드 레벨 추론에 동적 데이터 동기화를 추가하는 기능을 갖는 추론 엔진(118)을 제공할 수 있다.

병렬화 서비스(202)는 스레드 서비스(208), 동기화 설정 서비스(210), 및 동기화 클리어 서비스(212)를 포함할 수 있고, 각각은, 직렬 명령으로부터 병렬 스레드를 생성하고, 의존 소스 이전에 동기화 비트를 설정하기 위해 프로세서 명령을 삽입하고, 의존 소스 이후에 동기화 비트를 클리어하기 위해 프로세서 명령을 삽입할 수 있다. 병렬화 서비스(202)는 직렬 입력 코드(206)(예를 들어, 도 3a에서 도시됨)로부터 병렬 출력 코드(204)(예를 들어 도 3b에서 도시됨)를 생성할 수 있다.

이제 도 3a 및 도 3b를 참조하면, 본 발명의 실시예에 따른 예시의 소프트웨어 코드의 블록도가 도시된다. 도 3a에서 도시된 바와 같이, 순차적 명령(300)은 직렬로 진행하고 프로세서의 단일 코어에 의해 실행되도록 의도된 다양한 로드(loads) 및 저장(stores)을 포함한다. 순차적 명령(300)은 추론 엔진(118)의 직렬 입력 코드(206)로서 역할을 할 수 있다. 도 3b에서 도시된 바와 같이, 병렬 명령(302)은 추론 엔진(118)의 병렬 출력 코드(204)를 나타낼 수 있다. 스레드(304 내지 308)는 코어(106 내지 110)에 의해 개별적으로 실행되는 것이 가능할 수 있다.

스레드(304 내지 308)는 각각 프로세서 명령(예를 들어, mark_comm_addr)을 포함할 수 있고, 프로세서 명령은 실행될 때, 저장 명령과 같이, 의존 소스 이전에 특정 캐시 라인 또는 워드(116)를 위한 동기화 비트(114)를 설정한다. 스레드(304 내지 308)는 또한 각각 대응 프로세서 명령(예를 들어, clear_comm_addr)을 포함할 수 있고, 이 프로세서 명령은 실행될 때, 의존 소스 이후에 동기화 비트(114)를 클리어한다. 데이터 의존의 예시는 스레드(304 및 308)에서 볼 수 있고, 여기서 의존 싱크(a dependence sink)는 동기화 비트를 완료 및 클리어하기 위해 의존 소스를 기다려야만 한다. 이 경우에 로드(310)는 저장(312)이 완료되고 스레드(304)가 연관된 동기화 비트를 클리어할 때까지 스레드(308)의 진행을 정지시킨다.

이제 도 4를 참조하면, 본 발명의 실시예에 따른 스레드 레벨 추론에서의 동적 데이터 동기화에 대한 흐름도가 도시된다. 도 4에서 도시된 바와 같이, 방법은 직렬 명령으로부터 병렬 스레드를 생성하는 단계(402)로 시작한다. 일 실시예에서, 스레드 서비스(208)는 순차적 명령(300)으로부터 병렬 명령(302)을 생성하도록 호출된다. 다른 실시예에서, 생성된 다수의 스레드(304 내지 308)는 프로세서의 다수의 코어(106 내지 110)에 적어도 부분적으로 기초한다.

방법은 동기화 비트를 설정 및 클리어하기 위해 프로세서 명령을 삽입하는 단계(404)로 계속된다. 일 실시예에서, 어드레스가 생성될 때 의존 소스 또는 잠재적인 의존 소스 이전의 이른 시점에 동기화 설정 서비스(210)는 명령(mark_comm_addr)을 스레드(304 내지 308)로 삽입한다. 다른 실시예에서, 동기화 클리어 서비스(212)는 의존 소스 또는 잠재적인 의존 소스 이후에 명령(clear_comm_addr)을 스레드(304 내지 308)로 삽입한다.

방법은 멀티 코어 프로세서의 코어 상에서 병렬 스레드를 실행하는 단계(406)로 종결된다. 일 실시예에서, 스레드(304 내지 308)는 코어(106 내지 110) 상에서 각각 실행된다. 일 실시예에서, 코어(110)의 실행은 동기화 비트(114)가 코어(106) 상에서 실행하는 스레드(304)에 의해 클리어될 때까지 로드(310)에 대해 정지될 수 있다.

실시예는 많은 상이한 시스템 타입으로 구현될 수 있다. 이제 도 5를 참조하면, 본 발명의 실시예에 따른 시스템의 블록도가 도시된다. 도 5에서 도시된 바와 같이, 멀티프로세서 시스템(500)은 포인트 투 포인트 상호접속 시스템(a point-to-point interconnect system)이고, 포인트 투 포인트 상호접속(550)을 통해 연결되는 제 1 프로세서(570) 및 제 2 프로세서(580)를 포함한다. 도 5에서 도시된 바와 같이, 프로세서(570 및 580)의 각각은 제 1 및 제 2 프로세서 코어(즉, 프로세서 코어(574a 및 574b) 및 프로세서 코어(584a 및 584b))를 포함하는, 멀티코어 프로세서가 될 수 있다. 각 프로세서는 본 발명의 실시예에 따른 동적 데이터 동기화 스레드 레벨 추론 하드웨어, 소프트웨어, 및 펌웨어를 포함할 수 있다.

계속해서 도 5를 참조하면, 제 1 프로세서(570)는 메모리 제어기 허브(a memory controller hub;MCH)(572) 및 포인트 투 포인트(P-P) 인터페이스(576 및 578)를 더 포함한다. 유사하게, 제 2 프로세서(580)는 MCH(582) 및 P-P 인터페이스(586 및 588)를 포함한다. 도 5에서 도시된 바와 같이, MCH(572 및 582)는 프로세서들을 각각의 메모리, 즉 메모리(532) 및 메모리(534)에 연결하며, 이들 메모리는 각각의 프로세서에 국부적으로 부착된 주 메모리(예를 들어, 동적 랜덤 액세스 메모리(DRAM))의 부분이 될 수 있으며, 각각은 본 발명의 일 실시예에 따른 확장된 페이지 테이블(extended page tables)을 포함할 수 있다. 제 1 프로세서(570) 및 제 2 프로세서(580)는 각각 P-P 상호접속(552 및 554)을 통해 칩셋(590)에 연결될 수 있다. 도 5에서 도시된 바와 같이, 칩셋(590)은 P-P 인터페이스(594 및 598)를 포함한다.

또한, 칩셋(590)은 고성능 그래픽 엔진(538)을 칩셋(590)과 연결하는 인터페이스(592)를 포함한다. 결국, 칩셋(590)은 인터페이스(596)를 통해 제 1 버스(516)에 연결될 수 있다. 도 5에서 도시된 바와 같이, 제 1 버스(516)를 제 2 버스(520)에 연결하는 버스 브릿지(518)를 따라, 다양한 I/O 디바이스(514)가 제 1 버스(516)에 연결될 수 있다. 일 실시예에서, 다양한 디바이스는 예를 들어, 키보스/마우스(522), 통신 디바이스(526), 및 디스크 드라이브 또는 다른 대용량 저장 디바이스와 같은 코드(530)를 포함할 수 있는 데이터 저장 유닛(528)을 포함하는, 제 1 버스(520)에 연결될 수 있다. 또한 오디오 I/O(524)는 제 2 버스(520)에 연결될 수 있다.

실시예는 코드로 구현될 수 있고 저장된 명령어를 갖는 저장 매체 상에 저장될 수 있고 명령을 수행하는 시스템을 프로그래밍하는 데 사용될 수 있다. 저장 매체는, 플로피 디스크, 광학 디스크, CD-ROM(compact disk read-only memories), CD-RW(compact disk rewritables), 및 자기광학 디스크(magneto-optical disks)를 포함하는 임의의 타입의 디스크, ROM(read-only memories), DRAM(dynamic random access memories), SRAM(static random access memories)과 같은 RAM(random access memories), EPROM(erasable programmable read-only memories), 플래쉬 메모리, EEPROM(electrically erasable programmable read-only memories), 자기 또는 광학 카드와 같은 반도체 디바이스, 또는 전자 명령을 저장하기에 적합한 임의의 다른 타입의 매체를 포함할 수 있지만, 이에 제한되지 않는다.

본 발명은 제한된 숫자의 실시예와 관련하여 설명되었지만, 당업자는 이로부터의 많은 수정 및 변형을 인식할 것이다. 첨부된 청구항은 본 발명의 참 사상 및 범위 내에 속하는 모든 이러한 수정 및 변형을 커버함이 의도된 것이다.

Claims

콘텐츠를 포함하는 비일시적 컴퓨터 판독가능한 저장 매체로서,
상기 콘텐츠는 액세싱 머신(an accessing machine)에 의해 실행될 때, 상기 액세싱 머신으로 하여금,
멀티 코어 프로세서의 개별 코어에서 개별 스레드를 실행하게 하고,
의존 소스(a dependence source)를 포함하는 제 1 스레드 내의 전용 프로세서 명령을 실행함으로써 추론적 캐시(a speculative cache)에서 동기화 비트를 설정하게 하고,
상기 의존 소스 이후에 상기 제 1 스레드 내의 전용 프로세서 명령을 실행함으로써 상기 동기화 비트를 클리어하게 하고,
의존 싱크(a dependence sink)를 포함하는 제 2 스레드의 데이터와 연관된 동기화 비트가 설정되면, 상기 제 2 스레드의 상기 데이터에 액세스하는 것을 대기하도록 하는
컴퓨터 판독가능한 저장 매체.
삭제
삭제
제 1 항에 있어서,
상기 의존 싱크는 로드 명령(a load instruction)을 포함하는
컴퓨터 판독가능한 저장 매체.
제 1 항에 있어서,
상기 의존 소스는 저장 명령(a store instruction)을 포함하는
컴퓨터 판독가능한 저장 매체.
제 1 항에 있어서,
상기 제 2 스레드의 상기 데이터와 연관된 상기 동기화 비트는 캐시 라인 비트를 포함하는
컴퓨터 판독가능한 저장 매체.
제 1 항에 있어서,
상기 제 2 스레드의 상기 데이터와 연관된 상기 동기화 비트는 캐시 워드 비트를 포함하는
컴퓨터 판독가능한 저장 매체.
제 1 항에 있어서,
프로세서 명령을 실행함으로써 상기 동기화 비트를 설정하게 하는 상기 콘텐츠는 의존 소스 어드레스가 생성될 때 상기 동기화 비트를 설정하게 하는 콘텐츠를 포함하는
컴퓨터 판독가능한 저장 매체.
명령을 실행하는 제 1 코어 및 제 2 코어를 포함하는 프로세서와,
상기 프로세서에 대해 데이터 및 명령을 저장하는 추론적 캐시―상기 추론적 캐시는 연관된 데이터가 의존 소스에 영향을 받는지 여부를 나타내고 동기화 비트가 설정될 때 의존 싱크 작동을 정지(stall)시키는 동기화 비트를 포함함―와,
상기 프로세서에 연결된 동적 랜덤 액세스 메모리(a dynamic random access memory;DRAM)―상기 DRAM은 직렬 명령을 저장함―와,
추론 엔진(a speculation engine)―상기 추론 엔진은, 개별 스레드(separate threads)를 생성하고 의존 소스 이전에 상기 동기화 비트를 설정하도록 상기 스레드에 전용 프로세서 명령을 삽입함으로써 상기 직렬 명령을 병렬화함―을 포함하는
시스템.
제 9 항에 있어서,
상기 추론 엔진은 또한 의존 소스 이후에 상기 동기화 비트를 클리어하도록 대응하는 프로세서 명령을 삽입하는
시스템.
제 10 항에 있어서,
상기 의존 소스는 저장 명령을 포함하는
시스템.
제 10 항에 있어서,
상기 의존 싱크는 로드 명령을 포함하는
시스템.
제 9 항에 있어서,
상기 동기화 비트는 캐시 라인 비트를 포함하는
시스템.
제 9 항에 있어서,
상기 동기화 비트는 캐시 워드 비트를 포함하는
시스템.
추론 엔진에 의해 수행되는 방법에 있어서,
직렬 명령의 세트로부터 병렬화된 스레드를 생성하는 단계와,
의존 소스 이전에 동기화 비트를 설정하고 상기 동기화 비트를 상기 의존 소스 이후에 클리어하도록 상기 병렬화된 스레드에 전용 프로세서 명령을 삽입하는 단계－상기 동기화 비트는 설정될 때 의존 싱크를 정지시키도록 디자인됨－와,
멀티 코어 프로세서의 코어 상에서 상기 병렬화된 스레드를 실행하는 단계를 포함하는
방법.
제 15 항에 있어서,
상기 의존 소스는 저장 명령을 포함하는
방법.
제 15 항에 있어서,
상기 의존 싱크는 로드 명령을 포함하는
방법.
제 15 항에 있어서,
상기 동기화 비트는 캐시 라인 비트를 포함하는
방법.
제 15 항에 있어서,
상기 동기화 비트는 캐시 워드 비트를 포함하는
방법.
제 15 항에 있어서,
의존 소스 이전에 동기화 비트를 설정하기 위해 상기 병렬화된 스레드에 전용 프로세서 명령을 삽입하는 단계는 의존 소스 어드레스가 생성될 때 동기화 비트를 설정하도록 프로세서 명령을 삽입하는 단계를 포함하는
방법.