KR20190045225A - 락 어드레스 경합 예측자 - Google Patents

락 어드레스 경합 예측자 Download PDF

Info

Publication number
KR20190045225A
KR20190045225A KR1020197008081A KR20197008081A KR20190045225A KR 20190045225 A KR20190045225 A KR 20190045225A KR 1020197008081 A KR1020197008081 A KR 1020197008081A KR 20197008081 A KR20197008081 A KR 20197008081A KR 20190045225 A KR20190045225 A KR 20190045225A
Authority
KR
South Korea
Prior art keywords
lock
speculative
entry
memory
during
Prior art date
Application number
KR1020197008081A
Other languages
English (en)
Other versions
KR102594618B1 (ko
Inventor
그레고리 더블유. 스마우스
존 엠. 킹
매튜 에이. 라파즈
매튜 엠. 크럼
Original Assignee
어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어드밴스드 마이크로 디바이시즈, 인코포레이티드 filed Critical 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Publication of KR20190045225A publication Critical patent/KR20190045225A/ko
Application granted granted Critical
Publication of KR102594618B1 publication Critical patent/KR102594618B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/084Multiuser, multiprocessor or multiprocessing cache systems with a shared cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0842Multiuser, multiprocessor or multiprocessing cache systems for multiprocessing or multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0637Permissions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • G06F9/528Mutual exclusion algorithms by using speculative mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/50Control mechanisms for virtual memory, cache or TLB
    • G06F2212/507Control mechanisms for virtual memory, cache or TLB using speculative control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/6042Allocation of cache space to multiple users or processors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)
  • Memory System (AREA)

Abstract

메모리 디바이스 내의 엔트리를 락킹하기 위한 방법과 장치를 포함하는, 락 어드레스 예측 및/또는 일시적 락 예측에 기초하여, 락명령어를 추측성 또는 비-추측성으로 선택적으로 실행하기 위한 테크닉이다. 일부 테크닉에서, 메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어가 검출된다. 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 발생했던 경합 여부는 락 명령어가 추측성 락 명령어를 포함하는 조건에서 검출된다. 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했다면, 락은 비-추측성으로 실행된다. 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생하지 않았다면, 락은 추측성으로 실행된다.

Description

락 어드레스 경합 예측자
관련된 출원에 대한 상호 참조
본 출원은 2016년 9월 22일에 출원된 미국 특허 출원 번호 15/273,304의 이익을 청구하고, 이는 본원에서 완전히 제시된 것처럼 참조로서 포함된다.
공유된 메모리 컴퓨팅 아키텍쳐는, 복수의 스레드가 캐시 메모리와 같은 동일한 메모리 또는 메모리 계층의 다른 레벨에 액세스하도록 한다. 예를 들어, 싱글 프로세서나 프로세서 코어는 복수의 스레드나 프로세스를 실행하고, 각각의 스레드나 프로세스는, 스레드 및/또는 프로세스에 의해 공유된, 캐시와 같은 공유된 메모리에 액세스할 수 있다. 마찬가지로, 복수의 프로세서나 멀티-코어 프로세서의 코어는 복수의 스레드나 프로세스를 실행할 수 있고, 각각의 스레드 및/또는 프로세스는, 프로세서나 코어에 의해 공유된 캐시와 같은 메모리에, 그리고, 스레드 및/또는 프로세스에 의해 액세스한다.
좀 더 자세한 이해는 첨부 도면과 함께 예시에 의해 주어진 다음 설명으로부터 얻을 수 있다.
도 1은 하나 이상의 개시된 예시가 실행될 수 있는 예시적인 디바이스의 블록도이다.
도 2는 도 1의 디바이스와 사용가능하고, 하나 이상의 개시된 예시가 실행될 수 있는 예시적인 멀티-코어 프로세서를 나타내는 블록도이다.
도 3은 추측성 락을 실행하기 위한 예시적인 방법을 나타내는 순서도이다.
도 4는 락 어드레스 경합 예측을 사용하여, 추측성 락을 실행하기 위한 예시적인 방법을 나타내는 순서도이다.
도 5는 예시적인 락 어드레스 경합 예측 라이트 요청 모니터링 회로망의 기능을 나타내는 블록도이다.
도 6은 예시적인 락 어드레스 경합 예측 메카니즘을 나타내는 블록도이다.
도 7은 일시적 락 경합 예측을 사용하여, 추측성 락을 실행하기 위한 예시적인 방법을 나타내는 순서도이다.
도 8은 일시적 락 경합 예측을 사용하여, 추측성 락을 실행하기 위한 예시적인 방법을 나타내는 순서도이다.
일부 실시예는 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법을 제공한다. 메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어가 검출된다. 이전 추측성 락 동안 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부는, 락 명령어가 추측성 락 명렁어를 포함하는 조건에서 검출된다. 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했다면, 락은 비-추측성으로 실행된다. 이전 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생하지 않았다면, 락은 추측성으로 실행된다.
일부 실시예는 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법을 제공한다. 메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어가 검출된다. 특정한 기간 동안에 경합이 발생했던 메모리의 복수의 이전 추측성 락이 스레숄드 개수를 초과하는지 여부는 락 명령어가 추측성 락 명령어를 포함하는 조건에서 검출된다. 개수가 스레숄드 개수를 초과한다면, 락은 비-추측성으로 실행된다. 개수가 스레숄드 개수를 초과하지 않는다면, 락은 추측성으로 실행된다.
일부 실시예는 추측성 락킹을 구성하는 프로세싱 디바이스를 제공한다. 디바이스는, 실행 파이프라인을 포함하는 프로세서 코어와, 메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어를 검출하도록 구성된 락 명령어 검출 회로와, 락 명령어가 추측성 락 명령어를 포함한다는 조건에서, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하도록 구성된 경합 검출 회로와, 락킹 회로 - 상기 락킹 회로는, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했다면, 락을 비-추측성으로 실행하고, 및 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생하지 않았다면, 락을 추측성으로 실행하도록 구성됨 - 를 포함한다.
일부 실시예는 추측성 락킹하도록 구성된 프로세싱 디바이스를 제공한다. 디바이스는 실행 파이프라인을 포함하는 프로세서 코어와, 메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어를 검출하도록 구성된 락 명령어 검출 회로와, 락 명령어가 추측성 락 명령어를 포함한다는 조건에서, 특정한 기간 동안에 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하도록 구성된 경합 검출 회로와, 락킹 회로 - 상기 락킹 회로는, 개수가 스레숄드 개수를 초과한다면, 락을 비-추측성으로 실행하도록 구성되고, 개수가 스레숄드 개수를 초과하지 않는다면, 락을 추측성으로 실행하도록 더욱 구성됨 - 를 포함한다.
도 1은 하나 이상의 개시된 실시예가 실행될 수 있는 예시적인 디바이스(100)의 블록도이다. 디바이스(100)는 가령, 컴퓨터, 게이밍 디바이스, 휴대용 디바이스, 셋-톱 박스, 텔레비젼, 모바일폰 또는 태블릿 컴퓨터를 포함할 수 있다. 디바이스(100)는 프로세서(102), 메모리(104), 저장소(106), 하나 이상의 입력 디바이스(108) 및 하나 이상의 출력 디바이스(110)를 포함한다. 또한, 디바이스(100)는 입력 드라이버(112) 및 출력 드라이버(114)를 선택적으로 포함한다. 디바이스(100)가 도 1에 도시되지 않은 추가적인 구성요소를 포함할 수 있다는 것을 이해해야 한다.
프로세서(102)는 중앙 프로세싱 유닛(CPU), 그래픽 프로세싱 유닛(GPU), 동일한 다이에 위치된 CPU 및 GPU, 또는 하나 이상의 프로세서 코어를 포함할 수 있는데, 각각의 프로세서 코어는 CPU 또는 GPU일 수 있다. 메모리(104)는 프로세서(102)와 동일한 다이 상에 위치될 수 있거나, 프로세서(102)와 별도로 위치될 수 있다. 메모리(104)는, 가령, 랜덤 액세스 메모리(RAM), 동적 RAM 또는 캐시와 같은 휘발성 또는 비-휘발성 메모리를 포함할 수 있다.
저장소(106)는 가령, 하드 디스크 드라이브, 고체 상태 드라이브, 광학 디스크 또는 플래시 드라이브와 같은 고정되거나 삭제가능한 저장소를 포함할 수 있다. 입력 디바이스(108)는 키보드, 키패드, 터치 스크린, 터치 패드, 검출기, 마이크로폰, 가속도계, 자이로스코프, 생체인증 스캐너 또는 네트워크 연결부(가령, 무선 IEEE 802 신호의 전송 및/또는 수신을 위한 무선 로컬 영역 네트워크 카드)를 포함할 수 있다. 출력 디바이스(110)는 디스플레이, 스피커, 프린터, 햅틱 피드백 디바이스, 하나 이상의 광, 안테나 또는 네트워크 연결부(가령, 무선 IEEE 802 신호의 전송 및/또는 수신을 위한 무선 로컬 영역 네트워크 카드)를 포함할 수 있다.
입력 드라이버(112)는 프로세서(102) 및 입력 디바이스(108)와 통신하고, 프로세서(102)가 입력 디바이스(108)로부터의 입력을 수신하도록 허용한다. 출력 드라이버(114)는 프로세서(102) 및 출력 디바이스(110)와 통신하고, 프로세서(102)가 출력을 출력 디바이스(110)로 전송하도록 허용한다. 입력 드라이버(112) 및 출력 드라이버(114)는 선택적인 구성요소라는 것과 입력 드라이버(112) 및 출력 드라이버(114)가 존재하지 않는다면, 디바이스(100)가 동일한 방식으로 작동할 것이라는 점에 유의한다.
도 2는 두 개의 프로세싱 코어(210 및 220)를 포함하는 예시적인 멀티-코어 프로세서(200)를 나타내는 개략도이다. 프로세서(200)는 프로세서(102)와 같은 디바이스(100)와 함께 사용될 수 있다. 코어(210 및 220)는 CPU 코어, GPU 코어 또는 CPU 코어와 GPU 코어 각각 하나씩과 같은 임의의 적절한 컴퓨팅 코어일 수 있다. 코어(210 및 220)는 캐시 메모리(230)에 대한 액세스를 공유한다. 코어(210 및 220)는 각각 스레드를 실행할 수 있는데, 이는 캐시(230) 내의 동일한 캐시 엔트리(240)의 적어도 일부에 액세스할 수 있다. 일부 실시예에서, 코어(210 및 220)의 중 하나 또는 둘 다는 각각 캐시 메모리(230) 내의 동일한 캐시 엔트리(240)의 적어도 일부에 액세스하는 복수의 스레드를 실행할 수 있다. 본원에서 논의된 예시가 캐시 메모리에 관한 것이지만, 본원에 기술된 원리는, 임의의 적절한 메모리 또는 또 다른 캐시 층(미도시) 또는 도 1에 도시되고, 기술된바와 같은 메모리(104)와 같은 메모리 계층에 적용될 수 있다. 프로세서(200)는 예시적이고, 본원에서 기술된 원리는 또한 하나의 코어 프로세서 또는 두 개 보다 많은 코어를 가진 프로세서에 적용가능하다.
공유된 메모리 아키텍쳐에서 일어날 수 있는 한 가지 문제점은 아토믹 액세스(atomic access)에 관한 것이다. 예를 들어, 제1 스레드가 공유된 메모리 내에서 특정한 메모리 위치(가령, 도 2의 캐시 엔트리(250)) 내의 데이터에 대해 동작(가령, 리딩 및 라이팅)한다면, 데이터가, 제2 스레드가 동일한 시간에 동일한 메모리 위치에 대해 동작한다면, 변질될 수 있다.
이러한 문제점은, 락(lock)을 사용하여 해결될 수 있다. 락은, 락이 풀릴 때까지, 오직 하나의 스레드가 특정한 메모리에 액세스를 허용하는 상호 배제(뮤텍스) 메카니즘이다. 전형적으로, 락을 가진 스레드는, 스레드가 락을 풀때까지, 락 메모리 위치에 아토믹 액세스가 보장된다.
스레드는, 저장 명령어와 같이, 메모리 위치에 저장된 데이터에 영향을 주는 다른 명령어를 실행하기 전에, 가령, 락 명령어를 실행함에 의해, 특정한 메모리 위치에 대한 락을 얻을 수 있다. 본원에서 예시적인 목적을 위해, 락은 스레드에 의해 실행된 락 명령어에 의해 획득되고, 또한, 락은 스레드에 의해 실행된 명령어에 의해 풀린다. 그러나, 일부 실시예에서, 락은 스레드의해 실행된 명령어에 대한 접두사(prefix), 특정한 타입이나 버젼의 명령어 또는 임의의 다른 방식에 의해 획득 및/또는 풀릴 수 있다. 이들 중 임의의 것은, 이들이 별개의 락 명령어를 포함하는지 여부, 락 명령어가 또 다른 명령어 또는 가령, 플래그, 비트 또는 접두사와 같은 연산자와 결합되는지 여부와 관계없이, 락 명령어라고 말할 수 있다. 일반적으로, 특정한 메모리 위치가 스레드 또는 프로세스에 의해 락킹되면, 그 메모리 위치에 액세스하려고 시도하는 서로 다른 스레드 또는 프로세스는 그 메모리 위치에 액세스하는 것이 허용되지 않을 것이고, 전형적으로 부정 응답(NAK) 신호나 다른 적절한 신호를 수신할 것이다. 그러나, 본원에서 논의되는 다양한 테크닉과 디바이스는 락의 임의의 특정한 실시예로 제한되지 않는다.
락은, 락을 유지시키는 스레드와 프로세스를 지연시킬 수 있는 프로세싱 시간 면에서 대가가 클 수 있다. 프로세서 캐시 내의 메모리 위치를 락킹함에 의해, 락 명령어의 아토믹 속성을 보장하는 락 명령어는, 캐시 내의 라인을 락킹하기 전에, 락 명령어가 그 스레드 내의 더 오래된 모든 명령어의 완료를 기다릴 것을 요한다. 락 명령어가 더 오래된 명령어의 완료를 기다리는 동안, 프로세서 내의 버퍼가 백-업(즉, 가득차게 되거나 이에 근접함)할 수 있고, 프로세서를 정지시킨다.
이러한 잠재적인 단점을 완화하거나 회피하기 위한 한 가지 방법은, 아토미시티(atomicity)나 펜싱(fencing)과 같은 락의 하나 이상의 속성을 완화시키는 것이다. 예를 들어, 락은, 아토믹 액세스를 집행하지 않거나 엄격하게 집행하지 않음에 의해, 완화될 수 있다. 이러한 경우, 제2 스레드는 제1 스레드에 의해 락킹된 메모리 위치로의 액세스가 허용될 것이다. 그러나, 완화된 아토믹 액세스가 기능하기 위해서는, 락이 제1 스레드에 의해 유지되는 동안 제2 스레드가 메모리 위치에 액세스하지 않거나, 제2 스레드에 의한 액세스가 락 동안에 제1 스레드의 실행에 대해 역효과를 갖지 않아야 한다(가령, 완화된 락 하에서 제2 스레드에 의해 이루어진 계산이 엄격한 락 하에서 가지는 것과 동일한 결과를 생성함). 락 속성을 완화하는 것이 락킹된 메모리 위치 내의 유효한 데이터를 생산할 것인지 미리 알 필요가 없으므로, 완화된 락을 유지하는 스레드는 추측성으로 또는 추측성 락 하에서 실행된다고 말할 수 있다.
완화된 아토미시티를 가진 추측성 락의 간단한 예시에서, 제2 스레드는 락킹된 메모리 위치에만 리드 액세스가 허용되는데, 이는 데이터를 변경하지 않는다. 이러한 경우, 락은 리드에 대해 완화되어, 제1 스레드가 락을 푸는 것을 기다리지 않고, 제2 스레드가 이러한 리드를 실행하는 것이 허용된다.
완화된 아토미시티를 가진 추측성 락의 좀 더 복잡한 예시에서, 제2 스레드는 락킹된 메모리 위치에 라이트, 아니면 수정이 허용된다. 가령, 락이 제1 스레드에 의해 유지되는 동안 제2 스레드가 사실상 락킹된 메모리 위치에 액세스하지 않는 경우에, 이는 제1 스레드의 실행에 역효과를 주지 않을 것이다. 그러나, 제1 스레드가 제2 스레드에 의해 수정되기 전에 제1 스레드가 락킹된 메모리로부터 리드하는 경우 및 제1 스레드가 제2 스레드에 의해 수정된 후에, 제1 스레드가 락킹된 메모리에 라이트한 경우에, 이러한 타입의 추측성 락은 제1 스레드의 실행에 역효과를 줄 수 있다.
또 다른 예시에서, 락은 펜싱 속성을 엄격하게 집행하지 않음에 의해 완화될 수 있다. 이러한 경우, 제1 스레드는 특정한 메모리 위치에 대한 락을 유지하면서, 순서가 뒤바뀌어 실행되도록 허용될 것이다. 이는 어떤 환경하에서의 펜싱 속성의 위반을 야기할 수 있다. 예를 들어, 락 명령어보다 "더 젊은"(즉, 나중의) 제1 스레드로부터의 리드 명령어가 추측성 락이 완료되기 전에 실행된다면, 리드 명령어는 변질된 데이터를 리드할 수 있다. 제2 스레드로부터의 라이트 명령어가 추측성 락이 완료되기 전에 리드 명령어의 메모리 위치에 라이트하는 것이 발생할 수 있다. 락킹된 위치 내의 데이터의 유효성이 완화된 락 속성에 의해 위험해지기 때문에, 리드 명령어의 데이터의 유효성이 테스트되어야 한다.
데이터가 유효한지 여부를 결정하기 위한 한 가지 가능한 테스트는, 추측성 락이 제1 스레드에 의해 유지되었던 동안에, 제2 스레드가 락킹된 위치에 액세스하는지 하지 못하는지 여부를 결정하는 것이다. 다른 스레드에 의한 리드는 락킹 속성을 위반하지 않는다. 그러나, 다른 스레드에 의해 라이트할 추측성 락의 노출의 창이 있다. 추측성 락이 그 메모리 위치를 리드할 때, 윈도우가 시작하고, 추측성 락이 완료할 때 종료한다. 스레드가 노출의 추측성 락의 윈도우 내에 있는 동안, 추측성 락의 락킹 속성의 위반을 야기할 다른 스레드에 의한 라이트에 대해 스레드가 감시해야 한다. 추측성으로 락킹된 메모리 위치 및 추측성으로 락킹된 메모리 위치가 라이트되기 전에 완료되었던 추측성 락보다 젊은 모든 리드(read)는 테스트되거나 모니터링될 수 있다. 다른 스레드가 락킹된 위치에 라이트되지 않는다면, 데이터는 유효한 것으로 추정될 수 있다.
락킹된 위치 내에 저장된 데이터가 유효한 것으로 발견되면, 실행은 계속 정상으로 진행할 수 있고, 엄격한 락킹과 관련된 시간 페널티가 회피될 수 있다. 그러나, 락킹된 위치 내에 저장된 데이터가 무효인 것으로 발견(또는 추정)되면, (가령, 스레드를 실행하는 코어 및/또는 프로세서의) 실행 파이프라인은 플러싱되어야 하고, 추측성 락을 유지했던 스레드는 유효한 결과를 생성하는 방식으로 재-실행되어야 한다. 그러므로, 프로세서 캐시 내에 락킹된 위치에 저장된 데이터(또는 락이 풀린 이후)가, 추측성 락의 락킹 속성의 위반 때문에, 무효인 것으로 발견되는 예시에서, 실행 파이프라인이 플러싱되고, 제1 스레드는, 무효 데이터를 야기했던 완화된 조건을 회피하기 위해, 엄격한 락킹을 사용하여(즉, 비-추측성 락을 사용하여) 재-실행된다. 비-추측성 락 하에서 스레드를 재-실행한 이후에, 락킹된 위치 내의 데이터는 또 다른 스레드에 의해 오버라이트되지 않는 것으로 추정될 수 있다.
도 3은 추측성 락을 실행하기 위한 예시적인 방법(300)을 나타내는 순서도이다. 제1 스레드가 락 명령어를 실행하는 조건(310)에서, 스레드는 단계(320)에서 특정한 메모리 위치에 대해 추측성 락을 실행한다. 단계(320)에서의 추측성 실행 동안에, 메모리 위치 내의 데이터는 상기에서 논의된 바와 같이, 유효성에 대해 테스트된다. 락킹 속성이 위반되지 않았다는 조건(340)에서, 추측성 락이 완료되는 조건(330)이 아니라면, 락은 지속적으로 추측성으로 실행된다. 락킹 속성이 조건(340)에 대해 위반되었던 것으로 발견되면, 실행 파이프라인은 단계(350)에서 플러싱되고, 스레드는 단계(360)에서 재시작하며, 락은 단계(370)에서 완료까지 비-추측성으로 실행된다.
실행 파이프라인을 플러싱하고 스레드를 재-실행하는 것은 관련된 시간 페널티를 가지지만, 이는 락 속성을 완화함에 의해 실현된 시간 이득을 오프셋할 수 있다. 그러므로, 락의 속성을 완화하는 것은 어떤 상황에서 수익을 감소시킬 수 있다. 다시 말해, 어떤 환경하에서, 오류난 추측성 락 때문에, 실행 파이프라인을 플러싱하고 스레드를 재-실행하는 것은, 처음에 간단하게 비-추측성 락을 실행하는 것보다 시간(및 회로 영역) 면에서 비용이 더 들 수 있다. 따라서, 관련된 시간 페널티를 회피하기 위해, 완화된 락 속성이 메모리를 플러싱하고 실행을 재시작하는 것을 야기할 것 같은 상황을 예측하는 것이 바람직할 수 있다.
완화된 락 속성이 무효 데이터를 야기할 것 같은 상황을 예측하기 위한 한 가지 접근법은 락 어드레스 경합을 추적하는 것이다. 이러한 예측은, 그 어드레스에 대한 추측성 락이 과거에 플러싱과 재시작을 야기했거나, 그것이 과거에 락킹되던 동안에 다른 스레드가 그 어드레스에 액세스하려고 시도 한다면(즉, 어드레스에 대해 경합), 특정한 어드레스에 대한 추측성 락이 플러싱과 재시작을 야기할(또는 결과의 특정 가능성을 가질) 것 같다는 아이디어에 기반을 둔다. 이러한 예측은 락 어드레스 경합 예측이라고 할 수 있다. 예를 들어, 특정한 메모리 어드레스에 대한 추측성 락이 플러싱과 재시작을 야기한다면, 이러한 발생이 추적될 수 있다. 그 메모리 어드레스에 대한 미래의 락은 결과적으로 비-추측성으로 실행하도록 강요될 수 있다. 이러한 전력에 대한 변형예가 가능하다.
하나의 예시에서, 락킹된 어드레스 경합 예측자(LACP)는, 플러싱과 재시작을 야기했던 추측성 락에 의해 액세스되었던 프로세서 캐시 라인을 추적한다.
도 4는 락 어드레스 경합 예측을 사용하여 추측성 락을 실행하기 위한 예시적인 방법(400)을 나타내는 순서도이다. 제1 스레드가 락 명령어를 실행하는 조건(405)에서, LACP 회로는, 락 속성이 과거에 추측성 락을 따르는 타겟 어드레스에서 위반되었는지 여부 및 락 어드레스가 더 이상 프로세서의 로컬 캐시 내에 없는지 여부를 테스트한다. 락 속성이 과거에 위반되었고, 락킹된 어드레스가 더 이상 프로세서의 로컬 캐시 내에 없다는 조건(410)에서, 락은 단계(415)에서 비-추측성으로 실행된다. 아니라면, 락은 단계(420)에서, 추측성으로 실행된다.
단계(420)에서 추측성 실행 동안에, LACP 회로는, 락 속성이 락킹된 어드레스에 대해 위반되었는지 여부를 테스트한다. 일부 실시예에서, 락킹 속성은, 또 다른 스레드가 추측성 실행 동안에 메모리 위치에 액세스되었다면, 위반되었다고 추정된다. 락 속성이 위반되지 않았다는 조건(425)에서, 추측성 락이 완료되었던 조건(427)이 아니라면, 락은 지속적으로 추측성으로 실행된다.
락 속성이 위반되었다는 조건(425)에서, LACP는 단계(430)에서 업데이트된다. LACP를 업데이트 하는 것은, 락킹된 어드레스를 LACP에 더하는 것 또는 락킹된 어드레스가 이미 LACP에 기록되었다면, LACP 엔트리 연령(이러한 실시예에서 LACP는 락킹된 어드레스가 LACP 내에 기록되었던 "연령" 또는 시간의 길이를 추적하기 위한 회로를 포함함)을 업데이트하고, 그것의 히트 비트를 클리어하는 것을 수반한다. 어느 경우에나, LACP 엔트리와 관련된 히트 비트(또는 다른 표시자)는 클리어되어(아니면, 구성되어), 그 어드레스에 대한 락의 추측성 실행을 막는다. 실행 파이프라인이 단계(435)에서 플러싱되고, 스레드는 단계(440 및 415)에서 비-추측성으로 재시작되고 실행된다.
원하면, 특정한 어드레스를 추측성으로 락킹하는 것에 대한 금지가 기한 만료될 수 있다는 것에 주목한다. 일부 실시예에서, 기한 만료는, 원하는 구간, 복수의 명령어, 복수의 락 또는 다른 것 이후에, 명시적으로 발생할 수 있다. 일부 실시예에서, 기한 만료는, 또 다른 어드레스를 위한 공간을 만들기 위해 LACP로부터 추방된 어드레스 때문에, 발생할 수 있다.
도 5는 예시적인 LACP 라이트 요청 모니터링 회로(500)의 기능을 나타내는 블록도이다. 일부 실시예에서, 회로(500)는 도 4에 대하여 기술되고 도시된 방법(400) 및/또는 본원에서 논의된 다른 실시예와 같이 사용가능하고, 도 6에 대하여 기술되고 도시된 LACP 디바이스(600)에 통합되거나 아니면 같이 사용될 수 있다.
회로(500)는 LACP 엔트리로의 라이트 요청을 모니터링하도록 구성된다. 단계(510)에서, 회로(500)는, 임의의 LACP 엔트리에 대해 또 다른 스레드가 LACP 엔트리 내에 저장된 어드레스에 라이트하려고 시도하는지 여부를 검출한다. 이러한 라이트 시도가 검출되는 조건(520)에서, 회로(500)는 단계(530) 내의 대응되는 LACP 엔트리의 연령 필드와 히트 비트(또는 다른 표시자)를 업데이트한다. 아니라면, 회로(500)는 단계(510)에서 다른 스레드에 의한 라이트 요청을 지속적으로 모니터링한다.
본원에서 논의된 다른 실시예(도 4와 같은)와 통합된 도 5에 도시된 단계는 이들 메카니즘과 비동기식으로 실행된다는 점을 주목한다. 그러므로, 본 예시에서, LACP 라이트 요청 모니터링 회로(500)는, LACP 엔트리의 연령 필드와 히트 비트를 업데이트하기 전에, 추측성 락이나 비-추측성 락이 완료하기를 기다리지 않고, 프로세서 캐시 엔트리로의 라이트 요청에 대한 테스팅 이전에, 추측성 락 또는 비-추측성 락이 시작하기를 기다리지 않는다. 다른 실시예에서, 도 5에 도시된 단계는 동기식으로 실행될 수 있다는 점을 주목한다.
본 예시적인 실시예에서, 그 어드레스와 관련된 캐시 라인이 프로세서의 로컬 캐시 내에 있는 동안, LACP 엔트리의 어드레스가 추적된다. 다른 실시예에서, LACP 엔트리의 어드레스가 항상 추적될 수 있다는 점에 주목한다. 이러한 실시예에서, LACP는 라인이 검출된 경합을 갖지 않는다는 것을 나타낸다. 본 예시적인 실시예에서, 히트 비트(hit bit)는 LACP 추적된 어드레스가 여전히 프로세서의 로컬 캐시 내에 있는지 아닌지를 나타낸다.
도 6은 본원에서 논의된 다양한 실시예에 따른 예시적인 LACP 메카니즘(600)을 나타내는 블록도이다. 예시적인 LACP 메카니즘(600)은 여러 메모리 엔트리(610)를 포함하지만, 임의의 적절한 수의 엔트리가 사용될 수 있다는 점에 주목한다. 이들 메모리 엔트리(610)는, 과거에 추측성으로 락킹되는 동안 락킹 속성이 위반되었던 프로세서 캐시(670) 내의 메모리 위치의 어드레스를 저장하도록 구성된다. 일부 실시예에서, 메모리 엔트리(610)는 또한, 다른 스레드가 락 동안에 액세스를 위해 경합되었던 프로세서 캐시(670) 내에 메모리 위치의 어드레스를 저장하도록 구성되거나 대신 구성될 수 있다.
LACP 메모리 엔트리의 개수는 원하는 대체 전략에 기반을 둘 수 있다(가령, 엔트리를 실행하기 위해 요구되는 논리 회로의 양과 아니면, 미래에 유용한 정보를 제공할 수 있는 엔트리를 대체하는 것 사이의 트레이드-오프에 기초하여). 본 예시에서, LACP 메모리 엔트리(610)는 LACP의 캐시 내의 엔트리이다. 각각의 엔트리(610)는, 추측성 락의 락 속성이 위반되었던 프로세서 캐시(670)의 캐시 라인을 추적하는데 사용될 수 있다. 각각의 엔트리(610)는 히트 비트(650) 및 연령 필드(660)를 포함한다.
스레드의 실행 동안에, 락 명령어가 프로세서 캐시(670)의 캐시 엔트리(630)에 대해 실행된다며, 그리고 캐시 엔트리(630)의 어드레스가 LACP 엔트리(610) 중 하나 내에 저장된 어드레스와 매칭되지 않는다면, 락은 추측성으로 실행할 수 있다. 캐시 엔트리(630)의 어드레스가 LACP 엔트리(610) 중 하나 내에 저장된 어드레스와 매칭되지 않으면, 특정한 LACP 엔트리(610)에 대한 캐시 히트 비트(650)가 활성화되지 않는다면, 그것은 추측성으로 실행할 수 있다. 특정한 LACP 엔트리(610)에 대한 캐시 히트 비트(650)가 활성화되지 않는다면, 그러나 락은 비-추측성으로 실행해야 한다. 활성화/비-활성화는 비트, 플래그 또는 필드와 같은 임의의 적절한 방법으로 표현될 수 있다는 것에 주목한다.
히트 비트(650)는, 추측성으로 락킹된 프로세서 캐시 어드레스가 이미 LACP 내에 저장되지 않는, 추측성 락의 속성이 위반되어 새로운 LACP 엔트리(610)가 생성될 때, 클리어된다. 기존의 LACP 엔트리(610)의 히트 비트(650)는, 또 다른 스레드로부터의 라이트 액세스(즉, LACP 엔트리를 생성했던 스레드 이외의)가 LACP 엔트리(610)와 매칭될 때, 클리어된다. 히트 비트는, 비-추측성 락이 LACP 엔트리를 생성했던 스레드에 해대 완료될 때, 활성화된다(비-추측성 락 완료는 캐시 라인이 로컬 캐시 내에 있다는 것을 보장함).
락이 가령, 프로세서 캐시(670)의 캐시 엔트리(630)에 대해 추측성으로 실행된다면, 그리고, 캐시 엔트리(630)에 대한 추측성 락의 락 속성이 (가령, 추측성 락을 유지시키는 스레드 이외의 스레드로부터의 라이트 액세스에 의해) 위반된다면, 캐시 엔트리(630)의 어드레스는 비교기(620)를 사용하여, 각각의 엔트리(610)와 비교된다.
캐시 엔트리(630)가 LACP 엔트리(610) 중 기존의 하나와 매칭되지 않으면, LACP 엔트리(610) 중 하나가 선택되어서, 추측성 락의 캐시 라인(630)을 추적하고, 캐시 엔트리(630)의 어드레스는 임의의 원하는 대체 전력에 따라 LACP 엔트리(610) 중 하나에 저장된다. LACP 엔트리는 추방되고, 임의의 적절한 캐시 대체 알고리즘(가령, 요구된 논리 회로의 양 및/또는 발생된 지연과 미래에 유용한 정보를 제공할 수 있는 엔트리를 대체하는 것 사이의 트레이드-오프에 기초하여)을 사용하여 대체된다. 예를 들어, 비어 있는 LACP 엔트리가 사용될 수 있거나, 비어 있는 LACP 엔트리가 없다면, 적어도 최근에 사용된 LACP 엔트리(가령, 연령 필드(660)에 따라 결정된 바와 같이)가 대체될 수 있다.
LACP 엔트리(610)의 히트 비트(650)는 또한, 추측성 락의 락킹 속성이 위반된다면, 클리어되어서, 락이 이러한 어드레스에 대해 추측성으로 실행되는 것을 막아야하고, LACP 엔트리(610)의 연령 필드(660)가 리셋되는 것을 나타낸다. LACP 엔트리(610)가 생성되었던 이후에, 스레드가 재시작되고, 락은 비-추측성으로 실행된다.
프로세서 캐시 엔트리(630)로의 또 다른 스레드의 라이트 액세스가 LACP 엔트리(610) 중 기존 하나와 매칭된다면, 히트 비트(650)는 클리어되는데, 이는 락이 이러한 어드레스에 대해 추측성으로 실행되는 것을 막아야하고, LACP 엔트리(610)의 연령 필드(660)가 리셋되는 것을 나타낸다.
비-추측성 락이 프로세서 캐시 엔트리(630)에 대해 활성화되면, 엔트리(630)의 어드레스는 비교기(620)를 사용하여, LACP 엔트리(610)와 비교된다. 프로세서 캐시 엔트리(630)가 기존 LACP 엔트리(610)와 매칭된다면, 락이 완료되거나, 그 이후에, 엔트리의 히트 비트가 활성화되고, 이는, LACP 엔트리의 어드레스가 프로세서의 로컬 캐시 내에 현재 있는 메모리 위치와 관련된다는 것을 나타낸다. 활성화된 히트 비트는, LACP 엔트리와 매칭되는 이후의 락 명령어가 추측성으로 실행될 수 있다는 것을 나타낸다. 그러나, 나중의 락 명령어가 실행되기 전에, 또 다른 스레드는 메모리 액세스를 위한 엔트리(630)를 조사한다면, 엔트리(630)의 어드레스는 비교기(620)를 사용하여 엔트리(610)와 비교된다. 캐시 엔트리(630)는 기존 LACP 엔트리(610)와 매칭된다면, 엔트리의 히트 비트가 클리어되고, 이는 락이 캐시 엔트리(630)에 대해 추측성으로 실행되지 않을 수 있다는 것을 나타낸다.
상기에서 볼 수 있는 바와 같이, LACP 캐시 히트 비트(650)는 동작의 두 경우를 구별할 수 있다. 첫 번째 경우에서, LACP 엔트리(610)는 프로세서 로컬 캐시(670)에 대한 비-추측성 락을 위해 기록된다. 이러한 경우, LACP 캐시 히트 비트(650)는 활성화되어, 락이 지속적으로 캐시 엔트리(630)를 위해 추측성으로 실행될 수 있다는 것을 나타낸다. 캐시 엔트리(630)의 어드레스가 LACP 엔트리(610)를 히트함에도 불구하고, 추측성 락은 이러한 경우에 허용된다. 두 번째 경우에서, 또 다른 스레드에 의한 액세스는 프로세서 로컬 캐시(670)로부터 캐시 엔트리(630)를 제거한다. 따라서, LACP 엔트리(610)에 대한 히트 비트는, 락 명령어가 캐시 엔트리(630)를 위해 추측성으로 실행되는 것을 막기 위해, 본 경우에 클리어된다. 이는, 제2 스레드가 캐시 엔트리(630)에 대한 락킹 속성을 위반하는 기회를 다룬다.
완화된 락 속성이 실행 파이프라인을 플러싱 및 비-추측성 락을 사용하여 실행을 재시작을 야기할 것 같은 상황을 예측하기 위한 또 다른 접근법은 일시적 락 경합을 추적하는 것이다. 이러한 예측은, 임의의 어드레스에 대해 주어진 개수의 추측성 락이 과거에 플러싱과 재시작을 야기하였거나, 주어진 개수의 다른 스레드가 과거에 락킹되었던 동안에 임의의 어드레스로 액세스를 위해 경합되었다면, 임의의 어드레스에 대한 추측성 락이 플러싱과 재시작을 야기할 것 같다는 아이디어에 기반을 둔다. 임의의 어드레스에 대한 추측성 락은 또한, 주어진 개수의 플러싱과 재시작 또는 경합 이벤트가 주어진 기간 내에, 어떤 속도로, 아니면, 시간에 기초하여, 임의의 어드레스에 대해 발생한 것으로 고려될 수 있다. 이러한 예측은 일시적 락 경합 예측이라고 할 수 있다.
하나의 예시에서, 일시적 락 경합 예측자는 마지막 X 캐시가능한 락 명령어의 경합 히스토리를 추적하는데, 여기서, X는 임의의 적절한 숫자일 수 있다. X는 가령, 요구되는 논리의 양과 미래에 유용한 정보를 제공할 수 있는 엔트리를 대체하는 것 간의 트레이드-오프에 기초하여 선택될 수 있다. 캐시가능한 락이 추측성이고, 플러싱과 재시작을 야기한다면, 그것은, 일시적 락 경합 예측자에 의해, 락 영합 이벤트로 기록된다. 락 경합 이벤트의 개수가 원하는 스레숄드 개수(Y)를 초과한다면, 이후의 락 명령어가 추측성으로 실행되는 것이 방지된다. 이러한 예시에서, 추측성 락킹의 빈번한 오류는 추측성 락킹의 미래의 오류의 예측자로 간주된다.
도 7은 일시적 락 경합 예측(TLCP)을 사용하여, 추측성 락을 실행하기 위한 예시적인 방법(700)을 나타내는 순서도이다. 제1 스레드가 락 명령어를 실행하는 조건(705)에서, TLCP 회로는 과거의 X 캐시가능한 락 명령어에서, 락 속성이 추측성 락 동안에 Y 또는 더 많이 위반되었는지 여부를 테스트한다. 이러한 예시에서, TLCP 회로는 과거의 X 캐시가능한 락 명령어에서 발생했던 락 속성 위반의 개수를 추적하기 위한 카운터를 포함하지만, TLCP 회로는 이러한 실시예에 제한되지 않는다. 예를 들어, TLCP 회로는 대신에, (단지 과거의 X 캐시가능한 락 명령어 내가 아니라) 과거의 캐시가능한 락 명령어의 절대적 개수를 추적할 수 있다. 다양한 실시예에서, TLCP는 특정한 락킹된 어드레스에 대한 락킹 위반 또는 임의의 어드레스에 대한 모든 락킹 위반의 개수를 추적할 수 있다는 것에 주목한다.
락 속성은 과거의 X 캐시가능한 락 명령어에서, Y 또는 더 많이 위반되었다는 조건(710)에서, 락은 단계(715)에서 비-추측성으로 실행되고, TLCP는 단계(750)에서 성공적인 락 실행을 위해 업데이트된다. 락 속성이 과거의 X 캐시가능한 락 명령어에서, Y 또는 더 많이 위반되었다면, 락은 단계(720)에서 추측성으로 실행된다. 추측성 실행 동안에, TLCP 회로는 추측성 락의 락 속성이 위반되었는지 여부를 테스트한다.
추측성 락의 락 속성이 위반되지 않았다는 조건(725)에서, 및 락 속성이 완료된다는 조건(727)에서, TLCP는 단계(760)에서 성공적인 락 실행을 위해 업데이트된다. 락 속성이 위반된 것으로 발견되는 조건(725)에서, TLCP 내의 데이터는 단계(730)에서 실패한 락 실행을 위해 업데이트되고, 실행 파이프라인은 단계(735)에서 플러싱되고, 스레드는 단계(740)에서 재시작되고, 단계(715)에서 비-추측성으로 실행되고, TLCP는 단계(750)에서 성공적인 락 실행을 위해 업데이트된다.
또 다른 예시에서, TLCP 회로는 또한, 지난 X 캐시가능한 락 명령어의 경합 히스토리를 추적한다. 본 예시에서, 캐시가능한 락이, 락 속성이 위반되었던 추측성 락이라면, 락킹된 어드레스는 TLCP 회로에 의해 기록된다. 락 경합 이벤트의 개수가 원하는 수(Y)라면, 이후의 락 명령어는 추측성으로 실행되는 것이 방지된다. 이러한 실시예는 예시적이다. 예를 들어, TLCP 회로는 대신에, 지난 X 캐시가능한 락 명령어와 같은 특정한 시간 윈도우 내에서, 플러싱/재시작 및 NAK의 개수를 추적할 수 있다. 이러한 예시에서, (추측성으로 또는 비-추측성으로) 락킹된 메모리에 대해, 다른 스레드에 의한 추측성 락킹과 경합의 빈번한 실패는 추측성 락킹의 미래의 실패의 예측자로 간주된다.
도 8은 일시적 락 경합 예측(TLCP)을 사용하여, 추측성 락을 실행하기 위한 예시적인 방법(800)을 나타내는 순서도이다. 제1 스레드가 락 명령어를 실행한다는 조건(805)에서, TLCP 회로는 락 속성이 과거의 X 캐시가능한 락 명령어에서, 추측성 락 이후에 Y 또는 더 많이 위반되었는지(가령, 락을 유지하는 스레드 이외의 스레드가 락킹된 어드레스에서 프로세서 캐시로의 라이트 액세스에 대해 경합되었거나, 락의 펜싱 속성이 위반되었는지) 여부를 테스트한다. 이러한 예시에서, TLCP 회로는 과거의 X 캐시가능한 락 명령어에서 발생했던 락 속성 위반의 개수를 추적하기 위한 카운터를 포함하지만, TLCP 회로는 이러한 실시예에 제한되지 않는다.
메모리 상에(이러한 예시에서 임의의 메모리 엔트리) 추측성 락의 락 속성이 과거의 X 캐시가능한 락 명령어에서, Y 또는 더 많이 위반되었다는 조건(810)에서, 락은 단계(815)에서 비-추측성으로 실행된다. 락은 단계(815)에서 비-추측성으로 실행되는 반면, 비-추측성으로 락킹된 메모리 엔트리로 라이트하기 위해, 라이트 요청은 또 다른 스레드에 의해 이루어졌는지 결정된다. 어느 경우에나, 조건(887)에서 락이 완료되지 않는다면, 락은 단계(815)에서 비-추측성으로 지속적으로 실행된다.
이러한 요청이 락 동안에 임의의 지점에서 이루어졌다는 조건(850)에서, TLCP는 단계(855)에서 락 경합을 나타내기 위해 업데이트된다. 이러한 요청이 이루어지지 않았다는 조건(850)에서, TLCP는 단계(880)에서 락 경합이 없다는 것을 나타내기 위해 업데이트된다. TLCP가 이미 적절한 상태를 반영하는 경우, 고속 업데이트가 필요하지 않을 수 있다는 것을 주목한다. 또한, TLCP 업데이트는, 일부 실시예에서 락 완료되거나 이후에, 발생할 수 있다는 것도 주목한다.
락 속성이 과거의 X 캐시가능한 락 명령어에서 Y 또는 더 많이 위반되지 않았다면, 락은 단계(820)에서 추측성으로 실행된다. 추측성 실행 이후에, TLCP 회로는 추측성 락의 락 속성이 위반되었는지 여부를 테스트한다. 일부 실시예에서, 데이터는, 또 다른 스레드가 추측성 실행 동안에 메모리 위치에 액세스된다면, 무효인 것으로 추정된다.
추측성 락의 락 속성이 또 다른 스레드로부터의 락 경합에 의해 위반되지 않았다는 조건(825)에서, 그리고 락이 완료된다는 조건(827)에서, TLCP는 단계(890)에서 락 경합이 없다면 업데이트된다. 추측성 락의 락 속성이 또 다른 스레드로부터의 락 경합에 의해 위반되었다는 조건(825)에서, TLCP는 단계(830)에서 락 경합이 발생되었다는 것을 나타내기 위해 업데이트되고, 실행 파이프라인은 단계(835)에서 플러싱되고, 스레드는 단계(840)에서 재시작되고, 단계(815)에서 비-추측성으로 실행된다.
일부 실시예에서, 이들 개념은 조합될 수 있다. 예를 들어, 어떤 메모리 위치로의 락 명령어는, 그 메모리 위치로의 락 명령어의 특정한 개수가 플러싱/재시작을 야기하거나, 특정한 기간 내의 그 메모리 위치로의 락 명령어의 특정한 개수가 플러싱/재시작을 야기하거나, 특정한 속도나 아니면 시간을 기초로 그 메모리 위치로의 락 명령어가 플러싱/재시작을 야기한다면, 추측성으로 실행되는 것을 막을 수 있다.
메모리 디바이스 내의 엔트리를 락킹하기 위한 방법이 본원에서 논의된다. 메모리 디바이스의 특정한 메모리 엔트리를 위한 스레드에 의해 실행된 락 명령어가 검출된다. 락 명령어가 검출된다면, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 발생했던 경합이 검출된다. 이전의 추측성 락 동안에, 특정한 메모리 엔트에 대해 경합이 발생했다면, 락 명령어는 비-추측성으로 실행된다. 이전의 추측성 락 동안에, 특정한 메모리 엔트리에 대해 경합이 발생하지 않았다면, 락 명령어는 추측성으로 실행된다.
일부 예시에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부는, 락 명령어가 추측성으로 실행된다는 조건에서 검출된다. 일부 예시에서, 스레드가 실행하는 실행 파이프라인은 플러싱되고, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생한다면, 스레드는 락 명령어로부터 시작하여 비-추측성으로 재-실행된다.
일부 예시에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 단계는, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 단계를 포함한다. 일부 예시에서, 경합은, 메모리 엔트리의 락 동안에 또 다른 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위해 요청하는 것 또는 수정하기 위해 요청하는 것 중 임의의 것을 포함한다. 일부 실시예에서, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하는 단계는, 또 다른 스레드가 이전의 추측성 락 동안에 특정한 메모리 엔트리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 단계를 포함한다. 일부 예시에서, 락을 추측성으로 실행하는 단계는 락의 제약을 완화하는 단계를 포함한다. 일부 예시에서, 락을 추측성으로 실행하는 단계는, 락의 아토믹 액세스 속성(atomic access property) 또는 펜싱 속성(fencing property)을 완화하는 단계를 포함한다.
메모리 디바이스 내의 엔트리를 락킹하기 위한 방법이 본원에서 개시된다. 메모리 디바이스의 특정한 메모리 엔트리를 위한 스레드에 의해 실행된 락 명령어가 검출된다. 특정한 기간 동안에, 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부는, 락 명령어가 검출된다면, 검출된다. 개수가 스레숄드 개수를 초과한다면, 락 명령어는 비-추측성으로 실행된다. 개수가 스레숄드 개수를 초과하지 않는다면, 락 명령어는 추측성으로 실행된다.
일부 예시에서, 특정한 기간 동안에, 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 단계는, 특정한 기간 동안에, 경합이 발생했던 특정한 메모리 엔트리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 단계를 포함한다. 일부 예시에서, 특정한 기간 동안에, 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 단계는, 특정한 기간 동안에, 경합이 발생했던 메모리 디바이스 내의 임의의 메모리 엔트리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 단계를 포함한다.
일부 예시에서, 락 명령어가 추측성으로 실행되는 조건에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부가 검출된다. 일부 예시에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생한다면, 스레드가 실행하는 실행 파이프라인이 플러싱되고, 락 명령어부터 시작하여 스레드를 비-추측성으로 재-실행된다.
일부 예시에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 단계는, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 단계를 포함한다. 일부 예시에서, 경합은, 메모리 엔트리의 락 동안에 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위해 요청하는 것 또는 수정하기 위해 요청하는 것 중 임의의 것을 포함한다. 일부 예시에서, 특정한 기간 동안에, 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 단계는, 또 다른 스레드가 이전의 추측성 락 동안에 메모리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 단계를 포함한다. 일부 예시에서, 락을 추측성으로 실행하는 단계는 락의 제약을 완화하는 단계를 포함한다. 일부 예시에서, 락을 추측성으로 실행하는 단계는, 락의 아토믹 액세스 속성 또는 펜싱 속성을 완화하는 단계를 포함한다.
추측성 락킹을 하도록 구성된 프로세싱 디바이스가 본원에서 개시된다. 프로세서 코어는 실행 파이프라인을 포함한다. 락 명령어 검출 회로는 메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어를 검출하도록 구성된다. 경합 검출 회로는, 락 명령어가 검출되면, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하도록 구성된다. 락킹 회로는, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했다면, 락 명령어를 비-추측성으로 실행하도록 구성된다. 락킹 회로는, 경합이 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 발생하지 않았다면, 락 명령어를 추측성으로 실행하도록 더욱 구성된다.
일부 예시에서, 경합 검출 회로는, 락 명령어가 추측성으로 실행된다는 조건에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하도록 더욱 구성된다. 일부 예시는, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생한다면, 스레드가 실행하는 실행 파이프라인을 플러싱하고, 락 명령어부터 시작하여 비-추측성으로 스레드를 재-실행하도록 구성된 재-실행 회로를 포함한다.
일부 예시에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 것은, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 것을 포함한다. 일부 예시에서, 경합은, 메모리 엔트리의 락 동안에 또 다른 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위한 요청 또는 수정하기 위한 요청 중 임의의 것을 포함한다. 일부 예시에서, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하는 것은, 또 다른 스레드가 이전의 추측성 락 동안에 특정한 메모리 엔트리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 것을 포함한다. 일부 예시에서, 락을 추측성으로 실행하는 것은 락의 제약을 완화하는 것을 포함한다. 일부 예시에서, 락을 추측성으로 실행하는 것은, 락의 아토믹 액세스 속성 또는 펜싱 속성을 완화하는 것을 포함한다.
추측성 락킹을 하도록 구성된 프로세싱 디바이스가 본원에서 개시된다. 프로세서 코어는 실행 파이프라인을 포함한다. 락 명령어 검출 회로는 메모리 디바이스의 특정한 메모리 엔트리를 위한 스레드에 의해 실행된 락 명령어를 검출하도록 구성된다. 경합 검출 회로는, 락 명령어가 검출되면, 특정한 기간 동안에, 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하도록 구성된다. 개수가 스레숄드 개수를 초과한다면, 락킹 회로는 락을 비-추측성으로 실행하도록 구성된다. 개수가 스레숄드 개수를 초과하지 않는다면, 락킹 회로는 락을 추측성으로 실행하도록 더욱 구성된다.
일부 예시에서, 특정한 기간 동안에 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 것은, 특정한 기간 동안에 경합이 발생했던 특정한 메모리 엔트리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 것을 포함한다. 일부 예시에서, 특정한 기간 동안에, 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 것은, 특정한 기간 동안에, 경합이 발생했던 메모리 디바이스 내의 임의의 메모리 엔트리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 것을 포함한다. 일부 예시에서, 경합 검출 회로는, 락 명령어가 추측성으로 실행된다는 조건에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하도록 더욱 구성된다.
일부 예시는, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생한다면, 스레드가 실행하는 실행 파이프라인을 플러싱하고, 락 명령어부터 시작하여 비-추측성으로 스레드를 재-실행하도록 구성된 재-실행 회로를 포함한다. 일부 예시에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 것은, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 것을 포함한다. 일부 예시에서, 경합은, 메모리 엔트리의 락 동안에, 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위한 요청 또는 수정하기 위한 요청 중 임의의 것을 포함한다.
일부 예시에서, 특정한 기간 동안에, 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는 것을 검출하는 것은, 또 다른 스레드가 이전의 추측성 락 동안에 메모리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 것 중 임의의 하나를 포함한다. 일부 실시예에서, 락을 추측성으로 실행하는 것은 락의 제약을 완화하는 것을 포함한다. 일부 예시에서, 락을 추측성으로 실행하는 것은, 락의 아토믹 액세스 속성 또는 펜싱 속성을 완화하는 것을 포함한다.
많은 변형예가 본원 개시물에 기초하여 가능하다는 것을 이해해야 한다. 도면과 요소가 상기에 특정한 조합으로 기술되더라도, 각각의 특징부 또는 요소는 다른 특징부와 요소없이 단독으로 또는 다른 특징부와 요소를 사용하거나 사용하지 않은 다양한 조합으로 사용될 수 있다.
제공된 본 방법은 일반적인 목적의 컴퓨터, 프로세서 또는 프로세서 코어에서 실행될 수 있다. 적절한 프로세서는 예를 들어, 일반적인 목적의 프로세서, 특수 목적의 프로세서, 종래의 프로세서, 디지털 신호 프로세서(DSP), 복수의 마이크로프로세서, DSP 코어와 관련된 하나 이상의 마이크로프로세서, 제어기, 마이크로제어기, 응용 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 회로, 임의의 다른 타입의 집적 회로(IC), 및/또는 상태 머신을 포함한다. 이러한 프로세서는 프로세스된 하드웨어 기술 언어(HDL) 명령어 및 네트리스트를 포함하는 다른 중개 데이터(이러한 명령어는 컴퓨터 판독가능한 매체 상에 저장될 수 있음)의 결과를 사용하여, 제조 프로세스를 구성함에 의재 제조될 수 있다. 이러한 프로세싱의 결과는 본 실시예의 양태를 실시하는 프로세서를 제조하기 위한 반도체 제조 프로세스에서 사용되는 마스크작업일 수 있다.
본원에서 제공된 방법이나 순서도는, 일반적인 목적의 컴퓨터나 프로세서에 의해 실행을 위한 비-일시적 컴퓨터-판독가능한 저장 매체 내에 통합된, 컴퓨터 프로그램, 소프트웨어 또는 펌웨어에서 실행될 수 있다. 비-일시적 컴퓨터-판독가능한 저장 매체의 예시는 리드 온리 메모리(ROM), 랜덤 액세스 메모리(RAM), 레지스터, 캐시 메모리, 반도체 메모리 디바이스, 내부 하드 디스크와 삭제가능한 디스크와 같은 자기 매체, 자기-광학 매체 및 CD-ROM 디스크와 같은 광학 매체 및 디지털 범용 디스크(DVD)를 포함한다.

Claims (36)

  1. 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법에 있어서, 상기 방법은,
    메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어를 검출하는 단계와,
    락 명령어가 검출된다는 조건에서, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하는 단계와,
    이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했다는 조건에서, 락 명령어를 비-추측성으로 실행하는 단계와, 및
    이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생하지 않았다는 조건에서, 락 명령어를 추측성으로 실행하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  2. 제 1 항에 있어서,
    락 명령어가 추측성으로 실행된다는 조건에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 단계를 더 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  3. 제 2 항에 있어서,
    추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생한다는 조건에서, 스레드가 실행하는 실행 파이프라인을 플러싱(flushing)하고, 락 명령어부터 시작하여 스레드를 비-추측성으로 재-실행하는 단계를 더 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  4. 제 2 항에 있어서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 단계는, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  5. 제 1 항에 있어서, 경합은, 메모리 엔트리의 락 동안에 또 다른 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위해 요청하는 것 또는 수정하기 위해 요청하는 것 중 임의의 것을 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  6. 제 1 항에 있어서, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하는 단계는, 또 다른 스레드가 이전의 추측성 락 동안에 특정한 메모리 엔트리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  7. 제 1 항에 있어서, 락을 추측성으로 실행하는 단계는 락의 제약을 완화하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  8. 제 1 항에 있어서, 락을 추측성으로 실행하는 단계는, 락의 아토믹 액세스 속성(atomic access property) 또는 펜싱 속성(fencing property)을 완화하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  9. 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법에 있어서, 상기 방법은,
    메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어를 검출하는 단계와,
    락 명령어가 검출된다는 조건에서, 특정한 기간 동안에 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 단계와,
    개수가 스레숄드 개수를 초과한다는 조건에서, 락 명령어를 비-추측성으로 실행하는 단계와, 및
    개수가 스레숄드 개수를 초과하지 않는다는 조건에서, 락 명령어를 추측성으로 실행하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  10. 제 9 항에 있어서, 특정한 기간 동안에 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 단계는,
    특정한 기간 동안에 경합이 발생했던 특정한 메모리 엔트리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  11. 제 9 항에 있어서, 특정한 기간 동안에 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 단계는,
    특정한 기간 동안에 경합이 발생했던 메모리 디바이스 내의 임의의 메모리 엔트리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  12. 제 9 항에 있어서, 락 명령어가 추측성으로 실행되는 조건에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 단계를 더 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  13. 제 12 항에 있어서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 단계는, 스레드가 실행하는 실행 파이프라인을 플러싱하고, 락 명령어부터 시작하여 스레드를 비-추측성으로 재-실행하는 단계를 더 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  14. 제 12 항에 있어서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 단계는, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  15. 제 9 항에 있어서, 경합은, 메모리 엔트리의 락 동안에 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위해 요청하는 것 또는 수정하기 위해 요청하는 것 중 임의의 것을 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  16. 제 9 항에 있어서, 특정한 기간 동안에 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 단계는, 또 다른 스레드가 이전의 추측성 락 동안에 메모리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  17. 제 9 항에 있어서, 락을 추측성으로 실행하는 단계는 락의 제약을 완화하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  18. 제 9 항에 있어서, 락을 추측성으로 실행하는 단계는, 락의 아토믹 액세스 속성 또는 펜싱 속성을 완화하는 단계를 포함하는, 메모리 디바이스 내의 엔트리를 락킹하기 위한 방법.
  19. 추측성 락킹을 하도록 구성된 프로세싱 디바이스에 있어서, 상기 디바이스는,
    실행 파이프라인을 포함하는 프로세서 코어와,
    메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어를 검출하도록 구성된 락 명령어 검출 회로와,
    락 명령어가 검출된다는 조건에서, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하도록 구성된 경합 검출 회로와,
    락킹 회로 - 상기 락킹 회로는,
    이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했다는 조건에서, 락 명령어를 비-추측성으로 실행하고, 및
    이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생하지 않았다는 조건에서, 락 명령어를 추측성으로 실행하도록 구성됨 - 를 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  20. 제 19 항에 있어서, 경합 검출 회로는, 락 명령어가 추측성으로 실행된다는 조건에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하도록 더욱 구성되는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  21. 제 20 항에 있어서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생한다는 조건에서, 스레드가 실행하는 실행 파이프라인을 플러싱하고, 락 명령어부터 시작하여 비-추측성으로 스레드를 재-실행하도록 구성된 재-실행 회로를 더 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  22. 제 20 항에 있어서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 것은, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  23. 제 19 항에 있어서, 경합은, 메모리 엔트리의 락 동안에 또 다른 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위한 요청 또는 수정하기 위한 요청 중 임의의 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  24. 제 19 항에 있어서, 이전의 추측성 락 동안에 특정한 메모리 엔트리에 대해 경합이 발생했는지 여부를 검출하는 것은, 또 다른 스레드가 이전의 추측성 락 동안에 특정한 메모리 엔트리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  25. 제 19 항에 있어서, 락을 추측성으로 실행하는 것은 락의 제약을 완화하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  26. 제 19 항에 있어서, 락을 추측성으로 실행하는 것은, 락의 아토믹 액세스 속성 또는 펜싱 속성을 완화하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  27. 추측성 락킹을 하도록 구성된 프로세싱 디바이스에 있어서, 상기 디바이스는,
    실행 파이프라인을 포함하는 프로세서 코어와,
    메모리 디바이스의 특정한 메모리 엔트리에 대해, 스레드에 의해 실행된 락 명령어를 검출하도록 구성된 락 명령어 검출 회로와,
    락 명령어가 검출된다는 조건에서, 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하도록 구성된 경합 검출 회로와,
    락킹 회로 - 상기 락킹 회로는,
    개수가 스레숄드 개수를 초과한다는 조건에서, 락 명령어를 비-추측성으로 실행하고, 및
    개수가 스레숄드 개수를 초과하지 않는다는 조건에서, 락 명령어를 추측성으로 실행하도록 구성됨 - 를 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  28. 제 27 항에 있어서, 특정한 기간 동안에 경합이 발생했던 메모리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 것은,
    특정한 기간 동안에 경합이 발생했던 특정한 메모리 엔트리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  29. 제 27 항에 있어서, 특정한 기간 동안에 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는지 여부를 검출하는 것은,
    특정한 기간 동안에 경합이 발생했던 메모리 디바이스 내의 임의의 메모리 엔트리의 이전의 추측성 락의 개수가 스레숄드 개수를 초과하는지 여부를 검출하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  30. 제 27 항에 있어서, 경합 검출 회로는, 락 명령어가 추측성으로 실행된다는 조건에서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하도록 더욱 구성되는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  31. 제 28 항에 있어서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생한다는 조건에서, 스레드가 실행하는 실행 파이프라인을 플러싱하고, 락 명령어부터 시작하여 비-추측성으로 스레드를 재-실행하도록 구성된 재-실행 회로를 더 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  32. 제 28 항에 있어서, 추측성 락 동안에 또 다른 스레드로부터의 특정한 메모리 엔트리에 대해 경합이 발생하는지 여부를 검출하는 것은, 특정한 메모리 엔트리가 무효 데이터를 포함하는지 여부를 검출하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  33. 제 27 항에 있어서, 경합은, 메모리 엔트리의 락 동안에, 스레드에 의해 메모리 엔트리에 액세스 하는 것, 수정하는 것, 액세스하기 위한 요청 또는 수정하기 위한 요청 중 임의의 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  34. 제 27 항에 있어서, 특정한 기간 동안에 경합이 발생했던 메모리의 복수의 이전의 추측성 락이 스레숄드 개수를 초과하는 것을 검출하는 것은, 또 다른 스레드가 이전의 추측성 락 동안에 메모리에 액세스 요청하였거나, 액세스하였거나, 수정하는 것을 요청하였거나, 수정하였는지를 검출하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  35. 제 27 항에 있어서, 락을 추측성으로 실행하는 것은 락의 제약을 완화하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
  36. 제 27 항에 있어서, 락을 추측성으로 실행하는 것은, 락의 아토믹 액세스 속성 또는 펜싱 속성을 완화하는 것을 포함하는, 추측성 락킹을 하도록 구성된 프로세싱 디바이스.
KR1020197008081A 2016-09-22 2017-09-06 락 어드레스 경합 예측자 KR102594618B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/273,304 US11868818B2 (en) 2016-09-22 2016-09-22 Lock address contention predictor
US15/273,304 2016-09-22
PCT/US2017/050240 WO2018057293A2 (en) 2016-09-22 2017-09-06 Lock address contention predictor

Publications (2)

Publication Number Publication Date
KR20190045225A true KR20190045225A (ko) 2019-05-02
KR102594618B1 KR102594618B1 (ko) 2023-10-26

Family

ID=61621027

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197008081A KR102594618B1 (ko) 2016-09-22 2017-09-06 락 어드레스 경합 예측자

Country Status (6)

Country Link
US (1) US11868818B2 (ko)
EP (1) EP3516495A4 (ko)
JP (2) JP2019530120A (ko)
KR (1) KR102594618B1 (ko)
CN (1) CN109791470A (ko)
WO (1) WO2018057293A2 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175669A (ja) * 2004-06-30 2011-09-08 Intel Corp 競合しないロック命令の投機実行のための方法及び装置
KR20150055083A (ko) * 2010-08-11 2015-05-20 나이키 이노베이트 씨.브이. 사용자 인터페이스에서의 정보의 지능형 디스플레이
KR20160026599A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 반도체 장치, 반도체 시스템 및 시스템 온 칩
KR20160098299A (ko) * 2013-12-02 2016-08-18 바스프 에스이 감소된 알데히드 방출을 갖는 폴리우레탄

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487652B1 (en) * 1998-12-08 2002-11-26 Sun Microsystems, Inc. Method and apparatus for speculatively locking objects in an object-based system
US7120762B2 (en) 2001-10-19 2006-10-10 Wisconsin Alumni Research Foundation Concurrent execution of critical sections by eliding ownership of locks
US6862664B2 (en) * 2003-02-13 2005-03-01 Sun Microsystems, Inc. Method and apparatus for avoiding locks by speculatively executing critical sections
US7930694B2 (en) * 2004-09-08 2011-04-19 Oracle America, Inc. Method and apparatus for critical section prediction for intelligent lock elision
US7984248B2 (en) 2004-12-29 2011-07-19 Intel Corporation Transaction based shared data operations in a multiprocessor environment
US20090125519A1 (en) * 2007-11-13 2009-05-14 Intel Corporation Device, system, and method for regulating software lock elision mechanisms
US8914620B2 (en) 2008-12-29 2014-12-16 Oracle America, Inc. Method and system for reducing abort rates in speculative lock elision using contention management mechanisms
US8539168B2 (en) * 2009-06-26 2013-09-17 Oracle America, Inc. Concurrency control using slotted read-write locks
US8453122B2 (en) 2009-11-10 2013-05-28 International Business Machines Corporation Symmetric multi-processor lock tracing
US8719828B2 (en) 2011-10-14 2014-05-06 Intel Corporation Method, apparatus, and system for adaptive thread scheduling in transactional memory systems
WO2013115818A1 (en) * 2012-02-02 2013-08-08 Intel Corporation A method, apparatus, and system for transactional speculation control instructions
WO2013115816A1 (en) * 2012-02-02 2013-08-08 Intel Corporation A method, apparatus, and system for speculative abort control mechanisms
WO2015055083A1 (en) 2013-10-14 2015-04-23 International Business Machines Corporation Adaptive process for data sharing with selection of lock elision and locking
US9524195B2 (en) * 2014-02-27 2016-12-20 International Business Machines Corporation Adaptive process for data sharing with selection of lock elision and locking
US9971627B2 (en) 2014-03-26 2018-05-15 Intel Corporation Enabling maximum concurrency in a hybrid transactional memory system
US9471397B2 (en) * 2014-10-03 2016-10-18 International Business Machines Corporation Global lock contention predictor
GB2536871A (en) 2015-03-04 2016-10-05 Advanced Risc Mach Ltd An apparatus and method to generate trace data in response to transactional execution

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175669A (ja) * 2004-06-30 2011-09-08 Intel Corp 競合しないロック命令の投機実行のための方法及び装置
KR20150055083A (ko) * 2010-08-11 2015-05-20 나이키 이노베이트 씨.브이. 사용자 인터페이스에서의 정보의 지능형 디스플레이
KR20160098299A (ko) * 2013-12-02 2016-08-18 바스프 에스이 감소된 알데히드 방출을 갖는 폴리우레탄
KR20160026599A (ko) * 2014-08-29 2016-03-09 삼성전자주식회사 반도체 장치, 반도체 시스템 및 시스템 온 칩

Also Published As

Publication number Publication date
US11868818B2 (en) 2024-01-09
CN109791470A (zh) 2019-05-21
JP2019530120A (ja) 2019-10-17
WO2018057293A2 (en) 2018-03-29
JP2022191340A (ja) 2022-12-27
US20180081544A1 (en) 2018-03-22
EP3516495A4 (en) 2020-06-17
KR102594618B1 (ko) 2023-10-26
EP3516495A2 (en) 2019-07-31
WO2018057293A3 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
US8327188B2 (en) Hardware transactional memory acceleration through multiple failure recovery
US10268502B2 (en) Methods and apparatus to perform atomic transactions in nonvolatile memory under hardware transactional memory
KR101834262B1 (ko) 하이브리드 트랜잭션 메모리 시스템에서 최대 동시실행을 가능케 하기
US8041900B2 (en) Method and apparatus for improving transactional memory commit latency
US9244725B2 (en) Management of transactional memory access requests by a cache memory
AU2010337319B2 (en) Performing mode switching in an unbounded transactional memory (UTM) system
US7529914B2 (en) Method and apparatus for speculative execution of uncontended lock instructions
US9798577B2 (en) Transactional storage accesses supporting differing priority levels
KR101970390B1 (ko) 2진 변환 기반 프로세서들에 의한 록 생략
US10108464B2 (en) Managing speculative memory access requests in the presence of transactional storage accesses
US20100205609A1 (en) Using time stamps to facilitate load reordering
CN114730294A (zh) 用于执行存储到加载转发的技术
KR102421670B1 (ko) 잠금 후 명령의 추정적 퇴거
US11113065B2 (en) Speculative instruction wakeup to tolerate draining delay of memory ordering violation check buffers
KR102594618B1 (ko) 락 어드레스 경합 예측자
US11630772B1 (en) Suppressing cache line modification
CN118043791A (zh) 对推测性地执行的指令的弱高速缓存行无效请求

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant