KR102024283B1 - 다중스레드 컴퓨팅 - Google Patents

다중스레드 컴퓨팅 Download PDF

Info

Publication number
KR102024283B1
KR102024283B1 KR1020147023157A KR20147023157A KR102024283B1 KR 102024283 B1 KR102024283 B1 KR 102024283B1 KR 1020147023157 A KR1020147023157 A KR 1020147023157A KR 20147023157 A KR20147023157 A KR 20147023157A KR 102024283 B1 KR102024283 B1 KR 102024283B1
Authority
KR
South Korea
Prior art keywords
channel
event
kernel
channels
data
Prior art date
Application number
KR1020147023157A
Other languages
English (en)
Other versions
KR20140117578A (ko
Inventor
마이클 클레어 하우스톤
마이클 맨터
리 더블유. 하워스
베네딕트 알. 가스터
Original Assignee
어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어드밴스드 마이크로 디바이시즈, 인코포레이티드 filed Critical 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Publication of KR20140117578A publication Critical patent/KR20140117578A/ko
Application granted granted Critical
Publication of KR102024283B1 publication Critical patent/KR102024283B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system

Abstract

시스템, 방법, 및 컴퓨터 프로그램 제품이 다중스레드 애플리케이션들의 리소스 이용을 개선하기 위해 제공된다. 채널로부터 데이터를 대기하거나 또는 블로킹을 최소화하기 위해 콘텍스트 스위칭을 요구하면서 블로킹하도록 스레드들에 요구하기보다는, 여기에 개시된 기술들은 단지 채널 데이터에 대한 동작들을 수행하기 위해 요구될 때만 커널들을 론칭하며, 그 후 리소스들을 자유롭게 하도록 종료하기 위해 이벤트-구동 접근법을 제공한다. 이들 동작들은 하드웨어로 효율적으로 핸들링되지만, 프로그래밍 모델들의 모든 방식으로 구현되기에 충분히 유연하다.

Description

다중스레드 컴퓨팅{MULTITHREADED COMPUTING}
본 발명은 전반적으로 소프트웨어 프로그래밍에 관한 것이며, 보다 구체적으로, 다중스레드 프로그래밍 기술들에 관한 것이다.
많은 고-성능 컴퓨팅 애플리케이션들이 다중스레딩 기술들을 사용하여 기록된다. 다중스레딩 기술을 사용할 때, 다수의 실행 스레드들이 동시에 또는 프로세싱 파이프라인에 대한 액세스를 교번시킴으로써 상이한 태스크들 상에서 작동할 수 있다. 예를 들면, 태스크가 두 개의 별개의 서브-태스크들로 분해될 수 있다면, 그것은 각각의 하나가 상이한 서브-태스크를 핸들링하는, 두 개의 별개의 스레드들을 생성하는데 유용할 수 있다. 이들 스레드들은 그 후 그것들의 대응하는 결과들을 생성하며, 이것은 전체 태스크를 함께 해결한다.
상이한 기술들이 태스크에 작업을 할당하기 위해 존재한다. 하나의 접근법은 "생산자-소비자 설계(producer-consumer design)"로 흔히 칭하여진다. 생산자-소비자 설계 접근법 내에서, 하나 이상의 스레드들은 데이터를 생산하는데 책임이 있으며, 하나 이상의 스레드들은 생산된 데이터를 소비하는데 책임이 있다. 일 예로서, 생산자 스레드는 파일로부터 소비자 스레드에 의해 액세스 가능한 메모리 영역으로 데이터를 판독하는데 책임이 있을 수 있다. 소비자 스레드는 상기 메모리 영역으로부터 데이터를 검색하며 필요에 따라 데이터를 프로세싱한다(소비한다).
소비자 스레드들의 책임들이 보다 복잡해짐에 따라, 소비자 스레드의 리소스 요건들이 또한 통상적으로 더 복잡해진다. 생산자-소비자 설계 접근법에서, 소비자 스레드들은 데이터가 생산자 스레드로부터 메모리 영역에 도달할 때 데이터를 핸들링하기 위해 이용 가능하다. 메모리에 상주한 채로 있기 위해 소비자 스레드들에 대한 이러한 요건은 과도한 리소스 이용을 요구한다. 부가적으로, 메모리 영역이 비어 있다면 소비자 스레드가 임의의 동작들을 수행하지 않을 수 있는 상황들에서조차, 활성 메모리 안으로 및 밖으로 소비자 스레드들을 스와핑하는 것은 또한 값비싸다(예를 들면, 과도한 프로세싱 사이클들, 완료 시간, 전력, 및 다른 양상들에 대하여).
따라서, 요구되는 것은 소비자 스레드들의 리소스 요건들을 감소시키기 위한 기술이다.
본 발명의 실시예는 채널을 정의하는 단계, 상기 채널로부터 데이터를 판독하도록 구성된 소비자 커널을 정의하는 단계, 상기 채널에 데이터를 기록하도록 구성된 생산자 커널을 정의하는 단계, 및 상기 채널의 조건이 만족될 때 상기 소비자 커널을 론칭(launch)하도록 구성된 채널 이벤트를 등록하는 단계를 포함한 방법을 포함한다.
본 발명의 또 다른 실시예는 컴퓨터 디바이스에 의해, 그것의 실행이 컴퓨팅 디바이스로 하여금 동작들을 수행하게 하는 지시들을 저장한 컴퓨터-판독 가능한 저장 디바이스로서, 상기 동작들이 채널을 정의하는 것, 상기 채널로부터 데이터를 판독하도록 구성된 소비자 커널을 정의하는 것, 상기 채널에 데이터를 기록하도록 구성된 생산자 커널을 정의하는 것, 및 상기 채널의 조건이 만족될 때 상기 소비자 커널을 시작하도록 구성된 채널 이벤트를 등록하는 것을 포함하는, 상기 컴퓨터-판독 가능한 저장 디바이스를 포함한다.
본 발명의 추가 실시예는 채널, 상기 채널로부터 데이터를 판독하도록 구성된 소비자 커널, 상기 채널에 데이터를 기록하도록 구성된 생산자 커널, 및 채널 이벤트를 등록하도록 구성된 등록 모듈로서, 상기 채널 이벤트는 상기 채널의 조건이 만족될 때 상기 소비자 커널을 론칭하도록 구성되는, 상기 등록 모듈을 포함한 모듈들을 저장하도록 구성된 메모리, 및 상기 모듈들을 프로세싱하도록 구성된 하나 이상의 프로세서들을 갖는 시스템을 포함한다.
본 발명의 추가 특징들 및 이점들, 뿐만 아니라 본 발명의 다양한 실시예들의 구조 및 동작은 첨부한 도면들을 참조하여 이하에 상세히 설명된다. 본 발명은 여기에 설명된 특정 실시예들에 제한되지 않는다는 것이 주의된다. 이러한 실시예들은 단지 예시 목적들을 위해 여기에 제공된다. 부가적인 실시예들은 여기에 포함된 교시들에 기초하여 관련 있는 기술(들)에서의 숙련자들에게 명백할 것이다.
여기에 통합되며 명세서의 일 부분을 형성하는, 첨부한 도면들은 본 발명의 실시예들을 예시하며, 설명과 함께, 본 발명의 원리들을 설명하기 위해 및 관련 기술에서의 숙련자가 본 발명을 만들고 사용할 수 있게 하도록 추가로 작용한다.
도 1은 기존의 기술들을 사용한 예시적인 다중스레드 애플리케이션이다.
도 2는 본 발명의 실시예에 따른, 다중스레드 애플리케이션을 예시한다.
도 3은 본 발명의 실시예에 따라, 다중스레드 애플리케이션이 개발되는 동작들을 예시한 흐름도이다.
도 4는 본 발명의 실시예에 따른, 연장된 채널 및 이벤트 핸들링의 동작을 예시한 흐름도이다.
도 5는 본 발명의 실시예에 따라, 대표적인 생산자-소비자 구현과 일치하는 소비자 커널의 동작을 예시한 흐름도이다.
도 6은 본 발명의 실시예들이 구현될 수 있는 예시적인 컴퓨터 시스템을 묘사한다.
본 발명이 이제 첨부한 도면들을 참조하여 설명될 것이다. 도면들에서, 일반적으로, 유사한 참조 부호들은 동일하거나 또는 기능적으로 유사한 요소들을 표시한다. 부가적으로, 일반적으로, 참조 부호의 가장-왼쪽 숫자(들)는 참조 부호가 먼저 나타나는 도면을 식별한다.
본 발명의 다음의 상세한 설명은 본 발명과 일치하는 대표적인 실시예들을 예시하는 첨부한 도면들을 나타낸다. 다른 실시예들이 가능하며, 수정들이 본 발명의 사상 및 범위 내에서 실시예들에 대해 이루어질 수 있다. 그러므로, 상세한 설명은 본 발명을 제한하도록 의도되지 않는다. 오히려, 본 발명의 범위는 첨부된 청구항들에 의해 정의된다.
이하에 설명되는 바와 같이, 본 발명의 양상들은 소프트웨어, 하드웨어, 펌웨어, 및/또는 도면들에 예시된 엔티티들의 많은 상이한 실시예들에서 구현될 수 있다는 것이 이 기술분야의 숙련자에게 명백할 것이다. 본 발명을 구현하기 위한 하드웨어의 전문화된 제어를 가진 임의의 실제 소프트웨어 코드는 본 발명을 제한하지 않는다. 따라서, 본 발명의 동작적 행동은, 여기에 제공된 세부사항들의 레벨을 고려해볼 때, 실시예들의 수정들 및 변형들이 가능하다는 이해를 갖고 설명될 것이다.
부가적으로, 및 이 기술분야의 숙련자에게 명백할 바와 같이, 본 발명의 다양한 실시예들의 시뮬레이션, 합성, 및/또는 제조가, 일반 프로그래밍 언어들(C 또는 C++과 같은), 베릴로그 HDL, VHDL, 알테라 HDL(AHDL) 등을 포함한 하드웨어 기술 언어들(hardware description languages; HDL), 또는 다른 이용 가능한 프로그래밍 및/또는 개략적인 캡처 툴들(회로 캡처 툴들과 같은)을 포함하여, 컴퓨터 판독 가능한 코드(상기 주지된 바와 같이)의 사용을 통해, 부분적으로, 성취될 수 있다. 이러한 컴퓨터 판독 가능한 코드는 반도체, 자기 디스크, 광 디스크(CD-ROM, DVD-ROM과 같은)를 포함한 임의의 알려진 컴퓨터 사용 가능한 매체에 및 컴퓨터 사용 가능한(예로서, 판독 가능한) 송신 매체(캐리어 파 또는 디지털, 광학, 또는 아날로그-기반 매체를 포함한 임의의 다른 매체)에 구체화된 컴퓨터 데이터 신호로서 배치될 수 있다. 이와 같이, 코드는 인터넷 및 인터넷들을 포함한 통신 네트워크들을 통해 송신될 수 있다. 상기 설명된 시스템들 및 기술들에 의해 달성된 기능들 및/또는 그에 의해 제공된 구조가 프로그램 코드에 구체화되는 코어(그래픽스 프로세싱 유닛(GPU) 코어와 같은)에 표현될 수 있으며 집적 회로들의 제조의 일부로서 하드웨어로 변형될 수 있다는 것이 이해된다. 이해될 바와 같이, 다른 유형들의 코어들 또는 프로세싱 유닛들이 본 발명의 양상들을 구체화한 기능들 및/또는 구조를 제공할 수 있다. 이들 프로세싱 유닛들은 예를 들면, 중앙 프로세싱 유닛들(CPU들), 앞서 언급한 그래픽스 프로세싱 유닛들, 디지털 신호 프로세서들, 애플리케이션 프로세서들 등을 포함할 수 있다.
본 명세서에서의 모듈들 및 청구항들에 대한 참조는 표시된 기능을 수행하기 위한 하드웨어 또는 소프트웨어 구성요소들의 임의의 조합을 의미한다. 모듈은 엄격하게 정의된 엔티티일 필요는 없으며, 따라서 여러 개의 모듈들은 기능적으로 하드웨어 및 소프트웨어 구성요소들을 중첩시킬 수 있다. 예를 들면, 소프트웨어 모듈은 절차 내에서의 코드의 단일 라인을 나타낼 수 있고, 절차 자체는 별개의 소프트웨어 모듈일 수 있다. 관련 기술들에서의 숙련자는 예를 들면, 모듈들의 기능이 다수의 문체 또는 성능-최적화 기술들에 따라 정의될 수 있다는 것을 이해할 것이다.
도 1은 기존의 기술들을 사용한 예시적인 다중스레드 애플리케이션(100)이다. 이 예에서, 메인 프로세스가 단계(102)에서 스레드들을 생성(spawn)하며, 구체적으로 하나 이상의 생산자 스레드들 및 하나 이상의 소비자 스레드들이 생산자-소비자 설계 접근법에 따라 생성된다. 관련 기술에서의 숙련자는 다른 스레딩 모델들이 존재하며 본 개시에 적절하다는 것을 이해할 것이며, 생산자-소비자 설계 접근법은 여기에 예로서 및 본 개시의 어딘가에서 사용된다.
생산자 스레드는 단계(104)에서 데이터를 발생시키는 임무를 부여받는다. 예를 들면, 생산자 스레드는 파일 또는 데이터베이스로부터 데이터를 판독할 수 있다. 이러한 데이터는 라인들의 세트로 이루어진 그래픽과 같이, 애플리케이션(100)이 프로세싱하도록 구성되는 임의의 것일 수 있다. 이러한 예의 목적을 위해, 그래픽 파일로부터의 라인 또는 다른 세트의 데이터에 대한 프로세싱은 다른 라인들 또는 세트들의 데이터를 프로세싱하는 것과 병행하여 핸들링될 수 있다고 가정된다.
단계(106)에서, 생산자는 데이터를 배치하기 위해 버퍼(112)에 공간이 있는지 여부를 결정한다. 그렇지 않다면, 생산자는 단계(108)에 표시된 바와 같이, 공간이 이용 가능해질 때까지 대기한다. 리소스가 이용 가능해질 때까지 스레드가 추가 프로세싱을 수행할 수 없는 이러한 대기 상태는 때때로 "블로킹(blocking)"으로서 알려져 있다. 블로킹 동안, 스레드는 임의의 유용한 작업을 수행하지 않음에도 불구하고 시스템 리소스들을 계속해서 사용한다.
일단 리소스(이 경우에 버퍼(112))가 이용 가능해지면, 생산자는 단계(110)에서 버퍼(112)에 데이터를 배치한다. 생산자는 그 후 임의의 부가적인 데이터(예로서, 그래픽 파일로부터의 부가적인 이미지 라인)를 생성하기 위해 단계(104)를 다시 계속한다.
소비자 스레드는 생산자가 버퍼(112)에 배치하는 데이터를 프로세싱하는 임무를 부여받는다. 실제로 소비자가 생산자들보다 수가 더 많은 경향이 있을지라도, 소비자 스레드들은 보다 시간-소모적인 프로세싱을 책임지기 때문에, 다수의 생산자들 및 다수의 소비자들이 생산자-소비자 설계 접근법에 사용될 수 있다.
생산자-소비자 접근법의 이러한 예를 계속하면, 소비자 스레드는 그래픽 파일로부터 개개의 라인 또는 다른 세트의 데이터에 대한 작업을 수행하기 위해 제공된다. 일 실시예에서, 소비자 스레드는 실제 병렬 동작에서 그래픽 파일로부터 다른 데이터와 관계없이 이러한 작업을 수행할 수 있다. 예를 들면, 소비자 스레드들은 그래픽의 컬러 공간(픽셀 당 할당된 비트들의 수)을 감소시키기 위해 사용될 수 있으며, 각각은 그래픽의 대응하는 데이터에 대해 그렇게 할 수 있다. 관련 기술에서의 숙련자는 본 출원이 제한이 아닌, 예로서 제공된다는 것을 다시 이해할 것이다.
그것의 작업을 수행하기 위해, 소비자 스레드는 단계(114)에서 그것 상에서 작업하기 위해 버퍼(112)에 데이터가 있는지 여부를 결정한다. 이용 가능한 데이터가 없다면, 소비자 스레드는 단계(116)에 표시된 바와 같이 진행할 수 없으며 대기(블로킹)해야 한다. 상기 논의된 바와 같이, 소비자 스레드는 데이터가 버퍼(112)에서 이용 가능해질 때까지 블로킹하는 동안 시스템 리소스들을 계속해서 이용한다.
다양한 메커니즘들이 스레드 블로킹을 위해 존재한다. 예를 들면, 스레드는 조건을 테스트하며 상기 조건이 만족될 때까지 블로킹할 수 있다(예로서, 버퍼가 데이터를 갖는지 여부를 테스트하고, 록을 위해 테스트하는 등). 상기 조건이 만족된다면, 스레드가 그 후 진행될 수 있다. 이 경우에, 스레드는 버퍼(112)로부터 데이터를 검색하기 위해 단계(118)로 진행한다. 스레드는 그 후 데이터를 프로세싱함으로써(예를 들면, 그래픽 데이터의 라인의 컬러 공간을 감소시킴으로써) 단계(120)에서 데이터를 소비한다. 소비자 스레드는 그 후 단계(114)로 리턴하며, 부가적인 작업을 핸들링할 준비를 한다.
방법(100)에 설명된 이러한 접근법이 가진 중요한 문제는, 어떤 유용한 작업도 수행되지 않을지라도, 블로킹 상태에 있는 동안(예로서, 상기 단계들(108 및 116))의 스레드들에 의한 상당한 리소스 이용이다. 이것은 다른 스레드들이 프로세싱 리소스들의 몇몇을 이용할 수 있게 하기 위해 프로세싱 파이프라인 밖으로 블로킹된 스레드들을 스위칭함으로써 콘텍스트-스위칭 프로세서들에서 어느 정도로 개선될 수 있다. 그렇기는 하지만, 콘텍스트 스위칭은 스위칭 아웃된 스레드들에 대한 스레드-당 상태 정보의 보유를 요구하며, 따라서 그것들의 상태 정보는 그것들이 다시 스위칭 인될 때 보존된다. 부가적으로, 모든 프로세서들이, 그럼에도 불구하고 다중스레드 프로그래밍을 할 수 있는 많은 GPU들과 같이, 필요한 콘텍스트-스위칭 동작들을 수행할 수 있는 것은 아니다.
그 결과, 빈 채널 상에서 판독 스레드를 블로킹하는 동안, 하나의 스레드가 기록하며 또 다른 스레드가 판독하는 종래의 구현들은 효율적인 접근법이 아니다. 이것은 시스템 리소스들을 차지하는 오랜 스레드들을 초래하며, 스케줄러에 의해 스위칭 아웃될 필요가 없을 수 있다. 부가적으로, 스위칭 아웃될 지라도, 이들 스레드들은 스레드-당 상태 정보를 보유하기 위해 리소스들을 계속해서 소비한다.
도 2는 본 발명의 실시예에 따른, 다중스레드 애플리케이션(200)을 예시한다. 다중스레드 애플리케이션(200), 및 여기에 구체화된 기술들은 스레드 블로킹과 연관된 기존의 리소스 이용 문제의 비효율성들에 대한 해결책을 제공한다. 다시, 여기에서의 논의는 생산자-소비자 모델의 맥락에서 제공되지만, 관련 기술들에서의 숙련자는 블로킹이 발생할 수 있는 다른 다중스레딩 모델들로의 이러한 기술의 적용 가능성을 이해할 것이다.
다중스레드 애플리케이션(200)은, 본 발명의 실시예에 따라, 생산자 커널(202) 및 소비자 커널(210)을 제공한다. 비-제한적인 예로서, 여기에서의 구현 세부사항들은 크로노스 그룹(Khronos Group)에 의해 개발된 OpenCL 병렬 프로그래밍 표준의 맥락에서 논의된다. 그러나, 관련 기술들에서의 숙련자는 다른 개발 플랫폼들로의 이들 기술들의 적용 가능성을 이해할 것이다.
생산자 커널(202) 및 소비자 커널(210)은 OpenCL "커널" 용어를 사용하여, 각각 생산자 태스크 및 소비자 태스크에 대응하는 코드 블록들이다. OpenCL에서, 커널은 스레드 또는 한 세트의 병렬 스레드들에 의해 핸들링되는 태스크이다. OpenCL 런타임은, 특정한 디바이스 상에서의 실행을 위해 상기 커널(스레드)을 큐잉하는, 명령어-큐 상에 실행될 커널들을 배치할 것이다. OpenCL의 유연성은 CPU들 및 GPU들 양쪽 모두를 포함하여, 다수의 프로세싱 디바이스들에 대한 커널들의 큐잉을 허용한다. 이해될 바와 같이, OpenCL 외의 API들이 또한 이용될 수 있다. 예를 들면, 마이크로소프트 코포레이션(Microsoft Corporation)으로부터의 DirectCompute™은 이용될 수 있는 또 다른 API이다.
생산자 커널(202) 및 소비자 커널(210)에 의한 데이터의 흐름을 예시하기 위해, 도 2는 본 발명의 실시예에 따라, 생산자 큐(204) 및 소비자 큐(208)의 사용을 추가로 예시한다. 본 발명의 실시예에 따라, 생산자 큐(204)는 문자 그대로의 큐일 필요는 없으며, 오히려 생산자 큐는 하나 이상의 소비자 커널들(210)로서 실행을 위한 작업을 제공하기 위해 생산자 커널(202)이 판독하는 몇몇 종류의 데이터 소스일 필요가 있다. 다시 이전 예를 참조하면, 그래픽 데이터의 라인들을 포함한 파일은 생산자 큐(204)로서 여겨질 수 있으며, 상기 생산자 커널(202)은 파일로부터 그래픽 데이터의 라인들을 판독한다. 관련 기술들에서의 숙련자는 다른 데이터 소스들이 이용될 수 있으며, 생산자 큐(204)가 제한이 아닌, 예로서 제공된다는 것을 이해할 것이다.
유사하게, 본 발명의 실시예에 따라, 소비자 큐(208)는 문자 그대로의 큐일 필요는 없으며, 오히려 소비자 커널(210)에 의해 프로세싱된 작업에 대한 몇몇 목적지를 표현한다. 다시 이전 예를 참조하면, 각각의 소비자 커널(210)은 본 발명의 실시예에 따라, 소비자 큐(208) 밖으로 그래픽 데이터의 개개의 라인을 빼며 그것을 프로세싱한다. 다수의 소비자 커널들(210)은 그것들 각각의 작업에 대해 그렇게 할 수 있다. 관련 기술들에서의 숙련자는 소비자 커널(210)에 대한 작업의 다른 소스들이 사용될 수 있으며, 소비자 큐(208)는 제한이 아닌, 예로서 제공된다는 것을 이해할 것이다.
도 1의 단순한 버퍼 예를 사용하는 대신에, 본 발명의 실시예에 따라 다중스레드 애플리케이션(200)이 채널(206)을 도입한다. 지원 기능과 함께, 채널(206)은 소비자 스레드들에 의한 블로킹을 제거하기 위한 능력을 제공한다.
채널(206)은 단일 버퍼 또는 큐가 아니지만, 대신에 채널에 관련하여 커널 론치 트리거의 등록을 허용하는 생산자 커널(202) 및 소비자 큐(208) 사이에 보다 정교한 통신 경로를 제공한다. 이러한 커널 론치 트리거는, 소비자 큐(208)에서의 작업의 존재와 같이, 조건이 충족될 때 소비자 커널(210)을 론칭할 것이다.
도 3은 본 발명의 실시예에 따라, 다중스레드 애프리케이션이 이러한 접근법을 이용하기 위해 개발되는 동작들을 예시한 방법(300)의 흐름도이다. 방법은 단계(302)에서 시작하며 생산자 커널이 정의되는 단계(304)로 진행한다. 비-제한적인 예로서, 여기에 개시된 신규 채널 및 이벤트 핸들링 개념들을 수용하기 위해 확대되어 온 OpenCL 구문을 사용하여, 생산자 커널이 다음의 방식으로 정의될 수 있다:
Figure 112014078544142-pct00001
이러한 예시적인 생산자 커널에서, 두 개의 별개의 채널들이 기록된다. 각각의 채널은 현재 예에서, 데이터 값이 5보다 큰 지 여부와 같은, 조건을 고려해볼 때 생산자 커널에 의해 어레이("a")(즉, 생산자 큐(204))로부터 검색된 데이터로 채워진다.
단계(306)에서, 본 발명의 실시예에 따라, 소비자 커널이 정의된다. 확장된 OpenCL 구문을 갖고 상기 비-제한적인 예를 계속하면, 소비자 커널은 사용되는 각각의 채널(채널들(b 및 c))에 대해 정의된다. 본 발명의 실시예에서, 이들 소비자 커널들은 다음의 방식으로 정의된다:
Figure 112014078544142-pct00002
상기 예시적인 소비자 커널들에서, 각각의 커널은 그것 각각의 채널로부터 정수 값을 판독하며 상기 값을 전역 정수 값(즉, 소비자 큐(210))에 부가하는 유사한 태스크를 수행한다.
단계(308)에서, 채널은 본 발명의 실시예에 따라 정의된다. 단계(310)에서, 채널 이벤트는 채널의 특정한 조건들이 만족될 때 동작들을 트리거하기 위해 등록된다.
확장된 OpenCL 구문을 갖고 상기 비-제한적인 예를 계속하면, 두 개의 채널들(채널B 및 채널C)이 대응하는 이벤트 트리거들과 함께, 단계(308)에서 정의된다. 이들 채널들 및 이벤트들은 다음의 방식으로 정의될 수 있다:
Figure 112014078544142-pct00003
상기 예에서, 채널들은 특정한 채널 조건이 만족될 때 사용하기 위해 이벤트 핸들러의 표시 및 특정한 크기 파라미터들을 갖고 생성된다. 비-제한적인 예로서, OpenCL에 대한 컴파일러와 같은, 프로그래밍 언어 컴파일러는 다음의 함수에 의해 상기와 같이 채널 오브젝트들의 생성을 핸들링하기 위해 확장된다:
Figure 112014078544142-pct00004
이러한 대표적인 비-제한적인 정의에서, 파라미터들은 다음의 사용을 채용한다:
ㆍ context는 채널 오브젝트를 생성하기 위해 사용된 유효한 OpenCL 콘텍스트이다
ㆍ flags는 생성되는 채널 메모리 오브젝트에 대한 할당 및 사용 정보를 특정하기 위해 사용되는 비트-필드이다
ㆍ number_of_elements는 요소들의 수를 나타낸다
ㆍ element_size는 바이트들로의 요소 유형의 크기이다.
ㆍ block_size는 그 후 CL_CHANNEL_BLOCK_READY 상태가 블록 준비 이벤트에서 설정될 요소들의 수이다.
ㆍ errcode_ret은 적절한 에러 코드를 리턴할 것이며 -- errcode_ret이 널(NULL)이면, 어떤 에러 코드도 리턴되지 않는다.
대표적인 비-제한적인 정의를 계속하면, errcode ret은 함수가 성공적으로 실행된다면 상태(CL_SUCCESS)를 리턴하기 위해 이용될 수 있거나, 또는 그렇지 않다면 그것은 다음의 대표적인 에러 값들 중 하나와 함께 NULL 값을 리턴한다.
ㆍ 콘텍스트가 유효한 콘텍스트가 아니면, CL_INVALID_CONTEST
ㆍ 플래그들에서 특정된 값들이 유효하지 않다면, CL_INVALID_VALUE
ㆍ 크기가 그것이 CL_DEVICE_CHANNEL_MAX_SIZE에서 특정된 값을 초과한다면, CL_INVALID_CHANNEL_SIZE
ㆍ 이미지 오브젝트에 대한 메모리를 할당하는데 실패가 있다면, CL_MEM_OBJECT_ALLOCATION_FAILURE
ㆍ 채널들을 지원하는 콘텍스트에 디바이스들이 없다면, CL_INVALID_OPERATION
ㆍ 디바이스 상에서 OpenCL 구현에 의해 요구된 리소스들을 할당하는데 실패가 있다면, CL_OUT_OF_RESOURCES
ㆍ 호스트 상에서 OpenCL 구현에 의해 요구된 리소스들을 할당하는데 실패가 있다면, CL_OUT_OF_HOST_MEMORY.
정의된 및 그것들의 대응하는 채널들과 연관된 이벤트 트리거들을 갖고, 그것들은 특정한 이벤트 조건이 만족될 때 단계(310)에서처럼 등록된다. 상기 비-제한적인 예를 계속하면, 두 개의 이벤트 트리거들이 다음의 방식으로 등록된다:
Figure 112014078544142-pct00005
상기 대표적인 이벤트 트리거 등록들은 CL_CHANNEL_BLOCK_READY 상태에서 트리거할 것이며, 이것은 상기 논의된 바와 같이, clCreateChannel로 전달된 block_size 값에 의해 측정된 바와 같이 채널에서 데이터의 적어도 하나의 블록이 있을 때 설정된다. 또 다른 이벤트(CL_CHANNEL_FULL)는 대신에 다른 애플리케이션들을 위해 이용될 수 있으며, 이것은 채널의 크기 값에 의해 측정된 바와 같이 채널이 가득 찰 때 설정된다. 관련 기술들에서의 숙련자는 이벤트 트리거 기능이 원하는 대로 확대될 수 있으며, 이들 이벤트들은 제한이 아닌, 예로서 제공된다는 것을 이해할 것이다.
OpenCL의 경우에서, 이벤트 트리거 생성은 본 발명의 실시예에 따라, 함수(clAddEventTrigger)를 정의함으로써 핸들링된다. 이러한 함수의 대표적인 비-제한적인 정의는:
Figure 112014078544142-pct00006
일 것이다.
이러한 대표적인 비-제한적인 정의에서, 파라미터들은 다음의 사용을 채택한다:
ㆍ queue는 커널이 인큐잉되는 유효한 OpenCL 명령어 큐이다
ㆍ kernel은 인큐잉하기 위한 유효한 OpenCL 커널이다
ㆍ 이벤트 리스트에서 num_events는 트리거를 평가하기 위해 조사될 이벤트들의 수를 나타낸다
ㆍ event_trigger_state는 커널 론치가 발생할 유효 상태들의 세트에 대한 상태 마스크이며, 상기 설명된 새로운 상태들의 부가로 OpenCL 이벤트 상태들의 정상 세트로부터 기인할 수 있다.
ㆍ event는 론칭된 커널의 상태를 설명하는 이벤트
방법(300)이 그 후 단계(312)에서 종료된다. 프로그램들이 코드에서의 다양한 순서들 및 위치들에 나타나는 정의들을 갖고 기록될 수 있는 바와 같이, 도 3 및 도면들 어딘가에 설명된 단계들의 순서는, 고정될 필요가 없다.
도 4는 본 발명의 실시예에 따른 확장된 채널 및 이벤트 핸들링의 동작을 예시한 방법(400)의 흐름도이다. 방법은 단계(402)에서 시작하며 프로세싱될 데이터가 채널에서 수신 및 저장되는(예로서, 채널 내에서의 큐에 배치되는) 단계(404)로 진행한다. 단계(406)에서, 채널에 대한 이벤트 트리거 상태가 테스트된다. 예를 들면, 상기 설명된 바와 같이, 이러한 상태가 CL_CHANNEL_BLOCK_READYY 상태일 수 있으며, 이것은 채널에 데이터의 적어도 하나의 블록이 있을 때 설정된다.
본 발명의 실시예에 따라, 상태가 긍적적으로 테스트한다면, 대응하는 소비자 커널은 단계(408)에서 명령어 큐로 디스패치된다. 상기 예에서, 데이터의 블록이 "채널B"에서 이용 가능하다면, 커널B가 데이터를 소비하기 위해 론칭된다. 방법은 단계(410)에서 종료된다.
이러한 접근법의 효과는 블로킹 동안 유휴 상태이거나 또는 스위칭 아웃된 소비자 커널들을 갖는 것을 회피하는 것이다. 대신에, 소비자 커널들은 단지 요구될 때만 인스턴스화되며, 그것들의 작업이 완료된 후 종료된다. 본 개시는 즉석에서 소비자 커널들을 생성하는 맥락에서 이러한 애플리케이션을 보여주지만, 관련 기술들에서의 숙련자는 여기에 개시된 채널 이벤트 핸들링이 다른 애플리케이션들에 대한 커널들을 디스패치하기 위해 적용될 수 있다는 것을 이해할 것이다. 예를 들면, 이벤트 트리거는 공간이 전체 채널에서 이용 가능해질 때 생산자 커널을 디스패치하기 위해 사용될 수 있어서, 공간을 대기하는 동안 생산자 커널의 블로킹을 방지한다.
도 5는 본 발명의 실시예에 따라, 대표적인 생산자-소비자 구현과 일치하는 소비자 커널의 동작을 예시한 방법(500)의 흐름도이다. 방법은 단계(502)에서 시작하며 소비자 커널이 론칭되는 단계(504)로 진행한다. 본 발명의 실시예에 따르면, 소비자 커널은, 커널을 론칭하기 위한 다른 기술들이 다른 프로그래밍 모델들에서 특정한 구현들에 따라 사용될 수 있을지라도, OpenCl 구현에서 명령어 큐로부터 론칭된다.
단계(506)에서, 소비자 커널은 채널로부터 데이터를 판독하며, 단계(508)에서 상기 데이터를 소비한다. 데이터를 소비하기 위해 요구된 작업의 양은 특정한 구현에 따라 변할 것이다. 그러나, 데이터를 소비하기 위해 개개의 소비자 커널에 의해 요구된 리소스들을 감소시키는 것이 일반적으로 선호된다. 소비자 커널이 데이터에 대한 그것의 작업을 완료할 때, 단계(510)에서 소비자 커널은 종료되며 그것의 리소스들을 자유롭게 한다. 방법은 그 후 단계(512)에서 종료된다.
여기에 설명된 기술들의 성능을 개선하기 위해, 프로그래밍 언어 컴파일러(예로서, OpenCL 컴파일러) 또는 런타임 시스템에 대한 특정한 최적화가 본 발명의 실시예에 따라 고려된다. 예를 들면, GPU 상에서의 실행을 위해 컴파일링할 때, 컴파일러는 전역적 메모리(예로서, DRAM)에서와 같이, 런타임시 GPU 메모리의 몇몇 레벨에서의 표현을 위해 채널들을 최적화할 수 있다. 대안적으로, 채널들은 또한 몇몇 정도의 스레드 지속성이 메모리 대역폭에 대하여 트레이드오프를 제공하도록 허용하기 위해 코어 단위 기반으로 전역적 데이터 공유(global data share; GDS) SRAM 구조들에서 또는 심지어 로컬 데이터 공유(LDS)로 런타임시 표현될 수 있다.
이벤트 트리거들의 효율적인 핸들링은, 본 발명의 실시예에 따라, 현재 GPU들에 대한 제어 프로세서의 확대된 버전과 같이, 하드웨어 스케줄링 시스템의 구현을 통해 추가로 촉진될 수 있다. 스케줄링 시스템은 최소 대기 시간 및 높은 효율성을 갖고 하드웨어로부터 이벤트들을 보고 커널 론치들을 트리거하도록 구성되어, 작은 소비자 블록들의 빠른 론칭을 허용한다.
이전에 설명된 바와 같이, 본 개시 전체에 걸친 구현 세부사항들은 일반적으로 OpenCL 프로그래밍 모델의 맥락에 있다. 그러나, 본 개시에 의해 제공된 이점들은 다른 프로그래밍 모델들에서 실현될 수 있다. 대안적인 프로그래밍 모델에 구현된 상기 설명된 것과 유사한 예는 다음과 같다:
Figure 112014078544142-pct00007
Figure 112014078544142-pct00008
본 발명의 다양한 양상들은 소프트웨어, 펌웨어, 하드웨어, 또는 그것의 조합에 의해 구현될 수 있다. 도 6은 본 발명 또는 그 일부들이 컴퓨터-판독 가능한 코드로서 구현될 수 있는 예시적인 컴퓨터 시스템(600)을 예시한다. 예를 들면, 흐름도들(도 3의 300, 도 4의 400, 및 도 5의 500)에 의해 예시된 방법들이 시스템(600)에 구현될 수 있다. 본 발명의 다양한 실시예들이 이러한 예시적인 컴퓨터 시스템(600)에 관하여 설명된다. 이러한 설명을 판독한 후, 다른 컴퓨터 시스템들 및/또는 컴퓨터 아키텍처들을 사용하여 본 발명을 구현하는 방법이 관련 기술에서의 숙련자에게 명백해질 것이다.
컴퓨터 시스템(600)은 프로세서(604)와 같은, 하나 이상의 프로세서들을 포함한다. 프로세서(604)는 특수 목적 또는 범용 프로세서일 수 있다. 프로세서(604)는 통신 인프라스트럭처(606)(예로서, 버스 또는 네트워크)에 연결된다.
컴퓨터 시스템(600)은 또한 메인 메모리(608), 바람직하게는 랜덤 액세스 메모리(RAM)를 포함하며, 2차 메모리(610)를 또한 포함할 수 있다. 2차 메모리(610)는 예를 들면, 하드 디스크 드라이브(612), 착탈 가능한 저장 드라이브(614), 및/또는 메모리 스틱을 포함할 수 있다. 착탈 가능한 저장 디바이스(614)는 플로피 디스크 드라이브, 자기 테이프 드라이브, 광 디스크 드라이브, 플래시 메모리 등을 포함할 수 있다. 착탈 가능한 저장 드라이브(614)는 잘 알려진 방식으로 착탈 가능한 저장 유닛(618)으로부터 판독하고 및/또는 그것에 기록한다. 착탈 가능한 저장 유닛(618)은 착탈 가능한 저장 드라이브(614)에 의해 판독되며 그것에 기록되는 플로피 디스크, 자기 테이프, 광 디스크 등을 포함할 수 있다. 관련 기술(들)에서의 숙련자들에 의해 이해될 바와 같이, 착탈 가능한 저장 유닛(618)은 컴퓨터 소프트웨어 및/또는 데이터를 저장한 컴퓨터 사용 가능한 저장 매체를 포함한다.
대안적인 구현들에서, 2차 메모리(610)는 컴퓨터 프로그램들 또는 다른 지시들이 컴퓨터 시스템(600)으로 로딩되도록 허용하기 위한 다른 유사한 수단들을 포함할 수 있다. 이러한 수단들은 예를 들면, 착탈 가능한 저장 유닛(622) 및 인터페이스(620)를 포함할 수 있다. 이러한 수단들의 예들은 프로그램 카트리지 및 카트리지 인터페이스(비디오 게임 디바이스들에서 발견된 것과 같은), 착탈 가능한 메모리 칩(EPROM, 또는 PROM과 같은) 및 연관된 소켓, 및 소프트웨어 및 데이터가 착탈 가능한 저장 유닛(622)으로부터 컴퓨터 시스템(600)에 전달되도록 허용하는 다른 착탈 가능한 저장 유닛들(622) 및 인터페이스들(620)을 포함할 수 있다.
컴퓨터 시스템(600)은 또한 통신 인터페이스(624)를 포함할 수 있다. 통신 인터페이스(624)는 소프트웨어 및 데이터가 컴퓨터 시스템(600) 및 외부 디바이스들 사이에서 전달되도록 허용한다. 통신 인터페이스(624)는 모뎀, 네트워크 인터페이스(이더넷 카드와 같은), 통신 포트, PCMCIA 슬롯 및 카드 등을 포함할 수 있다. 통신 인터페이스(624)를 통해 전달된 소프트웨어 및 데이터는 통신 인터페이스(624)에 의해 수신될 수 있는 전자, 전자기, 광학, 또는 다른 신호들일 수 있는 신호들의 형태에 있다. 이들 신호들은 통신 경로(626)를 통해 통신 인터페이스(624)에 제공된다. 통신 경로(626)는 신호들을 운반하며 와이어 또는 케이블, 광 섬유들, 전화 라인, 셀룰러 전화 링크, RF 링크 또는 다른 통신 채널들을 사용하여 구현될 수 있다. 이해될 바와 같이, 컴퓨터 시스템(600)은 다수의 상이한 폼 팩터들 또는 유형들의 컴퓨터 시스템들에서 구체화될 수 있다. 예를 들면, 본 발명의 양상들은 핸드헬드 또는 다른 이동 컴퓨팅 시스템들, 셋 탑 박스들, 종래의 컴퓨터들(예로서, 랩탑들, 데스크탑들, 서버들), 태블릿들, 내장 시스템들, 텔레비전들, 오디오/비디오 장비 등에 구체화될 수 있다. 본 발명의 양상들을 구체화한 컴퓨터 시스템들은, 특정 시나리오들에서, 감소된 비용들(예로서, 감소되거나 또는 보다 효율적인 프로세싱, 감소된 완료 시간, 감소된 전력 등)을 야기할 수 있다.
본 문서에서, 용어들("컴퓨터 프로그램 매체" 및 "컴퓨터 사용 가능한 매체")은 일반적으로 착탈 가능한 저장 유닛(618), 착탈 가능한 저장 유닛(622), 및 하드 디스크 드라이브(612)에 설치된 하드 디스크와 같은 미디어를 나타내기 위해 사용된다. 통신 경로(626)를 통해 운반된 신호들은 또한 여기에 설명된 로직을 구체화할 수 있다. 컴퓨터 프로그램 매체 및 컴퓨터 사용 가능한 매체는 또한, 메모리 반도체들(예로서, DRAM들 등)일 수 있는, 메인 메모리(608) 및 2차 메모리(610)와 같은 메모리들을 나타낼 수 있다. 이들 컴퓨터 프로그램 제품들은 컴퓨터 시스템(600)에 소프트웨어를 제공하기 위한 수단이다.
컴퓨터 프로그램들(또한 컴퓨터 제어 로직으로 불리우는)은 메인 메모리(608) 및/또는 2차 메모리(610)에 저장된다. 컴퓨터 프로그램들은 또한 통신 인터페이스(624)를 통해 수신될 수 있다. 이러한 컴퓨터 프로그램들은, 실행될 때, 컴퓨터 시스템(600)이 여기에 논의된 바와 같이 본 발명을 구현할 수 있게 한다. 특히, 컴퓨터 프로그램들은, 실행될 때, 프로세서(604)가 상기 논의된, 흐름도들(도 3의 300, 도 4의 400, 및 도 5의 500)에 의해 예시된 방법들에서의 단계들과 같은, 본 발명의 프로세스들을 구현할 수 있게 한다. 따라서, 이러한 컴퓨터 프로그램들은 컴퓨터 시스템(600)의 제어기들을 나타낸다. 본 발명은 소프트웨어를 사용하여 구현되지만, 소프트웨어는 착탈 가능한 저장 드라이브(614), 인터페이스(620), 하드 드라이브(612) 또는 통신 인터페이스(624)를 사용하여 컴퓨터 프로그램 제품에 저장되고 컴퓨터 시스템(600)에 로딩될 수 있다.
본 발명은 또한 임의의 컴퓨터 사용 가능한 매체 상에 저장된 소프트웨어를 포함한 컴퓨터 프로그램 제품들에 관한 것이다. 이러한 소프트웨어는, 하나 이상의 데이터 프로세싱 디바이스에서 실행될 때, 데이터 프로세싱 디바이스(들)가 여기에 설명된 바와 같이 동작하게 한다. 본 발명의 실시예들은 현재 또는 미래에 알려진, 임의의 컴퓨터 사용 가능한 또는 판독 가능한 매체를 이용한다. 컴퓨터 사용 가능한 매체들의 예들은, 이에 제한되지 않지만, 1차 저장 디바이스들(예로서, 임의의 유형의 랜덤 액세스 메모리), 2차 저장 디바이스들(예로서, 하드 드라이브들, 플로피 디스크들, CD ROM들, ZIP 디스크들, 테이프들, 자기 저장 디바이스들, 광 저장 디바이스들, MEMS, 나노기술 저장 디바이스 등), 및 통신 매체들(예로서, 유선 및 무선 통신 네트워크들, 근거리 네트워크들, 광역 네트워크들, 인트라넷들 등)을 포함한다.
본 발명의 다양한 실시예들이 상기 설명되었지만, 그것들은 제한이 아닌, 단지 예로서 제공된다는 것이 이해되어야 한다. 형태 및 세부사항들에서의 다양한 변화들이 첨부된 청구항들에 정의된 바와 같이 발명의 사상 및 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 관련 기술(들)에서의 숙련자들에 의해 이해될 것이다. 본 발명은 이들 예들에 제한되지 않는다는 것이 이해되어야 한다. 본 발명은 여기에 설명된 바와 같이 동작하는 임의의 요소들에 적용 가능하다. 따라서, 본 발명의 폭 및 범위는 상술된 대표적인 실시예들 중 임의의 것에 의해 제한되지 않아야하며, 단지 다음의 청구항들 및 그것들의 등가물들에 따라서만 정의되어야 한다.

Claims (24)

  1. 다중스레드 컴퓨팅(multithreaded computing)을 수행하기 위한 방법으로서, 상기 방법은 컴퓨팅 디바이스(computing device)에 의해 수행되며, 상기 방법은,
    생산자 커널(producer kernel)을 정의(defining)하는 단계와;
    소비자 커널(consumer kernel)을 정의하는 단계와;
    상기 생산자 커널과 상기 소비자 커널 사이에 하나 이상의 채널(channel)들을 정의하는 단계와, 여기서
    상기 생산자 커널은 상기 하나 이상의 채널들에 데이터를 기록(write)하도록 되어 있고,
    상기 소비자 커널은 상기 하나 이상의 채널들로부터 데이터를 판독(read)하도록 되어 있으며;
    하나 이상의 채널 이벤트(channel event)들을 등록(registering)하는 단계와, 여기서
    각각의 채널 이벤트는 상기 하나 이상의 채널들 중 하나의 채널과 관련되고, 그리고
    각각의 채널 이벤트는 관련된 채널의 채널 조건(channel condition)이 만족됨에 응답하여 상기 소비자 커널을 론칭(launch)하도록 등록되며;
    상기 채널 이벤트와 관련된 채널의 채널 조건이 만족됨을 검출함에 응답하여, 상기 하나 이상의 채널 이벤트들 중 상기 채널 이벤트와 관련된 채널로부터 상기 채널 이벤트와 관련된 데이터를 소비하도록 상기 소비자 커널을 론칭하는 단계와;
    상기 소비자 커널에서 상기 채널 이벤트와 관련된 채널로부터 상기 데이터를 판독하여 소비하는 단계와; 그리고
    상기 채널 이벤트와 관련된 채널로부터 상기 데이터를 판독하여 소비하는 것을 완료하면 상기 소비자 커널을 종료(terminating)하는 단계를 포함하는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 방법.
  2. 제1항에 있어서,
    상기 채널 이벤트와 관련된 채널의 채널 조건은 데이터의 적어도 하나의 블록(block)이 상기 하나 이상의 채널들 내에 있을 때 만족되는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 방법.
  3. 제1항에 있어서,
    상기 채널 이벤트와 관련된 채널의 채널 조건은 상기 하나 이상의 채널들이 가득 찰 때 만족되는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 방법.
  4. 제1항에 있어서,
    런타임(runtime)시 상기 하나 이상의 채널들이 프로세싱 유닛(processing unit)의 메모리 유닛(memory unit)에 할당(allocating)되는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 방법.
  5. 제1항에 있어서,
    상기 채널 이벤트를 관찰(watch)하도록 되어 있는 하드웨어 스케줄링 시스템(hardware scheduling system)에 의해 상기 소비자 커널의 상기 론칭이 트리거(trigger)되는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 컴퓨터 판독가능 저장 디바이스(computer-readable storage device)로서, 상기 컴퓨터 판독가능 저장 디바이스에는 다중스레드 컴퓨팅을 수행하기 위한 명령들이 저장되어 있고, 컴퓨팅 디바이스에 의한 상기 명령들의 실행은 상기 컴퓨팅 디바이스로 하여금 동작들을 수행하도록 하며, 상기 동작들은,
    생산자 커널을 정의하는 것과;
    소비자 커널을 정의하는 것과;
    상기 생산자 커널과 상기 소비자 커널 사이에 하나 이상의 채널들을 정의하는 것과, 여기서
    상기 생산자 커널은 상기 하나 이상의 채널들에 데이터를 기록하도록 되어 있고,
    상기 소비자 커널은 상기 하나 이상의 채널들로부터 데이터를 판독하도록 되어 있으며;
    하나 이상의 채널 이벤트들을 등록하는 것과, 여기서
    각각의 채널 이벤트는 상기 하나 이상의 채널들 중 하나의 채널과 관련되고, 그리고
    각각의 채널 이벤트는 관련된 채널의 채널 조건이 만족됨에 응답하여 상기 소비자 커널을 론칭하도록 등록되며;
    상기 채널 이벤트와 관련된 채널의 채널 조건이 만족됨을 검출함에 응답하여, 상기 하나 이상의 채널 이벤트들 중 상기 채널 이벤트와 관련된 채널로부터 상기 채널 이벤트와 관련된 데이터를 소비하도록 상기 소비자 커널을 론칭하는 것과;
    상기 소비자 커널에서 상기 채널 이벤트와 관련된 채널로부터 상기 데이터를 판독하여 소비하는 것과; 그리고
    상기 채널 이벤트와 관련된 채널로부터 상기 데이터를 판독하여 소비하는 것을 완료하면 상기 소비자 커널을 종료하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 디바이스.
  10. 제9항에 있어서,
    상기 채널 이벤트와 관련된 채널의 채널 조건은 데이터의 적어도 하나의 블록이 상기 하나 이상의 채널들 내에 있을 때 만족되는 것을 특징으로 하는 컴퓨터 판독가능 저장 디바이스.
  11. 제9항에 있어서,
    상기 채널 이벤트와 관련된 채널의 채널 조건은 상기 하나 이상의 채널들이 가득 찰 때 만족되는 것을 특징으로 하는 컴퓨터 판독가능 저장 디바이스.
  12. 제9항에 있어서,
    런타임시 상기 하나 이상의 채널들이 프로세싱 유닛의 메모리 유닛에 할당되는 것을 특징으로 하는 컴퓨터 판독가능 저장 디바이스.
  13. 제9항에 있어서,
    상기 채널 이벤트를 관찰하도록 되어 있는 하드웨어 스케줄링 시스템에 의해 상기 소비자 커널의 상기 론칭이 트리거되는 것을 특징으로 하는 컴퓨터 판독가능 저장 디바이스.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 다중스레드 컴퓨팅을 수행하기 위한 시스템으로서, 상기 시스템은,
    모듈(module)들을 저장하도록 되어 있는 메모리와; 그리고
    상기 모듈들을 프로세싱하도록 되어 있는 하나 이상의 프로세서들을 포함하고,
    상기 모듈들은,
    하나 이상의 채널들에 데이터를 기록하도록 되어 있는 생산자 커널과,
    상기 하나 이상의 채널들로부터 데이터를 판독하도록 되어 있는 소비자 커널과,
    상기 하나 이상의 채널들을 정의하도록 되어 있는 모듈과, 그리고
    하나 이상의 채널 이벤트들을 등록하도록 되어 있는 등록 모듈을 포함하고, 여기서
    각각의 채널 이벤트는 상기 하나 이상의 채널들 중 하나의 채널과 관련되고, 그리고
    각각의 채널 이벤트는 관련된 채널의 채널 조건이 만족됨에 응답하여 상기 소비자 커널을 론칭하도록 등록되며,
    상기 소비자 커널은 또한,
    상기 채널 이벤트와 관련된 채널의 채널 조건이 만족됨을 검출함에 응답하여, 상기 하나 이상의 채널 이벤트들 중 상기 채널 이벤트와 관련된 채널로부터 상기 채널 이벤트와 관련된 데이터를 소비하기 위해 론칭되도록 되어 있고, 그리고
    상기 채널 이벤트와 관련된 채널로부터 상기 데이터를 판독하여 소비하도록 되어 있고, 그리고
    상기 채널 이벤트와 관련된 채널로부터 상기 데이터를 판독하여 소비하는 것을 완료하면 종료되도록 되어 있는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 시스템.
  18. 제17항에 있어서,
    상기 채널 이벤트와 관련된 채널의 채널 조건은 데이터의 적어도 하나의 블록이 상기 하나 이상의 채널들 내에 있을 때 만족되는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 시스템.
  19. 제17항에 있어서,
    상기 채널 이벤트와 관련된 채널의 채널 조건은 상기 하나 이상의 채널들이 가득 찰 때 만족되는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 시스템.
  20. 제17항에 있어서,
    상기 시스템은 또한, 런타임시 상기 하나 이상의 채널들을 상기 하나 이상의 프로세서들의 메모리 유닛에 할당하도록 되어 있는 할당 모듈을 포함하는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 시스템.
  21. 제17항에 있어서,
    상기 시스템은 또한, 상기 채널 이벤트를 관찰함과 아울러 상기 소비자 커널의 상기 론칭을 트리거하도록 되어 있는 하드웨어 스케줄링 시스템을 포함하는 것을 특징으로 하는 다중스레드 컴퓨팅을 수행하기 위한 시스템.
  22. 삭제
  23. 삭제
  24. 삭제
KR1020147023157A 2012-01-23 2013-01-23 다중스레드 컴퓨팅 KR102024283B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261589468P 2012-01-23 2012-01-23
US61/589,468 2012-01-23
US13/606,741 US10235220B2 (en) 2012-01-23 2012-09-07 Multithreaded computing
US13/606,741 2012-09-07
PCT/US2013/022729 WO2013126170A1 (en) 2012-01-23 2013-01-23 Multithreaded computing

Publications (2)

Publication Number Publication Date
KR20140117578A KR20140117578A (ko) 2014-10-07
KR102024283B1 true KR102024283B1 (ko) 2019-11-14

Family

ID=48798336

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147023157A KR102024283B1 (ko) 2012-01-23 2013-01-23 다중스레드 컴퓨팅

Country Status (7)

Country Link
US (1) US10235220B2 (ko)
EP (1) EP2807559A1 (ko)
JP (1) JP6336399B2 (ko)
KR (1) KR102024283B1 (ko)
CN (1) CN104094235B (ko)
IN (1) IN2014DN06232A (ko)
WO (1) WO2013126170A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477521B2 (en) 2014-05-29 2016-10-25 Netapp, Inc. Method and system for scheduling repetitive tasks in O(1)
US9304702B2 (en) 2014-05-29 2016-04-05 Netapp, Inc. System and method for parallelized performance data collection in a computing system
US9256477B2 (en) * 2014-05-29 2016-02-09 Netapp, Inc. Lockless waterfall thread communication
US9652817B2 (en) * 2015-03-12 2017-05-16 Samsung Electronics Co., Ltd. Automated compute kernel fusion, resizing, and interleave
CN105447285B (zh) * 2016-01-20 2018-11-30 杭州菲数科技有限公司 一种提高OpenCL硬件执行效率的方法
US10013240B2 (en) * 2016-06-21 2018-07-03 Advanced Micro Devices, Inc. Fingerprinting of redundant threads using compiler-inserted transformation code
US10296393B2 (en) 2016-09-19 2019-05-21 Texas Instruments Incorporated Method for scheduling a processing device
US10467056B2 (en) * 2017-05-12 2019-11-05 Google Llc Configuration of application software on multi-core image processor
CN107368255B (zh) * 2017-07-25 2019-04-12 Oppo广东移动通信有限公司 解锁方法、移动终端及计算机可读存储介质
US10713746B2 (en) * 2018-01-29 2020-07-14 Microsoft Technology Licensing, Llc FIFO queue, memory resource, and task management for graphics processing
US10719268B2 (en) 2018-06-29 2020-07-21 Microsoft Technology Licensing, Llc Techniques for safely and efficiently enqueueing and dequeueing data on a graphics processor
CN109918141B (zh) * 2019-03-15 2020-11-27 Oppo广东移动通信有限公司 线程执行方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060182137A1 (en) 2005-02-14 2006-08-17 Hao Zhou Fast and memory protected asynchronous message scheme in a multi-process and multi-thread environment
US20070008983A1 (en) 2003-05-08 2007-01-11 Koninklijke Philips Electronics N.V. Threshold on unblocking a processing node that is blocked due to data packet passing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2273591A (en) * 1992-12-18 1994-06-22 Network Systems Corp Microcomputer control systems for interprogram communication and scheduling methods
US7950017B1 (en) * 1999-04-23 2011-05-24 Avaya Inc. Apparatus and method for forwarding messages between two applications
JP2003029980A (ja) 2001-07-10 2003-01-31 Toshiba Corp データキュー管理システム、データキュー管理装置、データキュー管理方法、およびプログラム
US7584327B2 (en) * 2005-12-30 2009-09-01 Intel Corporation Method and system for proximity caching in a multiple-core system
JP4857207B2 (ja) 2006-09-07 2012-01-18 株式会社リコー 画像形成装置および入出力制御方法
US7761666B2 (en) * 2006-10-26 2010-07-20 Intel Corporation Temporally relevant data placement
US8621184B1 (en) * 2008-10-31 2013-12-31 Netapp, Inc. Effective scheduling of producer-consumer processes in a multi-processor system
US8694625B2 (en) * 2010-09-10 2014-04-08 International Business Machines Corporation Selective registration for remote event notifications in processing node clusters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070008983A1 (en) 2003-05-08 2007-01-11 Koninklijke Philips Electronics N.V. Threshold on unblocking a processing node that is blocked due to data packet passing
US20060182137A1 (en) 2005-02-14 2006-08-17 Hao Zhou Fast and memory protected asynchronous message scheme in a multi-process and multi-thread environment

Also Published As

Publication number Publication date
US20130191852A1 (en) 2013-07-25
EP2807559A1 (en) 2014-12-03
JP6336399B2 (ja) 2018-06-06
CN104094235A (zh) 2014-10-08
JP2015504226A (ja) 2015-02-05
KR20140117578A (ko) 2014-10-07
CN104094235B (zh) 2019-05-28
WO2013126170A1 (en) 2013-08-29
US10235220B2 (en) 2019-03-19
IN2014DN06232A (ko) 2015-10-23

Similar Documents

Publication Publication Date Title
KR102024283B1 (ko) 다중스레드 컴퓨팅
US11550627B2 (en) Hardware accelerated dynamic work creation on a graphics processing unit
US10664942B2 (en) Reconfigurable virtual graphics and compute processor pipeline
US9928124B2 (en) Reverting tightly coupled threads in an over-scheduled system
EP2652615B1 (en) Graphics compute process scheduling
US8752064B2 (en) Optimizing communication of system call requests
KR101961396B1 (ko) 이종 처리 디바이스의 동적 작업 분할
US10026145B2 (en) Resource sharing on shader processor of GPU
EP2652614B1 (en) Graphics processing dispatch from user mode
US10146575B2 (en) Heterogeneous enqueuing and dequeuing mechanism for task scheduling
US9286114B2 (en) System and method for launching data parallel and task parallel application threads and graphics processing unit incorporating the same
US9122522B2 (en) Software mechanisms for managing task scheduling on an accelerated processing device (APD)
US20120194526A1 (en) Task Scheduling
US9703614B2 (en) Managing a free list of resources to decrease control complexity and reduce power consumption
US20130135327A1 (en) Saving and Restoring Non-Shader State Using a Command Processor
US10360652B2 (en) Wavefront resource virtualization
US20130160019A1 (en) Method for Resuming an APD Wavefront in Which a Subset of Elements Have Faulted
US9710315B2 (en) Notification of blocking tasks
US20200004586A1 (en) Cooperative workgroup scheduling and context prefetching
WO2013090605A2 (en) Saving and restoring shader context state and resuming a faulted apd wavefront

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant