KR100614491B1

KR100614491B1 - 컴퓨터 구현된 방법 및 머신 판독가능 매체

Info

Publication number: KR100614491B1
Application number: KR1019997012384A
Authority: KR
Inventors: 쿠크로렌스에이치; 필립스크리스토퍼이; 웡데일
Original assignee: 카멜레온 시스템즈, 인크
Priority date: 1997-06-27
Filing date: 1998-06-29
Publication date: 2006-08-22
Also published as: US20030014743A1; CA2290649A1; KR20010020544A; EP0991997A1; US6708325B2; AU8275498A; JP2002508102A; US5966534A; WO1999000731A1; EP0991997A4

Abstract

고급 프로그래밍 언어로 기록된 컴퓨터 프로그램(101)은 그 제어 및 데이터 흐름을 나타내는 중간 데이터 구조(105)로 컴파일된다(103). 이 데이터 구조는 전체 성능을 향상시키도록 애플리케이션 주문형 집적 회로(117)로서 구현될 수 있는 논리의 임계 블록을 식별하도록 분석된다(111). 먼저, 논리의 임계 블록은 최대 데이터 병렬성을 갖는 새로운 등가 논리로 변환된다. 그 다음, 그 새로운 병렬화된 논리를 애플리케이션 주문형 집적 회로(117) 상에서 구현하기에 적합한 부울 게이트 표현으로 변환한다. 애플리케이션 주문형 집적 회로(117)는 마이크로프로세서(107)에 대한 주문 인스트럭션을 통해서 일반적인 마이크로프로세서와 연결된다. 그 다음, 원래 컴퓨터 프로그램은 새로운 확장된 목표 인스트럭션 세트를 갖는 목적 코드(109)로 컴파일된다.

Description

컴퓨터 구현된 방법 및 머신 판독가능 매체{METHOD FOR COMPILING HIGH LEVEL PROGRAMMING LANGUAGES}

발명의 분야

본 발명은 재구성가능한 컴퓨팅(reconfigurable computing)에 관한 것이다.

종래 기술

통상적으로, 집적 회로는 부울(Boolean) 게이트 및 레지스터(registers)와 같은 원시 회로(circuit primitives)로 그 구조를 표현함으로써 설계되어야 한다. 회로 설계자는 염두해 둔 특정 애플리케이션, 예를 들면, 영상 압축 알고리즘으로 시작해야 하고, 최종의 집적 회로는 목표 애플리케이션(targeted application)에 대해서만 사용될 수 있다.

또한, 집적 회로는 고정된 인스트럭션 세트를 갖는 범용 마이크로프로세서, 예를 들면, 인텔 x86 프로세서로서 설계될 수도 있다. 이것은 컴퓨터 프로그램 기록시에 융통성을 허용하여 임의의 시퀀스의 마이크로프로세서 인스트럭션을 호출할 수 있게 한다. 이러한 방안은 융통성을 증가시키는 반면, 회로가 임의의 특정 애플리케이션에 대해서는 최적화될 수 없기 때문에 그 성능을 감소시킨다.

고급 프로그래머가 임의의 컴퓨터 프로그램을 기록할 수 있고, 그 프로그램들을 고속 애플리케이션 주문형 집적 회로로 자동으로 변환할 수 있도록 하는 것이 바람직할 것이다. 그러나, 현재에는 마이크로프로세서와 애플리케이션 주문형 집적 회로에 대한 언어를 프로그래밍하는 데에 전문적 지식을 가진 컴퓨터 프로그래머들 간에는 연결 수단이 없으며, 이는 회로 설계시에 전문적 지식을 필요로 한다.

집적 회로 설계의 연구 및 개발에서는 회로 표현의 수준을 보다 고급의 추상적 수준으로 높이는 시도가 진행중이다. 현재의 기술 수준은 "동작 합성기(behavioral synthesizer)"로서, 그 입력은 회로의 레지스터/트랜스퍼(transfer) 동작의 동작 언어 표현이고, 그 출력은 그러한 동작을 구현하는데 요구되는 회로 요소의 구조적 표현이다. 이러한 입력 표현은 특정 애플리케이션을 목표로 하여야 하고, 그 동작을 고급 원시 회로로 표현해야 하지만, 동작 컴파일러는, 얼마나 많은 저급 원시 회로가 요구되는지, 이들 원시 회로들이 상이한 논리 블록들 간에 어떻게 공유될 것인지, 그리고 이들 원시 회로의 이용을 어떻게 스케줄링할 것인가를 자동으로 결정할 것이다. 그 다음, 이들 원시 회로의 출력 표현은 "논리 합성기"로 전달되며, 이 논리 합성기는 이들 원시 회로들을 이용가능한 "셀"의 라이브러리상에서 매핑하며, 각각의 셀은 집적 회로 상에서 원시 회로의 완전한 구현예가 된다. 논리 합성기의 출력은 필요한 모든 셀들 및 그들의 상호 연결의 표현이 된다. 다음, 이러한 표현은, 집적 회로 상의 모든 셀 및 상호 연결의 상세한 레이아웃을 결정하는 "플레이서 및 라우터(placer and router)"로 전달된다.

한편, 컴퓨터 프로그래밍의 연구 개발은 주문형 목표 하드웨어와 특정 애플리케이션 프로그램을 매칭시킴으로써 추상적 레벨을 하향(push down)하도록 또한 시도 중에 있다. 그러한 시도중 하나는 인텔 MMX 인스트럭션 세트이다. 이 인스트럭션 세트는 특히 디지털 신호 처리 알고리즘으로 애플리케이션을 가속화하도록 설계되었다. 그러한 애플리케이션은 일반적으로 기록될 수 있고, MMX는 컴파일러가 특정 인스트럭션을 사용함으로써 컴파일된 코드를 자동으로 가속시킬 것을 인식하고 있다. 병렬화된 컴파일러에 관한 연구에서 애플리케이션과 적절한 하드웨어를 매칭시키려는 다른 시도가 있다. 이들 컴파일러는 순차적인 프로그래밍 언어로 기록된 컴퓨터 프로그램을 취하고, 내포된 병렬성을 자동으로 추출할 것이며, 이는 다음에 가변적인 수의 프로세서 상에서의 실행을 위해 타겟될 수 있다. 따라서, 상이한 애플리케이션들은 특정한 필요에 따라서 상이한 수의 프로세서 상에서 실행될 수 있다.

하드웨어 및 소프트웨어 양자의 협력에 의한 상기의 노력에도 불구하고, 여전히 고급 프로그래밍 언어와 집적 회로 동작 표현 간의 차이를 해소할 수는 없었다.

발명의 요약

고급 프로그래밍 언어로 기록된 컴퓨터 프로그램은 그의 제어 및 데이터 흐름을 나타내는 중간 데이터 구조로 컴파일된다. 이 데이터 구조는 애플리케이션 주문형 집적 회로로서 구현될 수 있는 중대한 논리 블록을 식별하도록 분석되어 전체 성능을 개선하고 있다. 먼저, 중대한 논리 블록은 먼저 최대의 데이터 병렬화를 갖는 새로운 등가 논리 회로로 변환된다. 그리고 나서, 그 새로운 병렬화된 논리 회로는 애플리케이션 주문형 집적 회로 상에서 구현하기에 적합한 부울 게이트 표현으로 변환된다. 애플리케이션 주문형 집적 회로는 마이크로프로세서에 대한 주문 인스트럭션(custom instruction)을 통해서 범용 마이크로프로세서와 연결된다. 그 다음, 원래의 컴퓨터 프로그램은 새로운 확장된 목표 인스트럭션 세트를 갖는 목적 코드(object code)로 컴파일된다.

본 발명의 일실시예에 따르면, 컴퓨터 구현된 방법은 고급 프로그래밍 언어로 기록된 컴퓨터 프로그램을 마이크로프로세서와 연결된 하나 이상의 애플리케이션 주문형 집적 회로에 의해 실행하기 위한 프로그램으로 자동으로 컴파일한다. 하나 이상의 애플리케이션 주문형 집적 회로 내의 회로에 의해서 수행될 함수의 코드 블록이 선택되고, 그 코드 블록은 영역 제한과 실행 타이밍 제한 중의 적어도 하나에 기초하여 그룹들로 그룹화된다. 함수의 로딩 및 활성화가 스케줄링되며, 함수 로딩 및 활성화를 위한 인스트럭션을 포함하는 코드가 마이크로프로세서에 의한 실행을 위해 생성된다.

본 발명의 다른 양상에 따르면, 컴퓨터 구현된 방법은 고급 프로그래밍 언어로 기록된 컴퓨터 프로그램을 하나 이상의 애플리케이션 주문형 집적 회로로 자동으로 컴파일한다. 본 발명의 또 다른 양상에 따르면, 컴퓨터 구현된 방법은 고급 프로그래밍 언어로 기록된 컴퓨터 프로그램을 표준 마이크로프로세서와 연결된 하나 이상의 애플리케이션 주문형 집적 회로로 자동으로 컴파일한다. 본 발명의 또다른 양상에 따르면, 재구성가능 논리 블록은 컴파일된 인스트럭션에 의해서 고정되고(locked), 여기서 활성화 구성 인스트럭션(activate configuration instruction)은 소정의 후속 활성화로부터 그 블록을 고정하고, 릴리스 구성 인스트럭션(release configuration instruction)은 그 블록을 해제한다. 본 발명의 또 다른 양상에 따르면, 고급 프로그래밍 언어 컴파일러(compiler)는 하나 이상의 특정 인스트럭션 세트를 자동으로 결정하여 마이크로프로세서의 표준 인스트럭션 세트를 확장하는데, 이는 결과적으로 주어진 입력 컴퓨터 프로그램에 대해서 상대적으로 성능을 개선시킬 것이다. 본 발명의 또 다른 양상에 따르면, 하나를 초과하는 마이크로프로세서 표준 인스트럭션의 실행을 단일의 특정 인스트럭션의 실행으로 변환하기 위한 방법이 제공된다. 본 발명의 또 다른 양상에 따르면, 고급 프로그래밍 언어 컴파일러는 데이터 흐름 그래프 중간 표현에 의해서 동작 합성기와 연결된다.

첨부 도면을 참조한 이하의 설명으로부터 본 발명을 보다 명확히 이해할 수 있을 것이다.
도 1은 컴파일러의 바람직한 실시예의 설계 방법 흐름도를 도시한다.

도 2는 애플리케이션 주문형 집적 회로의 바람직한 실시예의 동작에 대한 제어 흐름을 도시한다.

도 3은 컴파일러로 입력될 수 있는 고급 소스 코드 예의 단편(fragment)을 도시한다.

도 4는 표준 컴파일러에 의해서 출력될 도 3의 코드 예에 대한 마이크로프로세서 목적 코드를 도시한다.

도 5는 도 3의 코드 예를 위해 컴파일러에 의해 출력되는 애플리케이션 주문형 회로의 예를 도시한다.

바람직한 실시예의 상세한 설명

본 발명의 바람직한 실시예에 따르면, 고급 프로그래밍 언어를 애플리케이션 주문형 집적 회로(ASIC)로 자동으로 컴파일하기 위한 방법이 제공된다.

도 1을 참조하면, 컴퓨터 프로그램 소스 코드(computer program source code)(101)는 표준 컴파일러 기술(standard compiler technology)(103)에 의해서 언어 독립 중간 포맷(language independent intermediate format)(105)으로 파싱(parsing)된다. 이 중간 포맷(105)은 표준 제어 및 데이터 흐름 그래프이지만, 캡쳐 루프(capture loops), 조건문(conditional statement) 및 배열 액세스(array accesses)에 대한 구성이 추가된다. 포맷의 연산자는 언어 독립 단순 RISC형 인스트럭션(language independent simple RISC-like instruction)이지만, 배열 액세스 및 절차 호출(procedure call)에 대한 연산자가 추가된다. 이들 구성은 코드를 병렬화하는데 필요한 모든 고급 정보를 캡쳐한다. 컴파일된 중간 포맷에 대한 더 상세한 설명은, 예를 들면, S.P.Amarasinghe, J.M.Anderson, C.S.Wilson, S.-W. Liao, B.M.Murphy, R.S.French, M.S. Lam 및 M.W.Hall에 의한, Multiprocessors from a Software Perspective; IEEE Micro, June 1996; pages 52-61에 개시되어 있다.

표준 컴파일러 기술이 이용되므로, 입력 컴퓨터 프로그램은 지원된 고급 프로그래밍 언어에 대한 소정의 합법적인 소스 코드일 수 있다. 이 방법은 하드웨어 구현 요소를 표현하기 위한 구성을 갖는 특정 언어를 필요로 하지 않는다. ANSI C 및 FORTRAN 77, 그리고 다른 언어에 대해 현재 존재하는 전단 파서(front end parsers)는 새로운 전단 파서를 추가함으로써 간단하게 지원될 수 있다. 전단 파서에 대한 보다 상세한 정보는, 예를 들면, C.W.Fraser 및 D.R.Hanson에 의한, A Retargetable Compiler for ANSI C; SIGPLAN Notices, 26(10); October 1991에 개시되어 있다.

이 중간 포맷(105)으로부터, 본 방법론은 두 가지 상이한 유형의 목표 하드웨어, 즉 표준 마이크로프로세서 및 ASIC에 대한 코드 생성을 유일하게 지원한다. 상기의 두개의 타겟이 필요한 이유는 ASIC이 마이크로프로세서보다 고속인 반면, 보다 크고 비싸서, 희근한 리소스로서 처리될 필요가 있기 때문이다. 컴파일러는 성능 대 영역의 트레이드오프(tradeoffs)를 평가하여, 어떤 코드 블록이 소정의 이용가능한 ASIC 영역에 대한 타겟으로 되어야 하는지를 자동으로 결정한다.

마이크로프로세서를 위한 코드 생성은 표준 컴파일러 기술(107)에 의해서 다루어진다. MIPS 마이크로프로세서를 위한 코드 생성기가 현재 존재하며, 다른 마이크로프로세서는 단순히 새로운 후단(back end) 생성기를 추가함으로써 제공될 수 있다. 생성된 목적 코드(109)에 있어서, 특정 인스트럭션으로서 ASIC-구현 논리 회로를 호출하는 주문형 인스트럭션이 삽입된다.

특정 인스트럭션은 4개의 일반적인 범주, 즉 로딩 구성(load_configuration), 활성화 구성(activate_configuration), 호출 구성(invoke_configuration) 및 릴리스 구성(release_cofiguration)으로 존재한다. 로딩 구성 인스트럭션은 ASIC 상에서 재구성가능한 단일의 논리 블록에 대한 논리 및 상호 연결을 구현할 수 있는 고정 비트 스트림 어드레스를 식별한다. 도 2를 참조하면, ASIC(200)은 가능하게는 재구성가능 논리 회로에 대한 내장형 마이크로프로세서(205) 및 제어 논리 회로(207)와 함께, 단일 칩 상에 하나 이상의 블록(201a, 201b)을 구비할 수 있다. 식별된 비트 스트림은 RAM(random access memory) 또는 ROM(PROM 또는 EEPROM)(203)에 상주할 수 있다. 비트 스트림은 ASIC상의 가능한 블록 구성의 캐쉬(cache)로 다운로딩된다. 활성화 구성 인스트럭션은 이전에 다운로딩된 구성을 식별하고, 그 구성에 따라 ASIC 블록 상의 재구성가능한 논리 회로를 재구성하며, 후속하는 소정의 활성화 인스트럭션로부터 블록을 고정한다. 호출 구성 인스트럭션은 입력 피연산자 레지스터를 로딩하고, 출력 레지스터를 고정하고, ASIC 상의 구성된 논리 회로를 호출한다. ASIC은 그 결과를 인스트럭션의 출력 레지스터로 로딩한 후, 레지스터를 고정 해제(unlock)하며, 마이크로프로세서는 그 결과를 얻고 실행을 계속할 수 있다. 릴리스 구성 인스트럭션은 ASIC 블록을 고정 해제하고, 후속의 활성화 구성 인스트럭션에 대해서 ASIC 블록을 이용가능하도록 만든다. 재구성가능 논리 회로를 구비한 내장 마이크로프로세서의 보다 상세한 설명은 미국 특허 출원 제 08/884,380 호의, L.Cooke, C.Phillips, 및 D.Wong에 의한, An Integrated Processor and Programmable Data Path Chip for Reconfigurable Computing에 개시되어 있고, 본 명세서에서 참조 문헌으로 인용한다.

ASIC 논리 회로를 위한 코드 생성은 몇 가지 방법에 의해서 구현될 수 있다. 한가지 구현예는 중간의 제어 및 데이터 흐름 그래프를 동작 합성 프로그램으로 전달한다. 이 인터페이스는 데이터 구조를 직접 전달하거나 중간 동작 언어 표현을 생성함으로써 성취될 수 있다. 동작 합성의 보다 상세한 설명은, 예를 들면, D.Knapp; Behavioral Snthesis; Prentice Hall PTR; 1966에 개시되어 있다. 다른 구현예는 회로 구현의 라이브러리 상으로 중간의 원시 포맷(intermediate format primitives)의 일대일 매핑을 생성하는 것이다. 예를 들면, 스칼라 변수 및 배열은 레지스터 및 적절한 비트 폭을 갖는 레지스터 파일로서 구현되며, 가산, 승산, 누산 및 비교 등과 같은 산술 및 부울 연산자는 적절한 비트 폭을 갖는 단일 셀로서 구현되며, 조건 분기 구현예 및 루프는 상태 머신(state machine)으로서 구현된다. 일반적으로, 도 1에 도시된 바와 같이, 실리콘 컴파일러(113)는 중간 포맷(105)으로 컴파일된 코드, 원시 회로 라이브러리(115)로부터의 원시 회로를 입력으로서 수신하고, ASIC(117)에 대한 레이아웃 또는 구성 정보를 생성한다. 상태 머신 합성에 대한 기법의 보다 상세한 설명은, 예를 들어, G. De Micheli, A. Sangiovanni-Vincentelli, 및 P. Antognetti에 의한, Design Systems for VLSI Circuits; Martinus Nijhoff Publishers; 1987; pp. 327-364에 개시되어 있다.

합성 또는 매핑 단계가 완료된 후, 셀의 등가 리스트 및 그들의 상호 연결이 생성된다. 이 리스트는 일반적으로 네트리스트(netlist)로서 지칭된다. 그리고 나서, 이 네트리스트는 ASIC 상의 실제 셀 레이아웃 및 그들의 상호 연결을 결정하는 플레이서 및 라우터로 전달된다. 그 다음, 완성된 레이아웃은, ASIC을 구성하기 위한 단일 유닛으로서 저장될 수 있고 로딩될 수 있는 비트 스트림 포맷으로 인코딩 및 압축된다. 상술한 처리의 단계적인 예는 도 3, 도 4 및 도 5에 도시되어 있다. 플레이싱(placing) 및 라우팅(routing) 알고리즘에 대한 일반적인 논의는 T. Ohtsuki에 의한, Layout Design and Verification; North-Holland; 1986; pp. 55-198에 개시되어 있다.

ASIC에 대한 타겟이 되는 코드의 기본 단위는 루프이다. 입력 소스 코드의 단일 루프는, 중간 포맷에서 도 1의 최적화기 및 병렬화기(111)에 의해 실행 시간 최적화 및 병렬화를 위한 다수의 구성으로 변환될 수 있다. 병렬 실행을 위한 루프 변환의 정도는 마이크로프로세서에 대한 ASIC의 성능을 향상시키는 주된 요인이다. 이들 변환은 일정한 전파(constant propagation), 순방향 전파(forward propagation), 유도 변수 검출(induction variable detection), 일정한 폴딩(constant folding), 스칼라 전용화 분석(scalar privatization analysis), 루프 교환(loop interchange), 스큐잉(skewing) 및 반전(reversal)을 포함하는 표준 병렬화 컴파일러 기술에 의해서 처리된다. 병렬 컴파일러 루프 변환의 일반적인 논의는 Michael Wolfe에 의한, High Performance Compilers for Parallel Computing; Addison-Wesley Publishing Company; 1996; pp. 307-363에 개시되어 있다.

삭제

어떤 소스 코드 루프가 상대적으로 가장 큰 성능 개선을 제공할지를 결정하기 위해서, 표준 소스 코드 프로파일러(profiler)의 결과가 컴파일러에 입력된다. 프로파일러 분석은 코드의 각 블록에서 소비된 실행 시간의 백분율을 나타낸다. 이들 백분율을 각 루프에 대해서 가능한 병렬화의 양과 조합함으로써, 이득값이 각 루프의 가능 이득에 대해서 추정될 수 있다. 예를 들어, 하기의 수학식 1에 의해서 추정될 수 있다.

이득=(프로파일 퍼센트)*(1-1/병렬 경로)

여기서, 프로파일 퍼센트는 이 루프에 소비된 실행 시간의 퍼센트이고, 병렬 경로는 병렬로 실행될 수 있는 경로의 수이다.

소스 코드 루프를 구현하는데 요구되는 ASIC 영역의 양은 그것의 모든 매핑된 셀들의 개별 영역을 합산하고, 셀들을 상호 연결하는데 요구되는 추가적인 영역을 추정함으로써 결정된다. 셀들과 그들의 그들의 상호 연결 영역의 크기는 요구되는 데이터 정밀도를 구현하는 데 필요한 비트의 수에 달려 있다. ASIC 영역은 각 루프의 비용에 대한 이득값으로서 사용할 수 있다. 예를 들어, 하기의 수학식 2와 같이 사용할 수 있다.

비용=셀 영역+최대치(0, (상호 연결 영역-과다 셀 영역))

여기서, 셀 영역은 모든 구성 셀 영역의 합이고, 과다 셀 영역은 셀 영역과 셀당 상호 연결 영역으로 사용할 수 있는 영역의 승산값이고, 상호 연결 영역은 상호 연결의 수와 상호 연결 길이와 상호 연결 폭의 승산값이며, 상호 연결 길이는 셀 수의 제곱근을 3으로 나눈값이다.

상호 연결 영역 추정에 대한 보다 상세한 정보는 B.Preas, M. Lorenzetti에 의한, Physical Design Automation of VLSI Systems; Benjamin/Cummings Publishing Company; 1988; pp.31-64에 개시되어 있다.

이 방법은 소스 코드 내의 모든 루프에 대한 이득값을 실제로 계산하지 않는다. 컴파일러에는 목표 실행 시간 시스템에 따라서, 두 개의 실행 시간 파라미터, 즉 단일 ASIC 블록에 대한 최대 영역 및 이용가능한 최대 전체 ASIC 영역이 제공된다. 먼저 루프의 실행 시간의 백분율에 의거하여 루프를 내림 차순으로 정렬한 후, 각 루프에 대한 이득값이 추정된 영역의 총량의 사전결정된 한계에 도달할 때까지 각 루프에 대한 이득값을 추정한다. 사전결정된 한계는 최대 전체 ASIC 영역이 이용가능한 일정 시간이다. 단일 ASIC 블록보다 큰 영역이 요구되는 루프는 단순하게 구현하기 위해서 스킵될 수 있다. 최종적으로, 계산된 이득값에 대한 모든 루프에 대해, 루프를 선택하도록 냅색 알고리즘(knapsack algorithm)이 적용된다. 상이한 ASIC 내에 있는 것과 관련된 비용이나 이득이 없다면, 이 절차는 다수 개의 ASIC을 타겟으로 하는 경우를 처리하도록 간단하게 확장될 수 있다. 냅색 알고리즘에 대한 일반적인 논의는 Syslo, Deo, Kowalik에 의한, Discrete Optimization Algorithms; Prentice-Hall; 1983; pp.118-176에 개시되어 있다.

단일 ASIC 상에 패킹되는 다양한 소스 코드 루프는 일반적으로 서로 독립적이다. 임의 유형의 ASIC, 즉, FPGA(field programmable gate array)에 있어서는, 실행시 FPGA 상의 함수 전체 또는 일부를 변경할 수 있다. FPGA는 재구성가능 논리의 하나 이상의 독립된 블록을 갖는다. 각 블록은 임의의 다른 블록에 영향을 미치지 않고 재구성될 수 있다. 컴퓨터 프로그램이 코드의 상이한 영역을 실행하거나, 또는 완전히 상이한 컴퓨터 프로그램이 로딩될 때, 또는 사용가능한 FPGA 논리의 양이 변경될 때, 현재 구현되는 함수의 변경이 바람직할 수 있다.

재구성가능 FPGA 환경은 컴파일러가 해결할 문제, 즉 구현될 함수의 전체 세트 선택, 다수의 FPGA 블록을 통한 함수 분할, 및 프로그램 실행 동안의 FPGA 블록 로딩 및 활성화 스케줄링의 문제를 제공한다. 이들 문제는 다항 시간(polynomial time)으로는 최적으로 해결될 수 없다. 이들 문제에 성공적으로 적용될 수 있는 몇 가지 발견적 방법에 대해서 설명하면 다음과 같다.

일순간에 FPCA 상에 동시에 함께 존재하는 구성 세트를 스넵샷(snapshot)으로서 지칭할 것이다. 블록 기능 정지 시간을 최소화하여 전체 실행 스케줄링을 최소화하기 위해서, 스넵샷을 포함하는 다양한 함수는 컴파일러에 의해서 분리된 블록으로 분할된다. 마이크로프로세서가 새로운 활성화 구성 인스트럭션을 생성하는 경우, 블록의 기능이 정지될 것이나, 이전 구성의 모든 함수는 아직 완료되지 못한다. 분할하는 것은 거의 동시에 종결되는 함수를 함께 그룹화할 것이다. 냅색 알고리즘에 의해서 선택된 모든 함수는 그들의 이상적인 스케줄링된 종결 시간(이상적인 종결 시간은 블록이 지연없이 다운로딩되고 활성화되어, 함수가 그들의 스케줄링된 개시 시간에 호출될 수 있는 것으로 가정함)에 따라서 정렬된다. 종결 시간의 증가에 의해서 리스트를 운행(traversing)하면, 각 함수는 FPGA 블록의 영역 용량에 도달할 때까지 동일한 FPGA 블록에 할당된다. FPGA 블록이 가득차면, 다음 FPGA 블록이 열린다. 모든 함수가 FPGA 블록에 할당된 후, 최초 종결 시간과 최종 종결 시간 사이의 차이가 각 블록에 대해 계산된다. 그 다음, 각 함수는 역순(감소하는 순서)으로 재방문(revisting)된다. 다음 FPGA 블록에 대한 함수 재할당이 그 FPGA 영역 용량을 초과하지 않고, 두 FPGA 블록에 대한 두 차이의 최대치가 감소되면, 그 함수는 다음 FPGA 블록에 할당된다.

함수가 분할된 다음, FPGA 블록의 각 구성은 단일 태스크(task)로 간주된다. 그 데이터 및 제어 종속물은 그 할당된 함수의 종속물의 결합이고, 그 요구되는 시간은 그 할당된 함수의 최초 종결 시간과 최종 종결 시간 사이의 차이이다. 모든 스냅샷을 통한 모든 구성 태스크 세트는, 각각의 물리적인 FPGA 블록을 프로세서로서 다루는 표준 마이크로프로세서 스케줄링 알고리즘으로 스케줄링될 수 있다. 이것은 모든 활성화 구성 인스트럭션을 스케줄링할 것이다.

일반적인 스케줄링 알고리즘은 리스트 스케줄링이라고 불린다. 리스트 스케줄링에 있어서, 전형적으로 다음과 같은 단계가 구현된다.

1. 태스크 그래프에서 각 노드에는 우선 순위(priority)가 할당된다. 우선 순위는 태스크 그래프의 시작점으로부터 노드까지의 가장 긴 경로의 길이로서 정의된다. 우선 순위의 큐는 중간 선행자(predecessor)가 없는 모든 태스크의 삽입에 의해서 태스크 준비 상태가 되도록 초기화된다. 태스크는 태스크 우선 순위의 내림 차순으로 정렬된다.

2. 우선 순위 큐가 비어 있지 않는 한 다음과 같이 수행된다.

a. 큐의 앞부분으로부터 태스크가 획득된다.

b. 태스크를 실행하도록 아이들(idle) 프로세서가 선택된다.

c. 특정 태스크의 모든 중간 선행자가 실행되는 경우, 즉시 후임자가 준비되어 우선 순위 큐에 삽입될 수 있다.

마이크로프로세서 스케줄링 알고리즘에 대한 보다 상세한 정보는 A. Zomaya에 의한, Parallel and Distributed Computing Handbook; McGraw-Hill; 1996; pp. 239-273에 개시되어 있다.

임의의 FPGA 블록에 대한 구성의 총수가 FPGA 블록의 구성 캐쉬의 용량을 초과하지 않는 경우, 프로그램의 개시점에서 모든 구성 로딩 인스트럭션이 생성될 수 있다. 마찬가지로, 프로그램은 하나보다 많은 섹션(section)으로 분할될 수 있으며, 여기서 임의의 FPGA 블록에 대한 구성의 총수가 FPGA 블록의 구성 캐쉬의 용량을 초과하지 않는다. 이와 달리, 로딩 구성 인스트럭션은 모든 블록의 구성 활성화 인스트럭션을 포함하는 프로그램의 제어 흐름 그래프의 가장 낮은 선행 분기점에서 스케줄링될 수 있다. 이것은 커버하는(covering) 로딩 인스트럭션으로서 지칭될 것이다. 이것은 로딩 인스트럭션에 대한 예비 스케줄이지만, 실제 로딩 시간이, 마이크로프로세서가 구성 로딩 인스트럭션으로부터 제 1 활성화 구성 인스트럭션으로 진행하도록 요구하는 시간을 초과한다면 기능 정지를 초래할 것이다. 또한, FPGA 블록에 대한 구성의 수는 그 구성 캐쉬의 용량을 여전히 초과할 수 있다. 이것은 또한 스케줄링에 있어서 기능 정지를 초래할 것이다. 그러한 경우, 컴파일러는 경합중인 각 구성에 대해 추정된 이득 대 기능 정지의 길이를 비교할 것이다. 구성의 이득은 할당된 함수의 이득의 합으로서 추정된다. 경합중인 모든 구성 중에서, 최소로 추정된 이득을 갖는 것이 발견된다. 기능 정지가 최소 이득보다 크다면, 최소 이득을 갖는 구성은 스케줄링에서의 해당 지점에서 사용되지 않을 것이다.

상술한 바와 같이, 커버하는 로딩 인스트럭션이 디스케줄링(de-scheduled)되면, 각 구성 활성화 인스트럭션 직전에 임시적인 구성 로딩 태스크가 생성될 것이다. 이들은 활성화 인스트럭션을 바로 선행하는 가장 낮은 분기점에서 생성될 것이다. 이들은 단일 로딩 인스트럭션으로서 지칭될 것이다. 스케줄 내의 해당 지점에서 FPGA 블록의 구성 캐쉬 용량을 초과하지 않으면서 단일 로딩 코맨드를 스케줄링하기 위한 새로운 시도가 생성될 것이다. 이전의 스케줄링 시도와 마찬가지로, 구성의 수가 구성 캐쉬 용량을 다시 초과하면, 기능 정지의 길이를 추정된 이득과 비교할 것이다. 그러나, 이 경우, 구성의 추정된 이득은 단지 이 분기 아래에서 호출될 단일 함수의 이득이다. 다시, 기능 정지가 최소 이득보다 크다면, 최소 이득을 갖는 구성은 스케줄 내의 해당 지점에서 사용되지 않을 것이다.

디스케줄링된 로딩 인스트럭션이 커버하는 로딩 인스트럭션이라면, 처리는 회귀될 것이고, 만일 그렇지 않고 단일 로딩 인스트럭션이라면, 처리는 종결된다. 이 처리는 로딩 인스트럭션을 한번에 한 단계 제어 흐름 그래프의 아래로 이동하고, 지원해야 하는 호출 수를 감소하도록 일반화될 수 있다. 단일 단계의 경우, 각각의 경쟁하는 구성을 두 개의 새로운 태스크로 분할한다. 이미 스케줄링된 구성의 경우, 할당된 함수를 현재 시간에 종결되는 것과 그렇지 않은 것으로 분할한다. 아직 스케줄링되지 않은 구성의 경우, 할당된 함수를 기능 정지 시간 이후에 개시하는 것과 그렇지 않은 것으로 분할한다.

분기 예측은 분기의 가능한 결과를 예측하고, 분기에 앞서서 분기의 결과로서 필요하게 될 가능성이 있는 구성을 로딩하는데 사용될 수 있다. 필연적으로, 분기 예측이 때때로 실패해서, 실제로 필요하지 않은 구성이 로딩되는 결과를 초래할 것이다. 이들 예를 제공하기 위해, 만약 순 실행 시간(net execution-time)이 결과를 절약한다면, 분기 인스트럭션 이후에 인스트럭션이 삽입되어 분기 이전에 로딩된 구성을 클리어하고, 분기 이후에 필요한 다른 구성을 로딩할 수 있다.

당업자라면 본 발명의 정신 또는 본질적인 특성으로부터 벗어나지 않고서도, 본 발명을 다른 특정한 형태로 구현할 수 있음을 이해할 것이다. 따라서, 개시된 본 발명의 실시예는 예시적인 것이며, 본 발명을 한정하고자 하는 것은 아니다. 본 발명의 영역은 상술한 설명보다는 첨부된 특허 청구 범위에 의해서 표현되며, 그 등가물의 의미 및 범위에 속하는 모든 변경은 본 발명에 포함된다.

Claims

고급 프로그래밍 언어로 기록된 컴퓨터 프로그램을 마이크로프로세서와 연결된 하나 이상의 애플리케이션 주문형 집적 회로(application specific integrated circuits)에 의해 실행하기 위한 프로그램으로 자동 컴파일하는 컴퓨터 구현 방법(computer inplemented method)에 있어서,

비용 함수를 사용하여 상기 하나 이상의 애플리케이션 주문형 집적 회로(ASIC)에 의해 실행될 하나 이상의 코드 블록의 세트를 자동으로 결정하는 단계―상기 하나 이상의 코드 블럭의 함수들은 상기 하나 이상의 애플리케이션 주문형 집적 회로(ASIC)에 의해 실행되어 상기 마이크로프로세서에 의한 실행을 위해 기록된 소정의 입력 프로그램에 대해 상대적인 성능 개선을 가져옴―와,

상기 하나 이상의 애플리케이션 주문형 집적 회로의, 재구성가능 리소스를 포함한 물리적 리소스의 활용도를 최대화하기 위해, 상기 하나 이상의 코드 블럭의 함수들 중의 적어도 일부 중에서 상기 하나 이상의 애플리케이션 주문형 집적 회로의, 재구성가능 리소스를 포함한 물리적 리소스의 사용을 스케줄링하는 단계와,

상기 함수들을 로딩 및 활성화하기 위한 인스트럭션을 포함하여, 상기 마이크로프로세서에 의한 실행을 위한 코드를 생성하는 단계를 포함하는

컴퓨터 구현 방법.
삭제
제 1 항에 있어서,

영역 제한(area constraint) 및 실행 타이밍 제한(execution timing constraint) 중 적어도 하나에 기초하여 상기 코드 블록을 그룹으로 그룹화하는 단계와,

상기 함수들의 로딩을 스케줄링(scheduling)하는 단계와,

상기 함수들의 활성화를 스케줄링하는 단계를 더 포함하는 컴퓨터 구현 방법.
제 3 항에 있어서,

상기 회로의 상세한 집적 회로 레이아웃을 생성하는 단계를 더 포함하는 컴퓨터 구현 방법.
제 3 항에 있어서,

상기 함수들에 대한 구성 데이터를 생성하는 단계를 더 포함하는 컴퓨터 구현 방법.
제 1 항에 있어서,

상기 인스트럭션은 애플리케이션 주문형 집적 회로 상에 구현된 함수를 로딩, 활성화, 호출(invoke) 및/또는 해제(release)하는 특정 인스트럭션을 포함하는 컴퓨터 구현 방법.
제 3 항에 있어서,

상기 그룹화 단계는, 상기 선택된 코드 블록에 대한 개시 시간 및 종료 시간을 계산하는 것을 포함하는 컴퓨터 구현 방법.
제 7 항에 있어서,

상기 개시 시간 및 종료 시간은 상기 선택된 코드 블록이 각 병렬 연산에 대한 고정된 오버헤드(overhead)로 병렬로 구현된다는 가정하에서 계산되는 컴퓨터 구현 방법.
제 8 항에 있어서,

상기 고정된 오버헤드는, OV=I+A=L로서 계산―여기서, I는 코프로세서(coprocessor) 인스트럭션으로서 애플리케이션 주문형 집적 회로를 호출하는데 요구되는 평균 시간이고, A는 활성화 구성 인스트럭션을 생성하는데 요구되는 평균 시간과 활성화를 위한 평균 기능 정지 시간(average stall time)의 합이며, L은 로딩 구성 인스트럭션을 생성하는데 요구되는 평균 시간과 로딩을 위한 평균 기능 정지 시간의 합임―되는 컴퓨터 구현 방법.
제 7 항에 있어서,

상기 그룹화 단계는, 그룹 내의 최초 종료 시간(the earliest finish time)과 최종 종료 시간(the latest finish time) 사이의 차이가 최소화되도록 수행되는 컴퓨터 구현 방법.
제 7 항에 있어서,

상기 그룹화 단계는, 각 그룹에 대해, 해당 그룹의 함수를 수행하기 위한 회로가 애플리케이션 주문형 집적 회로의 블록의 지정된 용량을 초과하지 않도록 수행되는 컴퓨터 구현 방법.
제 7 항에 있어서,

상기 그룹화 단계는,

제로(zero)의 전체 할당된 영역으로 새 그룹을 여는(opening) 단계와,

사전결정된 순서로 상기 코드 블록을 소팅(sorting) 및 트래버싱(traversing)하는 단계와,

각 코드 블록에 대해, 상기 블록의 영역과 상기 그룹의 할당된 영역의 합이, 단일 그룹에 대한 지정된 최대 영역을 초과하지 않는 경우, 상기 코드 블록을 상기 그룹에 추가하고, 상기 코드 블록의 영역을 상기 그룹의 할당된 영역에 추가하며, 그렇지 않은 경우, 새로운 그룹을 열고, 상기 코드 블록을 상기 새로운 그룹에 추가하고, 상기 코드 블록의 영역을 상기 새로운 그룹의 할당된 영역에 추가하는 단계를 더 포함하는 컴퓨터 구현 방법.
삭제
삭제
제 1 항에 있어서,

상기 자동 결정 단계는, 상기 컴퓨터 프로그램이 단일 마이크로프로세서 상에서 실행되는 경우, 각 코드 블록에서 소요된 시간의 백분율을 샘플링하는 단계를 포함하는 컴퓨터 구현 방법.
삭제
제 15 항에 있어서,

상기 자동 결정 단계는, 상기 컴퓨터 프로그램의 상기 코드 블록 중 적어도 일부에 대해, 애플리케이션 주문형 집적 회로 내의 회로를 사용하여 코드 블록을 구현하는 것의 비용 및 이점을 추정하는 단계를 더 포함하는 컴퓨터 구현 방법.
삭제
제 17 항에 있어서,

상기 자동 결정 단계는,

애플리케이션 주문형 집적 회로의 단일 블록의 최대 영역을 나타내는 제 1 실행 시간 파라미터 및 애플리케이션 주문형 집적 회로로서의 구현을 위해 고려될 모든 블록에 대한 최대 전체 영역을 나타내는 제 2 실행 시간 파라미터를 받아들이는 단계와,

상기 제 1 및 제 2 실행 시간 파라미터를 만족하고, 실행 시간의 전체 추정된 감소를 최대화하는 코드 블록 세트를 선택하는 단계를 더 포함하는 컴퓨터 구현 방법.
삭제
제 19 항에 있어서,

상기 실행 시간의 감소는 R=T(1-1/P)의 식―여기서, T는 상기 코드 블록에서 소요되는 실행 시간의 백분율이고, P는 상기 코드 블록에서 병렬로 실행될 수 있는 경로의 수임―에 따라 추정되는 컴퓨터 구현 방법.
삭제
삭제
삭제
삭제
삭제
삭제
제 15 항에 있어서,

각 그룹에 대한 실행 시간의 감소를 추정하는 단계를 더 포함하는 컴퓨터 구현 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
액세스하는 머신(accessing machine)에 의해 실행될 때, 고급 프로그래밍 언어로 기록된 컴퓨터 프로그램을 마이크로프로세서와 연결된 하나 이상의 애플리케이션 주문형 집적 회로에 의해 실행하기 위한 프로그램으로 컴파일하는 방법을 상기 머신이 구현하도록 하는 콘텐츠를 포함하는 머신 판독가능 매체(machine readable medium)에 있어서,

상기 방법은,

상기 마이크로프로세서에 의한 실행을 위해 기록된 소정의 입력 프로그램에 대해 상대적인 성능 향상을 생성시키고 상기 하나 이상의 애플리케이션 주문형 집적 회로에 의해서 실행될 하나 이상의 특정 인스트럭션 세트를 자동으로 결정하는 단계와,

상기 하나 이상의 특정 인스트럭션을 포함하는 코드를 생성하는 단계를 포함하는 머신 판독가능 매체.
삭제
제 53 항에 있어서,

상기 특정 인스트럭션은 상기 애플리케이션 주문형 집적 회로 상에 구현된 함수의 로딩, 활성화, 호출 및/또는 해제 중 하나 이상을 수행하는 하나 이상의 인스트럭션을 포함하는 머신 판독가능 매체.
제 53 항에 있어서,

콘텐츠를 더 포함하되, 상기 콘텐츠는 실행될 때,

하나 이상의 애플리케이션 주문형 집적 회로 내의 회로에 의해서 수행될 함수의 코드 블록을 선택하는 단계와,

영역 제한 및 실행 타이밍 제한 중 적어도 하나에 기초하여 상기 코드 블록을 그룹으로 그룹화하는 단계와,

상기 함수의 로딩을 스케줄링하는 단계와,

상기 함수의 활성화를 스케줄링하는 단계를 포함하는 함수를 구현하는 머신 판독가능 매체.
제 56 항에 있어서,

콘텐츠를 더 포함하되, 상기 콘텐츠는 실행될 때, 상기 회로의 상세한 집적 회로 레이아웃(들)을 생성하는 단계를 포함하는 함수를 구현하는 머신 판독가능 매체.
제 53 항에 있어서,

상기 실행가능한 콘텐츠는 상기 실행하는 머신 상에서 컴파일러를 구현하는 머신 판독가능 매체.
제 56 항에 있어서,

상기 그룹화 단계는, 상기 선택된 코드 블록에 대한 개시 시간 및 종료 시간(들) 중 하나 이상을 계산하는 것을 포함하는 머신 판독가능 매체.
제 59 항에 있어서,

상기 개시 시간 및 종료 시간은 상기 선택된 코드 블록이 각 병렬 연산에 대한 고정된 오버헤드로 병렬로 구현된다는 가정하에서 계산되는 머신 판독가능 매체.
제 60 항에 있어서,

상기 그룹화 단계는, 최초 종료 시간과 최종 종료 시간 사이의 차이가 감소되도록 수행되는 머신 판독가능 매체.