KR20230132112A - 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 - Google Patents

발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 Download PDF

Info

Publication number
KR20230132112A
KR20230132112A KR1020220029242A KR20220029242A KR20230132112A KR 20230132112 A KR20230132112 A KR 20230132112A KR 1020220029242 A KR1020220029242 A KR 1020220029242A KR 20220029242 A KR20220029242 A KR 20220029242A KR 20230132112 A KR20230132112 A KR 20230132112A
Authority
KR
South Korea
Prior art keywords
temperature
temperature sensor
threshold
deviation
heat
Prior art date
Application number
KR1020220029242A
Other languages
English (en)
Inventor
김정현
유성주
최지훈
Original Assignee
에스케이하이닉스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이하이닉스 주식회사 filed Critical 에스케이하이닉스 주식회사
Priority to KR1020220029242A priority Critical patent/KR20230132112A/ko
Priority to US17/958,521 priority patent/US20230288971A1/en
Publication of KR20230132112A publication Critical patent/KR20230132112A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D23/00Control of temperature
    • G05D23/19Control of temperature characterised by the use of electric means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/324Power saving characterised by the action undertaken by lowering clock frequency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3296Power saving characterised by the action undertaken by lowering the supply or operating voltage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Automation & Control Theory (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

일 실시예에 의한 발열 관리 회로는 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 각각 전송된 복수의 제 1 온도신호가 스로틀링 조건을 만족하는 경우 기능회로를 설정된 시간 동안 냉각시키는 스로틀링부 및, 설정된 시간 경과 후 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하도록 구성되는 분석부를 포함하도록 구성될 수 있다.

Description

발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치{Heat Management Circuit and Operating Method Thereof, Electronic Device and Data Processing Apparatus Having the Same}
본 기술은 반도체 집적 장치에 관한 것으로, 보다 구체적으로는 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 에 관한 것이다.
전자 장치의 성능 향상은 전력 소모량 증가 및 그로 인한 온도 상승을 유발한다.
이에 대응하여 전자 장치의 온도가 임계값 이상 상승하는 경우 전자 장치의 성능을 하락시키거나 기능을 제한하여 온도를 유지 또는 강하시키는 스로틀링(throttling) 기능이 채택되고 있다.
데이터 플랫폼, 데이터 센터 등 중앙 집중식 데이터 처리 서비스를 제공하는 시스템은 복수의 전자 장치가 독립적 또는 협력적으로 동작하도록 구축된다. 이 때, 어느 하나의 전자 장치의 온도 상승으로 전체 시스템이 정지할 수 있으므로, 각 전자 장치의 다양한 발열 상황에 적절히 대처할 수 있는 방안이 요구된다.
본 기술의 실시예는 발열 원인을 분석할 수 있는 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치를 제공할 수 있다.
본 기술의 일 실시예에 의한 발열 관리 회로는 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 각각 전송된 복수의 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 스로틀링부; 및 상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하도록 구성되는 분석부;를 포함하도록 구성될 수 있다.
본 기술의 일 실시예에 의한 발열 관리 회로의 동작 방법은 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 복수의 제 1 온도신호를 수신하는 단계; 상기 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 단계; 상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하는 단계; 및 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하는 단계;를 포함하도록 구성될 수 있다.
본 기술의 일 실시예에 의한 전자 장치는 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로; 상기 기능회로의 온도를 감지하는 복수의 온도 센서; 상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로의 동작을 제한하는 스로틀링부; 및 상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 분석부;를 포함하도록 구성될 수 있다.
본 기술의 일 실시예에 의한 데이터 처리 장치는 적어도 메모리 장치를 포함하여 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로 및, 상기 기능회로 및 상기 메모리 장치의 온도를 감지하는 복수의 온도 센서를 포함하는 데이터 저장 장치; 및 상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로 및 상기 메모리 장치의 동작을 제한하고, 상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 컨트롤러;를 포함하도록 구성될 수 있다.
본 기술에 의하면, 전자 장치의 발열 원인이 전자 장치 자체에 있는지, 온도 센서의 문제인지, 전자 장치 외부의 문제인지를 분석할 수 있으므로, 분석 결과에 적응적으로 발열 원인을 제거할 수 있다.
도 1은 일 실시예에 의한 전자 장치의 구성도이다.
도 2는 일 실시예에 의한 발열 관리 회로의 구성도이다.
도 3은 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 5는 일 실시예에 의한 스토리지 시스템의 구성도이다.
도 6 및 도 7은 실시예들에 따른 데이터 처리 시스템의 구성도이다.
도 8은 일 실시예에 의한 데이터 저장 장치를 포함하는 네트워크 시스템의 구성도이다.
도 9는 일 실시예에 의한 데이터 처리 시스템을 도시한 도면이다.
도 10은 일 실시 예에 의한 컴퓨팅 랙의 구조를 개략적으로 도시한 도면이다.
도 11은 일 실시 예에 의한 컴퓨팅 랙의 블록 구성을 도시한 도면이다.
도 12는일 실시 예에 의한 연산 보드의 구성을 도시한 도면이다.
도 13은 일 실시 예에 의한 메모리 보드의 구성을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 기술의 실시예를 보다 구체적으로 설명한다.
도 1은 일 실시예에 의한 전자 장치의 구성도이다.
도 1을 참조하면, 일 실시예에 의한 전자 장치(100)는 컨트롤러(110) 및 기능 회로 그룹(120)을 포함할 수 있다.
기능 회로 그룹(120)은 복수의 기능 회로(120-0 ~ 120-n)를 포함하고, 각 기능 회로(120-0 ~ 120-n)는 정해진 기능을 수행하도록 설계되어 SoC(System on Chip)에 집적될 수 있는 회로(circuit), 로직(logic) 등으로 지칭될 수 있는 반도체 장치, 또는 이들의 조합을 의미한다.
각 기능 회로(120-0 ~ 120-n)에는 적어도 하나의 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)가 설치될 수 있다. 기능 회로(120-0 ~ 120-n)에 설치되는 온도 센서의 개수는 같거나 다를 수 있다. 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn) 각각에는 고유의 식별자(ID)가 부여되며 대응하는 기능 회로(120-0 ~ 120-n) 또는 그 주변의 온도를 측정한 온도신호를 컨트롤러(110)로 전송할 수 있다.
일 실시예에서, 기능 회로(120-1 ~120-n) 중 적어도 하나는 데이터 저장 장치일 수 있고, 이 경우 전자 장치(100)는 데이터 처리 장치라 칭할 수 있다. 데이터 저장 장치는 휘발성 및/또는 비휘발성 메모리 장치로 구성될 수 있다. 일 실시예에서, 데이터 저장 장치는 EEPROM(Electrically Erasable and Programmable ROM), 낸드(NAND) 플래시 메모리, 노어(NOR) 플래시 메모리, PRAM(Phase-Change RAM), ReRAM(Resistive RAM) FRAM(Ferroelectric RAM), STT-MRAM(Spin Torque Transfer Magnetic RAM) 등과 같은 다양한 비휘발성 메모리 소자 중에서 선택된 메모리 소자를 이용하여 구현될 수 있다.
데이터 저장 장치는 복수의 다이들(Die 0~Die n), 또는 복수의 칩들, 또는 복수의 패키지들을 포함할 수 있고, 하나의 메모리 셀에 한 비트의 데이터를 저장하는 싱글 레벨 셀(Single-Level Cell), 또는 하나의 메모리 셀에 복수 비트의 데이터를 저장하는 멀티 레벨 셀(Multi-Level Cell)로 이루어질 수 있다. 이 때, 복수의 다이, 칩, 패키지 별로 각각 온도 센서가 구비될 수 있다.
컨트롤러(110)는 프로세서(111), ROM(113), RAM(115), 입출력 인터페이스(I/O IF, 117) 및 발열 관리 회로(130)를 포함하여, 기능 회로 그룹(120)을 구성하는 각 기능 회로(120-0~120-n)를 제어하도록 구성될 수 있다.
프로세서(111)는 기능 회로들(120-0~120-n)의 다양한 동작을 제어하기 위해 제공되는 펌웨어를 하드웨어 상에서 실행시킴에 따라 동작할 수 있다.
ROM(113)에는 컨트롤러(110)의 동작에 필요한 프로그램 코드, 예를 들어 펌웨어 또는 소프트웨어가 저장되고, 프로그램 코드들이 이용하는 코드 데이터 등이 저장될 수 있다.
RAM(115)은 컨트롤러(110)의 동작에 필요한 데이터 또는 컨트롤러(110)에 의해 생성된 데이터를 저장할 수 있다.
입출력 인터페이스(117)는 전자 장치(100)와 외부 장치, 예를 들어 전자 장치(100)가 마운트되는 호스트 장치 간의 물리적 연결을 제공하기 위한 외부 인터페이스 장치를 포함할 수 있다. 입출력 인터페이스(177)는 컨트롤러(110)와 기능 회로 그룹(120) 간의 물리적 연결을 제공하기 위한 기능 회로 인터페이스 장치를 더 포함할 수 있다.
일 실시예에서, 외부 인터페이스 장치는 외부 장치의 버스 포맷에 대응하여 전자 장치(100와의 인터페이싱을 제공할 수 있다. 외부 장치의 버스 포맷은 시큐어 디지털(secure digital), USB(universal serial bus), MMC(multi-media card), eMMC(embedded MMC), PCMCIA(personal computer memory card international association), PATA(parallel advanced technology attachment), SATA(serial advanced technology attachment), SCSI(small computer system interface), SAS(serial attached SCSI), PCI(peripheral component interconnection), PCI-E(PCI Express), UFS(universal flash storage)와 같은 표준 인터페이스 프로토콜들 중 적어도 어느 하나를 포함할 수 있다.
외부 인터페이스 장치는 SMBus(System Management Bus), I2C(Inter-Integrated Circuit), I3C(Improved Inter-Integrated Circuit) 프로토콜에 기반한 인터페이스 장치 중 적어도 어느 하나를 더 포함할 수 있다.
기능 회로 인터페이스 장치는 컨트롤러(110)와 기능 회로 그룹(120) 간의 신호 송수신을 위한 통신 채널을 제공할 수 있다.
발열 관리 회로(130)는 각 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)로부터 전송되는 온도신호에 기초하여 기능 회로 그룹(120)의 발열 상태를 제어할 수 있다. 일 실시예에서, 발열 관리 회로(130)는 각 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)로부터 전송되는 제 1 온도신호 세트로부터 산출한 제 1 대표온도, 예를 들어 평균 온도가 제 1 임계값 이상인 경우, 설정된 시간 동안 각 기능 회로(120-0 ~120-n)의 동작을 제한하여 냉각시키는 스로틀링 동작을 수행할 수 있다. 기능 회로(120-0 ~120-n)의 동작을 제한하기 위하여 발열 관리 회로(130)는 각 기능 회로(120-0 ~120-n)를 파워-오프시킬 수 있으나, 이에 한정되는 것은 아니다.
발열 관리 회로(130)는 스로틀링 동작을 통해 기능 회로 그룹(120)이 정상적으로 냉각되지 않은 경우 발열 원인을 분석할 수 있다. 일 실시예에서, 발열 관리 회로(130)는 설정된 시간 동안 기능 회로(120-0 ~120-n)를 냉각한 후 각 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)로부터 전송되는 제 2 온도신호 세트로부터 산출한 제 2 대표온도가 제 2 임계값 이상인 경우 스로틀링 동작 즉, 냉각에 실패한 것으로 판단할 수 있다. 냉각에 실패한 것으로 판단하면, 발열 관리 회로(130)는 발열의 원인이 전자 장치(100)의 내부 발열에 의한 것이 아닌 다른 데 있는 것으로 판단하고 발열 원인을 분석할 수 있다.
일 실시예에서, 발열 관리 회로(130)는 제 2 온도신호 세트 중 이상치(anomaly value)를 출력한 적어도 하나의 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)를 검출할 수 있다. 일 실시예에서, 제 2 온도신호 세트 중 편차가 문턱값 이상인 제 2 온도신호를 이상치로 판단하고, 이를 출력한 적어도 하나의 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn)의 오류로 인해 발열 상황이 감지된 것으로 판단할 수 있다. 편차가 문턱값 이상인 제 2 온도신호가 검출되지 않는 경우, 발열 관리 회로(130)는 제 2 온도신호 세트 중 편차가 최대인 제 2 온도신호를 이상치로 판단하고, 이를 출력한 온도 센서(TS01/TS02/TS03/TS04, TS11/TS12, TSn) 주변 환경의 발열로 인해 발열 상황이 감지된 것으로 판단할 수 있다.
발열 관리 회로(130)는 발열 원인 분석 결과를 외부 장치로 전송할 수 있고, 외부 장치 운용자는 이에 상응하는 조처를 취할 수 있다.
도 2는 일 실시예에 의한 발열 관리 회로의 구성도이다.
도 2를 참조하면, 일 실시예에 의한 발열 관리 회로(130)는 온도 수집부(1310), 스로틀링부(1320) 및 분석부(1330)를 포함할 수 있다.
복수의 온도 센서(TS01 ~ TSn)각각은 설정된 주기로 온도신호(S01 ~Sn)를 출력할 수 있고, 온도 수집부(1310)는 온도신호(S01 ~Sn)를 수신하여 저장할 수 있다.
스로틀링부(1320)는 온도 수집부(1310)로부터 제 1 온도신호 세트(TEMP2)를 수신하여 스로틀링 필요 여부를 판단하고, 각 기능 회로(120-0~120-n)로 모드제어 신호(MODE0 ~MODEn)를 출력할 수 있다. 일 실시예에서, 제 1 온도신호 세트(TEMP1)는 복수의 온도 센서(TS01 ~ TSn)에서 전송된 제 1 온도신호(S01 ~Sn)를 포함할 수 있다. 스로틀링부(1320)는 제 1 온도신호 세트(TEMP1)로부터 제 1 대표온도를 산출하고 제 1 임계값과 비교함으로써 스로틀링 즉, 냉각 필요 여부를 판단할 수 있다. 제 1 대표온도는 제 1 온도신호 세트(TEMP1)에 포함된 제 1 온도신호(S01 ~Sn)의 평균 온도일 수 있으나, 이에 한정되는 것은 아니다.
제 1 대표온도가 제 1 임계값 이상인 경우, 스로틀링부(1320)는 각 기능 회로(120-0 ~120-m)의 성능을 제한하기 위하여 모드제어 신호(MODE0 ~MODEn)를 제 1 논리값으로 출력할 수 있다. 예를 들어, 제 1 논리값은 기능 회로(120-0 ~120-n)를 파워-오프하기 위한 신호일 수 있다. 기능 회로(120-0 ~120-n)를 파워-오프하여 동작을 제한함에 의해 기능 회로(120-0 ~120-n)의 전력 소모를 차단하여 더 이상의 발열을 억제하여 냉각시킬 수 있다.
스로틀링부(1320)는 기능 회로(120-0 ~120-n)로 제 1 논리값의 모드제어 신호(MODE0 ~MODEn)를 전송하고 설정된 제 1 시간 경과 후, 분석부(1330)로 발열 원인을 분석하도록 요청하기 위한 제어신호(CON)를 전송할 수 있다.
분석부(1330)는 제어신호(CON)에 응답하여 온도 수집부(1310)로부터 제 2 온도신호 세트(TEMP2)를 수신하여 발열 원인을 분석할 수 있다. 제 2 온도신호 세트(TEMP2)는 제 1 시간 경과 후 복수의 온도 센서(TS01 ~TSn) 각각에서 감지된 복수의 제 2 온도신호(S01~Sn)를 포함할 수 있다. 분석부(1330)는 제 2 온도신호 세트(TEMP2)에 기초하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출할 수 있다.
일 실시예에서, 분석부(1330)는 냉각 여부 판단부(1331), 편차 계산부(1333), 센서 검출부(1335) 및 메시지 생성부(1337)를 포함할 수 있다.
냉각 여부 판단부(1331)는 제 2 온도신호 세트(TEMP2)로부터 제 2 대표온도, 예를 들어 평균 온도를 산출하고 제 2 임계값과 비교함으로써 냉각 성공 여부를 판단할 수 있다. 냉각 여부 판단부(1331)는 제 2 온도신호 신호(TEMP2)의 대표온도가 제 2 임계값보다 낮은 경우 냉각에 성공한 것으로 판단하고, 스로틀링 성공 신호(COOL)를 스로틀링부(1320)로 전송할 수 있다.
스로틀링부(1320)는 스로틀링 성공 신호(COOL)에 응답하여, 각 기능 회로(120-0 ~120-m)로 제 2 논리값의 모드제어 신호(MODE0 ~MODEn)를 전송할 수 있다. 제 2 논리값은 각 기능 회로(120-0 ~120-m)를 성능 제한 이전의 상태로 복원하도록 제어하기 위한 신호일 수 있다.
편차 계산부(1333)는 제 2 온도신호 세트(TEMP2)의 제 2 대표온도가 제 2 임계값 이상인 경우, 제 2 온도신호 세트(TEMP2)에 포함된 제 2 온도신호들(S01~Sn)의 평균 및 편차를 산출할 수 있다.
센서 검출부(1335)는 편차 계산부(1333)의 계산 결과에 기초하여, 편차가 제 3 임계값 이상인 제 2 온도신호를 출력한 온도 센서가 적어도 하나 검출되면, 이를 비정상 온도 센서로 특정하고 발열코드를 설정할 수 있다. 센서 검출부(1335)는 편차가 제 3 임계값 이상인 온도 센서가 검출되지 않으면, 편차가 최대인 제 2 온도신호를 출력한 온도 센서를 비정상 온도 센서로 특정하고 발열코드를 설정할 수 있다.
발열코드는 발열 원인을 설명하는 코드이다. 제 2 온도신호 세트(TEMP2) 중 편차가 제 3 임계값 이상인 온도 센서가 검출되는 경우, 발열코드는 발열 원인이 온도 센서에 있음을 나타내기 위해 사전에 정의된 제 1 값으로 설정될 수 있다. 제 2 온도신호 세트(TEMP2) 중 편차가 제 3 임계값 이상인 온도 센서가 검출되지 않고 최대 편차를 갖는 제 2 온도신호를 출력한 온도 센서가 검출되는 경우, 발열코드는 발열 원인이 주변 환경에 있음을 나타내기 위해 사전에 정의된 값으로 설정될 수 있다.
센서 검출부(1335)는 발열코드 및 비정상 온도 센서의 ID를 메시지 생성부(1337)로 전송할 수 있다.
메시지 생성부(1337)는 발열코드, 비정상 온도 센서의 ID. 비정상 온도 센서에서 전송된 제 2 온도신호 및 편차를 포함하는 분석 정보(HTSRC)를 생성하여 외부 장치로 전송할 수 있다. 일 실시예에서, 분석 정보(HTSRC)는 SMBus, I2C, I3C 프로토콜에 기반한 인터페이스 장치 중 적어도 하나를 통해 전송될 수 있다.
예를 들어, [표 1]과 같이 제 1 내지 제 12 온도 센서(TS0~TS12)로부터 제 2 온도신호 세트(TEMP2)가 전송된 경우를 가정한다.
[표 1]
냉각 여부 판단부(1331)는 제 2 온도신호 세트(TEMP2)의 제 2 대표온도(평균 온도=29.5℃)가 제 2 임계값(예를 들어, 29℃) 이상인 경우 스로틀링 동작에 실패한 것으로 판단한다. 이에 따라, 편차 계산부(1333)는 제 2 온도신호 세트(TEMP2)에 포함된 제 2 온도신호들(S0~Sn)의 평균 및 편차를 산출할 수 있다.
센서 검출부(1335)는 편차 계산부(1333)의 계산 결과에 기초하여, 편차가 제 3 임계값 이상(예를 들어, 10℃)인 제 2 온도신호를 출력한 온도 센서(TS3)를 검출할 수 있다. 센서 검출부(133)는 이를 비정상 온도 센서로 특정하고, 발열 원인이 온도 센서에 있음을 나타내는 발열코드(예를 들어, 0x0)를 설정할 수 있다.
이에 기초하여 메시지 생성부(1337)에서 생성한 분석 정보(HTSRC)는 예를 들어 [표 2]와 같다.
[표 2]
예를 들어, [표 3]과 같이 제 1 내지 제 12 온도 센서(TS0~TS12)로부터 제 2 온도신호 세트(TEMP2)가 전송된 경우를 가정한다.
[표 3]
냉각 여부 판단부(1331)는 제 2 온도신호 세트(TEMP2)의 제 2 대표온도(평균 온도=76℃)가 제 2 임계값(예를 들어, 29℃) 이상인 경우 스로틀링 동작에 실패한 것으로 판단한다. 이에 따라, 편차 계산부(1333)는 제 2 온도신호 세트(TEMP2)에 포함된 제 2 온도신호들(S0~Sn)의 평균 및 편차를 산출할 수 있다.
센서 검출부(1335)는 편차가 제 3 임계값 이상(예를 들어, 10℃)인 제 2 온도신호를 출력한 온도 센서가 존재하지 않으므로, 최대 편차를 갖는 온도 센서(TS9)를 검출하고 비정상 온도 센서로 특정한다. 아울러, 발열 원인이 주변 환경에 있음을 나타내는 발열코드(예를 들어, 0x1)를 설정할 수 있다.
이에 기초하여 메시지 생성부(1337)에서 생성한 분석 정보(HTSRC)는 예를 들어 [표 4]와 같다.
[표 4]
외부 장치는 분석 정보(HTSRC)를 운용자에게 제공할 수 있고, 운용자는 분석 정보(HTSRC)에 포함된 정보에 기초하여 센서를 교체 또는 수리하거나, 센서 주변으로부터 발열원인을 제거하는 등의 조처를 취할 수 있다.
도 3은 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
전자 장치(100) 내의 기능 회로 그룹(120)에 설치된 복수의 온도 센서(TS01 ~ TSn)각각은 설정된 주기로 온도신호(S01 ~Sn)를 출력할 수 있다. 발열 관리 회로(130)를 포함하는 컨트롤러(110)는 제 1 온도신호(S01 ~Sn) 를 수신하고(S101), 제 1 대표온도를 산출하여 제 1 임계값(TH1)과 비교할 수 있다(S103). 제 1 대표온도는 예를 들어 특정 시점에 수집된 온도신호 세트의 평균일 수 있으나 이에 한정되는 것은 아니다.
제 1 대표온도가 제 1 임계값(TH1)보다 작은 경우(S103:N), 컨트롤러(110)는 제 1 온도신호를 수신하여(S101), 발열 여부를 계속 모니터링한다.
제 1 대표온도가 제 제 1 임계값(TH1) 이상인 경우(S103:Y), 컨트롤러(110)는 기능 회로 그룹(120)을 냉각시킬 수 있다(S105). 일 실시예에서, 컨트롤러(110)는 기능 회로 그룹(120)을 냉각시키기 위해, 기능 회로 그룹(120)의 성능을 제한하기 위한 제 1 논리값의 모드제어 신호(MODE0 ~MODEn)를 력할 수 있다. 예를 들어, 제 1 논리값은 기능 회로 그룹(120)을 파워-오프하기 위한 신호일 수 있다.
컨트롤러(110)는 성능 제한을 위한 모드제어 신호(MODE0 ~MODEn) 전송 후 설정된 제 1 시간이 경과한 시점에, 복수의 온도 센서(TS01 ~ TSn)로부터 수신된 제 2 온도신호(S01 ~Sn)로부터 제 2 대표온도를 산출하여 제 2 임계값(TH2)과 비교할 수 있다(S107). 일 실시예에서, 제 2 임계값(TH1)은 제 1 임계값(TH2)보다 작은 값일 수 있다.
제 2 대표온도가 제 2 임계값(TH2) 이상인 경우(S107:Y), 컨트롤러(110)는 제 2 온도신호(S01~Sn)에 기초하여 발열 원인을 분석하고(S109), 분석 결과를 외부 장치로 전송할 수 있다(S111).
도 4는 일 실시예에 의한 전자 장치의 동작 방법을 설명하기 위한 흐름도로서, 도 3에 도시한 온도신호 분석 과정(S109)의 상세 흐름도이다.
컨트롤러(110)는 제 2 온도신호(S01~Sn)의 평균 및 편차를 산출하고(S201), 편차가 제 3 임계값(TH2) 이상인 온도신호를 출력한 온도 센서가 검출되는지 확인할 수 있다(S203).
편차가 제 3 임계값(TH2) 이상인 온도신호를 출력한 온도 센서가 검출되는 경우(S203:Y), 컨트롤러(110)는 이를 비정상 온도 센서로 특정하고, 발열코드 및 센서 ID를 포함하는 제 1 비정상 센서 정보를 생성할 수 있다(S205). 이 때, 발열코드는 발열 원인이 온도 센서에 있음을 나타내기 위해 사전에 정의된 제 1 값으로 설정될 수 있다.
편차가 제 3 임계값(TH2) 이상인 온도신호를 출력한 온도 센서가 검출되지 않는 경우(S203:N), 컨트롤러(110)는 최대 편차를 갖는 제 2 온도신호를 출력한 온도 센서를 검출하여 비정상 온도 센서로 특정하고(S207), 발열코드 및 센서 ID를 포함하는 제 2 비정상 센서 정보를 생성할 수 있다(S209). 이 때, 발열코드는 발열 원인이 주변 환경에 있음을 나타내기 위해 사전에 정의된 값으로 설정될 수 있다.
이에 따라, 도 3의 분석 정보 출력 과정(S111)에서 컨트롤러는, 발열코드, 비정상 온도 센서의 ID. 비정상 온도 센서에서 전송된 온도신호 및 편차를 포함하는 분석 정보(HTSRC)를 생성하여 외부 장치로 전송할 수 있다.
전자 장치(100)의 발열이 감지되어 파워-오프 스로틀링을 수행하였으나, 근본적인 요인이 기능 회로들(120-0 ~120-n)의 동작에 의한 것이 아닌 다른 데 있을 수 있다.
본 기술에 의하면, 발열 원인을 정확히 분석하고 대처할 수 있으므로, 전자 장치를 불필요하게 파워-오프시킬 필요가 없다. 따라서, 데이터 플랫폼이나 데이터 센터 전체의 동작이 중단되는 것을 방지할 수 있다.
도 5은 일 실시예에 의한 스토리지 시스템의 구성도이다.
도 5을 참조하면, 스토리지 시스템(1000)은 호스트 장치(1100)와 데이터 저장 장치(1200)를 포함할 수 있다. 일 실시예에서, 데이터 저장 장치(1200)는 솔리드 스테이트 드라이브(solid state drive)(SSD)로 구성될 수 있다.
호스트 장치(110)는 외부장치로 지칭될 수 있고, 데이터 저장 장치(1200)는 도 1 및 도 2에 도시한 전자 장치(100)일 수 있다.
데이터 저장 장치(1200)는 컨트롤러(1210), 비휘발성 메모리 장치들(1220-0 ~ 1220-n), 버퍼 메모리 장치(1230), 전원 공급기(1240), 신호 커넥터(1101) 및 전원 커넥터(1103)를 포함할 수 있다.
컨트롤러(1210)는 데이터 저장 장치(1200)의 제반 동작을 제어할 수 있다. 컨트롤러(1210)는 호스트 인터페이스 유닛, 컨트롤 유닛, 동작 메모리로서의 랜덤 액세스 메모리, 에러 정정 코드(ECC) 유닛 및 메모리 인터페이스 유닛을 포함할 수 있다. 예를 들어, 컨트롤러(1210)는 도 1 및 도 2에 도시한 발열 관리 회로(130)를 포함하여, 비휘발성 메모리 장치들(1220-0 ~ 1220-n)을 포함하는 기능 회로들의 발열 원인을 분석하고 분석 결과를 외부장치로 출력할 수 있다.
호스트 장치(1100)와 데이터 저장 장치(1200)는 신호 커넥터(1101)를 통해 신호를 송수신할 수 있다. 여기에서, 신호란 명령어, 어드레스, 데이터를 포함할 수 있다.
컨트롤러(1210)는 호스트 장치(1100)로부터 입력된 신호를 분석하고 처리할 수 있다. 컨트롤러(1210)는 데이터 저장 장치(1200)를 구동하기 위한 펌웨어 또는 소프트웨어에 따라서 백그라운드 기능 블럭들의 동작을 제어할 수 있다
버퍼 메모리 장치(1230)는 비휘발성 메모리 장치들(1220-0 ~ 1220-n)에 저장될 데이터를 임시 저장할 수 있다. 또한, 버퍼 메모리 장치(1230)는 비휘발성 메모리 장치들(1220-0 ~ 1220-n)로부터 읽혀진 데이터를 임시 저장할 수 있다. 버퍼 메모리 장치(1230)에 임시 저장된 데이터는 컨트롤러(1210)의 제어에 따라 호스트 장치(1100) 또는 비휘발성 메모리 장치들(1220-0 ~ 1220-n)로 전송될 수 있다.
비휘발성 메모리 장치들(1220-0 ~ 1220-n)은 데이터 저장 장치(1200)의 저장 매체로 사용될 수 있다. 비휘발성 메모리 장치들(1220-0 ~ 1220-n) 각각은 복수의 채널들(CH0~CHn)을 통해 컨트롤러(1210)와 연결될 수 있다. 하나의 채널에는 하나 또는 그 이상의 비휘발성 메모리 장치가 연결될 수 있다. 하나의 채널에 연결되는 비휘발성 메모리 장치들은 동일한 신호 버스 및 데이터 버스에 연결될 수 있다.
전원 공급기(1240)는 전원 커넥터(1103)를 통해 입력된 전원을 데이터 저장 장치(1200)의 컨트롤러(1210), 비휘발성 메모리 장치들(1220-0 ~ 1220-n) 및 버퍼 메모리(1230)에 제공할 수 있다. 전원 공급기(1240)는 보조 전원 공급기(1241)를 포함할 수 있다. 보조 전원 공급기(1241)는 서든 파워 오프(sudden power off)가 발생되는 경우, 데이터 저장 장치(1200)가 정상적으로 종료될 수 있도록 전원을 공급할 수 있다. 보조 전원 공급기(1241)는 대용량 캐패시터들(capacitors)을 포함할 수 있으나 이에 한정되는 것은 아니다.
신호 커넥터(1101)는 호스트 장치(1100)와 데이터 저장 장치(1200)의 인터페이스 방식에 따라서 다양한 형태의 커넥터로 구성될 수 있음은 자명하다.
전원 커넥터(1103)는 호스트 장치(1100)의 전원 공급 방식에 따라서 다양한 형태의 커넥터로 구성될 수 있음은 물론이다.
도 6 및 도 7은 실시예들에 따른 데이터 처리 시스템의 구성도이다.
도 6을 참조하면, 데이터 처리 시스템(3000)은 호스트 장치(3100)와 메모리 시스템(3200)을 포함할 수 있다.
호스트 장치(3100)는 외부장치로 지칭될 수 있고, 메모리 시스템(3200)은 도 1 및 도 2에 전자 장치(100)일 수 있다.
호스트 장치(3100)는 인쇄 회로 기판(printed circuit board)과 같은 기판(board) 형태로 구성될 수 있다. 비록 도시되지 않았지만, 호스트 장치(3100)는 호스트 장치(3100)의 기능을 수행하기 위한 백그라운드 기능 블럭들을 포함할 수 있다.
호스트 장치(3100)는 소켓(socket), 슬롯(slot) 또는 커넥터(connector)와 같은 접속 터미널(3110)을 포함할 수 있다. 메모리 시스템(3200)은 접속 터미널(3110)에 마운트(mount)될 수 있다.
메모리 시스템(3200)은 인쇄 회로 기판과 같은 기판 형태로 구성될 수 있다. 메모리 시스템(3200)은 메모리 모듈 또는 메모리 카드로 불릴 수 있다. 메모리 시스템(3200)은 컨트롤러(3210), 버퍼 메모리 장치(3220), 비휘발성 메모리 장치(3231~3232), PMIC(power management integrated circuit)(3240) 및 접속 터미널(3250)을 포함할 수 있다.
컨트롤러(3210)는 메모리 시스템(3200)의 제반 동작을 제어할 수 있다.
컨트롤러(3210)는 도 1 및 도 2에 도시한 발열 관리 회로(130)를 포함하여, 비휘발성 메모리 장치(3231~3232)의 발열 원인을 분석하고, 분석 결과를 외부 장치로 출력할 수 있다.
버퍼 메모리 장치(3220)는 비휘발성 메모리 장치들(3231~3232)에 저장될 데이터를 임시 저장할 수 있다. 또한, 버퍼 메모리 장치(3220)는 비휘발성 메모리 장치들(3231~3232)로부터 읽혀진 데이터를 임시 저장할 수 있다. 버퍼 메모리 장치(3220)에 임시 저장된 데이터는 컨트롤러(3210)의 제어에 따라 호스트 장치(3100) 또는 비휘발성 메모리 장치들(3231~3232)로 전송될 수 있다.
비휘발성 메모리 장치들(3231~3232)은 메모리 시스템(3200)의 저장 매체로 사용될 수 있다.
PMIC(3240)는 접속 터미널(3250)을 통해 입력된 전원을 메모리 시스템(3200)에 제공할 수 있다. PMIC(3240)는, 컨트롤러(3210)의 제어에 따라서, 메모리 시스템(3200)의 전원을 관리할 수 있다.
접속 터미널(3250)은 호스트 장치의 접속 터미널(3110)에 연결될 수 있다. 접속 터미널(3250)을 통해서, 호스트 장치(3100)와 메모리 시스템(3200) 간에 커맨드, 어드레스, 데이터 등과 같은 신호와, 전원이 전달될 수 있다. 접속 터미널(3250)은 호스트 장치(3100)와 메모리 시스템(3200)의 인터페이스 방식에 따라 다양한 형태로 구성될 수 있다. 접속 터미널(3250)은 메모리 시스템(3200)의 어느 한 변에 배치될 수 있다.
도 7은 본 발명의 실시 예에 따른 메모리 시스템을 포함하는 데이터 처리 시스템을 예시적으로 도시하는 도면이다.
도 7을 참조하면, 데이터 처리 시스템(4000)은 호스트 장치(4100)와 메모리 시스템(4200)을 포함할 수 있다.
호스트 장치(4100)는 외부장치로 지칭될 수 있고, 메모리 시스템(4200)은 도 1 및 도 2에 도시한 전자 장치(100)일 수 있다.
호스트 장치(4100)는 인쇄 회로 기판(printed circuit board)과 같은 기판(board) 형태로 구성될 수 있다. 비록 도시되지 않았지만, 호스트 장치(4100)는 호스트 장치(4100)의 기능을 수행하기 위한 백그라운드 기능 블럭들을 포함할 수 있다.
메모리 시스템(4200)은 표면 실장형 패키지 형태로 구성될 수 있다. 메모리 시스템(4200)은 솔더 볼(solder ball)(4250)을 통해서 호스트 장치(4100)에 마운트될 수 있다. 메모리 시스템(4200)은 컨트롤러(4210), 버퍼 메모리 장치(4220) 및 비휘발성 메모리 장치(4230)를 포함할 수 있다.
컨트롤러(4210)는 메모리 시스템(4200)의 제반 동작을 제어할 수 있다. 컨트롤러(4210)는 도 1 및 도 2에 도시한 발열 관리 회로(130)를 포함하여, 비휘발성 메모리 장치(4230)를 포함하는 기능 회로의 발열 원인을 분석하고 분석 결과를 외부 장치로 출력할 수 있다.
버퍼 메모리 장치(4220)는 비휘발성 메모리 장치(4230)에 저장될 데이터를 임시 저장할 수 있다. 또한, 버퍼 메모리 장치(4220)는 비휘발성 메모리 장치들(4230)로부터 읽혀진 데이터를 임시 저장할 수 있다. 버퍼 메모리 장치(4220)에 임시 저장된 데이터는 컨트롤러(4210)의 제어에 따라 호스트 장치(4100) 또는 비휘발성 메모리 장치(4230)로 전송될 수 있다.
비휘발성 메모리 장치(4230)는 메모리 시스템(4200)의 저장 매체로 사용될 수 있다.
도 8은 일 실시예에 의한 데이터 저장 장치를 포함하는 네트워크 시스템의 구성도이다.
도 8을 참조하면, 네트워크 시스템(5000)은 네트워크(5500)를 통해서 연결된 서버 시스템(5300) 및 복수의 클라이언트 시스템들(5410~5430)을 포함할 수 있다.
서버 시스템(5300)은 복수의 클라이언트 시스템들(5410~5430)의 요청에 응답하여 데이터를 서비스할 수 있다. 예를 들면, 서버 시스템(5300)은 복수의 클라이언트 시스템들(5410~5430)로부터 제공된 데이터를 저장할 수 있다. 다른 예로서, 서버 시스템(5300)은 복수의 클라이언트 시스템들(5410~5430)로 데이터를 제공할 수 있다.
서버 시스템(5300)은 호스트 장치(5100) 및 메모리 시스템(5200)을 포함할 수 있다. 호스트 장치(5100)는 외부장치로 지칭될 수 있고, 메모리 시스템(5200)은 도 1 및 도 2에 발열 관리 회로(130)를 포함하는 컨트롤러(110) 및 메모리 장치를 포함하는 기능 회로 그룹(120)을 포함하여, 기능 회로의 발열 원인을 분석하고 분석 결과를 외부 장치로 출력할 수 있다.
도 9는 데이터 처리 시스템(10)을 도시하는 도면이다. 도 9를 참조하면, 데이터 처리 시스템(10)은 복수의 컴퓨팅 랙들(computing racks, 20)과 관리 인터페이스(management interface, 30), 그리고 이들 사이의 통신이 가능하도록 하는 네트워크(network, 40)을 포함할 수 있다. 이러한 랙스케일 구조(rack-scale architecture)의 데이터 처리 시스템(10)은 예를 들어 대용량 데이터 처리를 위한 데이터 센터 등에 사용될 수 있다.
복수의 컴퓨팅 랙(20)들 각각은 다른 컴퓨팅 랙(20)들과의 조합으로 하나의 컴퓨팅 시스템을 구현할 수 있다.
관리 인터페이스(30)는 사용자가 데이터 처리 시스템(10)을 조정, 운영 또는 관리할 수 있도록 하는 인터액티브 인터페이스(interactive interface)를 제공할 수 있다. 관리 인터페이스(30)는 컴퓨터, 멀티프로세서 시스템, 서버, 랙마운트(rack-mount) 서버, 보드(board) 서버, 랩탑(lap-top) 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 웨어러블 컴퓨팅 시스템, 네트워크 기기, 웹 기기, 분산 컴퓨팅 시스템, 프로세서 기반 시스템, 및/또는 소비자 전자 기기를 포함하는, 임의 유형의 연산 디바이스로서 구현될 수 있다.
일부 실시 예들에서, 데이터 처리 시스템(10)은 컴퓨팅 랙(20)들에 의해 수행될 수 있는 연산 기능들이나, 관리 인터페이스(30)에 의해 수행될 수 있는 사용자 인터페이스 기능들을 가지는 분산 시스템으로 구현될 수 있다. 다른 일부 실시 예들에서, 데이터 처리 시스템(10)은 네트워크(40)를 통하여 분산된 다중 컴퓨팅 시스템들에 의해 구성되고 클라우드(cloud)로서 동작하는 가상 서버(virtual server)로 구현될 수 있다. 관리 인터페이스(30)는 프로세서, 입력/출력 서브시스템, 메모리, 데이터 스토리지 디바이스 및 통신 회로를 포함할 수 있다.
네트워크(40)는 컴퓨팅 랙들과 관리 인터페이스(30) 사이 및/또는 컴퓨팅 랙들 사이에서의 데이터를 송수신하는 채널일 수 있다. 네트워크(40)는 유선 및/또는 무선 네트워크들에 의해 구현될 수 있다. 예를 들어, 네트워크(40)는 유선 또는 무선 LAN(local area network), WAN(wide area network) 셀룰러 네트워크, 및/또는 인터넷과 같이 공개적으로 액세스 가능한 글로벌 네트워크(publicly-accessible, global network)에 의해 구현되거나 이를 포함할 수 있다. 추가적으로, 네트워크(40)은 보조적인 컴퓨터들, 라우터(router)들 및 스위치들과 같은 적어도 하나의 보조적인 네트워크 디바이스들을 포함할 수 있다. 또한, 네트워크(40)는 CCIX(Cache Coherent Interconnect for accelerators) 및 GEN-Z와 같은 인터페이스 규격에 기초한 인터페이스 네트워크를 포함할 수 있다.
도 10은 본 발명의 실시 예에 따른 컴퓨팅 랙 구조를 개략적으로 도시하는 도면이다.
도 10을 참조하면, 컴퓨팅 랙(20)은 구성요소들의 구조, 형태 및 호칭 등에 제한되는 것은 아니지만, 다양한 형태의 구성요소들을 포함할 수 있다. 예를 들어, 컴퓨팅 랙(20) 은 복수의 드로워(drawer)들(21 내지 29)를 포함할 수 있다. 복수의 드로워들 (21 내지 29) 각각은 복수의 보드(board)들을 포함할 수 있다.
다양한 실시 예들에 있어서, 컴퓨팅 랙(20)은 적절한 수의 연산 보드(COMPUTE), 메모리 보드(MEMORY) 및/또는 상호접속 보드(INTERCONNECT)의 조합에 의해 구현될 수 있다. 여기서는 컴퓨팅 랙(20)이 복수의 보드들의 조합에 의해 구현되는 것으로 정의되고 있지만, 이를 대신하여, 드로워들, 모듈들, 트레이들, 블레이드들, 샷시들 또는 유닛들 등의 다양한 이름으로 구현되는 것으로 정의될 수 있음에 유의하여야 한다. 이러한 컴퓨팅 랙(20)의 구성요소들은 구현의 편의상 기능별로 분류 및 구별되는 구조를 가질 수 있다. 제한되는 것은 아니지만, 컴퓨팅 랙(20)은 상단부터 상호접속 보드, 연산 보드, 메모리 보드의 순서로 분류된 구조를 가질 수 있다. 이러한 컴퓨팅 랙(20) 및 이에 의해 구현되는 컴퓨팅 시스템은 "랙스케일 시스템(rack-scale system)" 또는"분류(또는 분리된) 시스템(disaggregated system)"으로 명명될 수 있다. 메모리 보드는 메모리 시스템으로 지칭될 수 있고, 도 1 및 도 2에 발열 관리 회로(130)를 포함하는 컨트롤러 및 메모리 장치를 포함하는 기능 회로 그룹을 포함하여, 기능 회로 그룹의 발열 원인을 분석하고, 분석 결과를 외부 장치로 출력할 수 있다.
다양한 실시 예들에 있어서, 컴퓨팅 시스템은 하나의 컴퓨팅 랙(20)에 의해 구현될 수 있다. 이를 대신하여, 컴퓨팅 시스템은 2개 이상의 컴퓨팅 랙들에 포함되는 모든 구성요소들에 의해 구현되거나, 2개 이상의 컴퓨팅 랙들에 포함되는 일부 구성요소들의 조합에 의해 구현되거나, 하나의 컴퓨팅 랙(20)에 포함되는 일부 구성요소들에 의해 구현될 수 있다.
다양한 실시 예들에 있어서, 컴퓨팅 시스템은 컴퓨팅 랙(20)에 포함되는 적절한 수의 연산 보드, 메모리 보드 및 상호접속 보드(interconnect board)의 조합에 의해 구현될 수 있다. 예를 들어, 컴퓨팅 시스템(20A)는 2개의 연산 보드(COMPUTE)들, 3개의 메모리 보드(MEMORY)들 및 1개의 상호접속 보드(INTERCONNECT)에 의해 구현될 수 있다. 다른 예로, 컴퓨팅 시스템(20B)는 3개의 연산 보드(COMPUTE)들, 2개의 메모리 보드(MEMORY)들 및 1개의 상호접속 보드(INTERCONNECT)에 의해 구현될 수 있다. 또 다른 예로, 컴퓨팅 시스템(20C)는 1개의 연산 보드(COMPUTE)들, 4개의 메모리 보드(MEMORY)들 및 1개의 상호접속 보드(INTERCONNECT)에 의해 구현될 수 있다.
비록 도 10에서는 컴퓨팅 랙(20)이 적절한 수의 연산 보드, 메모리 보드 및/또는 상호접속 보드의 조합에 의해 구현되는 경우를 도시하고 있지만, 컴퓨팅 랙(20)은 통상의 서버 등에서 확인될 수 있는, 파워 시스템, 냉각 시스템, 입력/출력 디바이스들과 같은 추가적인 구성요소들을 포함할 수 있다.
이러한 중앙 집중식 컴퓨팅 시스템은 방대한 양의 연산을 고속으로 수행하므로, 발열 원인을 신속하게 규명하고 대응함으로써 보다 양질의 서비스를 제공할 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 전자 장치
110 : 컨트롤러
120 : 기능회로 그룹

Claims (24)

  1. 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 각각 전송된 복수의 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 스로틀링부; 및
    상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하며, 냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하도록 구성되는 분석부;
    를 포함하도록 구성되는 발열 관리 회로.
  2. 제 1 항에 있어서,
    상기 스로틀링부는 상기 복수의 제 1 온도신호로부터 산출한 제 1 대표온도가 제 1 임계값 이상인 경우 상기 스로틀링 조건을 만족하는 것으로 판단하는 발열 관리 회로.
  3. 제 1 항에 있어서,
    상기 스로틀링부는, 상기 기능회로를 냉각시키기 위하여 상기 기능회로를 파워-오프시키는 발열 관리 회로.
  4. 제 1 항에 있어서,
    상기 분석부는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 미만인 경우 냉각이 성공한 것으로 판단하고,
    상기 스로틀링부는, 냉각이 성공한 경우 상기 기능 회로를 재기동하는 발열 관리 회로.
  5. 제 1 항에 있어서,
    상기 분석부는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 이상인 경우 냉각이 실패한 것으로 판단하는 발열 관리 회로.
  6. 제 1 항에 있어서,
    상기 분석부는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하여, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서를 상기 이상치를 출력한 온도 센서로 검출하도록 구성되는 발열 관리 회로.
  7. 제 6 항에 있어서,
    상기 분석부는, 발열 원인이 상기 이상치를 출력한 온도 센서에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하도록 구성되는 발열 관리 회로.
  8. 제 1 항에 있어서,
    상기 분석부는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하여, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 전송한 온도 센서를 상기 이상치를 출력한 온도 센서로 검출하도록 구성되는 발열 관리 회로.
  9. 제 8 항에 있어서,
    상기 분석부는, 발열 원인이 상기 이상치를 출력한 온도 센서 주변 환경에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하도록 구성되는 발열 관리 회로.
  10. 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로에 설치된 복수의 온도 센서 각각으로부터 복수의 제 1 온도신호를 수신하는 단계;
    상기 제 1 온도신호가 스로틀링 조건을 만족하는 경우 상기 기능회로를 설정된 시간 동안 냉각시키는 단계;
    상기 설정된 시간 경과 후 상기 복수의 온도 센서 각각으로부터 복수의 제 2 온도신호를 수신하여 냉각 성공 여부를 판단하는 단계; 및
    냉각에 실패한 경우 이상치를 출력한 온도 센서를 검출하는 단계;
    를 포함하도록 구성되는 발열 관리 회로의 동작 방법.
  11. 제 10 항에 있어서,
    상기 복수의 제 1 온도신호로부터 산출한 제 1 대표온도가 제 1 임계값 이상인 경우 상기 스로틀링 조건을 만족하는 것으로 판단하는 단계를 더 포함하는 발열 관리 회로의 동작 방법.
  12. 제 10 항에 있어서,
    상기 냉각시키는 단계는, 상기 기능회로를 파워-오프시키는 단계를 포함하는 발열 관리 회로의 동작 방법.
  13. 제 10 항에 있어서,
    상기 냉각 성공 여부를 판단하는 단계는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 미만인 경우 냉각이 성공한 것으로 판단하는 단계; 및
    냉각이 성공한 경우 상기 기능 회로를 재기동하는 단계;
    를 더 포함하는 발열 관리 회로의 동작 방법.
  14. 제 10 항에 있어서,
    상기 냉각 성공 여부를 판단하는 단계는, 상기 복수의 제 2 온도신호로부터 산출한 제 2 대표온도가 제 2 임계값 이상인 경우 냉각이 실패한 것으로 판단하는 단계를 더 포함하는 발열 관리 회로의 동작 방법.
  15. 제 10 항에 있어서,
    상기 이상치를 출력한 온도 센서를 검출하는 단계는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하는 단계; 및
    상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서를 상기 이상치를 출력한 온도 센서로 검출하는 단계;
    를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법.
  16. 제 15 항에 있어서,
    발열 원인이 상기 이상치를 출력한 온도 센서에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하는 단계를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법.
  17. 제 10 항에 있어서,
    상기 이상치를 출력한 온도 센서를 검출하는 단계는, 상기 복수의 제 2 온도신호의 평균 및 편차를 산출하는 단계; 및
    상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 전송한 온도센서를 상기 이상치를 출력한 온도 센서로 검출하는 단계;
    를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법.
  18. 제 17 항에 있어서,
    발열 원인이 상기 이상치를 출력한 온도 센서 주변 환경에 있는 것으로 결정하고, 상기 발열 원인을 외부 장치로 전송하는 단계를 더 포함하도록 구성되는 발열 관리 회로의 동작 방법.
  19. 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로;
    상기 기능회로의 온도를 감지하는 복수의 온도 센서;
    상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로의 동작을 제한하는 스로틀링부; 및
    상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 분석부;
    를 포함하도록 구성되는 전자 장치.
  20. 제 19 항에 있어서,
    상기 분석부는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 전자 장치.
  21. 제 19 항에 있어서,
    상기 분석부는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 전자 장치.
  22. 적어도 메모리 장치를 포함하여 정해진 기능을 수행하도록 설계된 적어도 하나의 반도체 기능회로 및, 상기 기능회로 및 상기 메모리 장치의 온도를 감지하는 복수의 온도 센서를 포함하는 데이터 저장 장치; 및
    상기 복수의 온도 센서 각각으로부터 수신된 제 1 온도신호에 기초하여 산출한 제 1 대표온도가 제 1 임계값 이상인 경우, 제1 시간 동안 상기 기능회로 및 상기 메모리 장치의 동작을 제한하고, 상기 제 1 시간 경과 후 상기 복수의 온도 센서 각각으로부터 수신한 제 2 온도신호에 기초하여 산출한 제 2 대표온도가 제 2 임계값 이상인 경우, 상기 제 2 온도신호의 편차에 기초하여 발열 원인을 판단하는 컨트롤러;
    를 포함하도록 구성되는 데이터 처리 장치.
  23. 제 22 항에 있어서,
    상기 컨트롤러는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 데이터 처리 장치.
  24. 제 22 항에 있어서,
    상기 컨트롤러는, 상기 편차가 제 3 임계값 이상인 제 2 온도신호를 전송한 온도 센서가 검출되지 않는 경우, 상기 편차가 최대인 제 2 온도신호를 출력한 온도 센서를 검출하여 상기 발열 원인을 판단하도록 구성되는 데이터 처리 장치.
KR1020220029242A 2022-03-08 2022-03-08 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치 KR20230132112A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220029242A KR20230132112A (ko) 2022-03-08 2022-03-08 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치
US17/958,521 US20230288971A1 (en) 2022-03-08 2022-10-03 Heat management circuit, method for operating the same, and electronic device and data processing apparatus including the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220029242A KR20230132112A (ko) 2022-03-08 2022-03-08 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치

Publications (1)

Publication Number Publication Date
KR20230132112A true KR20230132112A (ko) 2023-09-15

Family

ID=87931654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220029242A KR20230132112A (ko) 2022-03-08 2022-03-08 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치

Country Status (2)

Country Link
US (1) US20230288971A1 (ko)
KR (1) KR20230132112A (ko)

Also Published As

Publication number Publication date
US20230288971A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
KR102414047B1 (ko) 통합 메모리 디바이스 및 그의 동작 방법
US11636014B2 (en) Memory system and data processing system including the same
US8639963B2 (en) System and method for indirect throttling of a system resource by a processor
US6892311B2 (en) System and method for shutting down a host and storage enclosure if the status of the storage enclosure is in a first condition and is determined that the storage enclosure includes a critical storage volume
US20040027799A1 (en) Computer system
US10409756B2 (en) Multi-node server platform with modularly replaceable cards
TW201800952A (zh) 機箱管理系統及機箱管理方法
US10856441B1 (en) System and method for bi-side heating vapor chamber structure in an information handling system
KR20090057006A (ko) 프로세서 성능을 제한하기 위한 시스템 및 방법
US10863653B2 (en) Thermal testing system and method of thermal testing
US11754519B2 (en) System and method to create an air flow map and detect air recirculation in an information handling system
US10437477B2 (en) System and method to detect storage controller workloads and to dynamically split a backplane
US12050508B2 (en) Data processing system and operating method thereof
US11659695B2 (en) Telemetry system supporting identification of data center zones
CN113821091B (zh) 风扇故障补偿
TWI468922B (zh) 電子裝置及其管理方法與機櫃伺服系統
CN107533348B (zh) 热管理高性能计算系统的方法和装置及计算机可读介质
KR20210006664A (ko) 메모리 시스템 및 그것의 동작방법
US6697254B1 (en) Computer system
KR20230132112A (ko) 발열 관리 회로 및 그 동작 방법, 이를 포함하는 전자 장치 및 데이터 처리 장치
US11507446B1 (en) Hot-swap controller fault reporting system
US11809893B2 (en) Systems and methods for collapsing resources used in cloud deployments
US11579074B2 (en) Assessment of humidity and non-humidity driven corrosion risk
US11221656B2 (en) Method and apparatus for selective fan control in an information handling system
KR102394695B1 (ko) 메모리 시스템 및 그것의 동작방법