PIM 반도체 관련 연구성과 브리핑

2023.03.14 윤두희 정보통신방송기술정책과장, 유회준 KAIST ICT석좌교수

글자크기 설정

첨부파일

230315_조간_(보도)_세계_최초_트리플_모드_셀을_활용한_DRAM-PIM_개발_수정(1_7p).hwp 바로보기 내려받기

<윤두희 과학기술정보통신부 정보통신방송기술정책과장>
안녕하십니까? 과학기술정보통신부 정보통신방송기술정책과 윤두희 과장입니다.

오늘 바쁘신데 이렇게 연구 성과 브리핑에 참석해주신 기자분들께 많은 감사의 말씀 먼저 드립니다.

오늘의 연구 성과를 한 마디로 말씀드리면 ‘DRAM이 AI 반도체로 변신한다.’ 이렇게 봐주시면 될 것 같습니다.

요 근래에 챗GPT의 등장으로 인해서 초거대 AI 등을 계산하는 인공지능 반도체에 관심이 많아지고 있습니다.

우리나라는 굉장히 세계적으로 메모리 강국입니다. 이런 메모리 기반의 경쟁력을 바탕으로 AI 반도체를 PIM으로 구현하는, 그러면서도 그중에서도 DRAM 자체에서 동일한 하드웨어 셀에서 연산 기능까지 하게 되는 그러한 인메모리셀 컴퓨팅 디바이스를 개발한 연구 성과가 있었습니다.

이 부분은 앞으로 지금까지 흔히 논의되어 왔던 폰-노이만 구조라는 컴퓨팅 아키텍처를 새로운 구조로 바꾸는 역사적인 연구 성과물이 될 것으로 기대를 합니다.

과학기술정보통신부는 PIM반도체 설계연구센터라는 그런 지원사업을 해왔고요. 이러한 PIM-HUB라는 PIM반도체 설계연구센터를 작년 6월 카이스트에 개소를 했는데 이를 통해서 산과 학이 협력을 통해서 오늘과 같은 연구 성과를 창출한 것으로 보입니다.

앞으로도 저희 과학기술정보통신부는 이러한 연구 성과물들이 지속적으로 창출이 돼서 대한민국의 반도체 경쟁력이 제고될 수 있도록 지속적으로 노력하겠습니다.

그러면 제가 다음으로 이 본 연구를 진행해주신 카이스트의 유회준 교수님을 초빙하도록 하겠습니다.

<유회준 KAIST ICT석좌교수>
안녕하십니까? 저는 카이스트 전기 및 전자공학과 유회준 교수입니다.

먼저, 이렇게 브리핑을 할 수 있는 기회를 주셔서 감사드리고, 사실 이 PIM은 우리나라에서 상당히 오래 전부터 생각을 많이 해왔던, 그래서 1990년대 중반에도 한번 시도를 했었습니다만 그때는 시장이 열리지 않아서 제대로 안 되고 있다가 최근 들어 TSMC와, 그러니까 대만과 미국 학교들 중심으로 이 PIM 연구를 매우 활발하게 하고 있었습니다. 그래서 우리나라가 메모리 강국임에도 불구하고 이 PIM 쪽이 대만이나 미국에 비해서 활성화되지 않았다는 그런 생각이 많았었고요.

그래서 지금 윤두희 과장님께서도 말씀해주셨지만 정보통신부에서 우리나라의 PIM 연구개발을 위해서 그것을 하나로 모을 수 있는, 그러니까 산·학·연이 하나로 모을 수 있는 PIM-HUB를 작년 6월에 카이스트에서 개소를 해주셨습니다. 그래서 거기에서 지금 삼성과 하이닉스 그리고 여러 회사들 그리고 국내에 있는 모든 대학교들이 합쳐서 지금 연구를 하고 있습니다.

이 PIM, 올해 우리가 발표하는 것은 그동안 PIM은 CPU와 메모리가 따로따로 떨어져 있어서 데이터들이 왔다 갔다 해야 돼서 거기서 오는 전력 손실 그리고 시간 손실을, 그것 때문에 아마 지금 데이터센터에서도 어마어마한 전력을 사용하고 있는데 그것들을 줄이기 위해서 하나의 칩으로 만드는 그런 연구입니다.

특히, 이 분야는 메모리가 중심이 되기 때문에 메모리 회사에서 리더십을 갖고, 또 미래 메모리 형태로 발표... 개발해야 됨에도 불구하고 그동안은 TSMC에서 주도를 했었습니다. 하지만 우리나라는 메모리 강국이니 만큼 우리나라에서 주도해야 한다는 생각에서 2년 전에 삼성에서도 PIM을 한번 발표한 적이 있고요. 그다음에 작년에는 하이닉스에서 또 PIM을 발표한 적이 있습니다.

하지만 그런 PIM들은 궁극적인 PIM이라기보다는 PNM, 즉 Process-In-Memory가 아니라 Process-Near-Memory의 형태를 취하고 있었고요. 저희가 이번에 발표한 것이 진정한 PIM, 프로세서가 메모리 안에 들어 있는 그런 구조입니다.

특히, 프로세서만이 아니라 메모리 기능도 하고, 또한 저희가 만든 것은 아날로그 컴퓨팅 방식이기 때문에 그 안에 있는 데이터들이 반드시 ADC를 거쳐서 디지털로 바뀌어야 합니다. 그런데 그 ADC에는 많은 캐패시터들이 들어가는데 DRAM에 있는 캐패시터를 ADC용 캐패시터로도 사용할 수 있었습니다. 그래서 셀 하나가 메모리도 되고 프로세서도 되고 ADC용 캐패시터도 되는 그런 ‘트리플-모드’라는 이름으로 저희가 붙였습니다.

그래서 세계 최초로 트리플-모드로 PIM을 만든 것이 되겠고요. 저희가 이것을 올 2월에 미국 캘리포니아의 샌프란시스코에서 열리는 ISSCC라는 데서 발표를 하였습니다.

ISSCC는 반도체올림픽이라고도 불리는데요. 거기에, 삼성에서 DRAM을 새로 만들었다든가 인텔에서 새로운 CPU를 만들었다면 거기서 주로 발표하는 그런 학회입니다. 매년 한 3,000명 정도의 전문가들이 모여서 하는 학회인데요. 거기에서 저희가 이 DRAM-PIM을, 트리플-모드 DRAM-PIM을 발표했고, 또 많은 사람들이 호평을 해주었습니다. 그래서 오늘 이런 기회를 갖고 한국에서도 발표를 드리게 되었습니다.

그러면 학생이 발표를 한번 디테일하게 발표를 드리고 그 이후에 또 질의응답 시간을 갖도록 하겠습니다.

<김상진 KIAST 연구원>
안녕하십니까? 카이스트 김상진 박사과정입니다.

이번에 개발된 AI 반도체 다이나플라지아는 쉽게 말하면 DRAM 메모리와 AI 반도체가 합쳐진 인공지능 반도체라고 볼 수 있습니다.

그래서 이번에 제안된 다이나플라지아에서는 세계 최초로 개발된 트리플-모드 셀을 이용하고 재구성 가능한 하드웨어 구조를 이용해서 아날로그형 DRAM-PIM을 국내 최초로 개발하였습니다.

AI 반도체에서 PIM이 어떻게 위치하는지를 보기 전에 전체 AI 반도체의 흐름을 먼저 보시면 좋은데요. 기존에 저희가 프로세서라고 한다면 CPU, 이 CPU에서는 아주 적은 10개 미만의 코어를 가지고 있고 범용적으로 사용해왔습니다.

그러나 AI에서 더 많은 연산을 요구함에 따라서 점점 더 메모리 중심적으로 변화하였는데요. 그 과정은 훨씬 더 많은 연산기를 사용하고 병렬 연산에 특화된 GPU 그리고 그다음에는 Neural Processing Unit, 즉 인공지능 연산에 특화된 NPU가 개발되고 있었습니다.

그리고 이 NPU를 넘어서 훨씬 더 많은 연산기를 집적하고 훨씬 더 메모리에 집약적인 설계를 하는 방식이 Processing-In-Memory입니다. 그래서 이 Processing-In-Memory는 결국 메모리 중심 아키텍처라고 할 수 있는데요. 이러한 메모리 중심 아키텍처는 기존의 폰-노이만 구조에서 발생하는 구조의 한계를 극복하는 과정입니다.

기존의 폰-노이만 아키텍처에서는 메모리와 프로세서가 분리되어 있고 또 다른 칩에 집적되어 있습니다. 이 때문에 메모리와 프로세서 사이에서 데이터가 통신을 하는 데 있어서 많은 속도의 지연 시간이 걸리고, 또 전력 소모가 있어서 속도 그리고 전력 모두 다 안 좋은 면을 가지고 있었었는데요. Processing-In-Memory를 통해서 메모리와 연산기가 함께 집적되고, 혹은 또 연산기가 메모리 내부에 집적되는 과정을 통해서 메모리 병목현상이 해결되고 더 높은 속도와 그다음 더 적은 전력 소모로 더 좋은 인공지능 성능을 볼 수 있습니다.

이 인공지능 연산을 하는 데 있어서 가장 최근에 많은 성능의 향상이 이루어졌는데요. 그 배경에는 심층신경망 Deep Neural Network가 있습니다. 결국엔 AI의 트렌드라고 할 수 있는 이 심층신경망은 갈수록 더 많은 레이어 그리고 더 많은 연산을 사용해서 더 높은 성능을 달성하고 있습니다.

그래서 이 하나의 레이어를 구성하는 데도 이 하나의 레이어 안에 메트릭, 행렬 형태로 된 가중치, 그리고 이 가중치는 입력을 받아서 연산을 하고 다시 출력해주는, 이 하나의 레이어가 깊은... 여러 번 반복되는 구조로 결국 엄청나게 많은 연산 집약적인 그리고 메모리 집약적인 특징을 가지고 있는 게 현재 AI 모델의 트렌드라고 할 수 있습니다.

이런 상황 속에서 이제 심층신경망을 가속화하는 데 있어서 결국 더욱더 고집적도의 PIM, 결국 고집적도의 AI 반도체가 필요하게 되는데요. 앞서 말씀드렸다시피 심층신경망 Deep Neural Network는 말 그대로 점점 더 깊어지고 있고, 더욱더 많은 메모리와 많은 연산기를 필요로 하게 됩니다.

따라서 더욱더 고집적도 PIM을 통해서 고용량 PIM을 개발하게 된다면 기존보다 더 높은 병렬성 그리고 데이터 재사용 그리고 가중치를 불러오는 데 드는 에너지까지 줄여서 최종적으로 프로세서 자체의 처리량과 에너지 효율성을 크게 향상시킬 수 있습니다.

이런 성능을 위해서 기존에 메모리에서 DRAM이 아닌 SRAM 기반으로 Processing-In-Memory를 만들고, 그 SRAM 기반 아날로그형 PIM을 만드는 연구가 있었는데요. 이런 방식들은 SRAM과 DRAM의 차이처럼 기존의 SRAM 자체에 이미 트랜지스터를 너무 많이 사용하기 때문에 셀 면적 자체가 훨씬 더 크다고 할 수 있습니다.

이는 이제 DRAM과 비교했을 때 훨씬 더 많은 면적을 차지하기 때문에 더욱더 집적도에 있어서 한계를 야기하게 되고, 아날로그 DRAM-PIM을 사용하게 된다면 구현에 필요한 트랜지스터를 훨씬 더 줄여서 훨씬 더 높은 집적도를 달성할 수 있습니다.

이를 위해서 저희는 세계 최초로 트리플-모드 셀을 제안해서 하나의 셀을 단지 3개의 트랜지스터만을 사용해서 구현하여 훨씬 더 높은 집적도를 달성할 수 있었을 뿐만 아니라 하나의 셀이 세 가지 모드로 연산기, 메모리 그리고 아날로그 디지털 변환기로 작동할 수 있게 해서 높은 기능성을 확보하였습니다.

이를 기존에 개발되었던 DRAM-PIM과 비교하자면 다음과 같은데요. 기존의 디지털 PIM 혹은 리얼 메모리 컴퓨팅이라고 불리는 PIM은 기존의 폰-노이만 구조에서 발생하던 메모리 병목을 해소하고 외부 메모리 접근을 없앴다는 점에서 의미가 있지만 실제로 연산기가 메모리 내부에 집적되는 것이 아닌 메모리 근처에만 집적이 되기 때문에 집적될 수 있는 연산기 수가 제한되어 있습니다.

하지만 이번에 개발된 것과 같은 아날로그형 PIM은 모든 메모리와 모든... 연산기 자체가 메모리 내부에 집적되기 때문에 메모리 대역이 최대가 되고 기존보다 300배 이상의 메모리 대역을 확보할 수 있을 뿐만 아니라 메모리가 곧 연산기가 되기 때문에 연산기의 수가 메모리 수와 동일할 만큼 훨씬 더 많은 연산기가 집적될 수 있어서 기존보다 훨씬 더 높은 성능과 높은 효율성을 볼 수 있습니다.

이러한 아날로그형 PIM을 DRAM에 가지고 오려는 기존 연구가 있었는데요. 기존 연구에서 가장 상당히 제한적이고 어려운 점이 있었습니다.

먼저, PIM을 이용하면 높은 병렬성을 통해서 높은 효율성과 처리량을 확보해야 되는데 기존의 PIM 구조를 살펴보면 DRAM 셀 옆에 연산 로직을 집적하여서 연산을 하고 이 연산 로직 간에 병렬로 연산을 수행하는 방식이었습니다.

그러나 DRAM의 특성상 DRAM은 높은 집적도를 확보할 수 있지만 누설전류라는 추가적인 노이즈가 발생하게 됩니다. SRAM은 내부 로직 자체가 셀 값... 셀 내부에 저장된 데이터를 안정적으로 유지해주지만 DRAM은 더 높은 집적도를 얻는 대신에 추가적인 노이즈가 발생하게 되는데요. 이러한 노이즈의 영향으로, 이러한 누설전류 노이즈의 영향으로 기존에는 병렬성이 제한되어 있는 것이 DRAM-PIM의 특징이었습니다.

그러나 이번에 개발된 누설전류 내성형 컴퓨팅을 이용해서 내부에서 고정확도 디지털 곱셈을 수행하고 누설전류에 의한 영향을 없앤 뒤에 그다음에 아날로그 연산을 하는 방식으로 기존 DRAM-PIM과 다르게 훨씬 더 높은 병렬성을 확보하고 높은 처리량을 달성할 수 있었습니다.

이 때문에 기존에 메모리 근처에만 연산기가 집적되었던 디지털 DRAM-PIM과 비교했을 때는 이제 처리량 자체가 15배 이상 향상된 것을 확인할 수 있고요. 또한, 기존에 아날로그형 SRAM 그리고 DRAM-PIM과 비교했을 때는 집적도가 기존 SRAM 대비는 2배 이상 그리고 기존 아날로그형 DRAM-PIM 대비는 27배 이상 향상된 것을 확인할 수 있습니다.

또한, 단지 메모리 자체의 셀 구조뿐만 아니라 DRAM-PIM을 사용하는 하드웨어 아키텍처에서도 개선이 있었는데요. 실제 심층신경망을 가속하는 데 있어서 특징 중 하나가 심층신경망은 앞서 말씀드린 것처럼 여러 개의 레이어로 그리고 여러 개의 계층으로 구성이 되어 있습니다.

이러한 여러 개의 레이어는 모두 동일한 구조로 형성돼있는 것이 아니라 레이어마다 다른 구조를 가지고 있게 되는데요. 예를 들어서 레이어의 위치에 따라서 그 레이어의 크기가 작기도 하고 또는 중간 크기 그리고 큰 크기를 가지고 있을 수 있습니다.

하지만 기존의 아날로그 PIM 프로세서, 기존의 AI 반도체라고 한다면 이러한 각각의 다른 연산을 수행하는 데, 다른 AI 연산을 수행하는 데 있어서 동일한 하드웨어 구조를 사용하고 있습니다.

따라서 이런 상황에 기존의 모든 레이어를 동일하게 연산한다고 한다면 작은 레이어를 고정된 메모리와 P 구조에서... 고정된 메모리 연산기 구조에서 연산한다면 일부 연산기만 사용되기 때문에 연산기가 낭비가 되고, 반대로 더 큰 연산을 연산하게 된다면 이를 강제로 나눠서 연산하는 과정에서 메모리가 낭비되게 됩니다.

그래서 제한된 동적 코어 형성 아키텍처는 이러한 DNN 연산의 특징에 딱 맞춰서 하드웨어를 할당하는 방식, 할당하여서 조합하는 방식을 이용해서 하드웨어 리소스의 낭비를 최소화시키고 에너지 효율을 최대화시키는 방식을 사용하였습니다.

이러한 방식을 사용해서 기존에 개발되었던 아날로그형 PIM들과 성능을 비교하였는데요. 먼저, 또한 기존의 AI를 가속했던 방식인 GPU와도 비교를 하였을 때 실제 인공지능을 연산하는 데 있어서 성능을 비교해보면 전체 시스템 효율이 기존 GPU에 비해서는 7배 이상 그리고 기존 PIM에 비해서는 2.5배 이상 향상된 것을 확인할 수 있으며, 아래 그래프는 기존의 다른 아날로그 PIM들과 비교했을 때도 AI 연산 효율이, 실제 AI 연산 효율이 크게 증가한 것을 확인할 수 있습니다.

그래서 지금 보여드리는 것은 다이나플라지아 칩의 시연 시스템이고요. 다음 페이지... 이 페이지에서 실제 시연 시스템을 좀 더 자세히 설명해드리자면 이 시연 시스템에서는 인공지능 가속을 위해서 실시간 물체 인식을 보여주는 연산 과정에서 앞서 설명드린 동적 코어 형성 아키텍처가 적용되거나 적용되지 않았을 때 이에 따른 지연 시간과 그리고 에너지 효율성 변화를 보여드립니다.

그래서 제일 아래 나타낸 그림처럼 심층신경망 구조는 실제 연산 방... 실제 구조에, 네트워크 구조에 따라서 매번 다른 크기를 가지고 있고 이에 맞춰서 하드웨어 구조가 최적화되는 것을 확인할 수 있는 시연 시스템입니다.

결과적으로 이번에 개발된 다이나플라지아는 DRAM-PIM 기반으로 재구성 가능한 프로세스를 만들었으며, 국내 최초로 아날로그형 DRAM-PIM을 개발하였을 뿐만 아니라 세계 최초로 고집적도 3개의 트랜지스터를 이용한 트리플-모드 DRAM 셀이 개발되었습니다.

이를 위해서 3개의 트랜지스터로 구성된 DRAM 셀을 이용해 기존 SRAM보다 집적도를 2배 이상 향상시켰으며 누설전류 내성 컴퓨팅으로 아날로그에서도 DRAM-PIM으로, DRAM-PIM을 사용해 처리량을 기존보다 15배 이상 향상시켰습니다.

또한, 동적 코어 형성 아키텍처는 기존의 AI 연산에서 에너지 효율성을 2배 이상 향상시켜 최종적으로 개발된 다이나플라지아는 DRAM 메모리와 AI 반도체를 합치는 차세대 AI 반도체로 세계 최초로 메모리 셀 하나로 메모리, 연산기 그리고 아날로그 디지털 변환기의 연산을 지원하며 실제 AI 연산에서 세계 최고 에너지 효율성을 달성하였습니다.

감사합니다.

[질문·답변]
※마이크 미사용으로 확인되지 않는 내용은 별표(***)로 표기하였으니 양해 바랍니다.

<질문> 설명 잘 들었고요. 말씀하신 것 들어보니까 엄청 이거 연구하시는 데 정말 엄청 큰 노력을 하셨을 것 같은데 이것 혹시 개발까지 걸린 시간이 언제... 얼마 정도 걸렸는지 이것과 그리고 이게 조금, 제가 이쪽 분야가 조금 처음이어서 조금 생소한 단어들도 많고 그런데 개발하신 이 제품을 CPU와 RAM을 반도체 하나에 합쳐놓은 것이라고 조금 쉽게 이해하면 되는지 이것도 조금 답변 부탁드리겠습니다.

<답변> (김상진 KAIST 연구원) 저희가 저희 연구 그룹에서 처음으로 PIM에 대해서 연구를 한 지는 2년, 3년 정도 됐는데요. 그리고 이제 본격적으로 이 DRAM에 적용하는 데 있어서 연구를 하는 데는 최근 2년 정도의 시간을 투자해서 연구하였습니다.

그리고 기존의 PIM 자체가 CPU와 RAM, 결국 메모리를 합친 것이라고 할 수 있지만 이번에 좀 더 특징적인 것은 단지 CPU가 아니라 인공지능 연산에 특화된 AI 반도체와 DRAM 메모리를 합쳤다는 점에 의미가 있습니다.

<답변> (유회준 KAIST ICT석좌교수) 그러니까 DRAM 셀 자체를 또 연산기로 사용한 게 아주 큰 특징이 있습니다. 그러니까 보통 CPU를 보시면 거기에 코어가 4개 들어있다, 8개 들어있다, 쿼드코어, 옥타코어 이렇게 하는데요. 이 경우는 메모리가 1G DRAM이라고 한다면 1G계에 연산기가 들어가 있게 되거든요, 메모리 셀하고 똑같은 수의 셀... 연산기가 있기 때문에. 그래서 그만큼 많은 연산기를 수용할 수 있다는 게 큰 특징입니다.

<질문> 그냥 기본적인 개념에서... 트리플-모드라는 게 그러니까 회로가 지금 아날로그 회로와 디지털 회로가 같이 있다고 하셨는데 하나의 하드웨어가, 한 셀이 메모리 역할도 할 수 있고 연산기 역할도 할 수 있고 변환기 역할도 할 수 있다, 그러면 옆에 있는 셀끼리 어떨 때는 얘가 연산하고 얘가 저장하고 얘가 변환하고 어떨 때는 입장이 바뀌어서 이렇게 하고, 이렇게 한다는 것이죠?

<답변> (유회준 KAIST ICT석좌교수) 맞습니다.

<질문> 한 셀 안에 세 가지 회로가 포함되어 있다는 것이 아니라.

<답변> (유회준 KAIST ICT석좌교수) 맞습니다. 보시면 트리플 셀이 똑같... 동일한 회로를 어떤 것을 죽이고 어떤 것을 살리느냐, 그 안의 트랜지스터를. 그것에 따라서 모두가 바뀌게 됩니다. 그래서 한 셀 가지고, 여기서 한 번은 빨간색만 두면, 빨간색을 활성화시키면 걔가 연산기로 동작을 하고, 또 저기 지금 빨간색을 죽여 버리면, 동작을 안 시키면 메모리 모드로 되게 되고, 그리고 또 저기서 보시면 저렇게 캐패시터로만 사용할 수도 있고 그렇게 됩니다.

그래서 어떤 셀은 그 안에서 저희가 어떤 셀은 메모리, 어떤 셀은 연산기 이렇게 동작을 하게 됩니다. 그러니까 필요할 때 연산기로, 필요할 때 메모리로 바꿀 수 있다는 게 큰 장점이 되겠습니다.

<질문> 반도체 회로 설계에 대한 무지한 기자들을 위해서, 그러니까 아날로그 회로라는 것은 트랜지스터 안 쓰고 코일이나 저항이나 이런 것만으로 회로를 구성한다는 것 아닌가요?

<답변> (유회준 KAIST ICT석좌교수) 아날로그 회로는 1과 0으로 연산하지 않고 모든 값을 다 연산에 포함시키는 것을 아날로그 연산이라고 그러고요. 1 아니면 0만 따지는 게 디지털 연산이 되겠습니다. 트랜지스터는 다 들어갑니다.

<질문> 일단은 아까 전에도 이게 개발이 됐는데, 세계 최초로 개발된 것은 기쁜 일인데요. 실질적으로 주신 내용 자료에도 보면 삼성전자나 SK하이닉스도 지금 관련돼서 개발을 같이 하고 있는 중인데 그것과 비교해서 어느 정도 효율성이 있는지 그게 궁금하고요.

두 번째는 챗GPT나 초거대 AI 관련해서 반도체가 중요한데 엔비디아 같은 GPU라든지 그리고 최근에 우리나라에서도 NPU 같은 부분으로 대체할 수 있는 부분인데요. 이게 어느 쪽으로 활용도가 높은 것인지 그게 좀 궁금하고요. 그다음에... 그 정도에서.

그리고 한 가지, 결국 아까도 얘기했지만 목표는 상용화 부분인데요. 상용화 시점이 어떻게 될 것인지, 그리고 상용화를 위해서 지금 삼성이나 하이닉스하고 협력을 하는 것인지 아니면 어떤 방식으로 상용화를 할 계획인지 이게 궁금합니다.

<답변> (김상진 KAIST 연구원) 저희가 결국에 기존 디지털 DRAM-PIM과 비교하는 것을 보면요. 여기 앞서 설명드린 슬라이드에서도 나와 있다시피 기존의 디지털 PIM은 메모리 어레이 근처에만 연산기를 집적하는 방식이고 이번 방식, 아날로그 PIM 방식은 메모리 셀 개수만큼 연산을 할 수 있는 방식입니다.

결국 연산기가 많다는 것은 더 많은 연산을 처리할 수 있다는 것이고 처리량이 높다는 뜻인데요. 왼쪽 그래프에 비교돼있는 것이 리얼 메모리 디지털 PIM, 결국에는 기존에 삼성이나 SK에서 개발하던 방식과 같은 그런 반도체와 비교한 것인데요.

그러한 반도체는 처리량이 낮을 수밖에 없습니다. 결국 칩 하나에 메모리 어레이 옆에 제한된 숫자 연산기만 집적돼있고, 그와 반면 저희는 모든 셀마다 모든 연산기가 집적되어 있기 때문에 훨씬 더 높은 처리량, 15배 이상 높은 처리량을 보이는 것을 확인할 수 있습니다.

그리고 기존 GPU와 성능도 저희가 비교를 해봤는데요. GPU도 결국에는 GPU 자체의 연산... GPU가 특화된 NPU가 아닐 뿐만 아니라 메모리 구조도 특화가 되어있지 않습니다. GPU의 아키텍처는 외부에 있는 HBM이라는 메모리에서 불러오고 이를 위해서 많은 에너지와 시간을 소모하는데요.

그와 비교해봤을 때 ResNet-50이라는 정말 흔히 쓰이는 표준에 가까운 실제 인공지능 모델 벤치마크를 보시면 여기에서의 에너지 효율은 3... 그러니까 에너지의 효율이 저희와 비교했을 때 저희가 7배 이상 높은 에너지 효율을 달성할 수 있는 것을 확인할 수 있습니다.

<답변> (유회준 KAIST ICT석좌교수) 그리고 애플리케이션에 대해서 물어보셨는데, 애플리케이션은 사실 그러니까 기존의 모든 NPU를 사실은 대체할 수 있을 거라고 생각을 합니다. 하지만 문제는 이게 양산이 돼야 되고, 그리고 또 거기에 맞는 시장 규모, DRAM 같은 경우는 메모리 시장이 커야 되니까, 그래서 그런 문제가 있고요.

그래서 삼성과 하이닉스하고는 어떻게 일을 하냐면 저희가 일하는 방식은 저희가 개발한 것들을 삼성과 하이닉스가 마음대로 다 볼 수 있게 하고 필요하면 가져다 쓰시라고 지금 얘기를 하고 있습니다.

그래서 지금 아직은 완벽하게 세팅은 안 돼 있지만, 우리 허브가. 지금 삼성과 하이닉스에서 엔지니어들이 파견을 와서 같이 이런 것들 살펴보고 필요하면 가져가는, 기술 지원을 받는 그런 형태를 하려고 하고 있습니다.

<답변> (관계자) ***

<질문> 저는 이 이야기를 한 집에 화장실하고 방하고 부엌하고 따로 있다가 방마다 화장실, 부엌, 침대까지 같이 있어서 한다는 생각으로 드는데, 저는 그게 문제가 아니라 이건 아이디어적으로 당연히 생각할 수 있는 건데 왜 다른 데들에서는 이런 생각을 못했고, 이게 그렇게 아이디어를 낸 것이 실제 이것을 개발하게 된 가장 큰 힘인지, 아니면 이걸 만들어내는 제작의 능력인지, 지금 현재 독창적인 게 무엇인지에 대해서 아이디어가 독창적인 건가요, 아니면 실제 구현해내는, 만들어내는 게 독창적인 건가요? 그게 좀 궁금합니다.

<답변> (유회준 KAIST ICT석좌교수) 화장실까지는 아닌 것 같은데요.

<질문> 하여튼 기본 생활이 다 되는 거잖아요, 그거는.

<답변> (유회준 KAIST ICT석좌교수) 아니오. 그러니까 그냥 방이 화장실로도 변했다 아니면 부엌으로도 변했다는 거고, 같이 붙어있는 건 아니고요.

그다음에 제 생각으로는 지금... 콜럼버스의 달걀 세우기라는 생각이 막 들었어요. 혁신적인 게 그 아이디어 자체일 수도 있고 또 구현 방법 그 자체일 수도 있거든요. 그래서 항상 뭔가 새로운 걸 발견, 발명한 걸 보면 다들 '아, 나도 생각할 수 있었던 건데.' 이런 말씀을 하실 수도 있는데 실제로 그렇게 생각하는 게 어떤 바운더리에 들어가면, 이렇게 메모리 PIM이란 바운더리에 들어가면 저런 생각하기가 정말 어렵고요. 근데 거기서 저런 생각을 했다는 것과 그리고 또 이걸 실제로 구현해서 보여줬다, 동작을 보여줬다, 이런 것도 상당히 혁신적인 거라고 볼 수 있습니다.

<질문> ***

<답변> (유회준 KAIST ICT석좌교수) 사실 중국에 있는 대부분의 친구들은 한국도 DRAM 몇 년 하니까 됐는데 우리라고 못할 게 뭐가 있냐, 이런 얘기를 하는데 실제로는 못하고 있잖아요.

그래서 저도 뭐 다른 사람이 할 수 있을지, 없을지는 잘 모르겠습니다, 사실. 저는 할 수 없을 거라고 생각을 하는데 그건 제가 모르죠, 다른 사람이 어떻게 할 수 있을지는. 다만, 저희는 특허로 이걸 보호를 받으려고 합니다.

<답변> (관계자) 제가 조금 부연설명을 드려도 될까요? 왜 PIM에 집중을 하게 되는지에 대해서. 시장에 수요가 생겼기 때문이라고 볼 수 있고요. 왜냐면 요즘에 데이터센터에 수많은 AI 반도체가 들어가면서 가장 문제가 되는 게 전력 문제거든요.

전력 문제를 지금까지는 어떻게 해결을 해왔냐면 28nm 쓰던 공정의 AI 반도체를 10 몇 nm로 줄이고, 그다음에 10 몇 nm의 공정으로 쓰던 것을 3nm로 줄이고 5nm로 줄이고, 그렇게 미세공정을 도입하면서 전력 소모를 줄여왔었어요. 근데 문제는 3nm 이하가 되면 더 이상 공정을 줄일 수가 없습니다.

그러면 어떻게 전력을 줄일 거냐? 얘가 AI 반도체가 뭘 하나를 잘 들여다보니까 아까 말씀드린 폰-노이만 구조라는 거. 마치 공무원들이 세종시 있다가 보고하러 서울 올라가지 않습니까? 에너지를 70%는 길바닥에서 쏟고 30%는 보고하는 데 쏟는 똑같은 거예요. CPU가 서울이고 메모리가 세종이다, 그러면 이것을 계속 3nm, 4nm로 하는 게 물리적으로 한계 극복이 불가능하니까 그러면 아예 움직이는 걸 하지 말자, 라고 생각이 돼서 PIM이라는 것에 집중을 하게 된 겁니다.

그러니까 굳이 메모리에 있는 데이터를 CPU로 옮기지 않고 메모리 사이드에서 직접 연산을 한다면 파워를 줄일 수 있지 않을까, 그러다 보니 말씀드린 디지털 PIM 같은 경우에는 지금의 엔비디아 GPU나 AMD 같은 경우에는 서울-부산 거리다, 서울, CPU가 서울이고 메모리가 부산이다, 그러면 삼성의 HBM-PIM이나 아니면 하이닉스의 GDDR6-AiM 같은 경우에는 서울-부산이 아니라 바로 옆집 정도로 옮겨놓은 수준이 되겠죠, 확 줄여놨으니까.

근데 그것도 부족하다, 그것도 역시 폰-노이만 구조에 한계가 있으니까. 그럼 이제 이것과 같은 인 메모리 셀 개념으로 진짜 사람의 뇌와 같이, 사람의 뇌는 어디서 연산을 하고 어디서 기억하는지 잘 모르지 않습니까? 그렇게 간 겁니다.

그러니까 제가 볼 때는 이러한 기술이 갑자기 생겼다기보다는 시장의 니즈에 의해서 이것에 집중하게 된 거고, 이게 소위 말하는 더 이상의 미세선폭으로 공정을 줄일 수 없는 물리적 한계에 봉착을 했으니 새로운 방법으로 전력 소모를 줄여보자는 차원에서 이 소위 말하는 CPU하고 메모리 사이에, 프로세서와 메모리 사이에 쓸데없이 데이터를 왔다 갔다 하는 것을 없애는 것에 중요한 어떤 가장 하나의 feasible한 솔루션이다, 라고 해서 집중을 하는 것입니다.

<질문> 이렇게 이해하면 될까요? 이걸로 칩을 만들면 예를 들어서 100만 개의 셀이 집적돼있다 하면 메모리가 많이 필요할 때는 99만 개의 메모리 역할을 하고 1만 개가 CPU 역할을 하다가 갑자기, 계산을 많이 해야 될 때는 갑자기 또 99만 개를 메모리 양을 확 줄이고,

<답변> (유회준 KAIST ICT석좌교수) 맞습니다.

<질문> 그렇게 할 수 있다는 거죠?

<답변> (유회준 KAIST ICT석좌교수) 맞습니다. 정확하게 이해하셨습니다.

<질문> 궁금한 게 그러면 이거를 바로 공정, 삼성이나 SK하이닉스 공정 과정에 적용을 쉽게 할 수 있는 것인지 궁금하고요. 아까 선배가 질문하신 그럼 상용화 시점을 저희가 언제쯤으로 예상할 수 있는지 궁금합니다.

<답변> (유회준 KAIST ICT석좌교수) 사실 이 칩은 삼성 공정으로 제작한 것이고요. 삼성 상용 공정으로 제작한 것이고 지금 삼성에도 공정이 두 가지가 있는데 메모리 공정이 있고 로직 공정이 있는데 로직 공정으로는 당장이라도 상용화가 가능합니다.

그런데 DRAM 공정으로 이것을 하려면 조금 시간이 걸릴 것 같은데 그것은 사실 지금 정통부와 장관님이 열심히 노력하셔서 당기시려고 하는 것 같습니다. 정확하게 일시는 제가 답변을 못 드리겠고 과장님 혹시.

<답변> (관계자) 상용화에 대해서는 저도 말씀 못 드리겠고요. 이 부분에서 가장 중요한 게 메모리 대기업의 협력입니다. 그래서 저희가 PIM-HUB라는 것을 만들었고요. PIM이라는 것 자체가 메모리 기반으로 만들어야 되기 때문에 메모리를 생산하는 거대 팹을 가지고 있는 기업과의 협력이 없으면 어렵거든요.

그래서 지금 말씀하신 게 이것은 파운드리에 앞에 스몰 e가 붙어 있는데 embedded라 그래서 사이즈가 작은 것입니다. 기술력이 없어서 사이즈를 작게 한 게 아니에요. 얘를 좀 더 상용화에 맞게 다듬고 진짜 DRAM의 공정에서 태울 수 있다면 해볼 만할 수 있겠죠.

그러나 그것은 어떻게 보면 메모리 대기업의 호응이 필요한 것이고요. 그래서 저희가 PIM-HUB를 만들었고, 거기서 유회준 교수님이 매일 고군쟁투하시면서 메모리 대기업과의 협력이 잘 됐으면 좋겠다, 라는 부분을 말씀드립니다. 여러분께서 조금 그런 부분도 많이 어필해주시면 앞으로 연구하시는 데 많은 도움이 될 것 같습니다.

<질문> 죄송한데 로직 공정으로 상용화 가능한데 DRAM 공정으로 하려면 시간이 걸린다는 게 좀.

<답변> (유회준 KAIST ICT석좌교수) 지금 DRAM은 자체 내부에서만 공정을 개발해서 칩을 만들어서 팔고 있습니다. 그런데 로직 공정은 파운드리라고 보통 얘기를 하는데요. 다른 사람들도 쓸 수 있게 오픈하여서 다른 사람도 쓸 수 있게 해주고 있거든요.

그래서 저희는 지금 파운드리 공정에서, 삼성 파운드리 공정에서 이 칩을 만들었고요. DRAM 공정은 아무래도 내부에서 모든 것들이 있는 공정이다 보니 거기와 얘기를 많이 해야 되고, 또 그쪽에서 이것들에 대한 상품화 의지도 있고 이랬을 경우에 사용할 수가 있게 되는 거겠죠. 그래서 그런 것들을 저희가 풀어나가려고 하고 있습니다.

<질문> ***

<답변> (유회준 KAIST ICT석좌교수) 장관님은 누가 얘기하든지 PIM 전문가이십니다. 그런데 그분은 사실 여기에 역점을 많이 두시지만 또 상용화에 역점을 많이 두셔서 저에게는 좋은 성과를 올렸으니 이것을 어떻게 하면 빨리 상용화할 수 있는지 또는 시범사업화 할 수 있는지를 고민해달라고 계속 하고 계세요.

그래서 소프트웨어를 여기에 탑재해서 진정하게 컴퓨터 성능을 보일 수 있는 그런 절차를 해봐라, 그래서 지금 그렇게 준비를 하고 있습니다.

<질문> 아까 TSMC 사례도 말씀해주셨는데 해외에서 PIM 반도체 관련해서 많은 투자와 관심이 이루어지는 것으로 알고 있는데 얼마나 그런 것들이 뜨거운지 몇 가지 사례를 들어주셨으면 좋겠고요.

그리고 앞으로 상용화 과정에서 더 보완해나가야 될 부분이 대면적화인지 아니면 공정 최적화인지 아니면 어떤 것들을 조금 더 앞으로 해결해야 될 과제로 보시는지 궁금합니다.

<답변> (유회준 KAIST ICT석좌교수) 대만의 TSMC는 DRAM은 공정이 없기 때문에 DRAM-PIM은 못하지만 지금 SRAM-PIM 그리고 Non-Volatile이라 그래서 MRAM, RRAM 그런 PIM에 대해서는 독보적인 기술을 갖고 있고, 또 전 세계에 있는 대학교들에게 오픈을 하고 있어요.

그래서 대만에 있는 대부분의 모든 학생들, 박사과정 학생들이 다 PIM을 연구하고 있다고 보셔도 되고요. 그다음 중국에 있는 연구자들도 대만 TSMC하고 같이 PIM을 연구하고 있고, 미국에 있는 연구자들도 TSMC와 같이 PIM을 연구하고 있습니다.

특히, 제가 작년 11월에 대만에 갔었는데 대만의 반도체 설계하는 교수들이 요즘에는 반도체 설계하러 오는 학생들마다 모두 다 PIM을 하겠다 그런다, 그렇게 얘기를 하더라고요. 그래서 어느 정도 열기가 뜨거운지 그것으로 보시면 알겠고요.

저희가 이제 남은 것은 사실 대면적화도 있고 또 하나는 주변의 인터페이스 회로들을 붙이는 것입니다. 지금 현재 저희는 인터페이스 회로를 못 붙이고 있습니다. 그래서 FPGA라는 칩이 옆에 붙어서 걔의 도움을 받아서 인터페이스를 하고 있는데 얘가 stand alone으로, 하나로 동작을 하려면 인터페이스 회로들이 있어야 되는데 그 회로들을 집적하는 일이 남아있습니다.

<질문> (사회자) 온라인으로 들어온 질문이 있어서 하나 드리고 여기 받도록 하겠습니다. PIM 반도체 설계연구센터에서 이번 연구과정에서 어떤 산학 협력 과정을 거쳤는지, 또 혹은 앞으로 어떤 협력을 해나갈지 구체적으로 설명 부탁드립니다.

또, 그리고 이번 소자를 제어하고 응용을 하기 위한 소프트웨어 측면의 추가 개발도 필요한지 궁금합니다. 뉴스1 기자님 질문이었습니다.

<답변> (유회준 KAIST ICT석좌교수) 상당히 어려운 질문인데, 사실 삼성과 하이닉스하고 저희가 여러 번 관련해서 회의도 하고, 특히... 이런 것까지 다 얘기해야 되나요? 삼성하고 비슷한 산학 과제를 수행하고 있는 이런 얘기도 해야 되는지는 모르겠습니다만, 어쨌든 그래서 삼성도 상당히 관심 있게 지켜보고 있습니다. 그리고 계속 얘기해나가고 있고요. 분기마다 저희가 회의를 하고 있습니다. 그 정도면 어느 정도 얘기하고 있는지는 될 것 같고요.

그리고 제작도 삼성에서 해주셨고요. 그리고 소프트웨어는 지금 방금 제가 FPGA라는 것을 말씀드렸는데 FPGA 같은 것들을 붙여서 지금 소프트웨어를 올려서 돌릴 수 있는 그런 기반을 지금 장관님도 부탁을 하셨고 그래서 준비를 하고 있습니다. 이상입니다.

<답변> (관계자) 조금 부연설명을 드리면요. 저희가 작년 12월 12일에 K-클라우드 추진방안이라는 것을 발표를 했었습니다. 그러면서 AI 반도체의 발전 단계를 1·2·3단계 이렇게 말씀을 드렸고, 오늘 말씀하시는 건 제가 볼 때 한 2.5단계 정도 되는 것 같아요. 왜냐하면 저희가 그때 말씀드렸던 최종 단계의 모습이 비휘발성 메모리, NVM 기반의 PIM이다. 그런데 이건 DRAM이니까 비휘발성 메모리는 아닌데요.

그것 말씀을 드리면서 어떤 말씀을 드렸냐 하면 국산 AI 반도체, 이런 PIM까지 포함하는 겁니다. 이것을 데이터센터에 적용을 하는 실증을 실제로 해야지 상용화 가치가 있지 않겠습니까? 지금 첫 번째 단계인 NPU는 지금 첫 공고 이미 나가서 우리가 데이터센터 2개를 만드는 걸로 해서 사업이 잘 진행되고 있는데요. 2~3단계 가려고 그러면 소프트웨어 개발과 관련된 부분이 굉장히 많이 필요합니다.

사실 국내 생태계가 거의 없다고 보셔도 될 것 같아요. 그래서 저희가 이 부분을 대폭 보강하기 위해서 굉장히 큰 규모로 예타 사업을 지금 준비하고 있고요. 당연히 그런 부분에 녹아서 이런 부분들까지 같이 아마 통해서 가게 될 겁니다.

여러분들 잘 아시겠지만 엔비디아의 경쟁력은 프로세서라는, 엑셀러레이터는 하드웨어에서도 나오지만 CUDA라고 하는 그런 어마어마한 소프트웨어 생태계, 그러한 부분으로부터 실제 나오지 않습니까? 개발 인력을 보더라도 하드웨어를 개발하는 그런 인력들은 한 20% 되고, 나머지 80%가 소프트웨어 개발하는 인력들이거든요.

사실 저희도 좀 그래서 앞으로는 소프트웨어 관련된 부분들에 대해서도, 물론 시스템 소프트웨어가 될 수도 있고 데이터센터에 넣는 그런 여러 가지 하드웨어도 있을 수 있습니다만, 그런 부분에 대해서 굉장히 좀 보강할 수 있는, 대폭 보강할 수 있는 그러한 것들을 지금 준비하고 있다, 이렇게 말씀드리겠습니다.

<질문> 아까 전에 이걸 특허로 보호하겠다고 말씀하셨는데, 근데 바로 또 오픈해서 삼성이나 SK하이닉스가 보고 바로 바로 적용할 수 있도록 또 하겠다고 하셔서, 이런 경우에는 그러면 앞으로 특허권에 대해서는 어떻게 처리가 되는 건지 잘 모르겠는데, 대학에 갖게 되는 건가요, 아니면 같이 산학 협력을 통해서 나온 것으로 되나요?

<답변> (유회준 KAIST ICT석좌교수) 이거는 대학에 속하게 되고요, 특허는. 그다음에 나중에 삼성이나 하이닉스가 사가게 되는 그런 형태입니다.

<질문> ***

<답변> (유회준 KAIST ICT석좌교수) 저희는 비휘발성 축인 MRAM, MRAM 셀 기반의 PIM을 삼성 파운드리하고 같이 연구를 하고 있고요. 이거는 지금 Non-Volatile Memory로 한 게 아니고 DRAM으로 했기 때문에 의의가 있습니다. 우리나라가 자타가 공인한 DRAM 강국인데 DRAM을 기반으로 한 PIM을 해야 된다는 그런 어떤 당위성 그리고 꼭 우리가 계속 유지해야 한다는 그런 어떤 희망 그런 것 때문에 저희는 DRAM을 집중해서 하고 있습니다.

특히, DRAM으로는 Near-Memory로는 이미 상품화가 돼있어서 큰 문제는 없다고 보여지지만 상용화나 아니면 실제 적용에는, 그런데 이렇게 셀 자체를 연산기로 사용하는 것도 사실 큰 영역이기 때문에 그것을 처음으로 시도했다는 것 그리고 가능성을 보였다는 것이 큰 의의가 되겠습니다.

이게 상용화된다면 말씀드린 바와 같이 NPU의 한 세대 점프하는 그런 거라고 보고 있습니다. 그래서 그 건이 구체적으로 몇 세대에 속하는지는 과장님이 말씀해주시죠. 몇 세대인가요?

<답변> (관계자) 글쎄, 제가 아까 2.5세대라고 제가 그냥 말씀드렸는데요. 교수님 말씀하셨듯이 어쨌든 이 연구가 왜 가치가 있냐 하면 대한민국은 지금 압도적인 DRAM 넘버원 국가거든요. 그런데 DRAM의 가장 큰 단점은 뭐냐 하면 재고와 관련된 이슈가 발생이 되면 한없이 영업이익이 떨어진다는 거예요. 그럼 이 DRAM을 갖다가 진짜 요즘 이슈... 항상 수요가 넘치는 그런 AI 반도체로 변신시킬 수 있는 게 바로 이거라는 거거든요. 그래서 이 기술에 더 주목을 해야 되는 거고요.

그런 측면에 있어서는 NVM도 저희가 3단계로 제시했지만 DRAM 기반의 PIM도 굉장히, 오히려 어떻게 보면 지금 단계에서는 더 많은, 많은 가치가 있는 그런 기술이다, 라고 저는 생각을 합니다.

<답변> (사회자) 시간이 많이 지연돼서 브리핑을 정리하고요. 브리핑 이후에는 PIM 반도체 시연이 예정돼있으니 많은 관심 부탁드리겠습니다.

이상으로 브리핑을 마치겠습니다. 감사합니다.

<답변> (유회준 KAIST ICT석좌교수) 감사합니다.

<끝>