본문 바로가기 메인메뉴 바로가기

전자정부 누리집 로고이 누리집은 대한민국 공식 전자정부 누리집입니다.

국민과 함께하는 민생토론회  정부정책 사실은 이렇습니다 국민과 함께하는 민생토론회 정부정책 사실은 이렇습니다

콘텐츠 영역

AI반도체 핵심기술 개발 관련 브리핑

2024.03.07 KAIST 유회준 교수, 김상엽 박사
인쇄 목록
<윤두희 과학기술정보통신부 정보통신산업정책과장>
안녕하십니까? 방금 소개받은 과기정통부 정보통신산업정책과장 윤두희입니다.

언론인 여러분 혹시 어텐션 'Attention is all you need'라는 2017년 6월에 구글 엔지니어들이 발표한 논문을 아시는지 모르겠습니다. 이 논문이 AI 시대에 있어서 모든 AI 모델을 트랜스포머로 바꿔놨고 이를 바탕으로 챗GPT가 거대, 초거대 AI 모델이라는 걸 만들어서 발표하면서 전 세상이 지금 다 바뀌고 있습니다.

그런데 이로 인해서 AI 연산을 위한 AI 반도체 연산이 지금 폭발적으로 늘어나고 있고요. 전 세계가 AI 반도체 기술패권을 둘러싼 그런 전쟁을 하고 있습니다. 그 핵심에는 오늘 발표드릴 AI 반도체 전력 소모를 파격적으로 줄이는 그런 핵심 기술이 있는 것입니다.

오늘 발표되는 성과는 AI 반도체가 지금 엔비디아가 장악하고 있는 GPU, 이를 넘어서서 NPU, 그다음에 메모리 기반의 연산에서는 PIM, 그다음에 최종 종착지가 바로 인간의 뇌를 모사하는 뉴로모픽 컴퓨팅인데요. 이 뉴로모픽 컴퓨팅 반도체 핵심 기술을 바로 유회준 교수님 팀이 개발을 하신 겁니다.

그리고 이론상에만 그치는 게 아니라 실제 삼성전자의 28나노 파운드리 공정을 통해서 직접 칩을 제작해서 오늘도 시연을 보여드릴 건데요. 그 가능성을 확인했다는 것에 있어서 굉장히 큰 의미가 있다, 라고 저희는 생각합니다.

무엇보다 저희 정부가 반도체 기업과 학교 간의 협력 강화를 위해서 2022년 6월에 저희 과기정통부 PIM 예타 사업 지원으로 카이스트에 개소한 PIM 허브설계센터가 있습니다. 설계센터장님을 맡고 계시고요.

그리고 작년에 AI 반도체 분야 인력 양성이 필요하다, 라는 그런 니즈에 따라서 3개의 반도체 대학원을 개소했는데요. 그중에 카이스트 AI 반도체 대학원인데 역시 유회준 교수님이 원장님이십니다.

이러한 과기정통부의 지원하에서 나온 연구 성과라는 것에 대해서 굉장히 의미가 있다고 봅니다. 아무쪼록 제가 'Attention is all you need'라는 그러한 거를 갑자기 말씀드렸는데요. 그 부분은 인공지능의 소프트웨어와 알고리즘에 있어서의 시초를 놓은 논문이 되겠습니다.

저희가 오늘 여러 과기정통부 언론인분들께 브리핑을 드리는 이유는 오늘 발표드리는 이 논문 성과가 인공지능 반도체 분야에서의 하드웨어에 있어서 'Attention is all you need'라는 그러한 조그만, 조그만 게 아니지, 굉장히 의미 있는 시작이 될 수 있을 것이라는 희망하에서 여러분들께서 관심을 갖고 많은 부분들을 지원을 부탁드린다는 의미에서 이 브리핑 자리를 마련... 브리핑을 마련하게 됐습니다.

오늘 카이스트 유회준 교수님 소개해 드리고요. 이어서 김상엽 박사님께서 해주시겠습니다.


<유회준 카이스트 전기 및 전자공학부 교수>
안녕하십니까? 저는 카이스트 인공지능반도체대학원장이며 PIM 반도체 설계연구센터 소장인 유회준 교수입니다.

먼저, 이렇게 우리 상보형-트랜스포머에 대해서 발표하게 돼서 아주 기쁘게 생각합니다.

잘 아시다시피 MWC 2024, CES 2024 올해의 화두는 온디바이스 AI였습니다. 보시는 바와 같이 미디어텍이라든가 또는 퀄컴, 다 온디바이스 AI를 얘기하고 있고요. 그리고 또 삼성에서도 온디바이스 AI를 얘기하고 있습니다.

온디바이스 AI는 데이터센터를 통하지 않고 기기에서 모든 거대 모델을 처리할 수 있는 그런 것을 말합니다. 따라서 디바이스에서 거대 모델을 하기 위해서는 거대 모델을 초저전력으로 구동하는 것이 필요합니다. 하지만 아직도 여기에는 GPU라든가 엔비디아 같은 것들은 여기는 불가능하죠.

그래서 샘 알트만이라고 오픈 AI CEO가 2018년부터 투자를 하고 새로 산 회사가 있습니다. Rain Neuromorphic이라고 하는 회사입니다. 뉴로모픽이 저전력으로 한다는 건 누구나 다 알고 있었습니다. 그래서 샘 알트만도 이런 뉴로모픽 회사에게 투자를 해서 승부를 걸고 있었는데요. 이 회사가 뉴로모픽을 한다고 했지만 지금은 접었습니다. 너무 어려워서 접었습니다. 들어가 보시면 웹사이트에 없습니다.

뉴로모픽이 IBM, 인텔 이런 회사들이 다 하고 있지만 구현을 하지 못했습니다. 실제로 의미 있는 것은 구현하지 못했습니다.

저희는 초저전력의 뉴로모픽 액셀러레이터를 가지고 거대 모델, GPT-2를 돌린 것은 세계 최초라고 자부하고 있습니다.

AI 반도체는 모두에 윤두희 과장님께서 말씀하셨지만 GPU를 넘어서 NPU 그리고 현재는 뉴로모픽으로 향해 가고 있습니다. 뉴로모픽는 사람의 뇌를 모방하는 것으로서 초저전력이 가능하다고 누구나 다 알고 있습니다만 실제로 구현에는 그동안 많은 어려움이 있었고 따라서 대부분의 사람들이 뉴로모픽 하면 장난감 또는 그냥 이론적인 연구 정도로 치부한 게 대부분입니다.

하지만 저희는 그것을 실제로 의미 있는 GPT 2.0을 돌렸다는 것 그리고 온디바이스 AI의 솔루션으로 제공했다는 것이 큰 의의가 있다고 생각합니다.

뉴로모픽 컴퓨팅은 기존의 폰 노이만 아키텍처를 뛰어넘는 인간의 뇌를 모방하는 그런 건데요. 순차적인 연산 처리를 수많은 병렬 처리 연산으로 한다든지 여러 가지가 있지만 가장 핵심은 폰 노이만 구조는 전체가 동시에 동작을 합니다. 컴퓨터는 전체 전력이 다 동작을... 전력이 다 들어가고 전체 칩이 다 동작을 하는데 우리의 뇌는 부분 부분만 동작시킬 수도 있습니다. 그래서 그것을 저희는 사건 기반 동작이라고 부릅니다. 그런, 일부분만 동작시킬 수 있는 그런 특징이 있고요.

그리고 기존의 컴퓨터는 상태 유지에 신호가 필요합니다. 그래서 신호가 항상 일정하게 가 있는데 생물 시간에 배웠다시피 우리의 뇌는 뉴런으로 돼 있기 때문에 펄스 형태로, 실무율이라고 해서 펄스가 튀는 그런 신호를 주고받습니다. 따라서 전력 소모가 적습니다. 즉, 사건 기반 동작과 펄스 신호를 기반으로 하는 뇌의 동작을 저희는 모방을 했습니다.

그래서 뉴로모픽 컴퓨팅은 사람의 뇌를 모방했기 때문에 사람의 뇌가 동작하는 것과 상당히 비슷합니다. 사람이 생각을 많이 할 때는 에너지를 많이 소모하게 되고요. 그리고 생각이 적을 때는 에너지 소모가 적습니다.

즉, 입력되는 정보량에 따라서 에너지 소모 비율이 크게 다릅니다. 저희가 만든 뉴로모픽도 이와 동일합니다. 그래서 입력해야 할 것이 많으면, 그러면 많이 돌리고, 그리고 입력할 게 적으면 적게 돌리는, 사람의 뇌하고 비슷하게. 그런 특징이 있습니다.

이에 비해서 그동안 많이 알려진 심층인공신경망은 여러 개의 레이어로 돼 있고, 그리고 입력 크기와 상관없이 전체가 한꺼번에 다 돌아갑니다. 그래서 에너지 소모가 많이 있는데요.

그런데 이걸 정확하게 비교해 보자면 스파이킹 뉴럴 네트워크, 뉴로모픽이 다 동작하는 것보다는 어쩌면 얘가 한꺼번에 동작하는 게 조금 더 전력을 적게 먹을 때가 있습니다. 그래서 그 상보적인 것들을 저희가 비교하게 되는데요.

SNN와 DNN은 서로 상보적입니다. 즉, 작은 입력정보, 즉 생각할 거리가 작으면, 그러면 뉴로모픽이 훨씬 더 우세합니다. 에너지를 더 적게 먹습니다. 그렇지만 많은 입력정보가 있을 경우에는 DNN이 더 효율적입니다. 그래서 이 두 가지를 잘 활용한다면 항상 저전력으로 동작시킬 수가 있게 됩니다.

그래서 저희는 이 두 가지의 장점만을 취해서 상보형-심층신경망이라는 것을 작년에 발표한 바 있습니다. 즉, SNN은 이벤트 기반, 즉 사건 기반의 연산을 한다는 특징이 있고요. 그리고 적은 입력정보에서는 저전력을 소모하는 특징이 있습니다. DNN은 정확도는 더 높지만, 하지만 큰 입력에 대해서는 또 저전력을 소모하는 그런 장점도 있습니다.

이 2개의 장점만을 저희는 모았습니다. 모아서 작년에 상보형-심층신경망이라는 것을 만들었습니다. 이것을 보시면 저희는 뉴로모픽이 그동안 정확도가 떨어진다, 그리고 쓸모가 없다는 것을 불식시키기 위해서 뉴로모픽이 CNN과 정확하게 일치한다, 완벽하게 일치한다는 걸 증명하기 위해서 저기 보면 DNN들의 층들을 일부분을 스파이킹 뉴럴 네트워크로 바꿨습니다. 뉴로모픽으로 바꿔치기를 했습니다.

그래도 정확도가 똑같다면, 그러면 뉴로모픽과 DNN의 정확도가 일치하는 것이 되겠죠. 그렇게 완벽하게 호환된다는 뜻입니다.

그래서 작년에 저희가 저렇게 만들어서 일정한 부분은 SNN으로, 일정한 부분은 DNN으로, 또 SNN으로, DNN으로 이렇게 왔다 갔다 하면서 연산을 해 보았습니다. 그랬더니 정확하게, 정확도도 유지하면서 전력도 아주 저전력으로 됨을 확인하였습니다.

즉, 작년에 저희의 의의는 SNN, 즉 뉴로모픽이 딥 뉴럴 네트워크와 완벽하게 일치한다는 걸 증명하는 거였습니다. 그래서 올해는 그것을 가지고 거대 모델을 한번 돌려보겠다는 게 올해의 목표입니다.

그래서 보시면 정확도가 완벽하게 일치하고 있고요. 그리고 에너지 효율은 더 작은 것을 보실 수가 있습니다. 에너지 효율도 최고 수준을 유지합니다. 즉, DNN보다도 그리고 뉴로모픽보다도 더 에너지 효율이 높습니다. 이것은 우리나라, 특히 카이스트의 독창적인 기술임을 밝혀 둡니다.

그래서 이제 이것을 올해부터는 온디바이스 AI로, 온디바이스 거대 모델로 확장해 보고자 했습니다. 저희의 고유의 상보형-심층신경망을 여기에 적용한다면, 그러면 어떻게 될 것인가. 그런데 여기서 제일 문제가 됐던 것은 이 거대 모델들은 기존의 심층신경망보다도 연산량도 훨씬 많고 파라미터도 월등히 많습니다. 그러니까 거대 모델이 되겠죠.

그래서 저희는 저전력은 지금 뉴로모픽으로, 그래서 상보형-심층신경망을 써서 초저전력으로 만들었고, 그리고 파라미터들을 줄이는 방법들은 저희가 또 세 가지의 획기적인 기법들을 또 개발했습니다.

그래서 세 가지의 새로운 기법들을 적용해서 파라미터 수를 줄이는 그런 연구를 통해서 오늘 이렇게 GPT 2.0을 뉴로모픽으로 돌릴 수 있는, 초저전력으로 돌릴 수 있는 것을 저희가 얻어냈습니다.

이제부터는 조금 더 상세한 얘기가 필요하고, 또 올해 얘기기 때문에 김상엽 박사에게 마이크를 넘기겠습니다.


<김상엽 카이스트 전기 및 전자공학부 박사>
안녕하십니까? 저는 카이스트의 유회준 교수님 연구실 김상엽 박사입니다.

먼저, 저희는 거대 언어모델에 상보형-심층신경망을 적용하고자 했습니다. 거대화된 모델은 ‘어텐션 레이어’라는 것을 사용합니다. 어텐션 레이어는 입력 단어와 출력 단어 사이의 상관관계를 계산합니다.

즉, 예를 들면 영어 번역의 경우에 안녕이라는 단어와 Hello라는 단어가 상관관계가 되게 큰데 이런 것들을 계산해 주는 역할을 한다고 보시면 됩니다.

그래서 이렇게 왼쪽에 보시듯이 어떤 입력 토큰과 출력 토큰 간의 상관관계가 행렬 형태로 나오게 됩니다. 그리고 이 행렬에 있는 값들은 서로 강한 상관관계에 있는 값들은 굉장히 큰 값으로 출력이 되고, 그리고 약한 상관관계에 있는 값들은 굉장히 작은 값들로 출력이 됩니다.

이렇듯 어텐션 레이어의 결과는 큰 값과 작은 값들이 다양하게 배치되어 있고 저희는 아까 상보형-심층신경망의 원리를 여기에 적용했습니다. 강한 상관관계를 가지는 값들 결과는 DNN, 심층인공신경망에 할당해서 처리를 하고, 그리고 약한 상관관계를 가진 이 작은 값들은 뉴로모픽, 즉 SNN에다가 할당을 해서 처리하는 방식으로 전체 전력 소모를 줄였습니다.

그런데 앞에서 보셨듯이 입력과 출력 간의 상관관계는 어떤 입력이 들어오느냐에 따라서 항상 달라지게 됩니다. 즉, 큰 값과 작은 값의 비율은 계속해서 달라지며 SNN과 DNN, 심층인공신경망과 뉴로모픽 컴퓨팅의 워크로드 비율은 계속해서 달라지게 됩니다.

저희는 이런 상황에서 최적으로 연산을 하기 위해서 DNN, SNN 통합 코어를 개발하였습니다. 그래서 DNN과 SNN을 상보적으로 활용하기 위해서 비율에 상관없이 모든 코어가 효율적인 모드로 동작할 수 있도록 하여서 에너지 효율을 59%가량 증가를 시켰습니다.

그리고 앞서서 말씀드렸듯이 연산뿐만 아니라 파라미터 수가 굉장히 많은 것도 거대 언어 모델의 특징이고 해결해야 될 점입니다. 그래서 저희는 3단계 파라미터 압축법을 제안하였고, 그 첫 번째는 빅-리틀 아키텍처입니다.

기존의 거대 언어 모델은 굉장히 큰 모델을 가지고 계속해서 돌리면서 높은 정확도를 유지했습니다. 하지만 저희는 항상 이런 큰 모델을 돌릴 필요가 없다고 생각했습니다.

그래서 정확도가 높지 않아도 될 경우, 혹은 그냥 평범한 경우에는 작은 모델, 압축된 작은 모델을 계속해서 사용을 하다가 특정 경우 작은 모델이 결과를 제대로 못 뽑아냈다든가 정확도가 많이 요구되는 상황일 경우에만 큰 모델을 불러와서 연산을 처리합니다.

따라서 기존에는 큰 모델이 들어와서 여러 입력들을 처리를 했던 반면에, 저희는 작은 모델을 여러 번 돌리고 큰 모델을 조금만 돌리는 것을 통해서 필요한 파라미터 수를 많이 줄이고 연산량 또한 많이 줄일 수 있었습니다.

그리고 두 번째는 암시적 파라미터 압축이라는 방식입니다.

최근 들어서 인공신경망을 가지고 어떤 이미지를 압축하는 데 사용하거나 혹은 동영상을 압축하는 데 사용을 많이 하고 있습니다. 즉, 이것은 뉴럴 네트워크, 인공신경망이 어떤 이미지를 기억할 수 있다, 그리고 기억한 것을 다시 복원해낼 수 있다, 라는 특징이 있다는 것을 최근 들어 많은 논문들에서 밝히고 있습니다.

따라서 저희는 이것을 활용해서 거대 언어 모델의 파라미터를 줄이는 데 사용을 했습니다. 즉, 인공신경망이 기존 거대 언어 모델의 파라미터를 기억하고 그래서 압축된 데이터를 온칩으로 보냈을 때 온칩에서는 다시 인공신경망을 통해서 복원을 하는 그런 형태로 시스템을 꾸렸고, 따라서 온칩, 그러니까 칩으로는 작은 압축된 데이터만을 보내게 됨으로써 외부 메모리 접근을 크게 줄일 수가 있었습니다.

그리고 추가적인 압축을 위해서 마지막인 부호 확장 비트 압축 방식을 제안하였습니다.

이건 1단계, 2단계를 거치더라도 어느 정도의 파라미터가 칩으로 들어가야 됩니다. 저희는 그거를 줄이기 위해서 이걸 제안했습니다.

뉴럴 네트워크, 인공신경망의 파라미터는 가우시안 분포를 띱니다. 즉 이것은 0 근처에 모든 값들이 몰려 있는 구조고 굉장히 작은 값들이 많이 있다, 라는 이야기입니다. 그리고 이런 작은 값들은 이 상위 비트에 쌓인 부호를 나타나는 비트가 연속적으로 위치해 있습니다. 그래서 작은 양의 값은 0이 앞에, 상위 비트에 계속해서 붙어 있고 음의 작은 값은 1이라는 마이너스를 의미하는 부호 비트가 계속해서 붙어 있습니다.

이러한 연속된 비트를 저희는 그냥 단 하나의 비트로 압축해서 칩으로 보내면 파라미터 수를 크게 줄일 수 있겠다고 생각을 했고, 따라서 0 네 개를 그냥 0 하나의 비트, 1 네 개를 1 하나의 비트로 압축을 해서 거대 언어 모델에 필요한 파라미터를 8비트에서 5비트로 압축할 수 있는 그런 기술을 제안했습니다.

그래서 이런 세 가지 압축법을 모두 사용해서 70~80% 정도의 파라미터들을 압축할 수가 있었고 정확도, perplexity, 즉 분기계수라는 값은, 이제 값이 작을수록 학습이 잘된 것이고 이 값이 저희 압축 기술을 통해서 1.2만큼 증가를 하였으나 이것은 사람이 보았을 때 그 결과에서 전혀 어색함이나 불편함을 느낄 수 없는 그 정도의 수치라 저희는 정확도의 큰 하락 없이 큰 압축 효과를 얻을 수가 있었습니다.

이것은 상보형-트랜스포머의 성능 비교입니다.

기존에 많은 학계들에서 트랜스포머 혹은 언어 모델에 관련된 칩들이 나오곤 했는데요. 기존에 있는 칩들은 연산량도 기존에 있는 인공신경망 기반의 연산을 하다 보니 에너지 소모도 많고, 그리고 파라미터를 압축하는 기술들도 적용이 되지 않았다 보니까 메모리, 외부 메모리 접근에서 굉장히 많은 파워를 소모했습니다.

저희 경우에는 뉴로모픽 컴퓨팅과 그리고 파라미터 압축 기술을 통해서 시스템 에너지 소모량을 30%에서 72%까지 감소를 시켜서 초저전력 연산을 수행할 수 있었습니다.

그리고 이것은 상보형-트랜스포머 시연 시스템입니다.

이건 앞에 저희가 이렇게 마련을 해놓았고, 이것은 저희가 PC에다가 저희 상보형-트랜스포머가 집적된 보드를 연결한 모습을 보여줍니다. 그래서 이 노란색 박스로 표시된 것이 측정 보드고 빨간색으로 된 것이 디스플레이입니다.

이것은 디스플레이 모습을 조금 더 구체적으로 보여주고 있으며 언어 작업 종류는 요약 언어 번역, 질의·응답들을 처리할 수 있고 왼쪽에 있는 입력 프롬프터에 글을 입력하면 오른쪽에 있는 출력 프롬프터에 결과가 나오게 되는 그런 형태로 구성되어 있습니다.

그리고 이것은, 왼쪽은 저희가 PC에 저희의 보드를 연결하지 않은 모습을 보여주고 오른쪽은 PC에 저희 보드가 연결이 돼 있는 모습을 보여줍니다.

PC만을 통해서, PC의 CPU만을 통해서 연산을 할 경우에는 느린 속도로 결과들이 출력되는 것을 보실 수가 있고, 그리고 저희 보드를 연결했을 때에는 빠른 속도로 결괏값들이 출력되는 것을 보실 수가 있습니다.

그리고 저희는 이런 PC뿐만 아니라 핸드폰, 즉 온디바이스 AI가 요새 핫한 키워드로 떠오르고 있는데, 저희는 ‘갤럭시24’라는 핸드폰 모델에서 저희 보드를 연결해 앞서 보여드렸던 언어 작업들을 처리할 수 있도록 구현을 하였습니다.

그리고 다음은 결론입니다.

저희는 상보형 트랜스포머, 즉 DNN·SNN 각각의 장점만을 살려서 초저전력으로 거대 언어 모델을 처리할 수 있는 그런 칩을 설계하고 제안을 하였습니다. 그래서 DNN·SNN 통합 코어, 출력 스파이크 추측 방식, 3단계 압축 방식들의 기술들을 같이 써서 저희가 심층인공신경망 플러스 스파이킹 뉴럴 네트워크를 활용해서 GPU(NVIDIA A100)보다 625배 전력 소모가 적고 칩 면적은 41배 작은 그런 AI 반도체를 설계하고 제안하였습니다.


[질문·답변]
※마이크 미사용으로 확인되지 않는 내용은 별표(***)로 표기하였으니 양해 바랍니다.

<질문> 저기 끝에 있는 625배 전력 소모 적고 칩 면적은 41배 작다는 것은 바꿔 이야기하면 GPT-2 모델을 돌리는데 지금 개발하시는 것은 칩 하나에서 그걸 돌릴 수 있는데 기존의 GPT-2를 돌리기 위해서 A100은 625개가 필요하다, 이런 뜻인가요?

<답변> (김상엽 카이스트 박사) 아닙니다. 저희 같은 경우에 칩 자체 내에 저희는 4㎜ by 4㎜의 칩이고 이제 NVIDIA A100 같은 경우에는 그래픽카드 형태의 슬롯으로 크게 칩이 집적이 되어 있고요.

그리고 여기에다가 GPT 모델을 돌렸을 때는 아까 전에 말씀드렸듯이 그냥 인공신경망을 통해서 돌리면 입력값이 작든 크든 상관없이 모두 일정하게 많은 파워를 소모하기 때문에 그런 부분에서 파워 소모가 많은 것이고요.

그리고 GPU는 엄청나게 많은 병렬 처리를 하기 위해서 연산기들이 많이 박혀 있는데 그 연산기들이 많이 쓰이지 못하는 상황에도 계속해서 동작하면서 파워를 소모하게 되는 그런 불필요하게 낭비되는 파워들이 있다 보니까 그런 부분에서 파워를 많이 소모하게 되고, 저희는 그것들을 다 최적화시켜서 파워 소모를 극도로 줄여서 연산할 수 있도록 칩을 제작해서 파워를 줄였다고 보시면 될 것 같습니다.

<질문> ***

<답변> 네.

<질문> 그러면 전력 소모는 빼고 기존에 GPT-2를 돌릴 때, 지금 오래된 이야기지만 그 당시에 A100, 그때 A100이 있었는지 모르겠지만 기존 NVIDIA GPU 몇 대 정도가 필요했었어요?

<답변> NVIDIA A100 같은 경우에는 1대로도 충분히 돌릴 수는 있고요. 충분히 1대로도 돌릴 수 있습니다. 다만, 학습을 한다고 가정을 하면 GPU가 굉장히 많이 필요하기는 하겠지만 단순히 추론만 한다고 했을 때는 1대로도 충분히 할 수가 있습니다.

<질문> 제가 궁금한 건 그래서 온디바이스용 AI를 위한 기술을 개발하신 건데 실제 사용자들한테 어떤 효능이 있을까 궁금하거든요. 그래서 이 기술을 활용하면, 원래 AI 기능을 작동 시키려면 전력 소모가 많이 되니까 배터리 문제가 있을 텐데, 스마트폰의 경우.

<답변> (김상엽 카이스트 박사) 네, 맞습니다.

<질문> 그러면 실제 이 기술을 활용하면 어떤 장점이 있는지를 풀어서 설명해 주시면 좋을 것 같거든요.

<답변> (김상엽 카이스트 박사) 사람들의 경우에, 예를 들어서 최근에 갤럭시에서는 통화를 할 때 실시간으로 번역해 준다든가 채팅을 할 때, 메시지를 보낼 때 실시간으로 번역해 주는 그런 기능들을 제공하고 있습니다. 그건 굉장히 사람들이 자주 사용하는 기능이고, 이때 만약 전력 소모가 크게 된다면 사람들이 조금만 사용해도 배터리가 빨리 닳고 사용 시간이 굉장히 줄어들게 될 것입니다.

저희가 개발한 칩을 적용한다면 그만큼 전력 소모가 적어지기 때문에 그만큼 배터리 타임이 길어지고 사람들이 생성형 모델이나 이런 언어 모델을 통한 서비스를 훨씬 긴 시간 동안 사용자들이 사용할 수 있다, 라는 장점이 있을 것 같습니다.

<질문> 그리고 추가적으로, 이게 개념적으로 제가 잘 정리가 안 돼서 그럴 수 있는데 이 기술을 활용하면 기존의 스마트폰의 AP를 대체할, 퀄컴 거나 엑시노스를 대체할 새로운 칩을 만들어야 되는 건지 아니면 기존 AP에 이 기술을 추가하는 형식인 건지가 궁금하더라고요.

<답변> (김상엽 카이스트 박사) 기존에 있는 핸드폰 같은 경우에는 여러 칩들이 이렇게 딱딱딱 붙어 있는 시스템 형태로 되어 있습니다. 그리고 그 시스템 안에는 Neural Processing Unit, 그러니까 NPU라고 소위 말하는 인공지능형 망을 처리하는 그런 프로세서들도 들어 있습니다. 저희 칩 같은 경우에는 그 부분을 대체하거나 혹은 그 부분에 들어가는 어떤 IP로서 활용될 수 있는 가능성이 있다, 라고 보시면 될 것 같습니다.

<답변> (윤두희 과기정통부 정보통신산업정책과장) *** 저희가 온디바이스 AI의 가장 핵심 피처 중의 하나가 바로 프라이버시 보호거든요. 그러니까 LLM 사이즈가 이 정도가 되는 게 AI 비서 정도로 다 탑재가 될 수 있을 거예요.

그런데 여러분들, 아마존 알렉사도 그렇고 요즘에 KT로 치면 지니도 있고 다 집에 이렇게 스피커 있지 않습니까? 그런데 제가 얘기할 때마다 이게 다 서버로 가지 않습니까? 굉장히 기분들이 안 좋으시죠. 그런데 온디바이스가 되면 그런 걸 안 하고 이 기계 자체에서 다 이렇게 처리를 할 수가 있는 거예요.

다만, 문제는 온디바이스에서 처리하려다 보니까 아까도 말씀하셨듯이 A100 같은 걸로 처리하려고 그러면 그 파워로는 도저히 휴대폰에서 처리할 수가 없습니다. 그런데 이런 뉴로모픽 컴퓨팅 같은 게 들어오게 되면 이런 AI 어시스턴트를 진짜, 진짜 인터넷 커넥션 없이 클라우드도 안 쓰고 진정으로 AI 어시스턴트를 기계에서 구현할 수 있는 그런 장점들이, 굉장히 큰 장점이 있을 수 있다, 이렇게 보여주시면 될 것 같습니다.

<질문> 지금 온디바이스를 얘기하시는데 지금 비교는 계속 GPU, A100과 비교를 하고 계시거든요. 아까도 질문이 나왔지만 이건 비교는 어떻게 보면 AP 칩에 들어가는 NPU와 비교를 해야 될 것 같은데, 일반인들이 이해하려면.

만약 이걸 비교한다면 어느 정도 세대 수준의 NPU와 비슷한 성능을 보이고 있는 것인지 한번 비교해 주시면 좋겠습니다. 사실 NPU가 나온 지 이제 10년 정도 AP에 들어간 지 된 것 같은데 과연 10년 전 수준인지 아니면 몇 년 전 수준인지 쉽게 이해... 알려주시면 독자들이 이해하기 쉬울 것 같은데요.

<답변> (김상엽 카이스트 박사) 아까 상보형-심층신경망 성능 비교표를 한번 보여주시겠습니까? 지금 이게 최근 학계들에 나온 온디바이스용 혹은 엣지에서 처리할, 트랜스포머를 처리하기 위해 제안된 칩들의 성능을 보여줍니다.

그래서 지금 2022년도부터 2023년도까지 샌프란시스코에서 개최된 국제고체회로설계학회에서 최고 수준의 프로세서들이 제안됐었는데요. 저희 같은 경우에는 작년에 제안이 된 최고 수준의 ASIC, 그러니까 NPU보다 30~72% 정도 에너지 소모량을 줄였다, 라고 보시면 될 것 같습니다.

<답변> (유회준 카이스트 교수) 사실 실제로 온디바이스 AI에 관련된 NPU는 탑재된 게 거의 없습니다. 그렇지만 옛날 모델 가지고 지금 돌리고 있는 건데요. 그래서 성능들이 그렇게 좋지는 않았고요. 하지만 저희 걸로 한다면 완벽하게 새로운 패러다임의 성능을 얻을 거라고 생각하고 있습니다.

<질문> 그러면 지금 가장 성능이 세다고 하는 애플의 NPU라든지 퀄컴의 NPU와 비교했을 때 자신 있으시다는 얘기인가요?

<답변> (유회준 카이스트 교수) 예, 파워 면에서는 저희가 확실하게 우위가 있습니다.

<질문> 파워 면에서는요?

<답변> (유회준 카이스트 교수) 예. 그리고 성능도 지금 2.0까지 돌리는 걸 보여드렸고요. 퀄컴 거는 2.0을 돌리는 건 아닌 걸로, 못 돌리는 걸로 알고 있습니다, 저는.

<답변> (윤두희 과기정통부 정보통신산업정책과장) 그러니까 이번에, 이게 제가 이건 적절한 비유일지 모르겠는데 갤럭시 S24 온디바이스가 의미가 있는 시도인 게 교수님도 말씀하셨지만 그런 스마트폰 사이즈의 AP의 NPU를 사용해서 sLLM을, 그러니까 LLM을 돌려본 게 사실은 삼성 갤럭시 S24가 최초라고 보시면 되고요.

그 이면에는 NPU라는 것도 있지만 아까 말씀드렸듯이 경량화하는 것 있지 않습니까? 압축 기술 같은 것, 정확도를 유지하면서 어떻게 압축을 할 건지에 관한 굉장히 엄청나게 어려운 작업들이 같이 동행된 거거든요. 그렇기 때문에 사실은 말씀하셨듯이 지금까지 S24를 제외하고는 진정한 LLM을 돌려본 기기들은 거의 없다, 이렇게 보시면 맞을 것 같습니다.

<질문> *** GPT-2를 돌렸다고 하는데요, 지금은 GPT-5도 나오고 계속 성능이 업그레이드되는데.

<답변> (유회준 카이스트 교수) 맞습니다.

<질문> 너무 좀 하위 버전 아닌가, 라는 생각이 드는데, 만약에 GPT-5나 앞으로 그런 데도 적용하면 어느 정도의 저전력 효과가 있는지가 궁금하고요.

지금 이렇게 설계가 돼서 나왔는데 삼성 나노공정을 통해서 생산할 수 있다고 하는데 산업체 반응이랄까, 어떻게 활용 가능성이나 앞으로 그거는 어떻게 계획하고 계시는지 궁금합니다.

<답변> (유회준 카이스트 교수) GPT 2.0이 온디바이스 AI용으로는 충분하다고 저는 생각을 하고 있고요. 사실 GPT 5.0 이런 거는 데이터센터용이거든요. 그러니까 다양한 무지막지한 요구들을 처리하기 위한 거고요. 사실 온디바이스용으로는 2.0도 충분하다고 생각합니다만 저희는 GPT 3.0도 지금 탑재하려고 하고 있고요.

그리고 저희 칩은 28나노공정으로 만든 칩입니다. 그런데 대부분 GPU 같은 것들은 4나노공정 또는 요즘에는 3나노공정으로 만드는 것들이거든요. 그러니까 저희가 그 공정을 더 좋게만 할 수 있다면, 그러면 그 GPT 5.0까지 돌리는 것도 아무 문제는 없다고 생각합니다.

왜냐하면 저희가 초저전력, 고속 처리가 가능한 설루션이기 때문에 저희는 그런 학교에서의 한계 때문에 28나노로 조그마한 칩을 만들었던 거죠. 그렇지만 크게 할 수 있다면 얼마든지 돌릴 수 있다고 생각합니다.

<답변> (윤두희 과기정통부 정보통신산업정책과장) 이게 교수님도 설명을 주셨는데요. GPT-2라 그래서 절대 이게 어떻게 보면 '너무 하이다.' 이렇게 안 보셔도 되는 게 예를 들면 구글도 Gemini라는 걸 갤럭시24와 같이 연계해서 온디바이스 구현을 했잖아요.

그런데 Gemini도 클라우드에서 돌아가는 빅 모델이 있고 그다음에 온디바이스로 돌아가는 sLLaMA라는 조그마한 모델도 있습니다, 마이크로모델도 있고요. 그다음 얼마 전에 한국 방문했던 마크 저커버그의 메타도 LLaMa 중에서도 sLLaMA 같은 걸 오픈으로 개방해서 많이 사용하고 있고요.

예를 들면 온디바이스에서 통역만 하는 LLM 이 정도 사이즈는 충분히 하고요. 그러니까 GPT 4.5나 이런 모든 걸 다 하는 LLM이 아니라 예를 들면 통역만 잘해 주는 LLM이라든지 아니면 특정한 분야의 법률 서비스만 잘해 주는 LLM이라든지 이런 거로는 이 정도 사이즈로도 충분히 구현을 할 수 있기 때문에 굉장히 의미 있는 시도다, 그렇게 보여주시면 될 것 같아요.

<답변> (유회준 카이스트 교수) 감사합니다.

<질문> 저 한 가지만, 이어지는 질문이라, 그게. 방금 질문하신 내용에서 그러니까 추가로, 그러니까 이게 시장에서, 그러니까 학계에서 논문을 발표하고 나면 예를 들어서 특허라든가 아니면 무슨 저작권이라든가 이런 것들이 삼성이나 하이닉스나 엔비디아 쪽에서 어떤 식으로 채택이 되고, 또 그게 재산이 되는지 그런 것 좀 궁금하네요.

<답변> (유회준 카이스트 교수) 사실 온디바이스 AI를 가장 많이 이야기하고 있는 곳이 삼성이거든요. 삼성에서 많은 관심을 보이고 있고요. 사실 이거는 아니지만 4~5년 전에 저희가 만든 모델이 있었습니다. 그 모델은 삼성에서 특허를 사 갔었습니다. 그러니까 그런 식의 협업도 있고요.

그리고 또 저희가 PIM, PIM 허브 말씀드렸었는데 PIM 허브에 삼성에서 사실 사람들이 나와서 같이 연구하고 있습니다. 그래서 그런 것들을 통해서도 또 협력이 가능하고요. 다양한 협력 방법이 있을 거라고 생각을 하는데, 온디바이스 AI를 삼성에서 너무 이야기를 많이 해놓았기 때문에 저희하고 이야기를 긴밀하게 하고 있습니다.

<답변> (윤두희 과기정통부 정보통신산업정책과장) 굉장히 빅뉴스를 주셨는데요. 제가 아까 그래서 모두에 여러분께 화두로 던진 게 'Attention is all you need라는 논문을 아십니까?'라고 한번 여쭤본 거예요. 그게 트랜스포머라는 AI 모델을 구글의 엔지니어들이 개발한 거거든요. 2017년에 논문으로 발표가 됐는데요.

실제로 그거로 재미를 본 기업이 바로 오픈 AI입니다. 그러니까 챗GPT가 그거를 활용해서 거대 모델을 만들어서 세상을 바꿔 놓지 않았겠습니까?

그래서 아까도 처음 브리핑 서두에서 말씀을 드렸듯이 오늘 발표하는 논문이 뉴로모픽이 꼭 온디바이스로만 하는 건 아니라고 봅니다. 먼저 온디바이스에 갈 수 있고요. 그다음에 더 확장이 된다면 충분히 서버용으로도 가서 GPT 4.5, 5.0도 저는 가능하다고 봅니다. 그러려면 정부가 지원을 많이 해드려야 되지 않을까 싶네요.

<답변> (유회준 카이스트 교수) 특히, PIM하고 같이 합치면 더 좋은 성능이 나올 거라고 생각하고 있습니다.

<질문> 개인적으로 김상엽 박사님 향후 진로가 어떻게 되는지 궁금합니다.

<답변> (유회준 카이스트 교수) 교수를...

<답변> (김상엽 카이스트 박사) 교수나 아니면 회사나 이렇게 고민하고 있습니다.

<질문> 삼성 가시는 거 아니에요?

<답변> (김상엽 카이스트 박사) 고민 좀 해 보겠습니다.

<답변> (사회자) 그럼 공식적인 브리핑은 마치도록 하겠습니다. 여기 앞에서 시연하도록 하겠습니다.

<끝>

이전다음기사 영역

하단 배너 영역

지금 이 뉴스

추천 뉴스