데이터 댐, 대규모 수문을 개방하다

[한국판 뉴딜 10대 대표과제] ①데이터댐

2021.06.22 문용식 한국지능정보사회진흥원(NIA) 원장

글자크기 설정

문용식 한국지능정보사회진흥원(NIA) 원장

7월이면 디지털 뉴딜 사업이 추진된 지 만 1주년을 맞는다. 정부는 코로나 경제위기 극복과 4차산업혁명 시대의 선도국가를 목표로 국가적인 역량을 총동원해 디지털 뉴딜 사업을 추진하고 있다.

디지털 뉴딜의 대표 사업은 데이터 댐 구축이다. ‘인공지능 학습용 데이터 구축’은 그중에서도 시그니처 사업이다. 디지털 뉴딜 1주년을 앞두고 뉴딜을 상징하는 대규모 사업의 결과물이 드디어 개방되기 시작했다.

8개 분야 170종, 4억8000만 건의 인공지능 학습용 데이터가 6월 말까지 순차적으로 개방된다. 이 데이터는 해외 데이터 셋과 비교해도 뛰어난 경쟁력을 가지고 있다. 음성, 텍스트, 이미지 등의 규모에서 글로벌 최고 수준이다. 특히 이미지 데이터의 경우 압도적이다. 세계적으로 유명한 이미지넷이 약 143만 장의 이미지 데이터를 축적, 공개하고 있는 데 비해 우리 AI 허브의 데이터는 약 1억 4000만 장의 규모를 자랑한다.

디지털 뉴딜의 첫 제안자이자 기초 설계자로서 디지털 뉴딜의 목표는 두 마리 토끼를 잡는 것이라고 얘기한다. 하나는 일자리 창출이고, 다른 하나는 혁신 성장의 토대 구축이다. 인공지능 학습용 데이터 구축 사업은 이미 두 마리 토끼를 잡는 데 성공했다. 특히 데이터 가공에 크라우드소싱 방식을 채택해 4만여 명의 일자리를 창출했다. 그중 61%가 취업 준비 청년, 경력단절여성, 실업자 등 고용 취약계층으로 코로나발 일자리 위기 극복에 크게 기여했다.

동시에 인공지능 학습용 데이터 구축사업은 모든 산업의 디지털 전환을 촉진하는 촉매제 역할을 하고 있다. SI 용역사업 위주로 기반이 취약했던 국내 소프트웨어 기업들이 AI, 데이터 전문기업으로 변신하고 있다. 이 중 의료산업의 변화는 주목할 만하다. 우리나라 대형병원이 가진 양질의 의료 데이터, 뛰어난 의료진, AI 전문기업의 기술력 등 3박자가 어우러져 의료 AI 생태계 구축의 전환점이 만들어지고 있다. 데이터를 기반으로 대형병원마다 고유의 AI 진단모델이 만들어질 것이다.

데이터의 생명은 품질에 달려 있다. 데이터의 품질이 곧 인공지능 서비스의 신뢰성과 안전성을 좌우한다. 이를 잘 알기에 데이터 구축 전 과정에 걸쳐 품질관리 체계를 구축했다. 사업 협약부터 최종 마무리, 추가검증에 이르기까지 사업수행기관, 품질관리 전문기관, 감리기업, 데이터 활용 전문기업이 총동원됐다.

데이터의 다양성, 정확성, 유효성이라는 3가지 기준을 잣대로 글로벌 수준의 품질검증을 수행했다. 데이터 다양성의 경우 데이터의 윤리적 편향성에 대한 철저한 검토 과정을 거쳤다. 이러한 체계적인 품질검증 과정 덕분에 인공지능 학습용 데이터는 본격 개방 전에 산업계, 연구계, 학계를 아우르는 데이터 활용성 검토 과정에서 긍정적인 평가를 받을 수 있었다. 한편 이용자가 학습용 데이터를 만나는 최초의 접점이 AI 허브 플랫폼이다. 데이터의 활용도를 높이기 위해서는 AI 허브의 성능, 안정성, UI 개선, 검색 기능 개선도 빼놓을 수 없는 과제라 하겠다.

데이터는 구축보다 활용이 중요하다. AI 데이터를 활용한 기업의 서비스들이 이를 잘 보여준다. ‘한국어 대화 데이터’를 활용한 네이버의 ‘CLOVA AI Call’의 경우 AI 허브의 데이터를 통해 모델의 성능과 서비스 품질을 동시에 향상했다. KT는 광주 지역의 시니어 돌봄 서비스 개발을 위해 전라도 방언 발화 데이터를 활용했는데, 음성인식 성능이 10% 이상 향상되는 성과를 거뒀다. KAIST와 국립암센터는 한국인 헤어스타일 이미지, 유방암 조영술 이미지 등의 데이터를 활용한 연구 논문을 국제 학술지에 발표했다. 한국어, 한국인 헬스케어 등 ‘한국인 특화 데이터’는 해외 데이터 셋에서는 구하기 힘들다. 한국 고유의 데이터를 활용한 AI 서비스 개발사례는 인공지능 학습용 데이터의 필요성을 잘 보여준다.

데이터 품질에서 100%는 없다. 이런 점에서 데이터 개방은 마침표가 아닌 시작점이다. 지금 내놓는 데이터는 알파 테스트를 마친 0.9 버전이라 할 수 있다. 1.0 버전은 데이터 전문기업과 개발자들의 베타 테스트 과정을 거쳐 차차 만들어질 것이다. 인공지능 학습용 데이터는 국민의 기획으로 시작해 국민의 참여로 완성된다. 양질의 인공지능 학습용 데이터는 세계적인 수준의 AI 기술 개발, AI 모델 정교화, AI 서비스 개발, AI 연구논문을 낳는 밑거름이 될 것이다. 디지털 뉴딜 1주년을 맞아 이미 크고 작은 성과가 만들어지고 있다. 디지털 뉴딜은 대한민국이 인공지능 선도국가가 되는 데 주춧돌이 될 것임을 믿어 의심치 않는다.

공공누리가 부착되지 않은 자료는 담당자와 협의한 후에 사용하여 주시기 바랍니다.

저작권정책 담당자안내

정책칼럼, 이슈인사이트의 저작권은 원작자에게 있습니다. 전재를 원할 경우 필자의 허락을 직접 받아야 하며, 무단 이용 시

저작권법 제136조

에 따라 처벌될 수 있습니다. 아울러 외부 정책칼럼·이슈인사이트 내용은 기고자 개인의 견해로 정부의 정책 방향과 다를 수 있음을 알려드립니다.