1. 데이터 개요

4차 산업혁명은 정보통신 기술(ICT)의 융합으로 이루어지는 차세대 산업혁명이다. 18세기 산업혁명 이후 네 번째로 중요한 산업 시대이다. 디지털 기술의 발전으로 기존과 차별되는 기술 혁신 로봇공학, 나노기술, 양자컴퓨팅, 생명공학, IoT, 3D 인쇄 및 자율차량과 같은 기술이 4차 산업의 핵심이다.

1차 산업혁명 2차 산업혁명 3차 산업혁명 4차 산업혁명
증기기관 기반의기계화 혁명 전기 에너지 기반의 대량생산 혁명 컴퓨터와 인터넷 기반의 지식정보 혁명 빅데이터, AI, IoT 등의 정보기술 기반의 초연결 혁명

4차 산업혁명의 기본 인프라의 근간에는 데이터, 네트워크 및 인공지능이 있다. 근래에는 이를 통칭하여 ‘DNA(Data, Network, AI)’라고 부르곤 한다. DNA에는 4차 산업혁명을 순조롭게 진행하려면 다양한 데이터를 빠른 네트워크로 수집하여 인공지능을 잘 적용해야 한다는 의미가 담겨 있다. 결국, 4차 산업혁명은 데이터에서 시작되며, 그러하기에 데이터가 4차 산업혁명의 기초라고 불리고 있다. 이에 따라 최근 정부 기관을 비롯한 각 기관과 기업에서 데이터를 적극적으로 활용하고자 데이터 공개와 판매가 활발히 이루어지고 있다. 그러나 수많은 데이터가 개방되어 거래되고 있음에도 정작 데이터 이용자는 쓸 만한 데이터가 부족하다고 말하고 있다.

 

  1. 데이터 가공과 정제 개념 잡기

데이터를 활용하려면 데이터 수집, 가공 및 분석, 활용의 전 과정이 유기적으로 연계되어야 한다. 여기서 데이터 정제 및 가공이란 수집된 데이터를 정리하고 표준화하며 통합하는 일련의 과정을 뜻한다. 데이터를 분석하기 전, 분석에 적합한 데이터를 만드는 사전처리 전반을 일컫는다고 할 수 있다. 데이터 분석은 우리가 매일 먹는 밥이 만들어지는 과정과 같다. 밥을 만들어 먹으려면 우선 쌀을 상점이나 마트에서 구해야 한다. 아니라면 볍씨를 심고 모내기하고 여러 과정을 거쳐서 쌀을 구해야 한다. 글이나 말은 쉽지만 쌀을 생산하는 일은 전문성과 노고가 필요한 작업이며, 이 과정이 없으면 우리는 밥을 먹을 수 없게 된다. 더 나아가서 맛있는 쌀을 구하기 위해서는 좋은 볍씨(원천 데이터 수집)가 있어야 하며, 물관리 및 제초제 등의 꾸준한 관리(데이터 정제)가 필수적으로 선행되어야 한다. 마지막으로 수확 작업(데이터 가공)을 통해 우리에게 쌀로 오게 된다.

정부는 2019년 12월 ‘인공지능(AI) 국가전략’을 발표하고 인공지능 강국으로 도약하는 것을 목표로 비전과 실행과제를 발표하면서 인공지능과 빅데이터를 기존 산업에 결합하여 육성한 스마트 산업을 통해 새로운 성장을 도모하고 있다. 특히, 공공기관이 보유한 공공 데이터를 전면 개방하는 한편, 자율주행, 스마트시티 등의 AI활용을 활성화하기 위한 공공 데이터를 적극적으로 발굴하는데 정책적 노력을 기울이고 있다. 이러한 정책 기조를 통해 이전보다 훨씬 많은 양의 데이터가 수집, 생산되었으며, 특히 비정형 데이터(사진, 동영상, 음성 등)가 증가 되었다.

비정형 데이터는 미리 정의된 데이터 모델이 없거나 정형화된 방식으로 정리되지 않는 정보를 뜻하는데, 이러한 정보를 활용하려면 다양한 사전 처리(preprocessing)가 필요하다. 자동차 번호판을 인식하려면 자동차를 찍은 사진에서 번호판 부분만을 따로 잘라낸다든지, 얼굴을 인식할 때 얼굴을 가린 모자나 머플러는 삭제하고 얼굴 부분만 추출해야 원하는 기능을 제대로 수행할 수 있다. 이처럼 사진, 동영상, 음성 등에서 우리가 관심을 가지고 분석할 대상을 추출하는 작업을 정제라고 하며, 추출된 정보를 효율적으로 분류하기 위해 주석을 부여하는 작업을 라벨링(labelling)이라고 한다. 인공지능 자체는 사람의 개입 없이 컴퓨터에 의해 구현되어야 하지만, 자동화된 인공지능의 알고리즘을 구축하려면 많은 양의 비정형 데이터를 사람이 직접 가공(annotation)해야 한다.

정부는 2020년 7월 ‘디지털 뉴딜’의 대표 과제인 ‘데이터 댐’사업을 본격적으로 시작했다. 데이터 댐을 구성하는 핵심 사업 중 가장 중요도와 비중이 높은 것은  ‘AI학습용 데이터 구축사업’이다. 총 2만2천명의 고용이 창출되며 대부분이 비정형 데이터 가공 및 정제에 투입된다.

이뉴스투데이 http://www.enewstoday.co.kr/news/articleView.html?idxno=1436513

Recent Posts