국내 최고의 인공지능 전문가 최승진 포항공대 교수가 머신러닝과 딥러닝의 작동 원리와, 우리 지방자치단체에서도 활용해 보면 좋음직한 세계적인 수준의 인공지능 기반 서비스를 소개한다.
자료 최승진 포항공과대학교 컴퓨터공학과 교수
인공지능의 가장 단순한 개념은 자동화 기계다. 이는 고대 그리스 신화에서부터 중국의 《삼국지연의》 등에서도 쉽게 찾을 수 있는데, 이렇듯 인공지능에 대한 인류의 관심은 상당히 오래되었다고 볼 수 있다.
전자계산기의 초기 모델이 개발된 1950년대부터는 인공지능에 대한 본격적인 연구가 시작되었다. 그러나 초창기의 낙관적인 기대와 달리 인공지능은 다른 전산 분야에 비해 상당히 더디게 발전되었다. 2000년대 이후에야 다양한 형태의 데이터(텍스트, 자연어, 이미지, 동영상 등)를 활용해 인공지능의 세부 문제를 해결하는 머신 러닝(Machine Learning)이 높은 정확도를 제공함에 따라 인공지능 연구의 주류로 대두되었다.
머신러닝이 성공할 수 있는 까닭은 크게 두 가지였다. 첫째로는, 인터넷이 등장하고 IT기기 산업이 폭발적으로 성장함에 따라 다양한 형태의 데이터를 쉽게 얻을 수 있는 환경이 구축되었다. 대부분의 머신러닝 알고리즘(문제 처리 프로세스)은 경험적·이론적으로 데이터의 양이 증가함에 따라 성능 향상이 이뤄진다. 그래서 더 많은 데이터를 쉽게 얻을 수 있는 환경은 머신러닝 성공의 주요한 역할을 수행을 가능케 했다.
또한 2000년대 이후 다양한 통계적 방법이 널리 활용 되기 시작했다. 이 때문에 통계적 머신러닝(Statistical Machine Learning)이 인공지능의 주요한 축을 이뤘고, 다양한 관련 모델이 개발되어 현재에 이르렀다. 한편으로 2000년대 중반 이후 딥러닝(Deep Learning)에 대한 연구는 기존의 인공지능 프로세스라고 할 수 있는 인공신경회로망을 더욱 발전시켜 왔다. 이로 인해 지난 2~3년간 우리는 인공지능의 괄목할 만한 성장을 볼수 있었다.
머신러닝(Machine Learning)이란?
머신러닝은 인공지능의 한 연구 분파로 수많은 빅데이터 속에 내재된 패턴, 규칙, 의미 등을 컴퓨터가 스스로 학습할 수 있는 알고리즘 연구 분야를 뜻한다. 머신 러닝이 적용된 컴퓨터라면, 음성이나 이미지, 영상, 각종 바이오 센서 등을 이용해 수집된 모델을 학습하고 데이터의 숨겨진 패턴을 파악할 수 있다.
데이터는 데이터를 참조하고 분류해 주는 라벨(label)이 존재할 수도, 존재하지 않을 수도 있는데 이같은 데이터의 형태에 따라서 머신 러닝은 좀 더 세부적으로 구분 되기도 한다. 그러나 라벨이 존재하는 데이터를 확보하는 것, 혹은 데이터에 라벨을 ‘붙이는’ 작업에는 사람들의 많은 수고가 필요하고 비용이 많이 들기도 한다. 때문에 머신러닝 분야에서는 사용 가능한 많은 양의 라벨 없는 데이터를 적은 양의 라벨 있는 데이터와 같이 이용하는 방법이 개발되어 오기도 했다. 확실한 것은 머신러닝 연구는 오늘날에도 진화하고 있다는 것으로, 머신러닝의 주요한 연구 목표는 ▲다양한 데이터의 패턴을 파악할 수 있는 모델을 학습하는 알고리즘을 개발하는 것과 ▲학습된 모델을 기반으로 실생활에 유용한 어플리케이션(프로그램)을 개발하는 것으로 요약할 수 있다.
딥러닝(Deep Learning)이란?
딥러닝은 인공신경망으로 표현되는 데이터 처리 프로세스를 활용해 데이터의 고차원적인 특징을 추출하는 알고리즘을 연구하는 분야다. 딥러닝은 데이터의 고차원적인 특징을 효과적으로 추출하기 때문에 기존 인공지능 알고리즘보다 다양한 프로그램에서 높은 정확도를 제공한다.
기술의 발달은 딥러닝의 성공을 가져왔다. 예를 들어 음성인식 분야의 경우, 2010년 이후 딥러닝에 기반한 알고리즘이 기존의 알고리즘에 비해 높은 성능을 제공해오며 대세로 굳어졌다. 딥러닝의 성공으로 인공지능의 단어인식 오류율이 25%에서 20% 미만으로, 현재는 10% 미만으로까지 현저히 줄어들었다. 2012년 개최된 ‘이미지 분류 경진대회’에서도 딥러닝 프로세스인 딥컨벌루션 네트워크가 기존 방법들을 물리치고 탁월한 성능을 보인 이후, 몇 년 동안 경쟁자가 없는 채로 유아 독존(唯我獨尊)하고 있다.
이 같은 머신러닝과 딥러닝에 기반한 인공지능은 대중적으로 잘 알려지지 않았지만 IT업계와 기업에서 차세대 화두로 자리잡으며 다양한 서비스를 론칭하는 계기가 됐다. 지자체에서도 활용해 봄직한 기술 서비스를 소개해 본다.
구글(Google) 텐서플로우(TensorFlow)
텐서플로우는 구글에서 개발한 머신러닝 플랫폼으로 다양한 하드웨어 환경에서 인공신경망 모델을 쉽게 생성하고 학습할 수 있는 인터페이스를 제공한다. 텐서플로우는 데이터의 흐름 그래프를 이용해 수치를 계산하는 오픈 소스 기반 소프트웨어 라이브러리로, 사용자는 최근 범용화되고 있는 맥 OS X나 리눅스(Linux) 등 유닉스 계열 OS가 설치된 컴퓨터에서 텐서플로우를 다운로드 받아 실행할 수 있다.
텐서플로우를 활용하는 사용자는 이를 통해 인공지능 모델을 제작하는 데 필요한 자세한 하드웨어 조작에 신경을 쓰지 않아도 되며 인공지능의 핵심인 인공신경망 모델 구성에만 역량을 집중할 수 있다. 이를 통해 사용 자는 생산성의 향상을 꾀할 수 있다. 텐서플로우는 무료로 제공되며 누구나 사용가능하기 때문에 다양한 기업체에서 텐서플로우 기반의 머신러닝 알고리즘을 활용한 프로그램을 쉽게 개발할 수 있다. 현재 구글의 다양한 소프트웨어 제품 중 텐서플로우 기반의 인공지능 알고리즘을 적용한 제품만 해도 50개가 넘는다고 한다.
마이크로소프트(Microsoft)의 아주어 (Azure)
마이크로소프트의 아주어는 포춘(Fortune)지 선정 500대 기업 중 57% 이상이 사용하고 있는 클라우드 서비스의 명칭이다. 마이크로소프트는 아주어의 고객을 대상으로 머신러닝을 알고리즘을 효과적으로 활용해 데이터를 분석할 수 있는 서비스를 제공한다. 구글의 텐서플로우와 달리 유료 서비스이지만 머신러닝을 전혀 모르는 사람들도 쉽게 사용할 수 있도록 시각화(GUI 기반)해서 머신러닝 알고리즘을 테스트할 수 있도록 했다.
텐서플로우의 경우 인공신경망을 중심으로 개발된 단적인 서비스만 제공하는 반면 아주어는 여기에 데이터 전처리와 결과 시각화 등도 손쉽게 할 수 있도록 프로그램을 덧붙였다. 이를 통해 기업은 어디서든, 어느 컴퓨터 에서든 접근할 수 있는 클라우드 기반의 인터넷 저장소에 더해 저장된 수많은 빅데이터를 효율적으로 활용할수 있게 됐다. 또한 사물인터넷(IoT) 기반의 서비스를 활용하는 지능형 제품 및 서비스를 구축할 때 데이터 연동에 도움을 받을 수도 있게 됐다.
아마존(Amazon) 머신러닝(Machine Learning)
아마존의 머신러닝 서비스 또한 마이크로소 프트의 아주어와 유사하게 모든 사용자가 손쉽게 머신러닝 알고리즘을 활용해 데이터를 분석할 수 있는 서비스다. 사용자들은 아마존 머신러닝을 사용해 콘텐츠를 개인화하고 문서를 분류하며, 데이터의 문제를 탐지하고, 이를 통해 다양한 예측을 할 수 있다.
특징적으로 아마존은 사용자들이 데이터 공학과 머신러닝 알고리즘을 이해하는지 여부에 상관없이 해결해야 하는 비즈니스 문제를 파악할 수 있도록 개발됐다.