화면에서 보시는 대로 표정 변화에 따라 감정의 변화를 읽어내고 있습니다. 빨간색은 흥미, 녹색은 동의, 파란색은 집중 등으로 얼굴표정을 이렇게 저렇게 변화시키는데 따라서 즉각적으로 사람의 감정을 읽어냅니다.
카메라로 사람의 얼굴을 보면서 사람 얼굴에 나타나는 입이나 눈이나 눈썹 등 주요 특성들(key features)이 어떻게 변하는지 관찰합니다. 여러 동작이 동시에 일어나기도 하는데, 예를들어 고개를 끄덕이며 미소를 짓는것은 동의를 의미하는데 이런 모든 것을 컴퓨터가 이해한다고 합니다(실제로 리포터가 웃으며 고개를 끄덕이자 녹색의 동의 그래프가 증가합니다).
사람의 감정 412가지
심리학자들은 컴퓨터가 배워야 할 412가지의 감정을 찾았다고 합니다. 이 얘기를 듣고 보니 내가 그렇게나 다양한 감정을 갖고 있는지 의문이 들기도 합니다. 기쁨, 슬픔, 분노, 우울, 행복.... 기껏 단어 5개 쓰고 생각이 안나는데 412가지라니요. 결국 컴퓨터가 사람보다 더 많은 정보를 읽어낼 것이라는 것은 여기서도 예외가 아닌것 같습니다.
표정 별 특징을 읽어내는 챨스
사람이 입을 벌리는 이유는 크게 두 가지라면서 하나는 놀랄 때 이고 하나는 불쾌할 때라고 설명합니다. 이 두 가지 표정 변화에서 입 주변의 색이 다르기 때문에 컴퓨터가 이걸 읽을 수 있다고 설명합니다. 생각해 보니 놀랄 때는 아무래도 입을 아래위로 벌리게 되고 입 안의 혀 등 뭔가 분홍 빛 물체가 많이 보일 것이고, 불쾌할 때는 아무래도 입을 다문채로 좌우로 길게 벌리고 이가 드러나서 하얀색이 많이 보이게 됩니다. 사람의 표정이 패턴으로 읽힐 수 있는 겁니다.
컴퓨터가 점점 사람에 가까워지고 있다고 얘기하면서 이렇게 사람과 공감할 수 있는 컴퓨터를 갖게 되는 것이 좋은 것일지 묻습니다.
감정을 얼굴로 표현하는 기계 챨스
챨스 라는 이름의 기계
정말 사람같이 생겼습니다. 기계라고 생각하고 보니 어색한 부분이 보이기도하지만 이 기계가 화면에서 움직이는 걸 처음 본 순간 이것이 기계라는 사실에 많이 놀랐습니다. 머리에 24개의 모터가 달린 기계라고 합니다.
사람의 얼굴에 드러난 표정 변화로 감정에 대해 학습한 챨스(기계)가 이런 저런 표정을 지으면 리포터가 그게 무슨 표정인지 맞추는 게임을 합니다. 리포터는 챨스의 표정을 보고 고통스러워 하는 것 같다, 좌절하는 것 같다, 뭔가 역겨워 하는 것 같다는 등의 의견을 냅니다. 어떤 부분에서는 기계와 인간이 공감을 형성하고 어떤 부분에서는 서로가 공감대를 형성하는 데 실패합니다. (역겨워 하는 것 같다고 했는데 사실은 오만한 표정을 지은 것이라는 군요.) 챨스와 감정적으로 소통하는 것이 쉽진 않았지만 미래 어느 날엔가는 이런 일이 가능하지 않을까, 하면서 마무리 합니다.
감정도 패턴이다?!
감정 표현과 같이 우리가 그동안 감성적이고 기계로 측정하기 어렵다고 생각했던 영역들 조차 점점 기계가 읽을 수 있는 패터을 가지고 있음이 드러나고 있습니다. 이런 것의 대표적인 영영은 예술일 텐데요. 예를 들어 사람은 특정 음악을 들으며 슬픔, 기쁨, 희망 등을 느끼고 이런 감정을 많은 사람들과 공유합니다. 사람의 표정에서 특정한 패턴이 발견되고 그것을 컴퓨터가 읽어 내듯이, 음악에도 감정에 따른 패턴화 가능한 소리의 파형이 존재하고 그것을 컴퓨터가 읽을 수도 있지 않을까, 라는 생각을 하게 됩니다.
베타테스트 신청해 놓은지 6시간 정도 후에 확인 메일이 왔습니다. 들뜬 마음으로 "그림을 쓰러"가서 30분 정도 그림을 "써" 봤습니다. 일단 결론부터 말씀드리자면, 굉장히 실망스러운 동시에 내가 이정도라도 그림을 그려낸게 어딘가 하는 희망도 갖게 됩니다. 아직 표현이 안되는 것이 더 많지만 어쨌든 사물의 이름, 색깔, 거리, 크기, 방향 등에 대해서 언어로 표현하면 이것을 그림으로 표현해 낼 수 있다는 점이 굉장히 고무적입니다.
개발자 Bob Coyne, Richard Sproat 콜롬비아 대학교 컴퓨터 사이언스 박사
사용해보고 나니 워낙 단순하게 작동하고 있어서 이것이 인공지능 또는 머신러닝과 관련이 있는 것인지 의문이 들어서 자료를 찾아보았는데요, 이 프로그램의 개발자 Bob Coyne은 원래 언어에 관심이 많았고, 특히 인공지능 시스템에서 언어의 예술적 표현에 관심을 가졌었다고 합니다. (기사 원문 보기)
The Creators Project: I’ve never had the chance to meet a PhD student in computational linguistics. Bob Coyne: I’ve always loved and been fascinated by language, especially the connotative/poetic/associative aspects. A single word can evoke so much and can mean such different things in different contexts. In order to understand all the possible associations you have to be able understand the more literal/prosaic meaning first. So my interest is a combination of wanting to understand how it all works combined with an interest in the artistic expression aspects of an artificially intelligent system. When I was in college I wrote some poetry-generating software… so that was the start of it. Then I worked in computer graphics for quite a while, but I found that I was more interested in pictures as language (how do they represent and connote meaning?) than in the pixilation aspects. (Similar I think to Duchamp’s position against “retinal art”).
WordsEye 논문 보기
개발자 Bob Coyne, Richard Sproat가 쓴 논문입니다. 구글 검색에서는 무려 340회 인용됐다고 나오네요. 어마어마 합니다. 논문은 2001년(?)에 쓰인 것으로 보입니다.
공동 창업자 중 한명인 다니엘이라고 하구요, 콜롬비아 내추럴 랭귀지 프로세싱 박사라고 합니다. 아마도 스타트업 펀딩을 위한 프레젠테이션인 것 같습니다. 2013년 영상입니다.
이제 실제 사용후기를 적어보겠습니다.
간단 튜토리얼
사용자 허가를 받고 나면 일단 그림을 "쓸" 때 어떻게 쓰면 좋을지에 대한 팁을 알려줍니다. 뭐라고 써야 기계가 알아듣고 그림으로 그려줄 수 있는지에 대한 설명입니다.
화면 오른쪽에 보시면 포지션, 컬러 앤 텍스쳐, 뷰 포인트 등등 표현할 수 있는 여러 항목 들이 나와 있습니다. 그리고 각각의 항목에 대해서는 아래와 같이 표현하라고 예제가 나옵니다.
이 그림 왼쪽에 보시면 the dog is one foot to the right of a couch 라고 적혀 있고, 실제로 개가 소파 오른쪽에 1미터 떨어져서 그려졌습니다.
예제 학습을 마치고 그림을 그리는 단계로 넘어가면 위 그림처럼 여러가지 템플릿이 나열되어 있고 이것을 기반으로 그림을 그릴 수 있도록 되어 있습니다.
저는 어차피 처음 해보는 거라서 템플릿 없이 처음부터 그려보기로 했습니다. 아주 간단한 문장을 써봤습니다. a man ride a car 라고 적었더니 아래와 같은 그림이 나옵니다. 사람이 차를 타고 있긴 한데, 우리가 생각하는 방식과는 조금 다르게 타고 있습니다. 사이트 설명이나 개발자들이 얘기하는 뉘앙스로는 이런 장면이 사용자들에게 유머로 받아들여질 수 있다고도 생각하는 듯 합니다.
어쨌든 다른 문장들도 몇 개 시도해 보았습니다만 영어가 서툴러서 자꾸 에러가 났습니다. 그래서 남들은 어떻게 그렸는지 보기로 했습니다.
the dog is leaning 40 degrees to the right. the cat is leaning 30 degrees to the left. the cat is right of the dog. the dog is 10 inches above the ground. the cat is 8 inches in the ground. the ground has a sand texture. the yellow light is above the dog.
The police officer is in front of an elephant on a street in the desert.
the shiny tan skull is 12 inches in the athlete. it is 14 inches tall. the small rainbow is 50 feet behind the athlete. the grim reaper is next to the athlete. the tall [da vinci] desert. the 15 foot tall mirror is 3 feet in front of the athlete. it is facing the athlete. it is 5 feet in the ground. the pane of the mirror is dark blue. the yellow light is in front of the grim reaper. the cyan light is in front of the athlete. the grim reaper is standing on ten small skulls
A yellow translucent cube is 5 feet tall. A red translucent cube is 5 feet tall. The red cube is 2.5 feet in the yellow cube. The red cube is -2.5 feet left of the yellow cube. A sky blue translucent cube is 5 feet tall. It is 2.5 feet in the red cube. It is -2.5 feet left of the red cube. A chartreuse translucent cube is 5 feet tall. It is 2.5 feet in the sky.
위에 표현들을 보시면 아시겠지만 생각했던것 보다 굉장히 제한이 많았습니다.
동사는 아직...
가장 큰 아쉬움 중 하나는 동사에 대한 표현이 아직 안된다는 것이었습니다. "사람이 있다"는 표현할 수 있지만 사람이 뛰고 있다, 사람이 걷고 있다 등등의 표현은 아직 표현할 수가 없습니다.
거리, 크기, 각도 등은 비교적 만족
거리, 크기, 각도와 같이 수치화 할 수 있는 것들에 대해서는 비교적 쓰는 것도 수월했고 이것이 반영되어 나오는 그림도 그런대로 만족스러웠습니다. 몇 미터 옆에, 몇 미터 뒤에 등 거리와 관련된 문장이나 비행기의 크기가 몇 미터다 등과 같은 사이즈에 관련한 표현은 생각보다 쉽게 할 수 있었습니다.
색 표현 등은 아직 너무 단순
노랑 파랑 빨강 등 색을 지정할 수는 있지만 아직 다양하게 표현하는데는 어려움이 있었습니다.
디테일 등에서 아직 부족
사람의 옷이라던가 헤어 스타일 등 좀 더 세밀하게 표현하는 것은 아직은 상당히 거리가 있어 보입니다.
내가 그린 그림
원래 제가 그리고 싶었던 것은 "차 안에 사람이 타 있고, 그 사람이 창 밖으로 손을 흔들고 있다" 였는데요, 한 두 문장 써보고 나서 정신 차렸습니다. 지금 상태에서 표현가능한 것들을 해 보았구요, 어쨌든 문장을 써서 아래 그림을 그렸습니다. 매우 제한된 표현임에도 불구하고, 그림의 절대적 퀄리티는 보는 사람에 따라 매우 낮게 평가할 수도 있겠지만, 저 같은 그림치가 이 정도의 그림을 그려 냈다는 점에서는 놀라운 일이기도 합니다.
이 그림을 그리기 위해서 이런 문장을 써야 했습니다.
a red car on the ground. a yellow bike is 2 meter left of the car. bike is facing right. a blue motorcycle is 2 meter left of the car. motorcycle is 1 meter behind the car. an airplane is 3 feet above the car. airplane is 5 meter long. airplane is leaning 30 degree to the left. a snow mountain is 50 feet behind the car. it is dawn. an eagle is 1 meter left of the airplane. eagle is facing right. eagle is 2 meter above the car. eagle is leaning 30 degree to the right. eagle is 3 meter long. a building is 5 meter left of the mountain. a tiger is 2 meter right of the car. tiger is 3 meter long. rainbow is 2 meter behind the building. man is 1 meter left of the bike. man is facing 10 degree to the right. a blue circle is 2 feet tall.
각 사물의 크기는 실제 사물의 크기에 따라 적용되었습니다. 예를 들어 차 위에 비행기를 만들었더니, 처음에는 비행기가 차에 비해서 상당히 크게 나왔습니다. 화면에는 비행기 그림자만 나오고 비행기 몸통은 아예 보이지 않았습니다. 거리와 크기 등을 조절하면서 화면을 배치할 수 있었는데, 다른 동사 형용사 표현이 거의 안되는 데 비해 숫자에 관련된 것은 그나마 할 수 있었습니다.
총평
갈 길이 굉장히 멀게 느껴지는 동시에 어쨌든 문장을 알아 듣고 그림으로 표현하고 있다는 사실이 놀랍기도 합니다. 결국 얼마나 방대한 그림 DB를 갖추느냐와 언어적 표현을 얼마만큼 그림 표현으로 해석해 내느냐의 문제일 텐데요, 논문에 보면 논문을 쓸 당시에 2천개 정도의 사물 DB를 갖고 있었고 추가로 1만개의 DB를 확보할 것이다라고 쓰고 있는데 지금은 어디까지 와 있는지 궁금하네요. 현 상태로는 정말 아이디어 수준에 가깝다고 느껴지는데요, 그래도 상상력을 좀 발휘해 보자면 결국 이 3D 이미지들에 에니메이션 기능이 추가 되고 동영상까지 구현할 수 있게 되겠죠? 아주 오래 걸리긴 하겠지만 말입니다.
와우. 이런 황당한 경우를 다 보게되네요. 뭐든지 글을 쓰면 그림으로 바꿔주는 프로그램을 개발중이라고 합니다. 현재는 베타테스트 중인데, 지금은 폐쇄형으로 진행하고 있습니다. 일단 회원 가입을 신청하면 그쪽에서 확인하고 초대장을 보내주는 식입니다. 저도 일단 요청했으니 초대가 오는대로 해보겠습니다.
Wordseye 라는 이름의 회사(프로그램)이구요, 어떤 것이든 그리고 싶은 것을 글로 쓰면 그것을 그림으로 변환해 주는 프로그램 입니다. 웹과 모바일을 모두 지원 계획이랍니다.
3D 이미지 아티스트 들이 자유롭게 자신들이 원하는 것을 표현할 수 있는데 비해 미술에 소질이 없는 사람들은 자신의 생각을 그림으로 표현하는데 어려움을 겪게 되는데, 이런 문제를 해결해 보고자 이 프로그램의 개발에 착수했다고 합니다.
문제해결!
인공지능 관련 자료를 찾으면서 점점 더 느끼게 되는 것이지만, 정말 이들은 '문제 해결'이라는 것을 삶에서 실천하고 있다는 느낌입니다. 샤잠의 개발자 역시 음악을 들려주면 그것이 무슨 음악인지 찾아주는 소프트웨어가 있으면 좋겠다는 생각에서 그런 프로그램을 찾아보았는데 없었고, 그럼 그냥 만들어 보자, 이렇게 해서 시작했다고 하고, 지금 포스팅 중인 워드아이의 개발자 역시 미술에 재능 없는 사람도 원하는 그림을 그리게 하는 방법은 없을까 라는 문제를 해결하기 위해 이 프로그램 개발을 시작했다니 말입니다. 이들이 성공했느냐 실패했느냐의 문제를 떠나 그들이 살아가는 태도를 통해 많은 것을 생각하게 됩니다.
힘내라 WordsEye!
일단 영상을 한번 보시기 바랍니다.
2014년 11월 영상인데, 아이디어는 알겠는데 그림의 퀄리티가 그리 높아보이지는 않습니다. 그럼 어떤까요? 점점 좋아질텐데요.
두 번째 영상입니다. 첫 번째 영상이 올라온지 무려 1년 만에 두번째 영상이 올라왔구요. 사용자 베타서비스를 시작한지 1달이 지난 상황에서 그 동안 사용자들이 만든 영상들을 소개하고 있습니다.
물체간의 거리나 물체위의 빛이나 색감에 대한 표현이 반영되어 있는 것이 놀랍기 그지 없습니다. 그림의 퀄리티를 떠나 컴퓨터가 이걸 어떻게 알아듣고 해 낸 건지 도무지 믿을 수가 없습니다. 머신 러닝, 딥 러닝의 정체가 무엇인지, 어디까지 해낼 수 있는 것인지 정말로 점점 더 그 정체가 궁금해 집니다. 그런데 정작 이 회사의 홈페이지 어디에도 인공지능이나 머신러닝, 딥러닝에 대한 언급은 없습니다.
유튜브 추천 영상에 뜬 영상을 확인해 보니 2008년에 이미 이런 영상이 올라와 있습니다.
2008년 영상이니 처음 아이디어가 나온 것은 벌써 7~8년 전인가 봅니다. 데이터베이스를 구축하는데 시간이 오래 걸린게 아닌가 하는 생각이 드네요. 이 회사의 유튜브 채널에 가면 저 위에 있는 동영상 딱 두개가 있습니다. 구독자는 딱 5명이구요. 제가 6번째 구독자가 되었습니다. 아마 내부 개발자 빼고 나면 일반 소비자는 저를 포함해서 한 두명 뿐일 것으로 보이네요. 모쪼록 지치지 않고 쭉쭉 해나가길 바랍니다!
명확한 아이덴티티!
Type a Picture, 라는 슬로건이 참 간결하고 한 번에 뭘 말하고자 하는지 이미지가 잘 잡힙니다. 마케팅 수업에서 타게팅이니 포지셔닝이니 브랜드 전략이니 갖가지 스킬들을 가르치고 배우고 있습니다만, 역시 그 서비스가 왜 태어났는지, 어떤 문제를 해결하고자 했는지가 분명하면 모든 것이 자연스럽게, 게다가 간결하게 풀리나 봅니다. Type a Picture라는 짧은 슬로건 안에 뭐하는 회사인지 어떤 서비스를 제공하고자 하는지 너무나 분명한 아이덴티티가 느껴져서 좋습니다.
기술에 대하여
기술에 대해서는 다음과 같이 설명해 놓았습니다.
WordsEye is cutting-edge technology that works by parsing text input into a semantic representation which is then rendered as a 3D scene. This process relies on a large database of linguistic and world knowledge about objects, their parts, and their properties. A set of 2D image filters can be applied to any scene to add a painterly or illustrated look. WordsEye is a web application that requires no special software or plug-ins. All computation is done on our robust and scalable cloud infrastructure. High-quality images are produced using raytracing on state-of-the art GPU hardware.
언어와 사물, parts, properties에 대한 거대한 데이터베이스에 기초해서 언어를 3D 이미지로 바꾸는 최신의 기술이라고 소개하고 있습니다. 어떤 플러그인도 필요없이 웹에서 구동될수 있고 클라우드에서 돌아가구요. GPU 하드웨어 성능에 따라 이미지의 레이트레이싱 품질이 결정된다고 하네요.
기사 번역(TNW 뉴스)
이 프로그램의 개발은 이렇게 이루어졌다. 3D 이미지 아티스트들은 그들이 원하는 모든 것을 만들어낼 수 있는 반면에 나머지 사람들은 할 수 없다는 데서.
WordsEye는 예술가가 아닌 사람들이 그들이 사용하는 모국어를 통해서 3D 이미지를 만들수 있는 길을 열었습니다. 사용자들이 해야할 일이라고는 그저 그들이 보고 싶은것이 무엇인지에 대해 얘기하는 것 뿐입니다.
사용자들은 프로젝트를 위한 업무용 이미지부터 그냥 친구들과 놀이삼아 재미로 그려보는 것 까지 무엇이든 할 수 있습니다.
WordsEye 에서 만든 그림은 앱 갤러리에 저장할 수도 있고 소셜 미디어를 통해 공유할 수도 있습니다. 아래 이미지들이 그 예입니다.
CEO인 개리 잠칙스(Gary Zamchicks)는 이렇게 말한다.
새로운 표현 방식을 개발하는 것이 우리의 첫번째 사명이긴 하지만, 교육이나 모바일 메시징, 가상현실, 게임 등에서도 굉장히 큰 가능성을 보고 있다.
교육은 이 앱이 실질적으로 사용될 수 있는 분야중 하나이다. 새로운 언어나 읽고 쓰기 등을 가르치는데 보조 역할을 할 수 있다.
말하는 것을 태깅하거나 그 말의 문맥을 분석하는 작업의 뒤에는 기술이 숨어 있다. 통계적 해석을 통해 문장을 컴퓨터가가 이해할 수 있는 형태로 바꾸고 그것을 통해 3D 이미지를 만들게 된다.
물론 매끄러운 작업을 위해서는 언어와 사물에 대한 광대한 데이터베이스가 필요하다. 이런 것을 개선하기 위해서 사용자들이 자신의 것을 업로드 할 수 있다(users are allowed to upload their own suggestions as well).
지금 웹사이트에서 폐쇄형 베타 테스트가 진행중이다. 곧 웹 버전이 출시예정이고 iOS와 안드로이드 용도 출시될 것이다. 언제가 될지 아직은 미정이다.
유한준 님의 글 중 '디지털 컴퓨터를 처음부터 예술의 창조에 사용할 가능성을 탐구한 작가 마이클 놀(A. Michael Noll)'의 얘기를 인용한 부분이 아주 인상 깊었습니다.
“아직까지는 수단이 결과물보다 더 큰 중요성을 갖는다 .... 미래가 어떻게 되든 - 과학자들은 거의 모든 종류의 회화도 컴퓨터로 생성해낼 수 있는 시대를 예견하고 있다 - 예술가의 실체적 터치는 더 이상 예술작품을 만드는 데에서 어떤 역할도 하지 못할 것이다. 그때가 되면 모든 것은 데우스 엑스 마키나에 내맡겨질 것이다. 매체 혹은 기법과 작화의 메카닉으로부터 해방되어, 예술가들은 그저 ‘창조’만 할 것이다.”
아래는 'Algorithm art'로 검색해서 나온 Don Relyea 라는 작가의 홈페이지에 실린 작품들입니다.
15_03 11/2/2007 by Don Relyea
Exploration of Related Points Along a Space Filling Curve #2 11/2/2007 by Don Relyea
알고리즘 아트 또는 미디어 아트 영역에서는 사람 예술가가 새로운 기술을 통해 이전에는 존재하지 않았던 새로운 패턴의 예술을 만들어 내고 있습니다. 그런가 하면 인공지능으로 예술을 시도하는 사람들은 '사람과 같은 방식으로 생각하는 인공지능'을 통해 마치 사람이 하는 것과 같은 예술을 만들어 내고자 시도하고 있습니다. 전자가 새로운 패턴을 찾고자 하는 사람의 노력이라면, 후자는 인간의 패턴을 파악하고자 하는 컴퓨터의 노력이라고 할 수 있습니다. 물론 컴퓨터 뒤에 사람이 있다는 점에서 전자나 후자나 모두 같은 것으로 이해될 수도 있겠습니다만, 전자의 경우 사람이 컴퓨터를 조작하는 것이라면 후자의 경우는 컴퓨터가 스스로 생각하는 쪽에 가깝기 때문에 이 둘은 구분 지어 집니다.
제 생각입니다만, 시간이 걸리겠지만 인공지능은 인간의 창작 패턴을 파악해 낼 것이고, 궁극적으로는 인간이 새로운 패턴을 발견하는 패턴 마저 파악해서 결국에는 혁신적인 예술 장르 또는 사조를 인간에게 소개해 주는 단계에 이를 것으로 보입니다. 유한준 님의 글의 말미에는 이런 내용이 있습니다.
"예술의 기능은 이로서 변화한다. 예술은 사회에 새로움의 질을 가져다준다. 예술가들은 이제 작품의 창조자가 아니라, 예를 들어 프로그램을 위한 아이디어의 창조자다. 그의 지위도 변화한다. 저작권은 예술가와, 기술적 수단을 자신에게 제공한 사회조직 사이에서 분할된다. 예술가는 교체되는 것이 아니라 바뀌는 것이다. 그는 프로그래머가 되어야 할 것이다."
알고리즘이 예술을 창작하는 시대에서의 저작권 문제 뿐만 아니라 예술가에 대한 정의에 이르기 까지 실로 놀라운 통찰입니다. 사실 저는 사람이 프로그래머가 되려고 하기보다 컴퓨터가 사람다워 지는 것이 더 빠르다고 생각하고 있지만 말입니다.
구글은 머신러닝과 인공지능에 최우선순위를 두고 투자를 진행해오고 있다. 구글은 인공지능을 기계를 지적으로 만드는 것으로 정의하고 있는데, 이 머신러닝은 기계 스스로 학습을 하게 함으로써 이루어진다.
구글에서 시니어 연구 과학자로 일하고 있는 그레그 코라도는 머신러닝은 컴퓨터가 예제들을 통해 배우도록 프로그램을 짜는, 컴퓨터 프로그래밍의 새로운 형태라고 얘기한다. 이것은 딥러닝과 관련이 있는데, 딥러닝은 머신러닝 모델의 강력한 방편 중 하나다. 이것은 인공신경망(artificial neural network)의 현대적 부활이자 단순하고, 훈련가능하고 수학적 기능이 모여있는 집합체이기도 하다. 또한 머신러닝의 여러 변종들과 호환된다.
그는 머신러닝은 컴퓨터가 경험과 데이터를 통해 배우게 하려는 시도였다고 설명한다. 머신러닝에서 중요한 것은 데이터, 모델, 컴퓨터 성능이다.
그는 "머신러닝은 마술이 아니다, 이것은 하나의 도구이다. 소프트웨어를 만드는 새로운 방법인 것이다" 라고 말한다.
구글에서 머신러닝과 딥러닝을 사용하는 서비스 중 하나는 gmail 스팸 분류인데, 현재 99.9%의 스팸을 걸러내는데 성공했다. 구글 포토를 이용할 경우 사람들은 태그 없이도 특정한 사람을 찾을 수 있다. 머신 트랜스레이션(machine translation)과 스마트 리플라이(smart reply) 역시 머신러닝과 딥러닝을 사용한 서비스이다.
구글은 랭크브레인(RankBrain) 검색의 질을 향상시키기 위해 머신러닝 시스템을 사용하고 있다. 랭크브레인은 구글 검색 전체의 15%를 담당하는 인공지능 시스템이다. 그렇다고 구굴의 허밍버드(Hummingbird algorithm) 알고리즘을 대체하는 것은 아니다. 랭크브레인은 사람들이 무엇을 찾는지 또 어떤 페이지를 상위에 보여주어야 하는지 등을 담당하는 시스템이다.
구글은 최근 스마트 리플라이를 출시했다. 스마트리플라이는 안드로이드와 ios에 머신러닝을 도입한 사례이다.
지메일 메일함(Gmail Inbox)는 회신이 필요한 메일을 인식하고 상황에 따라 자연스러운 회신 메일을 생성하는 머신러닝을 사용한다.
스마트 리플라이는 사용자가 이메일을 수신하는 데 따라서 세 번까지 자동응답한다. 단순하게 빨리 회신해주기만 하면 되는 메일에 반응하는데, 덕분에 사용자는 타이핑하느라 낭비할 뻔 했던 시간과 노력을 아낄 수 있다. 좀 더 생각ㅎ하고 답을 해야 하는 이메일에 대해서는 점프 스타트(jump start)기능을 제공해서 사용자가 바로 본론으로 들어갈 수 있게 해준다.
스마트 리플라이는 지난주에 구글플레이와 앱스토어에서 영어로 서비스가 시작됐다.
구글은 광범위한 소프트웨어 개발에서 머신러닝을 활용하고자 텐서플로우(TensorFlow)를 출시했다. 텐서플로우는 아주 강력한 딥러닝 기능을 내장하고 있다. 구글은 구글 앱의 음성인식이나 스마트 리플라이 구글 포토 검색 기능 등에 텐서플로우를 사용하고 있다.
패턴인식을 통해서 영상을 특정 작가의 스타일로 변환해 주는 뮤직비디오를 만드는 인공지능이 있었는데요(여기를 확인해 주세요), 이번에는 화가가 그려놓은 부분을 통해 추론을 해서 이미 그려진 그림을 확장해서 그리는 인공지능을 소개해 드립니다(여기를 클릭하세요).
YARIN GAL 이라는 사람이 개발한 것이구요, 캠브리지 대학교에서 머신러닝 박사과정중에 있다고 합니다. 구글 전액 장학생이라고 하네요.
Paintings give only a peek into a scene.
New techniques in machine learning and image processing allow us to extrapolate the scene of a painting to see what the full scenery might have looked like.
머신러닝과 이미지 프로세싱의 새로운 기술이 화폭 안에 담지 못한 화폭 밖의 풍경이 어떤 모습일지에 대해 추론할 수 있게 해준다.
그림을 클릭해 보셔서 아시겠지만, 상당히 자연스럽게 그림이 확장되네요. 감쪽같습니다. 이 그림은 엔지니어링 사진경연대회(Engineering Photo Competition)에 출품되었던 작품이고 수상도 했다고 합니다.
구글은 지난 몇 년간 이미지를 "보고" 그 이미지가 어떤 것인지를 "분류"해 낼 수 있는 인공지능을 개발해 왔습니다. 말 그대로 컴퓨터가 세상을 보고 이해하도록 학습시키는 것이죠. 사람이 개를 보면 개로 인식하고 고양이를 보면 고양이로 인식하는 것과 마찬가지로 컴퓨터가 사물을 "보는 것 만으로" 그것이 무엇인지 인지하고 분류하도록 한 것입니다.
사람에게는 아무것도 아닌 것 같은 이 일이 기계에게는 지난 몇 십년 동안 풀지 못한 숙제였습니다. 가만 생각해 보면 개나 고양이 모두 눈 두개, 다리 네개, 털이 나 있으니 컴퓨터 입장에서는 비슷하게 보일 만도 합니다. 오히려 개와 고양이가 다른 종류의 동물이라는 것을 아무렇지도 않게 분류해 내는 사람이 이상한 것인지도 모릅니다. 그런데 이제는 컴퓨터에게 "개는 눈이 두 개고 다리가 네 개이며 치와와 처럼 작고 예쁜 종도 있지만 세퍼트 처럼 무섭개 생긴 종도 있다"라고 일일이 설명하지 않아도 그저 보는 것 만으로 이것이 "개" 이구나 이것이 "고양이" 이구나 라고 분류할 수 있는 수준으로 컴퓨터의 지능이 발달했다고 합니다.
Deep Dream Generator는 이와 같은 아이디어에서 출발했습니다. 개, 고양이, 산, 자전거와 같은 사물을 보고 그 사물이 무엇인지에 대해 반복적으로 학습하여 스스로 각 사물을 분류할 수 있게 된 컴퓨터에게 처음보는 그림을 보여주고 그 그림에서 자신이 알고 있는 사물의 패턴을 찾아 내어 원래의 이미지를 자신이 알고 있는 사물의 패턴에 따라 변형시키도록 한 것입니다. 딥드림 제네레이터의 원리에 대해 더 알고 싶으신 분은 여기를 클릭해 주세요.
자, 그럼 딥드림제네레이터가 그림을 어떻게 변형시키는지 한번 시도해 볼까요? 홈페이지에 가면 누구나 무료로 해 볼 수 있으니 한 번씩 해 보시기 바랍니다.
변경 후 이미지(화면의 밑 부분과 화면 여기저기 에 이상한 모습의 괴 생명체들이 보입니다.)
변경 전 이미지
변경 후 이미지(화면의 밑 부분과 화면 여기저기 에 이상한 모습의 괴 생명체들이 보입니다.)
어떻게 보이시나요? 확실히 아직 예술적 가치를 따지기는 일러 보입니다. 그럼에도 불구하고 몇 가지 가능성에 대해서는 생각해 볼 필요가 있습니다.
단순한 필터적용 아닌가?
컴퓨터가 스스로 자기가 본 것을 인지하고 임의로 보여진 그림에서 이미 자기가 본 것과 비슷한 패턴을 스스로 찾아내어 그림을 변형시켰다는 점에서 단순한 필터 적용과는 차이가 있는 것으로 생각됩니다. 현재 포토샵이나 기타 프로그램에서 적용하는 필터는 사람이 정해진 범위 안에서 파라미터 값을 조정하여 필터를 적용하는 방식인데, 여기에는 컴퓨터가 스스로 콘텐츠를 "보는" 단계도, 스스로 자신이 갖고 있는 아이디어에 따라 이미지를 "변환"화는 과정도 들어있지 않습니다.
예술적으로 가치가 있는 것인가?
예술적으로 가치가 있는 것이냐에 대해서도 논란이 있을 텐데요. 추상화나 클래식에서 말하는 현대음악 같은 것을 떠올려 보면 어떨까요? 딱 봐서 이거다! 싶은 느낌은 없지만 어딘가 모르게 감흥을 불러일으키는 작품들도 있으니까요. 또 인간의 예술 세계에서도 작가의 의도가 감상자의 감상 방식과 정확하게 일치하는 것이 아니었다는 점도 간과해서는 안되는 포인트입니다. 우리는 때때로 작가의 의도와는 상관없이 작품을 해석하기도 합니다. 위에서 변형되기 전의 그림을 보여주지 않은 상태에서 변형된 그림만 보았다고 가정해 보시기 바랍니다. 뭔지 모르지만 어딘가 끌리는 면이 있기도 합니다.
반드시 사람이 그려야 예술이 되나?
위 문제와 연결지어 생각해 볼 수 있을 텐데요, 사실 예술이 되느냐 예술이 되지 않느냐는 누가 그렸냐의 문제라기 보다는(작가의 관점) 그것을 감상하는 사람들의 입장이 중요한 것 같습니다. 사람이 아닌 기계가 그렸으니 예술이 될 수 없다고 말하는 것은 예술은 사람만이 할 수 있는 것이라는 전제 하에서만 맞는 얘기가 되겠죠. 주체가 누구이냐의 문제 보다는 감상자가 어떻게 느끼고 판단하느냐가 더 중요한 문제일 것입니다. 혹시 위에 변형된 그림을 "제3세계 출신의 20대 초반 여성 신예 미디어 아티스트"가 했다고 가정하고 감상해 보시기 바랍니다.
결론
아는만큼 보인다고 했던가요? 동물을 알아보도록 학습한 인공지능이 세상을 볼 때 자기가 아는 방식(동물 패턴)으로 보아 냈다는 것이 참으로 감탄스럽습니다. 앞으로 여러 사물에 대한 학습을 계속해 나간다면 사람보다도 더 많은 사물을 인식하고 분류해 내는 순간을 맞이하게 될 텐데요. 그렇게 되면 사람보다 더 많은 것을 알고 있는 인공지능이 사람은 미쳐 보지 못한 세상의 패턴으로 사물을 읽어내는 날이 올 것 입니다. 그리고 인간은 그런 이미지를 보면서 어딘가 "예술적"이라고 생각하게 될런지도 모릅니다.
샤잠(Shazam)의 작동원리에 관한 글입니다. 원문은 위에 영문 제목을 클릭해 주세요.
너무 길어서 번역은 패스하겠습니다. 결론 부분이 인상적이어서 이 부분만 옮겨 보겠습니다. 결국 샤잠이 작동하는 알고리즘을 통해 무엇을 할 수 있을까에 대한 저자의 의견인데요. 이렇습니다.
-------------------------------------------------------
This kind of music recognition software can be used for finding the similarities between songs. Now that you understand how Shazam works, you can see how this can have applications beyond simply Shazaming that nostalgic song playing on the taxi radio. For example, it can help to identify plagiarism in music, or to find out who was the initial inspiration to some pioneers of blues, jazz, rock, pop or any other genre. Maybe a good experiment would be to fill up the database with the classical music of Bach, Beethoven, Vivaldi, Wagner, Chopin and Mozart and try finding the similarities between songs. You would think that even Bob Dylan, Elvis Presley and Robert Johnson were plagiarists!
이런 종류의 음악 인식 소프트웨어는 음악들 간에 유사성을 찾을 수 있게 해준다. 이 글을 읽었으니 이제 이 샤잠이 어떻게 작동하는지 알았을텐데, 이 원리를 알고 나면 그냥 택시에서 흘러나오는 음악이 뭔지를 맞추는데 샤잠을 이용하는데서 그치지 않고 뭔가 다른 것에도 응용할 수 있으리라는 것을 짐작했을 것이다. 예를들면, 이 원리를 응용하면 표절에 대해서도 확인할 수 있고, 블루스, 재즈, 락, 팝과 같은 장르를 탄생시키는데 선도적 역할을 한 아티스트가 누구인지도 찾을 수 있다. 아마도 베토베, 비발디, 바그너, 쇼팽, 모짜르트 같은 사람들의 곡으로 데이터 베이스를 가득 채우고 나서 곡들간의 유사성을 찾아볼 수도 있을 것이다. 어쩌면 밥딜런, 엘비스프레슬리, 로버트 존슨같은 사람마저도 표절을 했다고 생각하게 될는지도 모른다.
---------------------------------------------------------
이 글을 쓴 사람과 아주 비슷한 의견을 낸 사람이 있는데요, 제가 얼마전에 블로깅 하기도 했습니다. (여기를 눌러주세요) 샤잠을 통해 음악 인식 소프트웨어에 대해서 글을 쓴 사람과 그림을 인식할 수 있는 인공지능을 통해 창의력을 측정해보고자 했던 럿거스 대학교의 Ahmed Elgammal 모두 이러한 과정을 통해서 작품들 간의 유사성을 파악할 수 있을 뿐만 아니라 누가 예술사에서 기억될만큼 창의적인 작품을 내었고 그로 인해 새로운 사조를 출현시켰는지에 대해서 알 수 있을것이라 쓰고 있습니다.
음악 인식이든 그림 인식이든 간에 이제 컴퓨터가 사전에 주어진 아무런 가이드라인이 없는 상태에서 콘텐츠 간 유사성과 차이점을 구별해 내는 수준에 온 것 만은 분명한 것 같습니다. 이 글을 쓴 JOVAN JOVANOVIC 의 말대로 이제는 단순히 "이 노래의 제목이 뭐였더라?"에만 국한해서 이 알고리즘을 사용하는 것은 조금 아깝다는 생각이 드네요. 뭐가 쓰면 좋을까요...? 제보 좀 부탁드립니다.
김정희 연구원은 “딥러닝과 머신러닝(기계학습)라는 용어가 혼용되고 있지만, 머신러닝이 좀 더 큰 개념”이라며 “머신러닝의 방법론 중 하나가 딥러닝이고, 그 방법론 중 딥러닝이 가장 많이 쓰여 머신러닝과 동일시되고 있는 것”이라고 설명했다.
딥러닝의 방식은 이렇다. 과거 데이터들은 사전지식을 동원해 데이터를 분류한다. ‘귀가 뾰족하고 네 발이 보이는 사진’이라는 사전지식을 입력해 고양이 사진을 찾아낸다. 이때 고양이의 귀나 다리가 사진에서 잘 안보이면 어떻게 될까? 기계는 바로 고양이 사진이 아니라고 분류했다. 사전지식의 내용과 다르기 때문이다. 하지만 딥러닝은 이러한 사전지식을 사용하지 않는다. 일단 데이터를 넣어놓고 기계가 스스로 특성을 분류한다. 이때 무작정 데이터가 많아선 안되며, 실제로 고양이 사진을 무엇인지 알려주는 이른바 ‘정답’ 데이터도 많아야 한다.
최승진 포항공대 컴퓨터공학과 교수가 11일 시사저널·시사비즈가 주최한 AI컨퍼런스에서 강연하고 있다./ 사진 = 임준선 기자
“구글 포토 등 최근 정보기술 서비스에서 쓰이는 인공지능 기술은 딥러닝이다.”
최승진 포항공대 컴퓨터공학과 교수는 11일 시사저널·시사비즈가 주최한 AI컨퍼런스에서 최근 산업계에서 딥러닝이 주목받는 이유를 설명했다.
최 교수는 “딥러닝은 인공지능 분야에서 작은 부분을 차지하는 기술에 불과하다”면서도 “딥러닝으로 컴퓨터가 콘텐츠를 인식하는 방식이 인간과 비슷해 활용하기 좋다”고 말했다.
특히 구글 포토(Google Photos)나 옐프(Yelp) 같이 이미지를 찾아 보여주는 서비스에서 딥러닝은 유용하다. 구글 포토는 사용자의 사진 속 동작이나 물체 같은 특성에 따라 이미지를 분류해 보여주는 서비스다. 옐프는 주변 지역 식당의 대표 사진을 몇 개 뽑아 보여준다.
리얼라이프에널리틱스(RealLifeAnalytics)는 웹카메라로 사람의 얼굴을 찍어 인식한 후 나이나 직업에 맞는 맞춤형 광고를 제공한다. 하이퍼버지(HyperVerge)는 사용자가 선택한 쇼핑몰 제품 이미지를 인식해 색상이나 모양이 비슷한 제품을 보여준다.
딥러닝이란 컴퓨터가 사람처럼 생각하고 배울 수 있도록 하는 인공지능 기술이다. 딥러닝으로 콘텐츠를 인식하게 된 컴퓨터는 단계적으로 콘텐츠를 분류한다. 예컨대 먼저 가장 단순한 특성으로 사진을 분류하고, 그 다음 단계에선 더 복잡한 특성을 찾아낸다.
때문에 딥러닝 알고리즘은 일반적인 알고리즘처럼 수식이 필요 없다. 사람이 대상을 인식하는 것과 같은 방식이다.
딥러닝 기술이 일반화하면서 엔비디아(Nvidia) 같은 GPU(그래픽 처리 장치) 업체가 돈을 벌기도 한다. 이미지 인식을 위해 고성능 GPU가 필요하기 때문이다.
최 교수는 “오늘 설명한 딥러닝은 인공지능 기술에서 작은 부분을 차지하지만 최근 글로벌 기업들이 투자를 많이 하고 있다”고 말했다. 그는 “딥러닝이나 머신러닝(기계학습) 같은 분야는 20년에서 30년 연구돼왔고 이는 인공지능을 실현하기 위한 과정”이라고 말했다.
제목을 보자마자 너무 호기심이 생겨서 기사는 읽기전에 뮤직비디오 부터 봤는데 이게 정말 시사하는 바가 엄청난 것 같습니다. 인공지능이 예술가의 스타일에 대해 학습을 할 수 있다는 하나의 증거가 될 수 있을 것 같습니다. 웨더어노말리 라는 팀은 자신들의 뮤직비디오를 만들기위해 인공신경망이라는 인공지능 기술을 이용하여 인공지능이 예술대가들의 작품을 학습하게 했고 이렇게 학습한 인공지능이 그들이 만든 뮤직비디오에 마치 반고흐나 뭉크가 참여한 것과 같은 효과를 연출해 주었습니다.
인공지능은 확실히 반고흐나 뭉크의 색감, 질감 등의 특징을 잘 잡아내었구요, 우리가 포토샵 등에서 이미지에 필터를 적용하는 것과 비슷하게 사람이 촬영한 영상의 색감과 질감을 그들이 학습한 예술가의 특징에 따라 화면을 변화시킨 것으로 보입니다.
이러한 결과가 인공지능이 한게 맞느냐? 결국 사람이 한 것이 아니냐라고 물으실수도 있겠는데요. 실제 이 영상이 공개된 유튜브에는 이런 댓글이 달려 있기도 합니다.
And now online journalism is saying "THIS MUSIC VIDEO WAS CREATED BY AN ARTIFICIAL INTELLIGENCE" even though it had no part in the creation of the music, and the only thing it did for the video is the cool-looking artistic effects :/
언론들이 "뮤직비디오가 인공지능에 의해서 만들어졌다"고 쓰고 있지만 인공지능이 한것이라고 해봐야 고작 멋지게 보이는 시각 효과를 내준 정도 아니냐. 물론 음악은 아예 빼고 얘기하더라도 말이다.
물론 이 분의 이야기도 참 맞는 말입니다. 인공지능이 한 일이라고 해봐야 겨우 위에서 언급했던 대로 시각효과 나부랭이정도 내 준 것일 수도 있습니다. 그러나 지금 우리가 주목해야 할 부분은 "시각효과를 내주었다"가 아니라 시각효과를 내기 위해서 인공지능이 스스로 "학습했다"라는 부분일 것입니다.
예전에 포토샵을 이용할 때는 포토샵에 이미 프로그램 되어있는 효과만을 적용할 수 있었습니다. 물론 파라미터값들은 정해진 범위내에서 변화시킬 수 있었지만 말입니다. 그런데 이제는 인공지능 알고리즘만 있다면 미리 프로그램된 효과필터가 없이도 그 때 그 때 자신이 원하는 방향으로 인공지능을 학습시켜 원하는 효과를 낼 수 있게 된 것입니다.
인공지능이 눈에 카메라 달고 드론처럼 날아다니면서 사람과 시리로 대화하면서 직접 촬영을 하고 촬영을 마치고 나서는 스스로 음악을 들으면서 음악과 어울리는 적당한 장면을 찾아내어 편집하고 혼자 렌더링까지 마무리하고 적당한 파일명으로 저장하는 것까지 스스로 다 해야 인공지능이 뮤직비디오를 만들었다고 얘기할 수 있는것 아니냐고 생각하실수도 있습니다만, 지금 우리는 기사에서 얘기하고 있는대로 예술이 인공지능을 통해서 완전히 다른 차원으로 들어가는 새로운 르네상스의 초입에 있는지도 모르겠습니다.
We’re in the middle of a new artistic renaissance.
Posted: 11/23/2015 07:57 AM EST
우리는 지금 인공지능 알고리짐이 예술가들로 하여금 새로운 형태의 이야기, 이미지, 음악을 만들게 하는 예술의 새로운 부흥기(a new artistic renaissance)에 들어온 듯 하다.
WeatherAnomaly가 "Secret Society of Soul Painters"라는 제목의 새로운 뮤직비디오를 발표했는데, 아주 특별하고 환상적인 효과를 만들기 위해서 인공신경망(artificial neural network)라고 알려진 인공지능을 사용했다. 결과는 진짜 끝장나게 멋지고 고흐나 뭉크의 대작이 연상될 정도다. 이건 내 얘기를 들어서 될 일이 아니고 일단 한번 보기 바란다.
인공신경망은 페이스북이나 구글, 마이크로소프트, 바이두 등에서 이미지(사진)와 관련된 기술에 사용하고 있다. (구글 포토를 사용한다면 이미 알고 있겠지만 사진을 올리면 사진이 자동 분류된다, 이미 당신들도 인공신경망을 사용하고 있는 것이다) 이들 기업 중 몇몇은 자신들의 기술을 오픈소스로 공개하고 있는데 이 기술이 예술과 같은 새로운 영역에 적용될 수 있다.
WeatherAnomaly는 "Secret Society of Soul Painters" 뮤직비디오를 만들기 위해 Torch 라는 프로그램과 최근의 연구에서 "예술을 위한 인공신경망(A Neural Algorithm of Artistic Style)"이라 이름으로 묘사되고 있는 알고리즘을 이용하였다. 토치,(torch)라는 프로그램은 최초에 지금은 페이스북에서 일하고 있는 로난 콜버트라는 사람에 의해 개발되었다.
이 기술의 작동원리는 간단하다. 인공신경망이 하나의 이미지에 대한 스타일에 대해서 학습(learn)하고 이것을 다른 스타일의 그림들과 통합해 내는 것이다. 이 융합(mashup)이 정말 멋진 결과를 내 주기도 한다.
이 프로그램들을 구하고 또 이것을 통해 뭔가 해보려고 하면 아직도 컴퓨터에 대한 노하우가 필요하긴 하다. 그러나 점점 시간이 갈 수록 GitHub 같은 온라인을 통해 프리패키지(pre-packaged)가 보급되고 있어서 인공지능 초보자들이 DIY로 이전에는 존재하지 않았던 새로운 예술을 만들 수 있는 기회가 생기고 있다. Years&Years 라는 밴드 역시 그들의 뮤직비디오에 인공지능이 만든 그래픽을 넣을 것이라고 한다.
만일 인공지능이 인간 예술가들의 일자리를 뺏는 것은 아닐까 걱정할 수도 있는데 아직은 그럴필요는 없다. 이 모든 프로젝트들은 아직 인간의 도움을 필요로 한다.
상상할 수 있는 컴퓨터를 만들 수 있을까? 장병탁 교수님은 과거의 인공지능들은 최적화된 답을 찾는 쪽으로 발전해 왔지만 앞으로는 사람과 비슷한 방식으로 인지하고 생각하는 컴퓨터를 만드는 쪽으로 발전해 갈 것이라고 얘기합니다.
그러면서 현재 뽀로로를 통해 스스로 학습하는 인공지능을 개발 중이며(만화를 통해 학습하는 인공지능을 개발하는 것은 세계 최초라고 합니다) 이 연구의 최종 목표 중 하나는 184번 째 뽀로로 에피소드를 이 인공지능이 창작해 내는 것이라는 얘기도 합니다.
상상력이라는 것을 연상작용의 연속과정으로 이해하는 부분이 참 인상적입니다. 그리고 이러한 연상작용을 딥신경망을 통해서 인공지능도 할 수 있다고 설명하고 있습니다. 이렇게 해서 나온 결과물이 상상력을 자극할 수 있다거나, 혹은 정말 창의적이면서도 하나의 맥락을 갖는 콘텐츠 될 수 있다면 이것은 정말로 예술 창작에 있어서 하나의 커다란 전환점이 될 것 같습니다.
더욱 중요한 것은 이러한 인공지능의 학습법이 완전한 자율학습이라는 것입니다. 사람이 사전에 기계에게 어떠한 사전 가이드라인도 주지 않은 상태에서 기계 스스로 동영상을 시청하고 이미지와 텍스트의 의미를 스스로 이해하고 각각의 관계설정을 해나간다는 것입니다. 앞서 다른 글들을 통해서도 살펴봤지만 이제 기계는 아무런 사전 가이드 없이 그림은 그림 그 자체로, 소리는 소리 그 자체로, 문자와 그림이 같이 섞여 있는 영상은 영상 그 자체로 학습하고 이해하는 단계에 온 것 같습니다.
그 어떤 위대한 개인, 그 어떤 위대한 예술가라고 해도 이 세상의 존재하는 모든 예술을 습득하기에는 한계가 있습니다. 자신의 관심 장르, 또는 자신이 거주하는 지역의 특성이 강하게 반영된 예술 등으로 한 인간이 습득하는 정보의 양은 제한되기 마련입니다. 그에 비해 인공지능은 편견없이 세상에 존재하는 모든 예술에 대해 단 시간안에 학습하고 이를 방대한 딥신경망에 기억시킬 수 있습니다. 사실 인간 예술가의 창의력이라는 것의 정체 역시 그가 지금까지 보고 듣고 경험한 자신만의 데이터베이스에 기초하여 자신만의 연상작용을 통해 조금 다른 무엇가를 만들어 나가는 과정이라고 할 때 이제 기계와 인간은 똑 같은 매커니즘으로 세상을 이해할 수 있게 된 것 같습니다. 그런데 기계가 사람에 비해 앞도적인 학습량을 가질 것이기 때문에 사실상 이미 인간은 인공지능에 압도당한 것이지 않을까 싶습니다. 게다가 데이터를 해석하는 것에 그치지 않고 이렇게 수집한 데이터들을 새로운 연상작용을 통해 유사한 의미를 가지면서도(맥락을 유지하면서도) 조금은 다른 새로운 아웃풋을 낼 수 있다면 이것이야 말로 예술가의 창작과정과 다른 것이 하나도 없어 보입니다.
앞서 들었던 카이스트 김대식 교수님의 강연에서, 인공지능이 출현하게 될 시대에서 좀더 의미있는 삶을 살기 위해서는 창의적인 태도를 갖는 것이 중요하다고 말씀하셨는데요, 이번 장병탁 교수님의 강연을 들으면 창의력, 상상력이라는 영역에서도 우리는 앞으로 심대한 도전을 받게 될 것으로 생각됩니다.
기계는 빠르고 정확한 소자의 직렬연결인데 비해 뇌는 느리고 복잡하지만 아주 많은 소자가 연결된 병렬처리 시스템이다. 그래서 뇌는 상상에 적합한 구조를 갖고 있다.
인공 뉴련(artificial neuron)
생물학적 뉴런을 토대로 고안된 기본 연산기능만을 갖는 처리기
인공 뉴런을 여러개 연결하여 인공신경망을 개발
최근에 구글에서는 딥신경망을 만들어서 음성인식기술의 혁신을 이루었고
페이스북에서는 딥신경망을 통해 사람인식기술을 사람의 버금가는 수준으로 발전시켰다
우리 연구실에서는 딥하이퍼네트워크(상상력 기계)를 연구 중인데, 딥신경망을 통해 어떤 개념이 들어오면, 딥신경망에 저장되어 있던 정보들과 유사성 비교를 통해 이것들을 새로운 방식으로 계속 묶어 나가갈 수 있는데(연상해 나갈 수 있는데) 이것을 반복하다보면 나중에는 최초에 들어오 정보와 비슷하지만 또 다른 새로운 개념을 출력해 내게 된다
상상력의 기본 컴퓨팅 원리이다.
위 그림처럼 인공지능이 뽀로로 에피소드를 계속 시청하면 할 수록 점점 더 복잡한 신경망으로 진화하는 것을 볼 수 있다.
그렇다면 어떻게 기계가 상상력을 갖도록 할 수 있을까?
사람이 그 모든걸 만들수도 있지만 그건 사실 불가능한 일이다. 우리는 만화를 이용해서 기계가 스스로 학습을 하도록 했다. 이것은 사람 아이가 학습하는 방식과도 비슷하다. 우리는 뽀로로 183편을 기계가 스스로 학습하도록 했다.
만일 뽀로로로 학습한 인공지능이 개발된다면 이 인공지능과 함께 뽀로로에 대해 대화를 나눌 수도 있고 서로 퀴즈를 풀수도 있을 것이다.
최근에 인공지능 장난감 '코그니토이'가 개발되기도 했다. 슈퍼컴퓨터 왓슨을 기반으로 하여 아이들과 자연스러운 대화가 가능하다.
IBM의 왓슨은 텍스트 기반인데 현재 개발중인 딥하이퍼네트워크는 텍스트와 이미지(동영상)이 결합된 방식이다. 많은 디지털 동영상을 보여주고 스스로 학습하게 한다면 상상력을 기반으로 사람보다 더 똑똑하게 많은 일을 처리해줄지도 모른다. 앞으로는 이런 자율지능을 가진 스마트 머신들이 나타날 것으로 생각한다.
이러첨 자율지능을 갖고 스스로 생각하는 기계가 나온다면 철학적으로 궁극적으로 자유의지를 가진 기계를 만들수도 있지 않을까 상상이 된다. 물론 아직 갈길이 멀긴 하다.
딥러닝이란 것에 대해서 사전지식이 전혀 없는 상태에서 본 영상이구요. 조금이나마 이해하는데 많은 도움이 되었습니다. 인상적인 부분만 요약해 봅니다.
-----------------------------------------
딥러닝이라고 하면 클래시피케이션을 기계 스스로 하는 것이라고 생각하면 된다. 지금까지는 이미지를 분류하고자 하면 기계에게 사람이 정해준 기준을 미리 알려주고 그 기준에 따라서 분류를 진행했다. 그러나 딥러닝에서는 사람은 아무런 기준도 제시하지 않고 기계에게 바로 이미지만 전달한다. 그러면 기계가 분류기준 자체를 마련하고 그에 따라 이미지를 분류해 나간다.
딥러닝이나 머신러닝에 대해서 의문을 가진 사람들은 이것에 대해 의문을 표하기도 하지만, 나는 딥러닝을 하는 사람 입장에서 이것에 대해서 설명해 보자면, (조심스러운 어조로) 전문가들이라고는 하지만, 그분들이 과연 이 세상의 모든 이미지를 보고 분류할 수 있는 기준을 마련한 것이냐? 그건 아닐 것이다. 그런데 딥러닝에서는 전문가들이 보아 왔던 것 보다 훨씬 더 많은 양의 이미지를 통해 학습을 시킨다는 점이다. 그래서 훨씬 더 많은 재료를 통해 공부한다는 장점이 있다.
예를들면 이런 것이다. 구글의 음성인식 시스템은 세상의 모든 안드로이드 폰에 깔려있는데, 구글은 이렇게 주장할 수도 있다. 이 세상의 모든 음성데이터는 구글에 쌓여있다, 이렇게 말이다. 그래서 이렇게 쌓인 세상의 모든 음성을 기계가 어떤 사전에 마련된 기준 없이 학습을 하는 편이 사람이 마련해준 기준에 의해 학습하는 것 보다 더 낫다는 주장을 할 수 있다.
네이버도 엔드라이를 통해 이미지 분류 서비스를 제공하고 있는데 사전에 어떤 메타정보도 사용하지 않고 이미지 그 자체만을 사용해서 서비스를 제공하고 있다.
뇌, 현실, 그리고 인공지능이라는 제목으로 한 카이스트 김대식 교수의 강연입니다. 강의 전반부는 인공지능의 기술적인부분에 대해서 이야기를 하고 후반부에는 인문학 강연에 걸맞게 인공지능이 출현하게 될 앞으로의 시대에서 과연 인간으로서 어떻게 하면 좀 더 의미 있는 삶을 살 수 있을지에 대해 이야기 합니다.
기술을 공부하는 과학자 이면서 동시에 삶을 살아가는 자연인으로 일반 대중을 상대로 어려운 이야기들을 이정도로 공감가능하도록 풀어내었다는 것에 감탄했습니다. 기술적인 부분이 궁금하신 분들은 전반부만 보셔도 좋을 것 같고, 인공지능이 출현이 우리 삶을 어떻게 바꿀 수 있을지에 대한 부분이 궁금하신 분들은 후반부만 보셔도 좋을 것 같습니다.
아래는 강연을 들으면서 메모한 것입니다.
===================================
brain reading
뇌에서 일어나는 전반적인 현상을 해석할 수 있음
brain writing
스탠퍼드 대학교 칼 다이스로드 교수와 함께 연구 진행
optogenetics(광유전학 기술)
빛으로 신경세포를 선택적으로 자극하거나 억제해 정신적, 육체적 이상 현상을 치료하는 목적으로 활용할 수 있는 기술
subliminal perception(서브리미널 퍼셉션)
우리가 인지하지 못하는 미약한 자극이 잠재의식 속에 기억되어 우리의 행동이나 감정, 생각에 영향을 미치는 현상
감각센서가 없는 유일한 기관 뇌
뇌가 직접 정보를 획득하는 것이 아니고 오감을 통해서 들어오는 패턴으로 처리되어 뇌에 전달하며, 뇌는 패턴을 해석함으로써 현실을 인지
눈은 변화가 없는 것은 존재하지 않는 것으로 인식한다.
같은 생각, 같은 문제, 같은 고민에 대해 반복적으로 생각하면 뇌는 더 이상 존재하지 않는다고 인식
오감이 완벽하다면 뇌과학은 필요없다?
현실을 지가한다는 것은 뇌의 해석이다
심리학 관점
알면 알수록, 세상은 다르게 보인다?
뇌과학 관점
많이 알아도, 세상은 같게 보인다!
왜냐하면 뇌는 하드웨어이기 대문에
내 생각이 100% 옳다고 확신해도 사실은 틀린 것일 수 있다
뇌과학적인 관점에서 보면 인지하는 것의 대부분이 착시현상이다
착시현상 = 감각기관의 정보 + 알파(뇌의 해석)
우리 눈에 보이는 세상은 뇌의 다양한 해석을 통해 만들어진 결과물이다
우리가 보는 세상은 인풋이 아니라 아웃풋이다. 우리가 보고 있는 것은 아웃풋이다.
뇌가 다르면 결과물(아웃풋)도 다르다
각자 다르게 보이는 세상에 살면서 왜 같은 세상에 산다고 착각할까? ==> 뇌의 착시현상
내가 들고 있는 사과를 색깔로 표현한다면? ==> 눈에 보이는 색깔을 온전히 표현할 수 있는 단어가 없다 ==> 눈에 보이는 사과와 가장 비슷한 색깔의 단어 = 빨간색 ==> 이 사과를 보고 있는 다른 사람들은 나와는 다른 색깔로 사과를 인지했을수도 있지만 똑같은 단어 "빨간색"을 통해 같은 색깔로 인식
같은 사물이 다르게 보이는 것보다 더 신기한 것은 서로 다르게 보이는 세상에 살면서 같은 세상에 산다고 착각하는 것
선택도 착시현상의 일종
선택이란 내가 원하고 선호하는 것을 결정하는 일
일반적으로는 선호하기 때문에 선택한다고 알려져 있음
뇌과학에서는 선택을 먼저하고 나중에 선호도를 만드는 것이 아닐까?라는 가설을 만들어 볼 수 있음
동일한 커피에 다른 가격을 붙여 마셔보게 하는 실험 => 피험자들은 비싼 커피가 더 맛있다고 얘기하면서 왜 그렇게 생각하는지에 대해서 이유도 설명함 => 자신의 선택을 합리화하기 위해 좌뇌가 거짓을 꾸며냄
혀는 두 잔의 커피가 같은 맛이라고 판단 => 뇌는 혀의 판단을 믿지 않음 => 수 년간 쌓인 비싼 것이 좋은 것이라는 경험에 의해 혀의 판단을 믿지 않고 비싼 것을 선택 => 뇌의 선택은 데이터에 의해 들어온 값이 아니라 자신이 갖고 있는 판단 모델에 의해 선택된 결과 => 이 과정에서 테이터에 의한 선택을 버린 근거를 마련하기 위해 좌뇌에서 무궁무진한 갖가지 이유를 만들어 낼 수 있음 => 선택을 합리화히기 위해 선호도를 꾸며 냄
뇌는 현실을 있는 그대로 알아보는 기계가 아니고 나의 선택을 정당화하는 기계다 - 신경생물학자 로저 스페리
왜 나이가 들수록 시간이 빨리간다고 느끼나? => 어린 나이일수록 뇌 신경세포의 정보 전달 속도가 빠르다 => 같은 현실을 살지만 나이에 따라 다르게 느껴지는 속도감 => 나이가 어릴수록 세상을 자주 본다 => 같은 시간 안에 더 많은 프레임을 찍을 수 있다 => 어린 나이일수록 세상을 슬로모션으로 본다
오래 살 수 있는 방법? => 진정한 의미의 장수는 세상을 자주 보는 것
뇌 신경세포의 젊은 유지법
1. 커피를 마신다(지속시간 5분)
2. 집중한다
뇌는 집중하는 순간 뇌 신경세포의 정보 전달 능력이 빨라짐
집중하는 순간의 기억은 뇌에 슬로모션으로 입력할 수 있다
미래의 내가 지금의 나를 기억한다면?
지금의 나는 "미래의 내가 상상한 지금의 나"와 같지 않다
미래의 내가 지금의 나를 기억했을 때 이 순간이 소중할 것 같다는 확신이 든다면? => 집중하게 될 것이고 => 지금의 소중한 순간이 미래의 기억 속에 슬로모션으로 입력될 것
길가메시 서사시(Epic of Gilgamesh)
기원전 2800년경, 수메르의 왕이었던 길가메시의 모험을 담은 이야기로 세계에서 가장 오래된 바빌로니아의 서사시로 알려짐
기계도 의미를 가질 수 있을까?
구체적인 셜명을 하면 보편성이 낮아지고 포괄적인 설명을 하면 특정한 것에 대한 인지력이 낮아진다
언어의 해상도가 인식의 해상도 보다 더 낮다
many to one mapping
사물에 대한 인지과정을 언어를 통해 설명하기엔 역부족
뇌에서 일어나는 일 중 단어로 표현이 가능한 부분은 약 10% 미만
약 90%의 현상은 설명 가능한 단어가 부재 => 언어의 부족으로 인해 인공지능에 중요한 정보를 전달하는데 실패 => 언어를 대신할 수 있는 수많은 데이터가 필요했음 => 그런데 이러한 부족분을 채워줄 수 있는 정보가 IT 쪽에서는 없었음 => 소셜 미디어가 생겨나면서 이러한 부족했던 부분을 메꿔줄 수 있는 정보들이 쌓이게 됨 => 이렇게 쌓인 데이터를 해석할 수 있는 알고리즘 또한 갖게 되면서 뇌의 알고리즘을 파악하기 시작 => 사람이 현실에서 학습하는 과정을 인공지능이 모방할 수 있게 됨
사물인터넷 전문가들의 말
사람이 일상행활에서 2천에서 5천개의 물체를 알아보면 살아남을 수 있다 => 현재 2천 개의 사물 인지가 가능한 인공지능 시스템 개발 중
구글의 인공지능 시스템 2014년 8월 발표
딥러닝을 통해서 상황을 인식 => 인공지능을 통해 동영상을 본 후, 어떤 상황인지 파악 => 인공지능을 통해 동영상 해석은 물론 상황 설명 가능
사진을 온라인에 올린 후 소개 글을 써야하는 번거로움 => 인공지능을 통해 사진만으로 상황 파악한 뒤 스스로 소개 글 작성
인공지능을 통해 영어를 중국어로 실시간 통역 가능(영어로 말하는 목소리와 비슷한 톤으로 중국어 번역)
3~4년 전만 하더라도 인공지능 언제 될까요?라는 질문을 받았으면 그냥 웃고 넘겼을 것이다 => 딥러닝이라는 새로운 알고리즘(사람의 사고방식을 컴퓨터에게 가르치는 기계학습)이 생기고 나서 50년 동안 풀지못했던 문제들이 2013년 이후부터 모두 풀리고 있다
약한 인공지능의 실현은 머지않았다!
보고, 듣고, 말하고, 읽고, 쓰고, 통합하고, 이해하는 인공지능의 출현이 100년은 걸리지 않겠나 생각했지만 지금은 약 10년 정도 보고 있다
지금 인간이 하고 있는 서비스업의 대부분은 인공지능이 대신할 수 있다
기계가 사람과 비슷한 수준의 정보처리 능력을 갖춘다면? ==> 현존하는 직업의 47%가 사라지게 될 것이다
뜻밖에도 화이트칼러 직업이 대거 사라질 것이다. 관리, 기술, 사무, 판매 등에 종하하는 직업 집단
어떤 직업이 사라지느냐 아니냐가 중요한 것이 아니라 인지적으로 자동화될 수 있는 일이냐 또는 새로운 가치를 부여할 수 있는 일이냐가 중요
아무리 열심히 해도 기계를 이길 수 없는 시대가 오고 있다. 인공지능 시대에서 아름답고 창의적인 삶은 선택이 아닌 필수 => 아름답고 창의적이지 못한 사람은 실업자가 되는 시대 => 아름답고 창의적인 삶은 생존의 조건이 될 것이다
Since last year's DoubleClick acquisition, we've increased our focus on helping marketers and agencies use Google tools for all of their display advertising needs. DoubleClick Rich Media is the part of DoubleClick that provides the technology for the most technically advanced and engaging of these display ads, which are typically created by creative agencies for their brand-focused clients. To help make this process even easier and efficient, today we're launching DoubleClick Studio, our new rich media production and development tool.
To describe rich media, it helps to think about other ad formats that we're all familiar with, starting with the simplest: text ads. With just a few keystrokes, anyone can create simple messages in a standardized format, and place them on a site like Google.com in minutes. Then we have standard display ads, ads that usually include text with a visual such as a logo or a graphic. These can be in formats we're all familiar with like .jpg, .gif, .swf and more. Standard display ads can either be static or animated with tools like Flash. They typically have only one interaction, meaning that when you click on them, you'll be taken to a destination site. And then at the most complex level, from a design and interaction perspective, we have rich media ads. With rich media, you can have ads that expand when users click or roll over, for example, and there are extensive possibilities for interactive content, such as HD video or even the ability to click to make a phone call.
But making a rich media ad possible requires much more complex technology to ensure that all of the ad behaviors function properly, that all of the interactions can be measured, and to serve the ads onto web pages. Every piece of the canvas, from the video play button to the button that allows for expansion, requires coding in Flash that's made possible by a rich media technology provider like DoubleClick Rich Media. With all of this complexity, there's also a lot of room for error. So in addition to enabling the development of the ads, tools like DoubleClick Studio provide quality analysis and preview functionalities to make sure that the ads work the way they should.
Here is a graphic that represents some of the differences between types of online ads:
With DoubleClick Studio, we hope to make it easier for our existing users to produce rich media ads, and to expand the number of advertisers that can make these useful formats part of their marketing strategy. This is also a good thing for Internet users; rich media capabilities make advertising even more useful, letting a viewer interact with an ad and learn about a brand without having to leave the page they're on. And, advertisers have an expanded creative canvas within the ad itself, allowing for deeper, higher-quality content in the ad itself. At Google, we believe that ads at their best are useful information.
To read more about DoubleClick Studio, visit the DoubleClick blog.
Posted by Shamim Samadi and Ari Paparo, DoubleClick Rich Media Team