[20년 전 ‘힐튼 비디오’가 지금 나왔더라면] [‘거대세상모델’]
[20년 전 ‘힐튼 비디오’가 지금 나왔더라면]
[‘거대세상모델’]
20년 전 ‘힐튼 비디오’가 지금 나왔더라면
스위프트, 美 대통령도 딥페이크
이미지, 목소리 가짜 가능한데
진짜라도 가짜라고 우기면 그만
逆딥페이크 전략도 대비해야
패리스 힐튼이 지난 2월 4일 미국 로스앤젤레스 크립토닷컴 아레나에서 열린 제66회 그래미 어워즈에 참석하고 있다./UPI 연합뉴스
지난 1월 말 생성형 인공지능(AI)을 동원해 만든 테일러 스위프트의 딥페이크 성착취물이 X(옛 트위터)의 한 계정에 올라온 지 19시간 만에 4700만 조회수를 기록했다. X의 다른 계정과 페이스북, 텔레그램 등 다른 소셜미디어에도 퍼졌으니 세계 곳곳에서 이를 접한 사람은 더 많을 것이다.
스위프트 관련 뉴스를 접하면서 20여 년 전 패리스 힐튼의 성착취 동영상이 화제가 됐을 때가 떠올랐다. 지금의 스위프트만큼은 아니지만 당시 힐튼은 ‘철없고 화려한 상속녀’라는 이미지로 꽤나 유명했다. 그의 전 남자 친구가 유포한 동영상이 포르노 사이트에 올라가자 사태 해결을 위해 힐튼의 부모가 나섰다. 반면 스위프트의 딥페이크 성착취물은 퍼진 지 하루 만에 백악관 대변인이 “이번 사태가 매우 우려스럽다”며 “우리는 계속해서 필요한 조치를 취할 것이며 의회의 입법도 필요하다”고 했다. 역시 스위프트, 역시 딥페이크, 아니, 역시 대선이다.
힐튼과 스위프트 사건의 차이는 이미지의 진위 여부에만 있는 것은 아니다. 2000년대 초반, P2P(개인 간 파일 전송) 사이트와 각종 성인 사이트에 음란물이 넘쳐났지만 X나 페이스북처럼 국적 불문하고 수억 명이 함께 쓰는 소셜미디어는 없었다. ‘남이 섹스하는 것을 보고 싶다’는 의도를 갖고 사이트를 찾아서 돈을 내야 힐튼의 동영상을 볼 수 있었단 얘기다. 전파 방식으로 보자면, 스위프트의 딥페이크 성착취물은 훨씬 개방적이고 공격적이다. X나 페이스북 등이 조치를 취하기 전까지 소셜미디어에서 스위프트의 이름만 검색해도 그의 딥페이크 성착취물을 볼 수 있었다. 또 소셜미디어에서 친구를 맺은 이가 그 이미지를 공유하면 나는 원치 않아도 접할 수밖에 없었다. 나의 소셜미디어 친구들이 점잖은 사람들이라면? 소셜미디어는 ‘인기·추천 콘텐츠’라는 이유로 내가 보고 싶지 않은 콘텐츠를 마구 들이밀기 때문에 결코 방심할 수 없다.
힐튼의 성착취 동영상이 존재한다는 소문을 미국 매체가 다뤘을 때 힐튼은 “그런 건 없다”고 부인했다가 동영상이 유통되기 시작하자 “(영상 속 여성이) 내가 맞다”고 인정했다. 하지만 이번에는 딥페이크 성착취물의 진위 여부를 스위프트 본인이 확인하기도 전에 “이 이미지가 가짜일 수 있다”고 의심하는 사람들이 나타났다. 스위프트의 이미지가 퍼지기 며칠 전, 뉴햄프셔주 예비 선거를 앞두고 조 바이든 미국 대통령의 목소리를 흉내 낸 딥페이크 전화가 유권자들에게 걸려왔었다. 스위프트의 딥페이크 성착취물을 접하고 ‘뭔들 가짜로 만들 수 없겠냐’는 생각이 스쳤을 것이다.
불과 1년 전까지만 해도 사진이나 영상, 육성의 힘은 강력했다. ‘카더라’와 같은 소문이 아무리 떠돌아도 고개를 저었던 연예인들이 데이트 사진 한 장에 반나절 만에 연애를 인정했다. 방범 카메라(CCTV) 영상과 육성 녹음도 수사나 보도에서 ‘결정적 증거’로 역할을 해왔다. 하지만 이제 사진도 영상도 목소리도, ‘진짜 같은 가짜’가 등장하면서 진실과 거짓을 증명하고 밝혀내는 힘을 잃었다.
도널드 트럼프 전 미국 대통령은 지난해 12월 자신의 실언과 실수를 모아 놓은 폭스뉴스 광고에 대해 “나를 바이든처럼 나쁘고 한심하게 보이게 하려고 AI를 사용하고 있다”고 했다. 광고에 등장한 내용은 실제로 일어났었지만, 그를 믿고 싶은 지지자라면 이를 ‘딥페이크’로 치부하는 편이 마음 편할 것이다. 진짜 같은 가짜가 만연한 세상이니 진짜도 가짜라고 우기는 역(逆)딥페이크 전략이 먹히고 있다.
힐튼의 성착취 동영상이 2003년이 아니라 2024년에 등장했다면 어땠을지 궁금해졌다. X나 페이스북 때문에 20년 전보다 더 많은 사람이 봤을까, 아니면 힐튼도 트럼프의 역딥페이크 전략을 구사해 세간의 관심을 덜 받을 수 있었을까.
-변희원 기자, 조선일보(24-03-05)-
___________
‘거대세상모델’
[김대식의 미래 사피엔스]
매년 세상을 놀라게 하려는 결심이라도 하려고 한 걸까? 작년에 챗GPT로 충격을 주었던 오픈AI가 얼마 전 공개된 소라(SORA)라는 새로운 생성형 인공지능으로 우리를 또 한번 놀라게 하고 있다.
생성형 인공지능의 핵심은 멀티모달(multi modal)과 크로스모달(cross-modal)이다. 다시 말해, 단순히 글, 그림, 영상을 넘어, 영상과 그림과 글을 함께 학습시키면 글을 사용해 그림을 생성할 수 있고, 그림으로 영상을 만들어낼 수 있다는 점이다. 특히 글로 생성 가능한 영상은 우리의 상상력을 부추긴다. 대본만 입력하면 영화가 만들어지고, 어제 저녁에 꾼 꿈을 글로 표현하면 바로 영상으로 볼 수 있다면 얼마나 흥미로울까?
덕분에 챗GPT가 등장한 이후 수많은 생성형 영상 인공지능이 등장했지만, 모두 비슷한 문제를 가지고 있었다. 생성된 영상의 길이가 2~3초를 넘으면 내용이 왜곡되고 서로 연결되지 않는다는 점이었다. 특히 이렇게 만들어진 영상에서는 계속 먹어도 접시의 파스타가 줄지 않거나, 걸어오던 사람들이 서로 몸을 통과하기도 하는 등 물리학적으로 불가능한 내용들이 구현된다. 진정한 의미에서 영상을 이해하고 만든 것이 아니라, 단순히 픽셀들의 움직임을 수학적으로 예측했기에 벌어지는 문제들이다.
하지만 오픈AI의 소라는 다르다. 최대 1분까지 영상 생성이 가능하고, 영상 속 인물과 물체들은 일관성을 유지한다. 그리고 직접 설명한 적이 없는데도 영상 속 내용에서는 물리학적 법칙이 유지되고 있다. 높은 곳에서 떨어진 물체는 아래로 떨어지고, 단단한 두 물체가 충돌하면 서로 통과하는 게 아니라 튕겨 나간다.
문법을 배우지 않은 챗GPT가 단어들 간의 확률 관계만으로 올바른 문장을 만들어내듯, 이제 소라는 학습된 영상 속 물체들의 상호 관계를 기반으로 세상의 법칙을, 그러니까 ‘세상이 돌아가는 방식’을 추론하기 시작했다. 거대언어모델(LLM)을 넘어 우리는 이제 ‘거대세상모델’(Large World Model, LWM)을 만들기 시작한 것이다.
-김대식 카이스트 교수, 조선일보(24-03-05)-
========================