< 목록보기

미국 언론의 ‘자동 팩트체크’ 실태와 국내 전망

by
@

연수보고서 다운로드
미국 언론의 ‘자동 팩트체크’ 실태와 국내 전망 MBN 김한준 연수기관: 듀크대

p{font-size: 13px;line-height: 24px;}
/* .footnote{margin: 50px 0 50px !important} */
.footnote p:nth-child(1):before{display: block;content: “”;width: 150px;height: 1px;background: #000;}

가짜뉴스는 국경을 가리지 않는다. 한국은 물론, 미국의 가짜뉴스도 대단히 심각한 상황이다. 가짜뉴스를 퍼뜨리는 것은 안타깝게도 범죄자들만이 아니다. 모범을 보여야 하는 정치인들이 가짜뉴스를 먼저 퍼뜨리는 경우도 상당하다.

■ 미국도 예외없는 가짜뉴스…“전 대통령도 대놓고 거짓말”

빌 아데어(Bill Adair) 듀크대학교(Duke University) 교수 겸 1)듀크 리포터스랩(Duke Reporters’ Lab) 소장이 팩트체크 매체 2)폴리티팩트(Politifact)의 팩트체크를 분석한 결과에 따르면 2016년 1월 1일부터 2021년 6월 30일까지 사실 거짓 여부를 검증한 정치인들의 발언은 2,469개였다.3) 민주당 52%, 공화당 48% 등 당별 검증 비율은 비슷했다. 이 수치가 1개의 매체가 검증해 온 발언들의 숫자임을 감안하면, 정치인들의 확실치 않은 발언 횟수는 이보다 훨씬 많다고 보면 된다.

1) 듀크대학교 산하의 팩트체크연구소로 미국의 대표적 팩트체크 연구기관. https://reporterslab.org

2) 미국의 대표 팩트체크 기관. https://www.politifact.com/

3) 듀크대학교 빌 아데어 교수의 자료 중

다만 이는 확인되지 않은 발언을 쏟아냄으로써 팩트체크 업계의 주 타깃이 됐던 도날드 트럼프 전 미국 대통령과 정당에 속하지 않아 상대적으로 자유로운 발언이 가능한 사람들은 제외한 수치였다. 그러니까 공당 정치인들이 하루에 최소 1개 이상 검증이 필요한 발언을 생성했다는 얘기다.

이들은 자신의 직접 연설(24%)을 비롯해서, TV뉴스(19%), SNS(16.4%), 토론(9.1%), 광고(7.6%) 등 다양한 방식으로 사실인지 주장인지 애매한 발언을 쏟아냈다.

폴리티팩트가 검증한 결과 이들의 발언은 연설에선 64.2%가 사실에 가까웠지만, SNS 중 트위터에선 60.4%, 페이스북에선 50.4%만이 사실에 가까웠다.

TV를 통한 발언에서 특이한 점은 CBS뉴스는 62.8%가 사실에 가까웠지만 FOX뉴스는 38.9%만이 사실에 가까웠다는 점이었다. 특히 폭스뉴스의 검증 발언 중 16.7%는 ‘새빨간 거짓말’(Pants on Fire)로 판명됐다.

이런 수치에서 알 수 있듯 기자는 리포터스랩 연수 기간 미국 정치인들의 다양한 거짓말 실례에 대해 알 수 있었고, 그 중 하나를 소개하려고 한다. 트럼프 전 대통령의 거짓말 중 하나다. 트럼프 행정부에서 코로나19TF 고문을 지낸 올리비아 트로예(Olivia Troye)에게 직접 확인한 얘기로, 트로예 고문은 마이크 펜스 미국 전 부통령의 수석 보좌관이기도 했다.

트로예 고문은 지난 3월 30일 빌 아데어 교수 주최로 열린 비공개 특강에서 “트럼프 전 대통령은 코로나19 창궐 초기인 2020년 2월에 코로나의 위험성에 대해 보고받고 인지했지만 선거를 앞두고 있는 상황이어서 축소해서 계속 발언했다”고 주장했다. 트럼프의 거짓말 영향으로 평생 공화당원이었던 트로예는 지난 대선 당시 조 바이든 후보를 지지했다고 설명했다.

■ 창궐하는 가짜뉴스에 맞설 수 있는 신무기 ‘자동화 팩트체크’

문제는 거짓말과 가짜뉴스들이 매 시간 TV와 인터넷, SNS에 퍼지고 있는데도 이를 검증하는 시스템은 제대로 마련되지 않았다는 점이다. 해당 주장들을 팩트체크할 수 있는 팩트체커의 수가 절대적으로 부족해 대부분의 주장들이 사실로 받아들여지는 상황이다. 4)듀크 리포터스랩 기준으로 미국의 팩트체크 기관은 71개 뿐이다.

한 주장의 진위를 파악하기 위해서는 그와 관련된 자료 검토에 적지 않은 시간이 걸린다. 비교적 간단한 것이라면 즉시 해결할 수도 있지만, 사안에 따라서 1~3일, 때로는 그 이상이 소요되는 경우도 있다. 게다가 한 가지 사안의 사실 확인에 매달려 있다면 다른 주장에 대해선 추가로 살펴보기 어렵기도 하다.

며칠이 지나서 팩트체커가 해당 주장이 사실이 아닌 ‘거짓’이라고 증명했다고 하더라도 이미 그 주장을 ‘사실’이라 믿고 있는 시민들에게 팩트체크 결과가 오히려 정파적으로 느껴질 수도 있다. 너무 늦은 것이다.

미국 팩트체크 기관 현황. 출처 : 듀크 리포터스랩

AI 알고리즘과 빅데이터 기술이 결합한 자동화 팩트체크(Automated Fact Check)는 이런 팩트체크의 단점을 극복해 줄 최적의 대안으로 꼽힌다. 팩트체크에 걸리는 시간을 획기적으로 단축시켜 줄 수 있기 때문이다.

예를 들어 한 정치인이 1시간 짜리 영상 인터뷰를 한 경우 팩트체커가 해당 정치인이 팩트체킹할 수 있는 주장을 했는지 검토하기 위해선 최소 1시간 이상이 걸린다. 그대로 다시 들어야 하는 탓이다. 하지만 자동 팩트체크 기술을 이용하면 보통 2초 안에 어떤 발언을 팩트체크해야 할지 알려준다.

분석하려는 원본의 용량이 크면 클수록 자동 팩트체크 기술의 장점은 더욱 극대화된다. 10시간 짜리 영상을 분석하려 한다면 팩트체커는 어떤 것을 검토해야 하는지에만 10시간 이상의 시간을 써야 하지만, 해당 기술은 불과 몇 초 안에 결과물을 보여준다.

■ 듀크 리포터스랩의 자동화 팩트체크 기술 ‘SQUASH’

지난 2018년 1월 31일 트럼프 전 대통령의 연두교서 내용을 자동 팩트체크 시스템으로 실시간 팩트체크해 큰 반향을 일으킨 이래로 듀크 리포터스랩은 줄곧 세계 자동화 팩트체크의 선두두자였다. 리포터스랩의 기술은 스쿼시(Squash)로 요약된다.5)

스쿼시는 정치적인 발언과 논쟁에 대한 자동화되고 즉각적인 팩트체크 시스템을 뜻하는 말인데, 구동 방식을 간단히 설명하면 이렇다.

1) 한 정치인이 발언을 했을 때

2) AI는 해당 정치인의 음성을 문자 텍스트로 즉시 바꾸고

3) 텍스트 중 사실 여부를 파악해야 하는 문장이 무엇인지 분류한 뒤

4) 기존 팩트체크 DB에서 해당 문장과 비슷한 게 있는지 찾고 나서

5) 최상위 결과값 3개를 보여주면

6) 사람 팩트체커가 최종 선택을 한다.

상술했듯 스쿼시의 5단계까진 많은 시간이 소요되진 않는다. 팩트체크에서 상당히 많은 시간이 소모되는 5개의 단계를 빠르면 몇 초만에 한번에 해결할 수 있는 것이다.

다만 스쿼시는 이렇게 기계의 구동만으로 끝나지 않는다. 어찌 보면 가장 중요할 수도 있는 6)번 부분이 남아 있기 때문이다. 사람 팩트체커가 스쿼시의 결과물을 갖고 마지막으로 사실 거짓 여부에 대한 판단을 내리는 작업이다. 사람이 기계의 결과를 눈과 머리로 확인한 뒤 결론을 내려야만 한다. 기술은 아직까지 완벽하지 않기 때문이다.

세부적으로 들어가 보겠다.

스쿼시는 1)번의 발언이 나온 뒤 2) 구글 텍스트 음성 변환 기술을 사용해 음성을 문자 텍스트로 바꾼다. (Voice to text)

직후 시스템의 핵심 중 하나인 3) 분류 작업이 진행된다. 이 작업에서 작동하는 도구는 ‘클레임버스터’(ClaimBuster)라고 불린다.6) 클레임버스터는 어떤 문장이 사실이 아닌 주장이어서 검증할 만한 가치가 있는지 찾게 된다. 필터링을 끝내면 클레임버스터는 어떤 문장의 사실 여부를 0과 1 사이의 수치로 표현한다. 0에 가까울수록 사실일 가능성이 큰 것이고, 1에 가까울수록 팩트체크해야 할 필요성이 높은 것이다.

참고로 클레임버스터가 이런 작업을 하기 위해 선행됐던 작업을 소개하고자 한다. 기계, 즉 AI가 언어 구조를 이해하는 게 필요하다. 예컨대 “뉴욕 양키스는 미국의 ㅇㅇㅇ이다”라는 문장을 보면 대부분의 사람들은 ㅇㅇㅇ이 ‘야구단’이라고 생각할 것이다. 어찌 보면 상식적인 것이지만 학습하지 않은 AI는 이런 상식이 전혀 없다. AI에게 수많은 단어와 문장을 학습시켜 이런 언어 상식을 키워줘야 한다. 그래야만 사실과 주장의 문장 구조가 어떻게 다른지 AI가 알 수 있기 때문이다.

클레임버스터 작업 후에는 역시 스쿼시의 핵심으로 꼽히는 작업이 이어진다. 4) 이 과정에서 일래스틱서치(Elasticsearch)라는 스쿼시의 검색 엔진이자 분석 도구가 이용된다. 검증할 만한 문장과 이전에 공개됐던 팩트체크데이터베이스(DB)를 비교해 비슷한 것을 매칭하는 것이다. 폴리티팩트와 팩트체크닷오알지(FactCheck.org), 워싱턴포스트 팩트체커(Washington Post Fact Checker) 등 이른바 미국의 3대 팩트체크 기관들이 그간 진행했던 기사들이 검증에 이용된다.

분석이 끝나고 스쿼시는 5) 최상위 결과값 3개를 제시하고, 6) 사람 팩트체커가 그 중의 하나를 골라 공개하는 방식이다.

■ SQUASH의 기술적 한계와 DB의 태생적 문제

하지만 스쿼시는 완벽하진 않다. 이는 스쿼시만의 문제가 아니고, 자동 팩트체크 기술을 쓰고 있는 대다수 팩트체크 기관의 문제기도 하다. 문제점은 다음과 같다.

1) 음성을 문자 텍스트로 바꿀 때 정확도가 좋지 않다. 음성을 텍스트로 변환하는 과정에서 발언자의 목소리를 제대로 인식하지 못해 엉뚱한 텍스트로 바꿔 놓는 경우가 종종 있다.

2) DB에서 비슷한 문장을 비교해서 매칭하는 과정 역시 정확도가 떨어진다. 가끔 전혀 다른 것들을 매칭하는 일이 발생하기도 한다. 매칭 알고리즘을 개선해야 할 필요가 있다.

3) DB 자체가 충분하지 않다. 새로운 팩트체크를 위해선 기존 참고할 만한 팩트체크나 다른 자료들이 충분해야 하는데, 그렇지 못한 상황이다. 때문에 더 많은 팩트체크가 이뤄져야 하고, 이것이 DB에 쌓일 때 더 정확한 자동 팩트체크가 가능해진다.

스쿼시의 한계점에 대해 빌 아데어 교수는 “참고할 수 있는 팩트체크가 없다면 스쿼시의 다양한 기능은 그저 기능일 뿐이고, 전혀 팩트체크에 이용될 수 없다”며 팩트체커들의 분발이 필요하다고 주문했다.

이어 아데어 교수는 “음성-텍스트 변환과 매칭 알고리즘에 대해선 꾸준히 개선작업을 하고 있다”면서도 “다만 1~2년 안에 비약적으로 개선되기는 쉽지 않다”며 자동 팩트체크 기술의 한계를 설명했다.

■ 한국 언론의 자동 팩트체크 도입은 언제쯤?

한국은 아직 자동 팩트체크로 팩트체크를 하는 언론기관은 없다. 하지만 학계에선 꾸준히 자동 팩트체크를 위한 연구를 하고 있는 상황이다.

특히 서울대학교 이준환 교수팀과 시청자미디어재단이 공동 개발한 ‘AI 팩트체크’는 한국 자동 팩트체크의 미래가 어둡지 않음을 보여주고 있다.7) AI 팩트체크는 한국어 위키피디아와 연합뉴스 기사를 이용해 데이터베이스(DB)를 구축했고, 그 DB에서 문장을 선택해 사실 여부를 판단하는 시스템이다. 듀크 리포터스랩 스쿼시의 구동 과정과 비슷하다. ‘AI 팩트체크’의 문장 선택과 문서 찾기 관련 적중률은 초기 단계임에도 모두 80% 이상일 정도로 성능이 나쁘지 않다.

불과 몇 년전만 해도 알파벳을 쓰는 영어와는 달리 한국어 음성을 텍스트로 전환하는 것은 상대적으로 더 어렵다는 분석도 많았다. Voice to text가 어렵다는 얘기였다. 하지만 한국어의 자연어 처리를 위한 연구와 개발도 빠르게 이뤄지면서 이런 분석은 서서히 과거의 이야기가 되고 있다.

매일 수십만 개의 주장들이 쏟아지는 상황에서, 상대적으로 극소수인 팩트체커들이 이 주장들을 다 검증할 순 없다. 하지만 기술의 도움을 받으면 사람의 힘으로는 불가능한 굉장히 많은 주장들을 모니터링할 수 있다. 기술만 있다면 최소한의 노력으로 많은 가짜뉴스를 인지하고 무엇을 팩트체크할지 파악할 수 있다는 얘기다.

물론 상술했듯, 기술은 아직 불완전하며 한국의 상황은 아직도 걸음마 단계다. 하지만 이런 기술 도입이 불가능한 상황도 전혀 아니다. 거짓말이 판치는 요즘, 한국 언론에도 자동 팩트체크 기술이 하루 빨리 도입돼 사실과 거짓을 최대한 신속하게 판별해내는 날이 올 것으로 기대한다. 기자도 그것을 위해 뛸 생각이다.

기자는 듀크 리포터스랩의 팩트체크 펠로우로 1년간 있으면서 많은 저명인사들을 만날 수 있었는데, 그 중에서도 미국 팩트체크 업계의 거물로 꼽히는 두 사람에게 들은 조언을 전달하며 보고서를 마칠까 한다.

“사이버스토킹 등 의도를 갖고 쏟아내는 오정보들이 득세하는 상황에서 팩트체커들도 기술이라는 무기를 얻게 됐지만 근본적인 것은 변하지 않았다. 그것은 팩트체커 개개인이 더욱 열심히 팩트체크해야 한다는 점이고, 이런 것이 지속될 때 미래의 팩트체크 저널리즘도 더욱 발전할 수 있을 것이다.”

– 폴리티팩트 편집장 앤지 홀란(Angie Holan)

“많은 사람들이 뉴스를 가장한 오정보를 퍼뜨리고 있는 지금, 언론 관련 기관들은 시민들이 신뢰할 수 있는 정보를 전달하기 위해 노력하고 협력해야만 한다. 그것의 한 길이 자동팩트체크일 수 있다.”

– 전 워싱턴포스트 기자· 듀크 리포터스랩 공동소장 마크 스텐셀(Mark Stencel)