상세검색 설정하거나 날짜별로 나눠 검색 후 더하면 6만~7만개 수준, 네이버 제휴매체 2배 늘어난 점도 감안 필요


조국 법무부 장관 인사검증 과정에서 언론 보도가 연일 도마 위에 올랐다. 그 중에서도 언론이 후보자 시절 조국 장관에 대한 기사를 지나치게 많이 쏟아낸다는 지적이 많았다.

118만건은 ‘거품’일까

조국 장관 후보자 청문회 당시 이철희 더불어민주당 의원은 지명 후 한달 동안 네이버에 조국 후보자 관련 기사가 118만건이라고 밝혔다. 최민희 전 더불어민주당 의원은 지난 3일 tbs ‘김어준의 뉴스공장’에 출연해 “언론이 60만 건을 보도했다”며 ‘과잉 의제화’를 문제로 지적했다.

실제 결과는 어떨까. 10일 오후 2시 기준 지난달 9일부터 지난 9일까지 한 달 동안 ‘조국 후보’ 키워드로 검색한 결과 나온 기사는 94만8254건에 달한다. 같은 기간 ‘조국 법무부’로 검색하면 70만2415건으로 나타났다. 이 수치대로라면 후보자 검증 국면에서 수십만건의 기사가 쏟아졌다는 주장은 일리가 있어 보인다.

그러나 검색 방법을 다르게 한 결과 숫자는 크게 줄었다. 우선 네이버 일반 검색이 아닌 ‘상세 검색’ 설정을 통해 ‘조국 법무’를 필수 검색어로 지정하고 최신순 정렬을 하면 기사는 7만2826건으로 줄어든다. 이 검색어를 입력한 이유는 기사에 ‘조국 법무부 장관 후보자’ 또는 ‘조국 법무 장관 후보자’라는 단어가 포함되기 때문이다. ‘조국 법무부’로 검색할 경우 관련 기사는 6만7964건이다.


▲ 10일 오후 5시 기준 '조국 법무부' 관련 뉴스검색 결과. 기간은 지난달 9일부터 지난 9일까지다. 일반 검색을 할때 70만건 가량이 뜨지만 상세검색을 통해 필수 검색어를 지정하면 6만건 가량으로 줄어든다.

▲ 10일 오후 5시 기준 '조국 법무부' 관련 뉴스검색 결과. 기간은 지난달 9일부터 지난 9일까지다. 일반 검색을 할때 70만건 가량이 뜨지만 상세검색을 통해 필수 검색어를 지정하면 6만건 가량으로 줄어든다.


또한 네이버에서 한달치를 한 번에 검색할 때와 달리 개별 날짜별로 나눠 검색한 다음 이를 더한 결과 관련 기사는 최신순 정렬 기준 6만4137건으로 나타났다. 같은 기간 포털 다음에서 ‘조국 법무부’로 검색하면 6만5600건의 기사가 나온다. 따라서 실제 포털에 나온 조국 장관 관련 기사는 6만~7만건 가량으로 추정된다.

검색할 때마다 요동치는 네이버, 이유는?

네이버는 기사 검색을 할 때마다 수치를 알려주지만 믿을 만한 데이터라고 보기 힘들다. 또한 동일 검색어, 동일 시점으로 설정해도 검색할 때마다 숫자가 요동친다는 점에서 이 통계의 신빙성은 크게 떨어진다. 중앙일보는 한 달 동안 같은 조건으로 관련 보도를 검색했을 때 최소 13만, 최대 104만 건으로 오차가 10배 이상 벌어졌다고 보도했다.

한 누리꾼은 조국 장관이 청문회를 앞두고 ‘가짜뉴스’ 대응 의지를 밝힌 직후 포털 검색 결과 50만건이 넘는 기사가 사라졌다며 언론사들이 기사를 대거 삭제했다는 정보를 퍼뜨렸다. 그러나 실제로는 검색할 때마다 격차가 벌어져 오해를 산 것으로 보인다.


▲ 소셜미디어에서 유포되고 있는 정보. 검색할 때마다 격차가 큰 원인 탓에 일부 누리꾼들은 언론사가 수십만건에 달하는 기사를 삭제한 것으로 의심하고 있다.

▲ 소셜미디어에서 유포되고 있는 정보. 검색할 때마다 격차가 큰 원인 탓에 일부 누리꾼들은 언론사가 수십만건에 달하는 기사를 삭제한 것으로 의심하고 있다.


‘상세검색’을 활용해도 정확한 수치를 알 수 있는 건 아니다. 10일 오후 2시 기준 지난달 9일부터 지난 9일까지 관련 기사는 7만2826건으로 잡혔으나, 오후 2시40분에 재검색하니 7만2918건으로 오차가 생겼다. 심지어 이 결과를 최신순으로 정렬하면 7만3061건인데 오래된 순 정렬로 바꾸면 7만3066건으로 나타났다. 정렬 방식만 바꿨을 뿐인데 숫자가 변화한 것이다. 똑같은 ‘최신순’ 정렬이어도 페이지를 넘길 때마다 기사 수가 바뀌기도 했다.

이처럼 검색할 때마다 숫자가 바뀌는 이유 가운데 비교적 분명하게 드러난 원인은 ‘클러스터링’이다. ‘클러스터링’은 유사한 기사를 한 데 묶는 기술이다. 포털 네이버에서 기사를 검색하면 유사한 기사는 ‘클러스터링’으로 묶이는데 이렇게 묶인 기사는 통계에 반영되지 않는다.

실제로는 13건이 검색되더라도 이 가운데 3건의 기사가 클러스터링으로 묶여 있다면 네이버는 ‘10건’이라고 표시한다. 클러스터링은 검색어에 따라 변화하고, 시간이 흐르면서 묶이는 범주가 계속 변화하기 때문에 과거 시점을 검색해도 기사 수는 계속 변화한다. 다만 기사를 최신순, 오래된순으로 정렬하면 클러스터링이 풀려 비교적 정확도가 높은 통계를 낼 수 있다.

네이버는 “검색엔진에서는 색인한 총 문서 집합이 주기적으로 바뀌는데 색인 갱신 시점을 기준으로 직전과 직후의 총 문서수에 차이가 발생할 수 있다” “검색 효율성을 위해 유저의 검색결과를 캐싱하는데 시점에 따라 캐싱된 결과가 차이가 나기 때문에 총 문서수의 차이에 영향을 줄 수 있다”고 설명했다. 이 답변으로는 시점에 따른 차이를 설명할 수는 있지만 수십만건이라는 통계 결과에 대한 원인이 될 수 없다.


▲ 경기도 성남시에 위치한 네이버 본사. 사진=금준경 기자.

▲ 경기도 성남시에 위치한 네이버 본사. 사진=금준경 기자.


과거 사건과 조국기사 비교의 함정

일부 정치권 인사들과 누리꾼들은 조국 후보자를 향한 언론의 관심이 과도하다고 지적하며 황교안 한국당 대표가 법무부 장관 후보자일 때 기사 수, 세월호 참사 당시 기사 수 등과 비교했다.

이 경우 과거 사건과 현재를 비교하려면 대상이 동일해야 하는데, 대상에 따른 격차가 있다. 포털 제휴매체 가운데 전재료를 지급하지 않고 검색 결과에만 노출하는 ‘검색제휴’ 매체는 포털이 제휴 심사를 뉴스제휴평가위원회라는 외부기구에 넘긴 후 크게 늘었다. 2016년 3월 이전 포털 검색제휴 매체는 300여개였으나 2019년 9월 현재 640여개에 달한다. 전재료를 지급하는 CP매체의 경우 6곳이 늘었다. 즉 네이버 검색 결과에 잡히는 전체 매체 수가 황교안 법무부 장관 후보자 시절, 세월호 참사 당시와 비교해 2배 가량 늘었다.

언론사마다 포털에 제공하는 기사 기간이 다른 점도 감안해야 한다. 조선일보의 경우 1년 2개월, 중앙일보의 경우 1년 전 기사는 포털에 공급하지 않는 식이다. 즉 이들 언론에서 박근혜 정부 때 벌어진 사건에 대한 기사를 찾을 수 없기에 조국 후보자 이슈와 달리 과거 기사 수가 적게 나타날 수밖에 없다.

조국 이름의 특수성

조국 장관이 이름이 독특한 점도 검색 결과 정확도를 떨어뜨리는 데 일부 영향을 미쳤다. 네이버에서 ‘조국 후보’로 검색한 결과를 세부적으로 살펴보면 영남일보의 대구경북인 인터뷰 기사 가운데 “이병철 회장이 직접 ‘후보’들의 면접을 봤다. 문씨는 ‘조국’을 향한 애정도 여전했다”는 기사가 나온다. 스타뉴스 기사 “(배우) 폴 선형 리가 남자연기상 ‘후보’에 올라 한국에 방문하게 됐다고 밝히며 부모님 조국에서 인정받는다”는 내용도 검색 결과에 나온다. ‘조국’과 ‘후보’가 들어간 키워드지만 아무 관련 없는 기사들이다.


▲ '조국' '후보' 키워드가 모두 들어간 기사지만 조국 후보자와 아무런 관련 없는 기사들.

▲ '조국' '후보' 키워드가 모두 들어간 기사지만 조국 후보자와 아무런 관련 없는 기사들.


네이버 통계는 근거로 보기 힘들다


네이버의 설명만으로는 원인을 이해하기는 힘들지만 분명한 사실은 네이버에서 동일 조건으로 검색하더라도 다른 결과가 나올 수 있다는 점이다. 같은 언론사라도 과거 기사를 제공하지 않는 경우가 있으며 포털 제휴매체가 과거보다 늘어난 사실도 감안해야 한다. 상세검색 기능을 활용하더라도 대략적인 추이를 가늠하게 할 뿐 정확한 데이터가 될 수는 없다.

이번 논란은 언론, 정치권 등이 네이버 기사 검색결과 통계를 세부적으로 살펴보지 않은 상태에서 인용할 경우 부정확한 사실을 전달할 수 있다는 문제를 드러냈다. 물론 조국 장관에 대한 기사 수가 비상식적으로 많고 과도한 경향을 띄는 것은 바뀔 수 없는 사실이다.