평가의 새로운 방법: 빅데이터 기법, 네트워크분석 및 통계분석을 활용한 언론자료 분석

1. 서론

이번 평감 트렌드에서는 평가 및 감사를 수행할 때에 관련 이슈나 현황을 살펴보기 위하여 사용될 수 있는 언론자료에 대한 분석기법을 소개하고자 한다. 이러한 언론자료는 국민들의 현실 이해에 매우 중요하다고 할 수 있다. 언론의 강조점은 국민들의 현실 지각에 영향을 미치게 되기에 직・간접적으로 국민들의 인식을 어느 정도 파악할 수 있다는데 있다(박선희, 2001). 그런데 관련 언론자료를 개별로 살펴보기란 정말 힘들다. 설사 자료를 수집하였다고 하더라도 이를 분석하는 것이 쉽지가 않다.

여기서는 최근에 논의되고 있는 빅데이터 기법을 활용하여 문화재 부실관리의 실태와 원인에 대해 살펴보고자 한다. 부실실태와 원인을 살펴보기 위해서는 이와 관련된 프레임(frame) 즉, 틀이 필요하다. 아래는 문화재 부실관리 원인을 바라는 보는 틀로서 유형화와 조작적 정의를 담고 있다.

<표 1> 문화재 부실관리 원인의 유형화 및 조작적 정의

1.png

2. 자료수집방법

대용량의 언론자료를 어떻게 수집할 것인가? 많은 방법이 있겠지만 그 중에서 웹 크롤링 기법을 사용할 수 있다. 웹 크롤링은 검색 엔진에서 모든 페이지의 복사본을 생성하는 것을 의미한다. 대용량의 언론 기사를 프로그래밍 기법을 활용하여 원하는 자료를 수집할 때 사용하며, 웹 크롤링을 지원하는 import.io 사이트를 접속하여 수행한다.

구글 사이트에서 정해진 기간 내 조사 대상 문화재별 관련 언론 기사에 대하여 키워드(문화재 명칭) 검색을 수하면 된다. 이런 방식으로 문화재와 관련된 언론 기사는 38,209건을 수집할 수 있었다. 이 중에서 중복기사를 제외할 경우 4,403건이 되며, 이에 대하여 내용분석을 실시하여 문화재 부실관리와 관련된 기사를 추출하였다. 최종적으로 도출된 기사는 180건이 된다.

3. 자료분석

1) 워드 클라우드(word cloud)

워드 클라우드 방법은 비 정형 데이터에서 자주 출현하는 단어들을 시각적으로 보여주는 대표적인 방법이다. 언론 기사의 핵심 된 이슈는 제목으로 표출될 가능성이 큰데 이를 워드 클라우드 기법을 활용하여 살펴봄. 분석을 위한 툴(tool)로서 R 통계패키지를 사용한다.

전체 문화재 부실관리 관련 보도자료 제목으로 워드 클라우드(단어 구름) 분석을 실시하였다. 출현 빈도(frequency)가 많은 단어의 경우 글씨가 크게 나타나는데 이를 통하여 핵심 이슈나 트렌드를 확인할 수 있다. 특히, 언론 보도에 있어서 제목(title)은 핵심 된 문제나 상황을 표현하기 때문에 문화재 부실관리에 대한 언론에서의 핵심 된 논의를 파악할 수 있다.

<그림 1> 워드 클라우드

2.png

2) 네트워크 분석

네트워크 분석은 부실관리의 원인 간의 관계를 시각적으로 살펴볼 수 있는 방법으로서 조사 대상 문화재별 특성을 살펴보고자 한다. 네트워크 분석을 위하여 UCINET 프로그램 사용한다.

문화재 부실관리의 언론보도 사례에 대한 문화재 부실관리의 원인의 특성을 살펴보기 위하여 네트워크 분석을 실시하였다. 각 사례는(cases, 아래 그림에서 번호는 사례를 나타냄)

한 개의 부실관리의 원인이 있거나 혹은 2~3개 그 이상의 원인들로 구성될 수 있다. 네트워크 분석에서 문화재 부실관리의 원인과 사례 간의 관계를 보여주는 연결 중심성(degree centrality) 그래프를 살펴보면 9가지 원인들이 복잡하게 연계되어 있음을 알 수 있다. 이는 문화재 부실관리의 원인이 상호 연계되어 있음을 의미한다.

<그림 2> 연결 중심선 그래프

3.png

3) 통계 분석

통계 분석은 SPSS(version 22.0) 통계 프로그램을 이용하여 데이터의 특성을 간명하게 설명하기 위하여 빈도분석과 기술통계량 분석 그리고 분산분석을 실시하였다.

빈도분석과 기술통계량 분석을 통하여 문화재 부실관리에 관한 언론 보도자료의 연도별 추이를 살펴보면 해가 갈수록 증가하고 있음을 알 수 있었다.

다음으로 국가지정문화재, 시・도지정문화재 및 등록문화재 간의 문화재 부실관리의 원인을 비교하기 위하여 분산분석(ANOVA)을 실시하였다. 첫째, 외생적 환경(E)이 부실관리의 원인인 경우 국가지정문화재가 등록문화재에 비해 높게 나타났다. 둘째, 전문성(R)이 원인인 경우 국가지정문화재가 시・도지정문화재는 물론 등록문화재에 비해 높게 나타났다. 셋째, 법규 및 제도(M)에 의한 문화재 부실관리는 등록문화재가 국가지정문화재 및 시・도지정문화재에 비해 높게 났다.

<표 2> 문화재 유형별(국가, 시도, 등록) 문화재 부실관리 원인 평균비교

4.png

4. 결론

지금까지 웹 크롤링, 빅데이터 분석, 네트워크 분석 및 통계분석을 활용하여 언론자료를 분석하였다. 이러한 분석은 현황을 파악하고, 이슈를 발견하는데 도움을 준다. 특히, 평가와 감사를 수행하는 담당자 입장에서 다양한 방법론을 익히게 된다면 그 효과가 클 것으로 예상된다. 하지만 새로운 방법론에 대한 막연한 두려움으로 인하여 이를 활용하겠다는 생각조차 못하는 것이 현실일 수 있다.

필자가 제언하고 싶은 것은 다음과 같다. 자동차를 운전하는 것과 자동차의 모든 부품을 알고 운전하는 것이 다를 것인데, 일반적으로 자동차를 운전할 수 있는 역량이 필요하다는 것이다. 앞에서 말하고자 하는 바로 전환한다면 방법론을 활용하는데 초점을 맞춘다면 오히려 쉽게 접근할 수 있을 것으로 본다. 그래서 방법론의 원리는 후에 익히더라도 방법론을 사용하는 목적에 대해서 관심을 갖고, 이를 활용한 결과에 관심을 갖고서 간단한 운영법을 익혀서 사용하기를 제언한다. 이를 통하여 보다 객관적이고, 공정한 평가와 감사 결과가 도출되기를 희망한다.