사진제공|반크

사진제공|반크


사이버외교사절단 반크와 경기도는 14일 ‘빅테크 AI 평가 지표 개발을 위한 전략 세미나’를 공동 개최했다.

양 기관은 12월, 정확한 지역 정보를 기반으로 한 ‘주권 AI(Sovereign AI)’ 실현을 목표로 ‘글로벌 AI 대사’ 양성을 위한 업무협약(MOU)을 체결한 바 있다. 이번 세미나에서는 향후 협력 방향과 구체적 실행 방안을 논의했다.

이날 세미나에서 김예래 반크 청년연구원은 ‘글로벌 AI 대사’ 1기 모집 결과와 지난 10일 열린 메타버스 발대식 주요 성과를 발표했다.

그는 “이번 프로젝트의 핵심은 생성형 AI가 만들어내는 한국과 경기도 관련 정보의 오류 및 편향을 시민이 직접 점검하고, 이를 바탕으로 빅테크 AI 평가 지표를 개발해 공공데이터 기반의 신뢰할 수 있는 AI 생태계를 구축하는 것”이라고 설명했다.

‘글로벌 AI 대사’ 프로그램에는 총 227명이 지원했으며, 초등학생부터 직장인까지 다양한 연령층과 국적의 참여자가 포함됐다. AI 전공자, 교육계 종사자, 금융권 전문가 등 폭넓은 직업군이 함께 참여해 시민이 주도하는 AI 정보 검증 및 평가 지표 개발 모델의 가능성을 보여줬다.

김 청년연구원은 한 달간의 핵심 활동 계획을 소개하며 “참여자들은 실제 빅테크 AI 개별 시정활동을 추진하고, 반크는 이를 기반으로 편향 사례를 분석하고, 공공데이터 기반의 평가 지표를 준비해나갈 예정”이라고 밝혔다. 이어 “이러한 활동을 통해 도 차원에서도 시민이 직접 발굴한 AI 내 공공정보 오류를 기반으로 공공데이터 보완과 활용 정책을 구체화할 수 있을 것”이라고 전망했다.

마지막으로 그는 “1기 활동을 시작으로, 글로벌 AI 대사 양성 사업을 정례화해 시민 참여 기반의 빅테크 AI 검증·평가 체계를 지속해서 확립해 나가겠다”고 덧붙였다.

다음으로 이세연, 백시은 청년연구원은 ‘생성형 AI 성능평가지표’ 구축 필요성을 주제로 발표를 진행하며, 지방정부 차원의 AI 신뢰 기준 마련을 제안했다. 

이세연 청년연구원은 “AI가 인간의 일상과 행정 전반에 깊숙이 자리 잡은 지금, 중요한 질문은 ‘어떤 AI를, 어떤 기준으로 신뢰할 것인가’의 문제”라고 강조했다. 그는 생성형 AI 성능평가지표를 “동일한 질문과 조건에서 AI의 응답을 체계적으로 비교·검증해 행정·정책·공공정보 제공에 적합한 정확성과 유용성을 평가하는 체계”로 정의했다.

이어 “이 지표는 단순한 기술 성능 측정이 아니라, 사람 중심의 AI 구현이라는 관점에서 도민의 실제 활용 맥락을 반영하는 평가 체계”라며, 공공 분야에서 AI 신뢰성 검증의 중요성을 강조했다.

그는 이 지표의 필요성을 ▲사람 중심의 인공지능 구현 ▲공공서비스 품질 제고 ▲행정 효율성 강화 ▲경기도 맞춤형 AI의 기술 신뢰성 확보 측면에서 설명하며, “공공 분야의 목표와 영역을 명확히 설정하고, 그 기준을 충족한 AI를 ‘경기도 공공 AI’로 활용할 수 있는 구조가 가능해진다”고 밝혔다.

그는 또한 “글로벌 차원에서 구글·스탠퍼드의 MLPerf, UC버클리의 MMLU, OpenAI의 HumanEval 등 글로벌 벤치마크가 사실상 성능평가 기준으로 활용되고 있다”며, 국내에서는 KMMLU(한국어 버전 MMLU)와 NIA의 Open Ko-LLM 리더보드 시즌2가 대표적 사례라고 소개했다. 그는 “특히 Open Ko-LLM은 정보 정확성뿐 아니라 감정적 맥락 이해, 사회적 가치 정합성까지 평가해 향후 경기도형 공공 AI 평가 기준 설계에 참고할 만하다”고 설명했다.

이어 “다만 기존 지표들은 수학·과학 등 전문 영역에 집중되어 있어, 지역의 역사·문화·인문 정보 등 공공 분야를 평가할 기준이 부재하다”며, “AI 평가지표의 주도권이 글로벌 기업에 집중된 현실 속에서 경기도가 지방정부 주도의 평가 기준을 선도적으로 설계해야 한다”고 강조했다.

마지막으로 그는 “글로벌–국가–지자체가 연계되는 3중 구조의 평가지표 모델을 구축해, 국제적으로 통용되면서도 지역 행정에 실질적으로 활용할 수 있는 경기도형 지표를 개발해야 한다”고 제안했다. 또한 “정책·행정 정보는 정확도 중심의 루브릭 방식, 역사·문화 영역은 맥락 이해 중심의 스케일 방식으로 병행해 운영하며, 경기도의 사회적 가치와 지역 특성을 반영한 질문 설계가 필요하다”고 구체적 방향을 제시했다.

이어진 발표에서 백시은 청년연구원은 생성형 AI 성능평가지표의 구체적 구조와 방향을 제시했다.

백 청년연구원은 “AI의 영향력이 사회 전반으로 확산하고 있지만, 현재 사용되는 대부분의 성능평가지표는 해외 빅테크 기업 중심으로 설계되어 있어 한국어와 지역 문화의 맥락을 제대로 반영하지 못한다”고 설명했다.

이어 “해외 벤치마크를 그대로 차용할 경우 번역 오류와 문화 편향이 발생해 한국형 AI의 성능을 객관적으로 평가하기 어렵다”며, “국내 최대 규모의 지자체이자 AI국 신설, 피지컬랩 도입 등 AI 행정을 선도하고 있는 경기도가 지방정부 차원의 평가지표를 구축하는 것은 기술 주권 확보의 중요한 전환점”이라고 설명했다.

그는 경기도형 AI 성능평가지표의 핵심 항목으로 ▲내용 정확성 ▲데이터 활용도 ▲최신성 세 가지를 제안했다.

먼저 내용 정확성은 역사·문화·유산의 맥락과 가치를 얼마나 충실히 반영하는지를 평가하는 항목이다. 그는 AI가 ‘수원화성’을 단순히 “건축 당시의 모습이 잘 보존된 유산”으로만 서술한 사례를 제시하며, “유네스코 등재의 핵심 근거인 일제강점기 훼손과 『화성성역의궤』를 기반으로 한 복원 과정을 빠뜨리는 것은 역사적 가치의 축소로 이어진다”고 설명했다. 이러한 오류를 방지하기 위해 “역사·문화·유산 분야에서는 필수적으로 포함해야 할 핵심 키워드와 내용을 지표에 명시하고, 이를 기준으로 정성 평가를 수행해야 한다”고 제안했다.

둘째, 공공데이터 활용도는 AI가 경기도의 공식 데이터 포털 정보를 반영하고 출처를 명확히 밝히는지를 평가한다. 그는 “AI가 공공데이터를 기반으로 정보를 제공할 경우 할루시네이션 현상이 줄고, 오류 발생 시 책임 소재를 명확히 할 수 있다”며, “정책·행정 분야의 서술은 특히 이러한 데이터 활용 평가가 필수적”이라고 설명했다. 

셋째, 최신성은 정책 및 제도의 변경 사항을 AI가 얼마나 신속하게 반영하는지를 측정한다. 그는 ‘경기도 누구나돌봄 서비스’의 확대 사례를 언급하며, “일부 AI가 최신 정책 변화를 반영하지 못해 도민 혼선을 초래할 수 있다”며, “AI가 지방정부의 최신 데이터를 얼마나 수집·활용하고 있는지를 함께 평가하는 체계가 필요하다”고 덧붙였다.

또한 그는 “역사·문화 분야처럼 맥락 이해가 중요한 영역은 정성적 범위 평가(스케일 평가), 정책·행정 분야처럼 객관적 수치 분석이 가능한 영역은 정량적 루브릭 평가를 적용해, 정성·정량이 결합된 혼합형 이중 평가 체계를 구축해야 한다”고 제안했다.

마지막으로 그는 “이번 사업은 지방정부가 직접 주도하는 최초의 생성형 AI 평가지표로, 지자체형 소버린 AI 실현 모델이자 향후 타 지자체로 확산할 수 있는 기반이 될 것”이라며, “나아가 데이터 주권 확립이 어려운 국가들과의 국제협력 모델로 확장해 글로벌 소버린 AI 확산의 초석을 마련할 수 있을 것”이라고 강조했다.

권소영 연구원은 ‘경기도민 글로벌 AI 홍보대사 양성 사업’과 ‘글로벌 AI 대사 활동 on-off 전시회’ 안건을 발표했다. 

권 연구원은 “청년과 청소년을 중심으로 한 글로벌 AI 대사 활동을 경기도민 참여형 사업으로 확장할 필요가 있다”며, 경기도 산하 전문기관과의 연계를 통한 지역 기반 AI 인재 양성 모델 구축의 필요성을 강조했다. 이를 위해 경기도 공공도서관, 경기평생교육진흥원, 경기콘텐츠진흥원 등 주요 기관과 협력해 반크는 AI 오류 탐지 및 경기도 홍보 역량 강화를 위한 강의를 진행하고, 경기도는 산하 기관을 통한 AI 대사 양성 지원, 봉사 점수 인정 등 참여 독려 방안을 추진할 것을 제안했다.

또한 그는 글로벌 AI 대사 활동의 우수 사례를 경기도민과 공유하기 위한 온·오프라인 전시회 개최 방안을 제시했다. 그는 “AI 대사들의 활동 성과를 공공도서관 등 생활 밀착형 공간에 전시함으로써, 대한민국 국민 누구나 AI 대사로 참여할 수 있는 사회적 공감대를 형성할 수 있다”고 설명했다.

이어 구승현 연구원은 ‘대학 협력 글로벌 AI 대사 과목 개설’을 주제로 발표를 진행했다. 구 연구원은 “AI가 국가와 지역 이미지를 형성하는 시대에, 대학이 중심이 되어 AI 공공외교 및 AI 시민교육 모델을 구축할 필요가 있다”며, 도내 대학들과 협력해 ‘글로벌 AI 대사’ 과목을 개설할 것을 제안했다.

그는 반크가 실제 수업에서 ▲생성형 AI의 문화·역사 왜곡 사례 교육 ▲AI 분석 실습 및 오류 탐지 워크숍을 운영할 수 있으며, ▲학점 및 자원봉사 인증 프로그램 ▲AI 해커톤 프로젝트를 연계 운영할 수 있다고 설명했다.

특히 그는 “반크에서 제안하는 ‘AI 해커톤’은 코딩 중심이 아닌 콘텐츠 기반의 해킹 대회로, 참가자들이 잘못된 정보·편향된 데이터·왜곡된 이미지를 찾아내고 이를 바로잡는 AI 기반 콘텐츠나 캠페인 솔루션을 단기간에 제작하는 형태”라고 소개했다.

그는 “이러한 과정을 통해 경기도를 중심으로 ‘AI 시대 공공외교 허브 대학 모델’을 구축할 수 있을 것”이라고 강조했다.

박기태 반크 단장은 이번 세미나에서 “AI 시대의 핵심 경쟁력은 기술 그 자체가 아니라, AI가 학습하는 데이터의 신뢰성과 다양성에 있다”며, “시민이 AI 속 잘못된 경기도 정보를 인식하고 판단하기 위해서는 우선 시민이 접할 수 있는 정확한 경기도 데이터셋이 선행돼야 한다”고 강조했다.

그는 “AI 평가지표 구축의 출발점은 결국 데이터”라며, “도의 역사·문화·정책 등 핵심 주제를 중심으로 대표 문제은행을 구축해, 이를 기반으로 공공 AI의 학습 및 평가 기준을 마련해야 한다”고 설명했다. 이어 “이러한 데이터셋이 확보되어야 시민들이 AI의 오류를 인식하고, 스스로 판단할 수 있는 AI 리터러시 기반의 시민 참여 구조가 완성된다”고 덧붙였다.

또한 박 단장은 “이번 글로벌 AI 대사 1기 모집부터 발대식, 활동 성과에 이르는 모든 과정을 기록·홍보 콘텐츠로 제작해, 앞으로 양성 과정에서도 지속 가능한 시민 참여 모델로 발전시킬 계획”이라고 밝혔다.

그는 나아가 “2억 명이 넘는 한류 팬이 한국의 문화를 사랑하는 시대에, 이제는 한국의 정책과 공공가치까지 세계의 관심 영역으로 확장돼야 한다”며, “한류가 문화적 매력을 넘어, AI 시대의 윤리와 공공정책을 함께 나누는 글로벌 가치 플랫폼으로 성장해야 한다”고 전했다.

이어진빛 경기도 AI프런티어정책과장은 “AI가 행정과 시민 생활 전반에 깊숙이 자리 잡은 지금, 지방정부가 주체적으로 공공 AI의 신뢰 기준과 윤리 체계를 마련하는 것은 매우 중요한 과제”라고 밝혔다. 이어 과장은 “경기도는 대한민국에서 가장 많은 공공데이터를 보유하고 있으며, 행정 전 과정에서 AI 활용이 빠르게 확산하고 있는 지역”이라며, “이제는 AI를 단순한 기술이 아니라 도민의 삶의 질을 높이는 정책 플랫폼으로 바라봐야 한다”고 강조했다.

마지막으로 그는 “경기도는 기술의 속도를 좇는 지방정부가 아니라, 기술의 방향을 설계하는 지방정부가 되겠다”며, “이번 반크와의 협력을 시작으로, 도민이 신뢰하고 세계가 주목하는 지방정부 주도형 소버린 AI 모델을 만들어가겠다”고 전했다.


이수진 기자 sujinl22@donga.com