영화가 현실로…‘보고 듣고 말하는 AI’ 나온다

14일(현지시각) 미국 캘리포니아 마운틴뷰에서 열린 연례 개발자 회의 ‘구글 I/O 2024’에서 새로운 AI를 소개하고 있는 순다 피차이 구글 CEO. 사진제공｜구글

한층 강화된 멀티모달 AI 기술 연이어 공개

구글 ‘제미나이’ 최신 버전 선보여
대화하듯 더 복잡한 검색도 가능
오픈AI 새모델 GPT-4o 베일벗어
사람표정 읽거나 수학문제 풀수도

영화 ‘her’ 속의 ‘사만다’, ‘아이언맨’ 시리즈의 ‘자비스’ 같은 ‘보고, 듣고, 말하는’ 인공지능(AI)이 온다. 글로벌 빅테크 기업들이 최근 한층 강화된 멀티모달 AI 기술을 연이어 공개했다. 멀티모달이란 텍스트를 인식해 텍스트로 답하던 것에서 벗어나 청각이나 시각 등 다양한 데이터를 이해하고 처리할 수 있는 AI를 말한다. 여기에 추론 성능과 반응 속도도 높여 마치 사람과 대화하 듯 정보를 얻을 수 있다.

●‘멀티모달’이란

텍스트를 인식해 텍스트로 답하던 것에서 벗어나 청각이나 시각 등 다양한 데이터를 이해하고 처리할 수 있는 AI

●구글 ‘제미나이’ 검색에 적용

구글은 14일(이하 현지시각) 미국 캘리포니아 마운틴뷰에서 연례 개발자 회의 ‘구글 I/O 2024’를 열고 새로운 AI 기술을 대거 선보였다.

먼저 구글은 이날 AI모델 ‘제미나이’의 다양한 최신 버전을 공개했다. 최상위 모델인 ‘제미나이 1.5 프로’의 경우 데이터 및 알고리즘 개선을 통해 코드 생성, 논리적 추론 및 계획, 멀티턴 대화, 오디오 및 이미지 인식 성능이 크게 향상됐다는 것이 구글 측 설명이다.

구글은 이날 검색 등 다양한 서비스에 ‘제미나이’를 탑재한다고도 밝혔다. 구글 검색에 새 제미나이 모델을 결합하면 단순 단어 검색을 넘어 AI 챗봇과 대화하듯 더욱 복잡한 검색도 가능하다. 또 이미지 검색을 넘어 비디오 검색까지 가능해질 전망이다.

구글은 이날 멀티모달 AI 에이전트 비전을 담은 ‘프로젝트 아스트라’도 공개했다. 일부 기능을 연내 제미나이 앱 등에 선보일 예정이다. 프로젝트 아스트라는 텍스트, 이미지, 영상, 음성 등 다양한 정보를 이해하고 처리하는 능력을 갖춘 AI 에이전트를 개발하는 프로젝트다. 특히 음성 모델을 활용해 자연스러운 대화와 빠른 반응 속도를 구현하는 데 집중했다. 구글은 이런 멀티모달 기술을 기반으로 모바일 기기나 스마트 안경을 통해 언제 어디서든 전문적인 도움을 제공하는 미래 AI 비서를 구현한다는 계획이다.

●오픈AI는 ‘GPT-4o’ 공개

오픈AI는 이보다 하루 앞선 13일 새 AI모델 ‘GPT-4o’를 공개했다. GPT-4o에서 ‘o’는 ‘모든’을 뜻하는 ‘옴니’(omni)의 앞글자에서 따왔다. GPT-4o는 기존에 비해 처리 속도가 2배가량 빨라진 것이 특징이다. 음성 반응 속도가 빠른 경우 232ms(밀리초·1000분의 1초), 평균 320ms로, 사람이 실제로 대화할 때와 비슷한 수준을 구현했다. 이를 통해 보다 자연스러운 대화가 가능하다는 게 오픈AI 측 설명이다. 또 새로운 AI는 문자는 물론 이미지와 음성을 모두 인식한다. 카메라를 이용해 사람의 얼굴 표정을 읽거나, 수학문제를 풀 수도 있다.

김명근 스포츠동아 기자 dionys@donga.com 기자의 다른기사 더보기

영화가 현실로…‘보고 듣고 말하는 AI’ 나온다

뉴스스탠드