매일같이 인공지능의 발전에 놀라고 있는 요즘, 이러한 혁신의 중심에 있는 산업 중 하나는 검색 산업입니다. 23년 2월 GPT 모델을 MS 검색 서비스 빙에 적용되는 것을 시작으로 구글과 우리나라의 네이버까지 이제 생성형 AI는 검색에 자연스럽게 들어오기 시작했습니다.

회원가입을 하면 원하는 문장을
저장할 수 있어요!

현재까지 AI검색에서 구글 SGE가 가장 좋은 이유

이성규

12분

2024.03.27.

생성형 AI 검색 서비스 별 검색 경험 비교 기준 4가지

비교한 AI 검색 서비스 6가지는 다음과 같습니다. 각 서비스별로 여러 유형의 질의어(query) 들을 던져 결과를 받아보면서, 그 차이를 직접 비교해 보았습니다.

여기에서 비교해본결과를 확인해보실 수 있어요. 물론 이 실험은 학술적으로 정교하게 설계된 것은 아니며, 제 주관적인 평가이기 때문에 객관적인 의미를 크게 부여할 수는 없다고 생각합니다. 그래서 개별 서비스 별로 정확한 내용을 이 글에서 상세히 언급하지는 않겠습니다.

제가 중요하게 살펴본 평가 요소는 아래와 같았습니다.

결과 품질: 질의어를 제대로 이해하고 그에 합당한 결과를 제시하는가. 장황하고 추상적인 내용보다는 간결하면서도 중요한 내용을 빼놓지 않고 언급하는 게 중요하다고 보았습니다. 그리고 적당한 이미지가 추가되거나 표시 형식에 있어서 일목요연하게 제공되는지, 제공하는 결과의 표현 방식도 하나의 품질로서 중요하게 보았습니다.
신뢰도: 출처를 잘 표시하는지, 그 출처가 공신력이 있는 곳들인지, 질의 성격에 맞게 최신 정보를 출처로서 가져오는지를 고려했습니다.
UX: 응답 결과 외에도, 생성형 검색에서는 일반적으로 적합한 후속 질의어를 추천하는 경우가 많습니다. 이러한 후속 질의어가 적절한지를 보았습니다. 또한 연관된 콘텐츠의 링크를 추가로 제공하는 경우, 그 콘텐츠가 질의에 적합할 경우 ‘플러스’ 요소로 보았습니다. 예를 들어 적합한 상품 페이지가 제공되는지, 결괏값이 장소인 경우 지도 연동을 하는지 등을 확인했습니다.
속도: 질의 입력 후 응답 결과를 보는 데까지 걸리는 속도를 측정했습니다.

종합적인 결론을 먼저 이야기하면, 저는 “구글이 생성형 AI 검색 시대에도 최강자이고 그 수준도 타 서비스를 압도한다”고 판단했습니다. 물론 모든 평가 요소, 모든 질의어 유형에 대해 구글 SGE 결과가 좋았던 것은 아닙니다. 그럼에도 왜 구글 SGE가 압도적으로 우위가 있다고 판단하게 되었는지 살펴보겠습니다.

1. 검색은 완벽한 문장을 입력하지 않아도 잘 작동해야 합니다

우리는 검색을 거의 생활의 일부인 것처럼 자주 이용합니다. 그만큼 익숙한 행동이지만, 그 검색의 목적은 각각 매우 다양한데요. 예를 들어 구글에서 “네이버”, “CGV”와 같은 특정한 브랜드명을 검색할 때는 정확히 그 타깃 페이지로 이동하기를 목적으로 하는 경우(일명 navigational search)가 많습니다.

또 확정적으로 원하는 액션이 있는 경우(일명 transactional search)도 있는데요. 그 액션을 가능하게 하는 링크 페이지가 나타난다면 그 검색의 목적이 만족됩니다.

이렇게 원하는 결과의 형태를 알고 있는 상태에서 검색을 한다면, 분명 구글, 네이버 등에서 원하는 결과를 충분히 빠르게 얻을 수 있습니다. 그래서 이러한 검색 니즈가 존재하는 한 기본적인 검색 서비스를 바꾸는 것은 쉽지 않습니다. 물론 이러한 유형의 검색과 다른 목적을 지닌 검색을 구분해서 검색 서비스를 사용하면 되지만, 이는 쉽지 않습니다.

저는 이렇게 원하는 결과를 알고 있는 상태에서 하는 검색은 비교 대상에서 제외하고, 정보 혹은 지식을 구하고자 검색하는 경우만 한정해서 생성형 AI 검색 결과를 비교하였습니다.

완결형 문장이 아닌 키워드로 검색하는 습관

우리는 검색어를 입력할 때 완결형 문장이 아닌 키워드를 입력하는 것에 익숙합니다. 챗봇 스타일의 검색 서비스에서는 완결형 문장으로 질의하도록 유도하지만 우리의 습관은 그에 익숙하지 않죠. 이렇게 된 데에는 여러 이유가 있는데요. 다양한 검색 목적을 하나의 검색창을 통해 질문하기 때문이기도 하고, 타이핑의 번거로움을 줄이기 위해서이기도 합니다.

보다 원론적으로는, 사실 문장의 길이가 긴 자연어 형태로 질문 내용을 구체적으로 작성하려면, 내가 궁금한 것이 무엇인지 스스로 정확히 이해하고 있어야 하는 점 때문입니다.

앞서 말한 ‘원하는 결과의 형태를 알고 있는 검색’ 과 달리, 우리는 궁금한 것을 완벽하게 떠올리지 못한 상태에서 ‘탐색형’으로 검색할 때가 아주 많습니다. 단순히 ‘A’에 대해서 알고 싶다는, 어떤 결과를 얻을지 모호한 상태에서 검색하는 거죠. 이런 탐색 목적으로 검색을 이용하게 되면 단순히 하나의 검색 결과로만 질의를 만족시키기는 현실적으로 더 어렵습니다. 검색창에서 여러 개의 결과가 제안되고 나면, 그 안에서 비로소 내가 어떤 것을 원했는지도 알게 되는 것이죠.

이용자들의 이러한 검색 습관을 커버하지 않고, 이용자가 오직 궁금한 것을 확실히 정의하고 완결형으로 질문할 수 있을 때만 좋은 검색 결과를 얻을 수 있도록 설계된 제품은 품질 면에서 큰 격차를 만듭니다.

기존 검색 결과에 너무 익숙한 우리

그래서 저는 현재 생성형 AI 검색 결과는 구글 SGE처럼 기존 검색 결과 중 하나로서, 필요에 따라 추가적으로 제공되는 방식이 합리적이라고 생각합니다. (물론 이것이 가능하려면 UX 디자인뿐 아니라 빠른 결과 생성 속도 등 기술적으로도 구현이 가능해야 합니다.)

여기서 제가 강조하고 싶은 부분은우리가 생각하는 검색 중 탐색형 검색의 비중을 고려할 때 완전한 문장형 질의가 아니어도 생성된 결과의 품질이 좋아야 한다는 것입니다.왜냐하면 우리는 정확한 문장으로 질문을 하기에는 모르는 것이 많아서 검색을 하는 경우도 많기 때문입니다.

네이버 Cue: 공식 페이지 활용방법 가이드. 구체적이고 명확한 질문, 완결형 문장으로 질문을 입력해야 더 좋은 결과를 얻을 수 있다고 가이드 하고 있습니다. (출처: 네이버)

저는 키워드형 질의어를 여러 개 실험해본 결과, 완결형 문장 입력을 유도하고 있는 MS 빙 코파일럿, 네이버 큐, 퍼플렉시티, 유닷컴 등 챗봇 스타일 서비스는 구글이나 아크와 같이 기존 검색 UX에서 결과를 그대로 보여주는 경우보다 품질 만족도가 떨어진다고 느꼈습니다.

Google SGE “Football manager Klinsmann”에 대한 질의 결과 (출처: 구글SGE, 작가 캡처)

“축구감독 클린스만"(English “Football manager Klinsmann”)이라는 키워드를 입력해 얻은 검색 결과를 비교해보면, 구글 SGE는 영어로 질의하는 경우와 한글로 질의하는 경우 모두 동일하게 최근 클린스만 감독이 한국에서 해임된 것을, 구체적인 연관 정보, 날짜 등과 함께 보여주었습니다. 그 외에 클린스만 감독에 대한 일반적인 정보도 첨부되었고, 각 정보의 출처도 적절하게 제공했습니다.

퍼플렉시티 “축구감독 클린스만”에 대한 질의 결과 (출처: 퍼플렉시티, 작가 캡처)

네이버 큐 “축구감독 클린스만” 에 대한 질의 결과 (출처: 네이버, 작가 캡처)

반면 퍼플렉시티의 경우, 영어로 질의할 경우 한국에 대한 언급이 아예 제공되지 않았으며, 한글로 검색한 결과에서는 간단하게 ‘해임되었다’는 부분이 서술됩니다. 네이버 Cue:의 경우 인물 정보를 기반으로 답변이 제공되며 별도의 설명은 제공되지 않았습니다.

2. 질의에 적합한 다양한 형식의 콘텐츠를 결과로 제시합니다

같은 질의어로 검색한다 해도, 누구에게나 동일한 콘텐츠를 보여주는 것이 정답은 아닐 수 있습니다. 심지어 동일한 사람이라도 검색어 안에 모든 의도를 담아내는 것은 불가능하므로 한 개의 완벽한 정답이 존재하기도 쉽지 않습니다. 또 위에서 언급한 것처럼 ‘탐색형’ 목적을 가진 검색인 경우, 더욱 한 가지 결과로만 사용자를 만족시키기는 어렵습니다.

그래서 생성형 AI 검색 결과는 기존 검색을 통해 제공받을 수 있는 수많은 콘텐츠(링크)와 함께 또 하나의 콘텐츠일 뿐입니다. 또 어떠한 질의는 아무리 결과를 잘 만들어도 더 좋은 오리지널 콘텐츠가 존재할 수밖에 없기도 합니다. 예를 들어 ‘A 방법’(howto)을 검색했을 때 텍스트 콘텐츠가 아무리 잘 생성되어도, 관련된 동영상이 더 잘 만들어져 있다면, 그 영상을 바로 보는 것이 더 좋을 때도 많습니다. 그래서 요즘에는 유튜브나 틱톡을 검색하는 경우가 많아지기도 하죠.

이러한 여러 가지 이유로 생성형 AI 검색 결과는 아무리 AI 수준이 높아진다 하더라도 기존 검색 결과 보다 항상 좋은 결과를 보일 수는 없습니다. 결국 생성형 AI 검색 결과는 기존 검색 결과와 함께 경쟁하는 상품 중 하나죠. 사용자는 지금 무엇이 제일 원하는 결과인지에 따라 콘텐츠를 골라 이용하면 됩니다.

그래서 저는 검색 산업에서 생성형 AI의 검색 결과는 유통 산업에서의 PB 상품과 유사한 점이 있다고 생각합니다. 앞으로 모든 검색 서비스마다 PB 상품을 들여놓게 되는데, 그 PB 상품의 경쟁력이 그 검색 서비스를 이용하는 데 매우 중요한 역할을 하게 될 거라고 봅니다. 진열된 위치도 제일 좋은 곳에서, 그것도 여타 상품 보다 일관적인 형태로 제공되기 때문에, 일정 이상의 품질을 보장한다는 신뢰성이 확보되면 분명 웬만한 상품들 보다 훨씬 많은 유저들에게 선택받게 될 것이 분명합니다.

이러한 생성형 AI 결과가 타 상품들(콘텐츠들) 대비 경쟁력을 갖추려면, 질의에 맞게 콘텐츠 형식이 유연하게 바뀔수록 좋습니다. 단순히 어떤 질의에 대해서든 동일하게 텍스트 문장만 나열해서는 경쟁력이 없겠죠. 그런데 현재 다양한 질의에 따라 응답 콘텐츠의 표현 형식이 전체적으로 유연하게 바뀌는 것은 ‘구글 SGE’ 와 ‘네이버 큐’ 뿐입니다. 다만 네이버의 경우 ‘쇼핑’과 ‘장소’라는 버티컬 데이터를 활용할 수 있는 일부 영역에서만 지원할 뿐이었습니다.

구글 SGE의 경우 매우 다이내믹한 형식을 질의 유형에 맞추어 제공합니다. 아래 이미지를 통해 보겠습니다. (참, 구글 SGE 한국어의 결과는 여기서 언급한 다양한 포맷을 지원하지 않습니다. 영어를 주언어 변경해 사용할 때만 제대로 다양한 포맷으로 결과를 생성합니다. 그리고 영어로 검색해야 포맷뿐 아니라 결과의 품질 역시 월등하게 좋아집니다.)

구글 SGE 검색결과

Google SGE: Apple vision pro 리뷰 취합 분석. 의미를 고려해서 장점 단점을 컬럼 형식으로 구분해서 표시했다. (출처: 구글 SGE, 작가 캡처)

Google SGE: 맥북에 어울리는 모니터 추천. 추천하는 상품 모델명과 추천 이유, 출처를 설명하고, 바로 상품 페이지도 이동도 가능한데, 그보다 중요할 수 있는 해당 상품 별로 리뷰 목록도 링크와 함께 제공한다. (출처: SGE, 작가 캡처)

Google SGE: 당근 케이크 레시피. 생성 결과도 제공되지만, 더 좋은 결과 페이지가 있다면 이에 대한 요약을 제공하거나 영상 (핵심 구간 까지 짚어서) 바로 재생 가능하다. (출처: SGE, 작가 캡처)

Google SGE: 한국 서울 내 핫한 거리 목록 추천. 해당 지도 페이지, 왜 그 거리가 핫한지에 대한 출처 등을 제공(출처: 구글SGE, 작가 캡처)

타 서비스 검색결과

퍼플렉시티: 한국 서울 내 핫한 거리 목록 추천. 검색 결과가 구글에 비해 단조롭다 (출처: 퍼플렉시티, 작가 캡처)

네이버 큐: 한국 서울 내 핫한 거리 목록 추천 (출처: 네이버, 작가 캡처)

아크 브라우즈 포 미: 한국 서울 내 핫한 거리 목록 추천(출처: 아크서치, 작가 캡처)

구글 SGE(영문 버전)의 검색 결과에서는, 각각 질의어의 유형에 따라 적절하게 최적화된 형식으로 이미지, 영상, 상품 정보, 지도 등을 조합해 서로 다르게 표현해줍니다. 다른 대부분의 생성 AI 결과는 단순히 텍스트 문장으로 나열하고, 때에 따라 표나 목록 그리드 정도를 추가해 보여주죠. 이 때문에 구글 SGE가 결과를 표현하는 방식에서도 뛰어나다고 봅니다.

3. 속도가 빠릅니다

PB상품이 가장 화려한 곳에 위치하고도 다른 상품보다 진열이 늦어진다면, 사람들이 과연 진열되기를 기다려줄까요? 다른 상품을 먼저 보러 가겠죠. 생성형 AI 검색 결과도 마찬가지입니다. 다른 페이지는 2~3초면 열리는데, 생성형 AI 검색 결과는 더 많은 시간을 기다려야 볼 수 있다면 이용을 꺼리게 될 수 있습니다.

구글 SGE는 결과가 뜨는 데 최대 3초를 넘어가지 않습니다. 이는 여타 생성형 AI 검색서비스를 체험하고 나면 그 속도 차이가 매우 크게 다가옵니다. ‘아무리 구글이라도 이게 어떻게 가능했지?’ 싶은 의문이 들 정도로 말이죠. 그만큼 구글이 최적화를 잘했습니다.

참고로 퍼플렉시티, 아크서치, 유닷컴은 6초 이내로 결과를 보여주어 크게 느리다고 느껴지는 정도는 아니었고요. MS 빙과 네이버 큐의 경우 최소 12초 이상 기다려야 합니다.

이와는 별도로 MS빙과 네이버 큐가 특별히 우수한 부분이 있었는데요. 그것은 긴 문장 안에서 두 개 이상의 정보를 논리적으로 취합해 검색 결과를 내놓아야 하는 경우입니다. 예를 들어 “리그오브레전드에서 페이커 선수와 비교할 만한 프로리그 스포츠 종목 별 선수 명단”과 같이, 한 번의 질의로 처리하기에는 어려운 질의를 하면, 다른 서비스 들은 엉뚱한 결과들을 보여주는 반면 네이버 큐에서는 정확히 의도한 결과를 제공했어요.

절차적인 처리 등 네이버와 MS도 강점이 있는 부분이 분명 존재합니다. 그럼에도 현재의 속도는 한계가 명확합니다. 부디 현재는 베타여서 그렇기를 바라봅니다.

구글의 검색 우위는 생성형 AI 시대에도 유효합니다

많은 사람들이 생성형 AI로 인해 가장 변화가 기대되는 서비스로 ‘검색’을 언급하고 있습니다. 구글은 20년 이상 검색 시장에서 1위를 하고 있고 전 세계 검색 점유율 92%를 장악하고 있는데요. 이런 막강한 구글이 생성 AI로 인해 흔들릴 수 있다는 가능성만으로도 업계에서는 상당히 화제가 되고 있습니다. 저 역시 그런 기대감을 가지고 아크 브라우저를 사용하고 퍼플렉시티 AI를 기본 검색엔진으로 설정하며 더브라우저컴퍼니의 팬을 자처하고 있습니다.

하지만, 그런 기대감을 안고 생성형 AI 검색 서비스들을 살펴보았음에도, 꼼꼼히 들여다보고 사용하면 할수록 오히려 구글이 굳건한 지위를 지킬 수밖에 없다는 생각이 들었습니다. 오히려 구글이 앞으로가 더 기대될 정도로 말이죠.

챗봇형 검색 서비스는 우리가 사용해온 검색 결과의 일부만을 대체할 수 있을 것으로 보입니다. 그 일부에서도 구글 SGE의 생성 AI 검색 결과 품질은 아직까지 여타 서비스보다 품질이 뛰어나다고 생각합니다. 앞으로 제가 이 관점을 고수하게 될지, 혹은 또 검색 시장에 큰 변화가 있을지 흥미롭게 지켜보려고 합니다.

<참고>

이성규

작가

            사실 처음 생성형 AI 검색 서비스들을 본격적으로 비교 해봐야 겠다는 생각을 했을 때만해도 이 글이 퍼플렉시티 혹은 아크 서치에 대한 장점들을 주로 쓰게 될 줄 알았어요... ^^;

2024.03.27. 오후 14:21

수정됨