저는 세상을 이해하기 위해 제미니 라이브의 구체화를 경험했습니다: 충격!

AI가 이상하리만치 친절한 어조로 말하며 제 작업 공간을 정리하라고 하는 걸 들으니 좀 당황스럽네요. 좀 자랑스럽긴 하지만, 이제 제멋대로 흩어진 도구들을 정리하고 전선들을 정리할 때가 된 것 같습니다.

언니도 동의할 거예요. 하지만 AI가 제 책상을 "보고" 어수선한 곳을 인식하고 정리 팁을 제공하는 순간, 바로 행동에 나서는 게 더 큰 그림입니다. 구글의 제미니 AI 챗봇은 이제 그런 일을 할 수 있습니다. 그리고 훨씬 더 많은 일들을 할 수 있죠.

이 비밀은 바로 프로젝트 아스트라(Project Astra)라는 최근 기능 업데이트입니다. 수년간 개발되어 왔으며, 마침내 이번 달 초에 출시되었습니다. 전반적인 목표는 모든 것을 보고, 듣고, 개방적으로 지능적인 AI를 휴대폰에 구현하는 것입니다.

구글은 이 초능력들을 다소 밋밋한 이름, '카메라와 화면 공유 기능을 갖춘 제미니 라이브'로 마케팅하고 있습니다. 구글의 딥마인드 사업부에서 개발한 이 소프트웨어는 원래 범용 AI 비서로 개발되었습니다. 최종 이름이 그렇게 야심 차지 않은 것이 아쉽습니다.

카메라와 화면 공유 기능이 있는 Gemini Live의 홈 화면입니다.

접근성 모드부터 시작해 보겠습니다. 이제 사용자가 접근성 모드를 사용할 수 있습니다. 픽셀 9 그리고 갤럭시 S25하지만 Gemini Advanced 구독이 포함된 Android 휴대폰이 있다면 새로운 툴킷에 액세스할 수 있습니다.

참고로 한 달에 20달러입니다. 위에 언급된 두 휴대폰에서 테스트해 봤는데, 이제 제 OnePlus 13에서도 잘 작동합니다. 가장 좋은 점은? 바로 이 기능을 사용하기 위해 어떤 기술적인 어려움도 겪을 필요가 없다는 것입니다.

전원/볼륨 버튼을 조합하거나 화면 모서리를 스와이프하여 Gemini를 호출하기만 하면 됩니다. 어떤 앱을 실행하든 새로운 카메라와 화면 공유 기능을 운영 체제의 모든 모서리에 오버레이로 사용할 수 있습니다.

주변 세계를 이해하다

저는 카메라를 그림에 대고 물어보기 시작했습니다. 제미니 라이브는 대담한 색채 사용과 동물 묘사를 통해 그것이 마두바니 양식의 그림임을 정확하게 식별해냈습니다.

카메라와 화면 공유 기능을 갖춘 Gemini Live를 사용하여 그림을 식별하세요.

그러고 나서 그는 간단한 역사 수업과 세월이 흐르면서 변화해 온 차이점에 대해 설명해 주었습니다. 정보는 아주 세세한 부분까지 정확했습니다. 다행히 음성 대화가 불편할 수 있는 상황이라면 제미니와 문자 대화를 할 수도 있습니다.

제미니 라이브의 새로운 카메라 및 화면 공유 기능에서 제가 가장 좋아하는 점은 너무 수다스럽지 않다는 점입니다. 언제든 중단할 수 있어서 "자연스러운" 대화의 매력을 더해줍니다.

저는 다양한 상황에서 쌍둥이자리를 시도해 봤습니다. 이런 상황에는 전혀 대비가 안 됐어요.

그의 답변은 대개 간결합니다. 마치 당신에게 후속 질문을 할 기회(혹은 넛지)를 주는 것처럼, 지나치게 긴 답변을 하는 것이 아니라 마치 당신에게 후속 질문을 할 기회를 주는 것처럼 말입니다. 그는 다양한 주제와 시각적 시나리오에 능숙하지만, 몇 가지 함정이 있습니다.

카메라와 화면 공유 기능을 갖춘 Gemini Live를 사용하여 텍스트로 대화합니다.

아직 Google 렌즈를 사용할 수 없기 때문에 Gemini는 휴대폰 화면에 보이는 이미지와 웹에서 검색한 결과를 비교할 수 없습니다. 게다가 Gemini에 특정 주제나 인물에 대한 최신 정보를 검색해 달라고 요청해도 실시간 정보에 접근할 수 없습니다.

식물 종류, 식당 메뉴, 광고판 데이터 수집, 그리고 최근 독감에 걸렸을 때 처방받은 약에 대해 물어봤습니다. 제미니는 제가 지금까지 경험해 본 어떤 AI 챗봇보다 훨씬 더 훌륭하게 작동했습니다.

지식 은행의 잠재력 발휘: 심층 분석

다음으로, 제미니가 복잡한 학술 자료를 이해하도록 했습니다. 카메라 프레임 안에 머신러닝 관련 책을 배치했습니다. 제미니 라이브는 그 책을 인식했을 뿐만 아니라 책의 내용과 주요 주제에 대한 개요까지 알려주었습니다. 이러한 능력은 머신러닝에 대한 심도 있는 이해와 복잡한 정보를 요약하는 능력을 보여줍니다.

카메라와 화면 공유 기능을 갖춘 Gemini Live로 힌디어를 이해하세요.

신기하게도 탐색을 시작했는데, 챕터 목록이 눈에 띄었습니다. AI는 제 학습 진행 상황을 인식하고 말을 멈추더니, 제가 주제 목록을 탐색하는 동안 특정 챕터에 관심이 있는지 물었습니다. 이 기능은 사용자 상호작용에 실시간으로 적응하고 반응하는 Gemini의 능력을 보여주며, 상호작용 학습을 위한 강력한 도구임을 보여줍니다.

나는 이 순간 완전히 놀랐다.

저는 AI에게 몇 가지 복잡한 주제를 분석해 달라고 요청했고, AI는 페이지의 내용을 넘어서서 자체의 방대한 지식 은행에서 정보를 끌어내어 존경할 만한 성과를 보였습니다.

예를 들어, 비샴 사니의 소설 "타마스"의 서문 페이지 내용을 물었을 때, AI는 사히티아 아카데미상에 대한 언급을 정확하게 파악했습니다. 그런 다음, 권위 있는 문학상 수상 연도와 소설의 내용 등 페이지에는 전혀 나와 있지 않은 세부 정보까지 제공했습니다. 이는 AI가 맥락을 이해하고 추가 정보를 추출하는 능력을 보여주는 사례입니다.

반면, 제미니 라이브의 힌디어 읽기는 형편없었습니다. 단순히 발음이 나쁜 게 아니라, 제미니는 종종 횡설수설하고 헛소리를 했습니다. 우르두어, 페르시아어, 아랍어를 읽으려고 할 때는 훨씬 잘 읽혔지만, 무작위로 선택된 단어들을 종종 섞어 읽었습니다. 이는 제미니의 읽기 능력이 언어마다 다르며, 일부 언어에서는 상당한 개선이 필요할 수 있음을 시사합니다.

카메라와 화면 공유 기능을 갖춘 Gemini Live를 사용하여 우르두어를 읽습니다.

우르두어 시를 처음 접했을 때, 우르두어 텍스트를 인식했을 뿐만 아니라 시의 정확한 요약까지 제공해 주었습니다. 가장 큰 어려움은 역시 내레이션이었습니다. 영어 버전의 우르두어를 들으니 귀가 너무 아팠습니다. 이는 특히 외국어를 다룰 때 사용자 경험에서 좋은 발음과 악센트가 얼마나 중요한지를 보여줍니다.

예상치 못한 곳에서 뛰어난 성과를 보인다

인공지능은 훌륭한 문제 해결 도구이며, 이를 입증하는 많은 벤치마크가 있습니다. 저는 열역학 관련 물리 문제, 전기화학 방정식, 그리고 손으로 쓴 노트에 제시된 통계 문제를 통해 인공지능을 테스트했습니다. Gemini Live는 이러한 과제에서 훌륭한 성능을 보였습니다.

창의적인 작업에서도 탁월한 성과를 보였습니다. 패션 디자이너인 제 여동생이 카메라 뷰에 스케치 하나를 보여주며 피드백과 개선 사항을 요청했습니다. 제미니 라이브는 디자인을 칭찬하며 몇몇 패션 브랜드의 디자인 이념과 비교하고 몇 가지 권장 사항을 제시했습니다. 이러한 권장 사항은 디자인 개선에 매우 도움이 되었습니다.

카메라와 화면 공유 기능을 갖춘 Gemini Live를 사용하여 책을 스캔합니다.

AI가 Plus를 소개하라는 권유를 받았을 때, 그는 제 여동생에게 손으로 그린 ​​스케치를 디지털 컨셉으로 변환하는 데 가장 적합한 도구에 대해서도 조언해 주었습니다. 그는 이러한 조언에 이어 소프트웨어 패키지에 대한 유용한 정보와 교육 자료를 찾을 수 있는 곳까지 알려주었습니다. 이 조언은 디지털 디자인 프로세스를 간소화하는 데 매우 귀중한 역할을 했습니다.

듀라셀 배터리 한 쌍을 카메라 시야에 비추자 카메라는 배터리를 정확하게 인식했을 뿐만 아니라, 몇 분 안에 해당 배터리를 배송할 수 있는 지역 전자상거래 플랫폼까지 알려주었습니다. 이 기능은 특히 제품 정보와 해당 지역의 재고 현황을 파악하는 데 매우 유용했습니다.

블링킷(Blinkit)과 스위기 인스타마트(Swiggy Instamart)라는 이름의 이 서비스는 인도에서만 이용 가능하며, 주로 도시 지역을 대상으로 합니다. 어두운 실내에서도 유선 이어폰을 첫 시도에서 식별하는 데 성공했습니다. 이는 AI가 다양한 환경에서 사물을 인식하는 능력을 보여주는 사례입니다.

상황 인식 능력이 그의 가장 큰 강점이다.

일반 제미니 채팅이나 Google 검색의 AI 개요 섹션에 표시되는 채팅과 비교했을 때, 제미니 라이브 채팅은 특히 민감한 정보일 경우 지식 공유에 더욱 신중한 접근 방식을 취합니다. 음식 추천이나 의료 정보와 같은 주제는 점점 더 신중하게 다루어지고 있으며, 사용자에게 적절한 전문가 리소스를 찾도록 유도하는 경우가 많습니다. 이러한 신중한 접근 방식은 특히 전문 지식이 필요한 분야에서 정확하고 신뢰할 수 있는 정보를 제공하는 데 중점을 두고 있는 Google의 노력을 반영합니다.

익숙한 몇 가지 과제

카메라와 화면 공유 기능을 갖춘 Gemini Live를 사용하여 스티커를 스캔합니다.

제가 가장 크게 느낀 점은 프로젝트 아스트라가 제미니로 변신한 모습이 매우 인상적이라는 것입니다. 스마트폰이 앞으로 어떤 모습을 보여줄 수 있을지 엿볼 수 있는 기회입니다. 몇 가지 개선, 통합, 그리고 앱 간 워크플로우를 고려하면 구글 검색은 마치 유물처럼 보일지도 모릅니다. 하지만 현재로서는 몇 가지 눈에 띄는 단점이 있습니다.

메모리 시스템 오작동을 몇 번 발견했습니다. AI에게 카메라 뷰에서 피트니스 밴드를 식별해 달라고 요청했을 때, AI는 삼성 갤럭시 핏 3로 정확하게 인식했습니다. 하지만 추가 질문을 했을 때, 기기는 화웨이 피트니스 밴드로 잘못 인식했습니다.

뻔뻔스럽게 거짓말을 할 수도 있습니다. 그리고 저는 확신을 가지고 말할 수 있습니다. 예를 들어, 제가 웨어러블 기기 리뷰를 요약해 달라고 요청했을 때, AI는 Digital Trends에서 아직 리뷰를 하지 않았다고 답했습니다. 사실, 해당 기사는 일주일 전에 게재되었습니다.

다음으로, 화면 공유를 활성화한 후 제 작가 페이지에서 몇 가지 글을 살펴보라고 했습니다. 제미니는 글들을 잘 설명해 주었지만, 문맥 이해에 가끔 어려움을 겪었습니다. 예를 들어, 인텔과 AMD만 신경망 처리 장치(NPU) 배지를 받을 수 있다고 잘못 언급했습니다. 부조종사+.

카메라와 화면 공유 기능을 갖춘 Gemini Live에 대한 알림입니다.

반면, 해당 기사에서는 Qualcomm이 경쟁사보다 앞서 이 표준을 가장 먼저 충족했으며, AMD와 Intel이 마침내 새로운 프로세서 제품군으로 AI 칩 기준선을 충족시킨 것은 작년 말이었다고 명확히 언급하고 있습니다.

기사에 대한 대화 도중에 그는 또 기억력 문제를 겪었습니다. 논의 중인 내용을 요약하는 대신, 화면 공유를 통해 시청했던 첫 번째 기사에 대해 이야기하기 시작했습니다. 제가 나레이션 도중에 끼어들자, 쌍둥이자리가 그의 실수를 바로잡았습니다.

영어가 아닌 내레이션에서 발견한 또 다른 문제는 Gemini Live가 내레이션 도중에 음성과 속도를 무작위로 바꾼다는 것이었습니다. 정말 짜증 났고, 발음도 완전히 로봇 같았습니다. 사람 같은 영어 실력과는 전혀 달랐습니다.

카메라와 화면 공유 기능을 갖춘 Gemini Live로 본문을 읽어보세요.

머신 비전은 깔끔한 글꼴을 사용하는 데에도 어려움을 겪습니다. 몇 번은 자신 있게 잘못된 정보를 내뱉기도 했고, 스스로 수정하라는 요청을 받았을 때 AI는 해당 주제에 대한 최신 정보를 찾을 수 없다고 했습니다. 이러한 상황은 드물지만, 제미니의 오류는 여전히 존재합니다.

결론적으로, 카메라와 화면 공유 기능을 갖춘 제미니 라이브는 AI가 지금까지 이룬 가장 큰 도약 중 하나라고 생각합니다. 지금까지 나온 생성 AI 중 가장 실용적이고 보람 있는 응용 프로그램 중 하나죠. 제미니 라이브에 필요한 건 약간의 다양성과 "자신감 넘치는 거짓말쟁이" 증후군에 대한 해결책뿐입니다.

지금은 확실히 모든 면에서 올바른 방향으로 나아가고 있지만, 기술 미래주의적 꿈을 위한 완벽한 AI 동반자가 되기까지는 아직 몇 가지 중요한 이정표가 필요합니다.

댓글이 닫혔습니다.