구글 제미나이 '에이전트 비전' 써보니... AI가 사람처럼 '더블체크' 하네요 (솔직 후기)

구글 제미나이 3 플래시의 에이전트 비전 기능을 상징하는 이미지. AI가 건축 도면을 코드로 분석하고 있다.

AI한테 이미지 보여주고 '이거 뭐야?' 물어봤는데, 엉뚱한 대답 돌아온 경험 다들 있으시죠? 특히 이미지 속 깨알 같은 글자나 복잡한 도표는 거의 포기 상태였잖아요. (저는 몇 번 데이고 나서 그냥 제가 직접 보고 말지... 했었거든요.) 근데 최근 구글이 제미나이 3 플래시에 좀 재미있는 기능을 붙였더라고요. 이름은 '에이전트 비전'이에요.

⚡ 바쁘신 분들을 위한 핵심 요약

1.
더 이상 '대충 보고' 찍지 않아요: AI가 스스로 계획 세우고, 필요한 부분만 확대/분석하며 더블체크해요. 사람처럼요.
2.
파이썬 코드 실행이 핵심: 그냥 보는 게 아니라, 직접 파이썬 코드를 돌려서 계산하고 분석해요. 정확도가 5~10% 올랐다는 게 구글 피셜이에요.
3.
개발자라면 지금 바로 테스트 가능: 구글 AI 스튜디오에서 '코드 실행' 옵션만 켜면 바로 써볼 수 있어요. 복잡한 설정도 필요 없더라고요.

'보는 AI'에서 '조사하는 AI'로, 뭐가 다른 거죠?

구글 제미나이 '에이전트 비전' 써보니... AI가 사람처럼 '더블체크' 하네요 (솔직 후기)

솔직히 '에이전틱 비전'이라는 이름만 들으면 또 마케팅 용어 하나 나왔구나 싶잖아요. 저도 그랬어요. 근데 작동 방식을 뜯어보니 이건 좀 다르더라고요. 기존 AI는 이미지를 통째로 한번 쓱 훑어보고 '음... 이건 아마 고양이 사진인 것 같네요?'라고 감으로 대답하는 식이었어요. 그러니까 이미지 구석에 있는 작은 글씨나 복잡한 선은 그냥 뭉개고 넘어가는 일이 많았죠.

근데 에이전트 비전은 일하는 방식이 완전 달라요. '생각-행동-관찰'이라는 과정을 거치는데, 이게 딱 꼼꼼한 사람 같아요. 먼저 뭘 봐야 할지 계획을 세우고(생각), 파이썬 코드를 실행해서 이미지를 자르거나 확대하고 계산까지 해요(행동). 그리고 그 결과를 다시 보면서 최종 답변을 만들죠(관찰). 돋보기랑 계산기 들고 와서 따져보는 느낌이랄까요?

'이거 그냥 OCR 성능 좋아진 거 아니냐?'라고 생각할 수 있는데, 이건 차원이 다른 얘기예요. OCR은 그냥 글자를 읽는 거고, 에이전트 비전은 뭘 읽고 어떻게 분석할지 스스로 '계획'하고 '실행'한다는 게 핵심이에요. AI가 능동적으로 움직이기 시작한 거죠.

그래서 실제로 어디에 쓸 수 있는데요? (현실적인 사례 3가지)

뜬구름 잡는 소리는 그만하고, 그래서 이걸로 뭘 할 수 있는지가 중요하겠죠. 구글이 공개한 사례 몇 가지를 보니 꽤 쓸만해 보이더라고요.

1. 건축 도면, 의료 영상: 사람이 놓치는 부분 찾기

수백 페이지짜리 건축 도면에서 특정 규정을 만족하는지 일일이 확인하는 거, 정말 지옥 같은 작업이잖아요. 플랜체크솔버라는 플랫폼에서 이걸 제미나이한테 시켰더니, 알아서 도면을 부분별로 잘라서 분석하고 규정 준수 여부를 확인하더래요. 정확도가 5% 올랐다고 하는데, 이런 반복 작업에서 5%는 엄청난 차이죠. 사람이 피곤해서 놓칠 수 있는 걸 AI가 꼼꼼하게 챙겨주는 거예요.

2. 복잡한 차트/그래프 분석 자동화

보고서에 이미지로만 박혀있는 그래프, 데이터 분석하려면 정말 막막하죠. 이걸 에이전트 비전한테 던져주면 이미지에서 데이터를 읽어낸 다음, 파이썬 코드로 값을 정규화하고 심지어 다른 그래프(Matplotlib 같은 걸로)를 새로 그려주기까지 해요. 더 이상 PPT에 있는 그래프 이미지 보고 수작업으로 엑셀에 옮길 필요가 없어진다는 거죠. (물론 아직 100% 완벽하진 않겠지만, 이 방향 자체가 너무 마음에 들어요.)

3. '시각적 스크래치패드'로 환각 줄이기

AI가 종종 헛소리(환각)하는 거, 멀티모달에서도 마찬가지였어요. 특히 이미지에서 여러 단계를 거쳐 계산해야 할 때 오류가 잦았죠. 예를 들어 '손가락이 몇 개야?' 같은 질문이요. 에이전트 비전은 이걸 해결하려고 이미지 위에 직접 박스를 그리고 숫자를 매겨요. 이걸 '시각적 스크래치패드'라고 부르는데, 자기가 뭘 확인했는지 표시해가면서 작업하니까 실수가 확 줄어들더라고요. 똑똑한 게 아니라 꼼꼼해진 거죠.

자주 묻는 질문 (FAQ)

🤔 질문: 제미나이 3 플래시에서만 쓸 수 있나요? 다른 모델은요?

네, 현재(2026년 2월)는 제미나이 3 플래시 모델에서 우선적으로 제공돼요. 하지만 구글이 다른 제미나이 모델(프로나 울트라 같은)로도 점차 확대할 예정이라고 하니 조금만 기다려보면 될 것 같아요. 아무래도 가볍고 빠른 플래시 모델에서 먼저 테스트해보는 거겠죠.

🤔 질문: 이거 사용하면 API 비용이 더 많이 나오나요?

네, 그럴 가능성이 높아요. 그냥 이미지를 한번 처리하는 게 아니라, 내부적으로 파이썬 코드를 실행하고 여러 단계의 추론을 거치잖아요. 당연히 컴퓨팅 자원을 더 많이 쓰겠죠. 정확한 과금 정책은 구글 문서를 꼭 확인해봐야겠지만, 일반적인 이미지 인식 API보다는 비용이 더 나올 거라고 예상하고 쓰는 게 맞아요.

🤔 질문: 그럼 모든 이미지 작업에 에이전트 비전을 쓰는 게 좋은가요?

아니요, 그건 아닐 거예요. 그냥 고양이 사진인지 강아지 사진인지 구분하는 간단한 작업에 굳이 돋보기랑 계산기까지 동원할 필요는 없잖아요? (오히려 시간만 더 걸릴 수 있어요.) 이건 복잡한 도면, 데이터가 빽빽한 차트, 제품 시리얼 넘버 확인처럼 '정확성'과 '꼼꼼함'이 중요한 작업에 특화된 기능이라고 봐야 해요. 상황에 맞는 도구를 쓰는 게 중요하죠.

이 글이 도움 되셨나요?

더 궁금한 점은 댓글로 남겨주세요. 제가 아는 선에서 최대한 답변 드릴게요!

백문이 불여일견이죠. 지금 당장 구글 AI 스튜디오 플레이그라운드 가서 '코드 실행(Code Execution)' 옵션 켜고, 여러분이 가지고 있는 가장 복잡한 이미지 파일 한번 던져보세요. AI가 어떻게 '생각'하는지 직접 보는 것만큼 확실한 건 없으니까요.

면책조항: 본 포스팅은 2026년 2월 8일 기준으로 작성되었으며, 기술 및 서비스 내용은 향후 변경될 수 있습니다. 글에 포함된 정보는 개인적인 의견을 담고 있으며, 어떠한 투자나 결정에 대한 조언이 아님을 밝힙니다.