본문 바로가기
나의 IT 기억

🤖 그냥해보세요! Qwen2.5VL 멀티모달 모델로 이미지 분석하기

by 浪畅 (Làng Chàng) 2025. 5. 28.

https://github.com/onesound71/ollama_qwen25vl

 

 

GitHub - onesound71/ollama_qwen25vl

Contribute to onesound71/ollama_qwen25vl development by creating an account on GitHub.

github.com

 

멀티 모달 ~~

왜 이제서야 시작했을까? 😅

솔직히 말하면, 멀티모달 LLM이나 Agent 같은 용어들이 계속 들려와서 궁금하긴 했는데... 막상 시작하려니 뭔가 어려워 보였어요. "내 컴퓨터 사양으로 되겠어?", "설치가 복잡하지 않을까?" 이런 생각들 때문에 계속 미뤄왔죠.

그런데 지난 주말에 드디어 용기를 내서 Qwen2.5VL을 설치해봤는데... 생각보다 너무 쉬웠어요! 정말 30분도 안 걸렸습니다.

Qwen2.5VL:32B 모델이 뭔가요?

간단히 말하면, 텍스트와 이미지를 동시에 이해할 수 있는 AI 모델이에요. 예를 들어:

  • 사진을 보여주고 "이게 뭐야?"라고 물어보면 답해줍니다
  • 문서 이미지의 텍스트를 읽어줍니다 (OCR)
  • 차트나 그래프를 분석해줍니다

제가 32B 버전을 사용했는데, 사양이 부담스러우시면 기본 버전(qwen2.5vl)도 충분히 좋은 성능을 보여줍니다!

실제 설치 과정 (제 경험담)

1. Ollama 설치

터미널 열고 한 줄만 입력하면 끝:

curl -fsSL https://ollama.com/install.sh | sh

개인 경험: 처음에 이 명령어가 무서워서 몇 번 망설였는데, 그냥 실행하니까 깔끔하게 설치되더라고요. 약 2-3분 정도 걸렸습니다.

2. 모델 다운로드

# 제가 사용한 32B 버전 (사양 좋으신 분들)
ollama pull qwen2.5vl:32b

# 또는 기본 버전 (일반적인 사양)
ollama pull qwen2.5vl

개인 경험: 32B 버전은 다운로드에 약 20분 정도 걸렸어요. 네트워크 상황에 따라 다르겠지만, 커피 한 잔 마시며 기다리면 됩니다.

3. Python 환경 설정

# 가상환경 생성 (이건 정말 중요해요!)
python3 -m venv qwen_env
source qwen_env/bin/activate

# ollama 패키지 설치
pip install ollama

개인 경험: 가상환경 안 쓰고 바로 설치했다가 나중에 패키지 충돌로 고생했어요. 가상환경은 꼭 만들어주세요!

4. 첫 실행 코드

# main.py
from ollama import generate

# 텍스트만 테스트
response = generate(
    model='qwen2.5vl:32b',  # 또는 'qwen2.5vl'
    prompt='안녕하세요! 자기소개를 해주세요.'
)
print(f"응답: {response['response']}")

# 이미지 분석 테스트 (이미지 파일이 있을 때)
image_response = generate(
    model='qwen2.5vl:32b',
    prompt='이 이미지에 무엇이 보이나요?',
    images=['test_image.jpg']  # 실제 이미지 경로로 변경
)
print(f"이미지 분석: {image_response['response']}")

실제 사용해본 소감 💭

  • 속도: 처음엔 좀 느렸는데, 두 번째부터는 빨라졌어요
  • 정확도: 한국어 이미지 설명이 생각보다 정확했습니다
  • 메모리: 32B 버전은 16GB RAM에서 좀 버벅였지만, 기본 버전은 8GB로도 충분했어요

자주 묻는 질문들 Q&A 🤔

Q: 내 컴퓨터 사양으로 돌아갈까요?

A: 기본 사양 기준으로 답드릴게요:

  • qwen2.5vl (기본): 8GB RAM, 10GB 저장공간
  • qwen2.5vl:32b: 16GB RAM 이상, 20GB 저장공간
  • GPU는 없어도 되지만, 있으면 훨씬 빨라져요!

Q: 어떤 이미지 포맷을 지원하나요?

A: JPG, PNG, WEBP 등 일반적인 이미지 포맷은 다 됩니다. 제가 테스트해본 것 중에 안 되는 건 없었어요.

Q: 한국어 지원이 잘 되나요?

A: 생각보다 잘 됩니다! 한국어 질문에 한국어로 답변하고, 한글이 포함된 이미지도 잘 읽어요.

Q: 상용 서비스에 써도 되나요?

A: Qwen 모델은 Apache 2.0 라이선스라서 상용 이용 가능합니다. 다만 정확한 라이선스는 꼭 확인해보세요.

Q: OpenAI나 Claude와 비교하면 어떤가요?

A: 솔직히 성능은 조금 떨어져요. 하지만 로컬에서 무료로 돌릴 수 있다는 게 큰 장점이죠!

Q: 오류가 나면 어떻게 해야 하나요?

A: 제가 겪은 주요 오류들:

  • Model not foundollama list로 모델이 설치됐는지 확인
  • Connection errorollama serve 명령어로 서비스 재시작
  • 메모리 부족 → 더 작은 모델로 시도해보세요

다음에 시도해볼 것들 🚀

  1. 문서 OCR: 스캔한 문서를 텍스트로 변환
  2. 차트 분석: 복잡한 그래프 데이터 해석
  3. 코딩 도우미: 화면 캡처로 코드 리뷰 받기

마무리

처음엔 "어렵겠지?"라고 생각했는데, 막상 해보니 정말 간단했어요. 여러분도 겁내지 마시고 한번 도전해보세요!

특히 이미지 분석이 필요한 업무가 있으시다면, 이런 로컬 AI 모델이 정말 유용할 거예요. API 비용 걱정 없이 마음껏 실험해볼 수 있거든요.

다음 포스트에서는 실제 프로젝트에 적용한 사례를 공유해드릴게요! 🎯

 

#Qwen2.5VL #멀티모달AI #Ollama #로컬AI #이미지분석AI #LLM #MultiModal #Python #AI개발 #머신러닝 #오픈소스AI #이미지분석 #OCR #문서처리 #시각AI #AI활용 #AI튜토리얼 #개발후기 #AI설치가