멀티모달 비전 AI·OCR 파이프라인 개발 (재택근무 협의)

AI/ML/Data 엔지니어

레벨

경력

예상 금액

시니어

경력 무관

7,000,000원/월

근무 시작일

계약 체결 이후, 즉시 시작 (프로젝트 진행 중)

예상 기간

30일

근무 위치

서울특별시 강남구 교대역오피스

모집 마감일

2026년 03월 31일

지원자 수

13명

구인 배경

구인 유형

프로젝트 산업 분야

협업 예정 인력

우선 순위

업무 내용

<프로젝트 개요>

프로젝트 소개:
- 전기차 충전기 설치 업무 자동화 및 제조업 현장 사진 자동 분류를 위한 멀티모달 비전 AI+OCR 파이프라인을 구축하고 FastAPI 기반 REST API로 실시간 서빙하는 단기 프로젝트입니다.
- AI컨설팅업체로 단기 프로젝트를 함께 할 4인의 프로젝트 팀의 마지막 일원을 모집하고있습니다.

회사 소개:

근무 환경

모집 요건

사전 검증 질문

지원서 작성시 클라이언트의 질문에 답변해 주세요.

프로젝트 문의 3

murad61

안녕하세요.

멀티모달 비전 AI · OCR 파이프라인 개발 프로젝트에 관심이 있어 문의드립니다.

저는 AI 기반 데이터 처리 및 서비스 개발 경험을 보유하고 있으며, 이미지 데이터 분석, OCR 처리, 그리고 AI 모델을 API 형태로 서비스에 연동하는 시스템 구축 경험이 있습니다. 특히 실제 서비스 환경에서 모델을 REST API 형태로 서빙하고 웹 애플리케이션과 연동하는 작업을 진행해 왔습니다.

프로젝트 설명을 확인해보니 전기차 충전기 설치 현장의 사진 데이터를 기반으로 이미지 분류와 OCR 분석을 수행하고, FastAPI 기반 REST API로 실시간 서비스를 제공하는 시스템으로 이해했습니다.

프로젝트 진행 시 다음과 같은 방식으로 기여할 수 있습니다.

* 이미지 데이터 전처리 및 멀티모달 비전 AI 파이프라인 설계
* OCR 기반 텍스트 추출 및 데이터 구조화
* 35개 카테고리 기반 이미지 자동 분류 모델 연동
* 흔들림, 조도 문제, 초점 이탈 등 불량 이미지 탐지 로직 개발
* FastAPI 기반 AI 모델 서빙 및 REST API 구축
* 웹 애플리케이션과 실시간 연동 가능한 API 설계

또한 원격(Remote) 기반 협업이 가능하며, 제공되는 데이터 기반으로 빠르게 프로토타입을 구축하고 안정적인 파이프라인을 구현할 수 있습니다.

프로젝트 목표와 현재 데이터 구조를 공유해 주신다면 보다 구체적인 구현 방향과 기술 스택을 제안드릴 수 있을 것 같습니다.

감사합니다.

2026.03.11. 오전 05:09

treesoop

35개 카테고리 분류에 VLM을 쓰실 계획이면, GPT-4o Vision 같은 API 기반으로 가실 건지 아니면 LLaVA나 Qwen-VL 같은 오픈소스 모델을 on-premise로 올릴 건지에 따라 인프라 비용 구조가 많이 다를 것 같습니다. 불량 사진 탐지는 별도 경량 모델(EfficientNet 등)로 전처리 단에서 먼저 걸러내는 게 VLM 호출 비용을 줄이는 데 효과적일 텐데, 이런 2-stage 구조도 검토하고 계신가요?

2026.03.18. 오전 01:38