프로젝트 개요 : - 의뢰 배경: 본 과업 요청기업은 수출 대상 국가의 정치, 종교, 인종, 문화, 식음료 등의 요인에 맞춰 번역 결과물을 교정하는 모델 개발을 추진하고 있습니다. 특히 이슬람 국가 등으로 웹툰이 수출될 때 문제가 될 수 있는 치마 길이, 스킨십 위치, 음주 장면 등 문화적 금기 요소를 AI가 사전에 판별하기 위한 학습용 데이터가 필수적인 상황입니다. - 목적/목표: 이슬람 및 중동 국가를 포함한 5개 타겟 국가의 '일상 사진' 및 관련 텍스트 데이터를 국가별 2만 장씩, 총 10만 장 규모로 안전하게 수집하고 가공하여 납품받는 것을 목표로 합니다.
주요 기능 (데이터 수집 및 가공 요건) : - 타겟화된 데이터 수집: 단순 풍경이 아닌, 현지의 종교, 의복(히잡 등), 식음료, 남녀 간의 상호작용 등 문화적 특성이 명확히 드러나는 일상생활 중심의 이미지와 텍스트 데이터 수집. - 데이터 정제 및 고도화: 중복 이미지, 저해상도, 과도한 워터마크 등 노이즈 데이터 자동 필터링.
ho******
클라이언트참고로 이미지 크롤링을 저희가 특정사이트나 풀을 정해드리는 게 아니라, 해당 이미지를 크롤링 하는 데이터 원천 찾는것부터가 과업에 포함되어있습니다.