hspark2002 · 위시켓(Wishket)

프로젝트 배경

1. 저품질 데이터 보유 - 수요기업은 지하철역, 공유 자전거 거점, 카쉐어링 존 등 다양한 모빌리티 수단의 이동 패턴을 분석하여 최적의 모빌리티 허브를 추천하는 AI 서비스를 기획하고 있었습니다. - 그러나 각 모빌리티 수단에서 수집된 초기 센서 데이터는 타임스탬프 규격이 제각각이고, 결측치(Null)와 노이즈가 너무 많아 AI 학습에 바로 사용할 수 없는 상태였습니다. - 따라서 이 방대한

로그인하고 프로젝트 배경 확인하기

프로젝트 성과

데이터 신뢰성 및 무결성 확보

활용 불가능했던 Raw 센서 데이터를 AI 모델 학습에 즉시 투입할 수 있는 고품질 데이터셋으로 변환하여, 수요기업의 AI 모빌리티 추천 서비스 개발 기간을 획기적으로 단축

결측률 5% 이하 달성 및 감리 통과

한국데이터산업진흥원(K-Data)의 엄격한 데이터바우처 품질 감리 기준(결측률, 유효성 등)을 완벽하게 통과하여 품질 우수성 입증

핵심 기능

로그인하고 핵심 기능 2개 더 확인하기

대규모 시계열/공간 데이터 클렌징

총 10만 건 이상의 이동 거점 데이터를 대상으로, 22개 컬럼에 걸친 복잡한 타임스탬프 불일치 문제를 해결하고 고유 식별자(ID)를 통일하는 전처리 파이프라인 구축.

진행 단계

1단계 (데이터 스키마 설계)

2023.06.

이기종 모빌리티(자전거, 카쉐어링 등) 센서 데이터의 통합 분석을 위한 22개 컬럼 표준 스키마 및 정제 규칙 수립.

로그인하고 진행 단계 확인하기

프로젝트 상세

1. 프로젝트 개요 및 문제 해결 - AI 기반의 지역 모빌리티 정보공유 서비스 구축을 위해 지하철역, 버스정류장, 공유자전거, 카쉐어링 등 방대한 이동 거점 데이터를 수집했습니다. - 하지만 초기 센서 데이터는 타임스탬프 불일치와 노이즈가 많아 즉시 활용이 불가능했습니다. 이를 정제하여 결측률 5% 이하의 고품질 공간 데이터셋으로 가공하고, 방문 빈도에 따른 사용자 패턴을 도출했습니다.

로그인하고 프로젝트 상세 확인하기