프로젝트 배경
1) 문제점 - 데이터 파편화로 인한 분석 불가: 약 10개의 텍스트 파일에 400만 개 이상의 숫자 조합 데이터가 분산되어 있어, 전체 데이터의 흐름이나 중복 여부를 파악하기 어려움. - 수작업의 비효율성: 특정 숫자가 어떤 파일들에 포함되어 있는지 확인하기 위해 일일이 파일을 열어 검색하는 것은 물리적으로 불가능하며 막대한 리소스가 소요됨. - 정확도 담보 부족: 대용량 데이터를 사람이 직접 대조할
프로젝트 성과
선형 시간 복잡도기반의 고성능 데이터 처리 확보
Set 및 Dictionary 자료구조를 활용하여 400만 개 데이터를 처리하는 핵심 알고리즘의 시간 복잡도를 O(N^2) 대신 O(N) 수준으로 설계하여 데이터 처리 시간을 수 초 이내로 단축.
휴먼 에러율 0% 및 데이터 분석 정확성 100% 달성
Set 자료구조와 정규식(Regex)을 통해 시스템적으로 처리함으로써, 수작업 시 필연적으로 발생할 수 있는 인위적 오류(Human Error)를 완전히 제거
GUI 기반 사용자 생산성 및 만족도 극대화
직관적인 GUI를 도입하여 비전문가도 쉽게 사용할 수 있는 환경을 제공함
다목적 리포팅 및 데이터 무결성 보장
CSV, TXT 등 다양한 형식으로 저장할 수 있는 유연한 리포팅 기능을 구현하고, 결과 파일의 최상단에 총 처리 파일 수 및 고유 숫자 수를 메타데이터로 기록하여, 보고서의 완성도와 데이터 검증의 투명성 확보
핵심 기능
진행 단계
요구사항 정의 및 알고리즘 설계
2025.11.
핵심 알고리즘 설계: 400만 건 데이터 처리를 위해 Set/Dictionary 기반의 O(N) 시간 복잡도를 갖는 고성능 파일별 교차 빈도 계산 로직을 설계함.
프로젝트 상세
1) 포트폴리오 소개 서비스 카테고리: 데이터 분석 솔루션 / 윈도우 데스크톱 유틸리티 메인 타깃: 대량의 로그 파일이나 분산된 텍스트 데이터를 다루는 데이터 분석가 및 실무자 소개: 10여 개 파일에 분산된 400만 개 이상의 숫자 데이터를 통합 분석하여, 각 숫자가 몇 개의 파일에 출현했는지를 고속으로 산출하는 업무 자동화 툴 개발임. 2) 작업 범위 범위: 애플리케이션 기획








