Portfolio

by. Jongwon Lee | 34 Views (12 Uniq Views) | 23 days ago
#Portfolio
Data Scientist and Analyst Projects that define and solve real-world problems
포트폴리오

Projects

프로젝트 개요
  • 수행 기간: 2024.11 - 2024.12 (1개월)
  • 목표: 유저 상황(레벨, 아이템 스펙, 직업 등)에 적합한 사냥터 추천
  • 문제 정의: 디스코드 파티 구인글을 바탕으로 맵, 직업, 레벨, 스펙을 추출하여 데이터 분석을 통해 유튜브 시청자에게 맞춤형 사냥터 추천

주요 수행 내용
  • 데이터 수집 및 전처리: 디스코드의 구인글 메시지에서 필요한 정보를 정규 표현식을 활용하여 추출하고 부적절한 데이터를 이상치 제거를 통해 제거
  • 스펙 예측 및 맵 추천 시스템 모델링: Linear Regression으로 직업별 레벨에 해당하는 기대스펙을 계산하고, t-SNE로 군집화와 이상치 처리, KNN, SVD를 이용하여 유저별 맵 추천 모델 개발


Term Papers

프로젝트 개요
  • 수행 기간: 2022.08 - 2022.12 (4개월)
  • 문제 정의: 6년간의 주택 거래 데이터를 활용하여 주택 가격에 영향을 미치는 주요 요인을 식별하고, 내부적 특성 (면적, 방 개수 등)과 외부적 특성 (학교 접근성, 공항 거리 등)을 분석해 예측 모델 개발.

주요 수행 내용
  • 데이터 수집: Google Places, Melissa, Niche.com, Stats Indiana Data 등에서 6년간 부동산 거래 데이터 획득
  • 모델링: Regression, SVM, XGBoost, CatBoost, LGBM 등 머신러닝 알고리즘을 활용해 예측 모델링 수행 및 최고 성능 모델에 대해 베이지안 최적화를 이용하여 하이퍼 파라미터 튜닝
  • 모델 해석 및 주요 인사이트 도출: SHAP 시각화를 통해 주택 가격은 면적, 건축년도와 같은 내부적 특성과 학교 접근성, 일자리 분포 등 외부적 특성과 비선형적인 관계를 갖고 있음을 파악
  • 활용 방안 제시: 여러 출처에서 수집한 데이터 중 고성능을 내는 데이터 출처를 선별하여 데이터 구입 자금 투자방향을 제시 및 비즈니스 대학에 상업적 목적으로 활용 권유


논문 개요
  • 수행 기간: 2021.08 - 2021.12 (4개월)
  • 문제 정의: Twitter 데이터(2016 SemEval 데이터셋)를 활용하여 특정 주제나 대상에 대한 스탠스 (찬성, 반대, 중립)를 분류하는 모델 개발

주요 수행 내용
  • 데이터 전처리: URL 제거, 해시태그 추출, 구문 분석 등의 전처리 수행
  • 특징 공학: Bow, 감성 사전, 구문 의존 관계 (Bag-of-Dependencies), Syntactic n-grams 등 다양한 텍스트 특징 추출
  • 모델링: SMOTE를 활용한 클래스 불균형 해소 및 하이퍼 파라미터 튜닝을 포함한 SVM 모델링
  • 결과: BoW와 n-grams가 가장 유효한 특징임을 확인했으며, 감성 사전과 구문 의존 관계를 활용했을 때 일부 클래스에서 성능 향상 확인


논문 개요
  • 수행 기간: 2021.08 - 2021.12 (4개월)
  • 문제 정의: 3D 시각화 기법인 Paraview를 이용하여 고객 분류에 영향을 끼치는 주요 요인 식별

주요 수행 내용
  • 데이터 전처리: 파이썬을 활용하여 8000개 이상의 고객 데이터를 처리
  • 3D 시각화: 각 고객 그룹을 나이, 소비 지수, 경력 등의 기준으로 시각화
  • 시각화 결과 해석: 결혼여부, 나이 등은 고객 그룹을 구분하는데 유의한 변수였으나, 성별, 나이 등은 상대적으로 유의하지 않음을 확인