Skip to content

2024 NH 투자증권 빅데이터 경진대회

Notifications You must be signed in to change notification settings

froggy-hyun/24NH_bigdata

Repository files navigation

24NH_bigdata

2024 NH 투자증권 빅데이터 경진대회

👉 목차

  1. 📝 개요
  2. 🙋 참가팀
  3. 📰 아이디어
  4. 🙏 마무리하며..

📝 개요

[배경]

2024 NH투자증권 빅데이터 경진대회에 오신 것을 환영합니다.

AI로 미국 ETF를 발견할 수 있는 기회!

인공지능으로 해외 ETF의 투자 잠재력을 발견하고, 멋진 추억 만들기! 지금 대회에 도전하세요.

5회째를 맞이하는 NH투자증권 빅데이터 경진대회,

올해는 글로벌 테크기업 마이크로소프트, 태블로와 함께 합니다.

2024 NH투자증권 빅데이터 경진대회에 참여하고,

최대 상금 1,500만원과 다양한 경품으로 멋진 기억을 남겨보세요.

[주제]

생성형 AI를 활용한 미국 ETF 큐레이션 서비스 제안

[주최 / 후원 / 주관]

주최: NH투자증권 후원: 마이크로소프트, 태블로 주관: 데이콘

[참가 대상]

대회 참여일 기준 국내/해외 대학(원)생 개인 및 최대 3인 구성 팀

※ 대학(원) 재학 중인 직장 근로소득자 및 사업등록자는 참가 대상에서 제외

※ 대학(원) 재학생 범위는 재학생, 휴학생, 졸업 유예생으로 증명서 발급이 가능한 자로 한정


🙋 참가팀

공업협동조합

최성현 이윤서 박찬우
최성현 이윤서 박찬우
팀장, 데이터분석, 크롤링 데이터분석, 경제 생성형AI

📰 아이디어

투자자별 성향에 맞는 ETF 추천 AI 모델링 구현하기(Gan_ai와 bagging을 활용한)

🚩 개발 과정

(24.09.22 ~ 24.10.11)

[분석 보고서]

먼저, 제공된 데이터를 바탕으로 ETF를 안정성을 기준으로 분류하는 작업을 진행했습니다. 분류 기준은 아래와 같으며, 각 기준에 대해 가중치를 부여하여 정규화를 진행했고(minmax 사용), 각 기준들의 값들을 더하여 ETF 각각에 점수를 부여했습니다. ( [ ] 안에 있는 수는 가중치를 의미. 주관이 개입되었음을 알림.)

  1. 시가총액 [+0.15]
  2. 구성 종목 개수 (분산투자 정도 파악을 목적) [+0.2]
  3. 거래량 (공격형 투자자는 거래량 많은 종목 선호. 그러나 안정형 투자자에게도 중요한 부분. 따라서 가중치를 낮게 부여.) [+0.1]
  4. 주가 변동성 (시가-종가 및 저가-고가 데이터 활용) [-0.25]
  5. 시가배당률 (외부 데이터를 크롤링하여 2020년 1월 30일* 이후 데이터만 사용)[+0.20] -> -> 2020년 1월 30일 : WHO, 코로나 19 공중보건 비상사태 선언 날짜
  6. 총보유수량 (종목의 관심도 및 안정성의 지표로 활용되므로 가중치 낮게 설정)[+0.05]
  7. 총보유계좌수 (총보유수량과 마찬가지로 가중치 낮게 설정)[+0.05]

데이터 분석 시작일을 2020년 1월 30일로 잡은 이유는 별첨에 따로 기입하겠습니다.

그렇게 구해진 상위 5개의 종목(안정형에 가까운)과 하위 5개의 종목(공격형에 가까운)은 다음과 같습니다.

  • 상위 5개 : ['NVD', 'VT', 'VTI', 'VWO', 'TSLL']
  • 하위 5개 : ['SMH', 'LABU', 'NAIL', 'USD', 'NVDU']

상위 5개 ETF들의 각 항목에 대한 점수 평균치는 다음과 같습니다. (소수점 셋째 자리까지)

  • 시가총액 : 0.217 / 구성 종목 개수 : 0.393 / 거래량 : 0.214 / 주가 변동성 : 0.103 / 시가배당률 : 0.207 / 총보유계좌수 : 0.069 / 총보유수량 : 0.206

하위 5개 ETF들의 각 항목에 대한 점수 평균치는 다음과 같습니다.

  • 시가총액 : 0.003 / 구성 종목 개수 : 0.006 / 거래량 : 0.06 / 주가 변동성 : 0.865 / 시가배당률 : 0.001 / 총보유계좌수 : 0.029 / 총보유수량 : 0.009

한계: 직관적으로 봤을 때, 상위 5개 종목들 중 NVD, TSLL은 공격형에 가깝습니다. 레버리지 상품일 뿐만 아니라 주가 변동성 또한 매우 크기 때문입니다. 이런 오류가 발생한 이유는 다음과 같습니다.

  1. 안정형으로 보는 기준들 중, 몇 개의 값이 터무니없이 작거나 큰 경우
  2. 공격형으로 보는 기준의 값이 터무니없이 작거나 큰 경우
  3. 값이 마이너스인 경우 (minmax할 때, 그리고 가중치 부여할 때 값이 튀는 효과 발생)

해결 방안으로는 보다 객관적인 가중치를 부여하고, 더 많은 기준들을 세우는 것입니다.

[서비스 기획 아이디어 및 발전 방향]

투자성향을 2개에서 5개로 늘려 투자자들에게 더 맞춤형으로 ETF 추천 시스템을 제공할 계획입니다. 5개의 투자성향은 “전국투자자교육협의회”에서 발간한 책인 ‘펀드투자 제대로 하자’의 투자성향 테스트를 참고하여 “안정형, 안정추구형, 위험중립형, 적극투자형, 공격투자형” 으로 선정합니다.

최종적으로 분류된 ETF에 대해, 생성형 AI인 gan_ai와 머신러닝 bagging을 사용해 주가 예측을 하여 향후 수익률에 대한 정보를 투자자들에게 제공합니다.

gan_ai와 bagging을 사용한 주가 상승 및 하락할 확률을 구하는 과정은 다음과 같습니다.

  1. 122개 etf를 포함한 티커명의 모든 종목 3094개에 대해 0~3093으로 매핑 후 티커명, 기준일자, 종가, 누적거래수량 컬럼에 있는 데이터와 야후파이낸스 크롤링을 통해 얻은 뉴스데이터를 gan_ai에 학습시킴
  • 이때 뉴스데이터는 word2vec를 사용하여 숫자데이터로 변환. -> 마지막 날짜 데이터를 제외한 나머지 일자에 대한 데이터를 모두 gan_ai에 학습시킴. 마지막 날짜 데이터는 테스트 데이터로 활용하여 향후 주가 예측 데이터로 사용.
  1. gan_ai에 학습된 데이터(= 원본 데이터)를 바탕으로 모든 컬럼에 대해 비슷한 값들을 넣은 노이즈 데이터 생성. -> 노이즈 데이터와 원본 데이터를 bagging에 학습시켜 주가 상승 or 하락 예측 -> 모델링 결과 bagging의 주가 예측 확률 60%

bagging을 통한 주가 예상 확률 데이터는 별첨에 따로 기입하겠습니다.

주가 예측 정확도 향상을 위해 보완할 점.

  • gan_ai의 학습데이터로 투자에 큰 도움을 주는 지표(미국 10년물 국채금리, VIX지수, 달러인덱스, Fear & Greed Index, 데이터로 제공된 일자에 대한 미국 3대 지수 수익률 평균치)들을 추가할 계획입니다.

[별첨]

  1. 참고 논문 별첨. 2020년 1월 30일 이후 데이터를 활용한 이유는 아래의 논문에서 찾았습니다. (1) OECD publishing -> Understanding Structural Effects of COVID-19 on the Global Economy: First Steps 주요 내용
  2. 코로나19와 관련 정책 대응은 향후 충격과 변화에 적응하는 글로벌 경제의 능력에 영향을 미칠 것임.
  3. 2020년에 관찰된 총생산 감소는 국가별로 원격 근무의 능력 차이로 인한 노동 생산성 감소에 주로 기인한 것으로 나타남.
  4. 부정적인 경제 영향은 정부 지원(보조금)에 인해 상당 부분 완화되었음.
  5. 수요 변화가 글로벌 GDP 보단 글로벌 소비, 총생산, 무역 변화에 상당히 이질적인 영향을 미침.
  6. 이는 결과적으로 일부 글로벌 공급망에 압박을 가하는 요인이 됨. -> 펜데믹 이후 글로벌 경제 구조 및 체질에 변화가 발생. 세계적으로 중립금리 수준이 펜데믹 이전보다 높아졌다는 연준 의장의 연설도 있었음.

(2) GAN을 이용한 주식 시장 데이터 시뮬레이션 및 머신러닝 기반 트레이딩 시스템 개발 (출처 : 한국통신학회논문지) – (논문 상 정확도 54%)

  1. Bagging 주가 예측 확률 결과 Best Model: Bagging with Accuracy: 0.6028325123152709 = 약 60%

왼쪽 : 하락 확률, 오른쪽 : 상승 확률 LABU, Predicted Probabilities: [0.6 0.4] NAIL, Predicted Probabilities: [0.3 0.7] NVD, Predicted Probabilities: [0.5 0.5] NVDU, Predicted Probabilities: [0.5 0.5] SMH, Predicted Probabilities: [0.6 0.4] TSLL, Predicted Probabilities: [0.5 0.5] USD, Predicted Probabilities: [0.5 0.5] VT, Predicted Probabilities: [0.9 0.1] VTI, Predicted Probabilities: [0.5 0.5] VWO, Predicted Probabilities: [0.9 0.1] SMH, Predicted Probabilities: [1. 0.]

🙏 마무리하며..

평소에 미국 경제에 관심이 많으며 실제로 미국 주식 거래도 활발히 하고 있었기에 이번 대회에 재미있게 참가할 수 있었다. 경제학과를 복수 전공 중인 친구와 새롭게 모집한 컴퓨터공학과 분과 함께 원하던 목표를 달성해서 뿌듯했다. 본선 진출을 못한 건 아쉽지만 많이 배웠다.

About

2024 NH 투자증권 빅데이터 경진대회

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published