[Competition] 데이터 과학 경진대회 사이트 모음


개요

국내/외 데이터 과학 경진대회 목록을 정리해 보았습니다.

데이터 과학 경진대회란?


데이터 과학 분야로의 진출을 희망하는 사람이라면 데이터 과학에 대한 학습 및 연구를 필요로 할 것이다. 본인의 내공을 키우기 위한 첫 단계는 데이터 확보이며, 두번째로 모델 구현 및 기계학습에 필요한 개발 환경 구축 그리고 마지막으로 이를 뒷받침하는 컴퓨팅 파워가 필요하다. 나아가 데이터 사이언스로서의 스킬을 공신력있게 입증할 필요도 있을 것이다. 데이터 과학 경진대회에서 제공하는 플랫폼을 활용하면 이 모든 것들을 한큐에 해결할 수 있다.

가장 유명한 데이터 과학 경진대회 플랫폼은 캐글(Kaggle)이다. 캐글은 세계 최대의 데이터 과학자 커뮤니티로 2010년 예측모델 및 분석을 위한 플랫폼 서비스로 출발하여 2017년 구글에 인수되었으며, 2019년 기준 13,000여개의 데이터를 공개하고 있는 명실상부 최대 데이터 과학 서비스 플랫폼이다. 의료, 경제, 자연과학, 공학 등 거의 모든 분야의 데이터를 다루며 무려 190개 이상의 국가로부터 100만명 이상의 회원이 가입하여 활동중이다.

주어진 과제에 예측모델을 만들고 학습 결과를 업로드 하면 정확도가 나오고 이를 기반으로 포인트를 획득하여 레벨을 업그레이드 할 수 있으며 커리어와 직결된다는 점에서 왠만한 게임보다 레벨업이 더 재미있다. 고수가 되어 수상을 하게되면 25,000 ~ 100,000달러에 이르는 상금을 얻을수도 있고, 데이터 과학자로 취업할 수 있는 기회가 주어지기도 한다.

대부분의 입문자들이 처음으로 도전해보는 과제는 Titanic: Machine Learning from Disaster으로, 타이타닉 승선자의 피처 데이터를 바탕으로 생존율을 예측하는 미션이다. 아래 그림은 필자가 이 과제에 도전한 내역으로 Public Score 항목을 보면 0.78947점을 얻은 것을 확인할 수 있다. 모델을 개선하거나 전처리 및 파라미터 튜닝으로 성능을 높일 수 있고 업로드를 반복하여 점수를 올릴 수 있다.

캐글(예시: 타이타닉 생존율 예측)

데이터 과학 경진대회 사이트 모음


그동안 알려진 국내외 경진대회 사이트들을 정리해보았다. 경진대회 일정은 수시로 변하기 때문에 본인의 업무 도메인 및 보유 스킬셋과 가장 적합한 커뮤니티를 골라 수시로 방문한다면 많은 정보를 얻을 수 있다.

※ 수시 업데이트 예정(오류 또는 최신정보가 있으신 경우 댓글로 알려주시면 감사하겠습니다.)




© 2019.04. by theorydb

Powered by theorydb