Kaggle에 대해서 알아보자!!
김승우 책임
Kaggle에 대해서 알아보자!!
Kaggle은 데이터 분석 및 머신러닝에 대한 학습 플랫폼이자, 경쟁할 수 있는 플랫폼입니다.
기업, 기관 또는 특정 사용자가 데이터를 첨부해서 문제를 제출하면 Kaggle 사용자 누구나 문제에 대한 답을 제출할 수 있습니다.
Kaggle에 대한 소개는 간략하게 여기서 마치고 직접 보면서 하도록 하죠!
로그인을 한 뒤에 첫 화면입니다. (회원가입은 다들 잘하시니까!!) 저도 아직 가입한 지 17일 밖에 안되는군요!
Competitions
상단에 여러 메뉴가 많지만 우선 Competitions를 살펴보도록 하겠습니다. 여기엔 위에서 말한 기업, 기관 혹은 특정 사용자가 낸 문제들을 볼 수 있습니다.
현재 진행중인 Competition과 완료된 Competition 모두 다 볼 수 있습니다. Competition하나를 살펴보도록 합시다. 가장 유명한 Titanic Prediction을 찾아보도록 합시다.
Titanic: Machine Learning from Disaster Competition에 들어가면 내용은 위와 같습니다.
*Data
Data 항목을 선택하면 다음과 같은 화면을 볼 수 있습니다.
- Data에 관한 간략한 설명 및 .csv 형태로 데이터를 제공하고 있습니다.
각 Competition마다 제공하는 Data 형태는 다양합니다.
Image 관련 Label과 .jpg 파일을 제공하는 Competition도 있습니다.
관심 있는 Competition에 들어가서 확인보세요.
*Kernel
Kernels 항목에서는 이 Competition에 참여한 다른 사람이 만든 Kernel을 볼 수 있습니다.
Kernel이란?
Kaggle에서 제공하는 code를 작성하고 실행시킬 수 있는 ‘가상환경’이라고 보시면 됩니다.
Script 혹은 Jupyter Notebook형태로 제공되며 Python과 R 언어를 사용할 수 있습니다.
-
공개한 각 Kernel에는 작성자가 이 문제를 어떻게 접근하였고, 어떤 방식을 이용하여 문제를 해결하였다라는 내용이 Code와 함께 작성되어 있습니다.
-
Competition에 대한 각 개인의 정답지라고 보시면 될 것 같습니다.
*Leaderboard
Leaderboard에는 현재 Competition에 참여한 각 개인의 성적을 볼 수 있습니다.
Datasets
Datasets에는 이름 그대로 Dataset들이 나열되어 있습니다. 다양한 주제의 다양한 data들을 제공하고 있습니다.
- 각 Dataset에도 Kernel이 존재합니다. 주어진 Dataset을 다른 사람이 어떻게 활용하였는지 볼 수 있습니다.
Kernels
Kernels에는 각 Competition이나 Dataset에 올려진 Kernel이 모여있습니다.
- Hotness, Most Votes, Most Comments, Recently Created 등의 기준으로 정렬 가능합니다.
지금까지 Kaggle에 대한 간략한 소개를 해드렸습니다.
다음 포스팅에서는 조금 더 자세히 Kaggle에 대해서 파보도록 하겠습니다.