빅분기 실기 캐글 보스턴 집값 예측 문제
빅데이터분석 실기 작업형 2유형 대비를 위해서 캐글의 입문자를 위한 문제 몇가지를 풀어볼 생각입니다. 여러가지 유명한 것들이 있는데 거의 한번씩은 다들 보는 타이타닉과 보스턴 집값 문제 그리고 한두개정도 더 해볼 계획입니다. 가장 먼저 집값 예측 문제로 가볍게 시작하겠습니다. 빅분기 실기 작업형 2유형 모형 구축 및 평가 영역 1편 여...
빅데이터분석 실기 작업형 2유형 대비를 위해서 캐글의 입문자를 위한 문제 몇가지를 풀어볼 생각입니다. 여러가지 유명한 것들이 있는데 거의 한번씩은 다들 보는 타이타닉과 보스턴 집값 문제 그리고 한두개정도 더 해볼 계획입니다. 가장 먼저 집값 예측 문제로 가볍게 시작하겠습니다. 빅분기 실기 작업형 2유형 모형 구축 및 평가 영역 1편 여...
작업형 1유형에 대한 예상, 연습문제를 간단하게 만들어 보았습니다. 예시로 나온 1유형문제와, 실기 2회 복원 문제를 임의로 만들어 보았습니다. 복원문제라고 적어둔것도 저도 무슨 문제인지 몰라서 대충 어떻게 했다는 것만보고 적어보았습니다. 1. 1유형 예시문제 빅분기 실기 작업형 1유형 데이터 처리 영역 풀이 데이터와 풀이는 위 게시글을 참고해...
작업형 1유형 데이터 출처 : https://www.kaggle.com/shubh0799/churn-modelling 에서 변형 데이터 설명 : 고객의 신상정보 데이터를 통한 회사 서비스 이탈 예측 (종속변수 : Exited) Data url : https://raw.githubusercontent.com/Datamanim/datarepo/main...
csv파일을 주소로 알고 있다면 pandas csv_read에서 바로 주소를 넣으면 읽을 수 있을 겁니다. 작업형 1유형 데이터 출처 https://data.kma.go.kr/cmmn/static/staticPage.do?page=intro 데이터 설명 : 2020년도 이화동(서울) , 수영동(부산)의 시간단위의 기온과 강수량 데이터 url :...
*문제: 훈련 데이터 80%추출 후 결측치 중앙값으로 보정. 보정 전후의 표준편차 차이 구하기. 사실 훈련 데이터를 80% 추출하라는게 어떤 기준을 주고 80%를 뽑아라는건지 의미를 잘 모르겠지만 일단 보스턴집값데이터에 train만 있다고 가정을 하고 진행을 해보겠습니다. import numpy as np import pandas as pd tr...
대부분 후기를 보니 필기시험쳤을때 핵심적인 내용과 주제어 위주로 나왔다고 합니다. 불안하신분들은 필기책을 아직 안버리셨다면 쭉 훑어보시는 것도 나쁘지 않을거 같습니다. 문제와 정답을 따로 적어두었습니다. 정답은 하단에 일괄적으로 적어두었습니다. [1.] 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 ...
https://www.kaggle.com/c/titanic/data 이번에는 집값 예측에 이어서 타이타닉 생존자 예측 문제를 해보겠습니다. 데이터는 마찬가지로 캐글에서 받으셔서 사용하면 되겠습니다. 지난번 집값 예측은 정확한 값을 구하는 회귀였지만 이번에는 생존자가 죽었는지 살았는지 예측하는 문제입니다. import numpy as np impor...
https://www.kaggle.com/fazilbtopal/auto85 이번에는 캐글의 competition은 아니지만 자동차 데이터를 가지고 가격 예측을 한번 해보겠습니다. 데이터는 위 주소에서 받으시면 됩니다. 앞서 했던 집값 예측이나 타이타닉 생존자 예측 정도의 난이도를 생각했는데, 누락이되고 지저분한 원데이터는 쓰기가 너무 어렵고 클린데...
실기 작업형 2유형 : 모형 구축 및 평가 영역 - 2 처음에 진행을 할때는 딱히 높은 성능의 모델을 만들기보다 일단 작동 방법을 보여드리기 위해서 생략한것이 많은데 그중 범주데이터를 다 날린것입니다. 이산형 숫자가 아니라 점포의 이름이나 카테고리등의 경우 처리하는 방법은 좀 다른데요 그것에 대해서 소개하고자 합니다. 1. 원핫인코딩(One-Hot...
이번에는 예제 문제를 한번 풀어봅시다. 문제부터 바로 보면 다음과 같습니다. 데이터는 총 3개가 주어집니다. y_train, X_train, X_test 입니다. 보통 데이터를 학습할때 그냥 원본 Raw데이터를 주고 split data를 이용해서 구분을 하는데 친절하게도 그럴 필요없이 바로 변수에다가 지정해서 사용하게 만들었습니다. 이때 ...