[데이콘] 신용카드 사용자 연체 예측 AI 머신러닝 프로젝트 독학 기록 (2022.11.~12.)

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

무기는 끈기

[데이콘] 신용카드 사용자 연체 예측 AI 머신러닝 프로젝트 독학 기록 (2022.11.~12.) 본문

IT 연구/Python

[데이콘] 신용카드 사용자 연체 예측 AI 머신러닝 프로젝트 독학 기록 (2022.11.~12.)

김유비야 2022. 12. 4. 13:02

https://dacon.io/competitions/official/235713/overview/description

월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

Google Colaboratory

22.11.30. (수)

(코드 부분 확대)

내일 일찍 일어나서 마저 해야겠다.

더 하고 싶지만 오늘 이후로 내려가는 넷플 <스티브 잡스> 영화를 보기로 계획해놓았기 때문에 아쉽지만 여기서 끝~

내일은 수업 다 끝나고 나서야 뉴스 스크랩 할 수 있을 것 같다.

22.12.01.(목)

오전 6시에 기상하려고 했는데 7시 반에 기상했다..ㅜ

train은 컬럼이 20개고, test는 컬럼이 19개이다.

train에는 credit이라는 컬림이 하나 더 존재한다. 이것이 바로 이번 프로젝트를 통해 예측해야 하는 값이다.

train 값을 통해서 model을 학습 시킨 후, test를 model에 입력해서 credit을 예측하는 것이 프로젝트의 주요 테스크이다.

예측된 credit은 sampl+submission과 동일한 형태를 가져야 하기 때문에 이것을 참고해서 어떻게 credit을 구성하는지 예측할 수 있다.

pd.concat 함수를 활용하면 train, test 데이터가 위아래로 합쳐진다.

그리고 하나 차이가 났던 credit 값은 결측치 형태로 위에 노란 표시된 것처럼 구현되어 직사각형의 데이터로 보여진다.

결측치(null) 값의 존재여부를 확인해주었다.

그리고 값이 빈 곳은 null 값으로 나오기 때문에 credit이 test에 없어서 null 값으로 세어졌을 것일테니 확인해봐야 한다.

NULL 값이 된 영역을 아예 제거를 해준 모습이다.

credit엔 10000으로 적혀있지만 이것은 train, test 데이터 차이로 생긴 당연한 문제이기 때문에 무시하면 된다.

22.12.03. (토)

22.12.04. (일)

# 근데 왜 그룹으로 나누는 걸까 너무 많아서?

# 그런 듯

# "", '' 차이가 뭘까?

# 데이터 프레임은 .plot.bar() 로 직관적으로 볼 수 있음

# 3~19까지는 값들이 거의 존재하지 않는 경우는 이상치로 처리하고 다른 전처리를 해줄 수 있음

# 지금은 2보다 큰 값은 모두 2로 전처리

# preprocessing 라이브러리 중에 LabelEncoder로 인코더 해줌

# LabelEncoder은 문자를 숫자로 인코딩 시켜주는 인코더임

# 뭔소릴까..

# labels = [0,1,2,3,4,5,6] 말고 인코딩하는 것도 다양함

'IT 연구 > Python' 카테고리의 다른 글

[Python 독학] 파이썬 IDLE 사용해보기 (0)	2023.02.02

'IT 연구/Python' Related Articles

[Python 독학] 파이썬 IDLE 사용해보기 2023.02.02

무기는 끈기

[데이콘] 신용카드 사용자 연체 예측 AI 머신러닝 프로젝트 독학 기록 (2022.11.~12.) 본문

[데이콘] 신용카드 사용자 연체 예측 AI 머신러닝 프로젝트 독학 기록 (2022.11.~12.)

'IT 연구 > Python' 카테고리의 다른 글

티스토리툴바