๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Study/Python4

[Dacon] Pandas ํŠœํ† ๋ฆฌ์–ผ #1 ๋ฐ์ดํ„ฐ (1) ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ : ์‚ฌ์ง„, ํ…์ŠคํŠธ, ์†Œ๋ฆฌ์™€ ๊ฐ™์ด ์ •ํ•ด์ง„ ํ˜•ํƒœ๊ฐ€ ์—†๋Š” ๋ฐ์ดํ„ฐ๋“ค์„ ์ง€์นญ (2) ์ •ํ˜• ๋ฐ์ดํ„ฐ : ํ–‰๊ณผ ์—ด๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ ํ‘œ์— ๊ธฐ๋ก๋œ ๋ฐ์ดํ„ฐ๋“ค์„ ์ง€์นญ : CSV ํ˜•์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•จ : ํ–‰์€ ์ค„๋ฐ”๊ฟˆ์„ ์ด์šฉํ•˜๊ณ  ์—ด์€ ์‰ผํ‘œ๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ตฌ๋ถ„ : ๊ฐ„๋‹จํ•œ ๊ทœ์น™์„ ์‚ฌ์šฉํ•˜๊ธฐ์— CSV๋Š” ๋ฉ”๋ชจ์žฅ๊ณผ ๊ฐ™์ด ๊ฐ„๋‹จํ•œ ํ”„๋กœ๊ทธ๋žจ์œผ๋กœ๋„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ #2 ํŒ๋‹ค์Šค - ํŒ๋‹ค์Šค๋Š” ์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ํŒŒ์ด์ฌ ํŒจํ‚ค์ง€ - ํŒ๋‹ค์Šค๋Š” ๋ฐ์ดํ„ฐ ์กฐ์ž‘ ๋ฐ ๋ถ„์„์„ ์œ„ํ•œ ํŒจํ‚ค์ง€ - ํŒ๋‹ค์Šค๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์•Œ์•„์•ผ ํ•จ import pandas as pd #3 CSV ํŒŒ์ผ - ๋ฐ์ดํ„ฐ๋ฅผ ์‰ผํ‘œ๋กœ๊ตฌ๋ถ„ํ•˜๋Š” ํ…์ŠคํŠธ ํŒŒ์ผ๋กœ ํ™•์žฅ์ž๋Š” .csv - ํ–‰๊ณผ ์—ด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Œ - ์ •ํ˜• ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์žฅ ๋ณดํŽธ์ ์ธ ํŒŒ์ผ ํ˜•์‹ (1) head.. 2022. 1. 29.
[์˜ค๋Š˜์˜ ํŒŒ์ด์ฌ] ์˜์‚ฌ๊ฒฐ์ •ํšŒ๊ท€๋‚˜๋ฌด๋กœ ๋”ฐ๋ฆ‰์ด ๋ฐ์ดํ„ฐ ์˜ˆ์ธกํ•˜๊ธฐ(3) ๋ชจ๋ธ๋ง ์ฃผ์–ด์ง„ ๊ฐœ๋…์œผ๋กœ๋ถ€ํ„ฐ ๋…ผ๋ฆฌ์ ์ธ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ•˜๋Š” ์ž‘์—…์„ ๋งํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ์ธ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๋ชจ๋ธ๋กœ ํ™˜์›ํ•˜์—ฌ ๊ณ ๊ฐ์˜ ์š”๊ตฌ์— ๋”ฐ๋ผ ํŠน์ • ์ •๋ณด์‹œ์Šคํ…œ์˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์— ๋ฐ˜์˜ํ•˜๋Š” ์ž‘์—…์„ ํฌํ•จ ## EDA๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ดํŽด๋ณด๊ณ  ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•œ ํ›„ ๋ณธ๊ฒฉ์ ์œผ๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๊ณ  ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์„ ํ†ตํ•ด ์˜ˆ์ธกํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์นจ #1 ํŒŒ์ด์ฌ scikit-learn import sklearn from sklearn.tree DecisionTreeClassifier - ํŒŒ์ด์ฌ์˜ scikit-learn(์‚ฌ์ดํ‚ท๋Ÿฐ) ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์œ„ํ•ด import ํ•˜๋Š” ๊ณผ์ • 1) ์‚ฌ์ดํ‚ท๋Ÿฐ : ํŒŒ์ด์ฌ์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ถ„์„์„ ํ•  ๋•Œ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋“ˆ - ๋‚ด๋ถ€ ๊ตฌ์กฐ๋ฅผ ์‚ดํŽด๋ณด๋ฉด Numpy, pan.. 2022. 1. 26.
[์˜ค๋Š˜์˜ ํŒŒ์ด์ฌ] ์˜์‚ฌ๊ฒฐ์ •ํšŒ๊ท€๋‚˜๋ฌด๋กœ ๋”ฐ๋ฆ‰์ด ๋ฐ์ดํ„ฐ ์˜ˆ์ธกํ•˜๊ธฐ(2) ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณผ์ •์—์„œ ์ „์ฒ˜๋ฆฌ๋Š” ๋ฐ˜๋“œ์‹œ ๊ฑฐ์ณ์•ผ ํ•˜๋Š” ๊ณผ์ • : ๋ฐ์ดํ„ฐ ์ •์ œ → ๊ฒฐ์ธก๊ฐ’ ์ฒ˜๋ฆฌ → ์ด์ƒ๊ฐ’ ์ฒ˜๋ฆฌ → ๋ถ„์„๋ณ€์ˆ˜ ์ฒ˜๋ฆฌ ์ˆœ์„œ๋กœ ์ง„ํ–‰ #1 ํŒŒ์ด์ฌ ๋ฐ์ดํ„ฐ ๊ธฐ๋ณธ ์ •๋ณด ํ™•์ธํ•˜๊ธฐ (info()) df.info() ex) test.info() - dataframe์— info() ๋ฉ”์„œ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ํ”ผ์ณ๋“ค์˜ ๊ธฐ๋ณธ์ •๋ณด(๊ฒฐ์ธก์น˜์™€ ๋ฐ์ดํ„ฐ ํƒ€์ž…)๋ฅผ ํ™•์ธ๊ฐ€๋Šฅ - ๋ชจ๋ธ๋ง์— ์•ž์„œ ๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ๋‹ค๋ฉด ๊ฒฐ์ธก์น˜๋“ค์„ ์–ด๋–ป๊ฒŒ ๋‹ค๋ค„์•ผํ• ์ง€ ๊ณ ๋ฏผํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•จ #2 ํŒŒ์ด์ฌ ๊ฒฐ์ธก์น˜ ์‚ญ์ œ, ๋Œ€์ฒด (dropna, fillna) DataFrame.dropna() DataFrame.fillna() ex) train = train.dropna() #๊ฒฐ์ธก์น˜ ์‚ญ์ œ test = test.fillna(0) #0์œผ๋กœ ๋Œ€์ฒด 1) dropn.. 2022. 1. 26.
[์˜ค๋Š˜์˜ ํŒŒ์ด์ฌ] ์˜์‚ฌ๊ฒฐ์ •ํšŒ๊ท€๋‚˜๋ฌด๋กœ ๋”ฐ๋ฆ‰์ด ๋ฐ์ดํ„ฐ ์˜ˆ์ธกํ•˜๊ธฐ(1) EDA (ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„) : ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๋Š” ๊ณผ์ •์— ์žˆ์–ด์„œ ์ง€์†์ ์œผ๋กœ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํƒ์ƒ‰๊ณผ ์ดํ•ด๋ฅผ ๊ธฐ๋ณธ์œผ๋กœ ๊ฐ€์ ธ๊ฐ€์•ผ ํ•จ #1 ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ (import) import [๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ] as [์‚ฌ์šฉํ•  ์ด๋ฆ„] ex) import pandas as pd #2 ํŒŒ์ด์ฌ ํŒŒ์ผ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ (read_csv) data = pd.read_csv('ํŒŒ์ผ๊ฒฝ๋กœ/ํŒŒ์ผ์ด๋ฆ„.csv') ex) import pandas as pd data = pd.read_csv('data/test.csv') - ํŒŒ์ด์ฌ์—์„œ ๋ฐ์ดํ„ฐํŒŒ์ผ (csvํŒŒ์ผ)์„ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ ์œ„ํ•ด์„œ๋Š” pandas ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ด์šฉํ•ด์•ผ ํ•จ ( import pandas as pd ) #3 ํŒŒ์ด์ฌ ํ–‰์—ด ๊ฐฏ์ˆ˜ ํ™•์ธํ•˜๊ธฐ (shape) [dataframe ๋ณ€์ˆ˜๋ช…].s.. 2022. 1. 26.