๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ์์ ์ ์ฒ๋ฆฌ๋ ๋ฐ๋์ ๊ฑฐ์ณ์ผ ํ๋ ๊ณผ์ : ๋ฐ์ดํฐ ์ ์ → ๊ฒฐ์ธก๊ฐ ์ฒ๋ฆฌ → ์ด์๊ฐ ์ฒ๋ฆฌ → ๋ถ์๋ณ์ ์ฒ๋ฆฌ ์์๋ก ์งํ
#1 ํ์ด์ฌ ๋ฐ์ดํฐ ๊ธฐ๋ณธ ์ ๋ณด ํ์ธํ๊ธฐ (info())
df.info()
ex) test.info()
- dataframe์ info() ๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ฉด ํผ์ณ๋ค์ ๊ธฐ๋ณธ์ ๋ณด(๊ฒฐ์ธก์น์ ๋ฐ์ดํฐ ํ์ )๋ฅผ ํ์ธ๊ฐ๋ฅ
- ๋ชจ๋ธ๋ง์ ์์ ๊ฒฐ์ธก์น๊ฐ ์๋ค๋ฉด ๊ฒฐ์ธก์น๋ค์ ์ด๋ป๊ฒ ๋ค๋ค์ผํ ์ง ๊ณ ๋ฏผํ๊ณ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ด ํ์ํจ
#2 ํ์ด์ฌ ๊ฒฐ์ธก์น ์ญ์ , ๋์ฒด (dropna, fillna)
DataFrame.dropna()
DataFrame.fillna()
ex) train = train.dropna() #๊ฒฐ์ธก์น ์ญ์
test = test.fillna(0) #0์ผ๋ก ๋์ฒด
1) dropna()
- ๊ฒฐ์ธก์น๋ฅผ ๊ฐ๋ ํ์ DataFrame ๊ฐ์ฒด์์ ์ญ์
2) fillna()
- ๋ชจ๋ ๊ฒฐ์ธก์น๋ฅผ ์ธ์ ๊ฐ์ผ๋ก ๋์ฒด