Study/Python4 [Dacon] Pandas ํํ ๋ฆฌ์ผ #1 ๋ฐ์ดํฐ (1) ๋น์ ํ ๋ฐ์ดํฐ : ์ฌ์ง, ํ ์คํธ, ์๋ฆฌ์ ๊ฐ์ด ์ ํด์ง ํํ๊ฐ ์๋ ๋ฐ์ดํฐ๋ค์ ์ง์นญ (2) ์ ํ ๋ฐ์ดํฐ : ํ๊ณผ ์ด๋ก ๊ตฌ๋ถํ์ฌ ํ์ ๊ธฐ๋ก๋ ๋ฐ์ดํฐ๋ค์ ์ง์นญ : CSV ํ์์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํจ : ํ์ ์ค๋ฐ๊ฟ์ ์ด์ฉํ๊ณ ์ด์ ์ผํ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ๋ถ : ๊ฐ๋จํ ๊ท์น์ ์ฌ์ฉํ๊ธฐ์ CSV๋ ๋ฉ๋ชจ์ฅ๊ณผ ๊ฐ์ด ๊ฐ๋จํ ํ๋ก๊ทธ๋จ์ผ๋ก๋ ๋ง๋ค ์ ์์ #2 ํ๋ค์ค - ํ๋ค์ค๋ ์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ํ์ด์ฌ ํจํค์ง - ํ๋ค์ค๋ ๋ฐ์ดํฐ ์กฐ์ ๋ฐ ๋ถ์์ ์ํ ํจํค์ง - ํ๋ค์ค๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด์๋ ์ ํ ๋ฐ์ดํฐ๋ฅผ ์์์ผ ํจ import pandas as pd #3 CSV ํ์ผ - ๋ฐ์ดํฐ๋ฅผ ์ผํ๋ก๊ตฌ๋ถํ๋ ํ ์คํธ ํ์ผ๋ก ํ์ฅ์๋ .csv - ํ๊ณผ ์ด๋ก ๊ตฌ์ฑ๋์ด ์์ - ์ ํ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ๋ณดํธ์ ์ธ ํ์ผ ํ์ (1) head.. 2022. 1. 29. [์ค๋์ ํ์ด์ฌ] ์์ฌ๊ฒฐ์ ํ๊ท๋๋ฌด๋ก ๋ฐ๋ฆ์ด ๋ฐ์ดํฐ ์์ธกํ๊ธฐ(3) ๋ชจ๋ธ๋ง ์ฃผ์ด์ง ๊ฐ๋ ์ผ๋ก๋ถํฐ ๋ ผ๋ฆฌ์ ์ธ ๋ฐ์ดํฐ ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ ์์ ์ ๋งํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ์ด๋ฅผ ๋ฌผ๋ฆฌ์ ์ธ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ชจ๋ธ๋ก ํ์ํ์ฌ ๊ณ ๊ฐ์ ์๊ตฌ์ ๋ฐ๋ผ ํน์ ์ ๋ณด์์คํ ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋ฐ์ํ๋ ์์ ์ ํฌํจ ## EDA๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ดํด๋ณด๊ณ ์ ์ฒ๋ฆฌ๋ฅผ ํ ํ ๋ณธ๊ฒฉ์ ์ผ๋ก ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ ํ๋ จ๋ ๋ชจ๋ธ์ ํตํด ์์ธกํ๋ ๊ณผ์ ์ ๊ฑฐ์นจ #1 ํ์ด์ฌ scikit-learn import sklearn from sklearn.tree DecisionTreeClassifier - ํ์ด์ฌ์ scikit-learn(์ฌ์ดํท๋ฐ) ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด import ํ๋ ๊ณผ์ 1) ์ฌ์ดํท๋ฐ : ํ์ด์ฌ์์ ๋จธ์ ๋ฌ๋ ๋ถ์์ ํ ๋ ์ ์ฉํ๊ฒ ์ฌ์ฉํ ์ ์๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ - ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ์ดํด๋ณด๋ฉด Numpy, pan.. 2022. 1. 26. [์ค๋์ ํ์ด์ฌ] ์์ฌ๊ฒฐ์ ํ๊ท๋๋ฌด๋ก ๋ฐ๋ฆ์ด ๋ฐ์ดํฐ ์์ธกํ๊ธฐ(2) ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ์์ ์ ์ฒ๋ฆฌ๋ ๋ฐ๋์ ๊ฑฐ์ณ์ผ ํ๋ ๊ณผ์ : ๋ฐ์ดํฐ ์ ์ → ๊ฒฐ์ธก๊ฐ ์ฒ๋ฆฌ → ์ด์๊ฐ ์ฒ๋ฆฌ → ๋ถ์๋ณ์ ์ฒ๋ฆฌ ์์๋ก ์งํ #1 ํ์ด์ฌ ๋ฐ์ดํฐ ๊ธฐ๋ณธ ์ ๋ณด ํ์ธํ๊ธฐ (info()) df.info() ex) test.info() - dataframe์ info() ๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ฉด ํผ์ณ๋ค์ ๊ธฐ๋ณธ์ ๋ณด(๊ฒฐ์ธก์น์ ๋ฐ์ดํฐ ํ์ )๋ฅผ ํ์ธ๊ฐ๋ฅ - ๋ชจ๋ธ๋ง์ ์์ ๊ฒฐ์ธก์น๊ฐ ์๋ค๋ฉด ๊ฒฐ์ธก์น๋ค์ ์ด๋ป๊ฒ ๋ค๋ค์ผํ ์ง ๊ณ ๋ฏผํ๊ณ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ด ํ์ํจ #2 ํ์ด์ฌ ๊ฒฐ์ธก์น ์ญ์ , ๋์ฒด (dropna, fillna) DataFrame.dropna() DataFrame.fillna() ex) train = train.dropna() #๊ฒฐ์ธก์น ์ญ์ test = test.fillna(0) #0์ผ๋ก ๋์ฒด 1) dropn.. 2022. 1. 26. [์ค๋์ ํ์ด์ฌ] ์์ฌ๊ฒฐ์ ํ๊ท๋๋ฌด๋ก ๋ฐ๋ฆ์ด ๋ฐ์ดํฐ ์์ธกํ๊ธฐ(1) EDA (ํ์์ ๋ฐ์ดํฐ ๋ถ์) : ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ๊ณผ์ ์ ์์ด์ ์ง์์ ์ผ๋ก ํด๋น ๋ฐ์ดํฐ์ ๋ํ ํ์๊ณผ ์ดํด๋ฅผ ๊ธฐ๋ณธ์ผ๋ก ๊ฐ์ ธ๊ฐ์ผ ํจ #1 ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ถ๋ฌ์ค๊ธฐ (import) import [๋ผ์ด๋ธ๋ฌ๋ฆฌ] as [์ฌ์ฉํ ์ด๋ฆ] ex) import pandas as pd #2 ํ์ด์ฌ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ (read_csv) data = pd.read_csv('ํ์ผ๊ฒฝ๋ก/ํ์ผ์ด๋ฆ.csv') ex) import pandas as pd data = pd.read_csv('data/test.csv') - ํ์ด์ฌ์์ ๋ฐ์ดํฐํ์ผ (csvํ์ผ)์ ๋ถ๋ฌ์ค๊ธฐ ์ํด์๋ pandas ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํด์ผ ํจ ( import pandas as pd ) #3 ํ์ด์ฌ ํ์ด ๊ฐฏ์ ํ์ธํ๊ธฐ (shape) [dataframe ๋ณ์๋ช ].s.. 2022. 1. 26. ์ด์ 1 ๋ค์