資料隨機抽樣
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
n是要抽取的行數。
frac是抽取的比列。(有一些時候,我們並對具體抽取的行數不關係,我們想抽取其中的百分比,這個時候就可以選擇使用frac,例如frac=0.8,就是抽取其中80%)
replace抽樣後的數據是否代替原DataFrame()
weights這個是每個樣本的權重。
axis是選擇抽取數據的行還是列。axis=0的時是抽取行,axis=1時是抽取列(也就是說axis=1時,在列中隨機抽取n列,在axis=0時,在行中隨機抽取n行)
應用:將csv資料讀入df2,把全部資料取亂數排序
import pandas as pd
df2 = pd.read_csv("glass.csv")
df = df2.sample(frac=1)