世洲企業社,問與答

目前位置:

常用指令參數筆記-資料隨機抽樣

[日期]:2018/04/12 [瀏覽人數]:360

資料隨機抽樣

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行數。

frac是抽取的比列。（有一些時候，我們並對具體抽取的行數不關係，我們想抽取其中的百分比，這個時候就可以選擇使用frac，例如frac=0.8，就是抽取其中80%）

replace抽樣後的數據是否代替原DataFrame()

weights這個是每個樣本的權重。

axis是選擇抽取數據的行還是列。axis=0的時是抽取行，axis=1時是抽取列（也就是說axis=1時，在列中隨機抽取n列，在axis=0時，在行中隨機抽取n行）

應用：將csv資料讀入df2，把全部資料取亂數排序

import pandas as pd
df2 = pd.read_csv(＂glass.csv＂)

df = df2.sample(frac=1)