使用資料集「MovieLens 10M Dataset」建構推薦引擎(網址 https://grouplens.org/datasets/movielens/);
嘗試比較不同的ALS參數值組合,以root mean square error (RMSE)為標準,選擇最佳化的參數值組合。
提示:可以參考第13章對決策樹進行參數最佳化的做法。
此題主要的問題在於資料量大必須引用
sc.setCheckpointDir(Path+"checkpoint/")
ratingsRDD.persist(pyspark.StorageLevel.MEMORY_AND_DISK)
來解決可能因處理大量資料而造成記憶體不足的問題,方式如hw41.py的部分
另外還可以使用
import pyspark.mllib.recommendation as rd
rd.Rating方法封装數據函數可以減少記憶體使用如附件中hw4-1.py的部分。
詳如附件