:::| 目前位置圖示目前位置:首頁圖示回首頁 | 主功能頁圖示相關問答
雲端程式計算解題筆記:使用資料集「MovieLens 10M Dataset」建構推薦引擎

[日期]:2019/01/21  [瀏覽人數]:375

使用資料集「MovieLens 10M Dataset」建構推薦引擎(網址 https://grouplens.org/datasets/movielens/);

嘗試比較不同的ALS參數值組合,以root mean square error (RMSE)為標準,選擇最佳化的參數值組合。

提示:可以參考第13章對決策樹進行參數最佳化的做法。

此題主要的問題在於資料量大必須引用

sc.setCheckpointDir(Path+"checkpoint/")

ratingsRDD.persist(pyspark.StorageLevel.MEMORY_AND_DISK)

來解決可能因處理大量資料而造成記憶體不足的問題,方式如hw41.py的部分

另外還可以使用

import pyspark.mllib.recommendation as rd

rd.Rating方法封装數據函數可以減少記憶體使用如附件中hw4-1.py的部分。

詳如附件