2015年8月31日 星期一

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定




Spark在1.3.0之後發佈新的DataFrame,與Hive有更多的結合,預設也會啟動HiveContext,可以直接使用sql指令撈取hive中的資料.一般如果Spark與Hive放在同一個環境,只要將hive的hive-site.xml放到spark路徑/conf下面,就可以直接使用.但是現在當我們的環境放在docker裡面的話,設定上就要動點手腳.
相關文章:
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定

2015年8月26日 星期三

[Linux] 駭人之心不可有,防人之心不可無,Ubuntu簡單防護

enter image description here
上禮拜拿到Softlayer的時候,因為是實體機,有朋友告知安全性的問題,都已經將防火牆架設列在todo list裡面,但是因為大家平常都各自有事情要忙,想說沒有重要資料就先擺著.沒想到今天一早就接到ibm大大的聯繫說有不明人士嘗試進入主機…orz 沒想到平常看人家笑話今天自己變成笑話,果然出來跑的總是要還,在網路上的遲早會被駭.
事情是這樣的:

2015年8月23日 星期日

[心得] Softlayer 使用心得-管理介面


enter image description here
圖片來源:Softlayer



兩三個月前看到IBM有意願投入研究Spark,本來只是開玩笑性質說可以去拉贊助,沒想到IBM的大大就很主動來跟我們社群討論合作事宜.當時考量到我們一來參加比賽需要用到機器,二來想在Hadoop conference上開tutorial,所以希望能跟Softlayer租用機器.經過一些申請步驟和條件交換,機器終於下來了(感動).

2015年8月12日 星期三

[閒聊] 資料科學家的日常(外傳)


前幾個禮拜過去同事想了解傳說中的資料科學家到底平常在做什麼事情.報章媒體總是喧嘩的好像有資料科學家就能把大便變成黃金,但是身材其中就覺得根本不是這麼回事,就跟一般工作一樣有一堆鳥事要處理,所有神奇的東西都是血汗換來的.

直接放上投影片內容:

相關閱讀:
[Python] 資料科學家的日常(一) Read Data
[Python] 資料科學家的日常(二) Clean Data-清理HTML標籤 l.html

2015年8月7日 星期五

[Algorithm] [python] K-鄰近算法(KNN k-nearest neighbors) 實作


機器學習演算法通常分為監督式學習以及非監督式學習兩種,監督式學習指已知部分要分類的對象的分類結果(例如男性女性),用這些已知的部分來學習分類的模式,將未知的對象來做分類;非監督式學習則是單純從屬性差異來將對象分類.今天要介紹的KNN(K鄰近算法)屬於監督式學習的一種,透過已知的分類結果來給予未知對象分類.