蜂巢之Iaas云主機快速啟動的優化。使用過Linux的,不使用桌面的技(無)術(限)大(裝)拿(X)的筒子們大概都有經驗,電腦的操作啟動時間是速度很快的,往往都是在幾秒級別完成。
是一個簡單的beat,檢索tomcat jmx中的指標值的工具。檢索出的數據提供給LogStash或者Elasticsearch呈現。jmx指標是通過在tomcat中配置“JMX Proxy Servlet“, 并可通過http請求獲取。
大數據學習筆記6·社會計算中的大數據(4) 。上一篇介紹了LifeSpec項目,這個項目是關于用戶理解和用戶畫像的。這篇是社會計算部分的最后一篇,關于用戶連接和圖隱私。
一致性哈希算法在1997年由麻省理工學院提出的一種分布式哈希(DHT)實現算法,設計目標是為了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分類似。一致性哈希算法介紹。
第4課:SparkStreaming的Exactly-One的事務處理和不重復輸出徹底掌握。一:Exactly-One的事務處理。二:輸出不重復。
hive使用技巧(四)——巧用MapJoin解決數據傾斜問題。
在一個全新的ubuntu14 04中通過源碼編譯安裝qemu和libvirt環境。需要注意一個安裝順序問題。建議先安裝qemu 后安裝libvirt 因為,libvirt起來后,會檢測其需要使用的hypervisor。ubuntu14 04手動安裝qemu和libvirt。
Spark內核架構。SparkContext創建:高層DAGScheduler, 底層TaskScheduler, SchedulerBackend。
Kafka設計與原理詳解(一)。
【原創】swarm源碼分析(2)---manage流程與store。
spark分布式平臺下python環境的搭建。其實這個環境我已經搞了兩個禮拜了。兩周前,我接到這個project,完成一個python寫的基于spark分布式平臺的音樂推薦系統。我以前聽過python,這一次無意間看到了一句話“life is short,you need python”。
Kafka設計與原理詳解(二)。
Storm發展到現在已經有了5個年頭,從剛開始驚艷四方,到現在逐漸被新興框架(Flink、Spark Streaming)挑戰。Storm本身也在不斷的發展,Twitter對其不斷的探索,且深一步的開發了Heron框架。Storm深度分析及其正式版本思考。
從WordCount到MapReduce計算模型。雖然現在都在說大內存時代,不過內存的發展怎么也跟不上數據的步伐吧。所以,我們就要想辦法減小數據量。這里說的減小可不是真的減小數據量,而是讓數據分散開來。分開存儲、分開計算。這就是 MapReduce 分布式的核心。
Spark定制版2:通過案例對SparkStreaming透徹理解三板斧之二。
[GoogleDeepLearning筆記]LogisticClassification。
地鐵譯:Sparkforpythondevelopers---搭建Spark虛擬環境3。在VirtualBox 上建Ubantu虛機,安裝Anaconda,Java 8,Spark,IPython Notebook,以及和Hello world 齊名的wordcount 例子程序。
第5課:基于案例一節課貫通SparkStreaming流計算框架的運行源碼。
Spark Streaming 第一課:案例動手實戰并在電光石火間理解其工作原理。Spark Streaming 第一課:案例動手實戰并在電光石火間理解其工作原理。