15分鐘熟悉HBaseShell命令
Hadoop提取KPI進行海量Web日志分析。Web日志包含著網站最重要的信息,通過日志分析,我們可以知道網站的訪問量,哪個網頁訪問人數最多,哪個網頁最有價值等。一般中型的網站(10W的PV以上),每天會產生1G以上Web日志文件。
OracleVM+centos7 1+openstackkilo多結點安裝教程---neutron的安裝(2)。聲明:最近在進行openstack的kilo版本的安裝,發現現有的網絡教程非常少,而且多數教程并不能安裝成功,故寫此教程。openstack的安裝較為復雜,本教程并不能保證在不同環境下也能將其安裝成功。
OracleVM+centos7 1+openstackkilo多結點安裝教程---neutron的安裝(3)。聲明:最近在進行openstack的kilo版本的安裝,發現現有的網絡教程非常少,而且多數教程并不能安裝成功,故寫此教程。
Spark版本定制版3-通過案例對SparkStreaming透徹理解三板斧之三。本講內容基于Spark 1 6 1版本(在2016年5月來說是Spark最新版本)講解。
Hadoop學習之網絡爬蟲+分詞+倒排索引實現搜索引擎案例。
ElasticSearch(三)--文檔。面向對象編程語言流行的原因之一是,可以用對象表示和處理現實生活中那些有潛在關系和復雜結構的實體.到目前為止,這種方式還不錯。
HiveQL基本操作整理。
在Kaggle手寫數字數據集上使用SparkMLlib的樸素貝葉斯模型進行手寫數字識別。
Hadoop之仿寫搜索引擎。這篇文章,可能比較長,如果你覺得寫得好可以把它看完,希望對你有所幫助。
HadoopJoin。Reduce端join,適合于兩個大表 Map端join,適合一個大表和一個小表,小表放到 Distribute Cache里面 semi join 當join只用到其中一個表中的一小部分時。
MapReduce中的join算法-reduce端join。在海量數據的環境下,不可避免的會碰到join需求, 例如在數據分析時需要連接從不同的數據源中獲取到數據。假設有兩個數據集:氣象站數據庫和天氣記錄數據庫,并考慮如何合二為一。
Java中Comparable和Comparator的辨析。在對集合元素進行比較時一般使用TreeSet。對于簡單的數據類型,TreeSet可以直接進行比較。但是對于復雜的數據類型,比如自己定義的數據類型或者類,就需要自己設置比較方法與比較規則了,這時就需要用到Comparable和Comparator了。
windows下pycharm開發spark。
ganglia集群的搭建與hadoop集群的搭建。Ganglia是UCBerkeley發起的一個開源監視項目,設計用于測量數以千計的節點。每臺計算機都運行一個收集和發送度量數據(如處理器速度、內存使用量等)的名為gmond的守護進程。
Java核心技術(六)——接口。后面的博文,我們將開始Java的常用高級技術學習。接口技術,主要用來描述類具有什么樣的功能,而并不給出每個功能的具體實現。一個類可以實現(implement)一個或多個接口,并在需要接口的地方,隨時使用實現了相應接口的對象。
tomcat啟動時候報錯java lang ClassCastException。
參考資源限制方法兩種。資源限制針對 docker daemon ( 不針對 contrainer )。資源限制針對 docker contrainer (針對 contrainer 及 contrainer 下所有的進程 )。
Kafka的安裝及測試。
第93講:SparkStreamingupdateStateByKey案例實戰和內幕源碼。第一部分:updateStateByKey它的主要功能是隨著時間的流逝,在Spark Streaming中可以為每一個key可以通過CheckPoint來維護一份state狀態,通過更新函數對該key的狀態不斷更新。