大數據平臺的總體目標是構建統一的數據采集、存儲、挖掘與分析處理能力。平臺必須支持海量異構數據源的采集,包括運營商內部的結構化、半結構化、非結構化數據和外部第三方數據,并解決數據量暴增所帶來的存儲與計算性能問題。
大數據平臺選用目前主流的Hadoop分布式系統?;贖adoop的大數據平臺不僅是底層分散的各種數據源的匯聚平臺,更重要的是要在數據匯聚基礎上對數據進行有效跨域整合,并基于強大的數據挖掘分析模型,對上層應用提供各種跨域數據分析能力,從而使應用能專注于自身的業務邏輯,快速創新,促進上層業務應用百花齊放。大數據平臺的關鍵特點如下:
一、基于Hadoop的x86服務器集群,支持強大的可擴展能力,可以隨數據量增長而平滑擴容;將Hadoop與虛擬化云技術結合,可以實現更靈活的分布式資源管理能力;基于Hadoop流處理技術,提供實時數據分布式處理能力。
二、數據統一采集、存儲、整合、共享?;跀祿该髟L問模塊提供數據統一訪問管理,實現應用與數據解耦,同時增強數據安全管控能力,提升用戶隱私保護能力。
三、整合數據挖掘模型,構建運營商統一的商業洞察與網絡洞察組建或模型庫,提供統一的能力服務,快速部署應用。
基于Hadoop的大數據平臺系統架構功能邏輯上主要包括三大塊:數據層、能力層、管理域、具體介紹如下:
數據層主要包括分布式ETL模塊、數據庫、數據透明訪問模塊。
能力層主要包括大數據挖掘建?;A能力組建、商業洞察組建、網絡洞察組建、能力總線等模塊。其中,大數挖掘建模基礎能力組建是大數據的加速器,主要提供數據擬合、聚類、機器學習等核心算法庫,用于尋找數據間的關系;也包括文本分析、語音分析、視頻分析、圖分析、自然語言處理、搜索引擎等各種類型的數據分析處理技術;還包括數據分析集成開發環境。能力層使整個大數據的核心,使大數據平臺區別于傳統數據平臺,真正具備數據智能。
管理域主要包括系統管理與數據治理,系統管理主要管理軟硬件資源,提供簡單易用的系統操作維護界面,包括集群安裝、部署管理、軟件升級管理、節點管理、服務管理、任務管理、配置管理、集群監控、告警管理、日志管理等功能;數據治理主要管理系統內存儲的數據,包括元數據管理、數據質量管理、數據生命周期管理、數據安全管理等。