針對大數據的不同特點,提出了不同的大數據處理架構。數據采集被理解為在將數據放入數據倉庫或任何其他存儲解決方案之前收集、過濾和清理數據的過程。
大多數數據采集場景都假設數據量大、速度快、種類多但價值低,因此必須采用適應性強、時效性強的收集、過濾和清理算法,以確保數據倉庫分析僅處理數據的高價值片段。因此必須采用適應性強、時效性強的收集、過濾和清理算法,以確保數據倉庫分析僅處理數據的高價值片段。
它旨在通過為公司提供開放的、最先進的大數據采集框架和協議,確定當前的數據采集需求。不同行業中用于數據采集的當前方法。針對大數據的不同特點,提出了不同的大數據處理架構。對于某些組織來說,大多數數據都具有潛在的高價值,因為招募新客戶可能很重要。對于這樣的組織來說,在數據采集之后,數據分析、分類和高數據量的打包起著最重要的作用。
當前方法如何滿足數據采集的要求,以及同一領域未來可能的發展??傮w而言,數據采集被理解為在將數據放入數據倉庫或任何其他存儲解決方案之前收集、過濾和清理數據的過程。
1.允許為任何類型的分布式數據源(非結構化、半結構化、結構化)收集信息的協議
2.使用不同協議從分布式源收集數據的框架
3.允許持久存儲框架檢索的數據的技術
大部分大數據采集在消息隊列范式中進行,有時也稱為流式范式、發布/訂閱范式(Carzaniga et al.2000)或事件處理范式(Cugola and Margara 2012;Luckham 2002)。這里的基本假設是,多種不穩定數據源生成需要大數據處理平臺捕獲、存儲和分析的信息。數據源生成的新信息通過實現預定義協議的數據采集框架轉發到數據存儲器。本節介紹獲取大數據的兩項核心技術。
協議
一些內部依賴大數據處理的組織設計了企業特定的協議,其中大多數尚未公開發布,因此本章無法對其進行描述。本節介紹數據采集常用的開放協議。
AMQP
開發高級消息隊列協議(AMQP)的原因是需要一種開放協議,以滿足大公司在數據采集方面的要求。為了實現這一目標,23家公司編制了一系列數據采集協議的要求。由此產生的AMQP(高級消息隊列協議)于2012年10月成為OASIS標準。AMQP(美國銀行等,2011年)的基本原理是提供具有以下特征的協議: 普遍性:AMQP的這一特性是指其在當前和未來數據采集架構中跨不同行業使用的能力。AMQP的普遍性是通過使其易于擴展和實現而實現的。實現該協議的大量框架,包括SwiftMQ、Microsoft Windows Azure服務總線、Apache Qpid和Apache ActiveMQ,反映了該協議的實現有多容易。 安全性:安全性屬性在兩個不同的維度上實現。首先,該協議允許消息加密的集成,以確保即使是截獲的消息也無法輕松解碼。因此,它可以用來傳輸關鍵業務信息。該協議對垃圾郵件的注入具有魯棒性,使得AMQP代理難以受到攻擊。其次,AMQP確保了消息的持久性,這意味著它允許消息傳輸,即使發送方和接收方不同時在線。 保真度:第三個特征與消息的完整性有關。AMQP包括確保發送方能夠表達消息語義的方法,從而允許接收方理解其接收的內容。該協議實現了可靠的故障語義,允許系統在接收方存儲信息之前,在發送方端創建消息時檢測錯誤。 適用性:此屬性背后的意圖是確保AMQP客戶端和代理可以使用開放系統互連(OSI)模型層的多個協議進行通信,如傳輸控制協議(TCP)、用戶數據報協議(UDP)以及流控制傳輸協議(SCTP)。通過這些方法,AMQP適用于許多場景和行業,這些場景和行業并不需要并使用OSI模型層的所有協議。此外,該協議被設計為支持不同的消息傳遞模式,包括直接消息傳遞、請求/應答、發布/訂閱等。 互操作性:該協議被設計為獨立于特定的實現和供應商。因此,具有完全獨立的實現、體系結構和所有權的客戶機和代理可以通過AMQP進行交互。如上所述,來自不同組織的幾個框架現在實施該協議。 可管理性:AMQP規范中的一個主要關注點是確保實現它的框架可以輕松擴展。這是通過確保AMQP是一種容錯和無損的有線協議實現的,通過該協議可以傳輸所有類型的信息(例如XML、音頻、視頻)。 為了實現這些需求,AMQP依賴于一個類型系統和四個不同的層:傳輸層、消息傳遞層、事務層和安全層。類型系統基于數據庫中的基本類型(整數、字符串、符號等)、編程中已知的描述類型以及協議用戶可以擴展的描述符值。此外,AMQP允許使用編碼來存儲符號和值,以及定義由幾個主要類型的組合組成的復合類型。 傳輸層定義如何處理AMQP消息。AMQP網絡由通過鏈路連接的節點組成。消息可以來自(發送方),由(中繼)轉發,或由節點(接收方)使用。只有在以下情況下,才允許消息通過鏈接傳播.