數據挖掘操作必須在數據倉庫基礎上進行

人們對數據的處理需求可以分爲兩種類型,操作型處理(OLTP)和分析型處理(OLAP),傳統的數據庫主要是面向OLTP,注重數據的計算、記錄的插入、刪除、與修改,以及簡單的查詢和統計。它的主要任務是進行事務處理,所關注的是事務處理的及時性、完整性和正確性,而在數據的分析處理方面存在著嚴重的不足,主要表現在以下一些方面。

首先是集成性的缺乏。業務數據庫系統的條塊與部門分割,導致數據分布的分散化與無序化。業務數據庫缺乏統一的定義與規劃,導致數據的定義存在歧義;其次是主題不明確,建立數據庫的目的就是爲了滿足事務處理的需要,庫和表的定義與設計完全以此爲基礎而進行,對于數據分析而言,這些庫和表無疑缺少明確的主題。又是需要分析的數據會分散的存儲在不同的表和庫甚至不同的數據庫服務器中,想要對這些數據進行有效的分析是十分困難的。然後是分析和處理的效率低下,設計基于傳統數據庫的應用系統的核心准則,是要確保事務得到及時、准確的處理。因此,在業務數據庫系統的構建過程中,除了庫和表的精心設計之外,索引的建立、存儲過程的優化等工作,也均以此爲中心展開,這樣雖然充分提高了事務處理的效率,但是數據分析處理的效率卻無法得到保證。

傳統數據庫由于自身條件的限制,無法擔當作爲大規模數據綜合分析平台的重任,企業的決策迫切需要有一種新的理論與技術來提供支持,這就是數據倉庫技術。

數據倉庫就是面向主題的、集成的、隨時間變化的、非易失的數據集合,用于支持管理層的決策過程,“面向主題、集成、隨時間變化和非易失”是它的主要特點。

面向主題是數據倉庫中數據組織的最基本原則。數據倉庫中的所謂“主題”,是一個邏輯概念。在信息管理的層次上,主題就是從管理的角度出發,對數據進行綜合分析而抽取的,需要做進一步分析的對象,數據倉庫的構造過程首先就是確定主題的過程。數據倉庫的設計者必須明確該數據倉庫所支持的決策內容,即數據倉庫的用途,並將決策內容歸納爲若幹個具體的易于利用數據進行組織加以分析的主題。

數據倉庫中數據的集成性是指,在構建數據倉庫的過程中,多個外部數據源內格式不同、定義各異的數據,按照既定的策略經過抽取、清洗、轉換等一系列處理。最終構成一個有機的整體。傳統業務處理程序的側重點在于迅速、正確地處理所有業務,記錄業務內容和處理結果,而不是對決策提供支持。數據倉庫直接使用傳統業務處理的結果,進行數據分析。

數據倉庫中數據的非易失性,包括兩個方面的含義,其一是指數據倉庫內容的更新、追加等操作是不頻繁的,一般基于一定的周期或條件阈值進行;其二是指,數據在導入數據倉庫後,雖然也有刪除更新等操作,但決定這種操作的阈值條件是較難滿足的,這種情況的發生是非常罕見的。

數據的時變性,是指數據倉庫的內容隨時間的變化不斷得到補充、更新。其實質就是建立業務數據與時間的對應關系,即以時間爲坐標軸,對既定時間點的業務數據生成“快照”,各個時間點的快照連接起來,就構成了數據倉庫內容的動態連續變化圖,爲決策者提供有效的依據。

從數據庫到數據倉庫,完成了數據挖掘的最重要一步,爲數據挖掘接下來的步驟的順利進行大好了基礎。數據挖掘的各項操作都是在數據倉庫的基礎上進行的。數據倉庫的構建是一門大學問。

初談ADO.NET中利用DataAdapter進行數據操作
對于剛剛學習ADO.NET數據訪問技術的來說,DataAdapter也許往往會令他們感到迷惑,特別是習慣于利用托拽DataAdapter控件進行開發的朋友,通過這一ADO.NET數據訪問控件,我們甚至不用書寫一行代碼,就能完成各種需要的...查看完整版>>初談ADO.NET中利用DataAdapter進行數據操作
 
EpiData3.02數據管理軟件實用教程|報價¥26.70|圖書,計算機與互聯網,數據庫,數據庫挖掘/數據倉庫,許軍
目錄:圖書,計算機與互聯網,數據庫,數據庫挖掘/數據倉庫,品牌:許軍基本信息·出版社:軍事醫學科學出版社·頁碼:242 頁碼·出版日:2006年·ISBN:7801217764·條碼:9787801217769·版次:2006年8月第1版·裝幀:...查看完整版>>EpiData3.02數據管理軟件實用教程|報價¥26.70|圖書,計算機與互聯網,數據庫,數據庫挖掘/數據倉庫,許軍
 
怎樣從網站統計數據中挖掘淘寶客的潛在客戶進行推廣
怎樣從網站統計數據中挖掘淘寶客的潛在客戶進行推廣
  在現在淘寶客廣告滿天飛,基于淘寶客API的網站推廣滿街跑的時候,有很多人在抱怨淘寶客越來越難做了,其實並不是淘寶客難做,是我們的推廣思維産生了問題。現在不再是只需要發發軟文,買買競價排名,或者QQ群發就...查看完整版>>怎樣從網站統計數據中挖掘淘寶客的潛在客戶進行推廣
 
推廣執行方案必須利用數據分析執行力操作
  推廣行業是目前挺熱門的一個行業,很多網站的知名度的獲得都是靠一大群的推廣員孜孜以求的努力換得的,而好的推廣員的收益也是頗爲豐富的。推廣員的一項最重要的任務就是寫好推廣方案,這是跻身推廣行業,做合格...查看完整版>>推廣執行方案必須利用數據分析執行力操作
 
使用動態代理實現用AOP對數據庫進行操作
要實現對數據庫的操作,離不開數據源(DataSource)或者連接(Connection),但是通常來說對數據庫的操作都應該放在DAO中,而DAO又不應該與應用服務器相關聯,所以一般都使用連接(Connection)。現在我們這裏就有一個...查看完整版>>使用動態代理實現用AOP對數據庫進行操作
 
在存儲過程中連接遠程數據庫並進行操作
我們有時候需要在本地數據庫的存儲過程中,或者在其他SQL語句中,要訪問一個遠程數據庫,我們可以這樣做... 在存儲過程中連接遠程數據庫並進行操作 1. 查看遠程數據庫的相關數據 ...查看完整版>>在存儲過程中連接遠程數據庫並進行操作
 
用批處理對MySQL進行數據操作
     批處理是一種非交互式運行mysql程序的方法,如同您在mysql中使用的命令一樣,你仍然將使用這些命令。  爲了實現批處理,您重定向一個文件到mysql程序中,首先我們需要一個文本文件,這個文本文件包含有與...查看完整版>>用批處理對MySQL進行數據操作
 
在存儲過程中連接遠程數據庫並進行操作
  我們有時候需要在本地數據庫的存儲過程中,或者在其他SQL語句中,要訪問一個遠程數據庫,我們可以這樣做...  在存儲過程中連接遠程數據庫並進行操作   1. 查看遠程數據庫的相關數據  SERVICE_NAME  兩種方式...查看完整版>>在存儲過程中連接遠程數據庫並進行操作
 
小技巧:用批處理對MySQL進行數據操作
  批處理是一種非交互式運行mysql程序的方法,如同您在mysql中使用的命令一樣,你仍然將使用這些命令。  爲了實現批處理,您重定向一個文件到mysql程序中,首先我們需要一個文本文件,這個文本文件包含有與我們在...查看完整版>>小技巧:用批處理對MySQL進行數據操作
 
 
回到王朝網路移動版首頁