資料探勘也稱為資料採礦,主要意義就是從一大堆資料信息中,找出脈絡關係,形成知識管理中的偽資訊。
資料探勘發展之初,常有人誤解為這不就是統計分析,從這段定義中,「從一個大型的資料庫中,在無預設立場的情況下,找出資料型樣以及資料間關係的一個過程。(Mohamed L. Hambaba, 1996)」。
可以了解資料探勘與統計分析最大的差異就是在於研究假設與分析結果的不同。
統計分析通常是先建立研究假設的模式,也會給予分析結果一般性的預測;
但資料探勘則相反,如同前述的無預設立場,也就是不建立任何假說,只指定分析演算方法,而往往也無法預測最終的結果。
因此統計分析的步驟,是先從建立假設、收集資料、分析資料、結論應用;而資料探勘的步驟,則是先取的資料、 分析資料、找出假設、再結論應用。
機器學習,根據李宏毅教授所給出的定義:
所謂機器學習,就是讓機器具備找出一個函式的能力。
這跟資料探勘的目標是一模一樣。
可以說資料探勘本質上就是機器學習,但是資料探勘過程中可以使用機器學習,但也可以不是機器學習。
由發展史可看出一二,資料探勘是在機器學習之後出來的名詞,但是其中資料探勘並無運用到新的學科,而是多種學科的綜合體。
統計學——1749年
人工智慧——1940年
機器學習——1946年
資料探勘——1980年
簡言之,機器學習是一門更加偏向理論性學科,其目的是為了讓計算機不斷學習找到接近目標函式f的假設h。
而資料探勘則是使用了包括機器學習演算法在內的眾多知識的一門應用學科,它主要是使用一系列處理方法挖掘資料背後的資訊。
以上所說的一系列處理方法,指得就是KDD.
資料探勘是「資料庫知識發現」(Knowledge-Discovery in Databases, KDD)的分析步驟[4] ,本質上屬於機器學習的範疇。
資料庫知識發現(KDD)過程通常定義為以下階段:
(1) 選擇 (2) 預處理 (3) 變換 (4) 資料探勘 (5) 解釋/評估。[4]
其中第四步驟資料探勘,可以是機器學習也可以是統計學。
而ML的理論基礎就是統計學,但是ML重點研究的是如何將統計學與計算機結合,運用計算機的運算力,讓機器可以自我學習(函數自動調整參數),而這正是一個具有反饋的框架。
所以ML的發展理論上有二:
- 參數調得更好 => 數學/統計學
- 更方便運用 => 框架/套件
資料分析是一種統計方法,其主要特點是多維性和描述性。有些幾何方法有助於揭示不同的資料之間存在的關係,並繪製出統計資訊圖,以更簡潔的解釋這些資料中包含的主要資訊。其他一些用於收集資料,以便弄清哪些是同質的,從而更好地了解資料。
資料分析可以處理大量資料,並確定這些資料最有用的部分。本學科近年來的成功,很大程度上是因為製圖技術的提高。這些圖可以通過直接分析資料,來突出難以捕捉的關係;更重要的是,這些表達方法與基於現象分布的「先驗」觀念無關,與經典統計方法正相反。
資料分析的數學基礎在20世紀早期就已確立,但直到電腦的出現才使得實際操作成為可能,並使得資料分析得以推廣。資料分析是數學與電腦科學相結合的產物。
若是以固定時間為資料分析的顆粒單位,則稱為時間序列分析,是主要作為銷售資料商業分析的方法之一。
Reference: https://mymkc.com/article/content/22741 https://www.youtube.com/watch?v=Ye018rCVvOo&list=PLJV_el3uVTsMhtt7_Y6sgTHGHp1Vb2P2J https://www.zhihu.com/question/24533374 https://huasadata.com/%E4%BB%80%E9%BA%BC%E6%98%AF%E8%B3%87%E6%96%99%E6%8E%A2%E5%8B%98data-mining%EF%BC%9F/ https://www.cnblogs.com/DarrenChan/p/5781374.html https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/565079/#outline__4 https://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98 https://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90
Share on Twitter Share on FacebookSQL Server Analytics Service 1
SEO(1) Github(2) Title Tag(2) ML(1) 李宏毅(1) SQL Server(18) Tempdb(1) SSMS(1) Windows(1) 自我成長(2) Excel(1) python Flask(1) python(5) Flask(2)
Max Chen (159)