數(shù)據(jù)挖掘的算法及技術(shù)的應(yīng)用的研究論文
數(shù)據(jù)挖掘的算法及技術(shù)的應(yīng)用的研究論文
摘要:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的, 但又是潛在有用的并且最終可被理解的信息和知識(shí)的非平凡過(guò)程。任何有數(shù)據(jù)管理和知識(shí)發(fā)現(xiàn)需求的地方都可以借助數(shù)據(jù)挖掘技術(shù)來(lái)解決問(wèn)題。本文對(duì)數(shù)據(jù)挖掘的算法以及數(shù)據(jù)挖掘技術(shù)的應(yīng)用展開(kāi)研究, 論文對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用做了有益的研究。
關(guān)鍵詞:數(shù)據(jù)挖掘; 技術(shù); 應(yīng)用;
引言:數(shù)據(jù)挖掘技術(shù)是人們長(zhǎng)期對(duì)數(shù)據(jù)庫(kù)技術(shù)進(jìn)行研究和開(kāi)發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中的, 然后發(fā)展到可對(duì)數(shù)據(jù)庫(kù)進(jìn)行查詢和訪問(wèn), 進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫(kù)的即時(shí)遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段, 它不僅能對(duì)過(guò)去的數(shù)據(jù)進(jìn)行查詢和遍歷, 并且能夠找出過(guò)去數(shù)據(jù)之間的潛在聯(lián)系, 從而促進(jìn)信息的傳遞。
一、數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的, 但又是潛在有用的并且最終可被理解的信息和知識(shí)的非平凡過(guò)程。
二、數(shù)據(jù)挖掘的基本過(guò)程
(1) 數(shù)據(jù)選擇:選擇與目標(biāo)相關(guān)的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。根據(jù)不同的數(shù)據(jù)挖掘目標(biāo), 對(duì)數(shù)據(jù)進(jìn)行處理, 不僅可以排除不必要的數(shù)據(jù)干擾, 還可以極大地提高數(shù)據(jù)挖掘的效率。 (2) 數(shù)據(jù)預(yù)處理:主要進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)歸約、離散化和概念分層生成。 (3) 模式發(fā)現(xiàn):從數(shù)據(jù)中發(fā)現(xiàn)用戶感興趣的模式的過(guò)程.是知識(shí)發(fā)現(xiàn)的主要的處理過(guò)程。 (4) 模式評(píng)估:通過(guò)某種度量得出真正代表知識(shí)的模式。一般來(lái)說(shuō)企業(yè)進(jìn)行數(shù)據(jù)挖掘主要遵循以下流程——準(zhǔn)備數(shù)據(jù), 即收集數(shù)據(jù)并進(jìn)行積累, 此時(shí)企業(yè)就需要知道其所需要的是什么樣的數(shù)據(jù), 并通過(guò)分類、編輯、清洗、預(yù)處理得到客觀明確的目標(biāo)數(shù)據(jù)。數(shù)據(jù)挖掘這是最為關(guān)鍵的步驟, 主要是針對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行進(jìn)一步的挖掘, 取得更加客觀準(zhǔn)確的數(shù)據(jù), 方能引入決策之中, 不同的企業(yè)可能采取的數(shù)據(jù)挖掘技術(shù)不同, 但在當(dāng)前來(lái)看暫時(shí)脫離不了上述的挖掘方法。當(dāng)然隨著技術(shù)的進(jìn)步, 大數(shù)據(jù)必定會(huì)進(jìn)一步成為企業(yè)的立身之本, 在當(dāng)前已經(jīng)在很多領(lǐng)域得以應(yīng)用。如市場(chǎng)營(yíng)銷, 這是數(shù)據(jù)挖掘應(yīng)用最早的領(lǐng)域, 旨在挖掘用戶消費(fèi)習(xí)慣, 分析用戶消費(fèi)特征進(jìn)而進(jìn)行精準(zhǔn)營(yíng)銷。就以令人深惡痛絕的彈窗廣告來(lái)說(shuō), 當(dāng)消費(fèi)者有網(wǎng)購(gòu)習(xí)慣并在網(wǎng)絡(luò)上搜索喜愛(ài)的產(chǎn)品, 當(dāng)再一次進(jìn)行搜索時(shí), 就會(huì)彈出很多針對(duì)消費(fèi)者消費(fèi)習(xí)慣的商品。
三、數(shù)據(jù)挖掘方法
1、聚集發(fā)現(xiàn)。
聚集是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是要群與群之間差別很明顯.而同一個(gè)群之間的數(shù)據(jù)盡量相似.聚集在電子商務(wù)上的典型應(yīng)用是幫助市場(chǎng)分析人員從客戶基本庫(kù)中發(fā)現(xiàn)不同的客戶群, 并且用購(gòu)買(mǎi)模式來(lái)刻畫(huà)不同客戶群的特征。此外聚類分析可以作為其它算法 (如特征和分類等) 的預(yù)處理步驟, 這些算法再在生成的簇上進(jìn)行處理。與分類不同, 在開(kāi)始聚集之前你不知道要把數(shù)據(jù)分成幾組, 也不知道怎么分 (依照哪幾個(gè)變量) .因此在聚集之后要有一個(gè)對(duì)業(yè)務(wù)很熟悉的人來(lái)解釋這樣分群的意義。很多情況下一次聚集你得到的分群對(duì)你的業(yè)務(wù)來(lái)說(shuō)可能并不好, 這時(shí)你需要?jiǎng)h除或增加變量以影響分群的方式, 經(jīng)過(guò)幾次反復(fù)之后才能最終得到一個(gè)理想的結(jié)果.聚類方法主要有兩類, 包括統(tǒng)計(jì)方法和神經(jīng)網(wǎng)絡(luò)方法.自組織神經(jīng)網(wǎng)絡(luò)方法和K-均值是比較常用的`聚集算法。
2、決策樹(shù)。
這在解決歸類與預(yù)測(cè)上能力極強(qiáng), 通過(guò)一系列的問(wèn)題組成法則并表達(dá)出來(lái), 然后經(jīng)過(guò)不斷詢問(wèn)問(wèn)題導(dǎo)出所需的結(jié)果。典型的決策樹(shù)頂端是一個(gè)樹(shù)根, 底部擁有許多樹(shù)葉, 記錄分解成不同的子集, 每個(gè)子集可能包含一個(gè)簡(jiǎn)單法則。
四、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
4.1市場(chǎng)營(yíng)銷
市場(chǎng)銷售數(shù)據(jù)采掘在銷售業(yè)上的應(yīng)用可分為兩類:數(shù)據(jù)庫(kù)銷售和籃子數(shù)據(jù)分析。前者的任務(wù)是通過(guò)交互式查詢、數(shù)據(jù)分割和模型預(yù)測(cè)等方法來(lái)選擇潛在的顧客以便向它們推銷產(chǎn)品, 而不是像以前那樣盲目地選擇顧客推銷;后者的任務(wù)是分析市場(chǎng)銷售數(shù)據(jù)以識(shí)別顧客的購(gòu)買(mǎi)行為模式, 從而幫助確定商店貨架的布局排放以促銷某些商品。
4.2金融投資
典型的金融分析領(lǐng)域有投資評(píng)估和股票交易市場(chǎng)預(yù)測(cè), 分析方法一般采用模型預(yù)測(cè)法。這方面的系統(tǒng)有Fidelity Stock Selector, LBS Capital Management。前者的任務(wù)是使用神經(jīng)網(wǎng)絡(luò)模型選擇投資, 后者則使用了專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和基因算法技術(shù)輔助管理多達(dá)6億美元的有價(jià)證券。
結(jié)論:數(shù)據(jù)挖掘是一種新興的智能信息處理技術(shù)。隨著相關(guān)信息技術(shù)的迅猛發(fā)展, 數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域不斷地拓寬和深入, 特別是在電信、軍事、生物工程和商業(yè)智能等方面的應(yīng)用將成為新的研究熱點(diǎn)。同時(shí), 數(shù)據(jù)挖掘應(yīng)用也面臨著許多技術(shù)上的挑戰(zhàn), 如何對(duì)復(fù)雜類型的數(shù)據(jù)進(jìn)行挖掘, 數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和Web技術(shù)等技術(shù)的集成問(wèn)題, 以及數(shù)據(jù)挖掘的可視化和數(shù)據(jù)質(zhì)量等問(wèn)題都有待于進(jìn)一步研究和探索。
參考文獻(xiàn)
[1]孟強(qiáng), 李海晨.Web數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[J].電腦與信息技術(shù), 2023, 25 (1) :59-62.
[2]高海峰.智能交通系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].數(shù)字技術(shù)與應(yīng)用, 2023 (5) :108-108.
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 yyfangchan@163.com (舉報(bào)時(shí)請(qǐng)帶上具體的網(wǎng)址) 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除