前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘論文范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
數(shù)據(jù)挖掘技術(shù)是延伸和擴(kuò)展了傳統(tǒng)分析方法,可以發(fā)現(xiàn)傳統(tǒng)分析方法不能發(fā)現(xiàn)的內(nèi)容和規(guī)律,并且它將人們從單調(diào)、枯燥的閱讀專利文獻(xiàn)的工作中解放出來,使用計(jì)算機(jī)代替了人類勞動(dòng),這樣不僅提高了效率,而且提升了準(zhǔn)確度。因此,數(shù)據(jù)挖掘作為一個(gè)專利分析的強(qiáng)有力工具被引入到專利分析中來,并且得到快速的發(fā)展應(yīng)用。專利數(shù)據(jù)挖掘流程應(yīng)考慮的問題:一是用數(shù)據(jù)挖掘解決什么樣的問題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。故專利數(shù)據(jù)挖掘的一般過程通常按照以下步驟來完成:領(lǐng)會(huì)數(shù)據(jù)挖掘的目的,獲取分析所用的數(shù)據(jù)集合,探索、清理和預(yù)處理數(shù)據(jù),選擇要使用的數(shù)據(jù)挖掘技術(shù),使用算法解決問題,解釋算法的結(jié)果。而其一般流程可簡(jiǎn)化為三個(gè)階段:數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果解釋和評(píng)價(jià)。本文采用簡(jiǎn)化的流程進(jìn)行實(shí)證分析。
二、石家莊地區(qū)制藥企業(yè)專利數(shù)據(jù)挖掘
本文對(duì)石家莊地區(qū)制藥企業(yè)的專利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團(tuán)公司、石家莊制藥集團(tuán)有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團(tuán)、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號(hào)是目前權(quán)威的專利技術(shù)主題的標(biāo)識(shí)編碼之一,基本包含了各行各業(yè)的專利信息,是一個(gè)龐大的專利信息體系。目前國(guó)內(nèi)外很多分析方法及技術(shù)大部分是基于專利的IPC分類號(hào)來分析專利技術(shù)主題的,此分析方法有一定的參考價(jià)值和科學(xué)性,而且對(duì)于具有大量專利信息的分析具有很好的總結(jié)概括效果。本文以專利全部IPC號(hào)為分析對(duì)象,并且構(gòu)建IPC號(hào)之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專利技術(shù)的發(fā)展提供參考。
1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個(gè)大部。對(duì)專利數(shù)據(jù)庫(kù)中的644條專利進(jìn)行篩選,根據(jù)“分類號(hào)”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請(qǐng)人(專利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專利。最后篩選出590條最符合該領(lǐng)域特點(diǎn)的專利。由于IPC號(hào)在幾乎所有現(xiàn)存數(shù)據(jù)庫(kù)中均是以一個(gè)字段存儲(chǔ)一個(gè)專利的所有IPC分類號(hào)的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個(gè)專利一般都有好幾個(gè)分類號(hào),而每個(gè)企業(yè)又研究大量的專利,所以在進(jìn)行專利分析之前,需要對(duì)專利IPC號(hào)進(jìn)行數(shù)據(jù)整理。由于過于細(xì)致的IPC分類號(hào)并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號(hào)的前4位。并將申請(qǐng)人與其對(duì)應(yīng)的多條IPC號(hào)進(jìn)行拆分,拆分后的數(shù)據(jù)項(xiàng)有773條,即顯示每個(gè)申請(qǐng)人對(duì)應(yīng)的一條IPC分類號(hào)。
2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過程將采用Excel和SQLsever2005軟件,首先對(duì)所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號(hào)的關(guān)聯(lián)規(guī)則挖掘,然后對(duì)專利信息進(jìn)行分析。
3.數(shù)據(jù)挖掘結(jié)果與分析?;陉P(guān)聯(lián)規(guī)則制作依賴關(guān)系網(wǎng)絡(luò)圖,可以更加直觀地看到各個(gè)IPC號(hào)之間的關(guān)聯(lián)和依賴狀態(tài)。
(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術(shù)群。這些專利的IPC分類號(hào)是關(guān)鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項(xiàng)集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標(biāo)化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無環(huán)和碳環(huán)化合物)通過專利相關(guān)知識(shí)我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專利主題的相互關(guān)聯(lián)、依賴說明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡(luò),在研發(fā)數(shù)量上也占有一定優(yōu)勢(shì),所以說是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。
(2)以B65G、C12M為中心的輔助設(shè)備專利技術(shù)群。藥品的生產(chǎn)離不開設(shè)備的支持,所以設(shè)備方面的專利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來,專利間有著很強(qiáng)的依賴性和關(guān)聯(lián)性,在核心專利周邊有B65G(運(yùn)輸或貯存裝置,例如裝載或傾斜用輸送機(jī)、車間輸送機(jī)系統(tǒng)、氣動(dòng)管道輸送機(jī))、C12M(酶學(xué)或微生物學(xué)裝置),這些是制藥的輔助技術(shù)手段,與中心專利是相互聯(lián)系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進(jìn)藥品的研制離不開先進(jìn)制藥設(shè)備支持,所以設(shè)備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴網(wǎng)絡(luò)也已經(jīng)形成,說明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強(qiáng)實(shí)力。但與中心主要專利相比,輔助設(shè)備專利技術(shù)還是需要不斷提高的。
三、總結(jié)
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
數(shù)據(jù)倉(cāng)庫(kù)是管理智能循證醫(yī)學(xué)支持系統(tǒng)的基礎(chǔ),搭建數(shù)據(jù)倉(cāng)庫(kù)后,要充分地調(diào)取數(shù)據(jù)倉(cāng)庫(kù)的有效資源,必須要有強(qiáng)大的工具對(duì)數(shù)據(jù)倉(cāng)庫(kù)的資源進(jìn)行規(guī)劃整理。OLAP(On-lineAnalyticalProcessing,在線分析處理或聯(lián)機(jī)分析處理)是一個(gè)應(yīng)用廣泛的數(shù)據(jù)倉(cāng)庫(kù)調(diào)用方法。它可以根據(jù)應(yīng)用人員的指令,快速準(zhǔn)確地對(duì)大量復(fù)雜的數(shù)據(jù)進(jìn)行搜索查詢,并以直觀的容易理解的形式將搜索結(jié)果展示給醫(yī)院決策者,使他們能夠迅速全面地掌握醫(yī)院的運(yùn)營(yíng)現(xiàn)狀。
2采用可視化圖形操作分析技術(shù)
可視化分析技術(shù)能夠整合各式不同的數(shù)據(jù)來源或數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng),利用MicrosoftSQLServerAnalysisServices構(gòu)建多維結(jié)構(gòu)數(shù)據(jù)庫(kù)(Cube),而后存取、分析商業(yè)數(shù)據(jù),通過鼠標(biāo)的拖、拉、點(diǎn)、選,操作各種維度與量值,迅速產(chǎn)生各式的分析圖表與統(tǒng)計(jì)結(jié)果??梢暬膱D形操作能為用戶迅速提供決策報(bào)表與在線分析處理(OLAP)等重要分析功能。運(yùn)用專業(yè)工具所提供的報(bào)表(Reports)、實(shí)時(shí)查詢(AD-HocQuery)、聯(lián)機(jī)分析處理(OLAP)等重要商業(yè)智能的強(qiáng)大分析功能,使醫(yī)院獲得最全面、迅速的數(shù)據(jù)洞悉能力。具體功能如下:
(1)表定制及報(bào)表的整合,在報(bào)表靈活性和報(bào)表開發(fā)易用性等方面具有突出的優(yōu)勢(shì),其報(bào)表是通過圖形界面下的鼠標(biāo)拖拽操作來直觀的完成的,無須編寫任何腳本或者代碼,即可實(shí)現(xiàn)復(fù)雜格式的報(bào)表。
(2)優(yōu)秀的BI前端圖形展示功能,支持目前流行的幾乎所有圖形展現(xiàn)方式;而且圖形之間可以任意組合應(yīng)用,使支持的圖形展現(xiàn)方式以幾何級(jí)的方式增長(zhǎng)。
1.1結(jié)果優(yōu)化中遺傳算法的應(yīng)用遺傳算法由達(dá)爾文進(jìn)化論與孟德爾遺傳變異論進(jìn)行模擬后得到,該算法所采用的算法因子具有隨機(jī)性,故設(shè)備故障的出現(xiàn)往往不會(huì)受到常規(guī)故障規(guī)則的限制,但是遺傳算法在實(shí)際應(yīng)用過程中,其對(duì)故障的整合分析,并不是盲目式的,而是針對(duì)機(jī)械設(shè)備狀態(tài)運(yùn)行情況,以設(shè)備最優(yōu)化為基本原則進(jìn)行不斷完善計(jì)算進(jìn)行的。若設(shè)備狀態(tài)監(jiān)測(cè)和故障診斷當(dāng)中,直接采用了與設(shè)備情況相應(yīng)的參數(shù)進(jìn)行適值計(jì)算,但又不需要對(duì)優(yōu)化參數(shù)進(jìn)行明確計(jì)算,在針對(duì)部分無法明確計(jì)算得到的設(shè)備參數(shù)時(shí),即可采用遺傳算法對(duì)結(jié)果進(jìn)行優(yōu)化。遺傳算法的智能性與并行性較強(qiáng),利用該方法,可以對(duì)設(shè)備故障當(dāng)中還未得到有效解決的部分復(fù)雜問題進(jìn)行妥善處理。目前,遺傳算法在設(shè)備運(yùn)行函數(shù)的優(yōu)化、設(shè)備模式的識(shí)別以及設(shè)備運(yùn)行信號(hào)的整合處理等相關(guān)工作當(dāng)中有著較為全面的應(yīng)用,在將復(fù)雜的運(yùn)行數(shù)據(jù)進(jìn)行優(yōu)化時(shí),遺傳算法具有較為良好的性能。綜合其相關(guān)特點(diǎn),在建立設(shè)備狀態(tài)監(jiān)測(cè)和故障診斷的模型時(shí),可采用該技術(shù)使得模型更為合理化,使得設(shè)備狀態(tài)監(jiān)測(cè)與故障診斷的結(jié)果更為準(zhǔn)確。以滾動(dòng)軸承的狀態(tài)監(jiān)測(cè)與故障診斷為例。在實(shí)際工作當(dāng)中,運(yùn)用各類運(yùn)算符集,對(duì)滾動(dòng)軸承的原始性特征向量進(jìn)行測(cè)量后,采取最優(yōu)的組合方式獲得新型向量,配合采用遺傳算法得到最終的滾動(dòng)軸承參數(shù),并利用分類法,對(duì)各項(xiàng)間距進(jìn)行了調(diào)整,使得滾動(dòng)軸承的診斷參數(shù)更為準(zhǔn)確。此外,利用該方法,還有效區(qū)分了滾動(dòng)軸承的不同工作狀態(tài),測(cè)量結(jié)果較為全面,效果顯著。
1.2模糊集理論的應(yīng)用要點(diǎn)該方法通過模糊集合與模糊推理兩種方法,其研究測(cè)試的對(duì)象是各類不確定性因素,屬于傳統(tǒng)集合理論的創(chuàng)新。模糊集理論在設(shè)備狀態(tài)監(jiān)測(cè)和故障診斷中的應(yīng)用,主要包含了兩個(gè)方面。一方面,是在相關(guān)數(shù)據(jù)概念的形成時(shí),采用不準(zhǔn)確和較為模糊的語言變量,根據(jù)人們習(xí)慣,對(duì)設(shè)備狀態(tài)的變化及變量變化狀態(tài)進(jìn)行描述。具有較強(qiáng)的直觀性,且相關(guān)人員在接受該類概念時(shí),也可以更方便的理解接受;另一方面,該方法通過提煉模糊性規(guī)則,在建模時(shí)模糊化,使得機(jī)械設(shè)備的控制、預(yù)測(cè)以及故障診斷等過程擁有更為廣闊的空間。
1.3基于實(shí)例分析的方案優(yōu)化及調(diào)整該種方法擁有較為簡(jiǎn)單的思路,在對(duì)設(shè)備未來運(yùn)行情況進(jìn)行預(yù)測(cè)時(shí),系統(tǒng)會(huì)匹配與設(shè)備目前情況相似的實(shí)際案例,并從以往的解決方法中選出最佳的解決方案,再結(jié)合設(shè)備實(shí)際情況進(jìn)行相應(yīng)調(diào)整。此類方法的應(yīng)用范圍較廣,且得到的計(jì)算結(jié)果也相對(duì)準(zhǔn)確,但同時(shí)也具有一定缺陷,即無法全面整合以往設(shè)備數(shù)據(jù)及解決規(guī)律,缺乏充足的繼承性。該方法進(jìn)行故障診斷的基本理念是,在選紅棗解決方法的過程中,利用歷史診斷方法成功案例為奠基,進(jìn)行全面的推理工作,并采用類比和聯(lián)想法,較為全面的對(duì)故障進(jìn)行診斷。
1.4多種數(shù)據(jù)挖掘法的聯(lián)合應(yīng)用除上述幾種數(shù)據(jù)挖掘技術(shù)外,實(shí)際工作中還涵蓋了以傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)為基礎(chǔ)的統(tǒng)計(jì)分析方法、人工神經(jīng)網(wǎng)絡(luò)元技術(shù)、等多種方法,考慮到每一種方法或多或少具有局限性,故為了有效提高各類方法的應(yīng)用效果,可以將各類方法進(jìn)行配合使用,代表性的算法組合類型如表1所示。
以遺傳算法和模糊集理論的配合采用為例。由于模糊算法,主要是利用了最大隸屬原理和閥值原理,故可以按照不同故障的發(fā)生原因以及故障征兆的相互聯(lián)系,在綜合考慮的基礎(chǔ)上對(duì)機(jī)械設(shè)備故障的可能原因進(jìn)行全面分析。而該方法在運(yùn)用的過程中,會(huì)對(duì)各類故障征兆進(jìn)行約簡(jiǎn)化從而得到較為普遍的規(guī)律,但是所得到的規(guī)律也可能存在不可靠問題。故在實(shí)際應(yīng)用模糊集理論的同時(shí),配合采用遺傳算法,通過對(duì)模糊集理論所得到的結(jié)論及規(guī)則進(jìn)行全面優(yōu)化,使得診斷的結(jié)果更為準(zhǔn)確與高效。上述案例方法在渦輪機(jī)故障診斷過程中進(jìn)行應(yīng)用時(shí),可先建立完善的渦輪機(jī)故障集,在此基礎(chǔ)上采用模糊集理論對(duì)渦輪機(jī)故障進(jìn)行診斷,配合遺傳算法對(duì)渦輪機(jī)故障規(guī)律進(jìn)行優(yōu)化,使得最終故障診斷結(jié)果更為準(zhǔn)確。除遺傳算法與模糊集理論課進(jìn)行配合使用外,其他各類方法也可以根據(jù)設(shè)備實(shí)際情況進(jìn)行搭配,使得最終診斷結(jié)果更為準(zhǔn)確有效。
2結(jié)束語
[論文摘要]在電子商務(wù)中,數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢(shì),幫助企業(yè)做出正確的決策。本文對(duì)目前電子商務(wù)中的Web數(shù)據(jù)挖掘方法進(jìn)行了總結(jié),并對(duì)電子商務(wù)中的Web數(shù)據(jù)對(duì)象進(jìn)行了分類,對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘的作用進(jìn)行了分析,為今后電子商務(wù)中實(shí)用Web數(shù)據(jù)挖掘軟件的開發(fā)與應(yīng)用提供了參考。
一、電子商務(wù)和數(shù)據(jù)挖掘簡(jiǎn)介
電子商務(wù)是指?jìng)€(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng)。目前國(guó)內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購(gòu),網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時(shí)將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識(shí)。數(shù)據(jù)挖掘的過程有時(shí)也叫知識(shí)發(fā)現(xiàn)的過程。
而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動(dòng)發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計(jì)算機(jī)語言、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。
二、Web數(shù)據(jù)挖掘?qū)ο蟮姆诸?/p>
Web數(shù)據(jù)有3種類型:HTML標(biāo)記的Web文檔數(shù)據(jù),Web文檔內(nèi)連接的結(jié)構(gòu)數(shù)據(jù)和用戶訪問數(shù)據(jù)。按照對(duì)應(yīng)的數(shù)據(jù)類型,Web挖掘可以分為3類:
1.Web內(nèi)容挖掘:就是從Web文檔或其描述中篩選知識(shí)的過程。
2.Web結(jié)構(gòu)挖掘:就是從Web的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。它的目的是通過聚類和分析網(wǎng)頁(yè)的鏈接,發(fā)現(xiàn)網(wǎng)頁(yè)的結(jié)構(gòu)和有用的模式,找出權(quán)威網(wǎng)頁(yè)。
3.Web使用記錄挖掘:就是指通過挖掘存儲(chǔ)在Web上的訪問日志,來發(fā)現(xiàn)用戶訪問Web頁(yè)面的模式及潛在客戶等信息的過程。
三、電子商務(wù)中數(shù)據(jù)挖掘的方法
針對(duì)電子商務(wù)中不同的挖掘目標(biāo)可以采用不同的數(shù)據(jù)挖掘方法,數(shù)據(jù)挖掘的方法有很多,主要包括下面3大類:統(tǒng)計(jì)分析或數(shù)據(jù)分析,知識(shí)發(fā)現(xiàn),基于預(yù)測(cè)模型的挖掘方法等。
1.統(tǒng)計(jì)分析。統(tǒng)計(jì)分析主要用于檢查數(shù)據(jù)中的數(shù)學(xué)規(guī)律,然后利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來解釋這些規(guī)律。通常使用的方法有線性分析和非線性分析、連續(xù)回歸分析和邏輯回歸分析、單變量和多變量分析,以及時(shí)間序列分析等。統(tǒng)計(jì)分析方法有助于查找大量數(shù)據(jù)間的關(guān)系,例如,識(shí)別時(shí)間序列數(shù)據(jù)中的模式、異常數(shù)據(jù)等,幫助選擇適用于數(shù)據(jù)的恰當(dāng)?shù)慕y(tǒng)計(jì)模型,包括多維表、剖分、排序,同時(shí)應(yīng)生成恰當(dāng)?shù)膱D表提供給分析人員,統(tǒng)計(jì)功能是通過相應(yīng)的統(tǒng)計(jì)工具來完成回歸分析、多變量分析等,數(shù)據(jù)管理用于查找詳細(xì)數(shù)據(jù),瀏覽子集,刪除冗余等。
2.知識(shí)發(fā)現(xiàn)。知識(shí)發(fā)現(xiàn)源于人工智能和機(jī)器學(xué)習(xí),它利用一種數(shù)據(jù)搜尋過程,去數(shù)據(jù)中抽取信息,這些信息表示了數(shù)據(jù)元素的關(guān)系和模式,能夠從中發(fā)現(xiàn)商業(yè)規(guī)則和商業(yè)事實(shí)。利用數(shù)據(jù)可視化工具和瀏覽工具有助于開發(fā)分析以前挖掘的數(shù)據(jù),以進(jìn)一步增強(qiáng)數(shù)據(jù)發(fā)掘能力。其他數(shù)據(jù)挖掘方法,如可視化系統(tǒng)可給出帶有多變量的圖形化分析數(shù)據(jù),幫助商業(yè)分析人員進(jìn)行知識(shí)發(fā)現(xiàn)。
3.預(yù)測(cè)模型的挖掘方法。預(yù)測(cè)模型的挖掘方法是將機(jī)器學(xué)習(xí)和人工智能應(yīng)用于數(shù)據(jù)挖掘系統(tǒng)。預(yù)測(cè)模型基于這樣一個(gè)假設(shè):消費(fèi)者的消費(fèi)行為具有一定的重復(fù)性和規(guī)律性,這使得商家可以通過分析收集存儲(chǔ)在數(shù)據(jù)庫(kù)中的交易信息,預(yù)測(cè)消費(fèi)者的消費(fèi)行為。按消費(fèi)者所具有的特定的消費(fèi)行為將其分類,商家就能將銷售工作集中于一部分消費(fèi)者,即實(shí)現(xiàn)針對(duì)四、Web挖掘的作用
通過收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息。確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體未來的消費(fèi)行為,然后對(duì)所識(shí)別出來的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷,節(jié)省成本,提高效率,從而為企業(yè)帶來更多的利潤(rùn)。
1.優(yōu)化Web站點(diǎn)。Web設(shè)計(jì)者不再完全依靠專家的定性指導(dǎo)來設(shè)計(jì)網(wǎng)站,而是根據(jù)訪問者的信息來設(shè)計(jì)和修改網(wǎng)站結(jié)構(gòu)和外觀。站點(diǎn)上頁(yè)面內(nèi)容的安排和鏈接就如超級(jí)市場(chǎng)中物品的擺放一樣,把相關(guān)聯(lián)的物品擺放在一起有助于銷售。網(wǎng)站管理員也可以按照大多數(shù)訪問者的瀏覽模式對(duì)網(wǎng)站進(jìn)行組織,按其所訪問內(nèi)容來裁剪用戶與Web信息空間的交互,盡量為大多數(shù)訪問者的瀏覽提供方便。
2.設(shè)計(jì)個(gè)性化網(wǎng)站。強(qiáng)調(diào)信息個(gè)性化識(shí)別客戶的喜好,使客戶能以自己的方式來訪問網(wǎng)站。對(duì)某此用戶經(jīng)常訪問的地方,有針對(duì)性地提供個(gè)性化的廣告條,以實(shí)現(xiàn)個(gè)性化的市場(chǎng)服務(wù)。
3.留住老顧客。通過Web挖掘,電子商務(wù)的經(jīng)營(yíng)者可以獲知訪問者的個(gè)人愛好,更加充分地了解客戶的需要。根據(jù)每一類(甚至是每一個(gè))顧客的獨(dú)特需求提供定制化的產(chǎn)品,有利于提高客戶的滿意度,最終達(dá)到留住客戶的目的。
4.挖掘潛在客戶。通過分析和探究Web日志記錄中的規(guī)律,可以先對(duì)已經(jīng)存在的訪問者進(jìn)行分類。確定分類的關(guān)鍵屬性及相互間關(guān)系,然后根據(jù)其分類的共同屬性來識(shí)別電子商務(wù)潛在的客戶,提高對(duì)用戶服務(wù)的質(zhì)量。
5.延長(zhǎng)客戶駐留時(shí)間。在電子商務(wù)中,為了使客戶在網(wǎng)站上駐留更長(zhǎng)的時(shí)間就應(yīng)該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,及時(shí)根據(jù)需求動(dòng)態(tài)地向客戶做頁(yè)面推薦,調(diào)整Web頁(yè)面,提供特有的一些商品信息和廣告,以使客戶滿意。
6.降低運(yùn)營(yíng)成本。通過Web挖掘,公司可以分析顧客的將來行為,進(jìn)行有針對(duì)性的電子商務(wù)營(yíng)銷話動(dòng),可以根據(jù)關(guān)心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對(duì)性,提高廣告的投資回報(bào)率??梢缘玫娇煽康氖袌?chǎng)反饋信息,降低公司的運(yùn)營(yíng)成本。
7.增強(qiáng)電子商務(wù)安全。Web的內(nèi)容挖掘還包括挖掘存有客戶登記信息的后臺(tái)交易數(shù)據(jù)庫(kù)??蛻舻怯浶畔⒃陔娮由虅?wù)話動(dòng)中起著非常重要的作用,特別是在安全方面,或者在對(duì)客戶可訪問信息的限制方面。
8.提高企業(yè)競(jìng)爭(zhēng)力。分析潛在的目標(biāo)市場(chǎng),優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營(yíng)模式,根據(jù)客戶的歷史資料不僅可以預(yù)測(cè)需求趨勢(shì),還可以評(píng)估需求傾向的改變,有助于提高企業(yè)的競(jìng)爭(zhēng)力。
五、小結(jié)
本文介紹了在電子商務(wù)中可以被用來進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)源,以及可用于電子商務(wù)中的基于Web上的幾種數(shù)據(jù)挖掘技術(shù)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù),對(duì)這些數(shù)據(jù)進(jìn)行挖掘,可以找出這些有價(jià)值的“知識(shí)”,企業(yè)用戶可以根據(jù)這些“知識(shí)”把握客戶動(dòng)態(tài),追蹤市場(chǎng)變化,做出正確的針對(duì)性的決策,比如改進(jìn)網(wǎng)站、向各類用戶推出個(gè)性化的頁(yè)面,或者向高流失客戶群提供優(yōu)惠政策進(jìn)行挽留等等。但是在電子商務(wù)中進(jìn)行Web的數(shù)據(jù)挖掘時(shí)還有很多問題需要解決。例如,如何解決不同國(guó)家不同地區(qū)存儲(chǔ)Web數(shù)據(jù)的語義不一致性,如果提供更安全、快捷的服務(wù)方面還有很多工作要做。
參考文獻(xiàn):
[1]郝先臣張德干尹國(guó)成趙海:用于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究.小型微型計(jì)算機(jī)系統(tǒng)[J].2007(7)786~787
[2]趙煥平等:WEB數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用.福建電腦[J].2008(1)167
[3]石巖:Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用.科技情報(bào)開發(fā)與經(jīng)濟(jì)[J].2006(7)235~236
數(shù)據(jù)報(bào)告 數(shù)據(jù)采集論文 數(shù)據(jù)安全論文 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計(jì)論文 數(shù)據(jù)挖掘 數(shù)據(jù)理論論文 數(shù)據(jù)通信論文 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀