前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇計(jì)算機(jī)爬蟲技術(shù)范文,相信會(huì)為您的寫作帶來(lái)幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
>> 基于網(wǎng)絡(luò)爬蟲原理的Web內(nèi)容挖掘技術(shù)分析 基于陷阱技術(shù)的網(wǎng)絡(luò)爬蟲檢測(cè) 基于WebKit的網(wǎng)絡(luò)爬蟲 基于模糊測(cè)試的網(wǎng)絡(luò)協(xié)議漏洞挖掘研究 基于異步JavaScript技術(shù)的水稻病蟲害圖像網(wǎng)絡(luò)爬蟲設(shè)計(jì) 淺析漏洞挖掘技術(shù) 一種基于python語(yǔ)言的網(wǎng)絡(luò)爬蟲研究 基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲實(shí)現(xiàn) 基于多線程的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn) 基于網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn) 基于Websphinx網(wǎng)絡(luò)爬蟲的研究與改進(jìn) 基于軟件體系結(jié)構(gòu)分析的漏洞挖掘技術(shù)研究 基于垂直搜索引擎的主題爬蟲技術(shù) 網(wǎng)絡(luò)論壇爬蟲的設(shè)計(jì) 基于系統(tǒng)漏洞掃描和防病毒技術(shù)的網(wǎng)絡(luò)安全的設(shè)計(jì) 基于網(wǎng)絡(luò)安全的防火墻漏洞掃描技術(shù) 基于Fuzzing的軟件漏洞發(fā)掘技術(shù) 基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)營(yíng)銷管理 基于主機(jī)和網(wǎng)絡(luò)入侵檢測(cè)的數(shù)據(jù)挖掘技術(shù) 基于Web的網(wǎng)絡(luò)信息挖掘技術(shù)研究 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:l、.asp、.com、.cn等常見(jiàn)的字符終止的,因此,當(dāng)我們對(duì)字符進(jìn)行hash時(shí),應(yīng)當(dāng)去除開始和結(jié)尾的常見(jiàn)字符,這樣可以減少碰撞發(fā)生的概率。本文提出了一種新的算法----M-Interval-Hash,可以計(jì)算URL的hash值:令M=去掉常見(jiàn)字符后的字符長(zhǎng)度/N,代表在URL中選取字符時(shí)間隔的字符數(shù)。N是一個(gè)按照經(jīng)驗(yàn)來(lái)設(shè)置的參數(shù),例如,N=3,字符長(zhǎng)度為36,則M=12,表示選取字符的間隔是12個(gè)字符。
2.2 代碼自動(dòng)注入模塊
在對(duì)XSS漏洞進(jìn)行挖掘時(shí),需要注入代碼來(lái)測(cè)試漏洞是否存在,而在XSS中,惡意代碼的注入可以是在GET請(qǐng)求中,也可以是POST請(qǐng)求。所以,在代碼自動(dòng)注入時(shí),應(yīng)該考慮上述兩種情形。在代碼注入時(shí),測(cè)試每一個(gè)注入點(diǎn),測(cè)試時(shí)按照數(shù)據(jù)庫(kù)中測(cè)試代碼順序依次從數(shù)據(jù)庫(kù)中取出一條記錄,直到數(shù)據(jù)庫(kù)中的記錄為空。
2.3 漏洞檢測(cè)模塊
代碼注入完成之后,還需要對(duì)注入的結(jié)果進(jìn)行檢測(cè),以確定是否存在該漏洞。本文通過(guò)匹配漏洞特征庫(kù)來(lái)判斷XSS漏洞是否執(zhí)行成功。從漏洞特征庫(kù)讀取XSS注入漏洞的測(cè)試腳本,對(duì)每個(gè)GET變量和POST變量依次進(jìn)行XSS攻擊。然后分析從Web服務(wù)器端返回的響應(yīng)消息,看其是否滿足漏洞庫(kù)中該漏洞的特征。若滿足,則說(shuō)明存在XSS漏洞,否則不存在。
XSS的測(cè)試效果很大程度上由測(cè)試腳本的質(zhì)量決定,本方案選擇的腳本為OWASP所推薦的測(cè)試腳本。
3 實(shí)驗(yàn)結(jié)果及比較
3.1 網(wǎng)絡(luò)爬蟲模塊中URL去重算法測(cè)試
為了驗(yàn)證本文技術(shù)方案的可行性,首先對(duì)URL去重算法進(jìn)行了驗(yàn)證,將M-Interval-Hash算法與MD5算法進(jìn)行比較。實(shí)驗(yàn)環(huán)境采用一臺(tái)計(jì)算機(jī),CPU為Pentium E5300,內(nèi)存為2GB。軟件環(huán)境為Windows XP Professional版本 2002 Service Pack2和JDK 1.6,數(shù)據(jù)庫(kù)為MySQL 5.5.20。在M-Interval-Hash算法中,為了測(cè)試方便,我們?nèi)∨cM相關(guān)的經(jīng)驗(yàn)參數(shù)N=8,將該算法和MD5算法比較。
4.2 XSS漏洞檢測(cè)測(cè)試
為測(cè)試本文技術(shù)的可行性,對(duì)一些網(wǎng)站進(jìn)行了掃描,并和另外兩種基于爬蟲的檢測(cè)工具Acunetix WVS Free Edition 6.5和XSSer 1.5進(jìn)行比較。第一個(gè)網(wǎng)站測(cè)試環(huán)境為Apache 2.2.14+PHP;第二個(gè)網(wǎng)站測(cè)試環(huán)境為IIS 6.0+ASP。
表1為上述兩種工具和本文技術(shù)掃描結(jié)果比較。
在表1中的第二個(gè)網(wǎng)站中存在Form表單,所以XSSer無(wú)法檢測(cè)出XSS漏洞。
本文技術(shù)、Acunetix WVS 8和XSSer 1.5對(duì)XSS漏洞掃描的時(shí)間比較見(jiàn)表2。
通過(guò)表1和表2的數(shù)據(jù)可看出本文XSS漏洞挖掘技術(shù)相對(duì)Acunetix WVS和XSSer兩種工具來(lái)說(shuō)性能更佳。
4 結(jié)束語(yǔ)
對(duì)于Web攻擊中的大量XSS攻擊,本文提出了一種基于網(wǎng)絡(luò)爬蟲的XSS漏洞挖掘技術(shù),為了提高網(wǎng)絡(luò)爬蟲的性能,在網(wǎng)絡(luò)爬蟲模塊使用了M-Interval-Hash新算法,以實(shí)現(xiàn)URL去重,同時(shí)為了提高網(wǎng)頁(yè)抓取速度,采用了異步I/O完成端口模型,漏洞檢測(cè)模塊則使用特征庫(kù)匹配技術(shù)。通過(guò)實(shí)驗(yàn)證明,XXS漏洞檢測(cè)效果較好,在郵箱XSS漏洞的挖掘、Web網(wǎng)站XSS漏洞的檢測(cè)等方面均有成功的應(yīng)用.
[參考文獻(xiàn)]
關(guān)鍵詞:垂直搜索;金融信息;爬蟲技術(shù);語(yǔ)義網(wǎng)絡(luò)
中圖分類號(hào):TP391.3
隨著互聯(lián)網(wǎng)的高速發(fā)展,造就了信息的空前繁榮。面對(duì)浩如煙海的信息時(shí),企業(yè)和投資者如何有效、準(zhǔn)確地獲取他們所需的信息變得越來(lái)越迫切,因?yàn)殡S時(shí)隨處都蘊(yùn)藏著稍縱即逝的商機(jī)。以Google、百度為代表的傳統(tǒng)搜索模式在大幅提高用戶獲取信息的效率同時(shí),也日益顯露出自身的瓶頸:搜索引擎的商業(yè)發(fā)展趨勢(shì),比如付費(fèi)廣告等無(wú)效信息越來(lái)越多,產(chǎn)生“搜索噪音”,金融領(lǐng)域的專業(yè)人士呼吁專業(yè)性的搜索引擎,我們通常所說(shuō)的垂直搜索引擎,便是利用在專業(yè)領(lǐng)域的索引方式,下面以金融領(lǐng)域?yàn)槔f(shuō)明構(gòu)建金融垂直搜索引擎所采用的關(guān)鍵技術(shù)以及所用到的資源。
1 垂直搜索引擎概述
垂直搜索引擎是指在某一個(gè)專業(yè)領(lǐng)域(例如金融、能源等),通過(guò)收集到的網(wǎng)頁(yè)信息量,再進(jìn)行一次整合,最終為專業(yè)人士提供的有一定價(jià)值的信息。它可以幫助人們?cè)诟鼮榭s小的范圍獲取更具有針對(duì)性的信息。如圖一所示。
2 金融垂直搜索的關(guān)鍵技術(shù)
2.1 金融爬蟲技術(shù)。金融爬蟲因?yàn)楹湍骋活I(lǐng)域密切相關(guān),所以需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放人等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止,另外,所有被爬蟲抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索;對(duì)于專業(yè)網(wǎng)絡(luò)爬蟲來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo),如圖2所示為普通爬蟲和專業(yè)爬蟲的比較。
2.2 結(jié)構(gòu)化信息抽取技術(shù)。結(jié)構(gòu)化信息抽取技術(shù)是指將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的需求抽取成結(jié)構(gòu)化數(shù)據(jù)后再存入數(shù)據(jù)庫(kù)。結(jié)構(gòu)化信息抽取技術(shù)是垂直搜索引擎和通用搜索引擎最大的差別,也是評(píng)判垂直搜索引擎質(zhì)量的重要技術(shù)指標(biāo)。
2.3 自然語(yǔ)言智能語(yǔ)義處理技術(shù)。自然語(yǔ)言智能語(yǔ)義處理技術(shù)指的是使計(jì)算機(jī)具有理解人類語(yǔ)言和自我學(xué)習(xí)語(yǔ)言的能力,并根據(jù)相應(yīng)的語(yǔ)言要求完成具體的操作。我們使用自然語(yǔ)言智能語(yǔ)義技術(shù)來(lái)提高相關(guān)度的判定準(zhǔn)確率,相關(guān)度模塊的準(zhǔn)確程度直接決定金融爬蟲的收割效果。在這一技術(shù)中,結(jié)合中文分詞和語(yǔ)義理解可以很好地保證系統(tǒng)搜集金融信息的準(zhǔn)確率,并且可以提高金融爬蟲的效率。通過(guò)金融垂直領(lǐng)域詞典來(lái)解析相應(yīng)的用戶自然語(yǔ)言輸入和金融數(shù)據(jù)內(nèi)容,根據(jù)解析的語(yǔ)義建立主題垂直索引,涉及實(shí)體識(shí)別、語(yǔ)義網(wǎng)絡(luò)、語(yǔ)義索引模塊、垂直查詢等模塊。(1)實(shí)體識(shí)別。我們以識(shí)別算法為基礎(chǔ),開發(fā)出金融命名的自動(dòng)識(shí)別算法和工具。金融行業(yè)命名實(shí)體包括所有的金融專業(yè)術(shù)語(yǔ)、上市公司名稱、金融機(jī)構(gòu)名稱、著名業(yè)內(nèi)人士等等。(2)語(yǔ)義網(wǎng)絡(luò)。如果不了解文本中的語(yǔ)義就無(wú)法判斷它會(huì)帶來(lái)的影響,例如如果不了解“市盈率”這個(gè)詞所代表的意義就不能對(duì)描述市盈率變化的新聞進(jìn)行處理,因此這里需要一個(gè)針對(duì)金融文本的小型語(yǔ)義網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)是一個(gè)與股市相關(guān)的概念,例如“利率”、“匯率”、“股價(jià)”等。該語(yǔ)義網(wǎng)絡(luò)的建立需要融入專家知識(shí),并具有可擴(kuò)展性,可以根據(jù)需要增加。(3)語(yǔ)義索引模塊。在基于關(guān)鍵詞的索引體系上,建立基于語(yǔ)義的索引體系,以便進(jìn)行語(yǔ)義相關(guān)的計(jì)算和查詢。(4)垂直查詢模塊。在垂直查詢模塊中,根據(jù)請(qǐng)求者的日常搜索關(guān)鍵詞從中找到規(guī)律性,利用識(shí)別方法建立自己專業(yè)詞匯的數(shù)據(jù)庫(kù)。
3 金融垂直搜索中所用到的資源
對(duì)于金融垂直搜索系統(tǒng),融合了網(wǎng)絡(luò)金融、漢語(yǔ)分詞、語(yǔ)義處理和領(lǐng)域知識(shí)學(xué)習(xí)等多項(xiàng)專業(yè)技術(shù),因此系統(tǒng)在構(gòu)建中需要相應(yīng)的資源作保證,目前實(shí)現(xiàn)金融垂直搜索系統(tǒng)所用到的資源有以下一些。
3.1 詞匯:(1)上市公司的名稱、簡(jiǎn)稱和別稱;(2)投資機(jī)構(gòu)的名稱、簡(jiǎn)稱;(3)股市相關(guān)名稱,比如“大盤”、“后市”、“大小非”、“散戶”、“指數(shù)”等;對(duì)于這一類詞匯的獲取,可以從大量Web股市文本中通過(guò)自動(dòng)詞匯獲取與手工相結(jié)合的方式,并手工標(biāo)注其感彩。
3.2 表達(dá)模式庫(kù)。我們感興趣的信息是某個(gè)主體(評(píng)論家、記者、證券研究機(jī)構(gòu)等)對(duì)某個(gè)客體(股票、行業(yè)板塊、大盤、宏觀經(jīng)濟(jì)形勢(shì)、后市等)的態(tài)度(觀望、看多、看空等)、描述(利好、利空等)和操作(建倉(cāng)、清倉(cāng)、半倉(cāng)、拋售等)。因此需要構(gòu)建一個(gè)針對(duì)股市新聞的文本表達(dá)模式(模版)庫(kù),幫助我們對(duì)金融垂直領(lǐng)新聞的信息進(jìn)行結(jié)構(gòu)化提取,以便支持后續(xù)的研究。
表達(dá)模式可以大致分為以下幾類:(1)態(tài)度,例如“A對(duì)B~”(機(jī)構(gòu)對(duì)后市看好)、“~有望~”(后市有望大幅拉升);(2)描述,例如“A強(qiáng)力~”(機(jī)構(gòu)強(qiáng)力出擊)、“A指出,B~”(分析人士指出)、“給A帶來(lái)~”(給市場(chǎng)帶來(lái)較大的壓力);(3)邏輯,包括一些轉(zhuǎn)折、遞進(jìn)、因果、雙重否定等的邏輯表達(dá)方式。
對(duì)于那些簡(jiǎn)單的表達(dá),不需要統(tǒng)計(jì)其表達(dá)模式,可以繼續(xù)使用詞頻方式;對(duì)于稍微復(fù)雜的表達(dá)方式,需要開發(fā)自動(dòng)化的工具從股市文本的語(yǔ)料中獲取,并加以標(biāo)注。
4 結(jié)束語(yǔ)
金融垂直搜索引擎的應(yīng)用能夠很好的滿足金融主體的需求。對(duì)于多樣化數(shù)據(jù)的專業(yè)化細(xì)分成為垂直搜索的最大技術(shù)特點(diǎn),減少垃圾信息,提高搜索效率,在某些方面甚至可以提供實(shí)時(shí)的數(shù)據(jù),最大限度地整合了現(xiàn)在的網(wǎng)頁(yè)數(shù)據(jù),為用戶提供了完整的金融信息檢索體驗(yàn)。
參考文獻(xiàn):
[1]梁循,楊健,陳華.互聯(lián)網(wǎng)金融信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].北京:北京大學(xué)出版社,2006.
[2]梁循.網(wǎng)絡(luò)金融信息挖掘?qū)д揫M].北京:北京大學(xué)出版社,2008.
[3]吳柏林,宋澤鋒.一種基于本體的垂直搜索引擎系統(tǒng)模型[J].計(jì)算機(jī)工程與科學(xué),2008(10).
[4]陳洪猛.基于垂直搜索技術(shù)的搜索引擎解決方案[J].電腦應(yīng)用技術(shù),2008(72).
[5]杜建亮.金融信息垂直搜索引擎的技術(shù)探討[J].科學(xué)之友,2009(06).
參考文獻(xiàn)和論文是一個(gè)整體,是不可缺少的部分,作者在文中引用了前人的研究成果就應(yīng)該標(biāo)注出來(lái),然后列在論文的結(jié)尾的地方。下面是千里馬網(wǎng)站小編采編收集的關(guān)于計(jì)算機(jī)網(wǎng)絡(luò)論文參考文獻(xiàn),希望小編整理的這些文獻(xiàn)能給大家在寫作當(dāng)中有所幫助。
計(jì)算機(jī)網(wǎng)絡(luò)論文參考文獻(xiàn):
[1]李磊.基于計(jì)算機(jī)網(wǎng)絡(luò)病毒的主要特性及功能的分析與研究[J].山東工業(yè)技術(shù),2016,(01):157.
[2]丁媛媛.計(jì)算機(jī)網(wǎng)絡(luò)病毒防治技術(shù)及如何防范黑客攻擊探討[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2012,(08):41-42.
[3]羅婷婷.網(wǎng)絡(luò)侵害行為分析[J].湖北民族學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版).2015(04).
[4]劉海燕,黃睿,黃軒.基于主題爬蟲的漏洞庫(kù)維護(hù)系統(tǒng)[J].計(jì)算機(jī)與現(xiàn)代化.2014(08).
[5] 譚浩強(qiáng).C程序設(shè)計(jì)[M].4版.北京:清華大學(xué)出版社,2010.
[6] 未來(lái)教育.全國(guó)計(jì)算機(jī)等級(jí)考試模擬考場(chǎng)二級(jí)C[M].成都:電子科技大學(xué)出版社,2015.
[7] 教育部考試中心.全國(guó)計(jì)算機(jī)等級(jí)考試二級(jí)教程-C語(yǔ)言程序設(shè)計(jì)[M].北京:高等教育出版社,2002.
計(jì)算機(jī)網(wǎng)絡(luò)論文參考文獻(xiàn):
[1]姚渝春,李杰,王成紅.網(wǎng)絡(luò)型病毒與計(jì)算機(jī)網(wǎng)絡(luò)安全[J].重慶大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,26(9).
[2]吉玲峰.網(wǎng)絡(luò)型病毒與計(jì)算機(jī)網(wǎng)絡(luò)安全[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013(5).
[3]許江蘭.淺談網(wǎng)絡(luò)型病毒與計(jì)算機(jī)網(wǎng)絡(luò)安全[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2011(16).
[4]伍毅強(qiáng)醫(yī)院計(jì)算機(jī)網(wǎng)絡(luò)設(shè)備管理及維護(hù)策略研究[J].無(wú)線互聯(lián)科技,2014,1:199.
[5]汪忠樂(lè)醫(yī)院計(jì)算機(jī)網(wǎng)絡(luò)安全管理工作的維護(hù)措施[J].無(wú)線互聯(lián)科技,2015,07:55-56.
[6]張波.試論醫(yī)院計(jì)算機(jī)網(wǎng)絡(luò)設(shè)備的管理措施和維護(hù)策略[J].科技創(chuàng)新導(dǎo)報(bào),2013,24:29.
計(jì)算機(jī)網(wǎng)絡(luò)論文參考文獻(xiàn):
[1]李先宗.計(jì)算機(jī)網(wǎng)絡(luò)安全防御技術(shù)探究[J].電腦知識(shí)與技術(shù),2015(21):33-35.
[2]羅恒輝.計(jì)算機(jī)網(wǎng)絡(luò)信息與防御技術(shù)的應(yīng)用實(shí)踐芻議[J].信息與電腦,2016(2):170-171.
[3]李軍.基于信息時(shí)代的網(wǎng)絡(luò)技術(shù)安全及網(wǎng)絡(luò)防御分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016(1):17-18.
[4]吳曉旭.計(jì)算機(jī)網(wǎng)絡(luò)安全的防御技術(shù)管窺[J].智能城市,2016(4):120-121.
[5]彭龍.企業(yè)計(jì)算機(jī)網(wǎng)絡(luò)信息安全體系的構(gòu)建研究[J].科技廣場(chǎng),2016(5):94-98.
[6]阮彥鈞.計(jì)算機(jī)網(wǎng)絡(luò)安全隱患及防御策略探討[J].科技與創(chuàng)新,2016(16):91-92.
[7]姚宏林,韓偉杰,吳忠望.計(jì)算機(jī)信息網(wǎng)絡(luò)安全防御特征研究[J].科技創(chuàng)新導(dǎo)報(bào),2014(21):45-46.
關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)爬蟲;檢索
中圖分類號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A
1.搜索引擎介紹
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上采集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將檢索的相關(guān)信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網(wǎng)上的一門檢索技術(shù),它旨在提高人們獲取搜集信息的速度,為人們提供更好的網(wǎng)絡(luò)使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。
全文搜索引擎是當(dāng)前應(yīng)用最為普遍的主流搜索引擎,國(guó)內(nèi)外知名的有baidu,Google,Bing等。全文搜索引擎的工作原理是分詞程序?qū)⑴老x程序從互聯(lián)網(wǎng)上抓取的文章中的內(nèi)容預(yù)處理后進(jìn)行分詞,然后計(jì)算機(jī)索引程序掃描分好的詞,對(duì)每一個(gè)詞建立倒排索引,并將該詞在文章中出現(xiàn)的位置以及次數(shù)記錄在數(shù)據(jù)庫(kù)中,當(dāng)用戶檢索程序在用戶提交檢索請(qǐng)求時(shí)根據(jù)數(shù)據(jù)庫(kù)中事先建立的索引進(jìn)行檢索,并將檢索結(jié)果反饋給用戶。全文搜索引擎數(shù)據(jù)庫(kù)的容量極大,檢索的范圍很廣,易用性較強(qiáng),然而由于知識(shí)來(lái)源較為廣泛,導(dǎo)致重復(fù)的內(nèi)容過(guò)多且繁雜,更新不夠迅速。
元搜索引擎就是通過(guò)一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的搜索引擎來(lái)實(shí)現(xiàn)檢索操作,是對(duì)分布于網(wǎng)絡(luò)中的多種檢索工具的全局控制機(jī)制。目前國(guó)內(nèi)外有諸如360綜合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的優(yōu)勢(shì)有效地?cái)U(kuò)大了搜索引擎的檢索廣度和提高了檢索結(jié)果的準(zhǔn)確率。元搜索引擎是基于多個(gè)搜索引擎上的二次整合,它沒(méi)有數(shù)據(jù)庫(kù),因此相同的檢索請(qǐng)求會(huì)導(dǎo)致重復(fù)檢索。
垂直搜索引擎是針對(duì)某一個(gè)行業(yè)進(jìn)行搜索的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再返回給用戶。垂直搜索引擎是在特定的搜索領(lǐng)域來(lái)滿足特定的搜索需求如火車票搜索、視頻搜索等,其檢索范圍小而且是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的搜索,檢索結(jié)果準(zhǔn)確度高,檢索時(shí)間短,所需耗費(fèi)的成本低。
目錄搜索引擎是以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。它有別于其他的各類搜索引擎。
2.搜索引擎所用主要技術(shù)
搜索引擎工作流程主要有數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、結(jié)果展示等階段。在各工作階段分別使用了網(wǎng)絡(luò)爬蟲、中文分詞、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術(shù)。
網(wǎng)絡(luò)爬蟲也被稱為蜘蛛或者網(wǎng)絡(luò)機(jī)器人,它是搜索引擎抓取系統(tǒng)的重要組成部分。網(wǎng)絡(luò)爬蟲根據(jù)相應(yīng)的規(guī)則,以某些站點(diǎn)作為起始站點(diǎn)通過(guò)各頁(yè)面上的超鏈接遍歷整個(gè)互聯(lián)網(wǎng),利用URL引用根據(jù)廣度優(yōu)先遍歷策略從一個(gè)html文檔爬行到另一個(gè)html文檔來(lái)抓取信息。
中文分詞是中文搜索引擎中一個(gè)相當(dāng)關(guān)鍵的技術(shù),在創(chuàng)建索引之前需要將中文內(nèi)容合理的進(jìn)行分詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語(yǔ)句含義的效果。
大數(shù)據(jù)處理技術(shù)是通過(guò)運(yùn)用大數(shù)據(jù)處理計(jì)算框架,對(duì)數(shù)據(jù)進(jìn)行分布式計(jì)算。由于互聯(lián)網(wǎng)數(shù)據(jù)量相當(dāng)龐大,需要利用大數(shù)據(jù)處理技術(shù)來(lái)提高數(shù)據(jù)處理的效率。在搜索引擎中,大數(shù)據(jù)處理技術(shù)主要用來(lái)執(zhí)行對(duì)網(wǎng)頁(yè)重要度進(jìn)行打分等數(shù)據(jù)計(jì)算。
數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動(dòng)或半自動(dòng)的建模算法,尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的過(guò)程。數(shù)據(jù)挖掘一般和計(jì)算機(jī)科學(xué)相關(guān),并通過(guò)機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)等方法來(lái)實(shí)現(xiàn)知識(shí)挖掘。在搜索引擎中主要是進(jìn)行文本挖掘,搜索文本信息需要理解人類的自然語(yǔ)言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。
3.搜索引擎以及搜索引擎技術(shù)發(fā)展趨勢(shì)
3.1 搜索引擎的發(fā)展趨勢(shì)
隨著移動(dòng)業(yè)務(wù)、科技的發(fā)展和人們生活方式的改變,在未來(lái)搜索引擎將會(huì)發(fā)生明顯的變化。
3.1.1 知識(shí)圖譜搜索
知識(shí)圖譜是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。當(dāng)用戶發(fā)起一個(gè)搜索請(qǐng)求后,除了顯示用戶搜索的結(jié)果,其他與之相關(guān)的重要信息也將以發(fā)散圖表的形式呈現(xiàn)出來(lái)。這一功能將在滿足用戶信息檢索的同時(shí),可以更好的理解用戶所需要的內(nèi)容。
3.1.2 個(gè)性化搜索
搜索引擎技術(shù)的通用性決定了它的普適性,從而忽略了搜索用戶個(gè)體之間的差異。個(gè)性化的搜索技術(shù)可以根據(jù)不同背景、不同目的和不同時(shí)期的查詢請(qǐng)求為不同用戶提供有對(duì)性的個(gè)性化的搜索服務(wù)。個(gè)性化搜索通過(guò)采集以及分析不同的用戶數(shù)據(jù)信息來(lái)學(xué)習(xí)不同用戶的行為和愛(ài)好,從而實(shí)現(xiàn)對(duì)不同用戶進(jìn)行差異化信息檢索的目的。
3.1.3 多媒體搜索
【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲;WEB挖掘;股票預(yù)警
1.引言
在證行業(yè)內(nèi),客戶是證券公司的最重要的資產(chǎn),直接關(guān)系到公司核心業(yè)績(jī)的好壞。市場(chǎng)競(jìng)爭(zhēng)的日益激烈,使得證券公司對(duì)客戶的爭(zhēng)奪加劇。一些證券公司采取以低于成本的證券交易傭金水平、“零傭金”等方式招攬客戶,但是仍然收效甚微。其根本原因在于忽視客戶的實(shí)際利益需求。證公司要更加注意練內(nèi)功,增加服務(wù)的“含金量”,利用信息化時(shí)代的技術(shù)條件,適時(shí)建立一種個(gè)性化服務(wù),才能夠贏得客戶的信賴,實(shí)現(xiàn)證公司和股民的共贏。
目前每一家證券公司都開通了自己的門戶網(wǎng)站,實(shí)時(shí)股評(píng)、盤后解讀、各種深度分析、個(gè)股資料、研究報(bào)告、消息等紛繁復(fù)雜。每個(gè)投資者每天都要面對(duì)成千上萬(wàn)條的真假資訊,查詢時(shí)耗時(shí)費(fèi)力。因此使他們便捷地獲取真正關(guān)心的信息就顯得尤為重要。一個(gè)好的證券公司,并不是要將所有能獲取的信息全部展現(xiàn)給客戶,而是要求首先建立結(jié)構(gòu)化的信息采集和管理系統(tǒng),然后根據(jù)客戶的需要提供它們所要求的內(nèi)容。而這就是本文要探討的股票信息預(yù)警系統(tǒng)。
2.基于網(wǎng)絡(luò)爬蟲的股票預(yù)警系統(tǒng)分析
面對(duì)大量的實(shí)時(shí)證信息,只有使用自動(dòng)化的手段來(lái)有的放矢的獲取,才能滿足用戶的要求。我們結(jié)合搜索引擎所使用的網(wǎng)絡(luò)爬蟲技術(shù),來(lái)實(shí)現(xiàn)股票信息預(yù)警系統(tǒng)。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動(dòng)提取互聯(lián)網(wǎng)信息的程序,它是搜索引擎的重要組成部分,把分散在互聯(lián)網(wǎng)上的離散的信息收集起來(lái),以便人們方便快捷的搜索到有用的信息。從而明顯地降低了人們獲取信息的難度。
本文使用由HtmlParser和 HttpClient兩個(gè)開源工具構(gòu)建的一個(gè)簡(jiǎn)易網(wǎng)絡(luò)爬蟲來(lái)實(shí)現(xiàn)股票信息預(yù)警。HttpClient提供了便利的 HTTP 協(xié)議訪問(wèn),使得我們可以很容易的得到某個(gè)網(wǎng)頁(yè)的源碼并保存在本地。HtmlParser對(duì)HTML代碼進(jìn)行處理,將抓取下來(lái)的網(wǎng)頁(yè)信息進(jìn)行再加工,分析,抽取有用的信息,并通過(guò)短信平臺(tái)將分析加工后的數(shù)據(jù)發(fā)送給用戶。
使用上述方法完成股票信息預(yù)警系統(tǒng)的設(shè)計(jì),實(shí)現(xiàn)股票價(jià)格到價(jià)提醒和股票公告信息的推送的功能。
3.股票信息預(yù)警系統(tǒng)設(shè)計(jì)
3.1 工作原理
預(yù)警系統(tǒng)由系統(tǒng)短信接收模塊借助短信平臺(tái)的WEB.SERVICE接口獲取用戶設(shè)置的股票預(yù)警和公告推送代碼信息,將這些信息送入股票預(yù)警系統(tǒng)里進(jìn)行處理,并寫入數(shù)據(jù)庫(kù)。然后利用網(wǎng)絡(luò)爬蟲對(duì)指定數(shù)據(jù)源進(jìn)行實(shí)時(shí)抓取,獲取到的網(wǎng)頁(yè)股票數(shù)據(jù)返回給系統(tǒng)進(jìn)行預(yù)警處理,抓取到的公告信息由網(wǎng)絡(luò)爬蟲提取處理后返回給系統(tǒng)分析,通過(guò)短信發(fā)送模塊回復(fù)給用戶,同時(shí)回寫數(shù)據(jù)庫(kù)。
根據(jù)客戶實(shí)時(shí)提交的預(yù)警股票代碼,拼接鏈接地址,放進(jìn)待抓取隊(duì)列,并根據(jù)股票代碼建立一張動(dòng)態(tài)更新股價(jià)的哈希表,然后股票工作線程按一定的時(shí)間間隔從待爬行隊(duì)列中取出鏈接發(fā)送http請(qǐng)求獲取源數(shù)據(jù),分析數(shù)據(jù),把提取出來(lái)的價(jià)格放入哈希表中。此時(shí)程序不停的比較動(dòng)態(tài)更新股價(jià)的哈希表與用戶設(shè)定的預(yù)警價(jià)格表,如果符合預(yù)警條件,則退出進(jìn)入下一個(gè)環(huán)節(jié)短信發(fā)送,如果不符合條件,則繼續(xù)比對(duì),直到滿足系統(tǒng)停止條件為止。
3.2 基本工作流程
4.股票信息預(yù)警系統(tǒng)的實(shí)現(xiàn)
本文采用模塊式的實(shí)現(xiàn)方法,將預(yù)警系統(tǒng)分為若干部分,限于篇幅,這里主要介紹股票預(yù)警、股票信息獲取、短信收發(fā)這幾個(gè)模塊。
4.1 股票預(yù)警設(shè)計(jì)思路
實(shí)現(xiàn)股票價(jià)格的預(yù)警,需要兩個(gè)要素,其一是用戶設(shè)定的預(yù)警價(jià)格,其二是不斷變化中的實(shí)時(shí)價(jià)格。有了這兩個(gè)價(jià)格就可以通過(guò)比較直到滿足條件(突破上下限價(jià)格)完成預(yù)警。這些價(jià)格信息存儲(chǔ)在數(shù)據(jù)列中,所以實(shí)現(xiàn)時(shí)選擇使用Hashtable存儲(chǔ)動(dòng)態(tài)更新的實(shí)時(shí)股票價(jià)格表stockprice,List存儲(chǔ)用戶設(shè)定的預(yù)警價(jià)格表CurrentAletStocks。
首先將預(yù)警股票代碼寫入stockprice和CurrentAletStocks中,stockprice獲取股票實(shí)時(shí)價(jià)格,將此價(jià)格與CurrentAletStocks正在預(yù)警的股票的上下限進(jìn)行比較,如果在上下限之間,那么只更新stockprice中的當(dāng)前價(jià)格;如果突破了上限或者下限價(jià)格,更新當(dāng)前價(jià)格,并將突破當(dāng)前價(jià)格內(nèi)容信息送入短信收發(fā)模塊發(fā)送給預(yù)警的用戶。
4.2 股票信息獲取
實(shí)時(shí)股票信息的來(lái)源主要通過(guò)調(diào)用股票公用數(shù)據(jù)接口來(lái)實(shí)現(xiàn),本系統(tǒng)中使用了新浪股票公用數(shù)據(jù)源。從數(shù)據(jù)源獲取到的實(shí)時(shí)股票信息,我們還需要對(duì)它進(jìn)行解碼。系統(tǒng)解碼后的字符串信息有很多,如(股票名稱、行情時(shí)間、最新價(jià)、昨收盤、今開盤、漲跌額、最低、最高、漲跌幅、成交量、成交額、競(jìng)買價(jià)、競(jìng)賣價(jià)、委比、買一-買五、賣一-賣五),而我們需要的只是現(xiàn)價(jià)和股票名稱,所以還要通過(guò)自定義的方法Parse對(duì)字符串進(jìn)行格式匹配處理從而得到我們想要的數(shù)據(jù)。
我們以新浪股票公用數(shù)據(jù)源獲取股票信息為例:
⑴構(gòu)建股票代碼信息
例如:600250 Sh600250 如果是60開頭為滬市、如果是30或者00開頭為深市
⑵拼接爬取URL地址
例如:URL:http:////list=sh600250
⑶通過(guò)HttpClient發(fā)送get請(qǐng)求,并對(duì)獲取的信息進(jìn)行解碼
⑷對(duì)解碼后的字符串進(jìn)行格式匹配處理(即方法Parse)
⑸返回所需要的正確格式
4.3 SMS短信收發(fā)模塊
與用戶的交互需要短信的收發(fā),系統(tǒng)高峰時(shí)需要幾十甚至幾百條的同時(shí)收發(fā)。因此選擇了目前SP(服務(wù)提供商)普遍使用的短信平臺(tái)(短信網(wǎng)關(guān))。
短信平臺(tái)是基于中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)電信提供的短信端口與互聯(lián)網(wǎng)連接的基礎(chǔ)上,實(shí)現(xiàn)與用戶指定號(hào)碼進(jìn)行短信批量發(fā)送和自定義發(fā)送功能的綜合平臺(tái)。它分為軟件單機(jī)版(帶客戶端)CS 結(jié)構(gòu)和網(wǎng)絡(luò)共享版BS 結(jié)構(gòu)。本系統(tǒng)采用了網(wǎng)絡(luò)BS結(jié)構(gòu)的短信平臺(tái),借助webservice接口實(shí)現(xiàn)與程序的對(duì)接。
4.3.1 發(fā)送短信
訪問(wèn)web地址http:///smssendwebservice/
Service.asmx。調(diào)用.net中Web Services協(xié)議棧里的soap協(xié)議使用Smssend 方法:
用戶名:<UsrId>string</UsrId>
密碼:<UserKey>string</UserKey>
目標(biāo)手機(jī)號(hào)碼:<PhoneNumber>string</PhoneNumber>
短信內(nèi)容:<SmsContent>string</SmsContent>
4.3.2 接收短信
調(diào)用QuerymoSms方法查詢用戶上行短信,訪問(wèn)地址:http:///httpinterface/QueryMoSms.asp?UserId=&userkey=
UserId為短信平臺(tái)提供給你的賬號(hào)
userkey為短信平臺(tái)提供給你的賬號(hào)密碼
5.結(jié)束語(yǔ)
本文使用HtmlParser和 HttpClient構(gòu)建的一個(gè)簡(jiǎn)易網(wǎng)絡(luò)爬蟲,通過(guò)詳細(xì)的系統(tǒng)設(shè)計(jì)分析,完成股票信息獲取、股票價(jià)格預(yù)警、公告提醒、短信平臺(tái)收發(fā)等模塊的開發(fā),實(shí)現(xiàn)股票信息預(yù)警系統(tǒng)從而更好服務(wù)用戶。
參考文獻(xiàn)
[1]張亮.基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲原理與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2011,20:94-103.
計(jì)算機(jī)技術(shù) 計(jì)算機(jī)安全 計(jì)算機(jī)維護(hù) 計(jì)算機(jī)理論 計(jì)算機(jī)軟件 計(jì)算機(jī)網(wǎng)絡(luò) 計(jì)算機(jī)畢業(yè)論 計(jì)算機(jī)英語(yǔ) 計(jì)算機(jī)畢業(yè) 計(jì)算機(jī)病毒 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀