前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的計(jì)算機(jī)大數(shù)據(jù)論文主題范文,僅供參考,歡迎閱讀并收藏。
1.1大數(shù)據(jù)的發(fā)展
通過對(duì)大數(shù)據(jù)的匯集、智能分析和挖掘技術(shù),發(fā)現(xiàn)數(shù)據(jù)中的潛在價(jià)值信息,幫助人們做出正確決策,這就是大數(shù)據(jù)產(chǎn)業(yè)的利益。國外大數(shù)據(jù)的起步比較早,比較成功的大數(shù)據(jù)應(yīng)用案例有:商業(yè)龍頭沃爾瑪公司通過對(duì)消費(fèi)者的購物數(shù)據(jù)進(jìn)行分析,了解顧客的行為喜好,對(duì)超市的商品結(jié)構(gòu)進(jìn)行搭配重置以增加銷售額;亞馬遜公司通過大數(shù)據(jù)構(gòu)建自己的推薦系統(tǒng),每年可以靠此多收益20%;奧巴馬通過大數(shù)據(jù)分析系統(tǒng)進(jìn)行數(shù)據(jù)挖掘,用科學(xué)的手段獲取選票、募集資金,贏得了總統(tǒng)競(jìng)選的勝利。相比于國外,國內(nèi)的大數(shù)據(jù)研究和應(yīng)用還處于起步和發(fā)展中的階段,比較成功的案例有:淘寶數(shù)據(jù)魔方平臺(tái),通過大數(shù)據(jù),為買家量身打造完善的購物體驗(yàn)產(chǎn)品;新浪微博大數(shù)據(jù)產(chǎn)品,通過大量的社交數(shù)據(jù),創(chuàng)造不同的社會(huì)經(jīng)濟(jì)價(jià)值等。
1.2云計(jì)算的發(fā)展
云計(jì)算可以像電力資源一樣提供彈性的按需服務(wù),事實(shí)上它是集合了一系列的服務(wù)提供給用戶。云計(jì)算的核心可分為三個(gè)層次,分別為基礎(chǔ)設(shè)施層、平臺(tái)層、應(yīng)用層,如圖2所示。云計(jì)算將基礎(chǔ)設(shè)施、軟件運(yùn)行環(huán)境、應(yīng)用程序抽象成服務(wù),具有可靠性高、可用性強(qiáng)、規(guī)??缮炜s等特點(diǎn),滿足了不同企業(yè)的發(fā)展需求,各個(gè)云服務(wù)提供商根據(jù)各自服務(wù)對(duì)象的差別分別開發(fā)了各具特色的云服務(wù)。(1)基礎(chǔ)設(shè)施即服務(wù)層基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)層通過部署硬件基礎(chǔ)設(shè)施對(duì)外提供服務(wù),用戶可以根據(jù)各自的需求購買虛擬或?qū)嶓w的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源。用戶可以在購買的空間內(nèi)部署和運(yùn)行軟件,包括操作系統(tǒng)和應(yīng)用程序。消費(fèi)者不能管理或控制任何云計(jì)算基礎(chǔ)設(shè)施,但能控制操作系統(tǒng)的選擇、存儲(chǔ)空間、部署的應(yīng)用,也有可能獲得有限制的網(wǎng)絡(luò)組件(如防火墻、負(fù)載均衡器等)的控制。云服務(wù)提供商為了使硬件資源得到更有效的利用,引入了Xen、KVM、VMware等虛擬化技術(shù),使得云服務(wù)商可以提供更個(gè)性化的IaaS服務(wù)。亞馬遜彈性云計(jì)算(AmazonElasticComputeCloud,AmazonEC2)是亞馬遜Web服務(wù)產(chǎn)品之一,AmazonEC2利用其全球性的數(shù)據(jù)中心網(wǎng)絡(luò),為客戶提供虛擬主機(jī)服務(wù),讓使用者可以租用云服務(wù)運(yùn)行所需應(yīng)用的系統(tǒng)。(2)平臺(tái)即服務(wù)層平臺(tái)即服務(wù)(PlatformasaService,PaaS)層是指云計(jì)算應(yīng)用程序開發(fā)和部署的平臺(tái),包括應(yīng)用設(shè)計(jì)、應(yīng)用開發(fā)、應(yīng)用測(cè)試和應(yīng)用托管,都作為一種服務(wù)提供給客戶。開發(fā)者只需要上傳代碼和數(shù)據(jù)就可以使用云服務(wù),而無需關(guān)注底層的具體實(shí)現(xiàn)方式和管理模式。鑒于PaaS平臺(tái)的重要意義,國內(nèi)外廠商根據(jù)各自的戰(zhàn)略提出了相應(yīng)的PaaS平臺(tái),國外的如GoogleAppEngine(GAE),通過GAE,即使在重載和數(shù)據(jù)量極大的情況下,也可以輕松構(gòu)建能安全運(yùn)行的應(yīng)用程序。國內(nèi)也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)軟件即服務(wù)層軟件即服務(wù)(SoftasaService,SaaS)層是為云計(jì)算終端用戶提供基于互聯(lián)網(wǎng)軟件應(yīng)用服務(wù)的平臺(tái)。隨著Web服務(wù)、HTML5、AJAX、Mashup等技術(shù)的成熟與標(biāo)準(zhǔn)化,SaaS應(yīng)用近年來發(fā)展迅速,典型的SaaS應(yīng)用包括GoogleApps、SalesforceCRM等。國外云計(jì)算平臺(tái)比較成功的應(yīng)用案例有:亞馬遜電子商務(wù)網(wǎng)站根據(jù)用戶的購買行為和搜索技術(shù)搭建Hadoop集群,構(gòu)建推薦系統(tǒng);Twitter社交網(wǎng)站搭建Hadoop分布式系統(tǒng)用于用戶關(guān)聯(lián)的建立。國內(nèi)云計(jì)算平臺(tái)的成功案例有:阿里巴巴目前整個(gè)集群達(dá)到1700個(gè)節(jié)點(diǎn),數(shù)據(jù)容量達(dá)到24.3PB,并且以每天255TB的速率不斷攀升;2013年,華為推出國內(nèi)首個(gè)運(yùn)營云平臺(tái),目前為止與該平臺(tái)簽訂協(xié)議的ISV有3000多家。
1.3云計(jì)算相關(guān)技術(shù)
(1)分布式文件系統(tǒng)分布式文件系統(tǒng)(GoogleFileSystem,GFS)[3]是Google公司針對(duì)云計(jì)算過程處理海量數(shù)據(jù)而專門設(shè)計(jì)的。一個(gè)GFS集群由一個(gè)主節(jié)點(diǎn)和多個(gè)從節(jié)點(diǎn)組成,用戶可以通過客戶端訪問文件系統(tǒng),進(jìn)行正常的文件處理工作。在云計(jì)算中,海量數(shù)據(jù)文件被分割成多個(gè)固定大小的數(shù)據(jù)塊,這些數(shù)據(jù)塊被自動(dòng)分配到不同的從節(jié)點(diǎn)存儲(chǔ),并會(huì)在多個(gè)節(jié)點(diǎn)進(jìn)行備份存儲(chǔ),以免數(shù)據(jù)丟失。主服務(wù)器管理文件系統(tǒng)記錄文件的各種屬性,包括文件名、訪問控制權(quán)限、文件存儲(chǔ)塊映射、塊物理信息等數(shù)據(jù)。正是通過這個(gè)表,文件系統(tǒng)可以準(zhǔn)確地找到文件存儲(chǔ)的位置,避免數(shù)據(jù)丟失,保證數(shù)據(jù)安全。圖3是GFS的體系結(jié)構(gòu)示意,每一個(gè)節(jié)點(diǎn)都是普通的Linux服務(wù)器,GFS的工作就是協(xié)調(diào)成百上千的服務(wù)器為各種應(yīng)用提供服務(wù)。(2)分布式并行數(shù)據(jù)庫BigTableBigTable[4]是一個(gè)為管理大規(guī)模結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的分布式存儲(chǔ)系統(tǒng),可以擴(kuò)展到PB級(jí)數(shù)據(jù)和上千臺(tái)服務(wù)器。很多Google的項(xiàng)目使用BigTable存儲(chǔ)數(shù)據(jù),這些應(yīng)用對(duì)BigTable提出了不同的挑戰(zhàn),比如對(duì)數(shù)據(jù)規(guī)模的要求、對(duì)時(shí)延的要求。BigTable能滿足這些多變的要求,為這些產(chǎn)品成功地提供了靈活、高性能的存儲(chǔ)解決方案。BigTable采用的鍵是三維的,分別是行鍵(RowKey)、列鍵(ColumnKey)和時(shí)間戳(Timestamp)。行鍵和列鍵都是字節(jié)串,時(shí)間戳是64位整型;值是一個(gè)字節(jié)串,可以用(row:string,column:string,time:int64)string來表示一條鍵值對(duì)記錄。(3)分布式計(jì)算框架MapReduceMapReduce[5]是Google公司提出的大數(shù)據(jù)技術(shù)計(jì)算框架,被廣泛應(yīng)用于數(shù)據(jù)挖掘、海量數(shù)據(jù)處理以及機(jī)器學(xué)習(xí)等領(lǐng)域,由于其并行化處理數(shù)據(jù)的強(qiáng)大能力,越來越多的廠商根據(jù)MapReduce思想開發(fā)了各自的云計(jì)算平臺(tái),其中以Apache公司的Hadoop最為典型。MapReduce由Map和Reduce兩個(gè)階段組成。用戶只需要編寫簡(jiǎn)單的map()和reduce()函數(shù)就可以完成復(fù)雜分布式程序設(shè)計(jì),而不用了解計(jì)算框架的底層實(shí)現(xiàn)。MapReduce的數(shù)據(jù)分析流程如圖4所示。分布在不同服務(wù)器節(jié)點(diǎn)上的海量數(shù)據(jù)首先通過split()函數(shù)被拆分成Key/Value鍵值對(duì),map()函數(shù)以該鍵值對(duì)為輸入,將該鍵值對(duì)進(jìn)行函數(shù)處理,產(chǎn)生一系列的中間結(jié)果并存入磁盤。MapReduce的中間過程shuffle()將所有具有相同Key值的鍵值對(duì)傳遞給Reduce環(huán)節(jié),Reduce會(huì)收集中間結(jié)果,并將相同的Value值合并,完成所有工作后將結(jié)果輸出給用戶。MapReduce是一個(gè)并行的計(jì)算框架,主要體現(xiàn)在不同的服務(wù)器節(jié)點(diǎn)同時(shí)啟動(dòng)相同的工作,并且在每個(gè)獨(dú)立的服務(wù)器節(jié)點(diǎn)上又可以啟動(dòng)多個(gè)map()、reduce()并行計(jì)算。
2基于云計(jì)算的大數(shù)據(jù)處理
目前大數(shù)據(jù)處理的基本流程如圖5所示,整個(gè)流程經(jīng)過數(shù)據(jù)源的采集,用不同的方式進(jìn)行處理和加工,形成標(biāo)準(zhǔn)的格式,存儲(chǔ)下來;然后用合適的數(shù)據(jù)計(jì)算處理方式將數(shù)據(jù)推送到數(shù)據(jù)分析和挖掘平臺(tái),通過有效的數(shù)據(jù)分析和挖掘手段,找出大數(shù)據(jù)中有價(jià)值的信息;最后通過可視化技術(shù)將信息展現(xiàn)給人們。
2.1數(shù)據(jù)采集存儲(chǔ)
大數(shù)據(jù)具有不同結(jié)構(gòu)的數(shù)據(jù)(包括結(jié)構(gòu)、半結(jié)構(gòu)、非結(jié)構(gòu)),針對(duì)不同類型的數(shù)據(jù),在進(jìn)行云計(jì)算的分布采集時(shí),需要選擇不同的數(shù)據(jù)采集方式收集數(shù)據(jù),這也是大數(shù)據(jù)處理中最基礎(chǔ)的一步。采集到的數(shù)據(jù)并不是都適合推送到后面的平臺(tái),需要對(duì)其進(jìn)一步處理,例如來源不同的數(shù)據(jù),需要對(duì)其進(jìn)行加載合并;數(shù)據(jù)存在噪聲或者干擾點(diǎn)的,需要對(duì)其進(jìn)行“清洗”和“去噪”等操作,從而保障數(shù)據(jù)的有效性;數(shù)據(jù)的格式或者量綱不統(tǒng)一的,需要對(duì)其進(jìn)行標(biāo)準(zhǔn)化等轉(zhuǎn)換處理;最后處理生成的數(shù)據(jù),通過特定的數(shù)據(jù)庫,如NoSQL數(shù)據(jù)(Google的BigTable,Amazon的Dynamo)進(jìn)行存儲(chǔ),方便進(jìn)行下一步的數(shù)據(jù)讀取。由于傳統(tǒng)的數(shù)據(jù)倉庫無法適應(yīng)大數(shù)據(jù)的存儲(chǔ)要求,目前基于云計(jì)算的數(shù)據(jù)倉庫都是采用列式存儲(chǔ)。列式存儲(chǔ)的數(shù)據(jù)具有相同的數(shù)據(jù)類型,可以大大提高數(shù)據(jù)的壓縮率,例如華為的云存儲(chǔ)服務(wù)MOS(MassiveObjectService)的數(shù)據(jù)持久性高達(dá)99.9%,同時(shí)提供高效率的端到端保障。
2.2數(shù)據(jù)計(jì)算模式
這一環(huán)節(jié)需要根據(jù)處理的數(shù)據(jù)類型和既定目標(biāo),選擇合適的計(jì)算模型處理數(shù)據(jù)。由于數(shù)據(jù)量的龐大,會(huì)消耗大量的計(jì)算資源,因此,傳統(tǒng)的計(jì)算技術(shù)很難使用大數(shù)據(jù)的環(huán)境條件,取而代之的是分而治之的分布式計(jì)算模式,具有代表性的幾種計(jì)算模式的特點(diǎn)見表1。采用批處理方式計(jì)算的Hadoop平臺(tái),例如,F(xiàn)acebook擁有全球最大規(guī)模的Hadoop集群,集群機(jī)器目前超過3000臺(tái),CPU核心更是超過30000個(gè),可以存儲(chǔ)的數(shù)據(jù)量能夠達(dá)到驚人的40PB;采用流處理方式計(jì)算的Storm平臺(tái)分布式計(jì)算的時(shí)延比Hadoop更??;實(shí)時(shí)處理方式計(jì)算的Spark是一種基于內(nèi)存的計(jì)算模式,例如,Yahoo運(yùn)用Spark技術(shù)在廣告營銷中實(shí)時(shí)尋找目標(biāo)用戶,目前在Yahoo部署的Spark集群有112臺(tái)節(jié)點(diǎn)和9.2TB內(nèi)存;交互處理方式計(jì)算的Dremel在處理PB級(jí)別的數(shù)據(jù)時(shí)耗時(shí)可以縮短至秒級(jí),并且無需大量的并發(fā)。
2.3數(shù)據(jù)分析挖掘
數(shù)據(jù)分析挖掘環(huán)節(jié)是從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏規(guī)律和有價(jià)值信息的過程,這個(gè)環(huán)節(jié)是大數(shù)據(jù)處理流程最為有價(jià)值和核心的部分,傳統(tǒng)的數(shù)據(jù)分析方法有機(jī)器學(xué)習(xí)、商業(yè)智能等。傳統(tǒng)的數(shù)據(jù)挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云計(jì)算環(huán)境下都得到了大幅度的并行優(yōu)化,在大數(shù)據(jù)的背景下,計(jì)算速度得到了很大程度的提升。現(xiàn)在新興的深度學(xué)習(xí)是原始機(jī)器學(xué)習(xí)的一個(gè)新領(lǐng)域,動(dòng)機(jī)是在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),這種新的數(shù)據(jù)分析挖掘技術(shù)已經(jīng)在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域有了成功的應(yīng)用。
2.4數(shù)據(jù)解釋展現(xiàn)
將挖掘出來的復(fù)雜信息進(jìn)行數(shù)據(jù)解釋和展現(xiàn)是整個(gè)大數(shù)據(jù)處理流程的最后一個(gè)環(huán)節(jié),數(shù)據(jù)分析的結(jié)果需要向客戶進(jìn)行恰當(dāng)?shù)恼宫F(xiàn)。與傳統(tǒng)的數(shù)據(jù)輸出和文本展示等方式不同,現(xiàn)在絕大部分的企業(yè)都通過引進(jìn)“數(shù)據(jù)可視化”技術(shù)來展示大數(shù)據(jù)分析的結(jié)果信息,這種方式以圖像、動(dòng)畫等方式,形象地向客戶展現(xiàn)數(shù)據(jù)處理分析的結(jié)果,也容易被客戶理解和接受,更為先進(jìn)的是,現(xiàn)在逐步形成的“交互式可視化技術(shù)”,大大地方便了數(shù)據(jù)與人之間的“親密交流”。目前面向大數(shù)據(jù)主流應(yīng)用的可視化技術(shù)見表2。
3大數(shù)據(jù)和云計(jì)算的未來挑戰(zhàn)
大數(shù)據(jù)需要超大存儲(chǔ)容量的計(jì)算能力,云計(jì)算作為一種新的計(jì)算模式,為大數(shù)據(jù)的應(yīng)用研究提供了技術(shù)支持,大數(shù)據(jù)和云計(jì)算的完美結(jié)合,相得益彰,發(fā)揮了各自的最大優(yōu)勢(shì),為社會(huì)創(chuàng)造了巨大的價(jià)值。雖然國內(nèi)大數(shù)據(jù)和云計(jì)算的研究還是處于初步階段,但隨著研究的不斷進(jìn)行,所面臨的問題也越來越多。在大數(shù)據(jù)向前不斷邁進(jìn)的階段里,如何讓我們對(duì)大數(shù)據(jù)的研究朝著有利于全人類的方向發(fā)展成為了重中之重。
3.1重要戰(zhàn)略資源
在這個(gè)信息社會(huì)里,大數(shù)據(jù)將會(huì)成為眾多企業(yè)甚至是國家層面的重要戰(zhàn)略資源。國家層面要將大數(shù)據(jù)上升為國家戰(zhàn)略。奧巴馬在2012年3月將“大數(shù)據(jù)戰(zhàn)略”上升為最高國策,像陸權(quán)、海權(quán)、空權(quán)一樣,將數(shù)據(jù)的占有和控制作為重要的國家核心能力。大數(shù)據(jù)資源也會(huì)成為各種機(jī)構(gòu)和企業(yè)的重要資產(chǎn)以及提升企業(yè)社會(huì)競(jìng)爭(zhēng)力的有力武器。在大數(shù)據(jù)市場(chǎng)里,客戶的各種數(shù)據(jù)信息都會(huì)為企業(yè)創(chuàng)造價(jià)值,也會(huì)在促進(jìn)消費(fèi)水平、提高廣告效應(yīng)等方面扮演重要的角色。
3.2數(shù)據(jù)隱私安全
大數(shù)據(jù)如果運(yùn)用得當(dāng),可以有效地幫助相關(guān)領(lǐng)域做出幫助和決策,但若這些數(shù)據(jù)被泄露和竊取,隨之而來的將是個(gè)人信息及財(cái)產(chǎn)的安全問題得不到保障。2011年索尼公司遭到黑客攻擊,造成一億份客戶資料泄露,經(jīng)濟(jì)虧損約1.71億美元。為了解決大數(shù)據(jù)的數(shù)據(jù)隱私安全問題,Roy等在2010年提出了一種隱私保護(hù)系統(tǒng),將信息流控制和差分隱私保護(hù)技術(shù)融入到云計(jì)算平臺(tái)中,防止MapReduce計(jì)算過程中的數(shù)據(jù)泄露問題。在數(shù)據(jù)更新飛速的情況下,如何維護(hù)數(shù)據(jù)的隱私安全成為大數(shù)據(jù)時(shí)代研究的重點(diǎn)方向。
3.3智慧城市
人口的增長給城市交通、醫(yī)療、建筑等各方面帶來了不小的壓力,智慧城市就是依靠大數(shù)據(jù)和云計(jì)算技術(shù),實(shí)現(xiàn)城市高效的管理、便捷的民生服務(wù)、可持續(xù)的產(chǎn)業(yè)發(fā)展。在剛剛結(jié)束的“兩會(huì)”的政府工作報(bào)告中,總理也特意強(qiáng)調(diào)了智慧城市發(fā)展的重要性,目前國家智慧城市試點(diǎn)已遍布全國各地,多達(dá)409個(gè)。智慧安防、智慧交通、智慧醫(yī)療等都是智慧城市應(yīng)用領(lǐng)域。智慧城市的建設(shè)也趨使大數(shù)據(jù)人才的培養(yǎng)。據(jù)預(yù)測(cè),到2015年,大數(shù)據(jù)將會(huì)出現(xiàn)約100萬的人才缺口,全球?qū)⑿略?40萬個(gè)與大數(shù)據(jù)相關(guān)的工作崗位來填補(bǔ)這個(gè)空缺。
3.4能源消耗
統(tǒng)計(jì)學(xué)論文2300字(一):統(tǒng)計(jì)學(xué)方法的發(fā)展及其在大數(shù)據(jù)中的應(yīng)用論文
【摘要】現(xiàn)階段,統(tǒng)計(jì)學(xué)方法在我國企業(yè)管理中有廣泛應(yīng)用。本文嘗試對(duì)統(tǒng)計(jì)學(xué)方法的誕生以及發(fā)展情況進(jìn)行了簡(jiǎn)要的分析,同時(shí)還對(duì)統(tǒng)計(jì)學(xué)方法在現(xiàn)今大數(shù)據(jù)時(shí)代的應(yīng)用情況進(jìn)行了探索。
【關(guān)鍵詞】統(tǒng)計(jì)學(xué)方法發(fā)展大數(shù)據(jù)應(yīng)用
對(duì)于統(tǒng)計(jì)學(xué)方法來說,誕生的最初只是為了進(jìn)行單純的計(jì)數(shù)以及描述,隨著統(tǒng)計(jì)學(xué)方法的不斷發(fā)展,其所涉及到的內(nèi)容更加多樣化。在統(tǒng)計(jì)學(xué)家以及各個(gè)領(lǐng)域?qū)<业牟恍概χ拢y(tǒng)計(jì)學(xué)方法正在不斷的進(jìn)步以及完善,在實(shí)際應(yīng)用的過程中也發(fā)揮出了較為理想的效果。在現(xiàn)階段大數(shù)據(jù)的時(shí)代背景之下,對(duì)統(tǒng)計(jì)學(xué)進(jìn)行深入探究是非常重要的,會(huì)對(duì)今后多個(gè)行業(yè)的快速發(fā)展起到促進(jìn)作用。
一、統(tǒng)計(jì)學(xué)基本發(fā)展探析
對(duì)世界統(tǒng)計(jì)學(xué)的發(fā)展情況進(jìn)行分析,會(huì)發(fā)現(xiàn),其與科學(xué)界的發(fā)展趨勢(shì)較為類似,隨著統(tǒng)計(jì)學(xué)的不斷完善,也開始與其他科學(xué)進(jìn)行融合發(fā)展。對(duì)統(tǒng)計(jì)學(xué)進(jìn)行總結(jié),可以發(fā)現(xiàn),其主要具備兩個(gè)基本結(jié)合趨勢(shì),即與實(shí)質(zhì)性學(xué)科結(jié)合的趨勢(shì)以及與計(jì)算機(jī)學(xué)結(jié)合的趨勢(shì)。對(duì)于統(tǒng)計(jì)學(xué)來說,其與經(jīng)濟(jì)學(xué)結(jié)合發(fā)展我國有廣泛的應(yīng)用,并且產(chǎn)生了經(jīng)濟(jì)統(tǒng)計(jì)這一專業(yè);而統(tǒng)計(jì)學(xué)與教育的結(jié)合產(chǎn)生了教育統(tǒng)計(jì)。對(duì)于這些分支學(xué)科來說,其具有雙重屬性。一方面是統(tǒng)計(jì)學(xué)的分支;另一方面是實(shí)質(zhì)性學(xué)科的分支。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,其運(yùn)算能力不斷提升,這也使得大規(guī)模的統(tǒng)計(jì)調(diào)查工作在實(shí)際展開的過程中取得了理想效果,不僅保證了數(shù)據(jù)計(jì)算的準(zhǔn)確性,同時(shí)也保證了計(jì)算的高效性。因此,在進(jìn)行統(tǒng)計(jì)學(xué)技術(shù)研究發(fā)展的過程中,與計(jì)算機(jī)技術(shù)的深入結(jié)合應(yīng)用是重要發(fā)展途徑。通過對(duì)計(jì)算機(jī)軟件的有效應(yīng)用可以使統(tǒng)計(jì)計(jì)算過程中一些疑難的部分得到有效解決,同時(shí)也使得統(tǒng)計(jì)計(jì)算的展開更加方便。從現(xiàn)階段我國經(jīng)濟(jì)類統(tǒng)計(jì)專業(yè)的教育情況來看,一方面在對(duì)統(tǒng)計(jì)方法進(jìn)行創(chuàng)新教育,另一方面在對(duì)學(xué)生利用商品化統(tǒng)計(jì)軟件包裝能力進(jìn)行提升。由此我們可以看出,在今后統(tǒng)計(jì)學(xué)的發(fā)展過程中,勢(shì)必不能離開計(jì)算機(jī)技術(shù)的支持。在今后統(tǒng)計(jì)學(xué)相關(guān)專業(yè)的教育過程中,應(yīng)該對(duì)學(xué)生的計(jì)算機(jī)程序設(shè)計(jì)以及利用能力進(jìn)行培養(yǎng)提升,使得在展開統(tǒng)計(jì)工作的時(shí)候可以通過統(tǒng)計(jì)模型的編程來實(shí)現(xiàn)。
二、統(tǒng)計(jì)學(xué)方法在大數(shù)據(jù)中的應(yīng)用趨勢(shì)
(一)統(tǒng)計(jì)學(xué)方法及相關(guān)領(lǐng)域的動(dòng)態(tài)分析
目前,國內(nèi)外對(duì)統(tǒng)計(jì)學(xué)都有較為廣泛的應(yīng)用,主要應(yīng)用在教育行業(yè)、生產(chǎn)制造行業(yè)以及企業(yè)管理當(dāng)中,取得了較為理想的應(yīng)用效果。根據(jù)CNKI數(shù)據(jù)庫中統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)分布情況可以看出,在機(jī)器學(xué)習(xí)領(lǐng)域的論文數(shù)量從2013年以后一直呈現(xiàn)出持續(xù)增長的勢(shì)頭,并且在2016年超過了統(tǒng)計(jì)方法領(lǐng)域的論文數(shù)量。由此可以說明,我國在機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展速度正現(xiàn)出穩(wěn)定提升的趨勢(shì),反映了我國在大數(shù)據(jù)領(lǐng)域研究方面越來越深入,所應(yīng)用的研究方法也開始呈現(xiàn)出多樣化的特點(diǎn)。從總體上來看國內(nèi)在統(tǒng)計(jì)學(xué)方法研究過程中已經(jīng)取得了階段性的成果,并且其所面臨的拐點(diǎn)與國家上的統(tǒng)計(jì)學(xué)發(fā)展拐點(diǎn)基本保持一致,大概都是在2013年開始對(duì)大數(shù)據(jù)以及將其學(xué)習(xí)等方面有了深入的探究,并且開始逐漸取得突破性的成果。而機(jī)器學(xué)習(xí)方法的論文數(shù)量都是在2016年開始超過統(tǒng)計(jì)方法的論文數(shù)量。但是與此同時(shí),我們也看出其差異性也很明顯,國內(nèi)在統(tǒng)計(jì)方面研究的論文以及在機(jī)器學(xué)習(xí)方法方面研究的論文與國際相比較尚且存在較為明顯的差距,并且這種差距呈現(xiàn)出了持續(xù)性的特點(diǎn),這也使得我國在這兩個(gè)領(lǐng)域方面還有很大的發(fā)展空間。
(二)統(tǒng)計(jì)學(xué)方法及相關(guān)領(lǐng)域研究方向分析
經(jīng)過對(duì)CNKI數(shù)據(jù)庫中的統(tǒng)計(jì)方法以及大數(shù)據(jù)領(lǐng)域期刊論文分布情況進(jìn)行分析之后,可以看出,統(tǒng)計(jì)方法領(lǐng)域中出現(xiàn)頻次最高的是“統(tǒng)計(jì)分析”以及“數(shù)理統(tǒng)計(jì)”、“人工智能”;在大數(shù)據(jù)領(lǐng)域出現(xiàn)頻次較高的是“云計(jì)算”、“圖書館”以及“物聯(lián)網(wǎng)”等關(guān)鍵詞。通過上述關(guān)鍵詞來看,其所涉及到的內(nèi)容都是反映當(dāng)前我國統(tǒng)計(jì)以及大數(shù)據(jù)技術(shù)所研究的重點(diǎn)以及熱點(diǎn),同時(shí)我們也可以看出,現(xiàn)階段我國在統(tǒng)計(jì)與大數(shù)據(jù)領(lǐng)域方向的研究存在著一定的重合。在進(jìn)行的數(shù)據(jù)研究的時(shí)候,需要應(yīng)用到統(tǒng)計(jì)學(xué)方法,同時(shí)統(tǒng)計(jì)學(xué)方法在利用的時(shí)候往往也需要與大數(shù)據(jù)進(jìn)行結(jié)合。
(三)統(tǒng)計(jì)學(xué)方法的發(fā)展展望
有數(shù)據(jù)的地方勢(shì)必就會(huì)涉及到統(tǒng)計(jì)學(xué)。從17世紀(jì)開始,國勢(shì)學(xué)派以及算數(shù)學(xué)派的爭(zhēng)論到今天大數(shù)據(jù)計(jì)算、計(jì)算機(jī)技術(shù)的相互作用,使得統(tǒng)計(jì)學(xué)的內(nèi)容正在不斷完善,并且其應(yīng)用領(lǐng)域也在不斷擴(kuò)大,隨著大數(shù)據(jù)時(shí)代的來臨,使得傳統(tǒng)的統(tǒng)計(jì)學(xué)發(fā)展方向發(fā)生了一定轉(zhuǎn)變,開始從小樣本的統(tǒng)計(jì)推斷分析走向大數(shù)據(jù)量的挖掘分析,從而使其所掌控的數(shù)據(jù)量不斷提升。在未來統(tǒng)計(jì)學(xué)方法發(fā)展的過程中,應(yīng)該注意將統(tǒng)計(jì)學(xué)與新的數(shù)據(jù)思維相結(jié)合,從而產(chǎn)生一種新型的、應(yīng)用范圍更廣的大數(shù)據(jù)算法。從現(xiàn)階段我國大數(shù)據(jù)方法創(chuàng)新發(fā)展的情況來看,其與國際研究在深度以及廣度上還存在不小的差距,這也恰恰說明了我國在大數(shù)據(jù)統(tǒng)計(jì)學(xué)方面還有很大的進(jìn)步空間。現(xiàn)階段,國內(nèi)的大數(shù)據(jù)研究更多的是停留在信息化產(chǎn)業(yè)上,與其他行業(yè)的融合發(fā)展趨勢(shì)尚且不明顯,這也使得信息服務(wù)以及數(shù)據(jù)產(chǎn)業(yè)的創(chuàng)新發(fā)展受到了一定影響。在今后統(tǒng)計(jì)學(xué)發(fā)展的過程中,其研究熱點(diǎn)勢(shì)必會(huì)從數(shù)據(jù)分析以及數(shù)據(jù)發(fā)掘向算法方向轉(zhuǎn)移,這樣也使得大數(shù)據(jù)技術(shù)與統(tǒng)計(jì)學(xué)方法二者之間的聯(lián)系更加緊密。
結(jié)束語
綜上所述,我國統(tǒng)計(jì)學(xué)方法在今后發(fā)展過程中應(yīng)該充分考慮到實(shí)際需求,積極適應(yīng)時(shí)代變化,現(xiàn)階段大數(shù)據(jù)時(shí)代已經(jīng)全面到來,并且大數(shù)據(jù)技術(shù)在我國有廣泛應(yīng)用,在實(shí)際應(yīng)用的過程中取得了較為理想的效果。將大數(shù)據(jù)與統(tǒng)計(jì)方法進(jìn)行結(jié)合可以使統(tǒng)計(jì)學(xué)方法的作用得到更好的體現(xiàn),也使得統(tǒng)計(jì)學(xué)方法不斷的進(jìn)步以及拓展,在大時(shí)代背景之下,其功能性得到了更加充分的展現(xiàn)。
統(tǒng)計(jì)學(xué)畢業(yè)論文范文模板(二):線上線下混合式教學(xué)在生物統(tǒng)計(jì)學(xué)教學(xué)中的實(shí)踐與研究論文
[摘要]為提升生物統(tǒng)計(jì)學(xué)課程的教學(xué)水平,針對(duì)傳統(tǒng)生物統(tǒng)計(jì)學(xué)教學(xué)中的局限,分析和實(shí)踐基于線上網(wǎng)絡(luò)教學(xué)+線下面授教學(xué)的混合式教學(xué)模式在生物統(tǒng)計(jì)學(xué)教學(xué)中的應(yīng)用策略和方法。實(shí)踐表明,通過線上+線下的互動(dòng)與教學(xué),能激發(fā)學(xué)生學(xué)習(xí)的興趣與動(dòng)力,豐富生物統(tǒng)計(jì)學(xué)的教學(xué)形式與內(nèi)容,促進(jìn)生物統(tǒng)計(jì)學(xué)教學(xué)質(zhì)量的提升。
[關(guān)鍵詞]線上線下;混合式教學(xué);生物統(tǒng)計(jì)學(xué);實(shí)踐
[作者簡(jiǎn)介]嚴(yán)明(1981—),女,重慶人,博士,講師,研究方向:生物技術(shù)。
[中圖分類號(hào)]G642[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1674-9324(2020)25-0273-02[收稿日期]2020-03-18
生物統(tǒng)計(jì)學(xué)是生物醫(yī)學(xué)類專業(yè)的必修課程,學(xué)生通過學(xué)習(xí)本課程掌握實(shí)驗(yàn)設(shè)計(jì)的原理和方法,并學(xué)會(huì)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和處理。然而,生物統(tǒng)計(jì)學(xué)涉及到大量基礎(chǔ)理論,單純通過教師講解,學(xué)生理解度較低,學(xué)習(xí)效果不佳。如何在有限的課時(shí)內(nèi),改革傳統(tǒng)的以講授為主的教學(xué)方式,有效提高教學(xué)效果是生物統(tǒng)計(jì)學(xué)教學(xué)亟待解決的難題。
近年來,隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,一種基于線上網(wǎng)絡(luò)教學(xué)+線下面授教學(xué)的混合式教學(xué)模式應(yīng)運(yùn)而生。該模式可避免傳統(tǒng)教學(xué)模式中以教師為主導(dǎo),學(xué)生學(xué)習(xí)主動(dòng)性差的缺點(diǎn),又可克服學(xué)生完全在線學(xué)習(xí)缺乏監(jiān)管、學(xué)習(xí)效果不佳的困難。本文嘗試將混合式教學(xué)方法運(yùn)用到生物統(tǒng)計(jì)學(xué)教學(xué)中,以期在有限的教學(xué)時(shí)間內(nèi)最大限度實(shí)現(xiàn)教學(xué)目標(biāo),提升課程教學(xué)效果。
一、線上線下混合式教學(xué)的概念及內(nèi)涵
線上線下混合式教學(xué)是一種新興的教學(xué)模式,授課教師利用網(wǎng)絡(luò)教學(xué)平臺(tái)向?qū)W生提供教學(xué)視頻和課件等教學(xué)資源,并設(shè)置作業(yè)、調(diào)查等互動(dòng)模塊,學(xué)生利用課外時(shí)間自主完成學(xué)習(xí)任務(wù),并通過平臺(tái)與教師交流。在線下課堂,教師根據(jù)學(xué)生在線學(xué)習(xí)的情況,對(duì)疑難問題進(jìn)行有針對(duì)性的講授,幫助學(xué)生理解、掌握教學(xué)難點(diǎn)。
線上線下混合教學(xué)模式打破了教學(xué)的時(shí)空限制,學(xué)生可以靈活安排學(xué)習(xí)時(shí)間,通過學(xué)習(xí)在線資料提出問題,并帶著問題進(jìn)行課堂學(xué)習(xí),有效提升學(xué)習(xí)效率。線上線下混合教學(xué)還可幫助教師動(dòng)態(tài)掌握學(xué)生學(xué)習(xí)情況,生成客觀的過程性評(píng)價(jià)材料,并豐富課程的教學(xué)形式,拓寬教學(xué)路徑,因此正逐漸成為高等教育領(lǐng)域的一大趨勢(shì)。
二、生物統(tǒng)計(jì)學(xué)課程教學(xué)面臨的困境
1.教學(xué)時(shí)長受限。目前,本校生物統(tǒng)計(jì)學(xué)面向生物醫(yī)學(xué)工程和醫(yī)學(xué)信息工程專業(yè)開設(shè),每學(xué)期共32個(gè)課時(shí)。由于教學(xué)內(nèi)容抽象,而且學(xué)生要通過大量實(shí)踐才能掌握統(tǒng)計(jì)學(xué)原理在生物研究中的應(yīng)用,因此,教學(xué)難度高,課堂教學(xué)時(shí)間很難滿足教學(xué)需求。
2.教與學(xué)不同步。傳統(tǒng)教學(xué)模式下,教師與學(xué)生之間的溝通以課堂為主,教師按照教學(xué)安排按部就班地進(jìn)行教學(xué),對(duì)學(xué)生需求重視不足;學(xué)生缺乏主動(dòng)反饋的意識(shí),教師很難掌握學(xué)生的真實(shí)學(xué)習(xí)狀況,教與學(xué)處于不同步狀態(tài)。
上述困境對(duì)如何拓展教學(xué)時(shí)間,完成課程教學(xué)并指導(dǎo)學(xué)生學(xué)以致用提出了新的挑戰(zhàn)。
三、線上線下混合式教學(xué)在生物統(tǒng)計(jì)學(xué)教學(xué)中的實(shí)踐探究
1.構(gòu)建線上教學(xué)平臺(tái),實(shí)現(xiàn)課前線上自主學(xué)習(xí)。授課教師首先以超星泛雅平臺(tái)和學(xué)習(xí)通APP為依托構(gòu)建線上教學(xué)平臺(tái)。教師在平臺(tái)上將課程每章的重難點(diǎn)列示出來,搭建課程框架體系,并上傳包括課件和教師根據(jù)課程知識(shí)體系錄制的教學(xué)視頻等資料。教學(xué)視頻時(shí)長控制在15分鐘以內(nèi),并保證精煉、易懂,讓學(xué)生不會(huì)因視頻過長而放棄觀看,提高學(xué)習(xí)時(shí)效。同時(shí),在教學(xué)平臺(tái)提供視頻配套的課件資料,方便學(xué)生下載并配套觀看。教師還在平臺(tái)設(shè)置了視頻彈幕問答和闖關(guān)式章節(jié)測(cè)試,學(xué)生通過答題和測(cè)試后才能進(jìn)入后續(xù)章節(jié)的學(xué)習(xí)。
在教學(xué)實(shí)踐中發(fā)現(xiàn),線上教學(xué)平臺(tái)還可以為理論教學(xué)提供良好的拓展實(shí)踐平臺(tái)。教師可以在線上平臺(tái)提供實(shí)驗(yàn)設(shè)計(jì)及實(shí)驗(yàn)數(shù)據(jù)分析的實(shí)例供學(xué)生練習(xí),實(shí)現(xiàn)對(duì)課時(shí)壓縮的有效彌補(bǔ)。學(xué)生普遍反映網(wǎng)絡(luò)教學(xué)平臺(tái)十分有利于自主學(xué)習(xí),尤其是遇到知識(shí)難點(diǎn)時(shí),學(xué)生可以通過反復(fù)線上觀看教學(xué)視頻來幫助理解,能達(dá)到較好的學(xué)習(xí)效果。
此外,線上教學(xué)平臺(tái)可以通過視頻回放次數(shù)、測(cè)試完成程度等數(shù)據(jù)統(tǒng)計(jì)幫助教師了解學(xué)生之間的差異性,既方便教師掌握學(xué)生學(xué)習(xí)狀態(tài),分析存在的問題,也為線下課堂教學(xué)提供依據(jù),在后續(xù)教學(xué)中因材施教,滿足不同層次學(xué)生的個(gè)性化學(xué)習(xí)需求提供依據(jù)。
2.線下檢測(cè)自主學(xué)習(xí)效果,實(shí)施針對(duì)性教學(xué)。采用線上線下混合模式教學(xué),課堂教學(xué)的任務(wù)發(fā)生轉(zhuǎn)移。教師要集中精力對(duì)知識(shí)點(diǎn)進(jìn)行梳理和歸納,并針對(duì)重難點(diǎn)以及學(xué)生在線上學(xué)習(xí)過程中的困難進(jìn)行答疑解惑和查漏補(bǔ)缺。在教學(xué)實(shí)踐中,為完成上述任務(wù),在每個(gè)章節(jié)的線上學(xué)習(xí)完成后均安排答疑和小組討論,讓每位學(xué)生通過多種方式修正和完善遺漏或理解錯(cuò)誤的知識(shí)點(diǎn)。全部授課結(jié)束后,授課教師向?qū)W生發(fā)放了關(guān)于教學(xué)效果的調(diào)查問卷,結(jié)果顯示,78.2%(18/23)的學(xué)生認(rèn)為采用混合式教學(xué)方法可以把重要知識(shí)點(diǎn)學(xué)透,在課堂上有更充裕的時(shí)間進(jìn)行消化吸收,更有利于教學(xué)內(nèi)容的掌握。
在線下教學(xué)中,教師還對(duì)教學(xué)場(chǎng)景進(jìn)行了編排和優(yōu)化。教師提供具體的實(shí)驗(yàn)案例,并以某一具體實(shí)驗(yàn)案例(如抗癌藥物篩選)為背景貫穿整個(gè)課程教學(xué)始終,模擬真實(shí)實(shí)驗(yàn)場(chǎng)景,讓學(xué)生從實(shí)驗(yàn)參與者的角度設(shè)計(jì)實(shí)驗(yàn)流程、整理實(shí)驗(yàn)數(shù)據(jù)、統(tǒng)計(jì)分析和解讀呈現(xiàn)的全部流程。幫助學(xué)生實(shí)踐生物學(xué)研究提出假說—實(shí)驗(yàn)驗(yàn)證—得出結(jié)論的基本流程,理解生物統(tǒng)計(jì)學(xué)對(duì)生物學(xué)研究的重要指導(dǎo)作用,培養(yǎng)學(xué)生知識(shí)遷移、應(yīng)用和分析并解決科學(xué)問題的能力。
3.課后回顧學(xué)習(xí)并提升。在課堂教學(xué)完成后,師生的教學(xué)活動(dòng)都還沒有結(jié)束。教師要對(duì)線上線下教學(xué)過程中容易出現(xiàn)的問題進(jìn)行整理總結(jié),并將解決方案到網(wǎng)絡(luò)平臺(tái),供學(xué)生回顧性學(xué)習(xí)。學(xué)生要對(duì)課堂上遇到的問題,搜集學(xué)習(xí)資料進(jìn)一步思考和鞏固。教師還要對(duì)學(xué)生課后學(xué)習(xí)情況進(jìn)行挖掘,并根據(jù)學(xué)生的不同情況進(jìn)行個(gè)性化的學(xué)習(xí)支持。對(duì)于有困難的學(xué)生,教師要單獨(dú)輔導(dǎo)和監(jiān)管,幫助學(xué)生完成課程學(xué)習(xí);對(duì)于學(xué)有余力的學(xué)生,可以鼓勵(lì)學(xué)生走進(jìn)實(shí)驗(yàn)室,跟隨教師的科研工作,完成真正的動(dòng)手實(shí)踐,實(shí)現(xiàn)素質(zhì)提升。最終通過師生配合,完成對(duì)課程教學(xué)效果的提升。
4.教學(xué)考核。由于教學(xué)形式發(fā)生變化,課程的教學(xué)考核模式也要隨之做出調(diào)整和改變。在實(shí)踐中,教師改變傳統(tǒng)的期末考核模式,充分利用線上線下教學(xué)記錄,實(shí)現(xiàn)全過程考核??荚嚦煽儼W(wǎng)絡(luò)平臺(tái)學(xué)習(xí)考核(25%)、線下課堂表現(xiàn)(25%)和期末閉卷考試(50%)三部分。其中網(wǎng)絡(luò)平臺(tái)學(xué)習(xí)考核由系統(tǒng)根據(jù)學(xué)習(xí)時(shí)間、頻率以及測(cè)試情況生成;課堂表現(xiàn)根據(jù)學(xué)生聽課及參與討論情況,綜合學(xué)生互評(píng)和教師考核給分。上述考核方式,降低了期末考試在總成績中的比重,更加側(cè)重于學(xué)生的平時(shí)學(xué)習(xí)積累和實(shí)踐能力的培養(yǎng)。因此,可避免學(xué)生“突擊考試”的僥幸心理,促進(jìn)學(xué)生向平時(shí)主動(dòng)學(xué)習(xí)轉(zhuǎn)變,更符合現(xiàn)代教學(xué)模式和人才培養(yǎng)的需求。
1 前言
信息管理與信息系統(tǒng)專業(yè)雖然屬于管理學(xué),但其主干學(xué)科包括計(jì)算機(jī)科學(xué)與技術(shù)、經(jīng)濟(jì)學(xué)、管理學(xué)等三個(gè),該專業(yè)的綜合性、實(shí)踐性很強(qiáng),但是目前各高校該專業(yè)的實(shí)踐教學(xué)體系不完備,還未自成一家、各具特色,以致畢業(yè)生實(shí)踐能力不突出,特色彰顯不夠,就業(yè)競(jìng)爭(zhēng)力不強(qiáng),培養(yǎng)應(yīng)用型人才是當(dāng)務(wù)之急,核心是要培養(yǎng)學(xué)生的應(yīng)用能力、創(chuàng)新能力和工程素養(yǎng)。要達(dá)到本目標(biāo),就要大力加強(qiáng)和完善實(shí)踐教學(xué)環(huán)節(jié),建立多層次、一體化的實(shí)踐教學(xué)體系。
曲靖師范學(xué)院信息管理與信息系統(tǒng)專業(yè)從2008年開辦至今,已經(jīng)培養(yǎng)5屆學(xué)生,一直以來,我們不斷加強(qiáng)和完善該專業(yè)的實(shí)踐教學(xué)環(huán)節(jié),形成了四位一體的實(shí)踐教學(xué)體系,取得了良好的效果。
2實(shí)踐教學(xué)體系的“硬件位”
實(shí)踐教學(xué)體系的“硬件位”強(qiáng)調(diào)實(shí)驗(yàn)室建設(shè)。實(shí)驗(yàn)室是開展教研的硬件基礎(chǔ),沒有這個(gè)基礎(chǔ),一切教研工作就是空中樓閣。我們一直重視信息管理與信息系統(tǒng)專業(yè)的實(shí)驗(yàn)室建設(shè)。采購實(shí)驗(yàn)設(shè)備的指導(dǎo)思想是實(shí)驗(yàn)設(shè)備要先進(jìn)、實(shí)用,充分滿足學(xué)生的學(xué)習(xí)和教師的教學(xué)科研的需要。
該專業(yè)已經(jīng)建成硬件實(shí)驗(yàn)室有2個(gè):計(jì)算機(jī)組成原理實(shí)驗(yàn)室、計(jì)算機(jī)組裝與維護(hù)實(shí)驗(yàn)室,通信與網(wǎng)絡(luò)實(shí)驗(yàn)室有2個(gè):計(jì)算機(jī)通信實(shí)驗(yàn)室、計(jì)算機(jī)網(wǎng)絡(luò)實(shí)驗(yàn)室,信息管理類的實(shí)驗(yàn)室有3個(gè):數(shù)字庫應(yīng)用實(shí)驗(yàn)室、信息管理與軟件實(shí)驗(yàn)室、信息技術(shù)創(chuàng)新實(shí)驗(yàn)室。同時(shí)為適應(yīng)當(dāng)今云計(jì)算、大數(shù)據(jù)的大趨勢(shì),我們投資200多萬建立了云計(jì)算平臺(tái)。
這些實(shí)驗(yàn)室的更新及新建,能充分滿足學(xué)生的學(xué)習(xí)和教師的教學(xué)及科研的需要。
3實(shí)踐教學(xué)體系的 “抓手位”
專業(yè)技能訓(xùn)練提升學(xué)生實(shí)踐能力的抓手,在學(xué)生的整個(gè)大學(xué)四年期間,為了在不同學(xué)期提升學(xué)生的綜合實(shí)踐能力,我們開展了貫穿大學(xué)4年的專業(yè)技能訓(xùn)練。
專業(yè)技能訓(xùn)練是實(shí)踐教學(xué)體系的抓手,專業(yè)技能訓(xùn)練的目的是根據(jù)訓(xùn)練大綱,我們應(yīng)以項(xiàng)目為驅(qū)動(dòng)來創(chuàng)新該專業(yè)的實(shí)踐教學(xué)體系[1],提升學(xué)生應(yīng)具備的專業(yè)素養(yǎng)和能力,形成幾大子抓手,再作專項(xiàng)的打造。
我院的專業(yè)技能訓(xùn)練主要包括兩個(gè)級(jí)別,一是課程設(shè)計(jì)訓(xùn)練,本訓(xùn)練以課程為依托,制定課程級(jí)別的訓(xùn)練大綱和測(cè)試方案;二是綜合設(shè)計(jì)訓(xùn)練,訓(xùn)練學(xué)生綜合能力,要求學(xué)生能靈活應(yīng)用所學(xué)課程,完成一個(gè)綜合性、設(shè)計(jì)性項(xiàng)目。
3.1 課程設(shè)計(jì)訓(xùn)練
“課程設(shè)計(jì)”一個(gè)多義詞詞條。它可以指“為掌握某一課程內(nèi)容所進(jìn)行的設(shè)計(jì)”[2]。課程設(shè)計(jì)是課程實(shí)驗(yàn)的高級(jí)環(huán)節(jié),課程實(shí)驗(yàn)是提升學(xué)生立體實(shí)踐能力的根本,課程實(shí)驗(yàn)分為驗(yàn)證性實(shí)驗(yàn)、綜合性實(shí)驗(yàn)和課程設(shè)計(jì)實(shí)驗(yàn),我們?cè)趥鹘y(tǒng)驗(yàn)證性實(shí)驗(yàn)的基礎(chǔ)上開展課程設(shè)計(jì)實(shí)驗(yàn),提升學(xué)生的課程綜合實(shí)踐能力。
信息管理與信息系統(tǒng)專業(yè)的核心課程有6門,分別是:Java程序設(shè)計(jì)、管理信息系統(tǒng)、數(shù)據(jù)庫原理、計(jì)算機(jī)網(wǎng)絡(luò)及實(shí)驗(yàn)、管理學(xué)、經(jīng)濟(jì)學(xué)。我們針對(duì)這些課程,在編寫實(shí)驗(yàn)大綱時(shí),就要求編寫課程對(duì)應(yīng)的課程設(shè)計(jì),設(shè)計(jì)方案要經(jīng)過教研室的審核和信息工程學(xué)院教授委員的討論及審定。以審定通過的課程設(shè)計(jì)為依托,為后續(xù)綜合實(shí)踐能力的提升打下堅(jiān)實(shí)的基礎(chǔ)。
以《Java程序設(shè)計(jì)》課程設(shè)計(jì)為例,課程設(shè)計(jì)的目的:利用Java語言的語法特性,結(jié)合數(shù)據(jù)結(jié)構(gòu)算法、網(wǎng)絡(luò)知識(shí)、文件處理和數(shù)據(jù)庫等知識(shí)完成綜合題目的設(shè)計(jì)和代碼實(shí)現(xiàn),并培養(yǎng)鍛煉分析程序、撰寫報(bào)告等能力。
3.2 綜合設(shè)計(jì)訓(xùn)練
綜合設(shè)計(jì)訓(xùn)練的目的是鍛煉學(xué)生綜合所學(xué)知識(shí),設(shè)計(jì)和開發(fā)一個(gè)小項(xiàng)目的能力。這些項(xiàng)目有“ERP企業(yè)應(yīng)用”、“Oracle運(yùn)維管理”、“大數(shù)據(jù)管理”、“Java Web開發(fā)”等,這些小項(xiàng)目的訓(xùn)練要基于幾門課的知識(shí)和技能,如“Java Web開發(fā)”就需要學(xué)生綜合數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)、軟件工程、計(jì)算機(jī)程序設(shè)計(jì)等知識(shí)與技能。
綜合設(shè)計(jì)訓(xùn)練要與畢業(yè)設(shè)計(jì)區(qū)別開來,此訓(xùn)練的主要目的是讓學(xué)生體驗(yàn)和掌握項(xiàng)目開發(fā)流程,同時(shí)鍛煉綜合應(yīng)用所學(xué)課程來完成一個(gè)具體的小項(xiàng)目。
3.3 信息管理與信息系統(tǒng)專業(yè)技能訓(xùn)練安排
為鼓勵(lì)學(xué)生多渠道獲得技能分,我們規(guī)定,學(xué)生在校期間,通過全國計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試的中級(jí)資格、全國計(jì)算機(jī)等級(jí)考試的四級(jí)證書、思科(微軟、ORACLE、華為、H3C或銳捷)的工程師級(jí)別認(rèn)證、中級(jí)會(huì)計(jì)師,可獲得3個(gè)學(xué)分;通過全國計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試的高級(jí)資格、思科(微軟、ORACLE、華為、H3C或銳捷)的高級(jí)工程師級(jí)別認(rèn)證,可獲得4個(gè)學(xué)分。
4實(shí)踐教學(xué)體系的“信息系統(tǒng)開發(fā)能力位”
本專業(yè)的學(xué)生要求具體一定和信息系統(tǒng)開發(fā)能力,該能力通過畢業(yè)論文(設(shè)計(jì))來煉成。畢業(yè)論文(設(shè)計(jì))是教學(xué)過程的最后階段采用的一種總結(jié)性的實(shí)踐教學(xué)環(huán)節(jié)。通過畢業(yè)設(shè)計(jì),學(xué)生可以綜合應(yīng)用所學(xué)的各種理論知識(shí)和技能,進(jìn)行全面、系統(tǒng)、嚴(yán)格的技術(shù)及基本能力的練習(xí)。[3]畢業(yè)論文(設(shè)計(jì))是實(shí)踐教學(xué)體系的技能整合,我院對(duì)畢業(yè)論文(設(shè)計(jì))作重大改革,著力打造學(xué)生綜合實(shí)踐能力
參加畢業(yè)論文(設(shè)計(jì))的學(xué)生分兩部分,一部分在公司實(shí)習(xí),同時(shí)要在公司完成畢業(yè)設(shè)計(jì)工作,余下的學(xué)生在校內(nèi)完成畢業(yè)論文工作,為提高畢業(yè)論文(設(shè)計(jì))的質(zhì)量,經(jīng)向教務(wù)處請(qǐng)示,允許我院結(jié)合專業(yè)實(shí)踐性強(qiáng)的實(shí)際,改革本專業(yè)畢業(yè)論文(設(shè)計(jì))工作。改革思路包括三點(diǎn),一是我院學(xué)生的畢業(yè)論文(設(shè)計(jì))以畢業(yè)設(shè)計(jì)為主,弱化對(duì)學(xué)生文本的要求,強(qiáng)化對(duì)實(shí)踐動(dòng)作能力的提升和檢查,二是做好規(guī)范管理工作,制定相關(guān)文件,如:“信息工程學(xué)院畢業(yè)論文(設(shè)計(jì))工作規(guī)定”、 “信息工程學(xué)院畢業(yè)設(shè)計(jì)開發(fā)文檔的撰寫與打印規(guī)范” 、“信息工程學(xué)院畢業(yè)設(shè)計(jì)開發(fā)文檔”等。
5實(shí)踐教學(xué)體系的“校企合作位”
為提升學(xué)生的實(shí)習(xí)水平,滿足用人單位的需求。我們自2013年開始,與四川華迪信息技術(shù)有限公司開展畢業(yè)實(shí)習(xí)合作,該公司是一家集軟件外包、信息服務(wù)、學(xué)生專業(yè)技能培訓(xùn)為一體的軟件公司,在全國小有名氣。學(xué)生參加校企合作實(shí)習(xí)有兩種類型,一是為期三個(gè)月的專業(yè)實(shí)習(xí),二是為期四個(gè)月的就業(yè)培訓(xùn)。三個(gè)月的專業(yè)實(shí)習(xí)分為軟件開發(fā)方向和網(wǎng)絡(luò)方向,軟件開發(fā)實(shí)訓(xùn)重點(diǎn)是提升學(xué)生的軟件開發(fā)實(shí)踐能力和水平,網(wǎng)絡(luò)方向的實(shí)訓(xùn)重點(diǎn)是提升學(xué)生的網(wǎng)絡(luò)設(shè)計(jì)、實(shí)施、部署能力。
從2013年開始,每年大概有一半的學(xué)生參加校企合作的實(shí)習(xí),取得了良好效果,學(xué)生的專業(yè)實(shí)踐能力提升了,就業(yè)質(zhì)量明顯提高,很多學(xué)生就在四川成都就業(yè)、創(chuàng)業(yè)。
關(guān)鍵詞 大數(shù)據(jù)應(yīng)用背景 超級(jí)計(jì)算機(jī) 數(shù)據(jù)處理
在電子信息技術(shù)的推動(dòng)下,大數(shù)據(jù)已成為了當(dāng)代潮流前線的主流技術(shù),所謂大數(shù)據(jù),從狹義上理解主要是指各種大規(guī)模的數(shù)據(jù),具體來說是指難以在既定的時(shí)間范圍內(nèi)使用常規(guī)軟件以及技術(shù)進(jìn)行收集、統(tǒng)計(jì)、儲(chǔ)存以及管理的數(shù)據(jù)集合,必須通過新型處理模式才可將其決策力、洞察力、發(fā)現(xiàn)力以及流程化進(jìn)行充分發(fā)揮、具有規(guī)模大、復(fù)雜程度高、實(shí)時(shí)性強(qiáng)、高增長率以及多元化等特征的信息資產(chǎn)。由此可見,大數(shù)據(jù)是一種不同于傳統(tǒng)數(shù)據(jù)的信息化數(shù)據(jù)資產(chǎn),僅僅應(yīng)用傳統(tǒng)的軟件或工具進(jìn)行統(tǒng)計(jì)或管理是難以顯效的,我們必須針對(duì)大數(shù)據(jù)的特征以及需求設(shè)計(jì)一款超級(jí)計(jì)算機(jī),用于滿足大數(shù)據(jù)的計(jì)算需求。
通過超級(jí)計(jì)算機(jī)來構(gòu)建大數(shù)據(jù)處理中心,是現(xiàn)階段最為主流的應(yīng)用趨勢(shì)。相比于傳統(tǒng)計(jì)算機(jī)來說,超級(jí)計(jì)算機(jī)在性能方面具有顯著優(yōu)勢(shì),可以為大數(shù)據(jù)提供高效的計(jì)算以及處理服務(wù)。超級(jí)計(jì)算機(jī)早在二十世紀(jì)七十年代初就已被很多國家作為了一種戰(zhàn)略性資源而進(jìn)行使用,在國家經(jīng)濟(jì)建設(shè)、國防安全、社會(huì)發(fā)展、科學(xué)研究等方面得到了廣泛的應(yīng)用,并作出了極大的貢獻(xiàn),因此現(xiàn)階段,超級(jí)計(jì)算機(jī)技術(shù)基本已經(jīng)成為了衡量國家科技水平以及國防力量的重要指標(biāo)之一。天河二號(hào)超級(jí)計(jì)算機(jī)是由我國國防科學(xué)技術(shù)大學(xué)研制而成的,它實(shí)現(xiàn)了每秒鐘三點(diǎn)山九億億次的浮點(diǎn)運(yùn)算速度,并以此成績蟬聯(lián)五次奪得全球運(yùn)行速度最快超級(jí)計(jì)算機(jī)獎(jiǎng)項(xiàng)。但是,超級(jí)計(jì)算機(jī)雖然具有如此高效的運(yùn)行速率,它仍然只能在自己所擅長的以科學(xué)與工程運(yùn)算為主的領(lǐng)域中發(fā)揮作用,例如一些計(jì)算密集型的任務(wù)中。此外,超級(jí)計(jì)算機(jī)具有計(jì)算模式單一的特點(diǎn),它的處理過程通常由批量處理計(jì)算、流式運(yùn)算、迭代運(yùn)算、圖運(yùn)算等數(shù)據(jù)密集型運(yùn)算方式組成,因此傳統(tǒng)上的超級(jí)計(jì)算機(jī)很難直接被應(yīng)用在大數(shù)據(jù)的計(jì)摘 要 在大數(shù)據(jù)應(yīng)用時(shí)代背景當(dāng)中,超級(jí)計(jì)算機(jī)迎來了前所未有的挑戰(zhàn),這些挑戰(zhàn)主要體現(xiàn)在數(shù)據(jù)的計(jì)算、存儲(chǔ)、通信以及編程方面,因此基于大數(shù)據(jù)的實(shí)際特征以及需求來設(shè)計(jì)一個(gè)超級(jí)計(jì)算機(jī)系統(tǒng)是十分有必要的。本文圍繞如何基于大數(shù)據(jù)特征以及需求進(jìn)行超級(jí)計(jì)算機(jī)設(shè)計(jì)、大數(shù)據(jù)時(shí)代應(yīng)用背景下編程模型的設(shè)計(jì)兩個(gè)方面展開討論,對(duì)大數(shù)據(jù)應(yīng)用背景下的超級(jí)計(jì)算機(jī)設(shè)計(jì)進(jìn)行了分析,并提出了一些筆者自己的見解,希望能夠?qū)Υ髷?shù)據(jù)應(yīng)用背景下的數(shù)據(jù)處理問題提供一些對(duì)策建議。
關(guān)鍵詞 大數(shù)據(jù)應(yīng)用背景 超級(jí)計(jì)算機(jī) 數(shù)據(jù)處理算以及處理中。
1如何基于大數(shù)據(jù)特征以及需求進(jìn)行超級(jí)計(jì)算機(jī)設(shè)計(jì)
顯而易見,大數(shù)據(jù)的出現(xiàn)給人類技術(shù)帶來了極大的挑戰(zhàn),而超級(jí)計(jì)算機(jī)具有十分強(qiáng)大的計(jì)算能力以及極其高效的數(shù)據(jù)處理能力,它將海量的信息高度集中在自己的系統(tǒng)當(dāng)中,并通過工具媒介、數(shù)據(jù)存儲(chǔ)等多元化角度對(duì)這些龐大的數(shù)據(jù)進(jìn)行處理、分析以及應(yīng)用,由此可見,不同的超級(jí)計(jì)算機(jī)在對(duì)信息處理以及計(jì)算時(shí)所呈現(xiàn)出的性能水平也是有所差異的。我們之所以要通過超級(jí)計(jì)算機(jī)來實(shí)現(xiàn)高性能數(shù)據(jù)計(jì)算,主要目的就在于提升數(shù)據(jù)計(jì)算效率,并通過對(duì)大數(shù)據(jù)的應(yīng)用來增強(qiáng)通信效率。在本文中,筆者將圍繞硬件和軟件兩個(gè)層面來設(shè)計(jì)大數(shù)據(jù)應(yīng)用背景下的超級(jí)計(jì)算機(jī)。
1.1硬件體系結(jié)構(gòu)
信息量大以及操作簡(jiǎn)單是大數(shù)據(jù)應(yīng)用的顯著特征,大數(shù)據(jù)應(yīng)用能夠確保計(jì)算指令維持在一個(gè)相對(duì)來說較低的狀態(tài),實(shí)際上間接增加了數(shù)據(jù)訪問所需的成本,由此可見,在使用超級(jí)計(jì)算機(jī)管理大數(shù)據(jù)的過程中主要存在的問題在于數(shù)據(jù)吞吐率與數(shù)據(jù)計(jì)算效率之間的失衡性。針對(duì)這一問題,我們可以重點(diǎn)以兩個(gè)切入點(diǎn)進(jìn)行解決,一是針對(duì)片上緩存實(shí)施徹底優(yōu)化處理。大數(shù)據(jù)應(yīng)用指令等級(jí)相對(duì)較低,跳轉(zhuǎn)頻率較高,且不具備充分的局部性,再加上大數(shù)據(jù)通常只能使用一次,我們可以基于上述特點(diǎn)來降低指令緩存,并構(gòu)建一個(gè)連接處理器與二級(jí)緩存的通道,以確保數(shù)據(jù)吞吐率與計(jì)算效率之間的失衡狀態(tài)得到相對(duì)改善;二是提高大數(shù)據(jù)計(jì)算能力。在大數(shù)據(jù)的影響下,信息逐漸呈現(xiàn)出高密集化狀態(tài),這使得傳統(tǒng)的處理器已無法滿足信息處理需求。因此必須通過超級(jí)計(jì)算機(jī)來部署一個(gè)具備良好實(shí)時(shí)性的處理器,其中異構(gòu)并行處理器是一項(xiàng)很好的選擇,具體來說,也就是把R檔募鈾倨韉既脛鐐ㄓ么理器核心當(dāng)中,在加速器的推動(dòng)作用下,使數(shù)據(jù)處理過程中能夠?qū)崿F(xiàn)數(shù)據(jù)并行的效果。大數(shù)據(jù)應(yīng)用過程中,對(duì)于數(shù)據(jù)的處理頻率相對(duì)較高,因此必須想方設(shè)法改善節(jié)點(diǎn)計(jì)算效率并強(qiáng)化通信效率。顧名思義,大數(shù)據(jù)就是代表龐大的數(shù)據(jù)信息量,因此相應(yīng)的儲(chǔ)存模式也較為復(fù)雜,種類繁多,其中最為常見的數(shù)據(jù)儲(chǔ)存模式為集中式存儲(chǔ)模式以及分布共享式存儲(chǔ)模式。為了較好地應(yīng)對(duì)大數(shù)據(jù)通信頻率較高這一問題,必須通過合理的手段來提高節(jié)點(diǎn)與節(jié)點(diǎn)或與設(shè)備之間的連接效率以及。對(duì)上文內(nèi)容進(jìn)行總結(jié)后得知,要想有效解決大數(shù)據(jù)應(yīng)用中存在的問題,其中最關(guān)鍵的環(huán)節(jié)在于加大互聯(lián)通信技術(shù)層面的研究開發(fā)力度,提高在節(jié)點(diǎn)連接效率優(yōu)化方面的研究力度,一般可以通過兩種方式來實(shí)現(xiàn),一種為研發(fā)一款軟硬件結(jié)合的多借口網(wǎng)絡(luò)芯片,另一種為通過光互連技術(shù)來改善數(shù)據(jù)傳送過程中的問題。
1.2硬件體系架構(gòu)
在大數(shù)據(jù)中包含著海量的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。這三種數(shù)據(jù)類型對(duì)應(yīng)的存儲(chǔ)方式也各不相同,結(jié)構(gòu)化數(shù)據(jù)通常使用數(shù)據(jù)庫結(jié)構(gòu)實(shí)現(xiàn)存儲(chǔ),而非結(jié)構(gòu)化以及半結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)則更多地以依靠于不同文件與系統(tǒng)之間的協(xié)調(diào)與配合來實(shí)現(xiàn)。數(shù)據(jù)處理與數(shù)據(jù)計(jì)算是兩個(gè)完全不同的過程,在數(shù)據(jù)計(jì)算的過程中,當(dāng)數(shù)據(jù)加載已經(jīng)結(jié)束時(shí),則需要對(duì)各系統(tǒng)之間的交互頻率進(jìn)行合理地調(diào)整和控制,所以說應(yīng)該選擇單一的分布式文件系統(tǒng)來實(shí)現(xiàn)。而針對(duì)大數(shù)據(jù)的處理方式則相對(duì)來說更為豐富,同時(shí)也更加復(fù)雜,其中使用頻率最高的數(shù)據(jù)處理方式有圖處理以及批處理兩種,這樣據(jù)必須得到不同文件與系統(tǒng)之間的良好配合已結(jié)支持。由此可見,在設(shè)計(jì)超級(jí)計(jì)算機(jī)時(shí),單一的文化系統(tǒng)完全不能滿足計(jì)算機(jī)運(yùn)行需求,應(yīng)將多種文件組合在一起進(jìn)行超級(jí)計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)。
通過對(duì)非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模式進(jìn)行深入研究后可以發(fā)現(xiàn),它所使用的存儲(chǔ)結(jié)構(gòu)通常為分布式文件系統(tǒng)。為了能夠進(jìn)一步提升大數(shù)據(jù)的處理效率,Google對(duì)大數(shù)據(jù)儲(chǔ)存的文件系統(tǒng)進(jìn)行了一定的創(chuàng)新,在原有基礎(chǔ)上設(shè)計(jì)了一款具有擴(kuò)展功能的GFS文件系統(tǒng),創(chuàng)新后的文件系統(tǒng)在對(duì)應(yīng)用層的運(yùn)用下實(shí)現(xiàn)了對(duì)控制流以及數(shù)據(jù)量進(jìn)行分離的目的,可以說是一個(gè)真正意義上的分布式文件系統(tǒng),即使面對(duì)規(guī)模龐大的數(shù)據(jù)信息,該文件系統(tǒng)也能夠?qū)崿F(xiàn)高校的儲(chǔ)存以及處理。GFS文件系統(tǒng)由以下三個(gè)基本部分構(gòu)成,分別為若干塊服務(wù)器、單一的主控服務(wù)器以及客戶端。本論文以GFS文件系統(tǒng)為出發(fā)點(diǎn),對(duì)目前已研發(fā)上市且具有代表意義的阿里巴巴分支ADFS系統(tǒng)進(jìn)行了分析。在阿里巴巴的ADFS系統(tǒng)中,主要針對(duì)HDFSNameNode在使用過程中暴露出來的單點(diǎn)故障以及內(nèi)存不足等一系列問題實(shí)施優(yōu)化,工作原理主要為將內(nèi)存中不屬于熱點(diǎn)范圍內(nèi)的數(shù)據(jù)轉(zhuǎn)移至外部數(shù)據(jù)庫當(dāng)中,通過這種方式來緩解NalneNode所承受的內(nèi)存壓力,從而提升數(shù)據(jù)的處理質(zhì)量以及效率。而在對(duì)半結(jié)構(gòu)化數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù)進(jìn)行研究后發(fā)現(xiàn),半結(jié)構(gòu)化數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù)在存儲(chǔ)方式上有著十分顯著的共性特征,他們通常都優(yōu)先選擇數(shù)據(jù)庫以及分布式表結(jié)構(gòu)作為存儲(chǔ)方式,只有一些結(jié)構(gòu)相對(duì)較為簡(jiǎn)單的半結(jié)構(gòu)化數(shù)據(jù)更傾向于選擇Key/Value分布式系統(tǒng),其中較為典型的為亞馬遜公司的Dynamo系統(tǒng)以及Facebook的Cassandra系統(tǒng),亞馬遜的Dynamo主要是運(yùn)用Key/Value作為數(shù)據(jù)存儲(chǔ)模式,這一存儲(chǔ)模式相比于其它模式的優(yōu)點(diǎn)在于具有強(qiáng)大的可擴(kuò)展性以及可用性。Facebook的Cassandra系統(tǒng)同樣也是采用Key/Value作為數(shù)據(jù)存儲(chǔ)模式,通過對(duì)這一存儲(chǔ)模式的運(yùn)用進(jìn)一步實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)可擴(kuò)展性以及一致性的增強(qiáng)。
2大數(shù)據(jù)時(shí)代應(yīng)用背景下編程模型的設(shè)計(jì)
在大數(shù)據(jù)時(shí)代@一背景下,編程模型所面臨的挑戰(zhàn)也是日益凸顯出來,傳統(tǒng)的編程模型也開始表現(xiàn)出一定的動(dòng)力不足趨勢(shì),并無法滿足大數(shù)據(jù)的編程要求,為了有效解決這一矛盾,必須基于大數(shù)據(jù)的特征以及需求來設(shè)計(jì)一種有別于傳統(tǒng)編程模型的全新的編程模型。大數(shù)據(jù)時(shí)代下的編程模型必須滿足簡(jiǎn)單易操作的基本原則,并在此基礎(chǔ)上盡可能提高性能水平,構(gòu)建一個(gè)清晰明確的編程抽象,確保程序員的編程工作能夠更加順暢,在這一過程中,程序員并不需要關(guān)注程序在集群中運(yùn)行的具體狀態(tài)以及情況,只需要針對(duì)每一項(xiàng)問題進(jìn)行一一解決即可。在新的編程模型中,程序員的主要工作與任務(wù)在于關(guān)注一切有待解決的問題,以此來確保編程過程中各項(xiàng)任務(wù)的清晰化、明了化,同時(shí)還可以使代碼后期的維護(hù)管理工作得到極大程度的簡(jiǎn)化,使程序員的工作更加方便、簡(jiǎn)潔、高效。此外,在構(gòu)建編程模型時(shí)還應(yīng)考慮到系統(tǒng)數(shù)據(jù)計(jì)算能力以及處理能力提升的目的,我們不僅要確保程序能夠在集群上實(shí)現(xiàn)高效穩(wěn)定的運(yùn)行,同時(shí)也要保證不同類型的作業(yè)與任務(wù)能夠在集群上并發(fā)運(yùn)行,這樣可以大大提高集群內(nèi)部資源的共享有效率。但是在這一模型下,我們也會(huì)面臨許多新的問題,需要后期通過探索與研究進(jìn)行慢慢攻破,例如如何有效處理異構(gòu)性問題、如何提升本地?cái)?shù)據(jù)的有效利用率等。因此在基于大數(shù)據(jù)應(yīng)用背景下進(jìn)行新編程模型構(gòu)建的同時(shí),我們的考慮內(nèi)容不能過于單一,必須綜合衡量各方面的影響與利弊,在此基礎(chǔ)上作出適當(dāng)?shù)娜∩嵋约芭袛?,從而?gòu)建一個(gè)簡(jiǎn)單、便捷、可靠、高效的大數(shù)據(jù)編程模型。
為了使效率得到進(jìn)一步提升,超級(jí)計(jì)算機(jī)一般來說都會(huì)選擇應(yīng)用并行編程模型,例如Open MP以及MPI,其中,Open MP通常會(huì)與共享存儲(chǔ)模式的融合而被廣泛地應(yīng)用在對(duì)稱多處理器等架構(gòu)的相關(guān)設(shè)備當(dāng)中,而MPI所涉及的編程模型則相對(duì)來說更為復(fù)雜,一般來說需要在切換至信息通信計(jì)算模型下,要求編程工程人員針對(duì)所有的程序問題根據(jù)一定的規(guī)則進(jìn)行一一分類,隨后再將這些分類號(hào)的問題映射至分布式進(jìn)程集合當(dāng)中。Open MP以及MPI等并行編程模型并不適用于大數(shù)據(jù)的計(jì)算以及處理過程中,因此一些規(guī)模較大的互聯(lián)網(wǎng)企業(yè)會(huì)根據(jù)自身公司的實(shí)際情況以及需求來研制具有針對(duì)性的大數(shù)據(jù)處理模型,這樣一來不僅可以使工作人員的工作效率得到提升,同時(shí)也在很大程度上促進(jìn)了大數(shù)據(jù)應(yīng)用的有效實(shí)現(xiàn)。
3結(jié)語
綜上所述,在大數(shù)據(jù)應(yīng)用背景之下,對(duì)于超級(jí)計(jì)算機(jī)的設(shè)計(jì)可以適當(dāng)導(dǎo)入一些高效模塊結(jié)構(gòu),例如多核結(jié)構(gòu)以及眾核結(jié)構(gòu)等。此外,寬帶網(wǎng)絡(luò)速度的提升也有利于超級(jí)計(jì)算機(jī)運(yùn)行速度的改善,為其提供基本的保障條件。總而言之,在大數(shù)據(jù)時(shí)代背景之下,要想使數(shù)據(jù)處理以及計(jì)算速率得到有效提升,超級(jí)計(jì)算機(jī)的應(yīng)用是必然的趨勢(shì)所在,并取消以往計(jì)算機(jī)系統(tǒng)中的計(jì)算密集模式,取而代之的是數(shù)據(jù)密集模式。筆者相信在大家的共同努力之下,大數(shù)據(jù)應(yīng)用背景下的數(shù)據(jù)處理以及計(jì)算問題自會(huì)得以有效解決。
參考文獻(xiàn)
[1] 張聽,袁曉如.樹圖可視化[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012(9):1113- 1124.
關(guān)鍵字:計(jì)算機(jī);物聯(lián)網(wǎng);網(wǎng)絡(luò);應(yīng)用領(lǐng)域;大數(shù)據(jù)
既然計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)對(duì)于社會(huì)發(fā)展、科技進(jìn)步、人類生活等多個(gè)方面都有積極的影響,那么當(dāng)下我們就應(yīng)該將物聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展作為科研重點(diǎn)。物聯(lián)網(wǎng)技術(shù)的運(yùn)用不能是盲目的,它的目的是為了在滿足市場(chǎng)需求的前提下、建立更為完善的技術(shù)產(chǎn)業(yè)。只有這樣,才能進(jìn)一步推廣物聯(lián)網(wǎng)技術(shù)。另外,物聯(lián)網(wǎng)技術(shù)的普遍應(yīng)用并不是沒有生活問題的,為了使其發(fā)展的更為快速,我們需要認(rèn)清當(dāng)下物聯(lián)網(wǎng)運(yùn)用的特點(diǎn),分析物聯(lián)網(wǎng)包含的主要技術(shù),還要了解當(dāng)前物聯(lián)網(wǎng)技術(shù)的一些應(yīng)用領(lǐng)域。
一、計(jì)算機(jī)物聯(lián)網(wǎng)概述
計(jì)算機(jī)物聯(lián)網(wǎng)就如其名稱所示的一樣,是在大數(shù)據(jù)時(shí)代,將有形物體接入互聯(lián)網(wǎng)的一種技術(shù)。計(jì)算機(jī)物聯(lián)網(wǎng)包含兩個(gè)含義,第一方面,計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)以網(wǎng)絡(luò)為核心。在某種程度上,計(jì)算機(jī)物聯(lián)網(wǎng)是互聯(lián)網(wǎng)絡(luò)的擴(kuò)展。眾所周知,計(jì)算機(jī)物聯(lián)網(wǎng)是在大數(shù)據(jù)時(shí)代下應(yīng)運(yùn)而生的,因此其另一方面的含義就與計(jì)算機(jī)信息化有關(guān),具體來說,就是計(jì)算機(jī)物聯(lián)網(wǎng)可以通過大量的數(shù)據(jù),促進(jìn)與客戶信息交流和溝通。計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)在世界上被公認(rèn)為最有發(fā)展前景的先進(jìn)創(chuàng)新,它就像是一筆無形的財(cái)富。
(一)從技術(shù)層次看待計(jì)算機(jī)物聯(lián)網(wǎng)
計(jì)算機(jī)物聯(lián)網(wǎng)僅從字面上分析是無法真正理解的,還需要從計(jì)算機(jī)物聯(lián)網(wǎng)的技術(shù)結(jié)構(gòu)、關(guān)鍵技術(shù)、應(yīng)用領(lǐng)域等方面來深入探究。從技術(shù)層次上來看,計(jì)算機(jī)物聯(lián)網(wǎng)包含感知層、網(wǎng)絡(luò)層和應(yīng)用層三大層次。計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)的三個(gè)技術(shù)層即相輔相成。每個(gè)技術(shù)層次都包含其特有的技術(shù)的,例如,其中網(wǎng)絡(luò)層還可以分為兩大層次,即傳輸層和處理層,主要負(fù)責(zé)信息數(shù)據(jù)的傳輸工作,由私有網(wǎng)絡(luò)、互聯(lián)網(wǎng)、有線和無線通信網(wǎng)組成。感知層就如同人體的神經(jīng)末梢,負(fù)責(zé)信息資料的采集,其包含的技術(shù)最為豐富,有條形碼、傳感器、智能機(jī)械、識(shí)別碼等。網(wǎng)絡(luò)層是信息交換與通訊的重要平臺(tái),應(yīng)用也最為廣泛,其中的傳輸層包括衛(wèi)星通信、移動(dòng)通訊網(wǎng)等技術(shù),處理層包括GIS/GRS技術(shù)、云計(jì)算等技術(shù)。另外,計(jì)算機(jī)物聯(lián)網(wǎng)的技術(shù)層次上還包括一些常見的感知終端,例如二氧化碳濃度傳感器、溫度、濕度傳感器、RFID標(biāo)簽和讀寫器、攝像頭、GPS等。
(二)計(jì)算機(jī)物聯(lián)網(wǎng)關(guān)鍵技術(shù)
在近幾年來,物聯(lián)網(wǎng)所涉及的領(lǐng)域面越來越廣。其實(shí)現(xiàn)的基礎(chǔ)是計(jì)算機(jī)物聯(lián)網(wǎng)所包含的一些關(guān)鍵技術(shù)。具體有傳感器技術(shù)、RFID標(biāo)簽、嵌入式系統(tǒng)技術(shù)。所謂傳感器技術(shù),是計(jì)算機(jī)能夠處理海量數(shù)據(jù)的關(guān)鍵,也是計(jì)算機(jī)的主要應(yīng)用程序。我們知道,計(jì)算機(jī)處理的數(shù)據(jù)需要時(shí)數(shù)學(xué)信號(hào),這就要求計(jì)算機(jī)具備將模擬信號(hào)轉(zhuǎn)變?yōu)閿?shù)據(jù)信號(hào)的功能,故有了傳感器技術(shù)。近些年來,隨著計(jì)算機(jī)物聯(lián)網(wǎng)的發(fā)展,另一種傳感器技術(shù)得以問世,即RFID標(biāo)簽,其是一種整合技術(shù),主要應(yīng)用于自動(dòng)識(shí)別、物品物流管理等領(lǐng)域。計(jì)算機(jī)信息化建設(shè)使得物聯(lián)網(wǎng)技術(shù)也在不斷發(fā)展,目前已經(jīng)形成一種集信息技術(shù)設(shè)備、傳感器技術(shù)、一體化技術(shù)為一體的尖端技術(shù),即嵌入式系統(tǒng)技術(shù)。其是計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)發(fā)展成熟的體現(xiàn),在長期的的演變、法杖過程中,嵌入式系統(tǒng)得以廣泛運(yùn)用,涉及到工業(yè)生產(chǎn)和國防工業(yè),小到人類的生活,大到可以運(yùn)用在衛(wèi)星系統(tǒng)。
(三)計(jì)算機(jī)物聯(lián)網(wǎng)的應(yīng)用技術(shù)
除了傳感器技術(shù)、RFID標(biāo)簽、嵌入式系統(tǒng)技術(shù)之外,計(jì)算機(jī)物聯(lián)網(wǎng)的核心技術(shù)還包括RFID等標(biāo)識(shí)技術(shù)以及云計(jì)算技術(shù),而其應(yīng)用技術(shù)的發(fā)展也尤為迅速,較為成熟的包括無線傳感網(wǎng)絡(luò)技術(shù)、射頻技術(shù)、網(wǎng)絡(luò)通訊技術(shù)等。我們知道,隨著社會(huì)的發(fā)展,要想利用計(jì)算機(jī)技術(shù)更好的服務(wù)于人類,必須考慮技術(shù)的功能性,保證其能適應(yīng)科技時(shí)代的進(jìn)步。傳統(tǒng)的傳感器并不成熟,其無法實(shí)現(xiàn)功能多樣性。發(fā)展至今的無線傳感網(wǎng)絡(luò)技術(shù)已經(jīng)能夠滿足軍民,主要由許多個(gè)不同的無線傳感器節(jié)點(diǎn)組成。為了順應(yīng)科技潮流,無線傳感網(wǎng)絡(luò)技術(shù)已經(jīng)在努力向微型化、智能化的目標(biāo)發(fā)展。相信在不久的將來,無線傳感網(wǎng)絡(luò)技術(shù)能夠?qū)崿F(xiàn)從傳統(tǒng)傳感器到智能傳感器的完全蛻變。近些年來,計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)的發(fā)展還體現(xiàn)在射頻技術(shù)的應(yīng)用上,較常見的應(yīng)用有無線射頻識(shí)別技術(shù)。這類技術(shù)主要用于電子晶片、感應(yīng)卡。射頻技術(shù)的原理比較難以理解,需要為由掃描器發(fā)射以特定頻率進(jìn)行無線電波能量的發(fā)射,還要驅(qū)動(dòng)接收器電路將內(nèi)部的代碼送出。射頻技術(shù)的先進(jìn)在于其接收器的特殊性,且其晶片密碼為世界唯一無法復(fù)制,安全性高、長壽命。除此之外,計(jì)算機(jī)物聯(lián)網(wǎng)的應(yīng)用技術(shù)還有網(wǎng)絡(luò)通訊技術(shù),具體是指利用現(xiàn)有的計(jì)算機(jī)設(shè)備,在相關(guān)網(wǎng)絡(luò)通訊設(shè)備的輔助下,進(jìn)行圖文數(shù)據(jù)的采集、存儲(chǔ)、處理和傳輸。網(wǎng)絡(luò)通訊設(shè)備可以使資源實(shí)現(xiàn)其效用最大化,使信息資源達(dá)到充分共享。
二、物聯(lián)網(wǎng)的應(yīng)用
(一)城市交通管理
物聯(lián)網(wǎng)技術(shù)最初就運(yùn)用在交通行業(yè),在其技術(shù)支持下,交通管制實(shí)現(xiàn)智能化。例如,物聯(lián)網(wǎng)技術(shù)可以使交通管制系統(tǒng)更加自動(dòng)化、智能化,能進(jìn)行道路交通的實(shí)時(shí)監(jiān)控。能在短時(shí)間內(nèi),對(duì)公路、橋梁、公交、停車場(chǎng)等場(chǎng)所進(jìn)行系統(tǒng)管理??梢栽谌我鈺r(shí)段估測(cè)道路交通流量,及時(shí)發(fā)現(xiàn)事故、交通堵塞等情況,并進(jìn)行快速的自動(dòng)判斷,從而利于采取有效的解決措施。相信在不久的將來,全世界的交通都能實(shí)現(xiàn)智能化。
(二)家庭生活
科學(xué)技術(shù)的發(fā)展使得社會(huì)經(jīng)濟(jì)發(fā)展的速度越來越大,在計(jì)算機(jī)技術(shù)的推動(dòng)下,我們來到了數(shù)字化的二十一世紀(jì)。在物聯(lián)網(wǎng)技術(shù)的帶領(lǐng)下,我們不管是在家庭生活,還是工作中,都感受到了巨大的便捷。通過計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù),我們過上了智能化生活??梢酝ㄟ^手機(jī)來職能的控制家里的電器設(shè)備。通過手機(jī)端傳送指令,來遠(yuǎn)程控制電器工作、監(jiān)控家里的一切。近些年來,隨著物聯(lián)網(wǎng)生活生產(chǎn)領(lǐng)域的應(yīng)用,其長足發(fā)展已成必然。
(三)節(jié)能減排
計(jì)算機(jī)物聯(lián)網(wǎng)的發(fā)展,勢(shì)必會(huì)使人類的生活發(fā)生改變。因此,一些由于人類生活方式而造成的空氣污染、資源浪費(fèi)問題將迎刃而解。我們知道,空氣污染一直是全球環(huán)保工作的棘手難題。計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)在應(yīng)對(duì)空氣污染上正好發(fā)揮了是特有的功能。近些年來,已經(jīng)有科研學(xué)者針對(duì)空氣污染進(jìn)行了合理的分析,并認(rèn)為,可以通過計(jì)算機(jī)物聯(lián)網(wǎng)技術(shù)來改善。具體是通過物聯(lián)網(wǎng)技術(shù),對(duì)反應(yīng)空氣質(zhì)量的數(shù)據(jù)進(jìn)行收集。與此同時(shí),要研發(fā)出一種新型的空氣實(shí)時(shí)監(jiān)測(cè)系統(tǒng)。這樣就既能通過智能的實(shí)時(shí)監(jiān)測(cè)系統(tǒng)來進(jìn)行檢測(cè)工作,又能物聯(lián)網(wǎng)技術(shù)下對(duì)空氣質(zhì)量數(shù)據(jù)進(jìn)行自動(dòng)分析、統(tǒng)計(jì)。
三、結(jié)論
綜上所述,計(jì)算機(jī)物聯(lián)網(wǎng)的優(yōu)勢(shì)顯而易見。其包含多種功能,符合大數(shù)據(jù)時(shí)代的先進(jìn)科技技術(shù)。就目前來看,計(jì)算機(jī)物聯(lián)網(wǎng)在人類生活和工業(yè)中都發(fā)揮著巨大的作用。其帶動(dòng)著多個(gè)行業(yè)的發(fā)展,使得智能化產(chǎn)品走向多樣化。另外,從計(jì)算機(jī)物聯(lián)網(wǎng)在多個(gè)領(lǐng)域的應(yīng)用可以看出,物聯(lián)網(wǎng)技術(shù)已經(jīng)逐漸成熟起來,其在未來的發(fā)展趨勢(shì)十分良好。作為計(jì)算機(jī)行業(yè)的工作者,我們應(yīng)該永不止步,全身心的致力于更多像物聯(lián)網(wǎng)技術(shù)的科技項(xiàng)目研究。希望在不久的將來,我們能讓物聯(lián)網(wǎng)在未來發(fā)展的更為快速,讓我國所自主研發(fā)的智能化設(shè)備越來越多,給我們帶來更多高科技體驗(yàn)。
作者:譚秦紅 單位:貴州省銅仁職業(yè)技術(shù)學(xué)院
參考文獻(xiàn):
[1]朱順強(qiáng).中國物聯(lián)網(wǎng)發(fā)展?fàn)顩r分析[A].中國通信學(xué)會(huì)2010年光纜電纜學(xué)術(shù)年會(huì)論文集[C].2010年.
關(guān)鍵字:大數(shù)據(jù) 情報(bào)研究 情報(bào)研究技術(shù)
中圖分類號(hào): G250.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2012)06-0001-08
1 引言
當(dāng)數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟(jì)資產(chǎn)[1],當(dāng)科研處于以數(shù)據(jù)為基礎(chǔ)進(jìn)行科學(xué)發(fā)現(xiàn)的第四范式[2],當(dāng)數(shù)據(jù)開始變革教育[3],這些無不宣告著我們已經(jīng)進(jìn)入了大數(shù)據(jù)(big data)時(shí)代。不同的學(xué)科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對(duì)自己的研究和實(shí)踐帶來的深刻影響,情報(bào)研究領(lǐng)域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個(gè)簡(jiǎn)單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點(diǎn)是4個(gè)V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實(shí)),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機(jī)會(huì),使業(yè)務(wù)更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報(bào)告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見,大數(shù)據(jù)強(qiáng)調(diào)的不單純只是數(shù)據(jù)量多少的問題,其背后隱藏了更為復(fù)雜和深刻的理念,這些理念包括:①將對(duì)數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計(jì)計(jì)算,而是深層的挖掘。大數(shù)據(jù)時(shí)代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價(jià)值,已經(jīng)成為企業(yè)管理者、政府機(jī)構(gòu)以及科研工作者首要關(guān)注的問題。“業(yè)務(wù)就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務(wù)”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對(duì)數(shù)據(jù)分析提出了新的、更高的要求??梢赃@么說,大數(shù)據(jù)時(shí)代就是數(shù)據(jù)分析的時(shí)代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的多樣性是一種真實(shí)的存在,數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個(gè)事實(shí)或規(guī)律可以同時(shí)隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個(gè)事實(shí)或規(guī)律的某一個(gè)或幾個(gè)側(cè)面,這既為數(shù)據(jù)和信息分析的結(jié)論的交叉驗(yàn)證提供了契機(jī),也要求分析者在分析研究過程中有意識(shí)地融集各種類型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識(shí)。只有如此,才能真正地提高數(shù)據(jù)分析的科學(xué)性和準(zhǔn)確性。③更加廣泛地應(yīng)用新技術(shù)和適用技術(shù)。數(shù)據(jù)量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數(shù)據(jù)的突出特點(diǎn),這必然會(huì)帶來數(shù)據(jù)獲取、整合、存儲(chǔ)、分析等方面的新發(fā)展,產(chǎn)生相應(yīng)的新技術(shù)或者將已有的技術(shù)創(chuàng)新地應(yīng)用于大數(shù)據(jù)的管理與分析。同時(shí),大數(shù)據(jù)的這些特點(diǎn)也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計(jì)算機(jī)輔助分析或基于計(jì)算機(jī)的智能化分析,將成為大數(shù)據(jù)時(shí)代數(shù)據(jù)與信息分析的主流模式。
對(duì)于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報(bào)研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來了機(jī)遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據(jù)時(shí)代,情報(bào)研究工作正在得到空前的重視,大數(shù)據(jù)為情報(bào)研究的新發(fā)展提供了機(jī)會(huì),從更為廣闊的視野來看待情報(bào)研究的定位,研究新技術(shù)新方法,解決新問題,將極大地促進(jìn)情報(bào)研究理論與實(shí)踐前進(jìn)的步伐。另一方面,大數(shù)據(jù)時(shí)代本身也要求各行各業(yè)重視情報(bào)研究工作,這就必然使得眾多學(xué)科有意識(shí)地涉足到以往作為專門領(lǐng)域的情報(bào)研究之中,并將其作為本學(xué)科的重要組成部分加以建設(shè)。文獻(xiàn)分析(本質(zhì)是文本分析)不再為情報(bào)研究所獨(dú)占,以往情報(bào)研究領(lǐng)域積累的相關(guān)理論和方法很有可能優(yōu)勢(shì)不再。因此,如何把握住自身的優(yōu)勢(shì),并抓住機(jī)會(huì)有所拓展,是情報(bào)學(xué)在大數(shù)據(jù)時(shí)代需要思考的問題。
2 大數(shù)據(jù)環(huán)境下情報(bào)研究的發(fā)展趨勢(shì)
大數(shù)據(jù)帶來的新觀念,正在引報(bào)研究的新發(fā)展,而且,研究人員也在不斷地從情報(bào)研究的實(shí)踐中總結(jié)經(jīng)驗(yàn)教訓(xùn),引導(dǎo)情報(bào)研究的未來走向。英國萊斯特大學(xué)的Mark Phythian教授在2008年10月作 了題為“情報(bào)分析的今天和明天”的報(bào)告[6],指出:①獲知情境是至關(guān)重要的。忽略戰(zhàn)略環(huán)境、領(lǐng)導(dǎo)風(fēng)格和心理因素等更為廣泛的問題,將導(dǎo)致情報(bào)研究的失誤;②要加強(qiáng)信息之間的關(guān)聯(lián)。美國政府部門內(nèi)部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動(dòng),導(dǎo)致情報(bào)研究中的預(yù)測(cè)失??;③要汲取更多外界的專業(yè)知識(shí)。這一舉措雖然不能保證分析的成功性,但將是競(jìng)爭(zhēng)分析的重要信息來源。
綜合大數(shù)據(jù)背景的要求和以往情報(bào)研究的經(jīng)驗(yàn)教訓(xùn),結(jié)合國內(nèi)外同行的研究成果,本文將情報(bào)研究的發(fā)展趨勢(shì)總結(jié)為以下五個(gè)方面:?jiǎn)我活I(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性;情報(bào)研究的智能化。
2.1 單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究
隨著學(xué)科的深入交叉融合及社會(huì)發(fā)展、經(jīng)濟(jì)發(fā)展與科技發(fā)展一體化程度的增強(qiáng),情報(bào)研究正從單一領(lǐng)域分析向全領(lǐng)域分析的方向發(fā)展。
首先,表現(xiàn)在各領(lǐng)域中的情報(bào)研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡(luò)分析方法、空間信息分析等其他學(xué)科的分析方法,廣泛應(yīng)用于軍事情報(bào)、科技情報(bào)等領(lǐng)域,心理學(xué)等領(lǐng)域的理論也用于情報(bào)分析的認(rèn)知過程,以指導(dǎo)情報(bào)分析及其工具的研發(fā)。同時(shí),情報(bào)學(xué)中的引文分析等文獻(xiàn)計(jì)量方法也被借鑒用于網(wǎng)站影響力評(píng)估。從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計(jì)算機(jī)領(lǐng)域的技術(shù),為情報(bào)研究提供了有力的技術(shù)視角,情報(bào)研究獲得的知識(shí)反過來又給予其他技術(shù)領(lǐng)域的發(fā)展以引導(dǎo)??梢姡瑹o論從思想上、方法上、技術(shù)上,各領(lǐng)域之間的交叉點(diǎn)越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識(shí)更強(qiáng)、手段更為綜合。
其次是分析內(nèi)容的擴(kuò)展,這也是最為重要和顯著的變化。在情報(bào)研究過程中,不僅僅局限于就本領(lǐng)域問題的分析而分析,而將所分析的內(nèi)容置于一個(gè)更大的情景下做通盤考慮,從而得出更為嚴(yán)謹(jǐn)?shù)慕Y(jié)論。聯(lián)合國的創(chuàng)新倡議項(xiàng)目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關(guān)鍵,基于沒有代表性樣本而獲得的結(jié)論是缺乏外部合法性的,即不能反映真實(shí)的世界。在情報(bào)研究領(lǐng)域,一些數(shù)據(jù)往往因?yàn)橐恍┎豢煽沽Φ脑蚨煌暾缭缙诘目萍紨?shù)據(jù),可能由于國際形勢(shì)等外部因素,導(dǎo)致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評(píng)估該國的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無疑是會(huì)得“正確”的錯(cuò)誤結(jié)論,這時(shí)應(yīng)針對(duì)這樣的異常情況,將研究問題放置在當(dāng)時(shí)的時(shí)代背景下,揭示背后的原因,從其他方面收集信息來補(bǔ)充,才能得出符合實(shí)際的結(jié)論。也就是說,必須要考察不同時(shí)間戳下的相關(guān)信息,再對(duì)分析內(nèi)容加以擴(kuò)充,這實(shí)質(zhì)是一種基于時(shí)間軸的擴(kuò)展。另外,將內(nèi)容擴(kuò)展至本領(lǐng)域的上下游則是一種更為重要的擴(kuò)展。例如,考察某項(xiàng)技術(shù)的發(fā)展前景,如果僅就該技術(shù)本身來討論,可能會(huì)得出正面的結(jié)論,但如果結(jié)合特定地區(qū)人們對(duì)該技術(shù)的態(tài)度、當(dāng)?shù)氐募夹g(shù)水平、物理?xiàng)l件、發(fā)展定位等,卻可能會(huì)得出相反的結(jié)論。這就說明,在很多領(lǐng)域中,環(huán)境不同,發(fā)展程度不同,要解決的問題也就不同。一些地區(qū)當(dāng)前關(guān)注的問題不一定就是其他地區(qū)要關(guān)注的問題,某些欠發(fā)達(dá)地區(qū)當(dāng)前不一定就必須照搬另一些所謂發(fā)達(dá)地區(qū)的當(dāng)前做法。這需要通盤考察,分析相關(guān)思想、觀點(diǎn)和方法產(chǎn)生的土壤、使用的條件,結(jié)合當(dāng)前環(huán)境再做出判斷,否則可能會(huì)對(duì)決策者產(chǎn)生誤導(dǎo)。
2.2 綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報(bào)研究的另一大發(fā)展趨勢(shì)。Thomas Fingar[8]從軍事情報(bào)角度指出,軍事情報(bào)界需要綜合利用人際情報(bào)、信號(hào)情報(bào)、圖像情報(bào)和外部情報(bào),進(jìn)行全資源分析(all-source analysis),即利用多種不同的信息資源來評(píng)估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識(shí)或解決政策難題??萍记閳?bào)界也是如此,如利用科技論文和專利,發(fā)現(xiàn)科技之間的轉(zhuǎn)換關(guān)系、預(yù)測(cè)技術(shù)發(fā)展方向,綜合利用政府統(tǒng)計(jì)數(shù)據(jù)、高校網(wǎng)站、期刊、報(bào)紙、圖書等來評(píng)估大學(xué)等科研機(jī)構(gòu)。可見,綜合利用多種信息源是從問題出發(fā),系統(tǒng)化地整合所有相關(guān)信息資源來支持情報(bào)研究,信息源可以是學(xué)術(shù)論文、專利等不同類型的文獻(xiàn)集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢(shì)是由幾大因素決定的。一是情報(bào)研究問題的復(fù)雜性。在大數(shù)據(jù)背景下,情報(bào)不再局限在科技部門,而成為全社會(huì)的普遍知識(shí)。公眾對(duì)情報(bào)的需求使得情報(bào)研究問題更為綜合,涉及要素更為多元,同時(shí)也更為細(xì)化。這導(dǎo)致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類型的信息源相互補(bǔ)充。例如要分析科技之間的轉(zhuǎn)換關(guān)系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術(shù)報(bào)告等,可以較為直觀地反映研究者對(duì)某科技問題的理解與描述,而評(píng)論文章、科技新聞、市場(chǎng)調(diào)查等,可以反映出社會(huì)對(duì)該科技的觀點(diǎn)、認(rèn)知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補(bǔ)充。此外,從現(xiàn)實(shí)角度來看,通常會(huì)遇到某些信息無法獲取的情況,這就需要?jiǎng)e的信息加以替代,這就從實(shí)踐角度說明了綜合利用多種信息源的必要性。三是分析結(jié)果的重要性。以評(píng)估大學(xué)為例,評(píng)估的結(jié)果會(huì)引導(dǎo)各學(xué)校在比較中發(fā)現(xiàn)自身優(yōu)勢(shì)和差距,指導(dǎo)未來發(fā)展定位,同時(shí)也為廣大學(xué)生報(bào)考提供參考??梢?,研究結(jié)果對(duì)社會(huì)的影響是廣泛而深遠(yuǎn)的,要做到分析結(jié)果的可靠性、科學(xué)性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現(xiàn)的,不同信息源相互之間的關(guān)系是怎樣的。其次,針對(duì)待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當(dāng)問題含糊不清時(shí),可能需要不斷地調(diào)整信息源。再次,情報(bào)研究人員要能有效地綜合、組織、解釋不同信息源分析出的結(jié)果,特別是當(dāng)結(jié)論有所沖突的時(shí)候,識(shí)別不當(dāng)結(jié)果、保證分析結(jié)果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網(wǎng)絡(luò)應(yīng)用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構(gòu)建于Web2.0技術(shù)和思想基礎(chǔ)上,允許用戶創(chuàng)建交換信息內(nèi)容的基于網(wǎng)絡(luò)的應(yīng)用定義為社會(huì)化媒體(Social Media),包括合作項(xiàng)目(如維基百科)、博客、內(nèi)容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會(huì)世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網(wǎng)絡(luò)技術(shù),以用戶為中心來組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點(diǎn),可以是圍繞自己喜好收集的信息資源集合等。由于社會(huì)化媒體的易用性、快速性和易獲取性等特點(diǎn),它們正迅速地改變著社會(huì)的公共話語環(huán)境,并引導(dǎo)著技術(shù)、娛樂、政治等諸多主題的發(fā)展[11]。這些通過龐大的用戶社區(qū)來傳播的高度多樣化的信息及其網(wǎng)絡(luò)結(jié)構(gòu),為洞悉公眾對(duì)某一主題的觀點(diǎn)、研究信息擴(kuò)散等社會(huì)現(xiàn)象[12]、預(yù)測(cè)未來發(fā)展方向[11]等提供了機(jī)會(huì),有助于發(fā)現(xiàn)有共同興趣的社群、領(lǐng)域?qū)<?、熱點(diǎn)話題[13]等,帶來了網(wǎng)絡(luò)輿情分析等研究內(nèi)容。此外,這類信息結(jié)合其他類型的數(shù)據(jù),產(chǎn)生了新的情報(bào)研究領(lǐng)域。例如,智能手機(jī)的普及和GPS的廣泛應(yīng)用,使得可以從社交網(wǎng)絡(luò)和網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)傳感數(shù)據(jù)和設(shè)備傳感數(shù)據(jù)中獲取社會(huì)和社區(qū)情報(bào)(social and community intelligence,SCI),揭示人類行為模式和社群動(dòng)態(tài)[14]。
此外,機(jī)構(gòu)知識(shí)庫等作為一種反映組織或群體知識(shí)成果的智力資源,也正引報(bào)界的重視。網(wǎng)絡(luò)信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學(xué)的角度指出,成熟完整的機(jī)構(gòu)知識(shí)庫應(yīng)包含機(jī)構(gòu)和學(xué)生的智力成果(包括科研材料和教學(xué)材料)以及記錄機(jī)構(gòu)自身各項(xiàng)事件和正在進(jìn)行的科研活動(dòng)的文檔。這暗示著學(xué)術(shù)界從過去只關(guān)心科研成果正逐步轉(zhuǎn)向關(guān)注科研過程。從機(jī)構(gòu)知識(shí)庫中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導(dǎo)機(jī)構(gòu)未來科研的發(fā)展走向等。但現(xiàn)有的機(jī)構(gòu)知識(shí)庫工具還缺乏幫助人們理解和分析這些資源的機(jī)制[16],在大數(shù)據(jù)環(huán)境下,加強(qiáng)這方面的研究也是必然趨勢(shì)??梢灶A(yù)見,隨著科技的發(fā)展和應(yīng)用的深入,還會(huì)不斷的有新型資源出現(xiàn),并不斷促進(jìn)情報(bào)研究的發(fā)展。
2.4 強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性
情報(bào)研究活動(dòng)在宏觀層面上是一種意義構(gòu)建(sensemaking)[17],依賴于分析人員根據(jù)已有知識(shí)構(gòu)建認(rèn)知框架(frame),通過對(duì)認(rèn)知框架的不斷修正來達(dá)到理解的目的[18]。這意味著情報(bào)研究活動(dòng)本身帶有很大的不確定性,很多因素影響著情報(bào)研究的有效性。如何使情報(bào)研究工作更加嚴(yán)謹(jǐn),減少情報(bào)分析的不確定、提升情報(bào)成果的質(zhì)量,正成為學(xué)術(shù)界當(dāng)前普遍關(guān)注的問題。情報(bào)研究嚴(yán)謹(jǐn)性(rigor)不等同于分析結(jié)果的正確性,它衡量的是情報(bào)研究的過程,是指在情報(bào)研究過程中“基于仔細(xì)考慮或調(diào)查,應(yīng)用精確和嚴(yán)格的標(biāo)準(zhǔn),從而更好地理解和得出結(jié)論”[19]。美國俄亥俄州立大學(xué)的Deniel Zelik[20][21]從評(píng)估角度,給出了8個(gè)指標(biāo)來衡量分析過程的嚴(yán)謹(jǐn)性:假設(shè)探索、信息檢索、信息驗(yàn)證、立場(chǎng)分析、敏感度分析、專家協(xié)作、信息融合和解釋評(píng)價(jià)。從這幾項(xiàng)指標(biāo)看,信息檢索和融合是從分析信息源上消除不全面性;假設(shè)探索是要使用多種視角來揭示數(shù)據(jù)和信息;信息驗(yàn)證側(cè)重于數(shù)據(jù)的溯源、佐證和交叉驗(yàn)證;立場(chǎng)分析強(qiáng)調(diào)分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協(xié)作是防止分析結(jié)果受分析人員自身的學(xué)科背景或經(jīng)驗(yàn)帶來的偏差;解釋評(píng)價(jià)是要正確對(duì)待分析結(jié)論??梢姡閳?bào)研究的嚴(yán)謹(jǐn)性意在消除人的主觀偏見,用更為客觀的視角對(duì)待情報(bào)研究。如果說之前的情報(bào)研究活動(dòng)依賴專家的個(gè)人判斷,帶有較為強(qiáng)烈的主觀色彩,那么走向嚴(yán)謹(jǐn)性的情報(bào)研究活動(dòng)正逐步轉(zhuǎn)變?yōu)橐婚T科學(xué)。
在大數(shù)據(jù)背景下,情報(bào)分析的嚴(yán)謹(jǐn)性,不僅體現(xiàn)在理念上,還暗含了對(duì)技術(shù)的要求。面對(duì)海量數(shù)據(jù),自動(dòng)化的技術(shù)手段必不可少。當(dāng)信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴數(shù)據(jù)倉庫等技術(shù)手段,如何在這樣的分析環(huán)境中將情報(bào)研究的科學(xué)性落到實(shí)處,是需要關(guān)注的問題??梢钥吹剑眉夹g(shù)本身已經(jīng)在一定程度上避免了人的主觀性,但面對(duì)同樣一個(gè)問題,可以有不同的技術(shù)手段,也可能產(chǎn)生不同的結(jié)果,如何避免由技術(shù)產(chǎn)生的偏見,也許通過多種技術(shù)手段或采用不同的算法,全方位地展示信息內(nèi)容及其之間的關(guān)系,從而避免產(chǎn)生信息的誤讀,是一個(gè)解決方案??梢?,在大數(shù)據(jù)時(shí)代,情報(bào)研究需要多種手段來加強(qiáng)其分析過程的科學(xué)性,而這又需要多種技術(shù)方法加以支持。
2.5 情報(bào)研究的智能化
大數(shù)據(jù)背景下的情報(bào)研究,對(duì)技術(shù)提出了更高的要求。正如美國國家科學(xué)基金會(huì)(NSF)的報(bào)告[22]所說,美國在科學(xué)和工程領(lǐng)域的領(lǐng)先地位將越來越取決于利用數(shù)字化科學(xué)數(shù)據(jù)以及借助復(fù)雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識(shí)的能力。對(duì)于情報(bào)研究來說,應(yīng)用智能化技術(shù)能自動(dòng)進(jìn)行高級(jí)、復(fù)雜的信息處理分析工作,在很大程度上把情報(bào)研究人員從繁瑣的體力勞動(dòng)中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時(shí)收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。從信息源來講,情報(bào)研究對(duì)象得以擴(kuò)展,其中可能包含微博等社會(huì)化媒體信息,可能包含圖片、新聞等,大量非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的涌入,必然需要技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以供后續(xù)分析。同時(shí),多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語義層面上的技術(shù)支持。從分析需求來講,簡(jiǎn)單的統(tǒng)計(jì)分析已不能滿足現(xiàn)在社會(huì)的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來的發(fā)展,這就涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)。此外,要尋求情報(bào)研究的客觀性,摒除過多的主觀意愿,也需要多種技術(shù)來支撐??梢?,這一發(fā)展趨勢(shì)是大數(shù)據(jù)時(shí)代下的必然。而各國在積極建設(shè)的數(shù)字化基礎(chǔ)設(shè)施,也在推動(dòng)著情報(bào)研究的智能化,如歐洲網(wǎng)格基礎(chǔ)設(shè)施(European Grid Infrastructure,EGI)[23]項(xiàng)目就致力于為歐洲各領(lǐng)域研究人員提供集成計(jì)算資源,從而推動(dòng)創(chuàng)新。
目前,對(duì)情報(bào)研究中的智能化技術(shù)沒有統(tǒng)一的界定,但概觀之,可以將情報(bào)研究智能化的本質(zhì)概括為定量化、可計(jì)算、可重復(fù)。定量化是針對(duì)過去情報(bào)研究更多的是依賴人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗(yàn)等給出粗略的結(jié)論,如果說這是一種定性化分析,現(xiàn)在更多地依賴通過計(jì)算機(jī)自動(dòng)化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎(chǔ)上輔以人的判斷,可以說是一種定量化的分析??捎?jì)算是指將各種信息資源轉(zhuǎn)化為計(jì)算機(jī)可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實(shí)體,再基于這些結(jié)構(gòu)化的、富有語義的信息,采用統(tǒng)計(jì)、數(shù)據(jù)挖掘等方法加以計(jì)算,獲取隱含的知識(shí)。可重復(fù)是指自動(dòng)化分析技術(shù)消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結(jié)論也應(yīng)該是一致的,這也體現(xiàn)了智能化技術(shù)為情報(bào)研究帶來客觀性的一面。
3 情報(bào)研究中的技術(shù)問題
情報(bào)研究的上述發(fā)展走向,決定了情報(bào)研究既不能仍然停留在定性分析上,也不能僅僅靠簡(jiǎn)單的統(tǒng)計(jì)替代情報(bào)研究中的計(jì)算技術(shù),由此對(duì)情報(bào)研究技術(shù)提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報(bào)告“大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報(bào)告分六個(gè)部分,其中第二部分討論了大數(shù)據(jù)技術(shù),并圍繞大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)技術(shù)和可視化三方面進(jìn)行了闡述。在大數(shù)據(jù)分析技術(shù)中,列舉了26項(xiàng)適用于眾多行業(yè)的分析技術(shù),包括A/B測(cè)試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識(shí)別、預(yù)測(cè)建模、回歸、情感分析、信號(hào)處理、空間分析、統(tǒng)計(jì)、監(jiān)督學(xué)習(xí)、模擬、時(shí)間序列分析、無監(jiān)督學(xué)習(xí)和可視化。這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對(duì)大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來的,如眾包就是隨著Web2.0而產(chǎn)生的技術(shù)。
根據(jù)我們的理解,這些技術(shù)大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語義處理三大類。這三大類技術(shù)也是當(dāng)前情報(bào)分析領(lǐng)域應(yīng)予以關(guān)注和深入研究的技術(shù)。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學(xué)[25],是自動(dòng)分析技術(shù)與交互技術(shù)相結(jié)合的產(chǎn)物,目的是幫助用戶在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關(guān)注計(jì)算機(jī)自動(dòng)生成信息的交互式圖形表示,關(guān)注這些圖形表示的設(shè)計(jì)、開發(fā)及其應(yīng)用[27],而可視化分析在此基礎(chǔ)上加入了知識(shí)發(fā)現(xiàn)過程,關(guān)注自動(dòng)分析方法及其選擇,以及如何將最佳的自動(dòng)分析算法與適當(dāng)?shù)目梢暬夹g(shù)相結(jié)合,以達(dá)到輔助決策的目的。
目前的情報(bào)分析系統(tǒng),雖然也提供了多種視圖來揭示信息,但更多的是一種分析結(jié)果的呈現(xiàn),系統(tǒng)內(nèi)部分析、處理的機(jī)制對(duì)分析人員來講是個(gè)黑匣子,分析人員無法了解分析方法、分析結(jié)果的局限性或者有效性,這無疑不符合情報(bào)研究嚴(yán)謹(jǐn)性這一發(fā)展要求。同時(shí),現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對(duì)情報(bào)分析認(rèn)知過程的支持,這就對(duì)使用人員的專業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個(gè)領(lǐng)域包括采用信息分析、地理空間分析、科學(xué)分析領(lǐng)域的分析方法,應(yīng)用數(shù)據(jù)管理和知識(shí)表示、統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)領(lǐng)域的成果進(jìn)行自動(dòng)分析,融入交互、認(rèn)知等人的因素來協(xié)調(diào)人與機(jī)器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結(jié)果[28]。佐治亞理工學(xué)院的John Stasko等人應(yīng)用Pirolli 等人提出的情報(bào)分析概念模型[29],建立了一個(gè)名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應(yīng)用于學(xué)術(shù)研究領(lǐng)域(涉及期刊和會(huì)議論文)以及研究網(wǎng)絡(luò)文章(如網(wǎng)絡(luò)新聞報(bào)道或?qū)n}博客)領(lǐng)域,也說明了將可視化分析技術(shù)應(yīng)用于情報(bào)研究的可行性。
將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,有眾多問題要解決。首先,在情報(bào)研究工具中,是以自動(dòng)化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動(dòng)化方法可以緊密結(jié)合的問題,第二類是應(yīng)用自動(dòng)化分析潛力有限的問題,第三類是應(yīng)用可視化分析潛力有限的問題。在研究這三類問題中交互程度對(duì)分析效率影響的基礎(chǔ)上,Daniel A. Keim等人指出,應(yīng)分析如何通過考慮用戶、任務(wù)和數(shù)據(jù)集特點(diǎn),來確定可視化和自動(dòng)分析方法的優(yōu)化組合,從而達(dá)到最佳的效果[31]??梢姡獙⒖梢暬治黾夹g(shù)應(yīng)用于情報(bào)研究領(lǐng)域,需要明確每類問題適用哪種組合方式。其次,情報(bào)研究領(lǐng)域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關(guān)系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過程的可視化展示等。第三,情報(bào)研究領(lǐng)域中的認(rèn)知過程是什么樣的,關(guān)注哪些問題,涉及哪些實(shí)體,在大數(shù)據(jù)環(huán)境下面臨哪些認(rèn)知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過技術(shù)來解決。此外,從現(xiàn)有的可視化分析技術(shù)來看,主要是將各個(gè)相關(guān)領(lǐng)域的技術(shù)以優(yōu)化的方式整合起來,但在將來會(huì)產(chǎn)生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會(huì)對(duì)情報(bào)研究帶來怎樣的影響等等,都是在情報(bào)研究中引入可視化分析技術(shù)需要關(guān)注的。
3.2 數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個(gè)知識(shí)發(fā)現(xiàn)的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它涵蓋了數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)的任務(wù),從數(shù)據(jù)特征化與區(qū)分到關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離群點(diǎn)分析、序列分析、趨勢(shì)和演變分析等,吸納了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、算法、高性能計(jì)算、可視化、數(shù)據(jù)庫和數(shù)據(jù)倉庫等領(lǐng)域的技術(shù),并可以用于任何類型的數(shù)據(jù),包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報(bào)研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實(shí)現(xiàn)過程,可以有效地解決情報(bào)研究的問題。例如,情報(bào)研究可以借鑒關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關(guān)聯(lián)規(guī)劃來分析研究主題的相關(guān)性,從科技論文與專利的關(guān)聯(lián)中發(fā)現(xiàn)科技的轉(zhuǎn)換關(guān)系等等。但從目前的情報(bào)研究成果看,許多還僅僅停留在簡(jiǎn)單的頻率統(tǒng)計(jì)、共詞計(jì)算層次上,在知識(shí)發(fā)現(xiàn)的過程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備,還有待于更為深入的發(fā)掘??梢?,數(shù)據(jù)挖掘能夠也應(yīng)該應(yīng)用于情報(bào)研究領(lǐng)域,這不僅是數(shù)據(jù)挖掘應(yīng)用擴(kuò)展的結(jié)果,也是情報(bào)研究自身發(fā)展的需求。此外,由于較少有專門針對(duì)情報(bào)研究領(lǐng)域研發(fā)的挖掘工具,現(xiàn)有情報(bào)分析通常借助于其他工具,不同工具的功能不同,這就導(dǎo)致常常同時(shí)使用好幾個(gè)分析工具,如在使用SPSS進(jìn)行聚類分析的同時(shí),還使用Ucinet分析社會(huì)網(wǎng)絡(luò)。這帶來的問題是,分析缺乏完整性,可能社會(huì)網(wǎng)絡(luò)和其他信息之間有關(guān)聯(lián),因?yàn)楣ぞ叩姆指钚?,就?dǎo)致潛在模式的丟失。由此,研發(fā)適用于情報(bào)研究的挖掘工具,是必要也是緊迫的,尤其是面對(duì)大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認(rèn)知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報(bào)分析任務(wù),分析哪些問題是可以使用數(shù)據(jù)挖掘技術(shù)來支持的,這類問題有哪些共同點(diǎn)、特殊性,能否對(duì)未來可能的情報(bào)分析問題進(jìn)行擴(kuò)展,哪些問題不適用于數(shù)據(jù)挖掘技術(shù),原因是什么等。其次,對(duì)于某類或某個(gè)分析問題,使用哪種數(shù)據(jù)挖掘技術(shù)或幾種技術(shù)的組合才能有效地解決,涉及的算法是否需要針對(duì)該問題進(jìn)行適應(yīng)性改造,如何評(píng)價(jià)挖掘的結(jié)果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢(shì),即構(gòu)建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢(shì)會(huì)對(duì)情報(bào)研究帶來哪些影響,如何在這一背景下,探索情報(bào)研究工具的新發(fā)展,尋找情報(bào)分析的新模式,值得我們關(guān)注。
3.3 語義處理
語義是關(guān)于意義(meaning)的科學(xué),語義技術(shù)提供了機(jī)器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施[34],整合了Web技術(shù)、人工智能、自然語言處理、信息抽取、數(shù)據(jù)庫技術(shù)、通信理論等技術(shù)方法,旨在讓計(jì)算機(jī)更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息[35]。核心語義技術(shù)包括語義標(biāo)注、知識(shí)抽取、檢索、建模、推理等[34]。語義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過對(duì)各類信息的語義處理,在獲取的富有語義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語義性支持了機(jī)器學(xué)習(xí)等技術(shù)的內(nèi)在功能[36]。
從現(xiàn)有的情報(bào)研究實(shí)踐和工具看,語義支持的缺失是一個(gè)普遍問題,這其中又可劃分為兩個(gè)層次。對(duì)于傳統(tǒng)的情報(bào)研究對(duì)象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內(nèi)容主題時(shí),需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時(shí),常常無法識(shí)別同義詞、近義詞等,需要人工干預(yù)。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結(jié)果上,缺乏有效的主題說明,自動(dòng)形成的主題標(biāo)簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當(dāng)面對(duì)大數(shù)據(jù)的沖擊,這種半自動(dòng)化的處理方法無疑是耗時(shí)又費(fèi)力的。此外,對(duì)于新型情報(bào)研究對(duì)象,如網(wǎng)絡(luò)新聞、博客等,已有如動(dòng)態(tài)監(jiān)測(cè)科研機(jī)構(gòu)等的系統(tǒng)工具,但總體來說還處于起步狀態(tài),目前較多的還是依賴人工篩選出所需信息,并整理成結(jié)構(gòu)化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應(yīng)用語義技術(shù)成為廣泛需求及必然。
將語義技術(shù)應(yīng)用于情報(bào)分析,需要關(guān)注以下幾方面的內(nèi)容。首先,分析情報(bào)研究任務(wù)的特點(diǎn),了解它的語義需求,是否存在規(guī)律性的準(zhǔn)則以供指導(dǎo)分析工具的研發(fā),這既需要原則性和方向性的準(zhǔn)則,也需要為針對(duì)多維度劃分出的各類任務(wù)給出詳細(xì)的規(guī)范,例如,對(duì)微博等社會(huì)化媒體,其中既存在高質(zhì)量的信息,也存在辱罵等低質(zhì)量的信息,區(qū)分這些信息并篩選出高質(zhì)量信息,就成為在分析社會(huì)化媒體中的語義任務(wù)之一。其次,語義資源建設(shè)問題,即在情報(bào)分析領(lǐng)域中,要實(shí)現(xiàn)語義層面上的理解,是否需要建設(shè)語義資源,如果不需要,哪些技術(shù)手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構(gòu)建,并且這種語義資源應(yīng)該如何構(gòu)建,如何使用才能有效地服務(wù)于情報(bào)研究工作。第三,信息抽取問題??萍夹畔⑸婕氨姸鄬W(xué)科的專業(yè)術(shù)語、各種科研機(jī)構(gòu)、組織等,如何使用語義技術(shù)將這些信息準(zhǔn)確地提取出來并加以標(biāo)注,尤其是針對(duì)不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術(shù),把不同來源的數(shù)據(jù)對(duì)象及其互動(dòng)關(guān)系進(jìn)行融合、重組,重新結(jié)合為一個(gè)新的具有更高效率和更好性能的具有語義關(guān)聯(lián)的有機(jī)整體,以便后續(xù)分析。
4 結(jié)語
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術(shù)為情報(bào)學(xué)領(lǐng)域中情報(bào)研究的理論和實(shí)踐帶來了機(jī)遇,也帶來了挑戰(zhàn)。機(jī)遇巨大,挑戰(zhàn)更大,需要我們對(duì)此有清醒的認(rèn)識(shí)。本文分析了大數(shù)據(jù)背景下情報(bào)研究的若干發(fā)展趨勢(shì),總結(jié)了情報(bào)研究中值得關(guān)注的技術(shù)問題,以期能為促進(jìn)情報(bào)研究的理論和實(shí)踐的發(fā)展添磚加瓦。
參考文獻(xiàn):
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL].?。?012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
關(guān)鍵詞 大數(shù)據(jù)時(shí)代 研究生培養(yǎng)質(zhì)量 反饋
中圖分類號(hào):G643 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/ki.kjdkz.2015.08.023
Postgraduate Education Quality Feedback Thoughts in Big Data Era
ZHAN Zhiyong, CHEN Mingchan, YI Xiaoxi, WANG Zhichao
(Harbin Engineering University, Harbin, Heilongjiang 150001)
Abstract: Work quality of postgraduate training feedback main body is relatively simple, strong sense of quality feedback, the feedback mechanism is not the system, outdated methods of gathering information and other issues, combined with the characteristics of the era of big data, for quality of postgraduate training feedback work thinking that the quality of graduate education the depth and breadth of feedback work will occur gradually change to adapt to the era of big data.
Keywords: big data era; postgraduate training quality; feedback
近年來,隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)、云計(jì)算、慕課、翻轉(zhuǎn)課堂、顛倒教室等信息化時(shí)代的新名詞如雨后春筍般不斷涌現(xiàn)出來,2013年被媒體稱為“大數(shù)據(jù)元年”,大數(shù)據(jù)時(shí)代已經(jīng)來臨。數(shù)據(jù)科學(xué)家舍恩伯格提出:“現(xiàn)有的認(rèn)知和體系是建立在稀缺數(shù)據(jù)上的成果,人們思維和工作方式必須發(fā)生變革以適應(yīng)大數(shù)據(jù)時(shí)代的到來”。①在新時(shí)代來臨之際,教育的各個(gè)環(huán)節(jié)面臨著重新洗牌的可能。
1 大數(shù)據(jù)時(shí)代
1.1 大數(shù)據(jù)
“大數(shù)據(jù)”概念源于20世紀(jì)90年代,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,大數(shù)據(jù)的內(nèi)涵由“無法用傳統(tǒng)方法進(jìn)行分析的數(shù)據(jù)集合”逐漸轉(zhuǎn)變?yōu)椤熬哂谐瑥?qiáng)決策力、洞察力和流程優(yōu)化能力,與先進(jìn)數(shù)據(jù)處理方式緊密相關(guān)的海量、多樣的信息資產(chǎn)”。②在一定條件下,可通過先進(jìn)計(jì)算機(jī)技術(shù),對(duì)此類信息資產(chǎn)進(jìn)行有目的的設(shè)計(jì)與分析,揭示隱藏其中的各類信息,為我們進(jìn)行研究、決策、管理提供可靠依據(jù)。
大數(shù)據(jù)具有以下特點(diǎn):(1)大量性。大數(shù)據(jù)的數(shù)據(jù)信息量巨大,有人稱其起始計(jì)量單位至少是P(1000個(gè)T)。(2)價(jià)值性。大數(shù)據(jù)具有很高價(jià)值,但其價(jià)值密度低,通過先進(jìn)技術(shù)在海量信息中提取高價(jià)值信息是大數(shù)據(jù)發(fā)展的關(guān)鍵。(3)繁雜性。大數(shù)據(jù)的類型多樣,包括文本資料、網(wǎng)絡(luò)日志、圖片、音頻、視頻、搜索信息等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。(4)高時(shí)效性。很多大數(shù)據(jù)信息要求處理速度快,高時(shí)效性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
1.2 大數(shù)據(jù)時(shí)代
大數(shù)據(jù)時(shí)代是指基于大數(shù)據(jù)的各類信息及其相關(guān)技術(shù)發(fā)展與創(chuàng)新的信息時(shí)代,社會(huì)各領(lǐng)域的決策逐步由傳統(tǒng)的經(jīng)驗(yàn)決策轉(zhuǎn)變?yōu)閿?shù)據(jù)決策、由注重因果關(guān)系轉(zhuǎn)變?yōu)橄嚓P(guān)關(guān)系。大數(shù)據(jù)時(shí)代開啟全新的時(shí)代,逐步影響著我們的生活、工作和思維,并且正在深刻改變傳統(tǒng)社會(huì)的商業(yè)、教育模式。
大數(shù)據(jù)時(shí)代具有以下特點(diǎn):③(1)信息生產(chǎn)泛在。信息的產(chǎn)生無時(shí)不有、無處不在,存在人類生產(chǎn)生活的各個(gè)領(lǐng)域,大數(shù)據(jù)的生產(chǎn)過程以及相應(yīng)挖掘技術(shù)呈指數(shù)增長。(2)信息民主公開。絕大多數(shù)的數(shù)據(jù)產(chǎn)生于公共開放的網(wǎng)絡(luò)環(huán)境中,所有人可以是信息數(shù)據(jù)的生產(chǎn)者也可以是消費(fèi)者。(3)反饋信息及時(shí)豐富。各類新型信息分析技術(shù)可對(duì)巨量數(shù)據(jù)及時(shí)分析判斷,為信息反饋工作提供了無盡可能。(4)信息具有相關(guān)性。數(shù)據(jù)信息在理論上能在各個(gè)維度無限使用與傳播,能在各種不同系統(tǒng)與應(yīng)用中傳遞,在不同的環(huán)境中與不同數(shù)據(jù)有機(jī)結(jié)合能表達(dá)完全不同的涵義。(5)引導(dǎo)社會(huì)發(fā)展無限可能。如果說工業(yè)化時(shí)代使得機(jī)械力迅速增長,拓展了人類體力邊界;那么大數(shù)據(jù)時(shí)代使得智力無限增長,讓人類社會(huì)與處理信息充滿了無盡的想象空間。大數(shù)據(jù)時(shí)代,人類社會(huì)的各個(gè)領(lǐng)域即將或正在發(fā)生變革,以“慕課”為代表的教育領(lǐng)域也正在經(jīng)歷一場(chǎng)革命。
2 研究生培養(yǎng)質(zhì)量反饋工作
研究生培養(yǎng)質(zhì)量是指在一定環(huán)境下研究生培養(yǎng)工作的各類特性總和,主要由培養(yǎng)過程質(zhì)量(如教師授課質(zhì)量、導(dǎo)師指導(dǎo)水平等)和產(chǎn)出成果質(zhì)量即教育產(chǎn)品或服務(wù)的質(zhì)量(如研究生科研成果質(zhì)量、創(chuàng)新能力以及服務(wù)社會(huì)的質(zhì)量等)有機(jī)組成。④研究生培養(yǎng)質(zhì)量反饋機(jī)制指對(duì)研究生培養(yǎng)工作起調(diào)節(jié)指導(dǎo)作用的機(jī)制,即研究生培養(yǎng)“輸出”的研究生培養(yǎng)質(zhì)量“反作用”于研究生培養(yǎng)工作各環(huán)節(jié),指導(dǎo)研究生培養(yǎng)工作的過程。
我國研究生培養(yǎng)單位歷來重視研究生培養(yǎng)質(zhì)量反饋工作,各個(gè)培養(yǎng)單位做法不盡相同,或成立研究生培養(yǎng)質(zhì)量管理部門管理或邀請(qǐng)校外專業(yè)評(píng)估機(jī)構(gòu)或相應(yīng)管理部門開展以座談、問卷調(diào)查等方式的基于樣本數(shù)據(jù)形式的質(zhì)量評(píng)價(jià)工作。目前,研究生培養(yǎng)質(zhì)量反饋工作普遍存在以下問題。
(1)反饋主體相對(duì)單一。一方面,在研究生培養(yǎng)質(zhì)量反饋工作中,研究生培養(yǎng)單位是質(zhì)量反饋工作的實(shí)施者,政府、行業(yè)機(jī)構(gòu)或者專業(yè)的調(diào)查機(jī)構(gòu)參與較少。另一方面,在研究生培養(yǎng)單位中,實(shí)施培養(yǎng)質(zhì)量反饋工作的部門主要是就業(yè)和研究生管理部門,而這些部門的職能很多,難以投入大量精力從事培養(yǎng)質(zhì)量反饋工作。缺少社會(huì)參與、培養(yǎng)單位精力有限,難免出現(xiàn)反饋工作不科學(xué),反饋信息不全面、不準(zhǔn)確的現(xiàn)象。
(2)質(zhì)量反饋意識(shí)不強(qiáng)。多數(shù)研究生培養(yǎng)單位的工作重心在研究生的過程管理以及就業(yè)管理方面,注重研究生的培養(yǎng)過程質(zhì)量和產(chǎn)出成果質(zhì)量,對(duì)培養(yǎng)質(zhì)量反饋工作的重要性認(rèn)識(shí)不足,未能系統(tǒng)全面思考研究生培養(yǎng)質(zhì)量反饋工作,常常造成研究生培養(yǎng)質(zhì)量反饋工作流于形式,導(dǎo)致反饋信息不夠全面及時(shí),無法有效指導(dǎo)研究生培養(yǎng)管理工作,研究生培養(yǎng)工作與社會(huì)需求脫節(jié)。
(3)反饋機(jī)制不系統(tǒng)。目前,各個(gè)研究生培養(yǎng)單位在研究生培養(yǎng)的日常工作中,對(duì)研究生培養(yǎng)質(zhì)量反饋工作進(jìn)行了許多有益嘗試,如采取研究生評(píng)教、專家評(píng)教、座談、問卷調(diào)查等方式來改進(jìn)管理工作,但這些工作多數(shù)停留在“頭疼醫(yī)頭腳疼醫(yī)腳”的層面,各項(xiàng)工作相對(duì)獨(dú)立,反饋結(jié)果難以有效利用,效率低下,反饋機(jī)制不成體系。往往是就業(yè)部門的反饋工作僅限就業(yè)部門使用,未能將反饋信息及時(shí)應(yīng)用到研究生培養(yǎng)及其他相關(guān)部門,各部門間的質(zhì)量反饋工作相互脫節(jié)。
(4)信息采集方式落伍?,F(xiàn)行的信息采集方式一般為調(diào)研,是培養(yǎng)質(zhì)量反饋工作的重要內(nèi)容,現(xiàn)行調(diào)研工作一般采用問卷調(diào)查、座談會(huì)以及電話調(diào)研等傳統(tǒng)方式進(jìn)行,但傳統(tǒng)調(diào)研形式存在以下局限性:一是被調(diào)研者當(dāng)時(shí)狀態(tài)影響調(diào)研結(jié)果,不同環(huán)境下被調(diào)研者的狀態(tài)也有不同,造成調(diào)研結(jié)果與實(shí)際情況存在誤差;二是調(diào)研群體代表性不強(qiáng),傳統(tǒng)調(diào)研方法選取一定數(shù)量樣本進(jìn)行調(diào)研,其必然無法代表全體;三是信息調(diào)研工作量較大,信息采集費(fèi)時(shí)費(fèi)力,同時(shí)要對(duì)采集到的信息進(jìn)行分析研究;四是信息采集量不全面,調(diào)查問卷、座談等調(diào)研不能設(shè)計(jì)太多問題,許多被忽視的信息可能對(duì)研究生培養(yǎng)質(zhì)量有重大影響;五是傳統(tǒng)調(diào)研工作過分強(qiáng)調(diào)因果關(guān)系,不注重相關(guān)關(guān)系。
研究生培養(yǎng)質(zhì)量反饋工作與數(shù)據(jù)緊密相關(guān),而大數(shù)據(jù)時(shí)代則為研究生培養(yǎng)質(zhì)量反饋工作的研究與發(fā)展提供了無限可能。
3 大數(shù)據(jù)時(shí)代下研究生培養(yǎng)質(zhì)量反饋工作的變革方向
大數(shù)據(jù)時(shí)代的特點(diǎn)決定了現(xiàn)階段研究生培養(yǎng)質(zhì)量反饋工作存在的問題將逐步解決,同時(shí),研究生培養(yǎng)質(zhì)量反饋工作的深度與廣度必然將逐步發(fā)生相應(yīng)的轉(zhuǎn)變以適應(yīng)形勢(shì)發(fā)展。
(1)反饋信息數(shù)據(jù)采集方式不斷拓展。傳統(tǒng)研究生培養(yǎng)質(zhì)量反饋機(jī)制相關(guān)數(shù)據(jù)一般來源于調(diào)查問卷、座談會(huì)、訪談以及相關(guān)信息統(tǒng)計(jì)等經(jīng)典調(diào)研手段,大數(shù)據(jù)時(shí)代的數(shù)據(jù)采集工作不僅可以使用傳統(tǒng)調(diào)研手段獲取,絕大多數(shù)是從研究生的日常學(xué)習(xí)、生活信息以及身體信息中獲取,將來有可能出現(xiàn)從研究生幼兒學(xué)會(huì)說話的時(shí)間來判斷研究生的創(chuàng)造潛力,也有可能從研究生中學(xué)時(shí)期的習(xí)慣、愛好來判斷其科研潛力。同時(shí),以往研究生培養(yǎng)工作尤其是課程教學(xué)工作中,由于缺乏相應(yīng)數(shù)據(jù)支撐特別是對(duì)研究生數(shù)據(jù)的全面、深入分析,研究生培養(yǎng)工作往往形成整齊劃一的“工業(yè)流水線”,培養(yǎng)的是“標(biāo)準(zhǔn)件”,研究生的個(gè)性差異和創(chuàng)新能力培養(yǎng)得不到充分體現(xiàn),而在大數(shù)據(jù)時(shí)代,研究生的所有學(xué)習(xí)行為都被網(wǎng)絡(luò)“神不知鬼不覺”地采集下來,研究生培養(yǎng)單位依據(jù)采集的數(shù)據(jù)對(duì)培養(yǎng)過程實(shí)時(shí)進(jìn)行動(dòng)態(tài)調(diào)整,針對(duì)每位研究生的不同特點(diǎn)實(shí)施個(gè)性化培養(yǎng)。⑤
(2)數(shù)據(jù)分析統(tǒng)計(jì)方法不斷改進(jìn)。一般質(zhì)量反饋工作常采用傳統(tǒng)統(tǒng)計(jì)方法通過普通計(jì)算機(jī)或手工方式來處理結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)時(shí)代的數(shù)據(jù)可以是半結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù),其統(tǒng)計(jì)分析以相關(guān)關(guān)系為基礎(chǔ)展開,數(shù)據(jù)分析統(tǒng)計(jì)方法也隨著現(xiàn)代計(jì)算機(jī)技術(shù)的發(fā)展而不斷改進(jìn)。⑥
(3)研究生培養(yǎng)質(zhì)量反饋機(jī)制逐步深化。隨著大數(shù)據(jù)時(shí)代的來臨,研究生培養(yǎng)管理過程與現(xiàn)代計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的聯(lián)系愈加緊密,不斷發(fā)生變革,如研究生課程教學(xué)的慕課沖擊、研究生學(xué)位論文的要求、研究生學(xué)位論文盲審系統(tǒng)的開發(fā)使用等,研究生培養(yǎng)管理過程的“在線化”變革必然導(dǎo)致相應(yīng)的研究生培養(yǎng)反饋機(jī)制的逐步深化。同時(shí),對(duì)于實(shí)施培養(yǎng)質(zhì)量反饋工作的管理者來講,應(yīng)提高個(gè)人數(shù)據(jù)素養(yǎng),努力學(xué)習(xí)數(shù)據(jù)分析的基本原理和方法,發(fā)現(xiàn)并搜集反映研究生培養(yǎng)各個(gè)環(huán)節(jié)運(yùn)行狀態(tài)和存在問題的狀態(tài)數(shù)據(jù),加強(qiáng)其基于數(shù)據(jù)來進(jìn)行決策和采取相應(yīng)措施來保證研究生培養(yǎng)質(zhì)量的自主性。
(4)教育第三方全面介入。大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘分析技術(shù)飛速發(fā)展,研究生培養(yǎng)單位已沒有能力依靠自身實(shí)力對(duì)研究生培養(yǎng)質(zhì)量的大量相關(guān)數(shù)據(jù)進(jìn)行深度挖掘。而作為數(shù)據(jù)挖掘分析見長的第三方,如專業(yè)數(shù)據(jù)挖掘公司、專業(yè)研究生培養(yǎng)質(zhì)量評(píng)估機(jī)構(gòu)甚至是學(xué)校計(jì)算機(jī)網(wǎng)絡(luò)中心必將不斷開發(fā)技術(shù)、拓展業(yè)務(wù),與研究生培養(yǎng)單位圍繞研究生培養(yǎng)質(zhì)量反饋工作開展全面合作,擔(dān)負(fù)研究生培養(yǎng)質(zhì)量數(shù)據(jù)的挖掘與分析工作,為研究生培養(yǎng)質(zhì)量反饋工作提供技術(shù)支持。
(5)研究生培養(yǎng)工作各單元逐步融合。對(duì)于國家的教育系統(tǒng)來講,研究生教育屬于頂層教育,前期各層次的教育質(zhì)量無不對(duì)研究生培養(yǎng)質(zhì)量產(chǎn)生重要的影響,大數(shù)據(jù)時(shí)代將使得研究生培養(yǎng)質(zhì)量反饋工作不再單純局限于研究生培養(yǎng)階段,應(yīng)將整個(gè)教育過程如幼兒教育、小學(xué)、初中、高中以及大學(xué)等個(gè)層面的教育納入其中,將其作為一個(gè)系統(tǒng)來通盤謀劃。對(duì)于研究生培養(yǎng)單位來講,研究生培養(yǎng)質(zhì)量反饋工作不應(yīng)局限在研究生管理部門,應(yīng)結(jié)合研究生的招生、培養(yǎng)、就業(yè)乃至校友溝通等各個(gè)層面,加強(qiáng)研究生各層面研究生培養(yǎng)數(shù)據(jù)資源的整合是大數(shù)據(jù)時(shí)代研究生培養(yǎng)單位在研究生培養(yǎng)質(zhì)量反饋工作的重點(diǎn)。
注釋
① 舍恩伯格.大數(shù)據(jù)時(shí)代[M].袁杰,譯.浙江人民出版社,2012.
② 楊旭,湯海京等.數(shù)據(jù)科學(xué)導(dǎo)論[M].北京理工大學(xué)出版社,2014.
③ 鄭毅.大數(shù)據(jù)時(shí)代的特點(diǎn)[J].新金融評(píng)論,2012(1).
④ 占志勇,侯彥芬等.基于系統(tǒng)論的研究生課程教學(xué)機(jī)制探討[J].黑龍江高等教育研究,2013(9).
(1武漢輕工大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 湖北 武漢 430023 2重慶交通大學(xué) 重慶 400074)
摘 要:針對(duì)橋梁健康監(jiān)測(cè)獲取海量數(shù)據(jù)卻無法實(shí)時(shí)精確地監(jiān)測(cè)評(píng)估橋梁結(jié)構(gòu)狀態(tài)的困難性,本立足數(shù)據(jù)挖掘算法理論,在Hadoop平臺(tái)下運(yùn)用KNN文本分類算法對(duì)橋梁結(jié)構(gòu)縮尺模型加速度數(shù)據(jù)進(jìn)行分類分析,采用分布式文件系統(tǒng)HDFS對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行存儲(chǔ)和訪問,應(yīng)用Map/Reduce并行計(jì)算框架對(duì)橋梁各環(huán)境參數(shù)進(jìn)行計(jì)算,并據(jù)此判斷監(jiān)測(cè)點(diǎn)屬于何種工況,實(shí)現(xiàn)了橋梁監(jiān)測(cè)海量數(shù)據(jù)的存儲(chǔ)、訪問、分類以及橋梁結(jié)構(gòu)健康狀況的判別,通過實(shí)驗(yàn)室縮尺模型工程實(shí)例驗(yàn)證了理論的有效性。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的串行分類算法相比,基于Hadoop平臺(tái)的并行分類算法具有較好的擴(kuò)展性,并取得了基于大數(shù)據(jù)理論的橋梁監(jiān)測(cè)技術(shù)研究的革新。
關(guān)鍵詞 :Hadoop平臺(tái);大數(shù)據(jù);KNN文本分類算法;HDFS
中圖分類號(hào):U445 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.issn.1665-2272.2015.05.036
0 引言
隨著橋梁事業(yè)的蓬勃發(fā)展,多數(shù)橋梁上建立了健康監(jiān)測(cè)系統(tǒng),可以通過傳感器獲取各種環(huán)境下的反映結(jié)構(gòu)響應(yīng)行為的信息,期間從各個(gè)監(jiān)測(cè)點(diǎn)收集的數(shù)據(jù)量可達(dá)到GB級(jí),而面對(duì)海量數(shù)據(jù)卻不能及時(shí)得到反映橋梁結(jié)構(gòu)狀態(tài)的有效信息,橋梁結(jié)構(gòu)監(jiān)測(cè)系統(tǒng)的分析與處理不能及時(shí)完成,大數(shù)據(jù)概念和大數(shù)據(jù)技術(shù)的適時(shí)出現(xiàn)提供了一個(gè)分析處理橋梁監(jiān)測(cè)歷史數(shù)據(jù)的途徑。Hadoop作為一個(gè)開源的云計(jì)算平臺(tái)提供了分布式文件系統(tǒng)HDFS和并行編程模型Map/Reduce,以其高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在大量廉價(jià)的硬件上,人們可以充分利用集群的存儲(chǔ)和高速運(yùn)算能力,完成海量數(shù)據(jù)的處理,其中包括海量文本數(shù)據(jù)的分類問題。分類算法是一種重要的數(shù)據(jù)挖掘算法,該模型通過對(duì)海量樣本數(shù)據(jù)進(jìn)行訓(xùn)練能把未知類別的樣本映射到給定類別中的某一個(gè),以此判別橋梁狀態(tài)所屬類別,K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓(xùn)練集的文本分類算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。
云計(jì)算提供的海量數(shù)據(jù)存儲(chǔ)和分布式計(jì)算能力在數(shù)據(jù)挖掘以及相關(guān)領(lǐng)域中是一種非常受青睞并且有效的方法,結(jié)合大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘算法—KNN文本分類算法進(jìn)行橋梁健康監(jiān)測(cè),在Hadoop平臺(tái)下運(yùn)用KNN文本分類算法對(duì)橋梁結(jié)構(gòu)縮尺模型加速度數(shù)據(jù)進(jìn)行分類分析,采用分布式文件系統(tǒng)HDFS對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行存儲(chǔ)和訪問,應(yīng)用Map/Reduce并行計(jì)算框架對(duì)橋梁各環(huán)境參數(shù)進(jìn)行計(jì)算,使用分布式文件系統(tǒng)Hadoop Distributed Filesystem來存儲(chǔ)原始文檔(已分類的數(shù)據(jù))和待分類文檔(監(jiān)測(cè)數(shù)據(jù)),將文件讀寫和分布式并行計(jì)算框架MapReduce相結(jié)合實(shí)現(xiàn)KNN文本分類,將監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù)分到已有的工況中,并據(jù)此判斷監(jiān)測(cè)點(diǎn)屬于何種工況,以便采取相關(guān)措施對(duì)橋梁進(jìn)行維護(hù),以此來探索基于大數(shù)據(jù)技術(shù)的橋梁監(jiān)測(cè)分析處理的方法。
1 大數(shù)據(jù)及其應(yīng)用平臺(tái)
“大數(shù)據(jù)”是一個(gè)體量很大,數(shù)據(jù)類別多樣的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理,主要具有數(shù)據(jù)體量巨大;①數(shù)據(jù)類別大; ②數(shù)據(jù)來自多種數(shù)據(jù)源, 囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù); ③數(shù)據(jù)處理速度快,在數(shù)據(jù)量非常龐大的情況下, 也能夠做到數(shù)據(jù)的實(shí)時(shí)處理;④數(shù)據(jù)價(jià)值密度低,價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”并通過對(duì)海量數(shù)據(jù)進(jìn)行分析獲得有價(jià)值的數(shù)據(jù)成為目前大數(shù)據(jù)背景下亟待解決的難題。
Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)及分布式處理的軟件框架,主要用來處理大量數(shù)據(jù),它實(shí)現(xiàn)了MapReduce一樣的編程模式和框架,能在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)并進(jìn)行分布式計(jì)算。處理的海量數(shù)據(jù)能達(dá)到PB級(jí)別(1PB=1024TB),并可以讓應(yīng)用程序在上千個(gè)節(jié)點(diǎn)中進(jìn)行分布式處理。以Hadoop分布式文件系統(tǒng)(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的開源實(shí)現(xiàn))為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序,所以用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理。MapReduce 是大規(guī)模數(shù)據(jù)(TB級(jí))計(jì)算的利器,Map和Reduce是它的主要思想,來源于函數(shù)式編程語言,Map負(fù)責(zé)將數(shù)據(jù)打散,Reduce負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行聚集。它的流程如圖1所示。
2 K近鄰文本分類算法
K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓(xùn)練集的文本分類算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:計(jì)算一個(gè)點(diǎn)A與其他所有點(diǎn)之間的距離,取出與該點(diǎn)最近的k個(gè)點(diǎn),然后統(tǒng)計(jì)這k個(gè)點(diǎn)里面所屬分類比例最大的,則點(diǎn)A屬于該分類。根據(jù)加權(quán)距離和判斷測(cè)試樣本所屬的類別的具體過程如下:
假設(shè)給定有m個(gè)訓(xùn)練樣本集D,每個(gè)樣本具有n個(gè)屬性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第幾個(gè)訓(xùn)練樣本。
(1)設(shè)定k的值,k最近鄰的數(shù)量;
(2)把測(cè)試樣本表示成測(cè)試文本向量X(ω1,ω2,…,ωn);
(3)根據(jù)下式計(jì)算測(cè)試樣本與訓(xùn)練集中所有樣本的相似度:
公式(1)中di為訓(xùn)練樣本,X為測(cè)試樣本。
(4)對(duì)根據(jù)步驟(3)計(jì)算出的m個(gè)相似度進(jìn)行排序,選出k個(gè)最大值,作為X的近鄰;
(5)根據(jù)公式(2)收集這k個(gè)最近鄰的類別,
公式(2)中X表示測(cè)試樣本,sim(X,di)為相似度計(jì)算公式,y(di,Cj)為類別屬性函數(shù),即如果di屬于類別Cj,那么函數(shù)值為1,否則為0。
(6)對(duì)步驟(5)計(jì)算出的值排序,將測(cè)試樣本分到值最大的類別中去。
3 工程實(shí)例
3.1 實(shí)例模型
本次工程實(shí)例根據(jù)云南黑沖溝特大橋全橋作為原型建立,使用的數(shù)據(jù)是由橋梁實(shí)驗(yàn)室的縮尺模型上建立的監(jiān)測(cè)系統(tǒng)收集到的,原型立面圖(見圖2)。
試驗(yàn)獲得以下三種工況的加速度時(shí)間序列:工況一,跨中無裂縫,模擬無損傷情況;工況二,跨中具有0.1mm裂縫,模擬有損傷情況;工況三,跨中有0.12mm+0.03mm兩條裂縫情況,模擬損傷加劇情況。
根據(jù)本次動(dòng)力學(xué)試驗(yàn)的研究目的,確定試驗(yàn)的主要測(cè)試內(nèi)容為模型結(jié)構(gòu)關(guān)鍵部位加速度,該測(cè)試項(xiàng)目可采用壓電加速度傳感器進(jìn)行量測(cè),采用重錘敲擊的方式,給模型提供激勵(lì),來模擬完成脈動(dòng)試驗(yàn),采樣頻率為18.8Hz,在激振器開始激振5s后進(jìn)行采樣,采樣時(shí)間為50s,獲取各個(gè)測(cè)點(diǎn)的加速度數(shù)據(jù),特征選擇方法采用文檔頻率,k取30。
3.2 文檔預(yù)處理
本次工程實(shí)例的樣本數(shù)據(jù)是通過縮尺模型重錘敲擊獲取的加速度數(shù)據(jù),監(jiān)測(cè)系統(tǒng)收集了不同工況下的監(jiān)測(cè)數(shù)據(jù),對(duì)損傷前即健康狀況,損傷后0.1mm裂縫和損傷加劇0.12mm+0.03mm裂縫進(jìn)行樣本數(shù)據(jù)訓(xùn)練分析,獲取不同的損傷情況下各個(gè)監(jiān)測(cè)點(diǎn)的分類情況,得出每個(gè)監(jiān)測(cè)點(diǎn)的損傷情況,實(shí)驗(yàn)選定0.12mm+0.03mm兩條裂縫情況下采用小車激勵(lì)的方式獲取該工況下的加速度時(shí)程信號(hào)作為待分類數(shù)據(jù),通過對(duì)監(jiān)測(cè)數(shù)據(jù)的分類,判定其是否存在損傷。
待分類文檔節(jié)點(diǎn)中,WCDMapper繼承hadoop平臺(tái)的Mapper類,并重寫map方法對(duì)待分類文檔進(jìn)行讀取,并統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù);WCDReducer繼承hadoop平臺(tái)的Reducer類,并重寫reduce方法對(duì)待分類數(shù)據(jù)進(jìn)行寫操作。WCDMapper類的map方法和WCDReducer類的reduce方法分別如下,處理后的待分類文檔如圖3所示,前面一個(gè)是數(shù)據(jù),后一個(gè)數(shù)字是該數(shù)據(jù)出現(xiàn)在待分類文檔的次數(shù)。后面的原始文檔經(jīng)過預(yù)處理后也與此相似。
由于MapReduce只輸出一個(gè)結(jié)果,而每個(gè)原始文檔都采用MapReduce處理會(huì)增加代碼量和內(nèi)存的消耗,所以本文采用Hadoop平臺(tái)提供的FileSystem、FSDataInput-Stream、FSDataOutputStream類來對(duì)原始文檔進(jìn)行相應(yīng)的讀寫,最后輸出到文檔中的內(nèi)容與圖4.2相似,而文件讀取方式不同。最后需要將它們合并到一個(gè)文檔中,采用Hadoop平臺(tái)提供的FileSystem、FSDataInputStream、FSDataOutputStream類來對(duì)文件進(jìn)行讀寫。輸出的matrix文件如圖4.3所示,每一行的第一個(gè)數(shù)為監(jiān)測(cè)的數(shù)據(jù),后面的數(shù)字為該數(shù)據(jù)在每個(gè)文檔中出現(xiàn)的次數(shù)。
3.3 特征選擇
根據(jù)上一步得到的文件,計(jì)算每個(gè)數(shù)據(jù)的增益值,對(duì)每一個(gè)數(shù)據(jù)的信息增益進(jìn)行從大到小排序,最后把增益值最大的個(gè)特征項(xiàng)輸出到文件。本次設(shè)計(jì)中選取的為100,輸出到文件的內(nèi)容如圖5所示,每一行只顯示1個(gè)數(shù)據(jù)。
3.4 文檔向量化
原始文檔和待分類文檔都需要向量化,原始文檔向量化之后需要?dú)w一,而待分類文檔向量化之后不需要?dú)w一,所以給他們分別提供了一個(gè)向量化的類。從文件中讀入特征項(xiàng)。參數(shù)文件存儲(chǔ)經(jīng)過特征選擇后剩下的特征項(xiàng)。
原始文檔經(jīng)過向量化之后,輸出到每個(gè)文檔的內(nèi)容不一樣,圖6是文檔名為0向量化后的部分內(nèi)容。待分類文檔的向量化后不需要?dú)w一化,輸出到文檔的內(nèi)容如圖7所示。
3.5 分類
此步驟計(jì)算原始文檔和待分類文檔向量兩個(gè)向量的夾角的余弦。最后的絕對(duì)值越大,說明夾角越小,越相似,距離越近。在訓(xùn)練文本集中選出與新文本最相似的個(gè)文本,這個(gè)文檔中屬于哪一類的文檔最多,則待分類的文檔就屬于哪一類。map( )方法獲取待分類文檔的向量,reduce( )方法輸出結(jié)果到文件中。分類的結(jié)果表示待分類的文檔屬于哪一類,也即是該監(jiān)測(cè)數(shù)據(jù)來源的監(jiān)測(cè)點(diǎn)的損壞情況屬于哪一類。本次實(shí)驗(yàn)選定0.12mm+0.03mm兩條裂縫情況,采用小車激勵(lì)的方式獲取該工況下的加速度時(shí)程信號(hào),數(shù)據(jù)分類結(jié)果如圖8所示,該結(jié)果顯示待分類的文檔屬于損傷0.1mm這一類。
3.6 結(jié)果分析
在上一步中已經(jīng)獲得了待分類文檔分類的結(jié)果,此分類結(jié)果的數(shù)據(jù)只是監(jiān)測(cè)數(shù)據(jù)的一部分,而且在分類中由于KNN分類的值選取沒有較好的方法以及其他影響因素,獲得的結(jié)果可能有誤。因此將監(jiān)測(cè)點(diǎn)傳來的數(shù)據(jù)拆分到若干個(gè)帶分類文檔中,同時(shí)對(duì)這些文檔進(jìn)行分類。分類完成之后再對(duì)分類結(jié)果進(jìn)行整合分析,獲得最終的有效的結(jié)果即該監(jiān)測(cè)點(diǎn)準(zhǔn)確的損傷情況。Map( )方法讀取各個(gè)待分類文檔分類的結(jié)果,并對(duì)結(jié)果匯總加以分析,獲得監(jiān)測(cè)點(diǎn)數(shù)據(jù)最后的分類結(jié)果,reduce( )方法將最后的有效結(jié)果寫入文件。最后的輸出結(jié)果如圖9所示。
綜上所述,基于MapReduce編程模型的橋梁監(jiān)測(cè)信息分類技術(shù)可以有效判別橋梁狀態(tài)所屬類別,由于HDFS將大數(shù)據(jù)分割成了若干個(gè)blocks存儲(chǔ)在不同的節(jié)點(diǎn)上,這樣KNN分類算法由一個(gè)主機(jī)的運(yùn)算分散到多個(gè)節(jié)點(diǎn)并行處理,每個(gè)節(jié)點(diǎn)完成T個(gè)任務(wù),時(shí)間復(fù)雜度為O(ns)/T,其中n為訓(xùn)練樣本的總數(shù),s為特征屬性數(shù)模,應(yīng)用HADOOP平臺(tái)的分布式處理框架大大降低了算法的時(shí)間復(fù)雜度。
4 結(jié)論
本文針對(duì)橋梁健康監(jiān)測(cè)系統(tǒng)歷史數(shù)據(jù)無法有效利用,無法通過海量數(shù)據(jù)實(shí)時(shí)精確地監(jiān)測(cè)評(píng)估橋梁結(jié)構(gòu)狀態(tài)的困難性,基于數(shù)據(jù)挖掘算法理論,提出了基于大數(shù)據(jù)的橋梁健康監(jiān)測(cè)信息分類研究技術(shù)的革新,在Hadoop平臺(tái)下運(yùn)用KNN文本分類算法對(duì)橋梁結(jié)構(gòu)縮尺模型加速度數(shù)據(jù)進(jìn)行分類分析,采用分布式文件系統(tǒng)HDFS對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行存儲(chǔ)和訪問,應(yīng)用Map/Reduce并行計(jì)算框架對(duì)橋梁各環(huán)境參數(shù)進(jìn)行計(jì)算,將文件讀寫和分布式并行計(jì)算框架MapReduce相結(jié)合實(shí)現(xiàn)KNN文本分類,將監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù)分到已有的工況中,并據(jù)此判斷監(jiān)測(cè)點(diǎn)屬于何種工況,實(shí)現(xiàn)了橋梁監(jiān)測(cè)海量數(shù)據(jù)的存儲(chǔ)、訪問、分類以及橋梁結(jié)構(gòu)健康狀況的判別,Hadoop平臺(tái)下的KNN算法實(shí)現(xiàn)了分布式并行計(jì)算,提高了算法運(yùn)行時(shí)間效率,降低了時(shí)間復(fù)雜度,通過實(shí)驗(yàn)室縮尺模型實(shí)驗(yàn)驗(yàn)證了方法的有效性。
存在的不足之處是值的選擇,值選擇過小,得到的近鄰數(shù)過少,會(huì)降低分類精度,同時(shí)也會(huì)放大噪聲數(shù)據(jù)的干擾;而如果值選擇過大,并且待分類樣本屬于訓(xùn)練集中包含數(shù)據(jù)數(shù)較少的類,那么在選擇個(gè)近鄰的時(shí)候,實(shí)際上并不相似的數(shù)據(jù)亦被包含進(jìn)來,造成噪聲增加而導(dǎo)致分類效果的降低。如何選取恰當(dāng)?shù)闹狄渤蔀镵NN的研究熱點(diǎn),尚需進(jìn)一步改進(jìn)。
參考文獻(xiàn)
1 黃荷.大數(shù)據(jù)時(shí)代降臨[J]. 黨政論壇,2012(11)
2 金鵬. 基于Hadoop的SINN文本分類算法的設(shè)計(jì)與實(shí)現(xiàn)[D]. 武漢:華中師范大學(xué)碩士學(xué)位論文,2013
3 李登榮.文本分類及其相關(guān)技術(shù)研究[D].復(fù)旦大學(xué)博士論文,2005
4 Samovsky M, Kacur T. Cloud-based classification of text documents using the Gridgain platform[C]. Applied Computational Intelligence and Informatics,2012(7)
5 Caruana G, Li M, Qi M. A MapReduce based parallel SVM for large scale spam filtering[C]. Fuzzy Systems and Knowledge Discovery, 2011 (4)
6 Viktor Mayer-Sch nberger.Big Data[M].杭州:浙江人民出版社,2013(1)
7 (英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.大數(shù)據(jù)時(shí)代[M]. 北京:人民出版社,2012
8 向小軍,高陽,商琳,等.基于Hadoop平臺(tái)的海量文本分類的并行化[J].計(jì)算機(jī)科學(xué),2011(10)
9 (美)Tom White著. 周敏奇,王曉玲,金澈清,錢衛(wèi)寧譯. Hadoop權(quán)威指南(第2版) [M]. 北京:清華大學(xué)出版社,2011
10 萬川梅,謝正蘭. 深入云計(jì)算:Hadoop應(yīng)用開發(fā)實(shí)戰(zhàn)詳解[M]. 北京:中國鐵道出版社,2013
11 張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計(jì)算機(jī)工程,2005(6)
關(guān)鍵詞:大數(shù)據(jù);高校應(yīng)用;發(fā)展方向
1大數(shù)據(jù)概要
近年來,當(dāng)人們還對(duì)物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等熱詞感覺新穎的時(shí)候,大數(shù)據(jù)(BigData)也橫空出世并呈燎原之勢(shì)。大數(shù)據(jù)是一個(gè)體量大、數(shù)據(jù)類別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集不能用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其進(jìn)行處理。如果說傳統(tǒng)數(shù)據(jù)庫時(shí)代的數(shù)據(jù)管理方式是“池塘捕魚”,那么大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式則是“大海捕魚”,大數(shù)據(jù)管理方式,不僅在數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)對(duì)象處理工具上和傳統(tǒng)數(shù)據(jù)模式有著明顯的差異,它還能讓我們以一種從未涉足過的方式,對(duì)巨量數(shù)據(jù)進(jìn)行分析,從而能幫助我們獲得更有價(jià)值的產(chǎn)品和服務(wù),最終形成影響社會(huì)發(fā)展的變革之力。
2高校管理中的大數(shù)據(jù)初步應(yīng)用
據(jù)教育部統(tǒng)計(jì)截至2013年,全國共有普通本科院校879所、普通高職(專科)院校1266所、國家批準(zhǔn)設(shè)立的獨(dú)立學(xué)院287所(不含軍事院校和港澳臺(tái)院校),每所高校學(xué)生人數(shù)都破萬,每名學(xué)生都存在學(xué)籍、選課、考試、考勤、學(xué)費(fèi)、學(xué)分等各種數(shù)據(jù);對(duì)于教師有教師基本信息、職稱、論文、課件、考題等數(shù)據(jù)。故高校信息系統(tǒng)是數(shù)據(jù)生產(chǎn)大戶,長期運(yùn)營積累下來的數(shù)據(jù)就是高校中的大數(shù)據(jù),合理利用這些數(shù)據(jù),不僅可以幫助教學(xué)管理,減輕教學(xué)工作中的事務(wù)性工作,更能提高招生推廣活動(dòng),改變教學(xué)領(lǐng)域的授課和學(xué)習(xí)模式,不論高校自身,還是社會(huì)各界,都能從高校中的大數(shù)據(jù)應(yīng)用受獲益匪淺。
2.1個(gè)性化學(xué)習(xí)
從孔孟時(shí)代開始,我們就提出了因材施教,個(gè)性化學(xué)習(xí)也是教育所追求的最高目標(biāo)。要實(shí)現(xiàn)這目標(biāo),首先要了解受教育對(duì)象的長處、短處,各種特點(diǎn)。但目前高校擴(kuò)招,一個(gè)教師教多個(gè)教學(xué)班,很難去了解每一個(gè)學(xué)生的特點(diǎn)實(shí)施教學(xué),將大數(shù)據(jù)挖掘技術(shù)與日常教學(xué)相結(jié)合,通過可視化的在線學(xué)習(xí)平臺(tái),學(xué)生自主選擇自己感興趣的課程學(xué)習(xí),就能夠?qū)崿F(xiàn)滿足個(gè)性化學(xué)習(xí)的功能。學(xué)生在自主學(xué)習(xí)平臺(tái)上的學(xué)習(xí)資料,交流互動(dòng)信息,每個(gè)知識(shí)點(diǎn)不同的學(xué)習(xí)進(jìn)度等,通過大數(shù)據(jù)技術(shù)對(duì)這些個(gè)性化信息的分析拓展,不僅能幫助學(xué)生完善知識(shí)結(jié)構(gòu),更能加快學(xué)生對(duì)自身興趣愛好的挖掘和特長的培養(yǎng),在整個(gè)教育信息化的大背景下,只有基于大數(shù)據(jù)技術(shù)才能更好地實(shí)現(xiàn)這種學(xué)習(xí)方式,充分利用大數(shù)據(jù)技術(shù),可以為各地高校帶來更具有針對(duì)性的教育方式,能夠?qū)崿F(xiàn)盡可能早的將學(xué)生的天賦創(chuàng)造力釋放出來。
2.2教學(xué)質(zhì)量評(píng)估
教學(xué)質(zhì)量評(píng)估是全國每個(gè)高校定期要做的事務(wù)性工作,其目的是通過不同渠道,包括老師,同學(xué),行政部門等不同角度對(duì)教學(xué)評(píng)估,以期發(fā)現(xiàn)教學(xué)工作、管理工作中存在的各類問題,并及時(shí)地通過調(diào)整教學(xué)方案等手段來改正完善,達(dá)到提高教學(xué)質(zhì)量的目的。在教育評(píng)估系統(tǒng)中引入大數(shù)據(jù)技術(shù),不僅從時(shí)間成本上節(jié)約,更能加強(qiáng)評(píng)估的科學(xué)性,增強(qiáng)了教育數(shù)字化建設(shè)的實(shí)效性。在教學(xué)質(zhì)量評(píng)估中利用基于大數(shù)據(jù)挖掘的智能算法,我們就可以根據(jù)教師教學(xué)互動(dòng)、多媒體課件的效果、學(xué)生積極性等因素中找出其中的內(nèi)在聯(lián)系,就能為教學(xué)評(píng)估部門提供客觀的、科學(xué)的、符合實(shí)際的決策支持信息,為教師提供準(zhǔn)確的反饋信息,使之更好地開展教學(xué)工作,提高教學(xué)質(zhì)量。
2.3專業(yè)培養(yǎng)方向拓展
大數(shù)據(jù)技術(shù)是新興的,但它卻又發(fā)展迅速,朝夕之間,大數(shù)據(jù)技術(shù)應(yīng)用到了各行各業(yè),面對(duì)大數(shù)據(jù)帶來的挑戰(zhàn)與機(jī)遇,國內(nèi)各大高校根據(jù)各個(gè)行業(yè)的大數(shù)據(jù)分析,可準(zhǔn)確評(píng)估出未來幾年社會(huì)需要的專業(yè)性人才方向,如數(shù)據(jù)采樣量大,完整,還能直接分析出各個(gè)專業(yè)的需求人數(shù),從而更好地開設(shè)專業(yè)培養(yǎng)方向,適當(dāng)調(diào)整專業(yè)招收人數(shù),以免再現(xiàn)前幾年出現(xiàn)的入學(xué)時(shí),專業(yè)很火爆,到學(xué)生畢業(yè)時(shí),卻又人才過剩。
2.4分析決策
一切要拿事實(shí)說話,在做重大決策時(shí)候,我們更需要用事實(shí),用數(shù)據(jù)來參考。在實(shí)際運(yùn)用中,我們通過高校業(yè)務(wù)管理方面的專家,在不考慮數(shù)據(jù)結(jié)構(gòu)化問題的前提下,將理念累積的管理知識(shí)整理,并轉(zhuǎn)化成數(shù)據(jù)知識(shí),形成數(shù)據(jù)中心知識(shí)庫,再利用大數(shù)據(jù)技術(shù),對(duì)數(shù)據(jù)進(jìn)行收集、分類、抽取、清洗、轉(zhuǎn)換,提取出我們需要的數(shù)據(jù),以新的組合形式儲(chǔ)存到數(shù)據(jù)倉庫中。在數(shù)據(jù)倉庫的基礎(chǔ)上,建立通用的和面向主題的分析平臺(tái),實(shí)現(xiàn)從不同的維度進(jìn)行統(tǒng)計(jì)分析,最終實(shí)現(xiàn)為不同層次決策者們提供數(shù)據(jù)支持。
2.5心理咨詢
互聯(lián)網(wǎng)移動(dòng)應(yīng)用的普及,學(xué)校論壇、微博公共平臺(tái)上每天都會(huì)產(chǎn)生主題,評(píng)論等數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)的存儲(chǔ)分析,可從中分析出師生的思想情況、情感走向和行為動(dòng)態(tài),再利用這些行為動(dòng)態(tài),建立師生情感模型,便可以掌握師生的心理健康程度,有針對(duì)性地加強(qiáng)對(duì)師生的心理輔導(dǎo)。目前高校信息系統(tǒng)數(shù)據(jù)因早期規(guī)劃,數(shù)據(jù)平臺(tái)不一致等問題,普遍存在數(shù)據(jù)的質(zhì)和量都不高,許多高校的數(shù)據(jù)僅停留在記錄保存上面,對(duì)數(shù)據(jù)很難分析和利用而想要充分利用大數(shù)據(jù)技術(shù),提升高校的信息化水平,就必須要有保質(zhì)保量的數(shù)據(jù)來源,這就要求高校業(yè)務(wù)必須和計(jì)算機(jī)技術(shù)緊密結(jié)合,并且需要不斷迭代更新,跟上技術(shù)發(fā)展的腳步。目前的情況來看,高校大數(shù)據(jù)應(yīng)用還存在著一些問題,還需要進(jìn)一步地修正和探索。
參考文獻(xiàn):
[1]維克托邁爾舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州浙江人民出版社,2013
級(jí)別:北大期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊
級(jí)別:省級(jí)期刊
榮譽(yù):中國期刊全文數(shù)據(jù)庫(CJFD)
級(jí)別:北大期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫